用戶中心
· 企業(yè)空間 首頁 | 資訊 | 技術(shù) | 產(chǎn)品 | 企業(yè) | 直播 | 專題 | 智能制造 | 論壇| 在線研討會(huì)
廣州虹科電子科技有限公司
企業(yè)空間 > 新聞 > 正文
  • 德思特分享 | TS-M4i系列數(shù)字化儀利用GPU加速實(shí)現(xiàn)高效塊平均處理
  • 發(fā)布時(shí)間:2024/8/20 10:55:01   修改時(shí)間:2024/8/20 10:55:01 瀏覽次數(shù):932
  • 一、應(yīng)用背景

    塊或分段內(nèi)存平均模式常用于在不同應(yīng)用當(dāng)中,移除信號(hào)中不相干的噪聲。不管是哪家的數(shù)字化儀制造商,幾乎所有基于FPGA實(shí)現(xiàn)的塊平均模式都會(huì)受到塊或者段內(nèi)存大小的限。該限制一般取決于FPGA的容量,最大樣品量通常在32k到500k之間。

    本白皮書將展示如何使用德思特TS-M4i系列數(shù)字化儀的高速PCIe流模式來在軟件中實(shí)現(xiàn)塊平均處理,從而突破FPGA的限制。我們用了TS-M4i.2230(1通道,5 GS/s,8位垂直分辨率,1.5 GHz帶寬)作為例子,對(duì)比硬件和軟件進(jìn)行塊平均處理的效果。

    ?

    二、什么是塊平均?

    塊平均模式可以用來移除隨機(jī)噪聲成分,提高重復(fù)信號(hào)的保真度。該模式允許對(duì)多次單段采集進(jìn)行處理、累積和平均。這個(gè)過程減少了隨機(jī)噪聲,提高了重復(fù)信號(hào)的可見性,平均后的信號(hào)具有增強(qiáng)的測量分辨率和更高的信噪比(SNR)。

    塊平均模式可用于改善雷達(dá)測試、天文學(xué)、質(zhì)譜學(xué)、醫(yī)學(xué)成像、超聲波測試、光纖測試和激光測距等各種不同應(yīng)用中的測量。

    下面截圖顯示了一個(gè)較低電平的信號(hào)(大約2mV),完全被隨機(jī)噪聲覆蓋的情形,以及使用不同平均因子獲得的信號(hào)質(zhì)量改進(jìn)。雖然在原始單次采集中源信號(hào)基本無法看到,但10x平均時(shí),能顯示出實(shí)際上有5個(gè)信號(hào)峰。執(zhí)行1000x的塊平均可以進(jìn)一步改善信號(hào)質(zhì)量,揭示出帶有二次最大值和最小值峰的完整信號(hào)形狀。


    通過塊平均改善噪聲問題,該示例使用了一個(gè)500MS/s采樣率(每個(gè)采樣點(diǎn)2ns)和14位分辨率的數(shù)字化儀制作




    三、系統(tǒng)配置

    為了兼顧更多老舊設(shè)備的性能狀況,測試系統(tǒng)選用了一臺(tái)德思特公司內(nèi)的舊辦公電腦,大致配置如下:

    ● 主板:技嘉GA-H77-D3H

    ● CPU:Intel i7-3770,4核3.4 GHz

    ● 運(yùn)行內(nèi)存:8 GB DDR3

    ● 硬盤:120 GB固態(tài)

    ● 操作系統(tǒng):Win 7 64bit

    ● IDE:Visual Studio 2005標(biāo)準(zhǔn)版

    主板上有一個(gè)空閑的PCIe Gen2 x8插槽,我們就使用該插槽來插數(shù)字化儀板卡。此時(shí),德思特的TS-M4i板卡的流式傳輸可以達(dá)到滿速,約3.4 GB/s(不考慮數(shù)據(jù)處理的情況下)。



    四、軟件實(shí)現(xiàn)

    測試軟件使用純C++編寫,并基于德思特流式傳輸示例。數(shù)字化儀板卡通過外部觸發(fā)采集,板卡會(huì)自動(dòng)在每個(gè)觸發(fā)事件后獲取一段數(shù)據(jù)。數(shù)據(jù)會(huì)先存儲(chǔ)在板載內(nèi)存中,然后通過分散聚集式式DMA直接傳輸?shù)絇C的運(yùn)行內(nèi)存,并在運(yùn)行內(nèi)存中進(jìn)行累積,進(jìn)而執(zhí)行塊平均操作。我們針對(duì)不同的配置方式和優(yōu)化策略進(jìn)行了測試,來看看分別能達(dá)到什么樣的性能水平。


    摘錄出來的一小段源代碼顯示了多線程版本的主求和循環(huán),這正是軟件處理的關(guān)鍵部分,也是決定速度的部分。





    以下列表提供了具體實(shí)現(xiàn)各個(gè)方面的一些信息和備注:

    ● 數(shù)據(jù)段大?。菏盏接|發(fā)事件后將獲取數(shù)據(jù)的樣本點(diǎn)數(shù)量

    ● 平均次數(shù):對(duì)于一個(gè)數(shù)據(jù)段,在算法重置前,整個(gè)過程中需要執(zhí)行多少次平均前的累加操作。

    ● 通知大?。河布芍袛嗨璧臄?shù)據(jù)量。該參數(shù)決定了整個(gè)平均循環(huán)的速度。如果通知大小大于數(shù)據(jù)段大小,則會(huì)在一次中斷中傳輸多個(gè)數(shù)據(jù)段的內(nèi)容,這將減少線程通信和中斷處理的額外開銷。

    ● 緩沖區(qū)大?。篋MA傳輸?shù)哪繕?biāo)緩沖區(qū)整體大小。在我們的實(shí)驗(yàn)中,這個(gè)緩沖區(qū)固定等于通知大小的16倍。

    ● 觸發(fā)速率:作為外部觸發(fā)的信號(hào)發(fā)生器的信號(hào)重復(fù)頻率。在結(jié)果表格中,我們給出的是在不填滿(溢出)緩沖區(qū)的情況下可以達(dá)到的最大觸發(fā)速率。

    ● 線程數(shù):為了加快求和過程,我們對(duì)該任務(wù)進(jìn)行并行化優(yōu)化,將其分割成多個(gè)不同的軟件線程。如果線程為1,則表示求和過程不使用額外線程,而是直接在主循環(huán)中直接執(zhí)行。

    ● CPU負(fù)載:由于平均過程是用軟件完成的,具體來說就是CPU進(jìn)行了所有的工作。幸好現(xiàn)代CPU往往包含多個(gè)內(nèi)核,我們實(shí)際上可以輕松地在它們之間共享工作任務(wù)。

    ● SSE/SSE2指令:乍一看,這些命令似乎非常適合并行化求和過程,并似乎可以在不需要任何線程編程的情況下加快軟件的速度。但不幸的是,SSE命令集都是基于相同類型的數(shù)據(jù)的,而由于獲取的數(shù)據(jù)是8bit寬度,而平均緩沖區(qū)是32位寬,因此在本例中無法利用該指令集進(jìn)行加速。


    五、效果和比較

    所有的測量都是使用一個(gè)采樣率高達(dá)5GS/s、垂直分辨率為8位,并且?guī)в型獠坑|發(fā)通道的數(shù)字化儀進(jìn)行的。我們?cè)诒砀裰羞€列出了不同的程序配置以對(duì)比效果差異。


    通過普通(性能偏低的)PC在時(shí)域上進(jìn)行塊平均的性能對(duì)比





    六、新方法:使用CUDA進(jìn)行平均運(yùn)算

    2018年11月,德思特推出了一些使用SCAPP(通過CUDA訪問數(shù)據(jù)和并行處理)選項(xiàng)進(jìn)行塊平均的示例,適用于非常高速的數(shù)據(jù)處理。其基本概念與前文所述相同,即數(shù)據(jù)由數(shù)字化儀采集并通過PCIe總線連續(xù)傳輸。不同之處在于,平均值的計(jì)算操作不是由CPU完成,而是在GPU中完成。GPU解決方案的一個(gè)主要優(yōu)點(diǎn)在于,GPU本身就是為并行計(jì)算而設(shè)計(jì),這使GPU成為各種類型的塊平均運(yùn)算的理想選擇。

    在實(shí)現(xiàn)上,SCAPP允許用戶直接將數(shù)據(jù)傳送到GPU,這使用了RDMA(遠(yuǎn)程直接內(nèi)存存?。┘夹g(shù),然后可以在GPU上執(zhí)行高速時(shí)域和頻域信號(hào)的平均,并突破通常在CPU和FPGA中出現(xiàn)的數(shù)據(jù)長度或算力限制。

    比如,TS-M4i.2220數(shù)字化儀可以以2.5 GS/s的速度連續(xù)采樣信號(hào),我們可以做到在不丟失樣品點(diǎn)的情況下,進(jìn)行長達(dá)數(shù)秒的平均運(yùn)算。類似地,我們還有14位垂直分辨率的TS-M4i.4451數(shù)字化儀可以以450 MS/s的速度同時(shí)對(duì)四個(gè)通道的信號(hào)進(jìn)行同一功能的采樣。數(shù)字化儀板卡還提供了靈活的觸發(fā)、捕獲和讀出模式設(shè)置,從而使它們能夠在觸發(fā)速率極高的情況采回原始信號(hào),進(jìn)而做平均處理。相比之下,F(xiàn)PGA方案需要最高性能級(jí)別的FPGA來同時(shí)滿足數(shù)據(jù)拉取和平均運(yùn)算,而GPU方案則可以輕松跑滿數(shù)字化儀的全速,即使是使用入門級(jí)GPU也不會(huì)成為瓶頸。

    以下表格展示了使用GPU,并在和之前表格中板卡參數(shù)相同的情況下的測試結(jié)果:


    在時(shí)域上使用GPU進(jìn)行塊平均的測試結(jié)果



    這些結(jié)果是在使用一張Quadro P2000 GPU獲得的。如表所示,數(shù)據(jù)段大小和通知大小并未限制性能,我們遇到唯一限制的瓶頸是GPU內(nèi)存(顯存)。



    七、使用GPU進(jìn)行頻域平均

    在需要進(jìn)行頻域平均的情況下,也建議使用GPU,因?yàn)镚PU允許比FPGA方案更大的平均塊大小。頻域的平均運(yùn)算過程包含兩個(gè)步驟,一個(gè)是針對(duì)塊數(shù)據(jù)的FFT運(yùn)算,另一個(gè)是對(duì)FFT結(jié)果求和(然后取平均)。其中FFT計(jì)算在處理能力方面要求非常高,因此對(duì)于頻率域平均而言,除了FPGA外,GPU是唯一的可行方案,CPU并不適合在高速下進(jìn)行FFT轉(zhuǎn)換。

    以下表格顯示了使用最大采樣率為500 MS/s的TS-M4i.4451數(shù)字化儀(4通道,14位垂直分辨率)的一些測試結(jié)果。最終表明該方案能高效地實(shí)現(xiàn)無間隙數(shù)據(jù)采集,將每個(gè)塊中的原始數(shù)據(jù)轉(zhuǎn)換為對(duì)應(yīng)電壓值,然后再轉(zhuǎn)換至頻率域做平均。


    使用GPU進(jìn)行頻率域塊平均的測試結(jié)果



    八、結(jié)論

    如上述結(jié)果所示,只要重復(fù)率不算太高,得益于PCIe總線的高速數(shù)據(jù)傳輸率,使用基于CPU的軟件在進(jìn)行塊平均時(shí),可以實(shí)現(xiàn)比FPGA更大的總數(shù)據(jù)段大小,從而平均更長時(shí)間的樣本;而使用GPU時(shí),更是可以達(dá)到PCIe總線傳輸所限制的上限速度。對(duì)于需要處理更高重復(fù)觸發(fā)率的情況,會(huì)對(duì)總線傳輸速度提出更高的要求,此時(shí)基于FPGA硬件的塊平均仍將是最佳選擇。

    上述測試程序也可以提供給您,以便您自己進(jìn)行重復(fù)測試,或者作為實(shí)現(xiàn)其他軟件程序的基礎(chǔ)。其中GPU示例是SCAPP軟件選項(xiàng)的一部分,在選購后,德思特的客戶可按照NDA協(xié)議使用。

    總的來說,通知大小設(shè)為1 MByte時(shí),可獲得最佳性能。具體執(zhí)行的平均次數(shù)對(duì)測試性能并沒有明顯的影響。因?yàn)閺?fù)制結(jié)果段和清除結(jié)果緩沖所需的時(shí)間相對(duì)于樣本求和運(yùn)算而言微不足道。

    由于在同時(shí)采集多個(gè)通道時(shí),整個(gè)的數(shù)據(jù)處理和求和過程并沒有本質(zhì)區(qū)別,因此只需等價(jià)成一個(gè)把所有數(shù)據(jù)都合并到一起的新通道即可(等效采樣率= 每通道采樣率 × 通道數(shù))。以下設(shè)置對(duì)應(yīng)的最大觸發(fā)速率完全相同:

    ● 1通道5 GS/s @ 數(shù)據(jù)段大小S1

    ● 2通道2.5 GS/s @ 數(shù)據(jù)段大小S1/2

    ● 4通道1.25 GS/s @ 數(shù)據(jù)段大小S1/4

    將采樣速度降低到2.5 GS/s時(shí),可以在理論上使軟件針對(duì)1個(gè)通道執(zhí)行平均運(yùn)算的速度最大化。對(duì)于1 M樣本點(diǎn)的數(shù)據(jù)段大小,外加死區(qū)長度為160個(gè)樣本點(diǎn)時(shí),理論上的最大觸發(fā)速率為:(2.5 GS/s) / (1 MS+ 160 S) = 2.38 kHz。

    注意,這確實(shí)會(huì)明顯低于單純采集時(shí)的最大觸發(fā)速率:2.9 kHz @ 5 GS/s。

  • 企業(yè)介紹
虹科電子科技有限公司(前身是宏科)成立于1995年,總部位于中國南方經(jīng)濟(jì)和文化中心-廣州。目前在上海、北京、西安、成都、蘇州、臺(tái)灣、香港等城市設(shè)有分部,在韓國、日本設(shè)有海外分公司。同時(shí),為了實(shí)現(xiàn)本地服務(wù),特在以下工業(yè)城市設(shè)立銷售代…  更多>>
  • 聯(lián)系方式

廣州虹科電子科技有限公司

聯(lián)系人:虹小科

地址:廣州市黃埔區(qū)開泰大道30號(hào)佳都PCI科技園6號(hào)樓1-7層

郵編:510700

電話:13412598543

傳真:020-38743233

公司網(wǎng)址:http://www.hkaco.com

  • 該空間手機(jī)版

掃描此二維碼即可訪問該空間手機(jī)版

  • 在線反饋
1.我有以下需求:



2.詳細(xì)的需求:
姓名:
單位:
電話:
郵件:
您還沒有登錄,請(qǐng)登陸,
如果您還沒有注冊(cè),點(diǎn)擊這里注冊(cè).
  • 網(wǎng)友反饋
  • 王江英 在2024/9/3 15:42:00留言
  • 留言類型:我讓貴公司產(chǎn)品銷售人員聯(lián)系我,
  • 詳細(xì)留言:想了解深度攝像機(jī),包括兩個(gè)紅外相機(jī)(IR Stereo Camera)、一個(gè)紅外激光發(fā)射器(IR Projector)、一個(gè)彩色相機(jī)(Color Camera)以及一個(gè)IMU(慣性測量單元);深度分辨率及幀率不小于720P@30FPS/深度感知范圍0.3-3米/usb3.1/,應(yīng)用于叉車軌跡計(jì)算。
  • 鄺生 在2023/11/28 12:58:00留言
  • 留言類型:得到貴公司產(chǎn)品詳細(xì)資料,得到貴公司產(chǎn)品的價(jià)格信息,
  • 詳細(xì)留言:想了解溫控廂式貨車,做車廂的溫度分布驗(yàn)證
  • 郝先生 在2023/9/3 15:18:00留言
  • 留言類型:我想得到貴公司產(chǎn)品詳細(xì)資料,我讓貴公司技術(shù)支持人員聯(lián)系我,
  • 詳細(xì)留言:虹科AI深度相機(jī)
  • 魯鋼 在2023/6/27 14:14:00留言
  • 留言類型:我想得到貴公司產(chǎn)品詳細(xì)資料,我想得到貴公司產(chǎn)品的價(jià)格信息,
  • 詳細(xì)留言:您好我是做非標(biāo)自動(dòng)化控制的,想了解貴公司HMI_PLC一體機(jī)產(chǎn)品
  • 莫先生 在2022/9/13 14:10:00留言
  • 留言類型:我想得到貴公司產(chǎn)品的價(jià)格信息,
  • 詳細(xì)留言:密度傳感器和粘度傳感器的技術(shù)資料和價(jià)格信息
更多請(qǐng)進(jìn)入空間管理中心查看
關(guān)于我們 | 網(wǎng)站地圖 | 聯(lián)系我們
© 2003-2018    經(jīng)營許可編號(hào):京ICP證120335號(hào)
公安機(jī)關(guān)備案號(hào):110102002318  服務(wù)熱線:010-82053688
我要反饋