• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      海量GPR檢測數(shù)據(jù)負(fù)載均衡并行處理技術(shù)

      2022-09-05 09:05:52杜翠程遠(yuǎn)水張千里
      鐵道建筑 2022年8期
      關(guān)鍵詞:粒度集群濾波

      杜翠 程遠(yuǎn)水 張千里

      1.中國鐵道科學(xué)研究院集團(tuán)有限公司鐵道建筑研究所,北京 100081;

      2.中國鐵道科學(xué)研究院集團(tuán)有限公司高速鐵路軌道技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,北京 100081

      探地雷達(dá)(Ground Penetrating Radar,GPR)是一種快速、無損、高效的地球物理探測方法,廣泛應(yīng)用于交通設(shè)施檢測、地質(zhì)勘察、環(huán)境工程等領(lǐng)域。作為一種高效的淺層地球物理檢測技術(shù),GPR以高頻或超高頻電磁波為信息載體,利用不同介電常數(shù)傳播介質(zhì)之間的界面對電磁波的反射特性和傳播速度變化規(guī)律,對目標(biāo)物進(jìn)行探測和定位,具有連續(xù)探測和實(shí)時(shí)顯示的特點(diǎn)[1]。GPR技術(shù)是鐵路路基、隧道等基礎(chǔ)設(shè)施檢測的重要手段[2-4]。隨著鐵路運(yùn)營里程的迅速增長,GPR數(shù)據(jù)量呈指數(shù)增長趨勢。實(shí)現(xiàn)快速、智能的海量GPR數(shù)據(jù)處理與智能識別,為鐵路智能檢測監(jiān)測提供技術(shù)支撐。

      GPR數(shù)據(jù)處理技術(shù)在處理中小尺度數(shù)據(jù)集上已經(jīng)相對成熟。但這些技術(shù)絕大部分基于單計(jì)算節(jié)點(diǎn),涉及的算法往往高度串行化[5-6]。此外,已有的實(shí)現(xiàn)方法多基于傳統(tǒng)的單機(jī)計(jì)算機(jī)體系結(jié)構(gòu)和計(jì)算模型,完全無法適用于當(dāng)前大內(nèi)存、多源異構(gòu)、高度并行化的硬件架構(gòu)體系。新一代高性能硬件架構(gòu)體系的快速發(fā)展,給海量GPR數(shù)據(jù)快速處理的開展創(chuàng)造了新的機(jī)遇。目前,由于地震數(shù)據(jù)規(guī)模較大,已開展了較多基于集群模式的算法并行化研究[7-9],采用了CPU并行、CPU+GPU異構(gòu)并行、Hadoop等技術(shù)。大量高精度、大區(qū)域的GPR檢測數(shù)據(jù)可以利用并行技術(shù)進(jìn)行處理,極大提高處理效率[10-12]。

      本文提出海量GPR數(shù)據(jù)的分布式存儲方法,適應(yīng)多種文件組成結(jié)構(gòu),提高數(shù)據(jù)I/O效率,研究具有較強(qiáng)適應(yīng)性和較高擴(kuò)展性的負(fù)載均衡并行技術(shù),建立面向數(shù)據(jù)并行+算法并行的混合并行計(jì)算模式。

      1 GPR數(shù)據(jù)分布式存儲方法

      以高容錯(cuò)性為特點(diǎn)的分布式文件系統(tǒng)HDFS(Hadoop Distributed File System)可以利用大量廉價(jià)PC機(jī)組建成一個(gè)來存儲超大文件的集群文件系統(tǒng)。當(dāng)一臺服務(wù)器的存儲容量已經(jīng)不能承載需要儲存的數(shù)據(jù)集時(shí),數(shù)據(jù)集會被分成多個(gè)塊以分布存儲在機(jī)架的各個(gè)服務(wù)器上。在進(jìn)行數(shù)據(jù)存儲時(shí),HDFS是以數(shù)據(jù)流的方式寫入的,在實(shí)現(xiàn)分布式存儲的同時(shí)還具有一次寫入、多次讀取的高效訪問模式。

      GPR原始數(shù)據(jù)為非結(jié)構(gòu)化的特定文件格式,如意大利IDS雷達(dá)的*.dt格式,中國礦業(yè)大學(xué)(北京)GR雷達(dá)的*.gpr、*.raw、*.dat格式等。這些文件格式的共同點(diǎn)在于采用二進(jìn)制存儲,分為文件頭和數(shù)據(jù)道2部分,數(shù)據(jù)道的道頭也包含特定的標(biāo)記信息。在本文研究中,為適應(yīng)HDFS分塊存儲的模式,將文件頭信息存入關(guān)系型數(shù)據(jù)庫MySQL中,數(shù)據(jù)道則分塊存儲到HDFS中。

      2 混合并行計(jì)算模型

      2.1 計(jì)算任務(wù)拆分方法

      探地雷達(dá)數(shù)據(jù)劃分的主要目的是將待處理的探地雷達(dá)數(shù)據(jù)合理、均衡地劃分給計(jì)算環(huán)境包含的所有計(jì)算節(jié)點(diǎn),使得不同計(jì)算節(jié)點(diǎn)承擔(dān)的計(jì)算任務(wù)量大體相當(dāng),從而在并行計(jì)算開始前盡可能保證負(fù)載均衡。數(shù)據(jù)劃分策略的有效性體現(xiàn)在:各計(jì)算節(jié)點(diǎn)分配的數(shù)據(jù)盡可能不相交,具有較小的劃分時(shí)間消耗比例及均衡的任務(wù)量分配比例。如果以原始文件為拆分顆粒度,有時(shí)導(dǎo)致單個(gè)計(jì)算單元過大,且無法動態(tài)調(diào)整,從而不能實(shí)現(xiàn)并行計(jì)算過程中的負(fù)載均衡。

      首先,確定不同算法類型包含的數(shù)據(jù)粒度。探地雷達(dá)的數(shù)據(jù)特點(diǎn)在于各道數(shù)據(jù)間無依賴關(guān)系,可根據(jù)道號進(jìn)行切分。根據(jù)不同算法原理,可將GPR信號處理算法中的數(shù)據(jù)粒度設(shè)置為單道A-scan較小的B-scan。假如以B-scan為計(jì)算單元,則應(yīng)注意源文件大小或者分布式存儲單塊數(shù)據(jù)量應(yīng)為B-scan大小的整數(shù)倍,以適應(yīng)數(shù)據(jù)邊界。

      然后,將算法按計(jì)算步驟合理拆分為子任務(wù)。從數(shù)據(jù)起點(diǎn)開始,沿里程方向逐個(gè)數(shù)據(jù)粒度移動,在各個(gè)數(shù)據(jù)粒度內(nèi)按照規(guī)則對各個(gè)計(jì)算單元進(jìn)行各個(gè)子任務(wù)的處理,從而完成全部計(jì)算。當(dāng)數(shù)據(jù)粒度為B-scan時(shí),假如單個(gè)節(jié)點(diǎn)劃分的數(shù)據(jù)量過大,容易產(chǎn)生物理內(nèi)存不足的情況,從而導(dǎo)致其他節(jié)點(diǎn)等待,無法實(shí)現(xiàn)負(fù)載均衡。

      因此,在任務(wù)拆分時(shí),應(yīng)驗(yàn)證集群內(nèi)存資源是否滿足數(shù)據(jù)粒度×節(jié)點(diǎn)數(shù)量的需求,從而得出數(shù)據(jù)粒度的最大閾值,并保留一定的冗余空間。

      采用Hadoop平臺的MapReduce并行計(jì)算框架。MapReduce封裝了并行處理、容錯(cuò)處理、數(shù)據(jù)本地化優(yōu)化、負(fù)載均衡等技術(shù)難點(diǎn)的細(xì)節(jié),這使得MapReduce庫易于使用。MapReduce處理數(shù)據(jù)流如圖1所示。數(shù)據(jù)流首先進(jìn)行分片,與HDFS的分塊大小一致,然后每個(gè)分片會分配給用戶定義的map方法進(jìn)行處理(通過JNI調(diào)用dsp_alg),之后針對reduce的數(shù)量產(chǎn)生對應(yīng)的輸出分片,得到map方法輸出的<key,value>對后,把相同key值相同的放到一起,最后輸出結(jié)果。

      圖1 MapReduce處理數(shù)據(jù)流

      2.2 動態(tài)負(fù)載均衡方法

      Hadoop平臺中以Slot作為計(jì)算資源的分配單位,map任務(wù)和reduce任務(wù)都是在Slot上運(yùn)行。Slot可以理解為單位計(jì)算資源,與CPU對應(yīng)。由于存在數(shù)據(jù)傾斜或者計(jì)算傾斜,每個(gè)任務(wù)的運(yùn)行時(shí)間不同,可能會出現(xiàn)某個(gè)Slot任務(wù)完成空閑了,而其他的Slot上還有大量的任務(wù)沒有完成。顯而易見,如果此時(shí)能夠把其他Slot的任務(wù)放到這個(gè)Slot上來運(yùn)行會大大提高系統(tǒng)的資源使用率,同時(shí)能夠提升任務(wù)的處理效率及系統(tǒng)的吞吐量。

      解決方法整體上分靜態(tài)負(fù)載均衡和動態(tài)負(fù)載均衡兩類。靜態(tài)負(fù)載均衡大多是進(jìn)行算法優(yōu)化,改變用戶程序,使得整個(gè)作業(yè)的執(zhí)行時(shí)間盡可能降低。這樣的負(fù)載均衡一般都是需要對于當(dāng)前的作業(yè)任務(wù)、輸入數(shù)據(jù)特征和各個(gè)機(jī)器節(jié)點(diǎn)資源有先驗(yàn)知識。

      相比于靜態(tài)負(fù)載均衡,動態(tài)負(fù)載均衡不需要改變用戶的應(yīng)用代碼,也不要針對不同的輸入數(shù)據(jù)做算法定制優(yōu)化,系統(tǒng)能夠自動地完成均衡工作。動態(tài)負(fù)載均衡關(guān)注的是Slot的空閑與否,在運(yùn)行時(shí)根據(jù)當(dāng)前運(yùn)行狀況做出負(fù)載分配決策。當(dāng)系統(tǒng)中出現(xiàn)空閑Slot時(shí),從正在運(yùn)行的task中挑選一個(gè)作為Straggler,即系統(tǒng)中節(jié)點(diǎn)的任務(wù),從計(jì)算任務(wù)重的Slot中遷移一部分任務(wù)到空閑Slot中。

      3 試驗(yàn)與分析

      為驗(yàn)證本文提出的GPR數(shù)據(jù)并行處理方法的應(yīng)用效果,利用某線路路基檢測數(shù)據(jù)進(jìn)行測試。測試數(shù)據(jù)集由5個(gè)40 000道數(shù)據(jù)的雷達(dá)文件組成,執(zhí)行的算法工作流包含背景去噪、增益、一維濾波、二維濾波、滑動平均共5個(gè)步驟。Hadoop集群測試環(huán)境見表1,由9個(gè)節(jié)點(diǎn)組成,其中1個(gè)節(jié)點(diǎn)為主節(jié)點(diǎn),8個(gè)節(jié)點(diǎn)為計(jì)算節(jié)點(diǎn)。

      表1 Hadoop集群測試環(huán)境

      3.1 并行顆粒度測試

      將計(jì)算任務(wù)拆分為不同大小的顆粒度,計(jì)算效率見圖2。可知:當(dāng)最小顆粒度為單個(gè)原始文件(40 000道)時(shí),共耗時(shí)9 min 42 s。將雷達(dá)文件采用本文方法進(jìn)行分布式存儲,以支撐任意大小道集的并行顆粒度,切片道數(shù)從640到3 200,計(jì)算耗時(shí)變化不大,為1 min 13 s~1 min 31 s。通過對并行顆粒度進(jìn)一步細(xì)分,大幅優(yōu)化了計(jì)算性能,提升了集群資源的利用率。

      圖2 不同顆粒度并行的計(jì)算效率對比

      3.2 負(fù)載均衡測試

      對本文采用的動態(tài)負(fù)載均衡效果進(jìn)行測試,測試結(jié)果見表2。可知:場景1設(shè)置全部節(jié)點(diǎn)執(zhí)行1次二維濾波算法,耗時(shí)31 min27 s;場景2設(shè)置全部節(jié)點(diǎn)執(zhí)行2次二維濾波算法,耗時(shí)60 min17 s,約為場景1的1.92倍。場景3設(shè)置1/2的計(jì)算節(jié)點(diǎn)(A類)執(zhí)行1次二維濾波算法,1/2的計(jì)算節(jié)點(diǎn)(B類)執(zhí)行2次二維濾波算法。假如采用靜態(tài)負(fù)載均衡,將數(shù)據(jù)平均分配至各節(jié)點(diǎn),則B類節(jié)點(diǎn)耗時(shí)將約為A類節(jié)點(diǎn)的2倍,最后運(yùn)行時(shí)間與場景2近似,很明顯這種情況下A類節(jié)點(diǎn)的算力未充分利用。采用本文設(shè)計(jì)的動態(tài)負(fù)載均衡方法,將會有2/3的數(shù)據(jù)流轉(zhuǎn)到A類節(jié)點(diǎn),1/3的數(shù)據(jù)流轉(zhuǎn)到B類節(jié)點(diǎn),使得所有節(jié)點(diǎn)的計(jì)算量大致相等。場景3耗時(shí)42 min 6 s,約為場景1的1.34倍,達(dá)到了很好的負(fù)載均衡效果。

      表2 負(fù)載均衡測試結(jié)果

      3.3 進(jìn)程數(shù)測試

      對10 GB數(shù)據(jù)運(yùn)行二維濾波算法,計(jì)算時(shí)間與加速比見圖3。可知:當(dāng)進(jìn)程數(shù)小于物理核數(shù)16時(shí),啟動的進(jìn)程數(shù)加倍,計(jì)算耗時(shí)減少接近1/2。當(dāng)進(jìn)程數(shù)大于物理核數(shù)時(shí),計(jì)算性能只有微小的提升。通過測試集群,在8臺物理服務(wù)器計(jì)算集群上多進(jìn)程并行可以使二維濾波性能提升100倍左右(相對于單機(jī)單進(jìn)程)。通過8臺服務(wù)器一共8×16核=128核,可知集群并行本身框架調(diào)度數(shù)據(jù)讀寫等有一定的消耗,并不能完全達(dá)到實(shí)際核數(shù)使用上的性能翻倍。鑒于集群并行計(jì)算環(huán)境為Linux,并不運(yùn)行其他軟件,故可以按照實(shí)際物理核數(shù)來設(shè)置單服務(wù)器的并行數(shù),以獲取最大的性能加速比。

      圖3 二維濾波并行計(jì)算時(shí)間與加速比

      4 結(jié)語

      隨著鐵路運(yùn)營里程的快速增長以及檢測頻次的增加,路基、隧道等基礎(chǔ)設(shè)施探地雷達(dá)檢測數(shù)據(jù)量呈指數(shù)增長,傳統(tǒng)的單機(jī)處理模式無法滿足時(shí)效性要求。本文設(shè)計(jì)了GPR數(shù)據(jù)的分布式存儲方法,采用Hadoop平臺的MapReduce并行計(jì)算框架,基于動態(tài)負(fù)載均衡方法建立了混合并行計(jì)算模型,并搭建了9節(jié)點(diǎn)集群環(huán)境進(jìn)行了測試試驗(yàn)。對并行顆粒度進(jìn)一步細(xì)分大幅優(yōu)化了計(jì)算性能,在模擬迭代算法場景下取得了較好的負(fù)載均衡效果,服務(wù)器的進(jìn)程數(shù)可按照實(shí)際物理核數(shù)設(shè)置,以獲取最大的加速比。在未來的研究中,將探究各類算法的細(xì)粒度拆分方法,進(jìn)一步完善數(shù)據(jù)+算法的混合并行計(jì)算模式。

      猜你喜歡
      粒度集群濾波
      粉末粒度對純Re坯顯微組織與力學(xué)性能的影響
      基于矩陣的多粒度粗糙集粒度約簡方法
      海上小型無人機(jī)集群的反制裝備需求與應(yīng)對之策研究
      一種無人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
      電子制作(2018年11期)2018-08-04 03:25:40
      Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
      勤快又呆萌的集群機(jī)器人
      基于粒度矩陣的程度多粒度粗糙集粒度約簡
      RTS平滑濾波在事后姿態(tài)確定中的應(yīng)用
      基于線性正則變換的 LMS 自適應(yīng)濾波
      遙測遙控(2015年2期)2015-04-23 08:15:18
      基于隨機(jī)加權(quán)估計(jì)的Sage自適應(yīng)濾波及其在導(dǎo)航中的應(yīng)用
      岑溪市| 大同县| 高雄市| 栖霞市| 永川市| 望城县| 洞口县| 无极县| 双牌县| 耒阳市| 高要市| 齐齐哈尔市| 慈溪市| 迁安市| 大宁县| 保亭| 扶余县| 自贡市| 临高县| 鞍山市| 叶城县| 常熟市| 西林县| 洞口县| 本溪市| 八宿县| 吐鲁番市| 和林格尔县| 定安县| 武夷山市| 罗江县| 辽宁省| 长丰县| 吉安市| 嵩明县| 会宁县| 阿合奇县| 永善县| 金塔县| 汉源县| 彰化市|