• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大規(guī)模結(jié)構(gòu)網(wǎng)格數(shù)據(jù)的相關(guān)性統(tǒng)計(jì)建模輕量化方法

      2023-03-27 13:39:38汪云海
      關(guān)鍵詞:互信息信息熵直方圖

      楊 陽 武 昱 汪云海 曹 軼,3

      1(北京應(yīng)用物理與計(jì)算數(shù)學(xué)研究所 北京 100094)

      2(山東大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 山東青島 266237)

      3(中物院高性能數(shù)值模擬軟件中心 北京 100088)

      大規(guī)模數(shù)值模擬是科學(xué)發(fā)現(xiàn)與工程設(shè)計(jì)不可或缺的關(guān)鍵手段,高置信度的數(shù)據(jù)可視分析對(duì)大規(guī)模數(shù)值模擬至關(guān)重要[1].隨著高性能計(jì)算機(jī)的峰值性能的快速提升,為了精細(xì)模擬所研究問題的復(fù)雜特征,以盡可能高的計(jì)算效率將計(jì)算能力集中在問題的最關(guān)鍵部分,科學(xué)家常采用如圖1 所示的非均勻分解的自適應(yīng)網(wǎng)格,導(dǎo)致大規(guī)模多塊數(shù)據(jù)的生成.然而,硬件存儲(chǔ)瓶頸導(dǎo)致可視分析應(yīng)用獲取原始高分辨率數(shù)據(jù)越來越困難[2],大規(guī)模數(shù)值模擬應(yīng)用先保存原始計(jì)算結(jié)果再進(jìn)行事后可視分析的可行性不斷降低.因此,數(shù)據(jù)約減勢(shì)在必行.

      Fig.1 Adaptive mesh refinement圖1 自適應(yīng)網(wǎng)格

      基于統(tǒng)計(jì)建模的數(shù)據(jù)輕量化方法[3-8]是一種主流的數(shù)據(jù)約減方法,它采用緊湊型的分布數(shù)據(jù)表達(dá),替代傳統(tǒng)的3 維網(wǎng)格數(shù)據(jù)表達(dá),可以實(shí)現(xiàn)數(shù)值模擬數(shù)據(jù)規(guī)模的大幅約減,便于高效的事后可視分析[9-14].常用的分布數(shù)據(jù)表達(dá)有直方圖(histogram)和高斯混合模型(Gaussian mixture model,GMM)[15-17].

      然而,基于統(tǒng)計(jì)建模的數(shù)據(jù)輕量化方法的重建精度低,可視化不確定性高.主要原因是此類方法與數(shù)值并行區(qū)域分解策略產(chǎn)生的多塊拼接網(wǎng)格數(shù)據(jù)的不適配性.因此,此類方法通常需要首先對(duì)原有的多塊拼接網(wǎng)格數(shù)據(jù)進(jìn)行合并;然后根據(jù)可視化的同質(zhì)性需求,采用更適合可視分析方法的區(qū)域分解策略對(duì)合并數(shù)據(jù)進(jìn)行重分,保證單塊網(wǎng)格數(shù)據(jù)具有較小的數(shù)值梯度;最后,采用統(tǒng)計(jì)分布模型對(duì)每個(gè)數(shù)據(jù)塊進(jìn)行特征建模和可視分析.在大規(guī)模數(shù)值模擬場(chǎng)景下,這種建模方法會(huì)引起性能瓶頸和建模不確定2方面的問題[18].首先,數(shù)據(jù)合并與數(shù)據(jù)重分,將引起全局?jǐn)?shù)據(jù)通信和高性能計(jì)算機(jī)節(jié)點(diǎn)間的大量數(shù)據(jù)遷移,導(dǎo)致顯著的性能瓶頸問題.其次,不恰當(dāng)?shù)膮^(qū)域分解策略或統(tǒng)計(jì)分布模型,均會(huì)導(dǎo)致數(shù)據(jù)統(tǒng)計(jì)特征的丟失,進(jìn)而增加可視分析的不確定性.能夠適配數(shù)值并行區(qū)域分解策略的高精度統(tǒng)計(jì)建模與可視分析方法,仍有待開展研究.

      為此,本文提出了一種大規(guī)模結(jié)構(gòu)網(wǎng)格數(shù)據(jù)的相關(guān)性統(tǒng)計(jì)建模輕量化方法,其創(chuàng)新點(diǎn)有2 個(gè)方面:

      1)提出了一種數(shù)據(jù)塊間的相關(guān)性統(tǒng)計(jì)建模方法.在計(jì)算各單塊網(wǎng)格數(shù)據(jù)的數(shù)值分布和空間分布后,利用信息熵與互信息表征數(shù)據(jù)塊間的相關(guān)性,指導(dǎo)鄰接數(shù)據(jù)塊的統(tǒng)計(jì)建模.該方法通過耦合數(shù)據(jù)塊的數(shù)值分布信息、空間分布信息和相關(guān)性信息,能夠顯著提升重建精度,降低可視化的不確定性.

      2)本文方法保持初始數(shù)據(jù)分塊不變,不需要對(duì)原始數(shù)據(jù)進(jìn)行全局合并與重分,從而顯著減少不同并行計(jì)算節(jié)點(diǎn)間的通信開銷,降低計(jì)算成本.

      實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有方法相比,本文方法節(jié)省了數(shù)據(jù)合并與重分的計(jì)算成本,在獲得更高重建精度的同時(shí),將數(shù)據(jù)存儲(chǔ)成本降低了約1 個(gè)數(shù)量級(jí).

      1 相關(guān)工作

      1.1 網(wǎng)格數(shù)據(jù)壓縮編碼方法

      壓縮編碼是傳統(tǒng)常用的網(wǎng)格數(shù)據(jù)約減方法,分為無損和有損2 種壓縮策略,但它很難適用于具有浮點(diǎn)數(shù)特征的數(shù)值模擬數(shù)據(jù).例如,采用行程編碼[19-20]、bZIP[21]等無損壓縮算法,很難將數(shù)據(jù)壓縮比提升到一個(gè)數(shù)量級(jí).有損壓縮則是相對(duì)有效的科學(xué)數(shù)據(jù)壓縮途徑.例如,幾何驅(qū)動(dòng)的靜態(tài)有損壓縮方法,它涉及網(wǎng)格頂點(diǎn)位置量化、預(yù)測(cè)、熵編碼3 個(gè)主要處理階段[22].面向不斷增大的數(shù)據(jù)規(guī)模,漸近網(wǎng)格壓縮方法逐漸成為研究熱點(diǎn),衍生出基于八叉樹的漸近編碼[23]、小波編碼[24]、幾何圖像編碼[25]等相關(guān)研究.但是,有損壓縮算法無法在較大數(shù)據(jù)壓縮比的前提下,同時(shí)高精度地保留原始高分辨數(shù)據(jù)的物理特征.

      1.2 特征提取方法

      特征提取方法使用特征數(shù)據(jù)替代原始數(shù)據(jù)場(chǎng),從而實(shí)現(xiàn)數(shù)據(jù)輕量化.物理特征的定義形式包括等值面、流線、條紋線、矢量場(chǎng)拓?fù)洹u管、裂縫、斷層線等.針對(duì)3 維數(shù)據(jù)場(chǎng),目前通常采用“基于iso-value指定的等值數(shù)據(jù)范圍”和“基于體繪制傳遞函數(shù)指定的不透明度到數(shù)值范圍的映射”等方法進(jìn)行空間特征提取.Tzeng 等人[26]使用標(biāo)量值、梯度值和空間位置坐標(biāo)訓(xùn)練傳遞函數(shù),用于數(shù)據(jù)特征識(shí)別.Kindlmann等人[27]利用曲面曲率對(duì)數(shù)據(jù)樣本進(jìn)行特征分類.Tenginakai 等人[28]通過鄰域統(tǒng)計(jì)信息定義數(shù)據(jù)等值面特征.Hladuvka 等人[29-30]借助等值面實(shí)現(xiàn)數(shù)據(jù)特征分離.但是,上述特征提取方法均依賴個(gè)性化特征定義,其普適性弱.

      1.3 基于統(tǒng)計(jì)建模的數(shù)據(jù)輕量化方法

      基于統(tǒng)計(jì)建模的數(shù)據(jù)輕量化方法,是目前有望解決大規(guī)模數(shù)據(jù)存儲(chǔ)瓶頸的一種最新數(shù)據(jù)約減途徑.它采用緊湊的分布數(shù)據(jù)表達(dá),可以極大降低高分辨數(shù)據(jù)存儲(chǔ)量,同時(shí)還能較好地保持?jǐn)?shù)據(jù)蘊(yùn)含的物理特征.Thompson 等人[15]使用直方圖近似表示網(wǎng)格數(shù)據(jù)等值面.Wei 等人[13]提出了一種基于直方圖的有效算法來搜索數(shù)據(jù)局部區(qū)域的相似分布.Liu 等人[16]和Dutta 等人[17]則使用GMM 對(duì)數(shù)據(jù)信息進(jìn)行緊湊表達(dá).然而這類方法的一個(gè)關(guān)鍵缺點(diǎn)是,其忽略了數(shù)據(jù)的空間分布信息,并最終導(dǎo)致基于統(tǒng)計(jì)建模方法的重建數(shù)據(jù)精度低,不確定性高.針對(duì)這一問題,Wang等人[31]提出了一種基于空間分布的數(shù)據(jù)輕量化方法,它使用直方圖建模數(shù)值信息,GMM 建??臻g分布信息,利用貝葉斯準(zhǔn)則結(jié)合這2 類分布模型,最終顯著提升重建數(shù)據(jù)精度.然而,受限于大規(guī)模數(shù)值模擬復(fù)雜的并行特征,文獻(xiàn)[13,15-17,31]所述的輕量化方法無法直接適配多塊拼接網(wǎng)格數(shù)據(jù).因此,在大規(guī)模數(shù)值模擬場(chǎng)景下,這些方法勢(shì)必會(huì)引起性能和建模不確定2 方面的問題.

      1.4 相關(guān)性建模方法

      現(xiàn)有的統(tǒng)計(jì)可視分析方法難以適應(yīng)多塊拼接數(shù)值模擬數(shù)據(jù),無法在數(shù)據(jù)塊的鄰域邊界保持重建精度.為此,近幾年出現(xiàn)了相關(guān)性建模方法,它引入數(shù)據(jù)相關(guān)性來提升統(tǒng)計(jì)分布建模的精度.Dutta 等人[18]提出了一種基于數(shù)據(jù)固有空間相關(guān)性對(duì)數(shù)據(jù)進(jìn)行聚類劃分的方法,但該方法并不適用于數(shù)值并行計(jì)算階段產(chǎn)生的多塊拼接網(wǎng)格數(shù)據(jù).Wang 等人[32]通過創(chuàng)建先驗(yàn)知識(shí),捕捉低分辨率與高分辨率數(shù)據(jù)之間的相關(guān)性來提高重建精度,但先驗(yàn)知識(shí)的計(jì)算是十分耗時(shí)的.Hazarika 等人[33-34]從統(tǒng)計(jì)分析的角度出發(fā),對(duì)多變量數(shù)據(jù)的相關(guān)性進(jìn)行統(tǒng)計(jì)建模,從而降低重建數(shù)據(jù)的不確定性.目前,適用于數(shù)值并行應(yīng)用區(qū)域分解策略的統(tǒng)計(jì)可視分析方法仍未開展研究.

      2 基本概念

      2.1 信息熵與互信息

      在信息論中,信息熵(information entropy)是關(guān)于離散隨機(jī)事件的出現(xiàn)概率.對(duì)于任意的概率分布,均可以定義信息熵以度量單個(gè)隨機(jī)變量的不確定性.針對(duì)科學(xué)模擬數(shù)據(jù),信息熵還可以作為一個(gè)數(shù)據(jù)復(fù)雜程度的度量[35].如果一個(gè)數(shù)據(jù)場(chǎng)越復(fù)雜,蘊(yùn)含異質(zhì)的物理特征越多,它的信息熵會(huì)越大;反之,數(shù)據(jù)場(chǎng)越簡(jiǎn)單,蘊(yùn)含異質(zhì)的物理特征越少,則它的信息熵將越小.聯(lián)合熵(joint entropy)可用于度量一個(gè)聯(lián)合分布隨機(jī)系統(tǒng)的不確定性,它可以推廣到互信息(mutual information),互信息可用于度量2 個(gè)隨機(jī)變量之間的依賴關(guān)系.

      將信息熵應(yīng)用于數(shù)據(jù)輕量化問題的關(guān)鍵在于如何正確指定隨機(jī)變量X,并定義其概率密度函數(shù)p(x)=Pr(X=x).在大多數(shù)情況下,可以啟發(fā)式地定義這些概念函數(shù)以滿足應(yīng)用需求.本文將科學(xué)模擬數(shù)據(jù)集建模為離散隨機(jī)變量,其區(qū)域內(nèi)的每個(gè)數(shù)據(jù)點(diǎn)都對(duì)應(yīng)物理場(chǎng)的一個(gè)數(shù)據(jù)值.因此,我們可以使用直方圖對(duì)隨機(jī)變量X的概率密度函數(shù)p(x)進(jìn)行估計(jì),即使用每個(gè)直方圖Bin 區(qū)間的歸一化頻率作為相應(yīng)的概率p(x).

      本文使用信息熵、聯(lián)合熵、互信息概念對(duì)數(shù)據(jù)相關(guān)性進(jìn)行了建模.為便于理解,圖2 為多塊拼接結(jié)構(gòu)網(wǎng)格數(shù)據(jù)中3 個(gè)相鄰數(shù)據(jù)塊X,Y,Z的信息熵與互信息示意圖,其中,數(shù)據(jù)點(diǎn)的不同圖案填充代表不同的物理 場(chǎng)變量 值.H(X),H(Y),H(Z)為數(shù)據(jù) 塊直方 圖的信息 熵;H(X,Y),H(X,Z),H(Y,Z)為直方 圖之間 的聯(lián)合熵;I(X,Y),I(X,Z),I(Y,Z)為直方 圖之間 的互信息.由于聯(lián)合熵與互信息具有對(duì)稱性,為簡(jiǎn)化示意圖,圖2 在右上方加粗黑色框內(nèi)展示聯(lián)合熵與信息熵之間的關(guān)系,左下方加粗黑色框內(nèi)展示互信息與信息熵之間的關(guān)系.

      2.2 空間高斯混合模型

      為了提升大規(guī)模數(shù)值模擬數(shù)據(jù)的重建精度,本文在數(shù)據(jù)建模過程還同時(shí)考慮空間位置信息,這構(gòu)成了空間高斯混合模型(spatial GMM,SGMM)[31,36].SGMM可用于捕獲相似數(shù)據(jù)值的空間分布特征.與將數(shù)值映射到概率的塊高斯混合模型(block GMM)[14,16]不同,SGMM 將空間位置映射到概率.給定一個(gè)3 維空間位置p,則SGMM 定義為其中K是高斯函數(shù)分量的個(gè)數(shù),ωk,μk,Σk分 別為第k個(gè)高斯函數(shù)分量的混合權(quán)重、均值向量和協(xié)方差矩陣.SGMM 的求解相當(dāng)于一個(gè)包含缺失數(shù)據(jù)的參數(shù)估計(jì)問題,采用最大期望算法(expectation maximization algorithm)[36]可實(shí)現(xiàn)對(duì)其求解.

      Fig.2 Information entropy and mutual information圖2 信息熵與互信息

      為了提高SGMM 的重建精度,目前的解決方案是根據(jù)可視化的需求對(duì)原始數(shù)據(jù)進(jìn)行合并和重新分塊.大規(guī)模多塊數(shù)據(jù)的合并與重分會(huì)涉及并行計(jì)算節(jié)點(diǎn)之間的全局?jǐn)?shù)據(jù)通信,導(dǎo)致顯著的性能瓶頸問題.因此,隨著并行通信模擬規(guī)模的逐漸擴(kuò)大,減少全局通信對(duì)提高并行性能至關(guān)重要.本文方法利用相關(guān)性統(tǒng)計(jì)建模極大地降低了全局?jǐn)?shù)據(jù)通信量.

      3 相關(guān)性統(tǒng)計(jì)建模輕量化方法

      為了適配數(shù)值并行應(yīng)用區(qū)域分解策略,提升針對(duì)多塊拼接結(jié)構(gòu)網(wǎng)格數(shù)據(jù)的重建精度,實(shí)現(xiàn)大規(guī)模數(shù)值模擬數(shù)據(jù)的高效、高置信度可視分析,本文提出了一個(gè)大規(guī)模結(jié)構(gòu)網(wǎng)格數(shù)據(jù)的相關(guān)性統(tǒng)計(jì)建模輕量化方法,它包括數(shù)據(jù)塊內(nèi)的統(tǒng)計(jì)分布建模、面向多塊拼接網(wǎng)格數(shù)據(jù)的相關(guān)性統(tǒng)計(jì)建模、基于統(tǒng)計(jì)模型的數(shù)據(jù)重建與可視分析3 個(gè)階段過程.特別地,本文的統(tǒng)計(jì)分布建模均采用了耦合了3 維空間位置信息的SGMM,SGMM 方法的總流程如圖3 所示.

      3.1 總體流程

      給定一個(gè)多塊均勻拼接網(wǎng)格數(shù)據(jù),首先基于SGMM 進(jìn)行逐塊數(shù)據(jù)建模.每個(gè)數(shù)據(jù)塊的統(tǒng)計(jì)模型,包含數(shù)值分布和空間分布2 類信息.本文針對(duì)數(shù)值分布,使用直方圖進(jìn)行數(shù)據(jù)表征;而針對(duì)落在直方圖中同一個(gè)Bin 區(qū)間內(nèi)的數(shù)據(jù)點(diǎn),如它們具有相同或相似的數(shù)值,則要同時(shí)耦合該數(shù)值區(qū)間所對(duì)應(yīng)網(wǎng)格數(shù)據(jù)點(diǎn)的空間分布,采用SGMM 進(jìn)行數(shù)據(jù)表征.

      其次,是逐塊計(jì)算塊內(nèi)統(tǒng)計(jì)分布模型的信息熵.其中,一個(gè)數(shù)據(jù)塊的統(tǒng)計(jì)模型對(duì)應(yīng)的信息熵越大,則代表該塊數(shù)據(jù)分布的不確定性越高,塊內(nèi)包含的信息量越大,并且將越逼近于均勻分布.針對(duì)均勻多塊拼接的網(wǎng)格數(shù)據(jù),每個(gè)數(shù)據(jù)塊的1-鄰域構(gòu)成關(guān)系,可以分為圖4 所示的4 種情況,深色立方體部分標(biāo)記為中心數(shù)據(jù)塊.針對(duì)中心數(shù)據(jù)塊,計(jì)算其與1-鄰域上每個(gè)數(shù)據(jù)塊的統(tǒng)計(jì)分布模型的聯(lián)合熵.特別地,聯(lián)合熵越大,表明該鄰接塊的分布對(duì)中心塊的分布所帶來的影響越小.基于聯(lián)合熵,可以獲得中心數(shù)據(jù)塊與其1-鄰域數(shù)據(jù)塊的統(tǒng)計(jì)分布模型的互信息.其中,互信息越大,表明2 個(gè)數(shù)據(jù)塊之間的相關(guān)性越強(qiáng).

      然后,基于數(shù)據(jù)塊之間的相關(guān)性感知采樣,進(jìn)行塊間的統(tǒng)計(jì)分布相關(guān)性統(tǒng)計(jì)建模.其中,基于信息熵和互信息的理論,本文的相關(guān)性感知采樣包含了3 項(xiàng)基本建模準(zhǔn)則:1)信息熵越大的數(shù)據(jù)分布,越需要根據(jù)該塊的鄰接塊的分布信息,對(duì)其進(jìn)行相關(guān)性修正;2)與中心數(shù)據(jù)塊分布具有較大互信息的鄰接數(shù)據(jù)塊,則其相關(guān)性系數(shù)越大;3)與中心數(shù)據(jù)塊分布具有較大聯(lián)合熵的鄰接數(shù)據(jù)塊,則其所需的相關(guān)性感知采樣系數(shù)較小.如圖3 所示,具有加粗黑色邊框的子塊區(qū)域代表一個(gè)中心數(shù)據(jù)塊,其他8 個(gè)子塊區(qū)域代表中心數(shù)據(jù)塊的1-鄰域數(shù)據(jù)塊.圖3 中數(shù)據(jù)點(diǎn)的不同圖案填充,代表不同的物理場(chǎng)變量值.通過針對(duì)中心數(shù)據(jù)塊及其鄰域數(shù)據(jù)塊的數(shù)值分布直方圖進(jìn)行相關(guān)性統(tǒng)計(jì)建模,本文方法可以提升中心數(shù)據(jù)塊在邊界附近的統(tǒng)計(jì)分布重建精度.隨后,結(jié)合空間分布模型,即可得到關(guān)于中心數(shù)據(jù)塊的相關(guān)性統(tǒng)計(jì)模型.

      Fig.3 Method workflow of SGMM圖3 SGMM 方法流程圖

      Fig.4 Four cases for 1-ring composition of a data block圖4 數(shù)據(jù)塊1-鄰域的4 種分布情況

      本文的統(tǒng)計(jì)建模過程,可以通過原位可視分析的緊耦合模式,直接對(duì)接大規(guī)模數(shù)值模擬應(yīng)用,作用于數(shù)值模擬的計(jì)算結(jié)果輸出過程,產(chǎn)生用于事后分析的統(tǒng)計(jì)分布數(shù)據(jù).本文統(tǒng)計(jì)模型的數(shù)據(jù)表征方法,可以大幅降低大規(guī)模數(shù)值模擬應(yīng)用的數(shù)據(jù)存儲(chǔ)量,同時(shí)還能夠高質(zhì)量保持?jǐn)?shù)據(jù)蘊(yùn)含的物理特征,因此可以支撐事后的高效、高置信度可視分析.

      最后,還需要統(tǒng)計(jì)分布模型的數(shù)據(jù)重建與可視分析.現(xiàn)有的可視分析算法均面向網(wǎng)格數(shù)據(jù)表征進(jìn)行設(shè)計(jì).因此,可視分析應(yīng)用在讀入統(tǒng)計(jì)分布模型表征的緊湊型數(shù)據(jù)后,還必須進(jìn)行數(shù)據(jù)重建.數(shù)據(jù)重建包括網(wǎng)格拓?fù)錁?gòu)建和網(wǎng)格頂點(diǎn)上的變量數(shù)據(jù)重建2部分.對(duì)于結(jié)構(gòu)網(wǎng)格應(yīng)用,網(wǎng)格拓?fù)涞臉?gòu)建無需依賴統(tǒng)計(jì)分布模型信息,重點(diǎn)在于網(wǎng)格頂點(diǎn)的變量數(shù)據(jù)重建.變量重建的過程,可以描述為:對(duì)于任意給定的一個(gè)空間位置坐標(biāo),在確定其所在數(shù)據(jù)塊后,利用貝葉斯準(zhǔn)則將數(shù)值分布、空間分布和相關(guān)性分布進(jìn)行耦合,估計(jì)該空間位置坐標(biāo)所對(duì)應(yīng)的物理場(chǎng)數(shù)值,得到數(shù)據(jù)重建結(jié)果.

      3.2 數(shù)據(jù)塊內(nèi)的統(tǒng)計(jì)分布建模算法

      數(shù)據(jù)塊內(nèi)的統(tǒng)計(jì)分布建模算法,實(shí)現(xiàn)了每個(gè)結(jié)構(gòu)網(wǎng)格數(shù)據(jù)塊的高精度統(tǒng)計(jì)建模,是實(shí)現(xiàn)多塊拼接結(jié)構(gòu)網(wǎng)格數(shù)據(jù)高精度統(tǒng)計(jì)建模的基礎(chǔ).該算法包含了數(shù)值分布建模和空間分布建模2 部分.

      首先,計(jì)算數(shù)據(jù)塊內(nèi)的數(shù)值分布模型.針對(duì)數(shù)據(jù)塊尺寸為b的均勻拼接結(jié)構(gòu)網(wǎng)格數(shù)據(jù),分別計(jì)算其每個(gè)數(shù)據(jù)塊的物理場(chǎng)變量的數(shù)值直方圖.其中數(shù)值直方圖Bin 區(qū)間的個(gè)數(shù)為M.以第i個(gè) 數(shù)據(jù)塊Blocki為 例,其物理場(chǎng)變量記為Xi.使用直方圖Histi對(duì)Xi的概率密度函數(shù)進(jìn)行估計(jì),Histi的每個(gè)Bin 區(qū)間對(duì)應(yīng)一個(gè)數(shù)值區(qū)間.以第j個(gè)統(tǒng)計(jì)區(qū)間Binj為例,其相應(yīng)的數(shù)值區(qū)間記為 [Lj,Uj],物理場(chǎng)數(shù)值屬于該區(qū)間的網(wǎng)格采樣點(diǎn)數(shù)目記為C,數(shù)據(jù)塊Blocki內(nèi)的網(wǎng)格采樣點(diǎn)總數(shù)目記為Nb,則統(tǒng)計(jì)區(qū)間Binj的頻率記為C/Nb.

      其次,計(jì)算數(shù)據(jù)塊內(nèi)的空間分布模型.針對(duì)第i個(gè)數(shù)據(jù) 塊Blocki的數(shù)值直方圖Histi的 第j個(gè)統(tǒng)計(jì)區(qū)間Binj,使用2.2 節(jié)中介紹的方法,計(jì)算物理場(chǎng)變量值能夠落在統(tǒng)計(jì)區(qū)間Binj內(nèi)的網(wǎng)格采樣點(diǎn),然后根據(jù)這些網(wǎng)格采樣點(diǎn)的空間位置坐標(biāo)求解分布模型SGj.

      需要注意的是,由于SGMM 為定義在無限空間內(nèi)的近似分布,而非針對(duì)單一數(shù)據(jù)塊,這勢(shì)必會(huì)給數(shù)據(jù)塊內(nèi)物理場(chǎng)變量的概率密度函數(shù)帶來一定的偏差,因此需要對(duì)其進(jìn)行歸一化處理:

      其 中 Ωi為數(shù)據(jù) 塊Blocki的空間 域,為SGj在Ωi上的累積概率.

      3.3 面向多塊拼接數(shù)據(jù)的相關(guān)性統(tǒng)計(jì)建模算法

      面向多塊拼接數(shù)據(jù)的相關(guān)性統(tǒng)計(jì)建模算法,考慮相鄰數(shù)據(jù)塊之間的統(tǒng)計(jì)分布特征,實(shí)現(xiàn)數(shù)據(jù)塊邊界的高精度統(tǒng)計(jì)建模,是多塊拼接結(jié)構(gòu)網(wǎng)格數(shù)據(jù)高精度統(tǒng)計(jì)建模的關(guān)鍵部分.基于3.2 節(jié)的塊內(nèi)統(tǒng)計(jì)建模結(jié)果,本節(jié)算法采用信息熵與互信息來表征數(shù)據(jù)塊之間的相關(guān)性,指導(dǎo)鄰接數(shù)據(jù)塊的統(tǒng)計(jì)分布相關(guān)性感知采樣,實(shí)現(xiàn)面向多塊拼接結(jié)構(gòu)網(wǎng)格數(shù)據(jù)的高精度統(tǒng)計(jì)建模.

      首先,計(jì)算每個(gè)塊內(nèi)統(tǒng)計(jì)分布的信息熵和1-鄰域內(nèi)數(shù)據(jù)塊間的聯(lián)合熵與互信息.以第i個(gè)數(shù)據(jù)塊Blocki為例,以Blocki為中心數(shù)據(jù)塊,其1-鄰域內(nèi)數(shù)據(jù)塊集合記為BSi,分別計(jì) 算信息熵H(Hi),聯(lián)合熵H(Hi,),和互信息I(Hi,),其中為歸一化處理后的數(shù)值分布直方圖,且∈BSi.

      其次,利用信息熵與互信息進(jìn)行相關(guān)性感知采樣計(jì)算.采樣過程中需要用戶預(yù)先設(shè)定信息熵閾值ε和互信息閾值δ .以Blocki為例,若H(Hi)>ε,則以Blocki為中心數(shù)據(jù)塊,對(duì)其進(jìn)行相關(guān)性感知采樣.遍歷其1-鄰域內(nèi)數(shù)據(jù)塊集合BSi,若I(Hi,)>δ,則對(duì)中的網(wǎng)格點(diǎn)進(jìn)行隨機(jī)采樣,采樣比例Radd計(jì)算為

      其中Hmax為聯(lián)合熵的最大值.根據(jù)Radd對(duì)的空間域進(jìn)行隨機(jī)采樣后得到的空間子域記為 Ωadd,Ωi更新為 Ωi∪Ωadd.利用更新后的 Ωi,將Hi更 新為.

      特別地,相關(guān)性統(tǒng)計(jì)建模算法所涉及的信息熵閾值 ε和互信息閾值 δ,對(duì)模型重建精度和模型并行計(jì)算時(shí)間均具有顯著影響.不同閾值參數(shù)的評(píng)估見本文實(shí)驗(yàn)部分(4.1 節(jié)).

      3.4 基于統(tǒng)計(jì)模型的數(shù)據(jù)重建算法

      采用統(tǒng)計(jì)模型表征,可以大幅降低大規(guī)模數(shù)值模擬在磁盤上的數(shù)據(jù)存儲(chǔ)量.但是,為了適應(yīng)現(xiàn)有可視分析方法,將分布數(shù)據(jù)表達(dá)恢復(fù)成可視分析可以處理的網(wǎng)格數(shù)據(jù)表達(dá),還需要進(jìn)行基于統(tǒng)計(jì)分布模型的網(wǎng)格數(shù)據(jù)內(nèi)存重建.本節(jié)算法在塊內(nèi)統(tǒng)計(jì)建模算法和塊間相關(guān)性統(tǒng)計(jì)建模算法的基礎(chǔ)上,根據(jù)貝葉斯準(zhǔn)則進(jìn)行高質(zhì)量的數(shù)據(jù)重建.本文算法中,重建數(shù)據(jù)采用了與原始數(shù)據(jù)一致的網(wǎng)格分辨率.

      給定的3 維網(wǎng)格上的一個(gè)空間位置坐標(biāo)p,首先要定位其所在的數(shù)據(jù)塊Blocki,并且遍歷的每個(gè)Bin 區(qū)間.其次,根據(jù)貝葉斯法則,計(jì)算位置p的物理場(chǎng) 數(shù)值落在第j個(gè)統(tǒng)計(jì) 區(qū)間Binj的概率:

      4 實(shí)驗(yàn)結(jié)果與分析

      Table 1 Test Data表1 測(cè)試數(shù)據(jù)

      實(shí)驗(yàn)分別從重建精度和建模計(jì)算效能2 個(gè)方面進(jìn)行測(cè)試與評(píng)估.首先,針對(duì)不同數(shù)據(jù)塊尺寸參數(shù)b、信息熵閾值ε、互信息閾值 δ和多種統(tǒng)計(jì)分布模型,以及時(shí)變和大規(guī)模模擬數(shù)據(jù)應(yīng)用,來評(píng)估本文方法的重建精度.其次,本文分別從模型并行計(jì)算時(shí)間和數(shù)據(jù)壓縮比這2 個(gè)角度,評(píng)估本文方法對(duì)數(shù)值模擬實(shí)際應(yīng)用的適用性和高效性.此外,本文在量化評(píng)估中使用歸一化均方根誤差(normalized root mean squared error,RMSE)和歸一化最大誤差(normalized maximum error,NME)來評(píng)估數(shù)據(jù)重建質(zhì)量,它們的計(jì)算方法為:

      其中X為原始數(shù)據(jù),Y為重建數(shù)據(jù),Xr為原始數(shù)據(jù)物理場(chǎng)變量的值域.此外,我們使用結(jié)構(gòu)相似性(structural similarity,SSIM)[37]來度量2 組數(shù)據(jù)之間的相似性.

      4.1 重建精度評(píng)估

      4.1.1 不同數(shù)據(jù)塊尺寸b的影響

      數(shù)據(jù)塊的尺寸代表了大規(guī)模數(shù)值模擬應(yīng)用的區(qū)域分解特征.針對(duì)不同數(shù)據(jù)塊尺寸的對(duì)比測(cè)試,用以評(píng)估本文方法對(duì)該類數(shù)值應(yīng)用特征的典型適用性.

      圖5 展示了針對(duì)具有不同數(shù)據(jù)塊尺寸的氣候模擬颶風(fēng)數(shù)據(jù),給出基于SGMM 和本文提出的相關(guān)性統(tǒng)計(jì)模型的數(shù)據(jù)重建結(jié)果對(duì)比.其中,重建數(shù)據(jù)的可視分析采用了等值面繪制方法.分析結(jié)果顯示,當(dāng)數(shù)據(jù)塊的尺寸相同時(shí),SGMM 的重建結(jié)果顯示出鄰接數(shù)據(jù)塊之間存在明顯的數(shù)值不連續(xù)性,而本文方法卻可以提升鄰接塊邊界區(qū)域的數(shù)據(jù)重建精度,因此重建數(shù)據(jù)的數(shù)值不連續(xù)性得到了顯著改善.這主要是由于SGMM 僅對(duì)單塊網(wǎng)格數(shù)據(jù)進(jìn)行獨(dú)立統(tǒng)計(jì)建模,缺少了鄰接數(shù)據(jù)塊的統(tǒng)計(jì)分布信息.另一方面,通常建模采用的數(shù)據(jù)塊尺寸越大,建模形成的統(tǒng)計(jì)分布數(shù)據(jù)的內(nèi)存占用量越小,數(shù)據(jù)壓縮比越大,并行計(jì)算時(shí)間越短,但是重建精度卻越低.而本文方法通過相關(guān)性統(tǒng)計(jì)建模降低了數(shù)據(jù)塊尺寸對(duì)重建精度的影響.因此,基于本文方法可以采用大尺寸數(shù)據(jù)塊,獲得與必須采用小尺寸數(shù)據(jù)塊的SGMM 才能獲得的同等甚至更高的重建精度.因此,本文方法實(shí)現(xiàn)了對(duì)大規(guī)模數(shù)值模擬應(yīng)用并行特征更好的適應(yīng)性,如圖5(d)(e)所示.

      4.1.2 不同信息熵閾值 ε的影響

      本節(jié)主要討論相關(guān)性統(tǒng)計(jì)建模中的關(guān)鍵參數(shù)之一,即信息熵閾值 ε選取對(duì)建模質(zhì)量的影響與評(píng)估.

      Fig.5 Reconstruction results of HD with different block sizes圖5 氣候模擬颶風(fēng)數(shù)據(jù)在不同數(shù)據(jù)塊尺寸的重建結(jié)果

      Fig.6 Reconstruction results of AED with different ε圖6 飛行器電磁模擬數(shù)據(jù)在不同ε 的重建結(jié)果

      圖6 展示了不同信息熵閾值 ε參數(shù)設(shè)置下,使用SGMM 和本文所介紹的相關(guān)性統(tǒng)計(jì)模型對(duì)飛行器電磁模擬數(shù)據(jù)進(jìn)行統(tǒng)計(jì)重建的體繪制結(jié)果.通過權(quán)衡數(shù)據(jù)壓縮比、計(jì)算時(shí)間與重建精度三者,本實(shí)驗(yàn)設(shè)置數(shù)據(jù)塊尺寸b=8 進(jìn)行建模.由于該模擬數(shù)據(jù)的物理特征尺度小,在數(shù)據(jù)塊尺寸b=8 時(shí),數(shù)據(jù)重建會(huì)帶來一定程度的局部精度損失,導(dǎo)致體繪制光線在數(shù)據(jù)空間上針對(duì)紫色屬性數(shù)據(jù)的采樣數(shù)量降低,故這些像素區(qū)域的體繪制累積不透明度低,導(dǎo)致顏色更淡、面積更小的現(xiàn)象.但是,相比圖6(b),當(dāng)設(shè)置 ε=2 和 ε=0時(shí)(圖6(d)(e)),本文方法獲得的重建數(shù)據(jù)及其體繪制結(jié)果具有更高的物質(zhì)界面連續(xù)性.當(dāng)原始數(shù)據(jù)場(chǎng)的網(wǎng)格分辨率進(jìn)一步增大時(shí),采用相同的數(shù)據(jù)塊尺寸將可以獲得重建精度更高的結(jié)果.圖7 展示了信息熵閾值 ε的不同設(shè)置下,計(jì)算時(shí)間T、數(shù)據(jù)壓縮比Rpre和重建精度RMSE,NME,SSIM的變化情況.結(jié)果表明,ε越小,進(jìn)行相關(guān)性統(tǒng)計(jì)建模時(shí)需要耦合的數(shù)據(jù)塊越多,重建結(jié)果的精度越高、不確定性越低;但數(shù)據(jù)壓縮比越小,并行計(jì)算時(shí)間越長(zhǎng).通過權(quán)衡數(shù)據(jù)壓縮比、計(jì)算時(shí)間與重建精度三者,本文默認(rèn)設(shè)置ε=2(由于直方圖Bin 區(qū)間個(gè)數(shù)的默認(rèn)值為M=256,故 ε的最大值為8).如果用戶對(duì)數(shù)據(jù)重建精度有更高的要求,并且可以處理更大的數(shù)據(jù)內(nèi)存占用和更長(zhǎng)的并行計(jì)算時(shí)間,則可以使用更小的信息熵閾值.圖6(e)展示了ε=0 時(shí)相關(guān)性統(tǒng)計(jì)模型的重建結(jié)果,即在面向多塊拼接數(shù)據(jù)的相關(guān)性統(tǒng)計(jì)建模算法中對(duì)所有數(shù)據(jù)塊均進(jìn)行了相關(guān)性統(tǒng)計(jì)建模.

      Fig.7 Quantitative analysis of AED with different ε圖7 飛行器電磁模擬數(shù)據(jù)在不同ε 的定量分析

      4.1.3 不同互信息閾值 δ的影響

      一年365天,吳躦輝有一半時(shí)間都奔波在路上,家人的支持和理解給他全身心投入到工作中提供了巨大的支持。談到接下來的規(guī)劃,吳躦輝希望從眼前的事情做起,一步一步把服務(wù)做實(shí)做細(xì),讓農(nóng)戶有個(gè)好收成。

      本節(jié)主要討論相關(guān)性統(tǒng)計(jì)建模中的另一個(gè)關(guān)鍵參數(shù),即互信息閾值 δ對(duì)建模質(zhì)量的影響與評(píng)估.

      Fig.8 Reconstruction results of SWD with different δ圖8 沖擊波效應(yīng)模擬數(shù)據(jù)在不同δ 的重建結(jié)果

      Fig.9 Quantitative analysis of SWD with different δ圖9 沖擊波效應(yīng)模擬數(shù)據(jù)不同δ 的定量分析

      圖8 展示了不同互信息閾值 δ參數(shù)設(shè)置下,使用SGMM 和本文所介紹的相關(guān)性統(tǒng)計(jì)模型對(duì)沖擊波效應(yīng)模擬數(shù)據(jù)進(jìn)行統(tǒng)計(jì)重建的結(jié)果,選取了沖擊波效應(yīng)模擬數(shù)據(jù)的4 個(gè)等值面進(jìn)行渲染.圖9 展示了互信息閾值 δ的不同設(shè)置下,計(jì)算時(shí)間、數(shù)據(jù)壓縮比和重建精度的變化情況.結(jié)果表明,δ越小,執(zhí)行隨機(jī)采樣的相鄰數(shù)據(jù)塊的數(shù)目越多,重建結(jié)果的精度越高、不確定性越低;但數(shù)據(jù)壓縮比越小,并行計(jì)算時(shí)間越長(zhǎng).通過權(quán)衡數(shù)據(jù)壓縮比、計(jì)算時(shí)間與重建精度三者,本文默認(rèn)設(shè)置δ=5(由于直方圖Bin 區(qū)間個(gè)數(shù)的默認(rèn)值為M=256,故 δ的最大值為64).如果用戶對(duì)數(shù)據(jù)重建精度有更高的要求,并且可以處理更大的數(shù)據(jù)內(nèi)存占用和更長(zhǎng)的并行計(jì)算時(shí)間,則可以使用更小的互信息閾值.圖8(e)展示了δ=0 時(shí)相關(guān)性統(tǒng)計(jì)模型的重建結(jié)果.在多塊拼接數(shù)據(jù)的相關(guān)性統(tǒng)計(jì)建模算法中,針對(duì)每個(gè)中心數(shù)據(jù)塊的1-鄰域范圍,需要逐數(shù)據(jù)塊進(jìn)行相關(guān)性感知的分布數(shù)據(jù)采樣計(jì)算.

      4.1.4 不同統(tǒng)計(jì)分布模型的比較

      不同的統(tǒng)計(jì)分布模型,可以描述不同的數(shù)據(jù)統(tǒng)計(jì)特征,其針對(duì)大規(guī)模多塊數(shù)值模擬數(shù)據(jù)的特征表征效果存在差異.對(duì)比不同統(tǒng)計(jì)分布模型的重建結(jié)果,可以評(píng)估本文提出方法對(duì)于大規(guī)模多塊數(shù)值模擬數(shù)據(jù)的適用性.

      圖10 顯示了對(duì)慣性約束聚變激光成絲數(shù)據(jù)進(jìn)行統(tǒng)計(jì)重建的結(jié)果,實(shí)驗(yàn)采用了直方圖分布模型、SGMM和本文提出的相關(guān)性統(tǒng)計(jì)模型.在數(shù)據(jù)可視分析環(huán)節(jié),本文選取了慣性約束聚變激光成絲數(shù)據(jù)的一個(gè)等值面進(jìn)行可視分析結(jié)果評(píng)估.針對(duì)直方圖模型,其主要缺陷是在統(tǒng)計(jì)建模過程中僅處理原始數(shù)據(jù)的數(shù)值分布信息,而丟失其空間分布信息;SGMM 則添加了對(duì)數(shù)據(jù)空間分布信息的統(tǒng)計(jì)建模,但仍然無法達(dá)到高質(zhì)量的數(shù)據(jù)建模要求,尤其在數(shù)據(jù)塊邊界.由于以上這2 種統(tǒng)計(jì)分析方法僅針對(duì)每個(gè)數(shù)據(jù)塊進(jìn)行獨(dú)立統(tǒng)計(jì)建模,缺省了鄰域數(shù)據(jù)信息,因此其重建結(jié)果中數(shù)據(jù)塊間的數(shù)值不連續(xù)性相對(duì)明顯.相比之下,本文方法通過對(duì)數(shù)據(jù)塊間的統(tǒng)計(jì)相關(guān)性進(jìn)行建模,顯著改善了塊間不連續(xù)性,與直方圖模型和SGMM 相比,它可以產(chǎn)生更為平滑的重建結(jié)果.定性定量分析的結(jié)果顯示,上述3 種統(tǒng)計(jì)模型的重建結(jié)果與原始數(shù)據(jù)間的歸一化最大誤差,分別為0.011,0.894,0.992.3 種統(tǒng)計(jì)模型的數(shù)據(jù)壓縮比均為43.5∶1,數(shù)據(jù)輕量化的效果顯著,但其中本文方法的模型重建精度最高.

      4.1.5 超大規(guī)模數(shù)值模擬數(shù)據(jù)集

      為了驗(yàn)證本文方法處理超大規(guī)模數(shù)值模擬數(shù)據(jù)集的有效性,實(shí)驗(yàn)使用了模擬小行星撞擊海底的2組大規(guī)模數(shù)值模擬數(shù)據(jù)集,采用體繪制方法進(jìn)行可視分析.圖11 與圖12 分別給出采用SGMM 和本文相關(guān)性統(tǒng)計(jì)模型的統(tǒng)計(jì)可視分析結(jié)果.對(duì)比可知,本文方法可以顯著提升分塊數(shù)據(jù)邊界區(qū)域的重建數(shù)據(jù)的數(shù)值連續(xù)性,從而獲得與真實(shí)數(shù)據(jù)非常相似的重建結(jié)果.另外,本文方法還能夠?qū)崿F(xiàn)針對(duì)原始大規(guī)模數(shù)據(jù)的高效數(shù)據(jù)壓縮.例如,模擬小行星撞擊海底數(shù)據(jù)的Tev 變量數(shù)據(jù)場(chǎng)和V02 變量數(shù)據(jù)場(chǎng)的數(shù)據(jù)壓縮比,可以分別達(dá)到22.2∶1 和11.4∶1,實(shí)現(xiàn)2 個(gè)數(shù)量級(jí)的大規(guī)模數(shù)據(jù)輕量化.

      4.1.6 時(shí)變數(shù)據(jù)集

      為了驗(yàn)證本文方法處理時(shí)變數(shù)據(jù)集的有效性,實(shí)驗(yàn)使用了包含48 個(gè)時(shí)間步的氣候模擬颶風(fēng)數(shù)據(jù)集,根據(jù)不同的數(shù)據(jù)塊尺寸和不同的統(tǒng)計(jì)建模方法,組合為4 組實(shí)驗(yàn):1)b=16,使 用SGMM;2)b=8,使 用SGMM;3)b=16,使用本文的相關(guān)性統(tǒng)計(jì)建模方法;4)b=8,使用本文的相關(guān)性統(tǒng)計(jì)建模方法.圖13 與圖14分別展示了上述4 組實(shí)驗(yàn)的時(shí)間步數(shù)據(jù)重建結(jié)果的歸一化最大誤差以及數(shù)據(jù)壓縮比的堆積柱形圖.分析可見,采用相同數(shù)據(jù)塊尺寸(實(shí)驗(yàn)1 與實(shí)驗(yàn)3),實(shí)驗(yàn)2 與實(shí)驗(yàn)4),本文方法具有更小的歸一化最大誤差,即重建結(jié)果精度更高;采用不同數(shù)據(jù)塊尺寸(實(shí)驗(yàn)2 與實(shí)驗(yàn)3),本文方法同時(shí)具有更小的歸一化最大誤差和更大的數(shù)據(jù)壓縮比.

      Fig.10 Reconstruction results of LD of different statistical distribution models圖10 慣性約束聚變激光成絲數(shù)據(jù)在不同統(tǒng)計(jì)分布模型的重建結(jié)果

      Fig.11 Reconstruction results of Tev field of AID圖11 小行星撞擊海底數(shù)據(jù)Tev 數(shù)據(jù)場(chǎng)的重建結(jié)果

      Fig.12 Reconstruction results of V02 field of AID圖12 小行星撞擊海底數(shù)據(jù)V02 數(shù)據(jù)場(chǎng)的重建結(jié)果

      Fig.13 NME of HD varying with time step圖13 氣候模擬颶風(fēng)數(shù)據(jù)在不同時(shí)間步的歸一化最大誤差

      4.2 建模計(jì)算效能評(píng)估

      4.2.1 并行計(jì)算時(shí)間

      Fig.14 Rpre of HD varying with time step圖14 氣候模擬颶風(fēng)數(shù)據(jù)在不同時(shí)間步的數(shù)據(jù)壓縮比

      本節(jié)通過模型并行計(jì)算時(shí)間評(píng)估本文方法針對(duì)大規(guī)模模擬數(shù)據(jù)的處理效能.針對(duì)小行星撞擊海底數(shù)據(jù)(圖11),浪潮服務(wù)器節(jié)點(diǎn)的每個(gè)核分配的數(shù)據(jù)塊個(gè)數(shù)為9 300,采用24 核,塊內(nèi)統(tǒng)計(jì)分布模型和相關(guān)性統(tǒng)計(jì)模型的并行計(jì)算時(shí)間分別為199.52 s 和29.88 s,數(shù)據(jù)重建的并行計(jì)算時(shí)間為79.06 s,數(shù)據(jù)壓縮比達(dá)到了22.2∶1.針對(duì)飛行器電磁模擬數(shù)據(jù)(圖6),浪潮服務(wù)器節(jié)點(diǎn)的每個(gè)核分配的數(shù)據(jù)塊個(gè)數(shù)為10 752,塊內(nèi)統(tǒng)計(jì)分布模型和相關(guān)性統(tǒng)計(jì)模型的并行計(jì)算時(shí)間分別為155.25 s 和32.93 s,數(shù)據(jù)重建的并行計(jì)算時(shí)間為53.07 s,數(shù)據(jù)壓縮比達(dá)到19.2∶1.由于建模計(jì)算相對(duì)于數(shù)據(jù)可視分析是一個(gè)預(yù)處理過程,不強(qiáng)調(diào)處理的實(shí)時(shí)性,因此上述模型并行計(jì)算時(shí)間仍屬于用戶可接受范圍,并可通過并行核數(shù)的增加繼續(xù)縮短并行計(jì)算時(shí)間.而2 個(gè)數(shù)量級(jí)的壓縮比,則確實(shí)可以顯著解決應(yīng)用數(shù)據(jù)的存儲(chǔ)瓶頸.此外,由于本文方法不需要對(duì)多塊數(shù)據(jù)進(jìn)行合并與重分,可以顯著減少多核間的數(shù)據(jù)通信.本文方法對(duì)小行星撞擊海底數(shù)據(jù)(圖11)和飛行器電磁模擬數(shù)據(jù)(圖6)的通信時(shí)間分別為2.13 s 和1.09 s.

      一般統(tǒng)計(jì)分布模型的精度,是與數(shù)據(jù)分塊的大小成反比趨勢(shì)變化的.而本文的統(tǒng)計(jì)分布模型則能夠采用尺寸更大的數(shù)據(jù)塊,獲得與SGMM 相似甚至更高的重建精度,因而建模速度更快.如圖5(c)和圖5(d)所示,SGMM 需要使用數(shù)據(jù)塊尺寸為b=8 時(shí),才能獲得相對(duì)高質(zhì)量重建結(jié)果,其模型并行計(jì)算時(shí)間為39.49 s.而采用本文模型,僅需采用數(shù)據(jù)塊尺寸b=16,即可獲得與b=8 時(shí)SGMM 的重建質(zhì)量,并且模型并行計(jì)算時(shí)間相比更短,下降為僅需32.48 s(塊內(nèi)統(tǒng)計(jì)分布模型和相關(guān)性統(tǒng)計(jì)模型的并行計(jì)算時(shí)間分別為31.22 s 和1.26 s).需要注意的是,原始數(shù)據(jù)的統(tǒng)計(jì)特征分布情況對(duì)本文算法的并行計(jì)算時(shí)間長(zhǎng)短具有決定性影響,數(shù)據(jù)統(tǒng)計(jì)特征分布越集中,并行計(jì)算時(shí)間越短,反之亦然.

      4.2.2 不同統(tǒng)計(jì)建模的效能比較

      本文通過記錄通信時(shí)間Tc、模型并行計(jì)算時(shí)間Tm、重建并行計(jì)算時(shí)間Tr和 總時(shí)間Tt來說明本文方法在計(jì)算效能方面的優(yōu)勢(shì).由于本文方法可以直接處理原始的多塊數(shù)據(jù),無需進(jìn)行合并和重分,因此多核間的數(shù)據(jù)通信時(shí)間相對(duì)較短.直方圖分布模型和SGMM 則需要對(duì)合并后的數(shù)據(jù)進(jìn)行重新分塊,需要更長(zhǎng)的通信時(shí)間.圖15 和圖16 分別為適用直方圖分布模型、SGMM 和本文方法對(duì)飛行器電磁模擬數(shù)據(jù)和小行星撞擊海底數(shù)據(jù)進(jìn)行計(jì)算的Tc,Tm,Tr,Tt.可以發(fā)現(xiàn),對(duì)于直方圖分布模型和SGMM,數(shù)據(jù)通信占據(jù)了主要的時(shí)間,本文方法則使用最短的總計(jì)算時(shí)間獲得了最精確的重建結(jié)果.

      Fig.15 Efficiency comparison of different statistical modeling of AED圖15 飛行器電磁模擬數(shù)據(jù)在不同統(tǒng)計(jì)建模的效能比較

      Fig.16 Efficiency comparison of different statistical modeling of Tev field of AID圖16 小行星撞擊海底數(shù)據(jù)在不同統(tǒng)計(jì)建模的效能比較

      4.3 對(duì)比分析

      實(shí)驗(yàn)使用的小行星撞擊海底模擬、颶風(fēng)氣候模擬、飛行器電磁模擬、沖擊波效應(yīng)模擬和聚變激光成絲模擬數(shù)據(jù),分別屬于流體力學(xué)、氣候變化、電磁環(huán)境、爆炸沖擊、慣性約束聚變等5 個(gè)不同應(yīng)用領(lǐng)域,代表了當(dāng)前結(jié)構(gòu)網(wǎng)格科學(xué)模擬的典型應(yīng)用.這些典型應(yīng)用的高分辨率模擬結(jié)果均呈現(xiàn)復(fù)雜的空間分布特征,并且在單塊網(wǎng)格數(shù)據(jù)內(nèi)表現(xiàn)出高度的數(shù)值異質(zhì)性,如圖5,6,8,10~12 所示.現(xiàn)有統(tǒng)計(jì)建模方法忽視了上述單塊數(shù)據(jù)內(nèi)的數(shù)值異質(zhì)性,導(dǎo)致重建結(jié)果在數(shù)據(jù)塊邊界具有強(qiáng)數(shù)值不連續(xù)性,無法保持高精度.而本文方法則考慮了鄰域數(shù)據(jù)的統(tǒng)計(jì)分布特征,從而可以獲得數(shù)值連續(xù)性更優(yōu)的重建結(jié)果,如表2第6~8 列所示.

      Table 2 Statistical Analysis and Computational Time of Test Data表2 測(cè)試數(shù)據(jù)的統(tǒng)計(jì)分析結(jié)果和計(jì)算時(shí)間

      此外,本文方法不需要對(duì)原始多塊數(shù)據(jù)進(jìn)行合并與重分,避免了隨并行計(jì)算規(guī)模顯著增長(zhǎng)的數(shù)據(jù)通信開銷,因此,在實(shí)現(xiàn)跨量級(jí)的數(shù)據(jù)輕量化的同時(shí),還能使得大規(guī)模數(shù)據(jù)的建模計(jì)算更加高效,如表2第10,11 列所示,其中M1為 原始數(shù)據(jù)所占內(nèi)存,M2為統(tǒng)計(jì)模型所占內(nèi)存,Rpre為數(shù)據(jù)壓縮比.綜上所述,本文方法能夠在顯著降低計(jì)算成本的同時(shí),得到具有更高重建精度的數(shù)據(jù)輕量化結(jié)果,對(duì)于結(jié)構(gòu)網(wǎng)格模擬應(yīng)用具有較好的方法普適性.

      5 結(jié)束語

      本文提出了一種大規(guī)模結(jié)構(gòu)網(wǎng)格數(shù)據(jù)的相關(guān)性統(tǒng)計(jì)建模輕量化方法,它通過使用數(shù)據(jù)塊間的相關(guān)性統(tǒng)計(jì)表征,指導(dǎo)鄰接數(shù)據(jù)塊的統(tǒng)計(jì)建模,從而有效地保留數(shù)據(jù)統(tǒng)計(jì)特征.通過耦合數(shù)據(jù)塊的數(shù)值分布信息、空間分布信息和相關(guān)性信息,可以更精確地重建原始數(shù)據(jù),降低可視化的不確定性.且本文方法不需要在統(tǒng)計(jì)建模前對(duì)不同并行計(jì)算節(jié)點(diǎn)中的數(shù)據(jù)塊進(jìn)行合并與重分,從而顯著減少數(shù)據(jù)通信開銷.通過采用最大包含10 億網(wǎng)格點(diǎn)的5 組科學(xué)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)比較,定量分析結(jié)果顯示,本文方法相比現(xiàn)有方法可將數(shù)據(jù)存儲(chǔ)成本降低約1 個(gè)數(shù)量級(jí),同時(shí)具有更高的重建精度.然而,雖然本文方法對(duì)結(jié)構(gòu)網(wǎng)格數(shù)據(jù)具有普適性,但由于非結(jié)構(gòu)網(wǎng)格數(shù)據(jù)和集成數(shù)據(jù)沒有規(guī)則的拓?fù)浣Y(jié)構(gòu),使得本文方法難以適用.在未來的工作中,我們將考慮對(duì)網(wǎng)格的拓?fù)浣Y(jié)構(gòu)進(jìn)行輕量化處理,實(shí)現(xiàn)本文方法的推廣.

      作者貢獻(xiàn)聲明:楊陽進(jìn)行了該論文相關(guān)實(shí)驗(yàn)設(shè)計(jì)、編碼及測(cè)試、論文撰寫等工作;武昱進(jìn)行了實(shí)驗(yàn)設(shè)計(jì)和結(jié)果分析;汪云海進(jìn)行了論文結(jié)構(gòu)討論和修改;曹軼進(jìn)行了實(shí)驗(yàn)設(shè)計(jì)和論文修改.

      猜你喜歡
      互信息信息熵直方圖
      統(tǒng)計(jì)頻率分布直方圖的備考全攻略
      符合差分隱私的流數(shù)據(jù)統(tǒng)計(jì)直方圖發(fā)布
      基于信息熵可信度的測(cè)試點(diǎn)選擇方法研究
      用直方圖控制畫面影調(diào)
      基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
      一種基于信息熵的雷達(dá)動(dòng)態(tài)自適應(yīng)選擇跟蹤方法
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      基于信息熵的IITFN多屬性決策方法
      基于直方圖平移和互補(bǔ)嵌入的可逆水印方案
      龙胜| 墨脱县| 岗巴县| 铁岭市| 邵东县| 双辽市| 青河县| 甘谷县| 甘肃省| 福安市| 闵行区| 五台县| 惠东县| 惠州市| 吉隆县| 浦江县| 松原市| 安阳市| 桂东县| 永济市| 庆城县| 宜丰县| 万山特区| 博白县| 兴宁市| 洱源县| 乐平市| 饶阳县| 若尔盖县| 宣恩县| 积石山| 沁阳市| 平阴县| 柳河县| 普定县| 益阳市| 讷河市| 同江市| 堆龙德庆县| 大荔县| 柏乡县|