• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于KNL眾核處理器平臺(tái)的并行矩量法性能優(yōu)化

      2019-06-11 09:53顧宗靜趙勛旺劉瑩玉林中朝張玉趙玉萍

      顧宗靜 趙勛旺 劉瑩玉 林中朝 張玉 趙玉萍

      摘要:基于Intel第二代Xeon Phi代號(hào)為Knights Landing(KNL)眾核處理器平臺(tái),利用MPI+OpenMP混合編程策略對(duì)并行矩量法(Method of Moments,MoM)進(jìn)行了優(yōu)化.利用OpenMP編程技術(shù)和KNL的計(jì)算資源,提高了CPU(center Processing Unit)使用率;線程的引入,大幅度減少了矩陣填充過(guò)程中進(jìn)程間的冗余積分;為發(fā)揮KNL的512位矢量寬度優(yōu)勢(shì),通過(guò)向量化優(yōu)化進(jìn)一步提高了循環(huán)結(jié)構(gòu)的執(zhí)行效率;對(duì)計(jì)算密集型、CPU利用率高的矩陣求解過(guò)程,通過(guò)引入的OpenMP編程策略,減少了MPI(Message Passing Interface)通信時(shí)間,加速了求解.數(shù)值結(jié)果表明,通過(guò)在KNL眾核處理器平臺(tái)上的優(yōu)化,可以極大地提升矩量法計(jì)算復(fù)雜電磁問(wèn)題的效率.

      關(guān)鍵詞:眾核處理器;MPI+OpenMP;

      并行矩量法;

      向量化

      中圖分類號(hào):TN820 文獻(xiàn)標(biāo)志碼:A DOI:10.3969/j.issn.1000-5641.2019.01.012

      0引言

      隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,針對(duì)高度并行工作負(fù)載而設(shè)計(jì)的一種新型處理器,即眾核處理器,依靠其集成的大量計(jì)算單元,展現(xiàn)出強(qiáng)大的數(shù)據(jù)處理能力,在高性能計(jì)算領(lǐng)域發(fā)揮著越來(lái)越重要的作用.與傳統(tǒng)通用多核處理器相比,眾核處理器具有成本低、功耗小等顯著優(yōu)勢(shì).同時(shí)其優(yōu)勢(shì)還在于集成的核心數(shù)量超出同期通用多核處理器一個(gè)數(shù)量級(jí),在處理計(jì)算密集型、數(shù)據(jù)密集型任務(wù)時(shí),例如求解矩量法生成的復(fù)數(shù)稠密矩陣,能夠展現(xiàn)出強(qiáng)大的優(yōu)勢(shì).

      近年來(lái),國(guó)內(nèi)已有若干利用眾核處理器加速矩量法的文獻(xiàn),并且取得了較好的成果.但是,這些文獻(xiàn)中利用的眾核處理器都是作為協(xié)處理器出現(xiàn)的,如CPU/MIC異構(gòu)并行矩量法的研究,由CPU控制任務(wù)分配和數(shù)據(jù)傳輸,同時(shí)也負(fù)責(zé)部分計(jì)算任務(wù),將高并發(fā)度的代碼段在MIC(Many Integrated Core)協(xié)處理器執(zhí)行,達(dá)到加速并行矩量法的目的.但是,CPU與MIC協(xié)處理之間的通信都是通過(guò)PCI-EfPeripheral Component Interconnect Express)接口實(shí)現(xiàn)的,通信速率較慢,限制了計(jì)算性能的提升;盡管MIC協(xié)處理器具有獨(dú)立的內(nèi)存和存儲(chǔ),但容量一般都較小,因此異構(gòu)協(xié)同計(jì)算能解決的實(shí)際問(wèn)題受到協(xié)處理器存儲(chǔ)容量的限制.針對(duì)上述問(wèn)題,Intel于2016年推出了全新一代至強(qiáng)融核處理器,代號(hào)為“騎士登陸”(KNL),通過(guò)消除對(duì)PCI-E總線的依賴,提供更高的可擴(kuò)展性,應(yīng)對(duì)更廣泛的工作負(fù)載和配置.所以,并行矩量法在KNL眾核處理器平臺(tái)上的計(jì)算和優(yōu)化具有很高的研究?jī)r(jià)值.

      KNL眾核處理器是Intel首款專門針對(duì)高度并行工作負(fù)載而設(shè)計(jì)的可獨(dú)立自啟動(dòng)的主處理器:能效型集成架構(gòu)提供了比類似平臺(tái)高得多的單元計(jì)算能力,有效減少了計(jì)算成本;內(nèi)存和結(jié)構(gòu)的集成最大限度地提升了內(nèi)存容量,并首次實(shí)現(xiàn)了內(nèi)存與高速互連技術(shù)的集成,為大規(guī)模并行和矢量化服務(wù)提供了有效平臺(tái).

      為了充分利用KNL的眾核計(jì)算資源以及發(fā)揮其超寬的矢量寬度優(yōu)勢(shì),本文基于KNL眾核處理器平臺(tái)對(duì)并行矩量法程序開(kāi)展了優(yōu)化工作;通過(guò)與商業(yè)軟件計(jì)算結(jié)果的對(duì)比,驗(yàn)證了優(yōu)化算法的正確性;利用KNL計(jì)算集群,仿真了未知量超過(guò)20萬(wàn)的飛機(jī)模型的散射特性,程序優(yōu)化后的性能有較大提升.值得指出的是,并行矩量法在KNL眾核處理器平臺(tái)上的計(jì)算和優(yōu)化此前尚未見(jiàn)有公開(kāi)的文獻(xiàn)報(bào)道.

      1并行矩量法

      1.1矩陣填充分析

      本文中矩量法采用的基函數(shù)為RWGfRao-Wilton-Glisson)基函數(shù),是現(xiàn)今廣泛使用的一種矩量法基函數(shù),它被定義在具有公共邊的兩個(gè)相鄰三角形上,可模擬任意形狀物體的表面電、磁流分布,采用伽遼金方法可得到矩量法矩陣方程

      2計(jì)算平臺(tái)簡(jiǎn)介

      本文使用的KNL眾核處理器編號(hào)為7210(簡(jiǎn)稱KNL7210),采用Slivermont的微架構(gòu)和光刻14 am工藝,處理器基本頻率為1.3 GHz,擁有64核,每核支持四線程,即總計(jì)256個(gè)線程.每個(gè)處理器有32個(gè)核片,每個(gè)核片由兩個(gè)核組成,并共享1 MB二級(jí)緩存,每個(gè)核心內(nèi)搭載兩個(gè)512位寬的VPU(Vector Processing Units),可以同時(shí)處理8個(gè)雙精度浮點(diǎn)或者16個(gè)單精度浮點(diǎn)運(yùn)算,超寬的矢量寬度,提高了高度并行計(jì)算性能的標(biāo)準(zhǔn).

      單個(gè)KNL7210能提供超過(guò)3 TFlops的雙精度浮點(diǎn)處理性能或大于6 TFlops的單精度浮點(diǎn)處理性能.最大內(nèi)存達(dá)到384 GB,內(nèi)存類型為DDR4-2133,最大內(nèi)存帶寬為102 GB/s,同時(shí)集成16 GB高帶寬內(nèi)存-MCDRAM(Multi-Channel DRAM),可為內(nèi)存訪問(wèn)密集型的工作負(fù)載提供高達(dá)500 GB/s的可持續(xù)高內(nèi)存帶寬.

      3優(yōu)化策略分析

      3.1向量化優(yōu)化分析

      為了充分發(fā)揮KNL7210超寬的矢量寬度優(yōu)勢(shì),進(jìn)一步提高循環(huán)結(jié)構(gòu)的執(zhí)行效率,對(duì)公式(2)中的高斯數(shù)值積分過(guò)程進(jìn)行向量化優(yōu)化,加速矩陣填充過(guò)程.圖3給出了向量化過(guò)程的偽代碼.

      并行矩量法向量化優(yōu)化前后,利用單個(gè)KNL7210,計(jì)算未知量為58 652的飛機(jī)模型的散射特性,性能的提升情況如表1所示.

      由表1可以得出,向量化后矩陣填充效率提升11.09%.所以,在KNL眾核處理器平臺(tái)進(jìn)行向量化優(yōu)化對(duì)提升程序效率至關(guān)重要.

      3.2 MPI+OpenMP混合編程

      根據(jù)前文分析的矩陣填充算法以及存在的問(wèn)題,綜合考慮實(shí)現(xiàn)數(shù)據(jù)的局部性、提高Cache命中率、降低冗余積分計(jì)算量以及充分利用KNL7210的計(jì)算資源等條件,在MPI進(jìn)程內(nèi)部利用OpenMP共享內(nèi)存的編程方式開(kāi)啟超線程,獲取最優(yōu)性能.

      在該算例中,表2給出了并行矩量法優(yōu)化前后其矩陣填充過(guò)程中的總積分次數(shù)和進(jìn)程間產(chǎn)生的冗余積分情況.由表2的數(shù)據(jù)可得,程序優(yōu)化前冗余比例為70.18%,明顯高于優(yōu)化后冗余積分所占比例,這會(huì)大大影響矩陣填充的速度.表3列出了并行矩量法優(yōu)化前后各部分的計(jì)算時(shí)間情況.由表3可以看出,采用4個(gè)MPI進(jìn)程、矩陣填充和矩陣求解分別開(kāi)啟64和16個(gè)OpenMP線程時(shí),仿真該模型的效率最佳,比優(yōu)化前加速了2.62倍,其中矩陣填充加速了5.81倍.由于該模型的計(jì)算規(guī)模較小,矩陣求解過(guò)程的通信時(shí)間較短,所以,仿真該模型時(shí)矩陣求解過(guò)程的加速效果不明顯.

      4.2飛機(jī)模型Ⅱ的散射特性

      飛機(jī)模型1I的仿真模型如圖7(a)所示,平面入射波頻率為450 MHz(沿機(jī)頭方向),極化方向?yàn)榇怪睒O化,計(jì)算其雙站RCS.該模型被剖分為151 452個(gè)三角形,公共邊個(gè)數(shù)為227 178,故阻抗矩陣大小為227 178x227 178.計(jì)算得到飛機(jī)的3D雙站RCS如圖7(b)所示.圖8給出了飛機(jī)的xoy面和XOZ面的2D雙站RCS結(jié)果.

      表4給出了該算例矩陣填充過(guò)程中的總積分次數(shù)和進(jìn)程間產(chǎn)生的冗余積分情況.由表4的數(shù)據(jù)可得,程序優(yōu)化前冗余比例為73.77%,均高于優(yōu)化后冗余積分所占的比例.矩陣求解部分開(kāi)啟OpenMP線程后,減少了MPI進(jìn)程數(shù);根據(jù)公式(7)得出減少了通信時(shí)間,加速了矩陣求解過(guò)程.表5列出了并行矩量法優(yōu)化前后各部分的計(jì)算時(shí)間情況,其中矩陣填充和矩陣求解每個(gè)節(jié)點(diǎn)使用4個(gè)MPI進(jìn)程、分別開(kāi)啟64和16個(gè)OpenMP線程,可以獲得最優(yōu)性能.該算例中進(jìn)程和線程的最優(yōu)分配策略和上例中的計(jì)算資源分配策略一致.所以,本文中的計(jì)算資源分配策略對(duì)今后矩量法在KNL系列上的優(yōu)化具有重要的借鑒和指導(dǎo)意義.由表5可得,優(yōu)化后矩陣填充速度加速13.27倍,矩陣求解速度加速1.26倍,總的仿真計(jì)算速度加速了3.62倍.程序優(yōu)化后在KNL7210集群上的運(yùn)行性能得到了明顯提升.

      5結(jié)論

      本文基于KNL7210眾核處理器計(jì)算平臺(tái),對(duì)并行矩量法進(jìn)行了優(yōu)化,通過(guò)引入OpenMP共享內(nèi)存的并行編程策略,顯著減少了矩陣填充過(guò)程的冗余積分計(jì)算量,降低了矩陣求解過(guò)程的通信時(shí)間,向量化優(yōu)化進(jìn)一步提高了高斯數(shù)值積分過(guò)程中循環(huán)結(jié)構(gòu)的執(zhí)行效率.通過(guò)對(duì)飛機(jī)模型I和飛機(jī)模型II散射特性的仿真分析,驗(yàn)證了優(yōu)化算法的正確性,并分析了并行矩量法優(yōu)化后其矩陣填充和求解的加速情況.測(cè)試結(jié)果表明,基于KNL7210眾核處理器平臺(tái),優(yōu)化后的并行矩量法各部分計(jì)算均有較好的性能提升,對(duì)后續(xù)在KNL系列平臺(tái)開(kāi)展矩量法研究和優(yōu)化,解決更多具有實(shí)際意義的電磁問(wèn)題奠定了基礎(chǔ).

      阳高县| 隆尧县| 娄烦县| 双辽市| 府谷县| 定州市| 平江县| 子洲县| 三原县| 巴林右旗| 佛冈县| 万全县| 吴忠市| 阿克陶县| 祥云县| 宁河县| 靖安县| 自贡市| 榕江县| 紫阳县| 杂多县| 五寨县| 武清区| 綦江县| 安岳县| 贵定县| 平原县| 高州市| 弋阳县| 来安县| 高碑店市| 乌审旗| 哈巴河县| 永胜县| 汤阴县| 壶关县| 城口县| 新沂市| 耿马| 澄迈县| 河曲县|