基于KNL眾核處理器平臺(tái)的并行矩量法性能優(yōu)化

2019-06-11 09:53顧宗靜趙勛旺劉瑩玉林中朝張玉趙玉萍

華東師范大學(xué)學(xué)報(bào)（自然科學(xué)版） 2019年1期

顧宗靜趙勛旺劉瑩玉林中朝張玉趙玉萍

摘要：基于Intel第二代Xeon Phi代號(hào)為Knights Landing（KNL）眾核處理器平臺(tái)，利用MPI+OpenMP混合編程策略對(duì)并行矩量法（Method of Moments，MoM）進(jìn)行了優(yōu)化.利用OpenMP編程技術(shù)和KNL的計(jì)算資源，提高了CPU（center Processing Unit）使用率;線程的引入，大幅度減少了矩陣填充過(guò)程中進(jìn)程間的冗余積分;為發(fā)揮KNL的512位矢量寬度優(yōu)勢(shì)，通過(guò)向量化優(yōu)化進(jìn)一步提高了循環(huán)結(jié)構(gòu)的執(zhí)行效率;對(duì)計(jì)算密集型、CPU利用率高的矩陣求解過(guò)程，通過(guò)引入的OpenMP編程策略，減少了MPI（Message Passing Interface）通信時(shí)間，加速了求解.數(shù)值結(jié)果表明，通過(guò)在KNL眾核處理器平臺(tái)上的優(yōu)化，可以極大地提升矩量法計(jì)算復(fù)雜電磁問(wèn)題的效率.

關(guān)鍵詞：眾核處理器;MPI+OpenMP;

并行矩量法;

向量化

中圖分類號(hào)：TN820 文獻(xiàn)標(biāo)志碼：A DOI：10.3969/j.issn.1000-5641.2019.01.012

0引言

隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展，針對(duì)高度并行工作負(fù)載而設(shè)計(jì)的一種新型處理器，即眾核處理器，依靠其集成的大量計(jì)算單元，展現(xiàn)出強(qiáng)大的數(shù)據(jù)處理能力，在高性能計(jì)算領(lǐng)域發(fā)揮著越來(lái)越重要的作用.與傳統(tǒng)通用多核處理器相比，眾核處理器具有成本低、功耗小等顯著優(yōu)勢(shì).同時(shí)其優(yōu)勢(shì)還在于集成的核心數(shù)量超出同期通用多核處理器一個(gè)數(shù)量級(jí)，在處理計(jì)算密集型、數(shù)據(jù)密集型任務(wù)時(shí)，例如求解矩量法生成的復(fù)數(shù)稠密矩陣，能夠展現(xiàn)出強(qiáng)大的優(yōu)勢(shì).

近年來(lái)，國(guó)內(nèi)已有若干利用眾核處理器加速矩量法的文獻(xiàn)，并且取得了較好的成果.但是，這些文獻(xiàn)中利用的眾核處理器都是作為協(xié)處理器出現(xiàn)的，如CPU/MIC異構(gòu)并行矩量法的研究，由CPU控制任務(wù)分配和數(shù)據(jù)傳輸，同時(shí)也負(fù)責(zé)部分計(jì)算任務(wù)，將高并發(fā)度的代碼段在MIC（Many Integrated Core）協(xié)處理器執(zhí)行，達(dá)到加速并行矩量法的目的.但是，CPU與MIC協(xié)處理之間的通信都是通過(guò)PCI-EfPeripheral Component Interconnect Express）接口實(shí)現(xiàn)的，通信速率較慢，限制了計(jì)算性能的提升;盡管MIC協(xié)處理器具有獨(dú)立的內(nèi)存和存儲(chǔ)，但容量一般都較小，因此異構(gòu)協(xié)同計(jì)算能解決的實(shí)際問(wèn)題受到協(xié)處理器存儲(chǔ)容量的限制.針對(duì)上述問(wèn)題，Intel于2016年推出了全新一代至強(qiáng)融核處理器，代號(hào)為“騎士登陸”（KNL），通過(guò)消除對(duì)PCI-E總線的依賴，提供更高的可擴(kuò)展性，應(yīng)對(duì)更廣泛的工作負(fù)載和配置.所以，并行矩量法在KNL眾核處理器平臺(tái)上的計(jì)算和優(yōu)化具有很高的研究?jī)r(jià)值.

KNL眾核處理器是Intel首款專門針對(duì)高度并行工作負(fù)載而設(shè)計(jì)的可獨(dú)立自啟動(dòng)的主處理器：能效型集成架構(gòu)提供了比類似平臺(tái)高得多的單元計(jì)算能力，有效減少了計(jì)算成本;內(nèi)存和結(jié)構(gòu)的集成最大限度地提升了內(nèi)存容量，并首次實(shí)現(xiàn)了內(nèi)存與高速互連技術(shù)的集成，為大規(guī)模并行和矢量化服務(wù)提供了有效平臺(tái).

為了充分利用KNL的眾核計(jì)算資源以及發(fā)揮其超寬的矢量寬度優(yōu)勢(shì)，本文基于KNL眾核處理器平臺(tái)對(duì)并行矩量法程序開(kāi)展了優(yōu)化工作;通過(guò)與商業(yè)軟件計(jì)算結(jié)果的對(duì)比，驗(yàn)證了優(yōu)化算法的正確性;利用KNL計(jì)算集群，仿真了未知量超過(guò)20萬(wàn)的飛機(jī)模型的散射特性，程序優(yōu)化后的性能有較大提升.值得指出的是，并行矩量法在KNL眾核處理器平臺(tái)上的計(jì)算和優(yōu)化此前尚未見(jiàn)有公開(kāi)的文獻(xiàn)報(bào)道.

1并行矩量法

1.1矩陣填充分析

本文中矩量法采用的基函數(shù)為RWGfRao-Wilton-Glisson）基函數(shù)，是現(xiàn)今廣泛使用的一種矩量法基函數(shù)，它被定義在具有公共邊的兩個(gè)相鄰三角形上，可模擬任意形狀物體的表面電、磁流分布，采用伽遼金方法可得到矩量法矩陣方程

2計(jì)算平臺(tái)簡(jiǎn)介

本文使用的KNL眾核處理器編號(hào)為7210（簡(jiǎn)稱KNL7210），采用Slivermont的微架構(gòu)和光刻14 am工藝，處理器基本頻率為1.3 GHz，擁有64核，每核支持四線程，即總計(jì)256個(gè)線程.每個(gè)處理器有32個(gè)核片，每個(gè)核片由兩個(gè)核組成，并共享1 MB二級(jí)緩存，每個(gè)核心內(nèi)搭載兩個(gè)512位寬的VPU（Vector Processing Units），可以同時(shí)處理8個(gè)雙精度浮點(diǎn)或者16個(gè)單精度浮點(diǎn)運(yùn)算，超寬的矢量寬度，提高了高度并行計(jì)算性能的標(biāo)準(zhǔn).

單個(gè)KNL7210能提供超過(guò)3 TFlops的雙精度浮點(diǎn)處理性能或大于6 TFlops的單精度浮點(diǎn)處理性能.最大內(nèi)存達(dá)到384 GB，內(nèi)存類型為DDR4-2133，最大內(nèi)存帶寬為102 GB/s，同時(shí)集成16 GB高帶寬內(nèi)存-MCDRAM（Multi-Channel DRAM），可為內(nèi)存訪問(wèn)密集型的工作負(fù)載提供高達(dá)500 GB/s的可持續(xù)高內(nèi)存帶寬.

3優(yōu)化策略分析

3.1向量化優(yōu)化分析

為了充分發(fā)揮KNL7210超寬的矢量寬度優(yōu)勢(shì)，進(jìn)一步提高循環(huán)結(jié)構(gòu)的執(zhí)行效率，對(duì)公式（2）中的高斯數(shù)值積分過(guò)程進(jìn)行向量化優(yōu)化，加速矩陣填充過(guò)程.圖3給出了向量化過(guò)程的偽代碼.

并行矩量法向量化優(yōu)化前后，利用單個(gè)KNL7210，計(jì)算未知量為58 652的飛機(jī)模型的散射特性，性能的提升情況如表1所示.

由表1可以得出，向量化后矩陣填充效率提升11.09%.所以，在KNL眾核處理器平臺(tái)進(jìn)行向量化優(yōu)化對(duì)提升程序效率至關(guān)重要.

3.2 MPI+OpenMP混合編程

根據(jù)前文分析的矩陣填充算法以及存在的問(wèn)題，綜合考慮實(shí)現(xiàn)數(shù)據(jù)的局部性、提高Cache命中率、降低冗余積分計(jì)算量以及充分利用KNL7210的計(jì)算資源等條件，在MPI進(jìn)程內(nèi)部利用OpenMP共享內(nèi)存的編程方式開(kāi)啟超線程，獲取最優(yōu)性能.

在該算例中，表2給出了并行矩量法優(yōu)化前后其矩陣填充過(guò)程中的總積分次數(shù)和進(jìn)程間產(chǎn)生的冗余積分情況.由表2的數(shù)據(jù)可得，程序優(yōu)化前冗余比例為70.18%，明顯高于優(yōu)化后冗余積分所占比例，這會(huì)大大影響矩陣填充的速度.表3列出了并行矩量法優(yōu)化前后各部分的計(jì)算時(shí)間情況.由表3可以看出，采用4個(gè)MPI進(jìn)程、矩陣填充和矩陣求解分別開(kāi)啟64和16個(gè)OpenMP線程時(shí)，仿真該模型的效率最佳，比優(yōu)化前加速了2.62倍，其中矩陣填充加速了5.81倍.由于該模型的計(jì)算規(guī)模較小，矩陣求解過(guò)程的通信時(shí)間較短，所以，仿真該模型時(shí)矩陣求解過(guò)程的加速效果不明顯.

4.2飛機(jī)模型Ⅱ的散射特性

飛機(jī)模型1I的仿真模型如圖7（a）所示，平面入射波頻率為450 MHz（沿機(jī)頭方向），極化方向?yàn)榇怪睒O化，計(jì)算其雙站RCS.該模型被剖分為151 452個(gè)三角形，公共邊個(gè)數(shù)為227 178，故阻抗矩陣大小為227 178x227 178.計(jì)算得到飛機(jī)的3D雙站RCS如圖7（b）所示.圖8給出了飛機(jī)的xoy面和XOZ面的2D雙站RCS結(jié)果.

表4給出了該算例矩陣填充過(guò)程中的總積分次數(shù)和進(jìn)程間產(chǎn)生的冗余積分情況.由表4的數(shù)據(jù)可得，程序優(yōu)化前冗余比例為73.77%，均高于優(yōu)化后冗余積分所占的比例.矩陣求解部分開(kāi)啟OpenMP線程后，減少了MPI進(jìn)程數(shù);根據(jù)公式（7）得出減少了通信時(shí)間，加速了矩陣求解過(guò)程.表5列出了并行矩量法優(yōu)化前后各部分的計(jì)算時(shí)間情況，其中矩陣填充和矩陣求解每個(gè)節(jié)點(diǎn)使用4個(gè)MPI進(jìn)程、分別開(kāi)啟64和16個(gè)OpenMP線程，可以獲得最優(yōu)性能.該算例中進(jìn)程和線程的最優(yōu)分配策略和上例中的計(jì)算資源分配策略一致.所以，本文中的計(jì)算資源分配策略對(duì)今后矩量法在KNL系列上的優(yōu)化具有重要的借鑒和指導(dǎo)意義.由表5可得，優(yōu)化后矩陣填充速度加速13.27倍，矩陣求解速度加速1.26倍，總的仿真計(jì)算速度加速了3.62倍.程序優(yōu)化后在KNL7210集群上的運(yùn)行性能得到了明顯提升.

5結(jié)論

本文基于KNL7210眾核處理器計(jì)算平臺(tái)，對(duì)并行矩量法進(jìn)行了優(yōu)化，通過(guò)引入OpenMP共享內(nèi)存的并行編程策略，顯著減少了矩陣填充過(guò)程的冗余積分計(jì)算量，降低了矩陣求解過(guò)程的通信時(shí)間，向量化優(yōu)化進(jìn)一步提高了高斯數(shù)值積分過(guò)程中循環(huán)結(jié)構(gòu)的執(zhí)行效率.通過(guò)對(duì)飛機(jī)模型I和飛機(jī)模型II散射特性的仿真分析，驗(yàn)證了優(yōu)化算法的正確性，并分析了并行矩量法優(yōu)化后其矩陣填充和求解的加速情況.測(cè)試結(jié)果表明，基于KNL7210眾核處理器平臺(tái)，優(yōu)化后的并行矩量法各部分計(jì)算均有較好的性能提升，對(duì)后續(xù)在KNL系列平臺(tái)開(kāi)展矩量法研究和優(yōu)化，解決更多具有實(shí)際意義的電磁問(wèn)題奠定了基礎(chǔ).

華東師范大學(xué)學(xué)報(bào)（自然科學(xué)版）2019年1期

華東師范大學(xué)學(xué)報(bào)（自然科學(xué)版）的其它文章: 一類截尾穩(wěn)定過(guò)程驅(qū)動(dòng)的SIS傳染病模型; 基于分層貝葉斯模型的損失準(zhǔn)備金估計(jì); 一類四階偏微分方程的李對(duì)稱分析、Backlund變換及其精確解; 帶有線性記憶的plate方程隨機(jī)吸引子的上半連續(xù)性; 最大度為7的哈林圖的L(2，1)一標(biāo)號(hào); 一種基于sysML/MARTE/pCCsL的信息物理融合系統(tǒng)協(xié)同建模方法

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于KNL眾核處理器平臺(tái)的并行矩量法性能優(yōu)化