• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      登頂超算排行榜的“秘密武器”走近富士通A64FX處理器

      2020-08-11 14:25:30張平
      微型計(jì)算機(jī) 2020年14期
      關(guān)鍵詞:富士通秘密武器內(nèi)存

      張平

      2020年6月,TOP500超算排名更新了最新的一期榜單。在這期榜單中,排名第一的不再是IBM的Summit超算,而是來自日本神戶市的SupercomputerFugaku,其最大計(jì)算能力高達(dá)415530TFLOPS,峰值計(jì)算能力高達(dá)513845.7TFLOPS,遠(yuǎn)遠(yuǎn)超過第二名Summit最大148600TFLOPS和峰值200794.9TFLOPS的能力。值得注意的是,這款超算采用的處理器核心數(shù)量高達(dá)7299072個(gè),也遠(yuǎn)遠(yuǎn)多過Summit和第三名Sierra,后兩者的處理器核心數(shù)量僅為2414592和1572480。換句話來說,F(xiàn)ugaku采用的處理器核心數(shù)量幾乎是Summit和Sierra之和的兩倍,和排名第四的中國超算神威太湖之光的處理器核心數(shù)量10649600相差不遠(yuǎn)。出現(xiàn)這樣巨大差距的原因是Fugaku超算和神威太湖之光并沒有采用加速計(jì)算卡,全部數(shù)據(jù)計(jì)算能力都依靠CPU來完成。相比之下,Summit和Sierra都用了英偉達(dá)的GV100加速卡輔助加速。這樣一來,F(xiàn)ugaku的處理器就頗令人關(guān)注了,而這款帶領(lǐng)Fugaku超算登頂?shù)奶幚砥?,就是日本富士通公司推出的A64FX處理器。

      富士通:低調(diào)的日本處理器巨頭

      說起富士通,大家可能對這家日本企業(yè)沒那么熟悉。富士通實(shí)際上是全球領(lǐng)先的信息通信技術(shù)企業(yè),成立于1935年。目前富士通是日本排名第一的IT廠商,全球第四大IT服務(wù)公司以及第五大服務(wù)器/PC生產(chǎn)商,也是財(cái)富500強(qiáng)。在半導(dǎo)體產(chǎn)業(yè)方面,富士通擁有相對獨(dú)立和完善的產(chǎn)品研發(fā)體系,在商用設(shè)備尤其是大型機(jī)、服務(wù)器等領(lǐng)域有著深厚積累

      富士通比較廣為人知的兩條產(chǎn)品線分別是SPARC64處理器產(chǎn)線和GS21服務(wù)器產(chǎn)品線。其中前者采用的是SUN之前推出的SPARC架構(gòu),目前富士通和SUN聯(lián)合研發(fā)推出了包括SPARC64V、SPARC64V+、SPARC64VI、SPARC64VII、SPARC64X、SPARC64X+以及SPARC64XII等處理器,搭配富士通提供的相關(guān)軟件解決方案。其中最新的M12-2S服務(wù)器可以搭載32顆SPARC64XII處理器,提供32TB的內(nèi)存,主要應(yīng)用在企業(yè)級關(guān)鍵計(jì)算或者云計(jì)算場合,可使用Solaris11或者UNIX操作系統(tǒng),能夠?yàn)槠髽I(yè)級客戶提供大量的管理功能以及高可靠性、兼容性的解決方案。另外,GS21系列產(chǎn)品也是富士通的主打設(shè)備,屬于面向企業(yè)的“事務(wù)處理器”范疇,能夠帶來企業(yè)級別的事務(wù)處理、安全性和穩(wěn)定性應(yīng)用等。

      從市場來看,由于英特爾、ARM等廠商在兼容性和市場拓展方面越來越強(qiáng)大,類似富士通這種采用比較小眾架構(gòu)的產(chǎn)品在終端市場的“蛋糕”有做小的趨勢,尤其是SPARC架構(gòu),富士通自己也承認(rèn)這款架構(gòu)在未來發(fā)展可能存在一些問題。不過,考慮到之前的客戶替換和升級需要,短期內(nèi)富士通堅(jiān)守的商業(yè)和企業(yè)級市場還是存在一些穩(wěn)定客戶的。但古話說“人無遠(yuǎn)慮,必有近憂”,富士通不得不將眼光放長遠(yuǎn)一些,選擇市場上比較通用的架構(gòu)開發(fā)處理器產(chǎn)品,希望能夠在更廣闊的市場中占據(jù)一席之地。

      在思慮再三之后(其實(shí)很大程度上也是沒得選),富士通將目光轉(zhuǎn)向了ARM架構(gòu),推出了ARM架構(gòu)的全新系列產(chǎn)品A64FX。根據(jù)富士通的規(guī)劃,未來富士通的MF、UNIX以及HPC架構(gòu)的產(chǎn)品都將全面轉(zhuǎn)向ARM架構(gòu)的A64FX。2018年富士通在Hotchip上發(fā)布了相關(guān)內(nèi)容,實(shí)際產(chǎn)品在2020年才正式推出。

      富士通A64FX處理器的設(shè)計(jì)理念是面向HPC和AI市場,前者是富士通一貫的優(yōu)勢領(lǐng)域,之前日本最快的超算“京”就采用了富士通SPARC架構(gòu)的處理器產(chǎn)品。不僅如此,這類面向超算的處理器最終都可以進(jìn)一步優(yōu)化后用在企業(yè)級服務(wù)器產(chǎn)品中,也算是“一魚多吃”的方法。在AI市場方面,富士通加強(qiáng)了新處理器在AI計(jì)算方面的能力。A64FX是一個(gè)高吞吐量的處理器,具有四大特點(diǎn):首先是高性能,支持各類HPC和AI計(jì)算,支持FP64/FP32/FP16以及INT64/INT32/INT16/INT8等主流的數(shù)據(jù)格式。其次是高吞吐量,富士通為新處理器加入了512bitSIMD單元并且每個(gè)核心擁有2個(gè)管線,可以實(shí)現(xiàn)極高的數(shù)據(jù)吞吐量,外部緩存方面使用了HBM2,可伸縮性能方面最大可布置48核心,采用Tofu互聯(lián)總線。第三則是高能效比,富士通給出了一些參數(shù),諸如(D|S|H)GEMM>90%、StreamTriad>80%,其每瓦特性能要高于目前的主流通用處理器。第四則是標(biāo)準(zhǔn)化,富士通A64FX采用的是ARMv8.2A架構(gòu)搭配SVE和3級SBSA的設(shè)計(jì),其在兼容性方面做得比較好。

      A64FX:ARM架構(gòu)的高性能產(chǎn)品

      接下來本文將正式開始介紹A64FX處理器。這部分將根據(jù)富士通在之前會議上公布的處理器相關(guān)設(shè)計(jì)內(nèi)容,從宏觀、架構(gòu)設(shè)計(jì)、緩存、內(nèi)存、電源設(shè)計(jì)等方面進(jìn)行解讀。

      宏觀:7nm、87億晶體管

      先來看一些宏觀方面內(nèi)容,A64FX采用的是臺積電的7nm工藝,整個(gè)處理器包含87.86億晶體管,引腳部分擁有594個(gè)信號腳。整個(gè)處理器在指令集方面使用了ARMv8.2A架構(gòu),支持SVE512-bitSIMD,單處理器最多可容納48核心搭配4個(gè)協(xié)處理器,支持最多32GBHBM2緩存,采用的總線被稱為Tofu總線,采用了6DMesh設(shè)計(jì),支持28Gbps、2個(gè)通道、10個(gè)端口的設(shè)計(jì),另外還有PCIe控制器,支持最多16條通道設(shè)計(jì)。

      性能方面,A64FX單處理器的計(jì)算性能不低于2.7TFLOPS,內(nèi)存帶寬可達(dá)1024GB/s。富士通還給出了A64FX與上一代處理器,也就是采用SPRARC架構(gòu)的SPARC64XIFX處理器的性能對比,上代處理器的最大計(jì)算能力僅為1.1TFLOPS,數(shù)據(jù)帶寬也只有240GB/s。相比之下,A64FX的確帶來了性能和規(guī)模上的巨大飛躍。

      另外,富士通還特別介紹了A64FX在性能方面的內(nèi)容,尤其是在SIMD這種單指令多數(shù)據(jù)流計(jì)算上的支持,A64FX支持512bit的SIMD計(jì)算,相比之下,業(yè)內(nèi)目前主流的處理器包括英特爾的AVX512、AMD的Zen架構(gòu)等,都通過增加或者優(yōu)化對512bit寬度的SIMD進(jìn)行支持,富士通的做法大幅度提高了處理器在計(jì)算這類數(shù)據(jù)時(shí)的性能。目前A64FX帶來了包括Four-operandFMA(也就是FMA4)、Gather/Scatter、PredicatedOperations、Math.Acceleration等功能的支持,改善了前代產(chǎn)品對這些AI加速相關(guān)計(jì)算不支持的情況,提高了AI計(jì)算的效率。

      A64FX的架構(gòu)設(shè)計(jì)改進(jìn)

      富士通給出了A64FX的架構(gòu)設(shè)計(jì)簡圖。根據(jù)其介紹,A64FX雖然是ARM架構(gòu)的產(chǎn)品,但是也繼承并增強(qiáng)了之前SPARC64上的一些特征,包括超標(biāo)量、亂序執(zhí)行以及分支預(yù)測部分等。同時(shí)對SIMD和predicateoperations操作進(jìn)行了加強(qiáng)。其中主要的加強(qiáng)就來自于2個(gè)512bit的SIMDFMA管道,predicateoperations處理單元以及4個(gè)ALU,另外數(shù)據(jù)存儲方面還增加了針對2個(gè)管道的512bitSIMD數(shù)據(jù)的存儲和讀取設(shè)計(jì)。富士通給出了一個(gè)架構(gòu)簡圖用于說明哪些部分做出了改進(jìn)。其中包括L1緩存、RSA、RSE部分,A64FX相對上代處理器的改進(jìn)比較少,二包括指令排序部分、Reg-Read部分以及執(zhí)行部分的PRX、FLA、FLB、緩存部分等改進(jìn)較多,另外數(shù)據(jù)Tofu數(shù)據(jù)總線、L2緩存以及HBM2存儲等也都做出了比較明顯的改善。

      富士通將重點(diǎn)放在了對FouroperandFMA的改進(jìn)上。Four-operandFMA也就是常見的FMA4操作實(shí)際上是AMD發(fā)明的,在之前英特爾使用的普遍是FMA3。所謂FMA指令實(shí)際上是AVX指令的一個(gè)分支,用于加強(qiáng)處理器在SIMD乘加方面的能力。FMA3的特點(diǎn)在于能夠?qū)崿F(xiàn)3個(gè)操作數(shù)的一次性處理,AMD隨后發(fā)揚(yáng)光大的FMA4則增加到一次性可以處理4個(gè)操作數(shù)。從實(shí)際應(yīng)用的角度來看,相對來說FMA4整體設(shè)計(jì)更為優(yōu)越、計(jì)算靈活性要更高一些。不過富士通也提出一些自己的優(yōu)化意見,比如FMA中將FMA3換轉(zhuǎn)為FMA4執(zhí)行的“MOVPRFX”指令,可能會帶來性能的負(fù)面影響,但是富士通通過將“MOVPRFX”指令和接下來即將執(zhí)行的指令打包在一起,在主線程上隱蔽了這個(gè)過程,從而帶來了性能提升。

      富士通還展示了在引入更寬的SIMD執(zhí)行通道后性能的變化情況。在執(zhí)行雙精度的64bit數(shù)據(jù)時(shí),A64FX的性能大約在2.7的水平,遠(yuǎn)高于上代產(chǎn)品SPARC64XIFX的1.1,也遠(yuǎn)高于早期SPRAC64VIIIFX的0.128,畢竟后兩者一個(gè)采用的是256bit的SIMD單元,另一個(gè)僅有128bit。在單精度的32bit數(shù)據(jù)處理上也呈現(xiàn)了類似的趨勢,三者的性能對比分別是5.4、2.2和0.128,差距頗大。當(dāng)然在面對INT16、INT8這種前代處理器不能支持的計(jì)算時(shí),A64FX自然就體現(xiàn)出巨大的優(yōu)勢了。

      內(nèi)存和緩存設(shè)計(jì)

      A64FX的L1緩存設(shè)計(jì)主要是針對512bit的SIMD進(jìn)行了優(yōu)化,能夠持續(xù)吞吐512bit-SIMD數(shù)據(jù)并將其送入執(zhí)行引擎架構(gòu)。另外,A64FX的緩存還能夠針對那些沒有對齊的SIMD負(fù)載進(jìn)行操作,使其輸出的數(shù)據(jù)可以直接被一次性處理而不用再度對齊,這樣的操作提高了效率并節(jié)省了時(shí)間。

      另外L1緩存的優(yōu)化在于使用了名為“CombinedGather”的機(jī)制,這可以大幅度增加數(shù)據(jù)吞吐量,這種機(jī)制主要對HPC非常重要。簡單來說,“CombinedGather”可以將散落在內(nèi)存各個(gè)地方的不同但是又相關(guān)的數(shù)據(jù)流收集在一起,并整理到寄存器中,方便處理器在下一步操作時(shí)直接使用,而不需要不斷地查找等待數(shù)據(jù)。根據(jù)富士通提供的數(shù)據(jù),使用了“CombinedGather”的系統(tǒng)相比沒有這個(gè)技術(shù)的系統(tǒng),其每個(gè)核心的吞吐能力提高了1倍。

      另外一個(gè)重點(diǎn)在于超多核心處理器的內(nèi)存實(shí)現(xiàn)方面。在A64FX上,有關(guān)這部分的核心設(shè)計(jì)被稱為CMG,也就是核心內(nèi)存組。一個(gè)CMG包含了13個(gè)處理器核心,其中12個(gè)會用做計(jì)算核心,另外一個(gè)則專門用于為12個(gè)核心進(jìn)行相關(guān)進(jìn)程守護(hù)、IO調(diào)配、內(nèi)存數(shù)據(jù)處理等操作。所有13個(gè)核心的數(shù)據(jù)都通過一個(gè)被稱為X-Bar的中轉(zhuǎn)站連接至8MB16way的L2緩存上,然后再通過每個(gè)CMG的HMB2內(nèi)存控制器連接到一個(gè)獨(dú)立的HBM2內(nèi)存顆粒上。整個(gè)A64FX處理器的內(nèi)部有4個(gè)CMG,也就對應(yīng)了4個(gè)HBM2內(nèi)存和相關(guān)的內(nèi)存控制器。這4個(gè)CMG之間的通訊采用了環(huán)形總線的設(shè)計(jì),包括4個(gè)CMG、Tofu控制器、PCIe控制器以及其他部件等都通過環(huán)形總線交換數(shù)據(jù)。

      從產(chǎn)品設(shè)計(jì)的角度來看,A64FX的這種環(huán)形總線設(shè)計(jì)方案和英特爾目前在處理器上使用的環(huán)形總線設(shè)計(jì)方案有一定的相似性,所有內(nèi)核數(shù)據(jù)交換都是通過環(huán)形總線來完成的,這是一種簡潔實(shí)現(xiàn)多核心之間數(shù)據(jù)互通的結(jié)構(gòu)。但是有所不同的是,英特爾在環(huán)形總線上直接掛接的是CPU、GPU等核心,但A64FX則掛接的是CMG處理器簇,這意味著兩個(gè)不同的處理器簇之間的通訊在最惡劣的情況下將帶來巨大的延遲。比如恰好在環(huán)形總線相對方向的2個(gè)CMG簇需要通訊的話,數(shù)據(jù)不得不穿透每一個(gè)GCM的X-Bar、L2、環(huán)形總線控制器/數(shù)據(jù)接口以及忍受環(huán)形總線上數(shù)據(jù)等待和傳遞的時(shí)間。另外,由于不同的HBM2內(nèi)存塊掛接在不同的GCM上,這意味著整個(gè)處理器實(shí)際上被分成了4各部分。每個(gè)CMG有自己的內(nèi)存空間和內(nèi)存控制器,不同CGM之間的內(nèi)存數(shù)據(jù)互通又需要通過環(huán)形總線和內(nèi)存控制器才能共享,這同樣帶來了巨大的延遲,這點(diǎn)非常考驗(yàn)富士通在處理器內(nèi)部通訊方面的設(shè)計(jì)。富士通在內(nèi)部架構(gòu)設(shè)計(jì)中比較出色(且奢侈)的做法是,為每個(gè)CMG單獨(dú)使用了一個(gè)處理器核心來協(xié)調(diào)數(shù)據(jù)通訊的問題,但是這樣做的效能和延遲表現(xiàn)究竟如何,現(xiàn)在還沒有更多的數(shù)據(jù)可以供參考??偟膩砜?,A64FX的設(shè)計(jì)可以說是比較取巧的,避免了很多復(fù)雜的設(shè)計(jì)問題,比如緩存一致性、內(nèi)存一致性等,代價(jià)就是延遲或者損失了一個(gè)處理器的核心。最終效能如何,還有待觀察。

      再來看看有關(guān)HBM2內(nèi)存的設(shè)計(jì)。富士通公布了每個(gè)CMG和HBM2之間的帶寬情況,每個(gè)CMG內(nèi)部層級最高的是核心,接下來是L1緩存。L1緩存寫入核心的帶寬為230GB/s,核心寫入L1緩存的帶寬為115GB/s。相應(yīng)的,L2緩存寫入L1緩存的帶寬是115GB/s,L1緩存寫入L2緩存的帶寬則降低至57GB/s。最后一個(gè)層級是8GB的HBM2,這個(gè)層級和8MBL2寫入讀取的帶寬都是256GB/s??梢钥闯?,除了L2和HBM2內(nèi)存外,L1和核心、L2和L1之間的數(shù)據(jù)帶寬都是非對稱的。另外,富士通還特別指出,包括內(nèi)核、緩存、內(nèi)存控制器中都引入了亂序執(zhí)行機(jī)制,最大化了每一個(gè)數(shù)據(jù)層級的讀寫能力。一般來說,亂序執(zhí)行能力能夠根據(jù)現(xiàn)行任務(wù)的緊急程度排序情況來提供數(shù)據(jù),而不是再是根據(jù)時(shí)間進(jìn)行排序,這在很大程度上帶來了數(shù)據(jù)效率的提升。A64FX在這里使用了亂序執(zhí)行的方法還是值得肯定的。

      猜你喜歡
      富士通秘密武器內(nèi)存
      秘密武器
      “春夏秋冬”的內(nèi)存
      它們有秘密武器
      “瘋狂”的富士通
      富士通將軍空調(diào)講壇挺進(jìn)長沙
      基于內(nèi)存的地理信息訪問技術(shù)
      大嘴鴨的秘密武器
      上網(wǎng)本為什么只有1GB?
      秘密武器
      富士通的神話
      棋藝(2001年17期)2001-01-06 19:08:12
      宁陵县| 铁岭县| 南岸区| 禹城市| 勃利县| 红桥区| 华池县| 临沧市| 南乐县| 墨脱县| 永川市| 道真| 册亨县| 宜君县| 旬阳县| 日土县| 郴州市| 登封市| 彝良县| 固镇县| 古交市| 永靖县| 延吉市| 双桥区| 乐山市| 平凉市| 隆安县| 巴彦淖尔市| 闽清县| 大厂| 长汀县| 高要市| 新巴尔虎左旗| 石城县| 惠来县| 拜泉县| 濮阳市| 德州市| 九江市| 黄石市| 香港 |