水滴
AMD的CPU發(fā)展之路近些年來一直不是很順利,旗下處理器產(chǎn)品仍然在計算性能上處于落后局面。不過AMD也在積極努力改善情況,在“推土機”之后,AMD又進行研發(fā)改進,推出了全新的“打樁機”處理器,這一次,AMD的表現(xiàn)又該如何呢?
“推土機”架構(gòu)的問題
AMD的“推土機”架構(gòu)發(fā)布后,高功耗、高頻率和達不到預(yù)期的性能令A(yù)MD高端CPU產(chǎn)品線上顯得頗為尷尬。雖然從架構(gòu)來說,“推土機”的確是一款革命性的產(chǎn)品,模塊化設(shè)計、單模塊雙物理核心、靈活多變的浮點計算單元方案等都是創(chuàng)新技術(shù)。奈何功力不夠,“推土機”架構(gòu)的實際產(chǎn)品性能表現(xiàn)還是差了一些火候。從宏觀來看,如果“推土機”架構(gòu)解決了工藝問題以及緩存延遲、數(shù)據(jù)命中率等諸多核心問題,再在架構(gòu)上做出一定優(yōu)化,CPU的性能得到大幅度提升也不是不可能。但AMD并沒有這么多時間,一方面英特爾按部就班的推出自己的新產(chǎn)品,“推土機”發(fā)展的一代時間中,英特爾已經(jīng)從Sandy Bridge進步到了Ivy Bridge,工藝也從32nm進步到了22nm的3D晶體管,而英特爾下一代的Haswell也將在2013年初登場,AMD沒有也不可能有太多時間來大幅度改進CPU設(shè)計,因此只能在“推土機”的基礎(chǔ)上進行小改動,先把最急需解決的問題解決,讓新的“打樁機”相比“推土機”性能有一定提升,扭轉(zhuǎn)目前競爭不利的態(tài)勢再說。
這就是“打樁機”架構(gòu)出現(xiàn)的背景??偟膩砜矗按驑稒C”架構(gòu)在“推土機”架構(gòu)的基礎(chǔ)上,做了一些小修小補的必要改進,一些重要部分“打樁機”架構(gòu)和“推土機”架構(gòu)基本上是完全相同的,包括內(nèi)部的模塊化設(shè)計、每個模塊兩個整數(shù)核心以及一個共享的256bit浮點核心都沒有什么改變。AMD在“打樁機”架構(gòu)上的主要任務(wù)是提升IPC(每周期指令)性能,讓CPU內(nèi)部處理效率更高,同時AMD還需要改進32nm工藝,讓“打樁機”架構(gòu)的實際產(chǎn)品能夠運行在更高頻率上,用更高頻率換取CPU的更好性能,贏得更多的競爭空間。
頻率提升很重要
AMD在資源有限的情況下,盡可能的對“推土機”架構(gòu)做出了調(diào)整,以獲取更高的性能。在所有的技術(shù)改進中,目前AMD能使用的最有效、最直接的就是提升頻率。AMD采用了三種方法來提升“打樁機”架構(gòu)實際產(chǎn)品的頻率表現(xiàn)。第一種方法就是改進現(xiàn)有的32nm SOI工藝。AMD在制造工藝上落后英特爾整整一代,因此只能使用比較老舊的32nm抗衡英特爾的22nm 3D晶體管。不過這并不代表AMD的CPU頻率無法提高。AMD經(jīng)過改進后的32nm SOI工藝漏電率更低,發(fā)熱也隨之降低,CPU運行頻率能提升得更高。第二種方法是采用了名為“Resonant Clock Mesh”諧振時鐘網(wǎng)絡(luò)的技術(shù)來輔助頻率提升。這項技術(shù)能夠使CPU頻率提升10%,或者在同頻率下降低10%的功耗,特別是時鐘分派功耗降低24%。諧振時鐘網(wǎng)絡(luò)技術(shù)的目的在于新建一個高性能的片內(nèi)電感器,并利用這個新的電感器建立振蕩回路,從而更為精確的控制時鐘功耗,并節(jié)約一部分電能。第三個則是全新的Turbo Core 3.0技術(shù)。一般來說,CPU所有的部件并不是在任何時候都處于滿載狀態(tài),這就為頻率控制技術(shù)留下了一定的空間。頻率控制技術(shù)可以將非工作狀態(tài)的CPU內(nèi)部部件的TDP“讓渡”給那些滿載工作狀態(tài)的部件,令其提升頻率并盡可能快的完成工作任務(wù),從而達到提升效能的目的。為了達到這個目的,AMD在打樁機的每個模塊中都加入了自己獨立的功率檢測器,所有的功率檢測器將實時動態(tài)監(jiān)測CPU各個部分的功率,將所有的功耗數(shù)據(jù)和TDP相比較,并反饋給P-state Manager進行管理,當(dāng)P-state Manager發(fā)現(xiàn)CPU的實際功耗小于TDP時,則自動提升頻率,讓工作任務(wù)更塊完成。在實際操作中,Turbo Core 3.0完全無需人工干預(yù),它會根據(jù)產(chǎn)品類型和使用環(huán)境,對單模塊、雙模塊、多模塊進行動態(tài)調(diào)整。Turbo Core 3.0能夠提升APU性能大約5%,在某些特定環(huán)境下有可能更高。
指令效率要更高
AMD的“推土機”架構(gòu)的問題在于指令效率比較低,因此在“打樁機”架構(gòu)中AMD也從這方面做出了改進。AMD首先改進的是“打樁機”架構(gòu)的分支預(yù)測系統(tǒng),“打樁機”架構(gòu)以分段的方式增加了整體分支預(yù)測的成功率。此外,“打樁機”架構(gòu)還可以將之前的分支預(yù)測數(shù)據(jù)暫存在寄存器中,借此提高分支預(yù)測的能力??偟膩砜础按驑稒C”在架構(gòu)指令預(yù)測方面命中率更高。為了進一步提升指令性能,AMD還為打樁機架構(gòu)增加了指令窗口的大小,這可以讓CPU處理更大的指令組。最終結(jié)果是,“打樁機”架構(gòu)的指令解碼寬度為4路,在單核心和單模組模式下,可以最多同時處理4條指令,在雙模組時最多可以處理8條。另外,AMD還加入了新的指令集來提高執(zhí)行效率。新加入用于乘加計算的FMA3指令、用于16bit的浮點轉(zhuǎn)換的F16C指令以及之前就支持的FMA4,“打樁機”架構(gòu)堪稱得到了目前最齊全的架構(gòu)指令支持。
內(nèi)存延遲也要降低
緩存延遲和內(nèi)存延遲是“推土機”架構(gòu)相當(dāng)明顯的軟肋,“打樁機”架構(gòu)雖然無法做到徹底更改,但還是做出了很多重要改進。有關(guān)這一點AMD沒有給出具體資料,只是宣稱自己在緩存讀取延遲和存儲預(yù)取功能等部分做出了有益的改進,讓“打樁機”架構(gòu)實際產(chǎn)品的性能表現(xiàn)更好。其余的改進還包括“打樁機”架構(gòu)的讀取/存儲單元的延遲,比如改進存儲-讀取的排隊序列,這樣可以降低預(yù)測編譯部分的工作請求,并降低負載和壓力。L1緩存的轉(zhuǎn)移指令緩沖區(qū)(Translation Lookaside Buffer,簡稱為TLB)通道增加到64個,是上代產(chǎn)品Llano的2倍。
一些測試表明,“打樁機”架構(gòu)的延遲比“推土機”架構(gòu)明顯要小,但是小得很有限,不過這也能帶來比較明顯的性能提升??磥鞟MD在無法徹底更改CPU架構(gòu)的情況下,是很難做到大幅度、革命性的性能改進了?!按驑稒C”架構(gòu)始終只是“推土機”架構(gòu)的小幅度性能改進版本。
打樁機架構(gòu)的具體產(chǎn)品
說了這么多打樁機架構(gòu)本身的信息,接下來一起看看實際產(chǎn)品的情況?!按驑稒C”架構(gòu)的實際產(chǎn)品采用32nm SOI工藝制造,總共擁有12億晶體管,核心面積315平方毫米,每模塊二級緩存為2MB,三級緩存為共享的8MB。這些規(guī)格參數(shù)和“推土機”架構(gòu)的產(chǎn)品都基本相同。目前AMD推出的采用“打樁機”架構(gòu)的具體產(chǎn)品有FX-8350、FX-8320、FX-6300和FX-4300四款,其余還有諸如FX-8300、FX-6350等暫時沒有零售產(chǎn)品出現(xiàn)。所有的采用“打樁機”架構(gòu)的處理器都支持雙通道DDR3 1866內(nèi)存,采用AM3+接口。內(nèi)置四核模塊到雙模塊不等,核心數(shù)量也從八個到四個不等。
從實際產(chǎn)品來看,AMD認為“打樁機”架構(gòu)依舊不能和英特爾高端產(chǎn)品抗衡,因此在價格和競爭產(chǎn)品上表現(xiàn)得很謹(jǐn)慎。比如FX-8350競爭對手為Core i5-3570K,F(xiàn)X-4300的競爭對手為Core i3 2120。AMD依舊試圖用高頻率、多核心來對抗英特爾的相關(guān)產(chǎn)品,力求在同樣價格上以更高的性能和更多可玩性(比如開放超頻)來吸引用戶??偟膩砜矗珹MD還需要在CPU研發(fā)上投入更多精力,并且在工藝制造方面不要被英特爾拉下太遠,像目前這樣無論是CPU架構(gòu)還是工藝都落后太多的情況實在是不容樂觀?!按驑稒C”只是AMD在激烈競爭中的一個權(quán)宜之計,只能暫時緩解緊迫的競爭形勢,真正能讓AMD喘口氣翻身的產(chǎn)品還沒有出現(xiàn),目前只有拭目以待下一代“壓路機”架構(gòu)的表現(xiàn)能否足夠給力了。