馬點(diǎn)秋
英偉達(dá)首席執(zhí)行官黃仁勛
最近,百度推出的“AI作畫”首款產(chǎn)品文心·一格正式上線,掀起了一陣“你說(shuō)我畫”的熱潮:用戶只要輸入一段文字,就能一鍵生成各式各樣瑰麗絢爛的畫作。
不僅是“一鍵作詩(shī)”“一鍵作畫”,AI熱潮席卷之下,從“阿爾法狗”到L4級(jí)別的自動(dòng)駕駛訓(xùn)練,乃至對(duì)新冠藥物的分子動(dòng)力學(xué)模擬與病毒機(jī)制的分析,都離不開AI技術(shù)的助力。
然而,美國(guó)芯片巨頭英偉達(dá)8月31日公告稱,其被美國(guó)政府要求,限制向中國(guó)出口用于加速AI訓(xùn)練任務(wù)的最新兩代旗艦GPU計(jì)算芯片—A100和H100。另一芯片巨頭AMD的數(shù)據(jù)中心級(jí)GPU—MI100與MI200,也同樣遭到限制。
那么,AI加速芯片和GPU到底是什么,為何如此重要?
GPU即圖形處理器,由英偉達(dá)在1999年發(fā)布GeForce 256時(shí)提出,一直沿用至今。對(duì)應(yīng)于CPU“中央處理器”的名稱,GPU的雛形“圖形加速卡”在上世紀(jì)80年代的雅達(dá)利2600游戲機(jī)上誕生之初,便是為了彌補(bǔ)CPU進(jìn)行圖形處理時(shí)遇到的性能瓶頸而生。
CPU的設(shè)計(jì)理念基于馮·諾依曼架構(gòu),經(jīng)過(guò)內(nèi)存讀取—轉(zhuǎn)譯—運(yùn)算—輸出等步驟處理數(shù)據(jù),以低延遲為導(dǎo)向,專為串行處理而優(yōu)化。這樣的設(shè)計(jì)理念讓CPU中的核心數(shù)較少,且絕大多數(shù)的晶體管都用在了控制電路和高速緩存上,用來(lái)完成實(shí)際運(yùn)算的晶體管只占少數(shù)。這就限制了其進(jìn)行大規(guī)模并行計(jì)算的性能。
而在3D圖形運(yùn)算中,往往需要對(duì)模型的每一個(gè)頂點(diǎn)進(jìn)行同樣的坐標(biāo)變換,或是對(duì)每一個(gè)頂點(diǎn)按照同樣的光照模型計(jì)算顏色值—這樣的運(yùn)算雖然簡(jiǎn)單,但需要計(jì)算的次數(shù)非常龐大,讓早期的單核CPU叫苦不迭,專為圖形計(jì)算進(jìn)行優(yōu)化的GPU設(shè)計(jì)理念就此誕生。
與CPU努力降低延遲不同,GPU以數(shù)據(jù)吞吐量為導(dǎo)向,由成千上萬(wàn)個(gè)更小、更高效的“小核”構(gòu)成,專為處理并行任務(wù)而設(shè)計(jì)。形象地說(shuō),CPU的核心就像餐館里的“大廚”,負(fù)責(zé)各類復(fù)雜任務(wù)的處理和調(diào)配;而GPU的核心就像“小工”,以人海戰(zhàn)術(shù)高效處理各類簡(jiǎn)單任務(wù)。兩者各司其職,構(gòu)成了如今高性能計(jì)算機(jī)的基礎(chǔ)。
GPU的發(fā)展史,基本上就是英偉達(dá)的發(fā)家史。
1993年,祖籍中國(guó)浙江、出生于寶島臺(tái)灣的黃仁勛剛及而立之年。他在斯坦福大學(xué)求學(xué)期間,為了追求喜歡的女孩,提出了30歲會(huì)成立自己公司的承諾。隨后女友變成了妻子,黃仁勛也如約在1993年8月與另外兩個(gè)伙伴共同創(chuàng)立了英偉達(dá),并擔(dān)任CEO。
CPU的核心就像餐館里的“大廚”,而GPU的核心就像“小工”,以人海戰(zhàn)術(shù)高效處理各類簡(jiǎn)單任務(wù)。
2021 ChinaJoyAMD展臺(tái)
他不知道的是,這家公司的市值將在2022年初超越臺(tái)積電和三星,成為全球市值最高的半導(dǎo)體公司,相當(dāng)于4個(gè)英特爾或高通。而作為芯片公司中為數(shù)不多白手起家的企業(yè),英偉達(dá)的起步無(wú)疑是極為艱難的。黃仁勛在一次演講中說(shuō):“創(chuàng)立公司時(shí),我清楚地記得當(dāng)時(shí)兜里只有200美元,而市場(chǎng)上當(dāng)時(shí)已有250個(gè)競(jìng)爭(zhēng)對(duì)手?!?h3>碰壁后,迎合市場(chǎng)主流
彼時(shí),圖形顯示領(lǐng)域的大哥ATI(后來(lái)被AMD收購(gòu))已成立多年,而諸如3dfx等后起之秀也層出不窮。眾多風(fēng)投公司判斷,圖形顯示市場(chǎng)已基本飽和,再成立類似公司前景不明朗。
然而,初出茅廬的英偉達(dá)潛心打磨兩年,還是推出了旗下第一款面向游戲主機(jī)的顯示芯片NV1。NV1集成了當(dāng)時(shí)最大最全的游戲方案,不僅同時(shí)支持2D、3D處理能力,甚至還集成了音頻處理功能,為當(dāng)時(shí)競(jìng)爭(zhēng)趨近白熱化的游戲主機(jī)市場(chǎng),帶來(lái)了“保姆級(jí)”一站式解決方案,理論上應(yīng)該成為某款傳奇游戲主機(jī)的心臟,來(lái)大放異彩。
2022年世界人工智能大會(huì)
一款成功的硬件產(chǎn)品,首先要符合市場(chǎng)主流的技術(shù)標(biāo)準(zhǔn)和規(guī)范。
然而,NV1為了用更少的計(jì)算量實(shí)現(xiàn)更光滑的3D效果,選擇了方形繪圖的渲染架構(gòu)。不巧的是,在NV1發(fā)布的同一年,微軟發(fā)布了沿用至今的DirectX API圖形標(biāo)準(zhǔn)的前身—Direct3D,加上此前的OpenGL(用于渲染2D、3D矢量圖形的應(yīng)用程序編程接口)都采用了三角形繪圖渲染,這意味著NV1與業(yè)界的通用標(biāo)準(zhǔn)完全無(wú)法兼容,導(dǎo)致銷量冷淡。
“叫好不叫座”的NV1,讓英偉達(dá)出師不利,賬面資金一度僅夠公司維持運(yùn)轉(zhuǎn)30天?!坝涀?,公司距離倒閉只有30天。”這也成為了黃仁勛激勵(lì)員工不能松懈的口頭禪。
公司陷入絕境之時(shí),好在位于日本的世嘉游戲公司看上了英偉達(dá)的技術(shù)實(shí)力,其采購(gòu)了NV1芯片用于自家的土星游戲主機(jī)上,并隨后要求英偉達(dá)為其開發(fā)下一代游戲主機(jī)DC的顯示芯片。
雖然這一合作再次因?yàn)橛ミ_(dá)堅(jiān)持方形顯示理念而與世嘉產(chǎn)生分歧,最終導(dǎo)致NV2芯片流產(chǎn),但彼時(shí)財(cái)大氣粗的世嘉并未收回700萬(wàn)美元的開發(fā)資金,這給了英偉達(dá)至關(guān)重要的一次機(jī)會(huì)。前兩次失敗的經(jīng)驗(yàn)也讓英偉達(dá)意識(shí)到,一款成功的硬件產(chǎn)品,首先要符合市場(chǎng)主流的技術(shù)標(biāo)準(zhǔn)和規(guī)范。
接下來(lái),英偉達(dá)在1997年推出的采用NV3芯片的riva128顯卡,便采用了三角形繪圖渲染,并支持Direct X和OpenGL等主流應(yīng)用編程接口(API),憑借極高的性價(jià)比贏得了市場(chǎng)的青睞。它隨后發(fā)布的TNT與TNT2,又以低廉的價(jià)格與更新的API,擊敗了當(dāng)時(shí)顯示領(lǐng)域巨頭3dfx旗下的Voodoo系列顯卡。
終于,在1999年,英偉達(dá)以GeForce 256為名,發(fā)布了世界上第一款GPU,將原本依賴于CPU的3D計(jì)算完全轉(zhuǎn)移到顯卡上進(jìn)行,并在之后的數(shù)年間開始了與ATI的爭(zhēng)霸之路,直至2006年,以ATI被AMD收購(gòu)告終。
雖然在這之后,AMD仍在延續(xù)ATI的Radeon顯卡產(chǎn)品線,但英偉達(dá)已經(jīng)坐穩(wěn)顯卡領(lǐng)域第一的寶座。
2006年,英偉達(dá)發(fā)布了通用并行計(jì)算架構(gòu),也就是大名鼎鼎的CUDA。其更是讓GPU除了計(jì)算3D模型外,具備了進(jìn)行通用計(jì)算和編程的能力。
同年發(fā)布的8800 GTX,堪稱英偉達(dá)最經(jīng)典的顯卡產(chǎn)品之一。其不僅引入了沿用至今的流處理器概念,而且采用的Tesla架構(gòu),更是成為了同年發(fā)售的首代AI加速卡C870的前綴,并在這之后沿用多年。
自此,英偉達(dá)就在通用計(jì)算和CUDA編程軟件平臺(tái)上越走越遠(yuǎn),并在2013年的AI熱潮中脫穎而出,以強(qiáng)于同價(jià)位CPU數(shù)倍的模型訓(xùn)練速度,與優(yōu)秀的軟件適配,讓原本僅用于游戲和建模領(lǐng)域的顯示芯片,在人工智能的賽道上一往無(wú)前。
縱觀英偉達(dá)旗下的產(chǎn)品線,可以看到其業(yè)務(wù)發(fā)展的清晰思路,如專注于游戲和個(gè)人消費(fèi)領(lǐng)域的GeForce系列、專注于3D建模與渲染的Quadro系列,以及此次被限制出口的主角—專注于AI加速領(lǐng)域的Tesla系列。
有趣的是,英偉達(dá)在2020年發(fā)布Tesla系列加速卡時(shí),因?yàn)榕c著名電動(dòng)車品牌特斯拉“撞名”,容易產(chǎn)生不必要的誤會(huì),而放棄這一前綴,之后的產(chǎn)品僅以采用的架構(gòu)名稱縮寫+數(shù)字方式命名,如采用安培Ampere架構(gòu)的A100,和采用赫柏Hopper架構(gòu)的H100。
GeForce與Quadro系列的最大區(qū)別,在于其提供的驅(qū)動(dòng)程序不同。GeForce系列的驅(qū)動(dòng)更注重游戲性能的優(yōu)化,Quadro系列則注重于對(duì)專業(yè)圖形設(shè)計(jì)與渲染軟件性能的優(yōu)化。兩者的硬件規(guī)格差距不大,更多的是軟件層面的區(qū)別。Tesla系列則不同。
首先,GPU中對(duì)于計(jì)算機(jī)常用到的浮點(diǎn)計(jì)算,需要由不同類型的核心來(lái)完成,主要分為FP32單精度計(jì)算核心,與FP64雙精度計(jì)算核心。同時(shí),還有FP16的“半精度”,與最近正在推行的FP8格式,以進(jìn)一步簡(jiǎn)化AI計(jì)算所需要的精度要求,來(lái)提升效率、降低能耗。
世界上第一款GPU GeForce256
即便如此,超高精度的FP64,仍是諸多科研工作中不能忽視的計(jì)算需求。畢竟在特定領(lǐng)域,如軍工、大氣和病毒結(jié)構(gòu)分析等對(duì)計(jì)算結(jié)果精度要求高的行業(yè),有時(shí)一兩位有效數(shù)字的差別,結(jié)果就可能謬以千里。而針對(duì)這些專業(yè)情況下所用到的計(jì)算需求,英偉達(dá)為Tesla系列芯片配備了大量的FP64計(jì)算單元。
在A100的GA100核心中,F(xiàn)P64與FP32的比例為1比2,而這一數(shù)字在如今消費(fèi)級(jí)旗艦3090ti搭載的GA102核心上,僅為1比64—游戲渲染和AI任務(wù)的區(qū)別一目了然。
這也使得3090ti的FP32算力達(dá)到了45TFLOPS,但FP64僅有不到0.7TFLOPS。而A100的FP32算力雖然僅有19.5TFLOPS,但FP64算力則達(dá)到了恐怖的10TFLOPS,是3090ti的14.3倍。英偉達(dá)最近發(fā)布的下一代產(chǎn)品H100的FP64算力,甚至能達(dá)到30TFLOPS之多。
這樣精準(zhǔn)的“刀法”,在英偉達(dá)旗下的產(chǎn)品里屢見不鮮,又因?yàn)辄S仁勛每次發(fā)布會(huì)上都身著一身黑色皮夾克,他也被游戲玩家授予了“皮衣刀客”的名號(hào)。
英偉達(dá)在8月26日向美國(guó)證監(jiān)會(huì)提交的資料中提道:“未來(lái)峰值性能與芯片I/O性能等于或大于A100的任何英偉達(dá)產(chǎn)品,以及包含這些電路的任何系統(tǒng),都需要遵照新的許可要求?!?p>
華為MDC810自動(dòng)駕駛芯片
英偉達(dá)Tesla系列芯片
這樣精準(zhǔn)的“刀法”,在英偉達(dá)旗下的產(chǎn)品里屢見不鮮。
雖然兩天后英偉達(dá)發(fā)表聲明稱,可以在明年9月前繼續(xù)履行A100和H100的訂單,但受前一消息影響,其股價(jià)仍在5個(gè)交易日內(nèi)下跌了22%,再加上此前二季度財(cái)報(bào)低于預(yù)期帶來(lái)的波動(dòng),其市值已較去年最高點(diǎn)8300億美元跌去近六成。
瘦死的駱駝比馬大。近年來(lái)國(guó)產(chǎn)GPU的研發(fā)工作頻頻被提上日程,如芯動(dòng)科技發(fā)布的“風(fēng)華”系列GPU,也在市場(chǎng)上引起不小的轟動(dòng),但其距離以英偉達(dá)為代表的世界先進(jìn)水平,仍有不小的差距。
而在自動(dòng)駕駛芯片領(lǐng)域,華為推出的MDC810,與“地平線”即將發(fā)布的征程6芯片,與英偉達(dá)的差距要小些。但英偉達(dá)智能駕駛芯片Orin的下一代產(chǎn)品Atlan,也憑借著1000Tops的int8算力(1TOPS代表處理器每秒鐘可進(jìn)行1萬(wàn)億次計(jì)算),來(lái)勢(shì)洶洶地面向市場(chǎng)。
盡管在今年多輪下跌行情下,英偉達(dá)的市值已跌至3500億美元左右,但其市盈率仍高達(dá)46倍。這也從側(cè)面顯示出了這家公司的潛力,以及市場(chǎng)對(duì)于AI產(chǎn)業(yè)未來(lái)的巨大信心。明年即將年過(guò)六十的黃仁勛,會(huì)將這艘巨輪引向何方?讓我們拭目以待。
責(zé)任編輯吳陽(yáng)煜 wyy@nfcmag.com