顏媛媛
“訓練數(shù)據(jù)+模型算法+算力”是ChatGPT成長的基礎,以ChatGPT為例,訓練ChatGPT3.5使用英偉達A100芯片,而一顆英偉達A100芯片的成本約8萬元,完成整個訓練過程需要三萬顆英偉達A100芯片。此前戰(zhàn)勝李世石的AlphaGO,訓練只用了176顆GPU。
ChatGPT的興起推動著人工智能在應用端的蓬勃發(fā)展,這也對計算設備的運算能力提出了前所未有的需求。雖然AI芯片、GPU、CPU+FPGA等芯片已經(jīng)對現(xiàn)有模型構成底層算力支撐,但面對未來潛在的算力指數(shù)增長,全球當前的算力顯然有些緊張。
全球算力每5~10個月就要翻倍,截至2021年,全球計算設備算力總規(guī)模達到615EFlops、增速44%。浙商證券預測,2030年,算力有望增至56ZFlops,CAGR達到65%。而這還是ChatGPT還未降臨之時,正常的算力需求預測值。
2022年底,ChatGPT來臨之后,無疑又將拔高算力的增長曲線。根據(jù)通信世界數(shù)據(jù),ChatGPT的總算力消耗約為3640PF-days(即假如每秒計算一千萬億次,需要計算3640天),需要7~8個投資規(guī)模30億、算力500P的數(shù)據(jù)中心才能支撐運行。而這才是參數(shù)規(guī)模1750億的GPT-3,除此之外還有參數(shù)5620億的PaLM-E,彼時,算力以及其背后的功耗還能顧得過來嗎?
未來,AI算法算力行業(yè)的天花板,由半導體行業(yè)的發(fā)展決定。
AI算力進入大模型時代,大模型的實現(xiàn)需要強大的算力來支撐訓練和推理過程。以GPT模型為例,GPT-3175B參數(shù)量達到1750億,需要大量GPU協(xié)同工作才能完成。
以OpenAI為例,微軟專門為其打造了一臺超級計算機,專門用來在Azure公有云上訓練超大規(guī)模的人工智能模型。這臺超級計算機擁有28.5萬個CPU核心,超過1萬顆GPU(NVIDIAV100GPU),按此規(guī)格,如果自建IDC,以英偉達A100GPU芯片替代V100GPU芯片,依照性能換算,大約需要3000顆A100GPU芯片。每臺NVIDIADGXA100服務器搭載8塊A100,則需要375臺,每臺單價19.9萬美元,則自建IDC的訓練服務器算力成本為7462萬美元。
AI的云端訓練和推斷計算主要基于AI服務器,對算力、存力、運力、散熱性能要求更高,帶動算力芯片、配套硬件、機箱等設施不斷升級。算力芯片可謂算力的載體,通過其提供的計算能力,支撐互聯(lián)網(wǎng)、科技、制造業(yè)等各個行業(yè)的發(fā)展和數(shù)字化轉型?;诖?,專家提出了算力與算力芯片之間的關系公式:算力=(單芯片)性能×規(guī)模(即數(shù)量)×利用率。
而CPU+GPU是目前最流行的異構計算系統(tǒng),CPU負責神經(jīng)網(wǎng)絡模型的構建和數(shù)據(jù)流的傳遞,GPU只是單純的并行矩陣乘法和加法運算。而隨著專項計算需求的崛起,運行效率更具優(yōu)勢的NPU芯片成為AI算力芯片的主要發(fā)展方向。
NPU為特定要求而定制,在功耗、體積方面具有優(yōu)勢,在推理端應用潛力巨大。NPU作為專用定制芯片ASIC的一種,是為實現(xiàn)特定要求而定制的芯片,芯片設計邏輯更為簡單。除了不能擴展以外,在功耗、可靠性、體積方面都有優(yōu)勢,尤其在高性能、低功耗的移動端。
在關乎未來科技領域話語權的競爭中,各種紛爭與沖突就從未停息過,半導體“卡脖子”問題同樣出現(xiàn)在了AI算力芯片領域,美國對華半導體管制已經(jīng)從最初針對某些公司擴大到對半導體整個行業(yè)的全面限制。
2022年8月,英偉達被美國政府要求停止向中國出口兩款用于人工智能的頂級計算芯片,其峰值性能和芯片到芯片的I/O性能大致相當于A100的閾值,即A100和H100兩款芯片都將受到影響。AMD也同樣被要求禁止將其MI100、MI200系列人工智能芯片出口到中國。而2023年3月1日的延緩期已過,后續(xù)將無法向大陸市場出貨。
而在美國對中國半導體產(chǎn)業(yè)發(fā)展持續(xù)打壓背景下,英偉達、AMD斷供進一步激發(fā)算力芯片國產(chǎn)化需求。當前已經(jīng)涌現(xiàn)出一大批國產(chǎn)算力芯片廠商,寒武紀、龍芯中科相繼推出自研GPU,海光信息的DCU(GPGPU)也逐漸打出知名度,其他配套環(huán)節(jié)的國產(chǎn)化進程也正在加速推進。
具體產(chǎn)品方面,目前景嘉微已成功研發(fā)JM7200和JM9系列GPU芯片,應用于臺式機、筆記本、一體機、服務器、工控機、自助終端等設備。而專注AI領域核心處理器的寒武紀目前已推出了思元系列智能加速卡,第三代產(chǎn)品思元370基于7nm制程工藝,本身是寒武紀首款采用chiplet技術的AI芯片,最高算力達到256TOPS(INT8)。
總而言之,AIGC推動AI產(chǎn)業(yè)化由軟件向硬件切換,半導體+AI生態(tài)逐漸清晰,而在后摩爾時代,算力產(chǎn)業(yè)迎來巨大變局,我國算力產(chǎn)業(yè)迎來前所未有的歷史機遇。