張家豪
從CPU到GPU,字節(jié)采購(gòu)量的變化,也反映了如今大型科技公司的計(jì)算需求中,智能計(jì)算對(duì)通用計(jì)算的趕超。圖/視覺(jué)中國(guó)
2022年下半年,生成式AI爆火的同時(shí),硅谷著名風(fēng)險(xiǎn)資本a16z走訪了數(shù)十家AI創(chuàng)業(yè)公司和大科技公司。其發(fā)現(xiàn),創(chuàng)業(yè)公司轉(zhuǎn)手就把80%-90%的早期融資款送給了云計(jì)算平臺(tái),以訓(xùn)練自己的模型。其估算,即便這些公司的產(chǎn)品成熟了,每年也得把10%-20%的營(yíng)收送給云計(jì)算公司,相當(dāng)于一筆“AI稅”。
這帶來(lái)了在云上提供模型能力和訓(xùn)練服務(wù),把算力租給其他客戶(hù)和創(chuàng)業(yè)公司的大市場(chǎng)。僅在國(guó)內(nèi),現(xiàn)在就至少有數(shù)十家創(chuàng)業(yè)公司和中小公司在自制復(fù)雜大語(yǔ)言模型,它們都得從云計(jì)算平臺(tái)租GPU(Graphics Processing Unit,圖形處理器)。據(jù)a16z測(cè)算,一個(gè)公司一年的AI運(yùn)算開(kāi)支只有超過(guò)5000萬(wàn)美元,才有足夠的規(guī)模效應(yīng)支撐自己批量采購(gòu)GPU。
據(jù)了解,今年春節(jié)后,擁有云計(jì)算業(yè)務(wù)的中國(guó)各互聯(lián)網(wǎng)大公司都向英偉達(dá)下了大單。字節(jié)今年向英偉達(dá)訂購(gòu)了超過(guò)10億美元的GPU,另一家大公司的訂單也至少超過(guò)10億元人民幣。
僅字節(jié)一家公司今年的訂單可能已接近英偉達(dá)去年在中國(guó)銷(xiāo)售的商用GPU總和。去年9月,美國(guó)政府發(fā)布對(duì)A100、H100(英偉達(dá)最新兩代數(shù)據(jù)中心商用GPU)的出口限制時(shí),英偉達(dá)曾回應(yīng)稱(chēng)這可能影響去年四季度其在中國(guó)市場(chǎng)的4億美元(約合28億元人民幣)潛在銷(xiāo)售。以此推算,2022年全年英偉達(dá)數(shù)據(jù)中心GPU在中國(guó)的銷(xiāo)售額約為100億元人民幣。
相比海外巨頭,中國(guó)大科技公司采購(gòu)GPU更為急迫。過(guò)去兩年的降本增效中,一些云計(jì)算平臺(tái)減少了GPU采購(gòu),儲(chǔ)備不足。此外,誰(shuí)也不敢保證,今天能買(mǎi)的高性能GPU,明天會(huì)不會(huì)就受到新的限制。
今年初之前,中國(guó)大型科技公司對(duì)GPU的需求還不溫不火。
GPU在中國(guó)大型互聯(lián)網(wǎng)科技公司中主要有兩個(gè)用途:一是對(duì)內(nèi)支持業(yè)務(wù)和做一些前沿AI研究,二是把GPU放到云計(jì)算平臺(tái)上對(duì)外售賣(mài)。
一名字節(jié)人士告訴《財(cái)經(jīng)》記者,2020年6月OpenAI發(fā)布GPT-3后,字節(jié)就曾訓(xùn)練了一個(gè)數(shù)十億參數(shù)的生成式語(yǔ)言大模型,當(dāng)時(shí)主要使用的GPU是A100前代產(chǎn)品V100。由于參數(shù)規(guī)模有限,這個(gè)模型生成能力一般,字節(jié)當(dāng)時(shí)看不到它的商業(yè)化可能性,“ROI(投資回報(bào)率)算不過(guò)來(lái)”,這次嘗試不了了之。
阿里也曾在2018年-2019年積極采購(gòu)GPU。一位阿里云人士稱(chēng),當(dāng)時(shí)阿里的采購(gòu)量至少達(dá)到上萬(wàn)塊規(guī)模,購(gòu)買(mǎi)的型號(hào)主要是V100和英偉達(dá)更早前發(fā)布的T4。不過(guò)這批GPU中只有約十分之一給到了達(dá)摩院用作AI技術(shù)研發(fā)。2021年發(fā)布萬(wàn)億參數(shù)大模型M6后,達(dá)摩院曾披露訓(xùn)練M6使用了480塊V100。
阿里當(dāng)時(shí)購(gòu)買(mǎi)的GPU,更多給到了阿里云用于對(duì)外租賃。但包括阿里云在內(nèi),一批中國(guó)云計(jì)算公司都高估了中國(guó)市場(chǎng)的AI需求。一位科技投資人稱(chēng),大模型熱潮之前,國(guó)內(nèi)主要云廠商上的GPU算力不是緊缺,而是愁賣(mài),云廠商甚至得降價(jià)賣(mài)資源。去年阿里云先后降價(jià)六次,GPU租用價(jià)下降超兩成。
在降本增效,追求“有質(zhì)量的增長(zhǎng)”與利潤(rùn)的背景下,據(jù)了解,阿里在2020年之后收縮了GPU采購(gòu)規(guī)模,騰訊也在去年底砍單一批英偉達(dá)GPU。
然而沒(méi)過(guò)多久后的2022年初,ChatGPT改變了所有人的看法,共識(shí)很快達(dá)成:大模型是不容錯(cuò)過(guò)的大機(jī)會(huì)。
各公司創(chuàng)始人親自關(guān)注大模型進(jìn)展:字節(jié)跳動(dòng)創(chuàng)始人張一鳴開(kāi)始看人工智能論文;阿里巴巴董事局主席張勇接手阿里云,在阿里云峰會(huì)發(fā)布阿里大模型進(jìn)展時(shí)稱(chēng),“所有行業(yè)、應(yīng)用、軟件、服務(wù),都值得基于大模型能力重做一遍”。
一名字節(jié)人士稱(chēng),過(guò)去在字節(jié)內(nèi)部申請(qǐng)采購(gòu)GPU時(shí),要說(shuō)明投入產(chǎn)出比、業(yè)務(wù)優(yōu)先級(jí)和重要性。而現(xiàn)在大模型業(yè)務(wù)是公司戰(zhàn)略級(jí)別新業(yè)務(wù),暫時(shí)算不清ROI也必須投入。
研發(fā)自己的通用大模型只是第一步,各公司的更大目標(biāo)是推出提供大模型能力的云服務(wù),這是真正可以匹配投入的大市場(chǎng)。
微軟的云服務(wù)Azure在中國(guó)云計(jì)算市場(chǎng)本沒(méi)有太強(qiáng)存在感,入華十年來(lái)主要服務(wù)跨國(guó)公司的中國(guó)業(yè)務(wù)。但現(xiàn)在客戶(hù)得排隊(duì)等待,因?yàn)樗荗penAI商業(yè)化的唯一云代理商。
阿里在4月的云峰會(huì)上再次強(qiáng)調(diào)MaaS(模型即服務(wù))是未來(lái)云計(jì)算趨勢(shì),在開(kāi)放自研的通用基礎(chǔ)模型“通義千問(wèn)”測(cè)試之外,還發(fā)布了一系列幫助客戶(hù)在云上訓(xùn)練、使用大模型的工具。不久后騰訊和字節(jié)火山引擎也先后發(fā)布自己的新版訓(xùn)練集群服務(wù)。騰訊稱(chēng)用新一代集群訓(xùn)練萬(wàn)億參數(shù)的混元大模型,時(shí)間可被壓縮到四天;字節(jié)稱(chēng)它們的新集群支持萬(wàn)卡級(jí)大模型訓(xùn)練,國(guó)內(nèi)數(shù)十家做大模型的企業(yè),多數(shù)已在使用火山引擎。
所有這些平臺(tái)使用的要么是英偉達(dá)A100、H100GPU,要么是去年禁令后英偉達(dá)專(zhuān)門(mén)推出的減配版A800、H800,這兩款處理器帶寬分別是原版的約四分之三和約一半,避開(kāi)了高性能GPU的限制標(biāo)準(zhǔn)。
圍繞H800和A800,中國(guó)科技大公司開(kāi)始了新一輪下單競(jìng)爭(zhēng)。
一名云廠商人士稱(chēng),字節(jié)、阿里等大公司主要是和英偉達(dá)原廠直接談采購(gòu),代理商和二手市場(chǎng)難以滿(mǎn)足它們的龐大需求。
英偉達(dá)會(huì)按目錄價(jià),根據(jù)采購(gòu)規(guī)模談一個(gè)折扣。據(jù)英偉達(dá)官網(wǎng),A100售價(jià)為1萬(wàn)美元/塊(約7.1萬(wàn)元人民幣),H100售價(jià)為3.6萬(wàn)美元/塊(約25.7萬(wàn)元人民幣);據(jù)了解,A800和H800售價(jià)略低于原版。
中國(guó)公司能否搶到卡,更多是看商業(yè)關(guān)系,比如以往是不是英偉達(dá)的大客戶(hù)?!澳闶呛椭袊?guó)英偉達(dá)談,還是去美國(guó)找老黃(黃仁勛,英偉達(dá)創(chuàng)始人、CEO)直接談,都有差別?!币晃辉茝S商人士說(shuō)。
部分公司也會(huì)和英偉達(dá)進(jìn)行“業(yè)務(wù)合作”,在購(gòu)買(mǎi)搶手的數(shù)據(jù)中心GPU時(shí),也購(gòu)買(mǎi)其他產(chǎn)品,以爭(zhēng)取優(yōu)先供應(yīng)。這就像愛(ài)馬仕的配貨,如果你想買(mǎi)到熱門(mén)的包,往往也得搭配幾萬(wàn)元的衣服、鞋履。
綜合我們獲得的行業(yè)信息,字節(jié)今年的新下單動(dòng)作相對(duì)激進(jìn),超過(guò)10億美元級(jí)別。
一位接近英偉達(dá)的人士稱(chēng),字節(jié)到貨和沒(méi)到貨的A100與H800總計(jì)有10萬(wàn)塊。其中H800今年3月才開(kāi)始投產(chǎn),這部分芯片應(yīng)來(lái)自今年的加購(gòu)。據(jù)了解,以現(xiàn)在的排產(chǎn)進(jìn)度,部分H800要到今年底才能交貨。
字節(jié)跳動(dòng)2017年開(kāi)始建設(shè)自己的數(shù)據(jù)中心。曾經(jīng)的數(shù)據(jù)中心更依賴(lài)適應(yīng)所有計(jì)算的CPU,直到2020年,字節(jié)采購(gòu)英特爾CPU的金額還高于英偉達(dá)GPU。字節(jié)采購(gòu)量的變化,也反映了如今大型科技公司的計(jì)算需求中,智能計(jì)算對(duì)通用計(jì)算的趕超。
據(jù)了解,某互聯(lián)網(wǎng)大廠今年至少已給英偉達(dá)下了萬(wàn)卡級(jí)別訂單,按目錄價(jià)估算價(jià)值超10億元人民幣。
騰訊則率先宣布已用上H800,騰訊云在今年3月發(fā)布的新版高性能計(jì)算服務(wù)中已使用了H800,并稱(chēng)這是國(guó)內(nèi)首發(fā)。目前這一服務(wù)已對(duì)企業(yè)客戶(hù)開(kāi)放測(cè)試申請(qǐng),這快于大部分中國(guó)公司的進(jìn)度。
據(jù)了解,阿里云也在今年5月對(duì)內(nèi)提出把“智算戰(zhàn)役”作為今年的頭號(hào)戰(zhàn)役,并設(shè)立三大目標(biāo):機(jī)器規(guī)模、客戶(hù)規(guī)模和營(yíng)收規(guī)模;其中機(jī)器規(guī)模的重要指標(biāo)就是GPU數(shù)量。
新的GPU到貨前,各公司也在通過(guò)內(nèi)部騰挪,優(yōu)先支持大模型研發(fā)。
能一次釋放較多資源的做法是砍掉一些沒(méi)那么重要,或短期看不到明確前景的方向?!按蠊居泻枚喟胨啦换畹臉I(yè)務(wù)占著資源?!币晃换ヂ?lián)網(wǎng)大公司AI從業(yè)者說(shuō)。
今年5月,阿里達(dá)摩院裁撤自動(dòng)駕駛實(shí)驗(yàn)室:300多名員工中,約三分之一劃歸菜鳥(niǎo)技術(shù)團(tuán)隊(duì),其余被裁,達(dá)摩院不再保留自動(dòng)駕駛業(yè)務(wù)。研發(fā)自動(dòng)駕駛也需要用高性能GPU做訓(xùn)練。這一調(diào)整可能與大模型無(wú)直接關(guān)系,但確實(shí)讓阿里獲得了一批“自由GPU”。
字節(jié)和美團(tuán),則直接從給公司帶來(lái)廣告收入的商業(yè)化技術(shù)團(tuán)隊(duì)那里勻GPU。
據(jù)《財(cái)經(jīng)》記者了解,今年春節(jié)后不久,字節(jié)把一批原計(jì)劃新增給字節(jié)商業(yè)化技術(shù)團(tuán)隊(duì)的A100勻給了TikTok產(chǎn)品技術(shù)負(fù)責(zé)人朱文佳。朱文佳正在領(lǐng)導(dǎo)字節(jié)大模型研發(fā)。而商業(yè)化技術(shù)團(tuán)隊(duì)是支持抖音廣告推薦算法的核心業(yè)務(wù)部門(mén)。
美團(tuán)在今年一季度左右開(kāi)始開(kāi)發(fā)大模型。據(jù)了解,美團(tuán)不久前從多個(gè)部門(mén)調(diào)走了一批80G顯存頂配版A100,優(yōu)先供給大模型,讓這些部門(mén)改用配置更低的GPU。
財(cái)力遠(yuǎn)不如大平臺(tái)充裕的B站對(duì)大模型也有規(guī)劃。據(jù)了解,B站此前已儲(chǔ)備了數(shù)百塊GPU。今年,B站一方面持續(xù)加購(gòu)GPU,一方面也在協(xié)調(diào)各部門(mén)勻卡給大模型?!坝械牟块T(mén)給10塊,有的部門(mén)給20塊。”一位接近B站的人士稱(chēng)。
字節(jié)、美團(tuán)、B站等互聯(lián)網(wǎng)公司,原本支持搜索、推薦的技術(shù)部門(mén)一般會(huì)有一些GPU資源冗余,在不傷害原有業(yè)務(wù)的前提下,它們現(xiàn)在都在“把算力水分?jǐn)D出來(lái)”。
不過(guò)這種拆東補(bǔ)西的做法能獲得的GPU數(shù)量有限,訓(xùn)練大模型所需的大頭GPU還是得靠各公司過(guò)去的積累和等待新GPU到貨。
對(duì)英偉達(dá)數(shù)據(jù)中心GPU的競(jìng)賽也發(fā)生在全球范圍。不過(guò)海外巨頭大量購(gòu)買(mǎi)GPU更早,采購(gòu)量更大,近年的投資相對(duì)連續(xù)。
2022年,Meta和甲骨文就已有對(duì)A100的大投入。Meta在去年1月與英偉達(dá)合作建成RSC超級(jí)計(jì)算集群,它包含1.6萬(wàn)塊A100。同年11月,甲骨文宣布購(gòu)買(mǎi)數(shù)萬(wàn)塊A100和H100搭建新計(jì)算中心。現(xiàn)在該計(jì)算中心已部署了超3.27萬(wàn)塊A100,并陸續(xù)上線新的H100。
微軟自從2019年第一次投資OpenAI以來(lái),已為OpenAI提供數(shù)萬(wàn)塊GPU。今年3月,微軟又宣布已幫助OpenAI建設(shè)了一個(gè)新計(jì)算中心,其中包括數(shù)萬(wàn)塊A100。Google在今年5月推出了一個(gè)擁有2.6萬(wàn)塊H100的計(jì)算集群Compute EngineA3,服務(wù)想自己訓(xùn)練大模型的公司。
中國(guó)大公司現(xiàn)在的動(dòng)作和心態(tài)都比海外巨頭更急迫。以百度為例,它今年向英偉達(dá)新下的GPU訂單高達(dá)上萬(wàn)塊。數(shù)量級(jí)與Google等公司相當(dāng),雖然百度的體量小得多,其去年?duì)I收為1236億元人民幣,只有Google的6%。
據(jù)了解,字節(jié)、騰訊、阿里、百度這四家中國(guó)投入AI和云計(jì)算最多的科技公司,過(guò)去A100的積累都達(dá)到上萬(wàn)塊。其中字節(jié)的A100絕對(duì)數(shù)最多。不算今年的新增訂單,字節(jié)A100和前代產(chǎn)品V100總數(shù)接近10萬(wàn)塊。
成長(zhǎng)期公司中,商湯今年也宣稱(chēng),其“AI大裝置”計(jì)算集群中已總共部署了2.7萬(wàn)塊GPU,其中有1萬(wàn)塊A100。連看似和AI不搭邊的量化投資公司幻方之前也購(gòu)買(mǎi)了1萬(wàn)塊A100。
僅看總數(shù),這些GPU供各公司訓(xùn)練大模型似乎綽綽有余——據(jù)英偉達(dá)官網(wǎng)案例,OpenAI訓(xùn)練1750億參數(shù)的GPT-3時(shí)用了1萬(wàn)塊V100,訓(xùn)練時(shí)長(zhǎng)未公開(kāi);英偉達(dá)測(cè)算,如果用A100來(lái)訓(xùn)練GPT-3,需要1024塊A100訓(xùn)練一個(gè)月,A100相比V100有4.3倍性能提升。但中國(guó)大公司過(guò)去采購(gòu)的大量GPU要支撐現(xiàn)有業(yè)務(wù),或放在云計(jì)算平臺(tái)上售賣(mài),并不能自由地用于大模型開(kāi)發(fā)和對(duì)外支持客戶(hù)的大模型需求。
這也解釋了中國(guó)AI從業(yè)者對(duì)算力資源估算的巨大差別。清華智能產(chǎn)業(yè)研究院院長(zhǎng)張亞勤4月底參加清華論壇時(shí)說(shuō),“如果把中國(guó)的算力加1塊,相當(dāng)于50萬(wàn)塊A100,訓(xùn)練五個(gè)模型沒(méi)問(wèn)題。”AI公司曠視科技CEO(首席執(zhí)行官)印奇接受《財(cái)新》采訪時(shí)則說(shuō):中國(guó)目前可用作大模型訓(xùn)練的A100總共只有約4萬(wàn)塊。
主要反映對(duì)芯片、服務(wù)器和數(shù)據(jù)中心等固定資產(chǎn)投資的資本開(kāi)支,可以直觀說(shuō)明中外大公司計(jì)算資源的數(shù)量級(jí)差距。
最早開(kāi)始測(cè)試類(lèi)ChatGPT產(chǎn)品的百度,2020年以來(lái)的年資本開(kāi)支在8億到20億美元之間,阿里在60億-80億美元之間,騰訊在70億-110億美元之間。同期,亞馬遜、Meta、Google、微軟這四家自建數(shù)據(jù)中心的美國(guó)科技公司的年資本開(kāi)支最少均超過(guò)150億美元。
疫情三年中,海外公司資本開(kāi)支繼續(xù)上漲。亞馬遜去年的資本開(kāi)支已來(lái)到580億美元,Meta、Google均為314億美元,微軟接近240億美元。中國(guó)公司的投資在2021年之后則在收縮。騰訊、百度去年的資本開(kāi)支均同比下滑超25%。
訓(xùn)練大模型的GPU已不算充足,各家中國(guó)公司如果真的要長(zhǎng)期投入大模型,并賺到給其他模型需求“賣(mài)鏟子”的錢(qián),未來(lái)還需要持續(xù)增加GPU資源。
走得更快OpenAI已遇到了這一挑戰(zhàn)。5月中旬,OpenAI CEO Sam Altman在與一群開(kāi)發(fā)者的小范圍交流中說(shuō),由于GPU不夠,OpenAI現(xiàn)在的API服務(wù)不夠穩(wěn)定,速度也不夠快,在有更多GPU前,GPT-4的多模態(tài)能力還無(wú)法拓展給每個(gè)用戶(hù),他們近期也不準(zhǔn)備發(fā)布新的消費(fèi)級(jí)產(chǎn)品。技術(shù)咨詢(xún)機(jī)構(gòu)Trend Force今年6月發(fā)布報(bào)告稱(chēng),OpenAI需要約3萬(wàn)塊A100來(lái)持續(xù)優(yōu)化和商業(yè)化Chat GPT。
與OpenAI合作頗深的微軟也面臨類(lèi)似情境:今年5月,有用戶(hù)吐槽New Bing回答速度變慢,微軟回應(yīng),這是因?yàn)镚PU補(bǔ)充速度跟不上用戶(hù)增長(zhǎng)速度。嵌入了大模型能力的微軟Office 365 Copilot目前也沒(méi)有大規(guī)模開(kāi)放,最新數(shù)字是有600多家企業(yè)在試用——Office 365的全球總用戶(hù)數(shù)接近3億。
中國(guó)大公司如果不是僅把訓(xùn)練并發(fā)布一個(gè)大模型作為目標(biāo),而是真想用大模型創(chuàng)造服務(wù)更多用戶(hù)的產(chǎn)品,并進(jìn)一步支持其他客戶(hù)在云上訓(xùn)練更多大模型,就需要提前儲(chǔ)備更多GPU。
在AI大模型訓(xùn)練上,現(xiàn)在A100、H100及其特供中國(guó)的減配版A800、H800找不到替代品。據(jù)量化對(duì)沖基金Khaveen Investments測(cè)算,英偉達(dá)數(shù)據(jù)中心GPU
2022年市占率達(dá)88%,AMD和英特爾瓜分剩下的部分。
2020年GTC大會(huì)上,黃仁勛攜A100第一次亮相。
英偉達(dá)GPU目前的不可替代性,源自大模型的訓(xùn)練機(jī)制,其核心步驟是預(yù)訓(xùn)練(pre-training)和微調(diào)(fine-tuning),前者是打基座,相當(dāng)于接受通識(shí)教育至大學(xué)畢業(yè);后者則是針對(duì)具體場(chǎng)景和任務(wù)做優(yōu)化,以提升工作表現(xiàn)。
預(yù)訓(xùn)練環(huán)節(jié)尤其消耗算力,它對(duì)單個(gè)GPU的性能和多卡間的數(shù)據(jù)傳輸能力有極高要求。
現(xiàn)在只有A100、H100能提供預(yù)訓(xùn)練所需的計(jì)算效率,它們看起來(lái)昂貴,反倒是最低廉的選擇。今天AI還在商用早期,成本直接影響一個(gè)服務(wù)是否可用。
過(guò)去的一些模型,如能識(shí)別貓是貓的VGG16,參數(shù)量只有1.3億,當(dāng)時(shí)一些公司會(huì)用玩游戲的RTX系列消費(fèi)級(jí)顯卡來(lái)跑AI模型。而兩年多前發(fā)布的GPT-3的參數(shù)規(guī)模已達(dá)到1750億。
大模型的龐大計(jì)算需求下,用更多低性能GPU共同組成算力已行不通了。因?yàn)槭褂枚鄠€(gè)GPU訓(xùn)練時(shí),需要在芯片與芯片間傳輸數(shù)據(jù)、同步參數(shù)信息,這時(shí)部分GPU會(huì)閑置,無(wú)法一直飽和工作。所以單卡性能越低,使用的卡越多,算力損耗就越大。OpenAI用1萬(wàn)塊V100訓(xùn)練GPT-3時(shí)的算力利用率不到50%。
A100、H100則既有單卡高算力,又有提升卡間數(shù)據(jù)傳輸?shù)母邘?。A100的FP32(指用4字節(jié)進(jìn)行編碼存儲(chǔ)的計(jì)算)算力達(dá)到19.5TFLOPS(1TFLOPS即每秒進(jìn)行一萬(wàn)億次浮點(diǎn)運(yùn)算),H100的FP32算力更高達(dá)134TFLOPS,是競(jìng)品AMD MI250的約4倍。
A100、H100還提供高效數(shù)據(jù)傳輸能力,盡可能減少算力閑置。英偉達(dá)的獨(dú)家秘籍是自2014年起陸續(xù)推出的NVLink、NVSwitch等通信協(xié)議技術(shù)。用在H100上的第四代NVLink可將同一服務(wù)器內(nèi)的GPU雙向通信帶寬提升至900GB/s(每秒傳輸900GB數(shù)據(jù)),是最新一代PCle(一種點(diǎn)對(duì)點(diǎn)高速串行傳輸標(biāo)準(zhǔn))的7倍多。
去年美國(guó)商務(wù)部對(duì)GPU的出口規(guī)定也正是卡在算力和帶寬這兩條線上:算力上線為4800TOPS,帶寬上線為600GB/s。
A800和H800算力和原版相當(dāng),但帶寬打折。A800的帶寬從A100的600GB/s
降為400GB/s,H800的具體參數(shù)尚未公開(kāi),據(jù)媒體報(bào)道,它的帶寬只有H100(900GB/s)的約一半,執(zhí)行同樣的AI任務(wù)時(shí),H800會(huì)比H100多花10%-30%的時(shí)間。一名AI工程師推測(cè),H800的訓(xùn)練效果可能還不如A100,但更貴。
即使如此,A800和H800的性能依然超過(guò)其他大公司和創(chuàng)業(yè)公司的同類(lèi)產(chǎn)品。受限于性能和更專(zhuān)用的架構(gòu),各公司推出的AI芯片或GPU芯片,現(xiàn)在主要用來(lái)做AI推理,難以勝任大模型預(yù)訓(xùn)練。簡(jiǎn)單來(lái)說(shuō),AI訓(xùn)練是做出模型,AI推理是使用模型,訓(xùn)練對(duì)芯片性能要求更高。
性能差距外,英偉達(dá)的更深護(hù)城河是軟件生態(tài)。
早在2006年,英偉達(dá)就推出計(jì)算平臺(tái)CUDA,它是一個(gè)并行計(jì)算軟件引擎,開(kāi)發(fā)者可使用CUDA更高效地進(jìn)行AI訓(xùn)練和推理,用好GPU算力。
CUDA今天已成為AI基礎(chǔ)設(shè)施,主流的AI框架、庫(kù)、工具都以CUDA為基礎(chǔ)進(jìn)行開(kāi)發(fā)。
英偉達(dá)之外的GPU和AI芯片如要接入CUDA,需要自己提供適配軟件,但只有CUDA部分性能,更新迭代也更慢。PyTorch等AI框架正試圖打破CUDA的軟件生態(tài)壟斷,提供更多軟件能力以支持其他廠商的GPU,但這對(duì)開(kāi)發(fā)者吸引力有限。
一位AI從業(yè)者稱(chēng),他所在的公司曾接觸一家非英偉達(dá)GPU廠商,對(duì)方的芯片和服務(wù)報(bào)價(jià)比英偉達(dá)更低,也承諾提供更及時(shí)的服務(wù),但他們判斷,使用其他GPU的整體訓(xùn)練和開(kāi)發(fā)成本會(huì)高于英偉達(dá),還得承擔(dān)結(jié)果的不確定性和花更多時(shí)間。
“雖然A100價(jià)格貴,但其實(shí)用起來(lái)是最便宜的?!彼f(shuō)。對(duì)有意抓住大模型機(jī)會(huì)的大型科技公司和頭部創(chuàng)業(yè)公司來(lái)說(shuō),錢(qián)往往不是問(wèn)題,時(shí)間才是更寶貴的資源。
短期內(nèi)唯一影響英偉達(dá)數(shù)據(jù)中心GPU銷(xiāo)量的可能只有臺(tái)積電的產(chǎn)能。H100/800為4nm制程,A100/800為7nm制程,這四款芯片均由臺(tái)積電代工生產(chǎn)。據(jù)媒體報(bào)道,英偉達(dá)今年向臺(tái)積電新增了1萬(wàn)塊數(shù)據(jù)中心GPU訂單,并下了超急件,生產(chǎn)時(shí)間最多可縮短50%。正常情況下,臺(tái)積電生產(chǎn)A100需要數(shù)月。目前的生產(chǎn)瓶頸主要在先進(jìn)封裝產(chǎn)能不夠,缺口達(dá)一至兩成,需要3個(gè)-6個(gè)月逐步提升。
自從適用于并行計(jì)算的GPU被引入深度學(xué)習(xí),十多年來(lái),AI發(fā)展的動(dòng)力就是硬件與軟件,GPU算力與模型和算法的交疊向前:模型發(fā)展拉動(dòng)算力需求;算力增長(zhǎng),又使原本難以企及的更大規(guī)模訓(xùn)練成為可能。
在上一波以圖像識(shí)別為代表的深度學(xué)習(xí)熱潮中,中國(guó)AI軟件能力比肩全球最前沿水平;算力是目前的難點(diǎn)——設(shè)計(jì)與制造芯片需要更長(zhǎng)的積累,涉及漫長(zhǎng)供應(yīng)鏈和浩繁專(zhuān)利壁壘。
大模型是模型與算法層的又一次大進(jìn)展,沒(méi)時(shí)間慢慢來(lái)了,想做大模型,或提供大模型云計(jì)算能力的公司必須盡快獲得足夠多的先進(jìn)算力。在這輪熱潮使第一批公司振奮或失望前,圍繞GPU的搶奪不會(huì)停止。