錢玉娟
關(guān)于英偉達(dá)A800芯片可能被禁售的消息,正在引發(fā)連鎖反應(yīng)。
一位英偉達(dá)芯片代理商告訴記者,大約一周前,關(guān)于英偉達(dá)A800芯片被禁售的這個信號“讓市場上的A800價格一下子漲了起來?!?/p>
據(jù)這位代理商介紹,英偉達(dá)A800 80GB PCie標(biāo)準(zhǔn)版GPU的市場價,15天前在9萬元人民幣/顆,“現(xiàn)在(一顆)11萬元左右?!奔幢銉r格飛漲,他告訴記者,英偉達(dá)的高端算力GPU芯片依然是“搶手貨”,在他看來,英偉達(dá)的H800系列GPU芯片目前還可以正常供應(yīng),只不過價格更高了。
一面是越來越貴、越來越稀缺的高端芯片,一面是下游需求高漲的“百模大戰(zhàn)”,尋找另一條道路,成為迫在眉睫的選擇。
在被認(rèn)為是“史上最火爆”的上海2023年世界人工智能大會(WAIC)上,算力需求和缺口成為了高頻詞匯。
7月7日上午,清華大學(xué)電子工程系教授汪玉表示,若以大語言模型作為底座,同時處理我國14億人的推理請求,所需的計算量超過目前我國數(shù)據(jù)中心總算力的3個數(shù)量級。他由此強(qiáng)調(diào)我國現(xiàn)有算力資源的緊張程度。
“沒有大算力,做大模型就是天方夜譚?!敝袊こ淘涸菏?、鵬城實驗室主任高文也在WAIC上透露,團(tuán)隊正在緊鑼密鼓地對一個2000億參數(shù)的大模型進(jìn)行訓(xùn)練,至少“需要4000塊卡訓(xùn)練100天”。
云計算技術(shù)專家劉世民早早注意到,國內(nèi)正式渠道如今愈發(fā)買不到高端AI芯片,面對算力發(fā)展遭遇限制,他也看到,一些云廠商基于相關(guān)AI產(chǎn)品可以提供GPU算力這一最基礎(chǔ)的AI服務(wù),當(dāng)然,其中不乏AWS、Azure這樣的海外云服務(wù)商。
“目前算力比較緊張,所以會選擇租賃云算力?!痹茝目萍佳芯吭旱膶O進(jìn)透露,買不到高端算力卡,加之自建算力集群周期長,即便租賃云算力成本相較自建要高,“高出50%~100%”,但這依然成為一些對算力有需求的科技公司的選擇。
如今,這條道路也在面臨更多挑戰(zhàn):7月4日,有消息稱美國計劃對使用亞馬遜云、微軟云等海外云計算服務(wù)的中國企業(yè)施加限制。這是繼去年美國限制對華半導(dǎo)體出口,今年拉攏日本、荷蘭對華限制出口先進(jìn)芯片制造設(shè)備后又一舉措,“現(xiàn)在估計又要封堵云GPU了?!?Vibranium Consulting副總裁陳沛說。
圍堵加碼
陳沛介紹,云GPU要比自建GPU算力集群貴,“大型云廠商的價格差不多一小時2-3美元?!睋?jù)他所知,AWS、Azure這樣的大型云服務(wù)商在新加坡有提供部分種類的云算力服務(wù),在中國亦然。
2022年8月,當(dāng)英偉達(dá)的GPU計算芯片A100和H100被美國政府要求限制向中國出口后,對高端算力有需求的廠商,還可以在擁有先進(jìn)制程AI芯片的AWS、Azure等云廠商提供的云端算力服務(wù)中得到滿足。
而今限制如果繼續(xù)升級,中國廠商未來若想使用AWS、Azure等海外云服務(wù)商的云端算力服務(wù),也要獲得美國政府許可才行。
2022年,由IDC、浪潮信息、清華大學(xué)全球產(chǎn)業(yè)研究院聯(lián)合編制了一份《2021-2022全球計算力指數(shù)評估報告》,量化揭示了算力的重要性:全球各國算力規(guī)模與經(jīng)濟(jì)發(fā)展水平顯著正相關(guān),計算力指數(shù)平均每提高1點,數(shù)字經(jīng)濟(jì)和GDP將分別增長3.5‰和1.8‰;美國和中國的計算力指數(shù)分別為77分和70分,同屬國別計算力的領(lǐng)跑者。
上述半導(dǎo)體行業(yè)觀察人士建議,正在算力側(cè)展開自研創(chuàng)新的中國廠商們,當(dāng)下“需要丟掉幻想”,她認(rèn)為,只有不斷攻克芯片的成熟制程,疊加軟件創(chuàng)新才能共同提升算力。
在中國算力突圍路徑中,國產(chǎn)GPU芯片自研替代被認(rèn)為是第一大選擇,但這一選擇需要時間。目前最現(xiàn)實的選擇是,如何最大化地利用現(xiàn)有的高端芯片資源。
算力共享
按照外媒此前披露,作為微軟全力扶持的AI創(chuàng)業(yè)公司,OpenAI擁有微軟Azure云最高優(yōu)先級的支持——約有2.5萬個英偉達(dá)GPU正在支持GPT大模型的訓(xùn)練,這是目前世界上規(guī)模最龐大的AI服務(wù)器之一。而OpenAI光用在訓(xùn)練ChatGPT上,就使用了1萬個英偉達(dá)的GPU。
但即便是微軟,GPU也面臨缺口。今年6月,在公開的OpenAI CEO Sam Altman 談話紀(jì)要中提到,GPU的短缺拖延了Open AI客戶的許多短期計劃。但這份談話紀(jì)要很快被刪除。
按照此前媒體報道,目前中國企業(yè)GPU芯片持有量超過1萬枚的不超過5家,擁有1萬枚A100的至多1家。且由于美國去年8月開始算力封鎖,這些存貨的剩余使用壽命約為4-6年。
但現(xiàn)實正在急劇變化:伴隨著今年以來的生成式AI浪潮和大模型井噴,此前存在的缺口無疑還在進(jìn)一步放大。
由此,在國內(nèi)推動“算力共享”被提上日程。
北京市經(jīng)信局4月下旬公布的“北京市通用人工智能產(chǎn)業(yè)創(chuàng)新伙伴計劃”,進(jìn)展迅速。7月3日,計劃公布了第二批伙伴名單中共有63家企業(yè),其中包括百度、京東、神州數(shù)碼和金山等10家算力供應(yīng)伙伴。
北京市經(jīng)信局公布的第一批算力供應(yīng)方伙伴名單只有兩家,一個是北京超級云計算中心,另一個便是阿里云計算有限公司。
2022年8月30日,阿里云推出飛天智算平臺的同時,還啟動了張北和烏蘭察布兩座超大規(guī)模智算中心,以公有云和專有云兩種模式,為各類機(jī)構(gòu)提供服務(wù)。
彼時阿里云表示,其智算平臺以及智算中心可將計算資源利用率提高3倍以上,AI訓(xùn)練效率提升11倍。毫無疑問,當(dāng)國內(nèi)算力供應(yīng)因芯片卡短缺陷入緊張時,云端算力可以補(bǔ)位。
當(dāng)阿里云提出“算力普惠”的目標(biāo)愿景時,華為也通過推出昇騰AI集群解決方案,以填補(bǔ)著算力需求和硬件算力供給間的溝壑。在7月6日下午的WAIC上,華為昇騰計算業(yè)務(wù)總裁張迪煊宣布,昇騰AI集群規(guī)模從最初的4000卡擴(kuò)展升級至16000卡,成為業(yè)內(nèi)首個萬卡AI集群,其算力已經(jīng)在支撐像科大訊飛等企業(yè)進(jìn)行大模型訓(xùn)練以及智能化轉(zhuǎn)型。
AI缺口
如今受益于昇騰AI集群的算力支持,訊飛星火大模型的優(yōu)化訓(xùn)練在有序進(jìn)行中??拼笥嶏w高級副總裁胡國平在WAIC上強(qiáng)調(diào),所有的大模型訓(xùn)練都強(qiáng)烈依賴高端AI芯片集群和生態(tài)。
不過,孫進(jìn)告訴記者,云端算力共享或租賃,往往適用于低頻訓(xùn)練需求的廠商。“基于同樣或同類型的算力芯片,云廠商提供的云GPU確實可以形成替代?!钡硎荆案鞯亟ㄔO(shè)的訓(xùn)練算力集群,大部分是消費(fèi)級推理卡集群,或者是CPU集群?!?/p>
一般來說,算力被分為三類:通用算力、智能算力、超算算力。在傳統(tǒng)產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的場景中,基于普通CPU芯片集成的服務(wù)器所能提供的通用算力就可滿足;而人工智能發(fā)展、大模型的訓(xùn)練和推理,這些對應(yīng)的則是智能算力,是要基于AI芯片所提供的算力。此外,天體物理、航空航天等復(fù)雜運(yùn)算則需要超算算力。
據(jù)工信部消息,近年來中國算力產(chǎn)業(yè)規(guī)??焖僭鲩L,年增長率近30%,算力規(guī)模排名全球第二,僅次于美國。
但當(dāng)下的問題在于,這其中一部分并不是本輪生成式AI所需求的智能算力,而只是通用算力。
此前發(fā)布的《中國算力指數(shù)發(fā)展白皮書(2022)》顯示,中、美在全球算力規(guī)模中的份額分別為33%、34%,其中通用算力份額分別為26%、37%,智能算力分別為28%、45%,超級算力分別為18%、48%。
在劉世民看來,算力共享確實可以讓更多企業(yè)能用上算力,但先進(jìn)芯片所代表的高端算力,一旦被限制,勢必限制國內(nèi)算力的增長。而今,中國的人工智能產(chǎn)業(yè)又已經(jīng)步入AIGC時代,參與其中的廠商需要進(jìn)行的是高頻訓(xùn)練,持續(xù)的優(yōu)化迭代。
值得關(guān)注的是,算力需求暴增下,供給背后的國產(chǎn)GPU自研以及軟件創(chuàng)新,都將是中國廠商亦步亦趨要解決的問題。
陳沛說,種種限制框架下,英偉達(dá)提供的高端算力,在市場上不只受歡迎,還是剛需。陳沛記得2020年OpenAI訓(xùn)練GPT-3時,用的是英偉達(dá)GPU芯片V100,“一萬顆,耗時14.8天”,但在一周前,他看到英偉達(dá)發(fā)出的最新測試結(jié)果中顯示,僅用3000多顆H100 GPU芯片,11分鐘就完成了GPT-3的模型訓(xùn)練。
“英偉達(dá)依然是AI訓(xùn)練領(lǐng)域的老大。”陳沛說。
一位國產(chǎn)AI大模型廠商的創(chuàng)始人也告訴記者,目前其自研的大模型正在儲備的英偉達(dá)算力芯片上“跑著”,盡管芯片禁售是未來式,但面對大模型浪潮所帶來的高頻算力需求,目前我們沒有太多的備選方案。