數(shù)據(jù)、算力、算法作為人工智能的三大基本要素,相互依存、相互支撐,共同促進(jìn)人工智能快速發(fā)展。本節(jié)將從三大要素層面梳理前沿人工智能的發(fā)展現(xiàn)狀。
(一)數(shù)據(jù)要素發(fā)展現(xiàn)狀
數(shù)據(jù)產(chǎn)量高速增長(zhǎng),數(shù)據(jù)要素市場(chǎng)潛力巨大。目前,全球超大規(guī)模數(shù)據(jù)中心有一半位于中國(guó)和美國(guó)。根據(jù)2024年全國(guó)數(shù)據(jù)工作會(huì)議報(bào)告,經(jīng)初步測(cè)算,2023年我國(guó)數(shù)據(jù)生產(chǎn)總量預(yù)計(jì)超過32ZB。根據(jù)Statista統(tǒng)計(jì)和預(yù)測(cè),2025年全球數(shù)據(jù)量將達(dá)到174ZB,中國(guó)整體數(shù)據(jù)量將達(dá)到48.6ZB,占全球數(shù)據(jù)規(guī)模的27.9%,將超過美國(guó)成為世界最大數(shù)據(jù)生產(chǎn)國(guó);2035年,全球數(shù)據(jù)量將達(dá)到2142ZB。為了支撐海量數(shù)據(jù)要素的流通和交易,我國(guó)組建國(guó)家數(shù)據(jù)局,協(xié)調(diào)推進(jìn)數(shù)據(jù)基礎(chǔ)制度建設(shè)、數(shù)據(jù)資源整合共享和開發(fā)利用等工作,并加快構(gòu)建全國(guó)一體化算力網(wǎng)絡(luò)、數(shù)據(jù)中心規(guī)模、云計(jì)算服務(wù)能力、5G基站數(shù)量等數(shù)據(jù)流通利用基礎(chǔ)設(shè)施,大部分省份配套設(shè)立數(shù)據(jù)發(fā)展促進(jìn)中心,組建數(shù)據(jù)集團(tuán)。
數(shù)據(jù)成為新型生產(chǎn)要素,數(shù)據(jù)驅(qū)動(dòng)數(shù)字經(jīng)濟(jì)穩(wěn)步發(fā)展。數(shù)據(jù)要素中可提煉出信息、知識(shí)、智慧,因此被看作新一代信息技術(shù)下的新的生產(chǎn)資源,被廣泛應(yīng)用于金融、物聯(lián)網(wǎng)、零售、醫(yī)療健康、航空航天等各領(lǐng)域,已快速融入生產(chǎn)、分配、流通、消費(fèi)和社會(huì)服務(wù)管理等各環(huán)節(jié),成為產(chǎn)業(yè)智能化升級(jí)、社會(huì)生產(chǎn)生活方式變革的重要力量及經(jīng)濟(jì)發(fā)展新動(dòng)能。麥肯錫預(yù)測(cè),數(shù)據(jù)流動(dòng)量每增加10%,就將帶動(dòng)GDP增長(zhǎng)0.2%。按照到2025年全球數(shù)據(jù)總量預(yù)計(jì)達(dá)174ZB計(jì)算,對(duì)經(jīng)濟(jì)增長(zhǎng)的貢獻(xiàn)有望達(dá)到11萬億美元。作為數(shù)字化的知識(shí)和信息,數(shù)據(jù)要素與數(shù)字經(jīng)濟(jì)發(fā)展密不可分。整體來看,數(shù)字經(jīng)濟(jì)重地主要是美洲、亞洲和歐洲。2022年,美國(guó)、中國(guó)、德國(guó)、日本、韓國(guó)這5個(gè)世界主要國(guó)家的數(shù)字經(jīng)濟(jì)總量為31萬億美元,數(shù)字經(jīng)濟(jì)占GDP的比重為58%,較2016年提升約11%;數(shù)字經(jīng)濟(jì)規(guī)模同比增長(zhǎng)7.6%,高于GDP增速5.4個(gè)百分點(diǎn)。中國(guó)信息通信研究院數(shù)據(jù)顯示,2022年,中國(guó)數(shù)字經(jīng)濟(jì)規(guī)模達(dá)到50.2萬億元,同比名義增長(zhǎng)10.3%,已連續(xù)11年顯著高于同期GDP名義增速,數(shù)字經(jīng)濟(jì)占GDP的比重相當(dāng)于第二產(chǎn)業(yè)占國(guó)民經(jīng)濟(jì)的比重,達(dá)到41.5%。
數(shù)據(jù)質(zhì)量影響人工智能應(yīng)用性能,高質(zhì)量的數(shù)據(jù)有助于提高人工智能決策的可解釋性和透明度。數(shù)據(jù)在人工智能中扮演著至關(guān)重要的角色,主要應(yīng)用體現(xiàn)在以下幾方面。一是機(jī)器學(xué)習(xí),數(shù)據(jù)可以用于機(jī)器學(xué)習(xí)算法的訓(xùn)練和優(yōu)化,使人工智能系統(tǒng)能夠從中學(xué)習(xí)并改進(jìn)其性能,通過大量數(shù)據(jù)的訓(xùn)練,機(jī)器學(xué)習(xí)模型可以自動(dòng)發(fā)現(xiàn)數(shù)據(jù)中的模式,并據(jù)此進(jìn)行預(yù)測(cè)或決策。二是自然語言處理,數(shù)據(jù)為自然語言處理提供了豐富的語料庫,用于訓(xùn)練模型以提高機(jī)器對(duì)語言的理解和生成能力,這使得機(jī)器能夠更準(zhǔn)確地解析人類語言,實(shí)現(xiàn)智能對(duì)話、文本分類、情感分析等功能。三是圖像識(shí)別,大量的圖像數(shù)據(jù)可以用于訓(xùn)練圖像識(shí)別模型,使其能夠識(shí)別出各種物體、場(chǎng)景和特征,這對(duì)于自動(dòng)駕駛、安防監(jiān)控、醫(yī)療影像分析等領(lǐng)域具有重要意義。四是推薦系統(tǒng),數(shù)據(jù)在推薦系統(tǒng)中發(fā)揮著至關(guān)重要的作用。通過對(duì)用戶行為數(shù)據(jù)的收集和分析,推薦系統(tǒng)能夠了解用戶的興趣和偏好,從而為用戶推薦個(gè)性化的內(nèi)容或產(chǎn)品。五是智能決策,在諸多領(lǐng)域,如金融、醫(yī)療、制造等,數(shù)據(jù)可以幫助人工智能系統(tǒng)進(jìn)行智能決策。通過對(duì)大量數(shù)據(jù)的分析,系統(tǒng)可以發(fā)現(xiàn)潛在的風(fēng)險(xiǎn)和機(jī)會(huì),為決策者提供有力支持。
與此同時(shí),數(shù)據(jù)要素的發(fā)展仍面臨以下問題。
一方面,數(shù)據(jù)瓶頸問題掣肘人工智能發(fā)展,0YqRhB+ahVovnjBkxc2Pcw==高質(zhì)量中文數(shù)據(jù)產(chǎn)業(yè)化程度不足。據(jù)人工智能研究機(jī)構(gòu)Epoch的研究預(yù)測(cè),語言數(shù)據(jù)可能在2030年至2040年耗盡,其中能訓(xùn)練出更優(yōu)性能的高質(zhì)量語言數(shù)據(jù)甚至可能在2026年耗盡。全球數(shù)據(jù)存量的增長(zhǎng)速度遠(yuǎn)不及數(shù)據(jù)集規(guī)模的增長(zhǎng)速度,數(shù)據(jù)要素面臨有效數(shù)據(jù)不足的發(fā)展瓶頸。另有研究顯示,1900—2015年,收錄于SCI的3000多萬篇文章中,92.5%的文章是以英文發(fā)表的;SSCI出版的400多萬篇文章中,93%的文章是用英文發(fā)表的。在ChatGPT的訓(xùn)練數(shù)據(jù)中,中文語料比重不足千分之一,英文語料占比超過92.6%。這一現(xiàn)象反映出優(yōu)質(zhì)中文語料的缺失,加之高質(zhì)量中文數(shù)據(jù)產(chǎn)業(yè)化程度不足、大數(shù)據(jù)服務(wù)盈利前景不佳、標(biāo)準(zhǔn)化的數(shù)據(jù)服務(wù)商缺乏、定制化數(shù)據(jù)服務(wù)價(jià)格高昂等因素,讓AI更好地服務(wù)中文表達(dá)有待提升。
另一方面,數(shù)據(jù)開放流通程度與驅(qū)動(dòng)價(jià)值有待提高,數(shù)據(jù)要素高水平應(yīng)用仍面臨多重治理挑戰(zhàn)。目前,數(shù)據(jù)采集面臨碎片化、非標(biāo)準(zhǔn)化困境,海量數(shù)據(jù)存儲(chǔ)面臨成本高等問題。由于數(shù)據(jù)權(quán)屬關(guān)系難以界定、數(shù)據(jù)要素收益分配機(jī)制和數(shù)據(jù)交易尚不規(guī)范、缺乏統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范和數(shù)據(jù)交換共享平臺(tái)等因素,數(shù)據(jù)開放、流通、共享受限,部分領(lǐng)域封閉式的數(shù)據(jù)生態(tài)進(jìn)一步加劇了“數(shù)據(jù)孤島”現(xiàn)象,難以實(shí)現(xiàn)有效整合流通和深度挖掘,數(shù)據(jù)分析應(yīng)用程度不足,未發(fā)揮數(shù)據(jù)深層次分析優(yōu)化的驅(qū)動(dòng)價(jià)值。此外,數(shù)據(jù)的廣泛應(yīng)用也引起了新的治理難題,如何管理規(guī)模龐大的數(shù)據(jù)要素市場(chǎng)、制定符合當(dāng)下需求的數(shù)據(jù)要素治理規(guī)則、確保數(shù)據(jù)的代表性以避免偏見和歧視、解決數(shù)據(jù)安全與隱私保護(hù)問題等已然成為全球面臨的新挑戰(zhàn)。
(二)算力要素發(fā)展現(xiàn)狀
全球算力產(chǎn)業(yè)快速發(fā)展且競(jìng)爭(zhēng)加劇,我國(guó)算力產(chǎn)業(yè)進(jìn)入增長(zhǎng)新周期。中國(guó)信息通信研究院發(fā)布的《2023年中國(guó)算力發(fā)展指數(shù)白皮書》顯示,美國(guó)、中國(guó)、歐洲、日本在全球算力規(guī)模中的份額分別為34%、33%、17%、4%。其中,美國(guó)和中國(guó)以35%、27%的全球基礎(chǔ)算力份額分列前兩位。算力成為各國(guó)搶占發(fā)展主導(dǎo)權(quán)的重要手段,全球主要國(guó)家和地區(qū)紛紛加快戰(zhàn)略布局進(jìn)程。算力規(guī)模持續(xù)增長(zhǎng),并開始向制造、金融和電信等傳統(tǒng)行業(yè)及政府部門滲透。
算力發(fā)展推動(dòng)經(jīng)濟(jì)數(shù)字化轉(zhuǎn)型,我國(guó)多措并舉推動(dòng)算力“質(zhì)”“量”提升。算力發(fā)展與全國(guó)一體化算力網(wǎng)建設(shè)已成為數(shù)字經(jīng)濟(jì)發(fā)展的重要支柱,對(duì)推動(dòng)我國(guó)數(shù)字經(jīng)濟(jì)發(fā)展發(fā)揮著關(guān)鍵作用。正如中國(guó)工程院院士高文提出的,算力就是生產(chǎn)力,有算力就會(huì)有GDP,算力網(wǎng)就是要把算力像電力一樣送到需要的地方。隨著大數(shù)據(jù)、云計(jì)算、人工智能等技術(shù)的快速發(fā)展,我國(guó)的算力需求不斷增長(zhǎng),尤其是生成式人工智能的出現(xiàn)和興起給底層算力帶來了新的挑戰(zhàn),與傳統(tǒng)的判斷式人工智能不同,生成式人工智能不再依賴于人工,而是具備了學(xué)習(xí)知識(shí)、處理信息和循環(huán)迭代的能力,這帶來了更高功耗和密度的算力需求。為推動(dòng)算力行業(yè)高質(zhì)量發(fā)展,我國(guó)政府多措并舉,正式啟動(dòng)“東數(shù)西算”工程,完善東西部算力協(xié)同調(diào)度機(jī)制、構(gòu)建全國(guó)一體化算力網(wǎng)、適度超前建設(shè)算力信息設(shè)施、統(tǒng)籌建設(shè)算力節(jié)點(diǎn)。
算力基礎(chǔ)設(shè)施市場(chǎng)長(zhǎng)足發(fā)展,我國(guó)算力整體布局持續(xù)優(yōu)化。算力基礎(chǔ)設(shè)施是算力的主要載體。我國(guó)在全國(guó)各個(gè)算力樞紐節(jié)點(diǎn)建設(shè)方面取得了顯著進(jìn)展。通過整合和優(yōu)化全國(guó)范圍內(nèi)的算力資源,加速構(gòu)建普惠易用、綠色安全的綜合算力基礎(chǔ)設(shè)施體系,以實(shí)現(xiàn)算力資源的多元集聚和協(xié)同調(diào)度,初步建構(gòu)了梯次優(yōu)化的算力供給體系,算力基礎(chǔ)設(shè)施的綜合能力顯著提升,推動(dòng)算力產(chǎn)業(yè)持續(xù)創(chuàng)新發(fā)展并賦能各行各業(yè)。工業(yè)和信息化部的數(shù)據(jù)顯示,截至2023年6月底,全國(guó)在用數(shù)據(jù)中心機(jī)架總規(guī)模超過760萬標(biāo)準(zhǔn)機(jī)架,算力總規(guī)模達(dá)到197EFLOPS,算力總規(guī)模近5年年均增速近30%,存力總規(guī)模超過1080EB。為持續(xù)優(yōu)化算力整體布局,2023年10月印發(fā)的《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》提出,到2025年,算力規(guī)模將超過300EFLOPS,智能算力占比達(dá)到35%,從計(jì)算力、運(yùn)載力、存儲(chǔ)力、應(yīng)用賦能4個(gè)方面明確了2025年發(fā)展量化指標(biāo)。這一系列舉措有助于支持各行各業(yè)的數(shù)字化轉(zhuǎn)型,推動(dòng)我國(guó)數(shù)字經(jīng)濟(jì)快速發(fā)展,算力融合應(yīng)用加速涌現(xiàn)。
通用算力相對(duì)充足,智能算力供給不足成為我國(guó)“算力荒”主要矛盾。我國(guó)的算力需求主要分為通用算力、智能算力和超級(jí)算力三種類型。當(dāng)前,通用算力相對(duì)充足,而智能算力的供給不足成為“算力荒”的主要方面。研究機(jī)構(gòu)數(shù)據(jù)顯示,隨著大模型訓(xùn)練需求的不斷增長(zhǎng),智能算力的增長(zhǎng)速度將遠(yuǎn)超通用算力,預(yù)計(jì)到2027年全球智能算力規(guī)模將達(dá)到1117.4EFLOPS,相當(dāng)于2023年中國(guó)414.1EFLOPS的2.7倍、2020年的15倍①。算力作為大模型落地比較高的門檻,我國(guó)已在國(guó)家層面統(tǒng)籌部署算力網(wǎng)、算力中心等建設(shè)。2024年《政府工作報(bào)告》明確提出,適度超前建設(shè)數(shù)字基礎(chǔ)設(shè)施,加快形成全國(guó)一體化算力體系,培育算力產(chǎn)業(yè)生態(tài)。
算力供給緊張、資源分散且利用效率不高,我國(guó)算力高質(zhì)量發(fā)展仍面臨挑戰(zhàn)。一方面,我國(guó)算力核心技術(shù)創(chuàng)新不足,算力設(shè)施的國(guó)產(chǎn)化比例低,芯片、光刻機(jī)、存儲(chǔ)器等算力核心器件幾乎完全依賴進(jìn)口。盡管國(guó)產(chǎn)高端GPU發(fā)展勢(shì)頭迅猛,但市場(chǎng)認(rèn)可度不高,芯片算力利用效率與先進(jìn)水平相比還存在差距,且算力產(chǎn)業(yè)生態(tài)體系基礎(chǔ)薄弱,大范圍推廣使用面臨較高的遷移成本,在公平規(guī)范的算力市場(chǎng)、分布式算力的集約化應(yīng)用等方面還需探索全體系協(xié)同、多路徑互補(bǔ)的發(fā)展路徑。另一方面,算力應(yīng)用的廣度和深度仍需提升,垂直行業(yè)的算力需求匹配度依然不足,還存在標(biāo)準(zhǔn)不足、數(shù)據(jù)共享不夠、資源接口不統(tǒng)一等壁壘,算力應(yīng)用賦能程度不足。中國(guó)信息通信研究院院長(zhǎng)余曉暉提出,要強(qiáng)化頂層設(shè)計(jì)、加快標(biāo)準(zhǔn)建設(shè)、攻關(guān)核心技術(shù)、構(gòu)建算力市場(chǎng)以及推動(dòng)算力服務(wù),統(tǒng)合形成標(biāo)準(zhǔn)化可調(diào)度的算力服務(wù)、實(shí)現(xiàn)全國(guó)資源優(yōu)化配置和算力高效服務(wù)、構(gòu)建全國(guó)一體化智算平臺(tái),要發(fā)揮“集中力量辦大事”的制度優(yōu)勢(shì)、加強(qiáng)綠色算力戰(zhàn)略研究、推動(dòng)算力互聯(lián)與協(xié)同計(jì)算。
(三)算法與模型發(fā)展現(xiàn)狀
算法作為人工智能產(chǎn)業(yè)發(fā)展的核心要素之一,指的是強(qiáng)制給定的有限、抽象、有效、復(fù)合的控制結(jié)構(gòu),在一定的規(guī)則下實(shí)現(xiàn)特定的目的,具有神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等多種表現(xiàn)形態(tài)。對(duì)計(jì)算機(jī)來說,算法就是處理信息的原理與遵循。理想狀態(tài)下,算法能夠?qū)⑷说乃季S過程以形式化的方式輸入計(jì)算機(jī),使其可以不停地執(zhí)行命令從而實(shí)現(xiàn)所設(shè)定的目標(biāo)。2022年11月30日,以ChatGPT為代表的AI大模型作為算法“作品”的新興形態(tài)火爆出圈,推動(dòng)算法走向AI大模型時(shí)代。ChatGPT發(fā)布僅一周就已擁有超過100萬用戶,在推出僅兩個(gè)月后的2023年1月末,其月活用戶已經(jīng)突破1億。作為史上用戶增長(zhǎng)速度最快的消費(fèi)級(jí)應(yīng)用程序,ChatGPT已然成為火爆全球的一款現(xiàn)象級(jí)產(chǎn)品。
Transformer架構(gòu)開啟算法模型快速發(fā)展時(shí)代,多模態(tài)通用AI大模型成為發(fā)展趨勢(shì)。2017年,谷歌顛覆性地提出了基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)——Transformer架構(gòu),奠定了大模型預(yù)訓(xùn)練算法架構(gòu)的基礎(chǔ)。2018年,OpenAI和Google分別發(fā)布的GPT-1與BERT大模型,意味著預(yù)訓(xùn)練大模型成為自然語言處理領(lǐng)域的主流。以Transformer為代表的全新神經(jīng)網(wǎng)絡(luò)架構(gòu),奠定了大模型的算法架構(gòu)基礎(chǔ),開啟了大模型發(fā)展的新紀(jì)元,經(jīng)歷了單語言預(yù)訓(xùn)練模型、多語言預(yù)訓(xùn)練模型及多模態(tài)預(yù)訓(xùn)練模型發(fā)展,多模態(tài)通用AI大模型成為發(fā)展主流趨勢(shì)。
我國(guó)AI大模型數(shù)量及研制主體數(shù)量可觀,為市場(chǎng)增長(zhǎng)提供發(fā)展新動(dòng)力。2023年5月,科技部新一代人工智能發(fā)展研究中心發(fā)布的《中國(guó)人工智能大模型地圖研究報(bào)告》顯示,在全球已發(fā)布的認(rèn)知大模型中,美國(guó)和中國(guó)占比超80%,中國(guó)研發(fā)的大模型數(shù)量排名全球第二,且有超過半數(shù)的大模型實(shí)現(xiàn)開源。國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏在中國(guó)發(fā)展高層論壇2024年年會(huì)上透露,截至2024年3月25日,我國(guó)10億參數(shù)規(guī)模以上的大模型數(shù)量超過100個(gè),大型科技公司、科研院所和初創(chuàng)科技團(tuán)隊(duì)成為大模型研發(fā)主力軍。相關(guān)數(shù)據(jù)顯示,截至2023年底,我國(guó)人工智能核心產(chǎn)業(yè)規(guī)模接近5800億元,已經(jīng)形成了京津冀、長(zhǎng)三角、珠三角三大集聚發(fā)展區(qū),核心企業(yè)數(shù)量超過4400家,居全球第二位。2024年4月2日,國(guó)家互聯(lián)網(wǎng)信息辦公室發(fā)布的《生成式人工智能服務(wù)已備案信息》公告顯示,截至2024年3月,我國(guó)已有117個(gè)大模型成功備案。AI大模型從專用AI作坊走向通用AI規(guī)?;I(yè)化生產(chǎn),在垂直應(yīng)用領(lǐng)域不斷深化落地,為市場(chǎng)增長(zhǎng)提供發(fā)展新動(dòng)力。
多而不強(qiáng),我國(guó)算法大模型發(fā)展面臨多重挑戰(zhàn)。近年來,我國(guó)出臺(tái)了《新一代人工智能發(fā)展規(guī)劃》《關(guān)于加快場(chǎng)景創(chuàng)新以人工智能高水平應(yīng)用促進(jìn)經(jīng)濟(jì)高質(zhì)量發(fā)展的指導(dǎo)意見》等一系列政策文件以支持算法模型的發(fā)展。2024年《政府工作報(bào)告》中明確提出開展“人工智能+”行動(dòng),旨在深化人工智能在各產(chǎn)業(yè)領(lǐng)域落地應(yīng)用并加速形成新質(zhì)生產(chǎn)力。我國(guó)AI大模型發(fā)展還面臨著算法模型訓(xùn)練依賴國(guó)外高性能AI芯片、國(guó)內(nèi)算力資源相對(duì)有限、高質(zhì)量且多源的中文訓(xùn)練數(shù)據(jù)集稀缺、算法研發(fā)的復(fù)合型人才缺乏、數(shù)據(jù)安全與隱私保護(hù)不完善、公平性和可解釋性不足、大模型應(yīng)用場(chǎng)景開放不足等發(fā)展挑戰(zhàn)。
(一)前沿人工智能的產(chǎn)業(yè)發(fā)展現(xiàn)狀
AI大模型上中下游產(chǎn)業(yè)鏈加速發(fā)展,多地出臺(tái)AI大模型產(chǎn)業(yè)發(fā)展支持政策。AI大模型產(chǎn)業(yè)鏈的上游產(chǎn)業(yè)包括云計(jì)算、數(shù)據(jù)庫、芯片、服務(wù)器等軟硬件,中游產(chǎn)業(yè)為AI大模型算法研發(fā)與模型管理維護(hù),下游產(chǎn)業(yè)為內(nèi)容生產(chǎn)、對(duì)話引擎等AI大模型落地領(lǐng)域及具體應(yīng)用場(chǎng)景①目前,我國(guó)北京、上海、廣東、安徽、福建、深圳、杭州、成都等多地均出臺(tái)了AI大模型產(chǎn)業(yè)發(fā)展政策,推動(dòng)多模態(tài)大模型關(guān)鍵技術(shù)創(chuàng)新,重點(diǎn)打造基于國(guó)內(nèi)外芯片和算法的開源通用大模型,支持重點(diǎn)企業(yè)研發(fā)迭代CV大模型、NLP大模型等領(lǐng)域大模型及行業(yè)大模型,助力中小企業(yè)深耕垂直領(lǐng)域,打造專用模型,建構(gòu)高效協(xié)同、具備國(guó)際競(jìng)爭(zhēng)力的大模型產(chǎn)業(yè)生態(tài),從企業(yè)落戶、優(yōu)先匹配算力、提供發(fā)展要素資源、專項(xiàng)獎(jiǎng)勵(lì)等政策、技術(shù)、市場(chǎng)角度為產(chǎn)業(yè)發(fā)展提供多方助力。
產(chǎn)業(yè)界主導(dǎo)人工智能前沿研究,AI大模型投資及成本持續(xù)增加。斯坦福大學(xué)以人為本人工智能研究所(Stanford HAI)發(fā)布的《2024年人工智能指數(shù)報(bào)告》顯示,2023年,產(chǎn)業(yè)界產(chǎn)生了51個(gè)著名的機(jī)器學(xué)習(xí)模型,學(xué)術(shù)界貢獻(xiàn)了15個(gè),產(chǎn)學(xué)合作產(chǎn)生了21個(gè)著名模型;108個(gè)新發(fā)布的基礎(chǔ)模型來自工業(yè)界,28個(gè)來自學(xué)術(shù)界。其中,美國(guó)成為頂級(jí)人工智能模型的主要來源國(guó),2023年61個(gè)著名的人工智能模型源自美國(guó)的機(jī)構(gòu)。2023年,行業(yè)對(duì)生成式人工智能的投資達(dá)252億美元,同比增長(zhǎng)了近8倍,OpenAI、Anthropic、Hugging Face和Inflection等代表性生成式人工智能都獲得了一輪可觀的融資。作為人工智能投資首選地,美國(guó)在人工智能領(lǐng)域的私人投資總額為672億美元,是中國(guó)的近9倍。但與此同時(shí),先進(jìn)AI大模型的訓(xùn)練成本已經(jīng)達(dá)到前所未有的水平,數(shù)據(jù)顯示,OpenAI的GPT-4估計(jì)使用了價(jià)值7800萬美元的計(jì)算資源進(jìn)行訓(xùn)練,而谷歌的Gemini Ultra的計(jì)算成本則高達(dá)1.91億美元。
國(guó)內(nèi)外AI大模型競(jìng)爭(zhēng)白熱化,逐漸形成“千模大戰(zhàn)”產(chǎn)業(yè)生態(tài)雛形。在國(guó)外,OpenAI推出GPT-4大模型并發(fā)布爆款產(chǎn)品ChatGPT,谷歌推出PaLM2大模型,Anthropic公司推出媲美ChatGPT的聊天機(jī)器人Claude。中國(guó)科學(xué)技術(shù)信息研究所、科技部新一代人工智能發(fā)展研究中心聯(lián)合發(fā)布的《中國(guó)人工智能大模型地圖研究報(bào)告》顯示,截至2023年5月,美國(guó)已發(fā)布100個(gè)參數(shù)規(guī)模10億以上的大模型,在基礎(chǔ)大模型上保持領(lǐng)先優(yōu)勢(shì),形成了“OpenAI及谷歌雙龍頭+Meta開源追趕+垂類特色廠商”的發(fā)展格局。在我國(guó),百度推出文心一言、阿里發(fā)布通義千問、商湯科技推出日日新SenseNova、華為推出盤古大模型、科大訊飛推出星火認(rèn)知大模型等。國(guó)內(nèi)外產(chǎn)投研界均已加快布局步伐,多國(guó)部署專業(yè)研發(fā)團(tuán)隊(duì),投創(chuàng)界積極入局大模型競(jìng)賽,科技龍頭企業(yè)結(jié)合自身優(yōu)勢(shì)以及自有產(chǎn)業(yè)生態(tài)密集發(fā)布自研大模型,逐步呈現(xiàn)“千模大戰(zhàn)”的產(chǎn)業(yè)生態(tài)雛形。
(二)前沿人工智能的商業(yè)部署現(xiàn)狀
AI大模型以內(nèi)部應(yīng)用為主并逐漸拓展至B端和C端,商業(yè)化落地進(jìn)程緩慢。人民網(wǎng)財(cái)經(jīng)研究院等聯(lián)合發(fā)布的《開啟智能新時(shí)代:2024年中國(guó)AI大模型產(chǎn)業(yè)發(fā)展報(bào)告》指出,可按照部署方式將AI大模型分為云側(cè)大模型和端側(cè)大模型兩類,其中,云側(cè)大模型分為通用大模型和行業(yè)大模型,端側(cè)大模型主要有手機(jī)大模型、PC大模型。中國(guó)移動(dòng)研究院2023年4月發(fā)布的《我國(guó)人工智能大模型發(fā)展動(dòng)態(tài)》提出,目前大部分企業(yè)前期以內(nèi)部應(yīng)用AI大模型為主,后續(xù)主要向B端企業(yè)拓展服務(wù),預(yù)計(jì)少數(shù)企業(yè)將在C端個(gè)人用戶市場(chǎng)形成規(guī)模,且可通過按量付費(fèi)、SaaS模式的訂閱付費(fèi)、打造一體化解決方案并提供增值服務(wù)、依靠用戶流量進(jìn)行廣告變現(xiàn)等實(shí)現(xiàn)商業(yè)模式落地。但目前商業(yè)化落地進(jìn)程仍處于初步探索階段。眾多AI大模型大多處于發(fā)布會(huì)階段,且極少在公開場(chǎng)合提及商業(yè)落地,遠(yuǎn)未達(dá)到可商業(yè)化程度,當(dāng)前全球只有OpenAI能夠真正達(dá)到通用AI商業(yè)化,且擁有絕大部分用戶的市場(chǎng)。
“通用大模型+產(chǎn)業(yè)模型”適配場(chǎng)景需求,AI大模型層次化體系賦能垂直行業(yè)發(fā)展。通用AI大模型落地部署所需的高昂算力成本和龐大數(shù)據(jù)量催生了“通用大模型+產(chǎn)業(yè)模型”模式,垂直行業(yè)成為AI大模型主戰(zhàn)場(chǎng)。產(chǎn)業(yè)模型在研發(fā)門檻、算力成本及應(yīng)用靈活性等方面更具優(yōu)勢(shì),在細(xì)分垂類領(lǐng)域的適配性上也更勝一籌。產(chǎn)業(yè)模型根據(jù)不同細(xì)分行業(yè)的需求,基于大模型進(jìn)行遷移學(xué)習(xí),利用知識(shí)蒸餾、剪枝等技術(shù)手段優(yōu)化訓(xùn)練垂類小模型,以便更好地適配細(xì)分垂直領(lǐng)域。通過大小模型結(jié)合的層次化部署方式緩解資源占用與性能最大化間的矛盾,在資源受限環(huán)境中穩(wěn)定運(yùn)行,使得在小型化、移動(dòng)化設(shè)備上運(yùn)行AI大模型成為可能。
AI大模型“開源+閉源”雙輪驅(qū)動(dòng),小型開發(fā)者調(diào)用大模型能力提升開發(fā)效率。AI大模型閉源模式有助于保護(hù)知識(shí)產(chǎn)權(quán)、保持核心競(jìng)爭(zhēng)力并提供更優(yōu)質(zhì)穩(wěn)定的服務(wù),而開源協(xié)作有助于生態(tài)伙伴高效利用AI大模型且加速生態(tài)化進(jìn)程,進(jìn)而充分吸納各方反饋及其創(chuàng)新成果,并鞏固方向引領(lǐng)地位。同時(shí),開源大模型可作為商業(yè)閉源大模型的有力補(bǔ)充,可滿足用戶長(zhǎng)尾需求以及中小企業(yè)的增長(zhǎng)需求,或?qū)⒊蔀閺澋莱嚨年P(guān)鍵。在AI大模型行業(yè)部署中,存在開源、閉源、開閉源混合等多種復(fù)雜模式,既有探索開源路徑的OpenAI,也有堅(jiān)持閉源策略的百度。在未來的發(fā)展中,不同企業(yè)會(huì)根據(jù)公司戰(zhàn)略目標(biāo)、技術(shù)實(shí)力和市場(chǎng)環(huán)境,選擇合適的開源或閉源策略,小型開發(fā)者可調(diào)用大模型能力提升開發(fā)效率。
(三)前沿人工智能的產(chǎn)業(yè)變革趨勢(shì)
大模型將加速AI產(chǎn)業(yè)化進(jìn)程,預(yù)計(jì)未來AI市場(chǎng)規(guī)模將超萬億元。大模型憑借其多模態(tài)復(fù)雜任務(wù)學(xué)習(xí)的能力、更強(qiáng)的數(shù)據(jù)處理能力以及廣泛的應(yīng)用場(chǎng)景,提高了AI系統(tǒng)的性能和通用性,為AI產(chǎn)業(yè)化進(jìn)程提供了強(qiáng)大的支持,“模型即服務(wù)”產(chǎn)業(yè)生態(tài)逐步形成。國(guó)內(nèi)外互聯(lián)網(wǎng)大廠扎堆入局,新的領(lǐng)域巨頭、周邊產(chǎn)業(yè)、類AI大模型應(yīng)用以及智力服務(wù)類應(yīng)用市場(chǎng)都將成為受益對(duì)象。AI大模型將成為基礎(chǔ)設(shè)施并再次引爆生產(chǎn)力革命,促進(jìn)創(chuàng)造性工作深化分解,為行業(yè)知識(shí)模型化提供新界面,加速形成新質(zhì)生產(chǎn)力。國(guó)際數(shù)據(jù)公司(IDC)預(yù)測(cè),2028年大模型市場(chǎng)規(guī)模將達(dá)到1095億美元?!吨袊?guó)AIGC產(chǎn)業(yè)全景報(bào)告暨AIGC 50》預(yù)計(jì),2030年我國(guó)AIGC市場(chǎng)規(guī)模將達(dá)1.15萬億元。
顛覆勞動(dòng)力市場(chǎng),AI大模型推動(dòng)人機(jī)分工式混合勞動(dòng)力成為用工主導(dǎo)范式。AI大模型可根據(jù)人類的反饋進(jìn)行強(qiáng)化學(xué)習(xí),促進(jìn)AI從勞動(dòng)輔助工具逐漸演化成初步具備自主能動(dòng)性、可與人并肩協(xié)作互動(dòng)的勞動(dòng)行為主體,進(jìn)而實(shí)現(xiàn)人機(jī)高效分工協(xié)作。同時(shí),AI大模型將推動(dòng)人類智力勞動(dòng)深度細(xì)化分解,將其中大量重復(fù)性、結(jié)構(gòu)化、高度依賴既往經(jīng)驗(yàn)的相關(guān)工作深化剝離并交由AI大模型承擔(dān),促進(jìn)以人機(jī)分工為代表的第四次社會(huì)大分工時(shí)代的加速到來,人機(jī)分工協(xié)作式混合勞動(dòng)力將成為未來勞動(dòng)用工的主導(dǎo)范式。此外,AI大模型可能會(huì)顛覆勞動(dòng)力市場(chǎng)舊有競(jìng)爭(zhēng)模式,“降維打擊”缺少工具賦能的競(jìng)爭(zhēng)者。人類與AI大模型將成為“隊(duì)友”。
推動(dòng)行業(yè)知識(shí)模型化,AI大模型助推智力密集型服務(wù)產(chǎn)業(yè)規(guī)?;I大模型突破由行業(yè)專家歸納提煉知識(shí)的傳統(tǒng)模式,能夠借助自然語言交互方式進(jìn)行高效建模整理,并通過與人類專家組成人機(jī)團(tuán)隊(duì)來實(shí)現(xiàn)行業(yè)知識(shí)模型化。作為高效的數(shù)智化知識(shí)服務(wù)工具,AI大模型已初步實(shí)現(xiàn)在知識(shí)領(lǐng)域通用化大模型與專用化小模型并進(jìn),且正在采用“技術(shù)人員+AI大模型+數(shù)據(jù)”的模式逐步取代權(quán)威專家,使傳統(tǒng)智力密集型服務(wù)規(guī)?;?、市場(chǎng)化、個(gè)性化乃至邊際成本趨于零成為可能,從而充分應(yīng)用AI大模型助力智力密集型服務(wù)的數(shù)智化轉(zhuǎn)型,賦能垂直專用場(chǎng)景下智力服務(wù)的規(guī)模化商用,實(shí)現(xiàn)咨詢行業(yè)等傳統(tǒng)智力服務(wù)規(guī)?;瘋€(gè)性定制。
(本文節(jié)選自“現(xiàn)代化新征程叢書第二輯”之《前沿人工智能:發(fā)展與治理》,梁正主編,中國(guó)發(fā)展出版社2024年7月第1版,略有刪減)
①資料來源:北京智源研究院、中金公司研究部。