2024年9月,人工智能依然是輿論場、投資者的熱門話題,然而,當下的人工智能產(chǎn)業(yè)似乎發(fā)展得很好,但似乎和普通人沒有多大關(guān)系,除了偶爾在短視頻平臺上看到一些AI生成的短視頻作品,國內(nèi)似乎還未出現(xiàn)一款AI大模型相關(guān)的殺手級應(yīng)用,人工智能似乎進入了一個發(fā)展瓶頸期。
有人開始質(zhì)疑,人工智能是否是科技巨頭推出的一個虛偽概念,畢竟每隔幾年,科技公司就會造一個概念,而上一個造出的概念是元宇宙。那么,AI大模型帶來的是曇花一現(xiàn)還是技術(shù)革命?對此,我們需要先回顧過去,再展望未來。
要知未來,需知過去。人工智能的故事最多,跨越時間也最久。
事實上,計算機就是人工智能,二進制的晶體管顯示“0”和“1”,這種模式和人類大腦神經(jīng)元的信息處理方式類似,只是更加簡化,且數(shù)量更少。所以,測試人工智能治理水平的圖靈測試在1950年推出,因為那時候所有人的意識中“計算機=人工智能”。
繼而,人工智能從計算機時代進入邏輯推理時代。舉個例子,如果某個迷宮有出口,那么只要在迷宮中一直靠右或靠左走,就一定能找到出口,對于人類可能要跑斷腿,但計算機有充足的耐心找到出口。邏輯推理就是按照路徑一個個去對照著找答案,直到所有數(shù)據(jù)都被對照一遍,輸出最后的答案。人工智能邏輯推理時代最成功的企業(yè)是IBM,面向B端,IBM推出專家系統(tǒng)輔助企業(yè)決策,面向C端,IBM的深藍計算機在國際象棋上大放異彩,名噪一時。
2006年,辛頓等三位專家提出深度學習算法,一種基于神經(jīng)網(wǎng)絡(luò)的新算法開始流行。深度學習模仿人類神經(jīng)元感知事物的過程,在算法中,大量神經(jīng)元組成神經(jīng)層,多個神經(jīng)層構(gòu)建神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)的一邊是輸入的問題,另一邊是輸出的答案,而開發(fā)人員只要一遍遍地輸入問題和驗證答案,神經(jīng)網(wǎng)絡(luò)就能模仿人類識別文字、圖像、視頻的能力。從而像人一樣思考、創(chuàng)作。以視覺舉例,我們眼睛看到的是一張樹葉的圖像,而這張圖像要經(jīng)過神經(jīng)層的層層識別,才會在我們大腦中挑出“樹葉”這個詞匯。所以,深度學習的本質(zhì)是模仿人類。
深度學習是過去20年人工智能大廈的地基,而在地基上,領(lǐng)跑的是谷歌,在布局10年后,2016年谷歌推出阿爾法狗,下圍棋的AI,結(jié)果全球圍棋界被阿爾法狗殺得人仰馬翻。由于圍棋是東亞傳統(tǒng)項目,很多中國人通過阿爾法狗第一次開始正視智能時代的到來。而在阿爾法狗成功后,谷歌開始多領(lǐng)域普及深度學習。比如2012年起,谷歌就開始用深度學習布局自動駕駛,比如阿爾法狗升級為阿爾法折疊,開始在蛋白質(zhì)特征預測領(lǐng)域發(fā)光發(fā)熱,甚至顛覆了整個蛋白質(zhì)科學的研究方式。
谷歌在人工智能領(lǐng)域最重要的貢獻,是2017年發(fā)布的Transformer,算法描述非常復雜,比如注意力機制,比如允許對依賴關(guān)系建模,這些技術(shù)名詞對于我們社科類文章并無益處,所以只需知道一點特征,Transformer能夠?qū)崿F(xiàn)更高水平的并行化。在深度學習時代,制約人工智能發(fā)展的基本要素是算法、數(shù)據(jù)和算力。而由于互聯(lián)網(wǎng)發(fā)展,互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)越來越充沛,而算力則相對不足。并行化的好處,就是能夠讓算力可以堆疊。一臺智算服務(wù)器的算力有限,那么1萬臺并行計算呢?這就為大規(guī)模數(shù)據(jù)訓練創(chuàng)造了很好的條件。
Transformer算法就是OpenAI開發(fā)的AI大模型ChatGPT的基礎(chǔ),GPT中的T就是Transformer。而基于Transformer的大模型有很多,比如谷歌的bard,和GPT不同的是,bard的生成模式是填空,而GPT的生成模式是用前文來生成后一個字,逐字生成。可以看出,GPT具有相對優(yōu)勢,因為逐字生成更符合人類語言特點。
2019年,GPT二代發(fā)布并開源,同年7月和微軟合作,轉(zhuǎn)為封頂盈利公司,其算法也從開源轉(zhuǎn)向閉源。此時,OpenAI在人工智能領(lǐng)域的名氣遠不如谷歌,直到2022年11月,ChatGPT正式發(fā)布,繼而一炮而紅,迎來了顛覆。ChatGPT是第一款面向C端的人工智能殺手級應(yīng)用。谷歌倉促應(yīng)戰(zhàn),結(jié)果反而因為各種“答非所問”的狀況被比下去,OpenAI在AI大模型領(lǐng)域獨占鰲頭。而面對OpenAI的成功,美國和中國的科技巨頭都迅速展開算法、算力“軍備競賽”,“百模大戰(zhàn)”在中美兩國同時開啟。
ChatGPT為什么能脫穎而出?
因為OpenAI做對幾件事:首先是大力出奇跡,在ChatGPT之前,谷歌已經(jīng)不止一次宣稱自家AI能通過圖靈測試,并在展示會上演示用AI訂餐,但谷歌自己并不相信通過海量語料學習會產(chǎn)生奇跡,所以,谷歌經(jīng)常用中小模型在垂直領(lǐng)域里倒騰,自動駕駛、阿爾法狗都是垂直領(lǐng)域的應(yīng)用。而背靠微軟之后,OpenAI獲得微軟語料數(shù)據(jù)和云計算的雙重支持,一頭扎進大模型里,用海量高質(zhì)量數(shù)據(jù)去堆,最終大力出奇跡。OpenAI的成功經(jīng)驗也告訴其他AI企業(yè),只要舍得花錢去提高數(shù)據(jù)質(zhì)量,提高并行算力,就能做出成果。
很顯然,相對于技術(shù)創(chuàng)新,燒錢是科技巨頭更為熟悉的路徑。而GPT的建設(shè)方式并非機密,用海量語料讓GPT熟悉人類語言習慣,用高質(zhì)量語料規(guī)范GPT語言生成,再對GPT生成的語言結(jié)果進行打分。
2023年,中國國內(nèi)開啟“百模大戰(zhàn)”,參與方包括互聯(lián)網(wǎng)科技公司、AI專業(yè)公司、學術(shù)科研機構(gòu)、行業(yè)專家四類。2023年3月16日,百度捷足先登推出大語言模型“文心一言”,此后,阿里、華為、騰訊、京東、科大訊飛、360、字節(jié)跳動等科技公司都發(fā)布自家大模型??蒲性核癆I創(chuàng)業(yè)公司也發(fā)布了“悟道”“書生”“智譜”“KIMI”等大模型。截至2024年4月,中國大模型數(shù)量已近200個,通用大模型數(shù)量40個左右。僅用一年,就是一片欣欣向榮、萬物競發(fā)的景象。而從全球看,中國的人工智能產(chǎn)業(yè)規(guī)模毋庸置疑是全球第二,僅次于美國。歐盟、日韓等國的科技企業(yè)響應(yīng)太慢,已經(jīng)被我們甩在身后。而中國企業(yè)大干快上也并不盲目,而是有明確的目標。各國母語不同,GPT成長吸收了大量英語語料,中文語料相對較少,所以,中國企業(yè)更適合開發(fā)中文AI大模型領(lǐng)域,因為中國科技企業(yè)擁有更多中文語料數(shù)據(jù)。也許整體上對比GPT有差距,但中文方面,國產(chǎn)AI一定能夠超越GPT。
而和中國跟隨策略不同,在發(fā)布ChatGPT之后,OpenAI的發(fā)展路徑卻發(fā)生了轉(zhuǎn)向,兩條發(fā)展路徑齊頭并進:
一條路是繼續(xù)探索GPT在語言領(lǐng)域的應(yīng)用,讓GPT和更多的軟件應(yīng)用、數(shù)據(jù)網(wǎng)站融合,讓GPT成為一種工具而非一個單一的應(yīng)用,所以GPT嵌入了大量外部插件。
另一條路是發(fā)展多模態(tài)。比如DALL·E是圖像生成,Sora是視頻生成,而GPT-4o則演示語音功能。OpenAI試圖用多模態(tài)構(gòu)建一個完整的AI大模型生態(tài),而一旦這個AI大模型生態(tài)完成,將全面取代人類創(chuàng)作文字、圖像、語音、視頻的能力。
綜合看,無論是GPT和軟件結(jié)合,還是多模態(tài),OpenAI的主旨就是“萬物兼可GPT”,而非將GPT局限在一個領(lǐng)域、一個應(yīng)用場景。
國外AI廠商也追隨OpenAI的腳步,多模態(tài)領(lǐng)域多點開花。在開源大模型領(lǐng)域,Meta AI(Llama)、Mistral AI等廠商領(lǐng)跑,在圖像生成領(lǐng)域,Midjourney、Stable Diffusion、OpenAI的DALL·E等大模型各領(lǐng)風騷,視頻生成領(lǐng)域,Runway的Gen、Pika和OpenAI的Sora等大模型各展所長。不僅如此,國外一些專業(yè)軟件企業(yè)也在通過AI大模型推進應(yīng)用變革。比如Adobe在用圖片生成AI顛覆Photoshop的圖像編輯功能,比如epic將AI嵌入到虛幻引擎當中,優(yōu)化游戲和動畫展現(xiàn)效果,再比如金融數(shù)據(jù)企業(yè)彭博社就推出了金融大模型BloombergGPT,利用了自身的數(shù)據(jù)優(yōu)勢。總之,從全球看,AI大模型正在不斷試探應(yīng)用邊界,并已經(jīng)在諸多領(lǐng)域打出名堂。
與之相對的,國內(nèi)AI廠商雖有長足進步,但國內(nèi)AI廠商正在掉入同質(zhì)化競爭陷阱。大多數(shù)國內(nèi)AI廠商發(fā)展的是智能體(AI Agent),也就是ChatGPT和GPT4.0類似的應(yīng)用,而在多模態(tài),AI大模型和應(yīng)用融合上,國內(nèi)AI廠商相對滯后。甚至出現(xiàn)了一種奇怪的現(xiàn)象,很多國內(nèi)AI廠商熱衷于和GPT做對比評分,似乎在做題上超過對手,就是成功。而由于國內(nèi)很多大模型是在GPT2.0基礎(chǔ)上迭代,所以有時候不同的AI產(chǎn)品甚至會給出近似的答案。更有甚者,有企業(yè)將國外AI大模型的API嵌入應(yīng)用當中,討個殼當自己的技術(shù)成果。
是什么導致國內(nèi)AI廠商同質(zhì)化競爭?筆者認為有如下原因:
首先,國內(nèi)互聯(lián)網(wǎng)數(shù)據(jù)生態(tài)較封閉。這里的封閉是多個維度的,一方面中國和海外互聯(lián)網(wǎng)之間存在隔斷,國內(nèi)互聯(lián)網(wǎng)數(shù)據(jù)總量有限,另一方面中國各大互聯(lián)網(wǎng)公司之間存在數(shù)據(jù)生態(tài)壁壘,尤其是在數(shù)據(jù)入表之后,數(shù)據(jù)價值提升,很多企業(yè)嘗到數(shù)據(jù)價值的甜頭,更加不愿意分享數(shù)據(jù),且往往以數(shù)據(jù)安全為由拒絕開放數(shù)據(jù)生態(tài)。封閉生態(tài)導致大模型很難和垂直行業(yè)領(lǐng)域的專業(yè)數(shù)據(jù)融合,只能基于公開數(shù)據(jù)來打造智能體,而公開數(shù)據(jù)往往缺少壁壘,大家都能獲得,所以產(chǎn)品也就走向同質(zhì)化。
其次,國內(nèi)算力存在瓶頸。還是老問題,美國禁售高算力顯卡和智能芯片,的確影響了國內(nèi)大模型企業(yè)的AI大模型發(fā)展。事實上,語言類大模型需要的算力最小,語音、圖像、視頻生成的大模型算力遠高于語言文字類大模型,所以,算力制約了中國多模態(tài)的發(fā)展。
再者,國內(nèi)對AI發(fā)展的安全性存在疑慮。AI大模型帶來的技術(shù)風險是顯而易見的,比如AI大模型算法可以和搜索引擎結(jié)合,更精準地找到數(shù)據(jù),技術(shù)本無善惡,但技術(shù)對數(shù)據(jù)的精準挖掘很可能暴露國家機密、商業(yè)機密和個人隱私。再比如AI生成內(nèi)容會侵犯隱私,若有人用A的頭像嫁接到B的視頻,那么就會侵犯A的肖像權(quán)。過去我們說“有圖有真相”,如今是“視頻也未必是真相”。再比如,AI潛在的崗位替代,會引發(fā)失業(yè),當然,相對于其他問題,這顯然是個小問題,因為AI大模型并沒有這么強大。
總之,面對AI大模型帶來的風險,國內(nèi)管理層有很強的規(guī)范動機,而這些規(guī)范行為雖然起到了作用,但也會限制AI技術(shù)的創(chuàng)新。安全和創(chuàng)新之間往往存在一定的沖突。相對而言,美國是判例法國家,雖然美國各界喊得很響亮,但并沒有實質(zhì)性的法律限制措施。
最后,從歷史看,中國人有創(chuàng)新能力,但依然缺少原創(chuàng)精神。國內(nèi)很多大模型是構(gòu)筑在國外開源模型基礎(chǔ)之上的,比如OpenAI過去的老版本GPT2.0,比如Llama,甚至有很多套殼AI。對于原創(chuàng)精神,筆者總結(jié)出一點原因:中國企業(yè)很害怕長周期投資,因為長周期投資存在很大風險,且風險不只是技術(shù)開發(fā)失敗,而是應(yīng)用落地可能遭遇多重阻力,比如審批通過難造成的不確定性。
除了同質(zhì)化,國內(nèi)AI產(chǎn)品還存在過度擬合和數(shù)據(jù)污染的問題。過度擬合往往是因為數(shù)據(jù)學習的量過大導致的。數(shù)據(jù)不足的時候,AI大模型往往會聯(lián)想和腦補,甚至會胡說八道編故事,這就是欠擬合。而數(shù)據(jù)過多的時候,AI大模型也會陷入思維定式,這就是過度擬合。舉個例子,AI看一張帶有鋸齒的樹葉,欠擬合下,AI會將樹葉描述成一棵樹,而過度擬合下,AI會只關(guān)注樹葉的鋸齒。隨著國內(nèi)AI大模型數(shù)據(jù)訓練的加強,很多AI大模型存在過度擬合的情況,回答問題就像八股文一樣,有些AI大模型會給你列出很多點,但沒有一點答在點子上。
現(xiàn)實中,用戶生成內(nèi)容的目的很多元,有時候要的就是AI的想象力,而由于學數(shù)據(jù)太多,AI會喪失想象力。雪上加霜的是,當前國內(nèi)要求AI生成內(nèi)容要合規(guī),由于大模型算法本身是“技術(shù)黑箱”,開發(fā)者很難控制生成結(jié)果,有些結(jié)果哪怕概率再小,也依然有出現(xiàn)的可能,所以,客觀上合規(guī)要求導致國內(nèi)AI過度擬合的問題更加嚴重。
而回頭看,國外AI廠商之所以探索應(yīng)用融合和多模態(tài)的道路,事實上也是因為同質(zhì)化和過度擬合限制了智能體的發(fā)展,所以,我認為未來國內(nèi)AI廠商需要追隨國外AI廠商的腳步,用更多原創(chuàng)創(chuàng)新來找尋AI大模型新的應(yīng)用路徑。
綜上,介于同質(zhì)化和過度擬合等問題,國內(nèi)AI產(chǎn)業(yè)有可能經(jīng)歷一段冷靜期,直到AI領(lǐng)域新一輪原創(chuàng)創(chuàng)新爆發(fā)。
而從全球AI產(chǎn)業(yè)角度,實際上美國AI巨頭也很難逃脫技術(shù)周期。我們知道,很多創(chuàng)新產(chǎn)品將經(jīng)歷概念期、成長期和成熟期。美國AI巨頭雖然在多模態(tài)領(lǐng)域有進展,但回頭看,OpenAI的很多應(yīng)用都是紙面應(yīng)用,有展示,沒有落地。當下,大多數(shù)美國AI巨頭并未通過AI實現(xiàn)正向盈利。而因為AI估值高企的硅谷公司,諸如微軟、英偉達、蘋果、谷歌等則存在顯著的估值泡沫,未來“殺估值”可能在所難免。事實上,這又只是歷史的重復,2001年以前,美國互聯(lián)網(wǎng)公司估值奇高,也屬于概念期,結(jié)果2001年科網(wǎng)泡沫破滅。繼而真正的成長期開始,從2001年開始延續(xù)了20年。任何科技從早期概念炒作到實際提升生產(chǎn)力,都會經(jīng)歷一個過程,這是一輪優(yōu)勝劣汰,并不會毀滅AI大模型,會去偽存真,為AI大模型進入成長期打好基礎(chǔ)。
總之,無論是國內(nèi)還是國外AI產(chǎn)業(yè),都將會有一輪風雨,但風雨過后必有彩虹。未來AI大模型產(chǎn)業(yè)有風浪,但依然能夠遠航。
縱觀AI大模型的過去和現(xiàn)在,我們不難發(fā)現(xiàn),其實從上世紀50年代開始的信息革命,本質(zhì)上就是智能革命,人為地將時代劃斷,分為信息時代和數(shù)智時代,也只是給時間加了標注。換句話說,AI大模型是信息技術(shù)革命的延續(xù),所以AI大模型就是技術(shù)革命。尤其是深度學習算法的出現(xiàn),讓人類看清了AI未來發(fā)展軌跡。人類發(fā)展AI的路徑更加清晰了,讓AI通過深度學習算法模仿人類,從而締造真正的仿生智能。
然而,制約AI發(fā)展的因素,實際上有且只有三個,就像廚師做菜,一道好菜,需要有好廚師(算法)、好菜(數(shù)據(jù))、好火候(算力)。其中算法的關(guān)鍵在人才和創(chuàng)新,數(shù)據(jù)的關(guān)鍵在打破數(shù)據(jù)壁壘,算力的關(guān)鍵在打破技術(shù)封鎖。而當前,國內(nèi)AI廠商最急迫的,是擺脫同質(zhì)化。所以,人才和創(chuàng)新的激勵將是國內(nèi)AI產(chǎn)業(yè)發(fā)展的重點,那么,如何讓“廚師”創(chuàng)新呢?
一個建議是算法創(chuàng)新的產(chǎn)權(quán)登記和產(chǎn)權(quán)保護。首先我們要明確一點,AI大模型算法不適合開源,因為AI大模型需要數(shù)據(jù)和算力,這些都要花錢,開源算法沒人去添磚加瓦,注定走不遠,這也是為什么OpenAI在非營利組織時期默默無聞,而在封頂閉源之后異軍突起。其次,在產(chǎn)權(quán)保護上我們有過成功的先例,從2015年開始,我國藥審中心開始擴容,并加快藥品審批進度,在2016年之后,我國迎來創(chuàng)新藥研究的爆發(fā)期,甚至在創(chuàng)新藥領(lǐng)域出現(xiàn)了研發(fā)內(nèi)卷,“百舸爭流”造就了醫(yī)藥創(chuàng)新的大繁榮。事實上,知識產(chǎn)權(quán)保護一直是鼓勵原創(chuàng)最佳的手段。
編輯:王延春