楊智杰
OpenAI的創(chuàng)始人山姆·奧特曼在社交平臺(tái)發(fā)出的由文字生成的視頻。圖/IC
沒(méi)聲音,再好的戲也出不來(lái)。
在提示框內(nèi)輸入“中世紀(jì)小號(hào)手”,打開(kāi)音效開(kāi)關(guān)鍵,點(diǎn)擊生成視頻,一個(gè)4秒的AI生成視頻便躍然于屏幕上。人們不僅能看到一個(gè)身穿中世紀(jì)宮廷服飾樂(lè)手的畫(huà)面,還能聽(tīng)到樂(lè)手吹小號(hào)的聲音。
北京時(shí)間3月10日,硅谷一家AI初創(chuàng)公司Pika lab(以下簡(jiǎn)稱Pika),推出自研視頻生成模型的新功能,可同時(shí)生成畫(huà)面和聲音。此前,人們看到的所有AI生成的視頻都沒(méi)有聲音。此功能尚未向公眾開(kāi)放,但足以讓人見(jiàn)識(shí)到AI的進(jìn)化之快。
今年2月16日,OpenAI發(fā)布文字生成視頻的大模型Sora。根據(jù)簡(jiǎn)單幾句提示,Sora便能準(zhǔn)確“理解”文本,生成長(zhǎng)達(dá)60秒的視頻,引發(fā)全球關(guān)注。一些業(yè)內(nèi)人士將Sora的問(wèn)世稱為視頻生成領(lǐng)域的“ChatGPT 時(shí)刻”。當(dāng)?shù)貢r(shí)間3月8日,歷經(jīng)幾個(gè)月的“宮斗”大戲后,OpenAI的創(chuàng)始人山姆·奧特曼重回董事會(huì),繼續(xù)推進(jìn)公司實(shí)現(xiàn)通用人工智能(AGI)的使命。
Sora的橫空出世到底意味著什么,我們距離AGI還有多遠(yuǎn),AI的下一步將走向何方?
發(fā)布Sora之前,OpenAI并未向外界透露入局文生視頻的想法。直到今年年初,全球文字生成視頻賽道的焦點(diǎn),仍集中在Pika、Runway、Stability AI等初創(chuàng)企業(yè)身上。
去年11月底,Pika初代文生視頻產(chǎn)品發(fā)布,用戶輸入關(guān)鍵詞“馬斯克穿著太空服,3D動(dòng)畫(huà)”,卡通版的馬斯克隨即出現(xiàn),在他身后,美國(guó)太空探索技術(shù)公司(SpaceX)的火箭升入空中,視頻只有三四秒,清晰度和流暢度已遠(yuǎn)超其他產(chǎn)品。彼時(shí),Pika聯(lián)合創(chuàng)始人孟晨琳接受采訪時(shí)分析說(shuō),“為什么GPT沒(méi)有用于視頻,可能因?yàn)樗麄兊馁Y源、人力都集中到了文本模型上?!?/p>
兩個(gè)多月后,Sora驚艷亮相。其技術(shù)負(fù)責(zé)人最新展示的視頻中,輸入“穿越博物館的飛行之旅,沿途欣賞眾多繪畫(huà)、雕塑以及各式各樣的美麗藝術(shù)作品”,AI便生成60秒的長(zhǎng)視頻,人們跟隨鏡頭,從空中俯沖至博物館內(nèi),在多個(gè)畫(huà)廊、房間穿梭,還會(huì)從雕塑邊擦身而過(guò)。
新加坡南洋理工大學(xué)計(jì)算機(jī)學(xué)院助理教授劉子緯對(duì)《中國(guó)新聞周刊》說(shuō),OpenAI入局文生視頻賽道,并不令人意外。OpenAI始終標(biāo)榜要實(shí)現(xiàn)通用AGI?!俺鳤GI發(fā)展,AI不僅要‘讀萬(wàn)卷書(shū),還要看到世界上的種種物理現(xiàn)象。OpenAI一定會(huì)在文本、圖像、音頻、視頻等多模態(tài)領(lǐng)域發(fā)展。視頻是發(fā)展多模態(tài)最重要的一步,包含了世界運(yùn)轉(zhuǎn)的基本規(guī)律?!?/p>
Sora生成的視頻效果仍令劉子緯感到震撼。劉子緯3年前便開(kāi)始研究AI視頻生成。相較文字和圖片,AI視頻生成的技術(shù)難度最大,對(duì)視頻數(shù)據(jù)的分辨率、內(nèi)容流暢度、一致性要求高,算力需求大。Sora之前,市面上的同類(lèi)型產(chǎn)品,大多生成的視頻清晰度不高,還會(huì)出現(xiàn)畫(huà)面閃爍、人物變形的情況。Sora生成的視頻能保持很好的三維一致性。生成的內(nèi)容,比如水、云的運(yùn)動(dòng),小鳥(niǎo)在林中飛翔等,主體與環(huán)境的交互能一定程度上展現(xiàn)物理世界的真實(shí)性。
OpenAI在其官網(wǎng)發(fā)布的Sora的技術(shù)報(bào)告中,強(qiáng)調(diào)了Diffusion Transformer(基于Transformer架構(gòu)的擴(kuò)散模型,以下簡(jiǎn)稱DiT)的重要性,這是由兩種模型合成的新模型。兩種模型的“合璧”是Sora得以成為爆款的關(guān)鍵。Diffusion(擴(kuò)散模型)是一種有效的內(nèi)容生成模型,此前在圖片生成領(lǐng)域已展現(xiàn)出強(qiáng)大能力,能生成逼真且高質(zhì)量的圖片。Transformer是GPT這類(lèi)大語(yǔ)言模型的基礎(chǔ)架構(gòu)。ChatGPT能對(duì)答如流,便是因?yàn)檫@一架構(gòu)能通過(guò)預(yù)測(cè)下一個(gè)token(文本的最小單元)出現(xiàn)的概率,更好捕捉上下文信息,生成更符合邏輯的文本。
清華大學(xué)智能產(chǎn)業(yè)研究院首席研究員聶再清對(duì)《中國(guó)新聞周刊》解釋稱,OpenAI進(jìn)行視頻數(shù)據(jù)訓(xùn)練的一大“秘籍”,就是將不同尺寸、分辨率的視頻拆分成patch(視覺(jué)補(bǔ)丁,相當(dāng)于token),然后直接輸入模型學(xué)習(xí)。OpenAI官方介紹,Sora可以采樣寬屏1920x1080p、垂直屏1080x1920p及介于兩者間的所有視頻。此外,OpenAI還為訓(xùn)練的視頻集中生成字幕,可以提高文本保真度及視頻的整體質(zhì)量。
Sora官網(wǎng)發(fā)布的部分由文字生成的視頻(截圖)。
但業(yè)內(nèi)共識(shí)是,DiT模型是個(gè)公開(kāi)的秘密,底層技術(shù)上,Sora并沒(méi)有創(chuàng)新。早在2022年年底,DiT就被提出。當(dāng)時(shí),美國(guó)加利福尼亞大學(xué)伯克利分校博士生威廉·皮布爾斯和紐約大學(xué)計(jì)算機(jī)學(xué)院助理教授謝賽寧聯(lián)合發(fā)表論文,在文生圖領(lǐng)域,創(chuàng)造性地將Transformer與Diffusion融合,一度引發(fā)學(xué)界轟動(dòng)。劉子緯向《中國(guó)新聞周刊》介紹,去年起,國(guó)際上已有團(tuán)隊(duì)在探索利用DiT架構(gòu)訓(xùn)練文生視頻模型,包括其所在團(tuán)隊(duì)?!斑@是很自然的選擇?!?/p>
彼時(shí),文生視頻模型有多條技術(shù)路徑,但受限于算力和數(shù)據(jù),DiT路徑尚未走通,學(xué)術(shù)團(tuán)隊(duì)和創(chuàng)業(yè)公司難以全力投入。OpenAI選擇了一條少有人走的路。在劉子緯看來(lái),“Sora背后,與其說(shuō)是模型的突破,不如說(shuō)是OpenAI大模型系統(tǒng)設(shè)計(jì)的勝利”。大模型系統(tǒng)設(shè)計(jì),涵蓋訓(xùn)練數(shù)據(jù)的細(xì)節(jié),OpenAI在算力、人才組織架構(gòu)上的積累等。這些因素最為關(guān)鍵,但OpenAI在公開(kāi)信息中幾乎只字未提。
Sora復(fù)制了ChatGPT的成功經(jīng)驗(yàn),再次驗(yàn)證了“大力出奇跡”的暴力美學(xué),以及OpenAI“遇事不決,擴(kuò)大模型”核心價(jià)值觀的可行性。在清華大學(xué)計(jì)算機(jī)系副教授、人工智能初創(chuàng)公司壁智能聯(lián)合創(chuàng)始人劉知遠(yuǎn)看來(lái),Sora像是AI視頻生成的“GPT-3時(shí)刻”,它證明數(shù)據(jù)的價(jià)值,高質(zhì)量、大規(guī)模的數(shù)據(jù)能訓(xùn)練出一個(gè)文生視頻模型。
中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院數(shù)字所研究員董超長(zhǎng)期研究底層機(jī)器視覺(jué),目前,正與團(tuán)隊(duì)研發(fā)多模態(tài)模型。他向《中國(guó)新聞周刊》強(qiáng)調(diào),選取哪些數(shù)據(jù)、如何篩選、如何標(biāo)注,直接影響模型生成的效果。想要大模型生成高質(zhì)量的視頻,要求訓(xùn)練數(shù)據(jù)分辨率高,場(chǎng)景細(xì)節(jié)豐富,人、物、景占比協(xié)調(diào)等,如果一些場(chǎng)景轉(zhuǎn)場(chǎng)太快,也要被剔除。
Pika聯(lián)合創(chuàng)始人孟晨琳也提到,一些電影中有很多漂亮的視頻,但如果大部分都是人站著說(shuō)話,動(dòng)作單一,也不是訓(xùn)練大模型的優(yōu)質(zhì)數(shù)據(jù)。此外,版權(quán)問(wèn)題,也會(huì)影響企業(yè)收集到足夠多高質(zhì)量的視頻。
在董超看來(lái),數(shù)據(jù)背后,人才團(tuán)隊(duì)極為重要,“大模型的訓(xùn)練絕不是看上去那么簡(jiǎn)單,沒(méi)有經(jīng)驗(yàn)根本調(diào)不通,通常要團(tuán)隊(duì)里最優(yōu)秀的人來(lái)做這件事。國(guó)外許多科技公司的頂尖AI人才,都會(huì)在一線親自處理數(shù)據(jù),寫(xiě)代碼”。
據(jù)OpenAI官網(wǎng)介紹,Sora的核心團(tuán)隊(duì)共15人。公開(kāi)資料顯示,團(tuán)隊(duì)的成立時(shí)間尚未超過(guò)1年,三位研發(fā)負(fù)責(zé)人中,兩人都是2023年從加利福尼亞大學(xué)伯克利分校博士畢業(yè),其中一人便是前述DiT論文的作者之一威廉·皮布爾斯,另一位蒂姆·布魯克斯曾在谷歌工作近兩年,在伯克利讀博期間,主要研究方向就是圖片與視頻生成。布魯克斯和另外一位研發(fā)負(fù)責(zé)人阿迪亞·拉梅什都是OpenAI開(kāi)發(fā)的文生圖模型DALL-E 3的創(chuàng)造者。
從GPT-3、GPT-3.5再到GPT-4,OpenAI積累了豐富的大數(shù)據(jù)訓(xùn)練、生成與治理能力,這是支持Sora的“基礎(chǔ)設(shè)施”?!癝ora團(tuán)隊(duì)只有十幾人,就說(shuō)明,OpenAI給他們提供了重要的底層支持,組織架構(gòu)、人才管理、基礎(chǔ)設(shè)施,這才能讓有想法的人,真正做出能影響世界的成果?!眲⒆泳晫?duì)《中國(guó)新聞周刊》說(shuō)。
Sora官網(wǎng)發(fā)布的部分由文字生成的視頻(截圖)。
現(xiàn)階段的Sora并不完美。OpenAI官網(wǎng)公開(kāi)的生成視頻中,Sora會(huì)產(chǎn)生不符合常識(shí)的幻覺(jué),比如生成的椅子會(huì)變形,水杯摔碎前,水已灑在了桌面,明顯不符合物理學(xué)原理。公開(kāi)的技術(shù)報(bào)告中,OpenAI寫(xiě)道:Sora可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理,或難以理解因果關(guān)系,分不清左右,也可能難以精確描述隨著時(shí)間推移發(fā)生的事件等。
這與ChatGPT一本正經(jīng)地胡說(shuō)八道相似。清華大學(xué)人工智能研究院常務(wù)副院長(zhǎng)、計(jì)算機(jī)系自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室負(fù)責(zé)人孫茂松向《中國(guó)新聞周刊》解釋,這是基于Transformer架構(gòu)模型的“硬傷”??茖W(xué)家曾希望人工智能像人類(lèi)一樣能“演繹推理”,但努力多年,依然無(wú)法實(shí)現(xiàn)。Transformer成功讓AI產(chǎn)生了令人驚艷的生成能力。但硬幣的另一面,它不會(huì)像人類(lèi)一樣思考,會(huì)產(chǎn)生幻覺(jué)。
在孫茂松看來(lái),Sora目前的另一個(gè)短板在于可控性差。如果讓Sora生成一個(gè)復(fù)雜的場(chǎng)景,比如根據(jù)寫(xiě)好的劇本或小說(shuō)生成電影,Sora目前還做不好。Sora模型的運(yùn)行方式與人類(lèi)思考方式截然不同,模型根本不知道有物體存在。孫茂松舉例說(shuō),比如要生成的故事中有5個(gè)人,有不同的故事線。Sora之后有可能只生成了4個(gè)人,或者隨著時(shí)間發(fā)展,無(wú)法準(zhǔn)確連貫地呈現(xiàn)某個(gè)人應(yīng)做的動(dòng)作。
但從另一層面看,1分鐘的視頻雖然不長(zhǎng),對(duì)AI文生成視頻已算巨大飛躍?!叭绻凑漳壳吧傻乃?,將時(shí)長(zhǎng)從1分鐘延長(zhǎng)到5分鐘,只需增加算力就可實(shí)現(xiàn)。本質(zhì)上是讓模型不斷地預(yù)測(cè)下一幀?!睂O茂松說(shuō),但如果要對(duì)生成視頻進(jìn)行精準(zhǔn)地控制,就不只是算力的問(wèn)題,對(duì)算法也提出了更高要求,技術(shù)還要發(fā)展若干年,如果這一問(wèn)題解決,這將是超越ChatGPT的突破。
Runway官網(wǎng)展示的由文字生成的視頻(截圖)。
Sora引發(fā)業(yè)內(nèi)轟動(dòng),更在于OpenAI將其定義為“世界模擬器”。OpenAI寫(xiě)道:經(jīng)過(guò)大規(guī)模數(shù)據(jù)訓(xùn)練后,Sora涌現(xiàn)了新的能力,能模擬一些來(lái)自物理世界的人、動(dòng)物和環(huán)境的某些方面。比如Sora生成一個(gè)人在吃漢堡,不僅會(huì)呈現(xiàn)人吃漢堡的動(dòng)作,還會(huì)考慮到生成咬痕。這些能力的涌現(xiàn),是在沒(méi)有明確數(shù)據(jù)標(biāo)記的情況下產(chǎn)生的。OpenAI堅(jiān)信,持續(xù)擴(kuò)大視頻模型,是開(kāi)發(fā)高性能物理和數(shù)字世界模擬器的有力路徑。
劉子緯解釋,OpenAI強(qiáng)調(diào)世界模擬器,與其要實(shí)現(xiàn)AGI相關(guān)。但Sora是不是世界模擬器,仍存在爭(zhēng)議。英偉達(dá)人工智能研究院首席研究科學(xué)家Jim Fan表示,“Sora能模擬出無(wú)數(shù)個(gè)真實(shí)或虛構(gòu)的世界”。圖靈獎(jiǎng)得主、Meta首席科學(xué)家楊立昆認(rèn)為,“通過(guò)生成像素來(lái)對(duì)世界進(jìn)行建模是一種浪費(fèi)……注定會(huì)失敗?!鄙虾H斯ぶ悄軐?shí)驗(yàn)室領(lǐng)軍科學(xué)家林達(dá)華表示,“Sora 是一個(gè)視頻生成方面的里程碑式突破。但是生成逼真的視頻,跟掌握物理規(guī)律,以至實(shí)現(xiàn) AGI,那是完全不一樣的事情,之間有著巨大的鴻溝……我們測(cè)試 GPT-4 越深入,就越覺(jué)得人類(lèi)離 AGI 還很遙遠(yuǎn)?!?/p>
目前,學(xué)界和業(yè)界對(duì)于什么是世界模擬器,還沒(méi)有定論。這背后更本質(zhì)的分歧,還在于如何定義AGI。以楊立昆為代表的科學(xué)家認(rèn)為,AI要系統(tǒng)去理解人類(lèi)世界的運(yùn)作原理,而不是一臺(tái)學(xué)習(xí)了大量人類(lèi)知識(shí)的超級(jí)機(jī)器。以O(shè)penAI為代表的一方認(rèn)為,AI不用知道背后的物理規(guī)律,只要能不斷地很好地預(yù)測(cè)下一幀,還原世界的變化,就能幫助人類(lèi)達(dá)到 AGI。
今年全國(guó)兩會(huì)中,對(duì)于何為AGI,全國(guó)政協(xié)委員、北京通用人工智能研究院院長(zhǎng)朱松純給出的答案是:人工智能在日常物理和社會(huì)場(chǎng)景中能完成無(wú)限任務(wù)、能自主發(fā)現(xiàn)任務(wù),即“眼里有活”、有自主價(jià)值驅(qū)動(dòng)。今年1月底,北京通用人工智能研究院在京展出了全球首個(gè)通用智能人的雛形——小女孩“通通”。 朱松純稱,“通通”具備三四歲兒童完備的心智和價(jià)值體系,目前還在快速迭代中。在他看來(lái),日常生活中最習(xí)以為常的能力背后,其實(shí)都是AGI要研究的核心技術(shù)問(wèn)題?!皩?shí)現(xiàn)通用人工智能,關(guān)鍵在于為機(jī)器‘立心?!?/p>
一個(gè)共識(shí)是,Sora一定程度上體現(xiàn)了真實(shí)世界的物理規(guī)律。“但并沒(méi)有上升到成為它的行為準(zhǔn)則,讓它能理性地去建構(gòu)世界?!眲⒅h(yuǎn)對(duì)《中國(guó)新聞周刊》說(shuō)。劉知遠(yuǎn)并未完全否認(rèn)Sora這一模式,他類(lèi)比人類(lèi)理解世界的方式,同樣分為不同層次和階段。人們上學(xué)前,通過(guò)與世界交互,比如扔一個(gè)蘋(píng)果,蘋(píng)果掉在地上,從感性上感知重力;上學(xué)后,從課本上學(xué)習(xí)萬(wàn)有引力、相對(duì)論等物理規(guī)律,認(rèn)知會(huì)升華。
當(dāng)一個(gè)模型初步具備了語(yǔ)言能力,并具備了較強(qiáng)的感性知識(shí),像OpenAI這樣不斷擴(kuò)大模型,是否是走向世界模擬器的唯一出路?劉知遠(yuǎn)認(rèn)為,從長(zhǎng)期來(lái)看,“大力出奇跡”顯然不可持續(xù)。科學(xué)家有沒(méi)有可能通過(guò)其他方式,讓大模型建立起對(duì)世界的理性認(rèn)識(shí),更值得探討。劉子緯也提到,如果短期內(nèi),OpenAI希望Sora做得更好,可能需要兩條腿走路,讓模型靠數(shù)據(jù)驅(qū)動(dòng)的同時(shí),輸入一些教科書(shū)里的物理世界規(guī)律等理論知識(shí),探索更多可能。
2022年下半年,孫茂松便在許多場(chǎng)合預(yù)測(cè),多模態(tài)大模型,尤其是文生視頻模型在2024年會(huì)迎來(lái)一個(gè)突破。他向《中國(guó)新聞周刊》解釋,從文字、圖片再到視頻生成,這是多模態(tài)技術(shù)合乎邏輯的走向,但接下來(lái)AI會(huì)在哪一領(lǐng)域突破,他不敢確定。
具身智能,可以理解為在物理世界運(yùn)行的不同形態(tài)的機(jī)器人,融合了AI各種能力,被不少人看作AI的下一個(gè)進(jìn)化方向。當(dāng)?shù)貢r(shí)間3月1日,OpenAI公開(kāi)發(fā)文稱,正在和人形機(jī)器人初創(chuàng)公司Figure合作,開(kāi)發(fā)下一代人形機(jī)器人的人工智能模型,將他們的多模態(tài)模型擴(kuò)展到機(jī)器人感知、推理和交互。在孫茂松看來(lái),多模態(tài)大模型可以通過(guò)預(yù)測(cè)下一個(gè)token,判斷機(jī)器人接下來(lái)的行動(dòng)軌跡,這在專用場(chǎng)景有可能實(shí)現(xiàn)。但現(xiàn)實(shí)世界太復(fù)雜了,能否在通用場(chǎng)景下走通,還要打個(gè)問(wèn)號(hào)。
與此同時(shí),Sora的出現(xiàn),再度加深了人們對(duì)深度偽造的恐慌。AI生成視頻的門(mén)檻變得更低,足以以假亂真,鑒定難度也在增大。劉子緯向《中國(guó)新聞周刊》提到,近兩年,他們團(tuán)隊(duì)也曾和一些機(jī)構(gòu)合作,做深度偽造的檢測(cè),“當(dāng)時(shí)相對(duì)好辨別,一個(gè)普通人如果對(duì)著視頻看足夠久,可以發(fā)現(xiàn)其中的破綻”。目前,Sora生成的視頻雖有破綻,但質(zhì)量明顯提升。在劉子緯看來(lái),整個(gè)社會(huì)需要提升對(duì)AI安全性的認(rèn)識(shí),學(xué)界或業(yè)界目前可以做的是,在設(shè)計(jì)時(shí)就提高對(duì)AI安全性的考量,比如為AI生成的視頻添加數(shù)字水印或用于安全認(rèn)證的二維碼等。
ChatGPT的發(fā)布曾引發(fā)全球?qū)ι墒紸I監(jiān)管的討論,因此,OpenAI如今更加謹(jǐn)慎。設(shè)計(jì)大模型時(shí),為了提升安全性,技術(shù)人員會(huì)與“紅隊(duì)”人員(生成錯(cuò)誤信息,仇恨、偏見(jiàn)等內(nèi)容的專家)合作,對(duì)模型進(jìn)行對(duì)抗性測(cè)試,以便從中發(fā)現(xiàn)系統(tǒng)中潛在的危險(xiǎn)性,以及可能被濫用的種種可能。
“OpenAI在不斷前進(jìn),Sora讓大家又一次感受到,他們沒(méi)有停下,而且,前進(jìn)的速度看似更快。我們之間的差距仍然存在。”國(guó)內(nèi)知名大模型公司智譜AI相關(guān)負(fù)責(zé)人在接受《中國(guó)新聞周刊》采訪時(shí)坦言,Sora發(fā)布后,公司最關(guān)注的是,認(rèn)清差距和方向,繼續(xù)追趕。
劉知遠(yuǎn)也向《中國(guó)新聞周刊》提到,中美AI的差距始終存在,中國(guó)也面臨算力等“卡脖子”問(wèn)題。不過(guò),與十年前相比,近年來(lái),中國(guó)在AI人才儲(chǔ)備、科研成果等方面,與美國(guó)的差距已經(jīng)縮小。從全球范圍看,其他國(guó)家乃至美國(guó)的其他科技公司,也在追趕OpenAI。
OpenAI的先發(fā)優(yōu)勢(shì)決定了,其他競(jìng)爭(zhēng)者想要復(fù)刻Sora,并不簡(jiǎn)單。在劉子緯看來(lái),如果只是從模型層面復(fù)刻并不難,Dit有開(kāi)源代碼,許多團(tuán)隊(duì)也都探索過(guò)。但模型就像冰山一角,冰山底下很龐大,如何把聰明的人才聚集在一起——有人擅長(zhǎng)做數(shù)據(jù),有人擅長(zhǎng)訓(xùn)練模型等,每個(gè)人發(fā)揮出最大的聰明才智,才是關(guān)鍵。劉子緯估計(jì),如果想要復(fù)刻Sora的80%,認(rèn)真搭建底層系統(tǒng),大概在1年內(nèi)能實(shí)現(xiàn)。
中國(guó)為何沒(méi)有做出Sora?在董超看來(lái),首先是人才的差距。Sora團(tuán)隊(duì)的幾位博士生都有在一線訓(xùn)練文生圖大模型的豐富經(jīng)驗(yàn),這類(lèi)人才在國(guó)內(nèi),一個(gè)人往往要帶幾十人的團(tuán)隊(duì),很難在一線。其次,OpenAI人均算力資源量非常大,OpenAI團(tuán)隊(duì)共700多人,即便是內(nèi)部的小團(tuán)隊(duì),也可以用幾千張GPU(圖形處理器),嘗試各種創(chuàng)新方案,OpenAI也有足夠的耐心。今年2月,《華爾街日?qǐng)?bào)》曝出,OpenAI正計(jì)劃募資高達(dá)5萬(wàn)億到7萬(wàn)億美元,打算親自下場(chǎng)造芯片,為GPT的發(fā)展打造更充足的算力。
相比之下,國(guó)內(nèi)算力資源緊張,如果一個(gè)團(tuán)隊(duì)拿到1000張GPU,相當(dāng)于占用了很大的資源,所做的項(xiàng)目會(huì)被外界格外關(guān)注,如果3~6個(gè)月還在訓(xùn)練最初的模型,不出成果,資源很可能就會(huì)被收走,這導(dǎo)致研發(fā)人員很難冒險(xiǎn)做一些創(chuàng)新。
董超還提到,正確的道路往往風(fēng)險(xiǎn)大、周期長(zhǎng),一般團(tuán)隊(duì)很難敢做這樣的決策。“文生視頻模型就是典型案例,OpenAI走的就是完全純粹的文生視頻模型,重新訓(xùn)練,收集大量數(shù)據(jù),經(jīng)過(guò)近一年嘗試才出成果,一旦成功,必然是顛覆性的?!毕啾戎拢瑖?guó)內(nèi)科研氛圍浮躁,想三五個(gè)月就趕超國(guó)外,這樣只能在人家的工作上修修補(bǔ)補(bǔ),套殼做山寨,也容易造成內(nèi)卷,難以形成技術(shù)壁壘。
2022年底, ChatGPT爆紅之后,國(guó)內(nèi)涌現(xiàn)出上百家大模型廠商,試圖打造中國(guó)版的ChatGPT。但一年后,在大語(yǔ)言模型上中國(guó)企業(yè)仍未真正追趕上GPT-4。在劉知遠(yuǎn)看來(lái),如果一些投資者或從業(yè)者因?yàn)轶@嘆Sora的能力,只看到表象,便一窩蜂要做中國(guó)版Sora,那只是頭痛醫(yī)頭,腳痛醫(yī)腳。如果國(guó)內(nèi)只是跟隨OpenAI在商業(yè)模式上的創(chuàng)新,不在底層技術(shù)上持續(xù)投入,那中國(guó)就永遠(yuǎn)做不出GPT-4和Sora?!澳呐挛覀兪菑?fù)制,也要在對(duì)的方向上追趕?!眲⒅h(yuǎn)說(shuō)。
在董超看來(lái),不要高估Sora的作用,低估OpenAI的技術(shù)儲(chǔ)備,更要關(guān)注其為何能產(chǎn)出Sora背后的邏輯。如果只是盯著Sora本身,很可能一年后,OpenAI又會(huì)扔出另一個(gè)“炸彈”。
趕超OpenAI并不容易。自2019年OpenAI轉(zhuǎn)為營(yíng)利性公司后,公司就放棄了開(kāi)源策略,發(fā)布的GPT-3、GPT-3.5、GPT-4都不再開(kāi)源,甚至不再公開(kāi)模型參數(shù)。OpenAI甚至被埃隆·馬斯克戲稱為ClosedAI。今年2月底,OpenAI原董事會(huì)成員馬斯克甚至起訴OpenAI及公司CEO和總裁,馬斯克斥責(zé)OpenAI違背“初心”,要求OpenAI恢復(fù)開(kāi)源并給予賠償。隨后,OpenAI回應(yīng)稱,隨著大模型能力的增強(qiáng),如果開(kāi)源,會(huì)讓一些不道德的人使用大量硬件來(lái)構(gòu)建不安全的人工智能,因此,減少開(kāi)放是有意義的。
2月21日,谷歌發(fā)布新一代開(kāi)源模型Gemma。
大模型是否開(kāi)源,在國(guó)內(nèi)外引發(fā)巨大爭(zhēng)議。AI的發(fā)展離不開(kāi)開(kāi)源,依托于開(kāi)發(fā)者社區(qū),全球科研人員都能持續(xù)貢獻(xiàn)代碼,幫助解決問(wèn)題,打造更透明的人工智能,并對(duì)抗大公司的壟斷,OpenAI創(chuàng)立時(shí)也是開(kāi)源的堅(jiān)定支持者。但閉源大模型路徑能集中公司的資源,通過(guò)內(nèi)部用戶數(shù)據(jù)的迭代實(shí)現(xiàn)持續(xù)發(fā)展。
去年以來(lái),Meta、法國(guó)新興AI公司Mistral等AI公司相繼推出開(kāi)源大模型。2月21日,谷歌發(fā)布號(hào)稱“全球性能最強(qiáng)大、輕量級(jí)”的新一代開(kāi)源模型Gemma,都有向OpenAI宣戰(zhàn)的意味。不過(guò),公認(rèn)的現(xiàn)實(shí)是,目前,開(kāi)源模型的實(shí)力仍不及閉源模型,甚至有從業(yè)者曾直言,開(kāi)源模型永遠(yuǎn)無(wú)法趕超閉源模型。在劉子緯看來(lái),開(kāi)源大模型有重要價(jià)值,它就像電力系統(tǒng)一樣,為更多研發(fā)者提供一個(gè)“基礎(chǔ)設(shè)施”,來(lái)對(duì)抗大科技公司的壟斷。他判斷,開(kāi)源模型的發(fā)展會(huì)越來(lái)越好,盡管達(dá)不到閉源模型的水平,但未來(lái)開(kāi)源大模型在某些特色能力上可能會(huì)趕超閉源大模型。
多位受訪者提到,與美國(guó)相比,中國(guó)的優(yōu)勢(shì)在于,商業(yè)應(yīng)用場(chǎng)景多,國(guó)內(nèi)一些大模型廠商可以更好思考如何服務(wù)用戶,但仍需要有企業(yè)在自研大模型上修煉好“內(nèi)功”。沿著當(dāng)前大模型“大力出奇跡”的趨勢(shì),OpenAI“技術(shù)爆炸”不會(huì)長(zhǎng)期持續(xù)。雖有先發(fā)優(yōu)勢(shì),但不代表它無(wú)法被追趕,如果一步步打好基礎(chǔ)設(shè)施,未來(lái)差距會(huì)逐漸彌合。
2023年一次關(guān)于科技創(chuàng)新的討論中,朱松純提到,如果繼續(xù)沿用過(guò)去“跟跑—并跑—領(lǐng)跑”的路線,就形成一種“打籃球”的科研模式?;@球代表科技熱點(diǎn),控球方始終是科技強(qiáng)國(guó),我們的隊(duì)伍一直追著籃球滿場(chǎng)跑,不但會(huì)失去定力,頻繁更換方向與技術(shù)過(guò)程中還會(huì)跑散了隊(duì)伍。更重要的是,控球方已完成了軟硬件生態(tài)的布局,形成了新興產(chǎn)業(yè)“卡脖子”勢(shì)態(tài)。
朱松純認(rèn)為,要放棄“打籃球”的戰(zhàn)術(shù),學(xué)會(huì)“下圍棋”的戰(zhàn)略,注重全局,不盲目“跟跑”當(dāng)前以“大數(shù)據(jù)、大算力、大模型”為特征的人工智能熱點(diǎn),要從一味忙于“補(bǔ)短板”的防御戰(zhàn)略,轉(zhuǎn)為同時(shí)注重“構(gòu)筑長(zhǎng)板”的進(jìn)攻戰(zhàn)略,獨(dú)辟蹊徑,探索一條自己的創(chuàng)新道路。
AI未來(lái)的發(fā)展方向是全球共同關(guān)注的話題。本版圖/視覺(jué)中國(guó)