Sora將把AI帶向何方？

2024-04-25 09:32:02楊智杰

中國(guó)新聞周刊 2024年10期

楊智杰

OpenAI的創(chuàng)始人山姆·奧特曼在社交平臺(tái)發(fā)出的由文字生成的視頻。圖/IC

沒(méi)聲音，再好的戲也出不來(lái)。

在提示框內(nèi)輸入“中世紀(jì)小號(hào)手”，打開(kāi)音效開(kāi)關(guān)鍵，點(diǎn)擊生成視頻，一個(gè)4秒的AI生成視頻便躍然于屏幕上。人們不僅能看到一個(gè)身穿中世紀(jì)宮廷服飾樂(lè)手的畫(huà)面，還能聽(tīng)到樂(lè)手吹小號(hào)的聲音。

北京時(shí)間3月10日，硅谷一家AI初創(chuàng)公司Pika lab（以下簡(jiǎn)稱Pika），推出自研視頻生成模型的新功能，可同時(shí)生成畫(huà)面和聲音。此前，人們看到的所有AI生成的視頻都沒(méi)有聲音。此功能尚未向公眾開(kāi)放，但足以讓人見(jiàn)識(shí)到AI的進(jìn)化之快。

今年2月16日，OpenAI發(fā)布文字生成視頻的大模型Sora。根據(jù)簡(jiǎn)單幾句提示，Sora便能準(zhǔn)確“理解”文本，生成長(zhǎng)達(dá)60秒的視頻，引發(fā)全球關(guān)注。一些業(yè)內(nèi)人士將Sora的問(wèn)世稱為視頻生成領(lǐng)域的“ChatGPT 時(shí)刻”。當(dāng)?shù)貢r(shí)間3月8日，歷經(jīng)幾個(gè)月的“宮斗”大戲后，OpenAI的創(chuàng)始人山姆·奧特曼重回董事會(huì)，繼續(xù)推進(jìn)公司實(shí)現(xiàn)通用人工智能（AGI）的使命。

Sora的橫空出世到底意味著什么，我們距離AGI還有多遠(yuǎn)，AI的下一步將走向何方？

?“大力出奇跡”的再次驗(yàn)證

發(fā)布Sora之前，OpenAI并未向外界透露入局文生視頻的想法。直到今年年初，全球文字生成視頻賽道的焦點(diǎn)，仍集中在Pika、Runway、Stability AI等初創(chuàng)企業(yè)身上。

去年11月底，Pika初代文生視頻產(chǎn)品發(fā)布，用戶輸入關(guān)鍵詞“馬斯克穿著太空服，3D動(dòng)畫(huà)”，卡通版的馬斯克隨即出現(xiàn)，在他身后，美國(guó)太空探索技術(shù)公司（SpaceX）的火箭升入空中，視頻只有三四秒，清晰度和流暢度已遠(yuǎn)超其他產(chǎn)品。彼時(shí)，Pika聯(lián)合創(chuàng)始人孟晨琳接受采訪時(shí)分析說(shuō)，“為什么GPT沒(méi)有用于視頻，可能因?yàn)樗麄兊馁Y源、人力都集中到了文本模型上?！?/p>

兩個(gè)多月后，Sora驚艷亮相。其技術(shù)負(fù)責(zé)人最新展示的視頻中，輸入“穿越博物館的飛行之旅，沿途欣賞眾多繪畫(huà)、雕塑以及各式各樣的美麗藝術(shù)作品”，AI便生成60秒的長(zhǎng)視頻，人們跟隨鏡頭，從空中俯沖至博物館內(nèi)，在多個(gè)畫(huà)廊、房間穿梭，還會(huì)從雕塑邊擦身而過(guò)。

新加坡南洋理工大學(xué)計(jì)算機(jī)學(xué)院助理教授劉子緯對(duì)《中國(guó)新聞周刊》說(shuō)，OpenAI入局文生視頻賽道，并不令人意外。OpenAI始終標(biāo)榜要實(shí)現(xiàn)通用AGI?！俺鳤GI發(fā)展，AI不僅要‘讀萬(wàn)卷書(shū)，還要看到世界上的種種物理現(xiàn)象。OpenAI一定會(huì)在文本、圖像、音頻、視頻等多模態(tài)領(lǐng)域發(fā)展。視頻是發(fā)展多模態(tài)最重要的一步，包含了世界運(yùn)轉(zhuǎn)的基本規(guī)律?！?/p>

Sora生成的視頻效果仍令劉子緯感到震撼。劉子緯3年前便開(kāi)始研究AI視頻生成。相較文字和圖片，AI視頻生成的技術(shù)難度最大，對(duì)視頻數(shù)據(jù)的分辨率、內(nèi)容流暢度、一致性要求高，算力需求大。Sora之前，市面上的同類(lèi)型產(chǎn)品，大多生成的視頻清晰度不高，還會(huì)出現(xiàn)畫(huà)面閃爍、人物變形的情況。Sora生成的視頻能保持很好的三維一致性。生成的內(nèi)容，比如水、云的運(yùn)動(dòng)，小鳥(niǎo)在林中飛翔等，主體與環(huán)境的交互能一定程度上展現(xiàn)物理世界的真實(shí)性。

OpenAI在其官網(wǎng)發(fā)布的Sora的技術(shù)報(bào)告中，強(qiáng)調(diào)了Diffusion Transformer（基于Transformer架構(gòu)的擴(kuò)散模型，以下簡(jiǎn)稱DiT）的重要性，這是由兩種模型合成的新模型。兩種模型的“合璧”是Sora得以成為爆款的關(guān)鍵。Diffusion（擴(kuò)散模型）是一種有效的內(nèi)容生成模型，此前在圖片生成領(lǐng)域已展現(xiàn)出強(qiáng)大能力，能生成逼真且高質(zhì)量的圖片。Transformer是GPT這類(lèi)大語(yǔ)言模型的基礎(chǔ)架構(gòu)。ChatGPT能對(duì)答如流，便是因?yàn)檫@一架構(gòu)能通過(guò)預(yù)測(cè)下一個(gè)token（文本的最小單元）出現(xiàn)的概率，更好捕捉上下文信息，生成更符合邏輯的文本。

清華大學(xué)智能產(chǎn)業(yè)研究院首席研究員聶再清對(duì)《中國(guó)新聞周刊》解釋稱，OpenAI進(jìn)行視頻數(shù)據(jù)訓(xùn)練的一大“秘籍”，就是將不同尺寸、分辨率的視頻拆分成patch（視覺(jué)補(bǔ)丁，相當(dāng)于token），然后直接輸入模型學(xué)習(xí)。OpenAI官方介紹，Sora可以采樣寬屏1920x1080p、垂直屏1080x1920p及介于兩者間的所有視頻。此外，OpenAI還為訓(xùn)練的視頻集中生成字幕，可以提高文本保真度及視頻的整體質(zhì)量。

Sora官網(wǎng)發(fā)布的部分由文字生成的視頻（截圖）。

但業(yè)內(nèi)共識(shí)是，DiT模型是個(gè)公開(kāi)的秘密，底層技術(shù)上，Sora并沒(méi)有創(chuàng)新。早在2022年年底，DiT就被提出。當(dāng)時(shí)，美國(guó)加利福尼亞大學(xué)伯克利分校博士生威廉·皮布爾斯和紐約大學(xué)計(jì)算機(jī)學(xué)院助理教授謝賽寧聯(lián)合發(fā)表論文，在文生圖領(lǐng)域，創(chuàng)造性地將Transformer與Diffusion融合，一度引發(fā)學(xué)界轟動(dòng)。劉子緯向《中國(guó)新聞周刊》介紹，去年起，國(guó)際上已有團(tuán)隊(duì)在探索利用DiT架構(gòu)訓(xùn)練文生視頻模型，包括其所在團(tuán)隊(duì)?！斑@是很自然的選擇?！?/p>

彼時(shí)，文生視頻模型有多條技術(shù)路徑，但受限于算力和數(shù)據(jù)，DiT路徑尚未走通，學(xué)術(shù)團(tuán)隊(duì)和創(chuàng)業(yè)公司難以全力投入。OpenAI選擇了一條少有人走的路。在劉子緯看來(lái)，“Sora背后，與其說(shuō)是模型的突破，不如說(shuō)是OpenAI大模型系統(tǒng)設(shè)計(jì)的勝利”。大模型系統(tǒng)設(shè)計(jì)，涵蓋訓(xùn)練數(shù)據(jù)的細(xì)節(jié)，OpenAI在算力、人才組織架構(gòu)上的積累等。這些因素最為關(guān)鍵，但OpenAI在公開(kāi)信息中幾乎只字未提。

Sora復(fù)制了ChatGPT的成功經(jīng)驗(yàn)，再次驗(yàn)證了“大力出奇跡”的暴力美學(xué)，以及OpenAI“遇事不決，擴(kuò)大模型”核心價(jià)值觀的可行性。在清華大學(xué)計(jì)算機(jī)系副教授、人工智能初創(chuàng)公司壁智能聯(lián)合創(chuàng)始人劉知遠(yuǎn)看來(lái)，Sora像是AI視頻生成的“GPT-3時(shí)刻”，它證明數(shù)據(jù)的價(jià)值，高質(zhì)量、大規(guī)模的數(shù)據(jù)能訓(xùn)練出一個(gè)文生視頻模型。

中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院數(shù)字所研究員董超長(zhǎng)期研究底層機(jī)器視覺(jué)，目前，正與團(tuán)隊(duì)研發(fā)多模態(tài)模型。他向《中國(guó)新聞周刊》強(qiáng)調(diào)，選取哪些數(shù)據(jù)、如何篩選、如何標(biāo)注，直接影響模型生成的效果。想要大模型生成高質(zhì)量的視頻，要求訓(xùn)練數(shù)據(jù)分辨率高，場(chǎng)景細(xì)節(jié)豐富，人、物、景占比協(xié)調(diào)等，如果一些場(chǎng)景轉(zhuǎn)場(chǎng)太快，也要被剔除。

Pika聯(lián)合創(chuàng)始人孟晨琳也提到，一些電影中有很多漂亮的視頻，但如果大部分都是人站著說(shuō)話，動(dòng)作單一，也不是訓(xùn)練大模型的優(yōu)質(zhì)數(shù)據(jù)。此外，版權(quán)問(wèn)題，也會(huì)影響企業(yè)收集到足夠多高質(zhì)量的視頻。

在董超看來(lái)，數(shù)據(jù)背后，人才團(tuán)隊(duì)極為重要，“大模型的訓(xùn)練絕不是看上去那么簡(jiǎn)單，沒(méi)有經(jīng)驗(yàn)根本調(diào)不通，通常要團(tuán)隊(duì)里最優(yōu)秀的人來(lái)做這件事。國(guó)外許多科技公司的頂尖AI人才，都會(huì)在一線親自處理數(shù)據(jù)，寫(xiě)代碼”。

據(jù)OpenAI官網(wǎng)介紹，Sora的核心團(tuán)隊(duì)共15人。公開(kāi)資料顯示，團(tuán)隊(duì)的成立時(shí)間尚未超過(guò)1年，三位研發(fā)負(fù)責(zé)人中，兩人都是2023年從加利福尼亞大學(xué)伯克利分校博士畢業(yè)，其中一人便是前述DiT論文的作者之一威廉·皮布爾斯，另一位蒂姆·布魯克斯曾在谷歌工作近兩年，在伯克利讀博期間，主要研究方向就是圖片與視頻生成。布魯克斯和另外一位研發(fā)負(fù)責(zé)人阿迪亞·拉梅什都是OpenAI開(kāi)發(fā)的文生圖模型DALL-E 3的創(chuàng)造者。

從GPT-3、GPT-3.5再到GPT-4，OpenAI積累了豐富的大數(shù)據(jù)訓(xùn)練、生成與治理能力，這是支持Sora的“基礎(chǔ)設(shè)施”?！癝ora團(tuán)隊(duì)只有十幾人，就說(shuō)明，OpenAI給他們提供了重要的底層支持，組織架構(gòu)、人才管理、基礎(chǔ)設(shè)施，這才能讓有想法的人，真正做出能影響世界的成果?！眲⒆泳晫?duì)《中國(guó)新聞周刊》說(shuō)。

Sora官網(wǎng)發(fā)布的部分由文字生成的視頻（截圖）。

通用人工智能加速到來(lái)？

現(xiàn)階段的Sora并不完美。OpenAI官網(wǎng)公開(kāi)的生成視頻中，Sora會(huì)產(chǎn)生不符合常識(shí)的幻覺(jué)，比如生成的椅子會(huì)變形，水杯摔碎前，水已灑在了桌面，明顯不符合物理學(xué)原理。公開(kāi)的技術(shù)報(bào)告中，OpenAI寫(xiě)道：Sora可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理，或難以理解因果關(guān)系，分不清左右，也可能難以精確描述隨著時(shí)間推移發(fā)生的事件等。

這與ChatGPT一本正經(jīng)地胡說(shuō)八道相似。清華大學(xué)人工智能研究院常務(wù)副院長(zhǎng)、計(jì)算機(jī)系自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室負(fù)責(zé)人孫茂松向《中國(guó)新聞周刊》解釋，這是基于Transformer架構(gòu)模型的“硬傷”?？茖W(xué)家曾希望人工智能像人類(lèi)一樣能“演繹推理”，但努力多年，依然無(wú)法實(shí)現(xiàn)。Transformer成功讓AI產(chǎn)生了令人驚艷的生成能力。但硬幣的另一面，它不會(huì)像人類(lèi)一樣思考，會(huì)產(chǎn)生幻覺(jué)。

在孫茂松看來(lái)，Sora目前的另一個(gè)短板在于可控性差。如果讓Sora生成一個(gè)復(fù)雜的場(chǎng)景，比如根據(jù)寫(xiě)好的劇本或小說(shuō)生成電影，Sora目前還做不好。Sora模型的運(yùn)行方式與人類(lèi)思考方式截然不同，模型根本不知道有物體存在。孫茂松舉例說(shuō)，比如要生成的故事中有5個(gè)人，有不同的故事線。Sora之后有可能只生成了4個(gè)人，或者隨著時(shí)間發(fā)展，無(wú)法準(zhǔn)確連貫地呈現(xiàn)某個(gè)人應(yīng)做的動(dòng)作。

但從另一層面看，1分鐘的視頻雖然不長(zhǎng)，對(duì)AI文生成視頻已算巨大飛躍?！叭绻凑漳壳吧傻乃?，將時(shí)長(zhǎng)從1分鐘延長(zhǎng)到5分鐘，只需增加算力就可實(shí)現(xiàn)。本質(zhì)上是讓模型不斷地預(yù)測(cè)下一幀?！睂O茂松說(shuō)，但如果要對(duì)生成視頻進(jìn)行精準(zhǔn)地控制，就不只是算力的問(wèn)題，對(duì)算法也提出了更高要求，技術(shù)還要發(fā)展若干年，如果這一問(wèn)題解決，這將是超越ChatGPT的突破。

Runway官網(wǎng)展示的由文字生成的視頻（截圖）。

Sora引發(fā)業(yè)內(nèi)轟動(dòng)，更在于OpenAI將其定義為“世界模擬器”。OpenAI寫(xiě)道：經(jīng)過(guò)大規(guī)模數(shù)據(jù)訓(xùn)練后，Sora涌現(xiàn)了新的能力，能模擬一些來(lái)自物理世界的人、動(dòng)物和環(huán)境的某些方面。比如Sora生成一個(gè)人在吃漢堡，不僅會(huì)呈現(xiàn)人吃漢堡的動(dòng)作，還會(huì)考慮到生成咬痕。這些能力的涌現(xiàn)，是在沒(méi)有明確數(shù)據(jù)標(biāo)記的情況下產(chǎn)生的。OpenAI堅(jiān)信，持續(xù)擴(kuò)大視頻模型，是開(kāi)發(fā)高性能物理和數(shù)字世界模擬器的有力路徑。

劉子緯解釋，OpenAI強(qiáng)調(diào)世界模擬器，與其要實(shí)現(xiàn)AGI相關(guān)。但Sora是不是世界模擬器，仍存在爭(zhēng)議。英偉達(dá)人工智能研究院首席研究科學(xué)家Jim Fan表示，“Sora能模擬出無(wú)數(shù)個(gè)真實(shí)或虛構(gòu)的世界”。圖靈獎(jiǎng)得主、Meta首席科學(xué)家楊立昆認(rèn)為，“通過(guò)生成像素來(lái)對(duì)世界進(jìn)行建模是一種浪費(fèi)……注定會(huì)失敗?！鄙虾Ｈ斯ぶ悄軐?shí)驗(yàn)室領(lǐng)軍科學(xué)家林達(dá)華表示，“Sora 是一個(gè)視頻生成方面的里程碑式突破。但是生成逼真的視頻，跟掌握物理規(guī)律，以至實(shí)現(xiàn) AGI，那是完全不一樣的事情，之間有著巨大的鴻溝……我們測(cè)試 GPT-4 越深入，就越覺(jué)得人類(lèi)離 AGI 還很遙遠(yuǎn)?！?/p>

目前，學(xué)界和業(yè)界對(duì)于什么是世界模擬器，還沒(méi)有定論。這背后更本質(zhì)的分歧，還在于如何定義AGI。以楊立昆為代表的科學(xué)家認(rèn)為，AI要系統(tǒng)去理解人類(lèi)世界的運(yùn)作原理，而不是一臺(tái)學(xué)習(xí)了大量人類(lèi)知識(shí)的超級(jí)機(jī)器。以O(shè)penAI為代表的一方認(rèn)為，AI不用知道背后的物理規(guī)律，只要能不斷地很好地預(yù)測(cè)下一幀，還原世界的變化，就能幫助人類(lèi)達(dá)到 AGI。

今年全國(guó)兩會(huì)中，對(duì)于何為AGI，全國(guó)政協(xié)委員、北京通用人工智能研究院院長(zhǎng)朱松純給出的答案是：人工智能在日常物理和社會(huì)場(chǎng)景中能完成無(wú)限任務(wù)、能自主發(fā)現(xiàn)任務(wù)，即“眼里有活”、有自主價(jià)值驅(qū)動(dòng)。今年1月底，北京通用人工智能研究院在京展出了全球首個(gè)通用智能人的雛形——小女孩“通通”。朱松純稱，“通通”具備三四歲兒童完備的心智和價(jià)值體系，目前還在快速迭代中。在他看來(lái)，日常生活中最習(xí)以為常的能力背后，其實(shí)都是AGI要研究的核心技術(shù)問(wèn)題?！皩?shí)現(xiàn)通用人工智能，關(guān)鍵在于為機(jī)器‘立心?！?/p>

一個(gè)共識(shí)是，Sora一定程度上體現(xiàn)了真實(shí)世界的物理規(guī)律。“但并沒(méi)有上升到成為它的行為準(zhǔn)則，讓它能理性地去建構(gòu)世界?！眲⒅h(yuǎn)對(duì)《中國(guó)新聞周刊》說(shuō)。劉知遠(yuǎn)并未完全否認(rèn)Sora這一模式，他類(lèi)比人類(lèi)理解世界的方式，同樣分為不同層次和階段。人們上學(xué)前，通過(guò)與世界交互，比如扔一個(gè)蘋(píng)果，蘋(píng)果掉在地上，從感性上感知重力；上學(xué)后，從課本上學(xué)習(xí)萬(wàn)有引力、相對(duì)論等物理規(guī)律，認(rèn)知會(huì)升華。

當(dāng)一個(gè)模型初步具備了語(yǔ)言能力，并具備了較強(qiáng)的感性知識(shí)，像OpenAI這樣不斷擴(kuò)大模型，是否是走向世界模擬器的唯一出路？劉知遠(yuǎn)認(rèn)為，從長(zhǎng)期來(lái)看，“大力出奇跡”顯然不可持續(xù)。科學(xué)家有沒(méi)有可能通過(guò)其他方式，讓大模型建立起對(duì)世界的理性認(rèn)識(shí)，更值得探討。劉子緯也提到，如果短期內(nèi)，OpenAI希望Sora做得更好，可能需要兩條腿走路，讓模型靠數(shù)據(jù)驅(qū)動(dòng)的同時(shí)，輸入一些教科書(shū)里的物理世界規(guī)律等理論知識(shí)，探索更多可能。

2022年下半年，孫茂松便在許多場(chǎng)合預(yù)測(cè)，多模態(tài)大模型，尤其是文生視頻模型在2024年會(huì)迎來(lái)一個(gè)突破。他向《中國(guó)新聞周刊》解釋，從文字、圖片再到視頻生成，這是多模態(tài)技術(shù)合乎邏輯的走向，但接下來(lái)AI會(huì)在哪一領(lǐng)域突破，他不敢確定。

具身智能，可以理解為在物理世界運(yùn)行的不同形態(tài)的機(jī)器人，融合了AI各種能力，被不少人看作AI的下一個(gè)進(jìn)化方向。當(dāng)?shù)貢r(shí)間3月1日，OpenAI公開(kāi)發(fā)文稱，正在和人形機(jī)器人初創(chuàng)公司Figure合作，開(kāi)發(fā)下一代人形機(jī)器人的人工智能模型，將他們的多模態(tài)模型擴(kuò)展到機(jī)器人感知、推理和交互。在孫茂松看來(lái)，多模態(tài)大模型可以通過(guò)預(yù)測(cè)下一個(gè)token，判斷機(jī)器人接下來(lái)的行動(dòng)軌跡，這在專用場(chǎng)景有可能實(shí)現(xiàn)。但現(xiàn)實(shí)世界太復(fù)雜了，能否在通用場(chǎng)景下走通，還要打個(gè)問(wèn)號(hào)。

與此同時(shí)，Sora的出現(xiàn)，再度加深了人們對(duì)深度偽造的恐慌。AI生成視頻的門(mén)檻變得更低，足以以假亂真，鑒定難度也在增大。劉子緯向《中國(guó)新聞周刊》提到，近兩年，他們團(tuán)隊(duì)也曾和一些機(jī)構(gòu)合作，做深度偽造的檢測(cè)，“當(dāng)時(shí)相對(duì)好辨別，一個(gè)普通人如果對(duì)著視頻看足夠久，可以發(fā)現(xiàn)其中的破綻”。目前，Sora生成的視頻雖有破綻，但質(zhì)量明顯提升。在劉子緯看來(lái)，整個(gè)社會(huì)需要提升對(duì)AI安全性的認(rèn)識(shí)，學(xué)界或業(yè)界目前可以做的是，在設(shè)計(jì)時(shí)就提高對(duì)AI安全性的考量，比如為AI生成的視頻添加數(shù)字水印或用于安全認(rèn)證的二維碼等。

ChatGPT的發(fā)布曾引發(fā)全球?qū)ι墒紸I監(jiān)管的討論，因此，OpenAI如今更加謹(jǐn)慎。設(shè)計(jì)大模型時(shí)，為了提升安全性，技術(shù)人員會(huì)與“紅隊(duì)”人員（生成錯(cuò)誤信息，仇恨、偏見(jiàn)等內(nèi)容的專家）合作，對(duì)模型進(jìn)行對(duì)抗性測(cè)試，以便從中發(fā)現(xiàn)系統(tǒng)中潛在的危險(xiǎn)性，以及可能被濫用的種種可能。

放棄“打籃球”，學(xué)會(huì)“下圍棋”

“OpenAI在不斷前進(jìn)，Sora讓大家又一次感受到，他們沒(méi)有停下，而且，前進(jìn)的速度看似更快。我們之間的差距仍然存在。”國(guó)內(nèi)知名大模型公司智譜AI相關(guān)負(fù)責(zé)人在接受《中國(guó)新聞周刊》采訪時(shí)坦言，Sora發(fā)布后，公司最關(guān)注的是，認(rèn)清差距和方向，繼續(xù)追趕。

劉知遠(yuǎn)也向《中國(guó)新聞周刊》提到，中美AI的差距始終存在，中國(guó)也面臨算力等“卡脖子”問(wèn)題。不過(guò)，與十年前相比，近年來(lái)，中國(guó)在AI人才儲(chǔ)備、科研成果等方面，與美國(guó)的差距已經(jīng)縮小。從全球范圍看，其他國(guó)家乃至美國(guó)的其他科技公司，也在追趕OpenAI。

OpenAI的先發(fā)優(yōu)勢(shì)決定了，其他競(jìng)爭(zhēng)者想要復(fù)刻Sora，并不簡(jiǎn)單。在劉子緯看來(lái)，如果只是從模型層面復(fù)刻并不難，Dit有開(kāi)源代碼，許多團(tuán)隊(duì)也都探索過(guò)。但模型就像冰山一角，冰山底下很龐大，如何把聰明的人才聚集在一起——有人擅長(zhǎng)做數(shù)據(jù)，有人擅長(zhǎng)訓(xùn)練模型等，每個(gè)人發(fā)揮出最大的聰明才智，才是關(guān)鍵。劉子緯估計(jì)，如果想要復(fù)刻Sora的80％，認(rèn)真搭建底層系統(tǒng)，大概在1年內(nèi)能實(shí)現(xiàn)。

中國(guó)為何沒(méi)有做出Sora？在董超看來(lái)，首先是人才的差距。Sora團(tuán)隊(duì)的幾位博士生都有在一線訓(xùn)練文生圖大模型的豐富經(jīng)驗(yàn)，這類(lèi)人才在國(guó)內(nèi)，一個(gè)人往往要帶幾十人的團(tuán)隊(duì)，很難在一線。其次，OpenAI人均算力資源量非常大，OpenAI團(tuán)隊(duì)共700多人，即便是內(nèi)部的小團(tuán)隊(duì)，也可以用幾千張GPU（圖形處理器），嘗試各種創(chuàng)新方案，OpenAI也有足夠的耐心。今年2月，《華爾街日?qǐng)?bào)》曝出，OpenAI正計(jì)劃募資高達(dá)5萬(wàn)億到7萬(wàn)億美元，打算親自下場(chǎng)造芯片，為GPT的發(fā)展打造更充足的算力。

相比之下，國(guó)內(nèi)算力資源緊張，如果一個(gè)團(tuán)隊(duì)拿到1000張GPU，相當(dāng)于占用了很大的資源，所做的項(xiàng)目會(huì)被外界格外關(guān)注，如果3～6個(gè)月還在訓(xùn)練最初的模型，不出成果，資源很可能就會(huì)被收走，這導(dǎo)致研發(fā)人員很難冒險(xiǎn)做一些創(chuàng)新。

董超還提到，正確的道路往往風(fēng)險(xiǎn)大、周期長(zhǎng)，一般團(tuán)隊(duì)很難敢做這樣的決策。“文生視頻模型就是典型案例，OpenAI走的就是完全純粹的文生視頻模型，重新訓(xùn)練，收集大量數(shù)據(jù)，經(jīng)過(guò)近一年嘗試才出成果，一旦成功，必然是顛覆性的?！毕啾戎拢瑖?guó)內(nèi)科研氛圍浮躁，想三五個(gè)月就趕超國(guó)外，這樣只能在人家的工作上修修補(bǔ)補(bǔ)，套殼做山寨，也容易造成內(nèi)卷，難以形成技術(shù)壁壘。

2022年底， ChatGPT爆紅之后，國(guó)內(nèi)涌現(xiàn)出上百家大模型廠商，試圖打造中國(guó)版的ChatGPT。但一年后，在大語(yǔ)言模型上中國(guó)企業(yè)仍未真正追趕上GPT-4。在劉知遠(yuǎn)看來(lái)，如果一些投資者或從業(yè)者因?yàn)轶@嘆Sora的能力，只看到表象，便一窩蜂要做中國(guó)版Sora，那只是頭痛醫(yī)頭，腳痛醫(yī)腳。如果國(guó)內(nèi)只是跟隨OpenAI在商業(yè)模式上的創(chuàng)新，不在底層技術(shù)上持續(xù)投入，那中國(guó)就永遠(yuǎn)做不出GPT-4和Sora?！澳呐挛覀兪菑?fù)制，也要在對(duì)的方向上追趕?！眲⒅h(yuǎn)說(shuō)。

在董超看來(lái)，不要高估Sora的作用，低估OpenAI的技術(shù)儲(chǔ)備，更要關(guān)注其為何能產(chǎn)出Sora背后的邏輯。如果只是盯著Sora本身，很可能一年后，OpenAI又會(huì)扔出另一個(gè)“炸彈”。

趕超OpenAI并不容易。自2019年OpenAI轉(zhuǎn)為營(yíng)利性公司后，公司就放棄了開(kāi)源策略，發(fā)布的GPT-3、GPT-3.5、GPT-4都不再開(kāi)源，甚至不再公開(kāi)模型參數(shù)。OpenAI甚至被埃隆·馬斯克戲稱為ClosedAI。今年2月底，OpenAI原董事會(huì)成員馬斯克甚至起訴OpenAI及公司CEO和總裁，馬斯克斥責(zé)OpenAI違背“初心”，要求OpenAI恢復(fù)開(kāi)源并給予賠償。隨后，OpenAI回應(yīng)稱，隨著大模型能力的增強(qiáng)，如果開(kāi)源，會(huì)讓一些不道德的人使用大量硬件來(lái)構(gòu)建不安全的人工智能，因此，減少開(kāi)放是有意義的。

2月21日，谷歌發(fā)布新一代開(kāi)源模型Gemma。

大模型是否開(kāi)源，在國(guó)內(nèi)外引發(fā)巨大爭(zhēng)議。AI的發(fā)展離不開(kāi)開(kāi)源，依托于開(kāi)發(fā)者社區(qū)，全球科研人員都能持續(xù)貢獻(xiàn)代碼，幫助解決問(wèn)題，打造更透明的人工智能，并對(duì)抗大公司的壟斷，OpenAI創(chuàng)立時(shí)也是開(kāi)源的堅(jiān)定支持者。但閉源大模型路徑能集中公司的資源，通過(guò)內(nèi)部用戶數(shù)據(jù)的迭代實(shí)現(xiàn)持續(xù)發(fā)展。

去年以來(lái)，Meta、法國(guó)新興AI公司Mistral等AI公司相繼推出開(kāi)源大模型。2月21日，谷歌發(fā)布號(hào)稱“全球性能最強(qiáng)大、輕量級(jí)”的新一代開(kāi)源模型Gemma，都有向OpenAI宣戰(zhàn)的意味。不過(guò)，公認(rèn)的現(xiàn)實(shí)是，目前，開(kāi)源模型的實(shí)力仍不及閉源模型，甚至有從業(yè)者曾直言，開(kāi)源模型永遠(yuǎn)無(wú)法趕超閉源模型。在劉子緯看來(lái)，開(kāi)源大模型有重要價(jià)值，它就像電力系統(tǒng)一樣，為更多研發(fā)者提供一個(gè)“基礎(chǔ)設(shè)施”，來(lái)對(duì)抗大科技公司的壟斷。他判斷，開(kāi)源模型的發(fā)展會(huì)越來(lái)越好，盡管達(dá)不到閉源模型的水平，但未來(lái)開(kāi)源大模型在某些特色能力上可能會(huì)趕超閉源大模型。

多位受訪者提到，與美國(guó)相比，中國(guó)的優(yōu)勢(shì)在于，商業(yè)應(yīng)用場(chǎng)景多，國(guó)內(nèi)一些大模型廠商可以更好思考如何服務(wù)用戶，但仍需要有企業(yè)在自研大模型上修煉好“內(nèi)功”。沿著當(dāng)前大模型“大力出奇跡”的趨勢(shì)，OpenAI“技術(shù)爆炸”不會(huì)長(zhǎng)期持續(xù)。雖有先發(fā)優(yōu)勢(shì)，但不代表它無(wú)法被追趕，如果一步步打好基礎(chǔ)設(shè)施，未來(lái)差距會(huì)逐漸彌合。

2023年一次關(guān)于科技創(chuàng)新的討論中，朱松純提到，如果繼續(xù)沿用過(guò)去“跟跑—并跑—領(lǐng)跑”的路線，就形成一種“打籃球”的科研模式?；@球代表科技熱點(diǎn)，控球方始終是科技強(qiáng)國(guó)，我們的隊(duì)伍一直追著籃球滿場(chǎng)跑，不但會(huì)失去定力，頻繁更換方向與技術(shù)過(guò)程中還會(huì)跑散了隊(duì)伍。更重要的是，控球方已完成了軟硬件生態(tài)的布局，形成了新興產(chǎn)業(yè)“卡脖子”勢(shì)態(tài)。

朱松純認(rèn)為，要放棄“打籃球”的戰(zhàn)術(shù)，學(xué)會(huì)“下圍棋”的戰(zhàn)略，注重全局，不盲目“跟跑”當(dāng)前以“大數(shù)據(jù)、大算力、大模型”為特征的人工智能熱點(diǎn)，要從一味忙于“補(bǔ)短板”的防御戰(zhàn)略，轉(zhuǎn)為同時(shí)注重“構(gòu)筑長(zhǎng)板”的進(jìn)攻戰(zhàn)略，獨(dú)辟蹊徑，探索一條自己的創(chuàng)新道路。

AI未來(lái)的發(fā)展方向是全球共同關(guān)注的話題。本版圖/視覺(jué)中國(guó)

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

Sora將把AI帶向何方？

?“大力出奇跡”的再次驗(yàn)證

通用人工智能加速到來(lái)？

放棄“打籃球”，學(xué)會(huì)“下圍棋”

Sora將把AI帶向何方？

通用人工智能加速到來(lái)？