• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      從Sora到“世界模擬”:視頻大模型的技術(shù)原理、應(yīng)用場景與未來進路

      2024-07-09 12:35:41任天知沈浩
      新聞愛好者 2024年6期

      任天知 沈浩

      【摘要】Sora引領(lǐng)的視頻生成模型以其提出的“世界模擬器”理念展示出人工智能進展的重大突破,模型甫一問世便被視為邁向通用人工智能的標(biāo)志。以Sora的誕生為契機,系統(tǒng)探討該模型如何從知識理解、跨模態(tài)信息處理及因果推理等技術(shù)維度漸進實現(xiàn)“世界模擬”的構(gòu)想。結(jié)合Sora展現(xiàn)的功能特性,展望其在影視制作與游戲開發(fā)、教育培訓(xùn)及科學(xué)研究等領(lǐng)域中的潛在應(yīng)用價值。鑒于通用人工智能的宏大愿景,文中指出Sora代表的視頻大模型仍需在認(rèn)知突圍、自主進化、機器自省等方面持續(xù)攻關(guān),為未來智能技術(shù)的全面發(fā)展奠定堅實基礎(chǔ)。

      【關(guān)鍵詞】Sora;文生視頻模型;視頻大模型;通用人工智能;世界模擬器

      一、Sora的誕生:人工智能向視頻生成領(lǐng)域的跨越

      2024年2月,美國人工智能研究公司OpenAI再度顛覆了人工智能研究領(lǐng)域的既定格局,推出名為Sora的文生視頻模型。模型甫一問世,即被視為邁向通用人工智能(Artificial General Intelligence,AGI)的里程碑,彰顯出人工智能技術(shù)演進過程中的重要躍遷。

      相較于同類視頻生成模型,Sora在視頻時長、分辨率的精細(xì)化程度以及場景真實感再現(xiàn)方面均達(dá)到了全新高度。尤為突出的是,Sora在模擬物理世界現(xiàn)象的精確性和多樣性方面實現(xiàn)了突破,它超越了僅能創(chuàng)造虛擬表現(xiàn)形式的局限,展現(xiàn)出重現(xiàn)現(xiàn)實世界豐富細(xì)節(jié)場景的強大能力,激發(fā)了對現(xiàn)實與虛擬邊界日益模糊的深刻探討。Sora能夠自主建構(gòu)高度擬真的虛擬現(xiàn)實環(huán)境,昭示著人工智能內(nèi)部邏輯架構(gòu)與外部客觀世界之間的關(guān)系日趨緊密。Sora的研發(fā)歷程,揭示了人工智能技術(shù)在模擬與理解現(xiàn)實復(fù)雜世界過程中所取得的深層進步。

      在此背景下,OpenAI在技術(shù)報告中提出了“世界模擬器”(World Simulator)這一前瞻性框架,將Sora視為實踐這一理念的視頻生成載體,將Sora作為“構(gòu)筑物理世界通用模擬器的一條可行之路”[1]?!笆澜缒M器”的概念承載著宏大的科技創(chuàng)新愿景,旨在利用前沿的人工智能技術(shù)手段,尤其是借助視頻生成模型技術(shù),建立能夠精細(xì)化模擬現(xiàn)實世界中物理規(guī)則、社會動態(tài)及環(huán)境相互作用的復(fù)雜計算仿真生態(tài)系統(tǒng)。該概念的重要性不僅體現(xiàn)在其在視覺逼真表現(xiàn)層面上的生成與應(yīng)用,也在于其整合了自然語言理解與執(zhí)行能力,可以響應(yīng)指令模擬復(fù)雜情境并實時輸出適應(yīng)性行為。此外,它還預(yù)示著在對未來多種可能性進行高級模擬分析方面的深層次功能拓展。

      Sora是否能夠真正意義上“模擬世界”?Sora是否構(gòu)成實質(zhì)性的“世界模擬器”等問題還有待深入探究和驗證。在賦予此類模型“世界模擬器”的稱謂之前,我們有必要對其如何精細(xì)捕獲和有效模擬物理情境背后的技術(shù)原理、應(yīng)用場景以及未來發(fā)展進路進行更為詳盡的研究。Sora的進步是對“世界模擬”這一理想的實質(zhì)性邁進,但通往全面理解和構(gòu)建真實世界模擬器的道路才剛剛開始。

      二、Sora的技術(shù)原理:視頻模型模擬世界的可能性

      (一)知識處理:海量數(shù)據(jù)歸納與規(guī)律模擬

      作為視頻生成模型,Sora的知識基礎(chǔ)根植于對龐大多元的視覺、語言數(shù)據(jù)集的深度學(xué)習(xí)過程。通過對億級以上的圖像、視頻素材以及相應(yīng)的文本標(biāo)注和預(yù)訓(xùn)練,Sora汲取了廣泛的視覺語義內(nèi)涵和世界常識圖譜。相較于簡單的數(shù)據(jù)存儲與再現(xiàn),Sora所代表的文生視頻模型注重從海量數(shù)據(jù)中挖掘、仿真出所謂世界運作的深層法則與動態(tài)規(guī)律,進而生成逼真且流暢的視頻內(nèi)容。

      Sora采用無監(jiān)督學(xué)習(xí)策略對視覺世界的基礎(chǔ)要素進行探索與建模,涵蓋物體實體、環(huán)境場景、事件行為等各種構(gòu)成單元,以及各單元在時空維度上的聯(lián)系和互動效應(yīng)。這種結(jié)構(gòu)化、模塊化的場景表征方式,賦予Sora構(gòu)建多層次知識組織架構(gòu)的能力,使之能將復(fù)雜視覺現(xiàn)象拆解成基本組成單位,通過靈活重組創(chuàng)作出相對符合規(guī)律及常識推理框架的畫面表現(xiàn)。多模態(tài)學(xué)習(xí)技術(shù)的應(yīng)用使Sora建立了視覺表征與語義標(biāo)簽間的對應(yīng)關(guān)系,通過對齊視覺—語言表征空間,使得文本描述能夠精確定位并關(guān)聯(lián)至相關(guān)視覺單元。這一特性使Sora能夠在理解語言指令的基礎(chǔ)上,將其轉(zhuǎn)化成為直觀和準(zhǔn)確的視覺表達(dá)形式。此外,Sora對處理的大量視頻數(shù)據(jù)進行高效的時間序列建模,以掌握各類事件演進的固有模式以及場景間因果關(guān)系的內(nèi)在邏輯。由此,Sora能夠依據(jù)前后情境線索,對未來畫面做出合理預(yù)測,進而生成具有連續(xù)性、故事性特征的視頻片段,初步顯現(xiàn)出其在因果推理與規(guī)劃生成方面的能力。

      “我們正在教人工智能理解和模擬運動中的物理世界,目的是訓(xùn)練模型,幫助人們解決需要現(xiàn)實世界交互的問題?!盵2]Sora借助對數(shù)據(jù)資源的有效學(xué)習(xí),構(gòu)建起一套相對全面、立體的視覺世界理論模型,該模型囊括了從物體形態(tài)直至規(guī)律原理等多個認(rèn)知層次的知識內(nèi)容。這種從數(shù)據(jù)中萃取知識精華、構(gòu)筑邏輯聯(lián)系的能力,確定了Sora相較于傳統(tǒng)視覺生成模型的優(yōu)勢所在:其不僅是一款視頻創(chuàng)作工具,也正有意發(fā)展為具備初級常識推理能力的智能體,體現(xiàn)了人工智能由單純的“感知層面”朝向高階“認(rèn)知層面”邁進的偉愿。

      在人類的認(rèn)知發(fā)展過程中,“幼年時期即體現(xiàn)出對直觀物理學(xué)原理的初步掌握,如對物體存在的持久性(即便不在視線范圍內(nèi)物體仍持續(xù)存在)、堅固性(物體間不會穿透)和凝聚性(物體作為一個統(tǒng)一的整體一同移動)等基本屬性持固有期待”[3]。這種對物理世界及其規(guī)則的理解,源于人類大腦內(nèi)建的一個類似“直覺物理引擎”(Intuitive Physical Engine, IPE)的機制,它憑借類比物理定律的方式進行運作,以統(tǒng)計學(xué)的概率預(yù)測方式推斷物體隨時間的動態(tài)演變[4]。相較而言,Sora作為一種端到端的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并未直接融入傳統(tǒng)物理引擎的計算方法,而是在大規(guī)模數(shù)據(jù)集的基礎(chǔ)上挖掘和學(xué)習(xí)隱藏的物理規(guī)律表達(dá)。

      如果說“世界模型”是通過壓縮感知輸入和預(yù)測未來狀態(tài),提供環(huán)境的內(nèi)部表征,那么Sora的工作方法是通過視頻壓縮網(wǎng)絡(luò)將原始視頻映射至特定空間,并通過擴散變換器(Diffusion Transformer)在此空間中對時空片段進行精細(xì)化建模,從而捕捉到場景中的動態(tài)交互機制。[4]當(dāng)前,Sora的主要訓(xùn)練目標(biāo)聚焦于生成高質(zhì)量的視頻內(nèi)容,而非直接構(gòu)建用于模擬體驗的物理環(huán)境。盡管Sora展現(xiàn)出的場景連貫性提示其在模擬物理規(guī)律方面存在發(fā)展?jié)摿Γ湮磥砟芊襁M化成為真正的“世界模擬器”仍有待考證。

      (二)跨模態(tài)理解:打通視覺、語言等認(rèn)知通道

      作為“世界模擬器”的Sora,能夠整合語言、視覺等認(rèn)知模態(tài),實現(xiàn)跨模態(tài)的理解和生成,其能力主要體現(xiàn)在以下幾方面。

      一是Sora與大語言模型的無縫結(jié)合。作為在ChatGPT等先進語言模型基礎(chǔ)上拓展出的迭代成果,Sora展現(xiàn)出自然語言與視覺場景理解和生成之間的無縫對接能力。通過汲取ChatGPT的語義解析優(yōu)勢,Sora可以提升對文本描述精準(zhǔn)語義的捕獲效率。相較于大語言模型,Sora拓展了對時間和空間維度的處理能力,能夠駕馭具有時空屬性的視頻內(nèi)容生成任務(wù)。因此,Sora不局限于再現(xiàn)靜態(tài)圖像世界的特性,能夠在模擬動態(tài)演變世界時發(fā)揮效用。當(dāng)接收到文本指令時,Sora能夠解碼其中的意義,據(jù)此生成貼合文本語境的視頻內(nèi)容,涵蓋了時空連續(xù)性和復(fù)雜場景建構(gòu)等多個維度。通過集成、優(yōu)化與大語言模型的協(xié)作關(guān)系,Sora在視覺感知與語義理解間架設(shè)起通信橋梁,為構(gòu)建多模態(tài)理解提供支撐。此外,Sora不僅能夠模擬再現(xiàn)客觀物理世界,也能創(chuàng)造性地構(gòu)建符合主觀意念的虛構(gòu)場景,這種雙重特性賦予其成為“世界模擬器”的潛在能力,拓寬了在現(xiàn)實與想象世界互動探索的應(yīng)用前景。

      二是Sora展示出交互式多視角的生成能力。在視頻生成流程中,Sora能夠模擬攝像機視點的動態(tài)轉(zhuǎn)換,確保場景中物體在三維空間中的運動表現(xiàn)保持連續(xù)且一致,這一特點揭示了其在結(jié)構(gòu)化模型層面超越二維幀序列拼接的機制。Sora采用三維幾何原理及透視變換等核心知識構(gòu)建場景模型,這是實現(xiàn)物理世界仿真不可或缺的基礎(chǔ)。同時,Sora在時間維度的精細(xì)化建模方面表現(xiàn)出色,其生成的一分鐘視頻內(nèi),物體運動始終保持一致性和連貫性,表明Sora初步具備時間邏輯推理和因果關(guān)系建模的功能,這對于精確模擬真實物理過程至關(guān)重要。由此,Sora可以賦予用戶切換視角的自由度,可以使用戶從不同角度觀測所生成的世界,這反映了Sora內(nèi)部構(gòu)建了可以整合多視角信息的全景式多模態(tài)框架,從而實現(xiàn)對虛擬場景全方位、靈活的視角控制與展現(xiàn)。

      三是Sora體現(xiàn)出對物理世界構(gòu)成規(guī)則的基礎(chǔ)理解。其在空間與時間維度上的建模性能,實質(zhì)上來源于對諸如運動規(guī)律、力學(xué)規(guī)律等基礎(chǔ)物理法則的學(xué)習(xí)和初步應(yīng)用。不同于傳統(tǒng)的物理引擎模擬器,Sora通過大規(guī)模數(shù)據(jù)訓(xùn)練習(xí)得對物理世界的內(nèi)在認(rèn)知能力,這也是其作為潛在世界模擬器的價值所在。Sora底層學(xué)習(xí)并融合了對物理世界的基本理解,將視覺等多模態(tài)信息嵌入內(nèi)部表征之中。然而,現(xiàn)階段Sora對于物理規(guī)律的理解與模擬仍存在局限性,比如在處理物體的臨界狀態(tài)表達(dá)和因果性運動等方面仍存在不足,這些問題可能源于訓(xùn)練數(shù)據(jù)的局限性或者模型架構(gòu)與計算資源約束所致。未來,通過增加訓(xùn)練數(shù)據(jù)的豐富度和多樣性、改進模型結(jié)構(gòu)設(shè)計以及增強算力投入,Sora有望進一步提高其對物理世界的理解與模擬精度,可能朝向真正意義上AGI級別的世界模擬器演進。

      (三)因果推理:構(gòu)建事件邏輯,內(nèi)容貼近真實

      若要實現(xiàn)視頻內(nèi)容與真實世界的高度契合,模型須具備深入的因果推理能力來識別和學(xué)習(xí)各實體事物之間的因果關(guān)聯(lián)。Sora通過一系列關(guān)鍵技術(shù)模擬了事件邏輯,從而提高了生成內(nèi)容的真實性。

      Sora采用視頻壓縮網(wǎng)絡(luò)(Video Compression Network),通過視覺編碼器將原始視頻壓縮至低維潛在空間,將復(fù)雜的視頻信息簡化為時空補丁,這些補丁類似語句中的詞匯,承載著組建視頻的關(guān)鍵時空特征與動態(tài)變化信息。[5]進而,Sora預(yù)測這些補丁如何有效拼接,以生成連貫且視覺吸引力強的視頻內(nèi)容。通過視頻壓縮,Sora能夠在簡化后的潛在空間內(nèi)專注高質(zhì)量視頻內(nèi)容的生成,為后續(xù)擴散變換模型提供了視覺信息。

      Sora所搭載的擴散變換模型(Diffusion Transformer)借鑒了馬爾可夫鏈理念,采用遞歸去噪的方式逐步生成視頻幀序列。該模型在生成過程中體現(xiàn)明確的因果依賴關(guān)系,即將每一幀的生成嚴(yán)格建立在前序幀信息擴散和演變的基礎(chǔ)上,有力推動了視頻內(nèi)容中事件邏輯鏈條的有效構(gòu)建與延續(xù)。

      為更準(zhǔn)確地響應(yīng)用戶意圖并在模擬過程中遵循合理的因果邏輯,Sora通過整合大型語言模型的指令跟隨能力,有效增強了模型對文本輸入的理解。它首先訓(xùn)練視頻字幕生成器產(chǎn)生高質(zhì)量的視頻、描述性字幕作為訓(xùn)練數(shù)據(jù),然后使用大語言模型將簡短的用戶提示擴展為與訓(xùn)練數(shù)據(jù)格式一致的詳細(xì)描述,確保在推理時的輸入與訓(xùn)練保持一致[6]。通過這種方式,Sora能夠從簡短提示推導(dǎo)豐富語義,生成契合用戶意圖、合乎邏輯的高質(zhì)量視頻內(nèi)容。

      在提示工程方面,Sora的視頻/圖像提示能力極大增強了內(nèi)容與現(xiàn)實世界的視覺相似性和內(nèi)在一致性。除文本輸入外,它能夠接受視頻片段或圖像作為生成線索,引導(dǎo)生成過程沿著特定的藝術(shù)風(fēng)格或主題脈絡(luò)演進,在模擬層面更加接近真實世界的多元表現(xiàn)形態(tài)。

      以上核心技術(shù),共同支撐Sora實現(xiàn)具有因果邏輯的世界模擬。盡管當(dāng)前Sora等“視頻模型在正確模擬物理交互方面仍存在一些限制,包括對基本物理定律的模擬存在疏忽、難以一致展現(xiàn)物體的物理狀態(tài)變化等問題”[7],但其已在因果推理、構(gòu)建事件邏輯以及提升生成內(nèi)容真實感方面取得了重要突破。賦予模型深入的因果推理能力和學(xué)習(xí)物理定律、常識知識的能力,使其能夠推測事物運動變化背后的成因及其相互作用效應(yīng),是邁向高度逼真世界模擬的必經(jīng)之路。Sora代表的新一代文生視頻模型正積極向此目標(biāo)邁進。

      三、Sora的應(yīng)用圖景:想象與現(xiàn)實交匯

      (一)賦能內(nèi)容生產(chǎn):影視創(chuàng)作、游戲開發(fā)等領(lǐng)域

      Sora可能重塑影視制作與游戲開發(fā)等創(chuàng)意產(chǎn)業(yè)的生產(chǎn)和表達(dá)范式,不同于傳統(tǒng)視頻生成技術(shù)帶來的藝術(shù)完整性方面的折損,Sora采用了保留原始畫面比例的訓(xùn)練機制,確保其輸出的視頻內(nèi)容無論在何種設(shè)備支持下,均可傳達(dá)主題并展現(xiàn)出卓越的視覺美學(xué)。Sora可適應(yīng)目標(biāo)屏幕尺寸生成相應(yīng)分辨率及縱橫比的高質(zhì)量視頻內(nèi)容,語言理解能力使其準(zhǔn)確提取文字腳本,詮釋生成為驚艷的視覺敘事。

      Sora“可能改變電影制作和動畫的預(yù)制作過程,讓故事講述者推介和完善他們的表達(dá)”[8]。在影視預(yù)制作階段,Sora正重新定義編劇和導(dǎo)演的工作流程。過去,將抽象的創(chuàng)意概念轉(zhuǎn)化為具象視覺,通常需要美術(shù)團隊投入大量的時間精力進行草圖創(chuàng)作與概念設(shè)計。而今,利用Sora,創(chuàng)作團隊可直接將劇本文本轉(zhuǎn)化為視頻演示溝通,甚至可以快速制作預(yù)告片與動畫預(yù)覽。Sora引領(lǐng)的文本驅(qū)動與視頻生成技術(shù),不僅優(yōu)化了影視前期工作流程,還可以引入動態(tài)評估和交互式劇本的開發(fā)手段,有助于提升創(chuàng)意的探索效率。

      在游戲開發(fā)維度上,Sora同樣扮演著“破局者”角色。文本到視頻的轉(zhuǎn)化能力可以應(yīng)用于游戲場景構(gòu)建,助力游戲設(shè)計師快速生成基礎(chǔ)素材,有效緩解繁復(fù)的手工建模壓力。游戲行業(yè)越發(fā)注重劇情敘事,Sora可依據(jù)游戲腳本生成對應(yīng)的視頻片段,以提升場景過渡效果、深化游戲內(nèi)部故事敘述的感染力,進而增進玩家的沉浸式體驗。在游戲互動層面,Sora進一步延伸玩家參與內(nèi)容創(chuàng)作的權(quán)力邊界。通過簡單的文本輸入,玩家得以定制個性化的游戲場景,這一參與式創(chuàng)作模式有望開辟游戲互動娛樂的新維度。

      當(dāng)前,游戲行業(yè)不斷追求打破真實感和沉浸感界限的方式與方法,傳統(tǒng)游戲開發(fā)常受困于預(yù)先設(shè)定的環(huán)境和預(yù)編程的限制。而“通過集成如Sora擴散模型實現(xiàn)實時、高保真度視頻內(nèi)容以及擬真音效的生成,有望突破現(xiàn)存局限,賦能開發(fā)者構(gòu)建隨玩家行為和游戲事件動態(tài)變化的游戲環(huán)境”[9]。如模擬真實的氣候現(xiàn)象、地形動態(tài)變化,甚至是創(chuàng)造性地布局新場景,從而營造更加真實、響應(yīng)靈活的游戲世界。

      (二)更新教育方式:定制化學(xué)習(xí)體驗,均等化教育資源

      長久以來,教育內(nèi)容一直以靜態(tài)資源為主。傳統(tǒng)教學(xué)資源面臨著制作成本高、動態(tài)變化需求響應(yīng)能力不足等困境。Sora可以“將描述性文本或課程大綱轉(zhuǎn)化為特定風(fēng)格的、為個人學(xué)習(xí)者興趣量身定制動態(tài)視頻內(nèi)容”[10],構(gòu)筑個性化且富有吸引力的學(xué)習(xí)體驗。

      在個性化教學(xué)視頻的生成方面,Sora允許教育工作者根據(jù)學(xué)生個體的認(rèn)知特征和需求,指導(dǎo)模型生成貼合具體教學(xué)內(nèi)容的定制視頻教材。尤其在實驗教學(xué)場景中,Sora表現(xiàn)出強大的應(yīng)用前景。在要求立體化認(rèn)知的空間結(jié)構(gòu)教學(xué)中,其不僅能將諸如“溶解過程”等抽象概念以直觀視頻形式表現(xiàn),還可以揭示微觀層面的分子運動與作用機制,通過生成多角度視圖進行場景展示,拓展學(xué)生對復(fù)雜系統(tǒng)知識的理解深度。對于因安全、成本等因素限制而難以在現(xiàn)實環(huán)境中實施的實驗,如解剖學(xué)實驗中的實物標(biāo)本操作,或是汽車碰撞實驗中的破壞性場景,Sora可模擬生成虛擬實驗視頻,在克服資源限制與潛在風(fēng)險的同時,增強課堂教學(xué)互動探索性。

      Sora還展現(xiàn)出多元化的教育領(lǐng)域應(yīng)用潛能。在語言文化教學(xué)上,Sora可根據(jù)教學(xué)需要創(chuàng)造出地域情境,使學(xué)生體驗異域文化習(xí)俗和實踐特定語言交際,這一特性超越了傳統(tǒng)課本教學(xué)的局限,使學(xué)習(xí)者通過仿效真實對話情景習(xí)得語言技能并領(lǐng)悟文化內(nèi)核。在歷史課程教學(xué)中,Sora能夠生動再現(xiàn)關(guān)鍵歷史場景,將遙遠(yuǎn)的時空瞬間拉至學(xué)生身邊,將歷史教學(xué)從被動回顧轉(zhuǎn)向主動沉浸式體驗。

      Sora的虛擬化屬性有助于提升教育的普及性和可及性。其技術(shù)應(yīng)用一定程度上降低了傳統(tǒng)教學(xué)方式對人力物力的過度依賴,即便是資源匱乏的邊遠(yuǎn)地區(qū)學(xué)校,也能以較低成本獲得豐富的視頻教學(xué)資源,進而填補優(yōu)質(zhì)師資力量的空白,Sora可能充當(dāng)“AI助教”角色解答疑難問題,一定程度上彌合了地區(qū)間教育資源鴻溝。Sora一旦普及為普遍民主化的教學(xué)工具,則有望在促進教育公平性方面發(fā)揮效用。

      (三)助力科學(xué)研究:模擬實驗環(huán)境,共享科學(xué)知識

      科學(xué)研究的本質(zhì)在于探尋現(xiàn)象背后的運行機理,其過程包含從概念提煉、理論建構(gòu)至實驗驗證、學(xué)術(shù)傳播等多個環(huán)節(jié)。Sora有望將復(fù)雜理論模型和實驗過程以直觀形象的方式傳達(dá)給學(xué)術(shù)同行和社會公眾,在模擬實驗環(huán)境和科學(xué)知識共享方面發(fā)揮關(guān)鍵作用。

      在理論模型的可視化表達(dá)方面,諸多科研領(lǐng)域借助計算機模擬復(fù)雜系統(tǒng)的行為,大量原始數(shù)據(jù)難以直接轉(zhuǎn)譯為易于解讀的可視化形式。專業(yè)模擬軟件具備建模與仿真功能,但其專業(yè)化程度高、學(xué)習(xí)曲線陡峭,學(xué)科外的非專業(yè)人士難以駕馭。Sora的介入,可以使科研工作者短時間內(nèi)將深奧的模型計算結(jié)果轉(zhuǎn)化為易懂的視覺材料,將抽象概念變得直觀可感,從而增強理論傳播的有效性。

      在實驗環(huán)境模擬方面,對于涉及危險操作或受限于特殊環(huán)境的實驗項目,Sora可根據(jù)文本說明構(gòu)建虛擬實驗流程并生成模擬視頻。一方面可以幫助科研團隊在執(zhí)行前評估潛在風(fēng)險,另一方面通過反復(fù)模擬優(yōu)化實驗設(shè)計并節(jié)約實驗成本。在探索科學(xué)前沿的過程中,對于未經(jīng)實證的理論設(shè)想或假設(shè)性的物理現(xiàn)象,研究者可通過Sora將其轉(zhuǎn)化為可觀的視頻形態(tài),直觀顯現(xiàn)可能的表現(xiàn)狀態(tài)。

      在科學(xué)知識共享與普及方面,Sora的高效視頻生成技術(shù)有望促進跨學(xué)科合作與交流。其產(chǎn)出的科學(xué)概念視頻可以突破專業(yè)知識屏障,讓不同領(lǐng)域的專家得以通過視覺語言信息展開無障礙溝通,有助于加快科學(xué)發(fā)現(xiàn)。同時,Sora可能消除傳統(tǒng)科普視頻制作耗時長、成本高的障礙,快速生成科普視頻可以吸引公眾深入理解科學(xué)原理,提升科普教育的吸引力與影響力。

      四、Sora的未來進路:邁向AGI的下一站

      (一)認(rèn)知突圍:挑戰(zhàn)感知、推理、決策等更高階能力

      作為文生視頻模型,Sora在技術(shù)應(yīng)用層面取得了顯著成就,但在攀登通用人工智能高峰的道路上,依然受制于其認(rèn)知能力的局限,尤其在跨模態(tài)感知、深度推理和智能決策等高階認(rèn)知維度,Sora仍有待拓展。

      首先,在感知能力方面,盡管Sora實現(xiàn)了基于文本指導(dǎo)的視覺內(nèi)容再現(xiàn),但在跨模態(tài)感知整合方面尚欠完備。理想的AGI應(yīng)能融合多種感官輸入,以實現(xiàn)對環(huán)境的全方位、多維度認(rèn)知,并具有自主探索與學(xué)習(xí)的主動性,目前Sora并不具備這樣的特性。其次,在推理能力方面,雖然Sora在視頻生成任務(wù)中表現(xiàn)出色,但對于復(fù)雜情境下的因果邏輯推理和狀態(tài)預(yù)測能力卻較為有限,其無法生成基于深層因果關(guān)系分析的行為策略和決策預(yù)案。AGI的構(gòu)建要求具備強大的推理框架,能結(jié)合底層物理規(guī)律與高層語義知識,構(gòu)建起對復(fù)雜世界的微觀因果模型,進而準(zhǔn)確預(yù)測未來狀態(tài)演變,以實現(xiàn)智慧型決策而非簡單的響應(yīng)式輸出。最后,在高層次認(rèn)知能力方面,Sora不能應(yīng)對需要動態(tài)規(guī)劃、復(fù)雜策略制定的現(xiàn)實問題,更未顯示出諸如創(chuàng)造力、探索欲望、自我意識等人類級別的高級認(rèn)知屬性。而AGI應(yīng)具備與人類相似的創(chuàng)造性思維、好奇心驅(qū)動力、自我意識以及終身學(xué)習(xí)和適應(yīng)環(huán)境變化的能力。

      Sora或許是AGI發(fā)展歷程中的重要節(jié)點,而要實現(xiàn)對現(xiàn)有認(rèn)知邊界的實質(zhì)性突破,須在以下方面進行改革:一是開發(fā)端到端學(xué)習(xí)和融合不同模態(tài)信息的新型神經(jīng)網(wǎng)絡(luò)架構(gòu),利用注意力機制動態(tài)調(diào)節(jié)各模態(tài)權(quán)重,建立對現(xiàn)實世界的統(tǒng)一表征;二是強化模型對物理規(guī)則的理解與運用,構(gòu)建基于物理驅(qū)動的因果推理引擎,深度融合基礎(chǔ)理論與數(shù)據(jù)驅(qū)動模型,精確模擬底層物理過程;三是設(shè)計仿照人腦的多層次認(rèn)知結(jié)構(gòu),建立由感知、注意力分配、工作記憶、長期存儲及執(zhí)行控制系統(tǒng)構(gòu)成的類腦架構(gòu),進一步開發(fā)用于規(guī)劃、決策、創(chuàng)新思維等模塊,賦予系統(tǒng)創(chuàng)新思考與長期學(xué)習(xí)潛能。未來的AGI有望接近甚至達(dá)到與人腦相同的認(rèn)知廣度與深度,能夠進行精準(zhǔn)的分析決策,實現(xiàn)對世界的高保真模擬與靈活操控。

      (二)自主進化:擺脫指令,自主學(xué)習(xí)

      盡管Sora在視頻生成任務(wù)上成績斐然,其核心技術(shù)框架仍受限于對人類指令的高度依賴。從Sora邁向真正AGI的關(guān)鍵轉(zhuǎn)型在于實現(xiàn)AI系統(tǒng)的自主學(xué)習(xí)與演化,使之脫離對外部指令的剛性需求。

      Sora依托大規(guī)模監(jiān)督學(xué)習(xí)訓(xùn)練而成,其視頻生成活動依賴預(yù)定義的文本指令輸入,而此類指令集的構(gòu)建耗時耗力、難以覆蓋未來潛在的新任務(wù)場景。理想的AGI系統(tǒng)應(yīng)具備自發(fā)探索環(huán)境、獨立發(fā)現(xiàn)規(guī)律并自我更新迭代的能力,而非僅僅是對既定指令的被動響應(yīng)。Sora在開放式學(xué)習(xí)方面的欠缺,表現(xiàn)為訓(xùn)練后的靜態(tài)知識狀態(tài),其無法在實際應(yīng)用中進行自我擴展與升級。其知識體系源于有限且固定的訓(xùn)練數(shù)據(jù),無法隨著現(xiàn)實世界的開放性與動態(tài)變化而自適應(yīng)與學(xué)習(xí)。而真正的AGI系統(tǒng)應(yīng)當(dāng)具備開放式持續(xù)學(xué)習(xí)能力,能夠在各種新情境、規(guī)則和任務(wù)需求面前實時適應(yīng),持續(xù)吸收新知識并優(yōu)化內(nèi)部世界模型。此外,當(dāng)前的人工智能系統(tǒng)缺乏內(nèi)在驅(qū)動力和自我意識,其發(fā)展主要受外在需求引導(dǎo)而非源自內(nèi)在求知欲。成熟的AGI應(yīng)模擬人類的內(nèi)在學(xué)習(xí)動機,主動追求新知識,以此為基礎(chǔ)推進系統(tǒng)自主、持續(xù)的進步與發(fā)展。

      在邁向AGI自主進化的道路上,需在現(xiàn)有被動學(xué)習(xí)框架基礎(chǔ)上進行革新,擺脫對靜態(tài)訓(xùn)練數(shù)據(jù)的過度依賴,轉(zhuǎn)向自主學(xué)習(xí)與進化的能力,同時嵌入持續(xù)學(xué)習(xí)的開放機制和內(nèi)在激勵機制。為此,首先,可采用在線連續(xù)學(xué)習(xí)技術(shù)使得模型能在與環(huán)境互動的過程中實時學(xué)習(xí)、整合新知識并動態(tài)調(diào)整自身參數(shù),這要求開發(fā)新的在線神經(jīng)網(wǎng)絡(luò)參數(shù)調(diào)整算法,并解決相關(guān)穩(wěn)定性問題。其次,須構(gòu)建內(nèi)在獎勵機制,模擬生物學(xué)中類似好奇心、自我實現(xiàn)等高級心理驅(qū)動因素,為系統(tǒng)注入主動探索的動力,并通過正向反饋激發(fā)其持久的“求知沖動”。最后,為了應(yīng)對現(xiàn)實世界層出不窮的新情況,AGI系統(tǒng)應(yīng)具備強大的元學(xué)習(xí)和遷移學(xué)習(xí)能力,迅速消化新知識并將已掌握的知識有效應(yīng)用于新情境,提升其在應(yīng)對全新挑戰(zhàn)時的自適應(yīng)速度和效能。

      (三)機器自?。壕邆湓J(rèn)知,確保可信度

      透明度與可解釋性對于確保人工智能系統(tǒng)的可信度至關(guān)重要,目前包括Sora在內(nèi)的大模型普遍遭遇“黑盒效應(yīng)”,其內(nèi)部運算過程難以透視,決策機制呈現(xiàn)低透明度與低可解釋性特征。因此,在通向AGI的道路上,亟待新一代AI發(fā)展出元認(rèn)知能力,通過自我反思其認(rèn)知過程來增強透明度與可解釋性。

      針對透明度缺失引發(fā)的可解釋性問題,Sora模型從文本指令到視頻生成的具體轉(zhuǎn)化機制尚不清晰,這導(dǎo)致用戶難以預(yù)測其輸出行為,更無法進行精準(zhǔn)的調(diào)整優(yōu)化。至于自我監(jiān)督與自我調(diào)節(jié)機制,當(dāng)前Sora等模型不具備深度的自省能力,其內(nèi)部的認(rèn)知活動猶如黑盒,外界難以對其實施有效的監(jiān)督與控制。若發(fā)生計算偏誤或不合理操作,系統(tǒng)自身無法及時察覺并自我修復(fù)?,F(xiàn)階段的Sora等系統(tǒng)在自我評估與自我約束方面存有局限,易于遭受誤用和操控風(fēng)險。相比之下,理想的AGI系統(tǒng)則應(yīng)構(gòu)建起透明化架構(gòu)和可追溯的決策流程,具有自我監(jiān)督及自我調(diào)節(jié)功能,能夠積極闡明決策邏輯,還能真誠地評價自身存在的風(fēng)險與局限,明確表述認(rèn)知邊界的所在,進而提升系統(tǒng)的可靠性和信任度。

      未來的AGI系統(tǒng)要在架構(gòu)設(shè)計上實現(xiàn)機器自省,需具備三個核心機制:一是配備元認(rèn)知監(jiān)測機制,嵌入系統(tǒng)結(jié)構(gòu)中以實時監(jiān)控各個認(rèn)知模塊的表現(xiàn),通過對異常模式識別、決策路徑的剖析以及計算偏差的發(fā)現(xiàn)與校正,實現(xiàn)全面的自我監(jiān)管與調(diào)整;二是建立多視角融合機制,確保認(rèn)知理解的穩(wěn)健性,這意味著模型需要有能力協(xié)調(diào)并綜合來自不同視角的理解,力求形成統(tǒng)一而全面的世界觀;三是主動設(shè)定認(rèn)知邊界,確保世界模型的可靠性,系統(tǒng)應(yīng)能精確評估自身認(rèn)知能力的局限,并通過與人類用戶的主動交流,誠實地反映認(rèn)知局限性及潛在風(fēng)險,接納人類反饋以指導(dǎo)改進,形成“人機協(xié)同解釋”機制,規(guī)避超越能力邊界所帶來的額外風(fēng)險。

      Sora代表的視頻生成模型,躍升至精確模擬動態(tài)復(fù)雜世界的“世界模型器”仍需時日。擁抱Sora等智能技術(shù)創(chuàng)新,意味著人類正在積極擘畫智能時代的藍(lán)圖。隨著技術(shù)持續(xù)精進,從單一視覺模擬向多元感官模擬擴展,再到全方位世界建模的演化,人工智能將在深刻理解現(xiàn)實的基礎(chǔ)上,推動人類社會在諸多領(lǐng)域?qū)崿F(xiàn)前所未有的變革。

      [本文為國家社科基金重大項目“我國新聞傳播業(yè)人工智能應(yīng)用現(xiàn)狀與發(fā)展趨向研究”(項目編號:19ZDA327)的研究成果;本文由中國傳媒大學(xué)中央高校基本科研業(yè)務(wù)費專項資助(CUC23GY011)]

      參考文獻:

      [1]Brooks T,Peebles B,Homes C,et al.Video generation models as world simulators. [J/OL].(2024-02-15) [2024-02-15].https://openai.com/research/video-generation-models-as-world-simulators/.

      [2]Creating video from text:Sora is an AI model that can create realistic and imaginative scenes from text instructions. [EB/OL]. [2024-02-15]. https://openai.com/sora/.

      [3]Margoni, F., Surian, L., Baillargeon, R. The violation-of-expectation paradigm: A conceptual overview[J/OL]. Psychological Review, 2023.

      [4]Raphal Millière. Are Video Generation Models World Simulators? [EB/OL]. [2024-03-01]. https://artificialcognition.net/posts/video-generation-world-simulators/.

      [5]Bilal Mansouri. Sora AI: The Future of AI Video Generation. [EB/OL] [2024-02-19]. https://gptpluginz.com/sora/#Transforming_Visual_Data_into_Manageable_Patches/.

      [6]Liu, Y., Zhang, K., Li, Y., Yan, Z., Gao, C., Chen, R., Yuan, Z., Huang, Y., Sun, H., Gao, J., He, L., Sun, L. Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models [J/OL]. [2024-02-28]. ArXiv: 2402.17177.

      [7]Cho, J., Puspitasari, F.D., Zheng, S., Zheng, J., Lee, L.H., Kim, T.H., Hong, C.S., Zhang, C. Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation [J/OL]. [2024-03-08]. ArXiv: 2403.05131.

      [8]Liu, Y., Zhang, K., Li, Y., Yan, Z., Gao, C., Chen, R., Yuan, Z., Huang, Y., Sun, H., Gao, J., He, L., Sun, L. Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models [J/OL]. [2024-02-28]. ArXiv: 2402.17177.

      [9]Hu, L., Gao, X., Zhang, P., Sun, K., Zhang, B., Bo, L. Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [J/OL]. [2023-12-07]. ArXiv: 2311.17117.

      [10]Xing, J., Xia, M., Liu, Y., Zhang, Y., Zhang, Y., He, Y., Liu, H., Chen, H., Cun, X., Wang, X., Shan, Y., Wong, T.T. Make-Your-Video: Customized Video Generation Using Textual and Structural Guidance [J/OL]. [2023-06-01]. ArXiv: 2306.00943.

      作者簡介:任天知,中國傳媒大學(xué)媒體融合與傳播國家重點實驗室博士后,中國傳媒大學(xué)國家輿情實驗室研究人員(北京 100024);沈浩,中國傳媒大學(xué)教授,中國傳媒大學(xué)媒體融合與傳播國家重點實驗室大數(shù)據(jù)首席科學(xué)家(北京 100024)。

      編校:王志昭

      大关县| 新绛县| 和政县| 新密市| 庄河市| 德化县| 静安区| 诸暨市| 会宁县| 湟中县| 安康市| 马尔康县| 含山县| 恩平市| 昭苏县| 兴山县| 闵行区| 工布江达县| 双牌县| 禄劝| 淮阳县| 布拖县| 东丰县| 昆山市| 漳浦县| 江达县| 久治县| 乌拉特前旗| 宁明县| 乳源| 大同市| 土默特左旗| 辰溪县| 福建省| 田林县| 新乡县| 安宁市| 云南省| 玉环县| 扬州市| 丹东市|