Sora與未來(lái)敘事：AI如何顛覆內(nèi)容創(chuàng)作

2024-05-21 00:40:20陳光

傳媒評(píng)論 2024年3期

文_陳光

2024 年2 月16 日，OpenAI 發(fā)布了其首個(gè)文生視頻模型Sora。這一突破性模型的發(fā)布在行業(yè)內(nèi)引起了轟動(dòng)，重新定義了當(dāng)前AI 文生視頻技術(shù)的極限，徹底顛覆了生成式AI 在視頻領(lǐng)域的全球市場(chǎng)格局。Sora不僅僅是一個(gè)技術(shù)突破，更是對(duì)人類敘事方式的一次深刻挑戰(zhàn)，預(yù)示著內(nèi)容生產(chǎn)領(lǐng)域未來(lái)的無(wú)限可能，也讓我們對(duì)通用人工智能（AGI）的進(jìn)步更加期待。

在此之前，盡管AI在圖像和音頻生成方面取得了令人矚目的成果，但高質(zhì)量、長(zhǎng)時(shí)間的視頻生成仍是一個(gè)難以攀越的峰頂。Sora的出現(xiàn)，一次性將視頻生成時(shí)長(zhǎng)提升了15倍，達(dá)到60秒，遠(yuǎn)超行業(yè)水平。不但如此，Sora還能生成復(fù)雜的多機(jī)位視頻，場(chǎng)景連貫，角色豐滿，細(xì)節(jié)精致，幾乎可以與現(xiàn)實(shí)中的場(chǎng)景媲美，這在以往的技術(shù)中是難以想象的。這種能力不僅極大提高了視頻內(nèi)容的創(chuàng)作效率，也為內(nèi)容創(chuàng)作者提供了前所未有的自由度。想象一下，只需輸入一段描述，Sora 就能為你呈現(xiàn)出一個(gè)完整、生動(dòng)的故事場(chǎng)景，這無(wú)疑將極大地激發(fā)創(chuàng)作者的想象力和創(chuàng)造力。

還原世界并超出想象的模型

用文字自動(dòng)生成視頻，其技術(shù)難點(diǎn)主要體現(xiàn)在如何處理并理解視覺(jué)信息的高維特性和動(dòng)態(tài)變化。視頻不僅包含了靜態(tài)圖像的空間信息，還包含時(shí)間序列上的動(dòng)態(tài)信息，因此對(duì)計(jì)算資源和模型處理能力的要求極高。實(shí)現(xiàn)這一技術(shù)需要借助深度學(xué)習(xí)中的生成模型，如擴(kuò)散模型(Diffusion Model)，以及強(qiáng)大的時(shí)空變換架構(gòu)，例如Transformer。Sora能驚艷亮相，其背后得益于以下方面取得的技術(shù)突破：首先，Sora 采用了將視頻和圖像數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一表示形式的方法，使得模型能在大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練；其次，模型能處理不同持續(xù)時(shí)間、分辨率和寬高比的視覺(jué)數(shù)據(jù)；再次，Sora 利用了擴(kuò)散Transformer（Diffusion Transformer）結(jié)構(gòu)，成功將擴(kuò)散模型與Transformer結(jié)合起來(lái)，以有效處理視頻數(shù)據(jù)；最后，Sora在語(yǔ)言理解方面也有所突破，通過(guò)DALL·E 3 中采用的視頻再描述（re-captioning）技術(shù)獲得大量配有描述文本的訓(xùn)練視頻數(shù)據(jù)，進(jìn)而提高了文本到視頻生成系統(tǒng)的質(zhì)量。這些技術(shù)能力的結(jié)合，使得Sora能根據(jù)文本提示生成高保真度的視頻內(nèi)容。

除了在長(zhǎng)度和質(zhì)量上的量級(jí)飛躍，我們還可以從Sora 生成的視頻中，看到它對(duì)真實(shí)世界物理規(guī)律、運(yùn)動(dòng)規(guī)律的部分掌握和遵循，也就是所謂的“世界模型”能力。比如，Sora 生成的視頻中，走路的人會(huì)帶起塵土，畫(huà)家的筆畫(huà)會(huì)留在畫(huà)布上，這表明Sora 已經(jīng)初步具備通過(guò)學(xué)習(xí)對(duì)現(xiàn)實(shí)世界進(jìn)行有限的模擬。它不再是簡(jiǎn)單地拼湊現(xiàn)成的視頻數(shù)據(jù)，而是試圖預(yù)測(cè)物體運(yùn)動(dòng)對(duì)環(huán)境的影響，這為構(gòu)建能像人一樣感知并交互的通用智能奠定了基礎(chǔ)。

OpenAI 在Sora 官方技術(shù)報(bào)告中提出“用視頻生成模型作為世界模擬器”，其核心思想在于利用Sora強(qiáng)大的視頻生成能力，創(chuàng)造一個(gè)虛擬世界。這個(gè)世界可以高度還原甚至超越現(xiàn)實(shí)，為人工智能提供一個(gè)無(wú)限寬廣、可控制且安全的實(shí)驗(yàn)和學(xué)習(xí)空間。在這個(gè)模擬環(huán)境中，人工智能可以接受各種任務(wù)和挑戰(zhàn)，通過(guò)與虛擬世界的互動(dòng)學(xué)習(xí)，不僅能理解物理規(guī)律和世界運(yùn)行法則，還能進(jìn)行決策訓(xùn)練、策略優(yōu)化和行為預(yù)測(cè)。Sora的文本到視頻映射能力，使這個(gè)世界模擬器可以通過(guò)自然語(yǔ)言來(lái)控制和指導(dǎo)，大幅降低了模擬器的使用門檻，擴(kuò)大了其應(yīng)用范圍。此外，Sora 生成的高保真視頻，使得模擬世界可以非常真實(shí)地反映出復(fù)雜的環(huán)境動(dòng)態(tài)，這對(duì)于自動(dòng)駕駛、虛擬現(xiàn)實(shí)、機(jī)器人學(xué)習(xí)等領(lǐng)域的研究與發(fā)展具有重大意義。因此，Sora不僅僅是視頻生成的工具，更擁有成為下一代人工智能研究和開(kāi)發(fā)平臺(tái)的巨大潛力。

世界模擬器是實(shí)現(xiàn)AGI的一個(gè)潛在工具。AGI需要能理解和操作物理世界，世界模擬器提供了一個(gè)虛擬環(huán)境，AGI可以在其中學(xué)習(xí)物理規(guī)律、社交規(guī)則和其他復(fù)雜的系統(tǒng)動(dòng)態(tài)，進(jìn)而無(wú)風(fēng)險(xiǎn)地探索和理解現(xiàn)實(shí)世界的復(fù)雜性。

世界模擬器雖然是實(shí)現(xiàn)AGI 的一種強(qiáng)有力的手段，但是不是通向AGI 的必由之路還有待商榷。AGI的發(fā)展可能需要多種技術(shù)和方法的結(jié)合，包括知識(shí)表示、推理、規(guī)劃、學(xué)習(xí)、感知和操控等多個(gè)方面的進(jìn)展。世界模擬器可能是這個(gè)廣泛技術(shù)組合中的一部分，但未必是唯一或者必要的路徑。然而，世界模擬器無(wú)疑為AGI 提供了一個(gè)重要的實(shí)驗(yàn)平臺(tái)，有助于推動(dòng)AI朝著更通用、更高層次的智能發(fā)展。

Sora推動(dòng)了內(nèi)容生產(chǎn)行業(yè)的變革

Sora 的問(wèn)世，不僅提供了顛覆性的視頻生成工具，也為各行各業(yè)帶來(lái)了前所未有的創(chuàng)新潛力和變革機(jī)遇。

在創(chuàng)意視頻行業(yè)，Sora能極大減輕視頻制作的工作量和技術(shù)門檻。傳統(tǒng)的視頻制作需要編劇、導(dǎo)演、攝影師、演員等多方合作完成，耗費(fèi)時(shí)間長(zhǎng)、成本高。Sora可以通過(guò)理解簡(jiǎn)單的文本描述，自動(dòng)生成視頻內(nèi)容。這讓小型創(chuàng)意工作室甚至個(gè)人創(chuàng)作者也能以較低的成本制作高質(zhì)量的視頻作品，極大地激發(fā)了創(chuàng)意產(chǎn)業(yè)的活力。

在教育領(lǐng)域，Sora 可以根據(jù)教學(xué)內(nèi)容需求，創(chuàng)造出生動(dòng)的教學(xué)視頻，使抽象的知識(shí)點(diǎn)變得形象易懂，增強(qiáng)學(xué)習(xí)的趣味性和有效性。學(xué)生們可以通過(guò)觀看由AI 生成的教育視頻，獲得更加直觀的學(xué)習(xí)體驗(yàn)，這對(duì)于提高教學(xué)效果、激發(fā)學(xué)生興趣將起到積極作用。

在醫(yī)療領(lǐng)域，Sora的應(yīng)用同樣具有重要價(jià)值。例如，它能生成手術(shù)過(guò)程的仿真視頻，幫助醫(yī)學(xué)生和專業(yè)醫(yī)生在無(wú)風(fēng)險(xiǎn)的環(huán)境中進(jìn)行學(xué)習(xí)和培訓(xùn)，可以提高手術(shù)技能的學(xué)習(xí)效率，降低實(shí)際操作中的風(fēng)險(xiǎn)。

對(duì)于電影和游戲產(chǎn)業(yè)，Sora的視頻生成能力將開(kāi)辟全新的創(chuàng)作可能性。它可以快速生成復(fù)雜的特效場(chǎng)景或者角色動(dòng)畫(huà)，減少人工制作的需求，使得電影和游戲的生產(chǎn)成本大幅度降低，同時(shí)還能加快產(chǎn)品從構(gòu)思到市場(chǎng)的過(guò)程。

此外，在新聞報(bào)道、旅游、房地產(chǎn)等行業(yè)，Sora 都能提供強(qiáng)大的支持。例如，新聞?dòng)浾呖梢岳肧ora快速生成再現(xiàn)事件現(xiàn)場(chǎng)的視頻，增強(qiáng)新聞報(bào)道的可視化和臨場(chǎng)感；旅游公司可以通過(guò)Sora 制作虛擬旅游視頻，吸引潛在游客；而房地產(chǎn)商則可以利用Sora 生成房屋內(nèi)外的虛擬漫游視頻，提升客戶的參觀體驗(yàn)。

Sora開(kāi)啟了AI賦能視覺(jué)內(nèi)容創(chuàng)作的新時(shí)代，也將推動(dòng)更多視覺(jué)領(lǐng)域任務(wù)實(shí)現(xiàn)自動(dòng)化，并激發(fā)人類更豐富的創(chuàng)造力。然而，Sora也對(duì)現(xiàn)有工作模式帶來(lái)的沖擊，尤其是那些重復(fù)性、模式化的創(chuàng)意工作。隨著Sora的發(fā)展和應(yīng)用，我們可能需要重新思考人類與AI在創(chuàng)意工作中的分工與合作方式。

Sora的視頻生成能力表明，AI可以承擔(dān)更多的創(chuàng)意執(zhí)行任務(wù)，能在短時(shí)間內(nèi)嘗試和生成大量不同的創(chuàng)意變體。這不僅能大幅提高工作效率，減少人力成本，還能推動(dòng)創(chuàng)意界限的拓展。在這種情況下，人類創(chuàng)作者的角色可能會(huì)從執(zhí)行者轉(zhuǎn)變?yōu)椴邉澱吆椭笇?dǎo)者，他們需要指導(dǎo)AI 完成具體創(chuàng)意工作，確保生成的內(nèi)容符合創(chuàng)意目標(biāo)和主旨精神。

其次，Sora的語(yǔ)言理解和視頻生成能力還意味著AI可以參與到更初級(jí)的創(chuàng)意決策過(guò)程，為人類提供靈感和可能性。這種能力使得人類與AI 的合作更加緊密，人類創(chuàng)作者需要學(xué)會(huì)如何與AI 溝通，怎樣有效地利用AI的能力來(lái)促進(jìn)創(chuàng)意過(guò)程。

再者，隨著AI技術(shù)在創(chuàng)意工作中的應(yīng)用變得越來(lái)越普遍，行業(yè)內(nèi)的工作流程和職業(yè)角色也可能發(fā)生變化。例如，在電影制作中，劇本創(chuàng)作、場(chǎng)景設(shè)計(jì)、特效生成等環(huán)節(jié)可能會(huì)越來(lái)越多地依賴于Sora 這樣的AI工具，從而改變這些工作的傳統(tǒng)方式。這不僅影響了從業(yè)者需要的技能集，也可能帶來(lái)新的工作機(jī)會(huì)，比如AI創(chuàng)意協(xié)調(diào)員或AI創(chuàng)意分析師等職位。

最后，隨著AI在創(chuàng)意領(lǐng)域的能力不斷增強(qiáng)，人類與AI的合作模式也需要不斷創(chuàng)新。我們可能會(huì)看到更多的協(xié)作平臺(tái)和工具的出現(xiàn)，以支持人類與AI之間的互動(dòng)和合作。同時(shí)，也必然會(huì)帶來(lái)知識(shí)產(chǎn)權(quán)、創(chuàng)意歸屬和倫理等一系列新的問(wèn)題，需要社會(huì)各界共同探討和解決。

Sora可能帶來(lái)全新的敘事形式

當(dāng)然，Sora并非完美無(wú)缺。它在生成視頻的連貫性方面并不總是完美，有時(shí)會(huì)出現(xiàn)物體無(wú)緣無(wú)故出現(xiàn)或消失的情況。此外，Sora在模擬復(fù)雜場(chǎng)景中的因果關(guān)系和物理交互方面還存在局限，不一定能準(zhǔn)確模擬復(fù)雜的物理運(yùn)動(dòng)，比如玻璃破碎、液體傾倒等精細(xì)物理交互的準(zhǔn)確模擬，這些都需要模型對(duì)現(xiàn)實(shí)世界的物理法則有更深入的理解。這些局限性提醒我們，盡管Sora代表了AI技術(shù)的巨大進(jìn)步，但距離構(gòu)建真正的世界模型、實(shí)現(xiàn)AGI還有很長(zhǎng)的路要走。

Sora的技術(shù)細(xì)節(jié)目前幾乎沒(méi)有公開(kāi)，其工作原理還不甚清楚。我們無(wú)法判斷它是否遵循了安全的開(kāi)發(fā)方針。如果訓(xùn)練數(shù)據(jù)存在問(wèn)題，輸出也可能呈現(xiàn)出偏見(jiàn)或不當(dāng)內(nèi)容。我們不能因?yàn)閹讉€(gè)視頻demo就斷定它已經(jīng)完美解決了視頻生成問(wèn)題。此外，Sora生成的視頻長(zhǎng)度和質(zhì)量還無(wú)法與專業(yè)電影制作相提并論。它的應(yīng)用受到長(zhǎng)度、算力成本等限制，離全面替代人類創(chuàng)作還有一定距離。我們也應(yīng)該清醒地認(rèn)識(shí)到，Sora 仍然處于發(fā)展的初級(jí)階段，它所面臨的挑戰(zhàn)和局限性需要我們持續(xù)的關(guān)注和研究。

Sora的出現(xiàn)，無(wú)疑為內(nèi)容生產(chǎn)領(lǐng)域帶來(lái)了新的活力和可能性，開(kāi)啟了一個(gè)嶄新的內(nèi)容創(chuàng)作工具時(shí)代。它不僅提高了內(nèi)容創(chuàng)作的效率，也為AI在更廣泛領(lǐng)域的應(yīng)用提供了新思路，使通用智能的遠(yuǎn)景更加清晰可見(jiàn)。在未來(lái)，隨著技術(shù)的不斷進(jìn)步，我們有理由相信，Sora及其后繼者將能夠在內(nèi)容生產(chǎn)領(lǐng)域發(fā)揮更加重要的作用，甚至可能改變我們對(duì)敘事方式的根本理解。

Sora這樣的AI工具能通過(guò)學(xué)習(xí)海量數(shù)據(jù)，掌握豐富的敘事元素和風(fēng)格。在未來(lái)，這些工具可以自動(dòng)生成有吸引力的故事情節(jié)、復(fù)雜的人物關(guān)系和豐富的情感表達(dá)，能根據(jù)不同文化背景和觀眾喜好，調(diào)整故事內(nèi)容和敘事風(fēng)格，使敘事更加個(gè)性化和多元化。隨著Sora后繼者能力的增強(qiáng)，它們可以實(shí)時(shí)根據(jù)觀眾的反饋調(diào)整故事的走向。這種雙向互動(dòng)的敘事方式將使內(nèi)容生產(chǎn)更加動(dòng)態(tài)化，參與感更強(qiáng)，觀眾將從被動(dòng)接收故事變?yōu)閰⑴c創(chuàng)作故事的主體，這將徹底改變我們對(duì)敘事主體性的理解。Sora 后繼者在內(nèi)容生產(chǎn)中的應(yīng)用，將促進(jìn)新敘事形式的誕生。例如，基于AI 的交互式敘事、多線程敘事和非線性敘事等新型敘事結(jié)構(gòu)，這些敘事形式能提供更加豐富和立體的故事體驗(yàn)，允許觀眾從不同角度和路徑探索故事，從而顛覆傳統(tǒng)的線性敘事模式。

此外，人工智能還將能發(fā)掘和創(chuàng)造新的敘事主題和題材，它們可以從大數(shù)據(jù)中挖掘潛在的敘事元素，甚至可以預(yù)測(cè)和引領(lǐng)內(nèi)容生產(chǎn)的趨勢(shì)。這將使得內(nèi)容生產(chǎn)更加豐富和前瞻，不斷推動(dòng)敘事藝術(shù)的發(fā)展。

結(jié)語(yǔ)

Sora 作為一種工具，其核心價(jià)值在于服務(wù)于人類，幫助人們更高效地解決問(wèn)題、產(chǎn)出創(chuàng)意和處理復(fù)雜信息。然而，我們也必須認(rèn)識(shí)到，盡管Sora 等人工智能技術(shù)極具潛力，它們終究是工具，是由人類設(shè)計(jì)和控制的系統(tǒng)。它們的目標(biāo)和功能，取決于人類的設(shè)定和指引。因此，我們應(yīng)該保持一種積極理性的態(tài)度，既要充分利用AI 帶來(lái)的便利和創(chuàng)新，又要深入思考如何正確引導(dǎo)AI的發(fā)展，確保這些技術(shù)能夠符合倫理標(biāo)準(zhǔn)、服務(wù)于人類的長(zhǎng)遠(yuǎn)利益。

在探索通向通用智能的路途上，Sora僅僅是一個(gè)開(kāi)始。未來(lái)的研究應(yīng)當(dāng)致力于讓AI 系統(tǒng)擁有更好的自適應(yīng)能力、更廣泛的應(yīng)用范圍和更深層次的理解力，最終達(dá)到與人類智能相媲美的通用智能。這一過(guò)程需要跨學(xué)科的合作，涉及計(jì)算機(jī)科學(xué)、認(rèn)知科學(xué)、倫理學(xué)等多個(gè)領(lǐng)域，共同探索AI的最佳設(shè)計(jì)原則和應(yīng)用方案。在人類與機(jī)器的合作中，我們應(yīng)該視AI為伙伴而非對(duì)手。未來(lái)，人機(jī)合作的模式將不斷深化，人類將能夠更加專注于創(chuàng)造性思考、戰(zhàn)略規(guī)劃和情感交流等AI 難以替代的領(lǐng)域，而AI 則在數(shù)據(jù)分析、模式識(shí)別和繁瑣任務(wù)的自動(dòng)化等方面發(fā)揮作用。這種互補(bǔ)式的合作關(guān)系必將極大地提升人類社會(huì)的整體生產(chǎn)力和創(chuàng)新能力，開(kāi)創(chuàng)更加美好的未來(lái)。