摘要:目的:人工智能技術(shù)不斷發(fā)展,在影視制作中的應(yīng)用越來越廣泛,從早期在后期制作中的有限參與發(fā)展到介入影視制作全過程,特別是近年來文生圖和文生視頻等生成式大模型呈現(xiàn)出前所未有的創(chuàng)造性。文章對(duì)從深度學(xué)習(xí)到生成式大模型的關(guān)鍵技術(shù)進(jìn)行深入解析,旨在推動(dòng)人工智能技術(shù)在影視制作中的廣泛應(yīng)用。方法:文章從人工智能技術(shù)的跨模態(tài)應(yīng)用出發(fā),深入分析文生圖和文生視頻等生成式大模型的底層技術(shù)結(jié)構(gòu),并結(jié)合深度學(xué)習(xí)技術(shù)的發(fā)展進(jìn)化,對(duì)Transformer模型和生成模型進(jìn)行解析。對(duì)Transformer模型,通過與卷積神經(jīng)網(wǎng)絡(luò)對(duì)比,重點(diǎn)分析其注意力機(jī)制的計(jì)算優(yōu)勢(shì)和向視覺領(lǐng)域的拓展方式。對(duì)生成模型,比較了流行的生成對(duì)抗網(wǎng)絡(luò)(GAN)、變分自編碼器(VAE)和擴(kuò)散模型三種類型,并結(jié)合生成式大模型分析其應(yīng)用。結(jié)果:Transformer模型以自主力機(jī)制改變了深度學(xué)習(xí)的技術(shù)架構(gòu),在自然語言處理和視覺領(lǐng)域都取得了極大成功,觸發(fā)了大模型和跨模態(tài)應(yīng)用。生成式模型是高質(zhì)量圖像生成力的核心,Transformer與生成模型配合,形成了生成式大模型的創(chuàng)新力量。結(jié)論:人工智能技術(shù)在影視行業(yè)引發(fā)了極大關(guān)注,隨著技術(shù)的不斷升級(jí)和創(chuàng)作者的實(shí)踐探索,人工智能技術(shù)將給影視行業(yè)帶來更大的機(jī)遇與挑戰(zhàn)。
關(guān)鍵詞:大模型;人工智能;深度學(xué)習(xí);Transformer模型;擴(kuò)散模型;生成模型
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1004-9436(2024)15-00-05
0 引言
人工智能(Artificial Intelligence,AI)技術(shù)在影視制作中的應(yīng)用可以追溯到20世紀(jì)末。其發(fā)展大致可以分為三個(gè)階段:第一階段為后期制作中人工智能的有限參與,主要用于對(duì)圖像的優(yōu)化,以增強(qiáng)影像的視覺效果,算法相對(duì)簡(jiǎn)單;第二階段的人工智能算法開始變得復(fù)雜,應(yīng)用也更加廣泛,不僅涉及影視制作的全過程,而且出現(xiàn)了AI換臉這樣具有一定生成性的技術(shù),如Deepfakes等;第三階段即目前最新的生成式人工智能(Artificial Intelligence Generated Content,AIGC)大模型,如以Stable Diffusion、Midjourney為代表的文生圖大模型,以及尚未市場(chǎng)化但備受矚目的文生視頻大模型Sora等。得益于AIGC技術(shù)的發(fā)展,它們具有一定的創(chuàng)造性,不再局限于影像修正或強(qiáng)化作用。目前,文生視頻尚處于測(cè)試與發(fā)展階段,還未真正進(jìn)入成熟的市場(chǎng)化應(yīng)用階段。
從技術(shù)層面來說,生成式人工智能具體表現(xiàn)為不同的生成式大模型,如文生文、文生圖、文生視頻、文生聲音等,它們可以根據(jù)文本描述生成不同形式的數(shù)據(jù),為影視藝術(shù)創(chuàng)作提供全新的技術(shù)手段。雖然生成的形態(tài)有一定差異,但這些生成式大模型的底層技術(shù)結(jié)構(gòu)非常類似。本文試圖從這些通用的技術(shù)結(jié)構(gòu)入手,對(duì)生成式人工智能的關(guān)鍵技術(shù)進(jìn)行解析。
1 生成式大模型:創(chuàng)造性的載體
文本、圖像、聲音、視頻等代表數(shù)據(jù)的不同形式,在人工智能領(lǐng)域,通常將每種形式稱為一個(gè)模態(tài)(Modality)。生成式大模型可以同時(shí)理解和處理多個(gè)不同模態(tài)的數(shù)據(jù),并能夠?qū)崿F(xiàn)不同模態(tài)之間的轉(zhuǎn)換。隨著AI技術(shù)的發(fā)展,多模態(tài)處理已成為一種趨勢(shì),文生視頻在一定程度上可以被看作文生圖技術(shù)的延伸和升級(jí),從原理上來說,逐幀生成所需圖片再連接起來就可以生成一段動(dòng)態(tài)的視頻。但考慮到視頻中物體在空間上的一致性和視頻內(nèi)容在時(shí)間上的連貫性,實(shí)際文生視頻的難度遠(yuǎn)高于文生圖。目前的文生視頻大模型還處于初級(jí)階段,一般僅能生成幾十秒到一兩分鐘長(zhǎng)的短視頻。但隨著生成視頻時(shí)長(zhǎng)和質(zhì)量的不斷提高,未來其將在影視行業(yè)展現(xiàn)出巨大的應(yīng)用價(jià)值。
文生圖和文生視頻的底層技術(shù)框架非常類似,都是依賴基于Transformer的深度學(xué)習(xí)技術(shù),通過理解和處理文本描述,使用擴(kuò)散模型等生成對(duì)應(yīng)的視覺內(nèi)容。以Stability AI公司推出的Stable Diffusion為例,其核心結(jié)構(gòu)主要包括三個(gè)模塊,即文本編碼器、圖像信息生成器和圖像解碼器。文本編碼器對(duì)輸入的文本描述進(jìn)行編碼,捕捉文本的含義,將文字轉(zhuǎn)化為在計(jì)算機(jī)中用數(shù)學(xué)表示的語義向量;圖像信息生成器是文與圖連接的核心,在文本對(duì)應(yīng)的語義向量引導(dǎo)下,使用擴(kuò)散模型從噪聲圖像逐步去噪,生成與文本描述匹配的較低維度的圖片信息;圖像解碼器將低維圖片信息對(duì)應(yīng)的特征向量進(jìn)行解碼放大,生成分辨率較高的實(shí)際圖像[1]。需要注意的是,圖片信息生成器并不直接生成圖像,而是生成圖像信息,圖像的生成實(shí)際上是由圖像信息生成器和圖像解碼器共同完成的。
大模型是深度學(xué)習(xí)技術(shù)發(fā)展的最新階段。深度學(xué)習(xí)是人工智能領(lǐng)域的一個(gè)重要分支,自2010年以來,深度學(xué)習(xí)技術(shù)快速發(fā)展,在自然語言理解、圖像識(shí)別和語音識(shí)別等領(lǐng)域獲得了廣泛應(yīng)用。深度學(xué)習(xí)技術(shù)源于人工神經(jīng)網(wǎng)絡(luò)的研究,其核心在于使用多層次的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(又稱深度神經(jīng)網(wǎng)絡(luò)),通過逐層抽象來理解和處理數(shù)據(jù),通過訓(xùn)練,每層網(wǎng)絡(luò)都能學(xué)習(xí)到數(shù)據(jù)的一個(gè)特定表示,多層組合使整個(gè)網(wǎng)絡(luò)具有強(qiáng)大的表示能力。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比,深度神經(jīng)網(wǎng)絡(luò)以數(shù)據(jù)的原始形態(tài)作為網(wǎng)絡(luò)的輸入,其“深度”不僅體現(xiàn)在網(wǎng)絡(luò)層數(shù)之多、神經(jīng)元數(shù)量之大,更在于它把傳統(tǒng)人工智能技術(shù)中人為操作的特征設(shè)計(jì)轉(zhuǎn)化為利用神經(jīng)網(wǎng)絡(luò)自主提取特征。這樣既避免了人工特征的局限性,通過多層神經(jīng)網(wǎng)絡(luò)的逐層抽象來學(xué)習(xí)數(shù)據(jù)的特征表示,又能將特征提取與分類識(shí)別網(wǎng)絡(luò)有機(jī)結(jié)合,增強(qiáng)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)和表示能力,從而處理復(fù)雜的任務(wù)。
早期的深度學(xué)習(xí)模型主要包括卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)兩類。CNN及其各種改進(jìn)模型擅長(zhǎng)獲取圖像的空間相關(guān)特征,廣泛用于圖像分類和圖像識(shí)別領(lǐng)域;RNN及其改進(jìn)模型主要處理時(shí)間序列數(shù)據(jù),廣泛用于自然語言處理(Natural Language Processing,NLP)和語音識(shí)別等。近年來,Transformer模型橫空出世,不僅成為NLP等時(shí)間序列數(shù)據(jù)處理的主流模型,還成功跨界到圖像處理和計(jì)算機(jī)視覺(Computer Vision,CV)領(lǐng)域,更催生了ChatGPT和目前爆火的生成式人工智能。
Transformer同樣基于深度神經(jīng)網(wǎng)絡(luò),是目前最強(qiáng)大的深度學(xué)習(xí)模型之一。通過完全依賴自注意力機(jī)制(Self-Attention)模型,Transformer具有高效的并行計(jì)算能力、強(qiáng)大的表示能力和適應(yīng)長(zhǎng)序列數(shù)據(jù)等突出優(yōu)點(diǎn),在文本、圖像和視頻等方面都表現(xiàn)出了超越RNN和CNN的性能。ChatGPT是一種基于Transformer的語言大模型,其中的GPT表示生成式預(yù)訓(xùn)練(Generative Pre-Trained Transformer)。自O(shè)penAI發(fā)布ChatGPT以來,其在對(duì)話、問答、推理和文本生成等方面的卓越表現(xiàn)引起了社會(huì)的普遍關(guān)注,也預(yù)示了通用人工智能(Artificial General Intelligence,AGI)時(shí)代的來臨。
與專門用于特定任務(wù)處理的深度學(xué)習(xí)模型相比,大模型具有大規(guī)模參數(shù)和復(fù)雜的計(jì)算結(jié)構(gòu),參數(shù)量有數(shù)十億甚至數(shù)千億,因此模型的表達(dá)能力和預(yù)測(cè)性能較強(qiáng),能夠處理更加復(fù)雜的任務(wù)和數(shù)據(jù)。以Midjourney、Stable Diffusion、DALL-E、Sora等為代表的AIGC大模型,更是把語言大模型與圖像/視頻生成模型相結(jié)合,可以根據(jù)用戶輸入的提示詞或文字描述,生成逼真的圖像或視頻。這些AI大模型擁有多模態(tài)的處理能力,為AIGC發(fā)揮創(chuàng)造力提供了空間。目前,這些主流AI大模型的技術(shù)結(jié)構(gòu)有一定的相似性,其中最為突出的關(guān)鍵技術(shù)當(dāng)數(shù)Transformer模型和生成模型。
2 Transformer模型:自注意力機(jī)制
Transformer是一種基于自注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)模型[2]。注意力機(jī)制源于對(duì)人類視覺的研究,在觀察事物時(shí),人類會(huì)選擇性地關(guān)注特定部分的信息,而忽略其他可見信息。Transformer最初針對(duì)NLP提出,在處理序列數(shù)據(jù)時(shí),其中的每個(gè)元素都與序列中不同位置的其他元素交互,通過注意力權(quán)重捕捉與序列中其他元素的關(guān)系來不斷更新自身的表示。與CNN和RNN等不同,自注意力機(jī)制使模型可以靈活處理不同位置之間的依賴關(guān)系,尤其是獲得全局信息和長(zhǎng)距離依賴關(guān)系。自注意力機(jī)制主要使用查詢(Query,Q)、鍵(Key,K)和值(Value,V)三個(gè)關(guān)鍵向量來計(jì)算注意力權(quán)重。具體而言,以查詢向量Q為基礎(chǔ),通過計(jì)算Q與所有鍵向量K之間的相似度來計(jì)算每對(duì)元素之間的注意力分?jǐn)?shù),并將它們加權(quán)求和得到注意力權(quán)重,再將對(duì)應(yīng)的值向量V與注意力權(quán)重相乘并求和,得到該元素的輸出。Q、K、V的概念源于信息檢索系統(tǒng),Q表示希望獲取的信息,K用于確定與Q匹配的信息,而V則包含與相應(yīng)K關(guān)聯(lián)的實(shí)際信息。自注意力機(jī)制通過Q、K、V的設(shè)計(jì)使模型能夠捕捉到序列數(shù)據(jù)中的復(fù)雜關(guān)系,其核心算式如下:
在實(shí)際應(yīng)用中,往往將多個(gè)注意力機(jī)制模塊并置,同時(shí)計(jì)算,再將它們的結(jié)果合并在一起,稱為多頭注意力機(jī)制。在訓(xùn)練過程中,每個(gè)“頭”能夠獨(dú)立學(xué)習(xí)不同的注意力權(quán)重。通過這種“多頭”組合的方式,模型能夠同時(shí)關(guān)注輸入序列數(shù)據(jù)中不同方面的相關(guān)信息,從而捕捉序列元素之間的微妙關(guān)系,增強(qiáng)模型的表達(dá)能力。
從結(jié)構(gòu)上來看,Transformer與基于CNN的語義分割網(wǎng)絡(luò)類似,也采用編碼器—解碼器結(jié)構(gòu)。在NLP任務(wù)中,這是一種流行的做法。編碼器處理輸入序列數(shù)據(jù)并生成其緊湊的抽象表示,解碼器則根據(jù)該表示解碼生成輸出序列。Transformer的編碼器部分由多個(gè)編碼器級(jí)聯(lián)而成,每個(gè)編碼器包含兩個(gè)子層連接結(jié)構(gòu),第一個(gè)子層由一個(gè)多頭自注意力機(jī)制模塊、規(guī)范化層和一個(gè)殘差連接組成,第二個(gè)子層包括一個(gè)前饋全連接層、規(guī)范化層和一個(gè)殘差連接。解碼器部分也由多個(gè)解碼器堆疊而成,每個(gè)解碼器包含三個(gè)子層連接結(jié)構(gòu),前兩個(gè)子層都由一個(gè)多頭自注意力機(jī)制模塊、規(guī)范化層和一個(gè)殘差連接組成,第三個(gè)子層也由一個(gè)前饋全連接層、規(guī)范化層和一個(gè)殘差連接組成。前饋全連接層是最早的簡(jiǎn)單人工神經(jīng)網(wǎng)絡(luò)類型之一;規(guī)范化層對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理,使樣本數(shù)據(jù)更穩(wěn)定,從而加快模型的收斂速度;殘差連接可以緩解神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中可能出現(xiàn)的梯度消失或梯度爆炸問題。規(guī)范化層和殘差連接是深度學(xué)習(xí)中廣泛使用的技術(shù)手段,有助于穩(wěn)定訓(xùn)練過程,使模型訓(xùn)練更深更穩(wěn)定。
為使Transformer能夠處理文本,首先需要使用分詞(Tokenization)和詞嵌入(Embedding)操作,把文本轉(zhuǎn)換成一系列向量,然后輸入模型中進(jìn)行計(jì)算。分詞的概念出現(xiàn)于20世紀(jì)90年代,指把一段連續(xù)的文本切分成若干獨(dú)立的、有意義的基本語義單元(token)序列的過程。對(duì)英語文本而言,最簡(jiǎn)單的分詞方法就是按空格把每個(gè)單詞作為一個(gè)token,但這需要非常龐大的詞典,而且實(shí)際語法中存在很多組合詞、縮略詞、俚語等,這時(shí)使用空格進(jìn)行分詞就不合適了。分詞處理既需要保留表示文本序列的能力,也要有助于控制詞典的規(guī)模。目前最常用的分詞方法有BPE、BBPE、WordPiece等。
詞嵌入技術(shù)可以追溯到20世紀(jì)五六十年代的語言學(xué)研究,是為分詞后的每個(gè)token提供一個(gè)多維的向量表示,把稀疏離散型的高維token向低維的連續(xù)空間映射,將每個(gè)token編碼為向量。該向量可以表示token的語義,如果一個(gè)單詞在上下文中經(jīng)常與另一個(gè)單詞一起出現(xiàn),那么它們嵌入后在向量空間的位置會(huì)比較接近,這意味著它們有相似的語義。早在20世紀(jì)八九十年代,人們就嘗試用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)單詞的向量表示,再根據(jù)單詞的上下文預(yù)測(cè)下一個(gè)單詞。近年來,BERT、ELMo等大型語言模型也可以生成上下文相關(guān)的向量表示,更好地捕捉單詞的語義和上下文信息。
與RNN相比,Transformer可以利用自注意力機(jī)制進(jìn)行并行計(jì)算,從而高效處理長(zhǎng)序列數(shù)據(jù)。在編碼器部分,整個(gè)序列可以被同時(shí)處理,所有位置的計(jì)算并行,各位置的向量能同時(shí)與序列中的其他位置交互,計(jì)算注意力權(quán)重并加權(quán)求和。在解碼器部分,訓(xùn)練時(shí)同樣可以進(jìn)行并行處理,而在推理時(shí)則順序處理數(shù)據(jù)。通過自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)層,Transformer實(shí)現(xiàn)了編碼器和解碼器內(nèi)部的并行計(jì)算,顯著提高了長(zhǎng)序列數(shù)據(jù)的計(jì)算效率。其強(qiáng)大的表示能力使其一枝獨(dú)秀,不僅從NLP跨界到計(jì)算機(jī)視覺領(lǐng)域,更成為幾乎所有大模型的基礎(chǔ)。
Transformer也被用于視覺領(lǐng)域。CNN模型的不足體現(xiàn)在其卷積和池化操作僅能考慮局部感受,需要不斷加深網(wǎng)絡(luò)來獲取全局性特征,因此CNN對(duì)長(zhǎng)距離像素關(guān)系的感受能力相對(duì)較弱。Transformer為計(jì)算機(jī)視覺應(yīng)用提供了一種新的思路,與文本的序列性不同,圖像表達(dá)的是二維的空間分布,為使用Transformer模型處理圖像,需要先將圖像轉(zhuǎn)化為序列數(shù)據(jù)。Google團(tuán)隊(duì)提出的ViT是第一個(gè)用Transformer代替CNN的圖像分類模型[3],它將輸入圖像分成一系列固定像素大小的圖像塊(Patches,如16×16),再經(jīng)過Embedding處理,把圖像塊展平為向量形式作為Transformer的輸入。為完成圖像分類任務(wù),Vit在輸入序列中加入一個(gè)特殊的token,訓(xùn)練后對(duì)應(yīng)的結(jié)果即為最后的類別判斷。Vit是Transformer在CV領(lǐng)域的里程碑之作,打通了圖與文之間的壁壘,圖與文可以進(jìn)行統(tǒng)一建模。
與Vit類似,Sora文生視頻模型的核心技術(shù)之一是把視頻數(shù)據(jù)轉(zhuǎn)化為Patches的形式進(jìn)行統(tǒng)一表示,并結(jié)合Transformer和擴(kuò)散模型進(jìn)行訓(xùn)練。由于視頻包含連續(xù)的時(shí)間維度,Sora把視頻切分成時(shí)空?qǐng)D像塊(Spacetime patches)[4],其中既包含空間上的紋理和顏色等信息,也包含時(shí)間維度上連續(xù)幾幀的信息。這些圖像塊是視頻處理的基本單元,再被轉(zhuǎn)換成一系列向量,這樣Sora就能夠利用Transformer架構(gòu)的優(yōu)勢(shì)同時(shí)處理空間和時(shí)間上的信息。
3 生成模型:生成力的核心
生成模型(Generative Model)是人工智能領(lǐng)域的一個(gè)重要分支,專注于通過訓(xùn)練對(duì)已有數(shù)據(jù)集進(jìn)行學(xué)習(xí),在訓(xùn)練過程中模型學(xué)習(xí)該數(shù)據(jù)集中數(shù)據(jù)的內(nèi)在結(jié)構(gòu)、模式和分布特征,從而生成與之類似但又不完全相同的新數(shù)據(jù)。生成模型與判別模型相對(duì),兩者都屬于有訓(xùn)練數(shù)據(jù)作為參考的監(jiān)督式學(xué)習(xí),但后者主要關(guān)注對(duì)數(shù)據(jù)的分類、識(shí)別或預(yù)測(cè)等[5]。為生成多樣化的新數(shù)據(jù),生成模型必須具有隨機(jī)性。從概率與統(tǒng)計(jì)的角度來看,判別模型是在給定數(shù)據(jù)X的情況下,對(duì)類型Y出現(xiàn)的概率進(jìn)行判斷,訓(xùn)練學(xué)習(xí)的是條件概率分布P(Y/X);而生成模型學(xué)習(xí)得到的是聯(lián)合概率分布P(X,Y),即數(shù)據(jù)X和類型Y共同出現(xiàn)的概率,它表征了數(shù)據(jù)的分布特征,反映的是同類數(shù)據(jù)本身的相似度。由生成模型可以進(jìn)一步得到相應(yīng)的判別模型。相較于判別模型,生成問題的難度更大,往往更難解決。不難想象,用計(jì)算機(jī)生成一只貓的圖片的難度遠(yuǎn)大于判斷一張圖片是否屬于貓的類型。
目前,較為流行的生成模型主要有生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Net,GAN)[6]、變分自編碼器(Variational AutoEncoder, VAE)[7]和擴(kuò)散模型(Diffusion Model)[8]等。
GAN主要基于CNN模型,結(jié)構(gòu)由生成器和判別器兩個(gè)神經(jīng)網(wǎng)絡(luò)組成。生成器負(fù)責(zé)生成盡可能逼真的樣本數(shù)據(jù),以欺騙判別器;而判別器負(fù)責(zé)判斷輸入數(shù)據(jù)的真假。GAN的基本思想是通過生成器和判別器的相互對(duì)抗來不斷增強(qiáng)數(shù)據(jù)生成能力,兩者在訓(xùn)練過程中共同進(jìn)化,使生成器可以生成真假難辨的新數(shù)據(jù)。GAN自2014年提出以來受到廣泛關(guān)注,成為當(dāng)時(shí)最流行的生成類任務(wù)算法,在風(fēng)格遷移、圖像生成、語言合成等多個(gè)領(lǐng)域取得了顯著成果。經(jīng)典的換臉應(yīng)用Deepfakes采用的就是基于GAN的技術(shù)。
VAE模型由編碼器和解碼器組成。編碼器把訓(xùn)練樣本編碼為潛在空間(Latent Space)的分布參數(shù),而解碼器則根據(jù)這些參數(shù)生成新的數(shù)據(jù)樣本。VAE模型假設(shè)潛在空間的變量遵循一定的概率分布(如高斯分布),通過引入隨機(jī)性和對(duì)潛在空間的約束,來學(xué)習(xí)樣本在潛在空間的概率分布參數(shù),并認(rèn)為這些參數(shù)代表了樣本數(shù)據(jù)的內(nèi)在結(jié)構(gòu),可以據(jù)此解碼生成高質(zhì)量的圖像。與GAN相比,VAE易于訓(xùn)練和調(diào)試,但生成樣本的質(zhì)量不如GAN清晰。
擴(kuò)散模型是近年來才提出的一種生成模型。擴(kuò)散的概念源于自然界的擴(kuò)散現(xiàn)象。如果將一滴墨水或者一顆糖果放入水里,它們會(huì)隨著時(shí)間慢慢在水中擴(kuò)散開來,直到達(dá)到均衡狀態(tài)。而如果把這個(gè)過程反過來,水中則會(huì)重新匯聚出墨滴或糖果。但時(shí)間不可能倒流,自然界的擴(kuò)散現(xiàn)象也無法逆轉(zhuǎn),按照熱力學(xué)第二定律,這是一個(gè)熵增的不可逆過程。受非均衡熱動(dòng)力學(xué)啟發(fā),研究者定義了基于馬爾可夫鏈的擴(kuò)散模型。馬爾可夫鏈表示一種隨機(jī)過程,其下一狀態(tài)的概率分布只由當(dāng)前狀態(tài)決定,而與前面的狀態(tài)無關(guān),即“無記憶性”。這個(gè)特性簡(jiǎn)化了向圖像中添加噪聲過程的建模,只需要用上一步的圖像來預(yù)測(cè)下一步,就可以通過模擬不斷向圖像添加隨機(jī)噪聲的逐漸擴(kuò)散過程,并用神經(jīng)網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練,來學(xué)習(xí)擴(kuò)散的逆向過程,從噪聲中重構(gòu)圖像。
擴(kuò)散模型包括正向擴(kuò)散和逆向擴(kuò)散兩個(gè)過程。正向擴(kuò)散在樣本中基于隨機(jī)過程不斷添加一定量的噪聲,逐步提升樣本的復(fù)雜度,使原始信息逐漸模糊,直至淹沒在噪聲中。逆向擴(kuò)散過程即生成的過程,與正向擴(kuò)散相反,通過多步循環(huán)迭代,逐層去除噪聲,逐步從噪聲中恢復(fù)出清晰的圖像。擴(kuò)散模型生成的新樣本不可能與原始樣本完全一致,但可以與原始樣本分布類似。與GAN、VAE等模型相比,擴(kuò)散模型的應(yīng)用優(yōu)勢(shì)?主要體現(xiàn)在高質(zhì)量圖像生成上,其能夠生成具有豐富細(xì)節(jié)和高逼真度的高質(zhì)量圖像,圖像樣本更加多樣化,同時(shí)擴(kuò)散模型在訓(xùn)練時(shí)更穩(wěn)定。當(dāng)前主流的文生圖、文生視頻模型,如Midjourney、Stable Diffusion和DALL-E等,均采用擴(kuò)散模型作為圖像生成的核心技術(shù)。
如前文所述,Stable Diffusion的圖像生成過程由圖像信息生成器和圖像解碼器兩步組成。圖像信息生成器采用的是擴(kuò)散模型,實(shí)現(xiàn)從文本到圖像信息的生成;而圖像解碼器使用的則是VAE模型,實(shí)現(xiàn)圖像的解碼放大。擴(kuò)散模型采用UNet結(jié)構(gòu)進(jìn)行建模,基于噪聲矩陣實(shí)現(xiàn)文本引導(dǎo)下的潛空間(latent space)圖像特征信息生成(即低維圖片)。UNet本來是一種基于CNN的圖像分割任務(wù)網(wǎng)絡(luò),因U形對(duì)稱結(jié)構(gòu)而得名,包含一個(gè)特征提取及下采樣的編碼器和一個(gè)特征上采樣及圖像重建的解碼器。在擴(kuò)散模型中,UNet承擔(dān)著預(yù)測(cè)隨機(jī)噪聲,從帶有噪聲的圖像中恢復(fù)出圖像信息的任務(wù)。UNet有強(qiáng)大的特征提取和重建能力,通過多級(jí)編碼器提取圖像的多層次特征,在解碼器部分則逐步放大特征圖,并結(jié)合跳躍連接傳來的底層細(xì)節(jié)信息,預(yù)測(cè)應(yīng)該去除的噪聲。如上文所述,擴(kuò)散模型是循環(huán)運(yùn)行的,UNet在擴(kuò)散循環(huán)中進(jìn)行迭代去噪,每次預(yù)測(cè)的噪聲由文本特征向量和循環(huán)的時(shí)間步進(jìn)行引導(dǎo),將預(yù)測(cè)的噪聲在隨機(jī)噪聲矩陣中去除,最終形成穩(wěn)定的圖像特征。VAE包含編解碼結(jié)構(gòu),通過編碼器的壓縮和解碼器的放大功能,構(gòu)建高清圖像與潛空間特征信息的變換關(guān)系,Stable Diffusion通過VAE模型解碼放大功能與擴(kuò)散模型圖像特征信息生成功能的組合來實(shí)現(xiàn)高質(zhì)量圖像的生成。
Stable Diffusion使用CLIP(Contrastive Language-Image Pre-training)預(yù)訓(xùn)練模型[9]作為文本編碼器,再通過交叉注意力機(jī)制將編碼的特征向量作為條件送入圖像信息生成器。2021年,OpenAI發(fā)布的CLIP模型是一種基于文本—圖像對(duì)進(jìn)行對(duì)比學(xué)習(xí)的預(yù)訓(xùn)練Transformer模型,其訓(xùn)練使用了一個(gè)超大規(guī)模的數(shù)據(jù)集,該數(shù)據(jù)集包含4億個(gè)通過互聯(lián)網(wǎng)收集的文本—圖像對(duì)數(shù)據(jù)。通過對(duì)比學(xué)習(xí),模型計(jì)算文本和圖像特征向量的余弦相似性,學(xué)習(xí)文本和圖像的匹配關(guān)系。CLIP可以實(shí)現(xiàn)文本和圖像的對(duì)齊,在多模態(tài)應(yīng)用領(lǐng)域邁出了重要一步,為文本生成圖像或視頻奠定了基礎(chǔ)。
為在文本和圖像之間建立聯(lián)系,CLIP使用文本編碼器對(duì)文本進(jìn)行特征提取和編碼形成文本特征向量,使用圖像編碼器對(duì)圖像進(jìn)行特征提取和編碼形成圖像特征向量,并在規(guī)范化后計(jì)算兩者的余弦距離,同對(duì)數(shù)據(jù)的結(jié)果趨近于1,不同對(duì)的結(jié)果趨向于0,采用對(duì)比損失進(jìn)行誤差反向傳播和訓(xùn)練。在訓(xùn)練中,最大化同對(duì)文本描述和圖像之間的相似度,而最小化文本描述與其他圖像的相似度。文本編碼器可以使用基于Transformer的BERT模型,圖像編碼器可以使用基于CNN的ResNet或基于Transformer的Vit模型。CLIP的核心是從文本和圖像中學(xué)習(xí)一個(gè)跨模態(tài)的表示空間,在這個(gè)空間內(nèi),具有相似意義的不同模態(tài)的特征向量能夠映射在一起,從而實(shí)現(xiàn)根據(jù)文本搜索圖像、生成圖像,或者根據(jù)圖像生成相應(yīng)的文本描述等。由于CLIP采用文圖對(duì)比進(jìn)行訓(xùn)練,其編碼后的文本特征向量對(duì)圖像更具有魯棒性。
4 人工智能技術(shù)在影視制作中的應(yīng)用
2012年,深度學(xué)習(xí)技術(shù)開啟了人工智能的大門,很多領(lǐng)域因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)的使用而步入智能時(shí)代;2022年末,ChatGPT/GPT-4大放異彩,掀起了以“大模型”為關(guān)鍵詞的新一輪人工智能浪潮;2023年,AIGC大模型被賦予了更多的想象力和可能性,為影視行業(yè)的創(chuàng)新發(fā)展和升級(jí)提供了新的工具和視角。
2024年,關(guān)于生成式人工智能在影視制作中的探討,無論是學(xué)術(shù)研討還是行業(yè)實(shí)踐,都呈現(xiàn)井噴狀態(tài),關(guān)于人工智能的討論幾乎遍布各大與藝術(shù)或者影視有關(guān)的學(xué)術(shù)論壇。與此同時(shí),行業(yè)內(nèi)的實(shí)踐如火如荼地展開。2月,國內(nèi)首部使用人工智能制作的6集動(dòng)畫《千秋詩頌》在央視綜合頻道上線開播;4月,央視電影頻道“AI影像人才優(yōu)選計(jì)劃”推出《鳳鳴山海》等以荊楚文化為主題的短片;第14屆北京國際電影節(jié),首次開設(shè)了“AIGC電影短片單元”,動(dòng)畫《致親愛的自己》獲得AIGC電影短片單元最佳影片。這些作品的問世顯示了生成式人工智能巨大的潛力。一方面,生成式大模型的出現(xiàn)讓(下轉(zhuǎn)第頁)
(上接第頁)影視制作的門檻變低,一部2分鐘的短片可以由5個(gè)人在10多天內(nèi)完成,為更多潛在的創(chuàng)作者提供入行契機(jī);另一方面,其制作過程并非“一鍵生成”,所需要的前期儲(chǔ)備與藝術(shù)積淀并不弱于傳統(tǒng)制作。未來,隨著技術(shù)的不斷升級(jí)以及創(chuàng)作者們的不斷實(shí)踐探索,AIGC大模型對(duì)影視制作的介入將呈現(xiàn)出愈發(fā)多元的面貌,給影視行業(yè)帶來更多的機(jī)會(huì)與挑戰(zhàn)。
5 結(jié)語
從深度學(xué)習(xí)到基于Transformer和擴(kuò)散模型的生成式大模型,人工智能技術(shù)在影視制作中的應(yīng)用越來越廣泛。基于注意力機(jī)制的Transformer模型能夠更好地理解和處理文本,捕捉文本含義,不僅是各種語言大模型的基礎(chǔ)框架,更跨越到視覺領(lǐng)域,為跨模態(tài)應(yīng)用奠定了基礎(chǔ)。擴(kuò)散模型引領(lǐng)了生成模型的最新發(fā)展,通過借鑒物理學(xué)中的擴(kuò)散過程,采用逐步添加噪聲并去除噪聲的方式,獲得高質(zhì)量的圖像生成能力。
目前,生成式人工智能主要表現(xiàn)為文生圖和文生視頻等生成式大模型,這種基于文本描述生成內(nèi)容的新技術(shù),可能改變影視內(nèi)容創(chuàng)意與生產(chǎn)的范式,為創(chuàng)意表達(dá)提供前所未有的技術(shù)工具。
參考文獻(xiàn):
[1] Zhang X, Kang H, Cai Y, et al. CLIP Model for Images to Textual Prompts Based on Top-k Neighbors[C] //International Conference on Electronic Information Engineering and Computer Science. Proceeding of 2023 3rd International Conference on Electronic Information Engineering and Computer Science. Changchun: Lecture Hall of Changchun University of Science and Technology, 2023: 9.
[2] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need[EB/OL]. arXiv, (2017-06-12) [2024-07-14]. https://arxiv.org/abs/1706.03762.
[3] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale[EB/OL]. arXiv, (2020-10-22) [2024-07-14]. https://arxiv.org/abs/2010.11929.
[4] Vincent K. Explaining OpenAI Sora's Spacetime Patches: The Key Ingredient [EB/OL]. Medium, (2024-02-16) [2024-07-14]. https://towardsdatascience.com/explaining-openai-soras-spacetime-patches-the-key-ingredient-e14e0703ec5b.
[5] Jebara T. Machine learning: discriminative and generative[M]. New York: Springer, 2004: 1-16.
[6] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative Adversarial Nets [EB/OL]. arXiv, (2014-06-10) [2024-07-15]. https://arxiv.org/abs/1406.2661.
[7] Kingma D P, Welling M. Stochastic Gradient VB and the Variational Auto-Encoder [EB/OL]. arXiv, (2013-12-20) [2024-07-15]. https://arxiv.org/abs/1312.6114v6.
[8] Ho J, Jain A, Abbeel P. Denoising Diffusion Probabilistic Models [EB/OL]. arXiv, (2020-06-19) [2024-07-15]. https://arxiv.org/abs/2006.11239.
[9] Radford A, Kim J W, Hallacy C, et al. Learning Transferable Visual Models From Natural Language Supervision[EB/OL]. arXiv, (2021-02-26) [2024-07-15]. https://arxiv.org/abs/2103.00020.