[摘要]文生視頻是人類創(chuàng)作者通過輸入一系列指令而生成的視頻內(nèi)容,指令涵蓋了人類創(chuàng)作者對生成視頻內(nèi)容的構(gòu)思,是人類創(chuàng)作者風格、選擇、個性的體現(xiàn)。文生視頻在滿足獨創(chuàng)性及體現(xiàn)人類實質(zhì)性貢獻的前提下可以構(gòu)成作品,承認此類文生視頻的可版權(quán)性符合著作權(quán)法激勵創(chuàng)作的立法宗旨。在現(xiàn)行著作權(quán)法體系下,相關(guān)主體通過新設(shè)AI作品類型為文生視頻提供保護是選擇成本最低、效果最好的方案。同時,相關(guān)主體對文生視頻的保護應(yīng)給予必要限制,以實現(xiàn)激勵作品創(chuàng)作、傳播和利用之間的合理平衡,賦能生成式人工智能的持續(xù)創(chuàng)新和發(fā)展。
[關(guān)鍵詞]生成式人工智能;文生視頻;獨創(chuàng)性;著作權(quán)保護
在信息時代浪潮下,人工智能技術(shù)日趨成熟。2024年2月16日,文生視頻大模型Sora的出現(xiàn)像一枚重磅炸彈,在科技圈、影視圈等多個領(lǐng)域引起了軒然大波。Sora以其卓越的技術(shù)性能和創(chuàng)新性為人工智能領(lǐng)域帶來了新突破的同時,也引發(fā)了著作權(quán)保護問題。自人工智能出現(xiàn)以來,人工智能生成物是否屬于著作權(quán)法意義上的作品以及如何保護的問題,有著較大爭論和分歧。文章通過對以Sora為代表的文生視頻類生成式人工智能運行原理的分析和文生視頻類人工智能生成物可版權(quán)性的證立,提出文生視頻類人工智能生成物的著作權(quán)保護路徑,以期為著作權(quán)法賦能生成式人工智能發(fā)展提供新啟示。
一、以Sora為代表的文生視頻類生成式人工智能運行原理
(一)以Sora為代表的文生視頻類生成式人工智能概述
人工智能文生視頻大模型Sora將ChatGPT所用的大型語言模型(LLM)與擴散模型相融合,用戶輸入文字后,文生視頻大模型依靠GPT語義解釋能力針對視頻內(nèi)容進行詳細的概述,再根據(jù)此內(nèi)容將用戶輸入的文字轉(zhuǎn)換成視頻。例如,文本是“一位時尚女性走在東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色錢包。她戴著太陽鏡,涂著紅色口紅。她走路自信又隨意”。GPT對文本進行解釋,生成一些與文本內(nèi)容對應(yīng)的“高樓”“繁華夜景”等場景。與Runway、Pika等只能生成十幾秒的文生視頻技術(shù)不同,Sora能夠?qū)崿F(xiàn)60秒的一鏡到底,人類創(chuàng)作者因此可以借助Sora構(gòu)建各種各樣的場景、塑造生動形象的人物,為影視作品增添多樣化的創(chuàng)意元素。不僅如此,Sora還可以基于原有的視頻進行視頻擴展、調(diào)整框架和角度、圖像動態(tài)化等多種操作[1],體現(xiàn)了文生視頻類生成式人工智能在影視制作、虛擬現(xiàn)實等多個領(lǐng)域的廣闊前景。
(二)以Sora為代表的文生視頻類生成式人工智能運行步驟
以Sora為代表的文生視頻類生成式人工智能的運行主要包括文本輸入處理、文本編碼、生成器生成視頻、訓練和生成視頻輸出等幾個步驟[2]。
第一是文本輸入處理階段。當用戶輸入一段文字后,文生視頻大模型首先會對該文字進行預處理,利用深度學習和語義分析技術(shù)來理解并解析這段文本描述。文生視頻大模型會完成詞性標注等自然語言處理任務(wù),捕捉文本中的關(guān)鍵信息,分析出人類創(chuàng)作者的大致要求。在理解文本內(nèi)容的基礎(chǔ)上,文生視頻大模型會進一步將這些信息轉(zhuǎn)化為向量表示[3],以便在后續(xù)處理中進行文本編碼。第二是文本編碼階段。文本編碼階段的結(jié)果則是生成一個或多個計算機可以識別和處理的向量表示。這一步通常會使用到循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)或轉(zhuǎn)換器(Transformer)等深度學習技術(shù),以便文生視頻大模型能夠理解文本含義以及上下文之間的關(guān)系。第三是生成器生成視頻階段。生成器能夠?qū)⒔?jīng)過文本編碼后的向量表示轉(zhuǎn)化為視頻內(nèi)容。同時,文生視頻大模型基于強大的深度學習和生成能力,能夠識別出不同元素之間的關(guān)系。因此,生成器在生成視頻過程中起著關(guān)鍵作用。第四是訓練階段。文生視頻大模型之所以具備視頻生成的能力,是由于其基于海量的數(shù)據(jù)進行訓練。在訓練階段,文生視頻大模型融入了一種可以用來生成圖像的模型—去噪擴散概率模型(Doiseing Diffusion Probabilistic Models)。該模型對現(xiàn)有圖像逐步施加高斯噪聲,在圖像被破壞后,再根據(jù)給定的高斯噪聲逆向還原圖像[2]。第五是生成視頻輸出階段。此階段是文生視頻大模型運行的最后一個階段。在經(jīng)過生成器生成視頻后,判別器會對生成視頻進行評估,生成器根據(jù)判別器反饋的評估結(jié)果進行調(diào)整,以生成更加貼合用戶要求的內(nèi)容。生成的視頻最終會輸出為視頻文件,以供用戶觀看。
由此來看,創(chuàng)作文生視頻離不開生成式人工智能算法,但這并不與文生視頻具有獨創(chuàng)性相悖。如果文生視頻的表現(xiàn)形式具有獨創(chuàng)性,同時能夠證明人類創(chuàng)作者的參與對文生視頻的獨創(chuàng)性具有實質(zhì)性貢獻,可以認定該文生視頻屬于作品,因此受到著作權(quán)法的保護。
二、文生視頻類人工智能生成物可版權(quán)性的證立
(一)文生視頻符合作品的獨創(chuàng)性要求
我國著作權(quán)法第三條規(guī)定,作品是指文學、藝術(shù)和科學領(lǐng)域內(nèi)具有獨創(chuàng)性并能以一定形式表現(xiàn)的智力成果。其中,獨創(chuàng)性是判斷是否構(gòu)成“作品”的關(guān)鍵和核心?,F(xiàn)有理論中,存在主觀論與客觀論兩種判斷標準。主觀論認為,作品是作者精神的產(chǎn)物,基于作者獨立、個性的創(chuàng)作風格形成[4]。而人工智能生成的內(nèi)容由機器依據(jù)算法自動生成,無法體現(xiàn)人類創(chuàng)作者獨特的創(chuàng)作思想,不具備獨創(chuàng)性??陀^論認為,應(yīng)從作品客體本身出發(fā),只要人工智能生成的內(nèi)容區(qū)別其他作品,具有獨特的表達形式,同時并非抄襲、剽竊、復制的結(jié)果,就具備獨創(chuàng)性。文章認為,主觀論以人工智能生成內(nèi)容的過程不具備人類的創(chuàng)作思想、創(chuàng)作情感為由否定其獨創(chuàng)性,忽略了作品的外在表現(xiàn)形式和客觀判斷標準。雖然我國著作權(quán)法對“獨創(chuàng)性”認定沒有明確規(guī)定,但從法院判定來看,大多采納客觀標準。文生視頻作為新興的人工智能生成物,與人類作品相比已達到難以區(qū)分的程度。因此,文生視頻表現(xiàn)形式若能夠滿足客觀判斷標準,可以被認定為作品。
客觀上講,作品獨創(chuàng)性認定一般從“獨”和“創(chuàng)”兩個層面來展開[5]。所謂“獨”即獨立完成,包括兩種情況:一是從無到有,二是獨立創(chuàng)作。獨立創(chuàng)作要求作品的產(chǎn)生由作者獨立完成,表達形式上并非抄襲、剽竊、復制的結(jié)果。所謂“創(chuàng)”即創(chuàng)造性,指創(chuàng)作過程中須體現(xiàn)一定的智力創(chuàng)造水準,如果僅是單純的勞動,則無法滿足創(chuàng)造性要求。目前,各國對作品創(chuàng)造性的程度要求存在差別。大陸法系國家認為作品是作者人格的外化,對獨創(chuàng)性要求較高;英美法系國家側(cè)重保護作者利益,對獨創(chuàng)性要求較低。在我國,根據(jù)最高人民法院的相關(guān)判決,作品須具有最低限度的創(chuàng)造性,這要求作品須達到一定的智力高度。
文生視頻是人類創(chuàng)作者風格與個性的體現(xiàn),相關(guān)主體不能僅因為人類創(chuàng)作者對該文生視頻智力貢獻值低便否定人類創(chuàng)作者的智力表達。法律的保護應(yīng)當針對最后的表達結(jié)果,即只要文生視頻是由人類指導完成,表達形式上具有創(chuàng)造性,至于是因何種方式而產(chǎn)生的,不影響對創(chuàng)造性的判斷。換言之,“作品”之所以受到保護,是因為作品中蘊含創(chuàng)造力,而創(chuàng)造力并非特指人類所具有的創(chuàng)造力[6]。
(二)人類創(chuàng)作者對文生視頻的獨創(chuàng)性有實質(zhì)性貢獻
文生視頻類人工智能生成物是在人機交互過程中所完成的,由人類和機器共同創(chuàng)作。因此,與傳統(tǒng)作品認定不同,相關(guān)主體除了需要對其獨創(chuàng)性進行認定,還應(yīng)考慮輸入指令的潛在影響。只有人類創(chuàng)作者對文生視頻的獨創(chuàng)性具有實質(zhì)性貢獻,才能將文生視頻認定為作品。例如,2024年捷克布拉格市法院在審理一例人工智能生成圖片侵權(quán)案中就指出,創(chuàng)作者如果能夠證明生成的圖像是其獨特的實質(zhì)性貢獻的結(jié)果,則該生成圖像構(gòu)成原創(chuàng)作品,滿足著作權(quán)法規(guī)定的客體要件,受著作權(quán)法的保護[7]。
人工智能本身并不符合著作權(quán)法規(guī)定的主體要件。但如果人類創(chuàng)作者對文生視頻具有實質(zhì)性貢獻,那么人類創(chuàng)作者可以被視為文生視頻的作者,滿足著作權(quán)法規(guī)定的主體要件,人工智能在這一過程中則發(fā)揮著等同于工具的輔助作用。ChatGPT、Sora為代表的生成式人工智能無論發(fā)展到何種階段,仍屬于是人類的智力成果,只能是供人類利用的智能工具。
從人工智能生成視頻的全過程來看,文生視頻的產(chǎn)生大致需要經(jīng)過以下步驟:人類創(chuàng)作者輸入指令、機器識別指令、機器根據(jù)指令輸出內(nèi)容、人類創(chuàng)作者根據(jù)輸出內(nèi)容進行修改和調(diào)整。其中,文生視頻大模型生成視頻往往依賴于人類創(chuàng)作者的指令。人類創(chuàng)作者根據(jù)自己的審美標準和要求,對生成視頻進行篩選、優(yōu)化,使其更符合自己的需求。即便文生視頻大模型算法能夠輔助人類的意志行為,但這種算法終究只是機器學習的產(chǎn)物,而新技術(shù)并不能夠取代人類感性與理性的意志行為[8]。在文生視頻生成過程中,雖然文生視頻大模型發(fā)揮了重要作用,但究其根本,文生視頻的產(chǎn)生始終來源于人類創(chuàng)作者獨特的指令,人類創(chuàng)作者在文生視頻生成全過程中發(fā)揮著主導性作用,文生視頻大模型所發(fā)揮的是工具性的輔助作用。例如,在2023年“春風圖”侵權(quán)案中,法院認為人工智能生成圖片本質(zhì)上是人利用工具進行創(chuàng)作,創(chuàng)作過程中進行智力投入的是人而非人工智能模型,從而認定該人工智能生成的圖片屬于作品。雖然本案中談及的是生成圖片侵權(quán)問題,但文生視頻是由一幀一幀的圖片整合而成,因此對文生視頻的作品認定具有一定的參考性。
(三)承認文生視頻可版權(quán)性符合激勵創(chuàng)作的立法宗旨
著作權(quán)法自產(chǎn)生以來,鼓勵作品創(chuàng)作是最核心的一項立法宗旨。文生視頻作為新興的“創(chuàng)作成果”,對其給予合理的保護,符合現(xiàn)行著作權(quán)法保護的立法宗旨和價值追求。
有觀點認為,人工智能的核心是算法、規(guī)則、模型等,不可能受到著作權(quán)法的激勵而創(chuàng)作[9]。文章認為,承認人工智能生成物可版權(quán)性,受到激勵的是利用人工智能進行創(chuàng)作的創(chuàng)作者,并非人工智能。承認文生視頻可版權(quán)性,能夠極大地激勵創(chuàng)作,推進生成式人工智能與文娛行業(yè)的合作,促進影視行業(yè)的發(fā)展。例如,2024年3月,Sora母公司OpenAI與合作的部分藝術(shù)家發(fā)布了利用Sora制作的首部專業(yè)級藝術(shù)短片《空中夢想家》[10]。該藝術(shù)短片呈現(xiàn)了一個完整的故事,具有較高的專業(yè)性和藝術(shù)性。再如,2024年2月26日至3月2日,首部中國原創(chuàng)文生視頻AI系列動畫《千秋詩頌》于CCTV-1綜合頻道播出[11]。該動畫一經(jīng)播出,收視率居高不下。文生視頻的數(shù)量規(guī)模在不斷擴大,在藝術(shù)、影視領(lǐng)域創(chuàng)造出了巨大的經(jīng)濟效益,符合著作權(quán)法的價值功能。因此,承認文生視頻類人工智能生成物的可版權(quán)性,既符合著作權(quán)立法宗旨,還滿足價值追求,能夠使著作權(quán)法更好地“回應(yīng)新技術(shù)、新業(yè)態(tài)發(fā)展的需要”[12]。
三、文生視頻類人工智能生成物著作權(quán)保護路徑定位
(一)新設(shè)AI作品類型為文生視頻提供著作權(quán)保護
人工智能應(yīng)用領(lǐng)域復雜多樣,“創(chuàng)作”速度極快。面對大量涌入市場的文生視頻,相關(guān)主體應(yīng)該應(yīng)用能夠快速、合理、全面解決此類問題的保護方式—置于現(xiàn)行著作權(quán)法體系下進行保護。但學界對保護模式存在爭議:有觀點認為應(yīng)通過鄰接權(quán)保護;有觀點提出在著作權(quán)法之下對該類生成物專門立法。這兩種方式均有缺點,而通過新設(shè)AI作品類型進行保護是選擇成本最低、效果最好的方案。
主要原因在于,文生視頻等人工智能生成物在滿足一定條件下是能夠具有獨創(chuàng)性的,相關(guān)主體以鄰接權(quán)保護,忽略了文生視頻等生成物的獨創(chuàng)性,也忽略了鄰接權(quán)保護制度的前提。相關(guān)主體對文生視頻類人工智能生成物進行專門立法的方案看似可行,但在現(xiàn)行著作權(quán)法足以對此類作品提供保護的情形下,暫無必要。
新修訂的著作權(quán)法對“作品”的定義進行了調(diào)整,將兜底性條款修改為“符合作品特征的其他智力成果”,同時將“電影作品和以類似攝制電影的方法創(chuàng)作的作品”修改為“視聽作品”。這似乎意味著在立法層面,著作權(quán)保護范圍呈現(xiàn)擴大的趨勢。因此,相關(guān)主體可以在現(xiàn)有著作權(quán)法的作品制度下,新設(shè)AI作品類型進行保護。隨著科技的創(chuàng)新,著作權(quán)法不斷適應(yīng)各種新興技術(shù),越來越多的新興技術(shù)和產(chǎn)品被著作權(quán)所接納。文生視頻作為一種新興技術(shù)的產(chǎn)物,通過新設(shè)AI作品類型進行保護恰逢其時。在創(chuàng)作主體方面,相關(guān)主體可將人工智能看作輔助工具,將人工智能使用者視為具有法律地位的主體;在權(quán)利歸屬方面,相關(guān)主體可以根據(jù)貢獻程度合理分配著作權(quán)歸屬,平衡使用者、開發(fā)設(shè)計者、投資者之間的利益;在作品認定方面,相關(guān)主體可根據(jù)現(xiàn)有認定標準進行適當調(diào)整,對文生視頻是否構(gòu)成作品進行認定。
(二)文生視頻著作權(quán)保護的必要限制
文生視頻大模型生產(chǎn)文生視頻具有高效率、低成本的特點,能夠讓缺少經(jīng)驗甚至無經(jīng)驗的用戶能夠和資深的創(chuàng)作者一樣,制作出高質(zhì)量視頻。大量文生視頻的涌入會使得人類創(chuàng)作的傳統(tǒng)視聽作品在版權(quán)市場上面臨著更大的競爭壓力,甚至面臨貶值風險。為激勵自然人創(chuàng)作出更多高質(zhì)量的視聽作品,相關(guān)主體不宜給予文生視頻過于寬泛的保護,要對其保護給予必要的限制。
首先,在著作人身權(quán)上,相關(guān)主體有必要保留文生視頻作者的發(fā)表權(quán)、署名權(quán)及保護作品完整權(quán),但介于文生視頻的特殊性,修改權(quán)是否需要為作者保留仍須進一步探討。保護文生視頻的初衷是為激勵創(chuàng)作,如果立法上能夠明確使用者對文生視頻進行合理修改無須經(jīng)過文生視頻作者的許可,勢必能夠進一步激勵此類創(chuàng)作,促進作品的傳播和文化的交流。在著作財產(chǎn)權(quán)上,相關(guān)主體過于寬泛地為文生視頻作者保留財產(chǎn)權(quán)會極大地影響視聽作品的創(chuàng)作和傳播,因而不宜為文生視頻作品保留完整的著作財產(chǎn)權(quán)。為了方便公眾對文生視頻的使用,相關(guān)主體僅須保留文生視頻作者復制權(quán)、發(fā)行權(quán)、信息網(wǎng)絡(luò)傳播權(quán)等對文生視頻作者利益影響較大的權(quán)利。
其次,相關(guān)主體應(yīng)當將文生視頻納入法定許可范圍。文生視頻大模型生成能力的提高離不開對在原先作品的利用。因此,在立法上相關(guān)主體有必要明確公眾對文生視頻的使用無須經(jīng)過文生視頻著作權(quán)人的允許,其只需要付費即可使用。隨著生成式人工智能技術(shù)的飛速發(fā)展,公眾利用人工智能進行創(chuàng)作的熱情空前高漲。因此,相關(guān)主體應(yīng)拓寬文生視頻的合理使用范圍,以避免文生視頻等生成式人工智能作品利用的著作權(quán)糾紛。相關(guān)主體應(yīng)當允許不以營利為目的的對文生視頻的使用。
最后,相關(guān)主體還應(yīng)當縮短對文生視頻著作權(quán)的保護期限。著作權(quán)法中對作品保護期都有一定的限制,合理保護期限能夠維持文化表達的多樣性,給社會帶來更大的價值。我國著作權(quán)法規(guī)定,自然人對其作品享有的相關(guān)權(quán)利保護期限為作者終生及其死亡后五十年。但鑒于文生視頻類生成式人工智能的特點,文生視頻往往以高速度、批量性方式產(chǎn)出,過長保護期限可能會阻礙文生視頻的創(chuàng)新和發(fā)展。為了促進文生視頻的創(chuàng)作、傳播及利用,文章認為相關(guān)主體可參考版式設(shè)計權(quán)保護期限,給予文生視頻著作權(quán)人自文生視頻創(chuàng)作完成之日起十年的保護期限。
四、結(jié)語
文生視頻類人工智能生成物的可版權(quán)性是一個涉及多方面的復雜問題。文章通過相關(guān)分析認為,文生視頻在滿足獨創(chuàng)性及體現(xiàn)人類實質(zhì)性貢獻的前提下可以構(gòu)成作品,受到著作權(quán)法一定限度的保護。目前,司法實踐中也存在對生成式人工智能作品的認可判定,為文生視頻構(gòu)成作品獲得著作權(quán)保護提供了依據(jù),但具體的認定方式和保護措施還有待完善。人工智能的出現(xiàn)是現(xiàn)代科技發(fā)展的必然結(jié)果。在未來,人工智能的發(fā)展勢不可擋。因此,人工智能相關(guān)法律問題始終會是人們所關(guān)注的焦點。隨著人工智能技術(shù)的進一步發(fā)展,人工智能生成物的著作權(quán)保護可能會面臨更多的挑戰(zhàn)和機遇,期待未來的研究能夠進一步深化對這一領(lǐng)域的理解,為構(gòu)建一個合理、公正、公平的人工智能著作權(quán)保護體系提供有力的支持。
[參考文獻]
[1]Video generation models as world simulators[EB/OL].(2024-02-15)[2024-06-10].https://openai.com/index/video-generation-models-as-world-simulators/.
[2]朱光輝,王喜文.人工智能文生視頻大模型Sora的核心技術(shù)、運行機理及未來場景[J].新疆師范大學學報(哲學社會科學版),2024(04):149-156.
[3]崔雨萌,王靖亞,閆尚義,等.基于深度學習的警情記錄關(guān)鍵信息自動抽取[J].大數(shù)據(jù),2022(06):127-142.
[4]王遷.論人工智能生成的內(nèi)容在著作權(quán)法中的定性[J].法律科學(西北政法大學學報),2017(05):148-155.
[5]王遷.知識產(chǎn)權(quán)法教程[M].7版.北京:中國人民大學出版社,2021.
[6]黃匯,黃杰.人工智能生成物被視為作品保護的合理性[J].江西社會科學,2019(02):33-42.
[7]The first Czech case on generative AI[EB/OL].(2024-04-04)[2024-06-10].https://www.lexology.com/library/detail.aspx?g=ac8c13ec-1b83-4729-bc4d-3dd42f2b8824.
[8]唐一力,牛思晗.論人工智能生成作品的權(quán)利主體及其著作權(quán)歸屬[J].福建論壇(人文社會科學版),2023(11):107-122.
[9]王遷.再論人工智能生成的內(nèi)容在著作權(quán)法中的定性[J].政法論壇,2023(04):16-33.
[10]李豪悅.Sora開啟文生視頻新紀元影視游戲產(chǎn)業(yè)加速變局求突破[N].證券日報,2024-03-28.
[11]李丹.首部中國原創(chuàng)文生視頻AI系列動畫《千秋詩頌》播出:一場中國詩詞與人工智能的“雙向奔赴”[J].影視制作,2024(03):24-28.
[12]蔡琳,楊廣軍.人工智能生成內(nèi)容(AIGC)的作品認定困境與可版權(quán)性標準構(gòu)建[J].出版發(fā)行研究,2024(01):67-74.