摘要:生成式人工智能數(shù)據(jù)訓(xùn)練過程涉及對作品、資料、文獻等數(shù)據(jù)的獲取和利用,可能引發(fā)版權(quán)侵權(quán)。為避免版權(quán)侵權(quán),人工智能開發(fā)者或者事前獲得授權(quán)許可,或者依法獲得侵權(quán)豁免。然而,傳統(tǒng)許可模式在實踐中難以支撐海量數(shù)據(jù)學(xué)習(xí)模式的需要;法定許可方案也面臨交易成本和管理成本高昂的問題。以博弈論視角進行分析得出,合理使用是配置作品數(shù)據(jù)資源的較優(yōu)路徑,也是協(xié)調(diào)著作權(quán)人和人工智能開發(fā)者利益沖突的理性選擇。對此,建議以《著作權(quán)法》第二十四條第一款第(十三)項的“兜底條款”為接口,在《著作權(quán)法實施條例》中引入生成式人工智能數(shù)據(jù)訓(xùn)練的合理使用專門例外。該條款應(yīng)適當(dāng)放寬適用條件,通過“三步檢驗法”的后兩步進行限制,以此增加適用的彈性。
關(guān)鍵詞:生成式人工智能;數(shù)據(jù)訓(xùn)練;合理使用;版權(quán);博弈論
一、問題的提出
近年來,以ChatGPT為代表的生成式人工智能(Generative Artifcial Intelligence,以下簡稱GenAI)被廣泛應(yīng)用于各類創(chuàng)作場景中,其創(chuàng)作能力和交互能力的提升依賴于大語言模型的訓(xùn)練,海量數(shù)據(jù)輸入是形成理想的訓(xùn)練效果的基礎(chǔ),也是人工智能技術(shù)升級迭代的必由之路。在所需的海量數(shù)據(jù)中,作品數(shù)據(jù)作為高質(zhì)量的數(shù)據(jù)資源,具有較大的算法訓(xùn)練價值,其中就包括處于權(quán)利保護期的版權(quán)作品。根據(jù)《著作權(quán)法》一般原理,除了合理使用和法定許可的特定情形外,任何人使用他人作品應(yīng)當(dāng)獲得授權(quán)許可并支付報酬,否則屬于侵犯版權(quán)的行為。2023年國家互聯(lián)網(wǎng)信息辦公室等七部門聯(lián)合頒布的《生成式人工智能服務(wù)管理暫行辦法》第七條規(guī)定,生成式人工智能服務(wù)提供者應(yīng)當(dāng)依法開展數(shù)據(jù)訓(xùn)練處理活動,使用具有合法來源的數(shù)據(jù),不得侵害他人依法享有的知識產(chǎn)權(quán)。然而,為海量數(shù)據(jù)獲取權(quán)利人的授權(quán)并不現(xiàn)實,“事前授權(quán)”模式的高成本與訓(xùn)練數(shù)據(jù)的海量特征之間形成張力。正是由于高許可成本和作品數(shù)據(jù)海量需求之間的沖突,導(dǎo)致版權(quán)糾紛頻發(fā)。如在程序員們訴GitHub和OpenAI公司案中,原告指控被告未經(jīng)許可使用其代碼用于訓(xùn)練Codex程序,構(gòu)成版權(quán)侵權(quán);在美國藝術(shù)家群體訴Midjourney公司案中,原告聲稱被告未經(jīng)版權(quán)人許可擅自爬取數(shù)十億張圖像用于模型訓(xùn)練,構(gòu)成版權(quán)侵權(quán);在Getty圖片社訴Stability AI案中,原告控訴被告擅自從Getty圖片庫中復(fù)制超過1200萬張圖片以及圖文配對信息用于模型訓(xùn)練,侵犯其版權(quán);在《紐約時報》訴微軟和OpenAI案中,原告主張被告未經(jīng)許可將報刊上的數(shù)百萬篇文章用于訓(xùn)練ChatGPT的行為構(gòu)成版權(quán)侵權(quán);在AlterNet等新聞媒體訴OpenAI案中,原告指控被告在訓(xùn)練ChatGPT的過程中,未經(jīng)許可使用其新聞作品,違反《數(shù)字千年版權(quán)法》。在“全球AIGC平臺著作權(quán)侵權(quán)第一案”中,我國法院認(rèn)定某平臺因其提供的AIGC服務(wù)在用戶輸入指令后生成了侵害原告奧特曼形象的作品,構(gòu)成侵權(quán)。相關(guān)案件頻發(fā),促使GenAI數(shù)據(jù)訓(xùn)練的版權(quán)合法性問題成為全球關(guān)注的焦點。
針對該問題,國內(nèi)學(xué)者大多主張調(diào)整合理使用規(guī)則,以比較法研究為基點,提出借鑒歐盟《數(shù)字單一市場版權(quán)指令》(以下簡稱《DSM指令》)“文本與數(shù)據(jù)挖掘”專門例外規(guī)則,或借鑒日本《著作權(quán)法》中的“計算機信息分析”合理使用條款,或采用美國靈活開放的合理使用模式。也有部分觀點提出法定許可方案,少數(shù)觀點提出遵循授權(quán)許可模式??梢姡覈鴮W(xué)界對解決該問題提出了各種可能的選擇,但尚未達成共識。有鑒于此,本文首先明確GenAI數(shù)據(jù)訓(xùn)練的具體過程及其侵權(quán)風(fēng)險,繼而針對授權(quán)許可、法定許可以及合理使用方案的適用障礙進行詳細(xì)的闡述,并以博弈論視角分析相關(guān)利益主體的策略選擇,得出采用合理使用制度可能是較為合理的選擇。最后,以《著作權(quán)法實施條例》(以下簡稱《實施條例》)修改為契機,對GenAI數(shù)據(jù)訓(xùn)練的合理使用條款進行設(shè)計,以期對相關(guān)立法的完善提供參考。
二、GenAI數(shù)據(jù)訓(xùn)練的版權(quán)侵權(quán)風(fēng)險
為了明晰GenAI數(shù)據(jù)訓(xùn)練過程中哪些作品使用行為涉及版權(quán)侵權(quán),以及侵犯哪些權(quán)能,有必要對GenAI數(shù)據(jù)訓(xùn)練的技術(shù)原理進行剖析,總結(jié)出誘發(fā)侵權(quán)風(fēng)險的原因,并明確具體的侵權(quán)情形。
(一)GenAI數(shù)據(jù)訓(xùn)練實例
知識、數(shù)據(jù)、算力和算法是建構(gòu)GenAI的四個關(guān)鍵要素,其中數(shù)據(jù)是關(guān)鍵核心要素。GenAI數(shù)據(jù)訓(xùn)練其實就是機器學(xué)習(xí)的過程,通過對大量數(shù)據(jù)進行分析建模,在掌握人類語言的基本規(guī)律后,理解用戶指令并自主創(chuàng)建新內(nèi)容。為了辨明此過程中哪些行為可能涉嫌侵犯版權(quán),具體侵犯什么權(quán)能,需對其技術(shù)原理進行剖析。
以ChatGPT為例,其主體架構(gòu)遵從“語料體系+預(yù)訓(xùn)練+微調(diào)”的基本模式。語料體系是模型的基礎(chǔ),包括預(yù)訓(xùn)練語料與微調(diào)語料兩個部分。前者是從期刊、百科、論壇等渠道收集并經(jīng)過初步清理后形成的海量無標(biāo)注文本數(shù)據(jù);后者是從開源代碼庫爬取、專家標(biāo)注以及用戶提交等方式收集加工的高質(zhì)量有標(biāo)注的文本數(shù)據(jù)。這些文本數(shù)據(jù)為ChatGPT學(xué)習(xí)過程提供了堅實的語料基礎(chǔ),是保證其技術(shù)應(yīng)用和升級的關(guān)鍵要素之一。ChatGPT對海量數(shù)據(jù)進行大規(guī)模生成式預(yù)訓(xùn)練的過程采用自回歸的訓(xùn)練策略,訓(xùn)練順序按一般語言文字的順序從左向右進行,訓(xùn)練內(nèi)容為基于序列中當(dāng)前的元素來預(yù)測下一個元素。通過大量訓(xùn)練可形成規(guī)模達千億乃至萬億級別的參數(shù),從而確保大語言模型對人類語言的理解和文本生成能力。在預(yù)訓(xùn)練之后,結(jié)合特定任務(wù)和專業(yè)知識庫進行微調(diào)模型訓(xùn)練。在這個過程中,通過對高質(zhì)量有標(biāo)注的文本數(shù)據(jù)進行學(xué)習(xí)訓(xùn)練,不斷調(diào)整自身參數(shù),保證其產(chǎn)出與人類認(rèn)知、需求和價值觀一致,提升人機對話的順暢性以及生成內(nèi)容的準(zhǔn)確性。數(shù)據(jù)貫穿機器學(xué)習(xí)的始末,被稱為大語言模型的核心驅(qū)動力,其質(zhì)量和容量不單單影響其生成能力的強弱,更決定了模型運行的成敗。
GenAI數(shù)據(jù)訓(xùn)練的整個過程大體上可以分為數(shù)據(jù)輸入、模型訓(xùn)練和結(jié)果輸出三個階段。在數(shù)據(jù)輸入階段,主要的工作是獲取數(shù)據(jù)并進行轉(zhuǎn)碼處理。獲取的數(shù)據(jù)不僅需要大量的作品、資料等,而且需要大量示例信息,比如文本與圖像、視頻的對應(yīng)關(guān)系等。在Getty Images v.Stability AI案中,原告就指出Stability AI不僅擅自復(fù)制其圖像作品,而且利用了數(shù)十億個詳細(xì)的文圖配對信息,這樣的信息對于模型訓(xùn)練至關(guān)重要。數(shù)據(jù)收集、處理完畢后,將其輸入計算機進行模型訓(xùn)練。以現(xiàn)下較火爆的“文生圖”和“文生視頻”軟件為例,其在訓(xùn)練階段廣泛應(yīng)用了擴散模型,擴散原理是“先增噪后降噪”,模擬一個從有序到無序再到有序的過程。具體來說,先給現(xiàn)有圖像逐步施加高斯噪聲,直到圖像被完全破壞,然后再去噪還原圖像。在這個過程中不斷優(yōu)化自身參數(shù),以通過用戶指令生成符合“文本與圖像對應(yīng)”的內(nèi)容。在輸出階段,模型基于對訓(xùn)練數(shù)據(jù)的提取和處理,通過理解用戶指令形成學(xué)習(xí)結(jié)果并予以輸出。值得注意的是,GenAI并不以文本數(shù)據(jù)的“復(fù)制”或“重新組合”為目標(biāo),而是在訓(xùn)練過程中,將文本數(shù)據(jù)轉(zhuǎn)換為計算機模型的最小單元,在學(xué)習(xí)最小單元之間的關(guān)系后,基于對指令的理解,重新生成內(nèi)容,因此通常來說輸出的形式與原作品可能具有相似性但并不完全相同。
(二)GenAI數(shù)據(jù)訓(xùn)練的版權(quán)侵權(quán)緣由
第一,作品數(shù)據(jù)的使用貫穿GenAI數(shù)據(jù)訓(xùn)練的全過程。在數(shù)據(jù)輸入階段,獲取的海量數(shù)據(jù)涵蓋公共領(lǐng)域的數(shù)據(jù)以及受版權(quán)保護的作品。前者包括超過權(quán)利保護期的作品、官方文件和事實信息等,可以為社會公眾自由使用;后者指向尚處于權(quán)利保護期的版權(quán)作品,若未經(jīng)許可擅自使用就可能導(dǎo)致侵權(quán)。訓(xùn)練數(shù)據(jù)可能涵蓋的版權(quán)有兩個層次:一是訓(xùn)練數(shù)據(jù)集中單個作品的版權(quán);二是訓(xùn)練數(shù)據(jù)集作為整體匯編作品的版權(quán)。獲取作品數(shù)據(jù)后,需對其進行轉(zhuǎn)碼操作以形成適合機器閱讀的標(biāo)準(zhǔn)格式語料。在轉(zhuǎn)碼環(huán)節(jié)以作品形態(tài)區(qū)分兩種情形:一是非數(shù)字作品,應(yīng)先進行數(shù)字化再進行轉(zhuǎn)碼;二是已數(shù)字化的作品,直接進行轉(zhuǎn)碼。兩種情形下,都涉及作品的復(fù)制權(quán)。數(shù)據(jù)的獲取和處理行為,是對作品的合法使用還是侵權(quán)使用,決定了GenAI數(shù)據(jù)訓(xùn)練的整個過程是否正當(dāng)。在模型訓(xùn)練階段,對作品數(shù)據(jù)的學(xué)習(xí)和分析,是從大量表達中提取人類語言的基本規(guī)律和特征,再將其應(yīng)用到具體場景中,學(xué)習(xí)的是作品的“表達形式”而非“思想”。在結(jié)果輸出階段,能夠生成具有作品外觀的形式,與原作品構(gòu)成實質(zhì)性相似的,就可能侵犯版權(quán)。綜上,數(shù)據(jù)輸入階段需獲取和使用受版權(quán)保護的作品,模型訓(xùn)練階段是對作品“表達”的學(xué)習(xí),輸出結(jié)果也是具有作品外觀的形式,因此GenAI數(shù)據(jù)訓(xùn)練全過程都與作品利用有關(guān),導(dǎo)致產(chǎn)生版權(quán)侵權(quán)風(fēng)險。
第二,對作品數(shù)據(jù)的“作品性使用”,使GenAI數(shù)據(jù)訓(xùn)練面臨版權(quán)侵權(quán)風(fēng)險。作品的使用貫穿GenAI學(xué)習(xí)訓(xùn)練的全過程,但針對知識產(chǎn)權(quán)對象的使用行為,并非均落入專有權(quán)的保護范圍,專有權(quán)只能規(guī)制“知識產(chǎn)權(quán)法律意義上的使用”。因此,有學(xué)者借鑒商標(biāo)法領(lǐng)域的“商標(biāo)性使用”概念,將對作品的使用行為區(qū)分為“作品性使用”和“非作品性使用”,只有前者才可能屬于侵犯版權(quán)的使用行為。GenAI本質(zhì)是AIGC,是在學(xué)習(xí)海量作品的“表達”的基礎(chǔ)上,不斷訓(xùn)練“創(chuàng)作”能力,從而智能化生成特定內(nèi)容,對作品的使用應(yīng)當(dāng)認(rèn)為屬于“作品性使用”。有學(xué)者以是否具有表達性內(nèi)容的輸出為標(biāo)準(zhǔn),將機器學(xué)習(xí)分為“表達型”和“非表達型”兩種。非表達型機器學(xué)習(xí)雖然在訓(xùn)練過程中復(fù)制、存儲、匯編了作品數(shù)據(jù),但不以使用作品的表達性內(nèi)容為目的,通常是對事實信息的采集和分析,并且也無表達性內(nèi)容的輸出,因此不受版權(quán)專有權(quán)控制,不構(gòu)成侵權(quán)。如人臉識別技術(shù),該技術(shù)對照片的采集和訓(xùn)練旨在實現(xiàn)身份驗證和安全監(jiān)控等功能,并不包含用于人工智能訓(xùn)練的原始照片的任何表達性內(nèi)容,屬于非表達型機器學(xué)習(xí)。而GenAI對作品數(shù)據(jù)的使用并非針對原作品的事實信息,而是原創(chuàng)性表達,其輸出的結(jié)果也并非實現(xiàn)目的性或功能性轉(zhuǎn)換,而是形成了與原作品有關(guān)聯(lián)的表達形式。在此意義上,可以認(rèn)為GenAI數(shù)據(jù)訓(xùn)練屬于“表達型”機器學(xué)習(xí),對作品的使用屬于“作品性使用”,因此可能構(gòu)成對版權(quán)的侵犯。
(三)GenAI數(shù)據(jù)訓(xùn)練的版權(quán)侵權(quán)情形
GenAI數(shù)據(jù)訓(xùn)練的版權(quán)法律后果,實際上分別由數(shù)據(jù)輸入階段和結(jié)果輸出階段所吸收。在數(shù)據(jù)輸入階段,對作品的轉(zhuǎn)碼以及在監(jiān)督學(xué)習(xí)的情況下人工對數(shù)據(jù)進行標(biāo)記、整理和匯總的行為,可能涉及作品的復(fù)制權(quán)、翻譯權(quán)、改編權(quán)和匯編權(quán)。對作品數(shù)據(jù)進行轉(zhuǎn)碼的過程是以“機器語言”重現(xiàn)作品,對作品的標(biāo)記、整理和匯總也涉及對作品的全文復(fù)制,因此可能侵犯復(fù)制權(quán)。但這些行為不會侵犯權(quán)利人的翻譯權(quán)、改編權(quán)和匯編權(quán)。原因在于:第一,將作品轉(zhuǎn)碼為機器語言,并非“翻譯”行為,機器語言也并非“語言文字”的一種,因此與翻譯權(quán)無關(guān);第二,轉(zhuǎn)碼和標(biāo)記行為不涉及任何獨創(chuàng)性的表達,也未對作品內(nèi)容進行改動,故而不會侵犯改編權(quán);第三,對作品數(shù)據(jù)的整理和匯總僅作為訓(xùn)練數(shù)據(jù)使用而不對外發(fā)布,不會侵犯匯編權(quán)。同樣地,上述行為也不會侵犯權(quán)利人的修改權(quán)和保護作品完整權(quán)。修改權(quán)和保護作品完整權(quán)屬于“著作人身權(quán)”,在于保護作品不被擅自修改或歪曲篡改,以保證作者本意與作品意思的同一性。因此,構(gòu)成侵權(quán)的前提在于修改后的內(nèi)容與原作產(chǎn)生聯(lián)結(jié),使讀者從作品聯(lián)系上作者的性格、思想和情感。然而,轉(zhuǎn)碼和標(biāo)注等行為既未對作品的內(nèi)容進行實質(zhì)改動,又未將操作后的作品進行傳播,故而無關(guān)作品的修改權(quán)和保護作品完整權(quán)。
在模型訓(xùn)練階段,對作品表達形式的利用可能涉及翻譯、改編和匯編等行為,若訓(xùn)練數(shù)據(jù)是以非法方式獲取的,那么上述作品使用行為當(dāng)然構(gòu)成侵權(quán),但若訓(xùn)練數(shù)據(jù)是以合法方式獲取的則應(yīng)結(jié)合輸出的結(jié)果予以分析。在輸出階段,生成的表達形式具有三種情形:一是全新作品;二是與原作品相同或相似的表達;三是保留原作品基本表達的具有獨創(chuàng)性的作品。第一種情形不構(gòu)成侵權(quán);第二種情形下,若生成與原作品完全相同的表達,或者構(gòu)成“實質(zhì)性相似”,則可能侵犯復(fù)制權(quán);第三種情形可能涉及對改編權(quán)的侵犯。如果GenAI開發(fā)者為了進行機器學(xué)習(xí),或者為了實現(xiàn)研究結(jié)果的可驗證性,將數(shù)據(jù)或文本上傳至互聯(lián)網(wǎng),可能涉嫌侵犯廣播權(quán)或信息網(wǎng)絡(luò)傳播權(quán)。若將機器學(xué)習(xí)的數(shù)據(jù)分析結(jié)果在互聯(lián)網(wǎng)上進行傳播,也可能導(dǎo)致廣播權(quán)或信息網(wǎng)絡(luò)傳播權(quán)侵權(quán)。
三、GenAI數(shù)據(jù)訓(xùn)練的版權(quán)合法性障礙
由上文分析可知,GenAI數(shù)據(jù)訓(xùn)練行為可能侵犯復(fù)制權(quán)、信息網(wǎng)絡(luò)傳播權(quán)等權(quán)利。為消解版權(quán)侵權(quán)風(fēng)險,可以選擇事前獲取作品的授權(quán)許可或者運用法定許可和合理使用條款依法獲得侵權(quán)豁免。但這三種選擇均具有實現(xiàn)和適用的障礙。
(一)GenAI數(shù)據(jù)訓(xùn)練授權(quán)許可模式實現(xiàn)之障礙
在當(dāng)前的法律框架下,使用他人受版權(quán)保護的作品,應(yīng)當(dāng)事前獲得授權(quán)許可并支付報酬。然而,訓(xùn)練數(shù)據(jù)的海量特征與授權(quán)許可模式的高成本之間形成張力,傳統(tǒng)的授權(quán)模式在實踐中難以支撐海量數(shù)據(jù)學(xué)習(xí)模式的需要。首先,授權(quán)許可模式雖然充分尊重私主體的意思自治,但由于市場主體的有限理性以及契約不完備的固有困境,獲取授權(quán)往往需要經(jīng)過反復(fù)的利益談判才能達成,這導(dǎo)致交易流程繁瑣,數(shù)據(jù)獲取效率低下。其次,遵循授權(quán)許可模式,使數(shù)據(jù)交易成本過高,可能導(dǎo)致市場失靈。若對機器學(xué)習(xí)所需的海量作品一一尋求許可,不僅需要精準(zhǔn)識別作品的來源并確定權(quán)屬,而且需要就許可費和授權(quán)范圍進行多輪磋商,識別成本和談判成本較為高昂。在完美的市場上,如果在后使用作品產(chǎn)生的價值遠高于許可成本,那么由市場機制發(fā)揮作用即可。但GenAI數(shù)據(jù)訓(xùn)練卻以較高的交易成本疊加較低的預(yù)期收益,這就導(dǎo)致了作品許可市場的失靈。此外,部分著作權(quán)人對GenAI使用其作品具有抵抗和排斥的心理,造成了更大的磋商障礙。他們一方面擔(dān)心人工智能技術(shù)的快速發(fā)展可能會影響自己的職業(yè)從而采取抵制態(tài)度,另一方面擔(dān)心人工智能創(chuàng)作能力的逐漸增強,會使人類越來越依賴機器而導(dǎo)致創(chuàng)作能力逐漸退化。
當(dāng)前,GenAI開發(fā)者可以通過與互聯(lián)網(wǎng)平臺和數(shù)據(jù)庫服務(wù)商交易一站式獲取數(shù)據(jù),在一定程度上提升了授權(quán)許可的效率,似乎可以有效降低作品的交易成本。但由于缺少作品絕對集中的網(wǎng)絡(luò)服務(wù)商,并且一攬子許可容易產(chǎn)生潛在的訴訟風(fēng)險,導(dǎo)致交易成本高昂的問題仍難以克服。具體而言,無論是從互聯(lián)網(wǎng)平臺、公開網(wǎng)頁或是數(shù)據(jù)庫獲得作品,都無法避免與著作權(quán)人進行額外、分散、逐一地協(xié)商,談判和執(zhí)行成本居高不下。一些互聯(lián)網(wǎng)平臺通過用戶服務(wù)協(xié)議集中了用戶發(fā)布的內(nèi)容,并獲得對該內(nèi)容進行免費使用、非獨家和分許可的權(quán)利。GenAI開發(fā)者可以直接與互聯(lián)網(wǎng)平臺進行談判,獲得授權(quán)后從平臺批量下載數(shù)據(jù)。但是用戶在服務(wù)協(xié)議中同意平臺免費使用和分許可自己發(fā)布的內(nèi)容,應(yīng)當(dāng)限于為維持自身運營以及提升服務(wù)質(zhì)量等目的而進行的使用。將這些內(nèi)容許可給其他服務(wù)提供者可能超出用戶對服務(wù)協(xié)議的預(yù)期,潛在的侵權(quán)風(fēng)險致使GenAI開發(fā)者無法掠過著作權(quán)人。對于數(shù)據(jù)庫而言,分為兩種情形:一是未經(jīng)著作權(quán)人授權(quán)將作品數(shù)據(jù)一攬子許可給GenAI開發(fā)者的,若不額外與著作權(quán)人逐一協(xié)商,使用作品仍具有侵權(quán)風(fēng)險;二是數(shù)據(jù)庫受到著作權(quán)人共同委托的,獲取作品數(shù)據(jù)集無須再向權(quán)利人獲取許可,但由于委托數(shù)據(jù)庫代理許可事宜的未必包含全部相關(guān)權(quán)利人,侵權(quán)風(fēng)險仍然存在。即便順利達成大規(guī)模的作品數(shù)據(jù)交易,高昂的許可使用費也是壓在GenAI開發(fā)者肩上的“一座大山”。
(二)GenAI數(shù)據(jù)訓(xùn)練法定許可方案運用之障礙
為了解決作品許可市場失靈的問題,實現(xiàn)技術(shù)發(fā)展和文化創(chuàng)新的平衡,有學(xué)者提出運用法定許可制度,規(guī)定GenAI開發(fā)者可以不事先獲取權(quán)利人的許可直接使用該作品,僅須向權(quán)利人支付合理報酬。這是通過立法預(yù)設(shè)交易條件替代私主體協(xié)商的方案,以弱化權(quán)利排他性的方式有效降低交易成本。滿足法定條件的,即可跳過協(xié)商環(huán)節(jié),以法律規(guī)定的特定方式使用作品,既保證了著作權(quán)人從市場中獲取經(jīng)濟收益,又能避免逐一許可,提升數(shù)據(jù)獲取效率。這一主張具有一定的意義,但是將GenAI數(shù)據(jù)訓(xùn)練行為增設(shè)為一項新的法定許可使用情形,并不符合法定許可制度的立法價值,同時仍然難以跨越高成本的障礙。
首先,在擴大法定許可范疇時,應(yīng)當(dāng)從制度的立法價值出發(fā),避免想當(dāng)然地利用該制度扭轉(zhuǎn)作品許可市場的失靈。當(dāng)前主張運用法定許可方案的觀點,僅以法定許可產(chǎn)生的正向效應(yīng)為論證基礎(chǔ),并未充分考慮GenAI數(shù)據(jù)訓(xùn)練行為與該制度的契合性。通過追溯美國版權(quán)法定許可制度的立法定位,發(fā)現(xiàn)其立法價值是在新的作品傳播方式和傳播主體出現(xiàn)時,用以調(diào)和新舊產(chǎn)業(yè)主體之間的利益分配的權(quán)宜之計。以錄音制品的法定許可為例,起初音樂作品僅以樂譜的方式進行復(fù)制和發(fā)行,與圖書共同隸屬出版產(chǎn)業(yè)。隨著音樂作品新傳播載體的普及,音樂產(chǎn)業(yè)由樂譜發(fā)行向錄音制品發(fā)行轉(zhuǎn)型,由此出現(xiàn)了新的傳播主體“錄音制品制作者”。為了調(diào)和音樂作品傳統(tǒng)出版者和錄音制品制作者的利益分配矛盾,同時避免已取得授權(quán)的主體獲得壟斷地位,立法者賦予使用者在法律框架內(nèi)平等錄制音樂作品的權(quán)利。這種基于產(chǎn)業(yè)利益協(xié)調(diào)的立法價值,被定位為私人授權(quán)許可的補充,其適用被視為一種臨時性、妥協(xié)性的制度工具,因此在立法設(shè)計上并未簡化許可程序,反而增加嚴(yán)格的適用條件。我國法定許可制度具有較強的公共屬性,其基本目標(biāo)是促進作品的傳播,實現(xiàn)著作權(quán)人、傳播者以及公眾之間的利益平衡。針對GenAI數(shù)據(jù)訓(xùn)練行為,運用法定許可方案的確能夠調(diào)和著作權(quán)人和人工智能開發(fā)者之間的利益沖突。但是反過來,為GenAI數(shù)據(jù)訓(xùn)練行為設(shè)定法定許可規(guī)則卻難以實現(xiàn)促進作品傳播、保證公眾及時獲取作品等公共利益目標(biāo)。原因是:第一,GenAI缺乏傳播作品的經(jīng)濟誘因,其商業(yè)模式在于通過對大量作品的學(xué)習(xí)為公眾提供生成內(nèi)容服務(wù),生成的作品甚至與原作品形成市場競爭關(guān)系;第二,社會公眾并不依賴GenAI數(shù)據(jù)訓(xùn)練獲取作品,公眾所享受的乃是技術(shù)進步帶來的作品創(chuàng)造力的提升。
其次,運用法定許可使用方案雖提升了獲取作品的效率,但并未解決交易成本高昂的問題。第一,由于訓(xùn)練數(shù)據(jù)所需作品數(shù)量眾多,所需支付的法定許可使用費用依舊高昂。作為理性的經(jīng)濟主體,當(dāng)投資遠高于回報時,GenAI開發(fā)者必定望而卻步。在這種情況下,開發(fā)者可能放棄對GenAI技術(shù)的研發(fā)和應(yīng)用,但更可能以承擔(dān)侵權(quán)風(fēng)險為代價來換取技術(shù)的發(fā)展和應(yīng)用。因為對作品數(shù)據(jù)的使用通常比較隱蔽,權(quán)利人也較難舉證證明。如此對于解決數(shù)據(jù)訓(xùn)練的合法性問題并無半分增益。第二,法定許可定價難以適應(yīng)市場的靈活多變。法定許可主要通過定價權(quán)的轉(zhuǎn)移,來實現(xiàn)財產(chǎn)權(quán)排他性的弱化。但無論定價權(quán)是通過代表談判的方式協(xié)商再經(jīng)由版權(quán)主管部門批準(zhǔn),還是直接由版權(quán)主管部門確定,都難以克服法定價格機制的固有缺陷。定價靈活性的缺乏不僅可能阻礙作品價值的實現(xiàn),而且限制了市場有效率的競爭行為。第三,法定許可費的收取和管理工作將耗費巨大的成本。其一,法定許可的推行建立在對使用的作品數(shù)據(jù)進行充分公開的基礎(chǔ)上;其二,要對數(shù)以萬計的作品進行權(quán)屬明晰以及分發(fā)許可費;其三,管理機構(gòu)可能還需要代替權(quán)利人進行維權(quán)和應(yīng)訴。上述過程,需要耗費巨大的人力、物力和財力,在扣除這些成本后,剩下的部分可能不足以實現(xiàn)對著作權(quán)人的激勵??偟膩碚f,運用法定許可方案可能使社會整體福利呈現(xiàn)凈損失。
(三)GenAI數(shù)據(jù)訓(xùn)練合理使用條款適用之障礙
為促進技術(shù)發(fā)展,讓GenAI開發(fā)者利用作品成為可能,將數(shù)據(jù)訓(xùn)練行為納入版權(quán)合理使用制度也是一個選擇。當(dāng)前各國的立法政策也傾向于采用合理使用制度解決GenAI數(shù)據(jù)訓(xùn)練的合法性問題,如歐盟設(shè)定“文本與數(shù)據(jù)挖掘”的專門例外,日本規(guī)定“提供新的知識信息”的合理使用情形等。
我國《著作權(quán)法》規(guī)定的合理使用情形并不包括GenAI數(shù)據(jù)訓(xùn)練行為,只能試圖通過解釋論的立場將其解釋為合理使用的特定情形之一。與GenAI訓(xùn)練數(shù)據(jù)相關(guān)聯(lián)的合理使用情形主要有:個人使用、適當(dāng)引用、科學(xué)研究的少量復(fù)制使用等。對于“個人使用”情形,使用作品的目的是“個人學(xué)習(xí)、研究和欣賞”,但這里的“個人”通常限于“自然人”,不能包括法人與非法人組織,更不能囊括人工智能系統(tǒng)。從歐盟《DSM指令》將“文本與數(shù)據(jù)挖掘”的主體限于“研究機構(gòu)”和“文化遺產(chǎn)機構(gòu)”可知,“個人”無法成為數(shù)據(jù)挖掘主體,“個人使用”也無法解釋為包括GenAI數(shù)據(jù)訓(xùn)練行為;對于“適當(dāng)引用”情形,首先要求對作品的使用是“適當(dāng)”的,其次使用的目的在于“為介紹評論某一作品或者說明某一問題”,但數(shù)據(jù)訓(xùn)練過程對作品的使用并非“引用”行為,也突破了“適當(dāng)”的限制,故而無法適用;對于“科學(xué)研究的少量復(fù)制使用”,雖然GenAI對作品數(shù)據(jù)的分析、處理可以視為科學(xué)研究行為,但是作為合理使用的科學(xué)研究,不僅存在主體限制(限于公立學(xué)校、科研院所等),而且存在數(shù)量限制(少量復(fù)制),因此GenAI數(shù)據(jù)訓(xùn)練行為也難以使用該情形進行抗辯。綜上,無法將GenAI數(shù)據(jù)訓(xùn)練行為解釋為我國《著作權(quán)法》規(guī)定的特定合理使用情形,原則上應(yīng)構(gòu)成侵害版權(quán)的行為。雖然我國法院在實踐中吸收了美國合理使用的四要素標(biāo)準(zhǔn),并在系列案件中突破了《著作權(quán)法》的封閉式規(guī)定。但這樣的突破實際上是于法無據(jù)的,同時也造成了司法適用標(biāo)準(zhǔn)的混亂。此外,為解決GenAI數(shù)據(jù)訓(xùn)練的合法性問題而增設(shè)合理使用專門條款,受到過度偏向技術(shù)進步而忽略著作權(quán)人利益的批評。配置作品數(shù)據(jù)資源的方案選擇,不僅需要衡量立法技術(shù),還需充分考慮各方利益訴求。
四、博弈視角下GenAI數(shù)據(jù)訓(xùn)練相關(guān)利益主體的沖突和協(xié)調(diào)
GenAI數(shù)據(jù)訓(xùn)練的版權(quán)合法性爭議,反映了著作權(quán)人(創(chuàng)作者)和GenAI開發(fā)者(使用者)的利益沖突。借用博弈論分析工具,能夠更好地研判博弈參與者的策略選擇,以探尋最優(yōu)的解決方案。
(一)博弈論適用策略效用
博弈論是研究存在利益沖突與合作的主體在互動中作出理性選擇的一種分析方法。其總體邏輯是,博弈參與者在掌握博弈規(guī)則(包括行為、時間和信息)的基礎(chǔ)上,以自身利益最大化為目標(biāo)作出決策選擇,在先決策會對在后決策產(chǎn)生影響,從而產(chǎn)生動態(tài)的決策改進。博弈參與者被假設(shè)為“理性人”,在進行決策時,能夠根據(jù)所掌握的信息以及其他參與者的決策實現(xiàn)目的最大化,把自身核心利益當(dāng)作努力追求的最終目標(biāo)。博弈論分析方法綜合考慮了各博弈參與者的預(yù)期和實際行為,其效用在解釋具有競爭性或利益沖突現(xiàn)象中尤其顯著。
著作權(quán)人與GenAI開發(fā)者之間的矛盾源于經(jīng)濟利益沖突:GenAI開發(fā)者使用作品不僅不向著作權(quán)人尋求許可,而且生成的內(nèi)容還可能影響原作品的市場利益。因此,著作權(quán)人希望維持對作品的嚴(yán)格控制,他人使用作品的必須獲得許可并支付報酬;而GenAI開發(fā)者希望可以通過合理使用制度,以最低成本獲取海量數(shù)據(jù)資源。二者作為理性人均以追求自身利益最大化為目標(biāo),其策略選擇不僅回應(yīng)自身需求,而且受到相互之間行為決策的影響。比如,當(dāng)著作權(quán)人不愿意放棄許可權(quán)或獲酬權(quán)時,GenAI開發(fā)者受制于過高的交易成本,要么選擇放棄技術(shù)的升級應(yīng)用,要么只能選擇承擔(dān)侵權(quán)風(fēng)險。這種以追求自身利益最大化為目的,并且策略又相互影響的過程,符合博弈論的基本分析框架。鑒于GenAI的技術(shù)水平、數(shù)據(jù)訓(xùn)練規(guī)模、法律和政策導(dǎo)向以及市場現(xiàn)存作品等信息在一定程度上均是可公開獲取的,博弈參與者的決策可以基于博弈信息以及其他利益相關(guān)主體的行為作出適當(dāng)調(diào)整。博弈論適用的效用體現(xiàn)在:一是通過博弈分析,研判創(chuàng)作者、使用者以及社會公眾在不同制度環(huán)境下作出的策略選擇,可以清晰地得出不同的制度設(shè)計對于參與者群體策略選擇的影響,從而衡量制度的激勵功能是否充分實現(xiàn);二是基于博弈論分析框架,分析各利益主體可能作出的理性行為決策,有助于形成最優(yōu)策略組合下的納什均衡。
(二)著作權(quán)人與人工智能開發(fā)者的博弈
從博弈論的視角出發(fā),能為著作權(quán)人和GenAI開發(fā)者利益沖突的解決提供新的思路。在經(jīng)典模型“囚徒困境”中,兩名共謀犯均以追求個人利益最大化為目標(biāo),從而都作出“招供”的策略選擇,但在該嚴(yán)格占優(yōu)策略均衡下,雙方卻又陷入了對彼此來說都不利的局面。囚徒陷入困境的原因在于,一方從不招供轉(zhuǎn)變?yōu)檎泄?,個人能夠獲得減刑。但同時會增加同伙的刑期,這是該囚徒施加于同伙的負(fù)外部性。而在“獵鹿博弈”中,合作會成為多數(shù)情況下的選擇。兩個博弈模型最大的區(qū)別就在于:“獵鹿博弈”模型中,雙方都選擇合作具有可預(yù)期性,從而形成穩(wěn)定而持續(xù)的狀態(tài);而在“囚徒困境”中,由于無法溝通且缺乏信任,導(dǎo)致難以形成穩(wěn)定的狀態(tài)?!扒敉嚼Ь场彼l(fā)的集體理性和個體理性對立是人們在社會合作中不可避免的實際問題。著作權(quán)人與GenAI開發(fā)者之間的利益博弈實際上就是“囚徒困境”的表現(xiàn),若博弈雙方均以自身利益最大化為目標(biāo)進行決策選擇,最終將形成對彼此都不利的局面。但是,著作權(quán)人與GenAI開發(fā)者之間的博弈可以建立在協(xié)商的基礎(chǔ)之上,屬于動態(tài)博弈過程,當(dāng)二者在經(jīng)歷多次以“個人效用”為核心的策略后,發(fā)現(xiàn)還可能具有雙贏的局面,這比嚴(yán)格占優(yōu)策略所形成的局面更佳,那么二者就會在之后的博弈過程中嘗試互建信任,驅(qū)使雙方都選擇合作策略。若假設(shè)博弈次數(shù)是無限的,商業(yè)往來也是無限的,那么二者的策略都將選擇持續(xù)的合作,由此形成納什均衡。
GenAI數(shù)據(jù)訓(xùn)練的合法性爭議背后承載了人格利益、財產(chǎn)利益以及社會公共利益,不同利益之間的沖突和博弈,折射出“版權(quán)嚴(yán)格保護”與“作品自由使用”之間的緊張關(guān)系、“私人利益”與“公共利益”之間的權(quán)衡關(guān)系。在博弈參與者利益沖突的過程中,往往需要進行協(xié)調(diào)和妥協(xié),以實現(xiàn)資源配置效益的最大化。對于著作權(quán)人而言,在保證合法權(quán)益(尤其是獲酬權(quán))的情況下,實際上并不排斥作品被使用。其可能的擔(dān)心之處在十,作品被用于訓(xùn)練后生成的內(nèi)容對原作品的市場利益產(chǎn)生影響或?qū)υ髌肥袌霎a(chǎn)生替代作用。如在美國國會聽證會上,藝術(shù)家卡拉,奧爾蒂斯(Karla Ortiz)認(rèn)為,藝術(shù)作品一經(jīng)訓(xùn)練就無法被機器遺忘,藝術(shù)家們被迫與建立在自己作品基礎(chǔ)上的人工智能模型競爭,對他們的權(quán)益產(chǎn)生很大的損害。但同時,GenAI服務(wù)能力的提升也會使創(chuàng)作者受益。創(chuàng)作者運用人工智能技術(shù)進行創(chuàng)作活動,能夠降低生產(chǎn)成本,提升創(chuàng)作效率和產(chǎn)量,從而獲得更多的市場利益,以此沖抵帶來的負(fù)面影響。對于GenAI開發(fā)者來說,其希望在合法合規(guī)的前提下,以較低的成本獲取大量作品;對于社會公眾而言,其既是GenAI技術(shù)的受益者同時也是創(chuàng)作者,不僅希望能獲得更好的內(nèi)容生成服務(wù),而且也希望生成的作品受到保護。這三方利益的調(diào)和以著作權(quán)人和GenAI開發(fā)者利益協(xié)調(diào)為前提,二者存在共贏的可能。在著作權(quán)人與GenAI開發(fā)者無法通過協(xié)商形成最優(yōu)策略時,還可以通過法律法規(guī)對博弈的方式進行改變,從而達到帕累托最優(yōu)。
(三)可能的博弈策略研析
當(dāng)前,解決GenAI訓(xùn)練數(shù)據(jù)版權(quán)合法性問題的方案主要有:授權(quán)許可、法定許可和合理使用。從價值衡量來說,方案的選擇需平衡“版權(quán)保護”“作品利用”和“技術(shù)進步”三項價值。上述三種方案,版權(quán)保護依次減弱,技術(shù)進步的促進逐漸增強。相較于授權(quán)許可方案,法定許可和合理使用都更加偏向技術(shù)進步,專有權(quán)效力被弱化;而授權(quán)許可模式是對版權(quán)的嚴(yán)格保護,但是限制了對作品的利用,不利于GenAI技術(shù)的進步。
在博弈過程中,若遵循授權(quán)許可方案,GenAI開發(fā)者將面臨兩種策略選擇:一是只使用部分具有合法來源的數(shù)據(jù)進行訓(xùn)練,犧牲GenAI服務(wù)的質(zhì)量;二是依舊使用海量數(shù)據(jù),但以承受侵權(quán)風(fēng)險支撐技術(shù)的應(yīng)用和升級,背負(fù)作品數(shù)據(jù)非法使用的“原罪”。在進行風(fēng)險和收益分析時,若技術(shù)升級應(yīng)用所實現(xiàn)的價值遠高于承受侵權(quán)風(fēng)險所帶來的成本,那么作為理性主體的GenAI開發(fā)者必定會選擇第二種策略。對于著作權(quán)人來說,拒絕自身作品被GenAI開發(fā)者使用的,只能通過起訴維護權(quán)利,但需要承擔(dān)訴訟成本和時間成本,對于個體而言并不具有與人工智能公司抗衡的能力,理性的著作權(quán)人通常只能選擇息事寧人。
對于法定許可方案而言,雖然對各方利益均有兼顧,但根據(jù)上文分析可知,其在技術(shù)支撐、法律規(guī)制和實施保證等方面實現(xiàn)難度過高,并非收益最大的方案。而對于合理使用方案,其不足之處在于過度偏向GenAI開發(fā)者,而可能有損著作權(quán)人的利益。但實際上大多數(shù)的機器學(xué)習(xí)行為并不會損害著作權(quán)人的市場利益,可以預(yù)見的是,隨著GenAI開發(fā)者對過濾技術(shù)的使用,不斷提升防御誘導(dǎo)式提問的能力,輸出與原作品實質(zhì)性相同的情形逐漸減少。有觀點認(rèn)為,GenAI模仿了某位作者的“風(fēng)格”,將造成對作品市場利益的實質(zhì)性損害。但《著作權(quán)法》并不保護“風(fēng)格”,上述情形雖然可能會影響原作者的市場利益,但卻不是著作權(quán)法解決的問題。在博弈的過程中,已有作品數(shù)據(jù)的數(shù)量和質(zhì)量是影響博弈策略的一個重要方面。當(dāng)存在大量優(yōu)秀的作品數(shù)據(jù)時,作品的合理使用對各方都有利;但當(dāng)此類作品數(shù)據(jù)稀缺時,合理使用就可能損害創(chuàng)作者的利益。為更好地兼顧著作權(quán)人的利益,歐盟《DSM指令》為權(quán)利人設(shè)定了“選擇退出”機制。但以理性人的角度分析,合理使用并未將著作權(quán)人置于利益分享的范圍內(nèi),若權(quán)利人選擇退出無須承擔(dān)額外的成本,反而可以試圖獲取許可收益,那么著作權(quán)人可能都將傾向于選擇退出。
如前所述,解決GenAI訓(xùn)練數(shù)據(jù)合法性的策略涉及三項價值。但從不同角度分析,價值側(cè)重有所不同。從產(chǎn)業(yè)政策角度來看,合理使用制度可以減輕技術(shù)研發(fā)負(fù)擔(dān),促進產(chǎn)業(yè)發(fā)展,若要求逐一許可將承擔(dān)過高成本,可能造成“公地悲劇”。從全球制度競爭的視角來看,歐盟、日本、美國均規(guī)定了關(guān)于GenAI數(shù)據(jù)訓(xùn)練或嚴(yán)或?qū)挼陌鏅?quán)舉措,為應(yīng)對人工智能制度競爭浪潮,我國也有必要采取合理使用制度以營造良好的人工智能產(chǎn)業(yè)發(fā)展環(huán)境。因此,在博弈視角下,合理使用制度是解決著作權(quán)人和GenAI開發(fā)者利益沖突的較優(yōu)選擇。
五、GenAI數(shù)據(jù)訓(xùn)練的版權(quán)合理使用條款設(shè)計
合理使用是配置作品數(shù)據(jù)資源的較優(yōu)路徑,也是協(xié)調(diào)著作權(quán)人和GenAI開發(fā)者利益沖突的理性選擇。但是難以通過解釋路徑將GenAI數(shù)據(jù)訓(xùn)練行為納入現(xiàn)有的合理使用情形;若是適用由美國判例法發(fā)展而來的“轉(zhuǎn)換性使用”規(guī)則,可能存在適用范圍過于寬泛,司法適用標(biāo)準(zhǔn)不一的問題。因此,通過立法以體系性規(guī)范為基礎(chǔ)將GenAI數(shù)據(jù)訓(xùn)練行為明確為特定的合理使用情形,不失為一種選擇。2020年我國《著作權(quán)法》第三次修改引人“三步檢驗法”,并新增“法律、行政法規(guī)規(guī)定的其他情形”這一兜底條款,為GenAI數(shù)據(jù)訓(xùn)練行為納入合理使用范疇提供了制度空間??梢浴秾嵤l例》的修改為契機,增設(shè)GenAI數(shù)據(jù)訓(xùn)練的合理使用情形。
(一)《實施條例》引入GenAI數(shù)據(jù)訓(xùn)練合理使用條款的價值考量
首先,延續(xù)《著作權(quán)法》“寬進寬出”的分析框架,明確GenAI數(shù)據(jù)訓(xùn)練行為受到版權(quán)專有權(quán)控制,并適當(dāng)放寬合理使用的標(biāo)準(zhǔn)。有觀點提出,數(shù)據(jù)訓(xùn)練行為應(yīng)當(dāng)界定為“非作品使用行為”,將其排除在版權(quán)權(quán)利范圍之外,這種做法優(yōu)+“先進后出”的合理使用方案。也有觀點區(qū)分不同階段,認(rèn)為數(shù)據(jù)輸入和訓(xùn)練階段對作品的使用不落人版權(quán)專有權(quán)控制范圍。以上觀點有待商榷。若嚴(yán)格設(shè)定著作權(quán)法的準(zhǔn)入門檻,將GenAI使用作品的行為均定義為“非作品性使用”,將計算機的“臨時復(fù)制”排除出“復(fù)制權(quán)”的控制范圍,可能導(dǎo)致大量信息成果無法適用版權(quán)的分析框架。版權(quán)分析框架相較于其他創(chuàng)新性利益分析框架的優(yōu)勢在于,前者采取放寬準(zhǔn)入的方式以應(yīng)對海量信息成果帶來的界權(quán)挑戰(zhàn)。若過分限縮受《著作權(quán)法》控制的行為范圍,對海量信息成果進行“事前界權(quán)”,可能導(dǎo)致整體社會成本的提升,錯誤地拒絕保護更可能挫傷創(chuàng)新熱情。值得注意的是,將GenAI數(shù)據(jù)訓(xùn)練行為納入《著作權(quán)法》的分析框架,也并不意味著讓大量利用作品的行為承擔(dān)侵權(quán)后果。通過合理使用規(guī)則,能夠在后端提供恰當(dāng)?shù)摹俺隹凇保瑢o損于社會利益和著作權(quán)人合法權(quán)益的行為以及在市場失靈情形下的作品利用行為予以免責(zé)。如此,既能發(fā)揮《著作權(quán)法》“事后界權(quán)”的優(yōu)勢,對非典型作品使用行為予以足夠的關(guān)注,又能有效降低社會成本,維持《著作權(quán)法》的激勵功能。
其次,以利益平衡原則作為GenAI數(shù)據(jù)訓(xùn)練合理使用情形的價值指引原則。GenAI數(shù)據(jù)訓(xùn)練的合法性爭議突出表現(xiàn)在著作權(quán)人和GenAI開發(fā)者的利益沖突。由上文分析可知,兼顧各方利益是破局的關(guān)鍵。合理使用制度旨在維系著作權(quán)人與其他參與性主體(傳播者、使用者等)之間的利益平衡關(guān)系。隨著傳播技術(shù)的發(fā)展和數(shù)字環(huán)境下新作品使用方式的出現(xiàn),在版權(quán)專有權(quán)效力得以延伸時,也應(yīng)保障合理使用范圍得到必要的擴展。實現(xiàn)“促進社會主義文化和科學(xué)事業(yè)的發(fā)展與繁榮”的立法目標(biāo),不僅需要保護版權(quán)人的利益,而且要關(guān)注社會公眾的利益。公眾作為作品的使用者是《著作權(quán)法》上不可或缺的主體,保證公眾對作品的接觸、欣賞和學(xué)習(xí)是實現(xiàn)版權(quán)立法目標(biāo)的重要環(huán)節(jié)。GenAI開發(fā)者亦屬于“公眾”中的一員,引入GenAI數(shù)據(jù)訓(xùn)練合理使用條款,擴大訓(xùn)練數(shù)據(jù)的獲取范圍,有助于避免產(chǎn)生算法偏見,提升生成內(nèi)容服務(wù)的能力和水平,助力文化繁榮。
最后,對引入的GenAI數(shù)據(jù)訓(xùn)練合理使用條款進行適當(dāng)概括,賦予法官一定程度的自由裁量權(quán)?!吨鳈?quán)法》第三次修改引入“三步檢驗法”并新增“法律、行政法規(guī)規(guī)定的其他情形”這一兜底條款,但實際上對于合理使用依舊采取從嚴(yán)認(rèn)定的原則,既要滿足特定情形,又要接受一般條款的檢驗。這次修改雖通過增加兜底條款,提升了合理使用認(rèn)定在一定程度上的靈活性,但是現(xiàn)行規(guī)定的12種情形,不僅在數(shù)量上遠少于歐洲大陸法系國家著作權(quán)法規(guī)定的例外情形,而且寄希望于通過第13種情形不斷增加權(quán)利限制的情形并不現(xiàn)實。原因在于,《實施條例》等行政法規(guī)修改頻次較低,為配合《著作權(quán)法》實施修訂后短期內(nèi)再次修訂的幾率并不大。因此,在此次《實施條例》修訂引入GenAI數(shù)據(jù)訓(xùn)練合理使用條款時,對該條款的設(shè)計不應(yīng)再設(shè)置過多的“限制條件”,應(yīng)對其進行適當(dāng)?shù)母爬ǎ屍浣邮芤话銞l款的進一步限定,從而留給法官一定的裁量空間,方能更好地應(yīng)對實踐需求。
(二)《實施條例》引入GenAI數(shù)據(jù)訓(xùn)練合理使用條款的專門例外
為了解決作品許可市場失靈現(xiàn)象,促進GenAI相關(guān)產(chǎn)業(yè)的發(fā)展,協(xié)調(diào)著作權(quán)人和GenAI開發(fā)者的利益沖突,應(yīng)當(dāng)在《實施條例》中引人GenAI數(shù)據(jù)訓(xùn)練合理使用條款的專門例外。
首先,就適用主體而言,我國應(yīng)選擇不嚴(yán)格限定適用主體的立法模式。歐盟《DSM指令》第3條規(guī)定了“文本與數(shù)據(jù)挖掘”的強制性例外,適用于“研究機構(gòu)”和“文化遺產(chǎn)機構(gòu)”兩類主體。歐盟對適用主體的明確,雖然可以增強規(guī)則適用的預(yù)期,但因限定主體導(dǎo)致適用范圍過于狹窄而遭受批評。日本《著作權(quán)法》中“提供新的知識和信息”條款未限定適用主體。我國立法應(yīng)選擇不限定適用主體的做法。原因在于兩個方面。其一,在GenAI技術(shù)應(yīng)用中使用作品數(shù)據(jù)的主體,不僅包括高校、科研院所等教育和科研機構(gòu),而且包括社會機構(gòu)和企業(yè)。企業(yè)作為提供CenAI服務(wù)的重要主體,不能忽略;此外,很多企業(yè)也成立了科研機構(gòu),若如歐盟一般將主體限定為研究機構(gòu),可能導(dǎo)致實踐中區(qū)分困難的情形。其二,不嚴(yán)格限定適用的主體,能使該條款具備一定的彈性空間。我國合理使用制度采用“三步檢驗法”,除屬于法定情形外,還需要接受一般條款的進一步限制。也就是說,在對作品進行商業(yè)性使用時,可能會因為影響了該作品的正常使用或不合理地?fù)p害著作權(quán)人的合法權(quán)益,而不構(gòu)成合理使用。利用一般條款進行限制,可以賦予法官一定程度的自由裁量權(quán),相對主體限定模式將更為科學(xué),也更加合理地平衡了科學(xué)研究、產(chǎn)業(yè)發(fā)展和著作權(quán)人的合法權(quán)益。
其次,就適用條件而言,我國不應(yīng)以非營利性目的作為適用條件。日本《著作權(quán)法》中“非享受性使用條款”適用于不涉及對作品思想或情感表達享受的情形,未排除以商業(yè)目的使用作品的行為;美國“四要素標(biāo)準(zhǔn)”雖然關(guān)注“作品使用目的與性質(zhì)”,相較于非商業(yè)使用目的而言,商業(yè)性合理使用的認(rèn)定可能需要更加正當(dāng)?shù)睦碛?,但“轉(zhuǎn)換性使用”并不絕對排斥商業(yè)性合理使用。我國立法也不應(yīng)以非營利性目的作為適用條件。原因在于以下幾個方面。一是相對于作品使用者獲得的經(jīng)濟利益而言,著作權(quán)法更應(yīng)注重所取得的社會利益。GenAI產(chǎn)業(yè)的發(fā)展關(guān)系國家戰(zhàn)略,技術(shù)的應(yīng)用和發(fā)展能夠產(chǎn)生較大的社會效益,即便GenAI開發(fā)者具有直接或間接的商業(yè)利益驅(qū)動,也無法掩蓋其帶來的社會效益,適當(dāng)犧牲著作權(quán)人的利益符合對價原則。二是為GenAI數(shù)據(jù)訓(xùn)練使用作品大多出于商業(yè)目的,需要付出巨大的成本,雖然不排除為了公益目的而進行投資的情況,但毫無疑問,投資者所追求的是人工智能技術(shù)的應(yīng)用價值和商業(yè)效益。若排除商業(yè)目的的合理使用,該條款所產(chǎn)生的實際效用將微乎其微。三是我國合理使用制度并不排斥商業(yè)性合理使用。諸如“適當(dāng)引用”等情形并未明確“非營利目的”,在司法實踐中,也有法院認(rèn)為對作品進行“適當(dāng)引用”既可以是公益性的也可以是商業(yè)性的。如上文不限定適用主體的分析一般,放寬適用條件,通過一般條款進行限制,在實踐中將具有更強的適用性。
最后,就適用行為而言,應(yīng)盡可能囊括GenAI數(shù)據(jù)訓(xùn)練過程中涉及的作品使用行為。如上文分析可知,在GenAI數(shù)據(jù)訓(xùn)練過程中可能涉及對作品的復(fù)制、改編、廣播和信息網(wǎng)絡(luò)傳播等行為。歐盟《DSM指令》僅將“文本與數(shù)據(jù)挖掘”的適用行為規(guī)定為“復(fù)制和提取”,無法囊括GenAI數(shù)據(jù)訓(xùn)練所涉及的作品使用行為。2018年日本《著作權(quán)法》修訂,將侵權(quán)豁免的行為進行了擴大,刪除了信息分析結(jié)果利用行為的限制條件,不局限于“記錄”或“改編”,更改后的條款允許將信息分析結(jié)果進行發(fā)布、轉(zhuǎn)讓和公共傳播。我國可以考慮借鑒日本的做法,為GenAI數(shù)據(jù)訓(xùn)練提供更為寬松的環(huán)境,將該條款適用的行為規(guī)定為復(fù)制、改編和向公眾傳播。
綜上,本文建議在《實施條例》中引入GenAI數(shù)據(jù)訓(xùn)練的合理使用條款,將其設(shè)計為:“為生成式人工智能訓(xùn)練數(shù)據(jù),復(fù)制、存儲、改編他人已發(fā)表的作品以及將數(shù)據(jù)訓(xùn)練成果向公眾提供。”
六、結(jié)語
GenAI技術(shù)的應(yīng)用和升級以海量數(shù)據(jù)的“投喂”為基礎(chǔ)。為破除GenAI數(shù)據(jù)訓(xùn)練的合法性障礙,域外多個國家和地區(qū)或引入專門例外規(guī)則,或通過司法實踐對該問題進行靈活處理。我國也應(yīng)積極采取行動,為數(shù)據(jù)訓(xùn)練合法性問題提供解決路徑。著作權(quán)人和GenAI開發(fā)者之間的沖突并非不可調(diào)和,兼顧各方利益是破局的前提,相互信任是合作共贏的基礎(chǔ)。通過對不同方案下博弈參與者的策略選擇進行分析,發(fā)現(xiàn)合理使用是協(xié)調(diào)二者利益沖突的理性選擇。從產(chǎn)業(yè)政策角度來看,合理使用制度能夠為技術(shù)研發(fā)和應(yīng)用減負(fù),促進GenAI產(chǎn)業(yè)發(fā)展;從全球制度競爭的視角來看,為應(yīng)對人工智能制度的競爭浪潮,我國有必要積極采取措施,完善合理使用制度以適應(yīng)人工智能產(chǎn)業(yè)發(fā)展。因此,我國應(yīng)在《實施條例》修改之際,引入“生成式人工智能數(shù)據(jù)訓(xùn)練”合理使用的專門例外,解決當(dāng)下作品許可市場的失靈現(xiàn)象,協(xié)調(diào)相關(guān)利益主體的分歧與沖突,促進技術(shù)創(chuàng)新、文化繁榮與社會發(fā)展。
(作者曹新明系中南財經(jīng)政法大學(xué)知識產(chǎn)權(quán)研究中心教授、博士生導(dǎo)師;范曄系中南財經(jīng)政法大學(xué)知識產(chǎn)權(quán)研究中心博士研究生)
本文系教育部人文社會科學(xué)重點研究基地重大項目“建立科學(xué)高效的專利無效抗辯制度研究”(項目編號:22JJD820028)的階段性成果。