摘要:在當今數(shù)字化時代,人工智能技術(shù)的快速發(fā)展為社會帶來了巨大的變革和機遇。然而,隨著人工智能應用的廣泛普及,人工智能訓練數(shù)據(jù)的合規(guī)性問題日益受到關(guān)注。人工智能模型的訓練離不開大量的數(shù)據(jù),而這些數(shù)據(jù)的獲取、處理和使用往往涉及諸多方面的考量。在這樣的背景下,探討人工智能訓練數(shù)據(jù)的合規(guī)性問題,不僅是確保人工智能技術(shù)可持續(xù)發(fā)展的關(guān)鍵,也是維護個人權(quán)利和社會公正的重要舉措。文章將對人工智能訓練數(shù)據(jù)的合規(guī)性進行探討,分析現(xiàn)有問題及挑戰(zhàn),提出相關(guān)解決方案和建議,旨在為人工智能技術(shù)的健康發(fā)展和社會的可持續(xù)進步提供參考和借鑒。
關(guān)鍵詞:人工智能;訓練數(shù)據(jù);合規(guī)性
中圖分類號:F2文獻標識碼:Adoi:10.19311/j.cnki.16723198.2024.19.011
1AI技術(shù)底層邏輯
AI大模型是當前AI技術(shù)發(fā)展的重要領(lǐng)域之一,不同于以往僅能進行分類、預測或?qū)崿F(xiàn)特定功能的模型,生成式人工智能大模型(LargeGenerativeAIModels,LGAIMs)經(jīng)過訓練可生成新的文本、圖像或音頻等內(nèi)容,且具有強大的涌現(xiàn)特性和泛化能力。
其中文生文工具ChatGPT是基于Transformer的語言模型,Transformer架構(gòu)能夠應用于自然語言處理(NLP)。以GPT-3(GenerativePre-trainedTransformer3)為例,其擁有超過1750億個參數(shù),僅需很少的輸入就能生成高度逼真和復雜的文本。因此,Transformer模型的出現(xiàn)徹底改變了AI生成,并引發(fā)了大規(guī)模訓練的可能性。
文生圖工具DELL-E則是基于CLIP的語言模型,CLIP是ContrastiveLanguage-ImagePre-Training的縮寫,是由OpenAI在2021年發(fā)布的一種預訓練模型。CLIP旨在將文本和圖像結(jié)合起來進行預訓練,從而讓模型具備理解圖像和文本之間的關(guān)系的能力。它的訓練數(shù)據(jù)包括來自互聯(lián)網(wǎng)的大量圖像和文本,通過對圖像和文本之間的關(guān)系進行學習,使得模型能夠理解自然語言描述并生成相應的圖像。
文生視頻工具Sora是一個擴散模型,同時采用了Tranformer架構(gòu)。這種架構(gòu)能夠?qū)㈦S機噪聲逐漸轉(zhuǎn)化為有意義的圖像或視頻內(nèi)容。Sora模型通過訓練,學會了理解和處理文本提示,將用戶的描述轉(zhuǎn)化為視頻內(nèi)容。具體來說,Sora模型首先接受用戶的文本描述作為輸入,然后利用擴散型變換器生成一系列潛在表示(latentrepresentations),這些潛在表示逐漸接近于真實的視頻數(shù)據(jù)。在這個過程中,Sora模型通過不斷地迭代和優(yōu)化,逐漸生成出與文本描述相符合的視頻內(nèi)容。
總之,無論是Sora還是ChatGPT、DELL-E3等生成式AI都是基于大模型技術(shù)研發(fā)改進而來,它們本身只是模型而沒有數(shù)據(jù),因此生成式AI天然地要求有大量文本、圖像和視頻數(shù)據(jù)的“投喂”訓練。在經(jīng)過大量數(shù)據(jù)訓練之后,用戶只需輸入少量文本,AI就可以快速生成符合要求的文本、圖像和視頻。
2訓練數(shù)據(jù)侵權(quán)挑戰(zhàn)
由前文所述,AI訓練所需的大量數(shù)據(jù)(包括文本、圖片和視頻)是基于大模型技術(shù)的天然需求,其具有一定的正當性。但在AI訓練過程中,也出現(xiàn)了對他人著作權(quán)(包括文字、圖片和視頻)的侵權(quán)可能,由此也帶來了一定的挑戰(zhàn)。
2.1訓練數(shù)據(jù)不可控
生成式人工智能數(shù)據(jù)收集和語料庫構(gòu)建高度依賴數(shù)據(jù)爬蟲,其訓練數(shù)據(jù)除了人為建立數(shù)據(jù)庫對人工智能進行“投喂”外,人工智能還可以利用數(shù)據(jù)爬蟲自動在網(wǎng)絡上爬取數(shù)據(jù)來供自己訓練。對于訓練數(shù)據(jù)我國《生成式人工智能服務管理暫行辦法》第七條規(guī)定,生成式人工智能預訓練,優(yōu)化訓練的數(shù)據(jù)需滿足一系列合法性要求,包括來源合法性,不得侵犯知識產(chǎn)權(quán),個人信息權(quán)益等。但生成式人工智能爬取的數(shù)據(jù)在范圍、數(shù)量、質(zhì)量等都是不可控的,其可能突破網(wǎng)站經(jīng)營者設置的保護措施,爬取具有知識產(chǎn)權(quán)保護的作品,造成對著作權(quán)人的侵權(quán)。此外,生成式人工智能還可能爬取到他人的個人信息和商業(yè)秘密,造成很嚴重的侵權(quán)。這些自動爬取都是依賴于具有高度自主學習技術(shù)的“算法黑箱”,其行為很難控制。
2.2訓練數(shù)據(jù)缺乏透明度
基于AI訓練過程的復雜性、技術(shù)性和未知性,普通民眾和相關(guān)部門很難深入了解AI公司的訓練數(shù)據(jù)來源和使用情況,也無法知曉哪部作品以何種方式被使用。其次,現(xiàn)階段,人工智能采用“算法黑箱技術(shù)”,其使用的數(shù)據(jù)內(nèi)容并未公開,同時人工智能生成的內(nèi)容是向特定的使用者提供的,本身并不具有直接公開性,即使人工智能使用了受著作權(quán)保護的作品,著作權(quán)人也難以發(fā)現(xiàn)自己的原創(chuàng)內(nèi)容可能被大模型訓練使用,而且隨著人工智能的不斷更新,其生成物獨創(chuàng)性越來越高,僅憑生成內(nèi)容人們無法判斷出其內(nèi)容是由自己作品經(jīng)訓練后產(chǎn)出的。這給監(jiān)管部門在執(zhí)法過程中帶來了困難,也給著作權(quán)人維權(quán)帶來了挑戰(zhàn)。
2.3訓練數(shù)據(jù)侵權(quán)難以舉證
近期,美國媒體《紐約時報》將OpenAI和微軟公司訴至法院,指控二者未經(jīng)授權(quán)使用《紐約時報》數(shù)以萬計文章訓練ChatGPT等人工智能。這一爭端引發(fā)了公眾對于大模型訓練數(shù)據(jù)版權(quán)的關(guān)注,同時也反映出大模型數(shù)據(jù)侵權(quán)認定存在的難點。目前我國的法律在舉證責任方面一般遵循“誰主張誰舉證”的規(guī)則,著作權(quán)人需自己尋找證據(jù)證明人工智能訓練數(shù)據(jù)侵犯了著作權(quán)人的利益,而該舉證過程基于以下因素往往是困難的。
首先,人工智能訓練數(shù)據(jù)來源不明確。許多訓練數(shù)據(jù)可能來源于多個渠道,其中可能包括版權(quán)保護的內(nèi)容,但數(shù)據(jù)的具體來源往往并不清晰。在這種情況下,確定侵權(quán)責任人及其行為成為一項極具挑戰(zhàn)性的任務。其次,數(shù)據(jù)轉(zhuǎn)化難以追蹤。在人工智能訓練過程中,原始數(shù)據(jù)經(jīng)過多次轉(zhuǎn)化、處理和組合,最終形成用于模型訓練的數(shù)據(jù)集。這一過程中的數(shù)據(jù)流動路徑復雜,難以追蹤特定數(shù)據(jù)的來源和使用方式,進而增加了侵權(quán)舉證的難度。最后,證據(jù)不完整。著作權(quán)人即使發(fā)現(xiàn)了侵權(quán)行為,為獲取足夠的證據(jù)來支持起訴也是一項艱巨的任務。許多數(shù)據(jù)可能被多次重復使用,其中的原始數(shù)據(jù)可能已經(jīng)難以追蹤,使得著作權(quán)人的舉證過程變得異常困難。
3訓練數(shù)據(jù)侵權(quán)規(guī)制路徑
3.1訓練數(shù)據(jù)不應納入“合理使用”范圍
在新時代大數(shù)據(jù)背景下,共享經(jīng)濟是現(xiàn)在的主流,越來越多的人在主張“個人主義讓步于集體主義”。作為新崛起的生成式人工智能,它的快速發(fā)展可以極大地促進人類的進步,便利人們的生活。在這樣的背景下,為了推動人工智能進一步地發(fā)展,一些學者提出將為了訓練人工智能而使用現(xiàn)有作品進行訓練的行為納入“合理使用”范圍,犧牲著作權(quán)人的部分財產(chǎn)權(quán)(如,復制權(quán)),讓人工智能可以免費使用現(xiàn)有的作品進行訓練,使得訓練數(shù)據(jù)合規(guī)。這樣的主張確實可以促進人工智能的發(fā)展,但是筆者認為該觀點過分強調(diào)“讓步”,未充分考慮人類著作權(quán)人的利益。首先,人工智能確實可以促進人類社會進步,但是現(xiàn)階段,人工智能主要是AI公司用來獲利的工具。AI公司運用大量的數(shù)據(jù)進行訓練,使得人工智能不斷完善,生成物質(zhì)量越來越高,進而吸引更多的客戶使用人工智能來進行創(chuàng)作,讓自己獲取更多的利益,其本質(zhì)上并不是為了“公共利益”或“集體利益”,而是為了“商業(yè)利益”。在這樣的情況下,產(chǎn)生利益沖突的就是AI公司和著作權(quán)人,相對于AI公司而言,著作權(quán)人處于弱勢地位,此時還要讓著作權(quán)人作出讓步明顯不合理。其次,對于著作權(quán)人而言,他們的作品是個人花費了大量時間和精力完成的,作品本身就具有很高的價值。如果將其免費作為數(shù)據(jù)提供給人工智能進行訓練,則會打擊人類創(chuàng)作者的積極性,導致人類創(chuàng)作者的創(chuàng)作減少,反而違背了《著作權(quán)法》“鼓勵創(chuàng)作”的初衷。因此,把“為了訓練人工智能而使用現(xiàn)有作品進行訓練”的行為歸為合理使用并不合理。
3.2訓練數(shù)據(jù)不應完全遵循“用必授權(quán)”原則
對于人工智能自動抓取著作權(quán)保護的作品進行訓練造成侵權(quán)的問題,有學者認為人工智能對于訓練數(shù)據(jù)的使用應遵循“用必授權(quán)”的原則,即人工智能公司只要使用受著作權(quán)保護的作品,就需要得到著作權(quán)人許可并向其支付合理費用。但是筆者認為該觀點依舊不合理。目前人工智能主要使用“算法黑箱”,基于其數(shù)據(jù)不可知、不可控的特點,著作權(quán)人依舊無法知道自己的作品是否被使用,甚至連人工智能開發(fā)者和公司也難以知曉訓練數(shù)據(jù)庫中哪些資料是受著作權(quán)保護的;就算人工智能公司知道其未經(jīng)授權(quán)使用了他人作品,但出于利益和成本的考慮,其也有可能會選擇不告知著作權(quán)人。這不僅不能讓著作權(quán)人的權(quán)利得到實現(xiàn),還會使得該制度“形同虛設”,不能解決實際問題。其次,人工智能數(shù)據(jù)庫中的數(shù)據(jù)非常之大,如圖表1所示,LLaMA已知的訓練數(shù)據(jù)已達4828.2GB,其還未包括人工智能自動爬取的數(shù)據(jù)。面對如此大的數(shù)據(jù),如果要支付費用,并征得著作權(quán)人的同意,不僅耗費巨大,且效率低下。在該產(chǎn)品上市之后,其昂貴的成本費用也會分攤在每一位用戶身上,不利于AI為各行各業(yè)賦能加速。此外,如果找不到著作權(quán)人或著作權(quán)人不同意授權(quán),人工智能訓練的數(shù)據(jù)將會大量減少,不利于人工智能自身的發(fā)展。
3.3納入法定許可范圍
對于人工智能數(shù)據(jù)問題,筆者認為不能過度保護任何一方,要找到合理的方式平衡人工智能與人類作者間的利益,使兩者都能更好地發(fā)展。在解決數(shù)據(jù)侵權(quán)問題時,筆者認為應從以下幾方面進行考慮。
首先,針對訓練數(shù)據(jù)不公開透明的問題,應要求人工智能公司公開相關(guān)的訓練數(shù)據(jù)來源。在《人工智能法案》就有相應的規(guī)定要求人工智能模型的提供者應發(fā)布關(guān)于用于訓練的內(nèi)容(數(shù)據(jù))的足夠詳細的摘要。我國的《生成式人工智能管理暫行條例》雖然沒有直接規(guī)定人工智能提供者應對訓練數(shù)據(jù)進行公開,但在行業(yè)部門的監(jiān)管責任中提到有關(guān)主管部門依據(jù)職責對生成式人工智能服務開展監(jiān)督檢查,提供者應當依法予以配合,按要求對訓練數(shù)據(jù)來源、規(guī)模、類型、標注規(guī)則、算法機制機理等予以說明,并提供必要的技術(shù)、數(shù)據(jù)等支持和協(xié)助。基于人工智能“算法黑箱”技術(shù),外界難以知曉具體訓練數(shù)據(jù),但是對于人工智能開發(fā)者而言,大部分訓練數(shù)據(jù)是可以溯源的。在解決數(shù)據(jù)侵權(quán)的問題上,筆者認為可以借鑒歐盟《人工智能法案》的相關(guān)規(guī)定,在我國現(xiàn)有的法律基礎(chǔ)上要求人工智能公司對相關(guān)訓練數(shù)據(jù)公開。一方面可以加強對人工智能公司的監(jiān)管,使其提起對內(nèi)部合規(guī)性的重視,減少侵權(quán)行為的發(fā)生;另一方面通過透明訓練數(shù)據(jù),可以極大地保護著作權(quán)人的合法利益,減輕著作權(quán)人維權(quán)的難度。這能很好地解決基于訓練數(shù)據(jù)缺乏透明度帶來的挑戰(zhàn),降低了著作權(quán)人進行侵權(quán)舉證的困難,能夠較好地保護著作權(quán)人的合法權(quán)益。
其次,在數(shù)據(jù)公開的基礎(chǔ)上,可以將“為了訓練人工智能而使用受著作權(quán)保護的作品進行訓練的行為”納入法定許可范圍內(nèi),AI公司僅需支付一定的報酬,無須征得著作權(quán)人的同意就可以將其作品用作訓練。據(jù)有關(guān)消息報道,OpenAI正在與數(shù)十家出版商洽談內(nèi)容授權(quán)協(xié)議。且在去年12月,OpenAI宣布與德國媒體巨頭阿克塞爾·施普林格達成了“里程碑式”合作。根據(jù)協(xié)議,OpenAI將付費使用施普林格旗下出版物的內(nèi)容,施普林格將提供其媒體品牌的內(nèi)容,作為OpenAI公司大型語言模型的訓練數(shù)據(jù)。OpenAI公司的做法正是基于雙方簽訂的公開協(xié)議,通過支付合理報酬從相關(guān)平臺獲取大量高水平數(shù)據(jù),從而將其投入大模型訓練。這種做法正符合“法定許可”的法律情形。
綜上所述,“法定許可”一方面讓人工智能訓練使用的數(shù)據(jù)合規(guī),有效解決了數(shù)據(jù)侵權(quán)的問題;另一方面更好地保護了著作權(quán)人所享有的權(quán)利,兩者的利cQyWHxx7FquA5u2OV6viUJ7g4NpAhsaKsBDzvINH00g=益得到了更好的平衡。此外,在基于“法定許可”而使用訓練數(shù)據(jù)時,應當排除侵害人格權(quán)等原就屬于侵權(quán)的作品,在涉及個人信息的情況下,開發(fā)者必須保證在充分利用這些信息資源的同時,保護信息主體的合法權(quán)益。因此,應將訓練數(shù)據(jù)納入法定許可范圍,與將訓練數(shù)據(jù)納入“合理使用”的方法相比,“法定許可”實現(xiàn)了著作權(quán)人與人工智能公司二者利益最大化的平衡。
4結(jié)論
在公開數(shù)據(jù)來源的基礎(chǔ)上,將使用受著作權(quán)法保護的作品進行訓練的行為納入“法定許可”范圍內(nèi),同時加強對個人信息的保護。這樣不僅降低了AI公司的成本,同時滿足人們的需求,促進AI產(chǎn)業(yè)的發(fā)展,實現(xiàn)兩者的平衡,加快為各行各業(yè)賦能增速,提升各行業(yè)社會生產(chǎn)力,為包括著作權(quán)人在內(nèi)的人民群眾創(chuàng)造更多的社會財富,進一步激發(fā)全社會創(chuàng)造活力,也符合共享集體主義的理念趨勢,推動創(chuàng)造出更多更好的作品,最終形成正向循環(huán)。
參考文獻
[1]張欣.生成式人工智能的算法治理挑戰(zhàn)與治理型監(jiān)管[J].現(xiàn)代法學,2023,45(3):108123.
[2]鈄曉東.風險與控制:論生成式人工智能應用的個人信息保護[J].政法論叢,2023,(4):5968.
[3]AlanD.Thompson“What’sinMyAl”2023.HugoTouvtonetai.“LLaMA:OpenandEfficientFoundationLanguageModeis”2023,華泰研究.
[4]吳葉凡.“投喂”大模型如何規(guī)范授權(quán)[N].科技日報,20240209(005).
[5]張春春,孫瑞英.如何走出AIGC的“科林格里奇困境”:全流程動態(tài)數(shù)據(jù)合規(guī)治理[J/OL].圖書情報知識,112[20240311].http://kns.cnki.net/kcms/detail/42.1085.G2.20240305.1852.006.html.
[6]李彤.生成式人工智能技術(shù)提供者侵權(quán)免責事由的識別重整[J].南京社會科學,2024,(02):8697.
[7]劉金瑞.生成式人工智能大模型的新型風險與規(guī)制框架[J].行政法學研究,2024,(02):1732.