大數(shù)據(jù)屬于誰(shuí)

2023-12-06 21:18:06張?zhí)锟?/span>

百科知識(shí) 2023年22期

關(guān)鍵詞：結(jié)構(gòu)化知識(shí)產(chǎn)權(quán)內(nèi)容

張?zhí)锟?/p>

人工智能（AI）的一個(gè)重要功能是搜集、處理大數(shù)據(jù)，以此為基礎(chǔ)生成AI產(chǎn)品。例如，美國(guó)的OpenAI公司在2022年11月30日發(fā)布了聊天機(jī)器人程序ChatGPT（大型語(yǔ)言模型），其功能就是建立在大數(shù)據(jù)的基礎(chǔ)之上。ChatGPT的應(yīng)用范圍廣泛，可以用于回答問(wèn)題、文本生成（寫(xiě)文案）、翻譯、代碼生成等多個(gè)領(lǐng)域。

然而，在這些用于生成AI產(chǎn)品的大數(shù)據(jù)中，有不少涉及知識(shí)產(chǎn)權(quán)問(wèn)題。在這種情況下，一場(chǎng)“數(shù)據(jù)起義”正在美國(guó)及其他AI技術(shù)較發(fā)達(dá)的國(guó)家和地區(qū)爆發(fā)。電影從業(yè)者、藝術(shù)家、作家、社交媒體公司和新聞機(jī)構(gòu)將矛頭指向ChatGPT和Stable Diffusion等生成式AI工具，指責(zé)它們?cè)谖唇?jīng)許可或未提供補(bǔ)償?shù)那闆r下，非法利用內(nèi)容創(chuàng)作者的作品訓(xùn)練大型語(yǔ)言模型。

“數(shù)據(jù)起義”是生成式AI工具崛起后由知識(shí)產(chǎn)權(quán)的歸屬問(wèn)題引發(fā)的，其核心議題在于數(shù)據(jù)是否具有價(jià)值，如果有價(jià)值，應(yīng)如何保護(hù)其價(jià)值。

AI產(chǎn)品的基礎(chǔ)是大數(shù)據(jù)，即傳統(tǒng)數(shù)據(jù)處理應(yīng)用軟件無(wú)法處理的大規(guī)模的、復(fù)雜的數(shù)據(jù)集。維克托·邁爾-舍恩伯格在《大數(shù)據(jù)時(shí)代》一書(shū)中將大數(shù)據(jù)定義為通過(guò)對(duì)所有數(shù)據(jù)進(jìn)行分析處理而不是采用隨機(jī)抽樣方法處理的數(shù)據(jù)。大數(shù)據(jù)可以包括來(lái)源各異的大量結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)是指可以被錄入數(shù)據(jù)庫(kù)的數(shù)據(jù)，如商業(yè)機(jī)構(gòu)的訂單、金融交易或醫(yī)療機(jī)構(gòu)的患者和藥物數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)則是指無(wú)法輕易錄入傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)，如電子郵件、社交媒體上的各類帖子、文章、視頻、照片、錄音等。

無(wú)論是結(jié)構(gòu)化數(shù)據(jù)，還是非結(jié)構(gòu)化數(shù)據(jù)，都具有一定的價(jià)值，因此可以將其分為原始數(shù)據(jù)和價(jià)值數(shù)據(jù)兩類。原始數(shù)據(jù)包括各類個(gè)人或事物的數(shù)據(jù)，如性別、年齡、住址、職業(yè)等。這些數(shù)據(jù)具有價(jià)值，商家可以利用其投放廣告，廠家可以通過(guò)分析這些數(shù)據(jù)研發(fā)產(chǎn)品。不過(guò)，很多原始數(shù)據(jù)是應(yīng)當(dāng)受到法律保護(hù)的隱私數(shù)據(jù)。價(jià)值數(shù)據(jù)，又稱內(nèi)容數(shù)據(jù)，是指眾多創(chuàng)作者（作家、藝術(shù)家、記者、翻譯家、新聞媒體等）在各類互聯(lián)網(wǎng)平臺(tái)上發(fā)表的文字、圖片、視頻作品以及程序員發(fā)布的代碼等。這些數(shù)據(jù)都是通過(guò)個(gè)人或團(tuán)體的腦力勞動(dòng)、體力勞動(dòng)創(chuàng)造的知識(shí)產(chǎn)品，不僅有價(jià)值，而且有知識(shí)產(chǎn)權(quán)。

現(xiàn)在，一些大型信息技術(shù)公司可以隨意從網(wǎng)絡(luò)上抓取大量的內(nèi)容數(shù)據(jù)，然后用這些數(shù)據(jù)訓(xùn)練AI，從而產(chǎn)生更強(qiáng)大、更具有商業(yè)價(jià)值的AI軟件，如ChatGPT-4，已經(jīng)涉及知識(shí)產(chǎn)權(quán)侵權(quán)。在內(nèi)容數(shù)據(jù)的創(chuàng)作者看來(lái)，他們創(chuàng)作的內(nèi)容數(shù)據(jù)應(yīng)受到知識(shí)產(chǎn)權(quán)的保護(hù)，因此，一些創(chuàng)作者已經(jīng)采取行動(dòng)，甚至提起訴訟，以保護(hù)自己創(chuàng)造的內(nèi)容數(shù)據(jù)。

在美國(guó)，包括喬迪·皮科特、瑪格麗特·阿特伍德和阮越清在內(nèi)的5000多名作家簽署了一份請(qǐng)?jiān)笗?shū)，要求科技公司在使用他們的作品（主要為書(shū)籍）作為訓(xùn)練數(shù)據(jù)時(shí)，要征得其許可，并給予其署名權(quán)和經(jīng)濟(jì)補(bǔ)償。美國(guó)的《紐約時(shí)報(bào)》和《華盛頓郵報(bào)》等媒體也表示，使用受版權(quán)保護(hù)的新聞文章作為AI產(chǎn)品的訓(xùn)練數(shù)據(jù)具有潛在風(fēng)險(xiǎn)和法律問(wèn)題，呼吁AI公司尊重作者、出版商的創(chuàng)作勞動(dòng)和知識(shí)產(chǎn)權(quán)。

為了爭(zhēng)取權(quán)益，美國(guó)編劇工會(huì)已在5月2日開(kāi)始罷工，要求影視作品投資方、制作方提高編劇的待遇，反對(duì)AI侵犯他們的知識(shí)產(chǎn)權(quán)。該工會(huì)稱“AI就是一種徹頭徹尾的‘剽竊機(jī)器”。美國(guó)演員工會(huì)及廣播電視藝人聯(lián)合工會(huì)也在7月13日罷工，要求流媒體巨頭為他們提供更公平的利潤(rùn)分配和更好的工作條件，并要求制片公司保證不會(huì)以AI技術(shù)生成的面孔和聲音來(lái)替代演員。

一些個(gè)人和機(jī)構(gòu)還將訴訟提上了議事日程。Reddit和推特等社交媒體公司、《紐約時(shí)報(bào)》和美國(guó)全國(guó)廣播公司（NBC）等新聞機(jī)構(gòu)、科幻作家保羅·特倫布雷和女演員莎拉·西爾弗曼等除了反對(duì)AI公司擅自收集他們的作品內(nèi)容數(shù)據(jù)外，還向OpenAI公司和Meta公司提起了訴訟。

AI公司也在尋找法律依據(jù)，以對(duì)抗“無(wú)償使用內(nèi)容數(shù)據(jù)”的爭(zhēng)議。OpenAI公司辯稱，使用受版權(quán)保護(hù)的作品訓(xùn)練AI模型是合理的，因?yàn)檫@符合美國(guó)版權(quán)法中“轉(zhuǎn)換性使用”的概念，只要材料以一種“變革性”的方式改變，就會(huì)創(chuàng)造一個(gè)例外。此外，他們還提到了1992年美國(guó)聯(lián)邦上訴法院的一項(xiàng)判決，允許公司對(duì)其他公司的軟件代碼進(jìn)行逆向工程，以設(shè)計(jì)競(jìng)爭(zhēng)產(chǎn)品。另外，一些技術(shù)公司還以慣例為由，稱許多公司都使用來(lái)自公共來(lái)源的數(shù)據(jù)（如發(fā)布到開(kāi)放網(wǎng)絡(luò)和公共數(shù)據(jù)集的信息）訓(xùn)練AI模型。然而，無(wú)論AI公司如何辯解，都無(wú)法否認(rèn)內(nèi)容數(shù)據(jù)是知識(shí)產(chǎn)品的客觀屬性。因此，現(xiàn)階段需要通過(guò)立法來(lái)解決這一爭(zhēng)議。

在法律尚不明確的情況下，內(nèi)容數(shù)據(jù)的創(chuàng)作者處于弱勢(shì)地位，他們只能通過(guò)有限的方式保護(hù)自己的權(quán)益。首先，創(chuàng)作者可以通過(guò)機(jī)構(gòu)與AI公司進(jìn)行談判并簽署協(xié)議，比如，美聯(lián)社在7月14日同意授權(quán)OpenAI公司使用1985年以后的新聞報(bào)道檔案，美聯(lián)社則可以利用其AI技術(shù)和產(chǎn)品進(jìn)行創(chuàng)作。然而，個(gè)人創(chuàng)作者并不具備機(jī)構(gòu)媒體那樣強(qiáng)大的力量，他們只能通過(guò)一些設(shè)置屏障的方法限制AI公司使用其內(nèi)容數(shù)據(jù)，比如，鎖定作品，防止AI獲??；編寫(xiě)具有顛覆性的內(nèi)容以干擾AI的學(xué)習(xí)；抵制發(fā)布AI生成內(nèi)容的網(wǎng)站。然而，可以想象，這些方法無(wú)法完全阻止強(qiáng)大的AI公司對(duì)內(nèi)容數(shù)據(jù)的搜集、抓取和使用。目前，一些AI公司的技術(shù)能使生成的新產(chǎn)品與原始內(nèi)容數(shù)據(jù)有較大的差異，以證明他們并未剽竊內(nèi)容數(shù)據(jù)。此外，一些AI公司還在產(chǎn)品中安裝了過(guò)濾器，確保不會(huì)生成與現(xiàn)有內(nèi)容數(shù)據(jù)（作品）非常相似的內(nèi)容。例如，YouTube視頻平臺(tái)已經(jīng)使用相關(guān)技術(shù)，可以檢測(cè)并自動(dòng)刪除已上傳的受版權(quán)保護(hù)的內(nèi)容數(shù)據(jù)。

在信息時(shí)代，內(nèi)容數(shù)據(jù)創(chuàng)作者與AI公司之間的矛盾亟待法律調(diào)節(jié)，以實(shí)現(xiàn)社會(huì)公正。當(dāng)前，內(nèi)容數(shù)據(jù)創(chuàng)作者的行動(dòng)和法律訴訟正在推動(dòng)這一進(jìn)程。歐洲議會(huì)于2023年6月通過(guò)了歐盟《人工智能法案》，隨后該法案將進(jìn)入歐盟委員會(huì)、歐洲議會(huì)和成員國(guó)之間的三方談判協(xié)商程序，以確定最終的立法文本。中國(guó)于2023年7月13日也公布了《生成式人工智能服務(wù)管理暫行辦法》。然而，目前國(guó)內(nèi)外出臺(tái)的法律法規(guī)仍然存在不完善之處，例如，如何確定內(nèi)容數(shù)據(jù)被AI碎片化地搜集采用，如何保護(hù)內(nèi)容數(shù)據(jù)創(chuàng)作者的權(quán)益，都需要詳盡和明確的解釋。

【責(zé)任編輯】張小萌

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

大數(shù)據(jù)屬于誰(shuí)