摘要:以ChatGPT4為代表的生成式人工智能,預(yù)示了強人工智能時代的到來。該技術(shù)的多功能性和強大的智能性引發(fā)了廣泛關(guān)注,然而,其潛在風(fēng)險亦不容忽視。鑒于生成式人工智能在不同運行階段的使用主體和所采用的算法有所差異,故對其進行分階段風(fēng)險分析顯得尤為重要。針對生成式人工智能的數(shù)據(jù)風(fēng)險,文章從其運行邏輯入手,深入剖析數(shù)據(jù)收集、模型訓(xùn)練和輸出階段的運行機制,并在此基礎(chǔ)上,對各階段的風(fēng)險進行了詳盡分析。針對每一階段的特點,文章提出了治理路徑:在數(shù)據(jù)收集階段,以開發(fā)者為主導(dǎo),多方主體協(xié)同參與治理;在模型訓(xùn)練階段,需要開發(fā)者與政府采取軟硬并施的策略;在輸出階段,構(gòu)建以用戶為中心的內(nèi)容治理體系。
關(guān)鍵詞:ChatGPT4;生成式人工智能;大語言模型;算法治理;法律規(guī)制
中圖分類號:TP18;D922.17 文獻標(biāo)識碼:A 文章編號:1673-4580(2024)02-0121-(08)
DOI:10.19717/j.cnki.jjus.2024.02.021
隨著生成式人工智能的不斷壯大,其潛在的法律風(fēng)險以及對社會的巨大影響也引起了人們的關(guān)注。生成式人工智能帶來的風(fēng)險是多方面的,對于算法而言,有算法風(fēng)險。不公開的算法可能會引起算法黑箱、算法歧視等風(fēng)險;對于數(shù)據(jù)而言,生成式人工智能處理的數(shù)據(jù)量極為龐大,開發(fā)過程中的訓(xùn)練數(shù)據(jù)和用戶使用產(chǎn)生的數(shù)據(jù)等等數(shù)據(jù)如果不加以規(guī)范,容易產(chǎn)生數(shù)據(jù)泄露、數(shù)據(jù)被動出境等數(shù)據(jù)風(fēng)險。除此之外,生成式人工智能作為新一代人工智能的代表,其迅速發(fā)展也引發(fā)了人們對科技倫理、人類主體性、失業(yè)等風(fēng)險的擔(dān)憂。
聯(lián)合國促請所有國家立即執(zhí)行《人工智能全球倫理框架》[1]。意大利第一個發(fā)布了封殺 Chat-GPT的公告,緊接著加拿大隱私委員會網(wǎng)站公布了對 OpenAI的調(diào)查,越來越多的國家對ChatGPT提出數(shù)據(jù)安全方面的質(zhì)疑[2]。可以說, ChatGPT這一大規(guī)模生成式人工智能,是科技發(fā)展進程中的一種重要的范式轉(zhuǎn)換,其風(fēng)險治理是各方共同關(guān)注和探討的熱點問題。2023年7月10日,國家網(wǎng)信辦等七個部門聯(lián)合公布了《生成式人工智能服務(wù)管理暫行辦法》。各部門的高度重視意味著我國密切關(guān)注了生成式人工智能的新發(fā)展并且嘗試構(gòu)建新的監(jiān)管體系。與深度綜合監(jiān)管相比,這一生成型人工智能監(jiān)管理念的確反映了監(jiān)管邏輯的更新與系統(tǒng)的迭代。但也要注意到,《辦法》只是提出了一般的監(jiān)管思想和監(jiān)管原則,還沒有對監(jiān)管措施進行細化,且大型生成式人工智能與以往的人工智能有不同的運行過程和特有的革新技術(shù),應(yīng)該結(jié)合大型生成式人工智能模型的特點進行監(jiān)管。
生成式人工智能帶來的風(fēng)險是多方面的,從本身來講,有數(shù)據(jù)風(fēng)險和算法風(fēng)險;從外部來講,有社會安全風(fēng)險和倫理風(fēng)險。生成式人工智能作為新型人工智能與傳統(tǒng)人工智能運行的邏輯不同,每一運行階段的使用主體和所采用的算法都不盡相同。基于此,本文主要是針對生成式人工智能的數(shù)據(jù)風(fēng)險,深入剖析生成式人工智能的運行邏輯,再分析每個階段的數(shù)據(jù)風(fēng)險并提出針對性的治理路徑。
一、生成式人工智能的革新特點和運行邏輯
人工智能可從不同的維度進行劃分。如果按其模型來劃分,可以分為決策式AI和生成式AI[3]。決策式AI(也被稱作判別式AI)學(xué)習(xí)數(shù)據(jù)中的條件概率分布(即一個樣本歸屬于特定類別的概率),再對新的場景進行判斷、分析和預(yù)測。生成式AI則學(xué)習(xí)數(shù)據(jù)中的聯(lián)合概率分布(即數(shù)據(jù)中多個變量組成的向量的概率分布),對已有的數(shù)據(jù)進行總結(jié)歸納,并在此基礎(chǔ)上使用深度學(xué)習(xí)技術(shù)等,創(chuàng)作模仿式、縫合式的內(nèi)容,相當(dāng)于自動生成全新的內(nèi)容[4]。
(一)生成式人工智能的革新特點
相比于傳統(tǒng)的人工智能,生成式人工智能主要有兩方面革新性的特點。一方面,生成性人工智能是從弱人工智能向強人工智能邁進。弱人工智能是指傳統(tǒng)的人工智能,比如計算機深藍、人形機器人Asimo、AlphaGo、人工智能Watson、微軟小冰等人工智能迭代產(chǎn)品。弱人工智能無法創(chuàng)造出具有智慧、能夠思考、能夠解決問題的智能機器人,它們空有一副智能的外表,卻沒有任何的智慧,更沒有任何的自我意識。而強人工智能,即通用人工智能(Artificial General Intelligence,AGI),是一種能夠自主認(rèn)知、自主學(xué)習(xí)新知識、提升自身能力的機器智能[5]。在強人工智能時期,智能機器、算法或系統(tǒng)會擁有類似于人的學(xué)習(xí)和理解知識的能力,可以像人那樣進行思考,可以分析復(fù)雜的概念,可以進行思考、規(guī)劃、自我學(xué)習(xí),并根據(jù)以往的經(jīng)驗進行總結(jié)學(xué)習(xí)。ChatGPT4目前已經(jīng)初步具有強人工智能的基本特征,即使有部分觀點認(rèn)為ChatGPT仍然只能作為工具使用,達不到強人工智能的標(biāo)準(zhǔn),但不可否認(rèn)的是ChatGPT已經(jīng)超越了弱人工智能,在向強人工智能邁進。
另一方面,生成式人工智能與傳統(tǒng)的搜索引擎有本質(zhì)區(qū)別。ChatGPT4能夠根據(jù)使用者的指令,直接生成文字內(nèi)容,因此能夠滿足使用者的需求,而且每次查詢僅生成一個答案,即ChatGPT4會將其他的過度信息過濾出去,為用戶提供唯一的答案,這樣使用者就不用再去挑選其他的信息。另外,ChatGPT4擁有很強的學(xué)習(xí)能力,不僅能夠與人進行連續(xù)的對話,而且能夠在此過程中不斷地學(xué)習(xí),能夠發(fā)現(xiàn)自身的缺陷,能夠發(fā)現(xiàn)簡單的誘導(dǎo)問題,這是其與傳統(tǒng)搜索引擎最大的區(qū)別[6]。
(二)生成式人工智能的運行邏輯
第一階段是數(shù)據(jù)收集階段。首先,是數(shù)據(jù)源選擇,在構(gòu)建對話系統(tǒng)時,選擇適合的數(shù)據(jù)源是關(guān)鍵步驟??梢詮亩鄠€渠道收集對話數(shù)據(jù),包括聊天記錄、客戶支持對話、論壇或社交媒體上的對話等。最關(guān)鍵的是選擇與目標(biāo)對話領(lǐng)域和用戶群體相關(guān)的數(shù)據(jù)源。其次,是數(shù)據(jù)清洗和預(yù)處理,收集到的對話數(shù)據(jù)通常需要進行清洗和預(yù)處理,以提高數(shù)據(jù)的質(zhì)量和可用性。這包括去除無關(guān)信息、過濾敏感數(shù)據(jù)、處理重復(fù)對話、修復(fù)拼寫錯誤等。數(shù)據(jù)清洗可以幫助消除噪聲和錯誤,確保對話數(shù)據(jù)的一致性和準(zhǔn)確性。再次,是標(biāo)注數(shù)據(jù),為對話數(shù)據(jù)添加適當(dāng)?shù)臉?biāo)注是訓(xùn)練ChatGPT模型的關(guān)鍵。標(biāo)注可以包括對話的角色標(biāo)簽、對話情感標(biāo)簽、對話意圖標(biāo)簽等。通過標(biāo)注數(shù)據(jù),模型可以更好地理解對話結(jié)構(gòu)和含義,并更好地適應(yīng)不同的對話場景。最后,是數(shù)據(jù)歸類,就是將數(shù)據(jù)的集合細分為用于模型訓(xùn)練的集合、用于驗證模型參數(shù)的集合和用于測試模型性能的集合。
第二階段是模型訓(xùn)練階段。這一階段分為預(yù)訓(xùn)練和優(yōu)化訓(xùn)練。這兩個步驟是自然語言處理領(lǐng)域中訓(xùn)練大型語言模型的關(guān)鍵環(huán)節(jié)。預(yù)訓(xùn)練是模型訓(xùn)練的第一階段,目的是讓模型學(xué)習(xí)語言的基本知識和規(guī)律。在這個階段,模型會基于大量的通用語料庫進行訓(xùn)練,這些語料庫通常包括各種類型的文本,如新聞、社交媒體、維基百科、書籍等。優(yōu)化階段是模型訓(xùn)練的第二個步驟,它是在預(yù)訓(xùn)練模型的基礎(chǔ)上,使用特定任務(wù)的數(shù)據(jù)集進行二次訓(xùn)練,目的是讓模型能夠適應(yīng)特定任務(wù)或領(lǐng)域[7]。
第三階段是輸出階段。生成式人工智能實質(zhì)上是一種基于“借鑒與拼接”而形成的“生成性”,也就是說它可以依據(jù)一定的規(guī)則、規(guī)律或數(shù)據(jù),產(chǎn)生與眾不同的具有創(chuàng)新性的結(jié)果(如文字、圖片、音樂等)[8]。以ChatGPT4等生成式人工智能為代表的人工智能,會在大量的文本數(shù)據(jù)中進行概率分析,并從中挑選出最有可能的匹配項,將其重新挑選和組織后作為回答。文本的輸出過程就是文本與使用者的交互創(chuàng)造。舉例來說,其產(chǎn)出的品質(zhì)主要依賴于使用者是否有能力提出問題。提問的語言越是明確、準(zhǔn)確或者富有創(chuàng)意,那么 ChatGPT的答案就會更加明確、更加有創(chuàng)意。
二、生成式人工智能的階段性數(shù)據(jù)風(fēng)險
如前所述,以ChatGPT為例,生成式人工智能的工作流程可以劃分為三個階段,在每個階段會產(chǎn)生不同的數(shù)據(jù)風(fēng)險。
(一)數(shù)據(jù)收集階段的數(shù)據(jù)來源風(fēng)險
雖然ChatGPT目前還未公開學(xué)習(xí)語料的具體來源,但從官方網(wǎng)站上可以得知ChatGPT的訓(xùn)練數(shù)據(jù)主要分為四種,第一種是由OpenAI自己采集的數(shù)據(jù),部分是用戶在使用ChatGPT時產(chǎn)生的數(shù)據(jù),部分是專門的志愿者或人工智能訓(xùn)練師在訓(xùn)練時產(chǎn)生的數(shù)據(jù)。第二種是開發(fā)者從網(wǎng)絡(luò)上使用爬取技術(shù)獲得的各類數(shù)據(jù),包括網(wǎng)絡(luò)上的文本數(shù)據(jù)、社交媒體數(shù)據(jù)、問答網(wǎng)站數(shù)據(jù)、新聞網(wǎng)站數(shù)據(jù)、文學(xué)作品數(shù)據(jù)等。第三種是開發(fā)者購買的第三方平臺的數(shù)據(jù)集。第四種是開發(fā)者獲取的向全社會公開的公共數(shù)據(jù)。
第一種來源中,自行采集的數(shù)據(jù)存在侵犯用戶權(quán)利以及違反最小必要原則的風(fēng)險。在數(shù)據(jù)的收集和抓取階段,開發(fā)者在使用用戶的信息時雖然形式上遵循了知情同意規(guī)則,但實際上卻架空了用戶的知情同意權(quán)。比如ChatGPT4的服務(wù)條款中明確了 OpenAI有權(quán)利用用戶輸入與輸出的數(shù)據(jù),并把這些數(shù)據(jù)整合到數(shù)據(jù)庫中來改善ChatGPT4。當(dāng)ChatGPT4的用戶第一次登錄賬戶時,會從系統(tǒng)中接收到一個關(guān)于個人信息的提示,當(dāng)用戶單擊窗口底部的“下一步”時,就表示他已經(jīng)同意了系統(tǒng)對其個人信息的采集。然而,因其核心技術(shù)與算法的保密性,用戶不能完全掌握其處理過程、用途、保存期限等重要信息,因此不能對其進行合理的使用與保護[9]。最小必要原則要求信息處理者在處理個人信息時,必須有明確、合理的處理目的,并且該目的必須與個人信息的處理直接相關(guān),同時采用對個人權(quán)益影響最小的方式進行處理[10]。在構(gòu)建語料庫時,生成式人工智能有時候會收集用戶的瀏覽記錄、所用的設(shè)備信息、通信信息,用戶的所在地、時區(qū)、國家和具體登錄的時間等。但是這些信息的收集與最終的文本生成服務(wù)之間沒有必然的聯(lián)系,那么收集和處理這些信息的目的不明確,違背了個人信息保護的最小必要原則。
第二種來源中,開發(fā)者利用爬取技術(shù)獲得的網(wǎng)絡(luò)數(shù)據(jù)存在侵犯目標(biāo)網(wǎng)站用戶的隱私權(quán)、商業(yè)秘密、國家的數(shù)據(jù)主權(quán)等風(fēng)險。以爬蟲方式來爬取用戶資料,會對目標(biāo)企業(yè)和網(wǎng)站產(chǎn)生不良的后果,這也違背了國家網(wǎng)絡(luò)安全法27條中關(guān)于禁止個人非法獲得個人資料的條款[11];若 ChatGPT所采集的數(shù)據(jù)來源于明確禁止第三方爬取數(shù)據(jù)條款的網(wǎng)站,將會被視為企業(yè)的競爭產(chǎn)權(quán)利益,未經(jīng)授權(quán)的情況下,此類數(shù)據(jù)有可能觸犯反壟斷法,引發(fā)合規(guī)風(fēng)險。與此同時,研究成果表明,非法爬取獲取的數(shù)據(jù)很有可能是具有高度機密性、高密集性、高防護性等特點的數(shù)據(jù),如果開發(fā)者利用這種非法手段爬取到此種類型的數(shù)據(jù),那這種行為不僅侵犯了個體對信息享有的權(quán)利,還威脅到了國家安全與數(shù)據(jù)主權(quán)。
第三種來源中,開發(fā)商通過購買第三方平臺的數(shù)據(jù)來獲得數(shù)據(jù),不能為第三方平臺提供合法的保護。由于人工智能的訓(xùn)練需要的數(shù)據(jù)量是巨大的,購買第三方平臺提供的數(shù)據(jù)集成了很多開發(fā)商的選擇,但是通過信息服務(wù)企業(yè)購買訓(xùn)練數(shù)據(jù)是存在風(fēng)險的,購買途徑的合法不等于數(shù)據(jù)來源合法。第三方平臺提供的數(shù)據(jù)集也包含一些個人信息和需要授權(quán)才能處理的信息,無法確定第三方平臺出賣的數(shù)據(jù)使用權(quán)是否完整合法,是否含有敏感個人信息和民事侵權(quán)內(nèi)容。即使在買賣合同中可以約定該義務(wù),也僅能作為侵權(quán)糾紛中的抗辯理由,實際上對侵權(quán)風(fēng)險所起的作用并不明顯。
第四種來源中,開發(fā)者獲取的公共數(shù)據(jù)存在可用性不高,敏感易變的特點。公開數(shù)據(jù)的獲得就是從公共資料庫中下載數(shù)據(jù),充實和補充數(shù)據(jù)。公共數(shù)據(jù)集是指在不同的公共平臺上,或在不同的行政管理機構(gòu)中發(fā)布的、對公眾開放的數(shù)據(jù)資源。公共數(shù)據(jù)的獲取是四種方式中較為安全的,但仍然存在一些問題。目前世界各國很多地區(qū)數(shù)據(jù)開放平臺尚未完全覆蓋,部分地區(qū)仍未建立數(shù)據(jù)開放平臺,例如公共數(shù)據(jù)開放起步最早的美國,50個州中僅有18個州建設(shè)了統(tǒng)一的公共數(shù)據(jù)開放平臺[12]。而且公共數(shù)據(jù)較為龐雜,具體數(shù)據(jù)的正確性沒有相關(guān)義務(wù)人負(fù)責(zé)核驗。公共數(shù)據(jù)的開放分為不予開放、有條件開放、無條件開放,但是由于數(shù)據(jù)的變化性,有可能出現(xiàn)從無條件開放的數(shù)據(jù)轉(zhuǎn)變?yōu)橛袟l件開放的情況,這無疑將增加開發(fā)者利用數(shù)據(jù)的風(fēng)險。
(二)預(yù)訓(xùn)練和優(yōu)化訓(xùn)練階段的數(shù)據(jù)使用風(fēng)險
在預(yù)訓(xùn)練和優(yōu)化訓(xùn)練階段,生成式人工智能會與外界進行更多的交互,數(shù)據(jù)流動性大大增強,用戶在使用生成式人工智能過程中會產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)同樣存在風(fēng)險。
1.數(shù)據(jù)泄露的風(fēng)險
在訓(xùn)練過程中,用戶可以將個人信息、商業(yè)信息乃至商業(yè)機密等信息透露給大數(shù)據(jù)。從生成式人工智能的工作機制不難看出,用戶在使用過程中的輸入與互動信息也將被用來進行不斷的迭代訓(xùn)練。因此,如何保證該信息的安全性就存在著巨大的風(fēng)險。盡管生成式人工智能的開發(fā)者宣稱會采用匿名、加密等安全保護手段來提升數(shù)據(jù)安全,但有報告指出,潛在的數(shù)據(jù)泄漏風(fēng)險依然存在。根據(jù)硅谷媒體的報導(dǎo),亞馬遜公司的法律顧問表示,他們在ChatGPT所產(chǎn)生的內(nèi)容中,找到了與公司秘密“非常相似”的文字。這或許是因為亞馬遜的某些雇員在利用 ChatGPT產(chǎn)生的代碼和文字時,將公司的內(nèi)部資料輸入了進去,這位律師害怕這些資料會被用來作為 ChatGPT的循環(huán)訓(xùn)練資料。
2.數(shù)據(jù)跨境流動的風(fēng)險
在境內(nèi)用戶通過 ChatGPT認(rèn)證后,相關(guān)資料將會被傳送到海外數(shù)據(jù)處理中心,并得到相應(yīng)的反饋。在這個互動過程中,如果用戶向國外的數(shù)據(jù)處理機構(gòu)發(fā)送了敏感的個人信息,那么這時,對于該機構(gòu)的收集和存儲是否要作出特定的事先告知同意,就成為了一個值得思考的問題。此外,如果國內(nèi)某主體出于數(shù)據(jù)分析或信息統(tǒng)計等目的,將其收集的一定規(guī)模的個人信息傳輸至OpenAI境外數(shù)據(jù)處理中心,就很可能構(gòu)成事實上的數(shù)據(jù)出境行為,如果未經(jīng)審批許可,將導(dǎo)致極大的合規(guī)隱患。當(dāng)生成式人工智能在操作中獲得了國內(nèi)的數(shù)據(jù)時,就相當(dāng)于把這一部分的國內(nèi)數(shù)據(jù)傳送到了國外,這個時候,我們已經(jīng)喪失了對這些數(shù)據(jù)的管理利益,也失去了對國外數(shù)據(jù)的自主權(quán),這顯然是對國家數(shù)據(jù)主權(quán)的挑戰(zhàn)。
3.侵害用戶的刪除權(quán)風(fēng)險
我們在討論訓(xùn)練階段生成式人工智能所構(gòu)成的風(fēng)險時,先假定在數(shù)據(jù)的收集和抓取階段生成式人工智能所使用的數(shù)據(jù)已經(jīng)取得了志愿者和用戶的同意,志愿者和用戶在提供信息時,按照一般人的理解,應(yīng)該是提供給生成式人工智能作為基礎(chǔ)模型的構(gòu)建和訓(xùn)練的數(shù)據(jù)來源。但是實際上他們將信息提供給生成式人工智能后,可能在每一次迭代更新后都會重新輸入模型加以利用,數(shù)次迭代更新之后的生成式人工智能可能與之前的有很大變化。例如ChatGPT4與ChatGPT1從功能上、算力上都有了翻天覆地的變化,ChatGPT作為生成式人工智能成長了五年就已經(jīng)有了如此大的進化,由此可以想見生成式人工智能的迭代更新速度非常快。那么志愿者和用戶對數(shù)據(jù)使用的同意如果直接適用于新版本的訓(xùn)練中,將存在侵權(quán)風(fēng)險。且用戶一旦同意ChatGPT使用自己的交互信息進行訓(xùn)練,實際上用戶的刪除權(quán)將會喪失,用戶的信息和數(shù)據(jù)將儲存在ChatGPT的數(shù)據(jù)庫中。與傳統(tǒng)型人工智能不同的一點是,生成式人工智能不存在真正意義上的刪除數(shù)據(jù),用于訓(xùn)練的數(shù)據(jù)即使從數(shù)據(jù)庫中刪除,生成式人工智能對此已經(jīng)有了“記憶”,即已經(jīng)被生成式人工智能“記住”的信息無法被刪除[13]。
(三)輸出階段的數(shù)據(jù)準(zhǔn)確性風(fēng)險
在輸出端,生成式人工智能能夠產(chǎn)生多種內(nèi)容,如新聞、文章、評論、代碼、圖畫等等。但是,生成式人工智能極易被惡意用戶利用,產(chǎn)生虛假信息以誤導(dǎo)大眾或者進行詐騙,甚至引發(fā)知識產(chǎn)權(quán)侵權(quán)。
第一,生成錯誤信息容易誤導(dǎo)公眾。在信息生成的過程中,生成的人工智能模型可能會制造出誤導(dǎo)信息,導(dǎo)致人們對某些事實和概念的誤解。如生成式人工智能因其“一本正經(jīng)地瞎扯”而受到批評。更糟糕的是,這樣的誤會在某些專業(yè)領(lǐng)域造成的風(fēng)險會大大增加,比如不當(dāng)?shù)姆梢庖娀蛘卟划?dāng)?shù)尼t(yī)學(xué)咨詢建議。惡意用戶利用人工智能產(chǎn)生虛假的新聞、文章或評論,達到混淆視聽、引導(dǎo)輿論、進行欺詐等目的。這種虛假的內(nèi)容往往經(jīng)過精心裝扮,很難分辨真假,因而極易誤導(dǎo)大眾。
第二,假冒身份信息實施欺詐。生成式人工智能可以被用來制造一個假的社交媒體賬號或者是一個線上的個體ID。這會引起身份欺詐、欺詐或其他讓人難以辨別真假的惡意行為。例如,生成式人工智能能夠被用來產(chǎn)生假的語音,它可以模擬某人的語音,也可以模仿某些語音特點。2021年10月,安徽合肥警方成功抓獲了一個在合肥、青島等地非法利用AI人工智能技術(shù)偽造他人人臉動態(tài)視頻,為黑灰產(chǎn)業(yè)鏈提供注冊的虛擬手機卡等技術(shù)支撐的犯罪團伙??梢钥闯觯@樣的犯罪團伙對社會危害不小。
第三,涉及知識產(chǎn)權(quán)侵權(quán)。生成式人工智能在文本生成過程中,利用數(shù)據(jù)挖掘技術(shù)對人類以往創(chuàng)造的文本進行大量的借鑒、學(xué)習(xí)和模仿,并對其進行一定程度的重構(gòu)與再創(chuàng)造。如果是非商業(yè)用途,則不會有爭議;若用于商業(yè)用途,可能會侵犯到《中華人民共和國著作權(quán)法》第10條中規(guī)定的作者的復(fù)制權(quán)和改編權(quán)[14]。若生成和他人受著作權(quán)法保護的作品混淆的文本內(nèi)容,引起公眾誤認(rèn),還會產(chǎn)生不正當(dāng)競爭的風(fēng)險。
三、生成式人工智能數(shù)據(jù)風(fēng)險的階段性治理
根據(jù)上述的分析,生成式人工智能在每一階段的算法邏輯和操作主體不同,所造成的數(shù)據(jù)風(fēng)險也不同,相應(yīng)的,在針對這些數(shù)據(jù)風(fēng)險進行治理的時候要考慮到每一階段的特點。本文將嘗試提出每一階段的治理原則和具體方法以防范生成式人工智能的數(shù)據(jù)風(fēng)險。
(一)數(shù)據(jù)收集和抓取階段:以開發(fā)者為主的多主體協(xié)同共治
在這一階段,數(shù)據(jù)風(fēng)險主要來源于開發(fā)者的數(shù)據(jù)收集過程和抓取過程,所以應(yīng)該以開發(fā)者為主體來防范風(fēng)險,同時國家法律、用戶以及行業(yè)組織從中起輔助作用。對于生成式人工智能的開發(fā)者而言,可以構(gòu)建以數(shù)據(jù)為中心的數(shù)據(jù)安全治理平臺,這樣能夠有效實現(xiàn)數(shù)據(jù)風(fēng)險感知、數(shù)據(jù)共享并使數(shù)據(jù)質(zhì)量可靠[15]。以機器學(xué)習(xí)為核心的生成式人工智能,數(shù)據(jù)質(zhì)量是其成功運行的關(guān)鍵。為減少“臟數(shù)據(jù)”,即那些錯誤的、殘缺的或有侵權(quán)風(fēng)險的數(shù)據(jù),所帶來的錯誤數(shù)據(jù)和編碼誤差,在數(shù)據(jù)預(yù)處理階段進行數(shù)據(jù)清洗是一種有效的方法。數(shù)據(jù)安全治理平臺可以包含數(shù)據(jù)清洗這一關(guān)鍵步驟,包括清洗重復(fù)數(shù)據(jù)、清洗缺失數(shù)據(jù)、清洗不合理數(shù)據(jù)[16]。例如,ChatGPT的開發(fā)者就試圖通過使用“檢測和刪除不適當(dāng)內(nèi)容的技術(shù)組合”來解決這個問題。這一過程包括預(yù)審核,即一組人工審核員在內(nèi)容公開之前審查和批準(zhǔn)內(nèi)容[17]。除此之外,數(shù)據(jù)安全治理平臺可以監(jiān)測數(shù)據(jù)是否具有合理來源,也可以與其他開發(fā)者共享被檢測出的數(shù)據(jù)風(fēng)險漏洞。
但構(gòu)建以數(shù)據(jù)為中心的數(shù)據(jù)安全治理平臺需要花費開發(fā)者不少的資源,開發(fā)者在衡量支出和收益后有可能會怠于構(gòu)建該數(shù)據(jù)安全治理平臺,所以需要多方協(xié)同共治。各個國家可以通過發(fā)布規(guī)范性文件的方式指導(dǎo)和督促生成式人工智能的開發(fā)者構(gòu)建該種數(shù)據(jù)安全治理平臺。
(二)預(yù)訓(xùn)練和優(yōu)化訓(xùn)練階段:開發(fā)者與政府軟硬并施
數(shù)據(jù)泄露、數(shù)據(jù)跨境流動、侵害用戶刪除權(quán)的風(fēng)險主要來源于生成式人工智能的運行階段,在這一階段模型基本已經(jīng)形成,只依賴開發(fā)者不能防范這一階段的風(fēng)險,主要原因是開發(fā)者的義務(wù)如果沒有強制力保障實施,將會流于形式。
首先,開發(fā)者與政府聯(lián)合起來加強數(shù)據(jù)被動出境治理。作為數(shù)據(jù)業(yè)務(wù)的直接參與方,開發(fā)人員在操作層面上更能及時地發(fā)現(xiàn)數(shù)據(jù)安全的風(fēng)險[18]。作為公權(quán)力的行使者,政府能利用強制力量防控數(shù)據(jù)的被動出境。具體來說,可以從以下兩方面落實:一是可以借鑒美國的“受控非密信息”的數(shù)據(jù)標(biāo)識制度,采用電子標(biāo)記的方式來實現(xiàn)數(shù)據(jù)泄露后的可追溯性[19]。有了這種可追溯性的標(biāo)識,國內(nèi)相關(guān)的開發(fā)者在與國外相關(guān)的研發(fā)組織進行對接時,進行的一系列數(shù)據(jù)流通或者交易行為,只要涉及到“受控非密信息”就會立刻被察覺并且及時阻止,從而保護國家安全。二是可以鼓勵生成式人工智能開發(fā)者公開對數(shù)據(jù)安全有威脅的信息。目前,我國對于數(shù)據(jù)的安全監(jiān)管仍通過單個主體進行監(jiān)督,單個主體監(jiān)督面對越來越復(fù)雜化的數(shù)據(jù)流通形式,在防范數(shù)據(jù)安全威脅上也會顯得力不從心。針對這一問題,可以參考美國的網(wǎng)絡(luò)安全信息共享法中的有關(guān)條款,在法定條件下,允許企業(yè)主動分享信息,鼓勵企業(yè)主動加入到數(shù)據(jù)跨境安全的建設(shè)和共享中來。
其次,政府應(yīng)該督促開發(fā)者建立數(shù)據(jù)銷毀制度以保護用戶的刪除權(quán)。即使用戶同意將信息用于初步訓(xùn)練階段,并不代表開發(fā)者可以將用戶的信息用于每個階段的訓(xùn)練中,用戶應(yīng)該享有合理的刪除權(quán)。我國《個人信息保護法》對刪除權(quán)利有明文規(guī)定,但對刪除方式卻沒有具體規(guī)定,歐盟第29條數(shù)據(jù)保護工作組在對云計算問題的評論中指出,刪除個人數(shù)據(jù)的意思是不管個人數(shù)據(jù)是儲存在硬盤或其它儲存媒體上都應(yīng)該被刪除。因為個人數(shù)據(jù)可能會在多個地方備份,所以,必須保證所有的數(shù)據(jù)都能以無法復(fù)原的方式被刪除。如果只是不能在線存取或刪除回收站中的東西,并不能算是刪除,因為處理者可以輕松地重新獲取并利用這些個人信息。所以,刪除的法律后果應(yīng)當(dāng)是完全消除[20]。但不是所有的數(shù)據(jù)都能通過行使刪除權(quán)徹底刪除,否則勢必對個人信息合理利用造成一定的阻礙,這與我國“加快構(gòu)建數(shù)據(jù)基礎(chǔ)制度,充分發(fā)揮我國海量數(shù)據(jù)規(guī)模和豐富應(yīng)用場景優(yōu)勢,激活數(shù)據(jù)要素潛能,做強做優(yōu)做大數(shù)字經(jīng)濟”的大政方針不符[21]。因此,對于開發(fā)者的數(shù)據(jù)銷毀制度,應(yīng)當(dāng)附加一定的條件,即限縮在“可能侵害個人權(quán)益”的情形下。
(三)輸出階段:以用戶為主的內(nèi)容治理體系
目前的生成式人工智能雖然已經(jīng)有了許多令人震驚的功能,但是人工智能的“奇點”尚未到來,這意味著人工智能只能模擬思維,卻不擁有思維、不能思維。因而,人工智能不可能成為主體,它只能是工具[22]。在輸出階段的大部分風(fēng)險是用戶操作生成式人工智能這個工具時所產(chǎn)生的,所以這一階段的風(fēng)險防范應(yīng)該以用戶為主,應(yīng)該規(guī)范用戶承擔(dān)的義務(wù)并提升用戶的甄別能力。同時開發(fā)者的技術(shù)進步也能輔助降低輸出內(nèi)容的風(fēng)險。
首先,使用者要加強信息素養(yǎng),提高辨識信息真?zhèn)蔚哪芰?。雖然生成式人工智能技術(shù)在計算能力、算法以及海量語料等方面增加了用戶識別文本真實性的困難,但是,培養(yǎng)良好的信息素養(yǎng)可以幫助提升用戶的辨別能力。使用者可以通過三種方式提升自己的信息素養(yǎng)。一是提高使用者的批判性思考能力,批判思維有助于人們在利用 ChatGPT等生成式人工智能的過程中對所產(chǎn)生的內(nèi)容進行適當(dāng)?shù)恼鐒e,而不是完全認(rèn)同。二是使用者要對所產(chǎn)生的信息進行核對與核實,以減少不正確數(shù)據(jù)與信息的使用頻率。使用者可以在其它人工智能系統(tǒng)的幫助下,搜索出相同的問題,然后再進行對比。三是用戶要形成一種習(xí)慣,即從權(quán)威來源獲取信息或回答。
其次,針對假冒身份信息實施的欺詐行為,要加強對法律法規(guī)的宣傳,提高人民群眾的反詐意識,指導(dǎo)廣大網(wǎng)友依法、合理地使用法律規(guī)定的軟件,并對“仿冒”鏈接進行正確鑒別,防止個人信息外泄。在此基礎(chǔ)上,加快新技術(shù)標(biāo)準(zhǔn)的制定,研究算法推薦等相關(guān)技術(shù)管理體系的具體實施途徑,明晰搜集信息的界限,提升應(yīng)用程序研發(fā)與應(yīng)用的透明性,保證其在安全、倫理、尊重公民權(quán)利與隱私的前提下進行。
最后,為了避免生成的內(nèi)容涉及知識產(chǎn)權(quán)侵權(quán),用戶應(yīng)該盡到注意義務(wù)和標(biāo)注義務(wù)。一方面,當(dāng)用戶通過 ChatGPT進行創(chuàng)作時,除了要主動地標(biāo)記“作品”是如何產(chǎn)生的,還需要明確該作品的著作權(quán)人是誰。這一點很重要,是為了便于平臺及其它使用者對這些內(nèi)容進行監(jiān)管。如果用戶所使用的數(shù)據(jù)屬于未授權(quán)或越權(quán)(除法定公布的數(shù)據(jù)外,如政府公布的數(shù)據(jù)內(nèi)容等),則可向平臺或 ChatGPT申請刪除。另一方面,使用者在使用過程中所負(fù)的謹(jǐn)慎責(zé)任也不盡相同。由于不同的使用者在使用 ChatGPT的技術(shù)邏輯、使用模式和可能產(chǎn)生的風(fēng)險等方面都有不同的理解,因此,在設(shè)定上也應(yīng)該有所不同。使用者可以被劃分為職業(yè)使用者與非專業(yè)使用者。按照歐盟消費法律的規(guī)定,職業(yè)使用者是指將人工智能產(chǎn)品用于職業(yè)用途的一個實體。這些例子包括營利或非營利的公司、非政府組織、行政機關(guān)、法庭和立法機關(guān)等等。同理,非專業(yè)用戶是指將AI輸出用于非專業(yè)目的的實體。
四、結(jié)語
生成式人工智能依靠的是算法,而數(shù)據(jù)則是其生長所需的養(yǎng)料,因此其重要性不言而喻。只有在海量高質(zhì)量數(shù)據(jù)的不斷學(xué)習(xí)和重復(fù)中,算法才能不斷地得到優(yōu)化,并展現(xiàn)良好的性能。本文從三個階段探討了生成式人工智能可能會存在的風(fēng)險,并嘗試提出每一階段的治理重心。在對未來風(fēng)險的防范觀念上,我們的觀念應(yīng)該從絕對安全向相對安全轉(zhuǎn)變。社會學(xué)家烏爾里希貝克認(rèn)為,在現(xiàn)代化過程中,由于科學(xué)技術(shù)的不斷發(fā)展、經(jīng)濟的全球化,產(chǎn)生了各種各樣的風(fēng)險,這是很難預(yù)料和計量的。這種危險是超越時間、超越社會、超越一切的,是不可能被徹底消滅的,具有絕對性是必然的[23]。本文所提到的風(fēng)險或許能通過多種途徑降低,但是從根本上來說無法做到完全消除,人類的未來是與AI風(fēng)險共存的未來。
參考文獻:
[1]李宏策.教科文組織號召實施全球AI倫理規(guī)范[N].科技日報,2023-04-04,(004).
[2]萬玉航.意大利封禁、加拿大宣布調(diào)查……ChatGPT屢屢撞上數(shù)據(jù)安全質(zhì)疑[EB/OL].(2023-04-06)[2023-12-23].https://tech.cnr.cn/ycbd/20230406/t2023 0406_526208979.shtml.
[3]丁磊.生成式人工智能: AIGC的邏輯與應(yīng)用[M].北京:中信出版社,2023:59-87.
[4][7]蘇江.ChatGPT使用指南:人人都應(yīng)該掌握的AI最強工具[M].北京:北京理工大學(xué)出版社,2023:116-118.
[5]羅藝,潘璐.ChatGPT4:現(xiàn)狀、風(fēng)險與法律回應(yīng)[C]//上海市法學(xué)會.上海法學(xué)研究集刊2023年第6卷(2023年世界人工智能大會青年論壇論文集).上海:[出版者不詳],2023:9.
[6]朱光輝,王喜文.ChatGPT的運行模式、關(guān)鍵技術(shù)及未來圖景[J].新疆師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2023(4):113-122.
[8]鄧建國.概率與反饋:ChatGPT的智能原理與人機內(nèi)容共創(chuàng)[J].南京社會科學(xué),2023(3):86-94.
[9]郭小東.生成式人工智能的風(fēng)險及其包容性法律治理[J].北京理工大學(xué)學(xué)報(社會科學(xué)版),2023(6):93-105.
[10]鈄曉東.風(fēng)險與控制:論生成式人工智能應(yīng)用的個人信息保護[J].政法論叢,2023(4):59-68.
[11]畢文軒.生成式人工智能的風(fēng)險規(guī)制困境及其化解:以ChatGPT的規(guī)制為視角[J].比較法研究,2023(3):155-172.
[12]劉語,曾燕.論有償使用制度推動公共數(shù)據(jù)開放發(fā)展[J].西安交通大學(xué)學(xué)報(社會科學(xué)版),2023(4):90-99.
[13]商建剛.論生成式人工智能時代的被遺忘權(quán)[J].時代法學(xué),2023(3):1-10.
[14]王曉麗,嚴(yán)馳.生成式AI大模型的風(fēng)險問題與規(guī)制進路:以GPT-4為例[J/OL].北京航空航天大學(xué)學(xué)報(社會科學(xué)版),2024(3):1-11[2024-02-01].http://gfffgd97c66c3752f4337sfbwpb95bvvfo6k0w.fgfy.jxjjxy.cwkeji.cn/kcms2/article/abstrac t?v=C_qHzaiysLVgflyoXPRXO3C-JH92 LFOWEcoH3qxkr-zAphFAKGj298yv7Rx2 2NNGDjocY972EqDBo3YBS9KT48a9c3HN5 wFGMiT_xieB5ADZF4UooO0D0YD1Cqax JgBxELsWSIaazFM=&uniplatform=NZK PT&language=CHS.
[15]林偉.人工智能數(shù)據(jù)安全風(fēng)險及應(yīng)對[J].情報雜志,2022(10):105-111.
[16]詹曉林,張笑宇,曾晶,等.數(shù)字政府一體化建設(shè)中數(shù)據(jù)預(yù)處理技術(shù)的研究[J].互聯(lián)網(wǎng)周刊,2023(20):37-39.
[17]蔡士林,楊磊.ChatGPT智能機器人應(yīng)用的風(fēng)險與協(xié)同治理研究[J].情報理論與實踐,2023(5):14-22.
[18]馬其家,劉飛虎.數(shù)據(jù)出境中的國家安全治理探討[J].理論探索,2022(2):105-113.
[19]周亞超,左曉棟.美國受控非密信息分類與安全控制解析[J].網(wǎng)絡(luò)空間安全,2020(3):12-17.
[20]程嘯.個人信息保護法理解與適用[M].北京:中國法制出版社,2021:85-92.
[21]王苑.中國語境下被遺忘權(quán)的內(nèi)涵、價值及其實現(xiàn)[J].武漢大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2023(5):162-172.
[22]程承坪.人工智能:工具或主體?:兼論人工智能奇點[J].上海師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2021(6):5-12.
[23]薛曉源,劉國良.全球風(fēng)險世界:現(xiàn)在與未來:德國著名社會學(xué)家、風(fēng)險社會理論創(chuàng)始人烏爾里希·貝克教授訪談錄[J].馬克思主義與現(xiàn)實,2005(1):44-55.
(責(zé)任編輯 程榮榮)
*基金項目:西南政法大學(xué)2023年度學(xué)生科研創(chuàng)新項目“類ChatGPT人工智能嵌入數(shù)字政府建設(shè)的價值與風(fēng)險防控研究”(編號2023XZXS-168)。
收稿日期:2024-03-19
作者簡介:陳煊(2000—),女,重慶萬州人,西南政法大學(xué)行政法學(xué)院碩士研究生,研究方向為法理學(xué)。