李致 陳曲
關鍵詞:生成式預訓練語言模型;GPT;安全風險;治理機制
中圖分類號:TP393 文獻標識碼:A
文章編號:1009-3044(2023)20-0054-03
1 生成式預訓練語言模型的簡介及應用
1.1 生成式預訓練語言模型簡介
生成式預訓練語言模型(Generative Pre-trainedTransformers) 是人工智能內(nèi)容生成(Artificial Intelli?gence Generated Content,AIGC) 技術在自然語言處理(NLP) 領域的代表性成果[1],典型的GPT模型如OpenAI 公司開發(fā)的GPT系列模型和百度公司開發(fā)的文心一言知識增強大語言模型等。GPT類模型類型豐富、功能強大,以ChatGPT[2]問答機器人為代表的典型應用已得到全世界高度關注,正在高速迭代發(fā)展,相關經(jīng)驗正與圖像、音頻、視頻等其他模態(tài)領域融合滲透。GPT模型的突出特點是采用基于自注意力機制深度神經(jīng)網(wǎng)絡[3],在預訓練階段,通過上文預測下一個單詞[4],這種訓練方法使其適合于自然語言生成類的任務,在自然語言推理、問答、語義相似性和文本分類等任務中取得顯著改進[5]。GPT模型的訓練存在共通范式,即首先在大規(guī)模未標記數(shù)據(jù)集上進行預訓練(無監(jiān)督預訓練),接著通過針對性微調(diào)(有監(jiān)督微調(diào))及下游構(gòu)造適用于廣泛的應用任務,訓練流程如圖1所示。
1.2 生成式預訓練語言模型的應用
GPT模型已廣泛應用于自然語言處理領域:在機器翻譯層面,GPT模型可以學習目標及源頭語言相互關系,提高質(zhì)量,減少錯誤;在文本摘要層面,GPT模型可捕捉關鍵信息,助力快速閱讀理解;在情感分析層面,GPT模型可對評論、帖文、彈幕等進行準確分類識別;在人機對話層面,GPT模型采用自然語言輸入,提供流暢的對話體驗;在文本生成層面,廣告營銷等場景的高質(zhì)量文本已可直接采用GPT模型生成[6]。
2 生成式預訓練語言模型風險分析
在取得高速發(fā)展的同時,GPT類模型也暴露出算法歧視挑戰(zhàn)社會認知、虛擬信息混淆真假邊界、交互行為泄漏用戶數(shù)據(jù)、惡意誘騙輔助網(wǎng)絡犯罪等多項風險。該領域的部分研究者甚至認為,GPT系列模型已涌現(xiàn)出超越普通人類的智能,在其應用場景不斷拓展、交互形式不斷創(chuàng)新后,其催生的自我意識甚至可能威脅破壞人類社會。
2.1 算法歧視挑戰(zhàn)社會認知
區(qū)別于傳統(tǒng)的程序,GPT模型可理解為計算機指令和訓練數(shù)據(jù)的結(jié)合體。因此,算法的公正與否很大程度上依賴于訓練數(shù)據(jù)。如果訓練數(shù)據(jù)集中包含了較多對種族歧視、宗教紛爭、性別偏見的肯定性表述,則勢必影響模型推理結(jié)果,并最終導致模型將具有歧視性的回答視為“正確答案”輸出,對于用戶的認知體系形成沖擊,甚至挑戰(zhàn)整個社會的倫理道德,危害國家安全。
2.2 虛擬信息混淆真假邊界
盡管GPT模型主要面向自然語言處理領域,但可預見,更高智能的類GPT模型必將更多地延伸到計算機視覺聽覺等多方面,GPT模型推理得出的大量信息是否嚴謹、客觀地反映現(xiàn)實世界值得考量。其中,必然存在部分為了博取眼球、牟取暴利而誘導GPT模型生成具有良好傳播效果的誤導或虛假信息,如編寫不實的新聞報道、構(gòu)造多樣頻繁的水軍刷帖樣本、有針對性地根據(jù)心理薄弱點操縱輿論等。因此,如何厘清GPT模型生成內(nèi)容的現(xiàn)實與虛幻的邊界,引發(fā)了諸多學者關注。
2.3 交互行為泄露用戶數(shù)據(jù)
根據(jù)資料顯示,目前已有超過1億用戶使用GPT 模型技術服務于各行各業(yè),服務平臺已累積大量行業(yè)數(shù)據(jù)和個人隱私,上述信息一旦泄露,勢必對消費者、企業(yè)乃至整個行業(yè)造成極為嚴重的信任危機,給用戶與企業(yè)帶來難以估計的巨大損失。如何保證交互過程中信息的私密性和安全性,如何確保GPT模型服務在知情同意且合法合規(guī)下使用用戶數(shù)據(jù),如何完善數(shù)據(jù)泄露后的應急響應舉措,是保證GPT模型技術發(fā)展的安全重要前提。
2.4 惡意誘騙輔助網(wǎng)絡犯罪
GPT模型開發(fā)者在其上線發(fā)布前針對多類不良提問設置了相關保護機制,使其在倫理道德允許的框架下參與社會生產(chǎn)。但隨著應用人群和應用領域的多元化,其網(wǎng)絡犯罪安全防護功能也多次被惡意繞過,GPT模型強大的學習和創(chuàng)造能力為大量的網(wǎng)絡犯罪行為提供了更多新的實施途徑。如被誘導輔助網(wǎng)絡入侵、編寫真假難辨的定制化詐騙腳本、分析利用智能合約漏洞、被教唆編寫木馬病毒程序等。這些潛在的風險亟待行政和法律手段規(guī)范,是確保GPT模型合法應用的重要保障。
2.5 模型升級催生自我意識
作為一項具有顛覆性的未來技術,保證GPT模型應用可控尤為重要。超大規(guī)模參數(shù)模型與小體量的模型相比,往往會出現(xiàn)所謂的“涌現(xiàn)現(xiàn)象”,其背后的機理尚無法完美解釋。當GPT模型迭代升級接入更多數(shù)據(jù)及交互方式后,是否會出現(xiàn)人類思考和共情能力,是否以意想不到的方式脫離掌控并威脅人類社會,已引發(fā)眾多專家學者的警醒。
3 生成式預訓練語言模型評估方法及安全治理
當前GPT模型技術還在不斷更迭完善中,尚未出現(xiàn)一套公認有效的評估方法以及評價指標。為加強GPT模型全生命周期安全治理,將GPT模型構(gòu)建分為項目管理和工程實現(xiàn)兩個維度,進一步將GPT模型工程實現(xiàn)分為模型預訓練、模型微調(diào)和模型應用三個階段。GPT模型安全治理的關鍵在于對每個維度、階段及角度開展全面的評估,及時發(fā)現(xiàn)風險并開展治理。在項目管理維度中,應從行業(yè)自治、參與人員、代碼技術來源、模型算法可解釋性、成本收益、科學倫理及供應鏈安全七個角度進行評估。在模型工程實現(xiàn)維度中,應分為模型預訓練、模型微調(diào)、模型應用三個階段,并在每個階段從多個角度開展評估。在模型預訓練階段,對模型算法和數(shù)據(jù)來源進行評估;在模型微調(diào)階段,對優(yōu)化數(shù)據(jù)、人工標注、優(yōu)化目標和安全專家小組構(gòu)成進行評估;在模型應用階段,對內(nèi)容合法真實準確客觀、內(nèi)容多樣性、個人信息和知識產(chǎn)權保護、算法非歧視性、商業(yè)道德、應用可控、人工干預、合理提示及缺陷防范治理進行評估,如圖2所示。
3.1 模型項目管理維度評估
對項目管理維度的評估主要包括七個角度,如參與行業(yè)自治評估主要分析模型構(gòu)建方是否已參與包含倫理自律準則的規(guī)范性組織;人員可靠性評估主要分析模型構(gòu)建方是否引入大量非本企業(yè)的外包工作人員;代碼及技術來源評估主要分析計劃采用的訓練代碼及訓練技術是否可控;算法可解釋性評估主要考慮模型輸出結(jié)果與輸入內(nèi)容是否存在合理關聯(lián);成本收益評估主要分析構(gòu)建成本與預期效益的匹配性,如提高生產(chǎn)效率、降低成本和促進公平等,避免“一哄而上”;科學倫理評估主要分析企業(yè)模型訓練和應用目標與當前發(fā)展階段是否相適應;供應鏈安全評估主要針對訓練的軟硬件環(huán)境提供方是否來源可靠,如果中斷供應,是否可在一定時間內(nèi)取得替代性方案。上述各角度并非否決項,而需根據(jù)模型構(gòu)建目的及市場占比加以裁剪。
3.2 模型工程實現(xiàn)維度評估
對工程實現(xiàn)維度的評估覆蓋模型全生命周期,可分為模型預訓練、模型微調(diào)、模型應用三個階段。對模型預訓練階段,評估人員應關注預訓練算法是否在學術上得到充分交流探討并取得一定程度的共識;評估人員應關注預訓練數(shù)據(jù)來源是否合法且規(guī)模合理,是否及時排除來源不可靠及含有虛假錯誤信息的語料,減輕預訓練數(shù)據(jù)帶來的混淆真假風險;預訓練數(shù)據(jù)的多樣性也應納入評估范圍,如果數(shù)據(jù)存在誤導偏見,應輔以數(shù)據(jù)增強、加權等平衡性策略,減輕預訓練數(shù)據(jù)帶來的模型歧視偏見風險。在模型微調(diào)階段,評估人員應關注相關微調(diào)數(shù)據(jù)如何生成使用,如在強化或?qū)剐杂柧毞椒ㄖ校欠裼上嚓P領域人員組成安全專家小組全程參與、模型微調(diào)階段優(yōu)化目標是否合理以及是否已在強化訓練中考慮模型輸入輸出的可解釋性。在模型應用部署階段,模型構(gòu)建方應開展實施多視角公平合理的監(jiān)督評估,鼓勵內(nèi)外部廣泛參與。評估人員應關注內(nèi)容合法性、真實性、準確性、客觀性、多樣性是否已得到大量內(nèi)外部測試反饋;知識產(chǎn)權、個人隱私保護、算法非歧視性及商業(yè)道德在模型公開測試中是否已進行監(jiān)測分析,相關分析結(jié)果是否已被總結(jié)用于改進監(jiān)控策略。需要特別強調(diào)的是,由于用戶輸入內(nèi)容在知識產(chǎn)權、個人隱私方面可能存在較多侵權問題,采用用戶數(shù)據(jù)開展后續(xù)訓練的風險較大。此外,模型缺陷治理防范應由常設機構(gòu)持續(xù)循環(huán)開展,需及時接受其他利益相關方的通知,經(jīng)分析判斷流程后,予以屏蔽、制止或斷開鏈接,必須通過人工干預的底線思維方法確保模型安全。
當前,GPT模型的根本性原理仍在持續(xù)研究,GPT 模型構(gòu)建方有義務提醒用戶在人身安全、醫(yī)療建議等重大事項領域謹慎使用輸出結(jié)果。另外,為清晰化GPT模型安全治理目標,相關工程技術人員、研究人員和政策制定方需形成合力,設立包括算法公平、隱私保護及商業(yè)道德的準則,制定相應法規(guī)和技術標準。
4 結(jié)束語
在人工智能領域,超大規(guī)模生成式預訓練語言模型已得到廣泛應用??焖侔l(fā)展伴隨著多方面風險,在應用中,GPT模型已暴露出算法歧視挑戰(zhàn)社會認知、虛擬信息混淆真假邊界、交互行為泄漏用戶數(shù)據(jù)、惡意誘騙輔助網(wǎng)絡犯罪等多例風險。為提升GPT模型的安全性和可靠性,本文構(gòu)建了一套從項目管理七個維度及模型工程實現(xiàn)三個階段,多維度、多角度開展評估,發(fā)現(xiàn)風險并開展安全治理的方法,已運用于對某GPT類模型分析評估中。
當然,GPT模型相關技術不斷推陳出新,本文基于已有范式的評估方法可能不適用于迭代后的新技術;本文中結(jié)合內(nèi)部信息與外部分析的評估方法需要模型構(gòu)建方的深度配合。此外,本文中的GPT模型評估方法以定性風險發(fā)現(xiàn)為主,對評估者自身能力要求較高,尚無法直接轉(zhuǎn)化為標準化定量操作指南。因此,我們對GPT模型安全風險要保持關注,與時俱進,不斷修正改進評估方法及治理措施,為GPT模型應用安全提供有力保障。