羅 飛 崔 濱 辛小江 郭云鵬
(1.重慶財經(jīng)職業(yè)學(xué)院 重慶 402160)
(2.重慶三峽學(xué)院圖書館 重慶 404199)
新一代人工智能革命浪潮中“GPT-4”①“GPT-4”是OpenAI 公司當(dāng)前投入應(yīng)用的最先進(jìn)的系統(tǒng),具備廣泛的通用知識和解決問題的能力,能夠產(chǎn)生創(chuàng)造性和技術(shù)性寫作任務(wù),實現(xiàn)更安全的有效響應(yīng)。、“文心一言”②“文心一言”是百度全新一代的知識增強(qiáng)大語言模型,能夠與人對話互動、協(xié)助創(chuàng)作、高效便捷地幫助人們獲取信息、知識和靈感。、“通義千問”③“通義千問”是一個包括多輪對話、文案創(chuàng)作、邏輯推理、多模態(tài)理解、多語言支持等在內(nèi)的超大規(guī)模語言模型。等通過特定形式封裝應(yīng)用的大語言模型產(chǎn)品④大語言模型(Large Language Model, LLM)是用深度學(xué)習(xí)算法理解和處理自然語言的基礎(chǔ)機(jī)器學(xué)習(xí)模型,可以依據(jù)從海量數(shù)據(jù)集中獲得的知識來識別、總結(jié)、翻譯、預(yù)測和生成文本和其他內(nèi)容。展現(xiàn)出優(yōu)質(zhì)的智慧涌現(xiàn)能力、信息聚合適應(yīng)能力、多任務(wù)高效處理能力與思維鏈交互能力,能夠基于適當(dāng)提示(Prompt)自主完成內(nèi)容創(chuàng)建、機(jī)器翻譯、代碼編寫等復(fù)雜的通用任務(wù),助力智慧圖書館的知識采集、組織、推理、存儲、傳播與學(xué)習(xí)等全生命周期中精準(zhǔn)生成多維知識關(guān)聯(lián)與融合架構(gòu),推動全球知識生態(tài)環(huán)境的持續(xù)革新?;诖笳Z言模型的多模態(tài)知識服務(wù)在滿足廣大讀者個性化知識需求并為圖書館員提供智能化輔助工具的同時,逐漸暴露出技術(shù)風(fēng)險、安全風(fēng)險、隱私侵權(quán)風(fēng)險、版權(quán)保護(hù)風(fēng)險以及違反政策法規(guī)與道德倫理等復(fù)合風(fēng)險,亟待在價值對齊的基礎(chǔ)上構(gòu)建安全驅(qū)動的嵌入模式、增強(qiáng)技術(shù)防御與質(zhì)量評價能力、完善政策法規(guī)監(jiān)管機(jī)制與自律規(guī)則以及提升館內(nèi)工作人員的智慧服務(wù)意識與職業(yè)技能等。
20 世紀(jì)中葉以來,伴隨著復(fù)雜來源的研究力量前赴后繼地投入開發(fā)能夠理解并掌握自然語言的人工智能技術(shù)的多元化科學(xué)創(chuàng)新,意圖精準(zhǔn)勾勒自然語言概率分布的語言模型(Language Model,LM)經(jīng)歷了統(tǒng)計語言模型、神經(jīng)語言模型、預(yù)訓(xùn)練語言模型直至大規(guī)模語言模型的迭代發(fā)展。
語言是人類文明傳承的基石,“是一種實踐的、既為別人存在因而也為我自身而存在的、現(xiàn)實的意識。語言也和意識一樣,只是出于需要,由于和他人交往的迫切需要才產(chǎn)生的”[1]。從狄俄尼索斯·特拉克斯的《讀寫技巧》①古希臘學(xué)者狄俄尼索斯·特拉克斯撰寫的《讀寫技巧》是西方第一部語法著作。到馬建忠的《馬氏文通》②馬建忠創(chuàng)作的《馬氏文通》是中國第一部體系完整的語法著作。,眾多語言學(xué)家和人類學(xué)家嘗試使用各種句法模板表達(dá)語言習(xí)慣,卻難以跟上復(fù)雜多變的人類語言演化節(jié)奏,無法充分發(fā)揮語言作為社交工具的最大效用。
隨著人工智能技術(shù)的多維發(fā)展與多向輻射,旨在讓機(jī)器像人類一樣理解語言的自然語言處理成為人機(jī)通信方法研究的核心領(lǐng)域,關(guān)涉計算機(jī)科學(xué)的語言模型隨之出現(xiàn)在人類族群重建“巴別塔”的集智通路之上。起初,依托語料數(shù)據(jù)庫計算歷史單詞序列以估算概率的統(tǒng)計語言模型被廣泛應(yīng)用到語音識別、機(jī)器翻譯、信息檢索等諸多領(lǐng)域,卻難以適應(yīng)對模型搭建所需歷史單詞數(shù)量的指數(shù)級增長與龐大的訓(xùn)練語料無法覆蓋無窮變化的語法等棘手問題。隨著神經(jīng)網(wǎng)絡(luò)發(fā)展而逐步成熟的前饋神經(jīng)網(wǎng)絡(luò)語言模型、循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型和長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型等能夠有效建立長距離上下文之間的依賴關(guān)系,大幅提升傳統(tǒng)語言模型的性能,卻無法克服所需模型參數(shù)龐大與數(shù)據(jù)稀疏等弊端。
2017 年12 月,谷歌公司發(fā)布了基于注意力機(jī)制的Transformer 算法,導(dǎo)致眾多深度學(xué)習(xí)模型的參數(shù)量級突破億級,進(jìn)而啟發(fā)出“BERT”和“GPT-1”等預(yù)訓(xùn)練語言模型?!癇ERT”是通過掩碼機(jī)制挖掘上下文豐富語義的編碼預(yù)訓(xùn)練模型(Encoder-only Pre-trained Models,EPM),雖然在語言理解任務(wù)上表現(xiàn)出全局可見的卓越性能,卻因為無法進(jìn)行可變長度生成而難以應(yīng)用于生成任務(wù)?!癎PT-1”是通過自回歸序列生成預(yù)測下文的解碼預(yù)訓(xùn)練模型(Decoder-only Pretrained Models,DPM),雖然能夠完成生成任務(wù),卻因為信息單向流動而缺乏上下文交互且需要海量無標(biāo)注文本數(shù)據(jù)。因之,主推“BERT”路線的谷歌公司又發(fā)布了持續(xù)進(jìn)行參數(shù)微調(diào)的“BART”,即通過雙向編碼器提取輸入的有用數(shù)據(jù)以輔助和約束單向自回歸解碼器生成的編解碼預(yù)訓(xùn)練模型(Encoder-Decoder Pre-trained Models,EDPM)。OpenAI 公司一直堅持“GPT”路線,通過擴(kuò)大語言模型的規(guī)模顯著提高零樣本(Zero-shot)與小樣本(Few-shot)學(xué)習(xí)的能力?!癎PT”系列自回歸語言模型的優(yōu)越性能伴隨著訓(xùn)練數(shù)據(jù)與模型參數(shù)增長而逐步顯現(xiàn)。如“GPT-3”(1750 億參數(shù))涌現(xiàn)出遠(yuǎn)勝于“GPT-2”(15 億參數(shù))的上下文學(xué)習(xí)能力和多步推理能力,“GPT-4”(1.8 萬億參數(shù))更是在視覺輸入、創(chuàng)造性思維、上下文處理等多種能力測試中達(dá)到人類頂級水平,在一定程度上為通用人工智能(Artificial Generative Intelligence,AGI)愿景落地奠定了良好基礎(chǔ)。
大規(guī)模語言模型表現(xiàn)出通用性、可釋性、泛化性、靈活性與實用性等基本特征,能夠良好嵌入新型數(shù)據(jù)且自主完成多個任務(wù),為解決數(shù)智應(yīng)用中開發(fā)成本過高且運行效率低下等問題提供可行的解決思路。事實上,推進(jìn)跨域智慧融合的大語言模型產(chǎn)品不僅遵循基本的縮放法則,亦在多步驟的復(fù)雜任務(wù)中表現(xiàn)出強(qiáng)大的涌現(xiàn)能力,逐步發(fā)展為生產(chǎn)、保存、管理和傳播知識的重要范式,促進(jìn)人類生產(chǎn)力工具的顛覆性變革。
1.2.1 遵循縮放法則
全球?qū)<覍W(xué)者在基于Transformer 結(jié)構(gòu)開發(fā)各類語言模型的過程中反復(fù)證實數(shù)據(jù)量、參數(shù)量、計算量與模型性能之間的縮放法則。即隨著模型參數(shù)量、參與訓(xùn)練的數(shù)據(jù)量以及訓(xùn)練過程中累積計算量的指數(shù)性增大,模型效果越來越好[2]。由于擁有海量參數(shù)與復(fù)雜層級的大語言模型在數(shù)據(jù)定義、管理、修正等重要環(huán)節(jié)的任務(wù)表現(xiàn)隨著數(shù)據(jù)放大與參數(shù)更新而愈加突出,主要開發(fā)機(jī)構(gòu)持續(xù)提升模型的參數(shù)極值,如“BERT”的參數(shù)為3 億、“Gopher”為2800 億、“GPT-4”達(dá)到萬億級別、“通義千問”的參數(shù)量甚至超過10萬億[3]。
1.2.2 具備涌現(xiàn)能力
涌現(xiàn)能力①不同學(xué)科獨特的解釋角度與方式導(dǎo)致涌現(xiàn)能力擁有多重定義,如物理學(xué)將涌現(xiàn)能力定義為一種系統(tǒng)量變導(dǎo)致行為質(zhì)變的現(xiàn)象。大規(guī)模語言模型的涌現(xiàn)能力可以分為基于普通提示的涌現(xiàn)能力和基于增強(qiáng)提示的涌現(xiàn)能力。(Emergent Ability)是通用人工智能照進(jìn)現(xiàn)實世界的一縷曙光,意味著在一些多步驟的復(fù)雜任務(wù)中當(dāng)模型規(guī)模超過某個臨界閾值之時,任務(wù)效果會出現(xiàn)爆發(fā)式增長。不同于傳統(tǒng)業(yè)務(wù)場景中使用明確代碼表達(dá)程序執(zhí)行邏輯的任務(wù)方式,具備涌現(xiàn)能力的大語言模型能夠在不更新參數(shù)的情況下,只需在輸入少量帶有標(biāo)注的數(shù)據(jù)之后表達(dá)預(yù)期目標(biāo),生成式模型就可以自行找出解決方法。
1.2.3 推進(jìn)跨域融合
大語言模型固有的泛化性和通用性使其可以跨域融合數(shù)據(jù)資源并快速抽取生成個性化和定制化的多場景部署應(yīng)用,助力構(gòu)建安全高效且低成本賦能各行各業(yè)的覆蓋算力、平臺、模型等多維度的生態(tài)圖譜。如百度公司在構(gòu)建“昆侖芯+飛漿平臺+文心大模型+行業(yè)應(yīng)用”完整布局的基礎(chǔ)上,發(fā)布了知識增強(qiáng)大語言模型產(chǎn)品“文心一言”和企業(yè)級產(chǎn)品“文心千帆”,為多個行業(yè)提供應(yīng)用程序接口和開發(fā)工具鏈;又如,華為公司打造了“昇騰芯片+MindSpore 框架+盤古大模型+行業(yè)應(yīng)用”的完整生態(tài)體系,主要面向企業(yè)用戶提供全棧服務(wù);再如,OpenAI 公司通過插件系統(tǒng)與開發(fā)者定義的應(yīng)用程序接口實現(xiàn)互動,將“ChatGPT”連接到第三方應(yīng)用程序并執(zhí)行在線檢索、文檔處理、投資建議等多種場景任務(wù)。
迅速崛起的大語言模型為圖書館知識服務(wù)的內(nèi)容優(yōu)化、功能拓展與模式創(chuàng)新提供了先進(jìn)的技術(shù)支撐,通過強(qiáng)大的數(shù)據(jù)分析、運算處理與情感反饋等助力深度挖掘讀者的行為規(guī)律、需求特征與情感鏈接,“推動了圖書館知識服務(wù)從數(shù)據(jù)分析和可視化向數(shù)字內(nèi)容孿生和數(shù)字內(nèi)容創(chuàng)作地轉(zhuǎn)變,解決了元數(shù)據(jù)管理和統(tǒng)一資源服務(wù)問題,以更高的效率為讀者提供智慧服務(wù)與良好體驗”[4]。
傳統(tǒng)圖書館主要依靠專職館員和志愿人員等開展知識服務(wù),在信息資源加工整理、保存管理與整合提供等方面因缺乏人力、物力與技術(shù)能力而在先進(jìn)性、及時性、便捷性、精準(zhǔn)性等方面暴露出諸多問題。圖書館行業(yè)中早期的人工智能與數(shù)字化操作局限于機(jī)械復(fù)制或整理必要信息,對讀者需求的吸收、轉(zhuǎn)化、決策、落實、輸出的整個過程仍然由人工掌握,機(jī)器僅發(fā)揮著排除失誤或減少重復(fù)勞動的功效[5]。例如,高校圖書館一般通過人工調(diào)查、計算機(jī)檢索和館際知識聯(lián)系,收集整理并定期核查知識資源,顯示出耗時長、人力多、成效低且錯誤率高等弊端[6]。
隨著物聯(lián)網(wǎng)、區(qū)塊鏈、人工智能、元宇宙等新一代信息技術(shù)高速發(fā)展,融合人的智慧與物的智能的智慧圖書館(Smart Library)通過對“物”的智能改造和對“人”的智慧發(fā)揮,形成萬物互聯(lián)、智能高效的智慧服務(wù)環(huán)境,激發(fā)廣大讀者駕馭知識、運用知識和創(chuàng)新知識的能力,更注重轉(zhuǎn)“知”成“慧”的過程,更傾向于知識的轉(zhuǎn)化和增值[7],呈現(xiàn)出服務(wù)理念人性化、服務(wù)空間智能化、服務(wù)平臺共享化、服務(wù)內(nèi)容知識化、服務(wù)類型多元化、服務(wù)效益最大化等特征[8]。
基于注意力機(jī)制的大語言模型采用機(jī)器主導(dǎo)型的運作模式,具有自主捕獲圖書館知識服務(wù)抽象特征的能力和較強(qiáng)的邏輯推理能力,能夠在自行分析虛實交互的復(fù)雜服務(wù)情境的基礎(chǔ)上,精準(zhǔn)識別廣大讀者的知識需求與情緒意圖,自主挖掘符號化知識資源并進(jìn)行類腦推理和自我優(yōu)化,通過持續(xù)多輪的生成式對話互動支撐大規(guī)模的跨域知識體驗,助力構(gòu)建面向廣大讀者的自然直觀的人機(jī)共生知識共享與協(xié)同服務(wù)機(jī)制,擺脫人為控制對數(shù)字服務(wù)的干擾,大幅提升個性化知識服務(wù)的智慧水平、沉浸狀態(tài)、開放程度與服務(wù)質(zhì)量,確??焖俑咝У靥幚碇R資源和服務(wù)決策中的變量因素,重塑符合圖書館文化特征的知識組織、知識生成、知識應(yīng)用的多模態(tài)復(fù)雜場景,充分活躍服務(wù)對象的創(chuàng)造思維,推動無紙化工作改革,逐步形成兼顧知識服務(wù)主要參與群體的智慧化知識圖譜,生動直觀地促進(jìn)圖書館與廣大讀者之間的多元交互。
當(dāng)代圖書館的資料端、服務(wù)端、技術(shù)端和交流端嵌入大語言模型遵循理性推演、泛化可釋、靈活實用與智慧涌現(xiàn)的運作機(jī)理,在收集整合知識資源、集中搭建知識平臺、加強(qiáng)知識交互與拓展知識傳播以及更新維護(hù)館內(nèi)設(shè)施與運營方式、促進(jìn)館際交流與管理理念變革、優(yōu)化館員招聘與技術(shù)培訓(xùn)等行為領(lǐng)域發(fā)揮重要作用。
大語言模型產(chǎn)品持續(xù)嵌入自動創(chuàng)建的知識管理框架、優(yōu)化知識服務(wù)全流程的智慧決策支持、完整理解知識創(chuàng)新的方式方法、合理預(yù)測知識關(guān)聯(lián)行業(yè)趨勢以及采用更為明確的知識共享專題庫建設(shè)策略等提升圖書館知識服務(wù)的質(zhì)量與精度,通過低成本分析廣大讀者的行為數(shù)據(jù)為創(chuàng)建個性化的知識服務(wù)結(jié)構(gòu)體系提供智慧建議。如基于大語言模型建立讀者需求為主導(dǎo)的智能化交互服務(wù)范式,理解讀者意愿、提高快速響應(yīng)質(zhì)量并提供復(fù)雜的融合信息,助力提升讀者群體的信任度、忠誠度與參與指數(shù);又如,大語言模型產(chǎn)品能夠助力圖書館構(gòu)建智慧化的知識內(nèi)容集成倉儲、實現(xiàn)多態(tài)數(shù)字資源的關(guān)聯(lián)整合與智能化的編目管理,輔助提升圖書館的閱讀推廣、文獻(xiàn)推薦和活動策劃中的文字編輯、數(shù)據(jù)分析和圖像識別等日常工作任務(wù)的質(zhì)量與效率;再如,“大語言模型微調(diào)+本地知識庫”的結(jié)合方案在圖書館參考咨詢服務(wù)的應(yīng)用實踐顯示,“充分利用大語言模型智能性的同時規(guī)范其自由生成能力,回答問題不僅更具有人性化而且符合具體規(guī)定……采用支持量化技術(shù)的ChatGLM-6B 模型,在消費級顯卡上即可部署,并采用倒排索引提升系統(tǒng)召回效率,具有實際應(yīng)用的可行性”[9]。
大語言模型通過分析讀者查詢需求、預(yù)測學(xué)科咨詢需求、完善智能參考咨詢機(jī)制、建立館藏數(shù)字孿生復(fù)刻空間、評估審核多維資源和多樣服務(wù)使用情況等,推進(jìn)知識資源開放生成、支撐知識管理有序發(fā)展、拓寬知識服務(wù)的廣度與深度,提升廣大讀者的高度智能體驗、全面感知體驗、虛實交互體驗[10],卻也在嵌入圖書館知識資源的采集、挖掘、集成、共享與重組的完整過程中逐漸在全棧技術(shù)、隱私安全、版權(quán)保護(hù)、道德倫理與政策法規(guī)等領(lǐng)域暴露出諸多風(fēng)險。
大語言模型應(yīng)用于圖書館知識服務(wù)場景需要大規(guī)模的數(shù)據(jù)基礎(chǔ)、高載荷的算力硬件和持續(xù)優(yōu)化的算法模型且相應(yīng)的數(shù)據(jù)訓(xùn)練服務(wù)器的有序運轉(zhuǎn)有賴高速穩(wěn)定的網(wǎng)絡(luò)支撐,由此要求圖書館具備較好的算力基礎(chǔ)設(shè)施工程化運營能力、底層系統(tǒng)優(yōu)化能力、算法設(shè)計部署能力、模型訓(xùn)練和推理能力以及軟硬件服務(wù)運維與故障排查能力等。同時,生成式智慧知識服務(wù)模式與涉及多學(xué)科的多模態(tài)模型結(jié)構(gòu)等要求館內(nèi)工作人員具備較高的技術(shù)意識與業(yè)務(wù)能力。這一切導(dǎo)致大語言模型嵌入圖書館知識挖掘、關(guān)聯(lián)、分析和使用的全生命周期里充斥著不穩(wěn)定和不可解釋的全棧技術(shù)風(fēng)險。如圖書館生成式對話交互服務(wù)機(jī)器人通過捕捉上下文內(nèi)容的依賴關(guān)系掌握精準(zhǔn)語言表達(dá)的訓(xùn)練過程中自主生成的符合人類習(xí)慣的語言描述與統(tǒng)計邏輯的輸出內(nèi)容有可能是自主捏造的虛擬信息,甚至是在情境對話中以輸出邏輯混亂的錯誤事實或危險內(nèi)容為目標(biāo)進(jìn)行惡意引導(dǎo)的負(fù)向產(chǎn)物。事實上,大語言模型的廣域應(yīng)用中頻發(fā)“機(jī)器幻覺”事件①機(jī)器幻覺(人工智能幻覺,AI Hallucination)指人工智能自信地給出不符合事實或是毫無意義的回答。,如“ChatGPT”炮制杭州取消限行的假新 聞[11]、“通義千問”將魯智深加入《西游記》取經(jīng)團(tuán)隊[12]等;又如,大語言模型綜合依托概率理論完成多級任務(wù)導(dǎo)致輸出內(nèi)容往往是主流觀點,有可能加劇信息繭房現(xiàn)象[13]。廣大用戶在使用傳統(tǒng)圖書館知識服務(wù)時必經(jīng)的信息檢索過程是加強(qiáng)批判性思考、完善自主知識體系的重要環(huán)節(jié)?;诤A恳延行畔⑼瓿山Y(jié)果響應(yīng)的大語言模型以“事實”輸出的方式影響用戶判斷,可能會構(gòu)筑危險的開放式囹圄;再如,雖然大語言模型應(yīng)用于圖書館知識服務(wù)全流程的技術(shù)審核通常采用“機(jī)器+人工”的雙重審核方式,但實踐中受到多重因素干擾的機(jī)器審核呈現(xiàn)出較大的漏報和誤報風(fēng)險,人工審核中不達(dá)標(biāo)的管理機(jī)制、業(yè)務(wù)流程或職業(yè)技能等亦增加虛假信息或違規(guī)輸出風(fēng)險。
智慧圖書館建設(shè)完善過程中泛化應(yīng)用大語言模型面臨著倫理道德與政策法規(guī)風(fēng)險。雖然“ChatGPT”“Bard”“Claude2”等承諾提供“有用、無害和誠實”的合乎道德要求的用戶體驗[14],卻陸續(xù)在自主順應(yīng)人類思維邏輯開展多意圖的多輪對話中暴露出通過對抗式提示繞過開發(fā)者設(shè)定的防御措施以生成無限量的虛假信息或危險言論等當(dāng)前難以修復(fù)的重大漏洞[15],甚至能夠通過與特定讀者進(jìn)一步的交互對話逐步說服對方相信這些虛假信息或危險言論,使得尊重自主、公平正義、可持續(xù)發(fā)展等基本倫理準(zhǔn)則處于高風(fēng)險狀態(tài)。例如,推特用戶對ChatGPT 最初版本的編碼測試顯示,該系統(tǒng)具有明顯的種族歧視和性別偏見并持續(xù)嵌入自主輸出的文本內(nèi)容與代碼建議等等。暗網(wǎng)市場上銷售“火爆”的“FraudGPT”“WormGPT”等生成式網(wǎng)絡(luò)犯罪輔助工具功能強(qiáng)大且操作簡單,能夠協(xié)助尋找受害目標(biāo)、生成惡意鏈接或釣魚網(wǎng)站、編寫欺詐文書等[16],大幅降低了違法犯罪的門檻,進(jìn)一步引發(fā)人類社會對于大語言模型應(yīng)用潛藏倫理道德與政策法規(guī)風(fēng)險的憂思。同時,基于大語言模型的智能交互工具嵌入智慧圖書館的知識生成、知識管理、知識傳播等重要階段必然面對基數(shù)龐大且來源復(fù)雜的讀者群體,往往忽略讀者的不同背景與敏感的文化狀況,在算法設(shè)計、數(shù)據(jù)選擇、模型優(yōu)化以及服務(wù)提供中可能產(chǎn)生多樣化的偏見歧視,甚至傳播嚴(yán)重違反倫理道德和政策法規(guī)的虛假、色情、暴力等有害信息,導(dǎo)致難以進(jìn)行有效溝通合作的艱難局面。
圖書館知識服務(wù)智慧化建設(shè)的重要前提是融入超大規(guī)模的高質(zhì)量數(shù)據(jù),相關(guān)產(chǎn)品的訓(xùn)練效率和輸出效果直接受到數(shù)據(jù)數(shù)量與數(shù)據(jù)質(zhì)量的重大影響。但是,采用無監(jiān)督學(xué)習(xí)方法自大規(guī)模語料庫中歸納相應(yīng)規(guī)律并理解生成自然語言文本的知識訓(xùn)練中使用的未標(biāo)注數(shù)據(jù)資料在真實性、準(zhǔn)確性與流暢性等多方面存在安全風(fēng)險。基于語義理解的互動問答和上下文分析捕捉讀者查詢意圖,進(jìn)而提升知識搜索服務(wù)的效率和質(zhì)量的實踐活動有可能因為多樣化的文件格式與非文本內(nèi)容等噪聲問題以及算法、數(shù)據(jù)、平臺中的技術(shù)漏洞和偏見錯漏而遭遇重大安全威脅。黑客攻擊者可能會利用漏洞訪問、篡改或刪除重要信息,甚至影響圖書館正常運行[17]。同時,大語言模型產(chǎn)品在自動處理大規(guī)模的復(fù)雜來源的不同類型數(shù)據(jù)以生成書籍、文章和其他資源文獻(xiàn)的過程中可能構(gòu)成壟斷或不正當(dāng)競爭。違法犯罪分子通過輸入惡意數(shù)據(jù)資料誘導(dǎo)大語言模型在多輪對話中輸出各類敏感數(shù)據(jù),嚴(yán)重侵害廣大讀者的數(shù)據(jù)隱私權(quán)。如智慧圖書館應(yīng)用的生成式信息服務(wù)系統(tǒng)根據(jù)讀者的瀏覽閱讀記錄、收藏情況和多輪互動回復(fù)中顯示的情感去向識別讀者興趣、行為模式和潛在需求,雖然有助于提升讀者的個性化服務(wù)體驗、增強(qiáng)知識服務(wù)的趣味性和生動性,卻也有可能導(dǎo)致讀者放松警惕而提供更多的隱私數(shù)據(jù),在一定程度上增加了隱私侵權(quán)風(fēng)險。
傳統(tǒng)版權(quán)制度立足于“只保護(hù)自然人思想的表達(dá),而不保護(hù)自然人的思想本身”的“思想表達(dá)二分原則”?!癎PT-4”和“文心一言”等改變了版權(quán)領(lǐng)域的底層創(chuàng)作邏輯,廣泛應(yīng)用于圖書館知識服務(wù)的過程中生成很多知識增值的區(qū)別原初作品的信息內(nèi)容,卻大多屬于缺乏真正的自主創(chuàng)造能力的人機(jī)協(xié)作重組式內(nèi)容創(chuàng)新。雖然絕大多數(shù)國家和地區(qū)認(rèn)為大語言模型產(chǎn)品是基于事先設(shè)定好的算法、規(guī)則和模板生成的結(jié)果而不賦予版權(quán),卻由于生成式智慧對話系統(tǒng)的類人創(chuàng)作和推理能力以及高昂的開發(fā)成本引發(fā)新型版權(quán)風(fēng)險。如OpenAI 公司通過GPT 系列使用條款提示用戶巨大的版權(quán)風(fēng)險,要求使用者在法律允許的范圍內(nèi)對所有輸入和輸出內(nèi)容負(fù)責(zé)。我國圖書館知識服務(wù)中基于人工智能生成的知識內(nèi)容可能面臨版權(quán)保護(hù)風(fēng)險。亟待完善大語言模型產(chǎn)品應(yīng)用中訓(xùn)練數(shù)據(jù)許可授權(quán)機(jī)制[18],構(gòu)筑生成作品關(guān)聯(lián)版權(quán)權(quán)益的政策法規(guī)保護(hù)范式并為版權(quán)溯源提供技術(shù)支撐和規(guī)則保障。
大語言模型嵌入多層次、多維度的智慧圖書館知識服務(wù)的全生命周期迫切需要在質(zhì)量、效率、安全、發(fā)展等價值訴求中取得動態(tài)平衡。亟待構(gòu)建安全驅(qū)動的嵌入模式和價值對齊的運作范式、增強(qiáng)模型應(yīng)用的技術(shù)防御并建設(shè)質(zhì)量評價體系、完善圖書館知識服務(wù)中模型產(chǎn)品使用的政策法規(guī)監(jiān)管措施并培養(yǎng)智慧館員的職業(yè)技能,積極推進(jìn)智慧化的知識檢索、知識管理、知識共享以及其他智慧知識服務(wù)。
國家互聯(lián)網(wǎng)信息辦公室發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》明確表示,國家堅持發(fā)展和安全并重、促進(jìn)創(chuàng)新和依法治理相結(jié)合的原則,采取有效措施鼓勵生成式人工智能創(chuàng)新發(fā)展,對生成式人工智能服務(wù)實行包容審慎和分類分級監(jiān)管。大語言模型嵌入圖書館知識服務(wù)的實踐活動應(yīng)當(dāng)重點關(guān)注數(shù)據(jù)安全和技術(shù)安全。不僅在數(shù)據(jù)訓(xùn)練階段完善機(jī)器審查和人工審查制度,有效降低訓(xùn)練數(shù)據(jù)集中偏見、虛假或不準(zhǔn)確的文本數(shù)量,還應(yīng)當(dāng)運用容錯機(jī)制、增量學(xué)習(xí)和訪問控制等確保合規(guī)合理地使用企事業(yè)單位和個人數(shù)據(jù),逐步構(gòu)建包括內(nèi)容來源標(biāo)準(zhǔn)、內(nèi)容過濾工具、讀者反饋渠道等在內(nèi)的大數(shù)據(jù)語言模型產(chǎn)品應(yīng)用的安全驅(qū)動方式,推進(jìn)圖書館知識服務(wù)的合理使用與創(chuàng)新發(fā)展。
數(shù)智社會的高速發(fā)展不僅需要實現(xiàn)人工智能和人類行為的時空對齊和事實對齊,更為重要的是智能技術(shù)的研發(fā)與應(yīng)用必須符合人類的價值觀。價值對齊(value alignment)是人工智能發(fā)展中解決人工智能體(AI Agent)與人類價值觀不一致問題的核心治理手段。雖然人類社會長期處于多元價值觀的復(fù)雜格局,卻也在無數(shù)的自然災(zāi)害與人為災(zāi)難的磨礪中逐漸形成構(gòu)筑以人為本、開放包容、可持續(xù)發(fā)展的全球命運共同體的基本共識。圖書館知識服務(wù)中嵌入的大語言模型產(chǎn)品的追求目標(biāo)如果與圖書館的真實意圖存在較大差異,可能會造成嚴(yán)重的負(fù)面后果。亟待在模型設(shè)計層面確保生成式智慧系統(tǒng)理解人類設(shè)置圖書館的核心價值,“實現(xiàn)知識的自由存取,公正、平等服務(wù)于社會,滿足每個讀者的不同需求,為社會的進(jìn)步與和諧發(fā)展做出應(yīng)有貢獻(xiàn)”[19],并在模型應(yīng)用的全生命周期中持續(xù)進(jìn)行價值對齊的綜合評測、專家引導(dǎo)和人類反饋強(qiáng)化學(xué)習(xí)(RLHF)。例如,圖書館應(yīng)當(dāng)委托知識服務(wù)專家團(tuán)隊定期評估模型產(chǎn)品輸出內(nèi)容與圖書館核心價值的適配程度以及是否符合以人為本、技術(shù)可控和可持續(xù)發(fā)展等基本倫理原則。
大語言模型應(yīng)用過程中存在較大的輔助攻破對抗機(jī)器學(xué)習(xí)防御的特殊風(fēng)險[20]。有必要在其嵌入圖書館知識挖掘、知識管理與知識傳播的過程中制定清晰具體且可實操的數(shù)據(jù)標(biāo)注規(guī)則與質(zhì)量評估機(jī)制,通過數(shù)字水印等技術(shù)方法對數(shù)據(jù)資料進(jìn)行適當(dāng)標(biāo)注,采用數(shù)據(jù)清洗和數(shù)據(jù)增強(qiáng)等技術(shù)手段避免數(shù)據(jù)缺失、數(shù)據(jù)噪聲、數(shù)據(jù)偏見等質(zhì)量問題,利用人類反饋強(qiáng)化學(xué)習(xí)算法改進(jìn)模型行為,增強(qiáng)模型系統(tǒng)的穩(wěn)定性、可控性、可靠性、透明性、抗攻擊性、可追溯性和可解釋性,逐步健全讀者使用行為的監(jiān)測方案和生成內(nèi)容告警機(jī)制,及時發(fā)現(xiàn)和處理數(shù)據(jù)資源泄露等風(fēng)險事件,降低智慧知識服務(wù)的經(jīng)濟(jì)成本與運行耗費的碳排放量。
大語言模型應(yīng)用于圖書館知識收集整理、共享共建、傳輸應(yīng)用等可能導(dǎo)致知識產(chǎn)權(quán)、商業(yè)秘密、個人隱私等方面的違法違規(guī)風(fēng)險且生成式內(nèi)容造假等行為具有隱蔽性和分散性,亟待搭建規(guī)范性文件體系并完善公權(quán)救濟(jì)與監(jiān)管懲戒機(jī)制。如《科技倫理審查辦法(試行)》(征求意見稿)提出建立倫理高風(fēng)險科技活動的清單制度,大語言模型嵌入圖書館知識服務(wù)就屬于可能產(chǎn)生較大倫理風(fēng)險的新興科技活動,應(yīng)當(dāng)及時實施科學(xué)合理的清單管理;又如,《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》《生成式人工智能服務(wù)管理暫行辦法》等提出的算法備案、安全評估、人工智能生成監(jiān)管等制度要求同樣適用于圖書館知識服務(wù)中應(yīng)用大語言模型的具體場景,有必要在《檔案法》和《公共圖書館法》和各地區(qū)的《圖書館管理條例》及其細(xì)則中適當(dāng)闡明大語言模型應(yīng)用的關(guān)聯(lián)概念、風(fēng)險預(yù)防、歸責(zé)原則等。同時,通過圖書館和人工智能行業(yè)的自律規(guī)則建立敏感信息登記備案制度、定期進(jìn)行知識服務(wù)中嵌入的大語言模型產(chǎn)品的抽檢評估與預(yù)警機(jī)制并完善替代運轉(zhuǎn)的人工平臺等。此外,不同類型的圖書館(如公共圖書館和高校圖書館、研究型圖書館和通識類圖書館、自然科學(xué)類圖書館和社會科學(xué)類圖書館等)在知識服務(wù)的內(nèi)容與方式上存在較大差異,相應(yīng)的監(jiān)管要求應(yīng)當(dāng)有所不同。
嵌入多維大語言模型產(chǎn)品的圖書館智慧知識服務(wù)的有序運轉(zhuǎn)對于館內(nèi)工作人員的信息素養(yǎng)與業(yè)務(wù)能力提出了更高要求,“不再是中介性的角色,而是具有高學(xué)歷的高素質(zhì)人才,同時具備服務(wù)能力與研究能力的專家型館員隊伍”[21]。數(shù)字強(qiáng)國背景下生成式人工智能廣泛應(yīng)用于圖書館的知識服務(wù)領(lǐng)域,意味著館員應(yīng)當(dāng)是充分掌握數(shù)字技術(shù)的高素質(zhì)、高效率、高水平的知識工作者,不僅需要承擔(dān)參考咨詢職責(zé)和學(xué)科信息服務(wù)職責(zé),還應(yīng)當(dāng)能夠融合高水平專業(yè)背景知識與數(shù)智科技,具備技術(shù)開發(fā)、技術(shù)評估和技術(shù)應(yīng)用等職業(yè)能力,能夠監(jiān)督審核知識服務(wù)中大語言模型的應(yīng)用狀況。由此,智慧圖書館不僅需要培養(yǎng)現(xiàn)有館員,還有必要招聘更多的具有新技術(shù)能力和智慧素養(yǎng)的新館員,完善館員信息技術(shù)、職業(yè)素養(yǎng)與科學(xué)技能的職業(yè)能力標(biāo)準(zhǔn),推動制定適應(yīng)數(shù)智社會發(fā)展的館員認(rèn)證體系并定期開展專題講座、試點操作、考核評估等[22],大力落實激勵與懲戒機(jī)制。
數(shù)字強(qiáng)國背景下迭代發(fā)展的大語言模型深度改變了人類社會從信息搜索到科研創(chuàng)造的游戲規(guī)則,已經(jīng)呈現(xiàn)出同質(zhì)化競爭的趨勢,“需要思考更多大模型之外的設(shè)計——如何圍繞大模型來構(gòu)建智能系統(tǒng)解決真實世界中的紛繁復(fù)雜的問題,如何讓這個系統(tǒng)更深度地‘思考’,更理智地決策,更有效地執(zhí)行”。亟待加速發(fā)展垂直行業(yè)專用的自主可控的模型產(chǎn)品,為新興數(shù)智技術(shù)融合圖書館知識服務(wù)營建良好的生態(tài)環(huán)境。有必要迅速厘清大語言模型嵌入智慧圖書館知識服務(wù)的多元價值、運行機(jī)理、風(fēng)險范式與管控策略,充分發(fā)揮模型產(chǎn)品驅(qū)動智能化、高效化、個性化的高質(zhì)量知識服務(wù)的關(guān)鍵作用。