張丹
(鞍山市退役軍人服務(wù)中心 鞍山 114001)
檔案作為重要信息資源和獨(dú)特歷史文化遺產(chǎn),價值日益凸顯。檔案工作是維護(hù)黨和國家歷史真實(shí)面貌、保障人民群眾根本利益的重要事業(yè)。經(jīng)驗(yàn)得以總結(jié),規(guī)律得以認(rèn)識,歷史得以延續(xù),各項(xiàng)事業(yè)得以發(fā)展,都離不開檔案。[1]隨著新一代信息技術(shù)的發(fā)展與應(yīng)用,檔案工作環(huán)境、對象、內(nèi)容發(fā)生巨大變化。[2]以ChatGPT 為代表的生成式AI 應(yīng)用于檔案資源管理與開發(fā)活動成為大家關(guān)注的重點(diǎn)問題。檔案工作要及時關(guān)注技術(shù)環(huán)境的飛速發(fā)展,要擁抱數(shù)字轉(zhuǎn)型,要即時融入數(shù)字化的浪潮中,運(yùn)用大語言模型等生成式AI賦能檔案工作具有重要的研究空間和發(fā)展前景。
大語言模型(Large Language Model)是一種旨在理解和生成人類語言的人工智能模型。通過對海量文本進(jìn)行訓(xùn)練,學(xué)習(xí)語言的結(jié)構(gòu)、規(guī)則和語義,可以生成具有自然語言風(fēng)格的文本或者回答自然語言的問題。大語言模型是深度學(xué)習(xí)的應(yīng)用之一,它的發(fā)展與深度學(xué)習(xí)技術(shù)密切相關(guān),并且應(yīng)用領(lǐng)域非常廣泛,包括但不限于自然語言處理、機(jī)器翻譯、對話系統(tǒng)、文本生成等。隨著智能技術(shù)的不斷迭代和訓(xùn)練數(shù)據(jù)的不斷擴(kuò)充,未來ChatGPT 等大語言模型將會有更為出色的產(chǎn)品表現(xiàn)和更為廣闊的應(yīng)用場景。
檔案資源是指由檔案館、檔案室等檔案保管機(jī)構(gòu)所收藏和管理的各種檔案文獻(xiàn)的總和,包括歷史檔案、文化檔案、科技檔案、經(jīng)濟(jì)檔案、社會檔案等。這些檔案文獻(xiàn)記錄了社會發(fā)展的歷史、文化和科技等方面的信息,是人們了解和研究一個國家、一個地區(qū)、一個時期的重要信息來源。檔案資源作為原始信息的載體,是歷史的記錄憑證,擁有優(yōu)秀的可信度。它不僅涵蓋科技、紅色、軍事、文化等多個領(lǐng)域,還有文本、音頻、視頻等多種儲存形式。另外檔案資源還會隨著社會的發(fā)展與時間的推移,不斷產(chǎn)生和積累,內(nèi)容變得更加豐富。因此,檔案資源在作為歷史或者社會研究資料方面、作為人類獲取知識、方法與技能的途徑方面、作為承擔(dān)社會文化記憶、促進(jìn)人類文明進(jìn)步方面都有著重要的指導(dǎo)作用和實(shí)踐意義。
在自然語言處理領(lǐng)域,大語言模型可以通過對輸入文本進(jìn)行分析和學(xué)習(xí),將其歸類到一個或多個預(yù)定義的類別中,在機(jī)器翻譯、對話系統(tǒng)、文本生成等領(lǐng)域都有廣泛應(yīng)用。
大語言模型能憑借強(qiáng)大的自然語言處理能力,在檔案資源開發(fā)利用過程中持續(xù)賦能,挖掘和分析更多檔案知識內(nèi)容,并自動將其歸類到相應(yīng)的主題或類別中,還能提供多樣式、智能化的檔案服務(wù),方便用戶查找與利用。比如大語言模型的智能分類與檢索功能可以應(yīng)用于數(shù)字檔案館的建設(shè)中,從而實(shí)現(xiàn)智能化檔案服務(wù)。用戶通過與AI 大模型進(jìn)行溝通問答即可高效獲取所需要的檔案資源內(nèi)容,大模型在多次人機(jī)對話反饋中,對用戶的檔案信息需求和檢索偏好有更深入的了解和分析,檢索與提供的檔案資源更為精準(zhǔn),并且生成式AI 還可以提供個性化定制檢索服務(wù)。[3]
大語言模型進(jìn)行深度學(xué)習(xí)的前提是需要接受并分析大量的信息與數(shù)據(jù),而檔案館藏在為大語言模型的訓(xùn)練提供優(yōu)質(zhì)的、豐富的、原始的訓(xùn)練文本方面具有天然優(yōu)勢。檔案資源因模態(tài)多、類型廣、數(shù)量大的特點(diǎn),在大語言模型出現(xiàn)之前,借助智能技術(shù)對其進(jìn)行深度挖掘與開發(fā)存在一定難度,也難以保證其準(zhǔn)確度與可用性??傊笳Z言模型的出現(xiàn)與應(yīng)用加快了檔案資源開發(fā)的信息化進(jìn)程,提升了檔案管理與開發(fā)的效率。
檔案中包含大量歷史文獻(xiàn)、資料和數(shù)據(jù),是研究歷史、文化、社會等方面的重要素材。檔案資源的開發(fā)與利用可以為文獻(xiàn)研究提供真實(shí)、全面的歷史記錄與證據(jù)。其次,檔案作為人類珍貴的智慧結(jié)晶與知識財(cái)富,存在豐富的潛在價值。對其蘊(yùn)含的豐富知識進(jìn)行挖掘與分析,對文本內(nèi)容進(jìn)行情感分析、關(guān)鍵詞提取等,整理成具有價值的公共檔案資料,可用于學(xué)術(shù)研究以及文化傳承等領(lǐng)域,可以提高公眾對檔案資源的認(rèn)識和理解,推動學(xué)科的發(fā)展進(jìn)步,也為公眾的知識傳承奠定基礎(chǔ)。
基于大語言模型的文本分析與文本總結(jié)功能,生成式AI 不但可以自動生成檔案文本的摘要、目錄與索引等,還能自動生成智慧數(shù)據(jù),優(yōu)化檔案工作者的工作內(nèi)容與方式,減少簡單重復(fù)類工作耗時耗力的同時也降低人工干預(yù)和出錯率。此外,研究者可以利用生成式AI 技術(shù)構(gòu)建基于語義關(guān)系的知識圖譜,連接不同時代、不同地方、不同領(lǐng)域的檔案資源,有助于提高檔案資源開發(fā)的廣度與深度。再者,在AI大模型的加持下,文化遺產(chǎn)資源可以帶來可視化與沉浸式展演的交互體驗(yàn),用戶直接與大規(guī)模資源對象中的分布式內(nèi)容和隱含知識實(shí)時交互。既實(shí)現(xiàn)了文化遺產(chǎn)再活化,又降低了使用門檻,提升了服務(wù)體驗(yàn)。
檔案資源具有多樣性和復(fù)雜性的特點(diǎn),不僅涵蓋多種類型,如歷史檔案、文化檔案、科技檔案、經(jīng)濟(jì)檔案、社會檔案等,還會涉及到不同的歷史、文化階段以及不同的社會背景。 大語言模型要有廣泛的文本訓(xùn)練量以及足夠的深度來理解和解釋特定時期、特定環(huán)境下的檔案文本信息。檔案資源的多樣性還體現(xiàn)在多模態(tài)上,除了常見的文本類型,還涉及圖像、音頻以及視頻等多種模態(tài)的數(shù)據(jù)類型。大語言模型不僅需要識別和解析多模態(tài)信息,還要分析多模態(tài)信息之間的聯(lián)系,挖掘檔案之間的關(guān)聯(lián)與共性,進(jìn)而形成同一館藏內(nèi)的檔案關(guān)系網(wǎng)。不同歷史階段、不同地區(qū)的檔案資料記載語言差異較大,機(jī)器翻譯技術(shù)雖可以幫助消除語言障礙,但這對于生成式AI 技術(shù)在執(zhí)行機(jī)器翻譯任務(wù)的準(zhǔn)確性與自然度有較高要求。
檔案資源作為重要的信息資源,具有數(shù)量龐大的顯著特點(diǎn),檔案數(shù)據(jù)集通常來自多個數(shù)據(jù)源,并且難以保證完整性與可靠性。檔案資源中會存在語言表述不夠完備、晦澀難懂、模糊不清等情況,部分還可能存在稀缺數(shù)據(jù)和文獻(xiàn)缺失的問題。檔案資源中低質(zhì)量的數(shù)據(jù)直接影響到大語言模型的應(yīng)用結(jié)果,大語言模型需要能夠在數(shù)據(jù)可靠性、完整性不足的情境下,對檔案資源進(jìn)行處理、分析與加工,并解決數(shù)據(jù)噪聲等問題。這些復(fù)雜任務(wù)不僅要求大語言模型能夠提供高效的運(yùn)算能力,還需要具備通過智能分析來完成深度加工的功能。再者,生成式AI 在需要邏輯判斷或者處理最新信息的任務(wù)過程中可能會產(chǎn)生虛假、不可靠信息以及生成可信度不高的內(nèi)容,這對于檔案資源的開發(fā)與利用以及傳播過程帶來挑戰(zhàn)。
隱私問題在信息技術(shù)與智能技術(shù)高速發(fā)展的數(shù)智時代是一個始終繞不開的話題。大語言模型的一個顯著特征是模型訓(xùn)練數(shù)據(jù)量龐大,需要有大量的相關(guān)數(shù)據(jù)支撐。隨著其功能不斷開發(fā)和在多領(lǐng)域的廣泛應(yīng)用,在內(nèi)容生產(chǎn)的能力和特性被認(rèn)可的同時,隱私和版權(quán)等潛在問題也引起人們的重視與擔(dān)憂。以ChatGPT 為代表的大語言模型在檔案資源開發(fā)利用的過程中,需要使用大量的檔案資源數(shù)據(jù)進(jìn)行訓(xùn)練和分析。檔案資源尤其是紅色檔案、歷史檔案、科技檔案等,作為國家與民族的寶貴知識財(cái)富,有著獨(dú)特的地位和全面的價值,對紅色檔案資源的開發(fā)、利用與保護(hù)不僅體現(xiàn)出其文化價值,還展現(xiàn)了深遠(yuǎn)的歷史意義。檔案資源能夠保持健康、可持續(xù)被利用的一個前提就是檔案資源中的隱私以及版權(quán)問題被予以重視和保護(hù)。
檔案資源中的數(shù)據(jù)質(zhì)量會影響大語言模型對檔案資源開發(fā)與利用的效率。對于檔案資源中的原始數(shù)據(jù),在開發(fā)前需要進(jìn)行數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理是對原始數(shù)據(jù)進(jìn)行一系列操作,以準(zhǔn)備或調(diào)整數(shù)據(jù),使其更符合后續(xù)分析或模型使用的需求。一般包括數(shù)據(jù)集成、數(shù)據(jù)清洗、探索性數(shù)據(jù)分析和數(shù)據(jù)轉(zhuǎn)換等步驟。
經(jīng)過數(shù)據(jù)預(yù)處理,檔案資源中的一些缺失、重復(fù)、異常的數(shù)據(jù)會被發(fā)現(xiàn);原始數(shù)據(jù)中的數(shù)據(jù)類型和數(shù)據(jù)格式可能并不符合分析需要,數(shù)據(jù)預(yù)處理可以幫助將數(shù)據(jù)轉(zhuǎn)換為適合分析的形式;不同的數(shù)據(jù)來源和數(shù)據(jù)格式,數(shù)據(jù)命名和單位可能存在差異,會被整合到一起,并進(jìn)行規(guī)范化處理。數(shù)據(jù)預(yù)處理操作對于利用大語言模型對檔案資源進(jìn)行開發(fā)的過程有著至關(guān)重要的意義與作用,將會直接影響到其分析與挖掘結(jié)果的準(zhǔn)確性與可靠性,是檔案資源開發(fā)前不可或缺的一步。
目前ChatGPT 等主流的大語言模型通常是黑盒模型,難以解釋其決策和推理過程。背后所依靠的算法具有不透明、不穩(wěn)定的“黑箱”屬性。因此會引起使用者對生成過程與生成結(jié)果的可靠性與公平性進(jìn)行質(zhì)疑。大語言模型如果在未來的發(fā)展迭代過程中增加顯示其運(yùn)算推理與決策生成的過程,以解決“黑盒”的透明度問題,可以減少部分使用者的質(zhì)疑與顧慮。
檔案資料自身數(shù)量龐大,難免出現(xiàn)文件缺失與遺漏的問題。[4]部分檔案機(jī)構(gòu)在歸檔時,會在盲目追求效率的過程中對檔案資源的取舍沒有做出準(zhǔn)確的判斷。把一些看似不重要的檔案文件進(jìn)行舍棄,或一系列文件全盤收入,從而導(dǎo)致在存儲的過程出現(xiàn)檔案資源的缺失或重復(fù)。[4]檔案資源開發(fā)過程面臨數(shù)據(jù)稀缺以及文獻(xiàn)缺失等問題時,生成式AI 可能會因數(shù)據(jù)質(zhì)量問題受到干擾和影響,導(dǎo)致生成結(jié)果偏離預(yù)期而無法滿足檔案資源開發(fā)的預(yù)期需求。這需要通過檔案工作者采用人工復(fù)核與校對、電子與紙質(zhì)兩種媒介下保存的檔案資源相互參照、鼓勵不同檔案機(jī)構(gòu)建立部分?jǐn)?shù)據(jù)共享以及加強(qiáng)檔案館內(nèi)、館間檔案資源協(xié)作等方式解決。
檔案部門要加強(qiáng)對檔案工作人員的培訓(xùn)管理,不斷提升檔案管理人員專業(yè)知識與技能。從業(yè)者對于檔案資源要有清晰的定位和分類,能精確識別出涉及敏感問題或隱私問題的檔案資源內(nèi)容。對于此類檔案或檔案中的部分內(nèi)容,采用傳統(tǒng)開發(fā)方法進(jìn)行分析、整理與開發(fā),暫不借助大語言模型。此外,還要提高檔案工作者的隱私與版權(quán)意識,對隱私與版權(quán)問題做到高度重視和高度敏感。再者,檔案工作者需要采取數(shù)據(jù)脫敏、訪問控制和加密等相關(guān)措施,確保大語言模型在檔案資源開發(fā)過程中的隱私信息安全。
在政策層面,還需要通過制定與發(fā)布詳細(xì)的數(shù)據(jù)隱私和安全政策,以及完善相關(guān)法律法規(guī)體系來加強(qiáng)對AI 大模型的監(jiān)管。如何處理好數(shù)據(jù)安全和監(jiān)管防控過度之間的平衡問題是目前多個國家都要考慮的難題,不但要做好隱私保護(hù)、規(guī)避隱私泄露的風(fēng)險,而且要避免過于絕對的“一刀切”做法。
大數(shù)據(jù)與人工智能技術(shù)的迅猛發(fā)展正在推動人類社會快速向數(shù)字文明邁進(jìn)。在以Chat-GPT 為代表的大語言模型加持下,人類的內(nèi)容生產(chǎn)范式即將迎來新一輪革命,檔案資源開發(fā)與利用領(lǐng)域的發(fā)展有了新的思路與新的技術(shù)支持。
新技術(shù)、新工具的出現(xiàn)總是同時伴隨著機(jī)遇與挑戰(zhàn)。在數(shù)智化時代背景下,要重視檔案領(lǐng)域的人才培養(yǎng),未來檔案部門從業(yè)者要掌握更為先進(jìn)的技術(shù)方法、工具與更為全面的專業(yè)知識技能,跟上技術(shù)發(fā)展的腳步,做到與時俱進(jìn)。在充分發(fā)揮數(shù)字技術(shù)潛力的同時,還要重視與之俱來的隱私與版權(quán)、倫理與法律、數(shù)據(jù)的安全等問題,享受技術(shù)與工具帶來的便利和高效的同時,也要注意自身的信息安全、隱私安全。面對即將來臨的數(shù)實(shí)共生新世界,大語言模型與檔案領(lǐng)域?qū)鲎渤龈k爛的火花。