大語言模型與檔案資源開發(fā)：前景、挑戰(zhàn)與應(yīng)對＊

2024-01-26 03:04:55張丹

山西檔案 2023年5期

張丹

（鞍山市退役軍人服務(wù)中心鞍山 114001）

0 引言

檔案作為重要信息資源和獨(dú)特歷史文化遺產(chǎn)，價值日益凸顯。檔案工作是維護(hù)黨和國家歷史真實(shí)面貌、保障人民群眾根本利益的重要事業(yè)。經(jīng)驗(yàn)得以總結(jié)，規(guī)律得以認(rèn)識，歷史得以延續(xù)，各項(xiàng)事業(yè)得以發(fā)展，都離不開檔案。[1]隨著新一代信息技術(shù)的發(fā)展與應(yīng)用，檔案工作環(huán)境、對象、內(nèi)容發(fā)生巨大變化。[2]以ChatGPT 為代表的生成式AI 應(yīng)用于檔案資源管理與開發(fā)活動成為大家關(guān)注的重點(diǎn)問題。檔案工作要及時關(guān)注技術(shù)環(huán)境的飛速發(fā)展，要擁抱數(shù)字轉(zhuǎn)型，要即時融入數(shù)字化的浪潮中，運(yùn)用大語言模型等生成式AI賦能檔案工作具有重要的研究空間和發(fā)展前景。

1 大語言模型和檔案資源開發(fā)的內(nèi)涵與外延

大語言模型（Large Language Model）是一種旨在理解和生成人類語言的人工智能模型。通過對海量文本進(jìn)行訓(xùn)練，學(xué)習(xí)語言的結(jié)構(gòu)、規(guī)則和語義，可以生成具有自然語言風(fēng)格的文本或者回答自然語言的問題。大語言模型是深度學(xué)習(xí)的應(yīng)用之一，它的發(fā)展與深度學(xué)習(xí)技術(shù)密切相關(guān)，并且應(yīng)用領(lǐng)域非常廣泛，包括但不限于自然語言處理、機(jī)器翻譯、對話系統(tǒng)、文本生成等。隨著智能技術(shù)的不斷迭代和訓(xùn)練數(shù)據(jù)的不斷擴(kuò)充，未來ChatGPT 等大語言模型將會有更為出色的產(chǎn)品表現(xiàn)和更為廣闊的應(yīng)用場景。

檔案資源是指由檔案館、檔案室等檔案保管機(jī)構(gòu)所收藏和管理的各種檔案文獻(xiàn)的總和，包括歷史檔案、文化檔案、科技檔案、經(jīng)濟(jì)檔案、社會檔案等。這些檔案文獻(xiàn)記錄了社會發(fā)展的歷史、文化和科技等方面的信息，是人們了解和研究一個國家、一個地區(qū)、一個時期的重要信息來源。檔案資源作為原始信息的載體，是歷史的記錄憑證，擁有優(yōu)秀的可信度。它不僅涵蓋科技、紅色、軍事、文化等多個領(lǐng)域，還有文本、音頻、視頻等多種儲存形式。另外檔案資源還會隨著社會的發(fā)展與時間的推移，不斷產(chǎn)生和積累，內(nèi)容變得更加豐富。因此，檔案資源在作為歷史或者社會研究資料方面、作為人類獲取知識、方法與技能的途徑方面、作為承擔(dān)社會文化記憶、促進(jìn)人類文明進(jìn)步方面都有著重要的指導(dǎo)作用和實(shí)踐意義。

2 大語言模型與檔案資源開發(fā)的前景

2.1 大語言模型賦能檔案資源開發(fā)過程

在自然語言處理領(lǐng)域，大語言模型可以通過對輸入文本進(jìn)行分析和學(xué)習(xí)，將其歸類到一個或多個預(yù)定義的類別中，在機(jī)器翻譯、對話系統(tǒng)、文本生成等領(lǐng)域都有廣泛應(yīng)用。

大語言模型能憑借強(qiáng)大的自然語言處理能力，在檔案資源開發(fā)利用過程中持續(xù)賦能，挖掘和分析更多檔案知識內(nèi)容，并自動將其歸類到相應(yīng)的主題或類別中，還能提供多樣式、智能化的檔案服務(wù)，方便用戶查找與利用。比如大語言模型的智能分類與檢索功能可以應(yīng)用于數(shù)字檔案館的建設(shè)中，從而實(shí)現(xiàn)智能化檔案服務(wù)。用戶通過與AI 大模型進(jìn)行溝通問答即可高效獲取所需要的檔案資源內(nèi)容，大模型在多次人機(jī)對話反饋中，對用戶的檔案信息需求和檢索偏好有更深入的了解和分析，檢索與提供的檔案資源更為精準(zhǔn)，并且生成式AI 還可以提供個性化定制檢索服務(wù)。[3]

大語言模型進(jìn)行深度學(xué)習(xí)的前提是需要接受并分析大量的信息與數(shù)據(jù)，而檔案館藏在為大語言模型的訓(xùn)練提供優(yōu)質(zhì)的、豐富的、原始的訓(xùn)練文本方面具有天然優(yōu)勢。檔案資源因模態(tài)多、類型廣、數(shù)量大的特點(diǎn)，在大語言模型出現(xiàn)之前，借助智能技術(shù)對其進(jìn)行深度挖掘與開發(fā)存在一定難度，也難以保證其準(zhǔn)確度與可用性?？傊笳Z言模型的出現(xiàn)與應(yīng)用加快了檔案資源開發(fā)的信息化進(jìn)程，提升了檔案管理與開發(fā)的效率。

2.2 大語言模型挖掘檔案資源的多重價值

檔案中包含大量歷史文獻(xiàn)、資料和數(shù)據(jù)，是研究歷史、文化、社會等方面的重要素材。檔案資源的開發(fā)與利用可以為文獻(xiàn)研究提供真實(shí)、全面的歷史記錄與證據(jù)。其次，檔案作為人類珍貴的智慧結(jié)晶與知識財(cái)富，存在豐富的潛在價值。對其蘊(yùn)含的豐富知識進(jìn)行挖掘與分析，對文本內(nèi)容進(jìn)行情感分析、關(guān)鍵詞提取等，整理成具有價值的公共檔案資料，可用于學(xué)術(shù)研究以及文化傳承等領(lǐng)域，可以提高公眾對檔案資源的認(rèn)識和理解，推動學(xué)科的發(fā)展進(jìn)步，也為公眾的知識傳承奠定基礎(chǔ)。

基于大語言模型的文本分析與文本總結(jié)功能，生成式AI 不但可以自動生成檔案文本的摘要、目錄與索引等，還能自動生成智慧數(shù)據(jù)，優(yōu)化檔案工作者的工作內(nèi)容與方式，減少簡單重復(fù)類工作耗時耗力的同時也降低人工干預(yù)和出錯率。此外，研究者可以利用生成式AI 技術(shù)構(gòu)建基于語義關(guān)系的知識圖譜，連接不同時代、不同地方、不同領(lǐng)域的檔案資源，有助于提高檔案資源開發(fā)的廣度與深度。再者，在AI大模型的加持下，文化遺產(chǎn)資源可以帶來可視化與沉浸式展演的交互體驗(yàn)，用戶直接與大規(guī)模資源對象中的分布式內(nèi)容和隱含知識實(shí)時交互。既實(shí)現(xiàn)了文化遺產(chǎn)再活化，又降低了使用門檻，提升了服務(wù)體驗(yàn)。

3 大語言模型在檔案資源開發(fā)中的挑戰(zhàn)

3.1 檔案資源的多樣性和復(fù)雜性對于大語言模型的挑戰(zhàn)

檔案資源具有多樣性和復(fù)雜性的特點(diǎn)，不僅涵蓋多種類型，如歷史檔案、文化檔案、科技檔案、經(jīng)濟(jì)檔案、社會檔案等，還會涉及到不同的歷史、文化階段以及不同的社會背景。大語言模型要有廣泛的文本訓(xùn)練量以及足夠的深度來理解和解釋特定時期、特定環(huán)境下的檔案文本信息。檔案資源的多樣性還體現(xiàn)在多模態(tài)上，除了常見的文本類型，還涉及圖像、音頻以及視頻等多種模態(tài)的數(shù)據(jù)類型。大語言模型不僅需要識別和解析多模態(tài)信息，還要分析多模態(tài)信息之間的聯(lián)系，挖掘檔案之間的關(guān)聯(lián)與共性，進(jìn)而形成同一館藏內(nèi)的檔案關(guān)系網(wǎng)。不同歷史階段、不同地區(qū)的檔案資料記載語言差異較大，機(jī)器翻譯技術(shù)雖可以幫助消除語言障礙，但這對于生成式AI 技術(shù)在執(zhí)行機(jī)器翻譯任務(wù)的準(zhǔn)確性與自然度有較高要求。

3.2 檔案資源中的稀缺數(shù)據(jù)和文獻(xiàn)缺失的問題

檔案資源作為重要的信息資源，具有數(shù)量龐大的顯著特點(diǎn)，檔案數(shù)據(jù)集通常來自多個數(shù)據(jù)源，并且難以保證完整性與可靠性。檔案資源中會存在語言表述不夠完備、晦澀難懂、模糊不清等情況，部分還可能存在稀缺數(shù)據(jù)和文獻(xiàn)缺失的問題。檔案資源中低質(zhì)量的數(shù)據(jù)直接影響到大語言模型的應(yīng)用結(jié)果，大語言模型需要能夠在數(shù)據(jù)可靠性、完整性不足的情境下，對檔案資源進(jìn)行處理、分析與加工，并解決數(shù)據(jù)噪聲等問題。這些復(fù)雜任務(wù)不僅要求大語言模型能夠提供高效的運(yùn)算能力，還需要具備通過智能分析來完成深度加工的功能。再者，生成式AI 在需要邏輯判斷或者處理最新信息的任務(wù)過程中可能會產(chǎn)生虛假、不可靠信息以及生成可信度不高的內(nèi)容，這對于檔案資源的開發(fā)與利用以及傳播過程帶來挑戰(zhàn)。

3.3 隱私和版權(quán)問題對于大語言模型應(yīng)用于檔案資源的限制

隱私問題在信息技術(shù)與智能技術(shù)高速發(fā)展的數(shù)智時代是一個始終繞不開的話題。大語言模型的一個顯著特征是模型訓(xùn)練數(shù)據(jù)量龐大，需要有大量的相關(guān)數(shù)據(jù)支撐。隨著其功能不斷開發(fā)和在多領(lǐng)域的廣泛應(yīng)用，在內(nèi)容生產(chǎn)的能力和特性被認(rèn)可的同時，隱私和版權(quán)等潛在問題也引起人們的重視與擔(dān)憂。以ChatGPT 為代表的大語言模型在檔案資源開發(fā)利用的過程中，需要使用大量的檔案資源數(shù)據(jù)進(jìn)行訓(xùn)練和分析。檔案資源尤其是紅色檔案、歷史檔案、科技檔案等，作為國家與民族的寶貴知識財(cái)富，有著獨(dú)特的地位和全面的價值，對紅色檔案資源的開發(fā)、利用與保護(hù)不僅體現(xiàn)出其文化價值，還展現(xiàn)了深遠(yuǎn)的歷史意義。檔案資源能夠保持健康、可持續(xù)被利用的一個前提就是檔案資源中的隱私以及版權(quán)問題被予以重視和保護(hù)。

4 應(yīng)對挑戰(zhàn)的方法和策略

4.1 數(shù)據(jù)預(yù)處理以提高大語言模型的效果

檔案資源中的數(shù)據(jù)質(zhì)量會影響大語言模型對檔案資源開發(fā)與利用的效率。對于檔案資源中的原始數(shù)據(jù)，在開發(fā)前需要進(jìn)行數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理是對原始數(shù)據(jù)進(jìn)行一系列操作，以準(zhǔn)備或調(diào)整數(shù)據(jù)，使其更符合后續(xù)分析或模型使用的需求。一般包括數(shù)據(jù)集成、數(shù)據(jù)清洗、探索性數(shù)據(jù)分析和數(shù)據(jù)轉(zhuǎn)換等步驟。

經(jīng)過數(shù)據(jù)預(yù)處理，檔案資源中的一些缺失、重復(fù)、異常的數(shù)據(jù)會被發(fā)現(xiàn)；原始數(shù)據(jù)中的數(shù)據(jù)類型和數(shù)據(jù)格式可能并不符合分析需要，數(shù)據(jù)預(yù)處理可以幫助將數(shù)據(jù)轉(zhuǎn)換為適合分析的形式；不同的數(shù)據(jù)來源和數(shù)據(jù)格式，數(shù)據(jù)命名和單位可能存在差異，會被整合到一起，并進(jìn)行規(guī)范化處理。數(shù)據(jù)預(yù)處理操作對于利用大語言模型對檔案資源進(jìn)行開發(fā)的過程有著至關(guān)重要的意義與作用，將會直接影響到其分析與挖掘結(jié)果的準(zhǔn)確性與可靠性，是檔案資源開發(fā)前不可或缺的一步。

4.2 加強(qiáng)數(shù)據(jù)共享與協(xié)作解決缺失遺漏問題

目前ChatGPT 等主流的大語言模型通常是黑盒模型，難以解釋其決策和推理過程。背后所依靠的算法具有不透明、不穩(wěn)定的“黑箱”屬性。因此會引起使用者對生成過程與生成結(jié)果的可靠性與公平性進(jìn)行質(zhì)疑。大語言模型如果在未來的發(fā)展迭代過程中增加顯示其運(yùn)算推理與決策生成的過程，以解決“黑盒”的透明度問題，可以減少部分使用者的質(zhì)疑與顧慮。

檔案資料自身數(shù)量龐大，難免出現(xiàn)文件缺失與遺漏的問題。[4]部分檔案機(jī)構(gòu)在歸檔時，會在盲目追求效率的過程中對檔案資源的取舍沒有做出準(zhǔn)確的判斷。把一些看似不重要的檔案文件進(jìn)行舍棄，或一系列文件全盤收入，從而導(dǎo)致在存儲的過程出現(xiàn)檔案資源的缺失或重復(fù)。[4]檔案資源開發(fā)過程面臨數(shù)據(jù)稀缺以及文獻(xiàn)缺失等問題時，生成式AI 可能會因數(shù)據(jù)質(zhì)量問題受到干擾和影響，導(dǎo)致生成結(jié)果偏離預(yù)期而無法滿足檔案資源開發(fā)的預(yù)期需求。這需要通過檔案工作者采用人工復(fù)核與校對、電子與紙質(zhì)兩種媒介下保存的檔案資源相互參照、鼓勵不同檔案機(jī)構(gòu)建立部分?jǐn)?shù)據(jù)共享以及加強(qiáng)檔案館內(nèi)、館間檔案資源協(xié)作等方式解決。

4.3 大語言模型在檔案資源開發(fā)中的隱私保護(hù)和版權(quán)合規(guī)

檔案部門要加強(qiáng)對檔案工作人員的培訓(xùn)管理，不斷提升檔案管理人員專業(yè)知識與技能。從業(yè)者對于檔案資源要有清晰的定位和分類，能精確識別出涉及敏感問題或隱私問題的檔案資源內(nèi)容。對于此類檔案或檔案中的部分內(nèi)容，采用傳統(tǒng)開發(fā)方法進(jìn)行分析、整理與開發(fā)，暫不借助大語言模型。此外，還要提高檔案工作者的隱私與版權(quán)意識，對隱私與版權(quán)問題做到高度重視和高度敏感。再者，檔案工作者需要采取數(shù)據(jù)脫敏、訪問控制和加密等相關(guān)措施，確保大語言模型在檔案資源開發(fā)過程中的隱私信息安全。

在政策層面，還需要通過制定與發(fā)布詳細(xì)的數(shù)據(jù)隱私和安全政策，以及完善相關(guān)法律法規(guī)體系來加強(qiáng)對AI 大模型的監(jiān)管。如何處理好數(shù)據(jù)安全和監(jiān)管防控過度之間的平衡問題是目前多個國家都要考慮的難題，不但要做好隱私保護(hù)、規(guī)避隱私泄露的風(fēng)險，而且要避免過于絕對的“一刀切”做法。

5 結(jié)語

大數(shù)據(jù)與人工智能技術(shù)的迅猛發(fā)展正在推動人類社會快速向數(shù)字文明邁進(jìn)。在以Chat-GPT 為代表的大語言模型加持下，人類的內(nèi)容生產(chǎn)范式即將迎來新一輪革命，檔案資源開發(fā)與利用領(lǐng)域的發(fā)展有了新的思路與新的技術(shù)支持。

新技術(shù)、新工具的出現(xiàn)總是同時伴隨著機(jī)遇與挑戰(zhàn)。在數(shù)智化時代背景下，要重視檔案領(lǐng)域的人才培養(yǎng)，未來檔案部門從業(yè)者要掌握更為先進(jìn)的技術(shù)方法、工具與更為全面的專業(yè)知識技能，跟上技術(shù)發(fā)展的腳步，做到與時俱進(jìn)。在充分發(fā)揮數(shù)字技術(shù)潛力的同時，還要重視與之俱來的隱私與版權(quán)、倫理與法律、數(shù)據(jù)的安全等問題，享受技術(shù)與工具帶來的便利和高效的同時，也要注意自身的信息安全、隱私安全。面對即將來臨的數(shù)實(shí)共生新世界，大語言模型與檔案領(lǐng)域?qū)鲎渤龈k爛的火花。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

大語言模型與檔案資源開發(fā)：前景、挑戰(zhàn)與應(yīng)對＊