代林序 張玉潔
摘 要:文章解析了檔案機構(gòu)主導(dǎo)的機器學(xué)習(xí)應(yīng)用于檔案管理的實驗項目,旨在充分認(rèn)識機器學(xué)習(xí)應(yīng)用的可行性以及應(yīng)用邏輯與方法?;趯Π拇罄麃喰履贤柺恐輽C器學(xué)習(xí)實驗的過程分析,發(fā)現(xiàn)充足且高質(zhì)量的數(shù)據(jù)集、軟硬件等基礎(chǔ)設(shè)施及專業(yè)人才是機器學(xué)習(xí)技術(shù)成功應(yīng)用的重要因素。因此,檔案機構(gòu)應(yīng)用機器學(xué)習(xí)技術(shù)可從推進(jìn)檔案數(shù)據(jù)化進(jìn)程、加強技術(shù)型人才儲備、立足檔案管理實踐制定應(yīng)用方案等方向探索。
關(guān)鍵詞:檔案管理;檔案鑒定;機器學(xué)習(xí)
分類號:G273
Application and Challenge of Machine Learning in Archives Management
—— Based on the Investigation and Enlightenment of Machine Learning Experiment in New South Wales Archives
Dai Linxu1, Zhang Yujie2
(1.School of Public Administration, Sichuan University, Chengdu, Sichuan, 610065; 2.School of Information Resource Management, Renmin University of China, Beijing, 100872)
Abstract: The article analyzes an experimental project led by an archival institution on the application of machine learning to archival management with the aim of fully understanding the feasibility of machine learning applications and the logic and methods of application. Based on the process analysis of machine learning experiments in New South Wales, Australia, it was found that adequate and high-quality datasets, infrastructure such as hardware and software, and professional talents are important elements for the successful application of machine learning technology. Therefore, the application of machine learning technology by archival institutions can be explored in the direction of promoting the process of archival data, strengthening the reserve of technologyoriented talents, and formulating application solutions based on archival management practices.
Keywords:Archives Management; Archives Appraisal; Machine Learning
數(shù)字環(huán)境下檔案管理工作變得愈加復(fù)雜:一方面,數(shù)字化、數(shù)據(jù)化檔案資源數(shù)量龐大且增長迅速[1],為以人工為主的檔案管理工作帶來了巨大壓力,同時,類型多樣、半結(jié)構(gòu)化及非結(jié)構(gòu)化的檔案信息或數(shù)據(jù)也使檔案管理工作變得更加煩瑣和復(fù)雜[2];另一方面,檔案服務(wù)對象也呈現(xiàn)出多樣化趨勢,傳統(tǒng)的檢索及借閱服務(wù)已經(jīng)無法滿足用戶的個性化需求,檔案館難以提供專業(yè)化、知識化的服務(wù)內(nèi)容或特色服務(wù)[3]。因此,尋求新技術(shù)以提高檔案管理效率及現(xiàn)代化程度,促進(jìn)檔案管理工作自動化、智能化已成為迫切需求[4],機器學(xué)習(xí)作為人工智能中最活躍的技術(shù)領(lǐng)域之一,探究機器學(xué)習(xí)在檔案管理中的應(yīng)用成為實踐熱點。
在研究層面,機器學(xué)習(xí)在檔案管理中的應(yīng)用主要從以下方面展開:一是機器學(xué)習(xí)應(yīng)用于檔案管理的合理性。一方面,數(shù)字檔案具有直接的機器可讀性,計算機算法可以檢測、識別和捕捉包括數(shù)據(jù)結(jié)構(gòu)層次、元數(shù)據(jù)層次及文件表層的數(shù)字檔案信息,有助于用戶對檔案資源進(jìn)行多方面、多層次的挖掘[5]。另一方面,在數(shù)字環(huán)境下,檔案館龐大的館藏與有限的人力資源之間的矛盾愈加凸顯,計算機為輔助、人工為主導(dǎo)的管理模式存在效率低、成本高、難以挖掘出檔案信息中隱含價值等缺點[6]。二是機器學(xué)習(xí)應(yīng)用于檔案管理的模式。研究認(rèn)為,機器學(xué)習(xí)的應(yīng)用邏輯是以檔案管理需求為導(dǎo)向,以具體應(yīng)用場景為核心,即檔案管理各業(yè)務(wù)環(huán)節(jié)中面臨著投入大量人力勞動的壓力及低效率風(fēng)險時,需要利用機器學(xué)習(xí)實現(xiàn)自動化及智能化處理[7]。大量研究已立足于檔案管理具體應(yīng)用場景開展算法設(shè)計和可行性驗證,如檔案類別的重新劃分和自動分類[8]、歷史檔案信息的提取分析[9]、檔案的保存期限及密級鑒定[10]、檔案檢索[11]等。三是在檔案管理中應(yīng)用機器學(xué)習(xí)的挑戰(zhàn)及對策。首先,機器學(xué)習(xí)的時間成本過高,在數(shù)據(jù)及信息的識別和理解方面也具有一定的局限性[12]。研究指出,人機協(xié)同和融合的檔案管理模式有助于實現(xiàn)機器與人兩者的優(yōu)勢互補[13]。其次,機器理解具有復(fù)雜結(jié)構(gòu)的檔案資源存在一定困難,同時,冗余及低質(zhì)量、不相關(guān)的數(shù)據(jù)會導(dǎo)致誤導(dǎo)性偏差或運行錯誤[14]。研究認(rèn)為,可以比較不同算法的訓(xùn)練成果選出最優(yōu)解,并通過不斷地訓(xùn)練提高其精確性。最后,檔案本身具有的保密性,應(yīng)用機器學(xué)習(xí)必然需要大量的檔案數(shù)據(jù),存在數(shù)據(jù)泄露等風(fēng)險[15]。因此研究認(rèn)為,需要構(gòu)建一個結(jié)構(gòu)合理的責(zé)任體系和利用規(guī)范,避免數(shù)據(jù)的濫用和盜用[16]。
在實踐層面,一些探索性、實驗性的實踐項目陸續(xù)開展,多由檔案工作者與技術(shù)研究人員等跨界組成研究團隊展開,且以文本數(shù)據(jù)和圖像數(shù)據(jù)作為主要的實驗對象[17]。例如2018年,In Codice Ratio團隊以梵蒂岡檔案館(VSA)保存的歷史檔案為實驗對象,使用深度學(xué)習(xí)結(jié)構(gòu)中的卷積神經(jīng)網(wǎng)絡(luò)算法開發(fā)內(nèi)容分析工具,識別歷史檔案中大量的手寫文字并進(jìn)行單詞轉(zhuǎn)化,以期為研究人員提供更便捷、高效的檢索服務(wù)[18];2017年,澳大利亞新南威爾士州檔案館(NSWSAR)團隊以機構(gòu)非結(jié)構(gòu)化檔案數(shù)據(jù)作為實驗對象,借助現(xiàn)成的機器學(xué)習(xí)工具對數(shù)據(jù)進(jìn)行分類和鑒定[19];同年,美國自然歷史博物館以其植物標(biāo)本圖像作為實驗對象,使用卷積神經(jīng)網(wǎng)絡(luò)算法分析圖像特征并按照形態(tài)相似程度進(jìn)行自動分類[20]。從大多數(shù)實踐項目呈現(xiàn)出的實驗結(jié)果來看,經(jīng)過充分的訓(xùn)練,算法的準(zhǔn)確率能達(dá)到較高水平,且在檔案管理實踐的可容錯范圍內(nèi),這也進(jìn)一步驗證了機器學(xué)習(xí)應(yīng)用于檔案管理領(lǐng)域的可行性。
綜上,現(xiàn)有研究對于機器學(xué)習(xí)應(yīng)用于檔案管理的可行性及應(yīng)用模式進(jìn)行了較為充分的研究,但在實踐中,不同領(lǐng)域、不同管理機構(gòu)、不同全宗形成或持有的檔案都有其特殊性,機器學(xué)習(xí)仍然需要人工識別和預(yù)測任務(wù)、選擇合適的算法、獲得足夠的訓(xùn)練、花費大量的時間和成本[21],在應(yīng)用過程中也會面臨客觀條件受限的可能。而目前缺少案例研究對實踐經(jīng)驗進(jìn)行充分的分析,對機器學(xué)習(xí)如何應(yīng)用于檔案管理提供的參考較為有限。因而,文章以案例研究的方法對澳大利亞新南威爾士州檔案館機器學(xué)習(xí)實驗進(jìn)行介紹,以期為我國檔案機構(gòu)探索機器學(xué)習(xí)的具體應(yīng)用提供方向。
2.1 實驗背景與目標(biāo)
機器學(xué)習(xí)在文件及檔案管理領(lǐng)域有大量潛在的應(yīng)用場景,然而在該技術(shù)被大量采用之前,需要有經(jīng)過驗證的使用案例來說明這些工具的工作效果,并確定其可能帶來的風(fēng)險[22]。NSWSAR機器學(xué)習(xí)實驗詳細(xì)記錄了其算法及工具選擇、數(shù)據(jù)處理、實驗方法、結(jié)果評估的全過程,充分反映了機器學(xué)習(xí)在檔案管理實踐中的應(yīng)用效果,且語料庫為行政文書類檔案數(shù)據(jù),相較于其他案例與我國應(yīng)用現(xiàn)實更相關(guān),實驗經(jīng)驗具有很強的可移植性和可操作性;同時,該實驗在缺少技術(shù)成員支撐與經(jīng)費支持的情況下采用了低成本及使用現(xiàn)成技術(shù)的解決方案,也為檔案館解決應(yīng)用機器學(xué)習(xí)的技術(shù)障礙提供了新思路。NSWSAR數(shù)字檔案團隊于2017年計劃開展內(nèi)部和外部實驗,探索機器學(xué)習(xí)在檔案管理中的應(yīng)用。首先,該團隊于2017年11月至12月完成了一次內(nèi)部實驗。該實驗采用現(xiàn)成的機器學(xué)習(xí)軟件,對照該機構(gòu)檔案鑒定的標(biāo)準(zhǔn)與規(guī)定對非結(jié)構(gòu)化檔案數(shù)據(jù)的語料庫進(jìn)行分類。這一檔案語料庫已經(jīng)過前期的人工鑒定,通過對比機器學(xué)習(xí)算法的分類結(jié)果與人工鑒定結(jié)果,測試機器學(xué)習(xí)算法的準(zhǔn)確度。其次,數(shù)字檔案團隊和澳大利亞總理與內(nèi)閣部(DPC)在2018年6月至7月合作開展了一次外部實驗,主要目標(biāo)是驗證內(nèi)部實驗形成的算法模型與DPC提供的電子文件語料庫的匹配程度。
2.2 內(nèi)部實驗
在前期準(zhǔn)備階段,一方面,由于資源、預(yù)算有限,實驗選擇針對Python編程語言的免費、開源的機器學(xué)習(xí)庫Scikit-Learn作為技術(shù)工具,該工具是為用戶提供可進(jìn)行模型擬合、數(shù)據(jù)預(yù)處理、模型選擇和評估的高質(zhì)量、有據(jù)可查的規(guī)范化工具集,其優(yōu)勢在于簡單有效、支持監(jiān)督和無監(jiān)督學(xué)習(xí)[23];另一方面,項目團隊選擇用于內(nèi)部實驗的語料庫是2016年由州政府某部門遷移至數(shù)字檔案館系統(tǒng)中的檔案集合,其特殊之處在于它包含了完整的機構(gòu)文件夾結(jié)構(gòu)。在遷移時,由檔案館與該部門合作,根據(jù)分類和處置機構(gòu)行政文件的一般性標(biāo)準(zhǔn)(GA28)進(jìn)行了人工鑒定,鑒定結(jié)果為:共計12369份檔案需要作為國家檔案被保存,而完整的檔案集合由30GB的數(shù)據(jù)組成,分為7561個文件夾,包含42653個文件[24]。
在實驗測試階段,項目使用機器學(xué)習(xí)算法進(jìn)行自動化分類的具體步驟如下:
(1)文本提取。為確保項目后期的順利開展和進(jìn)一步的文本處理,項目選擇了容易被提取文本的文件類型如PDF、DOCX、DOC格式的文件,因此在被列為國家檔案的12369份文件中,只有8784份文件被選中使用。首先在對樣本集進(jìn)行簡單排序后,使用Python算法從文件中提取文本,并列出作為唯一標(biāo)識符的文件名、所屬分類和文本提取內(nèi)容。
(2)數(shù)據(jù)清理。項目團隊采取了一種非?;镜臄?shù)據(jù)清理方法,即刪除文件格式、刪除休止符、刪除不需要的文件以及將所有字母轉(zhuǎn)換為小寫。
(3)文本向量化。機器學(xué)習(xí)和深度學(xué)習(xí)算法不能直接對文本進(jìn)行處理,必須將文本轉(zhuǎn)化為機器學(xué)習(xí)算法能夠理解和處理的數(shù)值,因此實驗需要將文本轉(zhuǎn)化為數(shù)字特征向量,使用詞袋模型構(gòu)建“文檔—詞項”矩陣,該矩陣描述了文件中主要詞項的出現(xiàn)頻率。
(4)詞頻—逆向文件頻率加權(quán)計算(TF-IDF)。在文本向量化過程中容易將出現(xiàn)頻率較高的無意義詞條或與文件主要內(nèi)容相關(guān)度較低的詞條填充至矩陣中,如“Are”“The”“It”等,但這些詞條對于“文檔—詞項”矩陣表示沒有意義。因此項目團隊使用TF-IDF權(quán)重計算方法判斷該詞條是否是文件的關(guān)鍵詞;之后訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分組開展實驗。實驗采用了標(biāo)準(zhǔn)比例,即75%的訓(xùn)練數(shù)據(jù)和25%的測試數(shù)據(jù)。項目團隊從語料庫抽取了預(yù)分類“需要作為國家檔案”數(shù)據(jù)集中的75%,并利用這些數(shù)據(jù)來訓(xùn)練建立模型的算法,項目使用了樸素貝葉斯模型和多層感知模型兩種廣泛應(yīng)用的機器學(xué)習(xí)算法來建立模型。訓(xùn)練完成后,同樣的算法和模型被用來處理納入測試數(shù)據(jù)集的其他25%的數(shù)據(jù)?;诖?,項目可以評估模型的準(zhǔn)確度并確定、比較兩種算法準(zhǔn)確分類的百分比。
在結(jié)果分析階段,如表2所示,使用多層感知器算法的分類匹配率最高達(dá)到84%;同時綜合表1及表2,比較兩種算法的測試結(jié)果以及兩種算法在未清理數(shù)據(jù)和已清理數(shù)據(jù)中運行的表現(xiàn),項目團隊認(rèn)為,機器學(xué)習(xí)技術(shù)能夠協(xié)助對未分類的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分類處置[25]。另外,項目團隊根據(jù)實驗經(jīng)驗總結(jié)了應(yīng)用機器學(xué)習(xí)技術(shù)的局限性,如算法分類過程中所犯的錯誤只會隨著時間的推移在模型中累積,且不會得到糾正,這將會導(dǎo)致最終測試結(jié)果產(chǎn)生偏差。
2.3 外部實驗
外部實驗的開展主要是為了驗證前期內(nèi)部實驗的結(jié)果,兩者相比,外部實驗在參與主體方面涉及一個外部機構(gòu)合作伙伴;在檔案數(shù)據(jù)方面使用的語料庫為數(shù)據(jù)量更大、涉及更多樣處置結(jié)果和類別并且?guī)в袠?biāo)簽的語料庫,這種大規(guī)模且更為復(fù)雜的檔案數(shù)據(jù)集也非常適用于驗證前期內(nèi)部實驗結(jié)果;在技術(shù)使用方面選擇與內(nèi)部實驗相同的多層感知器算法,并將Scikit-Learn恢復(fù)為內(nèi)部實驗的初始設(shè)置,同時增加使用了Aspose文件格式API工具從電子文件中提取文本,減少數(shù)據(jù)浪費,為算法模型提供了更多數(shù)據(jù)。
在前期準(zhǔn)備階段,項目團隊首先從DPC提供的語料庫中提取出用于本次實驗的電子文件共108064個,其次于2018年6月27日至7月5日進(jìn)行文本提取工作,為算法模型準(zhǔn)備測試數(shù)據(jù),由于部分文件中包含數(shù)字圖像或圖表數(shù)據(jù)不適合應(yīng)用算法模型進(jìn)行分類測試,未能成功提取文本,最終篩選得到86453個可用的文件,最后團隊將電子文件轉(zhuǎn)換為CSV文件格式以便在模型中運行[26]。
在實驗測試階段,算法模型第一次運行后分類預(yù)測成功率高達(dá)91%和97%(試驗1、試驗2),項目團隊判斷該語料庫存在數(shù)據(jù)權(quán)重失衡的問題,其中大概三分之二的數(shù)據(jù)(62988個文件)都屬于FA254-02.02.02這個類別,因此該試驗的預(yù)測結(jié)果不具有可信度。為使數(shù)據(jù)集更具代表性,從而使預(yù)測結(jié)果更加真實,項目團隊決定排除該類別的文件運行測試(測試1),同時使用根據(jù)不同類別和保管期限表分類的部分語料進(jìn)行了一系列測試,以了解預(yù)測準(zhǔn)確性如何根據(jù)語料庫包含的處置類別變化而變化(測試2—測試6)。另外,項目團隊以21805個物理文件(即沒有成功提取文本進(jìn)行分類的電子文件)的XML元數(shù)據(jù)作為測試數(shù)據(jù)集進(jìn)行最后測試(測試7)。
在結(jié)果分析階段,外部實驗測試結(jié)果[27](如表 3所示)與內(nèi)部實驗的結(jié)果大體相當(dāng),驗證了機器學(xué)習(xí)算法的可用性,但為保證分類結(jié)果的正確性,仍然離不開人工的檢查和微調(diào);同時,本次實驗說明了語料庫的特征如數(shù)據(jù)類別覆蓋范圍的大小以及復(fù)雜性對機器學(xué)習(xí)算法的運行結(jié)果有一定的影響。
2.4 實驗經(jīng)驗與不足
NSWSAR的實驗表明,檔案機構(gòu)可以通過機器學(xué)習(xí)來實現(xiàn)數(shù)字檔案的自動化分類以及完成識別具備長久保存價值的數(shù)字檔案的決策過程,實驗數(shù)據(jù)也反映出使用機器學(xué)習(xí)具有相當(dāng)高的準(zhǔn)確性,并且原則上,這種算法模型可以很容易地集成到檔案館的數(shù)字檔案館系統(tǒng)中,以提高檔案分類、鑒定的效率與質(zhì)量。文章根據(jù)NSWSAR實驗進(jìn)行過程中面臨的障礙及解決方案總結(jié)經(jīng)驗:
首先,充足且高質(zhì)量的數(shù)據(jù)集是機器學(xué)習(xí)實驗的關(guān)鍵。正如前文所強調(diào)的,數(shù)據(jù)是機器學(xué)習(xí)的核心,一方面,機器學(xué)習(xí)需要大量的數(shù)據(jù)開展訓(xùn)練,另一方面數(shù)據(jù)集的規(guī)模、質(zhì)量和特征等要素對機器學(xué)習(xí)算法模型的學(xué)習(xí)效果和預(yù)測效果都有極大的影響。理論上說,數(shù)據(jù)量越大,所訓(xùn)練出的機器學(xué)習(xí)算法模型也就越逼近真實情況;數(shù)據(jù)集的質(zhì)量越好,所訓(xùn)練出的算法模型準(zhǔn)確率就越高,因此實驗前期準(zhǔn)備階段的基礎(chǔ)工作如數(shù)據(jù)清理、數(shù)據(jù)提取等就顯得尤為重要,例如NSWSAR數(shù)字檔案團隊在內(nèi)部實驗中首先在語料庫中進(jìn)行了篩選,其次通過文本提取的方式剔除機器無法讀取的信息,最后通過刪除休止符、刪除文件格式等基礎(chǔ)的操作進(jìn)行數(shù)據(jù)清理,在外部實驗中進(jìn)一步利用Aspose文件格式API集提升文本提取的質(zhì)量和效果,有效避免了數(shù)據(jù)浪費。
其次,軟硬件等基礎(chǔ)設(shè)施及專業(yè)人才是機器學(xué)習(xí)實驗的基礎(chǔ)。在基礎(chǔ)設(shè)施上,機器學(xué)習(xí)實驗不僅要有大量的訓(xùn)練數(shù)據(jù)集,而且還要在本地計算機上擁有足夠的計算能力來處理模型,同時在開發(fā)內(nèi)部軟件項目時應(yīng)編寫文檔齊全、測試良好的代碼。在專業(yè)人才支持上,實驗既需要專門的信息與通信技術(shù)或者數(shù)據(jù)科學(xué)方面的知識,也需要了解數(shù)據(jù)內(nèi)容和檔案管理知識及標(biāo)準(zhǔn)規(guī)范的專家。NSWSAR提供的資源有限,數(shù)字檔案團隊僅擁有一臺性能強大、具備充足內(nèi)存和固態(tài)硬盤的機器來運行模型,因此在內(nèi)部實驗期間團隊接收了一位具有機器學(xué)習(xí)算法運行經(jīng)驗的計算機專業(yè)研究生為實驗提供技術(shù)支持,利用Scikit-Learn提供的預(yù)構(gòu)建分類器算法減少算法設(shè)計開發(fā)的成本和時間。
然而NSWSAR開展的實驗僅說明了機器學(xué)習(xí)用于檔案管理的可行性,但該實驗尚未立足于新南威爾士州檔案管理的實踐環(huán)境進(jìn)行測試,如要將機器學(xué)習(xí)具體應(yīng)用于檔案管理實踐,還有更多亟需解決的問題,例如引入機器學(xué)習(xí)技術(shù)后如何相應(yīng)地調(diào)整檔案管理方法與流程?機器學(xué)習(xí)算法的偏差如何進(jìn)行檢測?應(yīng)用機器學(xué)習(xí)進(jìn)行檔案的分類、鑒定等工作后如何建立問責(zé)機制[28]?
把握人工智能發(fā)展的戰(zhàn)略機遇已成為中國檔案事業(yè)建設(shè)的關(guān)注重點,但實踐仍處于探索階段:一方面,人工智能技術(shù)應(yīng)用于檔案領(lǐng)域已獲得國家層面的鼓勵與推動。2017年國務(wù)院發(fā)布《新一代人工智能發(fā)展規(guī)劃》并提出,在人工智能發(fā)展的新階段把握人工智能技術(shù)屬性與社會屬性高度融合的特征,加大人工智能的研發(fā)和應(yīng)用力度,推進(jìn)社會治理現(xiàn)代化[29];2018年國家檔案局檔案科學(xué)技術(shù)研究所與科大訊飛簽署合作協(xié)議,共同推動人工智能技術(shù)在檔案管理中的應(yīng)用,以實現(xiàn)檔案智慧化轉(zhuǎn)型升級[30]。另一方面,整體實踐呈現(xiàn)出應(yīng)用場景集中、應(yīng)用范圍待拓展的狀況。目前我國實踐項目多采用檔案機構(gòu)與企業(yè)、科研機構(gòu)合作的模式,技術(shù)應(yīng)用場景集中于檔案數(shù)據(jù)化、影像修復(fù)、檔案分類鑒定等領(lǐng)域[31],如浙江省檔案館與科大訊飛合作并基于人工智能技術(shù)實現(xiàn)音視頻檔案的全文數(shù)據(jù)化,建立人物人臉數(shù)據(jù)庫[32];但相較而言,檔案分類鑒定場景下存在技術(shù)應(yīng)用難度大、風(fēng)險度高的問題。因此,借鑒NSWSAR機器學(xué)習(xí)實驗的經(jīng)驗,可為我國開展類似實驗項目提供探索方向:
第一,推動檔案數(shù)據(jù)化進(jìn)程。(1)為機器學(xué)習(xí)的應(yīng)用提供數(shù)據(jù)基礎(chǔ)。數(shù)字檔案是文字、圖像、視頻、音頻等多種形式組合的復(fù)雜信息,為機器學(xué)習(xí)提取、理解、分析信息帶來挑戰(zhàn),目前的實驗項目僅能對檔案的文本或圖像信息進(jìn)行識別和處理,應(yīng)用于檔案管理實踐則會造成檔案信息的損失,同時傳統(tǒng)的紙質(zhì)檔案數(shù)字化、數(shù)據(jù)化程度不足,其數(shù)字化版本與原生數(shù)字檔案相比元數(shù)據(jù)等背景信息不夠豐富和完整[33]。因此,推進(jìn)檔案數(shù)據(jù)化進(jìn)程,將數(shù)字態(tài)檔案轉(zhuǎn)化為數(shù)據(jù)態(tài),對檔案信息進(jìn)行拆分、提取、組合和結(jié)構(gòu)化,實現(xiàn)機器的可理解、可分析[34],為機器學(xué)習(xí)應(yīng)用于檔案管理并實現(xiàn)檔案管理智能化奠定基礎(chǔ)。(2)設(shè)計并建立配套的數(shù)據(jù)管理制度,實現(xiàn)管理技術(shù)工具、政策標(biāo)準(zhǔn)、流程步驟等的內(nèi)在統(tǒng)一。將機器學(xué)習(xí)應(yīng)用于檔案管理的具體業(yè)務(wù)環(huán)節(jié),需要檔案機構(gòu)調(diào)整原有的檔案管理方法或流程,明確融入機器學(xué)習(xí)且適用于檔案數(shù)據(jù)特征及要求的數(shù)據(jù)管理具體實踐內(nèi)容,包括數(shù)據(jù)收集、創(chuàng)建、處理、分析與存儲等環(huán)節(jié),保障數(shù)據(jù)管理政策與程序、規(guī)則與模型的完整性和長期可持續(xù)性。
第二,加強技術(shù)型人才儲備。機器學(xué)習(xí)技術(shù)的快速更新與發(fā)展要求具有相關(guān)技能的人才和專家來支持、促進(jìn)機器學(xué)習(xí)在檔案管理中的應(yīng)用。因此,當(dāng)前檔案機構(gòu)機器學(xué)習(xí)技術(shù)型人才和專家的缺乏,阻礙了技術(shù)的實施與推廣,以至于成為檔案機構(gòu)應(yīng)用機器學(xué)習(xí)的一大挑戰(zhàn),也給文件、檔案管理人員的專業(yè)能力提出了更高要求。為應(yīng)對此挑戰(zhàn),檔案機構(gòu)需要培養(yǎng)機器學(xué)習(xí)相關(guān)的專業(yè)知識和技術(shù)運用能力,加強對技術(shù)本身的理解,以確保滿足未來的文件及檔案管理需求。同時,應(yīng)提高檔案人才隊伍中高層次、高技能人才的比重,尤其需要補充計算機等專業(yè)背景的技術(shù)型人才。檔案工作者應(yīng)利用機器學(xué)習(xí)技術(shù)的出現(xiàn)所帶來的機會,探索技術(shù)潛力以及更廣泛的應(yīng)用場景,并且鼓勵跨機構(gòu)、跨國界交流和展示學(xué)習(xí)成果,以減輕行業(yè)內(nèi)部的知識和技能差距[35]。
第三,立足檔案管理實踐制定應(yīng)用方案。(1)檔案機構(gòu)需要根據(jù)其實際情況選擇合理可行的技術(shù)路線。一方面,檔案機構(gòu)可通過實驗對比、評估多種技術(shù)路線的實驗測試結(jié)果,選擇最優(yōu)的算法模型,同時,明確檔案數(shù)據(jù)類型及特征等因素對算法模型預(yù)測準(zhǔn)確性的影響,調(diào)整適應(yīng)機器學(xué)習(xí)技術(shù)的檔案管理方法與流程,促進(jìn)機器學(xué)習(xí)技術(shù)優(yōu)勢發(fā)揮程度的最大化;另一方面,檔案機構(gòu)應(yīng)判斷軟硬件條件、項目資金、項目團隊是否滿足將機器學(xué)習(xí)應(yīng)用于檔案管理實踐的基本條件,機器學(xué)習(xí)的成本、時間以及算法模型的耐久性、可擴展性、可重復(fù)使用性等因素也應(yīng)納入?yún)⒖挤秶鶾36]。(2)針對應(yīng)用機器學(xué)習(xí)技術(shù)可能產(chǎn)生的技術(shù)、法律等方面的問題制定保障措施。在技術(shù)問題上,檔案機構(gòu)應(yīng)明確算法模型的評估檢測機制,如在機器學(xué)習(xí)算法運行結(jié)果出現(xiàn)異?;蛘吲c預(yù)期差異較大時,機構(gòu)可以通過確定問題、系統(tǒng)地測試以隔離錯誤的來源以及重現(xiàn)問題,形成解決方案以保障算法順利運行等方式進(jìn)行故障排除[37]。在法律問題上,檔案數(shù)據(jù)安全的保障及隱私保護(hù)應(yīng)成為檔案機構(gòu)關(guān)注的重點。檔案機構(gòu)需要增強機器學(xué)習(xí)算法識別敏感數(shù)據(jù)的能力[38],并在分類、鑒定等管理過程中通過標(biāo)記禁止開放、限制訪問權(quán)限等方式隔離敏感內(nèi)容,避免檔案數(shù)據(jù)的泄露。
文章梳理了新南威爾士州檔案館探索機器學(xué)習(xí)應(yīng)用的實驗項目,分析了該項目的成功經(jīng)驗與不足,據(jù)此提出我國檔案機構(gòu)應(yīng)用機器學(xué)習(xí)的探索方向。但隨著機器學(xué)習(xí)的可用性和適配性得到實踐的驗證,并逐步成為推進(jìn)檔案管理智能化、智慧化發(fā)展的重要技術(shù)工具,大數(shù)據(jù)時代檔案管理的優(yōu)化與機器學(xué)習(xí)的應(yīng)用如何相互支持并形成完整的技術(shù)應(yīng)用方案與策略,還需要持續(xù)探索。
注釋與參考文獻(xiàn)
[1]周楓,呂東偉.基于“智能+”檔案管理初探[J].北京檔案,2019(9): 39-41.
[2]陳慧,羅慧玉,張凱等.AI賦能檔案:AI技術(shù)在檔案管理中的賦能模式探究[J].山西檔案, 2020(4): 76-83+131.
[3][13]陳會明,史愛麗,王寧等.人工智能在檔案工作中的應(yīng)用實踐與挑戰(zhàn)——以北京市市場監(jiān)督管理局為例[J]. 檔案與建設(shè), 2019(7): 53-56.
[4]趙躍,段先娥.國外公共檔案館發(fā)展趨勢及啟示[J].浙江檔案, 2020(10): 26-28.
[5]C. A. LEE. Computer-Assisted Appraisal and Selection of Archival Materials[C].2018 IEEE International Conference on Big Data. Seattle. WA, USA: Curran Associates, 2018: 2721-2724.
[6][8]霍光煜,張勇,孫艷豐,尹寶才.基于語義的檔案數(shù)據(jù)智能分類方法研究[J].計算機工程與應(yīng)用, 2021(6): 247-253.
[7][15][17][25][33]楊建梁,劉越男.機器學(xué)習(xí)在檔案管理中的應(yīng)用:進(jìn)展與挑戰(zhàn)[J].檔案學(xué)通訊,2019(6): 48-56.
[9]F. ESPOSITO,D. MALERBA,G. SEMERARO,etc.Machine learning methods for automatically processing historical documents: from paper acquisition to XML transformation[C/ OL].First International Workshop on Document Image Analysis for Libraries. Palo Alto, CA, USA: Curran Associates, 2004. https://ieeexplore.ieee.org/ document/1263262/.
[10]HUTCHINSON TIM. Natural language processing and machine learning as practical toolsets for archival processing[J].Records Management Journal, 2020(2):155-174.
[11]YASSER.A.M,CLAWSON K,BOWERMAN.C.Saving Cultural Heritage with Digital Make-Believe: Machine Learning and Digital Techniques to the Rescue[C/OL].Proceedings of the 31st British Computer Society Human Computer Interaction Conference. Swindon, GBR: BCS Learning &; Development Ltd., 2017. https://doi. org/10.14236/ewic/HCI2017.97.
[12]李子林,熊文景.人工智能對檔案管理的影響及發(fā)展建議[J].檔案與建設(shè),2019(6): 10-13+9.
[14]N. PAYNE, J. R. BARON. Auto-categorization methods for digital archives[C].2017 IEEE International Conference on Big Data. Boston, MA: Curran Associates, 2017: 2288-2298.
[16]隋永.人工智能技術(shù)在高校檔案管理的應(yīng)用研究[J]. 電腦知識與技術(shù), 2020(22): 171-172+175.
[18] FIRMANI D, MAIORINO M,MERIALDO P,etc. Towards Knowledge Discovery from the Vatican Secret Archives. In Codice Ratio - Episode 1: Machine Transcription of the Manuscripts[C]. Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York, NY, USA: Association for Computing Machinery, 2018: 263-272.
[19][22]GLEN HUMPHRIES. Machine Learning and Records Management[EB/OL].[2021–01–04]. http://machine-learning-and-recordsmanagement/.
[20]SCHUETTPELZ.E, FRANDSEN. P.B, DIKOW.R.B,etc. Applications of deep convolutional neural networks to digitized natural history collections[J]. Biodiversity Data Journal, 2017: e21139.
[21][35]ROLAN G,HUMPHRIES G,JEFFREY L,etc.More human than human Artificial intelligence in the archive[J]. Archives and Manuscripts, 2019 (2): 179-203.
[23]SCIKIT-LEARN.scikitlearn: machine learning in Python- scikitlearn 0.24.1 documentation[EB/OL].[2021–02–27].https://scikit-learn. org/stable/.
[24]GLEN HUMPHRIES. Case Study – Internal Pilot – Machine Learning and Records Management[EB/ OL].[2021–01–04].https:// futureproof.records.nsw.gov.au/casestudy-internal-pilot-machine-learningand-records-management/.
[26][27][28]GLEN HUMPHRIES. Case Study – External Pilot – Machine Learning and Records Management[EB/OL].[2021–01–04].https://futureproof.records.nsw. gov.au/case-study-external- pilot-machinelearning-and-records-management/.
[29]國務(wù)院.國務(wù)院關(guān)于印發(fā)新一代人工智能發(fā)展規(guī)劃的通知[EB/ OL].[2020–11–30]. http://www. gov.cn/zhengce/zhengceku/2017-07/20/ content_5211996.htm.
[30]馮麗偉. 國家檔案局科研所聯(lián)手科大訊飛簽署全面戰(zhàn)略合作協(xié)議[J]. 中國檔案, 2018(5): 10.
[31]祝成. 加快人工智能技術(shù)在檔案管理工作中的應(yīng)用[EB/OL].[2021–01–15]. http://www.zgdazxw.com.cn/ news/2021-01/15/content_316467.htm.
[32]浙江省檔案館電子檔案管理處. 省檔案館承擔(dān)的科技項目通過國家檔案局驗收[EB/OL].[2021–05–26]. http://www.zjda.gov.cn/art/2021/3/12/ art_1229005493_58922762.html.
[34]趙躍.大數(shù)據(jù)時代檔案數(shù)據(jù)化的前景展望:意義與困境[J]. 檔案學(xué)研究, 2019(5): 52-60.
[36][37]R.MARCIANO,S. AGARRAT,H.FRISCH,etc. Reframing Digital Curation Practices through a Computational Thinking Framework[C].2019 IEEE International Conference on Big Data. Los Angeles, CA, USA: Curran Associates, 2019: 3126-3135.
[38]J. R. BARON, N. PAYNE. Dark Archives and Edemocracy: Strategies for Overcoming Access Barriers to the Public Record Archives of the Future[C].2017 Conference for E-Democracy and Open Government. Krems: Curran Associates, 2017:3-11.