陳茜月
摘? 要:從檔案開放鑒定工作實際出發(fā),對檔案開放鑒定工作流程和智能化開放鑒定工作在問題本質(zhì)層面本質(zhì)解析剖析。立足人工智能理論框架,結(jié)合數(shù)據(jù)挖掘技術(shù),搭建基于神經(jīng)網(wǎng)絡(luò)的檔案開放鑒定智能模型,能夠?qū)n案界各專業(yè)領(lǐng)域?qū)<业闹R儲備庫進行整合,從鑒定主體上防止了檔案價值預(yù)測的片面性,從而彌補現(xiàn)有檔案鑒定體系的缺陷。
關(guān)鍵詞:檔案開放鑒定;神經(jīng)網(wǎng)絡(luò);智能化開放鑒定
Abstract: Regarding of open appraisal of Archives, the comparison of manual method and intelligent method of the open appraisal of Archives are analyzed in the essence level. The artificial intelligence technology is used to build an intelligent model of archival open appraisal based on neural network, which can integrate the knowledge of experts in the archival field. This can prevent the one-sided prediction of archival value from the appraisal subject, and make up the defects of the existing archival appraisal system.
Keywords: Open appraisal of archives; Neural network; Intelligent open identification
《檔案法》和《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》中擴大了開放檔案時限范圍,將檔案封閉年限由30年縮減為25年,實施尚未移交進館檔案的開放審核;首次“鼓勵和支持其他檔案館向社會開放檔案”,且首次將開放檔案審核之責(zé)前置到移交進館環(huán)節(jié)。但是,目前開放鑒定工作面臨檔案種類繁多、內(nèi)容復(fù)雜各異的難題,也面臨專業(yè)力量不足、專業(yè)水準(zhǔn)整體偏低等棘手問題。2018年4月,人工智能檔案聯(lián)合實驗室的成立,為人工智能在檔案領(lǐng)域的具體應(yīng)用打開了新的局面。北京市市場監(jiān)督管理局基于檔案圖像識別和內(nèi)容識別等人工智能相關(guān)技術(shù)手段,研發(fā)了檔案頁面公開級別智能鑒定工具。[1]
1 檔案開放鑒定智能化技術(shù)
1.1 檔案開放鑒定工作中人工化與智能化的本質(zhì)解析。依據(jù)國家檔案局發(fā)布的《各級國家檔案館開放檔案辦法》及多省開放檔案實施辦法規(guī)定,檔案開放鑒定工作流程總體核心工作包括解密審查、開放鑒定、開放鑒定的審核、開放審批這四大步驟。常用的開放鑒定方法有直接鑒定法和德爾菲法、宏觀鑒定法。“直接鑒定法”是指通過直接審閱文件的內(nèi)容判斷其價值;德爾菲法(Delphi Method)也稱專家預(yù)測法,這種方法是指邀請在某一領(lǐng)域的一些專家或有經(jīng)驗的管理人員對某一問題進行預(yù)測并最終達成一致意見的結(jié)構(gòu)化的方法。
人工開放鑒定具體工作的核心內(nèi)容是根據(jù)具體的鑒定標(biāo)準(zhǔn),由鑒定人員判斷該文件是否滿足開放條件。此過程涉及幾個具體問題:是否滿足申請開放的基本條件、制定具體開放鑒定標(biāo)準(zhǔn)、由鑒定人員審核、給出是否開放意見、根據(jù)實際需求進行二審、給出最終開放鑒定意見。
上述過程可解析為計算模型的具體單元,通過人工智能算法實現(xiàn)具體操作:①是否滿足申請開放的基本條件。此項工作具體內(nèi)容是:案卷是否滿足25年開放的期限,以及是否過保密期等。②制定具體開放鑒定標(biāo)準(zhǔn)。此項工作具體內(nèi)容是:在國家、省級相關(guān)開放鑒定的普適標(biāo)準(zhǔn)上進行擴充,同時將涉及國家安全及國家重大利益的內(nèi)容、違反社會穩(wěn)定的內(nèi)容加入到標(biāo)準(zhǔn)內(nèi),結(jié)合當(dāng)前案卷具體內(nèi)容要求,以及相關(guān)個人敏感內(nèi)容,綜合制定出當(dāng)前案卷的開放鑒定標(biāo)準(zhǔn)。③由鑒定人員審核。此項工作具體內(nèi)容是:依靠鑒定人員的政治素養(yǎng)、文化素養(yǎng)、歷史知識、業(yè)務(wù)素養(yǎng)等各方面綜合水平對案卷內(nèi)容進行鑒定。要求鑒定人員具有較高的政策水平、作風(fēng)嚴(yán)謹(jǐn)。④給出是否開放意見。此項工作具體內(nèi)容是:根據(jù)鑒定人員的綜合判斷,對當(dāng)前檔案是否開放給出開放、需二審、不開放的最終意見。開放鑒定工作中人工化與智能化的本質(zhì)解析見表1。
1.2 檔案開放鑒定智能化技術(shù)基本邏輯原理。依托人工智能等高新技術(shù)手段開展檔案開放鑒定工作的基本邏輯原理是根據(jù)檔案全文信息數(shù)據(jù)資源及敏感詞、字等信息利用技術(shù)輔助手段實現(xiàn)檔案開放鑒定的初審、復(fù)審、終審等全流程工作。[2]基于人工智能技術(shù)的檔案開放鑒定工作思路的根本問題是對檔案文本數(shù)據(jù)的分類問題,即是否包含有不宜開放的內(nèi)容。
2 基于神經(jīng)網(wǎng)絡(luò)的檔案開放鑒定智能模型
根據(jù)檔案開放鑒定智能化技術(shù)基本邏輯原理可知,基于人工智能技術(shù)的檔案開放鑒定工作的根本問題是對檔案文本數(shù)據(jù)分類問題。因此,開展文本分類應(yīng)先確定選取何種分類方法,明確分類體系,即確定檔案文本數(shù)據(jù)的特點以及開放鑒定的實際工作需求。
深度學(xué)習(xí)是實現(xiàn)具有多個隱藏層的機器學(xué)習(xí)模型,將低層特征向深層高級特征予以轉(zhuǎn)化來表示屬性類別,目的是發(fā)現(xiàn)數(shù)據(jù)的分布式特征,形成更深的網(wǎng)絡(luò)結(jié)構(gòu)來實現(xiàn)特征提取。深度學(xué)習(xí)方法是將特征提取和分類融為一體,通過自動獲取特征信息,給出分類結(jié)果。[3]在檔案智能開放鑒定模型中,最終將分類轉(zhuǎn)化為開放鑒定的意見。
2.1 檔案文本預(yù)處理。文本預(yù)處理階段包含文本去噪音和文本表示兩個步驟。文本去噪音的目的是將完整的檔案文本數(shù)據(jù)劃分為單個的詞,同時去除掉無意義的字詞。包括中文分詞、去除噪音和數(shù)據(jù)增強三個部分。對于檔案開放鑒定智能模型來說,去除噪音的步驟尤為重要,否則會帶來大量無意義的待鑒定的文本數(shù)據(jù),增加了檔案開放鑒定智能模型的時空成本。將文本轉(zhuǎn)換為計算模型(開放鑒定模型)能夠識別的數(shù)據(jù)形式。這種能被計算機模型識別的數(shù)據(jù)形式就是文本的表達方式。文本表示的作用就是將這些非結(jié)構(gòu)化的信息轉(zhuǎn)化為結(jié)構(gòu)化的信息,這樣就可以針對文本信息做計算。文本的表示決定了模型分類的精確度、時間復(fù)雜度和空間復(fù)雜度。宏觀來看,文本的表示方式分為淺層表示法和深層表示法?;谏窠?jīng)網(wǎng)絡(luò)的分布表示一般稱為詞向量、詞嵌入或分布式表示法。神經(jīng)網(wǎng)絡(luò)詞向量表示技術(shù)通過神經(jīng)網(wǎng)絡(luò)技術(shù)對上下文,以及上下文與目標(biāo)詞之間的關(guān)系進行建模。用一個低維稠密的向量去表示一個詞。由于神經(jīng)網(wǎng)絡(luò)較為靈活,這類方法的最大優(yōu)勢在于可以表示復(fù)雜的上下文。
2.2 檔案文本神經(jīng)網(wǎng)絡(luò)分類器。在智能化模型中,詞單元使用詞向量來表示,經(jīng)訓(xùn)練,每個詞表示為k維向量,利用詞向量間的距離來判斷詞間語義相似度。每個神經(jīng)網(wǎng)絡(luò)包括輸入層、隱藏層、輸出層。對于檔案文本數(shù)據(jù)來說,通過預(yù)處理后,將檔案詞集中的每個詞單元逐一進行詞向量編碼,然后形成詞向量空間。
預(yù)處理后得到的每個句子S的分詞序列如公式: ,l代表句子中詞的總數(shù),也就是句子長度,ci代表句子中第i個詞語。單個句子經(jīng)Word2vec處理后得到一個分布式詞向量 ,k即詞向量維度。故,句子長度l,詞向量維度k,于是二維句
據(jù)此,檔案文本數(shù)據(jù)中,每個句子即表示為一個類似于圖像矩陣的二維矩陣 ,并將作為神經(jīng)網(wǎng)絡(luò)的輸入層數(shù)據(jù)。
在訓(xùn)練階段,利用訓(xùn)練樣本集,不斷地調(diào)整神經(jīng)網(wǎng)絡(luò)分類系統(tǒng)的輸入和輸出的連接權(quán)重,一直調(diào)整到神經(jīng)網(wǎng)絡(luò)分類器的分類結(jié)果最佳為止。在分類階段,分類器針對不同的待分類文本,選擇合適的輸入層和輸出層,從而完成檔案文本數(shù)據(jù)的分類判定工作。
檔案文本數(shù)據(jù)經(jīng)神經(jīng)網(wǎng)絡(luò)分類器處理后,將輸出該頁檔案文本數(shù)據(jù)的分類結(jié)果,包括無敏感信息、敏感信息A類、敏感信息B類等分類結(jié)果。同時,一個檔案文本數(shù)據(jù)集合的分類結(jié)果可能不止一個,如某案卷可能同時涉及多個不宜公開的文本信息,此時CNN分類器會輸出多個分類結(jié)果。
2.3 綜合意見審核模塊。在綜合意見審核模塊,CNN分類器在給出分類結(jié)果的同時,會提示具體引起分類的關(guān)鍵字詞,由檔案開放鑒定專家組審核后,給出最終意見。
綜合意見審核模塊的設(shè)立,能夠?qū)⑷斯ぶ悄芘卸P偷囊庖娂芭卸ㄒ罁?jù)呈現(xiàn)給鑒定專家,經(jīng)專家人工審核后,由專家授權(quán),選擇是否保留模型判定結(jié)果的最終意見,或是將該案卷進入人工審核流程。據(jù)此能將智能檔案開放流程更嚴(yán)謹(jǐn)化、全面化。
2.4 基于神經(jīng)網(wǎng)絡(luò)檔案開放鑒定智能模型框架。開放鑒定智能模型首先對待檢測的檔案文本內(nèi)容進行預(yù)處理操作,包括分詞、去停用詞等,以此去除無意義詞語,減少噪音并提高檢測效率;清潔后的檔案文本數(shù)據(jù)經(jīng)Word2vec處理后,轉(zhuǎn)換為詞向量表達,輸入到神經(jīng)網(wǎng)絡(luò)分類器;然后經(jīng)過多次調(diào)整分類系統(tǒng)的輸入和輸出的連接權(quán)重,由檔案敏感詞庫對篩選后的字詞單元再次校對和過濾,由Relu、softmax函數(shù)將詞向量映射到一維空間,給出檔案文本的分類結(jié)果;最后在綜合開放意見模塊,經(jīng)專家審核最終開放鑒定的結(jié)果。智能模型框架圖如圖1所示。
構(gòu)建人工智能手段用于輔助檔案開放鑒定工作的首要前提是構(gòu)建一個完整的計算模型。該模型應(yīng)在檔案開放鑒定工作邏輯化的基礎(chǔ)上,利用計算語言對檔案數(shù)據(jù)進行抽象處理,將檔案開放鑒定工作轉(zhuǎn)換為計算問題。
*本文系中國高等教育學(xué)會檔案工作分會重點研究基金項目“高校檔案文化記憶與大學(xué)文化記憶研究”(ZGD-ZD-2020-15)、河南省檔案科技項目“基于智慧管理的高校檔案數(shù)據(jù)化研究”(項目編號:2019-X-17)的階段性成果。
參考文獻:
[1]陳會明,史愛麗,王寧,金文光.人工智能在檔案工作中的應(yīng)用實踐與挑戰(zhàn)——以北京市市場監(jiān)督管理局為例[J].檔案與建設(shè),2019(07):53-56.
[2]譚洪杰.《檔案法》修訂對檔案開放鑒定工作的影響及應(yīng)對措施[J].檔案天地,2020(12):44-46.
[3]張迪.基于深度學(xué)習(xí)的中文文本分類算法研究[D].西安科技大學(xué),2019.