邵甜甜 霍義方
摘 要:飛速發(fā)展的信息技術(shù)對檔案管理工作帶來了前所未有的挑戰(zhàn)和機(jī)遇。本文理論結(jié)合實(shí)際,從“前端”、“自動(dòng)”、“校驗(yàn)”以及“服務(wù)”四個(gè)方面構(gòu)建人工智能技術(shù)為檔案工作提供的應(yīng)用策略,最終實(shí)現(xiàn)文檔全過程控制和檔案自動(dòng)歸檔服務(wù)。
關(guān)鍵詞:人工智能;全過程控制;自動(dòng)分類;主動(dòng)服務(wù)
1 引言
隨著信息化與數(shù)字化的快速發(fā)展,人工智能技術(shù)已經(jīng)應(yīng)用在各個(gè)行業(yè)領(lǐng)域,其應(yīng)用也為檔案管理工作帶來了一系列歷史性變革與發(fā)展的機(jī)遇。通過人工技能技術(shù)改變傳統(tǒng)檔案管理模式與方法,提升檔案管理生產(chǎn)力,為提升企業(yè)核心競爭力提供信息服務(wù)顯得尤為重要。
2 文檔全過程控制與檔案自動(dòng)歸檔服務(wù)
1)文檔全過程控制。文檔全過程控制區(qū)別于傳統(tǒng)的檔案管理,是指根據(jù)文件的全生命周期,采用科學(xué)的方法和手段對文檔各個(gè)階段的真實(shí)性、準(zhǔn)確性、規(guī)范性、同步性、完整性、系統(tǒng)性、高效性、安全性進(jìn)行管控,使文檔始終處于有序合理的狀態(tài),有效積累企業(yè)知識資產(chǎn)。
2)檔案自動(dòng)歸檔服務(wù)。檔案自動(dòng)歸檔服務(wù)區(qū)別于傳統(tǒng)的檔案整理、歸檔與利用,是指將檔案分類、檔案鑒定、檔案著錄、檔案編目、檔案歸檔、檔案利用等流程節(jié)點(diǎn)線上化、自動(dòng)化、前端化、主動(dòng)化。傳統(tǒng)的檔案整理、歸檔與利用是一項(xiàng)繁瑣、重復(fù)、枯燥、耗時(shí)、易錯(cuò)的工作,通過對人工智能技術(shù)的引入,實(shí)現(xiàn)檔案智能分類、智能鑒定、智能編目、智能歸檔、主動(dòng)服務(wù)等。
3 可行性分析
1)理論基礎(chǔ)。(1)文件連續(xù)體理論。20世紀(jì)90年代,澳大利亞檔案學(xué)者阿普奧德創(chuàng)建并完善了文件連續(xù)體理論。文件連續(xù)體理論將文件的運(yùn)動(dòng)過程看作為一個(gè)連續(xù)統(tǒng)一體,并通過多維坐標(biāo)體系(文件保管形式軸、價(jià)值表現(xiàn)軸、業(yè)務(wù)活動(dòng)軸和形成者軸)來描述文件的運(yùn)動(dòng)過程。它更加靈活的闡釋了文件運(yùn)動(dòng)的規(guī)律以及主客體之間的聯(lián)系,更加強(qiáng)調(diào)文件運(yùn)動(dòng)的多維性、整體性與連續(xù)性。(2)新來源觀?!靶聛碓从^”的倡導(dǎo)者特里·庫克從新的視角賦予了來源概念新的涵義,使來源更加抽象化和概念化,即“來源不僅指文件的形成機(jī)關(guān),而且包括其形成目的、形成活動(dòng)、過程、處理程序和職能范圍等”。新來源觀為電子文件智能捕獲與分類奠定了理論基礎(chǔ)。(3)宏觀鑒定。從年齡鑒定論、行政官員決定論、職能鑒定論、文件雙重價(jià)值論發(fā)展到宏觀鑒定理論,視野不斷的擴(kuò)大,關(guān)注點(diǎn)逐漸從“重視案卷的年齡以及肯定來源原則——形成機(jī)關(guān)的地位與職能——文件屬性與利用者需求——文件的職能背景”進(jìn)行演變,檔案價(jià)值從第一價(jià)值發(fā)展到了雙重價(jià)值,最后上升到社會價(jià)值,視野逐漸廣泛化,為智能鑒定提供了理論基礎(chǔ)。
2)信息技術(shù)。自然語言處理技術(shù)(NLP)是人工智能的一個(gè)子領(lǐng)域,通過對已有標(biāo)準(zhǔn)庫進(jìn)行深度學(xué)習(xí)與訓(xùn)練,將卷積神經(jīng)網(wǎng)絡(luò)(CNN)應(yīng)用到文本分類任務(wù)。使用Python作為分類技術(shù)引擎的開發(fā)語言,更便于接入TensorFlow或Keras等深度學(xué)習(xí)框架,用Text-CNN或RNN作為分類模型,將Word2vec訓(xùn)練好的詞向量初始化,訓(xùn)練過程中再對詞向量進(jìn)行微調(diào),完成對檔案自動(dòng)分類與自動(dòng)歸檔。
搜索引擎的技術(shù)可用于推薦系統(tǒng)完成檔案主動(dòng)推薦與服務(wù),搜索引擎解決運(yùn)算性能的一個(gè)重要的數(shù)據(jù)結(jié)構(gòu)是倒排索引技術(shù)(Inverted Index),而在推薦系統(tǒng)中,一類重要算法是基于內(nèi)容的推薦(Content-based Recommendation),這其中大量運(yùn)用了倒排索引、查詢、結(jié)果歸并等方法,另外點(diǎn)擊反饋(Click Feedback)算法等也都在兩者中大量運(yùn)用以提升主動(dòng)提供推薦服務(wù)的效果。
4 人工智能技術(shù)應(yīng)用策略
1)前端捕獲。將檔案管理的理念、方法提前融入到文件過程中去,在電子文件產(chǎn)生階段,通過語音識別、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)算法等相關(guān)信息技術(shù)讓計(jì)算機(jī)智能分析,通過模仿人腦的機(jī)制來解釋和處理數(shù)據(jù),建立大腦神經(jīng)網(wǎng)絡(luò)系統(tǒng)傳遞信息,分析圖像、聲音和文本。從而實(shí)現(xiàn)在電子文件產(chǎn)生階段,前端自動(dòng)捕獲業(yè)務(wù)系統(tǒng)中的元數(shù)據(jù),為檔案整理提供接口,根據(jù)分析結(jié)果自動(dòng)鑒定檔案價(jià)值,推送保管期限建議值,將檔案屬性和管理方法納入文件產(chǎn)生階段,為全過程控制和自動(dòng)分類奠定基礎(chǔ)。
2)自動(dòng)分類。實(shí)現(xiàn)檔案的自動(dòng)歸檔其中一個(gè)重要步驟是檔案自動(dòng)分類,通過自然語言處理技術(shù)來實(shí)現(xiàn)。自動(dòng)分類的標(biāo)準(zhǔn)化模型建立的過程,需要對大量的已完成分類的檔案數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練的文本數(shù)據(jù)可在檔案文件題目或文件中文中提取,識別準(zhǔn)確率和識別效率隨著訓(xùn)練量級的增多和模型算法的優(yōu)化而提升。在電子文件產(chǎn)生階段,通過自然語言處理技術(shù),基于行業(yè)檔案標(biāo)準(zhǔn)分類與前端捕獲的元數(shù)據(jù),便可匹配合適的檔案類別,分類過程包括數(shù)據(jù)訓(xùn)練、特征抽取、訓(xùn)練模型、分類預(yù)測等幾個(gè)主要環(huán)節(jié)。通過業(yè)務(wù)接口將前端捕獲和自動(dòng)分類的電子文件歸檔到檔案系統(tǒng)之后,可采用可視化的電子檔號章和自動(dòng)編頁等技術(shù),實(shí)現(xiàn)檔案著錄的自動(dòng)處理。
3)規(guī)范校驗(yàn)。規(guī)范校驗(yàn)包含校驗(yàn)文檔的完整性、規(guī)范性,完整性校驗(yàn)針對項(xiàng)目檔案尤為重要,項(xiàng)目文檔過程的完整性和及時(shí)性更是衡量項(xiàng)目文檔全過程控制結(jié)果的最佳衡量標(biāo)準(zhǔn)之一。在文檔的任何階段,均可將現(xiàn)有文檔與模板進(jìn)行比對,通過可視化數(shù)據(jù)分析,呈現(xiàn)出文檔完整率以及缺失的文檔類別。規(guī)范性校驗(yàn)將通過設(shè)定的合規(guī)程度,由系統(tǒng)輔助人工進(jìn)行二次判斷和處理。主要針對文檔的簽署常見問題:簽章手續(xù)不完備、代簽、漏簽、無簽署日期等,利用計(jì)算機(jī)學(xué)習(xí)相關(guān)技術(shù),將文本進(jìn)行OCR處理后再進(jìn)行特征分析,對于空白率高的文檔,以及確實(shí)簽字的進(jìn)行篩選,并使用Open-cv的圖像識別算法,對簽章進(jìn)行圖像識別,最終反饋不規(guī)范文檔序列。
4)自主服務(wù)。檔案利用是整個(gè)檔案管理工作的出發(fā)點(diǎn)和終極目的,搜索是利用者獲取檔案信息的主要手段。目前無論是電子檔案系統(tǒng)和智慧庫房管理系統(tǒng)都提供了較為豐富的檔案搜索功能,但均處于被動(dòng)等待的角色。通過人工技能技術(shù),根據(jù)用戶的崗位角色及其歷史搜索的內(nèi)容,完成檔案信息的推薦,變主動(dòng)為被動(dòng),讓用戶獲取推薦結(jié)果的過程可以是持續(xù)的、長期的,增加用戶的對于檔案利用的“粘性”。
5 風(fēng)險(xiǎn)分析與對策
1)安全風(fēng)險(xiǎn)。檔案自動(dòng)分類模型需要對大量的、異構(gòu)的、多元的真實(shí)檔案數(shù)據(jù)進(jìn)行模型訓(xùn)練,建模過程將會需要采集大量檔案數(shù)據(jù)做整合訓(xùn)練,相關(guān)合作技術(shù)團(tuán)隊(duì)可直接或間接接觸到檔案數(shù)據(jù),在內(nèi)容防擴(kuò)散方面和數(shù)據(jù)安全管理方面帶來了挑戰(zhàn)。針對數(shù)據(jù)安全風(fēng)險(xiǎn),可形成固定的研究團(tuán)隊(duì),對數(shù)據(jù)進(jìn)行嚴(yán)格保密,并組織專業(yè)技術(shù)人員形成監(jiān)管小組,建立電子檔案安全保密制度,簽訂安全保密協(xié)議,并對研究團(tuán)隊(duì)人員進(jìn)行安全保密教育。建立監(jiān)管機(jī)制,對技術(shù)研究服務(wù)機(jī)構(gòu)的保密、安全措施落實(shí)情況進(jìn)行監(jiān)督、檢查,杜絕研究服務(wù)機(jī)構(gòu)擅自復(fù)制、留存、使用檔案數(shù)據(jù)的行為。
2)技術(shù)風(fēng)險(xiǎn)。人工智能技術(shù)的開發(fā)對比目前的檔案管理系統(tǒng)而言,對檔案管理軟件供應(yīng)商需要有較高的技術(shù)要求,對提供人工智能服務(wù)的科技公司又有一定的業(yè)務(wù)門檻,如何基于檔案業(yè)務(wù)結(jié)合人工智能技術(shù)需要選擇合適供應(yīng)商,具有持續(xù)的技術(shù)開發(fā)能力,最大限度的滿足企業(yè)對系統(tǒng)的開發(fā)需求。針對技術(shù)風(fēng)險(xiǎn),可選取技術(shù)能力較強(qiáng),穩(wěn)定的檔案管理軟件供應(yīng)商進(jìn)行長期合作。加強(qiáng)溝通與協(xié)商,從規(guī)劃制訂到項(xiàng)目實(shí)施,請供應(yīng)商全程參與,以充分了解需求,將可能的技術(shù)難點(diǎn)考慮全面。
6 結(jié)束語
互聯(lián)網(wǎng)+時(shí)代,人工智能對各行各業(yè)都造成了深遠(yuǎn)的影響,檔案行業(yè)也不例外,將人工智能技術(shù)與檔案工作緊密結(jié)合,充分挖掘先進(jìn)的信息技術(shù),業(yè)務(wù)引領(lǐng)技術(shù),終將迎來檔案工作的自動(dòng)化與智能化。