苗洪麗
檔案信息資源具有來(lái)源多元、內(nèi)容豐富、信息散布、數(shù)據(jù)繁雜等特性,尤其是隨著高校的發(fā)展,檔案的種類(lèi)、數(shù)量和內(nèi)容都在不斷增多,這對(duì)高校檔案管理部門(mén)的檔案信息管理控制能力和開(kāi)發(fā)利用能力提出了更高的要求。2016年印發(fā)的《全國(guó)檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》明確提出,要采用大數(shù)據(jù)、智慧管理、智能樓宇管理等技術(shù),提高檔案館業(yè)務(wù)信息化和檔案信息資源深度開(kāi)發(fā)與服務(wù)水平[1]。通過(guò)檔案數(shù)據(jù)化,更新信息處理模式,可以為提升檔案信息管理和開(kāi)發(fā)能力提供新的思路和技術(shù)手段。
檔案信息的數(shù)據(jù)化是新時(shí)代檔案事業(yè)發(fā)展的新趨向,是建立在數(shù)字化基礎(chǔ)上的進(jìn)一步發(fā)展。數(shù)字化的主要工作是將檔案由物理形態(tài)轉(zhuǎn)變成電子形態(tài),即可通過(guò)計(jì)算機(jī)來(lái)閱讀和編輯的二進(jìn)制數(shù)據(jù)檔案信息。數(shù)字化的確有很多優(yōu)勢(shì),豐富了檔案儲(chǔ)存方式,增加了流通渠道,但在檔案利用方面,只是將實(shí)物變成了電腦屏幕,沒(méi)有從實(shí)質(zhì)上改變檔案的利用方式。真正要實(shí)現(xiàn)檔案利用方式的進(jìn)一步發(fā)展就需要實(shí)現(xiàn)檔案數(shù)據(jù)化,也就是將其中蘊(yùn)含的信息轉(zhuǎn)變成可制表分析的量化形式的過(guò)程[2]。
檔案數(shù)據(jù)化是在數(shù)字化的基礎(chǔ)上,用OCR(Optical Character Recognition,光學(xué)字符識(shí)別)、ASR(Automatic Speech Recognition,自動(dòng)語(yǔ)音識(shí)別)等技術(shù),對(duì)檔案中的內(nèi)容進(jìn)行智能識(shí)別,完成基本的分類(lèi)和著錄工作,通過(guò)詞頻分析、GIS以及關(guān)系網(wǎng)絡(luò)分析等方法,將利用文獻(xiàn)的方式從“讀”轉(zhuǎn)變?yōu)椤胺治觥保亟M檔案內(nèi)容,置入新的文本或數(shù)據(jù)結(jié)構(gòu)中,實(shí)現(xiàn)結(jié)構(gòu)化。換言之,數(shù)據(jù)化是將利用檔案的途徑由“頁(yè)面閱讀”轉(zhuǎn)變?yōu)椤靶畔㈤_(kāi)發(fā)”,在由計(jì)算機(jī)識(shí)讀檔案文字的基礎(chǔ)上,借助智能化的工具轉(zhuǎn)換成計(jì)算機(jī)可以理解的內(nèi)容,實(shí)現(xiàn)檔案利用價(jià)值的深度開(kāi)發(fā)[3]。
檔案數(shù)字化主要是將檔案信息轉(zhuǎn)化為二進(jìn)制代碼,數(shù)據(jù)化對(duì)應(yīng)的則是檔案中零散的信息。檔案數(shù)字化是數(shù)據(jù)化的基礎(chǔ),如果沒(méi)有數(shù)字化對(duì)檔案的收入和轉(zhuǎn)化,那么就無(wú)法開(kāi)展檔案數(shù)據(jù)化工作;但數(shù)據(jù)化對(duì)檔案信息的識(shí)別和處理,是數(shù)字化所不能替代的。所以檔案數(shù)據(jù)化和數(shù)字化并不是對(duì)立的,而是承接與完善的發(fā)展過(guò)程。
隨著高校的發(fā)展,各類(lèi)檔案的數(shù)量必然是呈增加趨勢(shì)的。截至2018年,全國(guó)共有普通高等學(xué)校2663所,比上年增加32所,增長(zhǎng)1.22%。普通本專(zhuān)科招生790.99萬(wàn)人,比上年增加29.50萬(wàn)人,增長(zhǎng)3.87%;普通高等學(xué)校教職工248.75萬(wàn)人,比上年增加4.45萬(wàn)人,增長(zhǎng)1.82%。普通高等學(xué)校校舍總建筑面積97713.56萬(wàn)平方米,比上年增加2313.23萬(wàn)平方米;教學(xué)科研儀器設(shè)備總值5533.06億元,比上年增加537.77億元[4]。我國(guó)高等教育事業(yè)在蓬勃發(fā)展的同時(shí),檔案中包含的信息數(shù)量也逐漸增多,這為高校檔案部門(mén)帶來(lái)了巨大的壓力。傳統(tǒng)的檔案管理和數(shù)字化檔案管理模式,仍然需要大量的人工介入,才能完成對(duì)檔案信息的利用和整理,導(dǎo)致一定的滯后性、片面性和主觀(guān)性,已經(jīng)不能滿(mǎn)足高校的現(xiàn)實(shí)要求。
新時(shí)代對(duì)高校檔案部門(mén)提出了更高的要求,只有具備探索數(shù)據(jù)時(shí)代改善業(yè)務(wù)能力、服務(wù)水平,提升檔案利用率的能力,才能更好地為高校師生服務(wù)。數(shù)字化解決了檔案信息的收集、轉(zhuǎn)化、錄入和儲(chǔ)存的問(wèn)題,而具有高密度價(jià)值的檔案信息,只有通過(guò)數(shù)據(jù)化手段才能對(duì)其進(jìn)行智能分析與利用,實(shí)現(xiàn)對(duì)多源異構(gòu)的低密度價(jià)值數(shù)據(jù)資源的深層次開(kāi)發(fā)與整合,為高校發(fā)展和規(guī)劃提供有效的檔案信息。
在大數(shù)據(jù)時(shí)代,只有大數(shù)據(jù)和人工智能技術(shù)完成檔案數(shù)據(jù)化,才能完成檔案的深層次利用,可以說(shuō)全面推進(jìn)高校檔案數(shù)據(jù)化,正是高校檔案管理未來(lái)的發(fā)展方向。但需要注意的是,數(shù)據(jù)分析和數(shù)據(jù)挖掘應(yīng)當(dāng)作為高校檔案業(yè)務(wù)的拓展部分,而非高校檔案管理工作的全部?jī)?nèi)容。
數(shù)據(jù)化可以實(shí)現(xiàn)檔案信息從機(jī)器讀取到智能理解的轉(zhuǎn)變,為高校檔案部門(mén)業(yè)務(wù)工作智能化轉(zhuǎn)型奠定基礎(chǔ),對(duì)于實(shí)現(xiàn)檔案智能化深度開(kāi)發(fā)、增強(qiáng)智能化服務(wù)能力、提升智能化管理水平,具有重要的現(xiàn)實(shí)意義。
1.實(shí)現(xiàn)智能化深度開(kāi)發(fā)。檔案信息資源的深度開(kāi)發(fā)一直以來(lái)都是高校檔案部門(mén)重點(diǎn)研究?jī)?nèi)容,單純的數(shù)字化技術(shù)不能通過(guò)計(jì)算機(jī)技術(shù)對(duì)檔案信息進(jìn)行識(shí)別和處理,使得高校的檔案信息停滯于數(shù)據(jù)領(lǐng)域之外,無(wú)法實(shí)現(xiàn)更深層次的內(nèi)容開(kāi)發(fā)和挖掘。這樣一來(lái),伴隨著檔案數(shù)字化工作的不斷推進(jìn),高校檔案部門(mén)利用數(shù)字化技術(shù)完成了對(duì)檔案信息的收錄、保存、檢索工作,大量的檔案信息得以通過(guò)PDF、圖片、文本文檔等數(shù)字格式進(jìn)行保存,呈現(xiàn)出“內(nèi)卷化”趨勢(shì)。即雖然擁有大量有價(jià)值的檔案信息,但沒(méi)有足夠的能力來(lái)加以利用,檔案工作難以突破“有編無(wú)研”的瓶頸,使得檔案數(shù)字化也逐漸變成了“雞肋”。
檔案數(shù)據(jù)化為高校檔案信息資源開(kāi)發(fā)和利用帶來(lái)新的方向,不但改變了檔案信息的儲(chǔ)存模式——將檔案信息與檔案實(shí)體剝離,也實(shí)現(xiàn)了對(duì)檔案信息的有序化組織和內(nèi)容的開(kāi)發(fā)。通過(guò)適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)檔案信息進(jìn)行分析,提取有效數(shù)據(jù),并對(duì)其加以詳細(xì)研究及概括總結(jié),實(shí)現(xiàn)了將檔案信息從基礎(chǔ)性的“載體轉(zhuǎn)化”到更深層的“內(nèi)容開(kāi)發(fā)”,再進(jìn)一步對(duì)檔案信息進(jìn)行融合、關(guān)聯(lián)、挖掘與分析,實(shí)現(xiàn)智能化的處理。
2.增強(qiáng)智能化服務(wù)能力。目前,高校檔案部門(mén)為師生提供的服務(wù)主要集中在:檔案查閱、檔案展覽、跨館出證、信息推送、參考咨詢(xún)等方面,在需求多樣化和差異化的今天,這些服務(wù)已經(jīng)不能完全滿(mǎn)足于高校師生的需求。在傳統(tǒng)管理模式下,要利用檔案信息往往是要建立在對(duì)檔案內(nèi)容有初步掌握的前提下,但是龐雜的高校檔案決定了其不可能進(jìn)行完全掌握,尤其是在定期更新的環(huán)境里,對(duì)于檔案內(nèi)容的了解就有了更高的門(mén)檻。這需要高校檔案部門(mén)能預(yù)測(cè)用戶(hù)隱性訴求,改善服務(wù)方式,實(shí)現(xiàn)檔案服務(wù)的人性化和知識(shí)化,從“供給導(dǎo)向”服務(wù)模式向以用戶(hù)為中心的“需求導(dǎo)向”服務(wù)模式轉(zhuǎn)變[5]。
高校檔案的數(shù)據(jù)化是為了滿(mǎn)足不同個(gè)體的檔案需求,在收集分析檔案信息的基礎(chǔ)上,通過(guò)大數(shù)據(jù)技術(shù),對(duì)檔案用戶(hù)的身份、習(xí)慣、借閱內(nèi)容、搜索方式、言行記錄等結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析。精準(zhǔn)地將檔案信息提供給有具體需求的師生,甚至是挖掘內(nèi)在需求,做到定點(diǎn)推送,完成檔案服務(wù)和用戶(hù)需求的匹配、檔案信息和傳輸渠道匹配。
3.提升智能化管理水平。傳統(tǒng)的高校檔案管理模式,在很大程度上依賴(lài)于著錄標(biāo)引深度以及文件目錄、專(zhuān)題指南、專(zhuān)題目錄、全宗指南、案卷目錄等檢索工具的編制,這一工作模式,操作相對(duì)簡(jiǎn)單,在檔案工作的初步階段,有利于檔案的著錄描述、檢索、管理和長(zhǎng)期保存。但是工作量大,對(duì)人力依賴(lài)性比較高,無(wú)法解析檔案中信息單元的復(fù)雜特征及信息單元間的復(fù)雜語(yǔ)義關(guān)系,也不能對(duì)其進(jìn)行定義和識(shí)別。
推行檔案數(shù)據(jù)化后,通過(guò)數(shù)據(jù)挖掘技術(shù)分析檔案數(shù)據(jù),從檔案數(shù)據(jù)中挖掘出潛在信息,實(shí)現(xiàn)檔案信息智能檢索服務(wù)、檔案信息決策服務(wù)[6]?;谠獢?shù)據(jù)進(jìn)行檔案信息的標(biāo)引,從而對(duì)檔案數(shù)據(jù)進(jìn)行聚類(lèi)、分類(lèi)和相關(guān)性分析,利用大數(shù)據(jù)和人工智能領(lǐng)域的技術(shù),按照預(yù)設(shè)模型和流程,自主感知、匯集、記憶、分析信息,把檔案信息變成電腦可以任意檢索的數(shù)據(jù),在非人為干預(yù)的情況下,實(shí)現(xiàn)檔案的收集、立卷、歸檔、標(biāo)引、鑒定、檢索、編研、利用和服務(wù)等,提升高校檔案部門(mén)對(duì)檔案信息內(nèi)容層面的把控能力。
只有推行檔案數(shù)據(jù)化,才能完成高校檔案信息的數(shù)據(jù)挖掘與數(shù)據(jù)的深度整合,充分將高校的信息加以利用,最大限度實(shí)現(xiàn)高校檔案信息的價(jià)值。