姚倩雯
摘 要:知識服務是數(shù)字檔案服務的發(fā)展趨勢,而檔案大數(shù)據(jù)時代給數(shù)字檔案館的知識服務帶來了新的機遇。通過對全國各省級檔案門戶網(wǎng)站及其工作者進行咨詢調查,對我國檔案大數(shù)據(jù)背景下的數(shù)字檔案館知識服務現(xiàn)狀和發(fā)展的弊端進行剖析,探討其原因,并提出可行性的建議,在自己學習的同時為數(shù)字檔案館知識服務實踐起到參考作用。
關鍵詞:檔案大數(shù)據(jù) 數(shù)字檔案館 知識服務 知識資源庫
中圖分類號 G273 文獻標識碼 J 收稿日期 2019-06-03
Abstract Knowledge service is the development trend of digital archives service, and the era of archives big data brings new opportunities to the knowledge service of digital archives. Through consultation and investigation of the provincial archives portal websites and their workers, the paper analyzes the current status and development defects of digital archives knowledge service under the background of China's archives big data, discusses the reasons, and puts forward some feasible suggestions. While learning, it serves as a reference for the practice of digital archives knowledge service.
Keyword archives big data; digital archives; knowledge service; knowledge resource library
2016年4月7日,國家檔案局發(fā)布《全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》,在綱要中提出“持續(xù)推進數(shù)字檔案館建設”、“提高檔案館業(yè)務信息化和檔案信息資源深度開發(fā)與服務水平”和“探索電子檔案與大數(shù)據(jù)行動的融合”[1]8,為新時期檔案發(fā)展提供以下新思路:(1)在大數(shù)據(jù)已經成為時代潮流的背景下,我們更應該探究自己的大數(shù)據(jù)——檔案大數(shù)據(jù);(2)數(shù)字檔案館建設不單單追求傳統(tǒng)的檔案信息資源數(shù)字化,還需進一步實現(xiàn)數(shù)據(jù)化;(3)在檔案大數(shù)據(jù)背景下,提升檔案信息資源深度開發(fā)與服務水平是數(shù)字檔案館發(fā)展的新趨向。筆者認為將檔案信息資源轉變?yōu)闄n案知識資源,向用戶提供知識服務正是信息資源開發(fā)的一個方向。本文通過對各省級檔案門戶網(wǎng)站進行網(wǎng)上調查并了解目前數(shù)字檔案館知識服務現(xiàn)狀,提出對檔案大數(shù)據(jù)下數(shù)字檔案館知識服務的建議,在自己學習的同時也希望為數(shù)字檔案館知識服務實踐起到參考作用。
一、相關概念和特征
1.大數(shù)據(jù)與檔案大數(shù)據(jù)。2014年,首次將大數(shù)據(jù)作為概念呈現(xiàn)在政府工作報告中,2015年國務院印發(fā)《促進大數(shù)據(jù)發(fā)展戰(zhàn)略》,正式拉開我國大數(shù)據(jù)研究與發(fā)展的帷幕[2]8。隨著大數(shù)據(jù)時代的到來,各行各業(yè)都在向信息化方向發(fā)展,檔案行業(yè)也不例外。
檔案行業(yè)的大數(shù)據(jù)即檔案大數(shù)據(jù),筆者認為檔案大數(shù)據(jù)是檔案行業(yè)的發(fā)展與創(chuàng)新,是一脈相承并緊密相連的。一是許多大數(shù)據(jù)技術比如數(shù)據(jù)存儲、數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)采集會應用于檔案大數(shù)據(jù)中。二是檔案部門的歷史數(shù)據(jù)應該作為大數(shù)據(jù)的子項被納入其中,否則將是不完整的大數(shù)據(jù)。
二者最大的區(qū)別在于檔案大數(shù)據(jù)是基于歷史的數(shù)據(jù),而大數(shù)據(jù)是基于實時數(shù)據(jù),由此延伸出技術管理、預測性能等方面差異。但是不可否認的是,在如今的大檔案觀的影響下,檔案大數(shù)據(jù)對于實時數(shù)據(jù)愈發(fā)重視,并在逐步實現(xiàn)預測的功能。
2.什么是檔案大數(shù)據(jù)下數(shù)字檔案館的知識服務。在檔案大數(shù)據(jù)時代,其內涵發(fā)生變化,因此筆者在秦曉珠[3]8等學者對“大數(shù)據(jù)的知識服務”提出的理解、百度百科的定義[4]8和大數(shù)據(jù)與檔案大數(shù)據(jù)區(qū)別的基礎上,認為檔案大數(shù)據(jù)下數(shù)字檔案館的知識服務是:在數(shù)字檔案館中,以用戶需求為中心,以檔案的利用服務為著眼點,為了適應檔案服務智慧化、個性化、主動化的發(fā)展趨勢而衍生出的一種基于網(wǎng)絡用于解決檔案數(shù)據(jù)多維度、多形式處理的信息服務新模式,目的是為檔案用戶解決問題。
3.典型特征。
首先,加強了對知識挖掘等技術方面的要求。檔案大數(shù)據(jù)下數(shù)字檔案館的知識服務建立在信息集聚化和知識挖掘、知識存儲分析等技術的基礎上,其中知識挖掘最為關鍵。面對海量的異構的檔案信息資源,利用大數(shù)據(jù)挖掘技術,將分布在數(shù)據(jù)庫的異構數(shù)據(jù)源中的數(shù)據(jù)(如關系數(shù)據(jù)、平面數(shù)據(jù)文件等)抽取到臨時中間層進行辨析、清洗、轉換、集成,最后加載到分布式數(shù)據(jù)庫,再進行深層次挖掘、整合和提煉,分析對比知識庫,通過智能聚類關聯(lián)等分析手段深層次開發(fā)利用,使隱性知識顯性化[5]8,挖掘出所需知識提供給用戶,這與傳統(tǒng)的知識服務有著極大的不同。
其次,是基于數(shù)據(jù)的知識服務。檔案大數(shù)據(jù)下數(shù)字檔案館的知識服務與傳統(tǒng)的知識服務根本區(qū)別為是否基于數(shù)據(jù)。傳統(tǒng)的知識服務形式,提供簡單利用、檔案編研、檔案發(fā)布等是基于數(shù)字或者尚未轉為數(shù)字的檔案原件,在用戶發(fā)出需求后,需要耗費超額工作量、翻閱檔案全文并反饋給用戶。檔案大數(shù)據(jù)下數(shù)字檔案館的知識服務應該是基于數(shù)據(jù)的,在提供知識服務前期需要克服高難度的作業(yè)力度完成知識庫建設等準備工作,此后檔案工作者甚至用戶自身都可以快速高效地滿足知識需求。
最后,是個性化、主動化、定制化的服務。在檔案大數(shù)據(jù)時代,數(shù)字檔案工作者不再只是根據(jù)用戶需求被動地解決問題,而是趨向于提供個性化、主動化、定制化服務。利用大數(shù)據(jù)技術,智能分析用戶檔案需求和利用行為,挖掘需求方向和趨勢,針對他們的實際或者潛在的需求,提供給不同層次的用戶。
二、現(xiàn)階段數(shù)字檔案館知識服務的現(xiàn)狀與問題
1.經過調查得出的現(xiàn)狀。為了了解目前數(shù)字檔案館的知識服務水平,筆者普查全國34個省級檔案信息門戶網(wǎng)站,進行網(wǎng)站上是否有“數(shù)字檔案館”查詢入口以及現(xiàn)有知識服務形式的調查,通過留言咨詢檔案工作者有關數(shù)字檔案館知識服務開展情況,大致掌握目前我國數(shù)字檔案館知識服務的基本情況。
(1)全國34個省級檔案門戶網(wǎng)站中,只有6個網(wǎng)站存在數(shù)字檔案館欄目,并提供單獨的檢索平臺,可以通過關鍵詞、題名等進行普通檢索或者高級檢索(圖1)。
(2)各省級檔案館普遍開展了傳統(tǒng)的知識服務,如匯編成果、業(yè)務咨詢服務、城市記憶等。個別檔案館較為新穎,如上海市檔案館開展的檔案百科和檔案論壇;江蘇、湖北、甘肅、內蒙古檔案館開展的網(wǎng)上課堂和在線教育;遼寧檔案館開展的社會檔案人,即讓用戶在線編輯詞條,經審批后通過并顯示在網(wǎng)頁上;寧夏檔案館開展的檔案知識模塊。
(3)在留言咨詢中,通過兩個工作日之內的七個回復,我們了解到目前數(shù)字檔案館基本未開展規(guī)?;闹R服務,數(shù)字化以目錄形式為主且全文較少,數(shù)字化率普遍較低(表1)。
(4)部分省級檔案館,如云南省的專題數(shù)據(jù)庫、浙江省的網(wǎng)上展覽,具有數(shù)字檔案館知識服務的雛形,但并非是基于檔案大數(shù)據(jù)基礎。
2.存在的問題。
一是數(shù)字檔案館知識資源不足。知識資源是知識服務的基礎,相對于在傳統(tǒng)的知識資源獲取中“數(shù)據(jù)—信息—知識”的金字塔模型,大數(shù)據(jù)時代數(shù)據(jù)不再依據(jù)DIKW金字塔模型,而是直接轉化為知識甚至是智慧,因此大數(shù)據(jù)時代想要掌握知識資源就必須掌握數(shù)據(jù)資源。但是目前數(shù)字檔案館尚未形成集聚的數(shù)據(jù)資源。
二是數(shù)字檔案館技術水平無法達到檔案大數(shù)據(jù)要求。技術是數(shù)字檔案館知識服務的前提,只有技術先進,知識服務才有實現(xiàn)的可能。數(shù)字檔案館普遍未引進數(shù)據(jù)挖掘等大數(shù)據(jù)技術,數(shù)據(jù)庫大多采用關系型數(shù)據(jù)庫,在海量數(shù)據(jù)資源存儲中出現(xiàn)不便。數(shù)字化水平低,尤其是民國檔案數(shù)字化過程中出現(xiàn)困難,只能簡單掃描成圖片。由于缺乏技術,知識服務進程緩慢。
三是數(shù)字檔案館網(wǎng)站尚未完善。首先,經調查發(fā)現(xiàn),全國34家省級檔案門戶網(wǎng)站中,只有6家有數(shù)字化檢索平臺,包括上海、浙江等全國示范數(shù)字檔案館也未實現(xiàn)遠程查找檔案。這說明數(shù)字檔案館建成并且通過國家評定后只在內網(wǎng)或者專網(wǎng)運行,公眾通過檔案館門戶網(wǎng)站無法遠程使用。其次,在使用部分省的檔案館網(wǎng)站中出現(xiàn)諸如用戶注冊煩瑣、版塊缺失、鏈接失效、咨詢過程復雜等問題。這將挫傷用戶的知識服務和利用請求的積極性。
四是檔案網(wǎng)站用戶相對較少。從網(wǎng)站訪問量和公眾的留言情況看,檔案門戶網(wǎng)站利用率較低。利用率低、效益不佳,影響檔案工作者的積極性,工作者難以從實際工作過程中發(fā)現(xiàn)實際問題,導致創(chuàng)新性想法和解決對策缺乏。
三、檔案大數(shù)據(jù)下數(shù)字檔案館知識服務存在問題的原因
1.知識資源不足。數(shù)字檔案館知識資源不足,其實質就是數(shù)據(jù)資源不足。
首先,數(shù)字檔案館數(shù)字化水平較低。經調查發(fā)現(xiàn),部分省級數(shù)字檔案館數(shù)字化程度并不高,如四川省數(shù)字化率僅在30%左右。在已經數(shù)字化的檔案中以目錄信息為主,全文信息較少。全文數(shù)字化過程中的難點主要是民國檔案。由于民國檔案年代久遠,很多都存在紙張皺折破損、字跡洇化褪色等問題,部分案卷排列雜亂、檔案文字難以識別,數(shù)字化極為困難。數(shù)字化水平不高和全文數(shù)字化較少直接導致檔案數(shù)據(jù)不完整。
其次,檔案信息數(shù)字化而非數(shù)據(jù)化。在已經全文數(shù)字化的檔案信息資源中呈現(xiàn)出來的結果以圖片和PDF為主,較少對數(shù)字化信息進行規(guī)范的著錄和標引。檔案的內容、特點等信息無法被規(guī)范地描述和分析,檔案全文無法通過關鍵詞進行檢索,必將會加大數(shù)字檔案的使用難度,數(shù)字檔案也只會是利用率較低的數(shù)字而非數(shù)據(jù),知識服務若是要基于數(shù)字檔案是不現(xiàn)實的。
最后,數(shù)據(jù)資源以歷史數(shù)據(jù)為主,實時數(shù)據(jù)少。由于檔案本身的原始記錄性,文件的歸檔是基于非現(xiàn)行文件的,導致歸檔的數(shù)據(jù)出現(xiàn)滯后現(xiàn)象。一方面這將無法為解決用戶知識需求提供完整的數(shù)據(jù),另一方面現(xiàn)行數(shù)據(jù)的缺失將使檔案信息在知識服務中表現(xiàn)狹隘。只有將現(xiàn)行數(shù)據(jù)和歷史數(shù)據(jù)結合起來,才能發(fā)揮完整的檔案數(shù)據(jù)的作用,這也是基于檔案大數(shù)據(jù)和大檔案觀提出的設想。
2.技術水平較低。目前的技術在許多方面存在不足,以以下兩點為典型進行說明。
數(shù)字檔案館普遍采用關系型數(shù)據(jù)庫。不可否認,在信息化建設之初,對于存儲數(shù)據(jù)量小的結構化數(shù)據(jù)關系型數(shù)據(jù)庫能更好地進行管理和存儲,但是在信息化高度發(fā)展的今天,電子檔案和數(shù)字化檔案與日俱增,關系型數(shù)據(jù)庫并不能滿足這些非結構化信息的存儲。盡管目前普遍做法是將非結構化數(shù)據(jù)轉變?yōu)榻Y構化數(shù)據(jù),再使用關系型數(shù)據(jù)庫,但是這樣會造成不必要的數(shù)據(jù)冗余。鑒于關系型數(shù)據(jù)庫在存儲海量非結構化數(shù)據(jù)方面的缺陷和非關系型數(shù)據(jù)庫在這方面的優(yōu)勢,檔案部門有必要引進非關系型數(shù)據(jù)庫技術,對即將接收或者已經數(shù)字化的非結構化數(shù)據(jù)資源進行有效存儲、管理和利用。
數(shù)據(jù)挖掘等大數(shù)據(jù)技術尚未推廣。未來檔案工作起到的主體作用不再是初步的整理和維護,提供的服務也不再是簡單的查閱,而應該是在眾多的檔案數(shù)據(jù)群中,根據(jù)用戶需求快速挖掘出具有價值的檔案提供給用戶[6]8。通過數(shù)據(jù)挖掘等大數(shù)據(jù)技術,檔案數(shù)據(jù)能夠合理利用,檔案工作者大幅度優(yōu)化了處理日常工作的效率。大數(shù)據(jù)技術對于知識服務的實現(xiàn)具有重要意義。
3.用戶資源較少。
(1)社會公眾的檔案意識薄弱,潛在用戶數(shù)量少。由于公眾自身的不重視和檔案宣傳工作不到位,有些人對檔案沒有從根本上得到認識,只是憑主觀臆想檔案應該是什么。或者說對檔案的認識過分片面,認為只有在工作中才會利用到檔案[7]8。有些人認為檔案是很神秘的且政治性較強的。這些對檔案的錯誤認識使得檔案潛在用戶數(shù)量少。
(2)用戶知識需求無法得到滿足,現(xiàn)實用戶數(shù)量減少。用戶在登錄檔案網(wǎng)站或者向工作人員提出知識需求后,若是無法得到滿足,將會對檔案工作失望,且難以再次利用。目前,數(shù)字檔案館普遍缺少面向公眾的一站式檢索平臺,用戶無法遠程檢索,若到所在檔案館又會產生不便,在通過網(wǎng)站咨詢功能向工作者提出知識需求時又會出現(xiàn)一系列問題。用戶利用不便、需求得不到滿足,使現(xiàn)實用戶數(shù)量減少。
四、檔案大數(shù)據(jù)下數(shù)字檔案館知識服務的建議
1.構建檔案大數(shù)據(jù)知識資源庫。
首先,數(shù)字化并數(shù)據(jù)化。數(shù)據(jù)資源是知識資源的前提和基礎,而館藏檔案只有先通過數(shù)字化才有成為數(shù)據(jù)資源的可能。在進行數(shù)字化后,將這些零散異構的數(shù)字化檔案經規(guī)范的著錄和標引后組織整合起來,成為檔案數(shù)據(jù),為構建數(shù)字檔案館檔案大數(shù)據(jù)知識資源庫做前期準備。
其次,對海量檔案數(shù)據(jù)預處理。使用數(shù)據(jù)清洗、集成、變換等方法,將殘缺、重復、含噪聲和不相關的數(shù)據(jù)進行剔除,對數(shù)據(jù)進行審核、篩選、排序,以便后期進一步進行數(shù)據(jù)加工。進行預處理工作是對數(shù)字檔案館館藏檔案的大梳理,也是構建知識資源庫的基礎工作。
然后,構建知識資源庫模塊。大數(shù)據(jù)預處理后的檔案是孤立、分散的未加工的數(shù)據(jù),不能反映數(shù)字檔案資源的全貌。數(shù)字檔案館應當采用大數(shù)據(jù)融合技術,將各類不同來源且零散異構的檔案數(shù)據(jù)集中導入一個大型分布式數(shù)據(jù)庫或存儲集群中,使之形成全息式、智能化的檔案大數(shù)據(jù)知識資源庫模塊[8]8。例如建立全息式檔案大數(shù)據(jù)知識資源庫,以及面向檔案工作者和檔案用戶的知識資源子庫、面向開放檔案和保密檔案的知識資源子庫。
最后,對檔案大數(shù)據(jù)源進行深度加工。運用可視化技術,通過表格、模型、趨勢圖等方式展示數(shù)據(jù),比單純用數(shù)字和文本來呈現(xiàn)更能讓用戶理解與接受;運用語義搜索引擎技術,對于用戶的知識需求通過搜索匹配以及關聯(lián)推理和自然語言處理來達到語義理解的目的,從而能多方位篩選用戶需要的搜索結果[9]8,達到精確搜索的目的,提高知識利用效率;運用趨勢預測分析,利用統(tǒng)計、建模、數(shù)據(jù)挖掘工具對已有數(shù)據(jù)進行研究以完成預測,發(fā)揮好檔案大數(shù)據(jù)的預測性能。
2.構建數(shù)字檔案館知識服務網(wǎng)絡平臺系統(tǒng)。
(1)構建實時歸檔平臺。檔案大數(shù)據(jù)下數(shù)字檔案館中的數(shù)據(jù)是歷史的冷數(shù)據(jù),但是檔案大數(shù)據(jù)對于實時數(shù)據(jù)趨于重視,以往的歸檔方式呈現(xiàn)出滯后性。實時歸檔平臺是基于檔案大數(shù)據(jù)和云計算技術,收集分散在網(wǎng)絡上的數(shù)據(jù)和信息化過程中產生的電子檔案,通過類似智能AI輔助鑒定的智能鑒定技術,過濾無價值和錯誤的數(shù)據(jù),將過濾后的數(shù)據(jù)進一步整合加工,形成系統(tǒng)全面的數(shù)據(jù)資源,為知識服務在檔案大數(shù)據(jù)下預測功能的實現(xiàn)提供了可能。
(2)完善信息服務平臺。目前部分數(shù)字檔案館已完成信息服務平臺的初步構建,能簡單實現(xiàn)檔案資源查詢、檢索和利用,但是檔案大數(shù)據(jù)的知識服務要求更好地實現(xiàn)知識發(fā)布、共享、私人定制和對用戶細化分析。首先,信息服務平臺要成為“一站式”的知識服務發(fā)布平臺,包括要滿足用戶提出的知識需求和為用戶提供私人定制服務兩個方面。其次,信息服務平臺要有知識共享模塊,通過檔案專家學者、檔案工作者和普通用戶的知識交流,將個人隱性知識轉化為顯性知識并表達出來,不僅能滿足更多主體的知識需求,還能增加知識資源庫的知識積累。最后,信息服務平臺應注重對用戶信息和反饋意見的科學分析與處理,通過反饋與評價可以正確認識自身的知識服務質量水平和用戶需求,有助于個性化、主動化、定制化知識服務的形成。
(3)構建知識眾包平臺。利用知識眾包平臺,將數(shù)字檔案館一部分檔案工作分擔給用戶,如規(guī)范化著錄標引以便檢索,轉錄歷史檔案及民國檔案以提供利用,上傳共享與某專題有關檔案和反映社會發(fā)展的重要檔案等,形成用戶提供知識、用戶利用知識的局面。加快檔案數(shù)據(jù)化的進程,彌補由于檔案工作者數(shù)量上的缺陷造成的數(shù)據(jù)化水平不高。知識眾包平臺實質上是一個知識共享平臺,檔案用戶在參與眾包活動的同時分享自己的理解,這種思維與知識的碰撞有助于創(chuàng)新性理念的產生。同時知識眾包平臺可以提高檔案的社會影響力,這是讓檔案走進公眾視野的一個絕佳途徑,讓公眾自愿自覺地來認識檔案、關注檔案,并加入到維護檔案事業(yè)中來,有效使現(xiàn)實用戶與潛在用戶的數(shù)量增加。
綜上所述,我國目前的數(shù)字檔案館知識服務盡管已經成為信息服務發(fā)展體系的趨勢之一,但是由于沒有緊跟檔案大數(shù)據(jù)潮流而導致行業(yè)創(chuàng)新能力匱乏。檔案大數(shù)據(jù)為數(shù)字檔案館的知識服務發(fā)展提供新機遇,進入行業(yè)發(fā)展新時期,我們更應抓住機遇,把握時代潮流,將檔案大數(shù)據(jù)技術融于知識服務中,讓數(shù)字檔案館真正成為服務公眾的檔案館。
參考文獻
[1]全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要[EB/OL].[2018-11-26](2016-04-07).http://www.saac.gov.cn/news/2016-04/07/content_136280.htm.
[2]楊豐源.經濟斂散性與城市群空間網(wǎng)絡關系研究[D].徐州:江蘇師范大學,2018.
[3]秦曉珠,李晨暉,麥范金.大數(shù)據(jù)知識服務的內涵、典型特征及概念模型[J].情報資料工作,2013(2):18-22.
[4]知識服務[EB/OL].[2018-11-26](2018-07-13).https://baike.baidu.com/item/知識服務/6192713?fr=aladdin.
[5]王運玲.大數(shù)據(jù)時代下檔案信息資源的知識服務[A].國家檔案局.建設與文化強國相匹配的“檔案強國”論文集[C].國家檔案局:中國檔案學會,2014:6.
[6]滕春娥.大數(shù)據(jù)環(huán)境下檔案工作轉型研究[J].北京檔案,2015(2):17-19.
[7]楊怡璟.民生檔案信息利用服務的問題及應對[J].陜西檔案,2014(6):45-47.
[8]張倩.高校學術檔案數(shù)據(jù)源的內容挖掘與開發(fā)利用[J].中國檔案,2018(9):58-59.
[9]覃天.大數(shù)據(jù)背景下企業(yè)檔案管理研究[D].哈爾濱:黑龍江大學,2018.