吳曉文+孫杰+楊帆
摘 要:“大數(shù)據(jù)”時代,結合業(yè)務需求剖析海洋檔案管理的背景和現(xiàn)狀,分析應用大數(shù)據(jù)挖掘技術開展海洋檔案管理工作的必要性,以海洋檔案管理實踐為基礎,研究大數(shù)據(jù)挖掘技術在檔案管理中的應用,為提升海洋檔案館建設能力和服務水平做出有益探索,更好的推動我國海洋檔案事業(yè)的發(fā)展。
關鍵字:海洋檔案管理;數(shù)據(jù)挖掘
本文為2016年國家海洋局東海分局青年科技基金“大數(shù)據(jù)技術與海洋檔案數(shù)據(jù)挖掘應用研究”(項目編號:201615)和東海信息中心課題“國家海洋局東海分局海洋檔案數(shù)據(jù)庫建設項目”的研究成果。
海洋檔案匯聚了海洋工作最根本、最豐富的信息資源,作為海洋事業(yè)發(fā)展真實、全面的歷史記錄,在維護國家海洋主權、海洋科學研究、海洋資源開發(fā)等方面越來越顯示出其重要性。在建設海洋強國的時代背景下,海洋檔案信息的利用需求不斷增加,但是現(xiàn)有的檔案管理模式無法滿足海洋事業(yè)快速發(fā)展的需求,豐富的檔案資源未能有效的開發(fā)和利用。如何改變現(xiàn)有的開發(fā)利用模式,有效地開發(fā)利用海洋檔案資源為海洋事業(yè)發(fā)展服務是海洋檔案管理工作的重要任務。
1 研究背景
《全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》從大數(shù)據(jù)的視角,描繪出2016-2020年我國檔案大數(shù)據(jù)發(fā)展和信息化建設的開放、創(chuàng)新的前景和路向,打破小數(shù)據(jù)管理定勢、探索與大數(shù)據(jù)技術的融合已勢在必行。海洋檔案事業(yè)要發(fā)展,必然需要應用大數(shù)據(jù)技術改變傳統(tǒng)的海洋檔案管理模式。
國家海洋局東海分局是我國東海區(qū)綜合性海洋檔案管理部門,負責接收東海區(qū)機關和下屬事業(yè)單位的海洋檔案。以東海檔案館為例,目前館藏檔案1萬余卷,涵蓋機關文書、船舶與飛機、調查與觀(監(jiān))測、防災減災、環(huán)境保護、海洋執(zhí)法、基建等類型。自2011年開展檔案數(shù)字化和數(shù)字檔案管理工作,館藏數(shù)字化程度僅為85%,檔案信息查詢系統(tǒng)的建設提高了檔案管理水平和效率。但受到管理體制、信息保密以及系統(tǒng)功能的限制,現(xiàn)有的檔案信息系統(tǒng)僅能用于檔案初步查閱利用,檔案管理模式仍然沿用人工管理的方式,海洋檔案管理現(xiàn)狀也處于資源豐富但利用率低,利用手段原始,信息挖掘和利用程度低,開放和共享程度受限的階段[1]。當前,結合海洋業(yè)務需求的海洋檔案數(shù)據(jù)挖掘研究剛剛起步,要實現(xiàn)檔案數(shù)據(jù)的深度挖掘,需要完成大量檔案的數(shù)據(jù)化和結構化處理,并依托大數(shù)據(jù)技術實現(xiàn)智能管理和利用。
2 大數(shù)據(jù)挖掘技術應用于海洋檔案管理的必要性
我國海洋事業(yè)發(fā)展邁入了前所未有的戰(zhàn)略機遇期,海洋檔案管理工作的內(nèi)涵不斷擴展,技術手段不斷創(chuàng)新,檔案的類別與載體不斷豐富,業(yè)務需求不斷增加。新的發(fā)展需求引導新的發(fā)展理念,從海洋檔案本身和檔案管理工作兩方面來看,將大數(shù)據(jù)挖掘技術引入海洋檔案管理工作中,是非常必要的。
2.1 輔助海洋行政決策
海洋管理部門在海洋生態(tài)文明建設、海洋科技創(chuàng)新、維護國家海洋權益等重大決策中需要大量有效信息作為依據(jù)。智慧海洋建設離不開海量的檔案數(shù)據(jù)和信息作為資源,而豐富的海洋檔案恰恰可以提供這種需要。如何將海量數(shù)據(jù)變成“活資源”,更有效的輔助海洋行政重大決策是應用大數(shù)據(jù)挖掘技術的首要理由。
2.2 完善海洋檔案存儲結構
海洋檔案從傳統(tǒng)的紙質載體,逐漸發(fā)展為紙質為主、電子檔案為輔的載體結構。到大數(shù)據(jù)時代,這些海量的信息資源僅僅采取目前傳統(tǒng)的存儲方式是不夠的,海洋檔案存儲方式應更加多元,而要采取新的存儲方式,比如云存儲、虛擬存儲、網(wǎng)格存儲等,考慮到海洋檔案總量、檔案數(shù)據(jù)增加的速度、檔案數(shù)據(jù)類型的多樣化以及數(shù)據(jù)復雜程度等要素的影響,引入大數(shù)據(jù)挖掘技術實現(xiàn)存儲結構的完善是當前的不二選擇。
2.3 創(chuàng)新海洋檔案服務方式
海洋事業(yè)的發(fā)展必然要求海洋檔案服務工作不僅要“跟得上”,更要發(fā)揮預見性功能。大數(shù)據(jù)時代建設“智慧海洋”,意味著海洋檔案工作要具有智慧屬性,海洋檔案服務將朝著社會化、多元化、開放性發(fā)展,突破現(xiàn)有格局,為海區(qū)乃至全國海洋事業(yè)全局化、個性化的需求為導向,提供網(wǎng)絡化、智慧型的服務,這些都需要大數(shù)據(jù)挖掘技術作為支撐。
2.4 轉變海洋檔案的功能和作用
隨著時代的發(fā)展,海洋檔案的功能和作用也發(fā)生了深刻的變化,從最初的服務于國防安全和海洋科技轉變?yōu)榉沼趪窠?jīng)濟和社會發(fā)展、國家安全和權益維護、海洋經(jīng)濟創(chuàng)新發(fā)展、海洋生態(tài)文明建設等,從長期以來的“重保管、輕利用”轉變?yōu)橥ㄟ^運用先進的大數(shù)據(jù)技術手段,來發(fā)現(xiàn)和提取有效的信息,為國家、社會、企業(yè)創(chuàng)造價值[2]。
3 大數(shù)據(jù)挖掘技術在海洋檔案管理中的應用
3.1 海洋檔案信息收集中的應用
在較為成熟的大數(shù)據(jù)挖掘技術的應用實例中,“淘寶”的大數(shù)據(jù)應用最為典型?!疤詫殹焙笈_收集了海量用戶信息及店鋪訪問深度、停留時間、寶貝轉化率、跳失率等符合常規(guī)購物習慣的數(shù)據(jù),對其進行深度挖掘,成功進行信息管理、定向推廣、客戶維護等工作,使用戶獲得很好的購物體驗。
借鑒這樣的思路,在海洋檔案管理的數(shù)據(jù)挖掘中,首要任務就是對歷史的檔案管理行為數(shù)據(jù)及相關檔案數(shù)據(jù)庫中的信息予以分析,以全新的描述方式描述已知的數(shù)據(jù)集合,并建立起模型概念,按照模型對各種對象進行合理分類。因此,可認為檔案信息的收集是檔案管理其他個性化功能實現(xiàn)的前提。諸如在已建成的“東海數(shù)字檔案管理系統(tǒng)”中已經(jīng)可以實現(xiàn)個人用戶自助借閱并進行流程審批,通過對個人信息及查詢習慣的分析,可以確定向不同類別的用戶提供符合其需求的服務,一旦有類似信息的用戶輸入,則能依據(jù)分類提供其可能的檔案利用服務,可明顯提高檔案查全、查準率;通過對用戶行為的進一步分析,可以對檔案的收集起到促進作用,判斷是否有應歸未歸的檔案,是否需要通過修改歸檔范圍進一步擴大檔案的收集面等。
3.2 海洋檔案分類中的應用
通常檔案分類方法有年度分類法、組織機構分類法、問題分類法等。目前我國現(xiàn)行檔案分類法是1997年正式發(fā)行的《中國檔案分類法》第二版,其中對海洋行業(yè)的分類描述甚少,歸納在19個大類中的一個二級目錄中,篇幅僅占其中薄薄一頁且偏于理論,對海洋檔案管理工作實踐指導作用較弱。因海洋檔案分類體系復雜、難度較大,海洋檔案分類研究和實踐工作至今仍然進展緩慢。endprint
海洋檔案分類體系影響海洋檔案管理效率,進而影響檔案本身資源挖掘,而應用大數(shù)據(jù)挖掘技術,可有效跨越這一障礙,管理者只需根據(jù)海洋檔案特點,在進行檔案信息化工作時將現(xiàn)有檔案分為數(shù)據(jù)類檔案和描述類檔案兩大類別,即可通過不同的大數(shù)據(jù)挖掘技術(如語義檢索技術、非結構化數(shù)據(jù)庫存儲技術等)進行檔案深度服務,提高檔案的檢索有效率和檢索速度。
3.3 海洋檔案預測中的應用
目前海洋檔案管理系統(tǒng)已經(jīng)能夠實現(xiàn)自動保留訪問者的基本信息與訪問日志。大數(shù)據(jù)挖掘技術通過基本信息、搜索間隔的時間、停留時間、訪問下載的次數(shù),發(fā)現(xiàn)使用者的興趣點。再對檔案內(nèi)容進行分類與用戶興趣點關聯(lián),為用戶提供有效、準確、個性的推薦信息。更能夠進一步的對用戶需求作出預測,以推算出用戶未來的需求。
研究分析2008-2012年通過“在線+離線”方式采集的檔案借閱登記信息,對分局45周年局慶時期檔案的借閱情況等相關數(shù)據(jù)進行總結分析,發(fā)現(xiàn)在局慶前有關分局歷史、沿革的機關文書檔案及重大時間或照(膠)片、錄像(聲音)帶等各種載體形式檔案都會被大量地查閱。由此可以預測出下一次局慶活動開展時,這種形式的檔案必然要被大量查閱,在之后的檔案工作中要注重收集和管理,同時應提前整理好以備查閱,甚至提前做好編研以備使用。此外,在東海實物檔案展館的建設過程中,通過對一般訪問者的需求行為數(shù)據(jù)進行數(shù)據(jù)挖掘,提前編研或整理分局發(fā)展歷程、東海分局船舶飛機發(fā)展史等文字、圖片材料,以供布展使用,得到較好反響。
3.4 海洋檔案信息整合開發(fā)中的應用
《海洋檔案管理》規(guī)定是海洋檔案工作的總規(guī)定,其中第二章第九條明確提出要“積極做好檔案信息的開發(fā)利用和服務工作”。挖掘海洋檔案信息本質上就是為了更有效地利用,不開發(fā)不整合,檔案信息就成不了“活資源”[3]。海洋檔案工作要主動靠近海洋事業(yè)核心工作,不能“邊緣化”。檔案人員要有強烈的參與意識和效益意識,發(fā)揚“擠”和“鉆”的精神,及時根據(jù)海洋工作需要開發(fā)檔案信息資源,盤活館藏,主動為海洋管理和業(yè)務提供有用的檔案信息服務。
例如,將科研檔案和東海分局科技管理平臺關聯(lián)起來,利用數(shù)據(jù)挖掘的信息整合功能,通過關聯(lián)檢索將成果報送與實際歸檔內(nèi)容對比和算法分析,可以反映科研工作者在實際科研工作中的真實權重,進一步提高海洋科技管理水平,在一定程度上純凈科研學術氛圍。再如,東海分局正在開展的東海檔案數(shù)據(jù)庫建設項目,即是海洋行業(yè)內(nèi)應用大數(shù)據(jù)技術開展海洋檔案管理的“先行者”。一方面,海洋檔案中很大一部分是非結構化的數(shù)據(jù),建設海洋基礎數(shù)據(jù)庫要進行檔案的電子化、數(shù)字化處理;另一方面,以大事記和機關文書、榮譽檔案等例,對非結構化檔案進行了數(shù)據(jù)挖掘探索。大事記以記載大事見長, 多以編年體為主,以紀事本末體為輔,以時間為主線,以大事為主體。東海分局大事記目前編撰至2004年,在東海檔案數(shù)據(jù)庫建設項目中,首先,將已編撰完成的大事記文本與機關文書檔案中的出處、榮譽檔案目錄信息條目三者進行關聯(lián),將時間、地點、人物、事件等要素進行關聯(lián),實現(xiàn)任意相關檢索詞均可查找到檔案的功能,使利用者能快速地獲取較為全面的、有效性高的信息集合;其次,采用分類、關聯(lián)分析、聚類分析、語義檢索等技術,選用常用的數(shù)據(jù)挖掘工具(如K-Miner),提高大事記的編撰效率和志書編撰能力,有助于逐步開展重大事件(專題)大事記、海洋船舶大事記、海洋名人傳記等編撰工作。
4 結束語
大數(shù)據(jù)挖掘技術的發(fā)展是信息技術高度發(fā)展的必然,其在社會各行業(yè)中的探索應用也表明了大數(shù)據(jù)挖掘技術有著重要的現(xiàn)實意義。大數(shù)據(jù)挖掘技術在海洋檔案管理工作中的運用,能夠創(chuàng)新海洋檔案管理模式,顯著提升海洋檔案館建設能力和服務水平。因此,在海洋檔案管理的未來發(fā)展趨勢中,應用大數(shù)據(jù)挖掘技術要朝著實用技術方向拓展,加大數(shù)據(jù)挖掘技術在海洋檔案領域中的研究力度,更好的推動我國海洋檔案事業(yè)的發(fā)展,推進海洋智慧檔案館建設,促進海洋檔案“模塊化”、“數(shù)字化”、“信息化”、“智能化”發(fā)展。
參考文獻
[1]沈東芳.多種類型海洋檔案的信息集成研究[J].浙江檔案,2017(7):23.
[2]蔡利劍.大數(shù)據(jù)背景下的檔案管理問題研究[J].西北工業(yè)大學學報(社會科學版,2016(3):105.
[3]孫杰,吳曉文.信息化手段下海洋檔案信息資源的整合與共享[J].檔案與建設.2016(7):22-24.
作者簡介
吳曉文,女,漢族,山東,國家海洋局東海信息中心,工程師,研究生,主要從事海洋檔案管理、數(shù)據(jù)挖掘方向。endprint