王大青
摘 要:數(shù)據(jù)分析的質(zhì)量事關(guān)檔案事業(yè)的科學(xué)發(fā)展。當(dāng)前,檔案領(lǐng)域數(shù)據(jù)分析效益因缺乏固定而專業(yè)的分析師受到嚴(yán)重影響。文章從檔案領(lǐng)域數(shù)據(jù)分析師崗位設(shè)置意義、崗位職責(zé)和素質(zhì)要求三個方面進(jìn)行論述,以利于檔案事業(yè)科學(xué)地、集約化地快速發(fā)展。
關(guān)鍵詞:檔案大數(shù)據(jù);數(shù)據(jù)分析師;崗位需求;崗位職責(zé);素質(zhì)要求
Abstract:In the big data era, data analysis can affect the development of archival cause. At present, the benefit of data analysis is dissatisfactory because of lacking settled analysts in archival field. This paper addresses the post requirements, the post duties and the quality demands of data scientists in archival field.
Keywords:big data of archive; data scientist; post requirements; post duties; quality demands
大數(shù)據(jù)時代,數(shù)據(jù)成為重要的戰(zhàn)略資源。在電子辦公深度與廣度不斷拓展的進(jìn)程中,人類對數(shù)據(jù)“精、準(zhǔn)、深”的要求日益突出。在基于數(shù)據(jù)決策、依賴數(shù)據(jù)管理等“以數(shù)據(jù)說話”的理念日益深入人心的大環(huán)境下,作為大數(shù)據(jù)的關(guān)鍵組成部分——檔案大數(shù)據(jù)的地位和作用也逐漸凸顯出來,它是大數(shù)據(jù)重要維度即歷史維度數(shù)據(jù)的核心,在各個領(lǐng)域都有很好的應(yīng)用前景。但是,應(yīng)該看到,受保密、檔案管理機(jī)制等因素的制約,檔案大數(shù)據(jù)的應(yīng)有價值還沒有得到充分發(fā)揮,檔案大數(shù)據(jù)與其他數(shù)據(jù)的整合還有一段很長的路要走。為提升檔案資源建設(shè)與利用效益,對檔案大數(shù)據(jù)進(jìn)行分析,優(yōu)化檔案事業(yè)發(fā)展方案,更好地為領(lǐng)導(dǎo)決策和各領(lǐng)域工作的開展提供數(shù)據(jù)支撐,成為檔案工作的重要組成部分,這就需要檔案資源和檔案事業(yè)數(shù)據(jù)的鼎力支撐。雖然從國家主管部門到各級檔案館(室),都在開展檔案數(shù)據(jù)的統(tǒng)計和分析工作,但是,由于缺乏固定而專業(yè)的分析人員,從數(shù)據(jù)統(tǒng)計和分析的全面性、系統(tǒng)性、多維性、深入性和規(guī)范性等方面看,仍有待進(jìn)一步增強(qiáng)。在此種形勢下,檔案大數(shù)據(jù)作用的發(fā)揮和檔案事業(yè)發(fā)展的科學(xué)性很大程度上取決于檔案部門自身結(jié)構(gòu)的優(yōu)化和管理資源使用效益的提升。
1 檔案領(lǐng)域數(shù)據(jù)分析師崗位設(shè)置的意義
大數(shù)據(jù)時代,數(shù)據(jù)分析在各領(lǐng)域有著十分重要的意義,各行業(yè)對數(shù)據(jù)分析師的需求與日俱增。與其他數(shù)據(jù)相比,檔案大數(shù)據(jù)很大一部分源于政府、軍隊等組織機(jī)構(gòu)的活動,具有權(quán)威性和憑證性等不可替代的價值特點(diǎn),雖然有著服務(wù)社會、服務(wù)百姓的義務(wù),但又必須確保國家利益不受侵害。因此,在行業(yè)內(nèi)部設(shè)立數(shù)據(jù)分析師崗位不僅是社會需求、也是檔案行業(yè)組織機(jī)構(gòu)結(jié)構(gòu)優(yōu)化的內(nèi)在需要。
1.1 優(yōu)化檔案資源體系建設(shè)的需要。從局部看,各級檔案部門都不同程度地存在著檔案收集不齊全、著錄不規(guī)范等問題。從整體看,各檔案部門之間存在著檔案資源交叉重復(fù)、數(shù)據(jù)異構(gòu)等問題。系統(tǒng)地設(shè)置統(tǒng)計項(xiàng)目,全面地對檔案資源建設(shè)現(xiàn)狀進(jìn)行分析,就可以準(zhǔn)確地發(fā)現(xiàn)檔案資源體系建設(shè)中的弱項(xiàng)和“瓶頸”。通信網(wǎng)絡(luò)和數(shù)字設(shè)備發(fā)展實(shí)踐告訴人們:當(dāng)今,電子文件的增長幾乎達(dá)到了幾何級。例如,阿富漢戰(zhàn)爭期間,美軍為打擊一小股恐怖分子,其情報偵測、監(jiān)視系統(tǒng)24小時產(chǎn)生的數(shù)據(jù)量就達(dá)53TB。在如此大的數(shù)據(jù)量面前,如何分類電子文件、確定保管期限?網(wǎng)站、微博、通訊交友軟件等產(chǎn)生的數(shù)據(jù),哪些是需要作為電子文件保存的、又該如何保存?現(xiàn)有館(室)藏檔案資源,哪些方面需要豐富、哪些方面需要“瘦身”?如何從國家層面調(diào)控檔案資源體系建設(shè)?這些均有待于檔案領(lǐng)域數(shù)據(jù)分析師從“保存歷史、服務(wù)社會”視角、以可靠的數(shù)據(jù)和科學(xué)的分析給出建設(shè)性的解答。
1.2 分析和把握檔案利用規(guī)律的需要。檔案資源的利用是有規(guī)律可循的,掌握了這個規(guī)律對于提升檔案資源利用率是十分有益的。有的檔案資源,其利用具有擴(kuò)展效應(yīng),即一次成功利用可能會激發(fā)人數(shù)更多、范圍更廣、程度更深的利用,例如名人檔案、著名戰(zhàn)役檔案、歷史典故檔案等;有的檔案資源,其利用具有遞減效應(yīng),即一次成功利用之后可能很長時間內(nèi)不會再有第二次利用,例如事關(guān)普通百姓的個人檔案。如果機(jī)械地根據(jù)其前段時間的關(guān)注熱點(diǎn)推薦檔案信息服務(wù)產(chǎn)品,則不僅達(dá)不到理想效果甚至還會引起用戶反感。依托數(shù)據(jù)分析師的科學(xué)分析,有助于檔案部門聚焦服務(wù)熱點(diǎn),提前做好檔案信息服務(wù)預(yù)案,根據(jù)用戶需求方向準(zhǔn)確提供檔案資源及其編研產(chǎn)品服務(wù)。
1.3 推動檔案管理科學(xué)發(fā)展的需要。近年來,檔案事業(yè)出現(xiàn)了一派欣欣向榮的景象,尤其是檔案信息化建設(shè)、民生檔案的收集與管理等得到了長足發(fā)展。但是,無論是硬件建設(shè)、還是軟件建設(shè),離精細(xì)式、集約化科學(xué)發(fā)展尚有一定距離,這就需要發(fā)揮檔案大數(shù)據(jù)的決策助手作用。對于不同學(xué)識背景、不同工作經(jīng)歷、不同職業(yè)精神的數(shù)據(jù)分析人員來說,同樣的統(tǒng)計數(shù)據(jù)得出的結(jié)論也是不盡相同的。設(shè)置固定的數(shù)據(jù)分析師崗位,則有益于提升數(shù)據(jù)統(tǒng)計和分析工作的科學(xué)性。通過數(shù)據(jù)分析師對檔案事業(yè)分門別類的統(tǒng)計和分析,可以有效地沖破經(jīng)驗(yàn)主義思維的“籬笆”,發(fā)現(xiàn)和把握新形勢下檔案管理工作的發(fā)展規(guī)律,更加統(tǒng)籌、協(xié)調(diào)和集約化地利用管理資源,構(gòu)建檔案事業(yè)發(fā)展的良好生態(tài)。
1.4 更好地服務(wù)社會發(fā)展的需要。如果說“讀史可以明智”只能模糊地形容檔案的作用,檔案大數(shù)據(jù)在金融、醫(yī)藥、衛(wèi)生、交通、安全和軍事等領(lǐng)域的成功應(yīng)用,已經(jīng)很好地量化和解釋了檔案大數(shù)據(jù)的價值。它是轉(zhuǎn)換思維方式、科學(xué)決策的直接支撐,是引領(lǐng)社會更快、更好發(fā)展的“催化劑”。設(shè)置檔案大數(shù)據(jù)分析師,無疑會有助于提升檔案信息服務(wù)于社會的廣度與深度。同時,也有助于檔案部門把握契機(jī)創(chuàng)新服務(wù)社會的模式與內(nèi)容。
2 檔案領(lǐng)域數(shù)據(jù)分析師的崗位職責(zé)
檔案領(lǐng)域數(shù)據(jù)分析師,可以依據(jù)各級主管部門、檔案館(室)的編制和事業(yè)發(fā)展?fàn)顩r合理配置,其職責(zé)主要是從檔案資源建設(shè)、檔案利用、檔案事業(yè)綜合發(fā)展以及檔案文件內(nèi)容等方面進(jìn)行數(shù)據(jù)統(tǒng)計和分析,并制定優(yōu)化方案和提出發(fā)展規(guī)劃建議。
2.1 檔案資源數(shù)據(jù)統(tǒng)計和分析。檔案資源數(shù)量統(tǒng)計和分析,主要是對館(室)藏或者主管范圍內(nèi)的檔案資源數(shù)量情況進(jìn)行統(tǒng)計和分析,包括對各全宗文件數(shù)量的分類統(tǒng)計和分析、同類全宗文件數(shù)量的對比分析、現(xiàn)行全宗文件產(chǎn)生量與歸檔量的對比分析、永久檔案與定期檔案數(shù)量的對比分析、不同類型載體檔案數(shù)量的對比分析、不同地域不同系統(tǒng)檔案移交數(shù)量對比分析、不同時期檔案數(shù)量對比分析、不同密級檔案數(shù)量對比分析等。
檔案資源質(zhì)量統(tǒng)計和分析。主要是對館(室)藏或者主管范圍內(nèi)的檔案質(zhì)量情況進(jìn)行統(tǒng)計和分析,包括檔案資源載體和信息完好度分析、檔案資源結(jié)構(gòu)分析、檔案著錄情況分析、檔案信息化建設(shè)情況分析、檔案目錄數(shù)據(jù)庫質(zhì)量分析、檔案全文數(shù)據(jù)質(zhì)量分析、檔案縮微情況分析、檔案修復(fù)情況分析等。
檔案資源優(yōu)化方案的制定。基于館(室)功能,在科學(xué)分析的基礎(chǔ)上,提出一定范圍內(nèi)檔案資源體系建設(shè)優(yōu)化方案。主要是從檔案資源結(jié)構(gòu)和數(shù)量視角,有重點(diǎn)地對現(xiàn)有檔案資源進(jìn)行豐富、再鑒定工作。對明顯存在缺失的館(室)藏方向,分析檔案資源可能的分布點(diǎn),為收(征)集工作提供指導(dǎo)。具體分析檔案著錄、目錄數(shù)據(jù)庫構(gòu)建情形,提供檔案著錄尤其是電子文件著錄以及檔案目錄數(shù)據(jù)庫優(yōu)化方案。必要時,對全文數(shù)據(jù)質(zhì)量進(jìn)行優(yōu)化。根據(jù)檔案完好度統(tǒng)計,制定檔案修復(fù)計劃。
2.2 檔案利用數(shù)據(jù)統(tǒng)計和分析。檔案利用人群統(tǒng)計和分析。主要是對用戶基本情況進(jìn)行統(tǒng)計和分析,包括用戶職業(yè)、單位、年齡、學(xué)歷、檔案專業(yè)知識、興趣點(diǎn)、檔案意識等,從共性和個性等方面進(jìn)行分析和研究。
檔案利用目的、利用效益統(tǒng)計和分析。主要是對檔案利用目標(biāo)和用戶所獲得的收益進(jìn)行分析。從編史修志、工作查考、解決個人問題等方面對檔案利用目的作進(jìn)一步細(xì)分,分別進(jìn)行統(tǒng)計和分析,并關(guān)注其利用效益。同時,分析一定時期內(nèi)得到用戶關(guān)注和利用的檔案資源,尤其是得到用戶重點(diǎn)關(guān)注或利用的檔案資源。
檔案檢索效率統(tǒng)計和分析。主要是對檔案目錄和全文的檢索效率進(jìn)行分析,與圖書情報資源等相關(guān)領(lǐng)域的檢索效率進(jìn)行對比,考慮其是否滿足用戶需要,有無改進(jìn)策略。密切跟蹤信息和知識領(lǐng)域的發(fā)展前沿,將先進(jìn)的技術(shù)和工具應(yīng)用到檔案檢索效率的提升上來,主要是對檔案信息組織和檢索模式提出創(chuàng)新方案。
檔案利用發(fā)展趨勢預(yù)測。由于社會和國家發(fā)展的需要,人們會在一定時期內(nèi)有重點(diǎn)地開展某個或某些方面的工作。數(shù)據(jù)分析師應(yīng)密切關(guān)注某個系統(tǒng)、國家乃至整個人類社會的發(fā)展形勢,科學(xué)地統(tǒng)計和分析用戶的潛在需求,準(zhǔn)確地預(yù)測出檔案利用的重點(diǎn)方向,從而有針對性地做好檔案利用準(zhǔn)備工作。例如,編史修志工作往往在國家層面、某一系統(tǒng)或行業(yè)層面進(jìn)行統(tǒng)一行動,有的又會與編制體制調(diào)整、大型紀(jì)念活動、大項(xiàng)任務(wù)開展等時機(jī)緊密結(jié)合;個人利用檔案,往往會與國家出臺某項(xiàng)政策、某一年齡段人群的成長經(jīng)歷、某些文化活動的開展等密切關(guān)聯(lián)。根據(jù)檔案利用歷史數(shù)據(jù)的分析、當(dāng)前社會熱點(diǎn)、用戶關(guān)注方向等,引導(dǎo)檔案信息資源的開發(fā),借助大數(shù)據(jù)工具,利用檔案信息資源整合平臺,充分地進(jìn)行知識挖掘,高效地構(gòu)建專題數(shù)據(jù)庫,向用戶推送檔案信息資源。
2.3 檔案事業(yè)數(shù)據(jù)綜合統(tǒng)計和分析。檔案人才隊伍建設(shè)情況統(tǒng)計和分析。當(dāng)今時代,不僅要求檔案工作者具有較高的信息素養(yǎng),而且需要檔案工作者轉(zhuǎn)變理念,從知識管理視角出發(fā),為用戶提供問題解決方案。檔案領(lǐng)域數(shù)據(jù)分析師應(yīng)該對檔案工作者個體素質(zhì)和整個隊伍建設(shè)情況進(jìn)行統(tǒng)計和分析,要重點(diǎn)關(guān)注專業(yè)學(xué)歷、知識儲備、年齡結(jié)構(gòu)、管理能力、信息素養(yǎng)和職業(yè)精神等方面。
檔案事業(yè)組織領(lǐng)導(dǎo)形勢統(tǒng)計和分析。組織領(lǐng)導(dǎo)是檔案事業(yè)發(fā)展的關(guān)鍵。檔案領(lǐng)域數(shù)據(jù)分析師,應(yīng)可以系統(tǒng)地設(shè)置檔案事業(yè)各類統(tǒng)計表格,并根據(jù)形勢發(fā)展創(chuàng)新地設(shè)置統(tǒng)計項(xiàng)目和衡量指標(biāo)。不僅要分析檔案主管部門對檔案工作的組織領(lǐng)導(dǎo)情況,還要分析各級組織機(jī)構(gòu)對檔案事業(yè)的組織領(lǐng)導(dǎo)形勢,包括工作規(guī)劃、經(jīng)費(fèi)投入和對檔案事業(yè)的關(guān)注度等。
檔案專業(yè)硬件、軟件建設(shè)情況統(tǒng)計和分析。在國家大力倡導(dǎo)檔案信息共享平臺建設(shè)的情形下,對行業(yè)內(nèi)硬件、軟件建設(shè)情況進(jìn)行統(tǒng)計和分析,要重點(diǎn)對檔案館(室)庫房建設(shè)、檔案安全體系建設(shè)、業(yè)務(wù)設(shè)備建設(shè)、檔案軟件系統(tǒng)建設(shè)等方面進(jìn)行統(tǒng)計和分析,避免低水平重復(fù)建設(shè)、提升管理資源利用效益。
制定檔案事業(yè)科學(xué)發(fā)展方案。檔案領(lǐng)域數(shù)據(jù)分析師要適應(yīng)大環(huán)境的需要,從檔案工作者個體出發(fā),提出人才培養(yǎng)和培訓(xùn)方案。從檔案人才隊伍整體建設(shè)出發(fā),合理提出編制調(diào)整、人才配備和人才發(fā)展等建議。在硬件建設(shè)方面,從檔案事業(yè)整體發(fā)展視角提供指導(dǎo)意見,合理配置各類設(shè)備設(shè)施。在應(yīng)用系統(tǒng)開發(fā)方面,針對技術(shù)發(fā)展形勢及時提供建議,為頒布軟件系統(tǒng)需求標(biāo)準(zhǔn)、協(xié)調(diào)資源做出貢獻(xiàn)。
2.4 檔案文件內(nèi)容大數(shù)據(jù)的分析和知識挖掘。無論是科技檔案、專門檔案,還是文書檔案,其利用都是圍繞著組織機(jī)構(gòu)(或個人)的業(yè)務(wù)行為開展的。因此,從業(yè)務(wù)層面對檔案內(nèi)容大數(shù)據(jù)進(jìn)行分析,是檔案大數(shù)據(jù)分析的重要內(nèi)容。根據(jù)各專業(yè)發(fā)展的需要,利用高效、可視化的圖形分析工具,對檔案文件內(nèi)容大數(shù)據(jù)進(jìn)行分析,挖掘出其中蘊(yùn)含的知識點(diǎn),以指導(dǎo)各領(lǐng)域業(yè)務(wù)工作的科學(xué)開展。
3 檔案領(lǐng)域數(shù)據(jù)分析師的基本素質(zhì)要求
數(shù)據(jù)分析師肩負(fù)著對檔案事業(yè)各類數(shù)據(jù)進(jìn)行統(tǒng)計和分析的職責(zé),并且要根據(jù)分析結(jié)果制定出推動各行業(yè)科學(xué)發(fā)展的、切實(shí)可行的方案,這就要求其具有高度的事業(yè)心和責(zé)任感,具備檔案、計算機(jī)、數(shù)學(xué)和管理等領(lǐng)域?qū)I(yè)知識和技能。
3.1 思維開闊,開拓精神強(qiáng)。無論是統(tǒng)計項(xiàng)目的設(shè)置、還是優(yōu)化方案的制定,都要求檔案領(lǐng)域數(shù)據(jù)分析師關(guān)注相關(guān)領(lǐng)域前沿發(fā)展形勢,具有開闊的思維和較強(qiáng)的創(chuàng)新意識,能夠敏銳地捕捉到檔案事業(yè)發(fā)展中的主要矛盾,打破舊的思維和工作運(yùn)行模式,為建立起切合實(shí)際的、具有前瞻性的檔案工作機(jī)制貢獻(xiàn)力量。
3.2 檔案專業(yè)功底扎實(shí)。檔案領(lǐng)域的數(shù)據(jù)分析,其出發(fā)點(diǎn)和落腳點(diǎn)均在檔案收集、管理和利用。因而,數(shù)據(jù)分析師應(yīng)具備系統(tǒng)的檔案專業(yè)理論知識。不僅要熟知檔案領(lǐng)域基本理論,而且要掌握領(lǐng)域前沿發(fā)展和理論創(chuàng)新情況,密切跟蹤行業(yè)發(fā)展實(shí)踐,能夠科學(xué)地設(shè)計好統(tǒng)計與衡量指標(biāo)、優(yōu)化和促進(jìn)檔案事業(yè)的綜合發(fā)展。
3.3 掌握計算機(jī)應(yīng)用專業(yè)知識。數(shù)據(jù)分析師經(jīng)常要與計算機(jī)網(wǎng)絡(luò)、多種軟件工具打交道,必須具備較高的信息素養(yǎng)和扎實(shí)的計算機(jī)應(yīng)用專業(yè)知識。檔案領(lǐng)域數(shù)據(jù)分析師,應(yīng)了解機(jī)器學(xué)習(xí)、人工智能和自然語言知識,能夠結(jié)合領(lǐng)域?qū)嶋H,提出具體的統(tǒng)計、分析軟件系統(tǒng)需求;能夠熟練操作基本分析軟件,掌握大數(shù)據(jù)分析工具的使用(如R軟件、SPSS、MATLAB),準(zhǔn)確地采集、處理數(shù)據(jù),必要時進(jìn)行數(shù)據(jù)遷移;能夠在看似無關(guān)的數(shù)據(jù)中挖掘出蘊(yùn)含的關(guān)聯(lián)、發(fā)現(xiàn)檔案資源建設(shè)和檔案事業(yè)發(fā)展內(nèi)在規(guī)律。
3.4 熟悉管理學(xué)基本理論。無論是檔案資源管理、還是檔案事業(yè)的綜合管理,都離不開管理學(xué)基本理論的運(yùn)用。因此,檔案領(lǐng)域數(shù)據(jù)分析師應(yīng)熟悉現(xiàn)代管理學(xué)基本理論,具有嚴(yán)謹(jǐn)?shù)倪壿嬎季S能力和較好的文字表述能力,能夠運(yùn)用管理學(xué)前沿理論來指導(dǎo)檔案資源建設(shè)和檔案事業(yè)科學(xué)發(fā)展方案的制定。
3.5 靈活運(yùn)用統(tǒng)計和分析基本方法。在可視化需求不斷增長的今天,人們需要數(shù)據(jù)分析師能夠直觀地將統(tǒng)計和分析結(jié)果呈現(xiàn)出來。這就要求檔案領(lǐng)域數(shù)據(jù)分析師熟練掌握數(shù)據(jù)分析與建模方法,牢記統(tǒng)計、分析的基本程序和原則,將分析結(jié)果以圖形化方式表述出來,必要時加以創(chuàng)新和發(fā)展,從定性分析和定量分析兩個視角,為檔案事業(yè)的科學(xué)發(fā)展提供數(shù)據(jù)支撐。
此外,在對檔案文件內(nèi)容大數(shù)據(jù)進(jìn)行分析和挖掘時,還要求數(shù)據(jù)分析師了解相關(guān)領(lǐng)域的專業(yè)知識,或者與相關(guān)領(lǐng)域?qū)I(yè)人員密切協(xié)作,以確保分析過程和結(jié)果的質(zhì)量。
參考文獻(xiàn):
[1]丁世飛,靳奉祥,趙相偉.現(xiàn)代數(shù)據(jù)分析與信息模式識別[M].北京:科學(xué)出版社,2012.
[2]金光.數(shù)據(jù)分析與建模方法[M].北京:國防工業(yè)出版社,2013.
[3]鄭毅.證析——大數(shù)據(jù)與基于證據(jù)的決策[M].北京:華夏出版社,2012.
[4]艾伯特-拉斯洛·巴拉巴西(馬慧譯).爆發(fā):大數(shù)據(jù)時代預(yù)見未來的新思維[M].北京:中國人民大學(xué)出版社,2012.
(作者單位:68024部隊 來稿日期:2016-08-07)