賈玲李真李俐巨珺周曉林陸江
(1.中國(guó)礦業(yè)大學(xué)檔案館,江蘇徐州,221116;2.徐州市中醫(yī)院,江蘇徐州,221009;3.徐州市檔案局,江蘇徐州,221008)
Jia ling,Li zhen,Li li,Ju jun,Zhou xiaolin,Lu jiang
(1.Archives of China University of Mining and Technology,Xuzhou,Jiangsu,221116;2.Xuzhou Traditional Chinese inedical Hospital,Xuzhou,Jiangsu,221009;3.Xuzhou Municipal Archives Burean,Xuzhou,Jiangsu,221008)
數(shù)據(jù)挖掘技術(shù)是知識(shí)管理的一項(xiàng)重要技術(shù),它可以從大量的結(jié)構(gòu)化數(shù)據(jù)中揭示隱含的模式,這些模式是人們事先不知道的但又潛在有用的模式,對(duì)決策行為具有指導(dǎo)價(jià)值[1]。目前數(shù)據(jù)挖掘技術(shù)迅速發(fā)展并廣泛應(yīng)用于各領(lǐng)域,使其也成為檔案工作無(wú)法回避的一個(gè)問(wèn)題:數(shù)據(jù)挖掘技術(shù)能否應(yīng)用于檔案管理工作?很多學(xué)者對(duì)這個(gè)問(wèn)題進(jìn)行了思考和研究,研究主要集中于宏觀(guān)理論探討,提出數(shù)據(jù)挖掘技術(shù)在檔案工作中也可以得到運(yùn)用,它能推進(jìn)檔案知識(shí)管理的進(jìn)程,提升檔案管理整體技術(shù)水平和管理效率。但也有部分學(xué)者認(rèn)為數(shù)據(jù)挖掘技術(shù)在檔案管理領(lǐng)域的應(yīng)用價(jià)值不大,對(duì)其應(yīng)用的可行性和必要性存在疑慮。
本文利用概念描述和數(shù)據(jù)立方體兩種方法,對(duì)Y大學(xué)檔案利用登記數(shù)據(jù)進(jìn)行挖掘,采用實(shí)證方法對(duì)數(shù)據(jù)挖掘技術(shù)在檔案管理中的應(yīng)用進(jìn)行了研究,以期拋磚引玉,期望更多檔案專(zhuān)家學(xué)者投入到這項(xiàng)研究中,將數(shù)據(jù)挖掘技術(shù)在檔案工作中的應(yīng)用推向深入。
利用登記是檔案管理一個(gè)十分重要的環(huán)節(jié),它不僅是館藏管理必不可少的工具,同時(shí)對(duì)于分析檔案利用特點(diǎn)和利用發(fā)展趨勢(shì)具有十分重要的意義。但是,檔案利用登記數(shù)據(jù)庫(kù)中存放的數(shù)據(jù)是大量的細(xì)節(jié)數(shù)據(jù),這些數(shù)據(jù)只是對(duì)利用事件的具體登記(如用戶(hù)姓名、單位,利用檔案的時(shí)間、內(nèi)容、檔號(hào)、目的等),無(wú)法直接揭示檔案利用的現(xiàn)實(shí)特點(diǎn),也無(wú)法直接反映檔案利用將來(lái)發(fā)展的趨勢(shì)。為此,必須對(duì)檔案利用登記原始數(shù)據(jù)庫(kù)進(jìn)行有針對(duì)性、有意義的抽象、匯總和概括,才能達(dá)到研究和發(fā)現(xiàn)檔案利用特點(diǎn)和發(fā)展趨勢(shì)的目的。
概念描述是數(shù)據(jù)挖掘的一種專(zhuān)門(mén)方法,它就是對(duì)原始細(xì)節(jié)數(shù)據(jù)的有意義的抽象,以完成對(duì)某類(lèi)對(duì)象的特征性描述或者幾個(gè)類(lèi)之間的區(qū)別性描述。概念描述一般要經(jīng)過(guò)概念分層、數(shù)據(jù)泛化、泛化結(jié)果表示等步驟。
利用概念描述方法對(duì)Y大學(xué)檔案利用登記數(shù)據(jù)進(jìn)行挖掘,具體步驟如下:
第一步:數(shù)據(jù)清洗與準(zhǔn)備
本文所采用數(shù)據(jù)來(lái)自Y大學(xué)檔案館檔案利用登記數(shù)據(jù)庫(kù),截取其中2004-2010年的數(shù)據(jù)。根據(jù)數(shù)據(jù)預(yù)處理的方法,結(jié)合本文所需解決的問(wèn)題,要進(jìn)行的挖掘相關(guān)的主要屬性值均不可以為空值。在進(jìn)行系統(tǒng)數(shù)據(jù)庫(kù)分析時(shí),若這些相關(guān)屬性出現(xiàn)空值,根據(jù)表的屬性以及挖掘的內(nèi)容將空值進(jìn)行填充。另外,由于Y大學(xué)檔案館檔案利用登記采用人工錄入方式,在進(jìn)行系統(tǒng)數(shù)據(jù)庫(kù)分析的過(guò)程中發(fā)現(xiàn)部分?jǐn)?shù)據(jù)由于工作人員在進(jìn)行數(shù)據(jù)錄入時(shí),部分?jǐn)?shù)據(jù)錄入錯(cuò)誤。因此,在進(jìn)行數(shù)據(jù)清洗時(shí),對(duì)這些噪聲數(shù)據(jù)進(jìn)行了相應(yīng)的處理。
表1 Y大學(xué)2004-2010年各類(lèi)檔案利用頻率情況(單位:人次)
表2 Y大學(xué)2004-2010年不同檔案利用形式被選用情況(單位:人次)
第二步:概念分層
數(shù)據(jù)庫(kù)中原始的細(xì)節(jié)數(shù)據(jù)通常屬于較低層的概念,如果直接對(duì)這些細(xì)節(jié)數(shù)據(jù)進(jìn)行挖掘,可能得到許多難以理解的規(guī)則。利用較高層概念替換低層次概念可以減少數(shù)據(jù)集的數(shù)據(jù)量,而且,在較高層次上的挖掘,將產(chǎn)生更為廣泛的、具有指導(dǎo)意義的規(guī)則和知識(shí)。
筆者在對(duì)Y大學(xué)檔案館檔案利用登記數(shù)據(jù)庫(kù)進(jìn)行挖掘時(shí),通過(guò)仔細(xì)考察檔案利用登記數(shù)據(jù)庫(kù)的原始數(shù)據(jù),將與檔案利用相關(guān)的概念分為了三個(gè)層次:第一層為檔案類(lèi)別,可分為文書(shū)檔案、會(huì)計(jì)檔案、榮譽(yù)檔案、照片檔案、學(xué)籍檔案、學(xué)位檔案等;第二層為年度;第三層為利用方式,可分為查閱、抄寫(xiě)、出具證明、打印、復(fù)印、掃描或數(shù)碼拍攝、外借、委托等。
第三步:概念泛化與結(jié)果表示
在運(yùn)用概念描述的方法進(jìn)行數(shù)據(jù)挖掘時(shí),經(jīng)過(guò)概念分層后,將相關(guān)數(shù)據(jù)集從較低的概念層抽象到較高的概念層,這個(gè)處理過(guò)程稱(chēng)為數(shù)據(jù)泛化。
筆者采用了SQL數(shù)據(jù)挖掘查詢(xún)語(yǔ)言對(duì)Y大學(xué)檔案館檔案登記利用數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)挖掘查詢(xún),得到了2004-2010年各類(lèi)檔案利用頻率的數(shù)據(jù),及不同檔案利用形式被用戶(hù)選用的數(shù)據(jù)(見(jiàn)表1、表2)。
分析表1,可以得出不同類(lèi)型檔案利用頻率的變化情況:(1)學(xué)籍檔案、會(huì)計(jì)檔案利用人次逐年上升,特別是學(xué)籍檔案利用人次增加較快。(2)榮譽(yù)檔案、學(xué)位檔案利用人次逐年下降。(3) 文書(shū)檔案利用人次在2008、2009年顯著增加,這與Y大學(xué)這兩年開(kāi)展的大型編史修志工作有關(guān)。除去這兩年的數(shù)據(jù),其他各年度文書(shū)檔案利用人次基本持平,如果與文書(shū)檔案歸檔量逐年上升相比,實(shí)際上,文書(shū)檔案的利用頻率有緩慢下降趨勢(shì)。
分析表2,可以得出不同的檔案利用形式被用戶(hù)所選用的變化趨勢(shì):(1)通過(guò)抄寫(xiě)、打印、外借、委托等方式來(lái)利用檔案的用戶(hù)數(shù)量逐年下降,反映出傳統(tǒng)檔案利用方式逐漸被新的利用方式所取代。(2)通過(guò)出具證明、掃描或數(shù)碼拍攝的方式來(lái)利用檔案的用戶(hù)數(shù)量逐年上升,特別是出具證明的,增幅較大。(3)通過(guò)查閱和復(fù)印方式利用檔案的用戶(hù)數(shù)量在2008、2009年有較大增長(zhǎng),其原因也在于Y大學(xué)于這兩年中所做的編史修志工作。除去這兩年的數(shù)據(jù),歷年查閱和復(fù)印檔案的用戶(hù)數(shù)量有小幅下降趨勢(shì)。
利用概念描述方法進(jìn)行數(shù)據(jù)挖掘的結(jié)果,只能大致看出不同類(lèi)型檔案的利用頻率,或不同利用形式的總體變化情況,不能對(duì)每一類(lèi)檔案的每一種利用形式的變化情況作出具體分析,即無(wú)法得出針對(duì)某一類(lèi)型檔案,哪種利用形式逐年減少,哪種利用形式日益增多,也就無(wú)法據(jù)此做出有針對(duì)性的應(yīng)對(duì)策略。
圖1 3維數(shù)據(jù)立方體
為了更深入地分析高校檔案利用的發(fā)展趨勢(shì),發(fā)現(xiàn)用戶(hù)對(duì)不同類(lèi)檔案的使用規(guī)律,筆者對(duì)Y大學(xué)檔案利用登記數(shù)據(jù)庫(kù)進(jìn)行了更深入地挖掘,構(gòu)造了高校檔案利用數(shù)據(jù)立方體,該立方體為3維數(shù)據(jù)立方體,3個(gè)維度分別為:時(shí)間維、檔案類(lèi)別維、利用形式維(見(jiàn)圖1)。
進(jìn)一步采用SQL數(shù)據(jù)挖掘查詢(xún)語(yǔ)言對(duì)Y大學(xué)檔案館檔案登記利用數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)挖掘查詢(xún),得出數(shù)據(jù)立方體的各項(xiàng)度量值,即2004-2010年不同類(lèi)別檔案、不同利用形式的利用人次數(shù)據(jù)。Y大學(xué)檔案利用數(shù)據(jù)立方體可轉(zhuǎn)化為2維表(見(jiàn)表3)。
仔細(xì)分析表3,結(jié)合Y大學(xué)及其檔案館的具體情況,可分析得出各類(lèi)檔案不同利用形式的變化走向及其深刻原因:(1)表3中所列6種檔案,文書(shū)檔案、學(xué)籍檔案、學(xué)位檔案的利用量較大,它們?cè)诶眯问降淖兓蠋缀醭尸F(xiàn)了相同的趨勢(shì):查閱、抄寫(xiě)、復(fù)印、外借的用戶(hù)日益減少,出具證明的大幅增加,尤其是利用學(xué)籍檔案出具證明的,增幅較大。(2)文書(shū)檔案利用形式的變化主要反映在兩點(diǎn):一是通過(guò)查閱、復(fù)印、外借等形式利用文書(shū)檔案的利用量呈下降趨勢(shì),其原因主要在于國(guó)家、國(guó)家整個(gè)教育系統(tǒng)及Y大學(xué)自身辦公自動(dòng)化的普及和功能的日益完善,相當(dāng)部分文件在發(fā)行或公布時(shí)就是電子文件,另有部分以紙質(zhì)文件下發(fā)的都已進(jìn)行了數(shù)字化,并以電子版在高校內(nèi)部進(jìn)行傳遞。由于文件電子資源的日益豐富,部分需要利用文書(shū)檔案信息的用戶(hù),直接通過(guò)網(wǎng)上電子文件資源滿(mǎn)足了利用需求,這就相對(duì)造成了文書(shū)檔案利用量的下降。二是出具證明的利用量日益增加,這顯示出文書(shū)檔案的作用日益多元化,通過(guò)出具證明的方式,可為單位、個(gè)人解決工作、生活中多方面的問(wèn)題提供有力支持。(3)學(xué)籍檔案利用形式的變化,最顯著的一點(diǎn)就是出具證明的大幅增加,其原因主要在于Y大學(xué)出國(guó)留學(xué)的學(xué)生越來(lái)越多,他們均需從檔案館出具中英文成績(jī)證明及學(xué)歷學(xué)位證明。這一變化趨勢(shì)反映了目前中國(guó)越來(lái)越多的學(xué)生選擇海外教育,也從一定程度上反映出Y大學(xué)外語(yǔ)教學(xué)、國(guó)際化教學(xué)工作日益達(dá)到較好的水平,學(xué)生的國(guó)際視野開(kāi)闊了、綜合能力提高了,他們可以選擇海外教育繼續(xù)深造。(4)會(huì)計(jì)檔案的利用形式以查閱和復(fù)印為主,利用量整體較小,但呈逐年上升趨勢(shì)。(5)榮譽(yù)檔案的利用多集中在科研項(xiàng)目申報(bào)、個(gè)人報(bào)獎(jiǎng)或評(píng)定職稱(chēng)等方面,以前多利用復(fù)印形式,現(xiàn)在主要利用掃描或數(shù)碼相機(jī)拍攝手段,獲得榮譽(yù)檔案原件的電子版。(6)照片檔案的利用量也較小,其利用形式主要是掃描或數(shù)碼拍攝,有少量外借的。
根據(jù)這些不同類(lèi)型檔案利用趨勢(shì)的分析和預(yù)測(cè),Y大學(xué)檔案管理部門(mén)可以針對(duì)性地制定應(yīng)對(duì)策略,包括調(diào)整基礎(chǔ)工作方向,明確工作重點(diǎn),采用新的工作技術(shù)和手段等。
表3 Y大學(xué)2004-2010年各類(lèi)檔案不同利用形式的利用人次情況(單位:人次)
本文應(yīng)用概念描述和數(shù)據(jù)立方體兩種方法,對(duì)檔案利用登記數(shù)據(jù)庫(kù)進(jìn)行了數(shù)據(jù)挖掘,并根據(jù)數(shù)據(jù)挖掘結(jié)果進(jìn)行了檔案利用趨勢(shì)的分析和預(yù)測(cè),可見(jiàn),數(shù)據(jù)挖掘技術(shù)具備應(yīng)用于檔案管理工作的可行性。數(shù)據(jù)挖掘的方法很多,概念描述和數(shù)據(jù)立方體是兩種較為基礎(chǔ)的數(shù)據(jù)挖掘方法,此外還有分類(lèi)、回歸分析、聚類(lèi)、關(guān)聯(lián)規(guī)則、變化和偏差分析等多種方法。筆者在研究初期準(zhǔn)備對(duì)檔案用戶(hù)信息和被利用檔案信息以聚類(lèi)和分類(lèi)方法進(jìn)行挖掘,但在選擇具體挖掘方法時(shí)卻受到了數(shù)據(jù)庫(kù)資源的限制——筆者所掌握的Y大學(xué)檔案利用登記數(shù)據(jù)庫(kù)是由人工錄入登記的,其中有許多不盡如人意的地方,如用戶(hù)信息和被利用檔案信息十分有限且缺項(xiàng)較多等,無(wú)法支持聚類(lèi)和分類(lèi)挖掘。
對(duì)于實(shí)行館藏檔案條形碼管理,且通過(guò)自動(dòng)掃描檔案條形碼、自動(dòng)識(shí)讀用戶(hù)身份證或工作卡的方式完成檔案利用登記的檔案管理部門(mén),則可獲取檔案用戶(hù)和被利用檔案的全面信息。基于信息全面的檔案利用登記數(shù)據(jù)庫(kù),完全可以順利進(jìn)行聚類(lèi)和分類(lèi)的數(shù)據(jù)挖掘研究,其研究成果也將對(duì)實(shí)際工作具有更好的指導(dǎo)意義。如,通過(guò)聚類(lèi)分析可以得出不同檔案的利用頻率,對(duì)于利用頻率高的檔案可以進(jìn)行全文數(shù)字化,既可提高利用效率,也可起到保護(hù)檔案原件的作用,同時(shí)還可指導(dǎo)歸檔工作加強(qiáng)對(duì)這種類(lèi)型檔案的收集;通過(guò)對(duì)不同時(shí)期檔案利用關(guān)鍵詞的分類(lèi),甚至可以分析出某些部門(mén)重點(diǎn)工作的走向和變化;通過(guò)用戶(hù)信息挖掘,可發(fā)現(xiàn)哪些用戶(hù)經(jīng)常來(lái)檔案部門(mén)利用檔案,對(duì)于這些用戶(hù)可根據(jù)其以往利用檔案的記錄,實(shí)行推送服務(wù)、定題服務(wù)等主動(dòng)服務(wù)方式,拓展檔案服務(wù)空間。
數(shù)據(jù)挖掘是一種決策支持過(guò)程,它能高度自動(dòng)化地分析數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整策略,減少風(fēng)險(xiǎn),做出正確的決策。隨著信息社會(huì)檔案信息量呈“幾何級(jí)”的急劇增長(zhǎng)及檔案事務(wù)的不斷拓展,檔案決策也日益復(fù)雜起來(lái)。在這種情況下,檔案工作應(yīng)探索借助數(shù)據(jù)挖掘技術(shù)推進(jìn)決策科學(xué)化。如依據(jù)本文利用概念描述和數(shù)據(jù)立方體方法對(duì)Y大學(xué)檔案利用數(shù)據(jù)庫(kù)進(jìn)行挖掘而得出的結(jié)果,即可幫助Y大學(xué)在制定檔案工作發(fā)展策略時(shí),采取更加有針對(duì)性的措施。如:①實(shí)施檔案數(shù)字化工程。挖掘發(fā)現(xiàn)用戶(hù)對(duì)電子文件的利用需求日益增加,根據(jù)這種情況,在進(jìn)行各類(lèi)檔案歸檔時(shí)應(yīng)強(qiáng)化電子版的收集,同時(shí)根據(jù)檔案館人力、物力及財(cái)力狀況,適時(shí)對(duì)館藏檔案逐步開(kāi)展數(shù)字化工作,即“新增檔案電子化,存量檔案數(shù)字化”。②加快檔案資源共建共享,推進(jìn)檔案管理軟件升級(jí)。挖掘發(fā)現(xiàn)檔案利用形式呈現(xiàn)多元變化趨勢(shì),據(jù)此應(yīng)對(duì)檔案管理軟件進(jìn)行功能升級(jí),或重新開(kāi)發(fā)功能更為強(qiáng)大的軟件以滿(mǎn)足突出利用需求。如,利用學(xué)籍檔案出具證明的需求量大幅增加,應(yīng)重新開(kāi)發(fā)功能強(qiáng)大的成績(jī)翻譯軟件,這將是高效快捷地提供成績(jī)證明服務(wù)的有效保證。③加強(qiáng)與其他單位的協(xié)作。挖掘發(fā)現(xiàn)在當(dāng)前的社會(huì)人文環(huán)境和信息技術(shù)條件下,檔案部門(mén)與社會(huì)各界聯(lián)系日益緊密,檔案事務(wù)日益復(fù)雜,因此高校檔案部門(mén)不能再固步自封,僅局限于館內(nèi)的具體業(yè)務(wù)工作,必須加強(qiáng)與校內(nèi)外有關(guān)單位的協(xié)作,以使高校檔案工作獲得更好更快的發(fā)展。如加強(qiáng)與學(xué)校綜合辦公部門(mén)的合作,使檔案工作成為學(xué)校辦公自動(dòng)化的一部分,實(shí)現(xiàn)檔案管理系統(tǒng)與學(xué)校辦文系統(tǒng)的無(wú)縫連接;加強(qiáng)與有關(guān)職能部門(mén)協(xié)作,使檔案管理系統(tǒng)與有關(guān)教學(xué)管理、科研管理等業(yè)務(wù)管理系統(tǒng)的連接,實(shí)現(xiàn)檔案利用能合理調(diào)用有關(guān)業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)。
數(shù)據(jù)挖掘技術(shù)以其在各社會(huì)領(lǐng)域廣泛而深入的應(yīng)用,突出表現(xiàn)了該項(xiàng)技術(shù)的巨大優(yōu)越性及其提升工作水平和工作效率的顯著作用。雖然目前多數(shù)檔案管理單位業(yè)務(wù)相對(duì)簡(jiǎn)單,暫時(shí)看來(lái),采用數(shù)據(jù)挖掘技術(shù)的必要性不突出,但是我們應(yīng)該主動(dòng)把握時(shí)代發(fā)展的脈搏,主動(dòng)創(chuàng)造條件應(yīng)用先進(jìn)技術(shù)。只要越來(lái)越多的專(zhuān)家學(xué)者投入這方面的研究,數(shù)據(jù)挖掘等信息技術(shù)必將為提高檔案管理水平發(fā)揮重要作用,而大量應(yīng)用信息技術(shù)的檔案管理工作也將在現(xiàn)代社會(huì)發(fā)展中充當(dāng)更重要的角色。
*本文系江蘇省檔案科技項(xiàng)目“現(xiàn)代檔案管理創(chuàng)新模式——檔案知識(shí)管理研究”(項(xiàng)目編號(hào)2010-L09)階段性成果之一。
[1]蘇新寧.數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘[M].清華大學(xué)出版社,2006:140.