田 偉 韓海濤(天津工業(yè)大學(xué)檔案館,天津,300387)
?
大數(shù)據(jù)時代檔案館服務(wù)創(chuàng)新研究*
——基于天津高校檔案數(shù)據(jù)變化
田偉韓海濤
(天津工業(yè)大學(xué)檔案館,天津,300387)
[摘要]大數(shù)據(jù)時代為檔案館帶來了新的機(jī)遇與挑戰(zhàn)。文章通過對2011至2014年天津市高校檔案館館藏資源及其利用情況的實際統(tǒng)計調(diào)研,分析了當(dāng)前大學(xué)檔案館用戶需求的變化趨勢,進(jìn)而提出了大數(shù)據(jù)時代檔案館服務(wù)創(chuàng)新策略:構(gòu)建用戶需求感知引擎、拓展深化檔案數(shù)據(jù)服務(wù)內(nèi)涵、推進(jìn)檔案個性化服務(wù)實施。
[關(guān)鍵詞]大數(shù)據(jù)檔案用戶協(xié)同過濾高校檔案個性化服務(wù)[分類號]G271
大數(shù)據(jù)時代已經(jīng)來臨,未來檔案館的核心競爭力很大程度上取決于將檔案數(shù)據(jù)轉(zhuǎn)化為信息和知識的速度與能力。檔案館作為社會上存儲信息、提供信息服務(wù)的信息中心,必須主動利用這些變化來進(jìn)行戰(zhàn)略性創(chuàng)新以滿足需求、創(chuàng)造未來[1]。
在這樣的時代背景下,檔案館要積極研究如何將現(xiàn)有的檔案館建設(shè)成為依靠歸集存儲大數(shù)據(jù)的“數(shù)據(jù)倉庫”和實現(xiàn)大數(shù)據(jù)增值的“數(shù)據(jù)銀行”,并使檔案工作者由“一把鎖”提升為數(shù)據(jù)科學(xué)家。只有實現(xiàn)這樣的歷史性進(jìn)步,才能真正實現(xiàn)檔案館的可持續(xù)發(fā)展。
為此,本文從分析當(dāng)前檔案用戶現(xiàn)實需求入手,以天津高校檔案工作統(tǒng)計數(shù)據(jù)為切入點,分析當(dāng)前檔案工作為迎接大數(shù)據(jù)時代而應(yīng)采取的策略。提出檔案館目前應(yīng)當(dāng)立即著手在感知用戶需求、拓展檔案數(shù)據(jù)服務(wù)內(nèi)涵、實施個性化檔案數(shù)據(jù)服務(wù)三個方面開展相關(guān)研究與實踐工作。
為了調(diào)查天津普通高校檔案館館藏資源及其利用情況,我們專門設(shè)計了相關(guān)的調(diào)查問卷,問卷中包含館藏資源、利用情況統(tǒng)計等內(nèi)容,從各個維度體現(xiàn)了當(dāng)前天津高校檔案館資源及運(yùn)行總體狀況。
此次調(diào)查的范圍涵蓋天津的20所普通高校,調(diào)查所覆蓋的時間跨度為2011年度至2014年度。
文章分別從利用檔案類別、利用目的、利用者身份等維度進(jìn)行分析,并以卷次及人次為單位進(jìn)行統(tǒng)計。
首先,根據(jù)利用檔案的類別,對2011年度至2014年度的天津高校檔案利用情況進(jìn)行統(tǒng)計并生成2011 至2014年度天津高校檔案分類別利用趨勢圖(圖1)。
從圖1可以看出,2011至2014年度內(nèi),對檔案利用的總量(卷次)呈現(xiàn)比較快的增長勢頭。其中教學(xué)檔案一直保持高位增長狀態(tài),而財會檔案在2014年度有一個較快增長,行政檔案與黨群檔案在利用數(shù)量上比較接近,均呈現(xiàn)平穩(wěn)增長的勢頭,其他類別的檔案利用數(shù)量相對較少,處于低位增長狀態(tài)。
再根據(jù)利用檔案的人次,對2011年度至2014年度天津高校檔案利用情況進(jìn)行統(tǒng)計,生成2011至2014年度天津高校檔案分類別利用趨勢圖(圖2)。
圖1 天津市普通高校檔案分類別利用趨勢圖(卷次)
圖2 天津市普通高校檔案分類別利用趨勢圖(人次)
如圖2所示,2011至2014年度內(nèi),來館利用檔案的人次數(shù)量不斷增長。其中,對教學(xué)檔案利用的人次最多、增長最快,遠(yuǎn)高于其他類型的檔案利用人次。對高校其他類別檔案利用的人數(shù)處于低速增長狀態(tài)。
對于上述的檔案利用,我們以下從檔案利用目的角度進(jìn)行分析。基于利用目的的高校檔案利用卷次趨勢變化圖如圖3所示。
以人次為單位統(tǒng)計的不同檔案利用目的情況變化趨勢圖如圖4。
最后,2011至2014年度天津高校檔案利用主體變化趨勢圖如圖5所示。
其中,我們對2014年度天津高校檔案利用主體構(gòu)成情況生成比例圖如圖6所示。
(1)從2011年至2014年天津高校館藏資源增長較快。截止2011年初,20所普通高校檔案館共擁有檔案584685卷,與2014年底檔案數(shù)量相比,同比增長約15﹪。根據(jù)我們所統(tǒng)計的數(shù)據(jù),其中具體的檔案種類相應(yīng)也分別有較大增長,篇幅所限在此不詳細(xì)列出。其中館藏電子文件的數(shù)量增長幅度最快,這反映了大數(shù)據(jù)時代的來臨。
(2)從利用檔案類別看,天津高校教學(xué)檔案利用卷次及人次數(shù)量均居首位,且逐年增長。黨群檔案、行政檔案以及財會檔案的利用卷次也比較多。而從利用人次角度考察,這四類檔案中,對教學(xué)檔案利用的人次最多,遠(yuǎn)高于對其他三類檔案的利用人次。這表明了對于教學(xué)檔案的利用呈現(xiàn)頻繁、分散的特點。而對黨群檔案、行政檔案及財會檔案的利用,則呈現(xiàn)利用集中、每次利用數(shù)量大的特點。這反映了當(dāng)前高校檔案館承擔(dān)校務(wù)管理決策和師生辦理事務(wù)信息支持的重要職能,表明檔案館業(yè)務(wù)與本單位主要職能聯(lián)系最為緊密,應(yīng)圍繞這個原則拓展大數(shù)據(jù)的檔案服務(wù)。
(3)從利用檔案目的角度分析,以行政管理為目的的利用卷次最多,而以學(xué)籍證明為目的的利用人次最多,這進(jìn)一步說明了兩類利用的不同特點,表明了高校檔案館應(yīng)同時具備與完善頻繁分散和突發(fā)集中兩種信息服務(wù)模式,并緊密圍繞檔案用戶需求和利用目的,推進(jìn)數(shù)字化以及智慧檔案館建設(shè)工作。
(4)對于檔案利用主體的變化與構(gòu)成,我們可以看到4年間天津高校檔案館用戶構(gòu)成基本穩(wěn)定,檔案利用需求最大的是畢業(yè)生和在校生,這也符合我們上述關(guān)于教學(xué)檔案利用頻繁分散特點的分析。因此高校檔案館面對大數(shù)據(jù)時代進(jìn)行服務(wù)創(chuàng)新時,應(yīng)立足于自身主要的服務(wù)對象,推進(jìn)高校檔案服務(wù)用戶滿意度提升,努力消除當(dāng)前“信息孤島”和“煙囪工程”現(xiàn)象,全面考慮各類服務(wù)對象的特點,構(gòu)成大數(shù)據(jù)時代服務(wù)體系。
根據(jù)上述調(diào)查與分析,在目前檔案工作的基礎(chǔ)上,面對大數(shù)據(jù)時代背景,高校檔案館應(yīng)著重在以下幾個方面實施創(chuàng)新策略:
(1)構(gòu)建檔案用戶信息需求感知引擎
讓用戶根據(jù)自身的信息需求、獲得所需的檔案數(shù)據(jù)資源,這是大數(shù)據(jù)時代檔案服務(wù)由“供給導(dǎo)向”向“需求導(dǎo)向”發(fā)展[2]的歷史要求。而目前我們通過調(diào)查發(fā)現(xiàn),對檔案用戶利用需求情況的感知,往往采用事后統(tǒng)計分析的方式,缺乏自動的、智能的系統(tǒng)與機(jī)制。這造成檔案館無法對用戶的需求進(jìn)行即時獲取并快速作出反應(yīng)。而且,當(dāng)前各檔案館對用戶的檔案需求記錄與分析也很不詳細(xì)。因此,檔案館應(yīng)當(dāng)立即著手建立對檔案用戶信息需求進(jìn)行即時感知、適時反應(yīng)的信息系統(tǒng)及其配套機(jī)制,即用戶信息需求感知引擎。
圖3 天津市普通高校檔案利用需求目的變化趨勢圖(卷次)
圖4 天津市普通高校檔案利用需求目的統(tǒng)計分布圖(人次)
圖5 天津市普通高校檔案利用主體趨勢圖
圖6 2014年度天津普通高校檔案利用主體構(gòu)成圖
以高校檔案館為例,應(yīng)在實現(xiàn)數(shù)字化工程的基礎(chǔ)上,建立記錄用戶特征、檔案利用行為、用戶對檔案評價等數(shù)據(jù)的信息系統(tǒng),并建立與完善相應(yīng)的配套制度和應(yīng)用場景,從而形成高校檔案用戶需求感知引擎。對于檔案用戶需求,變事后統(tǒng)計為實時感知,獲知用戶視角下當(dāng)前檔案服務(wù)的優(yōu)點與不足。同時感知引擎所收集的數(shù)據(jù),可使檔案館獲得對用戶未來需求的預(yù)測能力,并據(jù)此采取相應(yīng)的策略與行動,這是大數(shù)據(jù)時代智慧檔案館的重要特征之一。
(2)拓展與深化檔案數(shù)據(jù)服務(wù)的內(nèi)涵
大數(shù)據(jù)時代要求檔案館重新審視所面對數(shù)據(jù)的價值,應(yīng)肩負(fù)起數(shù)據(jù)倉庫與數(shù)據(jù)銀行的歷史使命。為此,檔案館首先應(yīng)當(dāng)拓展大數(shù)據(jù)時代檔案數(shù)據(jù)收集的范圍與內(nèi)容。很顯然,只有將大數(shù)據(jù)資源切實納入檔案范疇之內(nèi),才談得上實現(xiàn)真正的“大數(shù)據(jù)檔案”。
相關(guān)研究表明[3],感知式系統(tǒng)數(shù)據(jù)是大數(shù)據(jù)資源的主要來源,體現(xiàn)了大數(shù)據(jù)的內(nèi)在價值。然而,當(dāng)前檔案館藏制度與實踐還基本沒有囊括該類型的數(shù)據(jù)。例如高校檔案的收集與服務(wù)主要集中于運(yùn)營式系統(tǒng),即發(fā)生校務(wù)活動進(jìn)而記錄產(chǎn)生數(shù)據(jù),如上述的教學(xué)檔案、黨群檔案、行政檔案等等。而對于大數(shù)據(jù)時代的高校檔案館,應(yīng)當(dāng)面向大數(shù)據(jù)時代的師生活動及用戶需求,根據(jù)用戶信息需求感知引擎等方面的數(shù)據(jù),適時拓展現(xiàn)有檔案分類體系下檔案的收集范圍與內(nèi)容。特別是應(yīng)在傳統(tǒng)檔案收集的基礎(chǔ)上,加強(qiáng)對用戶原創(chuàng)內(nèi)容和感知式系統(tǒng)數(shù)據(jù)的收集。例如:反映學(xué)生思想活動的校內(nèi)論壇數(shù)據(jù)、校園運(yùn)行情況監(jiān)測數(shù)據(jù)、校內(nèi)無線終端運(yùn)動定位信息、師生教學(xué)行為數(shù)據(jù)等。這需要高校檔案館從檔案收集制度、存儲方式、服務(wù)內(nèi)容等方面進(jìn)行全面地推進(jìn)。而這樣做的目的,是為了使檔案館的館藏切實囊括大數(shù)據(jù)時代所產(chǎn)生的信息,不使大數(shù)據(jù)面臨因無處長期保存而滅失的局面。特別是一些大數(shù)據(jù)只有經(jīng)過一段時間的連續(xù)存儲或是集中分析后,才能從中抽取有價值的信息。因此檔案館應(yīng)成為保存大數(shù)據(jù)資源可靠、安全的數(shù)據(jù)倉庫。
在此基礎(chǔ)上,檔案館應(yīng)努力使自己具備一定的數(shù)據(jù)挖掘處理能力,以滿足各部門對大數(shù)據(jù)抽取知識、支持決策等方面的需要。只有大數(shù)據(jù)能夠轉(zhuǎn)化成為高校的決策依據(jù)或事務(wù)支持信息的時候,才是大數(shù)據(jù)真正顯示其魅力的時候。這就如同銀行中保有的貨幣資金流轉(zhuǎn)起來方才會產(chǎn)生效益一樣。因此,檔案館應(yīng)努力從資源整合、人員配備、技術(shù)進(jìn)步等方面提升自身大數(shù)據(jù)分析處理能力,將自身建設(shè)成為能夠?qū)崿F(xiàn)館藏數(shù)據(jù)增值的數(shù)據(jù)銀行,從而深化檔案數(shù)據(jù)服務(wù)的內(nèi)涵。由此可見,對大數(shù)據(jù)的妥善長期存儲及其知識抽取是檔案館面臨的新的重要任務(wù),是大數(shù)據(jù)時代校務(wù)活動對檔案館藏數(shù)據(jù)服務(wù)的必然要求。
(3)推進(jìn)個性化檔案數(shù)據(jù)服務(wù)
實現(xiàn)個性化服務(wù)是大數(shù)據(jù)時代智慧檔案館的一項重要特征。而檔案服務(wù)的個性化關(guān)鍵核心應(yīng)當(dāng)是用戶所獲信息的個性化。當(dāng)前一些相關(guān)研究中[4]已經(jīng)對檔案用戶個性化信息利用模型等問題進(jìn)行了一定的研究。因此,我們進(jìn)一步提出在劃分檔案用戶信息需求類型的基礎(chǔ)上,采取相應(yīng)具體的個性化實現(xiàn)技術(shù)與服務(wù)策略。
根據(jù)上文統(tǒng)計,高校檔案利用活動從總體上可以分為兩大類:
一、文研利用。用戶出于文化研究或汲取知識目的,查詢某一主題的檔案資料。如上述的學(xué)術(shù)研究、編修史志、宣傳教育等均屬于這一類別。其特點是用戶的需求主要基于自身活動的興趣,檢索檔案結(jié)果往往范圍分布較大、目標(biāo)不特定,且一般直接尋求檔案數(shù)據(jù)文件。該場景用戶對獲取檔案信息的個性化程度、新穎性要求較高。
二、事務(wù)利用。用戶因辦理某事務(wù)在檔案系統(tǒng)中檢索所需的檔案資料。上述行政管理、經(jīng)濟(jì)建設(shè)、學(xué)籍證明等屬于這一類別。與上述文研利用特點不同,事務(wù)利用的特點是檔案檢索主要基于用戶因某事務(wù)辦理而對檔案產(chǎn)生的剛性需求,用戶所需檔案文件集合內(nèi)容比較確定,且需求往往是先映射到類再尋求具體數(shù)據(jù)文件。即用戶的檔案需求在類別上有共性、在具體文件上有個性。該場景對獲取檔案信息的貼切性、配套性要求較高。
因此,高校檔案館提供個性化服務(wù)時,可采取不同的個性化信息推薦策略。例如,可基于協(xié)同過濾技術(shù)[5],對文研利用用戶采用與新聞、電影、圖書等相似的推薦策略[6]。而對于事務(wù)利用用戶,可對傳統(tǒng)的協(xié)同過濾技術(shù)進(jìn)行變形,采用先將用戶需求映射到檔案類,再根據(jù)用戶屬性檢索所需文件的推薦策略。而這無疑要求高校檔案館建設(shè)檔案數(shù)據(jù)個性化推薦系統(tǒng),將檔案信息的獲取從當(dāng)前單一檢索方式推進(jìn)到智能信息推薦時代。同時圍繞該系統(tǒng)建設(shè)配套制度體系,從而形成和部署檔案館個性化服務(wù)體系。
*本文系2014年度國家檔案局科技項目“大數(shù)據(jù)時代檔案館服務(wù)創(chuàng)新與發(fā)展趨勢研究”(課題編號:2014-X-16)的階段性研究成果之一。
參考文獻(xiàn)
[1]周楓.大數(shù)據(jù)時代檔案館的特征及發(fā)展策略[J].檔案與建設(shè).2013(08):6-9.
[2]周楓.資源.技術(shù).思維——大數(shù)據(jù)時代檔案館的三維詮釋[J].檔案學(xué)研究.2013(06):61-64.
[3]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機(jī)研究與發(fā)展,2013,50 (1):146-169.
[4]萬絢,方黑虎.Web2.0時代高校檔案館個性化信息利用模式及策略[J].檔案與建設(shè).2012(08):14-18.
[5]馬宏偉,張光衛(wèi),李鵬.協(xié)同過濾推薦算法綜述[J].小型微型計算機(jī)系統(tǒng),2009,30(7):1282-1288.
[6]田偉,韓海濤.構(gòu)建個性化檔案數(shù)據(jù)服務(wù)引擎研究[J].檔案,2014(12):10-15.
田偉,南開大學(xué)計算機(jī)專業(yè)博士,講師,主要研究方向為數(shù)據(jù)庫、信息安全、檔案管理。
韓海濤,天津工業(yè)大學(xué)教授,天津工業(yè)大學(xué)檔案館館長,主要研究方向為檔案學(xué)、圖書情報學(xué)。
Research on the Big Data Era Archives Service Innovation Based on the University Archives Statistics Changes in Tianjin
Tian Wei,Han Haitao
(Archives of Tianjin Polytechnic University,Tianjin,300387)
Abstract:The Big Data era brings new opportunities and challenges for archives. This paper analyzes the archives users’demand characteristics according to the statistics of university archives in Tianjin from 2011 to 2014. Accordingly,it proposes archives service innovation strategy for the Big Data era,constructing archives user demands perception engine,broadening and deepening the archival data service content,promoting the implementation of personalized archives service.
Keywords:Big Data;Archives User;Collaborative Filtering;University Archives;Personalized Service
[作者簡介]