馬曉瑾
忻州市科學(xué)技術(shù)情報研究所,山西 忻州 034000
圖書情報領(lǐng)域就是利用大數(shù)據(jù)系統(tǒng)處理、分析數(shù)據(jù)的典型機構(gòu)。分析大數(shù)據(jù)在圖書情報領(lǐng)域的應(yīng)用熱點,有利于我國圖書資源數(shù)字化進程,也有利于完善圖書網(wǎng)絡(luò)信息資源統(tǒng)一建設(shè)和信息共享,使圖書情報工作與網(wǎng)絡(luò)信息化進程更好地接軌,形成具有自身特色的網(wǎng)站平臺和數(shù)據(jù)資源[1],為廣大讀者、編者和作者提供更好的服務(wù)。
相比其他技術(shù),大數(shù)據(jù)具有更廣泛的數(shù)據(jù)資源背景、并且速度更快,性價比更高,所以具有很高的商業(yè)價值。大數(shù)據(jù)在我國圖書情報領(lǐng)域的應(yīng)用現(xiàn)狀如下。
(1)數(shù)據(jù)資源共享共建體系不完善。在我國數(shù)據(jù)研究是以各高校為主體展開工作,各研究機構(gòu)之間雖然存在合作關(guān)系,但合作覆蓋領(lǐng)域有限。因為資源共享建設(shè)是一項復(fù)雜的工程,涉及各部門之間的協(xié)調(diào)、資金投入以及信息安全和版權(quán)等各類問題。再者,大數(shù)據(jù)技術(shù)在圖書情報領(lǐng)域應(yīng)用時間并不長,要形成資源共享、共建的體系,還需要各方不斷協(xié)調(diào)。我國的許多學(xué)科領(lǐng)域每年會把自己部門的研究課題和研究數(shù)據(jù)整理分析[2],存貯到各自專業(yè)領(lǐng)域的數(shù)據(jù)管理系統(tǒng),但這些專業(yè)數(shù)據(jù)一般會被加密保管,所以不能起到共享的作用,導(dǎo)致大數(shù)據(jù)圖書情報系統(tǒng)有效數(shù)據(jù)少,利用率低下。
(2)數(shù)字化圖書資源少。眾所周知,我國紙質(zhì)版圖書文獻資料豐富,但形成數(shù)字化圖書的并不多,主要是因為網(wǎng)絡(luò)配套硬件基礎(chǔ)薄弱,存儲能力有限。
在世界范圍來看,大數(shù)據(jù)技術(shù)正處于發(fā)展階段,所以還沒形成成熟的理論體系。發(fā)達國家可能研究起步早一些,所以在大數(shù)據(jù)驅(qū)動下的圖書情報研究具有一些領(lǐng)先優(yōu)勢。大數(shù)據(jù)技術(shù)應(yīng)用為我國圖書情報工作帶來新的發(fā)展機遇。雖然現(xiàn)階段對大數(shù)據(jù)的研究處于探索階段,但也要結(jié)合具體工作實踐應(yīng)用,不斷總結(jié)經(jīng)驗,形成一套有效的處理模式[3]。
圖書情報數(shù)據(jù)庫建設(shè)中版權(quán)問題是最常見的問題。國家通過頒布各種法律法規(guī),保障網(wǎng)絡(luò)圖書資源的健康發(fā)展。 比如,近年頒布的《著作權(quán)法》對復(fù)制權(quán)、網(wǎng)絡(luò)轉(zhuǎn)載、署名侵權(quán)等各類問題的解釋和定位十分明確。同時,網(wǎng)絡(luò)安全也是建立圖書情報數(shù)據(jù)庫要注意的問題,做好數(shù)據(jù)資源的安全系統(tǒng),防止網(wǎng)絡(luò)病毒侵襲也是當(dāng)前的重要工作。
由于大數(shù)據(jù)技術(shù)在世界各國都備受青睞,所以相對應(yīng)的專業(yè)技術(shù)人才很搶手。因此吸收專業(yè)水平高的信息技術(shù)人員,培養(yǎng)在職人員的專業(yè)技術(shù)水平很重要。如果圖書情報工作人員的專業(yè)水平不夠,將無法適應(yīng)信息社會的工作效率和工作模式,只會造成資源的浪費。
大數(shù)據(jù)網(wǎng)絡(luò)信息資源具有存儲數(shù)字化、內(nèi)容形式多樣化、數(shù)量巨大、處理速度快、以網(wǎng)絡(luò)為傳播媒介、動態(tài)傳播的特點。所以信息數(shù)據(jù)資源管理最好的方法是建立大規(guī)模并行處理的數(shù)據(jù)庫、云計算平臺和可擴展的內(nèi)存系統(tǒng)。雖然我國將大數(shù)據(jù)應(yīng)用到圖書情報領(lǐng)域時間不長,但我國的圖書網(wǎng)絡(luò)數(shù)據(jù)資源的開發(fā)建設(shè)工作也取得了一些成就。如:重慶維普資訊公司推出的“中文科技期刊數(shù)據(jù)庫”,還有萬方數(shù)據(jù)集團的“萬方數(shù)據(jù)庫”等。有必要特別一提的是一些學(xué)術(shù)期刊雜志社也順應(yīng)時代需求建立了學(xué)術(shù)期刊數(shù)據(jù)庫,開發(fā)與建設(shè)這些數(shù)據(jù)庫不僅具有實用價值,而且為我國圖書情報工作的大數(shù)據(jù)技術(shù)應(yīng)用積累了很多經(jīng)驗,也將圖書情報工作推向了新的發(fā)展階段。
圖書情報常用的分析方法是內(nèi)容分析法,一般從定量、定性以及定量定性相結(jié)合的方法入手。大數(shù)據(jù)技術(shù)時代,圖書情報對大數(shù)據(jù)信息分析提出更高標(biāo)準(zhǔn)的要求。為了方便大眾理解,數(shù)據(jù)分析結(jié)果的展現(xiàn)方式更加直觀具體,所以可視化分析得到越來越多人的認(rèn)同。 大數(shù)據(jù)可視化處理架構(gòu)規(guī)劃誕生后,特別是Twitter 嘗試將大數(shù)據(jù)信息進一步精細分析之后,可視化分析逐漸成為主流發(fā)展趨勢。大數(shù)據(jù)信息資源內(nèi)容錯綜復(fù)雜,應(yīng)用方向也不相同,所以多數(shù)情況下要根據(jù)具體研究內(nèi)容和分析對象,選擇運用不同的分析方法或靈活組合運用。
5G 技術(shù)即將走進人們的生活,所以未來移動設(shè)備中的大數(shù)據(jù)技術(shù)開發(fā),將是主要的發(fā)展方向。雖然移動設(shè)備的運算、數(shù)據(jù)處理功能以及存儲功能還不能滿足數(shù)據(jù)處理需要,但也由此衍生了云端處理模式。云計算的出現(xiàn)為信息資源共享和溝通帶來更大的便利。近年來,各高校圖書館都在深入研究云計算在本領(lǐng)域的應(yīng)用,并取得一定成果,希望在實踐中不斷完善,能真正地把圖書情報服務(wù)的成本降下來。移動設(shè)備和云端處理結(jié)合就能實現(xiàn)用手機處理網(wǎng)絡(luò)大數(shù)據(jù)信息。雖然現(xiàn)在移動云處理研究處于起步階段,但伴隨5G 技術(shù)的推廣應(yīng)用,移動終端結(jié)合云端大數(shù)據(jù)處理應(yīng)用研究將會得到更多研究群體的重視。同時大數(shù)據(jù)和移動云計算融合也有很多阻力,例如,安全隱私、模型架構(gòu)等諸多問題,但為了方便更多人能隨時隨地處理數(shù)據(jù)文件,涉及這方面的研究正在進行,攻克技術(shù)難題也將指日可待。
關(guān)鍵詞是作者提煉出的文章的核心內(nèi)容,通過統(tǒng)計詞頻能發(fā)現(xiàn)區(qū)域性數(shù)據(jù)的研究熱點。 聚類分析通俗來講就是把相似問題歸類,實質(zhì)上就是把主題關(guān)系相近的數(shù)據(jù)歸為一類。 同群要盡量相似,用可視化分析方法描述該領(lǐng)域的相關(guān)聯(lián)系。 通過聚類分析能最直觀地發(fā)現(xiàn)隱藏在海量數(shù)據(jù)中有用的知識,如該領(lǐng)域研究熱點,各學(xué)科之間的交叉點,未來研究目標(biāo)等。 目前國內(nèi)研究的方向是將關(guān)鍵詞與共引聚類分析相結(jié)合來揭示文獻的主體結(jié)構(gòu),即提出了基于摘要對關(guān)鍵詞加權(quán)貢獻的相似度模型,使得文獻的空間向量更加精確。
綜上所述,如今將大數(shù)據(jù)應(yīng)用到圖書情報工作領(lǐng)域的研究成果豐碩,雖然國外發(fā)達國家的相關(guān)研究比我們起步早一些,但只要我們選對方向?qū)Υ髷?shù)據(jù)視閾下的圖書情報熱點認(rèn)真研究梳理,不但能促進大數(shù)據(jù)和圖書情報工作的融合,還能為創(chuàng)新圖書情報工作開辟一條新路徑。網(wǎng)絡(luò)信息時代,大數(shù)據(jù)的研究和應(yīng)用勢必會成為未來各行業(yè)關(guān)注的焦點,而圖書情報領(lǐng)域的大數(shù)據(jù)技術(shù)開發(fā)更是當(dāng)前的核心工作,作為從業(yè)人員我們必須要引起重視,積極地吸取和借鑒國內(nèi)外相關(guān)領(lǐng)域的研究經(jīng)驗,使圖書情報服務(wù)工作做得更好。