摘 要:大數(shù)據(jù)時(shí)代,數(shù)據(jù)無(wú)處不在,大數(shù)據(jù)技術(shù)可挖掘數(shù)據(jù)中蘊(yùn)藏的價(jià)值,隨著大數(shù)據(jù)思維的不斷滲透,如何促使圖書館更健康的發(fā)展,必須要學(xué)會(huì)應(yīng)用大數(shù)據(jù),將大數(shù)據(jù)技術(shù)融入到圖書館工作、服務(wù)中去。
關(guān)鍵詞:大數(shù)據(jù)技術(shù) 高校圖書館 個(gè)性化服務(wù)
中圖分類號(hào):G250 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2018)01(b)-0254-02
移動(dòng)設(shè)備、RFID、無(wú)線傳感器時(shí)時(shí)刻刻都在產(chǎn)生數(shù)據(jù)[1],并以每年50%的速度急劇增長(zhǎng),要處理的數(shù)據(jù)信息量巨大,傳統(tǒng)的技術(shù)手段已無(wú)法滿足大數(shù)據(jù)時(shí)代業(yè)務(wù)需求和市場(chǎng)競(jìng)爭(zhēng)壓力對(duì)數(shù)據(jù)處理的實(shí)時(shí)性、有效性均提出的更高要求。因此,大數(shù)據(jù)技術(shù)的概念被提出,并迅速成為研究的熱點(diǎn),引起了普遍的關(guān)注。
1 大數(shù)據(jù)概述
早在1990年,數(shù)據(jù)倉(cāng)庫(kù)之父Bill Inmon就開始關(guān)注Big Data[2];2008年9月《Nature》雜志發(fā)表“Big Data: Science in the petabyte era”,大數(shù)據(jù)一詞正式被提出;2012年3月,美國(guó)啟動(dòng)“big data research anddevelopment initiative(大數(shù)據(jù)研究和發(fā)展計(jì)劃)”;2012年7月,日本推出“新ICT戰(zhàn)略研究計(jì)劃”;2015年8月19日,我國(guó)通過(guò)了《關(guān)于促進(jìn)大數(shù)據(jù)發(fā)展的行動(dòng)綱要》。大數(shù)據(jù)至今尚無(wú)確切、統(tǒng)一的定義。人們主要是用它來(lái)描述和形容信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù)。如今,大數(shù)據(jù)一詞越來(lái)越多地被提及,主要指利用新的技術(shù)和處理模式解決具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息。
大數(shù)據(jù)技術(shù)已廣泛應(yīng)用于電信、金融、教育、醫(yī)療、電子商務(wù)甚至政府決策等領(lǐng)域。近幾年,圖書館人也漸漸開始探索大數(shù)據(jù)技術(shù)在圖書館方面的應(yīng)用,作為全新技術(shù)(信息技術(shù))架構(gòu)起來(lái)的數(shù)字圖書館,與傳統(tǒng)圖書館相比,其功能、職能已得到極大的拓展,但隨著大數(shù)據(jù)技術(shù)對(duì)數(shù)字圖書館的不斷滲透,如何促使數(shù)字圖書館更健康的發(fā)展,需理解大數(shù)據(jù),適應(yīng)大數(shù)據(jù),學(xué)會(huì)應(yīng)用大數(shù)據(jù),將大數(shù)據(jù)技術(shù)融入到數(shù)字圖書館的應(yīng)用中去[3]。
2 革新高校圖書館信息服務(wù)的理念和思維
隨著大數(shù)據(jù)時(shí)代的來(lái)臨,高校圖書館信息服務(wù)不再是靠理念和經(jīng)驗(yàn)來(lái)傳承,而是用數(shù)據(jù)說(shuō)話,大數(shù)據(jù)充斥在圖書館的每一個(gè)角落,諸如讀者每一次圖書、期刊的借還,圖書館網(wǎng)站的每一次訪問(wèn)記錄等都可以轉(zhuǎn)化為數(shù)據(jù)。大數(shù)據(jù)比起傳統(tǒng)的數(shù)字具有深刻的含義和價(jià)值。如讀者與圖書的關(guān)聯(lián),圖書與圖書的關(guān)聯(lián)等。通過(guò)對(duì)用戶的學(xué)科、偏好、使用習(xí)慣等數(shù)據(jù)信息特征的分析而主動(dòng)向用戶提供可能需要的信息和服務(wù)。
3 大數(shù)據(jù)技術(shù)在高校圖書館個(gè)性化服務(wù)中的應(yīng)用
高校圖書館要實(shí)現(xiàn)個(gè)性化服務(wù),就必須動(dòng)態(tài)地組織和呈現(xiàn)與用戶當(dāng)前信息需求最相關(guān)的信息內(nèi)容,即通過(guò)了解用戶的訪問(wèn)模式,自動(dòng)地改進(jìn)站點(diǎn)信息的組織和顯示。下面通過(guò)大數(shù)據(jù)技術(shù)的流程,來(lái)描述大數(shù)據(jù)技術(shù)在高校圖書館個(gè)性化服務(wù)中的應(yīng)用。
3.1 確定目標(biāo)
通過(guò)在圖書館已有的信息服務(wù)平臺(tái)及服務(wù)模式的基礎(chǔ)上,整合代表高校師生對(duì)信息需求和特點(diǎn)的所有數(shù)據(jù)的相關(guān)記錄,實(shí)時(shí)感知用戶變化著的信息需求,進(jìn)而針對(duì)用戶的真實(shí)信息情境開展有針對(duì)性的個(gè)性化信息服務(wù)。
3.2 大數(shù)據(jù)的采集
大數(shù)據(jù)采集必須要從多維度提取數(shù)據(jù)來(lái)源來(lái)接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),包括從外部互聯(lián)網(wǎng)(直接裝載入爬蟲引擎)和圖書館內(nèi)部(評(píng)估數(shù)據(jù)采集和對(duì)接方式);除了傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)資源(電子圖書、期刊、論文數(shù)據(jù)庫(kù)等)外,更加注重使用現(xiàn)代技術(shù)手段獲取用戶使用圖書館的過(guò)程中的半結(jié)構(gòu)化及非結(jié)構(gòu)化的數(shù)據(jù)信息(智能設(shè)備數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等)。
3.3 大數(shù)據(jù)的導(dǎo)入/預(yù)處理
原始數(shù)據(jù)大體上都是分散的、不完整、不一致的“臟”數(shù)據(jù),無(wú)法直接進(jìn)行有效的分析,為了提高數(shù)據(jù)分析的質(zhì)量必須要進(jìn)行大數(shù)據(jù)的導(dǎo)入/預(yù)處理等前期工作。數(shù)據(jù)的導(dǎo)入是將數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫(kù)或者存儲(chǔ)集;數(shù)據(jù)預(yù)處理有多種方法:數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)歸約等。
3.4 大數(shù)據(jù)的統(tǒng)計(jì)/分析
統(tǒng)計(jì)/分析主要利用分布式數(shù)據(jù)庫(kù)或者分布式計(jì)算集群來(lái)對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等。統(tǒng)計(jì)/分析的方法包括假設(shè)檢驗(yàn)、差異分析、相關(guān)分析、聚類分析等等。大數(shù)據(jù)分析性能的好壞,與問(wèn)題的性質(zhì)、數(shù)據(jù)集的特性包括數(shù)據(jù)規(guī)模、數(shù)據(jù)特征等都有關(guān)系。
3.5 大數(shù)據(jù)的挖掘
數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中揭示出隱含在其中的先前未知的并有潛在價(jià)值的信息和知識(shí)的過(guò)程。挖掘的任務(wù)主要是分類、預(yù)測(cè)、關(guān)聯(lián)分析、聚類分析等;挖掘的對(duì)象有關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)等。數(shù)據(jù)挖掘的方法有很多種,包括機(jī)器學(xué)習(xí)方法、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫(kù)方法等。
3.6 結(jié)果展現(xiàn)
大數(shù)據(jù)處理數(shù)據(jù)分析的結(jié)果是直接反饋給用戶的,因此要以可讀或可見的形式展現(xiàn)??梢暬夹g(shù)是大數(shù)據(jù)產(chǎn)業(yè)鏈里的最后一環(huán),是實(shí)現(xiàn)大數(shù)據(jù)從概念到實(shí)際應(yīng)用中重要的一步。須借助計(jì)算機(jī)圖形學(xué)技術(shù),通過(guò)圖形化手段,清晰有效地傳達(dá)與溝通信息。數(shù)據(jù)圖像化可以讓數(shù)據(jù)自己說(shuō)話,讓用戶直觀的感受到結(jié)果。
3.7 結(jié)果解釋與驗(yàn)證
根據(jù)設(shè)定的目標(biāo),最終的結(jié)果將為實(shí)現(xiàn)個(gè)性化服務(wù)提供參考性決策,例如,圖書館外文數(shù)據(jù)庫(kù)使用率,95%以上是科研工作者和教師使用,而學(xué)生的使用率不足5%,這樣就可以將外文數(shù)據(jù)庫(kù)相關(guān)信息傳遞給使用率高的相關(guān)用戶;學(xué)生更多是進(jìn)行微博或留言等形式咨詢,教師和科研工作者更多選擇的是電話咨詢,這樣可以根據(jù)用戶習(xí)慣進(jìn)行參考咨詢建設(shè)。最后,要通過(guò)跟蹤了解,用戶信息反饋,調(diào)查問(wèn)卷等實(shí)踐活動(dòng)對(duì)結(jié)果的真實(shí)性、可用性進(jìn)行驗(yàn)證。
4 結(jié)語(yǔ)
社會(huì)已邁入“大數(shù)據(jù)、互聯(lián)網(wǎng)+、新媒體”時(shí)代,人類的發(fā)展進(jìn)步已離不開信息的支撐,未來(lái)世界的競(jìng)爭(zhēng)就是信息的競(jìng)爭(zhēng),在此環(huán)境背景下,世界各國(guó)的智庫(kù)建設(shè)如火如荼,高校智庫(kù)發(fā)展一片繁榮,已成為智庫(kù)建設(shè)體系的一支隊(duì)伍,高校圖書館憑借自身優(yōu)勢(shì),也正在積極響應(yīng)并參與智庫(kù)的建設(shè)與發(fā)展[4],開展個(gè)性化服務(wù)是高校圖書館滿足當(dāng)下信息需求的必然選擇,也是其自身服務(wù)方式的變革與轉(zhuǎn)型,大數(shù)據(jù)技術(shù)能夠?qū)㈦[藏于海量數(shù)據(jù)中的信息和知識(shí)挖掘出來(lái),能為高校圖書館實(shí)現(xiàn)個(gè)性化服務(wù)提供不可或缺的技術(shù)支撐。其中,盡管目前在我國(guó),大數(shù)據(jù)重點(diǎn)應(yīng)用于商業(yè)智能、政府決策、公共服務(wù)等幾大領(lǐng)域。相信隨著研究的深入,大數(shù)據(jù)技術(shù)也必然會(huì)對(duì)未來(lái)高校圖書館的建設(shè)和發(fā)展帶來(lái)積極的影響。
參考文獻(xiàn)
[1] 樊偉紅,李晨暉,張興旺,等.圖書館需要怎樣的“大數(shù)據(jù)”[J].圖書館雜志,2012(11):63-71.
[2] 李信,李旭暉,陸偉,等.大數(shù)據(jù)驅(qū)動(dòng)下的圖書情報(bào)學(xué)科熱點(diǎn)領(lǐng)域挖掘——面向WOS題錄數(shù)據(jù)的實(shí)證視角[J].圖書館論壇,2017,37(4):49-57.
[3] 夏秀雙.大數(shù)據(jù)環(huán)境下高校圖書館個(gè)性化信息服務(wù)研究[D].曲阜師范大學(xué),2015.
[4] 張冬梅,喬紅麗,肖永雙.高校圖書館在智庫(kù)建設(shè)中的作用[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2016,25(10):59-61,75.