基于數(shù)據(jù)挖掘技術(shù)的圖書館個性化服務應用研究

2019-04-20 13:32:42康潔

卷宗 2019年12期

摘要：圖書館管理者需要從龐大的數(shù)據(jù)中篩選出可讀性高的知識信息任務量很大，且效率比較低。本文分析了圖書館應用數(shù)據(jù)挖掘的必要性，闡述了圖書館個性化服務的內(nèi)涵，提出了基于數(shù)據(jù)挖掘技術(shù)的圖書館個性化服務應用流程，有效的提高了圖書館管理的效率。

關(guān)鍵詞：圖書館；個性化服務；數(shù)據(jù)挖掘技術(shù)；應用

1 圖書館應用數(shù)據(jù)挖掘技術(shù)的必要性

1.1 信息化需求

圖書館數(shù)據(jù)庫之中包含用戶使用記錄，如借閱記錄、檢索記錄、網(wǎng)頁瀏覽記錄等。由于圖書館用戶需求不同，在使用過程中就會產(chǎn)生種類繁多、信息量大的數(shù)據(jù)。圖書館管理者需要從龐大的數(shù)據(jù)中篩選出可讀性高的知識信息任務量很大，且效率比較低。而通過數(shù)據(jù)挖掘技術(shù)，就能夠快速地將大量的數(shù)據(jù)轉(zhuǎn)換為游泳的知識信息，為圖書館管理決策提供參考。

1.2 管理需求

傳統(tǒng)圖書館系統(tǒng)一般只具備簡單的檢索、訪問等功能，而這已經(jīng)不能滿足現(xiàn)代用戶對圖書館管理功能的需求，亟需對系統(tǒng)功能進行升級改造。數(shù)據(jù)挖掘就能夠滿足為用戶提供個性化服務的技術(shù)要求，通過分析用戶使用數(shù)據(jù)，挖掘隱含的關(guān)聯(lián)性信息，并發(fā)現(xiàn)相關(guān)的知識信息。

2 高校圖書館個性化服務的表現(xiàn)形式

所謂圖書館個性化服務，就是能夠為不同類型的用戶提供有針對性信息服務，滿足其知識查閱需求。而就個性化服務具體內(nèi)容而言，其表現(xiàn)形式主要有以下四個方面：

1）用戶能夠根據(jù)自身不同的需求定制有關(guān)的信息，并可從圖書館獲取有效的信息資源；圖書館一方可通過數(shù)據(jù)挖掘方式掌握用戶興趣，并可針對性地提供訪問空間，滿足用戶需求。圖書館在獲取用戶興趣愛好數(shù)據(jù)時，主要是通過用戶瀏覽路徑信息時間來分析的，一般情況下用戶對感興趣的內(nèi)容會花較多的時間來閱讀。分析用戶在頁面的停留時間長短，即可掌握用戶對信息資源的感興趣程度，這可為圖書館管理提供很好的參考。

2）進一步提高館藏信息資源的利用率。圖書館資源得到利用才能保證知識的廣泛傳播，圖書館可利用數(shù)據(jù)挖掘技術(shù)掌握用戶訪問圖書館網(wǎng)站的信息，包括瀏覽路徑、經(jīng)常訪問頁面，通過在路徑上增加針對性的信息資源的推送，引導用戶對信息資源進行訪問，進而提高圖書資源的利用率。

3）為用戶提供快速便捷的訪問條件。挖掘用戶網(wǎng)絡日志數(shù)據(jù)，分析其訪問頁面之間的共同點，圖書館可加強那些關(guān)聯(lián)性比較強的網(wǎng)頁之間的聯(lián)系，便于用戶對相關(guān)內(nèi)容的獲取。通過數(shù)據(jù)挖掘了解圖書館用戶的期望位置，并分析用戶在期望位置與實際位置二者訪問頻率的差異，如若前者頻率高于后者，則可以在兩者之間創(chuàng)建一個導航鏈接，便于用戶獲得更全面的信息。

4）查新、定題服務。傳統(tǒng)紙質(zhì)版、光盤類數(shù)據(jù)庫已經(jīng)跟不上新時期信息資源的查新服務，并且隨著網(wǎng)絡技術(shù)不斷進步與普及，圖書館內(nèi)容網(wǎng)絡在信息發(fā)布、更新方面具有明顯的滯后性，其服務內(nèi)容的真實性與可靠性亦值得商榷。因此，強化網(wǎng)絡平臺建設已成為圖書館發(fā)展的必由之路。數(shù)字圖書館已經(jīng)較為普及，但其自身的查新與定題服務仍有很大的差距，而可視化技術(shù)將成為即時信息分析的重要選擇之一。

3 基于數(shù)據(jù)挖掘技術(shù)的圖書館個性化服務的應用實現(xiàn)

3.1 讀者數(shù)據(jù)倉庫的建立

數(shù)據(jù)準備過程中的關(guān)鍵步驟是選擇一個樣板數(shù)據(jù)子集，該子集內(nèi)容需與挖掘目標有較強的關(guān)聯(lián)性。由于所挖掘數(shù)據(jù)信息量較大，需要通過一個數(shù)據(jù)倉庫將所挖掘的目標數(shù)據(jù)進行保存，這是保證數(shù)據(jù)挖掘成功實現(xiàn)的重要內(nèi)容。所建立數(shù)據(jù)庫的類型主要有兩類：其一，用戶的興趣庫，可結(jié)合以往用戶在借閱圖書過程中的信息記錄、網(wǎng)站訪問記錄，并通過調(diào)查問卷的方式對用戶借閱興趣愛好進行了解；其二，有自身特點的特色資源數(shù)據(jù)庫，對館藏資源進行有效匯總分類，篩選出有特色的數(shù)據(jù)資源。

3.2 數(shù)據(jù)收集

數(shù)據(jù)庫建立之后，還需要對其中數(shù)據(jù)進行處理，包括分析、調(diào)整等，通過這種方式來提高數(shù)據(jù)庫原始數(shù)據(jù)的質(zhì)量，保障數(shù)據(jù)挖掘過程的順利實現(xiàn)。數(shù)據(jù)的分析、調(diào)整過程主要是對原始數(shù)據(jù)進行抽取、清洗和轉(zhuǎn)換等。所謂數(shù)據(jù)抽取，就是通過對原有數(shù)據(jù)庫信息進行篩選，選擇與挖掘目標相關(guān)的數(shù)據(jù)信息；在數(shù)據(jù)抽取基礎上，數(shù)據(jù)清洗再對所選擇的數(shù)據(jù)信息進行噪聲、重復記錄的消除工作，并結(jié)合挖掘目標計算得出相應的缺值數(shù)據(jù)。由于圖書館自身數(shù)據(jù)量龐大，且每天都有大量新的用戶信息數(shù)據(jù)產(chǎn)生，而如果對所有的數(shù)據(jù)都進行挖掘，則勢必影響挖掘效率與質(zhì)量，甚至可能出現(xiàn)負面影響，因此，清除與挖掘目標不相關(guān)的數(shù)據(jù)就顯得十分重要。數(shù)據(jù)轉(zhuǎn)換的目的是對數(shù)據(jù)進行進一步提煉，精簡數(shù)據(jù)的維數(shù)，縮減挖掘變量數(shù)，從而從眾多數(shù)據(jù)的原始特征中選擇出所需的特征。

3.3 挖掘算法選擇與模型建立

針對同一個系統(tǒng)任務，通過不同的運算方法可能得到相同的數(shù)據(jù)挖掘結(jié)果，但其運算過程有很大的相似之處。因此，為提高運算效率與質(zhì)量，數(shù)據(jù)挖掘算法的選擇應結(jié)合數(shù)據(jù)特點、系統(tǒng)運行要求，選擇最簡便、最快捷的挖掘算法。由于圖書館用戶群體較大，對知識獲取的需求差異性大，需要根據(jù)用戶的不同選擇適宜的挖掘算法，并據(jù)此建立有效的數(shù)據(jù)挖掘模型。通過一定的方法將用戶進行分類，分析不同類型用戶的普遍性需求與個性化需求，并從中抽象出來，以此建立相對應的關(guān)聯(lián)規(guī)則模型。但需要注意的一點，是模型的建立并不一定能夠解決實際問題，其還需要通過驗證不斷地進行完善。

3.4 數(shù)據(jù)挖掘結(jié)果的驗證、應用與評價

數(shù)據(jù)結(jié)果的驗證涉及到應用過程中許多關(guān)鍵的環(huán)節(jié)，且各個環(huán)節(jié)之間有很強的邏輯關(guān)系，上一步結(jié)果解釋實踐情況可對最終結(jié)果的實用性造成影響，可通過這種關(guān)系來對結(jié)果實用性進行進一步驗證。但在應用過程中需要注意挖掘模型與數(shù)據(jù)之間的匹配問題，不可能使一個模型與數(shù)據(jù)在所有情況下都能夠完全相符。因此，需要通過對數(shù)據(jù)挖掘結(jié)果進行評價，在結(jié)合用戶反饋信息基礎上，挖掘結(jié)果能夠解決問題，達到開始的挖掘目標，滿足用戶需求，這也就意味著該挖掘模型是可行的、合理的。同時，用戶需求得到滿足之后會做出滿意的反饋，決策者根據(jù)用戶所反饋的信息會對下一步做出合理的規(guī)劃，通過這一過程不斷對服務進行完善，這也就實現(xiàn)了以用戶需求為前提的圖書館個性化服務數(shù)據(jù)挖掘過程。但是，還需要考慮到評價結(jié)果與用戶需求之間的較大差距情況，這一情形需要系統(tǒng)重新進行數(shù)據(jù)處理，由系統(tǒng)決定選擇其他的處理方式，如改變轉(zhuǎn)換方法、設定新參數(shù)、選擇其他挖掘算法等，循環(huán)多次地對數(shù)據(jù)進行處理，直至滿足用戶需求。

4 結(jié)語

新時期圖書館用戶數(shù)量倍增，信息服務需求也出現(xiàn)了多樣化、復雜化的特點。在如此龐大的信息資源中，數(shù)據(jù)挖掘技術(shù)能夠高效、快捷地發(fā)掘有用的知識信息，有針對性地提供個性化的服務內(nèi)容。當然，圖書館個性化服務中數(shù)據(jù)挖掘技術(shù)的應用尚屬于初級階段，需要在挖掘方法、數(shù)據(jù)可視化、挖掘語言標準化等多個方面進行完善，相信其會在數(shù)字圖書館建設中發(fā)揮不可替代的作用。

參考文獻

[1]李艷，呂鵬，李瓏.基于大數(shù)據(jù)挖掘與決策分析體系的高校圖書館個性化服務研究[J].圖書情報知識，2016，02：60-68.

[2]侯振興，崔虹燕.數(shù)字圖書館個性化主動信息服務模型研究[J].情報科學，2013，03：35-39.

[3]王立偉.基于圖書館流通日志信息的維度建模[J].圖書館論壇，2008，03：58-60+120.

[4]周軍.基于數(shù)據(jù)挖掘的數(shù)字圖書館個性化服務系統(tǒng)的構(gòu)建[J].圖書館學研究，2007，03：15-17.

作者簡介

康潔（1987-），女，陜西人，本科，研究方向：圖書館學。