摘 要:圖書館管理者需要從龐大的數(shù)據(jù)中篩選出可讀性高的知識信息任務量很大,且效率比較低。本文分析了圖書館應用數(shù)據(jù)挖掘的必要性,闡述了圖書館個性化服務的內(nèi)涵,提出了基于數(shù)據(jù)挖掘技術(shù)的圖書館個性化服務應用流程,有效的提高了圖書館管理的效率。
關(guān)鍵詞:圖書館;個性化服務;數(shù)據(jù)挖掘技術(shù);應用
1 圖書館應用數(shù)據(jù)挖掘技術(shù)的必要性
1.1 信息化需求
圖書館數(shù)據(jù)庫之中包含用戶使用記錄,如借閱記錄、檢索記錄、網(wǎng)頁瀏覽記錄等。由于圖書館用戶需求不同,在使用過程中就會產(chǎn)生種類繁多、信息量大的數(shù)據(jù)。圖書館管理者需要從龐大的數(shù)據(jù)中篩選出可讀性高的知識信息任務量很大,且效率比較低。而通過數(shù)據(jù)挖掘技術(shù),就能夠快速地將大量的數(shù)據(jù)轉(zhuǎn)換為游泳的知識信息,為圖書館管理決策提供參考。
1.2 管理需求
傳統(tǒng)圖書館系統(tǒng)一般只具備簡單的檢索、訪問等功能,而這已經(jīng)不能滿足現(xiàn)代用戶對圖書館管理功能的需求,亟需對系統(tǒng)功能進行升級改造。數(shù)據(jù)挖掘就能夠滿足為用戶提供個性化服務的技術(shù)要求,通過分析用戶使用數(shù)據(jù),挖掘隱含的關(guān)聯(lián)性信息,并發(fā)現(xiàn)相關(guān)的知識信息。
2 高校圖書館個性化服務的表現(xiàn)形式
所謂圖書館個性化服務,就是能夠為不同類型的用戶提供有針對性信息服務,滿足其知識查閱需求。而就個性化服務具體內(nèi)容而言,其表現(xiàn)形式主要有以下四個方面:
1)用戶能夠根據(jù)自身不同的需求定制有關(guān)的信息,并可從圖書館獲取有效的信息資源;圖書館一方可通過數(shù)據(jù)挖掘方式掌握用戶興趣,并可針對性地提供訪問空間,滿足用戶需求。圖書館在獲取用戶興趣愛好數(shù)據(jù)時,主要是通過用戶瀏覽路徑信息時間來分析的,一般情況下用戶對感興趣的內(nèi)容會花較多的時間來閱讀。分析用戶在頁面的停留時間長短,即可掌握用戶對信息資源的感興趣程度,這可為圖書館管理提供很好的參考。
2)進一步提高館藏信息資源的利用率。圖書館資源得到利用才能保證知識的廣泛傳播,圖書館可利用數(shù)據(jù)挖掘技術(shù)掌握用戶訪問圖書館網(wǎng)站的信息,包括瀏覽路徑、經(jīng)常訪問頁面,通過在路徑上增加針對性的信息資源的推送,引導用戶對信息資源進行訪問,進而提高圖書資源的利用率。
3)為用戶提供快速便捷的訪問條件。挖掘用戶網(wǎng)絡日志數(shù)據(jù),分析其訪問頁面之間的共同點,圖書館可加強那些關(guān)聯(lián)性比較強的網(wǎng)頁之間的聯(lián)系,便于用戶對相關(guān)內(nèi)容的獲取。通過數(shù)據(jù)挖掘了解圖書館用戶的期望位置,并分析用戶在期望位置與實際位置二者訪問頻率的差異,如若前者頻率高于后者,則可以在兩者之間創(chuàng)建一個導航鏈接,便于用戶獲得更全面的信息。
4)查新、定題服務。傳統(tǒng)紙質(zhì)版、光盤類數(shù)據(jù)庫已經(jīng)跟不上新時期信息資源的查新服務,并且隨著網(wǎng)絡技術(shù)不斷進步與普及,圖書館內(nèi)容網(wǎng)絡在信息發(fā)布、更新方面具有明顯的滯后性,其服務內(nèi)容的真實性與可靠性亦值得商榷。因此,強化網(wǎng)絡平臺建設已成為圖書館發(fā)展的必由之路。數(shù)字圖書館已經(jīng)較為普及,但其自身的查新與定題服務仍有很大的差距,而可視化技術(shù)將成為即時信息分析的重要選擇之一。
3 基于數(shù)據(jù)挖掘技術(shù)的圖書館個性化服務的應用實現(xiàn)
3.1 讀者數(shù)據(jù)倉庫的建立
數(shù)據(jù)準備過程中的關(guān)鍵步驟是選擇一個樣板數(shù)據(jù)子集,該子集內(nèi)容需與挖掘目標有較強的關(guān)聯(lián)性。由于所挖掘數(shù)據(jù)信息量較大,需要通過一個數(shù)據(jù)倉庫將所挖掘的目標數(shù)據(jù)進行保存,這是保證數(shù)據(jù)挖掘成功實現(xiàn)的重要內(nèi)容。所建立數(shù)據(jù)庫的類型主要有兩類:其一,用戶的興趣庫,可結(jié)合以往用戶在借閱圖書過程中的信息記錄、網(wǎng)站訪問記錄,并通過調(diào)查問卷的方式對用戶借閱興趣愛好進行了解;其二,有自身特點的特色資源數(shù)據(jù)庫,對館藏資源進行有效匯總分類,篩選出有特色的數(shù)據(jù)資源。
3.2 數(shù)據(jù)收集
數(shù)據(jù)庫建立之后,還需要對其中數(shù)據(jù)進行處理,包括分析、調(diào)整等,通過這種方式來提高數(shù)據(jù)庫原始數(shù)據(jù)的質(zhì)量,保障數(shù)據(jù)挖掘過程的順利實現(xiàn)。數(shù)據(jù)的分析、調(diào)整過程主要是對原始數(shù)據(jù)進行抽取、清洗和轉(zhuǎn)換等。所謂數(shù)據(jù)抽取,就是通過對原有數(shù)據(jù)庫信息進行篩選,選擇與挖掘目標相關(guān)的數(shù)據(jù)信息;在數(shù)據(jù)抽取基礎上,數(shù)據(jù)清洗再對所選擇的數(shù)據(jù)信息進行噪聲、重復記錄的消除工作,并結(jié)合挖掘目標計算得出相應的缺值數(shù)據(jù)。由于圖書館自身數(shù)據(jù)量龐大,且每天都有大量新的用戶信息數(shù)據(jù)產(chǎn)生,而如果對所有的數(shù)據(jù)都進行挖掘,則勢必影響挖掘效率與質(zhì)量,甚至可能出現(xiàn)負面影響,因此,清除與挖掘目標不相關(guān)的數(shù)據(jù)就顯得十分重要。數(shù)據(jù)轉(zhuǎn)換的目的是對數(shù)據(jù)進行進一步提煉,精簡數(shù)據(jù)的維數(shù),縮減挖掘變量數(shù),從而從眾多數(shù)據(jù)的原始特征中選擇出所需的特征。
3.3 挖掘算法選擇與模型建立
針對同一個系統(tǒng)任務,通過不同的運算方法可能得到相同的數(shù)據(jù)挖掘結(jié)果,但其運算過程有很大的相似之處。因此,為提高運算效率與質(zhì)量,數(shù)據(jù)挖掘算法的選擇應結(jié)合數(shù)據(jù)特點、系統(tǒng)運行要求,選擇最簡便、最快捷的挖掘算法。由于圖書館用戶群體較大,對知識獲取的需求差異性大,需要根據(jù)用戶的不同選擇適宜的挖掘算法,并據(jù)此建立有效的數(shù)據(jù)挖掘模型。通過一定的方法將用戶進行分類,分析不同類型用戶的普遍性需求與個性化需求,并從中抽象出來,以此建立相對應的關(guān)聯(lián)規(guī)則模型。但需要注意的一點,是模型的建立并不一定能夠解決實際問題,其還需要通過驗證不斷地進行完善。
3.4 數(shù)據(jù)挖掘結(jié)果的驗證、應用與評價
數(shù)據(jù)結(jié)果的驗證涉及到應用過程中許多關(guān)鍵的環(huán)節(jié),且各個環(huán)節(jié)之間有很強的邏輯關(guān)系,上一步結(jié)果解釋實踐情況可對最終結(jié)果的實用性造成影響,可通過這種關(guān)系來對結(jié)果實用性進行進一步驗證。但在應用過程中需要注意挖掘模型與數(shù)據(jù)之間的匹配問題,不可能使一個模型與數(shù)據(jù)在所有情況下都能夠完全相符。因此,需要通過對數(shù)據(jù)挖掘結(jié)果進行評價,在結(jié)合用戶反饋信息基礎上,挖掘結(jié)果能夠解決問題,達到開始的挖掘目標,滿足用戶需求,這也就意味著該挖掘模型是可行的、合理的。同時,用戶需求得到滿足之后會做出滿意的反饋,決策者根據(jù)用戶所反饋的信息會對下一步做出合理的規(guī)劃,通過這一過程不斷對服務進行完善,這也就實現(xiàn)了以用戶需求為前提的圖書館個性化服務數(shù)據(jù)挖掘過程。但是,還需要考慮到評價結(jié)果與用戶需求之間的較大差距情況,這一情形需要系統(tǒng)重新進行數(shù)據(jù)處理,由系統(tǒng)決定選擇其他的處理方式,如改變轉(zhuǎn)換方法、設定新參數(shù)、選擇其他挖掘算法等,循環(huán)多次地對數(shù)據(jù)進行處理,直至滿足用戶需求。
4 結(jié)語
新時期圖書館用戶數(shù)量倍增,信息服務需求也出現(xiàn)了多樣化、復雜化的特點。在如此龐大的信息資源中,數(shù)據(jù)挖掘技術(shù)能夠高效、快捷地發(fā)掘有用的知識信息,有針對性地提供個性化的服務內(nèi)容。當然,圖書館個性化服務中數(shù)據(jù)挖掘技術(shù)的應用尚屬于初級階段,需要在挖掘方法、數(shù)據(jù)可視化、挖掘語言標準化等多個方面進行完善,相信其會在數(shù)字圖書館建設中發(fā)揮不可替代的作用。
參考文獻
[1]李艷,呂鵬,李瓏.基于大數(shù)據(jù)挖掘與決策分析體系的高校圖書館個性化服務研究[J].圖書情報知識,2016,02:60-68.
[2]侯振興,崔虹燕.數(shù)字圖書館個性化主動信息服務模型研究[J].情報科學,2013,03:35-39.
[3]王立偉.基于圖書館流通日志信息的維度建模[J].圖書館論壇,2008,03:58-60+120.
[4]周軍.基于數(shù)據(jù)挖掘的數(shù)字圖書館個性化服務系統(tǒng)的構(gòu)建[J].圖書館學研究,2007,03:15-17.
作者簡介
康潔(1987-),女,陜西人,本科,研究方向:圖書館學。