Web挖掘在高職數(shù)字圖書館個性化服務(wù)系統(tǒng)中的應(yīng)用

2015-05-12 02:07:24劉巧等

廣西教育·C版 2015年3期

劉巧等

【摘要】在分析Web挖掘技術(shù)的內(nèi)容與類型的基礎(chǔ)上，探討利用Web挖掘技術(shù)分析用戶的需求信息，發(fā)現(xiàn)用戶的興趣模式，并將其應(yīng)用于數(shù)字圖書館中，構(gòu)建個性化服務(wù)模型，不僅實現(xiàn)了圖書館資源的優(yōu)化，還能為用戶帶來全新的數(shù)字圖書館服務(wù)體驗。

【關(guān)鍵詞】Web挖掘數(shù)字圖書館個性化服務(wù) 高職院校

【中圖分類號】 G 【文獻標(biāo)識碼】 A

【文章編號】0450-9889（2015）03C-0092-03

隨著計算機網(wǎng)絡(luò)技術(shù)、多媒體技術(shù)等高新技術(shù)的出現(xiàn)和快速發(fā)展，轉(zhuǎn)變了信息存取方式，圖書館向數(shù)字化演變已經(jīng)成為大勢所趨。高職院校圖書館作為學(xué)生了解國內(nèi)外科研信息、查閱資料等獲取知識的重要場所，建設(shè)數(shù)字化圖書館也是高職院校圖書館要進行的一項重要革新工作。

數(shù)字圖書館是將現(xiàn)代網(wǎng)絡(luò)、通訊和計算機等技術(shù)應(yīng)用于信息的收集、整理、組織和傳遞的新的模式和理念，本質(zhì)是利用各種信息技術(shù)為用戶提供更加便利的服務(wù)，提高信息的廣度和深度，提升圖書資源的使用效率，提高服務(wù)質(zhì)量。正是基于這樣的理念，數(shù)字圖書館的個性化服務(wù)才應(yīng)運而生，數(shù)字圖書館的個性化服務(wù)是根據(jù)用戶的個性化的需求，搜集、分析、加工和重組信息，從而提供相應(yīng)的信息服務(wù)，讓用戶獲得所需的信息內(nèi)容，關(guān)鍵在于對人的需求與信息處理能力的有機結(jié)合，通過挖掘用戶的需求、興趣和偏好，建立用戶需求模型，再利用信息技術(shù)整合加工信息，為用戶提供與之需求相匹配的信息資源，并且引導(dǎo)用戶檢索利用信息。本文將探討利用Web挖掘技術(shù)分析用戶的需求信息，發(fā)現(xiàn)用戶的興趣模式，并將其應(yīng)用于數(shù)字圖書館中，為高職院校學(xué)生用戶提供全新的服務(wù)體驗。

一、Web挖掘技術(shù)

Web挖掘技術(shù)是數(shù)據(jù)挖掘技術(shù)在Web環(huán)境下的應(yīng)用，是從大量Web文檔集合中提取潛在有用的信息和知識的過程。基本原理在于根據(jù)用戶的需求提取數(shù)據(jù)，通過預(yù)處理精簡數(shù)據(jù)，去除不相關(guān)的冗余數(shù)據(jù)，接著選擇合適的數(shù)據(jù)挖掘方法分析數(shù)據(jù)，形成一種易于理解的數(shù)據(jù)模式呈現(xiàn)給用戶，主要有以下三種數(shù)據(jù)類型。

（一）Web內(nèi)容挖掘

Web內(nèi)容挖掘是對Web頁面的本信息、圖像、多媒體信息等文本內(nèi)容進行特征提取，采用的技術(shù)方法主要是對頁面文本的分類和聚類，以從文檔內(nèi)容中抽取出知識，算法的思想如下：

通過上述方法能夠?qū)eb頁面內(nèi)容表示成一個個矢量，然后通過計算矢量之間的距離進行文本的分類和聚類。

（二）Web結(jié)構(gòu)挖掘

Web結(jié)構(gòu)挖掘是從利用WWW之間的組織結(jié)構(gòu)和聯(lián)接關(guān)系，對Web頁面進行分類，從中推導(dǎo)知識。超文本鏈接豐富了Web頁面上的信息，使得Web頁面能夠提供除文本內(nèi)容以外的有用信息，通過利用這些信息，運用挖掘方法從而對頁面進行排序，發(fā)現(xiàn)重要的頁面。

一個重要的頁面通常被認(rèn)為被引的次數(shù)較高或者被重要的頁面引用。設(shè)是一個Web頁面，被引用的頁面集合為，引用的頁面集合為，則表示頁面的重要性，表達式為，其中為引用的頁面，表示引用的頁面的總數(shù)。因此，針對一個查詢條件，首先將利用相似度函數(shù)查找個頁面；其次，計算個頁面的重要程度進行排名，計算公式為：，其中，，，表示相似函數(shù)。

（三）Web日志挖掘

Web日志挖掘是通過挖掘Web訪問記錄，如IP地址、訪問時間、訪問日期、請求的URL以及用戶瀏覽器等，了解用戶的行為模式，發(fā)現(xiàn)用戶感興趣的模式。在數(shù)字圖書館中，主要采用的技術(shù)有路徑分析和關(guān)聯(lián)規(guī)則分析，路徑分析是通過分析用戶最經(jīng)常訪問的路徑，從而調(diào)整站點之間的結(jié)構(gòu)；關(guān)聯(lián)規(guī)則是分析用戶訪問的Web頁面之間的關(guān)聯(lián)關(guān)系，找到隱含的信息。

二、基于Web挖掘技術(shù)的數(shù)字圖書館個性化服務(wù)模型

（一）Web挖掘技術(shù)在高職院校數(shù)字圖書館個性化服務(wù)中的應(yīng)用

數(shù)字圖書館個性化服務(wù)是根據(jù)不同用戶所提出的需求，利用網(wǎng)絡(luò)技術(shù)、人工智能技術(shù)等，自動檢索、收集網(wǎng)絡(luò)信息和圖書館數(shù)字信息，并結(jié)合用戶的行為、習(xí)慣以及瀏覽歷史等信息，對信息進行整合，然后將這些信息推送給用戶的一種綜合性服務(wù)。Web挖掘技術(shù)作為一項綜合技術(shù)，能夠獲取、分析用戶行為，能為數(shù)字圖書館提供重要的信息基礎(chǔ)。

1.發(fā)現(xiàn)學(xué)生用戶興趣，建立個性化的訪問空間

一般而言，學(xué)生用戶在瀏覽數(shù)字圖書館的過程中，會對感興趣的Web頁面瀏覽時間較長，瀏覽的次數(shù)較多，而對不感興趣的Web頁面瀏覽時間較短，次數(shù)也較少，基于此，我們可以通過用戶瀏覽歷史的時間和次數(shù)，發(fā)現(xiàn)學(xué)生用戶的興趣，為其建立個性化的訪問空間，有利于用戶瀏覽閱讀。

2.實現(xiàn)數(shù)字圖書館網(wǎng)站鏈接結(jié)構(gòu)的優(yōu)化

通過關(guān)聯(lián)規(guī)則分析用戶的Web訪問記錄，發(fā)現(xiàn)不同頁面之間的相關(guān)性，對于增強相關(guān)系較高的頁面之間的聯(lián)系，方便用戶使用。例如學(xué)生用戶在查找文獻的過程中，除了會關(guān)注該文獻的參考文獻以外，也會去關(guān)注內(nèi)容上較為接近的文獻，以及同行關(guān)注的文獻，甚至是同一個導(dǎo)師指導(dǎo)下的文獻，因此，可以將學(xué)生用戶可能關(guān)注的頁面信息建立導(dǎo)航鏈接，實現(xiàn)Web站點的優(yōu)化。

3.挖掘用戶特征，發(fā)現(xiàn)用戶重點關(guān)注領(lǐng)域，提高信息檢索的個性化

高職院校師生在使用數(shù)字圖書館的過程中，一般是由于某種學(xué)術(shù)目的或是偏好而進行信息檢索，因此，通過對用戶檢索信息的挖掘，能夠發(fā)現(xiàn)用戶所關(guān)注的領(lǐng)域，如物流供應(yīng)鏈、教育心理學(xué)、圖書情報學(xué)等，從而進一步為用戶提供服務(wù)。當(dāng)用戶輸入相關(guān)的檢索關(guān)鍵字之后，將用戶重點關(guān)注領(lǐng)域的內(nèi)容優(yōu)先排在前面，便于顧客快速找到所需的信息，提高信息檢索的個性化。

4.根據(jù)用戶特征，對用戶進行分類，實現(xiàn)精準(zhǔn)化服務(wù)

不同年齡、學(xué)歷、學(xué)科的用戶在使用數(shù)字圖書館過程中會呈現(xiàn)不同的行為模式和興趣模式，通過Web挖掘技術(shù)能找出各類的特征屬性，將用戶進行群體細分，從而實現(xiàn)精準(zhǔn)化服務(wù)。例如，圖書館可以根據(jù)不同類別用戶的興趣點，推送講座信息、講壇信息、課程信息等，還可以將圖書館新到資料、最新一期的期刊目錄通知用戶，提高數(shù)字圖書館的服務(wù)質(zhì)量。

5.挖掘用戶借閱信息，提高圖書資源的利用率

對用戶所借閱的文獻、圖書信息進行挖掘，可以發(fā)現(xiàn)受歡迎的書籍，并以此向用戶推送最近時期的熱門書籍和文獻，也可根據(jù)圖書的借閱情況，實行館際調(diào)度，或者是重新購買熱門書籍，便于用戶借閱，優(yōu)化圖書館資源，提高利用率。另一方面，對于將舊的、使用少的書籍歸類，放置統(tǒng)一書庫，減少冗余空間，節(jié)省開銷。

（二）數(shù)字圖書館個性化服務(wù)模型

將Web挖掘技術(shù)應(yīng)用于數(shù)字圖書館，通過內(nèi)容挖掘、結(jié)構(gòu)挖掘、日志挖掘，使用聚類分析、關(guān)聯(lián)分析、路徑分析等方法，實現(xiàn)用戶的個性化服務(wù)?；赪eb挖掘技術(shù)的個性化服務(wù)模型如圖1所示，主要包括以下幾個部分：

1.用戶接口

用戶接口用于連接用戶與圖書館系統(tǒng)，用戶通過該接口瀏覽圖書館網(wǎng)站，瀏覽所需的圖書、期刊信息，同時用于接收系統(tǒng)的反饋信息，這個過程可以學(xué)習(xí)和記錄用戶的興趣。

2.Web挖掘

根據(jù)挖掘要求，選擇合適的挖掘方法執(zhí)行挖掘任務(wù)，識別用戶行為，實現(xiàn)具有針對性、主動的、符合其需求的特色服務(wù)。同時，挖掘方法具有可擴充性和易選擇性，能夠引入新的挖掘方法，提高挖掘的效率。

3.信息推送與反饋

通過Web挖掘，建立用戶的個性化信息服務(wù)模型，并利用電子郵箱、手機短信等方式將信息推送給用戶的個性化終端。用戶也可以對推送的信息作出反饋，對信息推送方式、推送內(nèi)容、推送安排等方面給予評價，以便調(diào)整和完善用戶的數(shù)字圖書館個性化服務(wù)。

三、實現(xiàn)案例

目前，我國高校在進行圖書館數(shù)字化建設(shè)時，已將個性化服務(wù)的發(fā)展納入進去。

華中科技大學(xué)圖書館推出了Mylibrary系統(tǒng)，基于Web挖掘技術(shù)為廣大師生提供服務(wù)，師生可以在該系統(tǒng)內(nèi)根據(jù)自己的需要和愛好，選擇與自己相關(guān)的模塊，并對一個模塊功能進行加工處理。

廈門大學(xué)圖書館推出了“圖·時光”服務(wù)，用來記錄師生在圖書館的足跡，以故事的形式展現(xiàn)師生的入館次數(shù)、借閱的數(shù)目等內(nèi)容，受到了廣大師生的熱捧。

國家科學(xué)技術(shù)文獻中心也運用了Web挖掘技術(shù)，整合多家行業(yè)單位的數(shù)字資源，建立了動態(tài)用戶興趣特征模型，為國內(nèi)各大研究中心提供資源服務(wù)，取得了不錯的效果。

國家專業(yè)圖書館也是基于Web技術(shù)，在網(wǎng)絡(luò)平臺上實現(xiàn)圖書采購、編目、查詢等自動化業(yè)務(wù)，用戶可以隨時隨地查詢各類圖書、期刊信息。

總之，將Web挖掘技術(shù)運用于數(shù)字圖書館，通過內(nèi)容挖掘、結(jié)構(gòu)挖掘、日志挖掘，使用聚類分析、關(guān)聯(lián)分析、路徑分析等方法，構(gòu)建個性化服務(wù)模型，利用該模型可以建立個性化的用戶訪問空間、實現(xiàn)數(shù)字圖書網(wǎng)站鏈接結(jié)構(gòu)的優(yōu)化、發(fā)現(xiàn)用戶的重點關(guān)注領(lǐng)域、將用戶群體細分實現(xiàn)精準(zhǔn)化服務(wù)、提高高職院校圖書資源的利用率等，從而為學(xué)生用戶帶來全新的數(shù)字圖書館服務(wù)體驗。

【參考文獻】

[1]趙金龍，胡小麗，王碩.利用 Web3D 技術(shù)建設(shè)數(shù)字圖書館平臺的研究[J]. 數(shù)字圖書館，2011（1）

[2]王玉珍. 基于Web挖掘的數(shù)字圖書館個性化服務(wù)體系研究[J]. 情報科學(xué)，2014（4）

[3]王發(fā)社.高校數(shù)字圖書館個性化服務(wù)的 SWOT 分析及發(fā)展策略[J].圖書館理論與實踐，2011（12）

[4]吳志強，王義翠，馬慧娟.協(xié)同信息推薦：一種數(shù)字圖書館個性化信息服務(wù)新模式[J].圖書館，2011（1）

【基金項目】廣西高等學(xué)?？蒲许椖浚↘Y2015LX672）

【作者簡介】劉巧（1975- ），廣西柳州人，柳州城市職業(yè)學(xué)院講師，碩士，研究方向：信息技術(shù)管理；李燮慧（1974- ），廣西柳州人，柳州職業(yè)技術(shù)學(xué)院圖書館館員，研究方向：圖書館管理。

（責(zé)編丁夢）

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

Web挖掘在高職數(shù)字圖書館個性化服務(wù)系統(tǒng)中的應(yīng)用