劉巧等
【摘 要】在分析Web挖掘技術(shù)的內(nèi)容與類型的基礎(chǔ)上,探討利用Web挖掘技術(shù)分析用戶的需求信息,發(fā)現(xiàn)用戶的興趣模式,并將其應(yīng)用于數(shù)字圖書館中,構(gòu)建個性化服務(wù)模型,不僅實現(xiàn)了圖書館資源的優(yōu)化,還能為用戶帶來全新的數(shù)字圖書館服務(wù)體驗。
【關(guān)鍵詞】Web挖掘 數(shù)字圖書館 個性化服務(wù) 高職院校
【中圖分類號】 G 【文獻標(biāo)識碼】 A
【文章編號】0450-9889(2015)03C-0092-03
隨著計算機網(wǎng)絡(luò)技術(shù)、多媒體技術(shù)等高新技術(shù)的出現(xiàn)和快速發(fā)展,轉(zhuǎn)變了信息存取方式,圖書館向數(shù)字化演變已經(jīng)成為大勢所趨。高職院校圖書館作為學(xué)生了解國內(nèi)外科研信息、查閱資料等獲取知識的重要場所,建設(shè)數(shù)字化圖書館也是高職院校圖書館要進行的一項重要革新工作。
數(shù)字圖書館是將現(xiàn)代網(wǎng)絡(luò)、通訊和計算機等技術(shù)應(yīng)用于信息的收集、整理、組織和傳遞的新的模式和理念,本質(zhì)是利用各種信息技術(shù)為用戶提供更加便利的服務(wù),提高信息的廣度和深度,提升圖書資源的使用效率,提高服務(wù)質(zhì)量。正是基于這樣的理念,數(shù)字圖書館的個性化服務(wù)才應(yīng)運而生,數(shù)字圖書館的個性化服務(wù)是根據(jù)用戶的個性化的需求,搜集、分析、加工和重組信息,從而提供相應(yīng)的信息服務(wù),讓用戶獲得所需的信息內(nèi)容,關(guān)鍵在于對人的需求與信息處理能力的有機結(jié)合,通過挖掘用戶的需求、興趣和偏好,建立用戶需求模型,再利用信息技術(shù)整合加工信息,為用戶提供與之需求相匹配的信息資源,并且引導(dǎo)用戶檢索利用信息。本文將探討利用Web挖掘技術(shù)分析用戶的需求信息,發(fā)現(xiàn)用戶的興趣模式,并將其應(yīng)用于數(shù)字圖書館中,為高職院校學(xué)生用戶提供全新的服務(wù)體驗。
一、Web挖掘技術(shù)
Web挖掘技術(shù)是數(shù)據(jù)挖掘技術(shù)在Web環(huán)境下的應(yīng)用,是從大量Web文檔集合中提取潛在有用的信息和知識的過程。基本原理在于根據(jù)用戶的需求提取數(shù)據(jù),通過預(yù)處理精簡數(shù)據(jù),去除不相關(guān)的冗余數(shù)據(jù),接著選擇合適的數(shù)據(jù)挖掘方法分析數(shù)據(jù),形成一種易于理解的數(shù)據(jù)模式呈現(xiàn)給用戶,主要有以下三種數(shù)據(jù)類型。
(一)Web內(nèi)容挖掘
Web內(nèi)容挖掘是對Web頁面的本信息、圖像、多媒體信息等文本內(nèi)容進行特征提取,采用的技術(shù)方法主要是對頁面文本的分類和聚類,以從文檔內(nèi)容中抽取出知識,算法的思想如下:
通過上述方法能夠?qū)eb頁面內(nèi)容表示成一個個矢量,然后通過計算矢量之間的距離進行文本的分類和聚類。
(二)Web結(jié)構(gòu)挖掘
Web結(jié)構(gòu)挖掘是從利用WWW之間的組織結(jié)構(gòu)和聯(lián)接關(guān)系,對Web頁面進行分類,從中推導(dǎo)知識。超文本鏈接豐富了Web頁面上的信息,使得Web頁面能夠提供除文本內(nèi)容以外的有用信息,通過利用這些信息,運用挖掘方法從而對頁面進行排序,發(fā)現(xiàn)重要的頁面。
一個重要的頁面通常被認(rèn)為被引的次數(shù)較高或者被重要的頁面引用。設(shè)是一個Web頁面,被引用的頁面集合為,引用的頁面集合為,則 表示頁面的重要性,表達式為,其中為引用的頁面,表示引用的頁面的總數(shù)。因此,針對一個查詢條件,首先將利用相似度函數(shù)查找個頁面;其次,計算個頁面的重要程度進行排名,計算公式為:,其中,,,表示相似函數(shù)。
(三)Web日志挖掘
Web日志挖掘是通過挖掘Web訪問記錄,如IP地址、訪問時間、訪問日期、請求的URL以及用戶瀏覽器等,了解用戶的行為模式,發(fā)現(xiàn)用戶感興趣的模式。在數(shù)字圖書館中,主要采用的技術(shù)有路徑分析和關(guān)聯(lián)規(guī)則分析,路徑分析是通過分析用戶最經(jīng)常訪問的路徑,從而調(diào)整站點之間的結(jié)構(gòu);關(guān)聯(lián)規(guī)則是分析用戶訪問的Web頁面之間的關(guān)聯(lián)關(guān)系,找到隱含的信息。
二、基于Web挖掘技術(shù)的數(shù)字圖書館個性化服務(wù)模型
(一)Web挖掘技術(shù)在高職院校數(shù)字圖書館個性化服務(wù)中的應(yīng)用
數(shù)字圖書館個性化服務(wù)是根據(jù)不同用戶所提出的需求,利用網(wǎng)絡(luò)技術(shù)、人工智能技術(shù)等,自動檢索、收集網(wǎng)絡(luò)信息和圖書館數(shù)字信息,并結(jié)合用戶的行為、習(xí)慣以及瀏覽歷史等信息,對信息進行整合,然后將這些信息推送給用戶的一種綜合性服務(wù)。Web挖掘技術(shù)作為一項綜合技術(shù),能夠獲取、分析用戶行為,能為數(shù)字圖書館提供重要的信息基礎(chǔ)。
1.發(fā)現(xiàn)學(xué)生用戶興趣,建立個性化的訪問空間
一般而言,學(xué)生用戶在瀏覽數(shù)字圖書館的過程中,會對感興趣的Web頁面瀏覽時間較長,瀏覽的次數(shù)較多,而對不感興趣的Web頁面瀏覽時間較短,次數(shù)也較少,基于此,我們可以通過用戶瀏覽歷史的時間和次數(shù),發(fā)現(xiàn)學(xué)生用戶的興趣,為其建立個性化的訪問空間,有利于用戶瀏覽閱讀。
2.實現(xiàn)數(shù)字圖書館網(wǎng)站鏈接結(jié)構(gòu)的優(yōu)化
通過關(guān)聯(lián)規(guī)則分析用戶的Web訪問記錄,發(fā)現(xiàn)不同頁面之間的相關(guān)性,對于增強相關(guān)系較高的頁面之間的聯(lián)系,方便用戶使用。例如學(xué)生用戶在查找文獻的過程中,除了會關(guān)注該文獻的參考文獻以外,也會去關(guān)注內(nèi)容上較為接近的文獻,以及同行關(guān)注的文獻,甚至是同一個導(dǎo)師指導(dǎo)下的文獻,因此,可以將學(xué)生用戶可能關(guān)注的頁面信息建立導(dǎo)航鏈接,實現(xiàn)Web站點的優(yōu)化。
3.挖掘用戶特征,發(fā)現(xiàn)用戶重點關(guān)注領(lǐng)域,提高信息檢索的個性化
高職院校師生在使用數(shù)字圖書館的過程中,一般是由于某種學(xué)術(shù)目的或是偏好而進行信息檢索,因此,通過對用戶檢索信息的挖掘,能夠發(fā)現(xiàn)用戶所關(guān)注的領(lǐng)域,如物流供應(yīng)鏈、教育心理學(xué)、圖書情報學(xué)等,從而進一步為用戶提供服務(wù)。當(dāng)用戶輸入相關(guān)的檢索關(guān)鍵字之后,將用戶重點關(guān)注領(lǐng)域的內(nèi)容優(yōu)先排在前面,便于顧客快速找到所需的信息,提高信息檢索的個性化。
4.根據(jù)用戶特征,對用戶進行分類,實現(xiàn)精準(zhǔn)化服務(wù)
不同年齡、學(xué)歷、學(xué)科的用戶在使用數(shù)字圖書館過程中會呈現(xiàn)不同的行為模式和興趣模式,通過Web挖掘技術(shù)能找出各類的特征屬性,將用戶進行群體細分,從而實現(xiàn)精準(zhǔn)化服務(wù)。例如,圖書館可以根據(jù)不同類別用戶的興趣點,推送講座信息、講壇信息、課程信息等,還可以將圖書館新到資料、最新一期的期刊目錄通知用戶,提高數(shù)字圖書館的服務(wù)質(zhì)量。
5.挖掘用戶借閱信息,提高圖書資源的利用率
對用戶所借閱的文獻、圖書信息進行挖掘,可以發(fā)現(xiàn)受歡迎的書籍,并以此向用戶推送最近時期的熱門書籍和文獻,也可根據(jù)圖書的借閱情況,實行館際調(diào)度,或者是重新購買熱門書籍,便于用戶借閱,優(yōu)化圖書館資源,提高利用率。另一方面,對于將舊的、使用少的書籍歸類,放置統(tǒng)一書庫,減少冗余空間,節(jié)省開銷。
(二)數(shù)字圖書館個性化服務(wù)模型
將Web挖掘技術(shù)應(yīng)用于數(shù)字圖書館,通過內(nèi)容挖掘、結(jié)構(gòu)挖掘、日志挖掘,使用聚類分析、關(guān)聯(lián)分析、路徑分析等方法,實現(xiàn)用戶的個性化服務(wù)?;赪eb挖掘技術(shù)的個性化服務(wù)模型如圖1所示,主要包括以下幾個部分:
1.用戶接口
用戶接口用于連接用戶與圖書館系統(tǒng),用戶通過該接口瀏覽圖書館網(wǎng)站,瀏覽所需的圖書、期刊信息,同時用于接收系統(tǒng)的反饋信息,這個過程可以學(xué)習(xí)和記錄用戶的興趣。
2.Web挖掘
根據(jù)挖掘要求,選擇合適的挖掘方法執(zhí)行挖掘任務(wù),識別用戶行為,實現(xiàn)具有針對性、主動的、符合其需求的特色服務(wù)。同時,挖掘方法具有可擴充性和易選擇性,能夠引入新的挖掘方法,提高挖掘的效率。
3.信息推送與反饋
通過Web挖掘,建立用戶的個性化信息服務(wù)模型,并利用電子郵箱、手機短信等方式將信息推送給用戶的個性化終端。用戶也可以對推送的信息作出反饋,對信息推送方式、推送內(nèi)容、推送安排等方面給予評價,以便調(diào)整和完善用戶的數(shù)字圖書館個性化服務(wù)。
三、實現(xiàn)案例
目前,我國高校在進行圖書館數(shù)字化建設(shè)時,已將個性化服務(wù)的發(fā)展納入進去。
華中科技大學(xué)圖書館推出了Mylibrary系統(tǒng),基于Web挖掘技術(shù)為廣大師生提供服務(wù),師生可以在該系統(tǒng)內(nèi)根據(jù)自己的需要和愛好,選擇與自己相關(guān)的模塊,并對一個模塊功能進行加工處理。
廈門大學(xué)圖書館推出了“圖·時光”服務(wù),用來記錄師生在圖書館的足跡,以故事的形式展現(xiàn)師生的入館次數(shù)、借閱的數(shù)目等內(nèi)容,受到了廣大師生的熱捧。
國家科學(xué)技術(shù)文獻中心也運用了Web挖掘技術(shù),整合多家行業(yè)單位的數(shù)字資源,建立了動態(tài)用戶興趣特征模型,為國內(nèi)各大研究中心提供資源服務(wù),取得了不錯的效果。
國家專業(yè)圖書館也是基于Web技術(shù),在網(wǎng)絡(luò)平臺上實現(xiàn)圖書采購、編目、查詢等自動化業(yè)務(wù),用戶可以隨時隨地查詢各類圖書、期刊信息。
總之,將Web挖掘技術(shù)運用于數(shù)字圖書館,通過內(nèi)容挖掘、結(jié)構(gòu)挖掘、日志挖掘,使用聚類分析、關(guān)聯(lián)分析、路徑分析等方法,構(gòu)建個性化服務(wù)模型,利用該模型可以建立個性化的用戶訪問空間、實現(xiàn)數(shù)字圖書網(wǎng)站鏈接結(jié)構(gòu)的優(yōu)化、發(fā)現(xiàn)用戶的重點關(guān)注領(lǐng)域、將用戶群體細分實現(xiàn)精準(zhǔn)化服務(wù)、提高高職院校圖書資源的利用率等,從而為學(xué)生用戶帶來全新的數(shù)字圖書館服務(wù)體驗。
【參考文獻】
[1]趙金龍,胡小麗,王碩.利用 Web3D 技術(shù)建設(shè)數(shù)字圖書館平臺的研究[J]. 數(shù)字圖書館,2011(1)
[2]王玉珍. 基于Web挖掘的數(shù)字圖書館個性化服務(wù)體系研究[J]. 情報科學(xué),2014(4)
[3]王發(fā)社.高校數(shù)字圖書館個性化服務(wù)的 SWOT 分析及發(fā)展策略[J].圖書館理論與實踐,2011(12)
[4]吳志強,王義翠,馬慧娟.協(xié)同信息推薦: 一種數(shù)字圖書館個性化信息服務(wù)新模式[J].圖書館,2011(1)
【基金項目】廣西高等學(xué)??蒲许椖浚↘Y2015LX672)
【作者簡介】劉 巧(1975- ),廣西柳州人,柳州城市職業(yè)學(xué)院講師,碩士,研究方向:信息技術(shù)管理;李燮慧(1974- ),廣西柳州人,柳州職業(yè)技術(shù)學(xué)院圖書館館員,研究方向:圖書館管理。
(責(zé)編 丁 夢)