買繼文
高校圖書館網(wǎng)站作為圖書館信息系統(tǒng)的重要組成部分,是圖書館資源、服務(wù)與讀者之間的橋梁。規(guī)劃和建設(shè)好圖書館網(wǎng)站,可為用戶獲取信息、交流信息提供了一個(gè)很好的基于Web的信息服務(wù)平臺。但隨著校園圖書館資源的增多,利用基于Web日志挖掘技術(shù)根據(jù)用戶的特性提供具有針對性的信息,還能通過對用戶專業(yè)特征,研究興趣的智能分析,主動地向用戶推薦其可能需要的信息的個(gè)性化推薦系統(tǒng)的建立已成發(fā)展趨勢。
1數(shù)字圖書館個(gè)性化推薦服務(wù)分析
數(shù)字圖書館個(gè)性化服務(wù)方式的具體應(yīng)用主要依托于Push技術(shù)、信息過濾技術(shù)、智能代理技術(shù)、數(shù)據(jù)挖掘技術(shù)等的綜合運(yùn)用。本文將進(jìn)一步探討數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書館個(gè)性化服務(wù)中的應(yīng)用。
2 Web數(shù)據(jù)挖掘概述
2.1Web數(shù)據(jù)挖掘及其功能
從廣義的角度出發(fā),可以對Web挖掘作如下的定義:
定義1:Web挖掘是指從大量非結(jié)構(gòu)化、異構(gòu)的Web信息源集合中發(fā)現(xiàn)有效的、新穎的、潛在可用的及最終可理解的知識包括概念(Concepts)、模式(Patterns),規(guī)則(Rules)、規(guī)律(Regularities)、約束(Constraints)及可視化(Visualizations)等形式的非平凡過程。
如果從實(shí)用性開發(fā)的角度來考慮的話,可以對Web挖掘作出如下的定義:
定義2:Web挖掘是針對包括Web頁面內(nèi)容、頁面之間的結(jié)構(gòu)、用戶訪問信息、電子商務(wù)信息等在內(nèi)的各種Web數(shù)據(jù)源,在一定基礎(chǔ)上應(yīng)用數(shù)據(jù)挖掘的方法以發(fā)現(xiàn)有用的知識幫助人們從Web中提取知識,改進(jìn)站點(diǎn)設(shè)計(jì),更好地開展電子商務(wù)等應(yīng)用。
①Web數(shù)據(jù)挖掘的對象是大量、異質(zhì)、分布的文檔。對數(shù)據(jù)挖掘而言,Web似乎太龐大了。Web的數(shù)據(jù)量目前以兆兆字節(jié)計(jì)算,而且仍然在迅速增長。
②Web是半結(jié)構(gòu)化或非結(jié)構(gòu)化的。Web頁面的復(fù)雜性高于任何傳統(tǒng)的文本文檔。Web頁面缺乏統(tǒng)一的結(jié)構(gòu)。它包含了遠(yuǎn)比任何一組書籍或其它文本文檔多得多的風(fēng)格和內(nèi)容。
③數(shù)據(jù)源具有很強(qiáng)的動態(tài)性。Web是一個(gè)動態(tài)性極強(qiáng)的信息源,其中的數(shù)據(jù)增長迅速,以每4到6個(gè)月的速度翻一番,而且信息在不斷地發(fā)生更新。
④Web面對的是一個(gè)形形色色的用戶群體,各個(gè)用戶有著不同的興趣和使用目的。
⑤Web上的信息只有很小的一部分是相關(guān)或有用的。
2.2 Web挖掘的分類
Web內(nèi)容挖掘(Web content mining)是指在人為組織的Web上,從文件內(nèi)容及其描述中獲取有用的信息的斷呈。Web的內(nèi)容挖掘可以說是數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息處理中的應(yīng)用。不同于傳統(tǒng)的數(shù)據(jù)挖掘技術(shù),Web內(nèi)容挖掘主要是針對網(wǎng)頁中非結(jié)構(gòu)化的數(shù)據(jù),如文本數(shù)據(jù)、音頻數(shù)據(jù)、視頻數(shù)據(jù)、圖形圖像數(shù)據(jù)等多種數(shù)據(jù)相融合的多媒體數(shù)據(jù)挖掘。Web檢索又分為資源發(fā)現(xiàn)和信息獲取。資源發(fā)現(xiàn)就是定位文檔的位置,并自動生成文檔的索引。Web上的資源一般分為兩類:文檔和服務(wù)。目前,Web上的資源發(fā)現(xiàn)主要集中于文檔的搜索和獲取,即Web內(nèi)容的挖掘。
Web結(jié)構(gòu)挖掘是從WWW的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識。主要是通過對圖書館的結(jié)構(gòu)進(jìn)行分析、變形和歸納,將Web頁面進(jìn)行分類,以利于信息的搜索。因?yàn)槌谋揪W(wǎng)頁之間的相互連接,網(wǎng)頁顯示的信息遠(yuǎn)比文檔內(nèi)容多。
Web結(jié)構(gòu)挖掘所得到的模式??梢越沂驹S多蘊(yùn)涵在Web內(nèi)容之外的有用信息,如通過文檔之間的超鏈接,可以挖掘出文檔之間的引用關(guān)系,從而幫助我們找到與用戶請求相關(guān)的權(quán)威頁面。通過分析Web網(wǎng)頁內(nèi)部樹形結(jié)構(gòu),可以發(fā)現(xiàn)與給定頁面集合相關(guān)的其它頁面。Web頁面的URL同樣可以反映頁面的類型以及頁面之間的從屬關(guān)系,通過分析頁面的URL信息??梢哉业礁淖兞宋恢玫腤eb頁面的新位置。
Web內(nèi)容挖掘和Web結(jié)構(gòu)挖掘的挖掘?qū)ο笫蔷W(wǎng)上的原始數(shù)據(jù),而Web日志挖掘(也稱為Web使用記錄挖掘)面對的則是在用戶和Web交互的過程中抽取出來的第二手?jǐn)?shù)據(jù),主要包括:Web服務(wù)器日志(包括服務(wù)器日志、引用日志和代理日志)、用戶簡介、注冊信息、用戶對話或交易信息、用戶提問方式等。
Web日志挖掘的一般過程如下所述:
(1)數(shù)據(jù)的預(yù)處理:就是將來自于不同數(shù)據(jù)源的數(shù)據(jù),如使用模式等信息重新組織成為模式發(fā)現(xiàn)所必需的數(shù)據(jù)結(jié)構(gòu)。
(2)模式發(fā)現(xiàn):對數(shù)據(jù)預(yù)處理所形成的文件,利用數(shù)據(jù)挖掘的一些有效算法(如關(guān)聯(lián)規(guī)則、聚類、分類、序列模式等)來發(fā)現(xiàn)隱藏的模式和規(guī)則。
(3)模式分析:主要是對挖掘出來的模式、規(guī)則進(jìn)行分析,找出用戶感興趣的模式,提供可視化的結(jié)果輸出。
Web日志挖掘得到的結(jié)果,可以用于重構(gòu)圖書館的頁面之間的鏈接關(guān)系,及重構(gòu)圖書館的拓?fù)浣Y(jié)構(gòu)、發(fā)現(xiàn)相似的客戶群體,開展個(gè)性化的信息服務(wù)和有針對性的電子商務(wù)活動,應(yīng)用信息推拉技術(shù)構(gòu)建智能化圖書館。
3基于Web日志挖掘的實(shí)時(shí)個(gè)性化推薦系統(tǒng)
3.1基于Web日志挖掘的實(shí)時(shí)個(gè)性化推薦系統(tǒng)
Web訪問個(gè)性化意味著一個(gè)用戶訪問圖書館時(shí)得到個(gè)性化的服務(wù)。如果不需要用戶的注冊信息,那么在圖書館上的個(gè)性化推薦系統(tǒng)的一種思路是將用戶歸結(jié)到一類用戶,然后根據(jù)該類用戶的訪問規(guī)律進(jìn)行Web頁面的推薦。而實(shí)時(shí)個(gè)性化則意味著,隨著用戶的訪問推進(jìn),算法會將用戶歸結(jié)到不同的用戶類中,因?yàn)椴煌挠脩纛愑胁煌耐扑]集,所以通過不斷地根據(jù)用戶的當(dāng)前訪問,實(shí)時(shí)調(diào)整推薦集,給用戶提供個(gè)性化的訪問。同時(shí)推薦集不影響原有網(wǎng)站的分類結(jié)構(gòu)。進(jìn)行圖書館實(shí)時(shí)個(gè)性化推薦的工具就是Web訪問信息挖掘,即利用數(shù)據(jù)挖掘的思想和方法。將其利用到Web服務(wù)器日志上進(jìn)行Web訪問信息挖掘,挖掘出用戶的訪問規(guī)律。挖掘的對象不再是傳統(tǒng)的關(guān)系數(shù)據(jù)庫,而是用戶訪問日志。
圖書館實(shí)時(shí)個(gè)性化推薦的主要步驟為:
①模型化頁面和用戶;
②分類頁面和用戶;
③在頁面和對象之間進(jìn)行匹配;
④判斷當(dāng)前訪問的類別以進(jìn)行推薦。
對一個(gè)用戶而言,如果他的訪問序列為:11.url,12.url,13.ur1,…1k,url,那么這種訪問序列就代表了該用戶的訪問特性,其具體為:對該用戶而言1K,url頁面是在1k-1.ur1頁面之后被訪問的。用戶對圖書館的訪問存在某種有序關(guān)系,這種有序關(guān)系反映的是用戶的特性??梢源碓撚脩襞d趣,也就是說群體用戶自身的特性和他們的訪問序列有很強(qiáng)的相關(guān)性。這種有序關(guān)系表現(xiàn)兩個(gè)方面:
當(dāng)前用戶的訪問序列是一種有序序列。
曾經(jīng)訪問過站點(diǎn)的那些用戶的訪問也各是一種有序序列。
因此需要一種挖掘方法把這種有序關(guān)系所代表的用戶特性關(guān)系挖掘出來。所以進(jìn)行聚類挖掘的目的,就是從用戶的訪問日志中識別出當(dāng)前用戶相似的那一些用戶,根據(jù)
這些用戶的訪問特性以對當(dāng)前用戶提供推薦。所以基于聚類方法的實(shí)時(shí)個(gè)性化方法的主要步驟為:
①將用戶訪問事務(wù)中的用戶訪問的順序關(guān)系特性挖掘出來。
②對這種順序關(guān)系進(jìn)行路徑分割聚類。
③在每個(gè)聚類集中挖掘出被訪問頁面之間的相互關(guān)系,得到推薦集。
④識別當(dāng)前用戶的訪問序列。
⑤匹配當(dāng)前用戶的訪問和聚類中心以得到針對當(dāng)前用戶的推薦集而進(jìn)行實(shí)時(shí)個(gè)性化推薦。
3.2整體過程
3.2.1目標(biāo)定義。在建模前要清楚知道需要完成什么,達(dá)到什么目標(biāo),對數(shù)字圖書館個(gè)性化服務(wù)來說就是要清楚提供什么內(nèi)容的信息資源、什么形式的信息資源是用戶最想獲得的等。有了具體目標(biāo)才能有針對性地進(jìn)行后續(xù)工作。
3.2.2創(chuàng)建數(shù)據(jù)挖掘庫。根據(jù)數(shù)字圖書館系統(tǒng)中用戶的注冊信息以及數(shù)字圖書館用戶訪問日志中的數(shù)據(jù),找尋用戶的信息需求和行為特征。利用關(guān)聯(lián)規(guī)則和序列發(fā)現(xiàn)分析用戶需求和行為特征,從數(shù)字圖書館的數(shù)據(jù)庫、數(shù)據(jù)倉庫以及網(wǎng)絡(luò)資源中選擇與其相符的初始信息,把它們提取出來存放到一個(gè)新建的用戶數(shù)據(jù)挖掘庫中。
3.2.3數(shù)據(jù)預(yù)處理。數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理主要是去除噪聲和處理數(shù)據(jù)缺失。在數(shù)字圖書館個(gè)性化服務(wù)建模中的預(yù)處理則主要是對挖掘庫中從眾多資源集散地搜集的數(shù)據(jù)進(jìn)行偏差檢測,包括審核數(shù)據(jù)內(nèi)容,去除冗余、錯誤的數(shù)據(jù),結(jié)合數(shù)據(jù)形式補(bǔ)充缺失數(shù)據(jù)。
3.2.4數(shù)據(jù)挖掘。在經(jīng)過了前述步驟之后,選用合適的數(shù)據(jù)挖掘工具和技術(shù)創(chuàng)建挖掘模型。通常數(shù)據(jù)挖掘的重要任務(wù)就是建立預(yù)測模型。在創(chuàng)建模型前的關(guān)聯(lián)規(guī)則和序列發(fā)現(xiàn)方法已經(jīng)為我們在挖掘庫中創(chuàng)立了初始模型,在對挖掘庫中的數(shù)據(jù)進(jìn)行預(yù)處理之后,利用數(shù)據(jù)挖掘算法一主要是統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)算法和決策樹法(數(shù)據(jù)挖掘算法相對繁復(fù),在此不予詳細(xì)描述),統(tǒng)計(jì)用戶的訪問行為紀(jì)錄、分析用戶行為規(guī)律,進(jìn)而修正模型,使模型的準(zhǔn)確度趨于最優(yōu)。
3.2.5評價(jià)和反饋。模型建立之后,并不是一成不變的,需要根據(jù)用戶的使用情況對模型的結(jié)果予以評價(jià)。模型的輸出結(jié)果低于用戶要求,就及時(shí)根據(jù)外部信息修正模型、重現(xiàn)挖掘,直到用戶基本滿意為止;模型的輸出結(jié)果符合用戶要求,根據(jù)用戶的使用情況和需求變化。及時(shí)得到反饋信息,調(diào)整挖掘庫內(nèi)容修正模型。
3.2.6 挖掘利用。數(shù)字圖書館個(gè)性化服務(wù)使用數(shù)據(jù)挖掘的最終目標(biāo)就是提高信息服務(wù)質(zhì)量,滿足用戶多樣的信息需求。數(shù)字圖書館已經(jīng)提供了個(gè)性化的服務(wù)頁面和系統(tǒng),數(shù)據(jù)挖掘的最終體現(xiàn)是完善用戶系統(tǒng),系統(tǒng)利用挖掘技術(shù)將用戶的信息需求行為預(yù)測出,結(jié)合用戶信息需求模型挖掘數(shù)據(jù)庫、數(shù)據(jù)倉庫和網(wǎng)絡(luò)資源中的有用信息,第一時(shí)間在用戶個(gè)性化服務(wù)系統(tǒng)中將信息推薦給用戶使用。