王 芳
(安徽財經(jīng)大學,安徽蚌埠 233030)
近些年來,我國居民隨著生活水平的逐年提高,已經(jīng)能夠較好地接受“數(shù)字化生存”這一生活方式了,由于數(shù)字圖書館具有信息更新速度快、信息存儲量大、不受時間和空間的限制以及占用空間小等有特點,所以它也越來越受到人們的關注。雖然數(shù)字圖書館確實為人們帶來了非常多的方便和便捷,但是由于其包含的信息資源非常龐大并且形式多樣,所以人們在一定程度上也受到了干擾。導向性是信息資源的基本屬性之一,同一個信息在不同的使用用戶中表現(xiàn)出的價值肯定是有差異的,某一項信息無法滿足所有的需求,而某個單一的用戶肯定也并不需要所有的信息資源[1]。怎樣處理這一問題呢?數(shù)字圖書館的個性化服務就能很好地解決這一問題,數(shù)字圖書館的個性化服務的概念就是參照用戶所使用信息的習慣、偏好、行為以及特殊的需求等,經(jīng)過分析從而真正地為用戶提供滿足其要求的內(nèi)容以及系統(tǒng)功能的一種服務。首先這種服務必須是能滿足數(shù)字圖書館單一用戶信息需求的服務,也就是在用戶明確地提出了信息需求后,通過對用戶以往的使用習慣以及使用行為等內(nèi)容進行分析,從而為其提供服務;其次,這種服務還是一類能夠充分地培養(yǎng)用戶的個性,發(fā)展用戶需求的服務,而這對于整個社會朝著多樣性的發(fā)展也是有幫助的[2]。數(shù)據(jù)挖掘技術是一種新興的計算技術,其在商業(yè)零售、科學發(fā)現(xiàn),以及醫(yī)療等眾多領域都得到了應用,近些年來,它也逐漸應用到了數(shù)字圖書館領域中。
數(shù)據(jù)挖掘技術,我們也把它叫做知識發(fā)現(xiàn)技術,是在龐大的數(shù)據(jù)庫中獲取人們感興趣的知識的技術,而由于所研究的對象的數(shù)據(jù)結構和形式是存在差異的,數(shù)據(jù)挖掘技術一般又被分為以下三類:
1.數(shù)據(jù)挖掘
數(shù)據(jù)挖掘主要是指面向數(shù)值數(shù)據(jù)的挖掘技術,常見的數(shù)據(jù)挖掘任務有聚類分析、關聯(lián)分析、偏差分析以及時序模式等內(nèi)容:
(1)聚類分析是依據(jù)數(shù)據(jù)的相似度將其總結成許多類別,同一類的數(shù)據(jù)就變成相似的了,而不同類的數(shù)據(jù)差異性就會更加明顯。這樣聚類分析就可以早建立宏觀的概念并且找到數(shù)據(jù)分布模式的基礎,從而真正地弄清數(shù)據(jù)屬性間的關系。(2)關聯(lián)分析。當兩個或多個變量的取值之間存在著一定的規(guī)律時,那么這些變量就是存在關聯(lián)的,一般情況下,關聯(lián)分析分為簡單關聯(lián)、因果關聯(lián)以及時序關聯(lián)。其最重要的目的就是找到數(shù)據(jù)庫中存在著的隱蔽關聯(lián)網(wǎng)。可信度和支持度是衡量關聯(lián)的相關性的兩個重要指標,為保證挖掘的規(guī)則能夠符合用戶的要求,我們還會引入興趣度等參數(shù)和概念。(3)偏差分析。在偏差中包含著諸多重要的知識,通常數(shù)據(jù)發(fā)生時是有很多的異常情況的,而如何快速準確地發(fā)現(xiàn)這些異常情況就是很重要的工作了。而進行偏差檢查工作時,我們通常都是采用尋找參照與觀察結果之間的差別這一基本方法的。(4)時序模式。這是一類通過參照時間序列從而搜索出多次發(fā)生并且發(fā)生概率較高的模式,通過已知的數(shù)據(jù)來預測未來的值,當然這要求數(shù)據(jù)變量本身時間是有差異的。常見的數(shù)據(jù)挖掘方法有統(tǒng)計分析、神經(jīng)網(wǎng)絡、模糊集、遺傳算法、決策樹以及仿生物技術等,不同的方法其功能特點和應用領域都是有所不同的,所以我們在使用時應結合多種方法,從而做到優(yōu)勢互補。
2.文本挖掘。文本挖掘就是面向文本信息的數(shù)據(jù)挖掘技術。面對有文本類型組成的數(shù)據(jù)對象時,我們采用相關的信息檢索方法和數(shù)據(jù)挖掘方法,從而對這些文本信息進行分析和處理的過程就是文本數(shù)據(jù)挖掘。其主要包括文本摘要、概念操作、文本聚類與分類、數(shù)據(jù)分析以及特征提取等內(nèi)容。而我們所了解的詞串表示法、詞集合算法、文本聚類算法、向量表示法以及貝葉斯分類算法等都應用了這類技術[3]。
3.Web數(shù)據(jù)挖掘。這類技術是面向web頁面內(nèi)容、商務交易信息、頁面間的結構以及用戶訪問信息的數(shù)據(jù)挖掘技術。通過采用這種技術幫助用戶從www中提起其所需要的知識,不斷完善站點的設計,從而有效地開展電子商務。一般情況下,這類挖掘技術又分為web結構挖掘、web內(nèi)容挖掘和web訪問信息挖掘。
1.個性化服務。在數(shù)字圖書館的整個系統(tǒng)中,其個性化的服務都是很重要的環(huán)節(jié),網(wǎng)絡已經(jīng)越來越智能化了,那么信息服務也會隨之變得智能化,不再是傳統(tǒng)的被動化的服務方式,而是主動化的服務方式。一般情況下,我們將數(shù)字圖書館的個性化服務概括為兩個層次,第一個層次是根據(jù)用戶的自身需要對信息進行定制,舉例來說,慧聰國際系列應用軟件中的I get和My info這兩個個性化服務軟件,都是屬于這個層次的,主要包括了重要事件提示、數(shù)字圖書館站內(nèi)搜索以及網(wǎng)絡搜索等內(nèi)容。而另一個層次就是充分地分析用戶的興趣模式,主動地向用戶提供服務,使數(shù)字圖書館更加的智能化和主動化。
2.加快了信息的獲取速度。當用戶需要獲取信息時,用戶怎樣才能在堆積如山的信息中更快速地獲取到自己所需要的信息呢?用戶并不關心數(shù)字圖書館中的信息總量,他們更在意自己的需求能否被滿足,這就要求數(shù)字圖書館中必須更高效的搜索機制。而數(shù)字挖掘技術作為一類較為前沿的信息檢索工具,它既采用了數(shù)據(jù)挖掘的相關理論方法,并且它的系統(tǒng)也更加智能化。首先這種技術會整合每一個用戶以往的瀏覽記錄,這樣就形成了一個事物庫,然后對事物庫進行操作[4]:通過關聯(lián)規(guī)則的算法找到項目集,再使用分類算法匹配項目集與用戶的瀏覽模式,這樣就能找到相似的瀏覽模式的客戶,之后使之與服務器相連接;然后會找到事物庫中頻率訪問的項目集,弄清它們的關聯(lián)規(guī)則,將其存儲到知識庫中,這樣一旦有用戶瀏覽網(wǎng)頁時,網(wǎng)絡代理就會先連接到其關聯(lián)頁上,那么就大大的加快了其響應速度。最后就是利用web挖掘技術明確用戶訪問的序列模式,這樣就能夠更加快速并且準確地預測用戶可能訪問和使用的頁面了。
3.拓展了服務形式,提升了服務質(zhì)量。數(shù)字圖書館在現(xiàn)代信息技術的幫助下,它的意義已經(jīng)不僅僅是服務于媒體和轉(zhuǎn)換時空了,更重要的是它在數(shù)據(jù)挖掘技術的幫助下來提升服務水平和拓展服務形式。(1)信息檢索服務。數(shù)字圖書館提供的一個很重要的功能就是信息檢索,它也是衡量數(shù)字圖書館服務質(zhì)量的重要的參考依據(jù)[5]。傳統(tǒng)的信息檢索模式通常都是將所有的查詢結果線性的呈現(xiàn),交互性和可理解性較差,所以用戶對于查詢結果的認知也是比較模糊的,而這種新型的信息檢索模式能夠快速地將所有查詢結果進行分析聚類,并且能進行檢索定位,同時它也支持模糊檢索、多語言檢索以及概念檢索。(2)查新服務與定題服務。這是兩類針對科研的信息服務,傳統(tǒng)的服務方式是查詢光盤數(shù)據(jù)庫或是文獻數(shù)據(jù)庫,但是現(xiàn)代社會已經(jīng)是網(wǎng)絡時代了,外部網(wǎng)絡這一信息發(fā)布平臺信息發(fā)布和更新的速度極快,所以為了保證服務結果的真實性和可靠性,我們就更應該重視網(wǎng)絡平臺了。另外,數(shù)字圖書館自身還能夠有效地應用興趣模式算法,這樣當有用戶使用數(shù)字圖書館時,其就可以根據(jù)興趣模式來判斷此用戶是否適用于自身的平臺,這樣就能夠爭取到潛在的使用用戶了。數(shù)字圖書館在進行查新和定題的服務過程中,還能夠借助于可視化的技術幫助用戶進行在線即時信息分析。
通過以上的論述,我們對數(shù)字圖書館個性化服務的概念、數(shù)據(jù)挖掘技術的概念和分類以及數(shù)據(jù)挖掘技術在數(shù)字圖書館個性化服務中的應用三個方面的內(nèi)容進行了詳細的分析和探討。數(shù)字圖書館的個性化服務改變了傳統(tǒng)的被動化的運作方式,開創(chuàng)了“用戶需要什么,我就提供什么”的主動化的操作模式,而這種個性化的服務模式也必將成為數(shù)字圖書館技術發(fā)展的主要趨勢。在我國網(wǎng)絡用戶群體數(shù)量大幅度增長的今天,只有提供最具針對性并且個性化的信息服務,用戶的需求才能得到滿足。數(shù)據(jù)挖掘技術在龐大信息資源中仍能提供極具智能化的個性服務,所以其為數(shù)字圖書館的建設工作中提供了十分關鍵的支持和保障。然而數(shù)據(jù)挖掘技術屬于一種新興的技術,其還是存在著一些問題的,如數(shù)據(jù)的可視化、數(shù)據(jù)挖掘語言的標準化,以及多層次、多種類知識的高效挖掘方法等內(nèi)容都是需要我們不斷地探索和研究,未來的數(shù)據(jù)挖掘技術一定會對數(shù)字圖書館的建設工作產(chǎn)生十分關鍵的積極影響。
[1]馮進.利用數(shù)據(jù)挖掘技術,深入挖掘圖書館工作[J].現(xiàn)代情報,2005,(3).
[2]宋麗哲,等.淺談數(shù)字圖書館的個性化服務[J].計算機工程,2004,(3).
[3]夏南強,張紅梅.基于數(shù)據(jù)挖掘的數(shù)字圖書館個性化服務[J].圖書館學研究,2006,(1).
[4]朱冰冰.數(shù)據(jù)挖掘技術在數(shù)字圖書館個性化服務中的應用[J].科技情報開發(fā)與經(jīng)濟,2006,(24).
[5]王艷.數(shù)據(jù)挖掘在數(shù)字圖書館中的應用[J].情報科學,2003,(2).