駱 穎
[摘要]隨著網(wǎng)絡(luò)用戶群的日益增長,更多的用戶期望能得到具有針對性的、個性化的信息服務(wù)和用戶支持。數(shù)據(jù)挖掘技術(shù)因其在海量信息資源中的智能表現(xiàn),為數(shù)字圖書館的個性化服務(wù)建設(shè)提供不可或缺的技術(shù)支撐。
[關(guān)鍵詞]數(shù)據(jù)挖掘 數(shù)字圖書館 個性化服務(wù)
中圖分類號:TP2文獻(xiàn)標(biāo)識碼:A文章編號:1671-7597(2009)0120058-01
一、數(shù)字圖書館個性化服務(wù)的含義
近10年來,隨著“數(shù)字化生存”方式逐漸為人們所接受,數(shù)字圖書館信息量大、占用空間少、更新速度快、不受時空限制等特點而越來越受到人們的關(guān)注。人們在享受著數(shù)字圖書館所帶來便捷的同時,也深受其龐大而形式多樣的信息資源困擾,因為它具有較強(qiáng)的目標(biāo)導(dǎo)向性,同樣的信息對于不同的個體表現(xiàn)出不同的價值。對單個用戶來說,不可能對數(shù)字圖書館的所有信息資源都需要,而同樣的信息也不一定會滿足所有的用戶。個性化服務(wù)是解決用戶“眾口難調(diào)”問題的關(guān)鍵,它是適應(yīng)用戶多樣化需求的重要手段,也是圖書館應(yīng)對信息資源多樣化的一個重要措施。
數(shù)字圖書館個性化服務(wù)是基于信息用戶的信息使用行為、習(xí)慣、偏好、特點及用戶特定的需求,向用戶提供滿足其個性化需求的信息內(nèi)容和系統(tǒng)功能的一種服務(wù)。首先,它應(yīng)該是一種能夠滿足數(shù)字圖書館用戶的個體信息需求的服務(wù),即根據(jù)用戶提出的明確要求提供信息服務(wù),或通過對用戶個性使用習(xí)慣的分析而主動地向用戶提供其可能需要的信息服務(wù);其次,應(yīng)該是一種培養(yǎng)個性、引導(dǎo)需求的服務(wù),這樣可以幫助個體培養(yǎng)個性、發(fā)現(xiàn)個性、引導(dǎo)需求,促進(jìn)社會的多樣性和多元化發(fā)展。數(shù)據(jù)挖掘是近年新興的計算技術(shù)與方法,它在科學(xué)發(fā)現(xiàn)、商業(yè)零售以及信用管理、醫(yī)學(xué)等領(lǐng)域已得到廣泛應(yīng)用,并顯示出巨大的威力。最近幾年,數(shù)據(jù)挖掘技術(shù)開始應(yīng)用于數(shù)字圖書館領(lǐng)域,使數(shù)字圖書館的功能有了較大的變化和發(fā)展。
二、數(shù)據(jù)挖掘及相關(guān)技術(shù)
數(shù)據(jù)挖掘也稱知識發(fā)現(xiàn),是從數(shù)據(jù)庫中獲取人們感興趣的知識,這些知識是隱含的、潛在的。與傳統(tǒng)的決策支持不同,它從大型數(shù)據(jù)庫、數(shù)據(jù)倉庫和浩瀚的網(wǎng)絡(luò)信息空間中發(fā)現(xiàn)并提取隱藏在其中的信息,幫助信息工作人員尋找數(shù)據(jù)間潛在的關(guān)聯(lián),發(fā)現(xiàn)被忽略的要素,而這些信息對預(yù)測趨勢和決策行為是十分有用的。數(shù)據(jù)挖掘根據(jù)其主要研究對象的數(shù)據(jù)結(jié)構(gòu)形式的不同,一般粗分為數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘、文本數(shù)據(jù)挖掘3類。
數(shù)據(jù)挖掘是面向數(shù)值數(shù)據(jù)的數(shù)據(jù)挖掘,對象是傳統(tǒng)的數(shù)據(jù)庫或數(shù)據(jù)倉庫。而Web數(shù)據(jù)挖掘是指針對包括Web頁面內(nèi)容、頁面之間的結(jié)構(gòu)、用戶訪問信息、商務(wù)交易信息等在內(nèi)的各種Web數(shù)據(jù),應(yīng)用數(shù)據(jù)挖掘方法及技術(shù)以發(fā)現(xiàn)有用的知識來幫助人們從萬維網(wǎng)中提取知識,改進(jìn)站點設(shè)計,開展電子商務(wù)或改進(jìn)服務(wù)。文本數(shù)據(jù)挖掘是指當(dāng)數(shù)據(jù)挖掘的對象完全由文本類型組成時,結(jié)合使用數(shù)據(jù)挖掘算法與信息檢索算法對巨量文本信息進(jìn)行自動化信息處理與分析的過程。
三、數(shù)據(jù)挖掘在數(shù)字圖書館中的應(yīng)用
(一)個性化服務(wù)。數(shù)字圖書館的個性化服務(wù)在整個數(shù)字圖書館系統(tǒng)中是很關(guān)鍵的部分,應(yīng)由被動服務(wù)轉(zhuǎn)向主動,由單純的信息呈現(xiàn)轉(zhuǎn)向信息生成。主要表現(xiàn)為兩個層次:第一層為按用戶要求進(jìn)行信息訂制。第二層則是數(shù)字圖書館挖掘用戶興趣模式,主動提供服務(wù),使數(shù)字圖書館成為一個智能型、主動性的信息提供商。
(二)提高信息獲取速度。數(shù)字圖書館中的信息量是龐大的,在堆積如山的數(shù)據(jù)中包含著許多待提取的有用知識。用戶關(guān)心自己的需要是不是能夠被滿足更勝于關(guān)心數(shù)據(jù)圖書館中總的信息量。要想為用戶提供更快、更有效的服務(wù),就必須有一套很好的搜索機(jī)制。數(shù)據(jù)挖掘技術(shù)為數(shù)字化圖書館提供了先進(jìn)的信息檢索工具,在數(shù)字圖書館的檢索中采用數(shù)據(jù)挖掘的相關(guān)理論和方法,設(shè)計的系統(tǒng)將有更大的智能性。
(三)拓展服務(wù)形式。數(shù)據(jù)挖掘可實現(xiàn)信息服務(wù)質(zhì)量的提升和業(yè)務(wù)的拓展。數(shù)字圖書館借助現(xiàn)代信息技術(shù),不僅在于服務(wù)媒體和時空的轉(zhuǎn)變,更重要的能夠借助數(shù)據(jù)挖掘技術(shù),完善其服務(wù)結(jié)構(gòu)和提升服務(wù)水平。其中有信息檢索服務(wù)、定題與查新服務(wù)、信息分析服務(wù)。
四、構(gòu)建數(shù)字圖書館個性化服務(wù)系統(tǒng)
利用數(shù)據(jù)挖掘技術(shù)構(gòu)建數(shù)字圖書館個性化服務(wù)系統(tǒng)的前提和基礎(chǔ)是擁有大量、真實的數(shù)據(jù)積累,沒有數(shù)據(jù)積累,數(shù)據(jù)挖掘?qū)o用武之地,需要各方人員共同參與,通力合作。
(一)提取原始信息和收集用戶特征。用戶通過瀏覽器訪問數(shù)字圖書館時,系統(tǒng)可以記錄下來的用戶訪問數(shù)據(jù)有兩類:用戶信息和用戶行為特征。用戶信息包括用戶的姓名、性別、年齡、職業(yè)、愛好、教育程度以及用戶訪問IP地址等;利用Web日志記錄可獲得用戶的行為特征,準(zhǔn)確把握用戶的行為特征和偏好,是提供更精確、更符合用戶需求的信息服務(wù)的首要條件。
(二)數(shù)據(jù)預(yù)處理和數(shù)據(jù)轉(zhuǎn)換。對收集到的數(shù)據(jù)進(jìn)行加工處理和組織重構(gòu),如檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性、去除噪聲或刪除無效數(shù)據(jù)、填補(bǔ)丟失的域、去除空白數(shù)據(jù)域、考慮時間順序和數(shù)據(jù)變化;找到數(shù)據(jù)的特征,用維變換或轉(zhuǎn)換方法減少有效變量的數(shù)目,找到數(shù)據(jù)的不變式,構(gòu)建相關(guān)主題的數(shù)據(jù)倉庫,為下一步的數(shù)據(jù)挖掘過程提供基礎(chǔ)平臺,做好前期準(zhǔn)備。
(三)確定數(shù)據(jù)挖掘目標(biāo)。數(shù)據(jù)挖掘的目標(biāo)應(yīng)結(jié)合實際情況,細(xì)化、清晰。如,根據(jù)用戶興趣的不斷變化,利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)用戶的最新需要,或者根據(jù)用戶的興趣度,推薦相關(guān)專題信息,并提供個性化界面等。
(四)數(shù)據(jù)挖掘。根據(jù)挖掘目標(biāo)和數(shù)據(jù)特點選擇相應(yīng)的算法,在凈化和轉(zhuǎn)換過的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘。選擇某個特定數(shù)據(jù)挖掘算法用于搜索數(shù)據(jù)中的模式,進(jìn)行數(shù)據(jù)挖掘、搜索或產(chǎn)生一個特定的感興趣的模式或一個特定的數(shù)據(jù)集,在此基礎(chǔ)上進(jìn)行分析與評估,檢驗數(shù)據(jù)挖掘所得到的知識模式。
(五)結(jié)果分析和知識的運用。對數(shù)據(jù)挖掘的結(jié)果進(jìn)行解釋和評價,用預(yù)先、可信的知識檢查解決數(shù)據(jù)模式中可能的矛盾,以改善數(shù)據(jù)倉庫,轉(zhuǎn)化為能最終被用戶理解的知識,將分析得到的知識加載到實際運行系統(tǒng)中。數(shù)據(jù)挖掘的過程是一個反復(fù)進(jìn)行的過程,需要對挖掘結(jié)果進(jìn)行不斷的實踐應(yīng)用、測試、修改、比對,直達(dá)到用戶滿意。
五、結(jié)語
數(shù)字圖書館個性化服務(wù)改變了圖書情報機(jī)構(gòu)以往“我提供什么用戶就接受什么”的運作方式,開創(chuàng)了“用戶需要什么我就提供什么”的發(fā)展思路。個性化服務(wù)將成為未來數(shù)字圖書館技術(shù)發(fā)展的主要趨勢。隨著網(wǎng)絡(luò)用戶群的日益增長,更多的用戶期望能得到具有針對性的、個性化的信息服務(wù)和用戶支持。數(shù)據(jù)挖掘技術(shù)因其在海量信息資源中的智能表現(xiàn),能為數(shù)字圖書館的個性化服務(wù)建設(shè)提供不可或缺的技術(shù)支撐。盡管數(shù)據(jù)挖掘作為一門前沿技術(shù),自身還在不斷發(fā)展完善,還面臨著許多問題,但隨著研究的深入,數(shù)據(jù)挖掘技術(shù)必將對數(shù)字圖書館的建設(shè)產(chǎn)生積極的影響。
參考文獻(xiàn):
[1]張志英,關(guān)于數(shù)字圖書館建設(shè)的思考[J].黑龍江科技信息,2008.(3).
[2]劉曉芳,淺談數(shù)字圖書館的建設(shè)[J].中國科技信息,2008.(1).
[3]李琳琳,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘在圖書館決策管理中的應(yīng)用[J].科技情報開發(fā)與經(jīng)濟(jì),2008.(1).
[4]何茵,數(shù)字圖書館用戶信息需求特點與信息服務(wù)[J].中華醫(yī)學(xué)圖書情報雜志,2008.(1).