王艷麗 張素華 商丘工學(xué)院
簡(jiǎn)單來(lái)說(shuō),數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或者“挖掘”知識(shí),但這些數(shù)據(jù)是不完全的、模糊的、含噪聲的和隨機(jī)的,而數(shù)據(jù)挖掘就是要在這些數(shù)據(jù)中挖掘出那些隱含的、人工難以識(shí)別的和有作用的潛在的信息。這種方法通過對(duì)各組織的海量數(shù)據(jù)進(jìn)行分析,通過各種挖掘算法推理并從中挖掘出有用的信息,其結(jié)果將可為管理層的決策提供支持。隨著海量信息時(shí)代的來(lái)臨,數(shù)據(jù)挖掘技術(shù)在很多領(lǐng)域都得到了廣泛的應(yīng)用和發(fā)展,越來(lái)越顯示出其強(qiáng)大的生命力。
數(shù)據(jù)挖掘的過程實(shí)際上就是一個(gè)知識(shí)發(fā)現(xiàn)的過程,通過運(yùn)用各種數(shù)據(jù)處理技術(shù)從大量事實(shí)數(shù)據(jù)和觀察數(shù)據(jù)的集合中挖掘出潛在的模式或規(guī)則,幫助我們真正理解這些數(shù)據(jù)的含義,并對(duì)數(shù)據(jù)之間所存在的關(guān)系產(chǎn)生更好的理解。通過數(shù)據(jù)挖掘,可以從大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中的相關(guān)數(shù)據(jù)集中抽取出潛在的、有效的、新穎的、有價(jià)值的、最終可理解的知識(shí)信息,并從不同的角度顯示,從而使存放有大量豐富可靠資源的大型數(shù)據(jù)庫(kù)為知識(shí)歸納服務(wù)。因此,數(shù)據(jù)挖掘被認(rèn)為是解決目前“數(shù)據(jù)豐富,但信息貧乏”問題的一種有效方法。
利用數(shù)據(jù)挖掘的圖書館個(gè)性化服務(wù)合時(shí)宜地運(yùn)用到圖書管理系統(tǒng),使推薦功能為本系統(tǒng)提供增值服務(wù),利用推薦系統(tǒng)這種最優(yōu)方法幫助讀者找出最想找的信息,讓信息主動(dòng)去尋找跟隨讀者。文獻(xiàn)同時(shí)從本質(zhì)上挖掘讀者的內(nèi)在個(gè)性化需求,針對(duì)不同讀者的不同需求,向其推薦有針對(duì)性地個(gè)性化信息資源。通過這種方式,圖書館服務(wù)可向讀者推薦剛好需要的圖書資源,為所有讀者提供剛需服務(wù)。
基于數(shù)據(jù)挖掘的個(gè)性化信息推薦服務(wù)系統(tǒng)主要實(shí)現(xiàn)兩方面功能:一是挖掘功能,這里首先對(duì)圖書館讀者根據(jù)其所借閱數(shù)據(jù)進(jìn)行聚類群分,然后針對(duì)每個(gè)聚類群體中讀者的借閱數(shù)據(jù)實(shí)現(xiàn)關(guān)聯(lián)規(guī)則挖掘,尋找讀者在借閱圖書時(shí)潛在的借閱模式;二是個(gè)性化推薦功能,這里將挖掘出的關(guān)聯(lián)規(guī)則應(yīng)用到圖書館個(gè)性化推薦服務(wù)中。
圖1 數(shù)據(jù)挖掘系統(tǒng)體系結(jié)構(gòu)圖
數(shù)據(jù)挖掘系統(tǒng)由各類數(shù)據(jù)庫(kù)、挖掘前處理模塊、挖掘操作模塊、模式評(píng)估模塊、知識(shí)輸出模塊組成。系統(tǒng)處數(shù)據(jù)庫(kù)中原始數(shù)據(jù)存在如不一致、重復(fù)、含噪聲、維度高等諸多問題,所以挖掘前需要對(duì)數(shù)據(jù)先進(jìn)行處理,將未加工數(shù)據(jù)轉(zhuǎn)換成適合分析的形式。預(yù)處理過的數(shù)據(jù)分類存放在各種數(shù)據(jù)庫(kù)中,就可以運(yùn)用各種算法進(jìn)行數(shù)據(jù)挖掘,這是一個(gè)復(fù)雜的過程,并要進(jìn)行數(shù)據(jù)挖掘模式評(píng)估,并將最終的挖掘結(jié)果推薦給用戶。
基于數(shù)據(jù)挖掘的個(gè)性化推薦技術(shù),利用數(shù)據(jù)挖掘的算法,探究讀者的讀書傾向,從大量的圖書館信息庫(kù)中運(yùn)用各種挖掘方法,找到讀者最感興趣的信息,并推薦給他,并為管理員提供非常重要的業(yè)務(wù)信息。
數(shù)據(jù)挖掘的分析方法是利用數(shù)據(jù)來(lái)建立一些模仿真實(shí)世界的模型,利用這些模型來(lái)描述數(shù)據(jù)中的模式以及關(guān)系。數(shù)據(jù)挖掘可以建立六種模型:分類、回歸、時(shí)間序列、聚類、關(guān)聯(lián)規(guī)則以及順序規(guī)則。
聚類分析:聚類分析(clusteranalysis)是一種探查數(shù)據(jù)結(jié)構(gòu)的工具。聚類分析的核心是聚類,也就是將數(shù)據(jù)對(duì)象首先劃分為簇 ,最后得到同一個(gè)簇內(nèi)的所有的對(duì)象都相似,而不同簇的對(duì)象都是相異的。通過某些度量或與其他對(duì)象的關(guān)系都可以來(lái)描述所有對(duì)象。聚類不需要以先驗(yàn)標(biāo)識(shí)符來(lái)標(biāo)定數(shù)據(jù)類別的假定。
關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則挖掘是找出既定事件或數(shù)據(jù)中能同時(shí)出現(xiàn)的頻繁數(shù)據(jù)(即高頻項(xiàng)目組)的一種方法。本文所介紹的個(gè)性化圖書推薦功能主要利用聚類和關(guān)聯(lián)規(guī)則算法實(shí)現(xiàn)。
圖2 個(gè)性化圖書推薦流程
當(dāng)用戶成功登錄系統(tǒng)后,系統(tǒng)將從用戶聚類推薦和用戶關(guān)聯(lián)推薦兩個(gè)方面開始進(jìn)行個(gè)性化推薦處理。
(1)用戶聚類個(gè)性化圖書推薦
首先利用聚類算法對(duì)系統(tǒng)所有用戶進(jìn)行聚類處理,接著得到當(dāng)前用戶所屬分類里的所有用戶所借閱的圖書,然后根據(jù)這些圖書的借閱量對(duì)圖書進(jìn)行排序并且排除當(dāng)前用戶已經(jīng)借閱過的圖書,最終得到一個(gè)根據(jù)用戶分類的推薦圖書清單。
(2)用戶關(guān)聯(lián)個(gè)性化圖書推薦
首先判斷當(dāng)前用戶是否借閱記錄,如果沒有借閱記錄那么無(wú)法提供關(guān)聯(lián)推薦圖書,流程結(jié)束;如果有借閱記錄,那么找出所有借閱圖書并且利用關(guān)聯(lián)規(guī)則算法對(duì)所有借閱事務(wù)進(jìn)行關(guān)聯(lián)規(guī)則分析,得到當(dāng)前用戶關(guān)聯(lián)的圖書,然后根據(jù)置信度以及圖書的借閱量對(duì)圖書進(jìn)行排序并排除用戶己經(jīng)借閱過的圖書,最終得到一個(gè)基于關(guān)聯(lián)規(guī)則的興趣推薦圖書清單。
綜上所述,通過數(shù)據(jù)挖掘技術(shù)的應(yīng)用可以有效的提高高校圖書館管理工作的效率,將圖書館的作用更加充分的發(fā)揮出來(lái)。