朱環(huán)宇
摘要:本文通過對知識發(fā)現(xiàn)進行深入的研究,闡述知識發(fā)現(xiàn)的功能及一般過程,探討將知識發(fā)現(xiàn)引入數(shù)字圖書館的積極意義,并據(jù)此探索數(shù)字圖書館中基于知識發(fā)現(xiàn)的知識檢索服務、個性化知識推送服務以及參考咨詢服務。
關鍵詞:知識發(fā)現(xiàn) 數(shù)字圖書館服務 應用
中圖分類號:G2507文獻標識碼:A文章編號:1009-5349(2016)23-0019-02
隨著網(wǎng)絡環(huán)境和數(shù)據(jù)庫技術的迅猛發(fā)展,人類進入到數(shù)字化信息時代,人們對于世界的認識越來越全面及深入。相應地,各種數(shù)據(jù)信息呈指數(shù)級的增長,并涵蓋到我們生活中的方方面面。在這些浩如煙海的數(shù)據(jù)中,隱藏著大量的、有重要價值的信息。目前的數(shù)據(jù)庫技術雖然能高效、便捷地實現(xiàn)對數(shù)據(jù)的查詢功能,但依據(jù)現(xiàn)有的數(shù)據(jù)檢索機制和統(tǒng)計分析方法仍無法滿足某些高層次的需求,也不能從用戶的需求出發(fā),實現(xiàn)用戶獲取準確信息的意圖,個性化的主動知識服務就更無從談起?!皵?shù)據(jù)雖然豐富,但信息仍舊匱乏”,用戶們?nèi)匀辉谛畔⒊d的環(huán)境下面臨艱難抉擇。數(shù)字圖書館作為集數(shù)據(jù)、信息、知識為一體的知識寶庫,也面臨上面所述的一系列問題,如何將知識發(fā)現(xiàn)技術應用于數(shù)字圖書館的建設中去,全面提升數(shù)字圖書館的知識服務價值和創(chuàng)新能力是新時代、新形勢下帶給圖書館人的挑戰(zhàn)。
一、知識發(fā)現(xiàn)
(一)知識發(fā)現(xiàn)的概念
知識發(fā)現(xiàn)(Knowledge Discovery in Database)一詞是在1989年召開的國際聯(lián)合人工智能學術會議上首次提出的,其定義有多個版本,目前被業(yè)界廣泛認可的是法耶茲(Fayyad)提出的。知識發(fā)現(xiàn)是指從大量數(shù)據(jù)中獲取有效的、未知的、有潛在價值的并最終可理解的模式的高級處理過程。知識發(fā)現(xiàn)是一個交叉的學科,在計算機技術、數(shù)據(jù)庫技術、機器學習技術、人工智能、統(tǒng)計學技術等多學科不斷深度融合發(fā)酵中發(fā)展起來的。知識發(fā)現(xiàn)實質(zhì)上是一個系統(tǒng)化過程,其核心是實施對大量的數(shù)據(jù)倉庫、知識庫、數(shù)據(jù)庫的分析處理及深入挖掘,找尋數(shù)據(jù)間潛在的關聯(lián)、規(guī)則、模式、趨勢。幫助用戶發(fā)現(xiàn)數(shù)據(jù)背后潛藏知識與信息,與傳統(tǒng)信息檢索相比,知識發(fā)現(xiàn)獲取到的信息是有先前未知性、有效性和實用性三個特征。
(二)知識發(fā)現(xiàn)的功能
知識發(fā)現(xiàn)不同于傳統(tǒng)的數(shù)據(jù)庫定向查詢、檢索、調(diào)用,它會對數(shù)據(jù)進行分析、統(tǒng)計、歸類及推理,以此為基礎指導實際問題的求解,并力圖發(fā)現(xiàn)事務間的相互聯(lián)系,依據(jù)這種數(shù)據(jù)間的關聯(lián)對未來的活動作出預測。知識發(fā)現(xiàn)技術可以從海量的、蕪雜的數(shù)據(jù)中根據(jù)特定的算法,篩選出有價值的、高質(zhì)量的相關聯(lián)數(shù)據(jù)。
(三)知識發(fā)現(xiàn)的一般性過程
關于知識發(fā)現(xiàn)的過程,目前尚存在分歧,有的學者提出“五步說”,也有學者提出“六步說”,本文認為知識發(fā)現(xiàn)的過程應分為九個步驟。①用戶調(diào)查,用以了解用戶的需求。②數(shù)據(jù)收集,創(chuàng)建目標數(shù)據(jù)集,該數(shù)據(jù)集可以來自現(xiàn)有系統(tǒng),也可以來自數(shù)據(jù)倉庫。③數(shù)據(jù)預處理及清理,對上一步數(shù)據(jù)庫進行糾錯及除去冗余數(shù)據(jù),并將處理結果轉(zhuǎn)化為數(shù)據(jù)采集工具所需的標準表達形式。④數(shù)據(jù)的簡化和投影,找出數(shù)據(jù)挖掘目標的有效特征,降維處理或用其他變量等價表示,以減少變量的有效數(shù)目。⑤根據(jù)目標選擇恰當?shù)臄?shù)據(jù)挖掘方法。⑥根據(jù)模式類型選擇適當?shù)臄?shù)據(jù)挖掘算法。⑦利用選定的數(shù)據(jù)挖掘方法及算法進行數(shù)據(jù)挖掘,挖掘出用戶感興趣的模式。⑧評價和解釋發(fā)現(xiàn)的模式并將其可視化。⑨知識整理及應用,把挖掘出來的知識發(fā)現(xiàn)結果應用到用戶的系統(tǒng)中去。以上步驟可進一步歸納為三個部分:數(shù)據(jù)準備階段、數(shù)據(jù)挖掘階段及數(shù)據(jù)挖掘后處理階段。
二、數(shù)字圖書館引入知識發(fā)現(xiàn)系統(tǒng)的意義
(一)有利于提高數(shù)字圖書館資源的利用率
在傳統(tǒng)的數(shù)字圖書館資源建設中,只是單純地注重資源建設本身及檢索傳遞能力,而忽視了用戶對于資源使用的效率問題,導致了數(shù)字圖書館的資源利用率普遍偏低的現(xiàn)狀。知識發(fā)現(xiàn)系統(tǒng)的引入,使得數(shù)字圖書館在原有資源的基礎上,通過關聯(lián)分析、分類、聚類等方法,獲取與原有信息存在一定關聯(lián)并潛藏于文獻、資料、數(shù)據(jù)背后的有價值的知識。區(qū)別于傳統(tǒng)模式,知識發(fā)現(xiàn)系統(tǒng)在用戶獲取知識A的同時,也會將與其存在一定相關性的知識B推送給用戶,以供用戶選擇。這種推送不僅增加了知識B的利用率,也使得用戶發(fā)現(xiàn)了單純依靠本人能力無法獲取到的、所需要的知識B。由此我們可以看出,知識發(fā)現(xiàn)的核心是對知識的挖掘,它是應用戶的需求而存在的,在知識服務模式中,應該是知識尋找用戶,而不僅僅局限于用戶尋求知識。知識發(fā)現(xiàn)系統(tǒng)的應用,有效地提高了數(shù)字圖書館資源的利用率。
(二)為用戶提供個性化的知識服務
進入新世紀以來,數(shù)據(jù)、信息、知識產(chǎn)生的速度越來越快,數(shù)量越來越多。根據(jù)統(tǒng)計表明,全世界每天約產(chǎn)生2EB的數(shù)據(jù)量(2EB既10億GB或1000PB),加之以前積累起來的數(shù)據(jù),簡直不可勝數(shù)。在如此海量的數(shù)據(jù)中充斥著相當一部分的垃圾數(shù)據(jù)(包括虛假數(shù)據(jù)及冗余數(shù)據(jù)),這些數(shù)據(jù)不但無法滿足用戶的需求,還會對其造成困擾。知識發(fā)現(xiàn)系統(tǒng)通過收集、關聯(lián)分析、聚類、分類等方法,對網(wǎng)站結構、資源內(nèi)容及用戶情況進行深入挖掘,找出信息特點與信息關聯(lián)并加以合理利用,提高知識服務水平,進而促進用戶的信息素養(yǎng)能力。另外,數(shù)字圖書館知識發(fā)現(xiàn)系統(tǒng)通過跟蹤并分析用戶信息及其知識行為特征,運用關聯(lián)分析、分類、時間序列分析等方法,挖掘其存在的規(guī)律和特點,以此作為數(shù)字圖書館資源智能化關聯(lián)和聚類的依據(jù)。通過知識發(fā)現(xiàn)技術對可用知識進行關聯(lián)和升值,進而利用這些數(shù)據(jù)和規(guī)律對用戶未來的活動進行合理的預測,從而向用戶推送知識,以滿足用戶對于知識的實際和期望的需求,實現(xiàn)從信息獲取到知識服務的跨越。
(三)進一步推動數(shù)字圖書館資源的開發(fā)和數(shù)據(jù)庫的建設
數(shù)據(jù)資源的價值是非常寶貴的,通過知識發(fā)現(xiàn)系統(tǒng)找出資源中潛在的特征和規(guī)律,向用戶提供符合用戶需求的、高效的知識獲取手段,使用戶獲取藏匿于數(shù)據(jù)背后的潛在的、全新的、有價值的知識,實現(xiàn)對資源的利用達到最大化,杜絕出現(xiàn)知識資源不必要的浪費,并以此為目標指導數(shù)字圖書館資源優(yōu)化配置。知識發(fā)現(xiàn)系統(tǒng)從技術上加強了對現(xiàn)有數(shù)字資源的開發(fā)力度,多維度挖掘資源間的潛在聯(lián)系,從而減少盲目的資源購置行為,減少現(xiàn)有資源不能充分利用的現(xiàn)象。通過對用戶信息、行為特征的分析,了解用戶的需求,進而指導數(shù)字圖書館資源的開發(fā)和數(shù)據(jù)庫的建設、更新及優(yōu)化。
三、知識發(fā)現(xiàn)在數(shù)字圖書館服務中的應用
(一)基于知識發(fā)現(xiàn)的知識檢索服務
知識檢索不同于信息檢索,它在語義層面進行標引,建立知識庫。通過信息的語義概念,揭示信息的內(nèi)在含義,而非字面上的模式匹配。從根本上解決了檢索結果冗余嚴重、檢索率低、用戶獲取知識成本高等問題。數(shù)字圖書館借助知識發(fā)現(xiàn)技術,分析用戶檢索行為,挖掘其感興趣的知識,構建用戶信息模型。對用戶進行聚類分析,通常可將其分為清晰查詢、半模糊查詢、模糊查詢。其中,知識發(fā)現(xiàn)的檢索服務可以提高后兩種查詢的查詢質(zhì)量。在數(shù)字圖書館檢索體系中,知識發(fā)現(xiàn)揭示了知識在深層次的關聯(lián)情況,對于增強其交互性,突破知識傳播和共享的時空限制,使一站式知識檢索服務成為現(xiàn)實。
(二)基于知識發(fā)現(xiàn)的個性化知識推送服務
通過用戶使用記錄、用戶行為挖掘、用戶特征分類和用戶反饋分析等方式,經(jīng)過模式識別和機器學習,分析并預測用戶感興趣的知識領域。根據(jù)構建的用戶興趣模型將相關的知識推送給用戶,也可以通過聚類、分析、關聯(lián)等規(guī)則,找到興趣相投的用戶加以歸類,并將上述知識推送給相似需求的用戶。知識發(fā)現(xiàn)運用智能分析,實現(xiàn)數(shù)字圖書館對用戶的個性化推送服務及個性化定制服務,并依據(jù)用戶對于推送或定制服務的反饋,進一步調(diào)整策略,進而滿足用戶的需求、提高用戶的體驗。
(三)基于知識發(fā)現(xiàn)的參考咨詢服務
參考咨詢服務最早要追溯自馬里蘭大學的“參考服務的電子化訪問”項目。傳統(tǒng)的淺層次的參考咨詢服務是無法滿足用戶的需求,個性化的知識增值服務在數(shù)字圖書館服務中處于主動地位。知識咨詢服務立足于數(shù)字圖書館豐富的智力資源和信息資源,依托知識發(fā)現(xiàn)系統(tǒng)為用戶提供的原始知識或是經(jīng)過深度加工的知識。通過知識發(fā)現(xiàn)系統(tǒng)對用戶進行需求定位,挖掘用戶的潛在需求,以便為用戶提供更為精確的知識服務?;谥R發(fā)現(xiàn)的參考咨詢服務不受時間限制、地域限制,以多種形式展開,更主要的是能為用戶提供高效的、便捷的、深層次的知識服務。
四、結語
知識發(fā)現(xiàn)服務是數(shù)字圖書館知識服務未來的發(fā)展方向,推進知識信息的積累、組織和整理,促進新知識的創(chuàng)造及共享,不斷豐富資源和服務,必將成為數(shù)字圖書館體系結構中不可或缺的一部分。知識發(fā)現(xiàn)系統(tǒng)在數(shù)字圖書館的廣泛應用將進一步豐富和優(yōu)化圖書館的信息資源,使圖書館的知識服務能力發(fā)生質(zhì)的變化。
參考文獻:
[1]張為江.基于用戶需求分析的數(shù)字圖書館知識發(fā)現(xiàn)系統(tǒng)研究[J].圖書館理論與實踐,2014(9).
[2]王芙蓉.基于知識發(fā)現(xiàn)的高校圖書館機構知識庫模型的建立[J].圖書館學刊,2016(8).
[3]史海燕.基于知識發(fā)現(xiàn)的數(shù)字圖書館個性化信息服務研究[J]圖書館學研究,2010(10).
[4]靳曉恩.數(shù)字圖書館的知識發(fā)現(xiàn)研究[D].湘潭:湘潭大學,2008.
[5]周楊姊.基于知識發(fā)現(xiàn)的數(shù)字圖書館個性化信息服務[J].中國成人教育,2010(17).
[6]邵慧麗.基于知識發(fā)現(xiàn)數(shù)字圖書館知識服務研究[J].圖書館,2016(2).
[7]樊紅俠.知識發(fā)現(xiàn)及其在數(shù)字圖書館的應用[J].現(xiàn)代情報,2008(8).
責任編輯:楊國棟