• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      數(shù)據(jù)挖掘、信息加工與圖書管理——論數(shù)據(jù)挖掘技術(shù)對圖書館數(shù)字化建設(shè)的意義

      2013-04-12 15:26:05王碧英
      關(guān)鍵詞:數(shù)據(jù)挖掘數(shù)字化圖書館

      王碧英

      (長春職業(yè)技術(shù)學(xué)院 圖書館,吉林 長春 130033)

      引言

      隨著網(wǎng)絡(luò)技術(shù)的高速發(fā)展,信息量呈現(xiàn)出爆炸性增長。在這種信息化快速發(fā)展的時(shí)代背景下,圖書館的功能也在發(fā)生深刻的變化,人們不再像以往那樣全面依賴傳統(tǒng)的紙質(zhì)圖書,而是越來越多地依靠網(wǎng)絡(luò)技術(shù)來獲取知識和信息。面對數(shù)字信息的日益膨脹,如何從龐大的數(shù)字信息中提煉出有效信息,并加以開發(fā)利用,成為當(dāng)前圖書館數(shù)字化建設(shè)所必須面對的一個(gè)重要課題。

      數(shù)據(jù)挖掘(Data Mining)是近幾年發(fā)展起來的新興的計(jì)算機(jī)技術(shù),它指的是從大量的數(shù)據(jù)庫中提取有用的知識和信息。這一技術(shù)在醫(yī)學(xué)、軍事、科學(xué)探索等領(lǐng)域得到廣泛應(yīng)用,并顯示出其獨(dú)特的價(jià)值和魅力。作為信息管理重要機(jī)構(gòu)之一的圖書館,如何合理運(yùn)用這一新技術(shù),從浩瀚的館藏信息資源中為用戶挖掘出有用的信息知識,成為當(dāng)代圖書館信息化建設(shè)的一個(gè)重要發(fā)展方向。本文嘗試對數(shù)據(jù)挖掘技術(shù)的發(fā)展現(xiàn)狀及其在圖書館數(shù)字化建設(shè)中的作用作一個(gè)簡要分析,試圖為我國圖書館數(shù)字化建設(shè)提供一些有益的啟示。

      一、數(shù)據(jù)挖掘的特征和功能

      數(shù)據(jù)挖掘是目前人工智能和信息技術(shù)領(lǐng)域研究的一個(gè)熱點(diǎn),它指的是,“從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。”①朱建平,張潤楚:《數(shù)據(jù)挖掘的發(fā)展及其特點(diǎn)》,《統(tǒng)計(jì)與決策》2002年第7 期,第71 頁。這里所謂的“知識”,不僅包括傳統(tǒng)信息學(xué)意義上的數(shù)據(jù)、信息,也包括這些數(shù)據(jù)、信息所存在的模式和結(jié)構(gòu),還包括由此衍生的概念、規(guī)律和規(guī)則等??梢?,原始數(shù)據(jù)是形成“知識”的源泉。既然這里的“知識”可以是數(shù)字的,也可以是邏輯而非數(shù)字的,那么發(fā)現(xiàn)“知識”的方式則可以是演繹的,也可以是歸納的。由此推斷,通過數(shù)據(jù)挖掘所發(fā)現(xiàn)的“知識”,既可被用于信息管理、信息檢索優(yōu)化、信息決策服務(wù)和過程控制等,也可被用于數(shù)據(jù)自身的維護(hù)。因此,數(shù)據(jù)挖掘在信息管理上的重要作用,是將信息的管理功能從簡單的搜索查詢,提升到數(shù)據(jù)挖掘即對信息的加工提煉,從而為決策者提供信息服務(wù)。①羅仕健,朱光磊:《數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)環(huán)境下圖書館中的應(yīng)用》,《情報(bào)技術(shù)》2004年第6 期,第22頁。

      (一)數(shù)據(jù)挖掘的特征

      與傳統(tǒng)的數(shù)據(jù)處理方法相比,數(shù)據(jù)挖掘具有以下幾方面的特點(diǎn):一是對數(shù)據(jù)庫具有相對較強(qiáng)的依賴性,數(shù)據(jù)挖掘是從大量的數(shù)據(jù)源即數(shù)據(jù)庫中獲取所需的知識信息,因此,數(shù)據(jù)挖掘離不開數(shù)據(jù)庫;二是數(shù)據(jù)挖掘具有隨機(jī)性,數(shù)據(jù)挖掘是隨機(jī)地從實(shí)用數(shù)據(jù)中提取有用的知識信息,其過程則表現(xiàn)出即時(shí)和隨機(jī)特征;三是數(shù)據(jù)挖掘生成結(jié)果具有不規(guī)則性,數(shù)據(jù)挖掘過程雖大多是基于常用的統(tǒng)計(jì)方法,表現(xiàn)出一定的統(tǒng)計(jì)規(guī)律,但從某特定的數(shù)據(jù)挖掘得出的發(fā)現(xiàn)規(guī)則并不適用于其他數(shù)據(jù)。②王真:《數(shù)據(jù)挖掘及其在圖書館的作用》,《情報(bào)探索》2007年第12 期,第212 頁。

      盡管數(shù)據(jù)挖掘大多都借用統(tǒng)計(jì)方法來完成,但數(shù)據(jù)挖掘與單純的統(tǒng)計(jì)方法也有較大區(qū)別,其中區(qū)別之一就是,前者所構(gòu)建的模型與后者相比更具復(fù)雜性,所考察的問題也相對更具大型性。換言之,數(shù)據(jù)挖掘的建模重點(diǎn)大多放在適用于解決復(fù)雜問題的“學(xué)習(xí)”上,很少是根據(jù)統(tǒng)計(jì)分析方法進(jìn)行大樣本的分析推論;而數(shù)據(jù)挖掘所涉及的數(shù)據(jù)集合,也遠(yuǎn)大于統(tǒng)計(jì)分析所考慮的數(shù)據(jù)對象。

      (二)數(shù)據(jù)挖掘的功能

      從統(tǒng)計(jì)的意義上看,數(shù)據(jù)挖掘功能主要包括以下幾類:

      (1)概念描述(Concept Description)。這主要是對所考察對象的內(nèi)涵進(jìn)行統(tǒng)計(jì)上的刻畫描述,可分為特征性描述和區(qū)別性描述。

      (2)關(guān)聯(lián)分析(Association Analysis)。這主要是對所考察的數(shù)據(jù)進(jìn)行相關(guān)性研究,常用的技術(shù)包括關(guān)聯(lián)規(guī)則和序列模式。

      (3)偏差分析(Deflection Analysis)。由于數(shù)據(jù)庫中常存在一些異常數(shù)據(jù),對這些偏差進(jìn)行檢測是十分必要的。這些偏差包括:分類中的反常數(shù)據(jù)、不符合規(guī)則的特殊數(shù)據(jù)、觀察值與預(yù)測值的偏離,等等。

      (4)聚類分析(Clustering)。這主要指的是將數(shù)據(jù)按一定的規(guī)則劃分為合理的集合,即將數(shù)據(jù)劃分為多個(gè)類或族,使得同類(或族)的數(shù)據(jù)之間具有較高的相近、相似度,而不同類(或族)之間的數(shù)據(jù)相似度很低。聚類分析是前三類分析的基礎(chǔ)。這幾種數(shù)據(jù)挖掘方法之間實(shí)際上都不是孤立存在的,而是相互關(guān)聯(lián)的。

      二、數(shù)據(jù)挖掘技術(shù)在圖書館數(shù)字化建設(shè)中的作用

      數(shù)據(jù)挖掘作為一種新興的信息加工處理技術(shù),除具有龐大的統(tǒng)計(jì)功能外,還具備先進(jìn)的學(xué)習(xí)智能功能,它不僅應(yīng)用于天文、生物工程等高端科學(xué)研究上,也廣泛應(yīng)用于日常經(jīng)濟(jì)生活管理,如市場營銷、金融投資、欺詐甄別等方面。盡管數(shù)據(jù)挖掘技術(shù)在圖書管理方面的應(yīng)用還處于起步階段,但已顯現(xiàn)出許多獨(dú)特的優(yōu)點(diǎn),展現(xiàn)出廣闊的應(yīng)用前景。數(shù)據(jù)挖掘技術(shù)對圖書館數(shù)字化建設(shè)有著重要作用。

      (一)運(yùn)用數(shù)據(jù)挖掘技術(shù)能有利提高信息采集效率,優(yōu)化信息資源

      從數(shù)據(jù)挖掘的性能看,數(shù)據(jù)挖掘主要是從大量的數(shù)據(jù)庫中提取有用的知識和信息。因此,數(shù)據(jù)挖掘技術(shù)在圖書館的應(yīng)用主要體現(xiàn)在有效采集信息知識、優(yōu)化信息資源方面,具體而言,主要體現(xiàn)在以下四方面:

      一是運(yùn)用數(shù)據(jù)挖掘技術(shù)可以對用戶的興趣模式和專家學(xué)者的Web 使用模式及其借閱流通記錄、檢索請求等進(jìn)行分析,按類統(tǒng)計(jì)文獻(xiàn)借閱和檢索情況,及時(shí)發(fā)現(xiàn)信息資源的漏缺,做好文獻(xiàn)的收集征訂工作,有針對性地豐富和補(bǔ)充信息資源。

      二是運(yùn)用數(shù)據(jù)挖掘技術(shù)可以對Web 上數(shù)據(jù)集上的文檔內(nèi)容進(jìn)行摘要、關(guān)聯(lián)和聚類分析,從中提煉出有用的信息知識,并通過結(jié)果挖掘,對這些相關(guān)資源進(jìn)行歸類總結(jié),可以進(jìn)一步豐富圖書館的文獻(xiàn)資源。

      三是運(yùn)用數(shù)據(jù)挖掘技術(shù)還可以實(shí)現(xiàn)文檔的自動分類,即可以運(yùn)用數(shù)據(jù)挖掘技術(shù)構(gòu)建分類模型來自動采集和整理專題信息。在具體操作時(shí),首先可以根據(jù)某一領(lǐng)域的信息需求狀況,自動采集、捕捉整理該領(lǐng)域所關(guān)心的信息,然后篩選信息源,再根據(jù)模型算法,計(jì)算搜索路徑,自動優(yōu)化最佳搜索路徑,從而實(shí)現(xiàn)信息捕捉,其主要功能是,過濾冗余信息,實(shí)現(xiàn)智能概念抽取。

      四是利用各種數(shù)據(jù)挖掘技術(shù)及方法,對數(shù)字圖書館文獻(xiàn)信息資源的利用情況和使用的效率等進(jìn)行評價(jià),從而豐富和完善館藏資源,能夠更好地為建設(shè)特色數(shù)據(jù)庫服務(wù)。

      提升圖書信息效率的關(guān)鍵在于提高信息獲取速度,增強(qiáng)信息分析能力。數(shù)據(jù)挖掘技術(shù)的運(yùn)用正是從以上四方面來實(shí)現(xiàn)這兩者的改善。進(jìn)一步來說,提高信息采集效率、優(yōu)化信息資源,其最終目的是為了提升信息服務(wù)質(zhì)量。數(shù)據(jù)挖掘技術(shù)的運(yùn)用,可以完善服務(wù)結(jié)構(gòu),拓展服務(wù)形式,實(shí)現(xiàn)信息服務(wù)由原來的單純的“信息呈現(xiàn)”轉(zhuǎn)變?yōu)椤靶畔⑸伞?,將服?wù)由被動轉(zhuǎn)主動,實(shí)現(xiàn)信息服務(wù)的“智能化”。

      (二)運(yùn)用數(shù)據(jù)挖掘技術(shù)能更好地支持圖書館個(gè)性化信息服務(wù)

      個(gè)性化信息服務(wù)是未來信息服務(wù)的發(fā)展趨勢,實(shí)現(xiàn)“以信息找人,按需服務(wù)”是個(gè)性化信息服務(wù)的基本要求。傳統(tǒng)的圖書信息服務(wù),開始是圖書館員對用戶提出的信息請求進(jìn)行逐一解答,后來發(fā)展為定制服務(wù),由圖書館定期向用戶提供所需要的信息資料。這兩者的共同點(diǎn)是,用戶必須事先向圖書館提出信息需求才能得到相應(yīng)服務(wù)。

      現(xiàn)代數(shù)據(jù)化時(shí)代的圖書信息服務(wù),則可以利用數(shù)據(jù)挖掘技術(shù),對用戶以往借閱的資料和訪問的網(wǎng)頁進(jìn)行分析,從而了解他們的偏好興趣、知識結(jié)構(gòu)和研究方向,由此可確定個(gè)性化信息服務(wù)的內(nèi)容,這樣就可以按照他們的興趣愛好主動將數(shù)據(jù)挖掘所獲取的信息知識傳送給他們。運(yùn)用數(shù)據(jù)挖掘技術(shù)還可以通過總結(jié)現(xiàn)有各類用戶的特征,將其曾查詢和采用的信息資料進(jìn)行整理加工,發(fā)送給曾發(fā)出過類似信息請求的潛在用戶,引起他們的興趣,從而將其轉(zhuǎn)化為現(xiàn)實(shí)的用戶。①李志明,胡森樹:《數(shù)據(jù)挖掘及其在現(xiàn)代化圖書館中的應(yīng)用》,《圖書館學(xué)研究》2006年第6 期,第41頁。

      在實(shí)際操作中,可以采用聚類分析和關(guān)聯(lián)法則發(fā)現(xiàn)不同的用戶類型,然后對其提供信息定制服務(wù)。也可以通過對用戶訪問和使用信息等方面的挖掘,在用戶與信息數(shù)據(jù)之間進(jìn)行模式匹配,采用基于使用聚類、業(yè)務(wù)聚類和聯(lián)合規(guī)則等挖掘技術(shù)來自動提取技術(shù),從而確定個(gè)性化服務(wù)內(nèi)容,提高數(shù)字圖書館服務(wù)的自動化水平。②潘旭武,陳玲洪:《數(shù)據(jù)挖掘在圖書館的應(yīng)用研究》,《浙江高校圖書情報(bào)工作》2007年第1 期,第37頁。

      從以上分析可知,個(gè)性化信息服務(wù)不僅需要針對不同的需求確定不同的服務(wù),更重要的是在于如何發(fā)現(xiàn)潛在用戶,并積極主動地為他們提供所需要的信息服務(wù),數(shù)據(jù)挖掘技術(shù)為這種個(gè)性化服務(wù)的發(fā)展開辟了新渠道。

      (三)運(yùn)用數(shù)據(jù)挖掘技術(shù)能有力加強(qiáng)圖書館的信息管理

      數(shù)據(jù)挖掘在圖書管理上的應(yīng)用主要體現(xiàn)在兩個(gè)方面:一是在管理決策上的運(yùn)用;二是在用戶管理上的應(yīng)用。就管理決策而言,管理水平的高低,很大程度上取決于決策是否科學(xué)。而數(shù)據(jù)挖掘技術(shù)的合理利用則能夠?yàn)楣芾韺拥目茖W(xué)決策提供強(qiáng)有力的技術(shù)支持。具體而言,一是可以將與圖書館有關(guān)的內(nèi)外部信息匯集起來,經(jīng)過加工提煉形成可用的決策信息;二是運(yùn)用數(shù)據(jù)挖掘技術(shù)對匯集信息進(jìn)行多維度分析,并對決策假設(shè)進(jìn)行驗(yàn)證,可以提高決策的可靠性;三是運(yùn)用數(shù)據(jù)挖掘工具的預(yù)測功能,根據(jù)歷史數(shù)據(jù)對將來結(jié)果做出可信度較高的預(yù)測,能幫助決策者做出合理判斷。

      在用戶管理方面,數(shù)據(jù)挖掘技術(shù)可以從用戶所使用的數(shù)據(jù)中分析出用戶的屬性特征和信息結(jié)構(gòu)特征,這在一定程度上有利于圖書館用戶資源的管理。利用數(shù)據(jù)挖掘技術(shù),一是可以提高用戶資源管理水平;二是以數(shù)據(jù)挖掘的需求為導(dǎo)向,能夠組織協(xié)調(diào)好用戶資源管理的各項(xiàng)工作。③張英,趙艷君:《數(shù)字圖書館中多媒體數(shù)據(jù)挖掘的體系結(jié)構(gòu)和方法》,《現(xiàn)代情報(bào)》2008年第1 期,第92-94 頁。

      除此之外,數(shù)據(jù)挖掘還可以應(yīng)用于圖書館數(shù)字化建設(shè)的諸多領(lǐng)域,如信息資源優(yōu)化、信息咨詢、讀者需求分析、讀者相似性和差異性分析等。數(shù)字圖書館作為多媒體較為集中的地方,隨著多媒體數(shù)據(jù)庫技術(shù)的發(fā)展和日趨成熟,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于多媒體數(shù)據(jù)庫中的知識發(fā)現(xiàn)上也是十分必要的。這將更有利于圖書館數(shù)字信息的獲取和管理,克服傳統(tǒng)網(wǎng)絡(luò)計(jì)算模式的缺陷。④牛根義:《國內(nèi)圖書館數(shù)據(jù)挖掘研究》,《現(xiàn)代情報(bào)》2009年第1 期,第129 頁。

      三、廣泛應(yīng)用數(shù)據(jù)挖掘技術(shù)將成為我國圖書館數(shù)字化發(fā)展的一大趨向

      數(shù)據(jù)挖掘技術(shù)的應(yīng)用是圖書館數(shù)字化建設(shè)的形勢所需。信息技術(shù)的發(fā)展推動了圖書館數(shù)字化的發(fā)展。按信息技術(shù)的發(fā)展水平劃分,可將圖書館數(shù)字化的發(fā)展過程劃分為三個(gè)階段:第一是圖書館內(nèi)部管理自動化階段,第二是文獻(xiàn)信息數(shù)字檢索階段,第三階段為數(shù)字化信息服務(wù)體系階段。最后階段的重要特征之一是數(shù)字信息的智能化,其中包括對數(shù)據(jù)挖掘技術(shù)的應(yīng)用。當(dāng)然,不論圖書館信息化發(fā)展處于哪一階段,圖書館信息化的目的都是為了盡最大可能地滿足日益復(fù)雜的用戶信息需求,實(shí)現(xiàn)圖書館文獻(xiàn)信息的高效利用。①朱曉華:《淺析數(shù)據(jù)挖掘技術(shù)在圖書館自動化中的應(yīng)用》,《圖書館學(xué)研究》2002年第2 期,第42 頁。

      圖書館數(shù)字化發(fā)展歷程表明,科技發(fā)展是推動圖書館數(shù)字化發(fā)展的物質(zhì)基礎(chǔ),數(shù)據(jù)規(guī)模的日益膨脹和對信息需求的不斷深化則是推動圖書館數(shù)字化發(fā)展的內(nèi)在動力。數(shù)據(jù)規(guī)模的不斷擴(kuò)大,要求圖書館必須盡快提高數(shù)字信息的處理能力和信息資源的組織能力。而讀者信息要求的不斷上升,則要求圖書館不斷提升服務(wù)質(zhì)量,爭取盡可能地向用戶主動提供個(gè)性化信息服務(wù)。這兩方面最終都?xì)w結(jié)為:要求相關(guān)專業(yè)技術(shù)人士必須盡快開發(fā)出一個(gè)強(qiáng)有力的數(shù)據(jù)采集和處理工具,來解決圖書館在信息數(shù)據(jù)處理和信息服務(wù)方面所面臨的困難。根據(jù)數(shù)據(jù)挖掘技術(shù)的特征,我們有理由相信,數(shù)據(jù)挖掘技術(shù)將會被選作為解決圖書館數(shù)字化發(fā)展瓶頸的有效工具。

      走在信息技術(shù)發(fā)展前列的一些西方國家在圖書館數(shù)據(jù)挖掘技術(shù)的應(yīng)用方面已做出了有益嘗試。美國圖書館研究聯(lián)盟2003年曾對124 個(gè)成員圖書館對數(shù)據(jù)挖掘技術(shù)的使用情況作了調(diào)查,其中52%的成員館對調(diào)查作了反饋。反饋的結(jié)果顯示,有40 余個(gè)成員館采用了數(shù)據(jù)挖掘技術(shù),而剩余的其他成員館大多表示在不久的將來都會采用數(shù)據(jù)挖掘技術(shù)。②高巨山:《高校數(shù)字圖書館構(gòu)建中的數(shù)據(jù)挖掘應(yīng)用研究》,《中國教育信息化》2008年第3 期,第81 頁。

      與國外圖書館數(shù)字化建設(shè)相比,我國圖書館在數(shù)據(jù)挖掘技術(shù)方面的運(yùn)用尚處于起步階段。不過,從圖書館數(shù)字化建設(shè)的現(xiàn)狀看,我國圖書館已具有應(yīng)用數(shù)據(jù)挖掘技術(shù)的現(xiàn)實(shí)條件。我國的一些大型圖書館已建立了圖書采、編、檢一體化的自動化綜合管理系統(tǒng),并建立發(fā)展了大量的關(guān)聯(lián)數(shù)據(jù)庫。關(guān)聯(lián)數(shù)據(jù)庫的建立是運(yùn)用數(shù)據(jù)挖掘技術(shù)的必要前提,這為數(shù)據(jù)挖掘技術(shù)的應(yīng)用準(zhǔn)備了較好的物質(zhì)基礎(chǔ)。另一方面,數(shù)據(jù)挖掘技術(shù)經(jīng)過學(xué)者們多年的努力,在數(shù)據(jù)挖掘設(shè)計(jì)、數(shù)據(jù)抽取及聯(lián)機(jī)分析處理等方面取得了重大進(jìn)展,為數(shù)據(jù)挖掘技術(shù)的應(yīng)用奠定了必要的技術(shù)基礎(chǔ),同時(shí)也鍛煉和儲備了高水平的技術(shù)人才。以上多方面因素顯示,數(shù)據(jù)挖掘技術(shù)在我國圖書館的應(yīng)用具有較強(qiáng)的現(xiàn)實(shí)可行性,它不會僅停留在研究層面,不久必將逐步轉(zhuǎn)化為現(xiàn)實(shí),并將成為我國圖書館數(shù)字化發(fā)展的一大趨向。

      總之,在社會信息化浪潮的推動下,未來圖書館的建設(shè)與計(jì)算機(jī)信息技術(shù)的結(jié)合將愈加緊密,作為信息技術(shù)發(fā)展前沿的數(shù)據(jù)挖掘技術(shù)雖在我國圖書館領(lǐng)域的應(yīng)用還處于起步階段,但從數(shù)據(jù)挖掘在數(shù)據(jù)分析、信息加工和知識發(fā)現(xiàn)等方面所展現(xiàn)出的巨大優(yōu)勢和從國外圖書館的成功經(jīng)驗(yàn)看,數(shù)據(jù)挖掘技術(shù)在我國圖書館的應(yīng)用將有廣闊的發(fā)展前景。

      猜你喜歡
      數(shù)據(jù)挖掘數(shù)字化圖書館
      家紡業(yè)亟待數(shù)字化賦能
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      高中數(shù)學(xué)“一對一”數(shù)字化學(xué)習(xí)實(shí)踐探索
      高中數(shù)學(xué)“一對一”數(shù)字化學(xué)習(xí)實(shí)踐探索
      圖書館
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      飛躍圖書館
      數(shù)字化制勝
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      去圖書館
      通城县| 锦州市| 景东| 武安市| 城固县| 镇赉县| 大理市| 肃南| 依兰县| 陕西省| 永修县| 德阳市| 三原县| 凉山| 定远县| 逊克县| 临武县| 攀枝花市| 卓尼县| 叶城县| 黄大仙区| 张北县| 沿河| 嘉祥县| 东至县| 沅陵县| 龙山县| 探索| 乌审旗| 凉城县| 石林| 扬中市| 安国市| 兴海县| 商丘市| 南皮县| 筠连县| 闽清县| 贵德县| 教育| 惠东县|