喻正紅
湖南工程學院,湖南 湘潭 411104
數(shù)據(jù)挖掘技術在圖書館借閱記錄中的應用研究綜述*
喻正紅
湖南工程學院,湖南湘潭411104
摘要:圖書館是信息文獻服務中心,為讀者提供服務是圖書館的目的;而數(shù)據(jù)挖掘技術在圖書館中的應用,就是通過數(shù)據(jù)分析提取出讀者具有一定共性的需求,從而把它作為選擇購買數(shù)字、紙質資源,向讀者開展個性化服務等工作的指導標準,為讀者提供更好的優(yōu)質服務。
關鍵詞:數(shù)據(jù)挖掘;圖書館;借閱記錄;研究綜述
一、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘可以定義為:從大量的、不完全的、隨機的、有噪聲的數(shù)據(jù)庫中,提取隱含著的那些預先不知道的并且對人們潛在有用的信息和知識的過程。主要包括以下四個層次的含義:
(一)數(shù)據(jù)的來源必須真實,數(shù)據(jù)量要大并且包含噪聲;
(二)發(fā)現(xiàn)的是用戶感興趣的知識;
(三)知識可以被理解和應用,可以用自然語言來表達;
(四)知識是有特定前提和約束條件,是相對的應用于特定領域。
數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中,把潛在的、有用的信息和規(guī)律提取出來,為決策提供信息支持。
二、數(shù)據(jù)挖掘在國內外的研究現(xiàn)狀
數(shù)據(jù)挖掘是一門新興的科學,蘊含廣泛,各個學科都在進行研究。1989年8月舉行了第一屆國際聯(lián)合人工智能會議,數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD)的概念在該次會議上被提出。目前專家們認為數(shù)據(jù)庫的本質不只限于查詢,查詢只是眾多應用中的一個工具,深層次發(fā)掘其中的信息知識才是數(shù)據(jù)庫的本質所在。把數(shù)據(jù)庫作為信息源的中心,建立共享平臺可以使數(shù)據(jù)庫技術加速發(fā)展。正是基于這些原因,在需求的驅動下,很多專家學者將重點面向數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的研究[1]。
從上世紀90年代開始,國內就已開始數(shù)據(jù)挖掘的研究,發(fā)展也十分迅速。數(shù)據(jù)挖掘研究人員主要集中于國內高校,其主要研究方面為:模糊方法在知識發(fā)現(xiàn)中的應用、數(shù)據(jù)立方體代數(shù)、關聯(lián)規(guī)則開采算法的優(yōu)化和改造、知識發(fā)現(xiàn)的基礎理論及其應用等,這個時期理論方面的研究占了絕大部分??梢詫嶋H應用的成果寥寥無幾。其中有兩個著名的應用:第一個是上個世紀九十年代初,寶鋼公司為了解決鋼板生產(chǎn)問題,引入了當時國際上成熟的SAS公司的技術解決方案,開創(chuàng)了國內第一個數(shù)據(jù)挖掘項目:提高鋼板質量用來造船,該項目的實施大大提升了寶鋼在同行業(yè)的競爭力,帶來了巨大的經(jīng)濟效益和社會效益[3]。第二個是鐵道運輸部為了緩解春運期間鐵路運輸?shù)膲毫?,利用?shù)據(jù)挖掘工具,對春運期間的鐵路客流量進行了分析和研究,從中挖掘出關鍵信息用來指導鐵路運輸[1,3]。
三、數(shù)據(jù)挖掘技術在圖書館的應用
用數(shù)據(jù)挖掘技術應用于圖書館管理工作,國外做了很多研究工作。美國許多大學圖書館人員聯(lián)合本校計算機專業(yè)人員,已經(jīng)做了一些實際的應用。比如芝加哥大學圖書館研究院的Swansan等一直在從事認知科學文獻內容管理的研究[1]。美國圖書館與信息技術聯(lián)合會的多位著名專家在1999年的討論會上,就己經(jīng)把向讀者進行個性化服務推薦作為以后圖書館發(fā)展技術的重要研究方向[2,3]。
數(shù)據(jù)挖掘應用于國內圖書館的研究在近幾年才開始。由于數(shù)據(jù)挖掘是一門剛剛起步的技術,它在數(shù)據(jù)庫和信息決策領域的研究成果還不是很多。僅有高校中的一些圖書館研究人員和計算機專業(yè)人員從事了少量的工作,他們的研究重點集中于研究數(shù)據(jù)挖掘在圖書館個性化信息服務推薦方面。
理論方面,從2000年開始,將數(shù)據(jù)挖掘技術應用到圖書館個性化服務方面的研究逐年增加,已成為近幾年的研究熱點。這些文章探討了數(shù)據(jù)挖掘在圖書館信息服務中的應用,揭示了個性化信息服務在圖書館中的作用和發(fā)展趨勢。研究內容包括數(shù)據(jù)推送技術、個性化信息服務的概念與內涵、個性化信息服務的模式、個性化信息服務的特點、以及個性化信息服務發(fā)展對策及展望等。
實踐方面,個性化信息推送服務已受到越來越多高校圖書館的重視。國內知名高校如浙江大學、人民大學等圖書館都著手于個性化信息推送服務[1];浙江大學圖書館系統(tǒng)將館藏的各種電子資源和網(wǎng)絡資源二次加工以后,系統(tǒng)主動向讀者推送信息,主要功能有:定制圖書館各種網(wǎng)絡資源和本地數(shù)字資源,用戶可以把常用的數(shù)據(jù)庫放在定制頁面上以方便檢索,允許讀者挑選幾個常用Web頁面的URL地址放入書簽。用戶可根據(jù)自己的需要來點擊國內外著名圖書館的鏈接地址[1]。
在圖書館使用者行為模式研究方面,西南大學陳文老師對讀者社群關系利用數(shù)據(jù)挖掘技術進行了摸索,詳細介紹了對讀者分類的方法;關聯(lián)規(guī)則算法方面,東南大學的周蓓有深入的研究并開發(fā)了應用的產(chǎn)品;此外,其他研究人員將數(shù)據(jù)挖掘在數(shù)字圖書館方面的應用進行了理論研究。
基于我國的具體國情和文化背景的差異,數(shù)據(jù)挖掘技術在國內的應用還缺少具體的實現(xiàn)環(huán)境,大多數(shù)學者把研究重點放在對技術和概念的介紹等方面,即國內學者關于數(shù)據(jù)挖掘理論研究較多,對數(shù)據(jù)挖掘應用系統(tǒng)和算法測試的研究方面較少,特別是數(shù)據(jù)挖掘在圖書館讀者借閱記錄中的應用研究,目前還沒有具體的實踐案例,學術性較強,應用的實例較少,特別是能在各圖書館間推廣的應用實例[1]。
四、結語
湖南工程學院圖書館從2000年實行計算機管理以來,圖書管理系統(tǒng)包含了大量館藏文獻信息和讀者借閱記錄信息,這些業(yè)務數(shù)據(jù)的使用范圍僅限于檢索和查詢以及簡單的數(shù)據(jù)統(tǒng)計,沒有對這些館藏數(shù)據(jù)作進一步的研究,這些蘊含在館藏數(shù)據(jù)中的模式和規(guī)律沒有被發(fā)現(xiàn)和利用。我館紙本圖書有130多萬冊,如果讀者對圖書館的檢索系統(tǒng)功能不熟悉,讀者想要快速、準確的找到自己所需要的文獻信息資源是比較困難的。流通子系統(tǒng)中,讀者的借閱記錄每天都有新的數(shù)據(jù)產(chǎn)生,讀者借閱記錄的信息對于讀者的信息需求是真實可靠的,因此對讀者借閱記錄進行數(shù)據(jù)挖掘,可以較好掌握每個讀者的借閱興趣、愛好和需求,其中所包含的那些讀者和圖書館互動的歷史記錄對于我們提供個性化的信息推送服務是不可或缺的資源,如果我們能把這些有意義的信息挖掘出來,能幫助我們熟悉讀者的文獻信息需求,主動對讀者進行資源推送,提高圖書館文獻信息資源的利用率和個性化服務水平。
[參考文獻]
[1]王斌.數(shù)據(jù)挖掘在高校圖書館服務中的應用研究[D].西安理工大學,2010.
[2]李宏運.關聯(lián)規(guī)則挖掘在圖書館管理中的應用[D].華東師范大學,2009.
[3]付開遠.數(shù)據(jù)挖掘在高校圖書館個性化信息服務中的應用研究[D].貴州大學,2010.
中圖分類號:TP311.13
文獻標識碼:A
文章編號:1006-0049-(2016)10-0040-01
* 2014年度湖南省高等學??茖W研究項目(基金編號:14C0294)。