文/饒麗瓊(羅定職業(yè)技術(shù)學(xué)院 廣東羅定 527200)
隨著網(wǎng)絡(luò)和數(shù)據(jù)庫技術(shù)的發(fā)展,大型數(shù)據(jù)存儲庫中數(shù)據(jù)收集和存儲量的迅速增加需要理解和處理。目前,這些數(shù)據(jù)是依據(jù)常規(guī)數(shù)據(jù)分析技術(shù)分析的,但目前PB層面大量數(shù)據(jù)積累、信息稀缺的局面顯然不能滿足日益增長的社會需求。為了更好地了解和處理這些豐富的數(shù)據(jù),并確定指導(dǎo)決策的潛在規(guī)則和鏈接,成為讀者改進(jìn)學(xué)校發(fā)展的知識庫,除了傳統(tǒng)的讀者服務(wù),只要是方便借閱者的都是研究的方向。
目前,高校圖書館注重借閱者的需求,實(shí)施圖書館服務(wù),滿足讀者的真實(shí)需求,實(shí)現(xiàn)盡可能低的教學(xué)、科研和扎實(shí)的支持。高校圖書館根據(jù)讀者對圖書館服務(wù)過程的需要,首先通過多種方式收集讀者信息數(shù)據(jù),實(shí)現(xiàn)讀者的有效識別。其次大學(xué)圖書館根據(jù)信息數(shù)據(jù)對讀者進(jìn)行排名,以確保完全反映不同用戶組之間的差異。第三,大學(xué)圖書館分析每個用戶組,并揭示每個用戶組的特點(diǎn)和需求。最后,高校圖書館結(jié)合讀者需求,合理利用大數(shù)據(jù)資源,針對讀者提供電子信息供給和目標(biāo)服務(wù)的特點(diǎn)。作為圖書館書籍采購的一部分,用于形成記錄業(yè)績信息和最終數(shù)據(jù)的服務(wù)流程,以及上述用戶標(biāo)識、用戶分類和其他鏈接。[1]
與流程整理結(jié)合使用時,每個流程都需要大量數(shù)據(jù)需求分析才能開始,許多有價值的分析結(jié)果都隱藏在需要專家和相關(guān)技術(shù)才能實(shí)現(xiàn)此流程的數(shù)據(jù)中。然而,結(jié)合高校圖書館目前的人員配置結(jié)構(gòu),很難有條不紊地完成大部分信息數(shù)據(jù)分析任務(wù)。因此,您需要找到一種有效的方法,以便對這些信息數(shù)據(jù)進(jìn)行有效的分析。
(1)數(shù)據(jù)挖掘的商業(yè)背景。數(shù)據(jù)挖掘主要是在業(yè)務(wù)環(huán)境中收集大量數(shù)據(jù),并且需要知識挖掘。在業(yè)務(wù)中,數(shù)據(jù)挖掘用作四種工具:數(shù)據(jù)挖掘作為搜索工具,數(shù)據(jù)挖掘作為過程控制,數(shù)據(jù)挖掘作為營銷工具,數(shù)據(jù)挖掘作為獲取知識的渠道。
(2)數(shù)據(jù)挖掘的社會背景。如果沒有數(shù)據(jù)挖掘的結(jié)果,一個人的想象力可能并不完全正確。由于客戶的行為與社會環(huán)境有關(guān),因此數(shù)據(jù)挖掘本身受社會環(huán)境的影響。
根據(jù)相關(guān)研究表明:數(shù)據(jù)挖掘是一個新興、交叉學(xué)科領(lǐng)域,數(shù)據(jù)挖掘即為從大量的、不完全的,有噪聲的、隨機(jī)的數(shù)據(jù)中提取含在其中的、人們事先不知道的、有用的信息和知識的過程。
目前圖書館行業(yè)競爭的關(guān)鍵:圖書館資源、使用空間、大數(shù)據(jù)所有權(quán)、分析各種重要復(fù)雜數(shù)據(jù)的能力、預(yù)測和價值發(fā)展,圖書館未來的發(fā)展戰(zhàn)略也基于大數(shù)據(jù)分析和預(yù)測。
隨著人們對大數(shù)據(jù)技術(shù)的理解不斷提高,大數(shù)據(jù)分析技術(shù)變得更加成熟,使大家對大數(shù)據(jù)的價值進(jìn)行了更深入地探索。
就目前情況來看,圖書館不僅可以使用結(jié)構(gòu)化數(shù)據(jù)來理解和控制現(xiàn)有讀者接受的服務(wù)類型,還可以通過巨大的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)找到更好的服務(wù)模型,以應(yīng)對未來的競爭挑戰(zhàn),并且你必須預(yù)測和分析未來。
在大數(shù)據(jù)時代,除了文獻(xiàn)數(shù)據(jù)信息外,其他數(shù)據(jù)挖掘和利用也是圖書館產(chǎn)業(yè)競爭力的重要因素,增加信息資源的收集是大數(shù)據(jù)時代圖書館資源建設(shè)的內(nèi)容之一。大數(shù)據(jù)庫時代需要大量數(shù)據(jù),包括當(dāng)前正在構(gòu)建的文獻(xiàn)和網(wǎng)絡(luò)資源,以及無法運(yùn)行或當(dāng)前無法運(yùn)行的非結(jié)構(gòu)數(shù)據(jù)。
現(xiàn)代圖書館服務(wù)需要高技術(shù)要求和先進(jìn)的智能服務(wù)。 首先,圖書館需要使用一定程度的智能技術(shù)來自動執(zhí)行復(fù)雜的高級數(shù)據(jù)收集和處理任務(wù),以節(jié)省人力和物力資源來解決手動任務(wù)。第二個是查看讀者的服務(wù)內(nèi)容。智能化手段水平也為圖書館智能決策、改進(jìn)、社會信息、生活數(shù)據(jù)等服務(wù)工作提供了必要資料的上下文和信息。[2]第三,智能圖書館服務(wù)水平不僅影響知識從單一學(xué)科向多學(xué)科的傳播,而且影響知識的變革,成為知識發(fā)現(xiàn)、挖掘和知識組織的基礎(chǔ)。
傳統(tǒng)的參考咨詢服務(wù)主要是利用現(xiàn)有的圖書館參考圖書和研究工具書。室外和自建數(shù)據(jù)庫由具有一定專業(yè)知識和對大數(shù)據(jù)時代研究工具熟悉的專業(yè)知識的專用參考圖書館員組織,這可以減少咨詢圖書館員資源的時間,擴(kuò)大咨詢館員對資源的獲取,大幅度地提高讀者滿意度,提高閱讀者咨詢的效率。[3]
圖書館將來對工具應(yīng)用的需求將更為迫切,這也突出了對提高圖書館技術(shù)應(yīng)用水平的更高要求。
(1)頻繁模式挖掘。頻繁模式提取是事務(wù)數(shù)據(jù)庫中不同貨物之間的連接規(guī)則,即數(shù)據(jù)中頻繁發(fā)生的模式,包括項(xiàng)目子集、設(shè)備和技巧。
(2)聚類。聚類使用多種特征組合將樣本分類為組,將個人組分類為組或聚類,特別是基于相似性。因?yàn)橥蝗杭械膶ο笾g的高度相似性以及不同群集中的對象之間具有較大差異。
(3)時間序列分析。時間序列分析是時間序列中發(fā)生的一系列事件,研究人員按每個固定間隔的順序記錄事件結(jié)果。時間序列數(shù)據(jù)的最大特征是,每個事件在數(shù)據(jù)后立即以相同的間隔記錄。按時間順序排列的數(shù)據(jù),如圖書館讀者的年齡分布、自由閱讀時間的波動、每月進(jìn)出圖書館的人流量和借閱圖書的人流量在每個時間段的分布 情況。[4]
數(shù)據(jù)挖掘技術(shù)在大學(xué)圖書館中的應(yīng)用包括個性服務(wù)的優(yōu)化、內(nèi)容評估、閱讀區(qū)的建設(shè)、每月借閱量的評估、采購書籍?dāng)?shù)目的優(yōu)化(書籍名文檔資源構(gòu)建)、圖書館管理人員工作流程優(yōu)化、借閱者愛好分析、借閱者對于閱讀體驗(yàn)的評價、數(shù)據(jù)挖掘技術(shù)的發(fā)現(xiàn)和使用。
首先,分析相關(guān)規(guī)律,找出讀者從借閱記錄庫借閱的圖書的相同點(diǎn),向讀者推薦相關(guān)圖書。其次,當(dāng)我們做時間序列分析,讀者借還一本書籍所需要的時間,我們可以先借一本書給讀者,然后深入調(diào)查,當(dāng)我們找出這些借出,還入順序的特點(diǎn),我們積極推薦給讀者,他們下次借閱 方便。
長期以來,圖書館提供的服務(wù)主要由圖書館工作人員滿足用戶需求,在服務(wù)期間,服務(wù)始終以用戶為中心,圖書館不能被動地提供服務(wù)。大學(xué)圖書館利用數(shù)據(jù)挖掘技術(shù)改進(jìn)日常管理任務(wù)的用戶借閱文件的收集和分析,使圖書館管理員能夠結(jié)合互聯(lián)網(wǎng)上不同用戶的實(shí)際特征,將及時有效的信息資源與個性化建議相結(jié)合,結(jié)合用戶的興趣偏好。它為用戶提供有關(guān)他們免費(fèi)需求的信息,并逐漸將其轉(zhuǎn)換為穩(wěn)定的用戶。[5]
您可以使用分組分析來發(fā)現(xiàn)不同組之間的不同借閱行為,深入了解每個組之間的常見圖書類型,以此作為采購圖書的參考。根據(jù)當(dāng)下時間,溫度等不同,有不同的借還習(xí)慣,取決于一些書籍在領(lǐng)先位置的期限,取決于閱讀者的行為習(xí)慣,例如到期末考試,你會明顯發(fā)現(xiàn)這樣的規(guī)則。
進(jìn)行數(shù)據(jù)趨勢分析:期刊數(shù)據(jù),包括在線情況、持續(xù)時間分析、關(guān)鍵詞分析、在線分析。各種服務(wù)系統(tǒng),定量統(tǒng)計、時間序列分析、系統(tǒng)特征、用戶用法、數(shù)據(jù)對象探索、事實(shí)數(shù)據(jù)、收集分布、人員、資金使用、設(shè)備配置等趨勢分析。
準(zhǔn)確收集相關(guān)讀者數(shù)據(jù)也是收集讀者信息數(shù)量時的一個重要問題,例如如何用圖片庫全臉進(jìn)行搜索。如果結(jié)果不是一個很好的收集對讀者的相關(guān)數(shù)據(jù),那么對讀者的需要性服務(wù)就不能更好的開展,這項(xiàng)工作是要求圖書館收集讀者的信息準(zhǔn)確,做各方面的收集準(zhǔn)備。我們盡最大努力減少相關(guān)數(shù)據(jù)庫設(shè)置中的缺陷數(shù)量。
總體上看,數(shù)據(jù)挖掘技術(shù)作為一種新技術(shù),近年來在許多行業(yè)得到了廣泛的推廣,高校圖書館目前正加快改革步伐,可以大大支持高校圖書館的改革和發(fā)展。因此,高校圖書館管理者應(yīng)創(chuàng)新思路,有效了解高校圖書館部門對數(shù)據(jù)挖掘的需求,收集資源,建設(shè)數(shù)據(jù)挖掘技術(shù),改進(jìn)信息資源利用,提高數(shù)據(jù)挖掘技術(shù)水平,提供個性化服務(wù), 積極推進(jìn)高校圖書館健康穩(wěn)定發(fā)展。在研究大量數(shù)據(jù)和來源之前,很難可靠地預(yù)測將形成哪些挖掘結(jié)果。首先,根據(jù)挖掘要搜索的物理目的可以確認(rèn)數(shù)據(jù),在根據(jù)本身數(shù)據(jù)進(jìn)行挖掘的過程中,可以在適當(dāng)?shù)臅r候在檢查部分檢查已到達(dá)挖掘目標(biāo)數(shù)量作動態(tài)狀態(tài)調(diào)整。