王瑛瑛
(朔州師范高等??茖W校 山西 朔州 036002)
在網(wǎng)絡信息數(shù)據(jù)庫不斷發(fā)展壯大的背景下,國內高校的圖書館都在很短時間內完成了對海量數(shù)據(jù)的積累,人們想要檢索特定的信息數(shù)據(jù)的難度逐漸增加,所以檢索技術變得更加有效。對高校圖書館來說,過去的管理重點是登記圖書借閱和圖書歸還,沒能及時分析有關數(shù)據(jù),沒能重視信息資源。數(shù)據(jù)挖掘技術能夠結合基本理論與圖書館具體管理,為圖書館的信息資源管理工作建立相關的檔案信息平臺。
數(shù)據(jù)挖掘技術指的是整理并提取儲存于數(shù)據(jù)庫的海量的數(shù)據(jù)信息,并從這些數(shù)據(jù)信息中將能夠為人們所用的數(shù)據(jù)信息挖掘出來的技術,本質是對數(shù)據(jù)的處理。其具體功能如下。
這個功能指的是利用淺顯且容易明白的語句和詞語來描述指定對象的關鍵特點。在劃分類別時應該依據(jù)描述對象的關鍵特點來分類其群體。定義的側重點在于描述同一數(shù)據(jù)區(qū)的共性特點,而類別的側重點是區(qū)分存在差別的數(shù)據(jù)對象。
關系發(fā)現(xiàn)即對不同的信息變量的潛在性規(guī)律以及內部關聯(lián)進行發(fā)現(xiàn)和處理。關系發(fā)現(xiàn)能夠被分成因果作用類型、時序關系類型、簡單關系類型。關系發(fā)現(xiàn)功能在商務關聯(lián)方面和決策分析方面均有廣泛應用,此種數(shù)據(jù)挖掘方式廣受人們歡迎。
假如必須分類信息數(shù)據(jù)與預估信息數(shù)據(jù),則應該在對數(shù)據(jù)進行處理的初期進行有益的習得性操作,設置模型與規(guī)定。分類功能通常被用來估算散亂信息,預估功能應該對連續(xù)信息進行估計,常見的分類方法包括遺傳算法分類、神經(jīng)網(wǎng)絡分類、貝葉斯公式分類、決策樹分類、模糊集分類、粗糙集分類,常見的預估技術可以分為非線性回歸預估和線性回歸預估。
聚合的意思是詳細地區(qū)分相似的數(shù)據(jù)組成的各個類別,在分類劃分樣本時,應該依據(jù)組間最小相似度和組間最大相似度。在研究信息對象時,人們通常不能確定它的詳細類別。此時,應該使用劃分方法、分層方法、網(wǎng)格主導方法、模型主導方法、密度主導方法對類別實行聚合研究操作。
人們常用孤立點指代無法符合信息的常規(guī)行為以及無法符合信息的一般模型。因為系統(tǒng)檢索的不足,使得信息分析存在偶然偏差,進而使這些信息變成無效數(shù)據(jù),最終遭到清除。但是這些信息數(shù)據(jù)大部分是具有含義與現(xiàn)實作用的,對孤立點進行挖掘的方式包括基于距離、非基于距離、統(tǒng)計學的方法。
確定數(shù)據(jù)挖掘的目標是開展數(shù)據(jù)挖掘操作的必要準備工作,例如高校圖書館要想對師生在文獻類型方面的需求有所了解,就需要把高校圖書館的文獻分成許多類型,在此基礎上,對大數(shù)據(jù)內部的所需信息進行挖掘,以此提高數(shù)據(jù)挖掘的針對性,從而能夠為高校圖書館的信息資源管理提供更加優(yōu)質的服務[1]。
在準備用戶信息的過程中,高校圖書館的工作人員能夠在對師生的基本信息進行確認的過程中使用圖書館系統(tǒng)。在高校師生使用圖書館的過程中,借助RFID技術把它們的個人信息反映在系統(tǒng)中。首先,能夠在學生查閱文獻和圖書的過程中完成對其詳細記錄的獲取,獲取證件號、獲取專業(yè)、獲取借閱登記記錄、獲取院系、獲取性別、獲取年齡、獲取類型。其次,在高校圖書館的信息資源管理中,讀者借閱的歷史記錄是其關鍵數(shù)據(jù)信息,如果把讀者借閱的歷史記錄當作統(tǒng)計數(shù)據(jù)的對象,就可以實現(xiàn)對圖書條碼號信息、索書號信息、讀者編號信息、借閱時間信息、書名信息、歸還時間信息的整合。通過詳細的分類統(tǒng)計與整理分析這些信息,高校圖書館能夠對文獻的利用效率進行預測與分析。此外,圖書館的文獻書目記錄和流通日志同樣屬于借閱歷史信息的范疇,是數(shù)據(jù)挖掘的目標[2]。
3.3.1 數(shù)據(jù)清理技術
數(shù)據(jù)清理過程是對數(shù)據(jù)之中的異常數(shù)據(jù)進行清理的過程,這樣做能夠使數(shù)據(jù)挖掘的結果更加準確。在對圖書數(shù)據(jù)和讀者數(shù)據(jù)進行處理的過程中,工作人員能夠發(fā)現(xiàn)數(shù)據(jù)中具有不夠完整的數(shù)據(jù)和不一致的數(shù)據(jù),這也印證了清理數(shù)據(jù)的必要性。在此過程中,應該對數(shù)據(jù)光滑技術和缺失值處理技術多加利用,把“續(xù)借”缺失值和“性別”缺失值替換成unknown,把“年齡”缺失值替換成ageave,如果記錄中存在空字段,應該使用手工編寫的SQL腳本,如果少數(shù)圖書的分類號是中文字符,則在挖掘過程中必須進行妥善處理,應該盡快將壞數(shù)據(jù)刪除。
3.3.2 數(shù)據(jù)整合技術
在對完整的信息進行獲取之后,能夠使用大數(shù)據(jù)挖掘技術對數(shù)據(jù)進行深入地挖掘,此時應該利用面向屬性的歸納算法來對數(shù)據(jù)進行分類,從而得到數(shù)據(jù)的屬性集合。例如,在對高校圖書館的信息資源進行管理的過程中,產(chǎn)生的數(shù)據(jù)能夠分成文獻圖書數(shù)據(jù)、記錄數(shù)據(jù)、用戶數(shù)據(jù)、借閱檢索圖書的集合,這樣做能夠使數(shù)據(jù)維度減少,能夠起到降低挖掘難度的作用。此時,應該把分散數(shù)據(jù)導入數(shù)據(jù)庫,從而形成讀者的借閱記錄。
3.3.3 數(shù)據(jù)歸約算法
當數(shù)據(jù)倉庫運行至一定期限之后,數(shù)據(jù)量會以很快的速度增長,如果不利用歸約算法而是進行直接挖掘,會出現(xiàn)的問題如下:(1)每一個字段都需要占據(jù)很大的空間,這會使得內存的占用率提升,從而使內存導入的時間延長。(2)絕大多數(shù)單項是漢字字符串,而且候選序列的生產(chǎn)時間和空間開銷都會變多,出于節(jié)省時間和提高實踐效率的目的,應該對全部事務記錄進行壓縮,把單一事務記錄成6個字符串,單一字符必須是小寫字符,在系統(tǒng)對屬性配置進行讀取之后,依據(jù)順序把特定的字母賦予屬性值。假如程序讀取至“本科”,就會把“a”賦值給本科,會在讀到“研究生”時把“b”賦值給研究生,以這樣的方式完成對全部屬性值的讀取,從而能夠完成對字母字符至屬性值映射表格的建立,通過對讀者的數(shù)據(jù)庫進行壓縮的方式,達到減少預處理文件數(shù)量的目的,使效率能夠提升。舉例說明,沒有壓縮數(shù)據(jù)庫之前的大小是127 M,在對數(shù)據(jù)進行壓縮之后會縮減成11.6 M,能夠直觀地發(fā)現(xiàn)內存資源得到了明顯節(jié)省[3]。
對高校圖書館來說,它在購置文獻方面的經(jīng)費是有限的,在對各個學科文獻的購置經(jīng)費進行分配的過程中,不但應該結合高校的調研狀況,而且應該結合高校的教學狀況,從而使費用支出達到均衡,能夠發(fā)揮購置文獻的作用。以往高校圖書館在對信息進行采集時,大多是通過幾位專家和采訪人員進行商議的方法決定的,這樣做難免會出現(xiàn)信息不夠全面的狀況,不但會使信息資源出現(xiàn)缺失問題,還會出現(xiàn)浪費經(jīng)費問題。此外,儲存文獻的空間同樣不是無限的。優(yōu)化館藏分布,館藏分布可以分為多媒體和傳統(tǒng)文獻的擺放,以及服務器中的文獻索引組織,使資源的利用效率得到有效提升。在對高校圖書館的圖書流通數(shù)據(jù)、圖書借閱數(shù)據(jù)、圖書檢索請求數(shù)據(jù)進行挖掘之后,按照類別對文獻的頻繁借閱集和文獻的拒借集進行統(tǒng)計,能夠幫助信息資源進行補充,而且能夠使決策變得更加豐富,從而實現(xiàn)對文獻利用率的分析,把過時的文獻去除,減少收集部分文獻,通過對用戶借閱文獻的關聯(lián)進行分析,能夠查出文獻的比例關系和文獻的關聯(lián)規(guī)則,以此優(yōu)化高校圖書館的館藏布局和信息建設。
出于保證用戶可以在很短的時間內得到想要的信息的目的,高校圖書館應該對用戶的專題瀏覽集合進行收集,依據(jù)用戶的瀏覽記錄來建立事務庫,在此基礎上執(zhí)行事務庫操作。首先,利用關聯(lián)規(guī)則來查找訪問頻率高過閾值的項目,使用分類算法把頻繁項目和用戶的瀏覽模式進行相似度的匹配,把瀏覽模式相像的用戶安排至相同服務器,使服務器頁面的傳輸數(shù)量和服務器的緩存得到減少。其次,如果事務庫內部的專題的訪問頻率大于閾值,在進行關聯(lián)分析之后,能夠得到專題的關聯(lián)規(guī)則,把它儲存到服務器的知識庫中,由用戶在網(wǎng)頁上進行瀏覽,就能夠按照規(guī)則來提前連接關聯(lián)頁,使響應的速度得到提升。智能信息檢索的支持范圍包括聯(lián)想、模糊、概念、多語言的檢索,還可以使用聚類算法來對查詢的結果進行聚類分析,確保呈現(xiàn)的內容是有條理的內容,方便用戶進行篩選。
在對高校圖書館的信息資源進行管理的過程中,因其文本數(shù)據(jù)眾多,能夠使用文本挖掘技術自行摘要的方法對文本數(shù)據(jù)文檔進行分類。在此過程中,文本自動摘要需要使用統(tǒng)計算法,將原文中和主題有密切關聯(lián)的語句挑選出來,自行實現(xiàn)對文本摘要的生成,這種數(shù)據(jù)挖掘技術非常適合用在電子期刊和電子圖書這類文獻信息中。文檔自動分類指的是按照文檔文本的數(shù)據(jù)特征來實現(xiàn)對文檔類別的挖掘,將其歸至合適的主題范圍,以便高校師生查詢。在大量的數(shù)據(jù)信息背景下,利用文本挖掘技術能夠防止出現(xiàn)時間緊張問題和人員短缺問題,可以有效保障高校圖書館的信息資源管理服務的效果[4]。
綜上所述,高校圖書館要想建立數(shù)字化檔案,需要在數(shù)據(jù)挖掘技術的基礎上有針對地建立檔案信息管理平臺,從而促進高校圖書館不斷發(fā)展。因此,相關人員應該對數(shù)據(jù)挖掘技術優(yōu)勢進行充分利用,增加人力投入與物力投入,使數(shù)字化檔案平臺能夠不斷完善,盡量提高使用圖書館信息資源的效率,充分開發(fā)與利用高校圖書館的檔案資源,而且應該積極促進高校圖書館朝著科學化方向不斷發(fā)展。