朱玉斌
[摘要] 館員培訓,作為提高業(yè)務水平的重要途徑,歷來為各圖書館所重視。然而傳統(tǒng)方式多為照本宣科,本文以采編部培訓為例,探討了如何結(jié)合數(shù)據(jù)挖掘技術(shù),察覺業(yè)務短板所在,使館員的培訓更有針對性和實時性。
[關鍵詞] 關聯(lián)規(guī)則; 館員; 培訓
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 10. 062
[中圖分類號]G251[文獻標識碼]A[文章編號]1673 - 0194(2012)10- 0109- 01
1館員培訓現(xiàn)狀
館員培訓,作為提高業(yè)務水平的重要途徑,歷來為各圖書館所重視。目前,常見的培訓方式有:
(1) 業(yè)務講座。通過邀請專家學者舉辦專題講座,是常見的一種業(yè)務培訓方式。專家學者高屋建瓴,業(yè)務知識淵博,能夠談到很多日常工作中不易覺察的問題,且多有新的理念和見解,很有學習價值,因此廣受各圖書館歡迎。但這種方式往往針對性不足,對于各館具體的業(yè)務問題和短板,未必能夠提供及時的幫助。
(2) 組織學習。通過參加大館、核心館的培訓班,提高業(yè)務水平。這種方式覆蓋面廣,可以有針對性地對各部門的不同業(yè)務人員進行專業(yè)培訓,也是一種常見的方式。不過,這一培訓方式多為新入館工作人員的崗前培訓,實時性往往不強,不能對工作中的具體問題進行幫助和指導。
(3) 學術(shù)會議。通過參加年會,技術(shù)研討會等主題討論的機會,學習新的知識和技術(shù),理解動態(tài)和方向,也是一個重要的培訓方式。同樣,也是缺乏針對性。
在實際工作中,以采編部為例,在Marc著錄的過程中,工作人員對于已完成的工作往往缺乏評估和察覺錯誤的方式,如拼音錄入錯誤,字段編寫不規(guī)范等業(yè)務問題,每個工作人員的情況都有不同,如何實時性地依據(jù)以往工作進行分析,提供業(yè)務報告,從而可以給具體工作人員提供業(yè)務學習的方向,能夠更有針對性和實時性地進行專項培訓,提高業(yè)務水平便成了一個很有價值的研究課題。
2數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(Data Mining),就是從海量數(shù)據(jù)中挖掘出隱含在其中的礦藏——知識。一般認為,廣義的數(shù)據(jù)挖掘又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database),簡稱知識發(fā)現(xiàn)(KDD)。它是從大量的、不完整的、有噪聲的、模糊的和隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是可信的、潛在的和有價值的信息和知識的過程。
數(shù)據(jù)挖掘技術(shù)是一個多學科交叉的綜合研究領域。它融合了數(shù)據(jù)庫技術(shù)、人工智能、機器學習、統(tǒng)計分析、模式發(fā)現(xiàn)、可視化技術(shù)、信息檢索以及信號處理等多個學科領域的技術(shù)。
3關聯(lián)規(guī)則在館員培訓中的作用
關聯(lián)規(guī)則在數(shù)據(jù)挖掘領域中是一個重要的研究方向,這一技術(shù)主要用來揭示數(shù)據(jù)與數(shù)據(jù)之間未知的相互依賴關系。
在研究圖書Marc加工數(shù)據(jù)時,數(shù)據(jù)著錄錯漏之處的相互依賴關系,恰恰體現(xiàn)了著錄人在圖書Marc加工中的個人習慣以及潛在的業(yè)務短板所在。因此采用關聯(lián)規(guī)則算法可以很好地分析Marc數(shù)據(jù)的加工過程中存在的問題以及隱含在其中的規(guī)律,為業(yè)務培訓指明方向。
為了提高培訓工作的智能性,可以將基礎培訓資料輸入數(shù)據(jù)庫,形成培訓資料庫。通過圖形化的界面,結(jié)合關聯(lián)規(guī)則分析結(jié)果,定期形成分析報告,然后依據(jù)報告推薦培訓資料,實現(xiàn)無人工干預的全自動培訓系統(tǒng)。如再結(jié)合RSS訂閱推送,則可完全解決實時性和針對性不足的問題,切中要害,提高培訓效率。
4我館在實際應用中的嘗試
圖書加工評估工作的重點是建立評估標準,我們依據(jù)Marc數(shù)據(jù)規(guī)范,使用正則表達式進行了表述,考慮到信息交互性,采用XML文件進行存儲。為了便于程序訪問和實施挖掘算法,在驗證規(guī)則完成后,建立錯漏代碼表,針對各條規(guī)則,相應地進行變量命名編號,以便標志錯誤類型。
準備工作完成后,對館藏數(shù)據(jù)進行抽樣,形成數(shù)據(jù)段,以我館匯文Oracel數(shù)據(jù)庫為例,下面是分段代碼片段:
select
marc.marc_rec_no,marc.cata_oper,marc.cata_date,marc.m_call_no,marc.m_title,marc.m_author,marc.m_publisher,marc.m_pub_year,marc_data.marc01,marc_idx.marc_data_code,marc_idx.marc_idx_cont from marc inner join marc_data on marc.marc_rec_no=marc_data.marc_rec_no inner join marc_idx on marc.marc_rec_no=marc_idx.marc_rec_no where marc.cata_date between '2004-01-01' and '2004-12-31'
對數(shù)據(jù)進行模式匹配后,生成1階頻繁項集,并在此基礎上生成多階頻繁項集。根據(jù)結(jié)果生成情況,適當調(diào)整支持度和置信度的閾值,以獲得有價值的挖掘結(jié)果。通常,這個過程會反復進行,在初次獲得有價值信息后,可將該閾值作為初始化數(shù)據(jù),作為系統(tǒng)正常運行時的參數(shù)。
針對分析報告中的字段關聯(lián)信息,程序訪問錯漏字段代碼,獲得錯漏類型,然后通過訪問培訓資料數(shù)據(jù)庫中相應類型編碼的培訓數(shù)據(jù),生成業(yè)務報告和培訓指南,從而實現(xiàn)培訓工作的自動化。最后,可以結(jié)合RSS訂閱,以離線推送的方式,向館員提供培訓指南,從而更實時、便捷地進行業(yè)務培訓工作,提高圖書館的業(yè)務水平。
5結(jié)束語
文中探討了應用數(shù)據(jù)挖掘技術(shù),如何提高館員培訓工作的針對性和實效性。從館藏數(shù)據(jù)庫中Marc相關各數(shù)據(jù)表字段的結(jié)構(gòu)出發(fā),通過應用關聯(lián)規(guī)則挖掘技術(shù),實現(xiàn)圖書館Marc數(shù)據(jù)定期自動檢測,并通過分析產(chǎn)生業(yè)務報表,結(jié)合培訓資料庫和RSS訂閱,實現(xiàn)動態(tài)推送針對性培訓的智能培訓系統(tǒng)。
主要參考文獻
[1] 汪育健,鄒攀. 基于線性鏈表的關聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書館中的應用[J]. 圖書館雜志,2009(12).