高鵬博 遲呈英 戰(zhàn)學(xué)剛
(遼寧省鞍山市遼寧科技大學(xué),遼寧 鞍山 114051)
隨著時(shí)代的發(fā)展和變革,面對(duì)多樣性特征下的書籍?dāng)?shù)量和類型,需要更加完善、專業(yè)的管理模式,由此為圖書館建立提供了保障。作為專業(yè)性圖書服務(wù)機(jī)構(gòu),如何發(fā)揮出最大效能,滿足不同服務(wù)對(duì)象的需求,一直是圖書館研究的主要課題,雖然在各種創(chuàng)新方式的支撐下取得了顯著成果,但其所節(jié)省的單位時(shí)間效益并不可觀。如今,隨著數(shù)字化時(shí)代的來臨,數(shù)字圖書館發(fā)展形態(tài)之下,圖書分類技術(shù)將發(fā)揮不可替代的作用,尤其是面對(duì)虛擬的網(wǎng)絡(luò)信息環(huán)境,必須要立足于計(jì)算機(jī)分類技術(shù),更加快速、便捷、安全地提供分類服務(wù),并以圖書管理系統(tǒng)為窗口,為不同的用戶提供相應(yīng)圖書資源。而在關(guān)聯(lián)規(guī)則下的文本分類領(lǐng)域,實(shí)現(xiàn)了對(duì)決策范圍的拓展,解決了傳統(tǒng)圖書分類中的錯(cuò)誤和缺陷,通過對(duì)數(shù)據(jù)之間關(guān)聯(lián)性挖掘,實(shí)現(xiàn)對(duì)文本信息的自動(dòng)分類,有效實(shí)現(xiàn)了對(duì)圖書分類管理技術(shù)的優(yōu)化。
圖書館具有海量信息服務(wù)的特征,其數(shù)據(jù)庫將產(chǎn)生文本頻繁集。而FP-growth則可以依托樹形結(jié)構(gòu)特點(diǎn),消除候選文本頻繁集因素,壓縮了獲取文本頻繁集的時(shí)間與流程成本,提升了文本分類的效率。若以圖書館中所涉及的所有單一文本比作一個(gè)項(xiàng)目,則同樣可將圖書館所有項(xiàng)目視為一個(gè)集合,通過關(guān)聯(lián)規(guī)則下的Apriori算法和FP-growth算法,對(duì)圖書文本信息進(jìn)行計(jì)算。
設(shè)I={i1,i2,……,in}為所有文本的集合,設(shè)A為多文本所組成的集合,則可以將其稱為文本集。文本子集以事務(wù)T表示,同時(shí)對(duì)不同的事務(wù)利用唯一的標(biāo)識(shí)進(jìn)行表示,即Tid,A作為事務(wù)T中的文本集,當(dāng)且僅當(dāng)AT。其中,若文本集A中包含k個(gè)文本項(xiàng)集時(shí),則K也被稱為文本項(xiàng)集。文本數(shù)據(jù)庫由D表示,在計(jì)算的過程中一般以文本集A在D中所出現(xiàn)的頻次,并核算出其在總文本中的占比,由此被視為文本集A的支持度。當(dāng)用戶給定最小支持閾值小于文本集支持度時(shí),則將被稱為文本大項(xiàng)集?;陉P(guān)聯(lián)規(guī)則之下的圖書分類技術(shù),正是通過XY之間的文本邏輯,利用X所代表的文本隱性規(guī)則,Y所代表的線性文本規(guī)則,形成數(shù)據(jù)庫文本的關(guān)聯(lián)規(guī)則XY,其中通過信任度與支持度的關(guān)聯(lián),完成對(duì)圖書文本分類概率的計(jì)算。
數(shù)據(jù)是數(shù)字圖書館最為依賴的內(nèi)容,通過數(shù)據(jù)之間的轉(zhuǎn)換與交互,實(shí)現(xiàn)數(shù)字圖書館的多樣化功能。數(shù)據(jù)處理是圖書文本分類的基礎(chǔ)內(nèi)容,其在注重事物特征的同時(shí)實(shí)施預(yù)定處理模式,以完成具體的圖書分類方法。伴隨現(xiàn)代計(jì)算機(jī)技術(shù)的快速發(fā)展,其信息收集與數(shù)據(jù)處理能力日益增強(qiáng),實(shí)現(xiàn)了圖書文本分類的高效性,能夠在短時(shí)間內(nèi)完成海量的數(shù)據(jù)處理,并遠(yuǎn)遠(yuǎn)超過傳統(tǒng)人工處理的精準(zhǔn)性,實(shí)現(xiàn)了圖書文本內(nèi)容的自動(dòng)化處理。根據(jù)其具備的流程而言,主要包括了文本預(yù)處理、文本特征表示、文本特征選擇及分類器等,這些流程在圖書分類中發(fā)揮著承上啟下的關(guān)鍵作用,如圖1所示。
圖1 文本分類流程
在計(jì)算機(jī)分類技術(shù)的應(yīng)用中,主要的特點(diǎn)在于能夠向用戶提供開放性的服務(wù)系統(tǒng),并根據(jù)用戶的實(shí)際需求或者檢索目標(biāo),對(duì)相關(guān)的文獻(xiàn)信息進(jìn)行分類處理,從而實(shí)現(xiàn)相關(guān)圖書文本的查找。在現(xiàn)代的圖書管理系統(tǒng)中,最為核心的服務(wù)是實(shí)現(xiàn)信息的存貯與檢索功能,在圖書分類檢索行為中,包括了自動(dòng)檢索與手工檢索兩個(gè)階段,自動(dòng)檢索主要是根據(jù)用戶的偏好進(jìn)行推薦,而手工檢索則主要是利用文摘、題錄、目錄、索引等關(guān)鍵詞,對(duì)數(shù)據(jù)庫中的關(guān)聯(lián)信息進(jìn)行分析檢索。從信息提取層面看,用戶所提供的目錄、索引、文摘等關(guān)鍵詞,屬于數(shù)據(jù)庫相關(guān)文本的外部特征或者內(nèi)容特征的描述集合體,而用戶在檢索中應(yīng)用文獻(xiàn)的事實(shí)問題,獲得相關(guān)文獻(xiàn)的線索則被稱為提取關(guān)鍵詞。因此,通過用戶的提出關(guān)鍵詞操作,則能夠運(yùn)用計(jì)算機(jī)圖書分類技術(shù),為用戶提供最終文獻(xiàn)信息,以此達(dá)到“命中”的效果。
基于關(guān)聯(lián)規(guī)則下的圖書分類技術(shù),其根本目標(biāo)在于通過數(shù)據(jù)集找到項(xiàng)與項(xiàng)之間的關(guān)系。在實(shí)際的文本分類過程中,可以建立相應(yīng)的邏輯標(biāo)準(zhǔn),如人文類圖書、自然類圖書等。另外,也可以根據(jù)圖書的學(xué)科特征或者屬性,進(jìn)行更為細(xì)致地劃分,包括A哲學(xué)、B宗教、C倫理……Z社會(huì)等,根據(jù)特定的編碼規(guī)則形成類型標(biāo)記。再者,利用品種屬于劃分又可分為理論著作、應(yīng)用著述、學(xué)術(shù)、教學(xué)等類型。由此可見,將計(jì)算機(jī)圖書分類技術(shù)應(yīng)用于圖書館,尤其是數(shù)字圖書館背景下,勢必產(chǎn)生更大的應(yīng)用效能,使圖書文本分類更加具體,大幅優(yōu)化管理效率和質(zhì)量,實(shí)現(xiàn)對(duì)各類圖書信息資料的高速、便捷搜索。
綜上所述,隨著數(shù)字圖書館建設(shè)的深入,計(jì)算機(jī)技術(shù)應(yīng)用日益廣泛,通過信息技術(shù)及管理系統(tǒng)的整合,大幅提升了其管理效率與應(yīng)用價(jià)值。圖書分類技術(shù)應(yīng)用于圖書館,為圖書館及用戶提供了銜接便利性,能夠促進(jìn)數(shù)據(jù)價(jià)值的發(fā)揮,使自動(dòng)分類技術(shù)實(shí)現(xiàn)應(yīng)用場景的拓展。