沈雅婷 邵瑩 卞愷
(南京理工大學(xué)紫金學(xué)院計(jì)算機(jī)學(xué)院,江蘇 南京 210023)
目前智慧圖書館的規(guī)模正在發(fā)展,庫存量大,書品繁多,對(duì)于圖書分類的管理就成了一個(gè)問題。智慧圖書館首先需要在圖書分類方面能夠有較高的準(zhǔn)確度,才能確保其運(yùn)行發(fā)展。圖書分類的不準(zhǔn)確不僅會(huì)影響讀者的查閱,也會(huì)增加管理者工作的繁瑣度。本文為方便圖書管理員的操作,加快圖書分類流通作業(yè)的速度,使其能更有效地管理書庫中圖書的分類,且在已有的圖書名稱分類的基礎(chǔ)上完成新模式圖書分類工作建設(shè)。該項(xiàng)研究的意義有如下兩點(diǎn):
(1)對(duì)數(shù)據(jù)集的采集:能夠?qū)⒋罅康膱D書信息存儲(chǔ),并將信息格式統(tǒng)一化,使圖書分類簡單化。
(2)對(duì)要求的細(xì)化:及時(shí)全面地提供對(duì)分類過程中提出的不同分類要求的、不同分類細(xì)度的信息,以期實(shí)現(xiàn)圖書快速分類。
近年來對(duì)于圖書分類系統(tǒng)的研究越發(fā)向著更深層次、更多維的方向發(fā)展,而圖書分類算法也正在逐步完善,精確度、分類速度也在逐步提高。
該研究構(gòu)建一個(gè)中文書目自動(dòng)分類系統(tǒng)來實(shí)現(xiàn)高效分類,于2019年4月1日發(fā)表。該系統(tǒng)首先預(yù)處理輸入數(shù)據(jù),提取其特征后將其文本表示,最后運(yùn)用集成學(xué)習(xí)算法進(jìn)行分類[1]。系統(tǒng)的主要流程分為兩個(gè)階段,第一階段為分類器訓(xùn)練階段,第二階段為書目分類階段,中文書目自動(dòng)分類系統(tǒng)的具體流程如圖1所示。
圖1 中文書目自動(dòng)分類系統(tǒng)的具體流程
首先在中文書目預(yù)處理方面,在西安電子科技大學(xué)圖書館提供的數(shù)目數(shù)據(jù)和通過爬蟲技術(shù)獲取的數(shù)據(jù)中整理出的135493條有效數(shù)據(jù)進(jìn)行數(shù)據(jù)清理和中文分詞這兩個(gè)步驟;特征提取是將表示書目的特征詞提取出來作為空間向量的每個(gè)維度,對(duì)于此流程,介紹了TF-IDF法、詞頻方法等的常用特征提取方法;文本表示是在特征提取完成構(gòu)建特征空間的基礎(chǔ)上,將對(duì)應(yīng)詞的特征值作為向量中的每個(gè)元素賦值,形成文本的向量表示。在文本表示方面,該文對(duì)比了傳統(tǒng)詞袋模型中的詞頻模型和TF-IDF模型[2]、分布式表示方法中的Word2vec模型和GloVe模型在中文書目表示能力上的差異[3],通過實(shí)驗(yàn)發(fā)現(xiàn)分布式表示方法在書目表征能力上遠(yuǎn)勝于傳統(tǒng)詞袋模型[4]。傳統(tǒng)詞袋模型中的詞頻模型用以計(jì)算詞出現(xiàn)的頻率,TF-IDF模型即逆文檔頻率模型[5],表示這個(gè)詞越稀有,也越關(guān)鍵。Word2vec是一種基于預(yù)測的模型,其可以不斷提高預(yù)測準(zhǔn)確性,減少預(yù)測誤差,最終得到詞向量。GloVe是一種基于統(tǒng)計(jì)的模型,是通過對(duì)詞的共現(xiàn)計(jì)數(shù)矩陣進(jìn)行降維[6],來得到詞向量,首先通過輸入的所有語句資料建立大規(guī)模的共現(xiàn)計(jì)數(shù)矩陣,不僅能優(yōu)化目標(biāo),還能減少共現(xiàn)計(jì)數(shù)矩陣重建的誤差,使降維后的向量盡可能全面表達(dá)原始向量表示的語句資料,對(duì)于Word2vec無法解決的多義詞問題有所克服。最后提出了一種將Word2vec和GloVe的不同表示特點(diǎn)結(jié)合起來的分布式混合表示模型,獲得了最好的書目表征能力。在分類算法選擇方面,引入集成學(xué)習(xí)算法Bagging框架,在集成學(xué)習(xí)Bagging框架下,反向傳播神經(jīng)網(wǎng)絡(luò)算法的分類準(zhǔn)確率最終達(dá)到90.19%,在智慧圖書館的中文書目自動(dòng)分類工作中能夠發(fā)揮作用,為圖書名稱分類問題提供了新的解決方法。
該設(shè)計(jì)模型在2020年1月17日發(fā)表,構(gòu)建了一種處理中文圖書分類的雙向LSTM模型,即雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò),可以解決循環(huán)網(wǎng)絡(luò)RNN長期依賴的問題,使其能記住長期的信息,也能由前后若干輸入進(jìn)行雙向準(zhǔn)確預(yù)測。該系統(tǒng)錄入書籍信息后識(shí)別信息特征,最后進(jìn)入分類管理模塊。其主要?jiǎng)?chuàng)新是用雙向LSTM模型對(duì)字符向量進(jìn)行編碼的方式,實(shí)現(xiàn)中文分類的簡單化,還降低了向量的維度與規(guī)模[7-10]。
基于雙向LSTM的圖書分類系統(tǒng)的基本流程如圖2所示。
圖2 基于雙向LSTM的圖書分類系統(tǒng)的基本流程
LSTM模型包含輸入門、遺忘門和輸出門這三種門限,此研究所設(shè)計(jì)與實(shí)現(xiàn)的圖書分類系統(tǒng)以雙向LSTM模型為基礎(chǔ)[11],引入較為經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型層次結(jié)構(gòu),在其應(yīng)用下,輸入圖書文本信息可以將文本信息編碼化。同時(shí)改進(jìn)分類模型嵌入層,采用基于字符的向量化表示方法,避免了分層困難,提高了分類精確度。模型的輸出層上為輸出隱藏層得到的信息分類,使用到softmax激活函數(shù),同時(shí)樹立以softmax回歸模型為基礎(chǔ)的代價(jià)函數(shù)當(dāng)作優(yōu)化的目標(biāo)。softmax回歸模型可實(shí)現(xiàn)優(yōu)化邏輯回歸目標(biāo),適用于具有多分類任務(wù)的分類模型中[12]。如果在圖書的分類中共有n種分類類別,則每次輸入都將對(duì)其進(jìn)行所屬類別的概率計(jì)算。計(jì)算過程中使用歸一化運(yùn)算計(jì)算概率,即書籍所屬于某種類別的概率之和始終計(jì)算為1[13]。為了方便對(duì)分類模型效率不同方面的考察,將圖書分類任務(wù)劃分成兩種,一種是粗粒度分類,一種是細(xì)粒度分類。根據(jù)項(xiàng)目模塊劃分的詳細(xì)程度,模塊劃分越細(xì)致,分類種類越多,則粒度越細(xì),相反粒度越粗[14]。該文的粗粒度分類目標(biāo)是中圖法的22個(gè)一級(jí)分類任務(wù),細(xì)粒度分類目標(biāo)為32個(gè)四級(jí)分類。該雙向LSTM分類模型在大量的訓(xùn)練后準(zhǔn)確率有大幅度提升,其中在149輪訓(xùn)練后,粗粒度分類任務(wù)準(zhǔn)確度達(dá)到90.6%,在120輪訓(xùn)練后細(xì)粒度分類任務(wù)準(zhǔn)確度達(dá)到98.3%。
該設(shè)計(jì)是近年來最新的研究進(jìn)展發(fā)現(xiàn),于2021年5月12日發(fā)表。該設(shè)計(jì)硬件部分選用MPC755的處理器作為圖書信息處理核心,設(shè)計(jì)一個(gè)CPU板卡,為了滿足硬件數(shù)據(jù)冗余信息的輸出,連接一個(gè)輸出電路[15]。軟件部分利用向量空模型構(gòu)建信息分類規(guī)則,向量空間模型可以將對(duì)文本文件的處理簡化為對(duì)標(biāo)識(shí)符向量的運(yùn)算[16],主要運(yùn)用在信息過濾、信息檢索、索引以及相關(guān)排序過程中[17]。在利用向量空間模型構(gòu)成信息分類規(guī)則時(shí),轉(zhuǎn)化數(shù)字圖書信息為空間向量[18],轉(zhuǎn)化過程中,箭頭的起始點(diǎn)為數(shù)字圖書信息所在的文件,在向量空間模型的處理下,參照不同的數(shù)據(jù)特征,形成了不同的方向[19],以一個(gè)方向?yàn)榉诸愵悇e。以相同分類規(guī)則下的圖書信息樣本為實(shí)現(xiàn)對(duì)象[20],構(gòu)建一個(gè)停用信息過濾模塊,將停用信息篩選出后,利用軟件線程池的Link List鏈表作為線程分類任務(wù)[21],在Thread Pool接口處形成如圖3所示的分類過程。
圖3 分類功能實(shí)現(xiàn)
在圖3所示的分配過程下,左邊的運(yùn)行鏈組抽取MTQueue中的數(shù)字圖書信息進(jìn)行處理,通過invoke Later(·)輸出一個(gè)數(shù)字圖書信息的對(duì)應(yīng)的類別[22],最終完成對(duì)基于向量空模型的數(shù)字圖書信息分類系統(tǒng)的設(shè)計(jì)。
在此實(shí)現(xiàn)模型中,使用到數(shù)字圖書分類。數(shù)字圖書館使用數(shù)字技術(shù)存儲(chǔ)信息,用戶可以用其查詢不同位置、不同載體的信息資源[23]。而將向量空間模型運(yùn)用到數(shù)字圖書信息分類系統(tǒng)中,在其控制下,能為不斷優(yōu)化的數(shù)字圖書館各項(xiàng)性能提供幫助。該文在實(shí)驗(yàn)測試環(huán)節(jié)對(duì)比了一種基于LSTM和CNN混合模型的文本分類方法[24]、傳統(tǒng)信息分類系統(tǒng)以及文中設(shè)計(jì)的基于空向量模型的分類系統(tǒng)的性能。實(shí)驗(yàn)表明,第一種分類準(zhǔn)確率約為77.91%,傳統(tǒng)分類系統(tǒng)準(zhǔn)確率數(shù)值約為87.58%,而該文設(shè)計(jì)的分類系統(tǒng)分類準(zhǔn)確率約為97.76%,準(zhǔn)確率最高[25];在300條數(shù)字圖書信息為對(duì)比標(biāo)準(zhǔn),第一種信息分類系統(tǒng)所需時(shí)間在140ms左右,傳統(tǒng)信息分類所需分類時(shí)間在180ms左右,而文中的基于空向量模型的分類系統(tǒng)所需時(shí)間在90ms左右,所需分類時(shí)間最短[26]。三種分類系統(tǒng)的分類時(shí)間如圖4所示。
圖4 三種分類系統(tǒng)的分類時(shí)間
基于以上幾種圖書分類的系統(tǒng)設(shè)計(jì),可以看出這一領(lǐng)域的研究在算法方面不斷發(fā)展,出現(xiàn)如本文提到的集成學(xué)習(xí)、雙向LSTM模型、向量空模型等的新式算法應(yīng)用,這些研究正不斷向更深處探索,算法也在向更多維方向升級(jí)。
對(duì)于上文介紹的三種分類算法,表1是它們處于同一數(shù)據(jù)集下的分類準(zhǔn)確率比較。
表1 三種分類算法比較
基于集成學(xué)習(xí)的中文書目自動(dòng)分類研究,運(yùn)用到集成學(xué)習(xí)這種具有極高分類準(zhǔn)確率的算法框架,相較于前人構(gòu)建的書目自動(dòng)分類,本項(xiàng)研究做出了文本表示和分類算法選擇兩個(gè)角度的進(jìn)步,極大地提高了準(zhǔn)確率。但是這項(xiàng)研究局限于中文書目,如果擴(kuò)大范圍,將外文書籍納入分類體系中,也不失為一種突破。
基于雙向LSTM的圖書分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),通過新的算法模型,將分類準(zhǔn)確度提高到一個(gè)新的高度97.88%。該圖書分類系統(tǒng)通過動(dòng)態(tài)配置和分類管理器,可以提高圖書管理人員工作的效率,提升其分類準(zhǔn)確度,提高系統(tǒng)的適應(yīng)性和應(yīng)用范圍,對(duì)智慧圖書館的數(shù)字化平臺(tái)建設(shè)起到促進(jìn)作用。
最后一種圖書分類系統(tǒng)在向量空模型的加持下,它的分類準(zhǔn)確率為96.02%,同時(shí)所用時(shí)間大大縮短,如此的高效率分類,是圖書分類的一大進(jìn)步。
在相同數(shù)據(jù)集上測試,后兩者分類模型的準(zhǔn)確率相近,它們相較于第一種模型的準(zhǔn)確率高出約2%~8%,其中基于向量空模型的分類模型用時(shí)短;而基于雙向LSTM的分類模型的準(zhǔn)確率有提升空間,會(huì)隨訓(xùn)練次數(shù)的增加而逐步上升,但所耗時(shí)間也會(huì)增加。當(dāng)然兩者對(duì)于圖書館的數(shù)字化平臺(tái)建設(shè)都有極大的幫助,有很大的現(xiàn)代化意義。眾所周知,現(xiàn)在的社會(huì)是數(shù)字化的,數(shù)字化管理也將是主流趨勢。隨著數(shù)字圖書館不斷的普及利用,如何對(duì)數(shù)字圖書信息進(jìn)行分類逐漸成為研究重點(diǎn),上文的算法有利于其發(fā)展。但是上述測試數(shù)據(jù)量為300條,數(shù)據(jù)量較小,對(duì)于在更多數(shù)據(jù)量上的效果有待深層次的研究。可以看出,對(duì)于不同分類算法的研究,有機(jī)會(huì)對(duì)分類的準(zhǔn)確度、速度實(shí)現(xiàn)突破。
本文概括并研究分析了近年來幾種圖書分類系統(tǒng)的設(shè)計(jì)突破,這幾種研究都在圖書名稱分類方面分別做出了不同的貢獻(xiàn),成功提高了分類系統(tǒng)的分類準(zhǔn)確度,對(duì)后期智慧圖書館圖書名稱分類模型的研究起著不可忽視的啟示作用,學(xué)者們可以根據(jù)需要選擇使用上述算法模型,對(duì)于不同分類算法的研究,有機(jī)會(huì)對(duì)分類的準(zhǔn)確度、速度實(shí)現(xiàn)突破。