王治學(xué)
(寧夏師范學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,寧夏固原 756000)
文本分類主要是基于現(xiàn)代信息算法將文本內(nèi)容根據(jù)標(biāo)準(zhǔn)進(jìn)行分類標(biāo)注,其多用于各個(gè)媒體平臺中智能化新聞分類、廣告過濾、內(nèi)容審核和垃圾評論自動(dòng)屏蔽等功能布設(shè),而運(yùn)用圖卷積神經(jīng)網(wǎng)絡(luò)模型及算法,可通過對數(shù)據(jù)虛擬建模進(jìn)行智能信息獲取,進(jìn)而提升有效信息處理效率,實(shí)現(xiàn)自動(dòng)化文本分類。
隨著科技的不斷發(fā)展,文本數(shù)據(jù)的數(shù)量與日俱增。如何有效地管理和利用這些文本數(shù)據(jù)成為了當(dāng)前迫切需要解決的問題。傳統(tǒng)的文本分類方法主要是使用深度學(xué)習(xí)模型進(jìn)行文本分類,該方法取得了較好的效果,但是隨著文本數(shù)據(jù)量的增加,這些方法出現(xiàn)了諸如計(jì)算復(fù)雜度高、對大量低質(zhì)量數(shù)據(jù)敏感等問題。在主題模型領(lǐng)域最流行的是BERT,該方法通過學(xué)習(xí)單詞之間的上下文關(guān)系預(yù)測句子中單詞的主題。本文采用BERT 的一種變體——GPT-2,其使用預(yù)訓(xùn)練的詞向量與嵌入向量相結(jié)合進(jìn)行分類。還有一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法——Grid-SVR,該方法結(jié)合了GCN 和SVR 模型。為了解決上述問題,本文提出了一種基于圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)的主題模型,具體如圖1 所示。該模型使用GCN 作為輸入層,將文本看作一個(gè)節(jié)點(diǎn),利用卷積和池化操作對文本進(jìn)行特征提取,再用Softmax 將文本的特征映射到空間中的不同位置。同時(shí),考慮到文本之間的關(guān)系,本文提出了注意力機(jī)制以更好地理解文本之間的關(guān)系。使用Grid-SVR 進(jìn)行實(shí)驗(yàn),該模型在主題建模過程中利用了圖卷積神經(jīng)網(wǎng)絡(luò)(GCN),其基本思想是利用圖卷積神經(jīng)網(wǎng)絡(luò)的卷積操作從輸入的文本圖中提取特征,并使用圖卷積神經(jīng)網(wǎng)絡(luò)來建模文本之間的關(guān)系,最終輸出為一個(gè)主題表示。另外,Grid-SVR 模型采用了一種新的注意力機(jī)制,該注意力機(jī)制能夠在計(jì)算上加速主題建模的過程,從而使得模型在時(shí)間上有更好的性能。實(shí)驗(yàn)采用來自Google 新聞網(wǎng)站的英文新聞數(shù)據(jù)集,該數(shù)據(jù)集包含超過1 萬篇文章,其中包含大量主題相關(guān)的文本內(nèi)容,以便于更好地理解文本之間的關(guān)系。一種基于GCN 的主題模型文本分類算法,該方法將文本表示為節(jié)點(diǎn)嵌入向量形式,并利用圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)提取特征,對文本進(jìn)行表示,進(jìn)而使用注意力機(jī)制來建模文本之間的關(guān)系。
圖1 基于圖卷積神經(jīng)網(wǎng)絡(luò)的主題模型構(gòu)建流程
2.1.1 基礎(chǔ)框架結(jié)構(gòu)
基于卷積神經(jīng)網(wǎng)絡(luò)所構(gòu)建的主題文件分類模型,主要通過分類器和編碼器功能來完成,具體包括以下2 點(diǎn)。第一,首先可運(yùn)用神經(jīng)網(wǎng)絡(luò)中的池化層及卷積層對上下文信息進(jìn)行編輯處理,進(jìn)而獲取準(zhǔn)確的高層卷積文本語義特征,而主題信息則通過主題模型中ProdLDA 獲得,再全面融合主題與上下文信息,進(jìn)而獲取真實(shí)的文本特征。第二,采用分類器網(wǎng)絡(luò)全連接層實(shí)施分類結(jié)果信息輸出,即可完成分類過程。具體網(wǎng)絡(luò)框架,如圖2 所示[1]。
圖2 卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)框架圖
2.1.2 功能層介紹
通過上述基礎(chǔ)框架得知,文本分類通過輸入層、輸出層、卷積層、融合層與池化層共同完成處理過程,具體如下。第一,輸入層。其主要是將預(yù)處理后的文件信息,以CBOW 模型實(shí)施詞嵌訓(xùn)練,并獲取初始單詞向量進(jìn)行輸入處理。該層主要負(fù)責(zé)將單詞文檔轉(zhuǎn)化為初始向量的全過程,將文檔表現(xiàn)成為一個(gè)規(guī)則性向量矩陣。本次實(shí)驗(yàn)將主要利用Clove 作為英文文本作為嵌入表示,并利用Word+Ngram 和SogouNews 作為中文文本嵌入詞表示,進(jìn)而提升整體模型結(jié)構(gòu)訓(xùn)練效果,其中中文矩陣表現(xiàn)形式如公式(1)所示
式中:m∈[1,M],nm表示第m個(gè)文件文檔中的單詞總數(shù),而M則表示數(shù)據(jù)集中全部文檔數(shù)量。第二,卷積層。該層主要負(fù)責(zé)對網(wǎng)絡(luò)模型各種數(shù)據(jù)的特征進(jìn)行提取,其通常使用卷積核尺寸來提取不同長度的文本,相比單一化文本提取而言,該層的信息提取范圍更廣。如將卷積核尺寸設(shè)定為3 時(shí),便可每次同時(shí)提取3 個(gè)不同單詞特征。而在本次研究當(dāng)中,總共布設(shè)了尺寸為3的512 個(gè)卷積核來獲取不同的上下文信息,進(jìn)而保障整體數(shù)據(jù)提取精度。第三,池化層。為避免卷積層在應(yīng)用過程中所造成的文件冗余而影響到整體數(shù)據(jù)分類精度,必須通過池化層進(jìn)行池化處理。該層主要負(fù)責(zé)對文件矩陣進(jìn)行縮減,并池化處理各種上下文特征,在精簡訓(xùn)練參數(shù)的基礎(chǔ)上加快訓(xùn)練速度,進(jìn)而在避免產(chǎn)生擬合作用的前提下解決卷積后所產(chǎn)生的文件冗余問題。第四,融合層。在經(jīng)過池化層的池化處理后,便可通過融合層將網(wǎng)絡(luò)模型提取到的主題特征與上下文特征融合,得到全新的文件特征向量,如公式(2)所示
式中:Vm代表通過卷積神經(jīng)網(wǎng)絡(luò)功能所得到的上下文文本語義基本特征,θm代表主題模型或獲取的文檔信息在K個(gè)內(nèi)部潛在主題上的向量分布概率,Nm代表經(jīng)過系統(tǒng)組合后得到的融合特征,該文本向量特征同時(shí)兼具潛在主題與上下文語義2 種不同特征。而融合層則是將不同矩陣特征基于數(shù)據(jù)序列的方式實(shí)施數(shù)據(jù)拼接與融合,進(jìn)而全面解決文本數(shù)據(jù)冗余與稀疏問題。第五,輸出層。經(jīng)過系統(tǒng)融合后的潛在主題信息與上下文信息模型,主要基于Softmax 組成函數(shù)及全連接層計(jì)算各種文檔數(shù)據(jù)的分布概率,進(jìn)而獲取準(zhǔn)確的數(shù)據(jù)輸出數(shù)值。
本次研究主要通過將ProdLDA 主題模型引入卷積神經(jīng)網(wǎng)絡(luò)當(dāng)中,構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)融合ProdLDA 主題模型厚度的文本算法,詳細(xì)算法過程如圖3 所示,具體如下。第一,在對文本數(shù)據(jù)集實(shí)施預(yù)處理后,可將CBOW 模型數(shù)據(jù)集文檔轉(zhuǎn)為詞嵌入模式,并將基本主題模型參數(shù)實(shí)施初始化處理,進(jìn)而確定最佳主題數(shù)量。第二,在對模型的不斷迭代訓(xùn)練過程中,可將詞嵌入引入其中并構(gòu)建特有的特征數(shù)據(jù)矩陣,進(jìn)而準(zhǔn)確評估模型性能。第三,通過訓(xùn)練主題模型信息,獲取主題特征矩陣并準(zhǔn)確提取全部文件上下信息,進(jìn)而形成特征矩陣。第四,構(gòu)建內(nèi)部融合層,將文本向量拼接完成后傳輸至相應(yīng)的分類層,適當(dāng)調(diào)整權(quán)值和參數(shù),最終構(gòu)建完整的CNN 文本分類及ProdLDA 主題模型。第五,通過一系列文件信息處理,使得系統(tǒng)輸入層與輸出層均具備了部分潛在主題和上下文語義信息,最后,由Softmax 組成函數(shù)輸出層來準(zhǔn)確判斷文檔數(shù)據(jù)分布概率[2]。
圖3 卷積神經(jīng)網(wǎng)絡(luò)融合ProdLDA 主題模型厚度的文本算法構(gòu)建流程
2.3.1 初步測試
在短文本分類研究實(shí)驗(yàn)中,本文主要基于今日頭條平臺來構(gòu)建2 個(gè)不同的數(shù)據(jù)集,共分為擁有20 萬條信息數(shù)據(jù)的9 個(gè)類別數(shù)據(jù)集和擁有38 萬條信息數(shù)據(jù)的15 個(gè)類別數(shù)據(jù)集2 種。而在長文文本分類研究實(shí)驗(yàn)中,則主要采用了擁有20 種不同分布狀態(tài)的新聞媒體類型的英文數(shù)據(jù)集,其可用于2 萬條不同的長文本集合處理。
考慮到整體訓(xùn)練過程中的數(shù)據(jù)處理量較大,且需要頻繁更改設(shè)計(jì)主題參數(shù)才能使主題模型達(dá)到最佳數(shù)據(jù)處理效果。因此,本次研究實(shí)驗(yàn)主要基于評價(jià)規(guī)范中的數(shù)據(jù)準(zhǔn)確率作為衡量標(biāo)準(zhǔn),對主題特征進(jìn)行深入分析,并以20 為一個(gè)測試梯度,通過相關(guān)搜索引擎進(jìn)行數(shù)據(jù)收集、對比,最終得知50 個(gè)主題數(shù)量下的數(shù)據(jù)處理準(zhǔn)確率達(dá)到了0.912%,故而可將其作為最佳主題數(shù)量設(shè)計(jì)參數(shù)。而詞嵌入維度同樣會在一定程度上影響到詞語特征提取效果,因此,本次研究實(shí)驗(yàn)以頭條數(shù)據(jù)集作為詞嵌入研究平臺進(jìn)行數(shù)據(jù)收集、對比,最后發(fā)現(xiàn),當(dāng)詞嵌入為150 維度時(shí),其準(zhǔn)確率可達(dá)0.907%,完全可以將其作為最佳嵌入詞設(shè)計(jì)參數(shù)。此外,為進(jìn)一步提升文件分類處理精度,實(shí)驗(yàn)人員再次以今日頭條作為研究平臺,對同樣基于數(shù)據(jù)準(zhǔn)確率評價(jià)指標(biāo),對模型訓(xùn)練系統(tǒng)迭代次數(shù)實(shí)施了分析與探索,最終得知當(dāng)?shù)螖?shù)為35 時(shí),其整體文件分類效率、分類速度及分類精度最佳。
2.3.2 結(jié)果分析
在經(jīng)過一系列實(shí)驗(yàn)測試后,最終測算出1 號數(shù)據(jù)集(20 萬條數(shù)據(jù)、9 個(gè)類別)中的不同模型中數(shù)據(jù)集各項(xiàng)測試結(jié)果如下。在ProdLDA-CNN 模型中,F(xiàn)1 測試比率為0.915 0%、召回率為0.913 1%、準(zhǔn)確率為0.917 8%。在TMN 模型中,F(xiàn)1 測試比率為0.914 3%、召回率為0.914 2%、準(zhǔn)確率為0.914 9%。在Word2vec-CNN 模型中,F(xiàn)1 測試比率為0.904 1%、召回率為0.904 0%、準(zhǔn)確率為0.903 8%,其整體數(shù)據(jù)測試精度均在合理范圍內(nèi)。而在將數(shù)據(jù)集基礎(chǔ)類別量從9 個(gè)提升至15 個(gè)時(shí),語料噪音和交叉信息量也會不斷增加[3]。
由于語料噪音數(shù)據(jù)與數(shù)據(jù)集類別增多時(shí),CNN 單一模型數(shù)據(jù)處理準(zhǔn)確率大大降低,而TMN 與本次研究實(shí)驗(yàn)?zāi)P蛣t依舊保持較高的數(shù)據(jù)處理準(zhǔn)確率。為進(jìn)一步證明該模型的操作可行性,工作人員還針對基于20 NG 的英文長文本數(shù)據(jù)集方面進(jìn)行了一系列對比分析,結(jié)果顯示,在基于20 NG 長文本數(shù)據(jù)的情況下,ProdLDA-CNN 系統(tǒng)模型整體分類精度相較于Word2vec-CNN 單一模型處理精度明顯較高,其根本原因在于單一化CNN 模型更加側(cè)重于對局部卷積語義的提取,而無法準(zhǔn)確獲取長文本中的各類數(shù)據(jù)信息,而本次研究實(shí)驗(yàn)中的主題模型則可基于文檔主題特征來提取文件信息,故而其整體文件分類精度較高[4]。
本次文本分類案例系統(tǒng)主要基于現(xiàn)代數(shù)字編程技術(shù)構(gòu)建,整體采用Flask 作為基礎(chǔ)框架,而后端文本分類系統(tǒng)則主要采用Python 來實(shí)施。用戶可先上傳需要處理的各種數(shù)據(jù),并利用內(nèi)部預(yù)處理功能模塊進(jìn)行數(shù)據(jù)去停、分詞等基礎(chǔ)操作,最后點(diǎn)擊模型訓(xùn)練指令,再由程序處理后將最終結(jié)果返回操作界面,進(jìn)而完成整體數(shù)據(jù)分類過程,詳細(xì)模塊功能如下。登錄注冊功能模塊主要負(fù)責(zé)對用戶信息進(jìn)行驗(yàn)證處理,保障整體系統(tǒng)信息安全。數(shù)據(jù)標(biāo)注功能模塊主要基于內(nèi)部程序規(guī)則關(guān)鍵詞,對待處理數(shù)據(jù)實(shí)施輔助標(biāo)注。預(yù)處理數(shù)據(jù)功能模塊主要負(fù)責(zé)對數(shù)據(jù)疊詞、去停用詞及數(shù)據(jù)分詞等方面的清洗工作。模型訓(xùn)練功能模塊主要對模型進(jìn)行自動(dòng)調(diào)整,完善各項(xiàng)數(shù)據(jù)處理性能。模型評價(jià)功能模塊主要負(fù)責(zé)模型評估,判斷模型數(shù)據(jù)處理結(jié)果的準(zhǔn)確性。模型預(yù)測功能模塊主要負(fù)責(zé)封裝訓(xùn)練后的各個(gè)數(shù)據(jù)模型,并通過待預(yù)測信息中封裝好的后臺數(shù)據(jù)實(shí)施有效預(yù)測。而批處理信息預(yù)測功能模塊,則主要負(fù)責(zé)對不同數(shù)據(jù)信息進(jìn)行預(yù)測處理,并提供全面的數(shù)據(jù)下載功能。通過不同功能模塊之間的配合工作,大大降低了系統(tǒng)處理的耦合性,進(jìn)而提高模型系統(tǒng)文件分類效率。
本次案例系統(tǒng),主要由數(shù)據(jù)庫存儲、注冊登錄、數(shù)據(jù)標(biāo)注及模型訓(xùn)練等幾個(gè)關(guān)鍵模塊構(gòu)成。其中數(shù)據(jù)庫存儲模塊主要負(fù)責(zé)編制與管理,如預(yù)測接口表、規(guī)則配置表及用戶信息表等內(nèi)部表格,進(jìn)而增加整體數(shù)據(jù)分類管理的合理性,如在用戶信息表設(shè)計(jì)過程中,必須包括字段名稱、數(shù)據(jù)類型、是否允許為空及具體作用等幾項(xiàng),具體如下。將表內(nèi)id 字段數(shù)據(jù)類型設(shè)計(jì)為int,允許為空設(shè)定為否,功能為操作主鍵。將表內(nèi)userid 字段數(shù)據(jù)類型設(shè)計(jì)為varchaer(255),允許為空設(shè)定為否,功能為用戶名。將表內(nèi)owner 字段數(shù)據(jù)類型設(shè)計(jì)為int,允許為空設(shè)定為否,功能為管理權(quán)限(參數(shù)0 為普通用戶、參數(shù)1 為管理員,默認(rèn)值為0)。將表內(nèi)loginip 字段數(shù)據(jù)類型設(shè)計(jì)為varchaer(255),允許為空設(shè)定為否,功能為對各種登錄IP 地址進(jìn)行記錄。將表內(nèi)loginCouunt字段數(shù)據(jù)類型設(shè)計(jì)為num,允許為空設(shè)定為否,功能為記錄用戶登錄次數(shù)。將表內(nèi)loginTime 字段數(shù)據(jù)類型設(shè)計(jì)為datetime,允許為空設(shè)定為否,功能為記錄詳細(xì)的用戶登錄時(shí)間。
注冊登錄模塊主要是為了保障整體系統(tǒng)信息的安全性,避免無關(guān)人員竊取內(nèi)部信息。因分類系統(tǒng)對操作人員的專業(yè)性要求較高,其內(nèi)部信息量極大且涉及范圍較廣。因此,本次案例系統(tǒng)主要采用token 方式來驗(yàn)證系統(tǒng)管理員信息,進(jìn)而各種網(wǎng)絡(luò)不法分子惡意入侵和攻擊,詳細(xì)操作過程如下。用戶登錄操作時(shí)將密碼與賬號錄入,系統(tǒng)會將相應(yīng)信息與MySQL 數(shù)據(jù)中的存儲信息進(jìn)行對比驗(yàn)證,并返回一個(gè)獨(dú)有的token 簽名,最后驗(yàn)證token 數(shù)據(jù)是否準(zhǔn)確無誤。此外,用戶在本地實(shí)施token 存儲時(shí),系統(tǒng)會在指令發(fā)出時(shí)予以驗(yàn)證[5]。
具體驗(yàn)證流程依次為系統(tǒng)開啟、用戶登錄信息錄入、token 信息識別、發(fā)送主頁請求和驗(yàn)證token 請求的準(zhǔn)確性,如信息準(zhǔn)確則會自動(dòng)跳入主頁界面,若信息有誤則會在本頁面發(fā)出錯(cuò)誤提示。
為提升數(shù)據(jù)標(biāo)注工作效率,系統(tǒng)會在內(nèi)部通過數(shù)據(jù)標(biāo)注功能模塊來標(biāo)注規(guī)則關(guān)鍵詞,并基于具體關(guān)鍵詞的權(quán)重判斷數(shù)據(jù)標(biāo)簽,最后使用分詞工具進(jìn)行提取,從而獲取最終數(shù)據(jù)標(biāo)簽。而模型訓(xùn)練模塊則主要基于訓(xùn)練腳本,將整體訓(xùn)練結(jié)構(gòu)展示到頁面上,其無須通過任何程序編寫即可完成功能訓(xùn)練。用戶只需點(diǎn)擊相應(yīng)的操作按鈕,便可實(shí)施如分詞、消除停用詞等基本需求。此外,工作人員還通過操作界面設(shè)計(jì)及系統(tǒng)測試等方式,不斷完善系統(tǒng)功能、提升文件分類操作精度,進(jìn)而在降低人工工作量的前提下,大幅提升了整體文件分類工作效率。
綜上所述,將主體模型結(jié)合卷積神經(jīng)網(wǎng)絡(luò)技術(shù)充分融入到文本分類當(dāng)中,并基于用戶實(shí)際需求來構(gòu)建一套完整的信息處理系統(tǒng),從而真正實(shí)現(xiàn)智能化數(shù)據(jù)信息分類處理,使用戶通過系統(tǒng)界面即可獲取全部信息處理結(jié)果,進(jìn)而真正對文本信息進(jìn)行智能化分類。