王 進(jìn),陳重元,鄧 欣,孫開偉
(重慶郵電大學(xué) 數(shù)據(jù)工程與可視計(jì)算重點(diǎn)實(shí)驗(yàn)室,重慶 400065)
文本分類是自然語言處理(natural language processing,NLP)領(lǐng)域的一個基本問題和熱點(diǎn)問題[1]。文本分類的應(yīng)用有很多,比如情感分析、新聞分類和問題回答[2]等。文本分類的核心在于如何獲得一個更優(yōu)的文本表示[3]。因此,許多基于機(jī)器學(xué)習(xí)的算法都開始用于解決文本分類問題,比如支持向量機(jī)[4]、決策樹[5]和邏輯回歸[6]等,但這些算法在文本特征提取和文本表示的能力還不夠完善。
隨著深度學(xué)習(xí)的發(fā)展,涌現(xiàn)出大量基于神經(jīng)網(wǎng)絡(luò)的文本分類模型,取得了不錯的效果。Kim[7]于2014年將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)用于文本分類任務(wù),使用多個大小尺寸不同的卷積核來提取多種不同的文本局部特征,將這些特征結(jié)合后進(jìn)行文本分類。Liu[8]于2016年提出基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的文本分類模型,以獲得文本之間的上下文信息以及較長文本中的依賴關(guān)系。Joulin[9]于2017年提出了快速文本分類器(fast text classifier,FAST),這是一個淺層網(wǎng)絡(luò)模型且訓(xùn)練速度較快,可以快速地進(jìn)行文本分類。Shen[10]于2018年提出的簡單詞嵌入模型(simple word-embedding-based models,SWEM),將詞嵌入與池化技術(shù)相結(jié)合來進(jìn)行文本分類。Devlin[11]于2019年提出的預(yù)訓(xùn)練語言模型(bidirectional encoder representation from transformers,BERT)借鑒解決完形填空問題的思想來訓(xùn)練雙向的語言模型,然后使用模型微調(diào)的方式來完成文本分類任務(wù),取得了較好的效果。預(yù)訓(xùn)練模型的優(yōu)勢在于大量的模型參數(shù)量以及豐富的訓(xùn)練語料,而其局限性在于計(jì)算量較大、對硬件要求較高,應(yīng)用時需要對性能和成本進(jìn)行權(quán)衡。
對于文本數(shù)據(jù),其內(nèi)部結(jié)構(gòu)可看作是復(fù)雜的語法樹結(jié)構(gòu)的組合,而樹結(jié)構(gòu)又是圖結(jié)構(gòu)的一種特殊形式。由于圖神經(jīng)網(wǎng)絡(luò)在處理復(fù)雜結(jié)構(gòu)和保存全局信息方面表現(xiàn)出良好的性能,因此在文本分類任務(wù)中也取得了一些進(jìn)展。Yao[12]于2019年提出的文本圖卷積網(wǎng)絡(luò)(text graph convolution network,TextGCN),使用所有的文本數(shù)據(jù)構(gòu)建成一個大規(guī)模圖結(jié)構(gòu)數(shù)據(jù),再使用圖卷積網(wǎng)絡(luò)(graph convolution network,GCN)來提取文本特征并進(jìn)行文本分類。Huang[13]于2019年提出的文本層級圖神經(jīng)網(wǎng)絡(luò)(text level graph neural network,TextLGNN),引入了一種非頻譜的消息傳遞機(jī)制(message passing mechanism)從鄰居節(jié)點(diǎn)來獲取信息,進(jìn)而完成文本分類。Zhang[14]于2020年提出的文本圖歸納網(wǎng)絡(luò)(text inductive graph neural network,TextING),將每條文本數(shù)據(jù)單獨(dú)構(gòu)建為一個圖結(jié)構(gòu)數(shù)據(jù),再使用門控圖神經(jīng)網(wǎng)絡(luò)(gated graph neural network,GGNN)來提取文本特征并進(jìn)行文本分類。Zhu[15]于2021年提出的簡單頻譜卷積網(wǎng)絡(luò)(simple spectral graph convolution,S2GC),設(shè)計(jì)了一種簡單有效的過濾器來接受鄰居節(jié)點(diǎn)信息,并解決文本分類問題。
然而,上述基于圖神經(jīng)網(wǎng)絡(luò)的文本分類算法還是存在一些不足。首先,對于TextGCN模型,其主要局限性在于所有的數(shù)據(jù)都參與構(gòu)建圖結(jié)構(gòu)數(shù)據(jù)和模型訓(xùn)練,因此,模型具有內(nèi)在傳導(dǎo)性,即無法對新加入的樣本快速生成其文本表示并預(yù)測其所屬類別。對于TextLGNN模型,它使用固定的全局詞對關(guān)系來構(gòu)建圖結(jié)構(gòu)數(shù)據(jù),無法有效地利用當(dāng)前詞的上下文語境。對于TextING模型,其在提取特征時主要參考門控循環(huán)單元(gated recurrent unit,GRU)[16]的運(yùn)行機(jī)制,這會導(dǎo)致模型訓(xùn)練時出現(xiàn)局部的過度平滑問題[15],使得模型性能下降;其次,則是基于GRU的圖網(wǎng)絡(luò)層更側(cè)重于考慮文本的上下文依賴關(guān)系,而文本的局部相關(guān)性也需要兼顧;最后,在獲取高層次文本表示時,可以對圖讀出器函數(shù)進(jìn)行加強(qiáng),以獲得更優(yōu)的文本表示。對于S2GC模型,雖然低通與高通濾波器的結(jié)合可以從一定程度上緩解過度平滑問題,但對文本中關(guān)鍵信息的捕捉能力有待提高。
因此,本文提出了一種基于多狀態(tài)圖神經(jīng)網(wǎng)絡(luò)的文本分類算法(multi-state graph neural network,MSGNN)。首先,將每一篇文檔構(gòu)建為各自的圖結(jié)構(gòu)數(shù)據(jù),在訓(xùn)練模型時只會使用到訓(xùn)練集文本,從而可以快速地構(gòu)建測試集文本的圖結(jié)構(gòu)數(shù)據(jù)并對其進(jìn)行分類。其次,對圖卷積神經(jīng)網(wǎng)絡(luò)和門控圖神經(jīng)網(wǎng)絡(luò)進(jìn)行改動,在提取文本特征時引入網(wǎng)絡(luò)層多個歷史時刻的狀態(tài)信息,以增強(qiáng)中心節(jié)點(diǎn)自身的信息,并將提取到的2種文本特征相結(jié)合作為文本的基本表示。最后,使用多頭注意力機(jī)制從多個角度提升文本中關(guān)鍵詞的重要度。通過以上步驟聚合得到文本的高層次表示并進(jìn)行文本分類,從而提高分類準(zhǔn)確率。在幾個公開的文本分類數(shù)據(jù)集上的對比實(shí)驗(yàn)表明,相較于其他神經(jīng)網(wǎng)絡(luò)文本分類算法,該方法取得了較好的效果。
本文提出的多狀態(tài)圖神經(jīng)網(wǎng)絡(luò)MSGNN,其算法流程主要分為3個部分:①將文本數(shù)據(jù)構(gòu)建為圖結(jié)構(gòu)數(shù)據(jù);②基于多狀態(tài)圖神經(jīng)網(wǎng)絡(luò)層的特征提取;③基于自注意力機(jī)制的圖讀出器函數(shù)。圖1是MSGNN算法整體流程圖,下面將詳細(xì)介紹本算法模型的各個組成部分。
首先對文本做文本分詞、大小寫寫法統(tǒng)一及去除停用詞等[15]預(yù)處理操作;然后將每條文本中的所有單詞進(jìn)行去重處理,將去重后的每一個單詞作為圖的節(jié)點(diǎn),將單詞之間的共現(xiàn)關(guān)系作為圖的邊。單詞之間的共現(xiàn)關(guān)系在這里具體是指:在一個固定大小的滑動窗口中所同時存在的單詞之間的關(guān)系,滑動窗口默認(rèn)長度為3。使用圖中每個節(jié)點(diǎn)對應(yīng)詞的詞嵌入向量來初始化圖中所有的節(jié)點(diǎn)的向量表示;最后構(gòu)建出一個無向的同質(zhì)圖。記文本構(gòu)成的圖為G=(V,E),其中,V和E表示此圖的節(jié)點(diǎn)集和邊集。
圖1 算法整體流程圖Fig.1 Overall flow chart of the algorithm
圖卷積神經(jīng)網(wǎng)絡(luò)GCN由Kipf[17]于2017年提出,它是一種基于頻譜方式的卷積圖神經(jīng)網(wǎng)絡(luò),使用卷積操作對一個圖節(jié)點(diǎn)及其鄰居節(jié)點(diǎn)來提取特征。設(shè)某條文本數(shù)據(jù)的特征矩陣為X∈n×m,其中,n為該圖中節(jié)點(diǎn)的數(shù)量,即文本中單詞的數(shù)量,m為詞嵌入向量的維度。對已經(jīng)構(gòu)建完成的圖結(jié)構(gòu)數(shù)據(jù)應(yīng)用GCN,利用此圖的鄰接矩陣A∈n×n和度矩陣D∈n×n來完成節(jié)點(diǎn)更新與信息傳遞,并且可通過堆疊多個卷積層來獲取高階鄰居節(jié)點(diǎn)的信息,其交互過程為
(1)
但隨著GCN網(wǎng)絡(luò)層層數(shù)的增加,中心節(jié)點(diǎn)的信息損失越多,導(dǎo)致包含中心節(jié)點(diǎn)的連通分量存在局部的過度平滑問題。為了在接收高階鄰居節(jié)點(diǎn)信息的同時,突顯中心節(jié)點(diǎn)本身的信息,需要對網(wǎng)絡(luò)做一些改進(jìn)來緩解過度平滑問題。首先,將GCN的多層權(quán)重矩陣替換為參數(shù)共享的單層權(quán)重矩陣,在降低參數(shù)量的同時,減少網(wǎng)絡(luò)出現(xiàn)過擬合問題的風(fēng)險(xiǎn)。其次,給當(dāng)前網(wǎng)絡(luò)層顯式地添加前面若干網(wǎng)絡(luò)層的歷史隱藏狀態(tài),即使用多步歷史狀態(tài)來增強(qiáng)當(dāng)前網(wǎng)絡(luò)層狀態(tài),稱為多狀態(tài)圖卷積網(wǎng)絡(luò)層(multi-state graph convolution network layer,MSGCN Layer),其交互過程為
(2)
(3)
門控圖神經(jīng)網(wǎng)絡(luò)GGNN是由Li[18]于2015年提出的一種基于門控循環(huán)單元的循環(huán)圖神經(jīng)網(wǎng)絡(luò),通過修改GGNN的輸入適配到圖結(jié)構(gòu)數(shù)據(jù)中,借助圖節(jié)點(diǎn)前一時刻的隱藏狀態(tài)和鄰居節(jié)點(diǎn)的隱藏狀態(tài)來完成節(jié)點(diǎn)在本次迭代中隱藏狀態(tài)的更新。記第k次迭代時的隱藏狀態(tài)矩陣為Tk∈n×h,而第0次迭代時有T0=X。在第k次迭代時,節(jié)點(diǎn)之間隱藏狀態(tài)的更新過程為
(4)
zk=σ(Wzak+Uztk-1+bz)
(5)
rk=σ(Wrak+Urtk-1+br)
(6)
(7)
(8)
由于GGNN網(wǎng)絡(luò)層在訓(xùn)練時需要循環(huán)迭代進(jìn)行,因此,在提取隱藏特征時也存在連通分量的局部過度平滑問題。為了增強(qiáng)中心節(jié)點(diǎn)的信息,同樣引入了多步歷史狀態(tài)來增強(qiáng)當(dāng)前網(wǎng)絡(luò)層狀態(tài)并緩解過度平滑問題。不同的是,根據(jù)GGNN網(wǎng)絡(luò)層特性,將網(wǎng)絡(luò)層的歷史隱藏狀態(tài)引入在使用更新門單元和重置門單元對隱藏特征提取完成之后,以保證在增強(qiáng)本網(wǎng)絡(luò)層隱藏特征的同時,避免對節(jié)點(diǎn)間的正常信息傳遞與更新造成影響,稱為多狀態(tài)門控圖神經(jīng)網(wǎng)絡(luò)層(multi-state gated graph neural network layer,MSGGNN Layer),其交互過程為
(9)
(10)
在以上2種圖神經(jīng)網(wǎng)絡(luò)層中,節(jié)點(diǎn)信息的更新與傳遞方式不同,會提取到不同層次的文本特征。設(shè)ci∈m為通過MSGCN層提取到的特征矩陣Cl的第i個特征向量,ti∈m為通過MSGGNN層提取到的特征矩陣Tk的第i個特征向量,將這2種特征進(jìn)行組合,表達(dá)式為
hi=ci‖ti
(11)
(11)式中,‖表示向量的拼接。
隨后可得到經(jīng)過特征拼接后的新特征矩陣H={h1,h2,…,hn},hi∈m,以豐富文本表示。
至此,已經(jīng)獲得了由2種不同層次的隱藏特征構(gòu)成的組合特征H。為了得到用于分類的高層次文本表示向量D∈n×d,在圖讀出器函數(shù)中引入多頭自注意力機(jī)制(multi-head self-attention)[19]來獲取更優(yōu)的文本表示。自注意力機(jī)制(self attention)[19]可以較好地捕獲語句中的長距離依賴關(guān)系,而多頭自注意力機(jī)制可以從多個角度并行地選取輸入信息進(jìn)行計(jì)算,且每個注意力頭的側(cè)重點(diǎn)有所不同,其計(jì)算過程為
VA,e=WA,eH+bA,e
(12)
(13)
M=Concat(Q1,…,Qe)
(14)
(12)—(14)式中:VA,e是通過第e個全連接層變換后的隱藏特征,用于注意力機(jī)制的計(jì)算,WA,e與bA,e是可學(xué)習(xí)參數(shù);Qe表示第e個注意力頭的計(jì)算結(jié)果,δ表示Softmax函數(shù),|V|表示節(jié)點(diǎn)集V中單詞的數(shù)量;Concat表示多個注意力頭的向量拼接操作;M表示使用多頭自注意力機(jī)制的計(jì)算結(jié)果。
為了最終完成文本分類,將圖中所有節(jié)點(diǎn)的向量表示累加,再根據(jù)圖中節(jié)點(diǎn)的數(shù)量進(jìn)行歸一化后得到最終的圖層次表示,也即最終的文本表示。最后,將得到的文本表示通過Softmax函數(shù)得到預(yù)測概率,再與文本真實(shí)的標(biāo)簽值計(jì)算交叉熵?fù)p失,計(jì)算過程為
p=φ(M)WM
(15)
(16)
f=δ(Wfg+bf)
(17)
(18)
(15)—(18)式中:p為通過全連接層的隱藏特征;φ為激活函數(shù);WM是可學(xué)習(xí)參數(shù)。g為圖節(jié)點(diǎn)使用均值聚合后的圖層次表示,v表示該圖中的某一具體節(jié)點(diǎn)。f為通過全連接層的預(yù)測概率,δ為Softmax函數(shù)。是當(dāng)前批次文本數(shù)據(jù)的總損失值,yi是一條文本數(shù)據(jù)的標(biāo)簽值。
為了檢驗(yàn)本文所提出的MSGNN的性能,在實(shí)驗(yàn)部分主要關(guān)注了MSGNN的分類準(zhǔn)確率;多狀態(tài)圖神經(jīng)網(wǎng)絡(luò)層和多頭自注意力機(jī)制的有效性,以及圖神經(jīng)網(wǎng)絡(luò)層數(shù)量對分類準(zhǔn)確率的影響。
對比實(shí)驗(yàn)采用了6個公開的基準(zhǔn)數(shù)據(jù)集:基于電影評論的情感分析數(shù)據(jù)集MR,路透社新聞數(shù)據(jù)集R8和R52,醫(yī)學(xué)文摘數(shù)據(jù)集Ohsumed,問答數(shù)據(jù)集TREC-6,新聞主題分類數(shù)據(jù)集20NG等文本分類領(lǐng)域的真實(shí)數(shù)據(jù)集[7,14-15],表1給出了上述數(shù)據(jù)集的一些基本統(tǒng)計(jì)信息。
表1 實(shí)驗(yàn)數(shù)據(jù)集的基本統(tǒng)計(jì)信息
在實(shí)驗(yàn)中用于對比的基準(zhǔn)算法有9個,分別是TextCNN[7],TextRNN[8],FAST[9],SWEM[10],BERT[11](base),TextGCN[12],TextLGNN[13],TextING[14]以及S2GC[15]。
主要的實(shí)驗(yàn)設(shè)置:由于所有數(shù)據(jù)集已經(jīng)劃分為訓(xùn)練集和測試集,因此隨機(jī)選取訓(xùn)練集中10%的數(shù)據(jù)作為驗(yàn)證集,用于確定模型中較為適合的網(wǎng)絡(luò)超參數(shù)。為了實(shí)驗(yàn)的合理性,所有模型使用的優(yōu)化器均為Adam[20](初始學(xué)習(xí)率為0.005),使用的詞向量均為Glove[21](詞向量維度為300),而對于不在詞表中的單詞使用均勻分布([-0.01,0.01])來隨機(jī)生成。
在實(shí)驗(yàn)部分,對所有模型進(jìn)行10次實(shí)驗(yàn),并取10次實(shí)驗(yàn)結(jié)果的平均值作為模型的最終結(jié)果,使用的評價指標(biāo)為分類準(zhǔn)確率。表2給出了本文所提出算法與基準(zhǔn)算法在6個公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,加粗的數(shù)字表示最優(yōu)的結(jié)果,部分實(shí)驗(yàn)結(jié)果來源于其他文章[14]。
本算法MSGNN相比于其他算法具有一定的性能優(yōu)勢,具體體現(xiàn)在分類準(zhǔn)確率上。MSGNN在4個數(shù)據(jù)集上超過了全部對比基準(zhǔn)算法,證明了改進(jìn)后的多狀態(tài)圖神經(jīng)網(wǎng)絡(luò)MSGCN 層和MSGGNN層,結(jié)合多頭自注意力機(jī)制的整體有效性。值得注意的是,MSGNN在R52與Ohsumed數(shù)據(jù)集上的表現(xiàn)相比于BERT略有不足。這是因?yàn)镸SGNN中的多狀態(tài)圖卷積網(wǎng)絡(luò)層采用了參數(shù)共享的設(shè)計(jì)方式,雖然可以有效地提升模型的運(yùn)行效率并緩解過擬合風(fēng)險(xiǎn),但與BERT這種參數(shù)量規(guī)模較大的模型對比,參數(shù)量不足所帶來的問題便通過分類準(zhǔn)確率體現(xiàn)出來。另一個原因則是BERT模型得益于在預(yù)訓(xùn)練階段所使用的豐富語料,為其在下游任務(wù)中帶來較為準(zhǔn)確的參數(shù)值。而BERT模型的劣勢則體現(xiàn)在模型的訓(xùn)練與推斷速度較慢,以及對硬件設(shè)備有著較高的要求。
下面將通過消融實(shí)驗(yàn)來進(jìn)一步分析MSGNN中不同的改進(jìn)部分對分類準(zhǔn)確率的影響。
為了檢驗(yàn)多狀態(tài)圖神經(jīng)網(wǎng)絡(luò)MSGNN在文本分類任務(wù)中的有效性,將MSGNN中改進(jìn)的多狀態(tài)圖卷積網(wǎng)絡(luò)層MSGCN與多狀態(tài)門控圖神經(jīng)網(wǎng)絡(luò)層MSGGNN分別替換為圖卷積網(wǎng)絡(luò)層GCN與門控圖神經(jīng)網(wǎng)絡(luò)層GGNN來進(jìn)行對比。圖2展現(xiàn)了MSGNN模型(M1)及其3種變體模型(M2,M3和M4)在6個數(shù)據(jù)集上的分類準(zhǔn)確率的對比情況。在圖2中,M1模型表示MSGNN;M2模型表示將MSGCN層替換成GCN層;M3模型表示將MSGGNN層替換成GGNN層;M4模型表示同時將MSGCN層與MSGGNN層替換成GCN層與GGNN層。
從圖2可以發(fā)現(xiàn),相比于另外3種將MSGNN中網(wǎng)絡(luò)層進(jìn)行替換的情況,同時使用MSGCN層與MSGGNN層使得模型在6個數(shù)據(jù)集上的分類準(zhǔn)確率均達(dá)到了最高,這得益于所引入的多步歷史狀態(tài)對網(wǎng)絡(luò)層特征提取能力的增強(qiáng)。具體而言,MSGCN層可以有效捕捉局部單詞間的相關(guān)性,而MSGGNN層擅長提取文本中的長距離依賴關(guān)系,結(jié)合這2種網(wǎng)絡(luò)層能準(zhǔn)確地提取文本中不同位置、不同細(xì)粒度的信息。圖神經(jīng)網(wǎng)絡(luò)中所引入的多步歷史狀態(tài),在緩解過度平滑問題的同時,也可以視作一種特征增強(qiáng)的方法。多頭自注意力機(jī)制從多個特征子空間來篩選與聚合文本信息。經(jīng)過文本特征提取、文本特征增強(qiáng)、文本信息聚合等幾個對文本表示的精細(xì)優(yōu)化階段,最終能得到一種高質(zhì)量的文本表示以及較高的文本分類準(zhǔn)確率。
為了探索多狀態(tài)圖神經(jīng)網(wǎng)絡(luò)MSGNN中多頭自注意力機(jī)制的有效性以及注意力頭的數(shù)量對MSGNN性能的影響,在本部分實(shí)驗(yàn)中去掉MSGNN中的多頭自注意力機(jī)制或改變注意力頭的數(shù)量,并在6個數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn),所得到的模型分類準(zhǔn)確率結(jié)果如圖3所示。
在圖3中,數(shù)字0表示MSGNN模型不使用注意力機(jī)制(注意力頭的數(shù)量等于0)的情況,而其他數(shù)字表示MSGNN模型中含有的注意力頭的數(shù)量。結(jié)果表明,使用注意力機(jī)制(注意力頭的數(shù)量大于0)時模型的分類效果更好,而多頭注意力機(jī)制(注意力頭的數(shù)量大于1)會比單注意力機(jī)制(注意力頭的數(shù)量等于1)更進(jìn)一步提升模型的分類準(zhǔn)確率。但注意力頭的數(shù)量并不是越多越好,可以利用驗(yàn)證集來確定一個適合的數(shù)量。
圖3 MSGNN中不同數(shù)量的注意力頭在6個數(shù)據(jù)集下的分類準(zhǔn)確率對比Fig.3 Comparison of classification accuracy of different number of attention heads in MSGNN under six data sets
在多狀態(tài)圖神經(jīng)網(wǎng)絡(luò)MSGNN模型中,MSGCN層與MSGGNN層的數(shù)量是2個可調(diào)節(jié)的網(wǎng)絡(luò)層超參數(shù),不同的網(wǎng)絡(luò)層數(shù)量所提取到的隱藏特征的質(zhì)量也會不同。增加網(wǎng)絡(luò)層的數(shù)量會接收到更遠(yuǎn)的高階鄰居節(jié)點(diǎn)的信息,網(wǎng)絡(luò)層參數(shù)更新次數(shù)也越多。但堆疊的網(wǎng)絡(luò)層越多,模型中緩解過度平滑問題的能力也會下降。在本部分實(shí)驗(yàn)中:改變MSGNN中含有的2種圖網(wǎng)絡(luò)層的數(shù)量,并在6個數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),所得到的模型分類準(zhǔn)確率結(jié)果如圖4所示。
圖4 MSGNN中不同數(shù)量的圖網(wǎng)絡(luò)層在6個數(shù)據(jù)集下的分類準(zhǔn)確率對比Fig.4 Comparison of classification accuracy of different number of GNN layers in MSGNN under six data sets
在圖4中,坐標(biāo)圖中橫軸上的數(shù)字(從1到6)是MSGNN中所含有的MSGCN層與MSGGNN層的數(shù)量,比如橫軸為1表示MSGNN中MSGCN層與MSGGNN層的數(shù)量均為1層。通過觀察可以發(fā)現(xiàn),當(dāng)增加圖網(wǎng)絡(luò)層的數(shù)量時,模型的分類準(zhǔn)確率會呈現(xiàn)出先上升后下降的趨勢。過少的網(wǎng)絡(luò)層數(shù)量會使得模型的學(xué)習(xí)能力不足,而過多的網(wǎng)絡(luò)層會使得模型訓(xùn)練時間大幅增加且可能損害模型的分類性能。
本文提出一種基于多狀態(tài)圖神經(jīng)網(wǎng)絡(luò)的文本分類算法MSGNN。通過引入網(wǎng)絡(luò)層的多個時刻的歷史狀態(tài)信息,結(jié)合參數(shù)共享的方式,來緩解圖神經(jīng)網(wǎng)絡(luò)中存在的過度平滑問題。在特征提取方面結(jié)合了2種不同類型的圖神經(jīng)網(wǎng)絡(luò),得到了層次豐富的隱藏特征?;诙囝^自注意力機(jī)制的圖讀出器函數(shù)從多個角度將隱藏特征轉(zhuǎn)化為更為完善的文本表示,最終提升模型的分類準(zhǔn)確率。通過在6個公開數(shù)據(jù)集上,與9個基準(zhǔn)算法進(jìn)行實(shí)驗(yàn)對比,MSGNN在其中4個數(shù)據(jù)集上取得了最佳的實(shí)驗(yàn)結(jié)果。在對比實(shí)驗(yàn)部分可以得知,不同數(shù)量的注意力頭以及圖網(wǎng)絡(luò)層對MSGNN的分類性能有影響,而這些超參數(shù)較為適合的值可通過實(shí)驗(yàn)進(jìn)行確定。
盡管MSGNN具有較強(qiáng)的特征提取、特征聚合以及表示優(yōu)化等能力,但其中的多步歷史隱藏狀態(tài)與圖網(wǎng)絡(luò)層數(shù)量相關(guān),而在某些領(lǐng)域的實(shí)驗(yàn)成本通常較高。因此在后續(xù)研究中可以考慮如何更合理地選擇圖網(wǎng)絡(luò)層數(shù)量,比如,通過構(gòu)建加權(quán)圖結(jié)構(gòu)結(jié)合圖節(jié)點(diǎn)重要度來自適應(yīng)地去掉圖中的某些邊,以緩解算法模型中的過度平滑問題,并降低其對圖網(wǎng)絡(luò)層數(shù)量的敏感度。