關(guān)鍵詞:深度學(xué)習(xí);藏文新聞;文本分類;FastText;性能比較
0 引言
隨著信息技術(shù)的快速發(fā)展,新聞信息呈現(xiàn)出爆炸式增長的趨勢,特別是在多語言環(huán)境下,文本分類技術(shù)的應(yīng)用顯得尤為重要。藏文新聞文本數(shù)量眾多,其文本分類不僅關(guān)乎藏族地區(qū)信息的有效傳播,還對促進(jìn)藏族文化的傳承與發(fā)展具有重要意義。藏文新聞文本分類旨在將海量的藏文新聞文本按照不同的主題或類別進(jìn)行劃分,以便用戶快速瀏覽和篩選感興趣的內(nèi)容。在新聞推薦和輿情分析等領(lǐng)域,藏文文本分類發(fā)揮著至關(guān)重要的作用。
目前,藏文文本分類方法主要包括傳統(tǒng)機器學(xué)習(xí)方法和深度學(xué)習(xí)方法。采用傳統(tǒng)機器學(xué)習(xí)方法解決藏文文本分類問題已有不少研究。賈會強[1]在深入研究藏文語言特性及其語法結(jié)構(gòu)后,系統(tǒng)探索了藏文文本的向量空間表示模型,并成功運用KNN算法進(jìn)行了藏文文本分類研究。王勇[2]以樸素貝葉斯算法為核心,設(shè)計并實現(xiàn)了一個高效的藏文文本分類器。王莉莉[3]提出了一種基于集成多個分類器的藏文文本分類模型,融合了卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、長短時記憶網(wǎng)絡(luò)以及雙向長短時記憶網(wǎng)絡(luò)等深度學(xué)習(xí)模型。蘇慧婧[4]等的工作以詞特征為基礎(chǔ),運用信息增益算法優(yōu)化特征向量維度,并結(jié)合KNN模型實現(xiàn)了穩(wěn)定的分類性能。
早期研究[1-4]在藏文文本分類上雖有所成效,但受限于無法深入捕捉文本語義,分類精度受限。隨著深度學(xué)習(xí)技術(shù)的興起,研究者們開始探索其在藏文文本分類中的應(yīng)用,以期提升分類的精度和效率。近年來,隨著深度學(xué)習(xí)在自然語言處理領(lǐng)域的深入發(fā)展,越來越多的研究聚焦于如何利用深度學(xué)習(xí)技術(shù)提升藏文文本分類的性能。Qun等人[5]顯著推動了藏文文本分類領(lǐng)域的研究,首先構(gòu)建了TNCC數(shù)據(jù)集,并應(yīng)用CNN和LSTM模型,證明了神經(jīng)網(wǎng)絡(luò)在藏文文本分類上的優(yōu)勢。他們發(fā)現(xiàn)LSTM在短文本分類上優(yōu)于CNN 和N-gram,而神經(jīng)詞袋模型在長文本上表現(xiàn)更佳。Li 等人[6]通過自建數(shù)據(jù)集測試多種深度學(xué)習(xí)模型,發(fā)現(xiàn)藏文詞組在分類效果上優(yōu)于音節(jié)。李艾琳[7]采用樸素貝葉斯分類器對Web輿情中的藏文文本進(jìn)行了分類研究。此外,為了捕捉文本的上下文信息,研究者們還廣泛采用了基于N-gram的藏文詞和音節(jié)的文本分類方法。這些方法在邏輯回歸、AdaBoost等常用分類模型中也得到了應(yīng)用,進(jìn)一步豐富了藏文文本分類的研究領(lǐng)域。Yan等人[8]在藏文新聞?wù)Z料處理上進(jìn)行了創(chuàng)新,他們首先進(jìn)行了預(yù)處理,并基于藏文的詞匯和語法結(jié)構(gòu)特性,構(gòu)建了一個藏文音節(jié)表。通過將音節(jié)嵌入每個藏文文本中,實現(xiàn)了每個音節(jié)到固定數(shù)值向量的轉(zhuǎn)換。這種方法為整個藏文語料生成了向量化表示,這些表示被用作循環(huán)神經(jīng)網(wǎng)絡(luò)模型的輸入。實驗結(jié)果充分展示了循環(huán)神經(jīng)網(wǎng)絡(luò)模型在藏文文本分類任務(wù)中相較于傳統(tǒng)機器學(xué)習(xí)方法的優(yōu)勢。
盡管已有研究在藏文文本分類領(lǐng)域取得了顯著成果,但模型性能依然具有提升空間。針對當(dāng)前方法中模型泛化能力不強、對特定類別文本分類效果不佳等問題,本研究采用公開數(shù)據(jù)集,通過對比研究不同深度學(xué)習(xí)模型在藏文文本分類任務(wù)中的性能,探索提升分類準(zhǔn)確率的方法。
1 文本分類方法研究
1.1 文本分類模型的選擇
文本分類作為自然語言處理(NLP) 領(lǐng)域中的一項基礎(chǔ)任務(wù),其重要性不言而喻。然而,藏文文本分類面臨獨特挑戰(zhàn),如復(fù)雜的語法、詞匯含義和表達(dá)方式,以及文本數(shù)據(jù)的稀缺性和質(zhì)量問題。具體來說,藏文與其他語言在表達(dá)習(xí)慣上的差異增加了文本分類的難度,而缺乏大規(guī)模、高質(zhì)量的標(biāo)注數(shù)據(jù)集則限制了深度學(xué)習(xí)等先進(jìn)技術(shù)的應(yīng)用。此外,藏文文本中可能存在的噪聲和冗余信息也對分類性能構(gòu)成了挑戰(zhàn)。
在藏文新聞文本分類中,采用了基于n-gram[9]的特征表示方法。這種方法將文本視為由詞和n-gram 組成的序列,并使用隨機初始化的詞向量來表示這些元素,從而將文本數(shù)據(jù)轉(zhuǎn)換為模型可以理解的數(shù)值形式。FastText模型在處理這種表示時具有顯著優(yōu)勢,因為它能夠同時考慮詞級和n-gram級別的特征,從而更全面地捕捉文本的語義信息。通過結(jié)合n-gram特征表示方法和FastText模型,為藏文文本分類提供了一種有效的解決方案。
1.2 FastText 模型的介紹
FastText在進(jìn)行文本分類或情感分析時會生成詞的嵌入(embedding) ,即embedding 是FastText 類別的產(chǎn)物。因此,在項目的運行入口文件run.py中,當(dāng)選擇的深度神經(jīng)網(wǎng)絡(luò)是FastText時,embedding會再次初始化為隨機值。FastText和Word2Vec的CBOW模型框架非常相似,F(xiàn)astText也只有三層:輸入層、隱藏層、輸出層。輸入層接收多個詞向量表示的單詞,輸出層則是一個特定的標(biāo)簽,隱藏層對多個詞向量進(jìn)行疊加平均。FastText模型的主要三個層次包括:
1) 輸入層。FastText的輸入是多個單詞及其ngram特征,這些特征用于表示單個文檔并進(jìn)行embed?ding。
2) 隱藏層。對輸入的n-gram特征進(jìn)行處理。
3) 輸出層。輸出層是文檔對應(yīng)的類標(biāo),主要思想是將整篇文檔的詞及n-gram向量疊加平均得到文檔向量,然后使用文檔向量進(jìn)行SoftMax[10]多分類。Fast?Text在輸入時將單詞的字符級別的n-gram向量作為額外的特征;在輸出時采用分層的SoftMax。如圖1所示,以“??????????????????????????”(西藏大學(xué))句子為例,其包含了3 個embedding層(為了區(qū)分詞嵌入、2-gram嵌入和3-gram嵌入,示例中標(biāo)注了3個嵌入層,實際上可以合并為一個),嵌入層后面是一個隱藏層即全連接層,輸入為嵌入向量的均值,最后是輸出層,也是一個全連接層進(jìn)行類別分類。
2 實驗
2.1 實驗的數(shù)據(jù)集
為了驗證所選模型的有效性,本文使用了李果等人[12]提供的公開數(shù)據(jù)集TNEWS。該數(shù)據(jù)集包含12種不同類別的藏文新聞文本標(biāo)題,是藏文文本分類研究的重要資源。將TNEWS數(shù)據(jù)集按8∶1∶1的比例劃分為訓(xùn)練集、驗證集和測試集,以用于模型的訓(xùn)練和評估。
2.2 實驗的環(huán)境配置
本文實驗平臺的相關(guān)配置如表1所示。
2.3 實驗的設(shè)計
1) DPCNN:深度卷積神經(jīng)網(wǎng)絡(luò)模型,通過堆疊多個卷積層來提取文本的特征。
2) TextCNN:基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型,通過卷積操作來捕捉文本的局部信息。
3) TextRCNN:遞歸卷積神經(jīng)網(wǎng)絡(luò)模型,結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)點。
4) TextRNN:基于循環(huán)神經(jīng)網(wǎng)絡(luò)的文本分類模型,能夠捕捉文本的序列信息。
5) TextRNN_Att:在TextRNN 基礎(chǔ)上引入注意力機制,使模型能夠關(guān)注文本中的關(guān)鍵部分。
這些模型在文本分類任務(wù)中表現(xiàn)出色,并且具有不同的網(wǎng)絡(luò)結(jié)構(gòu)和特點。選擇這些模型的原因是它們能夠代表不同類型的文本分類方法,并且可以與FastText模型進(jìn)行比較,以評估FastText模型在藏文新聞文本分類任務(wù)中的性能。
2.4 實驗參數(shù)設(shè)置
本文實驗平臺的相關(guān)參數(shù)設(shè)置如表2所示。
2.5 實驗結(jié)果分析
在相同的實驗條件下,本文利用TNEWS數(shù)據(jù)集對所選模型進(jìn)行了訓(xùn)練和測試。實驗結(jié)果表明,F(xiàn)ast?Text模型在關(guān)鍵指標(biāo)上均優(yōu)于基準(zhǔn)模型,具體結(jié)果如表3所示。
表3展示了各模型在準(zhǔn)確率、精確率、召回率和F1分?jǐn)?shù)上的性能對比。通過對比可以看出,F(xiàn)astText 模型在各項指標(biāo)上均取得了較優(yōu)的表現(xiàn)。特別是與DPCNN 模型相比,F(xiàn)astText 模型在準(zhǔn)確率上提高了2.9%,在F1 分?jǐn)?shù)上提高了2.8%,這進(jìn)一步驗證了FastText模型在藏文新聞文本分類任務(wù)中的有效性。
在本文的藏文文本分類任務(wù)中,我們評估了Tex?tRNN_Att、TextRNN、TextRCNN、TextCNN、FastText 和DPCNN六種模型的性能。實驗結(jié)果顯示,F(xiàn)astText和TextCNN在準(zhǔn)確率上表現(xiàn)較好,其中FastText在精確率和F1分?jǐn)?shù)上略占優(yōu)勢,顯示出其在處理藏文文本時的有效性。TextRCNN也取得了接近的性能,表明其結(jié)合RNN 和CNN 的特性在文本分類任務(wù)中的潛力。相比之下,TextRNN和TextRNN_Att的性能略低,而DPCNN在本任務(wù)中表現(xiàn)最差。
為了更直觀地展示這些模型在訓(xùn)練過程中的性能變化,本文繪制了曲線圖來反映準(zhǔn)確率、精確率、召回率和F1分?jǐn)?shù)隨迭代次數(shù)的變化趨勢,如圖2所示。
如圖2所示,這些曲線圖不僅清晰地呈現(xiàn)了各模型在不同迭代次數(shù)下的性能差異,還提供了關(guān)于模型收斂速度和穩(wěn)定性的重要信息。通過這些曲線圖,可以更深入地理解各模型在藏文文本分類任務(wù)中的表現(xiàn)。
3 結(jié)論
藏文新聞文本分類非常重要。為了更好地進(jìn)行藏文文本的分類,本文探討了FastText模型的結(jié)構(gòu)及其在藏文新聞文本分類中的應(yīng)用方法,并通過實驗與幾種模型進(jìn)行了比較。實驗結(jié)果顯示,F(xiàn)astText模型在藏文新聞文本分類任務(wù)中取得了優(yōu)異的性能,在準(zhǔn)確率、召回率和F1值等指標(biāo)上均優(yōu)于其他基準(zhǔn)模型。這表明FastText模型能夠有效地捕捉文本的語義信息,并且具有較好的泛化能力,適用于藏文新聞文本的分類。