• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      GM-FastText多通道詞向量短文本分類模型①

      2022-09-20 04:12:16白子誠周艷玲
      關(guān)鍵詞:集上類別短文

      白子誠, 周艷玲, 張 龑

      (湖北大學(xué) 計(jì)算機(jī)與信息工程學(xué)院, 武漢 430062)

      1 引言

      隨著互聯(lián)網(wǎng)的普及, 中國大數(shù)據(jù)產(chǎn)業(yè)領(lǐng)跑全球, 每時(shí)每刻都產(chǎn)生大量的短文本數(shù)據(jù)信息, 如新聞標(biāo)題、應(yīng)用評(píng)論、短信息等[1]. 在大數(shù)據(jù)時(shí)代背景下, 大量短文本信息的篩選與管理成為人們亟待解決的需求. 文本分類作為自然語言處理(natural language processing, NLP)的一個(gè)子任務(wù), 是將指定文本歸納到預(yù)定義標(biāo)簽的過程, 廣泛應(yīng)用于新聞標(biāo)題分類、情感分析、主題標(biāo)簽和對話系統(tǒng)等, 對于特定的信息篩選, 有著極大的便利. 與長文本分類相比, 短文本分類數(shù)據(jù)具有特征稀疏, 用詞不規(guī)范, 數(shù)據(jù)海量等問題[2].

      目前處理短文本分類思路主要有兩個(gè)方向[3]: 一是通過大規(guī)模的預(yù)訓(xùn)練語言模型, 生成“動(dòng)態(tài)”的嵌入詞向量, 通過引入大量的外部信息提高分類效果; 二是通過構(gòu)建優(yōu)良的模型結(jié)構(gòu), 更深層次的挖掘信息從而提高分類準(zhǔn)確度. 本文同時(shí)考慮這兩個(gè)角度改進(jìn)提高文本分類效果. 為了獲取更多短文本的特征, 采用FastText方法[4]代替?zhèn)鹘y(tǒng)Word2Vec方法產(chǎn)生嵌入詞向量, 這種方式不單單只是利用字向量級(jí)別的嵌入詞向量, 同時(shí)產(chǎn)生含有N-gram級(jí)別的嵌入詞向量, 形成多通道的嵌入詞向量輸入; 另外在多通道的嵌入詞輸入下, 采取了GRU (gate recurrent unit)和多層感知機(jī)(multi-layer perceptron, MLP)混合網(wǎng)絡(luò)結(jié)構(gòu)(GRU-MLP hybrid network architecture, GM)提取并結(jié)合各通道詞向量特征. 提出新的文本分類結(jié)構(gòu)GM-FastText, 并在多個(gè)數(shù)據(jù)集上通過對比分析其性能.

      2 相關(guān)工作

      在數(shù)據(jù)較小情況下, 可以采用傳統(tǒng)的機(jī)器學(xué)習(xí)方式, 如樸素貝葉斯、K-近鄰、支持向量機(jī)等, 這些方法通過對數(shù)據(jù)集的預(yù)定義學(xué)習(xí)從而預(yù)測結(jié)果. 然而, 特征工程的建立往往需要大量工作量. 隨著數(shù)據(jù)量的增長,傳統(tǒng)機(jī)器學(xué)習(xí)方式已不再適用, 卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks, RNN)等基于神經(jīng)網(wǎng)絡(luò)可以自主提取文本的特征, 減少大量人工標(biāo)注, Kim[5]提出TextCNN模型, 應(yīng)用了多個(gè)不同卷積核提取文本特征實(shí)現(xiàn)文本分類.

      實(shí)現(xiàn)自主提取特征的關(guān)鍵是字詞向量化. 在NLP中廣泛應(yīng)用的獨(dú)熱編碼(one-hot)將詞表示為長度為詞表大小的長維度向量, 其中僅一個(gè)緯度值為1及表示這個(gè)詞. 這樣的編碼方式易于理解, 但是難以聯(lián)系上下文關(guān)系, 在實(shí)際應(yīng)用過程中易造成維數(shù)災(zāi)難等問題. 然而, 分布式詞向量表示則在很大程度上解決了以上問題, 訓(xùn)練良好的分布式詞向量可以通過計(jì)算向量之間歐幾里得距離衡量相似度. 現(xiàn)階段主流的分布式詞向量訓(xùn)練模型有Mikolov[6]在2013年提出的Word2Vec模型, 其訓(xùn)練方式有兩種模式: CBOW和Skip-gram, 并通過層次Softmax和負(fù)采樣兩種優(yōu)化方式訓(xùn)練, 可以得到較為準(zhǔn)確的詞向量表示. Facebook研究團(tuán)隊(duì)提出的FastText模型是一個(gè)開源詞向量計(jì)算和文本分類工具, 其效果可以媲美深度神經(jīng)網(wǎng)絡(luò), 運(yùn)行速度快并且在CPU上一分鐘能實(shí)現(xiàn)10萬數(shù)據(jù)級(jí)別的分類任務(wù), 同樣是在Word2Vec的基礎(chǔ)上進(jìn)行了改進(jìn), 可以得到除了詞向量以外的N-gram向量信息. 張焱博等人[7]將預(yù)訓(xùn)練詞向量分別通過CNN-Bi-LSTM和FastText提取淺層語義并做拼接然后直接映射到分類, 得到了較好的結(jié)果并加速了訓(xùn)練過程. 汪家成等人[8]為解決FastText準(zhǔn)確率低問題, 在輸入階段使用TextRank和TF-IDF技術(shù)使輸入特征表示信息量更高. 范昊等人[9]則利用Bi-GRU直接處理FastText詞向量. 但是這些操作僅是對FastText不同N-gram詞向量簡單的疊加操作, 而丟失了各個(gè)N-gram詞向量獨(dú)立特征. 不同N-gram詞向量這一特性對于短文本分類處理可以一定程度上解決“簡寫”導(dǎo)致超出詞表問題. 然而FastText產(chǎn)生的向量組比主流的詞向量多了很多數(shù)據(jù)參數(shù), 如何建立高效網(wǎng)絡(luò)結(jié)構(gòu)成為一個(gè)挑戰(zhàn), 針對此問題采取了GRU和MLP混合網(wǎng)絡(luò)結(jié)構(gòu).

      3 GM-FastText模型

      為了解決短文本分類中存在的特征稀疏、用詞不規(guī)范等問題, 本文根據(jù)FastText模型能產(chǎn)生多通道的詞向量等特點(diǎn), 結(jié)合GRU和MLP等模型在特征提取上的優(yōu)勢提出了GM-FastText模型. GM-FastText模型流程圖如圖1所示, 利用FastText模型產(chǎn)生3種不同的嵌入詞向量編碼, One-Emb、Two-Emb、Thr-Emb分別代表由1、2、3個(gè)字表示的向量. 將One-Emb輸入到GRU網(wǎng)絡(luò)提取One-Emb信息, 然后再輸入到MLP-Layer層. Two-Emb和Thr-Emb則直接輸入到MLP-Layer層. 通過MLP層聯(lián)系3組嵌入詞向量, 平均池化后連接全連接層得到分類結(jié)果.

      圖1 GM-FastText模型結(jié)構(gòu)圖

      3.1 FastText

      FastText模型架構(gòu)如圖2所示, 只有輸入層、隱藏層、輸出層3層構(gòu)成. 雖然其結(jié)構(gòu)與Word2Vec模型的CBOW類似, 但是模型任務(wù)不同. 前者通過上下文預(yù)測中間詞, 后者通過全部特征預(yù)測文本標(biāo)簽.

      圖2 FastText模型結(jié)構(gòu)

      模型中{X1, X2, …, Xn-1, Xn}表示文本中的特征詞向量, 通過隱藏層將多個(gè)詞向量疊加經(jīng)過激活函數(shù)得到輸出層的輸入:

      其中, Hdoc表示平均文本特征, W0表示隱藏層權(quán)重矩陣, Y表示輸出層輸入.

      對于大量類別的數(shù)據(jù)集, 在做類別概率歸一化時(shí)會(huì)占用非常長的時(shí)間, 因此在模型輸入層中引入了分層Softmax[10], 其思想是根據(jù)類別的頻率構(gòu)造哈夫曼樹來代替標(biāo)準(zhǔn)Softmax, 只需要計(jì)算一條路徑上所有節(jié)點(diǎn)的概率值, 不需要在意其他節(jié)點(diǎn), 可以將計(jì)算時(shí)間復(fù)雜度從O(N)降低到O(logN).

      FastText通過詞袋模型獲取文本特征的同時(shí), 還融入了N-gram信息. 其基本思想是按指定的步長進(jìn)行大小為N的窗口滑動(dòng), 最終得到片段長度N的序列. 這樣對于一些罕見單詞可以提供更好的詞向量, 對于一些超出詞表的單詞可以通過字符級(jí)N-gram進(jìn)行組合,同時(shí)也面臨著內(nèi)存壓力. FastText模型隨著語料庫增加, 使用Hash的方式被分配到不同的桶中緩解內(nèi)存壓力.

      3.2 GUR

      為采用GRU模型處理字符集別的嵌入詞向量, 這個(gè)模型由Chung[11]提出, 是RNN的變種與LSTM (long short-term memory)結(jié)構(gòu)相似. 然而GUR只有兩個(gè)門控, 分別是更新門和重置門, 簡化了模型結(jié)構(gòu)計(jì)算效率更高, 同時(shí)也能解決梯度消失和梯度爆炸等文本信息丟失問題.

      GRU模型結(jié)構(gòu)由圖3所示, Zt為更新門, 是由隱藏狀態(tài)Ht-1和當(dāng)前輸入Xt控制, 其計(jì)算過程如式(3)所示, Wz表示為權(quán)重, 通過激活函數(shù)Sigmoid將結(jié)果映射到0-1之間, 結(jié)果越大表示存儲(chǔ)下來的信息多, 反之越少, 有助于獲取長序列依賴關(guān)系. Rt為重置門決定了對上一時(shí)刻的信息的獲取程度, 如式(4)所示, 有助于獲取短序列的依賴關(guān)系. H~t表示當(dāng)前序列的隱藏狀態(tài),是由重置門和當(dāng)前輸入控制, 使用tanh激活函數(shù)結(jié)果映射在-1~1之間如式(5)所示. Ht表示傳遞到下個(gè)序列信息, 通過更新門實(shí)現(xiàn)記憶更新, 其計(jì)算如式(6).

      圖3 GRU模型結(jié)構(gòu)圖

      3.3 MLP-Layer

      為了使3種不同特征通道之間參數(shù)能有交互, 設(shè)計(jì)了MLP-Layer層[12], 是由層歸一化層(LayerNorm)、全聯(lián)接層和一個(gè)激活層構(gòu)成, 其結(jié)構(gòu)如圖4所示. 層歸一化是為了突出特征同時(shí)保持特征穩(wěn)定的分布結(jié)構(gòu),然后再通過全聯(lián)接層和激活層輸入到下一層. 其計(jì)算流程可以如式(7), 其中X表示輸入, Y表示輸出, W表示訓(xùn)練權(quán)重, b表示偏置, σ表示激活函數(shù).

      圖4 MLP-Layer結(jié)構(gòu)

      4 實(shí)驗(yàn)結(jié)果分析

      該實(shí)驗(yàn)將采取多個(gè)數(shù)據(jù)集與傳統(tǒng)的基線模型做對比, 分析模型的性能, 實(shí)驗(yàn)使用Python 3.8版本, 采用NVIDIA 1070顯卡作為計(jì)算平臺(tái).

      4.1 數(shù)據(jù)集

      該實(shí)驗(yàn)采用短新聞標(biāo)題去驗(yàn)證模型的效果, 由于數(shù)據(jù)庫過大, 限于計(jì)算資源, 分別從THUCNews、Sogo新聞庫中選取10個(gè)類別按每個(gè)類別2萬條, 然后每個(gè)類別抽取2 000條以1:1分為測試集和驗(yàn)證集. 由于頭條新聞庫單個(gè)類別數(shù)量少, 選取了10個(gè)類別每個(gè)類別只抽取12 000條再分別抽取出2 000條以1:1分為測試集和驗(yàn)證集. 數(shù)據(jù)集的詳細(xì)情況如表1所示.

      表1 數(shù)據(jù)集信息表

      4.2 實(shí)驗(yàn)評(píng)估指標(biāo)

      實(shí)驗(yàn)將詞向量維度設(shè)置為300, 采用Adam優(yōu)化器進(jìn)行參數(shù)更新, 學(xué)習(xí)率設(shè)置為0.001, 批處理設(shè)置為128, 為防止過擬合隨機(jī)失活率設(shè)置為0.5. 文本分類常用指標(biāo)包括精確率P、召回率R、F1以及準(zhǔn)確率Accuracy, 由于F1指標(biāo)中已經(jīng)包含了精確率P和召回R, 所以選擇F1和Accuracy作為評(píng)估指標(biāo).

      為了驗(yàn)證GM-FastText模型的有效性, 主要從兩個(gè)角度進(jìn)行了對比. 首先使用相同的運(yùn)行參數(shù), 且都使用隨機(jī)初始化嵌入詞向量對比分析了TextCNN、TextRNN、DPCNN[13]、RCNN[14]、Transformer、FastText 模型的文本分類性能. 同時(shí)為了分析GM結(jié)構(gòu)的特征提取優(yōu)勢, 將FastText分別與RNN、CNN拼接后的模型FastText-CNN、FastText-RNN與GMFastText模型也進(jìn)行對比實(shí)驗(yàn)分析.

      4.3 實(shí)驗(yàn)結(jié)果分析

      各模型在3個(gè)數(shù)據(jù)集上的F1值如表2-表4所示.從表2可以看出, GM-FastText模型在THUCNews數(shù)據(jù)集中各分類的F1值最好. 與傳統(tǒng)文本分類模型TextCNN、TextRNN相比, GM-FastText在該數(shù)據(jù)集上F1值提升最大類別為Sport和Stock分別為0.04和0.05, 10個(gè)類別F1值分別平均提升0.02和0.019;采用FastText詞向量, GM-FastText與FastText,FastText-CNN和FastText-RNN相比在該數(shù)據(jù)集上F1值提升最大類別為Stock、Entertainment和Stock分別為0.02、0.03和0.03, 10個(gè)類別F1值平均提升0.005, 0.015, 0.011.

      表2 THUCNews數(shù)據(jù)集10類別F1值

      從表3中可以看出, 在頭條新聞庫數(shù)據(jù)集中除Entertainment、Education和Travel這3個(gè)類別外有7個(gè)類別達(dá)到最優(yōu)值. 與傳統(tǒng)文本分類模型TextCNN、TextRNN相比, GM-FastText在該數(shù)據(jù)集上F1值提升最大類別為Science和Word分別為0.03和0.04,10個(gè)類別F1值分別平均提升0.013和0.015; 采用FastText詞向量, GM-FastText與FastText, FastText-CNN和FastText-RNN相比在該數(shù)據(jù)集上F1值提升最大類別為Financial、Science和Word分別為0.03、0.03和0.03, 10個(gè)類別F1值平均提升0.008, 0.008,0.013.

      表3 頭條新聞庫數(shù)據(jù)集10個(gè)類別F1值

      從表4可以看出, 在Sogo新聞庫數(shù)據(jù)中除Travel類別外其他9個(gè)分類能達(dá)到最好的效果. 與傳統(tǒng)文本分類模型TextCNN、TextRNN相比, GM-FastText在該數(shù)據(jù)集上F1值提升最大類別都為Culture分別為0.07和0.06, 10個(gè)類別F1值分別平均提升0.032和0.035 ; 采用FastText詞向量, GM-FastText與FastText,FastText-CNN和FastText-RNN相比, 在該數(shù)據(jù)集上F1值提升最大類別為Culture、Education和Science分別為0.02、0.05和0.05, 10個(gè)類別F1值平均提升0.005, 0.019, 0.025.

      表4 Sogo新聞庫數(shù)據(jù)集10個(gè)類別F1值

      根據(jù)以上分析, GM-FastText與傳統(tǒng)文本分類模型TextCNN、TextRNN相比, 在3個(gè)數(shù)據(jù)集上F1平均提升0.021和0.023; GM-FastText相比于FastText,FastText-CNN和FastText-RNN在3個(gè)數(shù)據(jù)集上10個(gè)類別F1平均提升0.006, 0.014和0.016.

      各模型在3個(gè)數(shù)據(jù)集上的準(zhǔn)確率值如表5所示.從表5中可以看出, GM-FastText在不同的數(shù)據(jù)集上都達(dá)到了最高的值. 與傳統(tǒng)文本分類模型TextCNN、TextRNN相比, GM-FastText分別在3種數(shù)據(jù)集上準(zhǔn)確率提升了1.74、0.95、3.2和1.64、1.58、3.03個(gè)百分點(diǎn); 采用FastText詞向量, GM-FastText與FastText、FastText-CNN、FastText-RNN相比在3個(gè)不同的數(shù)據(jù)集上的準(zhǔn)確率分別提升, 0.56、0.28、0.43,1.15、0.41、1.62和1.01、1.09、2.21個(gè)百分點(diǎn).

      表5 各模型在不同數(shù)據(jù)集的準(zhǔn)確率(%)

      由以上數(shù)據(jù)可得, GM-FastText與傳統(tǒng)文本分類模型TextCNN、TextRNN相比在3個(gè)數(shù)據(jù)集上準(zhǔn)確率平均提升1.96、2.08個(gè)百分點(diǎn); GM-FastText相比于FastText, FastText-CNN和FastText-RNN在3個(gè)數(shù)據(jù)集上準(zhǔn)確率平均提升0.42、1.06、1.41個(gè)百分點(diǎn).

      同時(shí)從表2-表5可以看出DPCNN和Transformer兩個(gè)深度神經(jīng)網(wǎng)絡(luò)模型, 相比其他網(wǎng)絡(luò)模型準(zhǔn)確率上缺乏優(yōu)勢, 說明僅依靠增加網(wǎng)絡(luò)深度對于短文本處理沒有明顯的提升效果.

      總之, 針對3個(gè)數(shù)據(jù)集表2-表5中的F1值和準(zhǔn)確率的性能改善可知, FastText多通道詞向量在短文本分類中有更好的詞向量表達(dá)和更加準(zhǔn)確的特征表示;且GM網(wǎng)絡(luò)結(jié)構(gòu)相對于傳統(tǒng)的CNN、RNN模型在應(yīng)對多通道大量數(shù)據(jù)時(shí)有更好的特征提取和整合能力.

      5 結(jié)論與展望

      通過詞向量表征和模型結(jié)構(gòu)兩個(gè)切入點(diǎn), 構(gòu)建了一個(gè)多通道嵌入詞的簡易網(wǎng)絡(luò)短文本分類模型GMFastText. 通過FastText生成3種不同N-gram嵌入詞向量, 以多通道的形式輸入到GM結(jié)構(gòu)中, 突出文本特征然后通過全聯(lián)接層得到結(jié)果. GM-FastText模型利用N-gram特殊的滑窗結(jié)構(gòu)構(gòu)建特殊的字詞向量, 對于短新聞中一些極簡詞也有對應(yīng)向量解決大多數(shù)的OOV問題, 提高了部分類別新聞分類準(zhǔn)確率. 盡管MLP提取整合多特征向量有著良好性能, 但是特征向量經(jīng)過1次MLP-Layer層特征識(shí)別有限, 在接下來的工作中應(yīng)著重優(yōu)化MLP-Layer嘗試多次經(jīng)過MLP-Layver層多次提取詞向量特征.

      猜你喜歡
      集上類別短文
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      KEYS
      Keys
      復(fù)扇形指標(biāo)集上的分布混沌
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      論類別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      短文改錯(cuò)
      短文改錯(cuò)
      库伦旗| 个旧市| 西乌| 克什克腾旗| 华阴市| 抚顺市| 襄城县| 县级市| 靖边县| 静海县| 武义县| 双城市| 金坛市| 武夷山市| 南澳县| 随州市| 衡阳市| 偃师市| 英德市| 荥阳市| 新蔡县| 瑞金市| 盱眙县| 临安市| 托克托县| 曲沃县| 健康| 凤山县| 南平市| 江华| 榕江县| 芦溪县| 阿鲁科尔沁旗| 柯坪县| 新密市| 习水县| 上虞市| 富顺县| 历史| 开原市| 英山县|