• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度學(xué)習(xí)的中文文本分類(lèi)算法*

      2022-02-16 08:34:00薛興榮靳其兵
      關(guān)鍵詞:準(zhǔn)確度語(yǔ)料全局

      薛興榮 靳其兵

      (北京化工大學(xué)信息科學(xué)與技術(shù)學(xué)院 北京 100029)

      1 引言

      文本情感識(shí)別也稱為情感分析、意圖挖掘[3],它是根據(jù)文本所表達(dá)的含義和情感信息將文本分為積極、消極的兩種或多種類(lèi)型,它是特殊的文本分類(lèi)問(wèn)題[4]。通過(guò)分析和研究這些數(shù)據(jù),挖掘出潛在的信息,以此來(lái)分析網(wǎng)民對(duì)社會(huì)熱點(diǎn)話題的關(guān)注度和情感傾,從而為相關(guān)部門(mén)的政策制定提供支持以及正確引導(dǎo)網(wǎng)民的情緒傳播[5~11]。

      2 方法

      本文提出了一種混合深度神經(jīng)網(wǎng)絡(luò)文本分類(lèi)模型TBLC-rAttention,如圖1 所示。模型由七個(gè)部分組成:1)輸入層:獲取文本數(shù)據(jù);2)預(yù)處理層:分詞并去除無(wú)關(guān)數(shù)據(jù);3)詞嵌入層:把文本數(shù)據(jù)映射為詞向量;4)Bi-LSTM 層:提取文本數(shù)據(jù)的上下文語(yǔ)義特征;5)Attention 機(jī)制層:生成含有注意力概率分布的加權(quán)全局語(yǔ)義特征;6)CNN 層:在加權(quán)全局語(yǔ)義特征的基礎(chǔ)上進(jìn)行局部語(yǔ)義特征提取;7)輸出層:實(shí)現(xiàn)文本分類(lèi)。

      圖1 TBLC-rAttention文本分類(lèi)模型

      2.1 預(yù)處理層

      對(duì)文本數(shù)據(jù)按照以下方式進(jìn)行預(yù)處理操作。

      1)數(shù)據(jù)清,刪除原始數(shù)據(jù)集中的無(wú)關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù)以及處理異常和缺失數(shù)據(jù);

      2)進(jìn)行類(lèi)別標(biāo)簽標(biāo)注;

      3)使用jieba 進(jìn)行分詞和去停用詞,在分詞的過(guò)程中可以使用一些領(lǐng)域?qū)倜~以提高分詞的準(zhǔn)確度;

      4)將預(yù)處理完成的文本數(shù)據(jù)分為訓(xùn)練集、測(cè)試集和驗(yàn)證集。

      2.2 詞嵌入層

      詞嵌入是把文本數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)能夠識(shí)別和處理的過(guò)程[12],如圖2所示。

      在這樣的故事情節(jié)之中,小說(shuō)的創(chuàng)作還體現(xiàn)出如下的特點(diǎn):首先,小說(shuō)具有歐·亨利特有的結(jié)尾方式。即,故事的結(jié)局既在人的預(yù)料之中又出乎人的意料。因而,它體現(xiàn)出了故事獨(dú)有的幽默,體現(xiàn)出了小說(shuō)主題特有的諷刺。其次,小說(shuō)語(yǔ)言與眾不同。在小說(shuō)各種語(yǔ)言描寫(xiě)中,作者不僅通過(guò)巧妙的修辭增強(qiáng)了文學(xué)語(yǔ)言的意蘊(yùn)性,還且通過(guò)對(duì)時(shí)弊的針砭產(chǎn)生了“含淚的微笑”。

      圖2 文本數(shù)據(jù)向量化表示

      通過(guò)詞嵌入矩陣Ew的映射,把按批次讀入帶有標(biāo)簽的文本數(shù)據(jù)映射為一個(gè)三維詞向量矩陣M,Ew可以通過(guò)Word2Vec 等方法得到。此時(shí),一個(gè)包含n 個(gè)字的文本Dj=(x1,x2,…,xn)可以表示如下:

      其中,M∈Rbatch×n×d,Ew∈Rvw×d,batch為每一批次讀入的文本數(shù)據(jù)條數(shù),vw為字典大小,d 為詞向量維度,每個(gè)字在Ew中都有一個(gè)唯一的用于檢索其對(duì)應(yīng)詞向量的索引bxi。

      2.3 Bi-LSTM 層

      2.4 Attention機(jī)制層

      在Bi-LSTM 網(wǎng)絡(luò)之后引入注意力機(jī)制[14~16],對(duì)重要的信息給予較多的關(guān)注,模型如圖3所示。

      圖3 多注意力機(jī)制

      其中,V∈Rbatch×r*n×2d為加權(quán)全局語(yǔ)義特征,a∈Rbatch×r*n×2d為注意力概率分布,r 為每個(gè)文本的Attention 方案數(shù),Wa1∈Rd×n是全局注意力權(quán)重矩陣,ba為全局注意力偏置矩陣,wa2∈Rr*n×d為每個(gè)文本不同的Attention 方案矩陣,m 值越大說(shuō)明了該時(shí)刻的全局語(yǔ)義特征越重要。

      得到每一時(shí)刻的ai后,將它們分別和該時(shí)刻對(duì)應(yīng)的hi相乘,得到第i 時(shí)刻的加權(quán)全局語(yǔ)義特征Vi。

      2.5 CNN層

      把V作為CNN的[17~18]輸入進(jìn)行局部特征提取,如圖4 所示。每一次卷積都通過(guò)一個(gè)固定大小的窗口來(lái)產(chǎn)生一個(gè)新的特征,經(jīng)過(guò)卷積后得到第j個(gè)文本包含局部和全局語(yǔ)義特征的Cj,接著采用最大池化方法得到每個(gè)文本的最終特征表示C。

      圖4 CNN模型

      其中,C ∈Rbatch×2d,Cj∈R(r*n-h+1)×2d,Wvi∈R2d×h為卷積核向量,h 和2d 分別為卷積核窗口的高和寬,Vi:h表示第i行到第h 行的加權(quán)全局語(yǔ)義特征值,bvi表示偏置。

      2.6 輸出層

      把C 作為分類(lèi)層的輸入,分類(lèi)層采用dropout方式將最佳特征Cd連接到Softmax 分類(lèi)器中,并計(jì)算輸出向量p(y):

      其中,p(y)∈Rbatch×classes,Wc和bc分別表示分類(lèi)器的權(quán)重參數(shù)和偏置項(xiàng),classes表示文本的類(lèi)別數(shù),Cd為C通過(guò)dropout產(chǎn)生的最佳特征。

      分類(lèi)器用于計(jì)算出每個(gè)文本屬于每一類(lèi)別的概率向量p(y),然后選擇最大概率y對(duì)應(yīng)的類(lèi)型作為文本分類(lèi)的預(yù)測(cè)輸出,通過(guò)分類(lèi)器層之后,整個(gè)模型就實(shí)現(xiàn)對(duì)文本的分類(lèi)任務(wù)。

      3 實(shí)驗(yàn)

      3.1 實(shí)驗(yàn)語(yǔ)料

      語(yǔ)料數(shù)據(jù)是利用爬蟲(chóng)技術(shù)爬取某電商平臺(tái)上一種感冒藥銷(xiāo)售的評(píng)論數(shù)據(jù),語(yǔ)料的一些基本信息如表1、圖5和圖6所示。

      圖5 語(yǔ)料句子長(zhǎng)度分布

      圖6 語(yǔ)料詞云圖

      表1 語(yǔ)料數(shù)據(jù)信息

      3.2 實(shí)驗(yàn)設(shè)置

      具體實(shí)驗(yàn)設(shè)置如表2和表3所示。

      表2 實(shí)驗(yàn)環(huán)境

      表3 實(shí)驗(yàn)參數(shù)設(shè)置

      3.3 模型訓(xùn)練

      其中,θ為模型當(dāng)前參數(shù),α為學(xué)習(xí)率,N 為訓(xùn)練樣本大小,D 是訓(xùn)練樣本,L是樣本D 對(duì)應(yīng)的真實(shí)類(lèi)別標(biāo)簽,Li∈L,y 為分類(lèi)器的預(yù)測(cè)分類(lèi)結(jié)果,p(Lj)表示正確分類(lèi)結(jié)果,λ是L2正則項(xiàng)系數(shù)。

      3.4 評(píng)價(jià)指標(biāo)

      其中,TP 為真正率,TN 為真負(fù)率,F(xiàn)P 為假正率,F(xiàn)N為假負(fù)率。

      4 結(jié)果與討論

      模型訓(xùn)練過(guò)程的準(zhǔn)確度和損失值變化如圖7所示,為了比較本文提出的模型性能,選取了CNN、LSTM、Bi-LSTM、BiLSTM+Attention、RCNN 5 種模型作為比較基準(zhǔn),比較結(jié)果如表4 所示,所有結(jié)果都是在訓(xùn)練的準(zhǔn)確度和測(cè)試準(zhǔn)確度都不再變化再循環(huán)1000次后得到的結(jié)果。

      圖7 訓(xùn)練過(guò)程中個(gè)模型的準(zhǔn)確度和損失值變化

      表4 各文本分類(lèi)模型分類(lèi)效果對(duì)比

      在表4 中,通過(guò)LSTM 和Bi-LSTM 的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),雖然Bi-LSTM 花費(fèi)的時(shí)間比LSTM 多,但是準(zhǔn)確度提高了約3%,這是由于Bi-LSTM 網(wǎng)絡(luò)通過(guò)正向和反向兩層網(wǎng)絡(luò)結(jié)構(gòu)來(lái)擴(kuò)展單向的LSTM 網(wǎng)絡(luò)的結(jié)果,這樣的網(wǎng)絡(luò)結(jié)構(gòu)可以充分提取文本的上下文信息,但是空間復(fù)雜度是LSTM 的2倍,所以花費(fèi)的時(shí)間比LSTM 略長(zhǎng);在Bi-LSTM 模型中引入Attention 機(jī)制準(zhǔn)確度提高了4%左右,說(shuō)明Attention 機(jī)制的確可以有效識(shí)別出對(duì)分類(lèi)影響較大的特征信息;只使用CNN 時(shí),雖然準(zhǔn)確率不是最好的但大大的節(jié)省了訓(xùn)練時(shí)間;RCNN 汲取了RNN 和CNN 各自的優(yōu)勢(shì),分類(lèi)效果比單獨(dú)使用RNN、CNN 都好,與BiLSTM+Attention 效果相近;本文提出的模型分類(lèi)準(zhǔn)確率達(dá)到了99%,在本次實(shí)驗(yàn)的所有模型中分類(lèi)準(zhǔn)確度最高,模型在驗(yàn)證時(shí)以100%的準(zhǔn)確率實(shí)現(xiàn)了數(shù)據(jù)分類(lèi),值得注意的是當(dāng)消費(fèi)者沒(méi)有進(jìn)行評(píng)論,電商系統(tǒng)會(huì)默認(rèn)為好評(píng),但模型將這類(lèi)數(shù)據(jù)視為中評(píng)。

      5 結(jié)語(yǔ)

      本文提出了一種基于混合深度神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情識(shí)別方法,該方法先提取文本數(shù)據(jù)的上下文語(yǔ)義特征,再提取局部語(yǔ)義特征得到最終的特征表示,并通過(guò)實(shí)驗(yàn)驗(yàn)證了本文提出模型的有效性。未來(lái)的工作是如何對(duì)語(yǔ)料數(shù)據(jù)進(jìn)行更好的預(yù)處理操作,例如進(jìn)一步減少噪聲數(shù)據(jù)、更好地進(jìn)行精準(zhǔn)分詞等;同時(shí),研究其他算法和模型,并進(jìn)行有效的融合和改進(jìn),進(jìn)一步提高分類(lèi)的準(zhǔn)確度。

      猜你喜歡
      準(zhǔn)確度語(yǔ)料全局
      Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
      量子Navier-Stokes方程弱解的全局存在性
      落子山東,意在全局
      金橋(2018年4期)2018-09-26 02:24:54
      幕墻用掛件安裝準(zhǔn)確度控制技術(shù)
      建筑科技(2018年6期)2018-08-30 03:40:54
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      動(dòng)態(tài)汽車(chē)衡準(zhǔn)確度等級(jí)的現(xiàn)實(shí)意義
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      新思路:牽一發(fā)動(dòng)全局
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法
      洛宁县| 琼结县| 赤城县| 松原市| 宽甸| 会宁县| 庆城县| 清苑县| 南靖县| 饶阳县| 金昌市| 恩施市| 商河县| 铜鼓县| 疏附县| 云南省| 隆安县| 罗平县| 龙口市| 哈尔滨市| 承德县| 富裕县| 永济市| 洛隆县| 株洲县| 莱芜市| 罗田县| 宣化县| 屏山县| 高邑县| 阿城市| 浠水县| 珠海市| 安义县| 洛川县| 泽库县| 抚松县| 宿松县| 敦化市| 莒南县| 泗洪县|