基于改進(jìn)深度學(xué)習(xí)算法的文本極性智能判斷方法研究

2020-03-03 13:20:44宋思晗王興芬杜惠英

現(xiàn)代電子技術(shù) 2020年1期

宋思晗王興芬杜惠英

摘 ?要：為了解決傳統(tǒng)的文本極性智能判斷方法判斷結(jié)果準(zhǔn)確率和召回率普遍較低的問題，基于改進(jìn)深度學(xué)習(xí)算法研究一種新的文本極性智能判斷方法。在CNN結(jié)構(gòu)基礎(chǔ)上設(shè)計(jì)一種新的深度學(xué)習(xí)算法模型，模型由輸入層、輸出層、采集層、連接層、卷積層五部分構(gòu)成。使用該模型對(duì)文本進(jìn)行智能判斷，判斷過程共有五步，分別是文本預(yù)處理、情感詞提取、表情符號(hào)提取、感情傾向值計(jì)算和情感最終傾向值分析。為檢測所提方法的有效性以及優(yōu)越性，與傳統(tǒng)判斷方法進(jìn)行實(shí)驗(yàn)對(duì)比，結(jié)果表明，基于改進(jìn)深度學(xué)習(xí)算法的文本極性智能判斷方法判斷的準(zhǔn)確率和召回率更高，發(fā)展空間更廣闊。

關(guān)鍵詞：文本極性; 智能判斷方法; 算法模型設(shè)計(jì); 有效性檢測; 深度學(xué)習(xí)算法; 文本預(yù)處理

中圖分類號(hào)： TN911.1?34; TP393 ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼： A ? ? ? ? ? ? ? ? ? 文章編號(hào)： 1004?373X（2020）01?0076?04

Research on text polarity intelligent judgment method

based on improved deep learning algorithm

SONG Sihan， WANG Xingfen， DU Huiying

Abstract： The accuracy and recall rate of traditional text polarity intelligent judgment methods both are generally low. In view of the above， a new method of text polarity intelligent judgment is studied based on improved deep learning algorithm. A new deep learning algorithm model is designed based on the CNN structure. The model consists of five parts： input layer， output layer， acquisition layer， connection layer and convolution layer. This model is used for text intelligent judgment. The judgment process is devided into five steps： text preprocessing， emotion word extraction， expression symbol extraction， emotion tendency value calculation and emotion final tendency value analysis. In order to test the effectiveness and superiority of the proposed method， an experimental comparison with the traditional judgment method was performed. The results show that the judgemental accuracy and recall rate of the text polarity intelligent judgment method based on the improved deep learning algorithm is higher， and the development space is broader.

Keywords： text polarity; intelligent judgment method; algorithm model design; effectiveness detection; deep learning algorithm; text pre?processing

0 ?引 ?言

隨著互聯(lián)網(wǎng)技術(shù)的進(jìn)步，網(wǎng)絡(luò)成為人們工作生活必不可少的組成部分。據(jù)2018年市場調(diào)查顯示，我國互聯(lián)網(wǎng)的發(fā)展速度已經(jīng)處于世界前列，互聯(lián)網(wǎng)在全國的普及率高達(dá)61.3%，網(wǎng)民規(guī)模達(dá)到了8.25億[1]。近年來，隨著移動(dòng)互聯(lián)網(wǎng)的不斷普及，網(wǎng)絡(luò)服務(wù)范圍得以最大化推廣，大眾生活方式也得以改變[2]。

人機(jī)智能是一種新型技術(shù)，在智能識(shí)別和智能判斷中發(fā)揮著重要作用，將人機(jī)智能融入到文本極性智能判斷中，可以大大提高判別算法的工作效率。在機(jī)器學(xué)習(xí)研究中，深度學(xué)習(xí)算法有著很大的發(fā)展空間，這種起源于人工神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法可以模擬人的大腦對(duì)事物進(jìn)行分析、解釋文本、辨別聲音[3]。深度學(xué)習(xí)算法不需要監(jiān)督，它可以在低層特征中不斷組合，再根據(jù)高層特征和屬性特征找到數(shù)據(jù)的分布特征，從而完成文本分層、預(yù)測、判斷等工作[4]。

本文基于改進(jìn)深度學(xué)習(xí)算法研究了一種文本極性智能判斷方法，在卷積神經(jīng)網(wǎng)絡(luò)（CNN）的基礎(chǔ)上進(jìn)行優(yōu)化，重新訓(xùn)練學(xué)習(xí)數(shù)據(jù)，采用隱式特征抽取的方式從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)。該判別方法可以達(dá)到細(xì)粒度標(biāo)記水準(zhǔn)，將被判別文本清晰明確地分成非常消極、消極、中性、積極、非常積極五個(gè)層次[5]。

本文設(shè)計(jì)的改進(jìn)深度學(xué)習(xí)算法采用了局部權(quán)值共享的特殊結(jié)構(gòu)，能夠更好地處理語音文本和圖像文本，在布局上與生物神經(jīng)網(wǎng)絡(luò)十分相似。多維向量輸入使判斷過程不需要重建數(shù)據(jù)，降低工作復(fù)雜度[6]。為了更好地檢測所設(shè)計(jì)的文本極性智能判斷方法的有效性，本文以微博熱門話題作為樣本數(shù)據(jù)進(jìn)行實(shí)驗(yàn)，通過準(zhǔn)確率、召回率的比較實(shí)驗(yàn)，對(duì)比改進(jìn)模型與普通的CNN、RNN模型。

1 ?改進(jìn)深度學(xué)習(xí)算法模型建立

結(jié)合已有的CNN、LSTM、多層CNN、Bi?LSTM?CRF等結(jié)構(gòu)，建立了一種新型深度學(xué)習(xí)算法網(wǎng)絡(luò)結(jié)構(gòu)。該神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)共包括輸入層、輸出層、采集層、連接層、卷積層五部分，改進(jìn)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示。

改進(jìn)神經(jīng)網(wǎng)絡(luò)中，每層之間的變換都涉及一次特征提取，提取后的層由多個(gè)二維平面組成，這些二維平面統(tǒng)稱為特征映射圖。在輸入層中輸入原始文本，多次提取原始文本數(shù)據(jù)。本文采用的計(jì)算方式為二次計(jì)算，即使輸入的原始數(shù)據(jù)有很大的形變，二次計(jì)算也能夠較好地計(jì)算出結(jié)果[7]。

改進(jìn)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中卷積層和子采樣層都是獨(dú)立工作的，卷積層工作過程如圖2所示。

觀察圖2可知，卷積層會(huì)利用訓(xùn)練濾波器對(duì)輸入的數(shù)據(jù)和文本進(jìn)行卷積、偏置處理，從而得到卷積層[8]。卷積層將最初的輸入文本編程為不同的網(wǎng)格，每個(gè)網(wǎng)格都記錄著不同的特征數(shù)據(jù)，便于進(jìn)行后續(xù)工作。

子采樣過程如圖3所示。

將鄰域的4個(gè)像素匯集到一起求和，集合成一個(gè)像素后，進(jìn)行加權(quán)處理和偏置處理，通過激活函數(shù)縮小特征映射圖，縮小后的特征映射圖可以被直接提取，耗費(fèi)成本低[9]。

卷積運(yùn)算和采樣運(yùn)算都能夠強(qiáng)化文本特征，降低噪音。

連接層是以隱含狀態(tài)存在的，能夠連接上一層和下一層，在連接層中設(shè)置了權(quán)重向量和偏置向量，輸入數(shù)據(jù)經(jīng)過加權(quán)處理和偏置處理后得到一個(gè)新的數(shù)值，該數(shù)值最終會(huì)被傳給sigmoid函數(shù)。

輸出層具有分類功能，通過回歸曲線計(jì)算輸入文本屬于各種類別的概率。

將本文建立的改進(jìn)深度學(xué)習(xí)算法模型應(yīng)用到文本極性智能判斷中，選取文本中的小部分區(qū)域在神經(jīng)網(wǎng)絡(luò)最低層次中輸入，依次濾波處理和加權(quán)處理，直至確定文本信息最顯著的特征。為確保識(shí)別的一致性，每個(gè)映射上使用的權(quán)值都是相等的，隨著逐層輸出，網(wǎng)絡(luò)參數(shù)會(huì)變得越來越少，最后會(huì)出現(xiàn)唯一的不變性特征[10]。文本也可以直接以網(wǎng)格方式輸出，不需要重建數(shù)據(jù)，工作方式較為簡單。

2 ?基于改進(jìn)深度學(xué)習(xí)算法的文本極性智能判斷方法

利用前文建立的深度學(xué)習(xí)算法改進(jìn)模型對(duì)文本進(jìn)行極性智能判斷，分析文本中的情感詞和語義規(guī)則，判斷流程圖如圖4所示。

分析圖4可知，本文研究的文本極性智能判斷方法共分為五步：

1）對(duì)提取出來的文本數(shù)據(jù)進(jìn)行預(yù)處理，通過Java工具提煉所有的分詞。

2）構(gòu)建情感詞典，將情感詞典與文本中的數(shù)據(jù)進(jìn)行匹配，如果情感詞典中不包含文本數(shù)據(jù)中的關(guān)鍵詞，則要重新設(shè)定閾值，計(jì)算情感極性。

3）通過表情詞典提煉文本中的表情符號(hào)，如果文本中不包含表情符號(hào)，則直接進(jìn)入下一步。

4）同時(shí)使用否定詞典、修飾詞典和連接詞典計(jì)算出文本的感情傾向值。

5）利用加權(quán)算法對(duì)上述步驟進(jìn)行求值，得到最終的情感傾向值[S]，如果[S>0]，則判斷該文本方向?yàn)檎?如果[S<0]，則判斷該文本方向?yàn)樨?fù)向。

2.1 ?文本數(shù)據(jù)提取與預(yù)處理

2.1.1 ?文本數(shù)據(jù)提取

文本數(shù)據(jù)提取采用網(wǎng)絡(luò)爬蟲提取方式，所有的目標(biāo)網(wǎng)站和關(guān)鍵字需要自定義[11]。文本數(shù)據(jù)信息量大，一些文本數(shù)據(jù)還需要登錄，普通爬蟲難以直接提取數(shù)據(jù)，本文利用Python設(shè)計(jì)了一種新的爬蟲，能夠模擬登錄用戶ID，本文設(shè)計(jì)的爬蟲為scrapy爬蟲，獲取文本信息的流程圖如圖5所示。

本文加入了1 000個(gè)關(guān)鍵詞組成關(guān)鍵詞數(shù)據(jù)庫，使爬蟲能夠更快地獲取信息。

2.1.2 ?文本預(yù)處理

通常爬蟲得到的文本都會(huì)含有噪聲信息，如果直接對(duì)其進(jìn)行判斷，準(zhǔn)確度會(huì)大大降低，因此需要對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理[12]。預(yù)處理主要從三個(gè)方面進(jìn)行：繁體字處理;無效鏈接處理;交互信息處理。

雖然絕大多數(shù)的文本信息都是簡體字，但是也有部分文本信息為繁體字，影響后續(xù)的分詞判斷、情感詞判斷、權(quán)重處理等操作，所以有必要將文本中的繁體字轉(zhuǎn)化成簡體字。很多文本中可能會(huì)存在無效鏈接，對(duì)于智能判別毫無幫助，在整體處理之前，要將沒有用的鏈接剔除。通常只有少量文本含有交互信息，這些交互信息對(duì)于實(shí)際判別沒有任何幫助，需要去除。

2.2 ?文本中情感詞提取

在文本中，情感詞是十分重要的組成部分，提取情感詞對(duì)于文本判斷有著重要意義。每一段文本中的信息都要與情感詞典進(jìn)行匹配，如果能夠在情感詞典中匹配到相應(yīng)的信息，則只需要記錄下極性和強(qiáng)度值即可;如果不能匹配到對(duì)應(yīng)的詞語，則需要利用語義相似度計(jì)算方法計(jì)算出每個(gè)詞匯的情感傾向，設(shè)定固定閾值[13]。

情感詞典中的詞被劃分到五個(gè)類別中，分別為非常消極、消極、中性、積極、非常積極，結(jié)構(gòu)如圖6所示。

圖6中的情感詞典是經(jīng)過多次提煉和反復(fù)匹配的，包括了大量能夠表達(dá)情感的詞語，但是也有部分情感詞難以在情感詞典中匹配到，所以需要利用語義相似度方法計(jì)算文本中詞匯的情感傾向值。設(shè)定文本中的詞語為[x]，被對(duì)比的詞語為[y]，假設(shè)詞語[x]可以解釋成[m]個(gè)義項(xiàng)，則每個(gè)義項(xiàng)就可以用[x1]，[x2]，…，[xm]來表示，假設(shè)詞語[y]有[n]個(gè)義項(xiàng)，則每個(gè)義項(xiàng)就可以用[y1]，[y2]，…，[yn]來表示，詞語[x]和詞語[y]每個(gè)義項(xiàng)的最大相似度計(jì)算公式如下：

[Sim（x，y）=max[Sim（xi，yi）]] （1）

利用可變參數(shù)[λ]計(jì)算出義項(xiàng)原相似度：

[Sim（x1，y1）=λλ+d（xi，yi）] （2）

將每個(gè)義項(xiàng)原值進(jìn)行相似度計(jì)算，通過計(jì)算平均值差，得到最終的情感值計(jì)算結(jié)果。

2.3 ?語義規(guī)則與表情符號(hào)判斷

每一個(gè)文本句子都會(huì)有自己的語義規(guī)則，不同的語義規(guī)則將句子劃分為不同的種類，情感傾向通常通過修飾副詞表現(xiàn)出來，修飾強(qiáng)度不同，情感傾向也不同。如果句子中加入了否定詞語，那么情感的極性也會(huì)完全發(fā)生改變，例如未加否定詞語之前，該句子表達(dá)的為“絕對(duì)肯定”，加入了否定詞后，該句子想要表達(dá)的意思就變成了“絕對(duì)否定”。例如“我非常喜歡明星A”表達(dá)的是自己對(duì)A明星的絕對(duì)喜愛之情，在加入否定詞后，就會(huì)變成“我非常不喜歡明星A”，表達(dá)的是對(duì)某個(gè)明星的絕對(duì)厭惡之情，這是兩種完全不同的感情。

修飾程度副詞可以分為6級(jí)，代表性詞語如表1所示。

除了情感詞外，本文設(shè)定的判斷方法也會(huì)對(duì)表情符號(hào)進(jìn)行判斷，因?yàn)榕袛噙^程比較簡單，所以本文不做研究。

3 ?驗(yàn)證實(shí)驗(yàn)

3.1 ?實(shí)驗(yàn)數(shù)據(jù)

為了檢測本文研究的基于改進(jìn)深度學(xué)習(xí)算法的文本極性智能判斷方法的實(shí)際工作效果，與傳統(tǒng)判斷方法進(jìn)行對(duì)比，從具有明確情感信息的30 000條微博數(shù)據(jù)中隨機(jī)選取正向情感的微博和負(fù)向情感的微博各10 000條進(jìn)行實(shí)驗(yàn)。微博中文本信息示例如表2所示。

3.2 ?實(shí)驗(yàn)評(píng)判標(biāo)準(zhǔn)

本文將準(zhǔn)確率和召回率作為評(píng)價(jià)指標(biāo)，將判斷正確的正向情感微博文本記為TP，判斷錯(cuò)誤的正向情感微博文本記為TN，判斷正確的負(fù)向情感微博文本記為FP，判斷錯(cuò)誤的負(fù)向情感微博文本記為FN。

正向類別的微博文本準(zhǔn)確率計(jì)算公式為：

[Ppos=TPTP+FP] （3）

正向類別的微博文本召回率計(jì)算公式為：

[Rpos=TPTP+FN] （4）

負(fù)向類別的微博文本準(zhǔn)確率計(jì)算公式為：

[Pneg=TNTN+FN] （5）

負(fù)向類別的微博文本召回率計(jì)算公式為：

[Rneg=TNTN+FP] （6）

3.3 ?實(shí)驗(yàn)結(jié)果與分析

根據(jù)上述參數(shù)和評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行實(shí)驗(yàn)，設(shè)定[α]為判斷后的準(zhǔn)確率。不同[α]值下的文本分類準(zhǔn)確率如圖7所示。

觀察圖7可知，當(dāng)[α]值達(dá)到0.3時(shí)，準(zhǔn)確率最高。選用傳統(tǒng)判斷方法和本文判斷方法對(duì)同一文本進(jìn)行判斷，對(duì)比兩種方法的準(zhǔn)確率和召回率，實(shí)驗(yàn)結(jié)果對(duì)比如表3所示。

綜上所述，本文研究的判斷方法相較于傳統(tǒng)方法在準(zhǔn)確率和召回率方面均有很大程度的提高，對(duì)于關(guān)鍵詞的提取也十分準(zhǔn)確，即使在文本表達(dá)復(fù)雜的情況下，也能夠快速準(zhǔn)確地做出智能性判斷。

4 ?結(jié) ?語

本文基于改進(jìn)深度學(xué)習(xí)算法提出一種新的文本極性智能判斷方法，該方法將傳統(tǒng)的情感詞典匹配法和語義相似度計(jì)算法結(jié)合到一起，同時(shí)構(gòu)建了新的情感詞典。本文設(shè)計(jì)的判斷方法不需要多次對(duì)數(shù)據(jù)進(jìn)行標(biāo)記，具有實(shí)時(shí)判斷能力。

雖然具備上述優(yōu)點(diǎn)，但本文提出的判斷方法仍然有一部分需要深入研究，如網(wǎng)絡(luò)新詞的判斷，以及如何更好地搜尋到文本中表達(dá)關(guān)鍵信息的詞匯，希望在后續(xù)的研究中能夠得以解決。

參考文獻(xiàn)

[1] 馬勝藍(lán).基于深度學(xué)習(xí)的文本檢測算法在銀行運(yùn)維中應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用，2017，26（2）：184?188.

[2] 朱國進(jìn)，沈盼宇.基于深度學(xué)習(xí)的算法知識(shí)實(shí)體識(shí)別與發(fā)現(xiàn)[J].智能計(jì)算機(jī)與應(yīng)用，2017，7（1）：17?21.

[3] 劉江玉，李天劍.基于深度學(xué)習(xí)的倉儲(chǔ)托盤檢測算法研究[J].北京信息科技大學(xué)學(xué)報(bào)（自然科學(xué)版），2017，32（2）：78?84.

[4] 左艷麗，馬志強(qiáng)，左憲禹.基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的人體檢測研究[J].現(xiàn)代電子技術(shù)，2017，40（4）：12?15.

[5] 呂淑寶，王明月，翟祥，等.一種深度學(xué)習(xí)的信息文本分類算法[J].哈爾濱理工大學(xué)學(xué)報(bào)，2017，22（2）：105?111.

[6] 喻一梵，喬曉艷.基于深度學(xué)習(xí)算法的正負(fù)性情緒識(shí)別研究[J].測試技術(shù)學(xué)報(bào)，2017，31（5）：398?403.

[7] 廖健，王素格，李德玉，等.基于增強(qiáng)字向量的微博觀點(diǎn)句情感極性分類方法[J].鄭州大學(xué)學(xué)報(bào)（理學(xué)版），2017，49（1）：39?44.

[8] 徐嵩，李玉峰.最大效益準(zhǔn)則下基于分配公平性的CSGC改進(jìn)算法[J].電子設(shè)計(jì)工程，2017，25（5）：97?102.

[9] 陳江昀.一種基于深度學(xué)習(xí)的新型小目標(biāo)檢測方法[J].計(jì)算機(jī)應(yīng)用與軟件，2017，34（10）：227?231.

[10] 李翌昕，馬盡文.文本檢測算法的發(fā)展與挑戰(zhàn)[J]. 信號(hào)處理，2017，33（4）：558?571.

[11] 鄒煜，劉興旺.基于深度學(xué)習(xí)手寫字符的特征抽取方法研究[J].軟件，2017，38（1）：23?28.

[12] 蔣兆軍，成孝剛，彭雅琴，等.基于深度學(xué)習(xí)的無人機(jī)識(shí)別算法研究[J].電子技術(shù)應(yīng)用，2017，43（7）：84?87.

[13] 馮通.基于深度學(xué)習(xí)的航空飛行器故障自助檢測研究[J].計(jì)算機(jī)仿真，2015，32（11）：119?122.

作者簡介：宋思晗（1992—），男，山東曲阜人，碩士，主要研究方向?yàn)樽匀徽Z言處理。

王興芬（1968—），女，山東平度人，博士，教授，主要研究方向?yàn)閃eb安全、電子商務(wù)、大數(shù)據(jù)分析與管理創(chuàng)新。

杜惠英（1982—），女，福建泉州人，博士，副教授，主要研究方向?yàn)橐苿?dòng)互聯(lián)網(wǎng)、電子商務(wù)、大數(shù)據(jù)消費(fèi)者行為。