• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于情緒圖標(biāo)的弱監(jiān)督情緒分類

      2019-04-12 06:40:42李壽山
      關(guān)鍵詞:圖標(biāo)人工輔助

      張 璐,王 路,李壽山

      (蘇州大學(xué) 自然語(yǔ)言處理實(shí)驗(yàn)室 江蘇 蘇州 215006)

      0 引言

      情緒分析是自然語(yǔ)言處理領(lǐng)域的一個(gè)研究熱點(diǎn),通過(guò)分析人們發(fā)布的文本推測(cè)他們的主觀感受.情緒分類是情緒分析的基本任務(wù),旨在判斷文本表達(dá)的情緒類別,例如高興、生氣等.隨著社交媒體的迅速發(fā)展,情緒分類得到了越來(lái)越多的關(guān)注.在過(guò)去十年里,情緒分類已經(jīng)被應(yīng)用在一系列現(xiàn)實(shí)場(chǎng)景中,例如股票市場(chǎng)、在線聊天和新聞分類等[1-3].

      在以往的研究中,傳統(tǒng)的情緒分類方法主要著眼于監(jiān)督學(xué)習(xí)方法,這些方法需要充足的標(biāo)注樣本來(lái)訓(xùn)練模型.但在很多場(chǎng)景下,標(biāo)注樣本有限,并且獲得大量標(biāo)注樣本需要極大的成本.

      在社交媒體中,有很多樣本包含情緒圖標(biāo),而這些情緒圖標(biāo)有時(shí)包含明確的情緒信息.

      利用自動(dòng)標(biāo)注樣本最直接的方式是將它們和人工標(biāo)注樣本混合,擴(kuò)大標(biāo)注樣本的數(shù)量.簡(jiǎn)單混合不是個(gè)好選擇,因?yàn)樽詣?dòng)標(biāo)注樣本中會(huì)存在不少噪聲,甚至錯(cuò)誤標(biāo)注樣本.例如,例2和例3包含了相同的情緒圖標(biāo)卻表達(dá)了相反的情緒.通常來(lái)說(shuō),自動(dòng)標(biāo)注樣本的數(shù)量遠(yuǎn)遠(yuǎn)大于人工標(biāo)注樣本的數(shù)量,簡(jiǎn)單混合可能會(huì)由于噪音而影響人工標(biāo)注樣本的性能.所以,我們需要一個(gè)更好的模型從另一個(gè)角度來(lái)利用人工標(biāo)注樣本.

      本文提出了一種基于少量人工標(biāo)注樣本和大量含有情緒圖標(biāo)的自動(dòng)標(biāo)注樣本的弱監(jiān)督學(xué)習(xí)方法.不同于簡(jiǎn)單混合兩類樣本,我們提出了一種聯(lián)合學(xué)習(xí)方法Aux-LSTM.具體而言,我們將基于自動(dòng)標(biāo)注樣本和人工標(biāo)注樣本的兩個(gè)情緒分類任務(wù)分別看作主任務(wù)和輔助任務(wù).主任務(wù)通過(guò)輔助任務(wù)的共享LSTM層獲得主任務(wù)的輔助表示,將此輔助表示加入到主任務(wù)中進(jìn)行聯(lián)合學(xué)習(xí).實(shí)驗(yàn)結(jié)果表明,本文提出的聯(lián)合學(xué)習(xí)方法遠(yuǎn)優(yōu)于混合方法.

      1 相關(guān)工作

      文本情感分析通常包含情感分析[4-5]和情緒分析[6-7].迄今為止,已經(jīng)有很多關(guān)于情緒分析的研究工作[7-13],本文主要研究情緒分類問(wèn)題.

      早期的一些情緒分類研究利用規(guī)則來(lái)決定情緒類別,例如Kozareva等[14]首先采用統(tǒng)計(jì)方法利用上下文詞語(yǔ)與情緒關(guān)鍵詞的共現(xiàn)關(guān)系對(duì)文本進(jìn)行情緒分類.自此以后,大多數(shù)情緒分類研究都采用基于機(jī)器學(xué)習(xí)的方法.這些基于機(jī)器學(xué)習(xí)的方法大體上可以被分為兩類:監(jiān)督學(xué)習(xí)方法和半監(jiān)督學(xué)習(xí)方法.

      監(jiān)督學(xué)習(xí)方法將情緒分類當(dāng)作一個(gè)監(jiān)督學(xué)習(xí)問(wèn)題,利用標(biāo)注樣本使用不同的特征訓(xùn)練一個(gè)分類器[3,15-19].半監(jiān)督學(xué)習(xí)方法將情緒分類當(dāng)作一個(gè)半監(jiān)督學(xué)習(xí)問(wèn)題,利用少量標(biāo)注樣本和大量未標(biāo)注樣本訓(xùn)練一個(gè)分類器.與有監(jiān)督的情緒分類相比,與半監(jiān)督情緒分類有關(guān)的研究比較少.Liu等[3]提出了一種協(xié)同學(xué)習(xí)算法,利用未標(biāo)注數(shù)據(jù)中的信息提升情緒分類的性能.Li等[10]提出了一個(gè)雙視圖標(biāo)簽傳播算法,將源文本和回復(fù)文本分別看作兩個(gè)視圖.

      本文屬于半監(jiān)督情緒分類,與已有的半監(jiān)督情緒分類方法相比,本文強(qiáng)調(diào)了社交網(wǎng)絡(luò)中情緒圖標(biāo)的重要性,并通過(guò)一種聯(lián)合學(xué)習(xí)的方式加以利用.文獻(xiàn)[11]提出了一個(gè)類似的方法,利用情緒關(guān)鍵詞從網(wǎng)絡(luò)上獲得大量樣本,并將這些樣本作為自動(dòng)標(biāo)注數(shù)據(jù)訓(xùn)練一個(gè)粗粒度情緒分類系統(tǒng).但是,這種方法并沒(méi)有考慮人工標(biāo)注樣本和自動(dòng)標(biāo)注樣本同時(shí)出現(xiàn)的情況.實(shí)驗(yàn)結(jié)果表明同時(shí)利用人工標(biāo)注樣本和自動(dòng)標(biāo)注樣本比僅僅利用自動(dòng)標(biāo)注樣本的效果更好.

      2 語(yǔ)料庫(kù)構(gòu)建和分析

      2.1 人工標(biāo)注樣本

      數(shù)據(jù)來(lái)自新浪微博,我們使用Huang等[20]的標(biāo)注體系,一共標(biāo)注了2 953條微博.表1展示了7種情緒類別的樣本分布,很顯然,分布相當(dāng)不平衡.大約有1/3的樣本屬于高興類別,而只有1%的樣本表示恐懼.

      本文關(guān)注粗粒度的情緒分類,所有的情緒類別被映射成了兩個(gè)基本類別,即正面情緒和負(fù)面情緒.如表2所示,我們忽略了中性情緒,并將剩余的6類情緒映射為正面情緒和負(fù)面情緒.表3展示了經(jīng)過(guò)映射以后各個(gè)類別的樣本分布情況.

      表1 每種情緒類別的樣本分布Tab.1 The number of sentences in each emotion category

      表2 情緒間的映射關(guān)系Tab.2 Mapping relationships between emotions

      2.2 自動(dòng)標(biāo)注樣本

      我們利用情緒圖標(biāo)來(lái)獲得大量自動(dòng)標(biāo)注樣本.表4展示了正面和負(fù)面情緒類別中情緒圖標(biāo)的數(shù)量以及一些例子.如果一條微博中包含的正面(負(fù)面)情緒圖標(biāo)數(shù)目多于負(fù)面(正面)情緒圖標(biāo)數(shù)目,那么它就會(huì)被標(biāo)注成正面(負(fù)面)情緒.以這種方式,我們可以快速獲得超過(guò)100 000條自動(dòng)標(biāo)注樣本.

      3 方法

      本節(jié)主要介紹我們提出的聯(lián)合學(xué)習(xí)方法Aux-LSTM,同時(shí)利用人工標(biāo)注樣本和自動(dòng)標(biāo)注樣本進(jìn)行情緒分類.

      表3 經(jīng)過(guò)映射后每種情緒類的樣本分布Tab.3 The number of sentences in each emotion category after mapping

      表4 每種情緒類別中情緒圖標(biāo)的數(shù)目Tab.4 The numbers of emotions in each emotion category

      3.1 基于LSTM的情緒分類方法

      首先,我們用T表示輸入,經(jīng)過(guò)LSTM[21]層得到新的表示h,

      h=LSTM(T).

      接著,將LSTM層的輸出連接到全連接層:h*=dense(h)=φ(θTh+b),其中:φ是非線性激活函數(shù),這里使用Relu,h*表示全連接層的輸出,θ和b分別代表權(quán)重和偏置.

      然后,為了防止過(guò)擬合,我們采用了dropout層,公式為:hd=h*·D(p*),其中:D表示dropout操作,p*表示dropout的概率,hd表示dropout層輸出.

      最后,我們使用sigmoid層給出預(yù)測(cè)概率,公式為:p=sigmoid(Wdhd+bd),其中:p表示情緒類別的預(yù)測(cè)概率,Wd表示需要學(xué)習(xí)的權(quán)重矩陣,bd表示偏置.

      我們的情緒分類模型通過(guò)最小化交叉熵?fù)p失函數(shù)來(lái)優(yōu)化,具體公式為:

      其中:loss表示情緒分類的損失函數(shù);m是樣本數(shù)目;k是情緒類別數(shù);yij表示第i個(gè)樣本屬于第j個(gè)類別;pij代表對(duì)應(yīng)的預(yù)測(cè)概率.

      3.2 基于聯(lián)合學(xué)習(xí)的情緒分類方法

      圖1描述了我們的Aux-LSTM方法,它包含了一個(gè)主任務(wù)和一個(gè)輔助任務(wù).我們把使用人工標(biāo)注樣本的情緒分類任務(wù)當(dāng)作主任務(wù),把使用自動(dòng)標(biāo)注樣本的情緒分類任務(wù)當(dāng)作輔助任務(wù),旨在利用輔助表示幫助提高主任務(wù)的分類性能.這種方法的主要思想是通過(guò)主任務(wù)和輔助任務(wù)共享輔助LSTM層,同時(shí)利用人工標(biāo)注樣本和自動(dòng)標(biāo)注樣本.

      圖1 Aux-LSTM的總體框架Fig.1 The overall architecture of Aux-LSTM

      3.2.1主任務(wù) 主任務(wù)的表示分別由主LSTM層和輔助LSTM層生成:

      hmain1=LSTMmain(T),hmain2=LSTMaux(T),

      其中:hmain1和hmain2分別表示主LSTM層和輔助LSTM層的輸出.

      接著,我們將兩個(gè)LSTM層的輸出分別連接到兩個(gè)全連接層,并將兩個(gè)全連接層的輸出進(jìn)行拼接后,連接到另一個(gè)全連接層,得到新的表示:

      ⊕denseaux11(hmain2)),

      3.2.2輔助任務(wù) 輔助任務(wù)的表示由輔助LSTM層生成,輔助LSTM層是嫁接兩個(gè)分類任務(wù)的共享LSTM層,使用與主任務(wù)中輔助LSTM層相同的權(quán)重對(duì)輸入進(jìn)行編碼,haux=LSTMaux(T).

      3.2.3聯(lián)合學(xué)習(xí) 在聯(lián)合學(xué)習(xí)方法中,我們對(duì)主任務(wù)和輔助任務(wù)的損失函數(shù)進(jìn)行線性組合得到聯(lián)合學(xué)習(xí)的損失函數(shù):

      其中:λ表示權(quán)重參數(shù);yijmain和yijaux分別表示主任務(wù)和輔助任務(wù)中第i個(gè)樣本屬于第j個(gè)類別;pijmain和pijaux分別表示對(duì)應(yīng)的預(yù)測(cè)概率;l是L2正則化參數(shù);θ代表所有的參數(shù).我們使用Adam[22]作為優(yōu)化算法,神經(jīng)網(wǎng)絡(luò)中所有矩陣和向量初始化采用均一分布[23].

      4 實(shí)驗(yàn)

      在這個(gè)部分,我們將系統(tǒng)分析同時(shí)利用人工標(biāo)注樣本和自動(dòng)標(biāo)注樣本的聯(lián)合學(xué)習(xí)方法在情緒分類上的效果.

      4.1 實(shí)驗(yàn)設(shè)置

      如第3節(jié)所述,所有的人工標(biāo)注語(yǔ)料和自動(dòng)標(biāo)注語(yǔ)料都來(lái)自新浪微博.在主任務(wù)中,我們隨機(jī)挑選人工標(biāo)注樣本的5%、10%和20%作為訓(xùn)練數(shù)據(jù)集,另選20%作為測(cè)試集.在輔助任務(wù)中,我們隨機(jī)選取2 000、4 000、6 000、8 000和10 000條自動(dòng)標(biāo)注樣本作為訓(xùn)練集,測(cè)試集與主任務(wù)中一致.

      本文實(shí)驗(yàn)采用一元詞特征,每條微博被表示為一個(gè)詞袋模型.我們采用正確率作為評(píng)價(jià)指標(biāo)來(lái)衡量預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽之前的差距.

      4.2 單個(gè)情緒分類任務(wù)的實(shí)驗(yàn)結(jié)果

      在這部分,我們將匯報(bào)單獨(dú)使用人工標(biāo)注樣本或自動(dòng)標(biāo)注樣本的情緒分類結(jié)果.我們實(shí)現(xiàn)了幾種情緒分類方法.

      SVM (support vector machine):使用libSVM工具包實(shí)現(xiàn),所有參數(shù)通過(guò)驗(yàn)證集進(jìn)行調(diào)整.

      ME (maximum entropy):使用Mallet工具包實(shí)現(xiàn),所有參數(shù)通過(guò)驗(yàn)證集進(jìn)行調(diào)整.

      LSTM:使用Keras工具包實(shí)現(xiàn),具體參數(shù)如表5所示.

      表6展示了3種基本方法使用不同比例的人工標(biāo)注樣本時(shí)的結(jié)果.從表中我們可以看出,SVM表現(xiàn)最差,與其他兩者相比,LSTM表現(xiàn)不錯(cuò),這可能是因?yàn)長(zhǎng)STM模型更能捕捉序列信息.所以,我們將LSTM模型作為聯(lián)合學(xué)習(xí)方法的基本分類器.

      表5 LSTM中的參數(shù)設(shè)置Tab.5 Parameter settings in LSTM

      表6 不同的方法使用不同比例的人工標(biāo)注樣本時(shí)的結(jié)果Tab.6 The results of different classification methods using human-annotated data

      表7展示了3種基本方法使用不同數(shù)目的自動(dòng)標(biāo)注樣本時(shí)的結(jié)果.從表中我們可以看出,不同的方法對(duì)樣本數(shù)量的適應(yīng)性不同,沒(méi)有一種方法完全優(yōu)于另外兩種.例如,當(dāng)我們使用2 000條訓(xùn)練樣本時(shí),SVM表現(xiàn)最好,但是使用10 000條訓(xùn)練樣本時(shí),ME表現(xiàn)最好.

      表7 不同的方法使用不同數(shù)量的自動(dòng)標(biāo)注樣本時(shí)的結(jié)果Tab.7 The results of different classification methods using auto-annotated data

      此外,我們進(jìn)一步發(fā)現(xiàn),當(dāng)使用LSTM時(shí),訓(xùn)練樣本數(shù)目從2 000增長(zhǎng)到6 000,正確率隨著訓(xùn)練樣本數(shù)目的增長(zhǎng)而提高,但是當(dāng)訓(xùn)練樣本從6 000增長(zhǎng)到10 000,正確率反而下降了.這與人工標(biāo)注樣本上的實(shí)驗(yàn)結(jié)果不同,這種現(xiàn)象表明正確率并不能總是隨著自動(dòng)標(biāo)注樣本數(shù)目的增長(zhǎng)而提高,由于自動(dòng)標(biāo)注樣本存在噪聲甚至是錯(cuò)誤,所以我們?cè)谑褂米詣?dòng)標(biāo)注樣本時(shí)要很小心.

      4.3 聯(lián)合學(xué)習(xí)情緒分類任務(wù)的實(shí)驗(yàn)結(jié)果

      為了充分比較,我們實(shí)現(xiàn)了兩種情緒分類的聯(lián)合學(xué)習(xí)方法.

      混合模型:簡(jiǎn)單混合人工標(biāo)注樣本和自動(dòng)標(biāo)注樣本,并訓(xùn)練了一個(gè)LSTM分類器進(jìn)行情緒分類.與單個(gè)LSTM模型相比,這個(gè)混合模型包含更多的訓(xùn)練樣本.

      Aux-LSTM:利用輔助表示進(jìn)行聯(lián)合學(xué)習(xí),在這個(gè)模型里,我們同時(shí)考慮利用人工標(biāo)注樣本的情緒分類和利用自動(dòng)標(biāo)注樣本的情緒分類這兩個(gè)任務(wù).這個(gè)方法旨在利用情緒圖標(biāo)的額外信息提升情緒分類的性能.

      圖2~4分別展示了使用5%、10%和20%的人工標(biāo)注樣本時(shí)各種方法的分類結(jié)果.使用5%的人工標(biāo)注樣本時(shí),基于人工標(biāo)注樣本的LSTM模型的性能總是低于基于自動(dòng)標(biāo)注樣本的LSTM模型.這是可以理解的,因?yàn)槿斯?biāo)注樣本的數(shù)目太少.當(dāng)我們混合這兩個(gè)數(shù)據(jù)集時(shí),我們的方法Aux-LSTM總體上優(yōu)于混合模型,尤其是自動(dòng)標(biāo)注樣本數(shù)目增大時(shí).與基于人工標(biāo)注樣本的LSTM模型相比,我們方法的提升很顯著,大約6%,這就印證了自動(dòng)標(biāo)注的有效性.

      圖2 使用5%的人工標(biāo)注樣本時(shí)各種方法的分類結(jié)果Fig.2 Performances of different approaches to emotion classification with 5% human-annotated data

      圖3 使用10%的人工標(biāo)注樣本時(shí)各種方法的分類結(jié)果Fig.3 Performances of different approaches to emotion classification with 10% human-annotated data

      使用10%的人工標(biāo)注樣本時(shí),基于人工標(biāo)注樣本的LSTM模型的性能與基于自動(dòng)標(biāo)注樣本的LSTM模型相當(dāng).當(dāng)我們混合這兩個(gè)數(shù)據(jù)集時(shí),我們的方法Aux-LSTM明顯優(yōu)于混合模型.與基于人工標(biāo)注樣本的LSTM模型相比,我們方法的提升依舊顯著,大約6%.

      使用20%的人工標(biāo)注樣本時(shí),基于人工標(biāo)注樣本的LSTM模型的性能優(yōu)于基于自動(dòng)標(biāo)注樣本的LSTM模型.當(dāng)我們混合這兩個(gè)數(shù)據(jù)集時(shí),我們的方法Aux-LSTM仍然優(yōu)于混合模型,在所有方法中分類性能最好,盡管與基于人工標(biāo)注樣本的LSTM模型相比,我們方法的提升只有2%.

      4.4 參數(shù)敏感性和錯(cuò)誤分析

      在我們的聯(lián)合學(xué)習(xí)模型中,有一個(gè)參數(shù)λ用來(lái)平衡兩個(gè)情緒分類任務(wù)的重要性.我們?cè)谧詣?dòng)標(biāo)注樣本的數(shù)目固定為6 000時(shí)測(cè)試這個(gè)參數(shù)的敏感度.圖5展示了在不同人工標(biāo)注樣本數(shù)目的情況下,情緒分類性能隨λ變化的情況.從這張圖中我們可以看出,這個(gè)參數(shù)并不敏感.當(dāng)λ從0.6變化到0.75時(shí),我們的方法表現(xiàn)始終很穩(wěn)定.

      圖4 使用20%的人工標(biāo)注樣本時(shí)各種方法的分類結(jié)果Fig.4 Performances of different approaches to emotion classification with 20% human-annotated data

      圖5 參數(shù)敏感性的測(cè)試結(jié)果Fig.5 The result of parameter sensitiveness

      我們的方法雖然取得了84%的分類性能,但是仍然有很大提升空間.通過(guò)分析結(jié)果,我們發(fā)現(xiàn)主要有以下兩種錯(cuò)誤:1) 一些微博同時(shí)包含正面和負(fù)面的關(guān)鍵詞,分類器很難分辨.例如,例4中的“好看”表達(dá)了正面情緒,而“比較差”表達(dá)了負(fù)面情緒.2) 一些微博太短,增加了分類器分類的難度.例如,例5只有兩個(gè)字,無(wú)法判斷屬于哪個(gè)情緒類別.

      例4:這個(gè)相機(jī)顏色好看,像素比較差.例5:嗷嗷!

      5 結(jié)論

      本文首先利用未標(biāo)注樣本中的情緒圖標(biāo)信息獲得大量自動(dòng)標(biāo)注樣本,緊接著提出了一個(gè)聯(lián)合學(xué)習(xí)方法,即Aux-LSTM,來(lái)同時(shí)利用人工標(biāo)注樣本和自動(dòng)標(biāo)注樣本.我們通過(guò)輔助任務(wù)的共享LSTM層獲得主任務(wù)的輔助表示,并將此輔助表示加入到主任務(wù)中進(jìn)行聯(lián)合學(xué)習(xí).實(shí)驗(yàn)結(jié)果表明,使用自動(dòng)標(biāo)注是提升情緒分類性能的有效方式,我們提出的聯(lián)合學(xué)習(xí)方法優(yōu)于一些基準(zhǔn)方法.

      在將來(lái)的研究中,我們考慮利用更多的上下文信息來(lái)提升我們的方法,并將Aux-LSTM模型應(yīng)用到細(xì)粒度的情緒分類任務(wù)中.

      猜你喜歡
      圖標(biāo)人工輔助
      人工3D脊髓能幫助癱瘓者重新行走?
      軍事文摘(2022年8期)2022-11-03 14:22:01
      小議靈活構(gòu)造輔助函數(shù)
      倒開水輔助裝置
      人工,天然,合成
      人工“美顏”
      Android手機(jī)上那些好看的第三方圖標(biāo)包
      新型多孔鉭人工種植牙
      減壓輔助法制備PPDO
      中國(guó)風(fēng)圖標(biāo)設(shè)計(jì)
      提高車輛響應(yīng)的轉(zhuǎn)向輔助控制系統(tǒng)
      汽車文摘(2015年11期)2015-12-02 03:02:53
      义马市| 武鸣县| 鄂托克旗| 哈尔滨市| 西吉县| 伊春市| 曲周县| 门头沟区| 柳州市| 鄂托克旗| 明溪县| 深泽县| 宣恩县| 石楼县| 固始县| 濮阳市| 潜山县| 宁强县| 山西省| 漳州市| 兴业县| 洪湖市| 灵台县| 保德县| 卢氏县| 金寨县| 张家界市| 嘉义县| 秦皇岛市| 阿坝| 东港市| 安庆市| 上杭县| 平定县| 东海县| 时尚| 滦平县| 竹溪县| 玉龙| 香格里拉县| 铁力市|