羅凌 陳毅東 曹茂元
摘要:為了從海量的網(wǎng)絡(luò)信息中迅速準(zhǔn)確地獲取評(píng)價(jià)信息,觀點(diǎn)句識(shí)別已經(jīng)成了自然語(yǔ)言處理的一個(gè)研究熱點(diǎn)?,F(xiàn)在觀點(diǎn)句識(shí)別系統(tǒng)大都是基于機(jī)器學(xué)習(xí)的方法,一般使用機(jī)器學(xué)習(xí)的方法來(lái)進(jìn)行分類(lèi)會(huì)受到領(lǐng)域差異性影響。針對(duì)這個(gè)問(wèn)題,該文對(duì)微博觀點(diǎn)句識(shí)別系統(tǒng)是否會(huì)受到微博話題影響做了經(jīng)驗(yàn)性研究,同時(shí)為了彌補(bǔ)訓(xùn)練數(shù)據(jù)的不足,該文通過(guò)規(guī)則方法自動(dòng)標(biāo)注網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行了訓(xùn)練集的擴(kuò)充。實(shí)驗(yàn)結(jié)果表明,微博話題間存在差異,進(jìn)行分話題模型訓(xùn)練可以提升微博觀點(diǎn)句識(shí)別系統(tǒng)的性能。
關(guān)鍵詞:觀點(diǎn)句識(shí)別;機(jī)器學(xué)習(xí);話題;規(guī)則
中圖分類(lèi)號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)01-0123-05
1 概述
隨著網(wǎng)絡(luò)信息量的日益增長(zhǎng),人們想要從巨大的冗余信息中準(zhǔn)確、迅速地獲取對(duì)一個(gè)事物或?qū)ο蟮脑u(píng)價(jià),這就需要快速的識(shí)別出語(yǔ)段中的觀點(diǎn)句。目前,觀點(diǎn)句識(shí)別已經(jīng)成為自然語(yǔ)言處理領(lǐng)域中的一個(gè)研究熱點(diǎn),對(duì)于觀點(diǎn)句這種不受語(yǔ)言表達(dá)約束的非規(guī)范文本,很難使用規(guī)則方法將觀點(diǎn)句全面地識(shí)別出來(lái),機(jī)器學(xué)習(xí)的方法在這方面體現(xiàn)出了一定優(yōu)勢(shì),所以現(xiàn)今的觀點(diǎn)句識(shí)別系統(tǒng)大多是基于機(jī)器學(xué)習(xí)的方法來(lái)進(jìn)行二元分類(lèi)[1]。但是,缺乏標(biāo)注訓(xùn)練數(shù)據(jù)和話題間差異性一直都是機(jī)器學(xué)習(xí)分類(lèi)的研究難點(diǎn)?;跈C(jī)器學(xué)習(xí)的觀點(diǎn)句識(shí)別系統(tǒng)也同樣存在著這樣的問(wèn)題,網(wǎng)絡(luò)上并沒(méi)有這種大量用于觀點(diǎn)句識(shí)別的標(biāo)注數(shù)據(jù)集,若要進(jìn)行人工標(biāo)注,這需要花費(fèi)大量的人力和物力。而且由于不同話題間的差異性,使用同一個(gè)分類(lèi)器對(duì)不同話題去進(jìn)行觀點(diǎn)句識(shí)別,識(shí)別效果會(huì)有所影響。針對(duì)這些問(wèn)題,我們首先通過(guò)一些人工規(guī)則對(duì)網(wǎng)絡(luò)上獲取的資源進(jìn)行自動(dòng)標(biāo)注,然后將這部分自動(dòng)標(biāo)注的語(yǔ)料加入到原有的少量訓(xùn)練語(yǔ)料中,以擴(kuò)充訓(xùn)練語(yǔ)料,再進(jìn)行分類(lèi)器分類(lèi),并做了一些常用分類(lèi)器的性能比較。同時(shí)為了驗(yàn)證話題會(huì)影響觀點(diǎn)句的識(shí)別,我們針對(duì)話題做了經(jīng)驗(yàn)研究,對(duì)比了通用分類(lèi)模型和分話題分類(lèi)模型的性能。該文中的實(shí)驗(yàn)使用NLP&CC 2012中文微博情感分析評(píng)測(cè)中的數(shù)據(jù)集, 該數(shù)據(jù)集來(lái)自于20個(gè)微博話題,實(shí)驗(yàn)中定義的觀點(diǎn)句只限定于對(duì)特定事物或?qū)ο蟮脑u(píng)價(jià),不包括內(nèi)心自我情感、意愿或心情。實(shí)驗(yàn)結(jié)果表明,加入基于規(guī)則的自動(dòng)標(biāo)注數(shù)據(jù),對(duì)機(jī)器學(xué)習(xí)分類(lèi)模型的訓(xùn)練是有幫助的,微博話題間也存在著差異性,分話題模型比通用模型有更好的效果。
文章其他部分安排如下:第二節(jié)將進(jìn)行相關(guān)工作的介紹,對(duì)觀點(diǎn)句識(shí)別進(jìn)行概述,介紹觀點(diǎn)句的概念和觀點(diǎn)句識(shí)別的研究現(xiàn)狀;第三節(jié)將介紹規(guī)則與機(jī)器學(xué)習(xí)相結(jié)合的觀點(diǎn)句識(shí)別方法;第四節(jié),針對(duì)微博話題差異性做了經(jīng)驗(yàn)研究,話題會(huì)影響觀點(diǎn)句的識(shí)別;第五節(jié)給出在NLP&CC 2012中文微博情感分析評(píng)測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)數(shù)據(jù),并進(jìn)行分析討論;第六節(jié)是進(jìn)行總結(jié)和展望。
2 相關(guān)工作
觀點(diǎn)句,即在表達(dá)的過(guò)程中帶有某種情感和觀點(diǎn)的句子,它是對(duì)特定事物或?qū)ο蟮脑u(píng)價(jià),這種觀點(diǎn)可以是作者本人的、引用于他人的、或是某群體、組織發(fā)表的[1]。國(guó)外對(duì)觀點(diǎn)句的研究起步較早,較有代表性的工作有:Wiebe [2]選擇某些詞類(lèi)(代詞、形容詞、序數(shù)詞、情態(tài)動(dòng)詞和副詞)、標(biāo)點(diǎn)和句子位置作為特征,實(shí)現(xiàn)對(duì)觀點(diǎn)句識(shí)別。Riloff [3]等人利用boot-strapping算法學(xué)習(xí)得到主觀性名詞,單獨(dú)使用主觀性名詞為特征,采用樸素貝葉斯分類(lèi)器對(duì)觀點(diǎn)句識(shí)別。Wiebe和Riloff [4]他們依靠先前研究中確定的主觀特征,分別建立了主觀分類(lèi)器和客觀分類(lèi)器,自動(dòng)從未標(biāo)注的文本中獲得大量主觀句和客觀句,再?gòu)倪@些句子中得到更多主觀性詞語(yǔ)搭配,再用準(zhǔn)確性很高的詞語(yǔ)搭配更新原始的主觀特征。Yu和Hatzivassiloglou[5]利用相似性方法、樸素貝葉斯分類(lèi)和多重樸素貝葉斯分類(lèi)等三種統(tǒng)計(jì)方法進(jìn)行觀點(diǎn)句識(shí)別研究。近幾年,由于微博的興起,針對(duì)微博數(shù)據(jù),Alexander Pak等人[6]選取n-gram和微博中的詞性標(biāo)注作為特征,利用樸素貝葉斯分類(lèi)器對(duì)微博中的觀點(diǎn)句進(jìn)行識(shí)別研究,Luciano Barbosa等人[7]采用微博中的詞性信息、詞本身的主觀性、詞的情感極性以及否定詞作為特征,訓(xùn)練分類(lèi)器,對(duì)微博主客觀性進(jìn)行分類(lèi)。D. Davidiv等人[8]提取Twitter 中的標(biāo)簽和表情符號(hào)作為訓(xùn)練集,訓(xùn)練了一個(gè)類(lèi)似KNN的分類(lèi)器,對(duì)微博情感極性進(jìn)行分類(lèi)。
國(guó)內(nèi)較早開(kāi)始該工作的是姚天昉和彭思威 [9]使用了機(jī)器學(xué)習(xí)的方法進(jìn)行分類(lèi)識(shí)別。葉強(qiáng)等 [10]提出了一種根據(jù)連續(xù)雙詞詞類(lèi)組合模式(2-POS)自動(dòng)判斷句子主觀性程度的方法。王根和趙軍 [11]提出了一種基于多重冗余標(biāo)記的CRFs進(jìn)行觀點(diǎn)句識(shí)別。蒙新泛和王厚峰 [12]通過(guò)對(duì)比試驗(yàn),分析了上下文信息對(duì)于主客觀分類(lèi)的影響。張博[9]使用模塊串行的方法進(jìn)行觀點(diǎn)句識(shí)別。宋樂(lè)等人[13]在2009年的第二屆COAE評(píng)測(cè)中文觀點(diǎn)句抽取的任務(wù)中使用了一種類(lèi)似最小圖個(gè)的方法。在2011年第三屆COAE評(píng)測(cè)中,徐瑞峰等人[14]提出一種基于圖的句子排序算法SentenceRank。
3 觀點(diǎn)句識(shí)別系統(tǒng)框架
3.1 方法概述
對(duì)于基于機(jī)器學(xué)習(xí)的觀點(diǎn)句識(shí)別系統(tǒng),需要一定量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,如果標(biāo)注數(shù)據(jù)很少,這將會(huì)大大降低分類(lèi)器的性能。針對(duì)沒(méi)有標(biāo)注訓(xùn)練數(shù)據(jù)這個(gè)問(wèn)題,張文文和王挺[15]通過(guò)基于詞典和基于規(guī)則的方法自動(dòng)構(gòu)造訓(xùn)練樣例,再使用SVM分類(lèi)器進(jìn)行觀點(diǎn)句識(shí)別。我們借鑒了這篇文章的工作,通過(guò)一些人工規(guī)則,先對(duì)未標(biāo)注的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行自動(dòng)標(biāo)注,加入到原始的訓(xùn)練集中以擴(kuò)充訓(xùn)練集,提高分類(lèi)器的效果。此外,考慮到不同話題的數(shù)據(jù)在分類(lèi)特征方面可能存在差異,除了通用的分類(lèi)模型外,該文引入了分話題模型進(jìn)行對(duì)比,我們對(duì)分類(lèi)器是否受話題差異性影響做了經(jīng)驗(yàn)研究,實(shí)驗(yàn)結(jié)果表明話題會(huì)影響觀點(diǎn)句識(shí)別,分話題模型比通用模型有更好的效果。該文實(shí)驗(yàn)訓(xùn)練和分類(lèi)流程如圖1所示:
圖 1 規(guī)則與機(jī)器學(xué)習(xí)相結(jié)合的觀點(diǎn)句識(shí)別方法流程圖
可以看到,系統(tǒng)的主體采用了機(jī)器學(xué)習(xí)的方法,但為了彌補(bǔ)分類(lèi)器訓(xùn)練集大小的不足,在訓(xùn)練前,我們利用規(guī)則模塊對(duì)從網(wǎng)絡(luò)中自動(dòng)挖掘的微博數(shù)據(jù)進(jìn)行標(biāo)注以擴(kuò)充訓(xùn)練集。在通用分類(lèi)模型中,我們將規(guī)則自動(dòng)標(biāo)注的補(bǔ)充數(shù)據(jù)和原來(lái)的標(biāo)注數(shù)據(jù)融合在一起作為通用分類(lèi)模型的訓(xùn)練數(shù)據(jù),再由分類(lèi)訓(xùn)練模塊訓(xùn)練分類(lèi)模型,再對(duì)評(píng)測(cè)數(shù)據(jù)進(jìn)行分類(lèi);在分話題模型中,我們將規(guī)則自動(dòng)標(biāo)注的補(bǔ)充數(shù)據(jù)按話題分類(lèi),在各自加上原始的標(biāo)注集去分別作為相應(yīng)分類(lèi)子模型的訓(xùn)練數(shù)據(jù),由分類(lèi)訓(xùn)練模塊訓(xùn)練出分類(lèi)子模型,然后把測(cè)試集也按話題分類(lèi),再使用相應(yīng)的分類(lèi)子模型進(jìn)行分類(lèi),得出分類(lèi)結(jié)果。
3.2基于規(guī)則的自動(dòng)訓(xùn)練集標(biāo)注
如前所述,在本系統(tǒng)中,使用了規(guī)則方法對(duì)從網(wǎng)絡(luò)中挖掘的微博數(shù)據(jù)進(jìn)行自動(dòng)觀點(diǎn)句識(shí)別。通過(guò)對(duì)標(biāo)注數(shù)據(jù)的分析,我們制定了如下的規(guī)則來(lái)進(jìn)行觀點(diǎn)句識(shí)別。在規(guī)則中需要用到情感詞典,該詞典來(lái)源于HowNet情感詞典和清華褒貶義詞典去重合并而得,共16007個(gè)詞。
觀點(diǎn)句規(guī)則:
l…+(代詞|人名|地名|專有名詞)+….+是+名詞+….
l…+(代詞|人名|地名|專有名詞)+….+副詞+形容詞+….
l...+副詞+情感詞+(代詞|人名|地名|專有名詞)
l...+比較詞+(代詞|人名|地名|專有名詞)+情感詞
l(代詞|人名|地名|專有名詞)+比較動(dòng)詞+(代詞|人名|地名|專有名詞)
l(代詞|人名|地名|專有名詞)+指示性動(dòng)詞+(代詞|人名|地名|專有名詞)+...+情感詞
非觀點(diǎn)句規(guī)則:
l僅包含hashtag,表情符合,標(biāo)點(diǎn)符號(hào)的句子判定為非觀點(diǎn)句。
l僅包含網(wǎng)址,無(wú)實(shí)際信息。
l不滿足觀點(diǎn)句規(guī)則且以動(dòng)詞開(kāi)頭的短句。
l只包含愿望詞。
l在單句中不含網(wǎng)絡(luò)新聞,且不是反問(wèn)句式判定為非觀點(diǎn)句。
我們對(duì)從網(wǎng)絡(luò)上挖掘的微博數(shù)據(jù)進(jìn)行規(guī)則匹配,凡是滿足上面規(guī)則的句子我們將其抽取出來(lái)進(jìn)行標(biāo)注,作為訓(xùn)練語(yǔ)料的補(bǔ)充。
3.3基于機(jī)器學(xué)習(xí)方法的觀點(diǎn)句識(shí)別
觀點(diǎn)句識(shí)別可以看成一個(gè)二元分類(lèi)問(wèn)題,我們使用成熟的機(jī)器學(xué)習(xí)分類(lèi)算法進(jìn)行分類(lèi)。我們?cè)谶M(jìn)行分類(lèi)訓(xùn)練時(shí)采用了通用和分話題兩種訓(xùn)練方法。通用模型是通過(guò)將所有話題的訓(xùn)練數(shù)據(jù)全部拿給分類(lèi)器訓(xùn)練出一個(gè)通用模型;話題模型是通過(guò)該話題相關(guān)的訓(xùn)練數(shù)據(jù)給分類(lèi)器分別訓(xùn)練出20個(gè)話題模型。這兩種方法我們采用的特征都是在姚天防[5],張博[9]使用的特征基礎(chǔ)上,加入了主題相關(guān)的人名特征,并進(jìn)行了特征組合實(shí)驗(yàn),最終選取了如下的特征:
1.情感詞,我們整合了知網(wǎng)和清華的情感詞典,總共約16000個(gè)詞。
2.指示性動(dòng)詞,我們使用了張博論文[9]中的指示性動(dòng)詞表和根據(jù)數(shù)據(jù)集自己添加的一些動(dòng)詞,總共約100個(gè)詞。
3.人稱代詞、專有名詞、人名、地名。
4.嘆詞和語(yǔ)氣詞。
5.副詞。
6.主題中的對(duì)象名。
7.標(biāo)點(diǎn)符號(hào)。
8.N-POS,N-POS是指語(yǔ)句中N個(gè)連續(xù)詞性的順序組合,系統(tǒng)中我們采用了1-pos和2-pos。
我們進(jìn)行了不同分類(lèi)器的效果對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)中使用了以下5種分類(lèi)器進(jìn)行了結(jié)果分類(lèi):(1)樸素貝葉斯分類(lèi)算法(Na?ve Bayes)(2)支持向量機(jī)分類(lèi)算法(SVM)(3)用于支持向量分類(lèi)的連續(xù)最小優(yōu)化算法(SMO)(4)隨機(jī)森林算法(Random Forest)(5)分類(lèi)與回歸樹(shù)算法(Classification Via Regression)。
4 話題差異性
領(lǐng)域適應(yīng)性問(wèn)題一直是自然語(yǔ)言處理領(lǐng)域的一個(gè)研究重點(diǎn),在文本分類(lèi),問(wèn)答系統(tǒng),自動(dòng)文摘,機(jī)器翻譯,文本情感分析等都存在領(lǐng)域適應(yīng)問(wèn)題。因?yàn)椴煌念I(lǐng)域數(shù)據(jù)會(huì)有不同的特點(diǎn),使用同一個(gè)模型去處理不同領(lǐng)域的同一個(gè)問(wèn)題,效果也并不理想。對(duì)于領(lǐng)域適應(yīng)性問(wèn)題,在不同的方向已經(jīng)有了很多相關(guān)研究。在文本情感分類(lèi)研究中,相同的詞語(yǔ)在不同的領(lǐng)域中可能指示著不同的情感傾向,已經(jīng)有許多研究證明了情感文本分類(lèi)在分類(lèi)的精確率上是會(huì)受到領(lǐng)域的影響,研究者們也提出了一些方法來(lái)解決此類(lèi)問(wèn)題[16]。觀點(diǎn)句識(shí)別作為文本情感分類(lèi)的基礎(chǔ)工作,我們認(rèn)為也是存在領(lǐng)域差異性的。
本次實(shí)驗(yàn)使用的測(cè)試數(shù)據(jù)來(lái)自于20個(gè)微博話題,我們根據(jù)分類(lèi)器提取的特征對(duì)數(shù)據(jù)進(jìn)行觀察和對(duì)比,發(fā)現(xiàn)不同話題間的數(shù)據(jù)是存在著差異性的,下面我們通過(guò)對(duì)微博話題數(shù)據(jù)的舉例分析來(lái)說(shuō)明這個(gè)問(wèn)題。
1)在不同的話題中,情感傾向偏向不同,導(dǎo)致情感詞在不同的話題中分布是不一致的。比如,在話題“90后當(dāng)教授”里面,總共有觀點(diǎn)句123句,其中110句是正面的情感,13句是負(fù)面的情感,里面“聰明”、“佩服”、“崇拜”等正面的情感詞出現(xiàn)的比較多。而在話題“90后暴打老人”里面,總共有觀點(diǎn)句97句,其中3句是正面的情感,94句是負(fù)面的情感,里面“畜牲”、“失敗”、“流氓”等負(fù)面的情感詞出現(xiàn)的比較多。由于話題的情感傾向性有差異,有的話題偏向正面情感,有的話題偏向負(fù)面情感,那么對(duì)于情感詞的分布就有所不同。
2)在不同的話題中,與主題相關(guān)的人名、地名、專有名詞和人稱代詞有明顯的差異。觀點(diǎn)句是對(duì)一個(gè)對(duì)象的評(píng)價(jià),所以與主題相關(guān)的人名、人稱代詞作為觀點(diǎn)句分類(lèi)系統(tǒng)中的特征是有比較大意義的,但是不同的話題,圍繞的對(duì)象是不同的,比如在話題“瘋狂的大蔥”里,“大蔥”,“物價(jià)局”等出現(xiàn)得比較頻繁,而在話題“名古屋市長(zhǎng)否認(rèn)南京大屠殺”里,“名古屋市長(zhǎng)”、“日本”等出席得比較頻繁。不同的話題評(píng)價(jià)的對(duì)象是不同的。
3)在不同的話題中,使用的句式是有比較大的區(qū)別的,所以N-POS在不同話題中是存在著差異的。比如在話題“90后當(dāng)教授”中,觀點(diǎn)句的句式大多是對(duì)這個(gè)90后的贊揚(yáng),“人才!”,“像劉路學(xué)習(xí)。”,“牛人!”等多是些名詞性的短句。而在“彭宇承認(rèn)撞了南京老太”話題中,多是“說(shuō)實(shí)話,我不太信。”,“這件事絕對(duì)不是這樣,很可能就是南京市政府搞的鬼!”,“面對(duì)政治壓力,我覺(jué)他是不得已才這樣做?!钡葘?duì)這件事的一個(gè)看法和評(píng)論,基本都是多詞性的復(fù)合句式。由于在不同話題中表達(dá)的句式不一樣,抽取出來(lái)的N-POS也就存在著很大的差異。
根據(jù)上面對(duì)測(cè)試集數(shù)據(jù)的分析,可以看出觀點(diǎn)句分類(lèi)器要抽取的文本特征,在不同的話題中,數(shù)據(jù)分布是存在著差異的,如果我們把所有標(biāo)注訓(xùn)練數(shù)據(jù)一起用來(lái)訓(xùn)練一個(gè)通用的分類(lèi)器,然后對(duì)所有話題進(jìn)行觀點(diǎn)句識(shí)別,可能會(huì)由于這些數(shù)據(jù)差異,導(dǎo)致特征稀疏,影響分類(lèi)器的精確度。針對(duì)該問(wèn)題,我們根據(jù)不同的話題,使用相應(yīng)的話題訓(xùn)練數(shù)據(jù)去訓(xùn)練話題子模型,對(duì)相應(yīng)的測(cè)試集進(jìn)行觀點(diǎn)句識(shí)別,以解決話題間差異性的問(wèn)題,后面的實(shí)驗(yàn)結(jié)果也表明話題間是存在差異的,我們的分話題訓(xùn)練也是對(duì)觀點(diǎn)句識(shí)別有幫助的。
5 實(shí)驗(yàn)結(jié)果及討論
5.1 實(shí)驗(yàn)設(shè)置
本文實(shí)驗(yàn)使用了由中國(guó)計(jì)算機(jī)學(xué)會(huì)主辦的NLP&CC 2012中文微博情感分析評(píng)測(cè)中任務(wù)一的數(shù)據(jù)集,還有我們從網(wǎng)絡(luò)上爬取的與評(píng)測(cè)數(shù)據(jù)相關(guān)主題的微博數(shù)據(jù),并與測(cè)試集去重后作為補(bǔ)充數(shù)據(jù)。具體數(shù)據(jù)信息如下:
1.標(biāo)注數(shù)據(jù):NLP&CC 2012中文微博情感分析評(píng)測(cè)提供的標(biāo)注數(shù)據(jù)。共包含已標(biāo)注毀容案話題約240句和Ipad話題約220句。
2.測(cè)試數(shù)據(jù):NLP&CC 2012中文微博情感分析評(píng)測(cè)提供的測(cè)試數(shù)據(jù),共包含菲軍艦惡意撞擊、瘋狂的大蔥等20個(gè)話題,每個(gè)話題約200句。
3.補(bǔ)充數(shù)據(jù):從騰訊微博上爬取的與評(píng)測(cè)數(shù)據(jù)相關(guān)主題的微博。共包含菲軍艦惡意撞擊、瘋狂的大蔥等20個(gè)話題,每個(gè)話題約2000句。接著使用基于規(guī)則的方法對(duì)其進(jìn)行了自動(dòng)標(biāo)注,標(biāo)注后每個(gè)話題約600句。
本文使用了weka平臺(tái)中的機(jī)器學(xué)習(xí)分類(lèi)算法來(lái)進(jìn)行實(shí)驗(yàn)[17]。
本文的實(shí)驗(yàn)設(shè)置如下:
1. 規(guī)則與機(jī)器學(xué)習(xí)實(shí)驗(yàn)。在標(biāo)注數(shù)據(jù)集中,使用毀容案話題數(shù)據(jù)集作為訓(xùn)練集,Ipad話題數(shù)據(jù)集作為測(cè)試集,進(jìn)行只使用毀容案直接分類(lèi)和加入補(bǔ)充數(shù)據(jù)后再進(jìn)行分類(lèi)的對(duì)比實(shí)驗(yàn)。以驗(yàn)證本文提出的基于規(guī)則對(duì)機(jī)器學(xué)習(xí)數(shù)據(jù)集補(bǔ)充的有效性。
2. 通用模型和分話題模型實(shí)驗(yàn)。使用標(biāo)注數(shù)據(jù)和補(bǔ)充數(shù)據(jù)一起作為訓(xùn)練集,測(cè)試數(shù)據(jù)作為測(cè)試集,進(jìn)行實(shí)驗(yàn)比較通用模型和分話題模型的性能。
3. 分類(lèi)器性能實(shí)驗(yàn)。使用不同的分類(lèi)器進(jìn)行前面2個(gè)實(shí)驗(yàn),對(duì)比不同分類(lèi)器在該問(wèn)題上的性能。
5.2 實(shí)驗(yàn)結(jié)果
本文進(jìn)行了多個(gè)分類(lèi)器比較,為了方便下面用標(biāo)號(hào)來(lái)表示各個(gè)分類(lèi)器:(1)標(biāo)準(zhǔn)概率樸素貝葉斯分類(lèi)算法(NB)(2)支持向量機(jī)分類(lèi)算法(SVM)(3)用于支持向量分類(lèi)的連續(xù)最小優(yōu)化算法(SMO)(4)隨機(jī)森林算法(RF)(5)分類(lèi)與回歸樹(shù)算法(CVR)
在進(jìn)行分類(lèi)器訓(xùn)練時(shí),由于提供的標(biāo)注訓(xùn)練語(yǔ)料過(guò)少,這會(huì)影響到分類(lèi)結(jié)果,我們通過(guò)上面提出的規(guī)則方法自動(dòng)標(biāo)注了從網(wǎng)絡(luò)中挖掘的微博數(shù)據(jù),并將這部分?jǐn)?shù)據(jù)作為擴(kuò)充語(yǔ)料加入到原來(lái)的標(biāo)注集里作為訓(xùn)練集進(jìn)行分類(lèi)器的訓(xùn)練。為了證明我們加入這些規(guī)則方法自動(dòng)標(biāo)注的語(yǔ)料對(duì)分類(lèi)器訓(xùn)練是有幫助的,我們按照實(shí)驗(yàn)設(shè)置1做了下面的實(shí)驗(yàn)。我們用原來(lái)標(biāo)注集中的毀容案話題數(shù)據(jù)作為訓(xùn)練,和加上了自動(dòng)標(biāo)注的擴(kuò)充數(shù)據(jù)作為訓(xùn)練,對(duì)同樣的Ipad話題測(cè)試集進(jìn)行測(cè)試,得到了如下各個(gè)分類(lèi)器的對(duì)比結(jié)果,見(jiàn)表1:
表1 加入擴(kuò)充數(shù)據(jù)后對(duì)比結(jié)果
[標(biāo)號(hào)\&正確率\&召回率\&F值\&+/-\&NB\&0.645\&0.396\&0.491\&\&NB+Extra\&0.578\&0.515\&0.545\&+0.084\&SVM\&0.560\&0.782\&0.653\&\&SVM+Extra\&0.575\&0.762\&0.655\&+0.002\&SMO\&0.578\&0.515\&0.545\&\&SMO+Extra\&0.583\&0.733\&0.649\&+0.104\&CVR\&0.538\&0.624\&0.578\&\&CVR+Extra\&0.570\&0.802\&0.667\&+0.089\&RF\&0.560\&0.644\&0.599\&\&RF+Extra\&0.549\&0.782\&0.645\&+0.046\&]
沒(méi)有“Extra”表示訓(xùn)練集中只包含了毀容案的標(biāo)注數(shù)據(jù),“+Extra”表示在原來(lái)毀容案的標(biāo)注數(shù)據(jù)上,還加入了使用規(guī)則自動(dòng)標(biāo)注的Ipad話題補(bǔ)充數(shù)據(jù)。
從表1的結(jié)果我們可以看出加入了自動(dòng)標(biāo)注的擴(kuò)充數(shù)據(jù)進(jìn)行訓(xùn)練后,基本每個(gè)分類(lèi)器都有或多或少的提升,其中SMO分類(lèi)器提高的最多,提高了0.104,而CVR分類(lèi)器在所有分類(lèi)器中表現(xiàn)最好,F(xiàn)值達(dá)到0.667,這表明我們加入的這部分自動(dòng)標(biāo)注數(shù)據(jù),對(duì)訓(xùn)練集數(shù)據(jù)缺乏的分類(lèi)器訓(xùn)練是有很大幫助的。
為了實(shí)驗(yàn)話題間是否存在差異性,比較通用模型和分話題模型的性能差異。我們按照實(shí)驗(yàn)設(shè)置2做了下面的實(shí)驗(yàn),這次實(shí)驗(yàn)使用標(biāo)注數(shù)據(jù)和補(bǔ)充數(shù)據(jù)一起作為訓(xùn)練集,測(cè)試數(shù)據(jù)作為測(cè)試集,對(duì)于通用模型,我們直接使用訓(xùn)練集訓(xùn)練出1個(gè)通用模型,然后對(duì)所有測(cè)試集直接進(jìn)行分類(lèi),得出結(jié)果;對(duì)于分話題模型,我們將補(bǔ)充數(shù)據(jù)按照20個(gè)話題進(jìn)行分類(lèi),每個(gè)話題補(bǔ)充集加上原來(lái)的標(biāo)注集作為改話題的訓(xùn)練集,分別訓(xùn)練20個(gè)話題子模型,然后測(cè)試集也分成同樣的20個(gè)話題,分別使用相對(duì)應(yīng)的子模型進(jìn)行分類(lèi),得出結(jié)果在合并起來(lái)進(jìn)行評(píng)測(cè)。為了以示區(qū)分,我們?cè)诜诸?lèi)器簡(jiǎn)寫(xiě)前加ALL-表示通用模型結(jié)果,加Topic-的表示分話題模型的結(jié)果,實(shí)驗(yàn)結(jié)果如表2:
表2 通用模型和話題模型對(duì)比結(jié)果
[標(biāo)號(hào)\&正確率\&召回率\&F值\&ALL-NB\&0.742\&0.376\&0.499\&Topic-NB\&0.744\&0.432\&0.547\&ALL-SVM\&0.735\&0.675\&0.704\&Topic-SVM\&0.735\&0.682\&0.708\&ALL-SMO\&0.737\&0.609\&0.667\&Topic-SMO\&0.747\&0.623\&0.679\&ALL-RF\&0.727\&0.657\&0.690\&Topic-RF\&0.728\&0.684\&0.705\&ALL-CVR\&0.720\&0.657\&0.687\&Topic-CVR\&0.725\&0.720\&0.722\&]
從表2結(jié)果可以看出分話題進(jìn)行訓(xùn)練得到的分類(lèi)結(jié)果都比通用模型的分類(lèi)結(jié)果要好,最高的是NB分類(lèi)器,高出了0.048個(gè)點(diǎn),但是和其他分類(lèi)器相比,NB比其他分類(lèi)器低了很多,可能是由于特征選擇的問(wèn)題,導(dǎo)致了NB分類(lèi)器的性能比較差。所以分類(lèi)器中CVR分類(lèi)器性能最好,分話題模型的F值為0.722比通用的高出了0.035。這些實(shí)驗(yàn)數(shù)據(jù)說(shuō)明領(lǐng)域間存在著話題差異,使用分話題的訓(xùn)練模型比通用模型更能體現(xiàn)出話題的差異,在性能上也有更好的表現(xiàn)。
6 總結(jié)與展望
本文針對(duì)基于機(jī)器學(xué)習(xí)的觀點(diǎn)句識(shí)別系統(tǒng)存在訓(xùn)練語(yǔ)料不足的問(wèn)題,引人了基于規(guī)則的方法,通過(guò)使用規(guī)則的方法對(duì)從網(wǎng)絡(luò)上挖掘的數(shù)據(jù)進(jìn)行了自動(dòng)標(biāo)注來(lái)擴(kuò)充訓(xùn)練數(shù)據(jù),經(jīng)過(guò)實(shí)驗(yàn)證明,加入使用我們規(guī)則自動(dòng)標(biāo)注的數(shù)據(jù)對(duì)訓(xùn)練分類(lèi)模型有很大幫助,這解決了在機(jī)器學(xué)習(xí)訓(xùn)練過(guò)程中語(yǔ)料不足的問(wèn)題。實(shí)驗(yàn)中使用的數(shù)據(jù)分了20個(gè)話題,我們針對(duì)話題進(jìn)行了分話題模型的訓(xùn)練,5種分類(lèi)算法結(jié)果都表明分話題模型比通用模型分類(lèi)的結(jié)果要理想,這說(shuō)明了話題間的分類(lèi)特征是存在差異的,使用分話題模型比通用模型效果更好。
本次實(shí)驗(yàn)使用的數(shù)據(jù)來(lái)自于NLP&CC 2012中文微博情感分析評(píng)測(cè),處理的數(shù)據(jù)都是來(lái)自于微博,微博的最大特點(diǎn)是簡(jiǎn)短,不規(guī)范,里面不僅包含了大量的網(wǎng)絡(luò)術(shù)語(yǔ),表情,還有很多錯(cuò)別字,病句,這對(duì)我們進(jìn)行分詞,提取特征都有很大的影響。如今,由于網(wǎng)絡(luò)的迅速發(fā)展,微博等形式的網(wǎng)絡(luò)數(shù)據(jù)大量出現(xiàn),對(duì)微博這種網(wǎng)絡(luò)文本如何進(jìn)行更有效的處理,需要我們更深入的研究。通過(guò)多個(gè)分類(lèi)器的性能比較,發(fā)現(xiàn)各個(gè)分類(lèi)器有各自的特點(diǎn),如何利用他們自己的特點(diǎn),進(jìn)行融合以提高觀點(diǎn)句識(shí)別的效果,也是我們未來(lái)的工作。
參考文獻(xiàn):
[1] 張博. 基于SVM的中文觀點(diǎn)句抽取[D]. 北京:北京郵電大學(xué)計(jì)算機(jī)學(xué)院,2011.
[2] Wiebe J, Bruce R, Bell M, et al. A corpus study of evaluative and speculative language[C]. acm, 2001.
[3] Riloff E, Wiebe J, Wilson T. Learning Subjective Nouns using Extraction Pattern Bootstrapping[C]. CoNLL-03, 2003:25-32.
[4] Riloff E, Wiebe J. Learning Extraction Patterns for Subjective Expressions[C]. EMNLP-03, 2003:105-112.
[5] Hong Yu, Hatzivassiloglou V. Towards Answering Opinion Questions: Separating Facts from Opinions and Identifying the Polarity of Opinion Sentences[C]. EMNLP, 2003.
[6] Alexander P, Patrick P. Twitter as a Corpus for Sentiment Analysis and Opinion Mining[C]. Proceedings of International Conference on Language Resource and Evaluation. Lisbon, 2010:1320-1326.
[7] Barbosa Luciano, Feng Junlan. Robust Sentiment Detection on Twitter from Biased and Noisy Data[C]. Proceedings of the 23rd International Conference on Computational Linguistics. Beijing, 2010:36-44.
[8] Davidiv D,Tsur O,Rappoport A. Enhanced Sentiment Learning Using Twitter Hashtags and Smileys[C]. Proceedings of the 23rd International Conference on Computational Linguistics. Beijing, 2010:241-249.
[9] 姚天昉,彭思威. 漢語(yǔ)主客觀文本分類(lèi)方法的研究[C]. 第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集, 2007:117-123.
[10] 葉強(qiáng),張紫瓊,羅振雄. 面向互聯(lián)網(wǎng)評(píng)淪情感分析的中文主觀性自動(dòng)判別方法研究[J]. 信息系統(tǒng)學(xué)報(bào), 2007,1(1):79-91.
[11] 王根,趙軍. 基于多重冗余標(biāo)記CRFs的句子情感分析研究[J]. 中文信息學(xué)報(bào), 2007,21(5):51-55
[12] 蒙新泛,王厚峰.主客觀識(shí)別中的上下文因素的研究[C]. 中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009), 2009:594-599
[13] 徐睿峰,王亞偉,徐軍,等. 基于多知識(shí)源融合和多分類(lèi)器表決的中文觀點(diǎn)分析[C]. 第三屆中文傾向性分析評(píng)測(cè)會(huì)議(COAE), 濟(jì)南, 2011:77-87.
[14] 宋樂(lè),何婷婷,王倩,等. 中文情感詞句識(shí)別及文本觀點(diǎn)抽取研究[C]. 第二屆中文傾向性分析評(píng)測(cè)會(huì)議(COAE). 上海, 2009:30-37.
[15] 張文文,王挺. 不規(guī)范文本的無(wú)監(jiān)督觀點(diǎn)句抽取[J]. 計(jì)算機(jī)與數(shù)字工程, 2013,41(1):64-68.
[16] 任德斌. 主觀性文本的情感極性分析研究[D]. 東北大學(xué)信息科學(xué)與工程學(xué)院, 2009.
[17] 李德有,李凌霞,郭瑞波. 基于Weka平臺(tái)的機(jī)器學(xué)習(xí)方法探究[J]. 電腦知識(shí)與技術(shù),2012,8(10):2334-2337.