陳 曦,朱小棟,高廣闊,肖芳雄
(1.上海理工大學(xué) 管理學(xué)院,上海 200093; 2.金陵科技學(xué)院 軟件工程學(xué)院,南京 211169)
隨著信息技術(shù)的發(fā)展,電子商務(wù)已經(jīng)逐步滲透到人們的日常生活中,在線評(píng)價(jià)在做出購(gòu)買(mǎi)決策中起著一定的作用,挖掘這些評(píng)論的褒貶態(tài)度,從而識(shí)別人們對(duì)某種商品的購(gòu)買(mǎi)傾向的過(guò)程,被稱(chēng)為評(píng)論挖掘或情感分析。通過(guò)對(duì)這些互聯(lián)網(wǎng)商品評(píng)論的挖掘可以進(jìn)一步探索其背后的經(jīng)濟(jì)價(jià)值,探究消費(fèi)者情感傾向與商品銷(xiāo)售情況的關(guān)系,進(jìn)而為商家提供改善運(yùn)營(yíng)策略的意見(jiàn)[1]。
近年來(lái),有較多學(xué)者在中文情感分類(lèi)的問(wèn)題上進(jìn)行研究。文獻(xiàn)[2]提出一個(gè)基于客戶感知價(jià)值的產(chǎn)品特征挖掘算法,該算法采用情感分析技術(shù)實(shí)現(xiàn)對(duì)于評(píng)論中IT產(chǎn)品特征及其情感傾向的語(yǔ)義分析。文獻(xiàn)[3]基于拓展的情感詞典對(duì)中文微博進(jìn)行主題偵察,建立和擴(kuò)展情感詞典,通過(guò)情感分?jǐn)?shù)的計(jì)算進(jìn)行分類(lèi)。文獻(xiàn)[4]通過(guò)詞嵌入word2vec方法,提取中國(guó)酒店評(píng)論的特征并放入分類(lèi)器樸素貝葉斯(NB)、支持向量機(jī)(SVM)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)中進(jìn)行對(duì)比,其中SVM在分類(lèi)中表現(xiàn)最好。利用詞嵌入的方式可以有效地從評(píng)論文本中提取到詞語(yǔ)的信息(如某個(gè)詞在文本中出現(xiàn)與否或是出現(xiàn)的頻數(shù))和詞語(yǔ)的層次信息(主要是指上下文的信息),但是無(wú)法提取出詞語(yǔ)中所表示情感的信息。因此將情感詞典與詞嵌入的方法融合可更全面地表達(dá)出評(píng)論中的信息。文獻(xiàn)[5]利用基于情感詞典和基于詞嵌入的方式生成了一個(gè)混合向量,在英文和希臘文上進(jìn)行實(shí)證研究,其混合向量的模型不僅有較高的精確度,并且計(jì)算時(shí)間也相對(duì)較少。文獻(xiàn)[6]提出基于情感詞向量的微博情感分類(lèi)方法,在CBOW模型訓(xùn)練出來(lái)的初始詞向量進(jìn)行相應(yīng)的情感傾向調(diào)整,通過(guò)機(jī)器學(xué)習(xí)的方法,利用情感文本特征對(duì)文本進(jìn)行分類(lèi)。
本文提出一種情感Senti模型,基于情感詞典和語(yǔ)義規(guī)則提取出情感特征,通過(guò)與TF-IDF模型融合的方式來(lái)提高文本的分類(lèi)效果,并在提取情感特征的過(guò)程中不考慮評(píng)論中的特有的產(chǎn)品屬性,從而增強(qiáng)該模型的通用性。
文獻(xiàn)[7]對(duì)網(wǎng)絡(luò)評(píng)論情感分析關(guān)鍵技術(shù)進(jìn)行歸納總結(jié),主要分為3個(gè)方面的技術(shù),即網(wǎng)絡(luò)信息源選擇技術(shù)、網(wǎng)絡(luò)評(píng)論評(píng)級(jí)過(guò)濾技術(shù)和情感傾向性識(shí)別技術(shù)。情感方向識(shí)別技術(shù)主要有3種方法:1)利用傳統(tǒng)機(jī)器學(xué)習(xí)算法對(duì)處理過(guò)的文本進(jìn)行分類(lèi);2)基于詞典的方法計(jì)算情感分?jǐn)?shù),判斷文本的極性進(jìn)而分辨文本的褒貶;3)前2種的方法整合,即運(yùn)用兩者整合的方法進(jìn)行極性判斷。
由于中文情感分析相對(duì)缺乏而國(guó)外的英文情感分析研究更為成熟,因此國(guó)內(nèi)學(xué)者通過(guò)將中文翻譯成英文的方法再利用有監(jiān)督學(xué)習(xí)方法對(duì)文本進(jìn)行分類(lèi),但是該方法需要克服翻譯過(guò)程中跨領(lǐng)域詞語(yǔ)具有不同含義的障礙。文獻(xiàn)[8]構(gòu)建一個(gè)利用多種機(jī)器學(xué)習(xí)算法進(jìn)行多數(shù)投票的系統(tǒng),以便偵察TripAdvisor上虛假的酒店負(fù)面評(píng)論。文獻(xiàn)[9]提出利用機(jī)器學(xué)習(xí)算法包括樸素貝葉斯(NB)、最大熵分類(lèi)(ME)和支持向量機(jī)(SVM)來(lái)解決情感分類(lèi)問(wèn)題,并運(yùn)用n-grams模型和詞性提取電影評(píng)論的特征。此后,大量利用機(jī)器學(xué)習(xí)方法進(jìn)行研究的學(xué)者都將重點(diǎn)放在了特征設(shè)計(jì)上面[10]。文獻(xiàn)[11]將研究重點(diǎn)放在了選取有效特征上,在總結(jié)前人的基礎(chǔ)上引入了六大類(lèi)特征,通過(guò)添加不同類(lèi)型的特征對(duì)SVM分類(lèi)器進(jìn)行比較實(shí)驗(yàn)。文獻(xiàn)[4]利用詞嵌入的方式做中文的情感分類(lèi)實(shí)證研究,并運(yùn)用CNN算法進(jìn)行分類(lèi)。
文獻(xiàn)[3]整合基本情感詞典、程度副詞詞典、消極詞詞典、網(wǎng)絡(luò)用語(yǔ)詞詞典、表情詞詞典和關(guān)系連接詞詞典等6種詞典,同時(shí)制定了情感分?jǐn)?shù)計(jì)算的規(guī)則,最后根據(jù)分?jǐn)?shù)是否大于零,判斷其積極還是消極(當(dāng)分?jǐn)?shù)為零時(shí)認(rèn)為是中性)。文獻(xiàn)[12]提出一種基于依存句法的跨語(yǔ)言細(xì)粒度情感分析算法,通過(guò)對(duì)中文文本進(jìn)行依存句法分析判斷詞語(yǔ)間的依存關(guān)系,利用語(yǔ)義規(guī)則提取情感評(píng)價(jià)單元,并運(yùn)用機(jī)器翻譯的方法將中文翻譯成英文,最后通過(guò)與HowNet英文情感詞典進(jìn)行匹配,進(jìn)而判斷提取的情感評(píng)價(jià)單元的情感極性。該方法與單語(yǔ)言(HowNet中文情感詞典)的方法相比,分類(lèi)效果更好。Turney[13]采用無(wú)監(jiān)督的算法對(duì)文本進(jìn)行情感分類(lèi),通過(guò)計(jì)算待判定的詞與“excellent”和“poor”之間的互信息PMI,求得兩者差值即為該詞的情感分值。然后計(jì)算整個(gè)評(píng)論中所有短語(yǔ)的互信息差異的平均值即評(píng)論的情感分值,該值的正負(fù)和大小分別表示評(píng)論的情感極性和強(qiáng)弱,基于詞典的方法的核心在于設(shè)計(jì)詞典和規(guī)則[12]。
文獻(xiàn)[14]采用在簡(jiǎn)單句上使用樸素貝葉斯算法,在復(fù)雜句使用新的情感判斷規(guī)則的方法判斷情感極性,并提出一種基于句子情感權(quán)重計(jì)算規(guī)則的句子合成算法,用于文本級(jí)文本處理。與只利用樸素貝葉斯算法(NB)相比,該方法在精確度(precision)、召回率(recall)和F值(F1-Score)上都有所提升。文獻(xiàn)[15]在已有的模糊情感本體的基礎(chǔ)上,把產(chǎn)品的特征、情感類(lèi)程度詞、否定詞、修飾方法和標(biāo)點(diǎn)等語(yǔ)義元素抽取出來(lái)進(jìn)行相關(guān)標(biāo)注,設(shè)計(jì)了相關(guān)的情感計(jì)算方法,并在大眾點(diǎn)評(píng)網(wǎng)中采集上海婚紗攝影評(píng)論進(jìn)行實(shí)驗(yàn),證明了該方法的準(zhǔn)確性和應(yīng)用性。文獻(xiàn)[16]整合了知網(wǎng)、臺(tái)灣大學(xué)以及大連理工大學(xué)3個(gè)部分情感詞典,通過(guò)輸入法的詞庫(kù),篩選出150個(gè)具有強(qiáng)烈情感色彩的新的網(wǎng)絡(luò)詞匯,從而形成了基礎(chǔ)的情感詞典。根據(jù)程度詞和PMI算法,收集微博情感新詞,確定該詞的情感傾向,從而在微博領(lǐng)域建立情感詞典。另外還考慮了微博表情符號(hào)詞典、程度副詞詞典和否定詞詞典,按照語(yǔ)義規(guī)則進(jìn)行情感計(jì)算以對(duì)情感進(jìn)行分類(lèi)。
文獻(xiàn)[17]提出基于詞典的機(jī)器學(xué)習(xí)分類(lèi)方法,同時(shí)給出了智能分類(lèi)的模型。通過(guò)選擇主觀性的詞作為特征,利用支持向量機(jī)(SVM)和廣泛使用的英文詞典SentiWordNet(這里主要用于識(shí)別詞性)來(lái)確定特征權(quán)重。智能分類(lèi)的模型是指在十折驗(yàn)證上提出了新的驗(yàn)證方法來(lái)提高分類(lèi)的效果,通過(guò)與多組最新實(shí)驗(yàn)方法的結(jié)果進(jìn)行比較,分類(lèi)效果更好。文獻(xiàn)[5]利用情緒詞典將文本轉(zhuǎn)換成向量信息,并且同時(shí)考慮使用詞袋模型(BOW),生成了基于詞典的向量,在否定詞的情況下提出了兩種處理該向量的方法,包括反轉(zhuǎn)法和重復(fù)法。在此基礎(chǔ)上,加入word2vec模型,融合這些特征組成了混合向量。實(shí)驗(yàn)結(jié)果證明該混合向量的方法不僅有較高的精確度還可以節(jié)省時(shí)間。文獻(xiàn)[18]在解決語(yǔ)句級(jí)別的情感分類(lèi)問(wèn)題上采用的是將詞典信息融入到支持向量機(jī)分類(lèi)器中的方法。在Unigrams特征詞序列中插入包含在詞典中的情感詞的極性(positive或negative),再利用詞袋模型將特征詞序列轉(zhuǎn)化為特征向量,核心思想是將情感信息融入到語(yǔ)句的特征向量中。另外,文獻(xiàn)[19]利用基于情感特征的細(xì)顆粒度情感分析方法對(duì)中國(guó)產(chǎn)品評(píng)論分類(lèi),主要是通過(guò)句法分析提取相應(yīng)特征,并與TF-IDF基準(zhǔn)模型進(jìn)行對(duì)比實(shí)驗(yàn),其提出的模型在積極/消極評(píng)價(jià)中的精確率(precision)、召回率(recall)和F1-Score上都有所提升。
文獻(xiàn)[20]將微博中的動(dòng)詞和形容詞作為特征提取出來(lái),然后采用層次結(jié)構(gòu)方法對(duì)特征進(jìn)行降維操作,基于表情符號(hào)計(jì)算特征極性值的方法被設(shè)計(jì)用于計(jì)算相關(guān)權(quán)重,最后借助SVM將文本分為了正面、負(fù)面和中性三類(lèi)。文獻(xiàn)[21]為提高文本卷積神經(jīng)網(wǎng)絡(luò)的輸入文本信息質(zhì)量,提出利用詞性特征解決一詞多義問(wèn)題(傳統(tǒng)詞向量無(wú)法識(shí)別),再結(jié)合卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行分類(lèi),相比于傳統(tǒng)文本卷積神經(jīng)網(wǎng)絡(luò)的方法,該方法分類(lèi)效果更好。文獻(xiàn)[22]利用Twitter自身的語(yǔ)言特性和相關(guān)的情感字典資源設(shè)計(jì)了相關(guān)的2類(lèi)特征,同時(shí)利用卷積神經(jīng)網(wǎng)絡(luò)獲取Twitter文本詞向量,將這3類(lèi)特征進(jìn)行融合再利用SVM實(shí)現(xiàn)情感極性的分類(lèi),實(shí)驗(yàn)結(jié)果證明該方法有效地提高了情感分類(lèi)效果。
本文提出的優(yōu)化模型的主要思想是在TF-IDF模型上加入文本中的語(yǔ)義情感信息,主要分為2個(gè)步驟:1)通過(guò)語(yǔ)義規(guī)則生成包含評(píng)論情感語(yǔ)義信息的向量;2)融合TF-IDF模型組成混合向量,再放入分類(lèi)器MLP中進(jìn)行對(duì)比實(shí)驗(yàn)。由于TF-IDF模型只能傳達(dá)詞的出現(xiàn)與否以及在全部評(píng)論中該詞的重要性的信息,并沒(méi)有包含該評(píng)論中的情感的信息,因此,兩者的融合可以使情感信息發(fā)揮出優(yōu)化的效果。
本文采取的處理文本的方式是一種基于句子層面的特征提取,也可以理解為短文本的向量化。這里用標(biāo)點(diǎn)符號(hào)作為劃分處理的基礎(chǔ),一條評(píng)論被分為若干的句子,而每個(gè)句子由3個(gè)元素的列表組成并且每個(gè)列表具有其對(duì)應(yīng)的權(quán)重。在文本的預(yù)處理階段使用了結(jié)巴分詞工具并且刪除一些常用的停用詞。
構(gòu)建混合詞典:選用的是知網(wǎng)(Hownet)情感詞典和臺(tái)灣大學(xué)簡(jiǎn)體中文情感極性詞典(NTSUSD),其中HowNet詞典包括程度級(jí)別詞(一共有214個(gè))和正/負(fù)向情感詞。將HowNet詞典中的正/負(fù)向情感詞與NTUSD詞典中的正/負(fù)向詞進(jìn)行合并去重,總共有正向情感詞6 506個(gè),負(fù)向情感詞11 184個(gè)。
本節(jié)提出加權(quán)三元列表模型的結(jié)構(gòu)和模型中元素取值的規(guī)則。加權(quán)三元列表(sentiList)的結(jié)構(gòu)由下式表示:
sentiList=[adj,neg,pun]×adv×turn
公式中的元素是由量化后的情感詞(考慮到這里的情感詞大部分都是形容詞,用英文縮寫(xiě)adj表示)、否定詞(neg)以及標(biāo)點(diǎn)符號(hào)(pun)組成,并且由量化后的程度詞(adv)和轉(zhuǎn)折詞(turn)作為其列表的權(quán)重。這個(gè)模型的實(shí)現(xiàn)是通過(guò)python編程遍歷迭代文本信息實(shí)現(xiàn)的,本文將這個(gè)模型簡(jiǎn)稱(chēng)為Senti模型。
具體說(shuō)來(lái),一句話中將產(chǎn)生多個(gè)加權(quán)三元列表,將其拼接起來(lái)后就形成了Senti模型(每一句話由一條列表組成)。而本文基準(zhǔn)模型(TF-IDF)則是在語(yǔ)料庫(kù)基礎(chǔ)上的詞頻乘以逆文檔數(shù)以后得到的一個(gè)大型矩陣,例如4 000條評(píng)論則生成的是4 000行的多維向量形成的矩陣,而每條評(píng)論再通過(guò)拼接的方式,與Senti模型融合,包括2種向量拼接方式,將Senti模型拼接到TF-IDF模型之前,稱(chēng)為Senti-TFIDF模型,將TF-IDF模型拼接到Senti模型之前,稱(chēng)為T(mén)FIDF-Senti模型。考慮到Senti模型中有了相關(guān)的權(quán)重,這里的拼接不再賦予權(quán)重,將2個(gè)拼接的模型視為同等重要的信息,并且方便直接與基準(zhǔn)模型進(jìn)行對(duì)比。與基準(zhǔn)模型(TF-IDF)進(jìn)行對(duì)比,本文Senti模型與基準(zhǔn)模型融合可以起到優(yōu)化預(yù)測(cè)的作用。
2.1.1 詞語(yǔ)分析規(guī)則
詞語(yǔ)分析規(guī)則如下:
1)形容詞(adj)的取值規(guī)則:當(dāng)句子中出現(xiàn)正向情感詞時(shí),列表中的第1個(gè)元素將被賦值為1。當(dāng)句子中出現(xiàn)的是負(fù)向情感詞時(shí),賦值為-1。若該句中多次出現(xiàn)同樣傾向的情感詞時(shí),采取累加的方式,若出現(xiàn)不同傾向的情感詞,同樣使用累加的方式(正負(fù)號(hào)會(huì)相抵消)進(jìn)行處理,如果句子中沒(méi)有出現(xiàn)情感詞,則值為0。
2)程度副詞(adv)的取值規(guī)則:程度副詞根據(jù)其語(yǔ)氣的強(qiáng)弱被分為6個(gè)級(jí)別(1~6是從弱到強(qiáng)),表1給出相應(yīng)的示例及對(duì)應(yīng)級(jí)別的得分。
表1 程度級(jí)別詞示例及對(duì)應(yīng)的分?jǐn)?shù)
程度詞(adv)作為權(quán)重,其量化公式(參考文獻(xiàn)[17]中的平滑操作)如下:
其中,n指一條評(píng)論中被分成了n個(gè)句子,i代表第i個(gè)句子,part(i)指第i個(gè)句子中出現(xiàn)的程度副詞對(duì)應(yīng)的分?jǐn)?shù),all指所有句子中程度副詞的分?jǐn)?shù)總和。
3)否定詞(neg)的取值規(guī)則:否定詞出現(xiàn)則列表中的第2個(gè)元素標(biāo)記為-1,若否定詞出現(xiàn)2次則標(biāo)記為1(這里認(rèn)為雙重否定為肯定),若未出現(xiàn),則該元素為0。
2.1.2 句型分析規(guī)則
標(biāo)點(diǎn)符號(hào)(pun)的取值規(guī)則:考慮到人們中文的使用習(xí)慣,當(dāng)人們使用感嘆號(hào)(!)時(shí)表示對(duì)物品的贊美和喜愛(ài),使用疑問(wèn)(?)時(shí)則表示對(duì)物品的質(zhì)疑和不信任。因而在列表的第3個(gè)元素中加入該項(xiàng),并且其初始化值為0,當(dāng)出現(xiàn)感嘆號(hào)是標(biāo)記為1,出現(xiàn)疑問(wèn)時(shí)標(biāo)記為-1。
2.1.3 句間分析規(guī)則
轉(zhuǎn)折關(guān)系(turn)的取值規(guī)則:考慮到句間的轉(zhuǎn)折關(guān)系,接下來(lái)的句子將意味著完全相反的意思。因而當(dāng)有轉(zhuǎn)折詞出現(xiàn)時(shí),這里賦予-1的權(quán)重。
這里用多個(gè)循環(huán)語(yǔ)句從正向/負(fù)向情感詞典(sentiList_pos/sentiList_neg)、否定詞典(sentiList_Negation)、標(biāo)點(diǎn)符號(hào)列表(punctuation_list)、轉(zhuǎn)折詞列表(sentiList_Turn)和程度副詞字典(sentiList_Adv)中遍歷每個(gè)句子中特征,不斷更新三元模型中的值。最后將一條評(píng)論中的三元組列表全部拼接起來(lái)形成一個(gè)新的列表,表示該條完整的評(píng)論。
算法1情感特征提取算法
輸入一個(gè)文本
輸出表示文本的情感信息的列表
1.np_content= [],np_content(i) = [0,0,0];
2.A text is divided intonsentences,each sentence can be represented as content(i);
3.for j in content(i):
4.if j in sentiList_pos:
5.np_content(i)[0] = 1
6.if j in sentiList_neg:
7.np_content(i)[0] =-1
8.for j in content(i):
9.if j in sentiList_Negation:
10.np_content(i)[1] =-1
11.temp = j
12.for j in content(i):
13.if j in sentiList_Negation:
14.if j! = temp:
15.np_content(i)[1] = 1
16.for j in punctuation_list:
17.if i in sentiList_pun:
18.if i in [‘!’,‘!’]:
19.np_content(i)[2] = 1
20.if i in [‘?’,‘?’]:
21.np_content(i)[2] =-1
22.for i in sentiList_Turn:
23.if j in sentList_Turn:
24.np_content(i) = (-1)*np_content(i)
25.for j in sentiList_Adv:
26.if j in sentiList_Adv:
27.np_content(i) = np_content(i)*((1+sentiList_Adv[j])/(n +sentList_Adv[j]))
28.for i in range(n):np_content.extend(np_content(i))
本文選用經(jīng)典的TF-IDF模型作為基準(zhǔn)模型,根據(jù)其定義可知,此模型能提供文本中的詞頻信息。除此之外,還能提供評(píng)估評(píng)論中每個(gè)詞語(yǔ)在所有評(píng)論(語(yǔ)料庫(kù))中的重要程度的信息。而三元列表模型表現(xiàn)的是文本中的情感信息,因此可以將2個(gè)模型通過(guò)拼接的方式整合在一起。當(dāng)分類(lèi)器獲得更多信息時(shí),分類(lèi)效果將會(huì)更精確。本文采用2種拼接方式,分別為T(mén)FIDF-Senti和Senti-TFIDF。
本文實(shí)驗(yàn)用的數(shù)據(jù)(ChnSentiCorp)來(lái)源于由譚松波收集整理的覆蓋了不同領(lǐng)域的用戶評(píng)論。其中每個(gè)領(lǐng)域的評(píng)論數(shù)有4 000條,其中,2 000條正向評(píng)論,2 000條負(fù)向評(píng)論。本次實(shí)驗(yàn)將樣本通過(guò)7∶3的比例分成訓(xùn)練集和測(cè)試集,如表2所示。
表2 實(shí)驗(yàn)數(shù)據(jù)基本資料
將原始的文本數(shù)據(jù)進(jìn)行預(yù)處理,再把預(yù)處理后的文本放入不同的2種模型中生成2組矩陣。通過(guò)對(duì)2組矩陣數(shù)據(jù)的拼接生成提出的2種優(yōu)化模型TFIDF-Senti和Senti-TFIDF。本文選用的多層感知機(jī)(Multi-Layer Perception,MLP)作為實(shí)驗(yàn)的分類(lèi)器,最后得出評(píng)論的極性,實(shí)驗(yàn)流程如圖1所示。
圖1 本文融合模型實(shí)驗(yàn)流程
本文簡(jiǎn)要介紹模型評(píng)判標(biāo)準(zhǔn),主要是通過(guò)準(zhǔn)確率和F1值來(lái)判斷模型的分類(lèi)效果。準(zhǔn)確度(accuracy)是指預(yù)測(cè)正確的比率,該指標(biāo)能比較直觀地表達(dá)出預(yù)測(cè)的效果如何。而F1值是一個(gè)綜合了精確率(precision)和召回率(recall)的指標(biāo),計(jì)算公式如下:
從上述實(shí)驗(yàn)結(jié)果可以看出,通過(guò)本文Senti模型整合TF-IDF模型而產(chǎn)生的TFIDF-Senti和Senti-TFIDF(利用信息融合方法)2種模型,最終達(dá)到了優(yōu)化預(yù)測(cè)的效果,實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 2種優(yōu)化模型與TF-IDF模型的F1值對(duì)比
Fig.2 Comparison ofF1 values between 2 optimization models and TF-IDF model
表3給出詳細(xì)實(shí)驗(yàn)結(jié)果,從表3可以看出,Senti模型在這2組漢語(yǔ)語(yǔ)料庫(kù)(攜程酒店評(píng)論Ctrip_htl_ba_4000和當(dāng)當(dāng)書(shū)籍評(píng)論Dangdang_Book_4000)上的精確度和F1值都超過(guò)70%,說(shuō)明Senti模型能夠從大量文本中提取到有用的信息。并且考慮到實(shí)驗(yàn)中的文本信息來(lái)自酒店和書(shū)籍2個(gè)不同的領(lǐng)域,說(shuō)明基于句子層面的粗顆粒模型方法具有較好的泛化性。通過(guò)與TF-IDF模型進(jìn)行對(duì)比,整合后2種優(yōu)化模型精確度更高,特別是前者TFIDF-Senti模型在前2組數(shù)據(jù)上均有超過(guò)一個(gè)百分點(diǎn)的提升,可以起到優(yōu)化的作用。綜上可知,情感模型Senti在處理評(píng)論數(shù)據(jù)時(shí)可有效地提取出情感信息,并能夠在基于詞語(yǔ)信息的TF-IDF模型上起到優(yōu)化(提高超過(guò)一個(gè)百分點(diǎn))的效果。
表3 MLP分類(lèi)實(shí)驗(yàn)結(jié)果
本文通過(guò)建立加權(quán)三元列表模型提取文本中的情感信息,融合現(xiàn)有的TF-IDF模型并對(duì)其進(jìn)行優(yōu)化,利用情感詞典和語(yǔ)義規(guī)則提取情感信息,生成相應(yīng)的情感矩陣,并融合多種包含不同信息的模型以提高分類(lèi)器的分類(lèi)效果。實(shí)驗(yàn)結(jié)果表明,混合向量模型比單一的TF-IDF模型具有更好的分類(lèi)效果。在本文的基礎(chǔ)上加入包含詞語(yǔ)含義信息的word2vec模型提高預(yù)測(cè)精度,或在擴(kuò)展的情感詞典中整合網(wǎng)絡(luò)流行詞,使用更加細(xì)化的情緒詞典將情感詞具體量化將是下一步的研究工作。