覃鐐銘 柯寧寧
◆摘? 要:隨著我國(guó)人民大眾的生活水平普遍提高,對(duì)生活質(zhì)量的越來(lái)越重視,越來(lái)越多的人選擇在空閑之余外出旅游,而且隨著互聯(lián)網(wǎng)的快速發(fā)展,再加上智能終端的普及,基本上人人都可以在任何時(shí)間任何網(wǎng)絡(luò)信號(hào)普及到的地方,通過(guò)旅游網(wǎng)站獲取旅游景點(diǎn)的信息及發(fā)表評(píng)論和分享旅游游記,旅游網(wǎng)站對(duì)這些評(píng)論數(shù)據(jù)缺乏有效的管理和利用,大部分企業(yè)的評(píng)論系統(tǒng)都會(huì)讓客戶在評(píng)論時(shí)評(píng)定一個(gè)“星級(jí)”或者“等級(jí)”來(lái)對(duì)旅游評(píng)論信息進(jìn)行分類。但是這種分類方法不是很靈活,過(guò)于死板,本文針對(duì)這種狀況,設(shè)計(jì)一個(gè)基于貝葉斯分類的對(duì)評(píng)論數(shù)據(jù)文本自身進(jìn)行分析,得出評(píng)論文本的情感傾向,并且過(guò)濾其中的惡意評(píng)論的系統(tǒng)。
◆關(guān)鍵詞:情感分析;樸素貝葉斯;自然語(yǔ)言處理;結(jié)構(gòu)化感知機(jī)
在旅游領(lǐng)域,各大企業(yè)都對(duì)用戶評(píng)論、游記、旅游心得等用戶的直接反饋信息極為注重,這些用戶評(píng)論、游記、旅游心得等都是用戶在體驗(yàn)自身企業(yè)服務(wù)或者游玩景點(diǎn)的時(shí)候的直接感受,而往往其他客戶在考慮是否出行時(shí),受這些評(píng)論信息的影響是巨大的,既“好評(píng)”如潮的旅游景點(diǎn)往往更能吸引客戶的出行。因此大部分企業(yè)的評(píng)論系統(tǒng)都會(huì)讓客戶在評(píng)論時(shí)評(píng)定一個(gè)“星級(jí)”或者“等級(jí)”來(lái)對(duì)旅游評(píng)論信息進(jìn)行分類。但是這種分類方法不是很靈活,過(guò)于死板,有時(shí)候“星級(jí)”高的旅游評(píng)論不一定是所謂的“好評(píng)”,而“星級(jí)”低的旅游評(píng)論信息也不一定都是完全的“差評(píng)”。因此傳統(tǒng)依賴用戶評(píng)分的去判斷情感傾向的分類方法已經(jīng)不適應(yīng)現(xiàn)在的網(wǎng)絡(luò)環(huán)境了,需要一個(gè)針對(duì)旅游評(píng)論文本信息本身的分類方法。
1評(píng)論數(shù)據(jù)處理框架
首先對(duì)獲取到的評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理,包括去掉重復(fù)的數(shù)據(jù),然后使用預(yù)訓(xùn)練的感知機(jī)分詞模型對(duì)去重后的數(shù)據(jù)進(jìn)行分詞,然后就是去除其中的停用詞。在數(shù)據(jù)預(yù)處理完之后,使用預(yù)訓(xùn)練的貝葉斯模型進(jìn)行分類的預(yù)測(cè),然后過(guò)濾其中的惡意評(píng)論,最終得出結(jié)果。評(píng)論數(shù)據(jù)處理框架的如圖1所示。
1.1機(jī)械去重
因?yàn)楝F(xiàn)在大多數(shù)的旅游網(wǎng)站都自帶評(píng)論功能,用戶不作評(píng)論的話會(huì)自動(dòng)進(jìn)行潛在評(píng)論,這些評(píng)論往往是重復(fù)的而且沒(méi)有什么實(shí)際意義。本文直接采取對(duì)比兩條評(píng)論是否一樣來(lái)去重。
1.2中文分詞
中文分詞是自然語(yǔ)言處理的一個(gè)極其重要的步驟,分詞的準(zhǔn)確率對(duì)下一步的去停用詞和情感分析有極大的影響,本文采用結(jié)構(gòu)化感知機(jī)去預(yù)測(cè)句子的切割序列。結(jié)構(gòu)化預(yù)測(cè)就是給定一個(gè)模型λ及打分函數(shù)scoreλ(·),利用打分函數(shù)給一些備選結(jié)構(gòu)打分,選取分?jǐn)?shù)最高的結(jié)構(gòu)作文預(yù)測(cè)輸出。
所以結(jié)構(gòu)化感知機(jī)算法就應(yīng)該如下:
(1)讀入樣本(x(i),y(i)),執(zhí)行結(jié)構(gòu)化預(yù)測(cè)公式(3)
(2)與預(yù)期結(jié)果對(duì)比,正確則獎(jiǎng)勵(lì)特征函數(shù)的權(quán)重增加[ω←ω+Φx(i),y(i)],錯(cuò)誤則[ω←ω-Φx(i),y(i)]
回到中文分詞,中文分詞可以看作是給文本進(jìn)行序列標(biāo)注的問(wèn)題,即給每個(gè)字標(biāo)注標(biāo)簽,只有在在特定標(biāo)簽的時(shí)候切割句子,本文定義了有四種標(biāo)簽的標(biāo)注集{B,M,E,S},分別代表這一個(gè)詞語(yǔ)的開(kāi)始,中間,結(jié)束和單字詞語(yǔ)。序列標(biāo)注的最大特點(diǎn)就是標(biāo)簽之間的依賴性,在隱馬可洛夫模型中,這種模型是利用初始狀態(tài)向量和狀態(tài)轉(zhuǎn)移概率矩陣來(lái)體現(xiàn)這種依賴性。
1.3去除停用詞
停用詞一般是指文字中的代詞、語(yǔ)氣詞、稱謂詞和地點(diǎn)副詞等,這些詞語(yǔ)對(duì)于情感分析的影響不大,去除有助于提高系統(tǒng)的運(yùn)行效率。本文通過(guò)將一些常用的無(wú)意義的符號(hào)和停用詞構(gòu)建成停用詞詞典,然后使用詞典匹配的方式,過(guò)濾掉評(píng)論中的停用詞。
1.4貝葉斯分類
樸素貝葉斯是從古典的數(shù)學(xué)理論--貝葉斯原來(lái)得出的一種分類模型,它具有扎實(shí)的數(shù)學(xué)基礎(chǔ)和穩(wěn)定的分類效率。貝葉斯分類是先用概率統(tǒng)計(jì)對(duì)訓(xùn)練樣本進(jìn)行分類,然后結(jié)合先驗(yàn)概率和后驗(yàn)概率,得出結(jié)果,避免只使用先驗(yàn)概率來(lái)以偏概全。
1.4過(guò)濾惡意評(píng)論
惡意評(píng)論的過(guò)濾就是將前面貝葉斯分類中被分類到惡意評(píng)論的文本進(jìn)行過(guò)濾。
2結(jié)束語(yǔ)
本文使用結(jié)構(gòu)化感知算法訓(xùn)練出一個(gè)線性模型,用來(lái)預(yù)測(cè)句子的分割序列,達(dá)到分詞的效果,結(jié)合樸素貝葉斯分類算法提取訓(xùn)練樣本的特征,構(gòu)建貝葉斯模型,預(yù)測(cè)評(píng)論文本的情感傾向,并且過(guò)濾其中的惡意評(píng)論。通過(guò)這種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法,克服了傳統(tǒng)的基于詞典的中文分詞和情感分析的對(duì)與OOV現(xiàn)象無(wú)可奈何的問(wèn)題,擁有一定的解決新詞的能力,但是為了更好的適應(yīng)網(wǎng)絡(luò)時(shí)代的發(fā)展,應(yīng)該定期更新預(yù)料再次訓(xùn)練獲取模型,從而達(dá)到更準(zhǔn)確的結(jié)果。
參考文獻(xiàn)
[1]林欽,劉鋼.基于情感計(jì)算的商品評(píng)論分析系統(tǒng)[J].計(jì)算機(jī)應(yīng)用與軟件,2014(12):39-44.
[2]肖江,王曉進(jìn).基于SVM的在線商品評(píng)論的情感傾向性分析[J].信息技術(shù),2016(7):172-175.
[3]黃仁,張衛(wèi).基于word2vec的互聯(lián)網(wǎng)商品評(píng)論情感傾向研究[J].計(jì)算機(jī)科學(xué),2014,34(8):2317-2321.
[4]宋恩梅,何帆.基于多網(wǎng)站的商品評(píng)論傾向性研究:以手機(jī)為例[J].圖書(shū)館學(xué)研究,2016(2):85-92.
[5]郭若男.基于Hadoop平臺(tái)的在線數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京郵電大學(xué),2015.