• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      旅游景點(diǎn)評(píng)論情緒的大數(shù)據(jù)檢測(cè)、分類和惡意過(guò)濾系統(tǒng)的設(shè)計(jì)

      2021-08-05 05:26:01覃鐐銘柯寧寧
      速讀·中旬 2021年9期
      關(guān)鍵詞:自然語(yǔ)言處理情感分析

      覃鐐銘 柯寧寧

      ◆摘? 要:隨著我國(guó)人民大眾的生活水平普遍提高,對(duì)生活質(zhì)量的越來(lái)越重視,越來(lái)越多的人選擇在空閑之余外出旅游,而且隨著互聯(lián)網(wǎng)的快速發(fā)展,再加上智能終端的普及,基本上人人都可以在任何時(shí)間任何網(wǎng)絡(luò)信號(hào)普及到的地方,通過(guò)旅游網(wǎng)站獲取旅游景點(diǎn)的信息及發(fā)表評(píng)論和分享旅游游記,旅游網(wǎng)站對(duì)這些評(píng)論數(shù)據(jù)缺乏有效的管理和利用,大部分企業(yè)的評(píng)論系統(tǒng)都會(huì)讓客戶在評(píng)論時(shí)評(píng)定一個(gè)“星級(jí)”或者“等級(jí)”來(lái)對(duì)旅游評(píng)論信息進(jìn)行分類。但是這種分類方法不是很靈活,過(guò)于死板,本文針對(duì)這種狀況,設(shè)計(jì)一個(gè)基于貝葉斯分類的對(duì)評(píng)論數(shù)據(jù)文本自身進(jìn)行分析,得出評(píng)論文本的情感傾向,并且過(guò)濾其中的惡意評(píng)論的系統(tǒng)。

      ◆關(guān)鍵詞:情感分析;樸素貝葉斯;自然語(yǔ)言處理;結(jié)構(gòu)化感知機(jī)

      在旅游領(lǐng)域,各大企業(yè)都對(duì)用戶評(píng)論、游記、旅游心得等用戶的直接反饋信息極為注重,這些用戶評(píng)論、游記、旅游心得等都是用戶在體驗(yàn)自身企業(yè)服務(wù)或者游玩景點(diǎn)的時(shí)候的直接感受,而往往其他客戶在考慮是否出行時(shí),受這些評(píng)論信息的影響是巨大的,既“好評(píng)”如潮的旅游景點(diǎn)往往更能吸引客戶的出行。因此大部分企業(yè)的評(píng)論系統(tǒng)都會(huì)讓客戶在評(píng)論時(shí)評(píng)定一個(gè)“星級(jí)”或者“等級(jí)”來(lái)對(duì)旅游評(píng)論信息進(jìn)行分類。但是這種分類方法不是很靈活,過(guò)于死板,有時(shí)候“星級(jí)”高的旅游評(píng)論不一定是所謂的“好評(píng)”,而“星級(jí)”低的旅游評(píng)論信息也不一定都是完全的“差評(píng)”。因此傳統(tǒng)依賴用戶評(píng)分的去判斷情感傾向的分類方法已經(jīng)不適應(yīng)現(xiàn)在的網(wǎng)絡(luò)環(huán)境了,需要一個(gè)針對(duì)旅游評(píng)論文本信息本身的分類方法。

      1評(píng)論數(shù)據(jù)處理框架

      首先對(duì)獲取到的評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理,包括去掉重復(fù)的數(shù)據(jù),然后使用預(yù)訓(xùn)練的感知機(jī)分詞模型對(duì)去重后的數(shù)據(jù)進(jìn)行分詞,然后就是去除其中的停用詞。在數(shù)據(jù)預(yù)處理完之后,使用預(yù)訓(xùn)練的貝葉斯模型進(jìn)行分類的預(yù)測(cè),然后過(guò)濾其中的惡意評(píng)論,最終得出結(jié)果。評(píng)論數(shù)據(jù)處理框架的如圖1所示。

      1.1機(jī)械去重

      因?yàn)楝F(xiàn)在大多數(shù)的旅游網(wǎng)站都自帶評(píng)論功能,用戶不作評(píng)論的話會(huì)自動(dòng)進(jìn)行潛在評(píng)論,這些評(píng)論往往是重復(fù)的而且沒(méi)有什么實(shí)際意義。本文直接采取對(duì)比兩條評(píng)論是否一樣來(lái)去重。

      1.2中文分詞

      中文分詞是自然語(yǔ)言處理的一個(gè)極其重要的步驟,分詞的準(zhǔn)確率對(duì)下一步的去停用詞和情感分析有極大的影響,本文采用結(jié)構(gòu)化感知機(jī)去預(yù)測(cè)句子的切割序列。結(jié)構(gòu)化預(yù)測(cè)就是給定一個(gè)模型λ及打分函數(shù)scoreλ(·),利用打分函數(shù)給一些備選結(jié)構(gòu)打分,選取分?jǐn)?shù)最高的結(jié)構(gòu)作文預(yù)測(cè)輸出。

      所以結(jié)構(gòu)化感知機(jī)算法就應(yīng)該如下:

      (1)讀入樣本(x(i),y(i)),執(zhí)行結(jié)構(gòu)化預(yù)測(cè)公式(3)

      (2)與預(yù)期結(jié)果對(duì)比,正確則獎(jiǎng)勵(lì)特征函數(shù)的權(quán)重增加[ω←ω+Φx(i),y(i)],錯(cuò)誤則[ω←ω-Φx(i),y(i)]

      回到中文分詞,中文分詞可以看作是給文本進(jìn)行序列標(biāo)注的問(wèn)題,即給每個(gè)字標(biāo)注標(biāo)簽,只有在在特定標(biāo)簽的時(shí)候切割句子,本文定義了有四種標(biāo)簽的標(biāo)注集{B,M,E,S},分別代表這一個(gè)詞語(yǔ)的開(kāi)始,中間,結(jié)束和單字詞語(yǔ)。序列標(biāo)注的最大特點(diǎn)就是標(biāo)簽之間的依賴性,在隱馬可洛夫模型中,這種模型是利用初始狀態(tài)向量和狀態(tài)轉(zhuǎn)移概率矩陣來(lái)體現(xiàn)這種依賴性。

      1.3去除停用詞

      停用詞一般是指文字中的代詞、語(yǔ)氣詞、稱謂詞和地點(diǎn)副詞等,這些詞語(yǔ)對(duì)于情感分析的影響不大,去除有助于提高系統(tǒng)的運(yùn)行效率。本文通過(guò)將一些常用的無(wú)意義的符號(hào)和停用詞構(gòu)建成停用詞詞典,然后使用詞典匹配的方式,過(guò)濾掉評(píng)論中的停用詞。

      1.4貝葉斯分類

      樸素貝葉斯是從古典的數(shù)學(xué)理論--貝葉斯原來(lái)得出的一種分類模型,它具有扎實(shí)的數(shù)學(xué)基礎(chǔ)和穩(wěn)定的分類效率。貝葉斯分類是先用概率統(tǒng)計(jì)對(duì)訓(xùn)練樣本進(jìn)行分類,然后結(jié)合先驗(yàn)概率和后驗(yàn)概率,得出結(jié)果,避免只使用先驗(yàn)概率來(lái)以偏概全。

      1.4過(guò)濾惡意評(píng)論

      惡意評(píng)論的過(guò)濾就是將前面貝葉斯分類中被分類到惡意評(píng)論的文本進(jìn)行過(guò)濾。

      2結(jié)束語(yǔ)

      本文使用結(jié)構(gòu)化感知算法訓(xùn)練出一個(gè)線性模型,用來(lái)預(yù)測(cè)句子的分割序列,達(dá)到分詞的效果,結(jié)合樸素貝葉斯分類算法提取訓(xùn)練樣本的特征,構(gòu)建貝葉斯模型,預(yù)測(cè)評(píng)論文本的情感傾向,并且過(guò)濾其中的惡意評(píng)論。通過(guò)這種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法,克服了傳統(tǒng)的基于詞典的中文分詞和情感分析的對(duì)與OOV現(xiàn)象無(wú)可奈何的問(wèn)題,擁有一定的解決新詞的能力,但是為了更好的適應(yīng)網(wǎng)絡(luò)時(shí)代的發(fā)展,應(yīng)該定期更新預(yù)料再次訓(xùn)練獲取模型,從而達(dá)到更準(zhǔn)確的結(jié)果。

      參考文獻(xiàn)

      [1]林欽,劉鋼.基于情感計(jì)算的商品評(píng)論分析系統(tǒng)[J].計(jì)算機(jī)應(yīng)用與軟件,2014(12):39-44.

      [2]肖江,王曉進(jìn).基于SVM的在線商品評(píng)論的情感傾向性分析[J].信息技術(shù),2016(7):172-175.

      [3]黃仁,張衛(wèi).基于word2vec的互聯(lián)網(wǎng)商品評(píng)論情感傾向研究[J].計(jì)算機(jī)科學(xué),2014,34(8):2317-2321.

      [4]宋恩梅,何帆.基于多網(wǎng)站的商品評(píng)論傾向性研究:以手機(jī)為例[J].圖書(shū)館學(xué)研究,2016(2):85-92.

      [5]郭若男.基于Hadoop平臺(tái)的在線數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京郵電大學(xué),2015.

      猜你喜歡
      自然語(yǔ)言處理情感分析
      基于語(yǔ)義的互聯(lián)網(wǎng)醫(yī)院評(píng)論文本情感分析及應(yīng)用
      基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)對(duì)象抽取研究
      基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
      基于SVM的產(chǎn)品評(píng)論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
      在線評(píng)論情感屬性的動(dòng)態(tài)變化
      面向機(jī)器人導(dǎo)航的漢語(yǔ)路徑自然語(yǔ)言組塊分析方法研究
      詞向量的語(yǔ)義學(xué)規(guī)范化
      文本觀點(diǎn)挖掘和情感分析的研究
      漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
      寿阳县| 泾源县| 咸丰县| 玉山县| 新兴县| 沈阳市| 井冈山市| 德清县| 平顶山市| 石阡县| 自治县| 安阳县| 甘南县| 启东市| 平邑县| 渭南市| 伊吾县| 富川| 正宁县| 思南县| 黔江区| 甘南县| 黄龙县| 四川省| 尼玛县| 太和县| 沭阳县| 施秉县| 新乡县| 水富县| 潜江市| 宁津县| 通州市| 合山市| 罗田县| 蒙阴县| 黄梅县| 古蔺县| 大连市| 泉州市| 姚安县|