• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      車企輿情正負面情感識別與預(yù)測

      2022-05-07 02:38:10胡二琴
      關(guān)鍵詞:分詞負面輿情

      秦 苗, 胡二琴

      (湖北工業(yè)大學(xué)理學(xué)院, 湖北 武漢 430068)

      文本挖掘和分析已經(jīng)成為各行各業(yè)研究數(shù)據(jù)模式的核心問題。對于企業(yè)來說,通過對互聯(lián)網(wǎng)中與自身企業(yè)有關(guān)的輿情進行分析,能幫助其獲得更多的信息,進一步了解客戶,預(yù)測和增強客戶體驗,合理改進產(chǎn)品性能[1-2]。HU等[3]通過情感分析挖掘出用戶對產(chǎn)品的情感傾向;Dasgupta等[4]通過對三星手機用戶評論進行情感分析,得到消費者對手機信息特征的反饋;李琴等[5]基于情感詞典對在線景區(qū)評論進行情感分析得到情感類別傾向性與門票波動之間客觀存在的聯(lián)系。

      目前,汽車制造行業(yè)競爭激烈,有效提高汽車的品牌形象和溢價效應(yīng)對于企業(yè)來說至關(guān)重要。伴隨著互聯(lián)網(wǎng)的發(fā)展,汽車行業(yè)的品牌質(zhì)量、發(fā)展規(guī)劃、創(chuàng)新水平等受到了越來越多的關(guān)注[6-7],大量的網(wǎng)絡(luò)評論中蘊含著廣大網(wǎng)民的情感和觀點,通過對評論情感進行研究,車企可以深入了解到近期網(wǎng)絡(luò)輿論傾向,從而進行相應(yīng)的調(diào)整和改進[8-9]。因此,對汽車行業(yè)輿情情感進行研究,將會有助于提高車企形象,而對文本情感進行識別是輿情分析的關(guān)鍵。目前,情感識別主要有兩類方法:基于情感詞典的方法和基于機器學(xué)習(xí)的方法[10]。李宸嚴[11]等利用注意力與Bi-LSTM混合算法進行了車企輿情的情感分析。本文主要通過情感詞典來對汽車行業(yè)的網(wǎng)絡(luò)輿情進行分析與預(yù)測,利用分詞繪制詞云圖、情感分類、主題分析來了解廣大網(wǎng)民對汽車行業(yè)的關(guān)注重點以及正負面情感聚焦。

      1 數(shù)據(jù)來源與數(shù)據(jù)預(yù)處理

      本文數(shù)據(jù)來自“第四屆全國應(yīng)用統(tǒng)計專業(yè)學(xué)位研究生案例大賽”C題,數(shù)據(jù)分為訓(xùn)練集與測試集,共99842 條,其文本數(shù)據(jù)部分展示見圖1。

      圖 1 部分數(shù)據(jù)展示

      該數(shù)據(jù)的第1列是文本小標題,第2列是正文,第3列是用戶ID,第4列是文本的網(wǎng)頁鏈接,第5列是其給定的情感類別。

      數(shù)據(jù)的預(yù)處理對本文的分析十分重要,對后續(xù)結(jié)果分析有很大影響。我們首先依據(jù)對文章有高度概括性的標題進行刪除,去除與車企無關(guān)的輿情。在網(wǎng)上查詢與汽車相關(guān)的詞匯大全,利用該詞匯大全計算標題得分,若累積得分為0,則認為該標題是與車企完全無關(guān)的報道,需要刪除。繼而去除文本中的重復(fù)數(shù)據(jù),認為標題和正文均相同的為重復(fù)數(shù)據(jù)予以刪除,最終保留與車企相關(guān)的輿情有45324條。然后進行數(shù)據(jù)清洗,去除數(shù)據(jù)中無用、停用詞和出現(xiàn)頻率極高但無實際情感意義的詞匯,如“汽車”等。

      2 車企輿情熱點分析

      在數(shù)據(jù)預(yù)處理和“Jieba”分詞后,提取分詞中的名詞詞匯,統(tǒng)計詞匯出現(xiàn)的頻率,將詞頻按降序排列,選擇前100個詞繪制詞云來直觀反映人們的關(guān)注點和關(guān)注度。

      圖 2 輿情熱點詞云圖

      由圖2可見,在與汽車行業(yè)相關(guān)的輿情中,人們關(guān)注較多的是駕駛、新能源、車型、上市、新款,以及豐田、奧迪、吉利等品牌。對測試集進行相同的操作,發(fā)現(xiàn)兩者在熱點詞匯上沒有太大差異,只是對奧迪的關(guān)注減少了而對大眾的關(guān)注度增加了,另外還增加了對車主的關(guān)注。

      為進一步了解車企輿情中人們對汽車品牌和汽車功能、配件的關(guān)注熱點,我們查找了汽車品牌詞庫大全以及汽車相關(guān)配件詞匯大全(https:∥pinyin.sogou.com/dict/ cate/index/432)。將文本分詞分別與這兩組詞匯進行匹配,計算頻率,取排名前十來分析車企輿情關(guān)注最多的汽車品牌和汽車配件,其結(jié)果如圖3、圖4所示。

      圖 3 車企輿情熱點關(guān)注品牌Top10

      圖 4 車企輿情熱點關(guān)注配件Top10

      由圖可見,訓(xùn)練集中關(guān)注最多的汽車品牌依次是豐田、奧迪、吉利、大眾等;關(guān)注最多的汽車配件依次是輪胎、發(fā)動機、方向盤、輪轂等。對測試集進行相同處理,可見測試集中關(guān)注最多的汽車品牌與訓(xùn)練集中大體相同,只是測試集輿情關(guān)注的汽車品牌前10少了寶馬,多了紅旗;在對汽車配件的關(guān)注中,兩個數(shù)據(jù)集也大體相同,只是測試集多了轉(zhuǎn)向燈,少了離合器。

      3 車企輿情情感傾向分析

      文本情感分析可以被視為一類特殊的文本分類問題。目前絕大多數(shù)研究將文本的情感傾向性分為正向、負向兩種類別。文本情感分類方法主要有機器學(xué)習(xí)方法、詞典匹配方法。機器學(xué)習(xí)方法中主要用到的是支持向量模型、樸素貝葉斯模型以及神經(jīng)網(wǎng)絡(luò)等。這些方法各有優(yōu)劣。而本文是要進行正、中、負3級分類,不適合用針對二分類的支持向量模型,所以采取情感詞典匹配的方法來對情感進行標記。

      3.1 提取文本情感特征

      在以情感詞典為基礎(chǔ)的情感分析中,情感詞庫的選擇占據(jù)十分重要的地位。高質(zhì)量的情感詞庫往往可得到更好的情感分析效果,通常情況下所選取的情感詞庫是網(wǎng)上下載的正負面情感詞匯和正負面評論詞匯。但本文的輿情數(shù)據(jù)并非評論數(shù)據(jù)而是類似網(wǎng)絡(luò)小文章形式,這類數(shù)據(jù)的正負往往在其中帶有事件特征,比如文中沒有太多的情感性詞匯,但由于描述的是一件正面事件,故最終也會評為正向情感。因此若是基于傳統(tǒng)的情感詞庫進行分類效果并不會理想,本文經(jīng)嘗試后發(fā)現(xiàn)準確率只有23.19%,故考慮重新提取情感特征構(gòu)建新的詞庫再進行情感匹配。

      本文通過詞頻來選擇特征。利用詞頻對處理后的文本分詞分別計算權(quán)重,并根據(jù)權(quán)重的大小對分詞進行排序,然后剔除一些與文章主題雖直接聯(lián)系但無實際意義的無用詞,如 “汽車”“年”“拉”等。然后統(tǒng)計分詞的總詞頻,從中選取若干個出現(xiàn)頻率最高的詞匯組成該類別的特征詞集;最后去掉每一類中都出現(xiàn)了的詞,形成3種類別各自特有的特征詞集(即我們用到的特征集合)。特征項的構(gòu)建步驟見圖5。

      圖 5 特征項的構(gòu)建流程

      由于中立面的詞匯沒有明顯的實際特征,所以我們只進行正面詞匯和負面詞匯的選取。按詞頻降序排列后發(fā)現(xiàn),正面詞匯中排名在第500的詞匯出現(xiàn)頻率只有2次,負面詞匯中排名在第300的詞匯出現(xiàn)頻率為5次,表2分別展示了正向詞匯排名前100、300、500的末尾詞以及負向詞匯排名前100、200、300的末尾詞。

      表2 正向詞匯局部展示

      表3 負向詞匯局部展示

      可見,正負向中前300的詞頻詞匯的情感分級都比較明顯,初步選擇構(gòu)建的情感詞典正負向均取300個詞匯。

      3.2 文本特征表示

      計算詞權(quán)值的方式有傳統(tǒng)的用權(quán)重賦值法以及TF-IDF等,TF-IDF的主要思想是:如果某個詞在一篇文章中出現(xiàn)頻率很高,但在其他文章中極少出現(xiàn),那么這個詞就能很好地區(qū)分類別,適合用來作為分類的特征。其公式為:

      其中:wik為特征詞ik的權(quán)重,tfik為特征詞ik在文本di中出現(xiàn)的頻率,N為總的訓(xùn)練文本數(shù),nk為訓(xùn)練集中詞ik出現(xiàn)了的文本數(shù)。

      實踐中發(fā)現(xiàn),用此方法賦以權(quán)重比較繁瑣,且其不區(qū)分正負語料庫,而是直接依據(jù)每個詞在正、負、中性文本中出現(xiàn)的頻率來判斷其在不同情感中的權(quán)重,因此本文采用簡單的權(quán)重賦值方法,即將所有正向詞匯賦以+1的權(quán)重,所有負向詞匯賦以-1的權(quán)重。這樣的優(yōu)點是操作起來比較簡單便捷,缺點是忽略了不同詞匯在情感程度上的差異。

      3.3 文本情感分類

      本文利用情感詞典來對文本情感進行標注。對具有積極情感的詞語賦于+1的權(quán)重,對具有消極情感的詞語賦于-1的權(quán)重,并假定情感賦值可以線性相加。由于標題對文章內(nèi)容具有高度概括作用,所以選擇利用標題來對文章進行情感分類。首先對標題進行分詞,然后對分詞中包含的情感詞加上對應(yīng)+1或-1的權(quán)重。此外,本文加上了否定詞和程度副詞對情感的影響,最終將得分為正的文本劃分為正面情感,得分為負的文本劃分為負面情感,其余文本記為中立情感。對訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集分別隨機抽取10 000條進行情感劃分,其準確率達到85.73%,整體效果較好,其混淆矩陣如表4所示。

      表4 訓(xùn)練集情感劃分混淆矩陣

      可見,負向情感正確劃分的概率為83.75%,正向情感正確劃分的概率為89.19%,對中立情感的文本劃分準確率相對低一點。考慮到整體準確率為85.73%,且正向負向情感劃分的準確率均不錯,故此方法有效。

      將同樣的方法用于測試集的情感劃分,得到準確率為83.62%,整體效果較好,其混淆矩陣如表5所示。

      表5 測試集情感劃分混淆矩陣

      可見,負向情感正確劃分的概率為83.77%,中立情感被正確分類的概率為68.68%,正向情感正確劃分的概率為89.16%,總體準確率為83.62%。

      在此基礎(chǔ)上對訓(xùn)練集分類后的正負向情感文本分詞統(tǒng)計詞頻,按頻率降序排列選取前100名的詞匯繪制詞云圖見圖6、7。

      圖 6 訓(xùn)練集正向情感文本詞云

      圖 7 訓(xùn)練集負向情感文本詞云

      對訓(xùn)練集分類后,其正向輿情信息中關(guān)注較多的是上市、車型、魅力等,負面輿情信息中關(guān)注較多的是銷量、二手車、投訴、事故、下滑等,說明分類后的分詞效果比較好,有利于后續(xù)分析。

      對測試集情感劃分正負之后也分別提取了正負面的主要詞匯,將其與訓(xùn)練集對比并無太大差異,我們將兩個數(shù)據(jù)集正負面提取的詞匯取前6個綜合為表6。

      表6 兩個數(shù)據(jù)集正負面熱詞對比

      可見訓(xùn)練集與測試集在正面情感熱詞上相差不大,只是訓(xùn)練集中正面輿情增加了對豐田的關(guān)注;兩個數(shù)據(jù)集在負面情感熱詞上相差也不大,只是測試集中的負面輿情減少了對疫情的關(guān)注,增加了對達利桑、德羅的關(guān)注。

      4 車企輿情主題分析

      4.1 LDA主題分析模型

      LDA模型也叫3層貝葉斯概率模型。它由3層結(jié)構(gòu)組成,分別是文檔(d)、主題(z)和詞(w)。該模型能夠有效挖掘潛藏在數(shù)據(jù)中的主題,進而分析數(shù)據(jù)中的主要關(guān)注點。

      3層貝葉斯結(jié)構(gòu)包括兩部分,分別是“文檔—主題”和“主題—詞”,其中“文檔—主題”表示以一定概率來通過文檔d生成主題z;“主題—詞”表示以一定概率來通過主題z生成詞w。若要生成一個文檔,文檔中每個詞出現(xiàn)的條件概率可以分為兩部分:

      式中,p(w|d)表示文檔中分詞出現(xiàn)的概率;p(w|z)表示主題中分詞出現(xiàn)的概率;p(z|d)表示文檔中主題出現(xiàn)的概率。LDA模型則是利用“文檔—詞語”矩陣來進行訓(xùn)練,由此推測出文檔的主題。

      4.2 尋找最優(yōu)主題數(shù)

      由于中立情感的文本對主題分析沒有太大價值,并不能反映一些關(guān)鍵性看法和態(tài)度,所以本文選擇只對測試集中情感為正向和負向的文本進行主題分析。LDA模型可以用相對較少的迭代就找到最優(yōu)的主題數(shù)。圖8展示了不同主題數(shù)下的平均余弦相似度,可見無論是正向情感還是負向情感都在主題數(shù)選2時,平均余弦相似度最低。因此,對正面數(shù)據(jù)和負面數(shù)據(jù)均選擇主題數(shù)為2來進行主題分析。對測試集進行相同的步驟,發(fā)現(xiàn)選擇的最優(yōu)主題數(shù)也是2。

      (a)正面

      (b)負面圖 8 主題間平均余弦相似度

      4.3 LDA主題分析

      根據(jù)概率,在每個主題下生成10個最有可能出現(xiàn)的詞語。表7反映了訓(xùn)練集中正面情感數(shù)據(jù)潛在的主題。主題1中的高頻詞(即關(guān)注點)主要是上市、魅力、車型、比亞迪、奧迪等主要反映人們對車的車型、特質(zhì)等關(guān)注多的方面。主題2中的高頻詞(即關(guān)注點)主要是新款、動力、新能源、吉利等,說明人們對新款的車比較關(guān)注,且對它的動力、新能源方面關(guān)注較多且好評度較高。

      表7 訓(xùn)練集正面輿情數(shù)據(jù)中的潛在主題

      表8反映了訓(xùn)練集中負面情感數(shù)據(jù)潛在的主題。主題1中的高頻詞主要是銷量、同比、下降、新車、召回、投訴、司機之類,說明很多關(guān)于車企的負面輿情都較多提到新車召回、銷量下降以及服務(wù)投訴。主題2中的高頻詞主要是二手車、優(yōu)信、駕駛、自動之類,說明人們對二手車的滿意度并不是很高。廣大網(wǎng)民對一些新興的自動駕駛持懷疑態(tài)度,對其安全性存在一些顧慮。

      表8 訓(xùn)練集負面輿情數(shù)據(jù)中的潛在主題

      對測試集同樣提取了兩個主題的關(guān)鍵詞,其結(jié)果與訓(xùn)練數(shù)據(jù)集主題所體現(xiàn)的關(guān)注點相似,只是正面中主題2增加了對設(shè)計、品牌、高顏值的關(guān)注,也就是對汽車的外形設(shè)計上關(guān)注較多;負面中測試集增加了對日產(chǎn)和豐田的關(guān)注。

      5 結(jié)論

      本文利用情感詞典識別和預(yù)測汽車行業(yè)的輿情情感,并對正面情感和負面情感分別進行主題分析。從分析結(jié)果可知,廣大網(wǎng)民對汽車行業(yè)現(xiàn)狀的態(tài)度和關(guān)注點,發(fā)現(xiàn)人們對汽車的車型、魅力等聚焦較多,且對新款車尤為關(guān)注;對汽車的動力、新能源等方面具有一定的關(guān)注度和好評度,對新車的召回率、部分汽車銷量下降情況以及出租車司機因服務(wù)不當而遭受投訴等方面帶有一定的負面情緒;對二手車的滿意度不高,對于新興的自動駕駛也持懷疑觀望態(tài)度。

      猜你喜歡
      分詞負面輿情
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      負面清單之后的電改
      能源(2018年8期)2018-09-21 07:57:22
      遠離負面情緒
      值得重視的分詞的特殊用法
      輿情
      中國民政(2016年16期)2016-09-19 02:16:48
      輿情
      中國民政(2016年10期)2016-06-05 09:04:16
      輿情
      中國民政(2016年24期)2016-02-11 03:34:38
      微博的輿情控制與言論自由
      高考分詞作狀語考點歸納與疑難解析
      論英語不定式和-ing分詞的語義傳承
      鄱阳县| 麻城市| 固安县| 福建省| 左贡县| 德庆县| 土默特左旗| 久治县| 阿瓦提县| 土默特右旗| 介休市| 遂平县| 湘西| 华阴市| 利辛县| 常宁市| 女性| 安泽县| 黄山市| 兴业县| 深水埗区| 固原市| 疏勒县| 南投市| 南木林县| 农安县| 射阳县| 清流县| 金乡县| 荥经县| 托里县| 紫阳县| 杂多县| 辉县市| 新邵县| 横山县| 甘德县| 临海市| 酉阳| 梁平县| 邓州市|