• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于信息化的酒店評論情感分析

      2022-04-23 01:32:09吳昔遙劉欣凱王孝杰
      中國新通信 2022年4期
      關(guān)鍵詞:隨機森林機器學(xué)習(xí)

      吳昔遙 劉欣凱 王孝杰

      【摘要】? ? 本文通過爬蟲獲取酒店評論數(shù)據(jù),對數(shù)據(jù)進行預(yù)處理,包括數(shù)據(jù)清洗、評論內(nèi)容分詞等。為了模型性能更優(yōu),本文對數(shù)據(jù)進行特征工程,將其分為兩步:一、使用主成分分析法進行數(shù)據(jù)降維;二、使用卡方檢驗篩選特征。接下來構(gòu)建分別決策樹和隨機森林算法并使用處理好的數(shù)據(jù)進行訓(xùn)練,通過測試集計算出兩種算法的ROC性能曲線,發(fā)現(xiàn)隨機森林算法相比決策樹有著更好的性能,滿足酒店評論情感分析的需求。

      【關(guān)鍵詞】? ? 隨機森林? ? 機器學(xué)習(xí)? ? 評論分析? ? 機器學(xué)習(xí)

      引言

      隨著互聯(lián)網(wǎng)的迅速發(fā)展,人們越來越習(xí)慣于網(wǎng)購,很多人外出住宿都會網(wǎng)上訂購酒店,產(chǎn)生了大量的在線評論[6]。評論信息作為只有入住過的顧客親身體驗后的信息,很快就變成了人們看重的酒店服務(wù)質(zhì)量指標(biāo)?,F(xiàn)在去哪兒網(wǎng)是中國最大的旅游平臺之一,其中的在線評論由用戶原創(chuàng)且能互動,因此這些評論信息具有很大的挖掘意義[1]。

      本文以去哪兒網(wǎng)上的酒店評論信息為實驗數(shù)據(jù)進行信息的挖掘,得到酒店情感分析模型。

      一、 數(shù)據(jù)爬取和預(yù)處理

      (一)數(shù)據(jù)爬取

      Scrapy是一個爬取網(wǎng)站數(shù)據(jù),提取結(jié)構(gòu)性數(shù)據(jù)而編寫的Python框架, 廣泛利用于數(shù)據(jù)挖掘、信息處理等領(lǐng)域。本文我們使用Scrapy對去哪兒網(wǎng)的酒店信息進行爬取。

      通過觀察發(fā)現(xiàn),漢庭酒店的某城市下(如廊坊)的所有酒店可在城市頁面得到,具體頁面情況如圖1所示。通過跳轉(zhuǎn)每一個酒店的頁面來爬取酒店的基本信息,包括城市、名稱、地址、房間數(shù)等;然后爬取酒店的評論信息和評分情況,包括綜合評分、性價比評分、環(huán)境衛(wèi)生評分等。最終我們得到需要進行分析的數(shù)據(jù),部分參數(shù)如表1[2]。

      (二)數(shù)據(jù)預(yù)處理

      在爬取完相關(guān)數(shù)據(jù)后,需要對數(shù)據(jù)做一些清洗和預(yù)處理,才能做進一步的可視化和建立算法。對數(shù)據(jù)使用pandas進行導(dǎo)入后,進行一系列的預(yù)處理操作,例如對數(shù)據(jù)進行連接匯總;對省和市的名稱進行清洗,并去除省和市映射的重復(fù)值;對一些數(shù)據(jù)進行清洗,轉(zhuǎn)化為數(shù)值類型。經(jīng)過處理后的數(shù)據(jù)集包括434400條樣本,樣本包含四個屬性,如表2所示[3]。

      除上述基本操作外,最重要的操作是將評論信息是用jieba進行分詞和關(guān)鍵詞統(tǒng)計。jieba是一款非常流行中文開源分詞包,具有速度快、準(zhǔn)確、可擴展等特點,目前主要支持python,其他語言也有相關(guān)版本。它支持多種分詞模式、繁體分詞、自定義詞典等功能。本文將所有評論按照不同評分分組,將評論分成中文的詞語并進行詞性標(biāo)注,返回評分、詞語、詞頻。處理后的結(jié)果輸出到csv文件進行保存[4]。

      (三)中文特征構(gòu)造

      在數(shù)據(jù)中評論的評分為1-5,本文將4和5分定義為好評,1和2定義為差評,將評分為3的評論全部刪除。評論中分詞后的詞語實際上有著一些沒有意義的詞語,通過載入jieba停用詞庫進行排除。除此之外還包含一些并無實際意義的特殊字符也需要對其進行篩除,僅保留完全由中文字符組成的詞語。其中詞頻最高的前二十個詞如圖2所示。

      TF-IDF是一種對關(guān)鍵詞進行統(tǒng)計和分析的方式,被廣泛用于預(yù)估一個詞在文件或語料庫中的重要程度。一個詞的重要程度跟它在文章中出現(xiàn)的次數(shù)成正比,跟它在語料庫出現(xiàn)的次數(shù)成反比。此方法能有效地避免常用詞對關(guān)鍵詞的影響,提高關(guān)鍵詞與文章之間的相關(guān)性。TF指的是某一個詞在文章中出現(xiàn)的總次數(shù),通常表示為TF = 某詞在文檔中出現(xiàn)的次數(shù)/文檔的總詞量,這樣可以防止結(jié)果偏向過長的文檔。IDF逆向文檔頻率,包含某詞語的文檔越少,IDF值越大,說明該詞語的區(qū)分能力越強。

      本文使用一個向量化器將文本轉(zhuǎn)換為TF-IDF矩陣。通過設(shè)置文檔中的停用詞,使得停用詞不納入計算范圍,提高算法的精確性。

      二、評論情感分類算法建立

      (一)特征工程

      模型訓(xùn)練前對數(shù)據(jù)進行劃分,訓(xùn)練集為253047條評論,測試集為108450條評論。每一條數(shù)據(jù)由評論id和評論內(nèi)容組成。使用TF矩陣對數(shù)據(jù)進行編碼轉(zhuǎn)換,得到1000維的特征向量。

      特征工程是從原始數(shù)據(jù)中提取特征的過程,轉(zhuǎn)化后的數(shù)據(jù),可以讓模型更好的擬合問題。經(jīng)過處理,數(shù)據(jù)已經(jīng)轉(zhuǎn)化為1000維的特征向量,通過主成分分析法(PCA)進行數(shù)據(jù)的降維,減少冗余信息造成的誤差。畫出所有1000個特征變量卡方值的直方圖,如圖3所示。可以看出,大部分特征的卡方值都在1000以下,即預(yù)測能力較弱,并不適合進行模型的訓(xùn)練。

      使用卡方檢驗選取預(yù)測能力最強的100個特征變量,并按照卡方值從大到小排序,前二十個特征向量如圖4所示。

      (二)算法建立

      決策樹是將數(shù)據(jù)分為不同的區(qū)域,每個區(qū)域有獨立參數(shù)的算法。它基于實例的歸納學(xué)習(xí),從訓(xùn)練樣本中提煉出樹型模型。決策樹生成分為特征選擇和決策樹生成。特征選擇指從訓(xùn)練集選擇合適的特征為分裂標(biāo)準(zhǔn)。決策樹生成指根據(jù)特征評估,從上到下遞歸生成子樹,直到數(shù)據(jù)集不可分[8]。決策樹模型結(jié)構(gòu)較簡單,訓(xùn)練速度很快,但性能一般。訓(xùn)練時指定決策樹的相關(guān)超參數(shù)防止過擬合,決策樹最大深度為4,葉子結(jié)點最小樣本為500。使用特征構(gòu)建完的決策樹如圖5所示。

      隨機森林是將多棵樹聯(lián)系起來的集成學(xué)習(xí)算法,它的基本思想是袋裝采樣和決策樹。每棵決策樹都是一個分類器,而隨機森林正式集成了所有分類器的結(jié)果,以最靠譜的預(yù)測類別作為最終的輸出。與支持向量機、BP神經(jīng)網(wǎng)絡(luò)等算法相比,隨機森林具有更低的錯誤率,更不易被數(shù)據(jù)噪聲所影響,減少了過擬合,體現(xiàn)了集成學(xué)習(xí)算法的優(yōu)越性[7]。訓(xùn)練時對隨機森林的參數(shù)進行設(shè)置,決策樹數(shù)量為100,決策樹的最大深度為4,葉子節(jié)點至少包含100個樣本。

      該分類問題是一個類的分布具有不平衡性,這會損害分類模型的性能。將多數(shù)類的樣本降采樣,使多數(shù)類的樣本數(shù)量與少數(shù)類達到一致。

      在機器學(xué)習(xí)中,分類器性能評估方法受到了廣泛關(guān)注。ROC曲線是選擇特征參數(shù)及分類閾值的高效工具,可以可視化地評估分類器性能,從而進行模型選擇[9]。訓(xùn)練完成后得到模型在測試集上的性能分析,我們發(fā)現(xiàn)此時因為樣本比例不均衡,此時精確度并不是一個很好的性能指標(biāo),改用ROC曲線來衡量模型性能[9]。

      最后得到分別在決策樹、隨機森林和降采樣后的ROC曲線,如圖6所示。根據(jù)ROC曲線看出,隨機森林算法在評論情感分析時有著較好的性能[5]。

      三、結(jié)束語

      本文通過爬蟲得到酒店評論數(shù)據(jù),進行數(shù)據(jù)預(yù)處理和特征工程等過程。使用處理好的數(shù)據(jù)進行隨機森林算法和決策樹算法的構(gòu)建,通過對比ROC曲線得出隨機森林算法相比決策樹有著更好的性能,滿足酒店評論情感分析的需要。

      參? 考? 文? 獻

      [1]胡譯文. 基于情感傾向的酒店評價分析與研究[D].哈爾濱工程大學(xué),2018.

      [2]王冬旭. 基于Python的旅游網(wǎng)站數(shù)據(jù)爬蟲研究[D].沈陽理工大學(xué),2020.

      [3]易小群. 面向智慧出行的酒店評論數(shù)據(jù)可視化技術(shù)研究與實現(xiàn)[D].西南交通大學(xué),2019.

      [4]王鴿. 中文產(chǎn)品評論的情感分析與觀點識別技術(shù)的研究[D].山東科技大學(xué),2018.

      [5]呂結(jié)紅. 基于文本挖掘的酒店在線評論研究[D].華中師范大學(xué),2020.

      [6]熊偉,郭揚杰.酒店顧客在線評論的文本挖掘[J].北京第二外國語學(xué)院學(xué)報,2013,35(11):38-47.

      [7]仉文崗,唐理斌,陳福勇,楊甲鋒.基于4種超參數(shù)優(yōu)化算法及隨機森林模型預(yù)測TBM掘進速度[J].應(yīng)用基礎(chǔ)與工程科學(xué)學(xué)報,2021,29(5):1186-1200.

      [8]李鵬,雷雨秋,劉宗杰,楊圓,邵明鑫,周瑋.基于決策樹算法的斷路器彈簧操動機構(gòu)振動診斷技術(shù)[J].高壓電器,2021,57(9):1-8+18.

      [9]董元方, 李雄飛, 李軍,等. 基于分辨粒度的gROC曲線分析方法[J]. 軟件學(xué)報, 2013,(1):109-120.

      猜你喜歡
      隨機森林機器學(xué)習(xí)
      隨機森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
      基于二次隨機森林的不平衡數(shù)據(jù)分類算法
      軟件(2016年7期)2017-02-07 15:54:01
      拱壩變形監(jiān)測預(yù)報的隨機森林模型及應(yīng)用
      基于詞典與機器學(xué)習(xí)的中文微博情感分析
      基于機器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
      時代金融(2016年27期)2016-11-25 17:51:36
      前綴字母為特征在維吾爾語文本情感分類中的研究
      基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
      基于支持向量機的金融數(shù)據(jù)分析研究
      機器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
      商都县| 吴忠市| 同仁县| 郸城县| 甘泉县| 龙南县| 富阳市| 维西| 通辽市| 修文县| 凉城县| 固镇县| 东至县| 大庆市| 安徽省| 甘洛县| 兴义市| 长宁区| 鱼台县| 津南区| 临潭县| 东兴市| 松潘县| 肃南| 赤壁市| 岳西县| 安顺市| 墨玉县| 遵化市| 湟源县| 建始县| 阆中市| 买车| 新晃| 安阳县| 吉安县| 永昌县| 汉阴县| 横山县| 靖宇县| 嘉善县|