• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于BiLSTM的酒店顧客滿意度評(píng)價(jià)模型*

      2023-01-18 10:07:42高麗君張宇濤林昀萱施慧玲
      關(guān)鍵詞:準(zhǔn)確率向量顧客

      高麗君,張宇濤,林昀萱,施慧玲

      (1.福州大學(xué)經(jīng)濟(jì)與管理學(xué)院,福建 福州 350108;2.福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建 福州 350108;3.福州大學(xué)梅努斯國(guó)際工程學(xué)院,福建 福州 350108)

      1 研究背景及意義

      由于交通技術(shù)的迅速革新以及我國(guó)對(duì)基礎(chǔ)設(shè)施建設(shè)的大力投資,如今人們交通出行變得越來(lái)越容易,自然而然對(duì)于酒店民宿等住宿場(chǎng)所的需求十分旺盛。根據(jù)Trustdata移動(dòng)大數(shù)據(jù)監(jiān)測(cè)平臺(tái)統(tǒng)計(jì)數(shù)據(jù)顯示,2019年我國(guó)在線酒店預(yù)訂間夜量同比增長(zhǎng)了26.7%,全年酒店間夜量規(guī)模超8億[1]??梢?jiàn)在新冠疫情的影響下,酒店行業(yè)發(fā)展前景依舊一片大好。由于目前消費(fèi)升級(jí)的趨勢(shì),人們對(duì)于在外出行十分重要的住宿酒店提出了更高的服務(wù)要求。如何高效探究顧客的滿意程度從而識(shí)別其需求是當(dāng)前酒店行業(yè)重點(diǎn)關(guān)注的問(wèn)題。

      酒店顧客滿意度代表該酒店在房間、交通等硬環(huán)境以及員工、服務(wù)等軟環(huán)境方面滿足顧客期待的程度,是涉及各方面因素的綜合指標(biāo)。酒店滿意度的研究方法目前包括傳統(tǒng)的問(wèn)卷調(diào)查法、專家法和當(dāng)前大數(shù)據(jù)時(shí)代適用的在線評(píng)價(jià)分析法。劉衛(wèi)鎧[2]實(shí)現(xiàn)酒店評(píng)論文本的情感極性分析,證明酒店評(píng)論數(shù)據(jù)的有用性。

      傳統(tǒng)研究方法存在數(shù)據(jù)量較低、顧客覆蓋率低、研究維度存在局限性等問(wèn)題,而在線評(píng)價(jià)的海量數(shù)據(jù)能夠在一定程度上避免上述問(wèn)題。如今,互聯(lián)網(wǎng)時(shí)代由顧客根據(jù)實(shí)際體驗(yàn)在各大網(wǎng)絡(luò)平臺(tái)發(fā)表的在線評(píng)論已經(jīng)成為顧客滿意度的重要載體。當(dāng)前對(duì)于酒店滿意度的研究,許多研究者選擇以海量的在線評(píng)論作為文本數(shù)據(jù)庫(kù),并將文本數(shù)據(jù)進(jìn)行整理篩選和分析后,用不同的研究方法對(duì)文本數(shù)據(jù)進(jìn)行研究。

      對(duì)酒店在線評(píng)論分析較為廣泛應(yīng)用的傳統(tǒng)方法是定性分析和定量分析。汪家鑫等[3]用SWOT分析法對(duì)在線評(píng)論數(shù)據(jù)進(jìn)行定性分析,提出酒店服務(wù)質(zhì)量提升的策略;劉巖等[4]采用文本聚類方法與TF-IDF(Term Frequency-Inverse Document Frequency)算法對(duì)酒店在線評(píng)論進(jìn)行定量分析,其次運(yùn)用線性回歸分析方法構(gòu)造酒店顧客滿意度評(píng)論模型。而面對(duì)在線評(píng)論數(shù)據(jù)量大、非結(jié)構(gòu)性的特點(diǎn),傳統(tǒng)的模型方法如線性回歸等難以獲得較好的研究效果,因此學(xué)者們也利用邏輯回歸、深度學(xué)習(xí)等機(jī)器學(xué)習(xí)領(lǐng)域技術(shù)進(jìn)行滿意度研究。郭慶等[5]通過(guò)Tree LSTM模型對(duì)旅游網(wǎng)站評(píng)論進(jìn)行情感分析,以研究用戶對(duì)旅游景點(diǎn)的滿意程度;王紅梅[6]提出了一種基于深度學(xué)習(xí)的滿意度評(píng)估方法??梢?jiàn)深度學(xué)習(xí)由于其結(jié)構(gòu)靈活的特性,抽取特征的高效性,能夠在文本情感分析領(lǐng)域發(fā)揮極大的作用。

      本研究基于深度學(xué)習(xí)開(kāi)展,通過(guò)構(gòu)建雙向長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)酒店預(yù)訂平臺(tái)的在線評(píng)論進(jìn)行情感分析獲取顧客滿意度,分別采用Word2vec,GloVe,fastText,BERT詞向量訓(xùn)練工具預(yù)訓(xùn)練詞向量作為模型詞嵌入層,并與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)等模型進(jìn)行對(duì)比分析得出最優(yōu)模型。本文選取攜程網(wǎng)站上福州市內(nèi)多家知名酒店的在線評(píng)論實(shí)例論證。研究有利于顧客進(jìn)行消費(fèi)決策時(shí)選擇更優(yōu)的酒店,也有利于酒店研究顧客需求改進(jìn)不足之處,從而獲得更好的發(fā)展,對(duì)酒店旅游業(yè)的發(fā)展具有實(shí)際意義。

      2 基于BiLSTM的酒店顧客滿意度評(píng)價(jià)模型構(gòu)建方法

      本文的研究目標(biāo)是構(gòu)建一個(gè)基于BiLSTM的、能夠提取在線評(píng)論信息、計(jì)算顧客滿意度的酒店顧客滿意度模型。首先爬取酒店在線評(píng)論作為研究數(shù)據(jù),數(shù)據(jù)預(yù)處理后,利用詞向量訓(xùn)練工具預(yù)訓(xùn)練評(píng)論語(yǔ)料,建立用于情感傾向分析的神經(jīng)網(wǎng)絡(luò)模型,以情感得分作為酒店顧客滿意度并輸出。

      2.1 在線評(píng)論數(shù)據(jù)的獲取與預(yù)處理

      在線評(píng)論是評(píng)論主體自身體會(huì)的文本表示,一般由客觀描寫(xiě)語(yǔ)句與主觀感受語(yǔ)句兩者組合。主觀感受語(yǔ)句包含了評(píng)論主體的情感傾向與各種態(tài)度信息,是文本挖掘的主要目標(biāo)對(duì)象。攜程旅行網(wǎng)是我國(guó)主流的旅行服務(wù)公司之一,其上的用戶在線評(píng)論具有數(shù)據(jù)量大、涵蓋范圍廣、來(lái)源真實(shí)等特點(diǎn),符合酒店顧客滿意度研究所需數(shù)據(jù)的要求。本文通過(guò)爬蟲(chóng)工具爬取攜程旅行網(wǎng)站上福州三坊七巷亞朵酒店、福州財(cái)富·品味酒店、TIME時(shí)間城市公寓(福州橘園洲店)、福建省閩江飯店和梅園·悅竹酒店(福州三坊七巷店)等酒店的顧客在線評(píng)論作為研究數(shù)據(jù)。

      爬取的原始文本數(shù)據(jù)中通常會(huì)存在一定的干擾信息,并且無(wú)法直接被計(jì)算機(jī)識(shí)別處理。對(duì)數(shù)據(jù)進(jìn)行預(yù)處理能夠去除原始文本數(shù)據(jù)中的冗余信息,規(guī)范化數(shù)據(jù)格式,去除數(shù)據(jù)噪聲,能夠?qū)⒃嘉谋緮?shù)據(jù)轉(zhuǎn)化成計(jì)算機(jī)可識(shí)別的可處理規(guī)范數(shù)據(jù)。在線評(píng)論數(shù)據(jù)預(yù)處理步驟如下。

      1)去除原始文本數(shù)據(jù)中缺失、重復(fù)的文本數(shù)據(jù)。

      2)去除無(wú)意義數(shù)據(jù):在線評(píng)論中存在一定量的單字,或者僅有標(biāo)點(diǎn)或者表情符號(hào)的評(píng)論。例如“?”“好”等,這些評(píng)論文本會(huì)對(duì)后續(xù)研究造成干擾,應(yīng)該去除。

      3)去除特殊符號(hào)及表情符號(hào)、標(biāo)點(diǎn)及鏈接,繁體轉(zhuǎn)簡(jiǎn)體,糾正錯(cuò)別字等操作規(guī)范數(shù)據(jù)格式。

      4)分詞:利用Python中現(xiàn)有的jieba工具包對(duì)評(píng)論文本數(shù)據(jù)分詞。

      5)去除停用詞:由于語(yǔ)言的結(jié)構(gòu)性,在線評(píng)論中存在一定量的無(wú)實(shí)際含義但是能夠承接語(yǔ)句的詞語(yǔ),如“嗎”“啦”等語(yǔ)氣詞以及“然而”“但是”等連接詞。因此預(yù)處理時(shí)需要將停用詞去除,以保證后續(xù)研究效果不受影響?;诂F(xiàn)有的停用詞庫(kù)添加自定義停用詞加以改進(jìn),獲得酒店領(lǐng)域停用詞表,對(duì)文本數(shù)據(jù)進(jìn)行去停用詞操作。

      2.2 詞向量預(yù)訓(xùn)練

      上述數(shù)據(jù)預(yù)處理所獲得的預(yù)料數(shù)據(jù)是詞向量預(yù)訓(xùn)練的基礎(chǔ)。而分詞之后的文本要能夠進(jìn)入自然語(yǔ)言模型則需要詞向量預(yù)訓(xùn)練。通過(guò)詞向量預(yù)訓(xùn)練可以將文本語(yǔ)言向量化。作為詞的分布式表示方法,詞向量在1986年被Hinton[7]提出,而后經(jīng)過(guò)幾十年發(fā)展,自然語(yǔ)言領(lǐng)域涌現(xiàn)了Word2vec[8],GloVe[9],fastText[10],BERT[11]詞向量模型。據(jù)研究表明,情感分類模型的性能得以有效提高得益于預(yù)訓(xùn)練模型的發(fā)展[12]。在研究酒店顧客滿意度時(shí),分別使用Word2vec,GloVe,fastText,BERT進(jìn)行詞向量預(yù)訓(xùn)練作為后續(xù)神經(jīng)網(wǎng)絡(luò)模型的詞嵌入層。

      2.2.1 Word2vec

      Word2vec是Google開(kāi)發(fā)的最流行的預(yù)訓(xùn)練詞嵌入工具之一。它主要使用CBOW和Skip-Gram模型進(jìn)行訓(xùn)練[13]。Word2vec還擁有負(fù)采樣[14]和層序Softmax兩種優(yōu)化訓(xùn)練方式。本文選擇采用基于Hierarchical Softmax優(yōu)化技術(shù)的Skip-Gram模型訓(xùn)練預(yù)處理完成的酒店評(píng)論語(yǔ)料。Skip-Gram模型結(jié)構(gòu)見(jiàn)圖1。

      圖1 Skip-Gram模型結(jié)構(gòu)

      2.2.2 GloVe

      GloVe模型是一種基于全局詞頻統(tǒng)計(jì)的詞表征工具,與WordRank[15],Word2vec等模型相似,利用語(yǔ)料數(shù)據(jù)庫(kù)的統(tǒng)計(jì)信息進(jìn)行詞向量訓(xùn)練,同時(shí)捕捉詞語(yǔ)中的相似度等語(yǔ)義信息。GloVe模型具備利用全局信息的能力,訓(xùn)練周期較Word2vec模型短且訓(xùn)練速度更快。

      2.2.3 fastText

      fastText是一個(gè)基于Skip-Gram模型的改進(jìn)方法,用一組字符級(jí)別的n-grams來(lái)表示一個(gè)單詞。用字符級(jí)n-gram求和表示詞語(yǔ)。fastText能夠在大型語(yǔ)料上達(dá)到快速訓(xùn)練的效果,并且可以計(jì)算出原始訓(xùn)練數(shù)據(jù)不包括的詞語(yǔ)表示。

      2.2.4 BERT

      BERT是一種語(yǔ)言模型,通過(guò)調(diào)參使得模型輸出結(jié)果的語(yǔ)義表示體現(xiàn)語(yǔ)言的真實(shí)含義。其預(yù)訓(xùn)練階段包括兩個(gè)任務(wù),一個(gè)是掩碼語(yǔ)言模型(Masked Language Model,MLM),還有一個(gè)是Next Sentence Prediction[11]。BERT在編碼器和解碼器上分別疊加了6層Transformer,導(dǎo)致其訓(xùn)練過(guò)程極其復(fù)雜,培訓(xùn)時(shí)間長(zhǎng)且成本昂貴。本文使用Google開(kāi)源的BERT預(yù)訓(xùn)練模型的源代碼避免了上述問(wèn)題。

      2.3 BiLSTM模型構(gòu)建

      LSTM是由Hochreiter和Schmidhuber等[16]提出的,而后由Graves等[17]對(duì)其進(jìn)行改進(jìn)。該網(wǎng)絡(luò)模型的目的是解決循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度消失問(wèn)題,因此LSTM也被認(rèn)為是遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)的一種特例[18]。LSTM的核心思想是使用記憶單元存儲(chǔ)輸入的時(shí)序信息,而記憶單元?jiǎng)t使用“門(mén)”結(jié)構(gòu)來(lái)篩選存儲(chǔ)至記憶單元的信息,“門(mén)”結(jié)構(gòu)包括輸入門(mén)、輸出門(mén)和遺忘門(mén)[16]。而B(niǎo)iLSTM是由兩個(gè)LSTM正反向組成的,將正向LSTM的輸出和反向LSTM的輸出簡(jiǎn)單疊加,使得模型可以同時(shí)考慮上述信息和以下信息。BiLSTM能夠解決傳統(tǒng)LSTM無(wú)法獲取詞語(yǔ)前后雙向語(yǔ)義關(guān)系的問(wèn)題[19]。

      在構(gòu)建基于BiLSTM酒店顧客滿意度模型時(shí),需要考慮模型結(jié)構(gòu)、單元個(gè)數(shù)、網(wǎng)絡(luò)層數(shù)、優(yōu)化算法等因素。模型結(jié)構(gòu)分為輸入層、隱藏層和輸出層3層,輸入層負(fù)責(zé)對(duì)輸入模型的數(shù)據(jù)處理;隱藏層則是由正向與反向LSTM細(xì)胞單元層組成的網(wǎng)絡(luò)結(jié)構(gòu),是模型結(jié)構(gòu)中的主體;輸出層的作用是輸出模型的分析結(jié)果。本文所構(gòu)建的BiLSTM模型結(jié)構(gòu)見(jiàn)圖2。

      圖2 BiLSTM模型結(jié)構(gòu)

      本文使用Tensorflow框架,建立包含3層網(wǎng)絡(luò)的BiLSTM顧客滿意度評(píng)價(jià)模型:第一層為輸入層,輸入經(jīng)過(guò)上述預(yù)處理的源文本數(shù)據(jù);第二層是word embedding層,使用不同的詞向量將輸入的文本數(shù)據(jù)轉(zhuǎn)化為詞向量;第三層為神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)層,通過(guò)訓(xùn)練BiLSTM神經(jīng)網(wǎng)絡(luò)作為分類器。選擇Adam算法為模型的優(yōu)化算法,tanh函數(shù)為激活函數(shù)。詳細(xì)的模型建立步驟如下。

      步驟一:以進(jìn)行清洗后未分詞的評(píng)論文本作為評(píng)論數(shù)據(jù)集,并按比例劃分為訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集。將訓(xùn)練數(shù)據(jù)集輸入模型,構(gòu)建神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)輸入層。

      步驟二:基于TensorFlow構(gòu)建BiLSTM模型基本結(jié)構(gòu),建立卷積層、激活層、池化層、全連接層等。本文選擇使用上文預(yù)訓(xùn)練的詞向量模型作為詞嵌入層。BiLSTM層設(shè)計(jì)雙向LSTM層疊加,完成詞向量的拼接后輸入輸出層?;窘Y(jié)構(gòu)完成后初始化參數(shù),在后續(xù)訓(xùn)練中進(jìn)一步調(diào)整優(yōu)化模型效果。

      步驟三:輸出結(jié)果后根據(jù)樣本的輸出概率與真實(shí)值對(duì)比,得到損失率、精確值、召回率等指標(biāo)。如果出現(xiàn)過(guò)擬合現(xiàn)象則考慮改變學(xué)習(xí)率,添加Batch Normalization以及在全連接層進(jìn)行dropout等方法優(yōu)化模型。

      步驟四:達(dá)到預(yù)計(jì)效果后模型訓(xùn)練完成,將評(píng)論測(cè)試數(shù)據(jù)集輸入模型中進(jìn)行驗(yàn)證。將評(píng)論數(shù)據(jù)集中各句評(píng)論通過(guò)系統(tǒng)輸出的情感值記錄并且綜合平均計(jì)算輸出整體數(shù)值作為顧客滿意度。

      3 實(shí)驗(yàn)與結(jié)果分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)

      3.1.1 數(shù)據(jù)獲取

      本文通過(guò)爬蟲(chóng)工具爬取攜程旅行網(wǎng)站上福州三坊七巷亞朵酒店、福州財(cái)富·品味酒店、TIME時(shí)間城市公寓(福州橘園洲店)、福建省閩江飯店和梅園·悅竹酒店(福州三坊七巷店)等酒店的顧客在線評(píng)論共14 665條作為研究數(shù)據(jù)。爬取的文本數(shù)據(jù)包含用戶ID、評(píng)論文本、評(píng)分星級(jí)三部分內(nèi)容。爬取的部分評(píng)論數(shù)據(jù)見(jiàn)表1。本文研究的數(shù)據(jù)對(duì)象主要為酒店在線評(píng)論的文本內(nèi)容,包括酒店顧客的好評(píng)、差評(píng)以及中性評(píng)論。

      為了直觀了解數(shù)據(jù),本文在獲取數(shù)據(jù)后對(duì)酒店在線評(píng)論數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)與分析。表1為評(píng)論數(shù)據(jù)的樣本,表2為研究數(shù)據(jù)的描述性分析結(jié)果。由表2可知,本次爬取的酒店在線評(píng)論數(shù)據(jù)中,五星好評(píng)共11 316條,四星評(píng)論共2 511條,而一星差評(píng)共110條。依靠評(píng)論星級(jí)可以大致推測(cè)出顧客的滿意度情況,但是單純的評(píng)分計(jì)算較為簡(jiǎn)單粗暴,忽略了評(píng)論文本所蘊(yùn)含的信息。因此本文對(duì)酒店在線評(píng)論文本內(nèi)容作為研究數(shù)據(jù)更為細(xì)膩的探究顧客滿意度具有一定意義。

      表1 評(píng)論數(shù)據(jù)樣本

      表2 評(píng)論的描述性分析 (段)

      3.1.2 數(shù)據(jù)預(yù)處理

      首先對(duì)去除缺失、無(wú)意義文本數(shù)據(jù)后14 665條酒店在線評(píng)論文本數(shù)據(jù)采用Python中的jieba分詞庫(kù)對(duì)評(píng)論文本數(shù)據(jù)進(jìn)行了分詞操作,得到原始單詞835 823個(gè),再通過(guò)去除特殊符號(hào)和標(biāo)簽、繁體轉(zhuǎn)簡(jiǎn)體、糾正錯(cuò)別字等操作規(guī)范數(shù)據(jù)格式。自建酒店領(lǐng)域停用詞表去停用詞,并標(biāo)注文本語(yǔ)料中性,為后續(xù)詞向量預(yù)訓(xùn)練打基礎(chǔ)。經(jīng)過(guò)上述數(shù)據(jù)預(yù)處理去噪后獲得有效單詞464 262個(gè)。上述預(yù)處理過(guò)程數(shù)據(jù)統(tǒng)計(jì)見(jiàn)表3。

      表3 預(yù)處理數(shù)據(jù)統(tǒng)計(jì)

      3.2 詞向量預(yù)訓(xùn)練

      基于上述數(shù)據(jù)處理后的語(yǔ)料,本文采用Word2vec,GloVe,fastText,BERT分別進(jìn)行詞向量預(yù)訓(xùn)練,作為后續(xù)神經(jīng)網(wǎng)絡(luò)模型的詞嵌入層。通過(guò)不斷修改模型參數(shù),使得訓(xùn)練的詞向量在酒店在線評(píng)論語(yǔ)料庫(kù)上達(dá)到更好的效果,并將訓(xùn)練完成的詞向量保存為后續(xù)模型可利用的文件。

      Word2vec采用Skip-Gram模型訓(xùn)練參數(shù),特征向量的維度設(shè)置為100,詞最大間距為5,丟棄詞頻小于5的單詞,采用Hierarchica Softmax技巧構(gòu)建并保存模型,建立詞向量詞典,共計(jì)獲得2 580條詞向量。

      GloVe參數(shù)設(shè)置中涉及的一個(gè)加權(quán)函數(shù),用于將研討文本序列中涉及的低頻詞進(jìn)行衰減,以減少低頻噪聲帶來(lái)的誤差。模型作者Pennington等給出α的經(jīng)驗(yàn)值分別為100和0.75。最小詞頻數(shù)為5,迭代次數(shù)50輪,詞向量維度300,學(xué)習(xí)速率0.01,窗口大小5。函數(shù)的表達(dá)式為

      fastText在train_supervised模式下,詞向量維度設(shè)置為100,上下文窗口為4,迭代次數(shù)為4,詞語(yǔ)的最小出現(xiàn)次數(shù)為2,損失函數(shù)loss選用Softmax。

      BERT使用谷歌開(kāi)源預(yù)訓(xùn)練模型。該模型共有12層,768個(gè)隱藏單元,12個(gè)自注頭,110萬(wàn)個(gè)參數(shù)。通過(guò)使用BERT下游模型能夠獲得高質(zhì)量的詞向量特征。

      3.3 模型構(gòu)建

      將數(shù)據(jù)長(zhǎng)度為14 665的酒店在線評(píng)論數(shù)據(jù)集輸入本文構(gòu)建的BiLSTM神經(jīng)網(wǎng)絡(luò)模型,使用BERT預(yù)訓(xùn)練詞向量作為模型embedding層,進(jìn)行酒店滿意度模型訓(xùn)練。通過(guò)多次學(xué)習(xí)優(yōu)化完成的最優(yōu)模型超參數(shù)為:模型的LSTM隱藏向量維度均為256,batch大小為32;學(xué)習(xí)率為0.000 1,dropout率為0.4,訓(xùn)練200輪次。最優(yōu)模型訓(xùn)練準(zhǔn)確率達(dá)到了86.2%。

      最后基于本文訓(xùn)練優(yōu)化的模型,利用情感傾向值分別計(jì)算爬取的酒店在線評(píng)論所涉及的福州三坊七巷亞朵酒店、福州財(cái)富·品味酒店、TIME時(shí)間城市公寓(福州橘園洲店)、福建省閩江飯店和梅園·悅竹酒店(福州三坊七巷店)顧客滿意度。各酒店滿意度見(jiàn)表4。

      表4 酒店滿意度預(yù)測(cè)情況

      3.4 比較

      模型訓(xùn)練完成后,除了輸出的酒店顧客滿意度結(jié)果外,還應(yīng)該輸出準(zhǔn)確率等評(píng)價(jià)指標(biāo),用于衡量訓(xùn)練模型效果的好壞。本文選擇準(zhǔn)確率、召回值、F1值作為模型的效果評(píng)價(jià)指標(biāo)。需要注意的是,由于本文的情感分析任務(wù)是一個(gè)多分類任務(wù),存在數(shù)據(jù)集不平衡的情況,評(píng)分為5的評(píng)論較多,本文需要同時(shí)關(guān)注,特別關(guān)注樣本較少的類別,因此本文采用宏平均作為分類器的評(píng)價(jià)指標(biāo)。

      本文對(duì)比使用Word2vec,GloVe,fastText,BERT所訓(xùn)練的4種詞向量嵌入模型的訓(xùn)練效果,4種模型的準(zhǔn)確率、召回值及F1值見(jiàn)表5。通過(guò)指標(biāo)對(duì)比,發(fā)現(xiàn)前3種詞向量嵌入模型的效果較為接近,而B(niǎo)ERT-BiLSTM模型能夠取得大幅度升高的訓(xùn)練效果,準(zhǔn)確率、召回值相比其他模型都保持在較高的水平。故而B(niǎo)ERT-BiLSTM模型更適合本文所使用的酒店評(píng)論數(shù)據(jù)集的訓(xùn)練,效果最優(yōu)。此外,從訓(xùn)練速度來(lái)看,BERT-BiLSTM模型也擁有更快的訓(xùn)練速度,能夠減少時(shí)間的浪費(fèi)。

      表5 不同詞向量嵌入模型準(zhǔn)確率、召回值和F1值比較

      為了對(duì)比研究本文BERT-BiLSTM顧客滿意度模型的效果,本文還同時(shí)建立了使用BERT,BERT-CNN與BERT-LSTM的顧客滿意度模型。二者同樣采用本文爬取的14 665條酒店在線評(píng)論作為研究數(shù)據(jù),選擇效果最好的BERT預(yù)訓(xùn)練的詞向量嵌入模型,對(duì)比4種模型的準(zhǔn)確率、召回值和F1值見(jiàn)表6。

      表6 4種模型的準(zhǔn)確率、召回值和F1值比較

      由表6可知,加入BERT預(yù)訓(xùn)練的模型均在準(zhǔn)確率和精確率上取得了很好的精度,而且在預(yù)訓(xùn)練模型相同的情況下,BERT-CNN模型的準(zhǔn)確率為84.8%,BERT-LSTM模型則取得了85.6%的準(zhǔn)確率,模型效果較佳。而B(niǎo)ERT-BiLSTM模型的準(zhǔn)確率為86.2%,以微小的優(yōu)勢(shì)超過(guò)了比較模型。并且BERT-BiLSTM模型取得了85.8%的召回值,證明該模型在準(zhǔn)確率、召回率以及F1值上都取得了比BERT,BERT-CNN與BERT-LSTM模型更好的效果。說(shuō)明本文基于酒店在線評(píng)論語(yǔ)料訓(xùn)練的BERT-BiLSTM模型優(yōu)于其他模型,能夠在酒店顧客滿意度評(píng)價(jià)方面發(fā)揮一定的作用。

      4 結(jié)論

      本文以酒店顧客在線評(píng)論為研究數(shù)據(jù),通過(guò)文本挖掘進(jìn)行酒店顧客滿意度探究,建立了效果最優(yōu)的BERT-BiLST模型,實(shí)現(xiàn)了預(yù)期研究目標(biāo)。首先對(duì)用爬蟲(chóng)軟件爬取在線評(píng)論進(jìn)行數(shù)據(jù)預(yù)處理;接著采用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型進(jìn)行訓(xùn)練。本文使用攜程網(wǎng)站上福州市內(nèi)多家知名酒店的在線評(píng)論進(jìn)行評(píng)論挖掘,實(shí)例論證了各酒店的顧客滿意度水平。探究了4種預(yù)訓(xùn)練詞向量嵌入模型的效果,并通過(guò)與CNN,LSTM模型對(duì)比模型效果。實(shí)例表明,無(wú)論是準(zhǔn)確率、召回率,還是F1值,本文BERT-BiLSTM的模型效果都更好、更優(yōu)。

      本文雖然對(duì)詞向量主流模型以及神經(jīng)網(wǎng)絡(luò)模型都進(jìn)行了探究,并且獲得了較好的模型效果,但是本文在文本挖掘時(shí)忽略了評(píng)論文本的隱式特征分析,可能會(huì)造成信息遺漏從而影響滿意度評(píng)價(jià)結(jié)果。因此下一步目標(biāo)是探究如何更好地挖掘評(píng)論文本的隱性特征。

      猜你喜歡
      準(zhǔn)確率向量顧客
      向量的分解
      “一站式”服務(wù)滿足顧客
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      聚焦“向量與三角”創(chuàng)新題
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      向量垂直在解析幾何中的應(yīng)用
      讓顧客自己做菜
      山東青年(2016年1期)2016-02-28 14:25:27
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      房产| 陇西县| 尚志市| 枝江市| 尚义县| 佛坪县| 白河县| 龙南县| 普兰县| 方山县| 红安县| 沙雅县| 太湖县| 仁寿县| 安国市| 库伦旗| 寿宁县| 普宁市| 绥宁县| 新沂市| 察雅县| 麦盖提县| 闸北区| 阜康市| 枣庄市| 宜兰县| 屏东县| 体育| 黔东| 平利县| 乡城县| 临朐县| 侯马市| 平山县| 靖边县| 台中县| 永平县| 成武县| 岢岚县| 新巴尔虎左旗| 缙云县|