• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于EDA和回譯的導(dǎo)游投訴文本混合增強(qiáng)方法

      2021-04-06 10:55:04余佳雨詹瑾瑜
      關(guān)鍵詞:語料導(dǎo)游準(zhǔn)確率

      余佳雨,李 響,詹瑾瑜,江 維,曹 揚(yáng),楊 瑞

      (1.電子科技大學(xué) 信息與軟件工程學(xué)院,四川 成都 610054;2.中電科大數(shù)據(jù)研究院有限公司,貴州 貴陽 550022;3.提升政府治理能力大數(shù)據(jù)應(yīng)用技術(shù)國家工程實(shí)驗(yàn)室,貴州 貴陽 550022)

      0 引 言

      近年來中國經(jīng)濟(jì)高速發(fā)展,旅游逐漸成為人們休閑娛樂的選擇之一。隨著游客人數(shù)越來越多、旅游可選地點(diǎn)愈發(fā)豐富,旅游過程中各種糾紛日趨復(fù)雜,負(fù)面新聞頻發(fā),如宰客、隨意加價(jià)、強(qiáng)制消費(fèi)等導(dǎo)游違規(guī)事件的相關(guān)新聞報(bào)道[1]。2017年12月黑龍江雪鄉(xiāng)發(fā)生導(dǎo)游用威脅、辱罵手段強(qiáng)制游客參加自費(fèi)項(xiàng)目事件,甚至打傷了兩位游客;2018年5月10名中國游客在泰芭提雅旅游遭遇中國籍黑導(dǎo)游恐嚇、逼迫購物,經(jīng)歷“大逃亡”的事件;2019年11月福建廈門鼓浪嶼導(dǎo)游威脅游客視頻在網(wǎng)絡(luò)熱傳。這些負(fù)面的新聞不僅嚴(yán)重影響了景區(qū)形象,還暴露出旅游市場存在監(jiān)管漏洞。

      人工處理旅游投訴需要耗費(fèi)大量人力,因此使用機(jī)器學(xué)習(xí)算法從導(dǎo)游投訴文本數(shù)據(jù)中挖掘出導(dǎo)游違規(guī)事件,輔助旅游監(jiān)管人員工作,為旅游監(jiān)管提供依據(jù),成為一個必然趨勢。然而,由于傳統(tǒng)旅游業(yè)與大數(shù)據(jù)結(jié)合過程中存在著信息孤島,導(dǎo)致導(dǎo)游投訴文本數(shù)據(jù)單一、難以獲取等問題。為了改善原始導(dǎo)游投訴數(shù)據(jù)集存在的樣本不平衡和語料不豐富的問題,如何對這些導(dǎo)游投訴文本進(jìn)行文本增強(qiáng)以滿足導(dǎo)游違規(guī)行為識別需要,是一個迫切需要解決的問題。

      圖像領(lǐng)域的數(shù)據(jù)增強(qiáng)技術(shù)已經(jīng)比較成熟,通過對圖像的翻轉(zhuǎn)、旋轉(zhuǎn)、鏡像、高斯白噪聲等技巧實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),以幫助訓(xùn)練更強(qiáng)大的模型,尤其是數(shù)據(jù)集較小的時(shí)候。然而在自然語言處理領(lǐng)域,文本數(shù)據(jù)增強(qiáng)技術(shù)仍處于探索階段。Wang等人使用文本分類技術(shù)對推文分析,在詞嵌入模型中使用K-近鄰算法(KNN)尋找同義詞對推文數(shù)據(jù)進(jìn)行增強(qiáng)[2]。Sennrich等人使用自己訓(xùn)練的模型對不完整的語料進(jìn)行翻譯,將得到的結(jié)果和原語料混合得到增強(qiáng)的訓(xùn)練數(shù)據(jù),在機(jī)器翻譯任務(wù)上取得了更好的結(jié)果[3]。Fadaee等人先替換每個文檔中的稀有詞,再用LSTM語言模型翻譯并校驗(yàn)去掉不合理的結(jié)果,得到增強(qiáng)文本數(shù)據(jù)在WMT15英德翻譯任務(wù)上取得了一定的效果[4]。Xie等人引入unigram噪聲(將目標(biāo)詞替換為根據(jù)unigram分布得出詞)和空白噪聲(將目標(biāo)詞替換為占位符),在IWSLT 2015的英德翻譯任務(wù)上取得了不錯的結(jié)果[5]。Hu等人提出了一個結(jié)合變分自動編碼器(VAE)和整體屬性識別符的神經(jīng)生成模型,在斯坦福SST數(shù)據(jù)集和IMDB數(shù)據(jù)集的情感分析任務(wù)上比之前的方法生成的文本更準(zhǔn)確[6]。Yu等人提出了QANet框架,使用了帶有注意力機(jī)制的神經(jīng)機(jī)器翻譯模型將英文語料翻譯為法文再翻譯回英文以進(jìn)行訓(xùn)練文本增強(qiáng),在自動問答任務(wù)的SQuAD數(shù)據(jù)集上取得了更好的結(jié)果[7]。Wei等人針對文本分類任務(wù)提出了一種EDA(easy data augmentation)文本增強(qiáng)方法[8],該方法在較小的數(shù)據(jù)集上可以顯著提高分類效果并減少過擬合。上述的多數(shù)方法都是在特定任務(wù)上進(jìn)行的,如機(jī)器翻譯、機(jī)器閱讀理解,雖然在它們之間相互比較有一定困難,但仍然可以在是否需要訓(xùn)練語言模型和是否需要額外數(shù)據(jù)這兩方面對它們進(jìn)行對比。對于是否需要訓(xùn)練語言模型方面,上述大多數(shù)方法都是需要的;對于是否需要額外數(shù)據(jù)方面,文獻(xiàn)[4]的翻譯增強(qiáng)方法、文獻(xiàn)[6]的VAE方法和文獻(xiàn)[7]的回譯方法都是需要的。相比于其他方法,EDA方法的優(yōu)勢在于不需要訓(xùn)練語言模型并且不需要額外數(shù)據(jù)。因此,該文提出的方法是基于EDA方法和不需要訓(xùn)練語言模型的回譯方法,具有簡單易用的優(yōu)勢。

      針對導(dǎo)游違規(guī)行為識別中導(dǎo)游投訴文本數(shù)據(jù)樣本不平衡和語料不豐富的問題,該文提出了一種基于EDA和回譯的導(dǎo)游投訴文本混合增強(qiáng)方法,從EDA方法和回譯方法兩個方面得到增強(qiáng)后的導(dǎo)游投訴文本數(shù)據(jù),混合生成新的數(shù)據(jù)集。并將該方法應(yīng)用到了實(shí)際的導(dǎo)游違規(guī)行為識別系統(tǒng)中進(jìn)行測試和驗(yàn)證。在實(shí)驗(yàn)中,基于EDA和回譯的導(dǎo)游投訴文本混合增強(qiáng)方法與原始投訴文本數(shù)據(jù)、傳統(tǒng)的EDA文本增強(qiáng)方法、傳統(tǒng)的回譯文本增強(qiáng)方法進(jìn)行了分析與對比。實(shí)驗(yàn)結(jié)果表明,在實(shí)際的導(dǎo)游違規(guī)行為識別系統(tǒng)中,該方法相比于其他兩種方法的文本增強(qiáng)效果更好,相比原始數(shù)據(jù)集其準(zhǔn)確率提高了7.4%,可以有效地提升導(dǎo)游違規(guī)行為識別系統(tǒng)的準(zhǔn)確率。

      1 文本增強(qiáng)方法

      1.1 EDA方法

      傳統(tǒng)文本增強(qiáng)方法都是基于原文本同義詞替換實(shí)現(xiàn)的,而EDA方法在此基礎(chǔ)上進(jìn)行擴(kuò)充,增加了另外三種方式,共由四種不同方式組成,包括:同義詞替換、同義詞插入、刪除、交換詞語位置。

      具體操作如下:

      (1)同義詞替換:從一段導(dǎo)游投訴文本中隨機(jī)選取一個非停用詞,使用近義詞預(yù)測工具找到選取詞的同義詞,然后在原句中把選取詞替換為其同義詞。操作對當(dāng)前投訴文本重復(fù)n次。

      (2)同義詞插入:從一段導(dǎo)游投訴文本中隨機(jī)選取一個非停用詞,使用近義詞預(yù)測工具找到選取詞的可替換的備選詞,將該備選詞插入這段文本某隨機(jī)位置。操作重復(fù)n次。

      (3)刪除:從一段導(dǎo)游投訴文本中隨機(jī)選取一個詞,然后刪除它。操作重復(fù)n次。

      (4)交換詞語位置:從一段導(dǎo)游投訴文本中隨機(jī)選取兩個不同單詞,然后交換它們的位置。操作重復(fù)n次。

      以上四種操作都包含參數(shù)n,它表示對當(dāng)前投訴文本的操作次數(shù),具體公式為n=αl,操作次數(shù)n由當(dāng)前導(dǎo)游投訴本文的單詞改變比例α和當(dāng)前導(dǎo)游投訴本文單詞個數(shù)l決定。此外,對于每條導(dǎo)游投訴文本,文本數(shù)據(jù)增強(qiáng)生成的新的投訴文本條數(shù)為naug,naug為4的倍數(shù),四個操作分別的執(zhí)行次數(shù)均為naug/4。導(dǎo)游投訴文本的EDA增強(qiáng)示例如表1所示,原始的導(dǎo)游投訴文本為“導(dǎo)游黑心變更行程,誘導(dǎo)逛街購物”。

      表1 EDA增強(qiáng)示例圖

      1.2 回譯方法

      回譯是文本數(shù)據(jù)增強(qiáng)的常見方法,回譯顧名思義就是將源語言翻譯為中間語言,再把中間語言翻譯回源語言,中間語言通常選取大語種語言(如英語)?;刈g的技術(shù)方案有兩種,第一種是使用優(yōu)質(zhì)語料自行訓(xùn)練機(jī)器翻譯模型,第二種是使用大公司提供的在線翻譯工具或翻譯API,如百度翻譯、谷歌翻譯、有道翻譯等。

      針對第一種技術(shù)方案,機(jī)器翻譯(MT)是借助機(jī)器將一種自然語言文本(源語言)翻譯成另一種自然語言文本(目標(biāo)語言)[9],機(jī)器翻譯方法通??煞殖扇箢悾夯谝?guī)則的機(jī)器翻譯(RBMT)、統(tǒng)計(jì)機(jī)器翻譯(SMT)和神經(jīng)機(jī)器翻譯(NMT),現(xiàn)在主流且較為成熟的方法是神經(jīng)機(jī)器翻譯[10]。雖然NMT方法在機(jī)器翻譯上有著優(yōu)異的表現(xiàn),但是它仍存在著以下幾個問題:

      (1)很難尋找到一個合適的數(shù)據(jù)集;

      (2)語料庫對結(jié)果的影響很大,即使量級差不多,但不同領(lǐng)域的語料卻能對翻譯效果產(chǎn)生很大的差別;

      (3)超參數(shù)設(shè)置對翻譯效果的影響較大;

      (4)訓(xùn)練所需的時(shí)間成本較大,同時(shí)訓(xùn)練規(guī)模較大時(shí)需要較大的硬件顯存支持。

      由于上述原因限制,該文采用了第二種方案。

      第二種技術(shù)方案是使用大公司提供的翻譯API進(jìn)行回譯,翻譯方法已經(jīng)被封裝好了,只需要通過API先將中文翻譯為英文,再將英文回譯為中文即可。第二種方案比第一種方案更簡單、快速、節(jié)省資源。該文使用這種方案來實(shí)現(xiàn)回譯,對導(dǎo)游投訴文本進(jìn)行數(shù)據(jù)增強(qiáng)。算法用JavaScript語言編寫,在Node.js環(huán)境運(yùn)行,參數(shù)為請求翻譯的內(nèi)容、翻譯源語言、譯文語言。第一輪翻譯,將翻譯源語言設(shè)置為中文、譯文語言設(shè)置為英文;第二輪回譯,將翻譯源語言設(shè)置為英文、譯文語言設(shè)置為中文。導(dǎo)游投訴文本的回譯增強(qiáng)示例如圖1所示。

      圖1 回譯增強(qiáng)示例

      2 基于EDA和回譯的混合增強(qiáng)方法

      EDA文本增強(qiáng)方法和回譯文本增強(qiáng)方法都是常見的且效果不錯的文本增強(qiáng)方法,但這兩種方法互相獨(dú)立。該文將兩種方法結(jié)合起來,對導(dǎo)游投訴文本進(jìn)行混合增強(qiáng),即將兩種方法得到的增強(qiáng)文本數(shù)據(jù)混合在一起作為新的訓(xùn)練數(shù)據(jù),以獲得更多的訓(xùn)練數(shù)據(jù)和文本特征,因此在后續(xù)的導(dǎo)游違規(guī)行為識別任務(wù)中可以取得更好的準(zhǔn)確率。基于EDA和回譯的混合增強(qiáng)方法將導(dǎo)游投訴文本分別送入EDA模塊和回譯模塊,兩個模塊相互獨(dú)立,可以并行執(zhí)行,其組成如圖2所示。

      圖2 基于EDA和回譯的混合增強(qiáng)方法

      針對混合增強(qiáng)方法的EDA模塊,每次迭代將輸入的一條導(dǎo)游投訴文本進(jìn)行分詞,根據(jù)參數(shù)naug,使四個操作函數(shù)(插入、刪除、同義詞修改、交換詞語位置)分別執(zhí)行naug/4次。例如當(dāng)naug的值為8時(shí),四個操作函數(shù)分別執(zhí)行2次,1條原始文本便可以生成得到8條新文本。EDA模塊的插入和同義詞修改操作都使用了同義詞預(yù)測工具,通過Synonyms中文近義詞工具包來實(shí)現(xiàn)。EDA模塊將四種操作得到的增強(qiáng)文本混合并打亂順序作為輸出結(jié)果,并結(jié)束一次迭代。遍歷所有導(dǎo)游投訴文本,便可以得到增強(qiáng)后的導(dǎo)游違規(guī)投訴語料。同時(shí),考慮到naug參數(shù)對最終增強(qiáng)效果的影響,參數(shù)選取過大可能導(dǎo)致過擬合,因此需要以4為倍數(shù)設(shè)置naug參數(shù)并對比不同naug取值的增強(qiáng)效果,從中選取最優(yōu)取值。

      針對混合增強(qiáng)方法的回譯模塊,每次迭代將一條導(dǎo)游投訴文本翻譯源語言設(shè)置為中文、譯文語言設(shè)置為英文,翻譯得到英文的投訴文本。再將英文投訴文本輸入到回譯流程中,將翻譯源語言設(shè)置為英文、譯文語言設(shè)置為中文,得到回譯模塊的輸出結(jié)果。例如,輸入“隨意更改行程,壓縮游覽時(shí)間”這段原始導(dǎo)游投訴文本,經(jīng)過漢譯英回譯模塊,得到中間語句“Feel free to change itinerary and reduce tour time”,接著將中間語句輸入進(jìn)英譯漢回譯模塊,最終輸出得到回譯文本“隨意更改行程,縮短游覽時(shí)間”。1條原始文本可以生成1條新的文本。遍歷所有導(dǎo)游投訴文本,便可以得到增強(qiáng)后的導(dǎo)游違規(guī)投訴語料。

      文中混合增強(qiáng)方法的EDA模塊和回譯模塊可以并行操作,若EDA模塊耗時(shí)為t1,回譯模塊耗時(shí)為t2,若t1>t2,則文中混合增強(qiáng)方法總耗時(shí)為t1,否則總耗時(shí)為t2;兩個模塊返回增強(qiáng)后的導(dǎo)游投訴語料后,混合得到最終的導(dǎo)游投訴增強(qiáng)文本。

      3 混合文本增強(qiáng)方法在導(dǎo)游違規(guī)行為識別系統(tǒng)中的應(yīng)用

      實(shí)驗(yàn)的硬件環(huán)境為一臺CPU為2.9 GHz雙核Intel Core i5、內(nèi)存為8 GB的macOS操作系統(tǒng)計(jì)算機(jī),軟件編程語言為Python和JavaScript。

      導(dǎo)游違規(guī)行為識別是一個文本多分類任務(wù),其中導(dǎo)游違規(guī)行為分為五類:

      (1)強(qiáng)迫購物或消費(fèi);

      (2)更改或終止行程;

      (3)餐飲或住宿違規(guī);

      (4)導(dǎo)游無資質(zhì)或無導(dǎo)游證;

      (5)毆打辱罵。

      將Word2Vec[11]作為文本表示,使用梯度提升決策樹(LightGBM[12])分類算法對導(dǎo)游投訴文本進(jìn)行識別和分類,識別出導(dǎo)游投訴本文最大可能性的導(dǎo)游違規(guī)行為。導(dǎo)游違規(guī)行為識別步驟包括:數(shù)據(jù)收集、數(shù)據(jù)增強(qiáng)、文本預(yù)處理、分類器訓(xùn)練、分類效果評估,如圖3所示。

      3.1 數(shù)據(jù)收集

      導(dǎo)游違規(guī)行為識別的訓(xùn)練數(shù)據(jù)是有標(biāo)簽的導(dǎo)游投訴文本,來源于人民網(wǎng)旅游投訴平臺,包含游客對酒店、航空、旅行社、導(dǎo)游等方面的投訴,實(shí)驗(yàn)對平臺中關(guān)于導(dǎo)游的投訴文本數(shù)據(jù)進(jìn)行了爬取,共獲得757條投訴文本,再根據(jù)導(dǎo)游違規(guī)行為類別對投訴文本打標(biāo)簽。

      圖3 導(dǎo)游違規(guī)行為識別的步驟

      3.2 數(shù)據(jù)增強(qiáng)

      為了驗(yàn)證基于EDA和回譯的導(dǎo)游投訴文本混合增強(qiáng)方法對提升導(dǎo)游違規(guī)行為識別準(zhǔn)確率的有效性,進(jìn)行了四組實(shí)驗(yàn),實(shí)驗(yàn)文本數(shù)據(jù)分別采用原投訴數(shù)據(jù)組、EDA文本增強(qiáng)組、回譯文本增強(qiáng)組和文中的混合增強(qiáng)組。實(shí)驗(yàn)還測試了不同參數(shù)對EDA方法增強(qiáng)效果的影響,通過調(diào)整文本增強(qiáng)參數(shù)naug,得到最優(yōu)的增強(qiáng)效果時(shí)的參數(shù)取值,并將該參數(shù)取值作為EDA方法的基準(zhǔn)。

      3.3 文本預(yù)處理

      導(dǎo)游違規(guī)行為識別系統(tǒng)使用了Word2Vec詞嵌入方法作為文本表示方法,可以捕獲詞語的語義和句子中詞語的順序,這些都是離散表示方法(如詞袋模型、N-Gram)不具備的。實(shí)驗(yàn)爬取了“旅游新聞網(wǎng)”的旅游新聞?wù)Z料,并使用旅游新聞?wù)Z料構(gòu)建了面向旅游領(lǐng)域的詞嵌入模型,以得到更為準(zhǔn)確的導(dǎo)游違規(guī)行為投訴文本表示信息。

      得到供Word2Vec模型訓(xùn)練的旅游新聞?wù)Z料后,對訓(xùn)練語料使用分詞工具jieba進(jìn)行分詞,再使用Gensim庫提供的Word2Vec工具進(jìn)行模型訓(xùn)練,步驟如下:

      (1)將分詞后的語料轉(zhuǎn)為one-hot編碼的向量作為輸入;

      (2)根據(jù)參數(shù)進(jìn)行詞語的遍歷;

      (3)訓(xùn)練模型得到隱藏層權(quán)重矩陣和詞向量。

      3.4 分類器訓(xùn)練

      導(dǎo)游違規(guī)行為識別系統(tǒng)采用LightGBM分類算法。LightGBM通過基于梯度的單邊采樣(GOSS)排除很大比例的小梯度的樣本來進(jìn)行信息增益計(jì)算,相對于更大梯度的數(shù)據(jù)樣本,小梯度樣本通常在計(jì)算信息增益時(shí)的作用不大,GOSS的目標(biāo)是不使用全部數(shù)據(jù)規(guī)模獲得精準(zhǔn)的信息增益估計(jì)。LightGBM使用獨(dú)有特征打包(EFB)將多個獨(dú)有特征進(jìn)行打包以減少特征數(shù)量,找到最優(yōu)的獨(dú)有特征進(jìn)行打包,這是一個NP難的問題,可以用貪心算法達(dá)到相當(dāng)好的近似,既可以有效減少特征數(shù)量,又沒有降低分裂點(diǎn)的決策精度。

      3.5 分類效果評估

      導(dǎo)游違規(guī)行為識別是一個多分類任務(wù),評估分類效果有四個預(yù)測結(jié)果:TP(真正例)、FP(假正例)、TN(真負(fù)例)、FN(假負(fù)例),常見的評估指標(biāo)有精確率(precision)、召回率(recall)、F1-score,其公式分別為:

      (1)

      (2)

      (3)

      F1-score是調(diào)節(jié)精確率和召回率的綜合指標(biāo)[13],常用于評估二分類問題。在多分類任務(wù)中,將n分類的評估拆成n個二分類的評估,常用的評估指標(biāo)有Macro F1[14](計(jì)算每個二分類的F1-score,n個F1-score的平均值即為Macro F1)和Micro F1[15](將n個二分類評價(jià)的TP、FP、FN對應(yīng)相加,計(jì)算準(zhǔn)確率和召回率,這樣計(jì)算得到的F1-score即為Micro F1)。一般而言,Macro F1、Micro F1越高的分類效果越好,而Macro F1受樣本數(shù)量少的類別影響大,考慮到數(shù)據(jù)集存在數(shù)據(jù)不平衡的問題,因此采用Micro F1作為本實(shí)驗(yàn)的評估指標(biāo)。

      3.6 實(shí)驗(yàn)結(jié)果分析

      該實(shí)驗(yàn)首先進(jìn)行文本增強(qiáng)參數(shù)naug對EDA方法的增強(qiáng)效果評價(jià),以得到最優(yōu)增強(qiáng)效果的naug取值,實(shí)驗(yàn)結(jié)果如表2所示。由實(shí)驗(yàn)結(jié)果可知,參數(shù)naug從4倍到8倍再到16倍時(shí)準(zhǔn)確率依次提升,但到32倍時(shí)準(zhǔn)確率卻低于16倍時(shí)的準(zhǔn)確率,原因可能是發(fā)生了過擬合。naug取值對文本增強(qiáng)的性能影響如圖4所示,其中的性能提升率是使用數(shù)據(jù)增強(qiáng)方法相對于原始數(shù)據(jù)在導(dǎo)游違規(guī)行為識別的Micro F1值的提升百分比。因此,參數(shù)naug為16時(shí),EDA方法的增強(qiáng)效果最優(yōu),后續(xù)實(shí)驗(yàn)將其作為文中混合文本增強(qiáng)方法的參數(shù)naug取值。

      表2 naug對EDA增強(qiáng)效果的影響

      圖4 naug對EDA文本增強(qiáng)性能提升率的影響

      實(shí)驗(yàn)對四種文本增強(qiáng)方法在導(dǎo)游違規(guī)行為識別的Micro F1指標(biāo)以及增強(qiáng)后的文本條數(shù)進(jìn)行了比較,如表3和圖5所示。EDA組、回譯組、混合組比原始投訴數(shù)據(jù)組分別提升了6.2%、5.6%、7.4%,這說明使用文本增強(qiáng)方法對于提升導(dǎo)游違規(guī)行為識別的準(zhǔn)確率都是有效的。對比EDA組和回譯組,基于EDA的文本增強(qiáng)方法比基于回譯的文本增強(qiáng)方法在導(dǎo)游違規(guī)行為識別準(zhǔn)確率上提升了1.4%,說明EDA方法能夠提供更多特征。對比三種文本增強(qiáng)方法,從實(shí)驗(yàn)結(jié)果可知,文中混合增強(qiáng)方法應(yīng)用于導(dǎo)游違規(guī)行為識別中使準(zhǔn)確率達(dá)到了87.54%,相對于原始數(shù)據(jù)集精度提升了7.4%,同時(shí)也優(yōu)于其他兩種文本增強(qiáng)方法。

      表3 原始數(shù)據(jù)組和三種文本增強(qiáng)方法的實(shí)驗(yàn)結(jié)果

      圖5 原始數(shù)據(jù)組與三種文本增強(qiáng)方法的 Micro F1對比

      4 結(jié)束語

      使用機(jī)器學(xué)習(xí)、自然語言處理等技術(shù)對導(dǎo)游投訴文本進(jìn)行違規(guī)行為識別,有助于旅游市場的智慧監(jiān)管,節(jié)省了旅游監(jiān)管的人力物力,還可以幫助消費(fèi)者規(guī)避風(fēng)險(xiǎn)、提高旅游體驗(yàn)。但導(dǎo)游投訴文本語料單一、獲取困難,針對這一問題,提出了一種基于EDA和回譯的導(dǎo)游投訴文本混合增強(qiáng)方法,從EDA和回譯兩個角度對導(dǎo)游投訴文本進(jìn)行數(shù)據(jù)增強(qiáng),并將返回的增強(qiáng)語料進(jìn)行混合得到最終的增強(qiáng)文本數(shù)據(jù)集,并且在實(shí)際的導(dǎo)游違規(guī)行為識別系統(tǒng)中進(jìn)行了應(yīng)用與驗(yàn)證。

      實(shí)驗(yàn)結(jié)果表明,該方法比傳統(tǒng)的EDA文本增強(qiáng)方法和回譯文本增強(qiáng)方法具有更好的準(zhǔn)確率提升性能,相比原始導(dǎo)游投訴數(shù)集,在導(dǎo)游行為識別準(zhǔn)確率上提高了7.4%?;贓DA和回譯的導(dǎo)游投訴文本混合方法適合于數(shù)據(jù)量較少的分類任務(wù),具有較高的實(shí)用價(jià)值。

      猜你喜歡
      語料導(dǎo)游準(zhǔn)確率
      尋找火星導(dǎo)游
      軍事文摘(2023年14期)2023-08-06 15:39:52
      Being a Tour Guide in Shuangqing Villa在雙清別墅做導(dǎo)游
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      跟著西安導(dǎo)游吃,準(zhǔn)沒錯
      奇妙博物館(2021年2期)2021-03-18 03:29:57
      紅領(lǐng)巾陣地之小導(dǎo)游
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      沿河| 南平市| 垦利县| 木里| 丁青县| 鄂托克前旗| 靖边县| 南皮县| 镇宁| 威远县| 于都县| 兴仁县| 文昌市| 汉川市| 教育| 历史| 遂川县| 宜丰县| 建水县| 永康市| 仁布县| 深州市| 霍林郭勒市| 望江县| 白玉县| 西峡县| 错那县| 乐亭县| 永定县| 禄丰县| 利川市| 清镇市| 墨竹工卡县| 灵丘县| 芒康县| 竹北市| 子长县| SHOW| 宣恩县| 长沙县| 临安市|