• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于層次注意力機(jī)制神經(jīng)網(wǎng)絡(luò)模型的虛假評(píng)論識(shí)別

      2019-09-04 10:14:27顏夢(mèng)香姬東鴻任亞峰
      計(jì)算機(jī)應(yīng)用 2019年7期
      關(guān)鍵詞:長(zhǎng)短期記憶網(wǎng)絡(luò)注意力機(jī)制神經(jīng)網(wǎng)絡(luò)

      顏夢(mèng)香 姬東鴻 任亞峰

      摘 要:針對(duì)虛假評(píng)論識(shí)別任務(wù)中傳統(tǒng)離散模型難以捕捉到整個(gè)評(píng)論文本的全局語(yǔ)義信息的問(wèn)題,提出了一種基于層次注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型。首先,采用不同的神經(jīng)網(wǎng)絡(luò)模型對(duì)評(píng)論文本的篇章結(jié)構(gòu)進(jìn)行建模,探討哪種神經(jīng)網(wǎng)絡(luò)模型能夠獲得最好的篇章表示;然后,基于用戶(hù)視圖和產(chǎn)品視圖的兩種注意力機(jī)制對(duì)評(píng)論文本進(jìn)行建模,用戶(hù)視圖關(guān)注評(píng)論文本中用戶(hù)的偏好,而產(chǎn)品視圖關(guān)注評(píng)論文本中產(chǎn)品的特征;最后,將兩個(gè)視圖學(xué)習(xí)的評(píng)論表示拼接以作為預(yù)測(cè)虛假評(píng)論的最終表示。以準(zhǔn)確率作為評(píng)估指標(biāo),在Yelp數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,所提出的層次注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)最好,其準(zhǔn)確率超出了傳統(tǒng)離散模型和現(xiàn)有的神經(jīng)網(wǎng)絡(luò)基準(zhǔn)模型1至4個(gè)百分點(diǎn)。

      關(guān)鍵詞:注意力機(jī)制;虛假評(píng)論;離散特性;神經(jīng)網(wǎng)絡(luò);長(zhǎng)短期記憶網(wǎng)絡(luò)

      Abstract: Concerning the problem that traditional discrete models fail to capture global semantic information of whole comment text in deceptive review detection, a hierarchical neural network model with attention mechanism was proposed. Firstly, different neural network models were adopted to model the structure of text, and which model was able to obtain the best semantic representation was discussed. Then, the review was modeled by two attention mechanisms respectively based on user view and product view. The user view focused on the users preferences in comment text and the product view focused on the product feature in comment text. Finally, two representations learned from user and product views were combined as final semantic representation for deceptive review detection. The experiments were carried out on Yelp dataset with accuracy as the evaluation indicator. The experimental results show that the proposed hierarchical neural network model with attention mechanism performs the best with the accuracy higher than traditional discrete methods and existing neural benchmark models by 1 to 4 percentage points.

      Key words: attention mechanism; deceptive review; discrete feature; neural network; Long Short-Term Memory (LSTM) network

      0 引言

      隨著電子商務(wù)的興起,越來(lái)越多的個(gè)人和商業(yè)組織開(kāi)始閱讀和參考在線評(píng)論來(lái)作出購(gòu)買(mǎi)決策,例如,在哪里住宿,去哪里就醫(yī),購(gòu)買(mǎi)哪些產(chǎn)品,去哪個(gè)餐廳,等等。積極的評(píng)論可以為企業(yè)和個(gè)人帶來(lái)顯著的經(jīng)濟(jì)收益和名聲,這為虛假評(píng)論的產(chǎn)生提供了強(qiáng)大的動(dòng)力。在過(guò)去幾年中,虛假評(píng)論的問(wèn)題已經(jīng)變得極為普遍,新聞中也報(bào)道了眾多引人注目的案例。許多企業(yè)已經(jīng)開(kāi)始通過(guò)現(xiàn)金、優(yōu)惠券和促銷(xiāo)活動(dòng)等手段刺激虛假評(píng)論的產(chǎn)生,用以增加銷(xiāo)售,獲取經(jīng)濟(jì)效益。虛假評(píng)論檢測(cè)是一個(gè)緊迫而且重要的話題,它對(duì)于確保網(wǎng)絡(luò)平臺(tái)上信息的可信度至關(guān)重要,如果不識(shí)別它們,線上商城就可能成為謊言、假貨和欺騙的地方,因此,設(shè)計(jì)有效的模型來(lái)自動(dòng)檢測(cè)虛假評(píng)論是非常必要的。

      虛假評(píng)論識(shí)別通常被建模為一個(gè)文本分類(lèi)問(wèn)題[1]?;跇?biāo)記的真實(shí)和虛假樣例,利用監(jiān)督學(xué)習(xí)來(lái)構(gòu)建分類(lèi)器,然后將未標(biāo)記評(píng)論預(yù)測(cè)為虛假評(píng)論或真實(shí)評(píng)論?,F(xiàn)有大多數(shù)方法遵循Jindal等[2]的開(kāi)創(chuàng)性工作,采用全監(jiān)督學(xué)習(xí)來(lái)構(gòu)建分類(lèi)器。這些研究主要側(cè)重于設(shè)計(jì)有效特征以提高分類(lèi)性能,如語(yǔ)言學(xué)和心理語(yǔ)言學(xué)相關(guān)的典型特征,但未能從全局篇章結(jié)構(gòu)的角度有效地表示文檔。例如,Ott等[1]使用了二一元詞組(Unigram)、詞性(Part Of Speech, POS)和LIWC(Linguistic Inquiry and Word Count)特征。盡管這些特征給出了良好的性能,但是它們的稀疏性使得難以在篇章層面捕獲全局的語(yǔ)義信息。

      最近,神經(jīng)網(wǎng)絡(luò)模型已被廣泛用于自然語(yǔ)言處理(Natural Language Processing, NLP)眾多任務(wù)的語(yǔ)義表示,并取得優(yōu)異的性能。神經(jīng)網(wǎng)絡(luò)應(yīng)用在虛假評(píng)論檢測(cè)方面有兩點(diǎn)潛在的優(yōu)勢(shì)。首先,神經(jīng)網(wǎng)絡(luò)模型使用隱藏層進(jìn)行自動(dòng)特征組合,可以捕獲到傳統(tǒng)離散特征難以表達(dá)的復(fù)雜全局語(yǔ)義信息,這可以解決離散模型的限制;其次,神經(jīng)網(wǎng)絡(luò)模型采用分布式詞向量作為輸入,詞向量可以從大規(guī)模原始文本中訓(xùn)練得到,從而在一定程度上緩解標(biāo)注數(shù)據(jù)的稀缺性。基于這個(gè)方向,一些創(chuàng)新性的工作已經(jīng)被提出,例如,Ren等[3]提出使用神經(jīng)網(wǎng)絡(luò)模型來(lái)學(xué)習(xí)評(píng)論文本的表示,用以識(shí)別虛假評(píng)論。具體的,他們采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)模型從單詞向句子層面建模,使用長(zhǎng)短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)模型從句子向文檔層面建模,實(shí)驗(yàn)結(jié)果證明了所提模型的有效性。

      本文發(fā)現(xiàn),一個(gè)評(píng)論文本通常包括兩部分信息:一部分信息表達(dá)用戶(hù)的偏好,另一部分信息表達(dá)產(chǎn)品的特性。基于此,本文探索了一種基于層次注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型,從用戶(hù)和產(chǎn)品兩個(gè)角度來(lái)對(duì)評(píng)論文本進(jìn)行建模,并對(duì)兩部分信息進(jìn)行整合,將其用于虛假評(píng)論識(shí)別任務(wù)?;赮elp數(shù)據(jù)集的實(shí)驗(yàn)證實(shí)了所提算法的有效性。同時(shí),對(duì)樣例的可視化分析也驗(yàn)證了本文所提方法的有效性和可解釋性。

      1 相關(guān)工作

      Jindal等[2]最先引入虛假評(píng)論識(shí)別問(wèn)題,他們抽取評(píng)論內(nèi)容、評(píng)論者和產(chǎn)品本身的特征來(lái)訓(xùn)練模型識(shí)別虛假評(píng)論;Yoo等[4]收集了40條真實(shí)和42條虛假的酒店評(píng)論,并手動(dòng)比較了它們之間的語(yǔ)言差異;Ott等[1]通過(guò)亞馬遜眾包平臺(tái),雇用Turkers撰寫(xiě)虛假評(píng)論構(gòu)建了一個(gè)基準(zhǔn)數(shù)據(jù)集。該數(shù)據(jù)也被一系列后續(xù)研究工作所采用[5-6]。例如,F(xiàn)eng等[5]研究了上下文無(wú)關(guān)語(yǔ)法解析樹(shù)的語(yǔ)法特征,以提高識(shí)別性能。Feng等[6]從評(píng)論集合中建立了酒店簡(jiǎn)介,衡量了客戶(hù)評(píng)論與酒店簡(jiǎn)介的兼容性,并將其用作虛假評(píng)論檢測(cè)的一個(gè)特征。Mukherjee等[7]認(rèn)為基于眾包平臺(tái)構(gòu)建的虛假評(píng)論跟現(xiàn)實(shí)中虛假評(píng)論的真實(shí)分布存在一定差異,基于分布更真實(shí)的Yelp評(píng)論,他們使用Boolean、詞頻(Term Frequency, TF)、詞頻逆文本頻率指數(shù)(Term Frequency-Inverse Document Frequency,TF-IDF)等特征來(lái)對(duì)虛假評(píng)論進(jìn)行了分類(lèi)和分析,由于該數(shù)據(jù)集中虛假評(píng)論的分布更為真實(shí),后續(xù)的一些工作都是基于該數(shù)據(jù)集進(jìn)行研究和分析。

      上述工作主要集中于評(píng)論文本進(jìn)行特征建模,也有工作研究了評(píng)論內(nèi)容本身之外的特征。除了Jindal等[2],Mukherjee等[8]研究了客戶(hù)行為的特征來(lái)識(shí)別欺騙。Qian等[9]確定了同一作者生成的多個(gè)用戶(hù)ID,因?yàn)檫@些作者更有可能產(chǎn)生欺騙性評(píng)論。任亞峰等[10]和Rout等[11]提出了一種半監(jiān)督學(xué)習(xí)方法,并建立了一個(gè)準(zhǔn)確的分類(lèi)器來(lái)識(shí)別欺騙性評(píng)論。此外,Ren等[12]提出了一種新方法,從糾正錯(cuò)誤標(biāo)記樣例的角度發(fā)現(xiàn)虛假評(píng)論。Kim等[13]引入了基于FrameNet框架的語(yǔ)義特征,實(shí)驗(yàn)結(jié)果表明語(yǔ)義框架特征可以提高分類(lèi)精度。Wang等[14]建議學(xué)習(xí)評(píng)論的表示,而不是以數(shù)據(jù)驅(qū)動(dòng)的方式識(shí)別欺騙性的垃圾評(píng)論。任亞峰等[15]基于遺傳算法對(duì)評(píng)論的語(yǔ)言結(jié)構(gòu)及情感極性特征進(jìn)行優(yōu)化選擇,并使用兩種簡(jiǎn)單的聚類(lèi)方法進(jìn)行虛假評(píng)論識(shí)別。Zhang等[16]提出了一種稱(chēng)為遞歸卷積神經(jīng)網(wǎng)絡(luò)識(shí)別欺騙性評(píng)論(Deceptive Review Identification by Recurrent Convolutional Neural Network, DRI-RCNN)的方法,通過(guò)使用單詞上下文和深度學(xué)習(xí)來(lái)識(shí)別欺騙性評(píng)論。最近,Noekhah等[17]提出了一種新穎的多重迭代網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)考慮了亞馬遜上實(shí)體之間最有效的特征以及內(nèi)部和內(nèi)部關(guān)系。不同于這些工作,本文關(guān)注對(duì)評(píng)論文本內(nèi)容進(jìn)行建模,但上述模型的功能可在本文提出的模型中進(jìn)行擴(kuò)展。

      現(xiàn)有方法大多使用傳統(tǒng)的離散特征,這些特征是稀疏的并且不能有效地編碼來(lái)自整個(gè)文檔的語(yǔ)義信息。最近,神經(jīng)網(wǎng)絡(luò)模型已被用于各種NLP任務(wù)中[18]。分布式詞表示已被大多數(shù)NLP模型用作基本構(gòu)建塊[19]。同時(shí),眾多方法已被提出用于學(xué)習(xí)短語(yǔ)和較大文本片段的表示。例如,Yessenalina等[20]使用迭代矩陣乘法從詞表示中學(xué)出短語(yǔ)表示。Le等[21]引入段落向量來(lái)學(xué)習(xí)文檔表示。Socher等[22]引入了一系列遞歸神經(jīng)網(wǎng)絡(luò)來(lái)表示句子級(jí)語(yǔ)義組合。后來(lái),這項(xiàng)工作從不同方面進(jìn)行了擴(kuò)展,其中包含全局反饋機(jī)制、深度遞歸層、特征權(quán)重調(diào)整、自適應(yīng)組合函數(shù)和組合分類(lèi)語(yǔ)法。CNN已被廣泛用于語(yǔ)義合成[23],自動(dòng)捕獲語(yǔ)法信息。序列模型,如循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)或LSTM也被用于語(yǔ)義合成[24]。同時(shí),受人類(lèi)視覺(jué)注意的啟發(fā),Bahdanau等[25]在機(jī)器翻譯中提出了注意力機(jī)制,將其引入編碼器—解碼器框架,以選擇目標(biāo)語(yǔ)言中單詞的源語(yǔ)言參考詞。它也用于圖像標(biāo)題生成、解析、自然語(yǔ)言問(wèn)答。此外,Yang等[26]和Chen等[27]探索層次注意力機(jī)制,為文檔的語(yǔ)義選擇信息性詞語(yǔ)或句子。

      不同于上述工作,基于Yelp數(shù)據(jù)集,本文提出一種基于層次注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型,從用戶(hù)和產(chǎn)品兩個(gè)角度來(lái)對(duì)評(píng)論文本進(jìn)行建模,并將其用于虛假評(píng)論識(shí)別任務(wù)。

      2 基于層次注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型

      一個(gè)評(píng)論文本通常包含兩種信息:一部分信息表達(dá)用戶(hù)的偏好,另一部分信息表達(dá)產(chǎn)品的特性。如何對(duì)這兩種信息進(jìn)行建模,對(duì)學(xué)習(xí)評(píng)論文本的篇章表示至關(guān)重要。本文探索了一種基于層次注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型,從用戶(hù)和產(chǎn)品兩個(gè)角度分別對(duì)評(píng)論文本進(jìn)行建模,學(xué)習(xí)評(píng)論文本的篇章表示,用于識(shí)別虛假評(píng)論。

      2.1 總體框架

      本文所提的模型稱(chēng)為HNNUPA(Hierarchical Neural Network with User and Product Attention)。如圖1所示,所提框架主要由四部分組成:長(zhǎng)短期記憶網(wǎng)絡(luò)、用戶(hù)注意力網(wǎng)絡(luò)、產(chǎn)品注意力網(wǎng)絡(luò)和篇章表示。首先,實(shí)驗(yàn)地探討了不同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(CNN、RNN和LSTM)對(duì)評(píng)論文本的篇章結(jié)構(gòu)建模,即哪種神經(jīng)網(wǎng)絡(luò)模型能獲得最好的篇章表示;然后,基于用戶(hù)視圖和產(chǎn)品視圖的兩種注意力機(jī)制,用戶(hù)視圖關(guān)注評(píng)論文本中用戶(hù)的偏好,而產(chǎn)品視圖關(guān)注評(píng)論文本中產(chǎn)品的重要特性;最后,將兩個(gè)視圖學(xué)習(xí)的評(píng)論表示拼接,整合兩種視圖的信息,作為預(yù)測(cè)虛假評(píng)論的最終表示進(jìn)行預(yù)測(cè)。

      2.2 長(zhǎng)短期記憶網(wǎng)絡(luò)

      LSTM因其在序列建模方面的出色表現(xiàn)而被廣泛用于文本建模。為了解決長(zhǎng)距離依賴(lài)的問(wèn)題,LSTM架構(gòu)引入了能夠長(zhǎng)時(shí)間保持單元狀態(tài)的存儲(chǔ)器單元。具體地,每個(gè)LSTM單元有三個(gè)門(mén)來(lái)保護(hù)和控制單元狀態(tài),分別是“遺忘門(mén)”“輸入門(mén)”和“輸出門(mén)”。在每個(gè)時(shí)間周期t,給定輸入向量xt,則當(dāng)前單元狀態(tài)ct和隱藏狀態(tài)ht可由之前的單元狀態(tài)ct-1和隱藏狀態(tài)ht-1更新如下:

      這里it, ft和ot是門(mén)激活,σ是sigmoid函數(shù),⊙代表元素乘法。直觀地,忘記門(mén)ft控制前一存儲(chǔ)器單元的遺忘程度,輸入門(mén)it控制每個(gè)單元的更新程度,輸出門(mén)ot控制內(nèi)部存儲(chǔ)器狀態(tài)的輸出。隱藏狀態(tài)ht表示LSTM單元的內(nèi)部存儲(chǔ)器單元的輸出信息。

      2.3 用戶(hù)注意力機(jī)制

      從用戶(hù)的角度來(lái)看,并非所有單詞都能反映用戶(hù)的偏好或情緒,為此本文設(shè)計(jì)用戶(hù)注意力機(jī)制來(lái)選取對(duì)句子含義有重要意義的用戶(hù)特定詞。形式上,句子表示sui 是用戶(hù)視圖中的詞級(jí)隱藏狀態(tài)的加權(quán)和:

      其中:huij是第i個(gè)句子中第j個(gè)單詞的隱藏狀態(tài);αuij是huij的注意力權(quán)重,用于衡量第j個(gè)單詞對(duì)當(dāng)前用戶(hù)的重要性。將每個(gè)用戶(hù)u映射到連續(xù)的實(shí)值向量u∈Rdu,其中du表示用戶(hù)嵌入的維度。具體地,每個(gè)隱藏狀態(tài)的注意權(quán)重αuij定義為:

      2.4 產(chǎn)品注意力機(jī)制

      對(duì)于不同的產(chǎn)品,每個(gè)單詞或句子對(duì)文本語(yǔ)義貢獻(xiàn)度也不同?;诔WR(shí)可知,產(chǎn)品注意力機(jī)制可將產(chǎn)品信息整合到類(lèi)似于用戶(hù)注意力機(jī)制類(lèi)似的評(píng)論表示中。在產(chǎn)品視圖中,評(píng)論的句子表示spi和文檔表示dp可計(jì)算如下:

      這里αpij和βpi分別是單詞級(jí)隱藏狀態(tài)hpij和句子級(jí)hpi的權(quán)重,其計(jì)算方式跟用戶(hù)注意力機(jī)制中的權(quán)重計(jì)算一樣,不需要人工調(diào)節(jié)和干預(yù)。

      2.5 文檔表示

      du和dp分別表示用戶(hù)視圖和產(chǎn)品視圖學(xué)習(xí)的表示,為了獲得較為全局的篇章表示,首先整合這兩個(gè)視圖的表示,將其拼接在一起作為一個(gè)最終的評(píng)論表示:

      拼接后,可以直接使用線性層和softmax層將評(píng)論表示d投影到C類(lèi)的評(píng)論類(lèi)別分布中:

      在提出的模型中,評(píng)論類(lèi)別的基本事實(shí)分布與p之間的交叉熵誤差被定義為:

      其中:pgc表示分類(lèi)標(biāo)簽c的概率,T代表訓(xùn)練集。

      之前,對(duì)兩個(gè)視圖的表示直接進(jìn)行了拼接作為最終表示,但是,這種表示不一定能給出最優(yōu)的全局篇章表示,因?yàn)閮蓚€(gè)表示的構(gòu)造方式基本相同,因此,為了獲得更優(yōu)的篇章表示,在損失1中以一定權(quán)重整合評(píng)論表示du和dp,具體地,分別在du和dp中添加softmax分類(lèi)器,其相應(yīng)的損失定義如下:

      其中:pu是用戶(hù)視圖的預(yù)測(cè)結(jié)果分布,pp是產(chǎn)品視圖的預(yù)測(cè)結(jié)果分布,因此,模型的最終損失可以表示為損失1,損失2和損失3的加權(quán)和:

      損失2和損失3作為監(jiān)督信息引入,以幫助進(jìn)一步從用戶(hù)視圖和產(chǎn)品視圖來(lái)探索虛假評(píng)論識(shí)別,因此,最終根據(jù)分布p預(yù)測(cè)評(píng)論分類(lèi)標(biāo)簽,因?yàn)樗脩?hù)信息和產(chǎn)品信息。

      3 實(shí)驗(yàn)設(shè)置

      3.1 數(shù)據(jù)集

      本文使用來(lái)自美國(guó)最大點(diǎn)評(píng)網(wǎng)站Yelp.com收集到的三個(gè)數(shù)據(jù)集,表1是三個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息。這三個(gè)數(shù)據(jù)集都是非平衡數(shù)據(jù)集。第一個(gè)數(shù)據(jù)集是YelpChi,它包含對(duì)芝加哥地區(qū)餐館和酒店的評(píng)論,該數(shù)據(jù)集最早來(lái)自于文獻(xiàn)[28]。另外兩個(gè)數(shù)據(jù)集分別是YelpNYC和YelpZip。YelpNYC包含位于紐約市的餐館的評(píng)論;YelpZip數(shù)據(jù)量更大,提供了美國(guó)部分區(qū)域的餐館的評(píng)論,這些地區(qū)包括NJ、VT、CT和PA。這兩個(gè)數(shù)據(jù)集最早來(lái)自于文獻(xiàn)[29]。

      表1中,第一列表示數(shù)據(jù)集;第二列中的all表示評(píng)論總數(shù), fake%表示虛假評(píng)論占比;第三列中的all表示評(píng)論者總數(shù),spammer%表示虛假評(píng)論者占比;第四列表示restaurant和hotel領(lǐng)域中提及的產(chǎn)品總數(shù)。

      在實(shí)驗(yàn)過(guò)程中,每個(gè)數(shù)據(jù)集以80/10/10的比例被劃分為訓(xùn)練/測(cè)試/開(kāi)發(fā)集。開(kāi)發(fā)集用于優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的超參數(shù)。實(shí)驗(yàn)中,采取Accuracy、F1值和均方根誤差(Root Mean Square Error, RMSE)來(lái)評(píng)價(jià)算法的性能。

      3.2 超參數(shù)

      在實(shí)驗(yàn)中,使用Skip-Gram模型學(xué)到200維的詞向量。用戶(hù)詞向量的維度和產(chǎn)品詞向量的維度都設(shè)置為200,使用均勻分布U(-0.01,0.01)對(duì)其隨機(jī)初始化。LSTM單元格中隱藏狀態(tài)的維度設(shè)置為100,因此,雙向LSTM輸出單詞/句子表示為200維。這里,限制每個(gè)評(píng)論文本最多有40個(gè)句子,每個(gè)句子不超過(guò)50個(gè)單詞。使用Adam更新參數(shù),初始學(xué)習(xí)率設(shè)置為0.005。最后,根據(jù)開(kāi)發(fā)集上的性能選擇最佳參數(shù),用于測(cè)試集中。

      3.3 基準(zhǔn)模型

      支持向量機(jī)(Support Vector Machine, SVM): 支持向量機(jī)在眾多文本分類(lèi)任務(wù)中獲得了優(yōu)異的性能,也被用于虛假評(píng)論識(shí)別工作中。這里,不僅整合SVM和傳統(tǒng)的詞袋特征,也使用了Bigram、POS、LIWC等各種語(yǔ)言學(xué)和心理語(yǔ)言學(xué)的特征。

      4 實(shí)驗(yàn)結(jié)果

      4.1 結(jié)果比較

      基于Yelp的數(shù)據(jù)集,表2給出了不同模型的實(shí)驗(yàn)結(jié)果。以YelpNYC數(shù)據(jù)集為例,傳統(tǒng)的離散模型SVM,結(jié)合unigram特征,僅僅給出了69.63%準(zhǔn)確率,當(dāng)融合POS、LIWC等更多更復(fù)雜的語(yǔ)言學(xué)和心理語(yǔ)言學(xué)特征后,識(shí)別準(zhǔn)確率被提升到74.18%,這展示了豐富的特征建模對(duì)虛假評(píng)論識(shí)別的重要性。對(duì)于神經(jīng)網(wǎng)絡(luò)的基準(zhǔn)模型,CNN完成了83.84%的準(zhǔn)確率,遠(yuǎn)遠(yuǎn)地超出了離散的SVM模型,顯示了神經(jīng)網(wǎng)絡(luò)模型的有效性。RNN給出了78.96%的準(zhǔn)確率,BiLSTM給出了85.55%的準(zhǔn)確率,遠(yuǎn)遠(yuǎn)地超過(guò)了RNN模型,主要原因是因?yàn)镽NN受長(zhǎng)距離依賴(lài)問(wèn)題的困擾,而B(niǎo)iLSTM通過(guò)門(mén)機(jī)制的設(shè)置,可以避免長(zhǎng)距離依賴(lài)導(dǎo)致的梯度彌散問(wèn)題,從而完成了較好的性能?;贐iLSTM模型,從用戶(hù)視圖和產(chǎn)品視圖兩個(gè)角度分別整合了注意力機(jī)制,即本文提出的HNNUPA模型,完成了90%的準(zhǔn)確率,超出了離散的SVM模型和神經(jīng)網(wǎng)絡(luò)的基準(zhǔn)模型CNN和BiLSTM?;跀?shù)據(jù)集YelpZip和YelpChi上,模型間的性能比較可以觀察到同樣的趨勢(shì),上述分析證實(shí)了本文所提算法的有效性。

      4.2 模型分析

      4.2.1 用戶(hù)注意力和產(chǎn)品注意力的影響

      為了證明同時(shí)使用用戶(hù)注意力和產(chǎn)品注意力的有效性,這里,獨(dú)立地實(shí)現(xiàn)了兩個(gè)注意力機(jī)制并進(jìn)行探討。具體地,首先實(shí)現(xiàn)了獨(dú)立的用戶(hù)注意力網(wǎng)絡(luò)(Hierarchical Neural Network with User Attention, HNNUA),然后實(shí)現(xiàn)了獨(dú)立的產(chǎn)品注意力網(wǎng)絡(luò)(Hierarchical Neural Network with Product Attention, HNNPA)。表3給出了不同模型的具體結(jié)果?;诒?可知,與未使用注意力機(jī)制的普通神經(jīng)網(wǎng)絡(luò)模型BiLSTM相比,HNNUA和HNNPA對(duì)模型的性能有一定的提升,這驗(yàn)證了通過(guò)注意力機(jī)制將用戶(hù)和產(chǎn)品納入虛假評(píng)論識(shí)別的合理性。結(jié)果還表明,無(wú)論從用戶(hù)視圖還是產(chǎn)品視圖來(lái)對(duì)評(píng)論文本進(jìn)行建模都是有效的。

      同時(shí),本文發(fā)現(xiàn),比起產(chǎn)品角度,從用戶(hù)視圖的角度對(duì)文本進(jìn)行建模更有效。原因可能歸結(jié)于評(píng)論中的一些單詞或句子雖然一定程度上描述了產(chǎn)品的特征,但對(duì)產(chǎn)品的態(tài)度描述最終由用戶(hù)主觀決定。比起單獨(dú)的用戶(hù)視圖或者產(chǎn)品角度建模,對(duì)兩者進(jìn)行整合獲得了更好的性能,主要原因是因?yàn)橐粋€(gè)評(píng)論文本通常由兩種信息構(gòu)成,一部分信息表達(dá)用戶(hù)的偏好,另一部分信息表達(dá)產(chǎn)品的特性,對(duì)這兩種信息同時(shí)建模才是獲得全局表示的關(guān)鍵。本文的實(shí)驗(yàn)結(jié)果也證實(shí)了這一點(diǎn)。

      另外,在表3中,本文也統(tǒng)計(jì)了模型的F1值和RMSE,這里F1值是兩個(gè)類(lèi)別的宏平均。本文發(fā)現(xiàn)比起模型的Accuracy,F(xiàn)值相對(duì)較低,進(jìn)一步分析了每個(gè)類(lèi)別的Precision和Recall,發(fā)現(xiàn)真實(shí)評(píng)論這個(gè)類(lèi)別的Precision和Recall都很高,而虛假評(píng)論類(lèi)別的Precision較高,Recall只有0.4左右,這說(shuō)明模型在虛假評(píng)論這個(gè)類(lèi)別上性能要差于真實(shí)評(píng)論類(lèi)別,其主要原因是數(shù)據(jù)集不均衡導(dǎo)致的,基于表1中的數(shù)據(jù)集統(tǒng)計(jì)信息可知。在未來(lái)的工作中,也將探索更好的模型來(lái)解決這個(gè)問(wèn)題。

      4.2.2 不同加權(quán)損失的影響

      λ1、λ2和λ3分別代表?yè)p失1、損失2和損失3的權(quán)重。通過(guò)調(diào)整它們的比例來(lái)驗(yàn)證不同加權(quán)損失對(duì)最終結(jié)果的影響。當(dāng)λ2設(shè)置為0時(shí),表示不使用損失2來(lái)增強(qiáng)評(píng)論表示。類(lèi)似地,將λ3設(shè)置為0,表示不單獨(dú)使用損失3。實(shí)驗(yàn)結(jié)果如表4。

      從表4可知,無(wú)損失2和損失3此處“無(wú)損失2和損失3”的表述對(duì)嗎?請(qǐng)明確的模型在三個(gè)數(shù)據(jù)集上給出了一致的趨勢(shì),即缺乏每一部分損失都會(huì)影響最終的性能,從表4可知,三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果給出了一致的趨勢(shì),即缺乏損失2或者損失3都會(huì)影響模型最終的性能,而本文提出的HNNUPA模型,從用戶(hù)和產(chǎn)品兩個(gè)角度建模,同時(shí)考慮兩方面的損失。獲得了性能上的一些提升。很明顯,完整的HNNUPA模型可以獲得最佳性能。結(jié)果表明,通過(guò)設(shè)計(jì)的組合策略,可以從篇章角度實(shí)現(xiàn)更好的評(píng)論表示,用于虛假評(píng)論識(shí)別中。

      4.2.3 樣例可視化

      為了驗(yàn)證本文所提的注意力機(jī)制的有效性,以YelpNYC數(shù)據(jù)集為例進(jìn)行分析?;谔岢龅腍NNUPA模型,這里分析單詞級(jí)別的注意力權(quán)重。兩個(gè)樣例如圖2所示,圖中上半部分表示評(píng)論1,下半部分表示評(píng)論2。注意,顏色越深意味著權(quán)重越大。

      評(píng)論1是虛假評(píng)論,“l(fā)ove”一詞在用戶(hù)視圖上具有最高權(quán)重,“l(fā)ove”表達(dá)出了作者對(duì)食物的喜愛(ài),說(shuō)明作者試圖鼓吹、夸大該產(chǎn)品;“casual”和“surrounding”等詞在產(chǎn)品視圖上具有較高的權(quán)重,其中“surrounding”一詞描述了餐館空間特征,表示評(píng)論作者本身也許并未有真實(shí)的消費(fèi)經(jīng)歷,缺乏真實(shí)的體驗(yàn),所以選擇使用抽象的表示空間方位的詞。

      評(píng)論2是虛假評(píng)論,“disappointed”一詞在用戶(hù)視圖上具有最高權(quán)重,“disappointed”表達(dá)出了作者的負(fù)面情感,說(shuō)明作者試圖通過(guò)這種消極情緒來(lái)詆毀該產(chǎn)品,“bland”一詞在產(chǎn)品視圖上具有較高的權(quán)重,“bland”意為乏味的,是貶低食物的一種通用詞匯,作者可能根本就沒(méi)有吃過(guò)這家店的意大利面,試圖通過(guò)“bland”來(lái)詆毀該產(chǎn)品。

      現(xiàn)實(shí)中的情況正是如此。為了鼓吹產(chǎn)品的質(zhì)量,虛假評(píng)論者會(huì)使用積極正面的情感詞;同理,在貶低產(chǎn)品時(shí),必然會(huì)使用消極負(fù)面的情感詞。另外,由于對(duì)產(chǎn)品或服務(wù)缺乏真實(shí)的消費(fèi)體驗(yàn)或經(jīng)歷,虛假評(píng)論者往往會(huì)使用抽象的詞來(lái)描述空間信息或者地理位置,因?yàn)檫^(guò)于具體的詞匯可能會(huì)由于跟事實(shí)不符而暴露其欺騙意圖。

      5 結(jié)語(yǔ)

      本文提出了一種基于層次注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型,從用戶(hù)和產(chǎn)品兩個(gè)角度分別來(lái)學(xué)習(xí)評(píng)論文本的表示,將兩個(gè)表示進(jìn)行整合作為評(píng)論文本的最終表示,用于虛假評(píng)論識(shí)別?;赮elp數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,本文所提模型超過(guò)了傳統(tǒng)的離散模型和神經(jīng)網(wǎng)絡(luò)基準(zhǔn)模型。未來(lái)的工作中,將探索更有效的模型,提升非平衡數(shù)據(jù)下的虛假評(píng)論識(shí)別效果。

      參考文獻(xiàn) (References)

      [1] OTT M, CHOI Y, CARDIE C, et al. Finding deceptive opinion spam by any stretch of the imagination [C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2011: 309-319.

      [2] JINDAL N, LIU B. Opinion spam and analysis [C]// Proceedings of the 2008 International Conference on Web Search and Data Mining. New York: ACM, 2008: 219-230.

      [3] REN Y F, ZHANG Y. Deceptive opinion spam detection using neural network [C]// COLING 2016: Proceedings of the 26th International Conference on Computational Linguistics: Technical Papers. Osaka, Japan: COLING, 2016: 140-150.

      [4] YOO K H, GRETZEL U. Comparison of deceptive and truthful travel reviews [C]// Proceedings of the 2009 International Conference on Information and Communication Technologies. Berlin: Springer, 2009: 37-47.

      [5] FENG S, BANERJEE R, CHOI Y. Syntactic stylometry for deception detection [C]// Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers-Volume 2. Stroudsburg, PA: Association for Computational Linguistics, 2012: 171-175.

      [6] FENG V W, HIRST G. Detecting deceptive opinions with profile compatibility [C]// Proceedings of the 6th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2013: 338-346.

      [7] MUKHERJEE A, VENKATARAMAN V, LIU B, et al. Fake review detection: classification and analysis of real and pseudo reviews [R]. Chicago: University of Illinois, Department of Computer Science, 2013: 3.

      [8] MUKHERJEE A, KUMAR A, LIU B, et al. Spotting opinion spammers using behavioral footprints [C]// Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2013: 632-640.

      [9] QIAN T Y, LIU B. Identifying multiple userids of the same author [C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2013: 1124-1135.

      [10] 任亞峰,姬東鴻,尹蘭.基于半監(jiān)督學(xué)習(xí)算法的虛假評(píng)論識(shí)別研究[J].計(jì)算機(jī)科學(xué)與探索,2014,46(3):62-69.(REN Y F, JI D H, YIN L. Deceptive reviews detection based on semi-supervised learning algorithm [J]. Advanced Engineering Sciences, 2014, 46(3): 62-69.)

      [11] ROUT J K, SINGH S, JENA S K, et al. Deceptive review detection using labeled and unlabeled data [J]. Multimedia Tools and Applications, 2017, 76(3): 1-25.

      [12] REN Y F, JI D H, YIN L, et al. Finding deceptive opinion spam by correcting the mislabeled instances [J]. Chinese Journal of Electronics, 2015, 24(1): 52-57.

      [13] KIM S, CHANG H, LEE S, et al. Deep semantic frame-based deceptive opinion spam analysis [C]// Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. New York: ACM, 2015: 1131-1140.

      [14] WANG X P, LIU K, HE S Z, et al. Learning to represent review with tensor decomposition for spam detection [C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2016: 866-875.

      [15] 任亞峰,尹蘭,姬東鴻.基于語(yǔ)言結(jié)構(gòu)和情感極性的虛假評(píng)論識(shí)別[J].計(jì)算機(jī)科學(xué)與探索,2014,8(3):313-320.(REN Y F, YIN L, JI D H. Deceptive reviews detection based on language structure and sentiment polarity [J]. Journal of Frontiers of Computer Science and Technology, 2014, 8(3): 313-320.)

      [16] ZHANG W, DU Y H, YOSHIDA T, et al. DRI-RCNN: an approach to deceptive review identification using recurrent convolutional neural network [J]. Information Processing and Management, 2018, 54(4): 576-592.

      [17] NOEKHAH S, SALIM N B, ZAKARIA N H. A novel model for opinion spam detection based on multi-iteration network structure [J]. Advanced Science Letters, 2018, 24(2): 1437-1442.

      [18] REN Y F, ZHANG Y, ZHANG M S, et al. Context-sensitive twitter sentiment classification using neural network [C]// Proceedings of the 13th AAAI Conference on Artificial Intelligence. Menlo Park, CA: AAAI, 2016: 215-221.

      [19] REN Y F, ZHANG Y, ZHANG M S, et al. Improving twitter sentiment classification using topic-enriched multi-prototype word embeddings [C]// Proceedings of the 13th AAAI Conference on Artificial Intelligence. Menlo Park, CA: AAAI, 2016: 3038-3044.

      [20] YESSENALI A A, CARDIE C. Compositional matrix-space models for sentiment analysis [C]// Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2011: 172-182.

      [21] LE Q, MIKOLOV T. Distributed representations of sentences and documents [J]. Journal of Machine Learning Research, 2014, 32(2): 1188-1196.

      [22] SOCHER R, PERELYGIN A, WU J, et al. Recursive deep models for semantic compositionality over a sentiment treebank [C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2013: 1631-1642.

      [23] JOHNSON R, ZHANG T. Effective use of word order for text categorization with convolutional neural networks [C]// Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2015: 103-112.

      [24] LI J W, LUONG M T, JURAFSKY D, et al. When are tree structures necessary for deep learning of representations [EB/OL]. [2017-08-04]. http://www.emnlp2015.org/proceedings/EMNLP/pdf/EMNLP278.pdf.

      [25] BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate [EB/OL]. [2017-10-20]. https://arxiv.org/abs/1409.0473.

      [26] YANG Z C, YANG D Y, DYER C, et al. Hierarchical attention networks for document classification [C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2016: 1480-1489.

      [27] CHEN H M, SUN M S, TU C C, et al. Neural sentiment classification with user and product attention [C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2016: 1650-1659.

      [28] MUKHERJEE A, VENKATARAMAN V, LIU B, et al. What yelp fake review filter might be doing [C]// Proceedings of the Seventh International AAAI Conference on Weblogs and Social Media. Menlo Park, CA: AAAI, 2013: 409-418.

      [29] RAYANA S, AKOGLU L. Collective opinion spam detection: bridging review networks and metadata [C]// Proceedings of the 21st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2015: 985-994.

      猜你喜歡
      長(zhǎng)短期記憶網(wǎng)絡(luò)注意力機(jī)制神經(jīng)網(wǎng)絡(luò)
      神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      多種算法對(duì)不同中文文本分類(lèi)效果比較研究
      基于深度學(xué)習(xí)的問(wèn)題回答技術(shù)研究
      餐飲業(yè)客流預(yù)測(cè)的深度聯(lián)合模型
      商情(2018年47期)2018-11-26 09:12:38
      基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
      基于LSTM的媒體網(wǎng)站用戶(hù)流量預(yù)測(cè)與負(fù)載均衡方法
      基于注意力機(jī)制的雙向LSTM模型在中文商品評(píng)論情感分類(lèi)中的研究
      軟件工程(2017年11期)2018-01-05 08:06:09
      InsunKBQA:一個(gè)基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)
      基于LSTM自動(dòng)編碼機(jī)的短文本聚類(lèi)方法
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      太仆寺旗| 佛山市| 怀柔区| 海丰县| 绥德县| 通山县| 吴忠市| 昌宁县| 南江县| 富顺县| 石首市| 天全县| 龙南县| 靖安县| 富阳市| 太和县| 芦溪县| 新巴尔虎左旗| 济源市| 水富县| 北流市| 岐山县| 托克逊县| 拉萨市| 高州市| 遵义市| 湘阴县| 陆河县| 凉山| 清镇市| 右玉县| 乌鲁木齐县| 丁青县| 遂平县| 民乐县| 和平县| 泸水县| 高唐县| 德惠市| 穆棱市| 闻喜县|