• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于聚類與句子加權(quán)的欺騙性評(píng)論檢測(cè)

      2019-06-10 01:01:19張建鑫
      軟件導(dǎo)刊 2019年2期
      關(guān)鍵詞:聚類神經(jīng)網(wǎng)絡(luò)

      張建鑫

      摘 要:消費(fèi)者在購物前往往會(huì)參考產(chǎn)品評(píng)論,欺騙性評(píng)論容易誤導(dǎo)顧客使其作出錯(cuò)誤決定?,F(xiàn)有檢測(cè)欺騙性垃圾評(píng)論的方法大多采用機(jī)器學(xué)習(xí)方法,難以學(xué)習(xí)評(píng)論的潛在語義。因此提出一個(gè)基于聚類與注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)評(píng)論語義表示。該模型使用基于密度峰值的快速搜索聚類算法找出詞向量空間語義群,通過KL-divergence計(jì)算權(quán)重,然后綜合句子中單詞與單詞所屬的語義群得到句子表示。實(shí)驗(yàn)結(jié)果表明,該模型準(zhǔn)確率達(dá)82.2%,超過現(xiàn)有基準(zhǔn),在欺騙性垃圾評(píng)論識(shí)別中具有一定使用價(jià)值。

      關(guān)鍵詞:欺騙性評(píng)論;聚類;句子加權(quán);神經(jīng)網(wǎng)絡(luò)

      DOI:10. 11907/rjdk. 182701

      中圖分類號(hào):TP306文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-7800(2019)002-0034-04

      Abstract:Consumers prefer to read product reviews before shopping. Deceptive comments can easily mislead customers to make wrong decisions. Existing methods for detecting fraudulent spam comments mostly use machine learning, but it is difficult to learn the underlying semantics of comments. This paper proposes a neural network model based on clustering and attention mechanism to learn the semantic representation of comments. Specifically, this paper first makes the fast search clustering algorithm based on density peaks to find the semantic group in the word vector space, and calculates the weight by KL-divergence. Then it synthesizes the words in the sentence and the semantic group to which the word belongs to get the sentence representation. The experimental results show that the accuracy of the proposed model reaches 82.2%, which exceeds the current benchmark. Therefore, it has certain value in the identification of fraudulent spam comments.

      Key Words:deceptive review detection;clustering;sentence weighting;neural network

      0 引言

      欺騙性評(píng)論檢測(cè)是自然語言處理領(lǐng)域一項(xiàng)緊迫且有意義的任務(wù)。隨著用戶評(píng)論不斷增長,欺騙性垃圾信息的出現(xiàn)引起了廣泛關(guān)注。欺騙性評(píng)論是一種虛假評(píng)論,故意將其寫得真實(shí)可信,使受眾難以辨別。因此檢測(cè)欺騙性評(píng)論的研究是必要且有意義的[1-2]。

      評(píng)論通常是簡短的文本。檢測(cè)的目的是區(qū)分文本是否為虛假評(píng)論。由于虛假評(píng)論具有隱藏性與多樣性,比如人類手工標(biāo)注的評(píng)論數(shù)據(jù)集中必定存在一定數(shù)量的影響分類器的誤例。大多數(shù)現(xiàn)有方法遵循Ott等[3]利用機(jī)器學(xué)習(xí)算法構(gòu)建分類器的方法。任亞峰等[4]提出一種創(chuàng)新的PU學(xué)習(xí)框架識(shí)別虛假評(píng)論;Ott、Shojaee及Li等[5-7]使用詞袋特征、詞性特征及文體特征等多種特征進(jìn)行模型訓(xùn)練,在眾包平臺(tái)構(gòu)造的數(shù)據(jù)集上,獲得74%~79.6%的檢測(cè)準(zhǔn)確率;Li&Hammad[8]、Mukherjee等[9]運(yùn)用元數(shù)據(jù)特征對(duì)評(píng)論文本進(jìn)行數(shù)據(jù)分析及虛假評(píng)論檢測(cè)。但以上方法均無學(xué)習(xí)文本的語義表示。

      基于神經(jīng)網(wǎng)絡(luò)模型良好性能的自然語言處理任務(wù),如語言建模[12-13]、情感分析任務(wù)[14-15]與文本分類,本文提出一種新模型,通過使用詞向量聚類與句子加權(quán)的新方法學(xué)習(xí)評(píng)論語義表示,并檢測(cè)垃圾評(píng)論。通過學(xué)習(xí)文檔級(jí)的表示可以捕獲全局特征并考慮詞序與句子順序。

      1 相關(guān)知識(shí)介紹

      1.1 詞向量聚類

      在嵌入空間中,相鄰單詞通常語義相關(guān)[16]。因此,可利用聚類方法發(fā)現(xiàn)語義群,但是在選擇聚類算法的過程中存在問題,如語義群數(shù)量事先未知,詞向量維度通常很高,導(dǎo)致模型計(jì)算量巨大。為了解決以上問題,本文采用基于密度峰值搜索的快速算法[17-18]實(shí)現(xiàn)詞嵌入聚類。

      聚類算法假定聚類中心被局部密度較低的鄰居包圍,它們與任意一個(gè)局部密度較高的點(diǎn)之間的距離相對(duì)較大,正好滿足詞向量分布特性。該算法需要計(jì)算局部密度及密度較高點(diǎn)的距離。

      局部密度[ρi]定義為:

      其中函數(shù)

      [dij]是數(shù)據(jù)點(diǎn)之間的距離, [dc]是截止距離。

      與密度較高點(diǎn)的距離[δi]計(jì)算公式為:

      1.2 句子加權(quán)

      在區(qū)分垃圾評(píng)論與真實(shí)評(píng)論時(shí),有些詞極其重要。因?yàn)樵谡Z義表示中,單詞詞義不同會(huì)導(dǎo)致單詞在句子中作用不同。因此,單詞不同的句子權(quán)重也不同。

      對(duì)于文本T來說,獲得語義表示的方法中存在的關(guān)鍵問題為:T的語義通常由一些關(guān)鍵短語確定。如果只是簡單地將T的單詞進(jìn)行語義表示,可能會(huì)引起歧義,并影響整個(gè)語句的語義表示。本文根據(jù)句子中單詞及單詞所屬的語義群計(jì)算句子權(quán)重,采用KL-divergence作為語義群與單詞的權(quán)重。KL-divergence的值代表特征在劃分文檔中的能力。

      如圖1所示,本文模型首先在嵌入空間中使用聚類算法發(fā)現(xiàn)語義群,并使用KL-divergence計(jì)算語義群權(quán)重。在卷積層將輸入評(píng)論的每個(gè)句子轉(zhuǎn)換為固定長度矢量。根據(jù)句子權(quán)重計(jì)算公式得出每個(gè)句子的權(quán)重,最后通過上下文確定詞向量語義構(gòu)成,計(jì)算文本語義表示。卷積層通過卷積核對(duì)語義表示進(jìn)行卷積計(jì)算,提取高層次局部特征,利用K-Max Pooling對(duì)卷積層輸出特征圖進(jìn)行下采樣,生成全局特征。最后,采用Softmax損失函數(shù)作為分類器。

      1.3 架構(gòu)描述

      卷積層計(jì)算如式(4)所示,將卷積核與輸入矩陣向量作內(nèi)積計(jì)算。

      在卷積神經(jīng)網(wǎng)絡(luò)中,經(jīng)過卷積操作后放進(jìn)池化層,以提取局部均值與最大值,根據(jù)計(jì)算出來的值分為均值池化層與最大值池化層。為獲取具有固定長度的最相關(guān)全局特征,本文使用K-Max池化操作對(duì)特征進(jìn)行下采樣,如式(5)所示。

      使用正切函數(shù)計(jì)算特征,從而得到輸入評(píng)論文本的特征表示。

      通過上述層次序列之后,獲得具有固定大小的語義表示。在模型網(wǎng)絡(luò)最后一層與權(quán)重連接,如式(7)所示。

      最后輸出層輸出模型預(yù)測(cè)結(jié)果。為將向量轉(zhuǎn)換為概率分布,使用Softmax函數(shù)。輸出向量的每個(gè)分量均可視為標(biāo)簽得分。

      為最小化交叉熵與所有樣本實(shí)際分布,在網(wǎng)絡(luò)訓(xùn)練中使用交叉熵函數(shù)。因?yàn)榻徊骒睾瘮?shù)被證明能夠加速反向傳播算法,并提供良好的整體網(wǎng)絡(luò)性能與相對(duì)較短的停滯期,特別是對(duì)于分類任務(wù)。

      2 實(shí)驗(yàn)

      2.1 實(shí)驗(yàn)數(shù)據(jù)集

      本文通過垃圾評(píng)論檢測(cè)實(shí)驗(yàn),評(píng)估基于聚類與句子加權(quán)的語義表示模型。本文采用Li[19]發(fā)布的黃金標(biāo)準(zhǔn)垃圾評(píng)論審查數(shù)據(jù)集。該數(shù)據(jù)集包含3個(gè)領(lǐng)域的統(tǒng)計(jì)數(shù)據(jù)。數(shù)據(jù)集分布如表1所示。

      2.2 基準(zhǔn)方法

      將本文模型與如下基準(zhǔn)方法進(jìn)行比較。

      (1)CNN模型。Kim[20]提出將卷積神經(jīng)網(wǎng)絡(luò)用于分類模型。首先選擇詞向量作為原始特征,然后通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)一步提取特征,最后訓(xùn)練出基于卷積神經(jīng)網(wǎng)絡(luò)的分類模型。

      (2)LSTM模型[21]。該方法是具有一個(gè)隱含層的長短期記憶網(wǎng)絡(luò)模型。LSTM網(wǎng)絡(luò)比簡單的循環(huán)架構(gòu)更易于學(xué)習(xí)長期依賴。

      (3)Bi-LSTM模型。雙向LSTM 模型是 LSTM 模型的變種,在處理很多自然語言任務(wù)時(shí)表現(xiàn)出良好性能。

      2.3 實(shí)驗(yàn)評(píng)估方法

      本文采用準(zhǔn)確率、精度、召回率及F1值評(píng)估模型有效性。準(zhǔn)確率代表模型預(yù)測(cè)垃圾評(píng)論樣本和非垃圾評(píng)論的能力;精度反映模型預(yù)測(cè)垃圾評(píng)論的正確性能力;召回率反映在真實(shí)垃圾評(píng)論樣本中正確預(yù)測(cè)垃圾評(píng)論樣本的覆蓋范圍。

      2.4 實(shí)驗(yàn)結(jié)果與分析

      本文使用10折交叉驗(yàn)證法,通過與基準(zhǔn)方法比較從而評(píng)價(jià)模型。從表2實(shí)驗(yàn)結(jié)果可以看到,本文模型在餐廳領(lǐng)域獲得最佳結(jié)果,但在醫(yī)生領(lǐng)域表現(xiàn)結(jié)果不理想。LSTM與Bi-LSTM等復(fù)雜模型的表現(xiàn)比CNN簡單模型遜色,其主要原因是過度擬合。對(duì)于小數(shù)據(jù)集,包含眾多參數(shù)的基于神經(jīng)網(wǎng)絡(luò)的模型未必是好的選擇。

      本文模型在準(zhǔn)確率、精度、召回率方面均超過了其它基準(zhǔn)方法。主要原因歸結(jié)于兩個(gè)方面:①聚類算法的使用捕獲了內(nèi)部深層次聯(lián)系;②句子加權(quán)的使用使模型能更好理解文本信息。

      考慮到不同聚類算法對(duì)欺騙性評(píng)論檢測(cè)的影響,為得到最理想的結(jié)果,本文對(duì)兩個(gè)比較有代表性的聚類算法進(jìn)行對(duì)比:K-means算法和DBSCAN算法。由圖2可以看出模型使用聚類算法比不使用聚類算法效果更好,因?yàn)橥ㄟ^聚類算法有助于理解文本語義,提高模型識(shí)別能力。但是不同聚類算法在嵌入空間中聚類效果不同。從圖2可以看出,基于DBSCAN聚類算法的模型優(yōu)于基于K-means算法的模型。

      同時(shí)本文還對(duì)比了兩種句子加權(quán)算法。在使用同類聚類算法條件下,從圖3可看出基于KL-divergence的加權(quán)優(yōu)于其它方法,使用句子加權(quán)方法可提高模型準(zhǔn)確率。

      2.5 超參數(shù)影響

      本部分通過實(shí)驗(yàn)研究超參數(shù)(預(yù)設(shè)閾值與隱藏層長度)在本文模型檢測(cè)實(shí)驗(yàn)中的效果。考慮聚類算法中閾值對(duì)算法性能的影響,本文對(duì)其進(jìn)行實(shí)驗(yàn),結(jié)果如圖4所示,從中可知,當(dāng)歐氏距離太小時(shí),模型表示不理想;當(dāng)歐氏距離太大時(shí),模型準(zhǔn)確率趨于平穩(wěn)。

      本文考慮到網(wǎng)絡(luò)隱藏層長度對(duì)算法性能有影響,使用卷積神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)模型,如圖5所示。隨著隱藏層長度增加,模型準(zhǔn)確率與F1值隨之提高,但變化幅度不大且趨于穩(wěn)定。

      3 結(jié)語

      針對(duì)手工標(biāo)注的缺點(diǎn),為更加準(zhǔn)確地獲取文本語義表示,本文提出一種基于聚類與句子加權(quán)的卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)欺騙性評(píng)論的語義表示。通過在公共數(shù)據(jù)集上與多個(gè)基準(zhǔn)方法進(jìn)行比較,結(jié)果表明,基于聚類與句子加權(quán)的神經(jīng)網(wǎng)絡(luò)比其它神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)更好,提高了整體模型準(zhǔn)確率、精度及F1值,證明了本文模型有效性。但是,由于本文使用嵌入空間的歐氏距離作為預(yù)設(shè)閾值,忽略了文本單詞親和度,在未來可以在嵌入空間中改進(jìn)計(jì)算親和度。

      參考文獻(xiàn):

      [1] 林政,譚松波,程學(xué)旗. 基于情感關(guān)鍵句抽取的情感分類研究[J]. 計(jì)算機(jī)研究與發(fā)展,2012,49(11):2376-2382.

      [2] 李素科,蔣嚴(yán)冰. 基于情感特征聚類的半監(jiān)督情感分類[J]. 計(jì)算機(jī)研究與發(fā)展,2013, 50(12):2570-2577.

      [3] OTT M,CHOI Y, CARDIE C,et al. Finding deceptive opinion spam by any stretch of the imagination[C]. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics Human Language Technologies,2011: 309-319.

      [4] 任亞峰,姬東鴻,張紅斌,等. 基于PU學(xué)習(xí)算法的虛假評(píng)論識(shí)別研究[J]. 計(jì)算機(jī)研究與發(fā)展,2015,52(3):639-648.

      [5] 杜偉夫,譚松波,云曉春,等. 一種新的情感詞匯語義傾向計(jì)算方法[J]. 計(jì)算機(jī)研究與發(fā)展,2009,46(10):1713-1720.

      [5] LI J, OTT M, CARDIE C, et al. Towards a general rule for identi-fying deceptive opinion spam[C]. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics,2014: 1566-1576.

      [6] SHOJAEE S,MURAD M A A,AZMAN A B,et al. Detecting decep-tive reviews using lexical and syntactic features[C]. 2013 13th International Conference on Intelligent Systems Design and Applications,2013: 53-58.

      [7] LI F, HUANG M, YANG Y, et al. Learning to identify review spam[C].IJCAI Proceedings-International Joint Conference on Artificial Intelligence, 2011: 2488.

      [8] HAMMAD A S A,EL-HALEES A. An approach for detecting spam in Arabic opinion reviews[J]. The International Arab Journal of Information Technology, 2013, 12(1):1-9.

      [9] MUKHERJEE A,VENKATARAMAN V,LIU B,et al. What yelp fake review filter might be doing?[C]. Proceedings of the International Conference on Weblogs and Social Media,2013: 409-418.

      [10] 胡熠,陸汝占,李學(xué)寧,等. 基于語言建模的文本情感分類研究[J]. 計(jì)算機(jī)研究與發(fā)展,2007,44(9):1469-1475.

      [11] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]. International Conference on Neural Information Processing Systems,2013:3111-3119.

      [13] MNIH A,HINTON G E. A scalable hierarchical distributed lan-guage model[C]. Advances in neural information processing sys-tems,2009: 1081-1088.

      [14] BENGIO Y,DUCHARME R,VINCENT P,et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3(2): 1137-1155.

      [15] 趙妍妍,秦兵,劉挺. 文本情感分析[J]. 軟件學(xué)報(bào), 2010, 21(8):1834-1848.

      [16] 張珊,于留寶,胡長軍. 基于表情圖片與情感詞的中文微博情感分析[J]. 計(jì)算機(jī)科學(xué),2012, 39(Z11):146-148.

      [17] RODRIGUEZ A,LAIO A. Machine learning clustering by fast search and find of density peaks[J]. Science,2014,344(6191):1492.

      [18] 賈培靈,建聰,彭延軍. 一種基于簇邊界的密度峰值點(diǎn)快速搜索聚類算法[J]. 南京大學(xué)學(xué)報(bào):自然科學(xué),2017,53(2):368-377.

      [19] OTT M. Linguistic models of deceptive opinion spam[C].The Workshop on Computational Approaches to Subjectivity,2013:31-33.

      [20] KIM Y. Convolutional neural networks for sentence classification[DB/OL]. https://arxiv.org/abs/1408.5882.

      [21] 胡新辰. 基于LSTM的語義關(guān)系分類研究[D]. 哈爾濱:哈爾濱工業(yè)大學(xué),2015.

      (責(zé)任編輯:江 艷)

      猜你喜歡
      聚類神經(jīng)網(wǎng)絡(luò)
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      基于K-means聚類的車-地?zé)o線通信場強(qiáng)研究
      基于DBSACN聚類算法的XML文檔聚類
      條紋顏色分離與聚類
      基于Spark平臺(tái)的K-means聚類算法改進(jìn)及并行化實(shí)現(xiàn)
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      基于神經(jīng)網(wǎng)絡(luò)分?jǐn)?shù)階控制的逆變電源
      涞水县| 高邑县| 南溪县| 阜新| 麟游县| 阿瓦提县| 土默特右旗| 阳朔县| 麦盖提县| 合江县| 延川县| 乌什县| 综艺| 扬州市| 凌源市| 颍上县| 焦作市| 敖汉旗| 龙游县| 建昌县| 黄梅县| 泸水县| 德格县| 郯城县| 册亨县| 宁远县| 扶风县| 金寨县| 建昌县| 班戈县| 卢龙县| 龙陵县| 漳平市| 阜平县| 嘉祥县| 平原县| 眉山市| 望都县| 梅州市| 临颍县| 乾安县|