虛假評論檢測技術(shù)綜述①

2019-03-11 06:02:02尤苡名

計(jì)算機(jī)系統(tǒng)應(yīng)用 2019年3期

尤苡名

(浙江理工大學(xué) 信息學(xué)院,杭州 310018)

互聯(lián)網(wǎng)的迅速發(fā)展使線上平臺在人們購物、旅游、用餐、住宿等各個方面占據(jù)了重要的作用.這些線上平臺擁有大量評論.評論信息作為橋梁聯(lián)結(jié)消費(fèi)者和產(chǎn)品,不僅可以影響消費(fèi)者的決策,還能作為反饋來促進(jìn)商家改善產(chǎn)品細(xì)節(jié).然而,評論者個體因?yàn)槔骊P(guān)系、品牌偏見等原因發(fā)布了許多虛假評論.他們甚至?xí)f(xié)同合作發(fā)布虛假評論,組成虛假評論群組.據(jù)調(diào)查顯示[1],美國版大眾點(diǎn)評網(wǎng)站Yelp上欺騙性評論的比例已從2006年的5%漲至2013年的20%.虛假評論誤導(dǎo)消費(fèi)者決策,破壞消費(fèi)體驗(yàn),危害性大.

2008年,Jindal等[2]首次對產(chǎn)品虛假評論開展研究并給出虛假評論的3種類型:

(1)不真實(shí)評論.評論制造者為了提高某產(chǎn)品的銷量,不管產(chǎn)品真實(shí)的特性大肆贊美該產(chǎn)品,或者為了壓制某產(chǎn)品的銷量詆毀該產(chǎn)品.

(2)只關(guān)注品牌的評論.評論者因?yàn)楫a(chǎn)品的品牌、廠商和銷售商對產(chǎn)品帶有偏見.

(3)無關(guān)評論.一般分為兩類:廣告和其他與評論無關(guān)的文本.

由于評論內(nèi)容多為短文本,虛假評論比垃圾網(wǎng)頁和垃圾郵件更難識別[3].國內(nèi)外學(xué)者重點(diǎn)研究第一類虛假評論.

虛假評論檢測難點(diǎn)在于找出有效的特征來更好地區(qū)分虛假評論與真實(shí)評論.最早的時(shí)候,研究者從評論內(nèi)容提取語言特征(例如,詞袋特征)用于檢測.然而,有經(jīng)驗(yàn)的評論者編寫虛假評論模仿真實(shí)評論,所以利用評論內(nèi)容識別虛假評論,準(zhǔn)確性不高.于是,研究者結(jié)合行為異常信息來提高檢測準(zhǔn)確性.虛假評論檢測另一難點(diǎn)在于缺少標(biāo)準(zhǔn)標(biāo)注數(shù)據(jù)集評估算法性能.研究者引入圖結(jié)構(gòu),利用評論者、評論、產(chǎn)品之間的關(guān)系特征,把檢測任務(wù)轉(zhuǎn)為排序或者聯(lián)合分類問題,已知節(jié)點(diǎn)的信息通過連接的邊傳遞到未知節(jié)點(diǎn).此類方法適用于標(biāo)注數(shù)據(jù)集少的情況.da方法檢測的效率不高.于是,研究者利用表示學(xué)習(xí)方法讓模型學(xué)習(xí)表示評論,減少人為設(shè)計(jì)特征的繁瑣性.

本文第1節(jié)從檢測的一般流程、特征分類、檢測方法三部分介紹虛假評論檢測技術(shù),重點(diǎn)比較了各類方法的優(yōu)缺點(diǎn).第2節(jié)列舉了研究者們使用的合成數(shù)據(jù)集和真實(shí)世界的數(shù)據(jù)集.第3節(jié)對全文進(jìn)行總結(jié),同時(shí)探索了未來的研究方向.

1 虛假評論檢測技術(shù)

1.1 檢測流程

虛假評論檢測的一般流程分為:數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、特征設(shè)計(jì)、模型設(shè)計(jì)、模型評估.數(shù)據(jù)收集指自己爬取網(wǎng)頁數(shù)據(jù)或者下載他人整理的語料庫.數(shù)據(jù)預(yù)處理對后續(xù)的虛假評論檢測性能有著很大的影響[4].該階段去除了不相關(guān)信息,并對文本進(jìn)行分詞、去除停用詞、詞性分析.為了盡可能精確有效地表示評論,需要對數(shù)據(jù)的特征進(jìn)行分析設(shè)計(jì),特征設(shè)計(jì)主要包括特征提取和特征選擇.評論特征通過歸一化或者規(guī)范化后輸入到設(shè)計(jì)的虛假評論檢測模型中.模型評估用于檢驗(yàn)?zāi)Ｐ偷姆夯阅?常用的評估指標(biāo)有:AUC值、F1值、準(zhǔn)確率Accuracy、精確率Precision、召回率Recall.

1.2 特征分類

研究中常用的特征可分為四類[5]:評論者的語言特征、評論的語言特征、評論者的行為特征和評論的行為特征,具體如表1所示.前兩類來自評論內(nèi)容,后兩類由元數(shù)據(jù)產(chǎn)生.這些特征是在以往的研究工作中統(tǒng)計(jì)出來的,依賴于專家們對不同領(lǐng)域數(shù)據(jù)的經(jīng)驗(yàn)知識.

1.3 檢測方法

1.3.1 基于語言特征與行為特征的方法

基于語言學(xué)特征的方法屬于早期的研究方法.詞袋特征(unigram/bigram/trigram)是虛假評論識別最為常用的語言特征[6-8].Jindal等[2]提取重復(fù)評論的bigram特征,在亞馬遜數(shù)據(jù)集訓(xùn)練回歸模型,識別只關(guān)注品牌的評論和評論文本無關(guān)的兩類垃圾評論,AUC值高達(dá)90%.

Ott等[7]僅使用bigram特征在合成的黃金標(biāo)準(zhǔn)數(shù)據(jù)集訓(xùn)練支持向量機(jī)SVM模型,分類結(jié)果Accuracy達(dá)到89.6%.Feng等[9]利用unigram、深層句法特征和SVM模型對同一合成數(shù)據(jù)集進(jìn)行驗(yàn)證,將Accuracy提高到91.2%.

Li等[10]擴(kuò)充了黃金標(biāo)準(zhǔn)數(shù)據(jù)集,研究了虛假評論檢測領(lǐng)域遷移性問題.研究者利用Hotel數(shù)據(jù)集的Unigram特征訓(xùn)練SVM模型和稀疏相加生成模型(SAGE),然后在Restaurant和Doctor數(shù)據(jù)集上測試模型.Hotel數(shù)據(jù)和Restaurant數(shù)據(jù)相比有較多相似的屬性,而和Doctor相比相似性較少.實(shí)驗(yàn)發(fā)現(xiàn)兩個模型在Restaurant數(shù)據(jù)集上的分類Accuracy都能達(dá)到75%左右,而在Doctor數(shù)據(jù)集上Accuracy只有50%左右.實(shí)驗(yàn)說明詞袋特征用于虛假評論檢測領(lǐng)域遷移性差.

由于人工標(biāo)注樣例誤差大,任亞峰等[11]提出PU學(xué)習(xí)算法 (Positive-Unlabeled learning algorithm)識別虛假評論.作為半監(jiān)督性學(xué)習(xí)算法,PU算法在評論數(shù)據(jù)包含少量正例P和剩余全為未標(biāo)注樣例U的情況下構(gòu)造分類器,自動標(biāo)記未標(biāo)注樣例U.核心是確定間諜樣例的類別標(biāo)簽.該方法首先從未標(biāo)注評論樣例中抽取了可信負(fù)例,利用LDA主題模型抽取了它們的主題分布特征,并使用K-Means聚類主題分布相似的可信負(fù)例.然后,用Rocchio分類器識別出10個代表性正負(fù)樣例,并以代表性正負(fù)樣例為基準(zhǔn),混合種群性和個體性策略確定間諜樣例的類別標(biāo)簽.最后,利用多核學(xué)習(xí)算法建立最終的分類器.實(shí)驗(yàn)在黃金標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行,識別Accuracy達(dá)到 83.21%.然而,如果間諜樣例所在子類正負(fù)樣例數(shù)目相近,并且間諜樣例與代表性正負(fù)樣例的相似度都不高,算法就難以確定間諜樣例的類別標(biāo)簽.此外,多核學(xué)習(xí)算法將特征映射到高維空間區(qū)分,效率不高,不適合處理大規(guī)模評論數(shù)據(jù).

表1 常用的評論、評論者的語言特征和行為特征

趙軍等[12]提出融合情感極性和轉(zhuǎn)折詞的邏輯回歸模型識別虛假評論.該方法使用優(yōu)勢比和逐步回歸變量篩選方法,比較了10個文本特征和行為特征變量的顯著性水平,最后選擇了6個對邏輯回歸模型影響最為顯著的特征.實(shí)驗(yàn)在Amazon數(shù)據(jù)集上進(jìn)行,發(fā)現(xiàn)文本長度、情感強(qiáng)度和是否包含轉(zhuǎn)折詞的優(yōu)勢比最高.將轉(zhuǎn)折詞和情感特征融入模型有效地提高了檢測的準(zhǔn)確性,因?yàn)檎鎸?shí)評論者在評論時(shí)往往比較全面.然而,該模型只是粗略地計(jì)算句子的情感極性,忽略了不同副詞帶來的情感強(qiáng)度的差異.此外,所選擇的特征中不包含時(shí)間相關(guān)的特征,而實(shí)際上虛假評論存在爆發(fā)時(shí)間窗.模型仍需要改進(jìn).

基于語言特征的方法應(yīng)用于點(diǎn)評網(wǎng)站中的評論數(shù)據(jù)時(shí)檢測效果較差.Mukherjee等[13]使用bigram特征在黃金標(biāo)準(zhǔn)數(shù)據(jù)集上訓(xùn)練SVM模型,然后將訓(xùn)練好的模型在Yelp點(diǎn)評網(wǎng)站的Restaurant評論數(shù)據(jù)集上測試,僅取得 68.5% 的準(zhǔn)確率.研究發(fā)現(xiàn)[2,13,14],將行為特征與語言學(xué)特征結(jié)合起來可以提高檢測準(zhǔn)確性.雖然虛假評論者在語言表述上模仿真實(shí)評論者,但是他們不能掩蓋異常的評論行為.

以往的研究多次利用評論爆發(fā)性[15-18]和評論評分異常性[19-21]構(gòu)建虛假評論檢測模型.評論的分布一般是隨機(jī)的,如果評論者的突發(fā)性評論集在所有評論集合中占的比例高,那么這些評論者極有可能是虛假評論者,而評論者發(fā)布的突發(fā)性評論極有可能是虛假評論[22].然而,Li等[23]指出,同時(shí)出現(xiàn)的評論不一定都是虛假評論.例如,當(dāng)電視廣告大肆宣傳產(chǎn)品時(shí),許多消費(fèi)者會同時(shí)購買相同的產(chǎn)品,該產(chǎn)品在這時(shí)間段內(nèi)會產(chǎn)生大量的評論.他們在大眾點(diǎn)評的餐廳數(shù)據(jù)集上發(fā)現(xiàn)一種co-bursting行為模式,即虛假評論者在同一小段時(shí)間內(nèi)積極地對同一批餐廳發(fā)布虛假評論,而其他時(shí)間段虛假評論者的評論行為比較消極.

Yang等[24]發(fā)現(xiàn)虛假評論群組中評論者的興趣相似(指評論包含的方面和情感).研究中首先找出評論內(nèi)容相似的評論者集合.然后,利用Author-Topic模型[25]提取剩余評論者的評論主題分布作為評論者的興趣向量;使用亞馬遜網(wǎng)上商城瀏覽器目錄接口找出同一個目錄節(jié)點(diǎn)下并且發(fā)表時(shí)間窗為一天內(nèi)的評論.找出興趣向量相似且評論時(shí)間窗相近的評論者作為候選者.最終,由三位專家判斷候選者是否為虛假評論者.實(shí)驗(yàn)隨機(jī)選擇了方法檢測出的50名虛假評論者和50名真實(shí)評論者,然后由三位專家判斷真假性.實(shí)驗(yàn)結(jié)果中,虛假評論者和真實(shí)評論者的Precision分別為84%、80%.但是,研究者并未評估所選的3個特征的有效性,或者找出更多特征來提高模型分類的準(zhǔn)確性.

將行為特征與語言特征結(jié)合可以改善虛假評論檢測效果,然而前提是需要足夠的數(shù)據(jù)抽取行為信息.Wang等[26]在Yelp酒店和餐廳兩個領(lǐng)域的評論數(shù)據(jù)上研究了冷啟動問題,旨在即時(shí)檢測出虛假評論者,降低危害.他們發(fā)現(xiàn)行為信息有限時(shí),評論長度、評論者的評級偏差、最大評論內(nèi)容相似度和bigram特征結(jié)合較于僅使用bigram特征,檢測準(zhǔn)確率提高了5%(酒店領(lǐng)域),但是F1值降低了約5%、召回率降低了約19%,而提高后的準(zhǔn)確率也只達(dá)到60%左右.這說明行為信息不夠充分的情況下,虛假評論誤判率增加,行為特征對于虛假評論的區(qū)分度有限.

1.3.2 基于圖結(jié)構(gòu)的方法

基于圖結(jié)構(gòu)的方法利用評論、評論者、產(chǎn)品等對象之間的關(guān)系特征,將虛假評論者和虛假評論的檢測看作聯(lián)合分類或者排序問題[27].在該類方法中,對象被映射為圖結(jié)構(gòu)中的節(jié)點(diǎn),不同對象之間的依賴關(guān)系被映射為圖結(jié)構(gòu)中的邊.對象與對象之間存在直接或間接的關(guān)聯(lián).

為了研究虛假評論者的檢測問題,Wang等[28]提出了異構(gòu)型評論圖的概念來描述評論者、評論和線上商店之間的關(guān)系.文章采用了基于網(wǎng)絡(luò)的算法并利用異構(gòu)圖各節(jié)點(diǎn)之間的關(guān)系來排序.如圖1所示,圖中存在三種類型的節(jié)點(diǎn):評論者、商店和評論.一個評論者節(jié)點(diǎn)同其所寫評論之間有一條邊連接,一個評論節(jié)點(diǎn)同該評論所關(guān)聯(lián)的商店有一條邊相連接.而一個商店節(jié)點(diǎn)是通過評論者對該商店發(fā)表的評論與這個評論者節(jié)點(diǎn)間接關(guān)聯(lián).

圖1 評論者-評論-商店關(guān)系圖

他們還提出一個有效的迭代計(jì)算模型,該模型采用了節(jié)點(diǎn)加強(qiáng)的方法對評論者的可信度、商店的可靠性、評論的真實(shí)性進(jìn)行計(jì)算.研究者認(rèn)為評論的真實(shí)性取決于以下兩點(diǎn):1)商店的可靠性.2)一定時(shí)間窗內(nèi)該評論與其他評論的一致性.商店的可靠性與評論者的可信度正相關(guān).評論者的可信度與評論的真實(shí)性正相關(guān).經(jīng)過多次迭代后,各節(jié)點(diǎn)的信譽(yù)度將逐漸收斂,系統(tǒng)也會趨于平衡.最終,得分較低的評論者歸為虛假評論者候選人.評論者可信度T(i)的計(jì)算公式如公式(1)所示.

其中,Hi表示評論者i的所有評論的真實(shí)性的總和.但是,缺點(diǎn)在于算法只根據(jù)計(jì)算的分?jǐn)?shù)對可疑的評論者進(jìn)行排序,最終還得依靠人來評估可疑對象,標(biāo)注虛假評論者.人工標(biāo)注基于給定的規(guī)則,在多數(shù)復(fù)雜的情況下,還需依靠人類的直覺和大量相關(guān)信息來判斷,因此準(zhǔn)確性有待商榷.

余傳明等[29]構(gòu)建個人-群體-商戶模型,量化關(guān)系特征,迭代計(jì)算個人、群體和商戶的虛假度并將其排序.該方法構(gòu)建商戶-個人關(guān)系模型、商戶-群體關(guān)系模型、個人-群體關(guān)系模型,并分別計(jì)算商戶和個人、商戶和群體以及個人和群體的相互影響程度.所用特征包含評論者個人行為特征、評論者群體行為特征、商家行為特征.實(shí)驗(yàn)從國內(nèi)大型電商平臺上選取93家店鋪、9558個不同IP代表的不同評論者以及97 804條評論數(shù)據(jù)作為樣本,虛假評論者識別的Precision值為92.86%,Recall值為 86.47%,F1 值為 87.89%.該方法不需要手動標(biāo)記訓(xùn)練集,消除了分類模型的訓(xùn)練時(shí)間,可擴(kuò)展到大型數(shù)據(jù)集.但是,關(guān)系模型在計(jì)算虛假度時(shí)只是簡單地對特征取平均值,忽略了不同行為特征的重要性差異.

邵珠峰等[30]構(gòu)建用戶之間關(guān)系的多邊圖模型,計(jì)算用戶的不可靠分?jǐn)?shù)來識別虛假評論者.用戶節(jié)點(diǎn)之間存在兩種類型的邊.若兩個用戶對同一商品評分相同或相似,用戶節(jié)點(diǎn)之間用支持邊連接,反之則用反對邊連接.該方法利用用戶的8種行為特征計(jì)算用戶初始特征分?jǐn)?shù),然后歸納用戶之間的支持邊、反對邊集合并利用TrustRank算法量化用戶之間的關(guān)系分?jǐn)?shù),這兩部分之和為用戶的不可靠分?jǐn)?shù).最后將不可靠分?jǐn)?shù)值較小的用戶作為虛假評論者候選者,邀請3位專業(yè)人士評估判斷出虛假評論者.缺點(diǎn)是,在計(jì)算初始特征分?jǐn)?shù)時(shí),特征權(quán)重的分配沒有可靠的理論依據(jù),特征組合也未證明最優(yōu).另外,該方法憑借情感詞典簡單計(jì)算不同用戶之間的情感特征,分析不夠全面.

Akoglu等[31]提出Fraudeagle模型,利用產(chǎn)品、用戶、評論之間的關(guān)系識別虛假評論者.該模型在LBP(Loopy Belief Propagation)算法的基礎(chǔ)上改進(jìn).LBP 是基于信息循環(huán)傳遞的算法.用戶和產(chǎn)品映射為圖節(jié)點(diǎn),評論映射為邊連接節(jié)點(diǎn).對于未標(biāo)記的用戶,檢測過程主要分為計(jì)算分?jǐn)?shù)和分組兩部分.該方法利用最大可能性概率來計(jì)算分?jǐn)?shù)、標(biāo)注節(jié)點(diǎn).節(jié)點(diǎn)的標(biāo)記依賴于評論的積極或者消極情感極性.方法的擴(kuò)展性好,運(yùn)行時(shí)間與網(wǎng)絡(luò)的大小成線性關(guān)系.缺點(diǎn)在于,加入新的節(jié)點(diǎn)之后就得重新迭代計(jì)算已有連接節(jié)點(diǎn)的概率分?jǐn)?shù).此外,可以考慮加入時(shí)序特征、評論文本特征來初始化節(jié)點(diǎn)概率分?jǐn)?shù),提高模型識別的準(zhǔn)確性.

Saeedreza等[32]提出NetSpam模型,利用異構(gòu)型信息網(wǎng)絡(luò) (HIN,Heterogeneous Information Networks)對Yelp和Amazon的評論數(shù)據(jù)集進(jìn)行分類.研究者將特征分為四類:評論-行為特征、評論-語言特征、用戶-行為特征、用戶-語言特征.該模型利用元路徑量化特征重要性,構(gòu)建模型時(shí)為特征分配不同的權(quán)重.通過實(shí)驗(yàn)發(fā)現(xiàn),四種類型中評論-行為特征表現(xiàn)最好.選取重要的特征建模既能保證模型性能,又降低了算法的時(shí)間復(fù)雜度.除了基于評論者與評論的特征,研究者指出基于產(chǎn)品的特征的重要性也值得分析,但是該方法并未涉及.

1.3.3 表示學(xué)習(xí)方法

以上兩類研究方法致力于設(shè)計(jì)有效的特征來區(qū)分虛假評論與真實(shí)評論,特征設(shè)計(jì)依賴于專家的先驗(yàn)知識.如果算法可以自動學(xué)習(xí)表示評論,就可以減少人為設(shè)計(jì)特征的時(shí)間,降低引入的噪聲.

Wang等[33]利用張量分解算法在低維向量空間表示學(xué)習(xí)評論者和產(chǎn)品的關(guān)系,利用bigram表示評論文本,然后將這三部分連接成一個評論整體,作為SVM模型的輸入.全局特征的矢量化有效地提高了檢測性能.在Yelp的Hotel和Restaurant的數(shù)據(jù)集[13]上選取相同數(shù)目的虛假評論與真實(shí)評論進(jìn)行實(shí)驗(yàn),F1值分別達(dá)到了87.0%、89.2%,Accuracy分別為 86.5%、89.9%.但是,該方法用bigram特征表示評論文本仍不夠有效.

Wang等[34]又進(jìn)一步研究了虛假評論是語言異常還是行為異常的問題.針對虛假評論的現(xiàn)狀,即有些評論者富有經(jīng)驗(yàn),在發(fā)表評論時(shí)善于偽裝,此時(shí)主要利用虛假評論者異常的行為區(qū)分虛假評論;另一些評論者則相反,評論中往往包含更多的語氣詞、情感詞,體現(xiàn)出較強(qiáng)的情感強(qiáng)度,所以只要利用語言特征就容易區(qū)分出虛假評論.研究方法利用MLP多層感知機(jī)學(xué)習(xí)行為特征向量,利用CNN卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)語言特征向量,并引入Attention機(jī)制動態(tài)學(xué)習(xí)行為特征和語言特征的權(quán)重.最終相比于Mukherjee等[13]使用現(xiàn)成的SVM 分類模型,F1 值提高了 1.5%,Accuracy提高了1.2%.這說明了現(xiàn)有模型對虛假評論檢測效果仍然有限.另外,相比于研究者此前工作[33],F1 值、Accuracy分別提高了1.9%和2.3%.Attention機(jī)制有效地區(qū)分了虛假評論屬于語言異?；蚴切袨楫惓?至今為止,該方法在Yelp評論數(shù)據(jù)集上檢測的F1值和Accuracy值最優(yōu).然而遺憾的是,研究者未在其它實(shí)驗(yàn)數(shù)據(jù)上驗(yàn)證所提算法的健壯性.

張李義等[35]結(jié)合深度置信網(wǎng)絡(luò)DBN和模糊集識別淘寶的虛假交易.該方法利用用戶的歷史評論和交易記錄提取表示用戶行為的12個特征.首先,無監(jiān)督地訓(xùn)練每一層受限玻爾茲曼機(jī)網(wǎng)絡(luò).然后,根據(jù)輸入特征向量和頂層降維后傳遞的重構(gòu)特征向量之間的誤差對整個DBN網(wǎng)絡(luò)進(jìn)行有監(jiān)督反饋微調(diào).接著,采用模糊集描述用戶“是刷客”或者“不是刷客”的隸屬度.最后,將識別出的“刷客”的交易認(rèn)定為虛假交易.實(shí)驗(yàn)結(jié)果中準(zhǔn)確率、精確率、召回率、F1值分別達(dá)到89%,84.21%,96%和89.72%.DBN作為深層網(wǎng)絡(luò)學(xué)習(xí)結(jié)構(gòu),能夠?qū)W習(xí)抽象特征,弱化淺層結(jié)構(gòu)的錯誤特征,從而緩解過擬合現(xiàn)象,提高模型分類效果.局限性在于,該方法分別選取了100名“刷客”和正常用戶進(jìn)行算法驗(yàn)證,相比于電商平臺海量的用戶,數(shù)據(jù)量過少.

Dong等[36]提出端到端(end-to-end)混合神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林的模型來識別虛假評論.隨機(jī)森林作為集成學(xué)習(xí)算法,在訓(xùn)練時(shí)能防止每一決策樹過擬合.該方法利用Autoencoder算法自動表示評論特征,作為隨機(jī)森林的輸入.該方法巧妙地結(jié)合了深度學(xué)習(xí)和傳統(tǒng)分類模型,為虛假評論檢測提供了新思路.在Amazon數(shù)據(jù)集[37]上實(shí)驗(yàn),Accuracy達(dá)到 96%.但是,該方法需要設(shè)置合適的參數(shù)平衡時(shí)間消耗和預(yù)測性能的關(guān)系.這需要反復(fù)實(shí)驗(yàn)調(diào)整.此外,Autoencoder算法也被用于微博垃圾評論檢測[38].

1.3.4 小結(jié)

基于語言學(xué)特征和行為特征的方法使用的模型一般較為簡單,檢測的效果相對較好,但是特征設(shè)計(jì)過程耗時(shí)且具有挑戰(zhàn)性.不同數(shù)據(jù)集的數(shù)據(jù)稀疏程度、涉及的領(lǐng)域、語言的表述、評論者的關(guān)注面不同.所以,針對不同的數(shù)據(jù)集,需選取不同的特征進(jìn)行實(shí)驗(yàn).另外,特征設(shè)計(jì)一般依靠專家的經(jīng)驗(yàn),而專家們的經(jīng)驗(yàn)也不完全可靠.

基于圖結(jié)構(gòu)的方法利用了評論、評論者、產(chǎn)品和商店之間的網(wǎng)絡(luò)關(guān)系,使用傳播算法、迭代算法等計(jì)算節(jié)點(diǎn)的分?jǐn)?shù).這類方法適用于標(biāo)注數(shù)據(jù)稀少或者無標(biāo)注數(shù)據(jù)的情況.在虛假評論檢測問題上,優(yōu)點(diǎn)是可以不依賴于人工標(biāo)注數(shù)據(jù),擴(kuò)展性好.缺點(diǎn)是計(jì)算信譽(yù)度時(shí)利用的規(guī)則往往比較單一,新加入的節(jié)點(diǎn)影響已有節(jié)點(diǎn)的分?jǐn)?shù),所以需要重新迭代計(jì)算已有節(jié)點(diǎn)的分?jǐn)?shù).該類方法適用的網(wǎng)絡(luò)規(guī)模不宜過大,而且檢測效果還有待提升.

以上兩類方法用到的特征通過統(tǒng)計(jì)得到,而表示學(xué)習(xí)方法能自動學(xué)習(xí)表示評論,既能提高實(shí)驗(yàn)效率又能提升檢測效果.虛假評論者為了躲避網(wǎng)站算法檢測,可能會增加評論的細(xì)節(jié)信息,或者利用賬號積攢信用后發(fā)布虛假評論.可見虛假評論的語言特征與行為特征是動態(tài)變化的,不可預(yù)知的.表示學(xué)習(xí)方法不需要依賴經(jīng)驗(yàn)設(shè)計(jì)特征,因此魯棒性好.這類方法作為最新的研究趨勢,檢測效果優(yōu)于傳統(tǒng)的方法,然而這方面的研究較少而且不夠深入.

三類方法的比較具體見表2.

表2 三類方法的特點(diǎn)比較

2 數(shù)據(jù)集

研究者們不但致力于選擇有效的特征表示評論/評論者,尋找合適的模型提高檢測效果,而且探索研究多領(lǐng)域數(shù)據(jù).但是,虛假評論檢測研究主要問題是:缺少標(biāo)準(zhǔn)標(biāo)注數(shù)據(jù)集來評估算法性能.目前,研究者們主要利用眾包平臺構(gòu)造的評論數(shù)據(jù)或者真實(shí)世界點(diǎn)評網(wǎng)站的評論數(shù)據(jù).

2.1 眾包平臺構(gòu)造的數(shù)據(jù)集

眾包平臺通過向員工分配需求任務(wù),依靠人類的智慧來完成計(jì)算機(jī)還不能完成的任務(wù).例如,從許多照片中挑出最棒的商店前臺的照片,編寫產(chǎn)品描述性評論,或者區(qū)分出音樂CD封面上的歌手等[39].

Ott等[7]利用亞馬遜眾包平臺獲取黃金標(biāo)準(zhǔn)數(shù)據(jù)集,這是唯一公開可用的數(shù)據(jù)集.研究者通過向線上人員支付1$酬金令他們對20個受歡迎的芝加哥酒店構(gòu)建想象型的積極評論,共收集了400條虛假評論.此外,研究者在TripAdvisor.com上收集了這20家酒店的400 條積極評論作為真實(shí)評論.之后,Li等[10]為了研究分類器在不同領(lǐng)域的遷移性能,擴(kuò)充了這800條評論數(shù)據(jù)集,構(gòu)造了跨酒店、餐廳、醫(yī)院3個領(lǐng)域的黃金標(biāo)準(zhǔn)數(shù)據(jù)集.該黃金標(biāo)準(zhǔn)數(shù)據(jù)集包含了3種類型的評論:領(lǐng)域?qū)＜业奶摷僭u論,眾包平臺的虛假評論以及消費(fèi)者的真實(shí)評論.實(shí)驗(yàn)結(jié)果表明,酒店評論數(shù)據(jù)集訓(xùn)練成的分類模型在餐廳和醫(yī)院評論數(shù)據(jù)上分類效果不佳.

眾包平臺的員工并未刻意模仿真實(shí)評論的表述,構(gòu)造出的虛假評論和現(xiàn)實(shí)世界中的評論存在著較大差異.

2.2 點(diǎn)評網(wǎng)站的數(shù)據(jù)集

點(diǎn)評網(wǎng)站一般有自己的虛假評論過濾算法,這些過濾算法是商業(yè)機(jī)密,不向外部開放.表3概括了來源于點(diǎn)評網(wǎng)站的研究常用數(shù)據(jù)集.其中,Yelp評論數(shù)據(jù)集[13]作為近似標(biāo)準(zhǔn)標(biāo)注數(shù)據(jù)集被廣泛用于虛假評論檢測的學(xué)術(shù)研究中.而Amazon評論數(shù)據(jù)集[37]由于數(shù)據(jù)量大極具研究價(jià)值,主要應(yīng)用于情感分析、觀點(diǎn)挖掘、產(chǎn)品推薦、虛假評論檢測等各個領(lǐng)域.

表3 點(diǎn)評網(wǎng)站評論數(shù)據(jù)集

3 總結(jié)展望

近年來,線上消費(fèi)者在做出決策前都會參考商業(yè)網(wǎng)站的產(chǎn)品評論.真實(shí)可靠的評論既能改善消費(fèi)者體驗(yàn),也能促進(jìn)商家良性競爭.本文主要概括了研究常用的四類特征,總結(jié)了國內(nèi)外研究者提出的虛假評論檢測方法,并從特征工程的角度對比了基于語言特征和行為特征的方法、基于圖結(jié)構(gòu)的方法、基于表示學(xué)習(xí)方法的優(yōu)缺點(diǎn),最后列舉了研究中使用的數(shù)據(jù)集.從現(xiàn)階段的檢測技術(shù)來看,虛假評論檢測仍有很大的探索空間,具體歸納為以下4點(diǎn):

(1)針對來自不同領(lǐng)域的數(shù)據(jù)集,研究者們需要選取不同的特征來構(gòu)建分類器,重復(fù)特征選擇這一工作.這說明未來需要探索跨領(lǐng)域?qū)嶒?yàn)來優(yōu)化特征選擇的過程,減少重復(fù)性的人工操作.此外,最優(yōu)的特征選擇也是未來的探索方向.

(2)真實(shí)世界中虛假評論數(shù)據(jù)與真實(shí)評論數(shù)據(jù)不平衡,不平衡的數(shù)據(jù)訓(xùn)練出的模型效果較差.以往的研究通常利用采樣達(dá)到數(shù)據(jù)平衡.然而,訓(xùn)練的模型在測試自然分布的數(shù)據(jù)集時(shí)檢測效果下降.未來可以探索更多適用于真實(shí)世界中不平衡數(shù)據(jù)的技術(shù).

(3)公開的真實(shí)評論網(wǎng)站的數(shù)據(jù)集較少,以往的研究大多使用了人工構(gòu)造的數(shù)據(jù)集.但研究證實(shí),經(jīng)人工構(gòu)造的數(shù)據(jù)集訓(xùn)練出的分類器在對真實(shí)世界的評論數(shù)據(jù)進(jìn)行分類時(shí)效果不理想[13].所以,可以進(jìn)一步探索如何利用真實(shí)世界大量未標(biāo)注數(shù)據(jù)來獲取合理的虛假評論數(shù)據(jù)集.

(4)虛假評論的冷啟動問題.Wang 等[26]針對這個未被前人探索過的問題,提出了一個基于圖結(jié)構(gòu)與CNN卷積神經(jīng)網(wǎng)絡(luò)的模型.評論的真實(shí)性越早判別,造成的不利影響越小.新用戶只發(fā)布一條虛假評論時(shí),如何利用先驗(yàn)知識準(zhǔn)確地判別評論的真實(shí)性具有重大意義.未來可以探索更多有效的檢測模型.