房有麗,王 紅,3
1(山東師范大學 信息科學與工程學院,濟南250358 )2(山東省分布式計算軟件新技術重點實驗室,濟南250014)3(山東師范大學 生命科學研究院,濟南250014)
網上購物迎合了當今快速的生活節(jié)奏,給人們生活帶來便捷.但是,虛假評論的存在,為營造公平公正的網絡購物環(huán)境帶來了巨大挑戰(zhàn).網上購物使得用戶無法親身感受到商品質地和性能,所以,在線評論成為顧客了解商店與商品的重要渠道,他們通常先參考商品的評論與評分,再決定是否購買.好的評論可以提升產品的信譽,引導更多的顧客購買;相反,差的評論會影響信譽,降低銷售量.因此,由于利益的驅動,商家開始雇傭水軍冒充普通顧客偽造評論.一方面對自己的商品進行好評,另一方面對于競爭者惡意詆毀.因此,如何有效發(fā)現(xiàn)這些虛假評論成為亟待解決的問題.
先前的工作大多分別利用評分或評論來檢測虛假評論,如1-2分代表差評,3分代表中評,4-5分代表好評,這些方法存在不足:第一,分別利用評分或評論檢測虛假評論,而沒有考慮二者的一致性問題,只利用評分或評論不能準確檢測出虛假評論,因為評論與評分有時會不一致,評分不能完全代表評論者的真實情感.其中本文提到的一致性是指評論文本的情感極性與其評分都是一致積極或者消極,呈現(xiàn)正相關,如表1所示,A、B表示不一致,C表示一致;第二,忽略了虛假評論在不同的時間的不同表現(xiàn).一般來說,在一段時間內評論數量激增及評分突然上升或下降,就可能存在不真實的評論.針對上述問題,本文提出了基于評分-評價一致性和多維時間序列的虛假評論識別方法.
表1 評論-評分一致性對比表Table 1 Comment-rating Consistency comparison
本文的主要貢獻包括:
1)提出了判斷評論與其評分差異性的方案,綜合利用評分和評論檢測虛假評論.給出分析感情極性并判斷與其評分的一致性算法.
2)研究虛假評論在時間維的表現(xiàn),提出了針對評論與評分的多模態(tài)時間統(tǒng)計檢測方法,檢測一段時間內評論與評分突變的相關性,而不是傳統(tǒng)的靜態(tài)評論集合檢測方法.
近年來,研究者們在垃圾網頁[1]與垃圾郵件[2]的識別研究上做了大量工作,獲得了較好效果.近來,虛假評論的檢測成為一個研究熱點.Jindal等[3]發(fā)現(xiàn)了虛假評論廣泛的存在于商品中,但是這些評論本質上與垃圾網頁和垃圾郵件不同,他們利用商品的評論數據、融合評論文本內容和商品的特征因素進行建模來區(qū)分復制觀點和非復制觀點,檢測出是復制觀點時則判為虛假評論.
Xie等[4]發(fā)現(xiàn)了單一評論是虛假評論的重要組成部分.正常的評論比較穩(wěn)定、相關低.相比之下,虛假的評論相關性高且突發(fā)性,表達情感極性強.因此提出時間模式,構建基于多維聚合的時間序列統(tǒng)計以此挖掘虛假評論的相關性.
OTT等[5]利用眾包平臺實現(xiàn)了第一個虛假評論的“黃金”數據集,其中包含真實評論跟虛假評論.在基于計算機語言學的基礎上,把虛假評論的檢測問題轉化為文本分類問題.Li等[6]通過網絡獲取大量產品的評論,然后手動標注語料庫,利用協(xié)同算法來檢測虛假評論.
任亞峰等[7]提出基于語言結構和情感極性的虛假評論識別方法,并利用自然語言處理技術分析正面和負面情感極性對評論的影響.然后利用遺傳算法,通過復制、交叉和變異實現(xiàn)種群的進化,從而提高準確率.Li等[8]利用語義和情感檢測,并給出了構建每個特征的模型和算法,實驗表明,提出的模型,算法和特征在檢測任務中比基于內容,評論者信息和行為的傳統(tǒng)方法有效.
Peng等[9]為了解決情感對商品的影響度,提出了基于自然語言處理技術對于情感的評分,并通過觀察建立規(guī)則來判別虛假評論,實驗表明,他們所提出的方法在分析情感的精確度上取得了良好的效果.
Chang等[10]利用重要的屬性詞,具體的量詞和名詞動詞比例來構建虛假模型,結果說明更加獨特的詞匯和具體的量詞和名詞包含在內,假冒的可能性就越小.Li[11]等通過集體無標記的學習來識別虛假的評論.
通過總結前人的工作發(fā)現(xiàn),研究者分別從評分和評論兩個方面進行研究.一方面從商品評分著手,通過聚類算法進行分組,識別出虛假的評論;另一方面是基于自然語言分析文本.本文提出融合情感分析、評分與評論一致性、以及時間序列的動態(tài)多維模型來檢測虛假評論.
本文的目標是利用情感技術及多維時間序列更加準確的檢測虛假評論,為了實現(xiàn)這個目標,有3個問題需要解決.第一,如何判斷評論文本的情感極性與其評分的一致性,第二,如何利用時間序列模型檢測在一段時間內評論數量與評分突變的相關性,進行虛假評論識別;第三,如何通過機器學習模型發(fā)現(xiàn)虛假評論的影響因素,并揭示這些因素與識別虛假評論的關系.
評論文本的情感傾向分析是通過挖掘和分析評論文本中的立場、觀點情緒等主觀信息,分析得出評論者的正面或者負面情感傾向.Dewang等[12]提出了一套新的詞匯和句法特征集,并應用監(jiān)督算法對假評論數據集(黃金標準)進行分類.邸鵬等[13]提出對轉折句式文本分析算法,主要針對長文本的情感分析,所以考慮上下文的轉折關系是有效的.但是他們直接對短文本分析效果并不佳,因為無法考慮上下文信息.本文提出了不同的計算方法:分別利用情感強度、特征權重對虛假評論的影響,提出了感情極性與其評分的一致性算法,如算法1所示.為了方便計算,符號表示如表2所示.
表2 符號定義表Table 2 Symbol definition
定義f(d)代表語義情感分數和評分之間的差異度,如公式(1)所示,若m(d)與o(d)的乘積大于0,則表明它們之間沒有太大的差異;若是二者乘積小于0,則說明它們的差異過大是虛假評論.
(1)
1)情感強度.情感強度是指情感詞通過距離對特征的影響度.當特征與情感詞距離較近時,情感強度加強,反之亦然.定義s(f)代表所有特征詞匯情感度,用dis(wi,f)表示兩者的距離,計算情感詞對特征的影響度如公式(2)所示.
(2)
在公式(2)中,o(wj)表示情感極性的詞匯,當是積極性詞匯時,情感極性用+1表示;當是消極性詞匯時,情感極性用-1表示.cN表示每個特征否定詞的數量,如果沒有否定詞,cN等于0;若有奇數個否定字,極性情緒為-1,否則為+1.
2)特征影響度.特征影響度是指利用不同特征判斷虛假評論的準確度.在評論里有很多特征對判斷虛假評論都有影響,但影響程度不同.權重較大的特征判斷虛假評論精確度會更高;相反,權重較小的特征甚至影響虛假評論的判別.定義o(d)代表每條評論的情感分數,如公式(3)所示.
(3)
Algorithm1.Review Analysis
1.INPUT:Review Text:
2.OUTPUT:Review Orientation
3.rt←{Review Text};
4.While(rt.read())
5. For all j∈rt.Length DO
6. IF(rt.wordi∈NegDictionary) THEN
7. IF(num/2!=1)THEN
8.o(wj)←o(wj)
9. ELSEo(wj)←-o(wj)
10.END FOR;
∥emotional intensity calculation
∥emotional score calculation
∥evaluation and score consistency judgment
13. FORfielement ind
14. IFm(d)*o(d)>0
15.f(d)=1∥the two are consistent
16. ELSE 0∥the two are inconsistent
17. END FOR
18.END WHILE;
19.RETURNf(d)
商家雇傭水軍冒充普通顧客偽造評論,會造成一段時間內評論數量激增及評分突然上升或下降.最早提出利用時間序列檢測虛假評論的是文獻[14],但是存在著不足,他們僅基于評分建立評價指標,不夠準確,因此,本文提出利用多維時間序列關于評論及評分異常模式檢測方法.
3.2.1 時間序列結構
檢測方法是基于時間序列,包括評論數量、平均評分.每個商店都有一系列按照發(fā)布時間升序排序的評論數量及評分.其中,R(s)={r1,…,rns} 和TS(s)={ts1,…,tsns}分別表示評論與其對應的時間,ns是商店的評論數量,tsi是評論ri的評論時間,tsi≤tsj當1≤i (4) f1(In)=|{rj:tsj∈In}| (5) (6) 檢測虛假評論的思想如下:給定兩個時間序列的商店,我們在兩個序列中找出評分及評論數量相關的異常段.具體步驟如下所示. 第1步.首先,在每個維度上,我們采用貝葉斯變化點檢測算法[15],使用時間序列擬合曲線. 第2步.將簡單的模板匹配算法應用于擬合曲線以檢測突發(fā)模式.令C={c1,c2}表示時間序列二維的擬合曲線,并使用類似函數的模板來表示值的突然v={v1,…,v5},如果擬合曲線上的段c={c1,c2,…,cn}∈C與模板函數匹配,從而發(fā)現(xiàn)曲線上的異常段. 第3步.滑動窗口在時間序列的所有維度中找出對應于聯(lián)合突發(fā)的時間序列段.可以通過c滑動窗口來獲得所有段,落入窗口中的所有段定義為b={ci1,…,cin},并求在兩個序列v、b之間進行匹配.其中兩個序列之間的匹配是根據一個序列中的點與另一個序列匹配,通過兩個點之間的“匹配”,兩個點的絕對值之的差小閾值ε,L(i,j)記錄子序列之間的匹配數量匹配公式如(7) (7) 3.2.2 異常檢測算法 前文進行了多維時間序列相關異常模式檢測構建,如算法2所示. Algorithm2.Correlated Abnormal Patterns Detection in Multidimensional Time Series 1.Input:Multidimensional-curvesC, 2.window sizeΔt,time spanI. 3.Output:Periods when correlatea nomalies appear, 4.Detected time of spam activities 5.Initialize time setS0={I},scaleη=0 6.n=length ofC,w=time frame length 7.S=φ//set of periods tor return 8.forb=1→n-w+1 do 9.S=S∪{[b,b+w-1]} if 10. |{x∈Li:i=1,2,x∈[b,b+w-1]}==2| 11.End for 12.WhileΔtnot small enough do η=η+1,St=φ. 13. ForI∈Sη-1 do Fit a curveF(I,Δt) 14.Sη=Sη∪C 15. End for 16.End while 17.ReturnSη 特征選擇是從原有的特征集中選出貢獻率較大的特征子集.任亞峰等人使用遺傳算法對特征進行選擇,但是該算法存在缺點:有許多參數,如交叉率和變異率,并且這些參數的選擇嚴重影響解的品質,而目前這些參數的選擇大部分是依靠經驗,因此本文提出借助于信息增益進行選擇,最后利用似然比檢驗使用的邏輯回歸模型是否有效. 3.3.1 變量選取標準-信息增益 信息增益(IG,Information Gain)是非常有效的特征選擇方法.在信息增益中,重要性的衡量標準就是看特征可以為分類系統(tǒng)帶來多少信息,帶來的信息越多,該特征越重要.其計算虛假評論如公式(8)、公式(9)所示. (8) G(t)=entropy(D)-entropy(c|t) (9) 3.3.2 評論文本特征選擇 影響虛假評論的特征有很多,本文提出最可能影響的11個特征如下所示,并用信息增益計算影響度較大的特征. F1:文本復制.評論者為了盡快完成評論,經常復制一些雷同的文本以不同身份評論,從而達到虛假攻擊. F2:情感度.情感度是指評論者對評論的情感極性度.虛假評論者比較片面,而正常用戶相對客觀. F3:文本長度.虛假評論者相比正常評論者相對較長. F4:用戶信譽.用戶發(fā)表的評論被其他用戶采納的數量越多,則信譽越高越真實. F5:追評時間.正??蛻粢话阍偈褂靡欢螘r間后進行追評,而虛假評論者幾乎跟初評同時完成. F6:專業(yè)術語.正常用戶在進行評論時比較白化,而虛假評論者使用詞匯較專業(yè). F7:否定詞.正常用戶在評論部分性能或許使用否定詞,而虛假評論者幾乎不用. F8:一致性.文本評論的情感極性與給出評分的相似度,相似性越低越可能是虛假評論,是檢測虛假評論重要特征. F9:相關度.相關度是指評論內容與商品屬性的關聯(lián)程度,有些虛假評論者為了快速評論便復制一些與商品不相關的內容. F10:圖片.普通用戶一般很少上傳照片,但是虛假評論者通常上傳照片提高商品信譽. F11:轉折詞.虛假評論者的情感極性高度一致,很少使用轉折詞.但普通用戶或許會對部分性能表示不滿. 其中sw(re)表示評論中情感詞集合,tw(re)表示評論中所有詞語集合,l(r),f(r)分別為始末評論時間.特征F2,F(xiàn)5,F(xiàn)6計算如公式(10)-公式(12)所示. (10) (11) (12) 虛假評論的影響因素有很多,但是哪些因素對檢測虛假評論更加明顯,這其實就是回歸問題.自變量X是影響因素,由于自變量是離散的,無法直接用線性回歸方法解決,因此最佳的解決方法是Logistic回歸模型.Logistic分析原理就是利用一組數據擬合一個Logistic回歸模型,然后借助于這個模型揭示總體中若干自變量與一個因變量取某個值的概率之間的關系.概率P與自變量的關系如公式(13)、公式(14)所示. Y′=θ0+θ1X1+θ2X2+…+θmXm (13) (14) 在上述公式中自變量為X1…Xn,θ0常數項,θ1…θn等為偏回歸系數,P表示在n個自變量共同作用下發(fā)生的概率.因變量Y是二分類的值,所以取值為 現(xiàn)在把研究Y與X關系轉換成分析當Y取某個值時的概率P與X的關系.當Y是0時為虛假評論,X為虛假評論的影響因素.這樣研究虛假評論的攻擊率P與X的關系就簡單了很多. 本文的數據集主要來自Xie等[16]12402條評論,其中包含6492條真實評論,5910條虛假評論.其中在一段時間內突然激增,如表3所示. 表3 數據分析表Table 3 Data analysis table 為了選取對邏輯回歸模型影響較顯著的自變量,我們利用前文給出的公式(8)(9)計算每個自變量的信息增益,其結果如表4所示. 表4 候選特征及其信息增益值表Table 4 Candidate features and information gains 為了檢驗模型中所有自變量整體是否與所有研究事件的信息增益存在線性關系,本文用似然比檢驗.其原理是通過分析模型中變量變化對似然比的影響,依次判斷增加或者刪除某個變量是否對因變量有顯著影響,如公式(15)所示. G=-2(ln(Lp)-ln(Lk)) (15) 在公式(15)中:ln(Lp)表示不包含檢驗變量時模型的對數似然值,ln(Lk)表示包含.當樣本量較大時,G近似服從自由度為待檢驗因素個數的χ2分布.當G大于臨界值時,接受H1,拒絕無效假設,表示該影響因素對Logistic模型有意義.本文計算7個特征的似然比,在p值等于0.05條件下,計算結果如表5所示. 表5 似然比測試表Table 5 Likelihood ratio text 本文首先借助于情感分析利用情感強度、特征權重對虛假文本評論的影響計算出每條評論的近似分數,然后再與評論者給出與其相對應的評分進行比較,結果如圖1所示,實驗結果發(fā)現(xiàn)在所有給出的評論中前30天是趨向于正相關的,評分與評價基本一致,在(2010.5.15-2010.7.15)逐漸趨向于負相關,兩者不再一致,說明該時間段內出現(xiàn)大量虛假評論,原因是商店為了提高效率,大量水軍復制與內容不符的評論文本,導致與實際評分出現(xiàn)誤差,但整體評分趨向于上升趨勢,因為商家雇傭的好評水軍數量大于惡意的詆毀者.通過實驗說明評分與評價一致性表現(xiàn)出了不錯的性能. 圖1 評論-評分一致性對比圖Fig.1 Comment-rating consistency comparison圖2 評論和評分的時間序圖Fig.2 Reviews and scoring time 同時,我們預先故意選取數據了(2010.5.15-2010.7.15)確定包含大量水軍的評論,基于多維時間序列從審查數據中檢測到更多的突發(fā)細節(jié)的時間段.我們設置窗口大小為15天,發(fā)現(xiàn)評分與評論數量在(20→30)急劇增加的可疑活動,如圖2所示,這與事先選取的實際評論情況相吻合,此結果揭示多維時間序列論識別方法是檢測虛假評論的重要性能. 本文利用情感極性、多維時間序列,并通過邏輯回歸模型檢測虛假評論,并采用十折交叉驗證,通過與邵珠峰[17]提出的基于情感特征和用戶關系的方法(圖3中Structed標記)與Feng[18]提出的基于句法結構的檢測算法(圖3中CFG標記)對比驗證本文方法的有效性.本文采用最為通用3個評判指標來判斷虛假檢測的優(yōu)劣:準確率、召回率、F1值.從圖3中可以看出融合評分-評價一致性和多維時間序列的虛假評論識別方法取得了較好的結果. 圖3 準確率比較圖Fig.3 Comparison of accuracy 邵珠峰等人分析虛假評論者和真實評論者在情感極性上存在著差異,通過評論者的情感差異構建特征模型,并結合用戶之間的關系構造多邊圖模型,最后計算出用戶評分來識別虛假評論.該方法準確率有所提高,主要因為考慮情感極性差異,融合了評論文本較為重要的8個特征和其權重.但也存在著缺點,通過人工標記數據存在著一定偏差,只考慮初末時間.F1指數對比與召回率對比如圖4、圖5所示. 圖4 F1指數比較圖Fig.4 F1_Measure comparison Feng等人提出的于句法結構的檢測算法分析了淺層次句法模式的缺點,主要研究深層次的句法模式.他們在先前研究者的工作基礎上加入特殊句法模式構建語義樹并提取語義特征,此方法的準確率達到91.2%.該方法優(yōu)越于邵珠峰的主要原因是,對于不同規(guī)則的書寫模式可以利用語義樹挖掘深層的句法關系,構建專門的語義樹,但邵珠峰提出的方法受到限制. 本文相比較邵珠峰和Feng的準確率有所提高,但F1值比Feng的稍差一點.本文,首先,借助自然語言處理通過情感技術分析評論的情感極性并判斷與其評分的一致性;其次,建立時間序列進行評論識別;最后,通過抽取7個特征并使用邏輯回歸進行虛假檢測.但我們發(fā)現(xiàn)準去率提高的同時F1值有所下降,可能原因在于在加入特征后一些評論不存在否定詞. 隨著電子商務的蓬勃發(fā)展,研究者們對虛假評論檢測作出了不懈的努力.基于情感極性和多維時間序列,首先根據在線商品評論的特點,提出通過分析評論的情感極性,判斷與其評分的一致性算法;其次,考慮時間對評分及評論數量的影響,構建基于多維時間序列的虛假評論識別方法;最后,通過抽取不同特征,建立邏輯回歸模型,進行不真實的或虛假的評論檢測,通過對比試驗證實了本文算法取得了較好的效果.但該方法還需有待改進,第一,冷啟動問題,沒有動態(tài)的考慮評論情況,在沒有評論或者僅僅少數評論的前提下該怎樣獲取評論信息;第二,評論文本中還隱藏其他重要特征可以提高精度.未來工作主要集中在這兩方面.3.3 虛假評論特征選擇
3.4 邏輯回歸模型
4 實驗分析
4.1 數據集
4.2 自變量計算-信息增益
4.3 方法與模型檢測
4.4 實驗分析
5 結束語