邵珠峰 姬東鴻
(武漢大學(xué)計(jì)算機(jī)學(xué)院 湖北 武漢 430072)
?
基于情感特征和用戶關(guān)系的虛假評(píng)論者的識(shí)別
邵珠峰姬東鴻
(武漢大學(xué)計(jì)算機(jī)學(xué)院湖北 武漢 430072)
摘要隨著電子商務(wù)的迅速發(fā)展,人們?cè)絹?lái)越親睞于網(wǎng)上購(gòu)物。在網(wǎng)上購(gòu)物之前,消費(fèi)者往往會(huì)參考該產(chǎn)品相關(guān)的評(píng)價(jià)以決定是否購(gòu)買。因此虛假評(píng)論者的識(shí)別具有非常重要的意義?;谔摷僭u(píng)論者和真實(shí)評(píng)論者在情感極性上存在的差異,在特征建模過(guò)程中增加了評(píng)論文本的情感特征,并結(jié)合用戶之間對(duì)于特定商品之間的關(guān)系,創(chuàng)建了一個(gè)多邊圖的模型并提出了一種識(shí)別虛假評(píng)論者的方法。實(shí)驗(yàn)結(jié)果驗(yàn)證了該算法的有效性。
關(guān)鍵詞電子商務(wù)虛假評(píng)論者情感特征用戶關(guān)系
0引言
Web 2.0的到來(lái)極大地改變了人與人之間交流的方式,人們可以在各種社交平臺(tái)上發(fā)表自己的觀點(diǎn)。Web 2.0 網(wǎng)絡(luò)應(yīng)用中,電子商務(wù)是發(fā)展最快的領(lǐng)域之一。因此,網(wǎng)上購(gòu)物越來(lái)越受到人們的歡迎。消費(fèi)者在購(gòu)買商品之前,通常會(huì)閱讀與此產(chǎn)品相關(guān)的評(píng)論,根據(jù)評(píng)論的好壞再?zèng)Q定是否購(gòu)買。但是,不是所有的評(píng)論都是真實(shí)的,一些虛假評(píng)論者在利益的誘引下寫(xiě)下虛假評(píng)論以誤導(dǎo)消費(fèi)者。所以,虛假評(píng)論者的識(shí)別對(duì)于電子商務(wù)的發(fā)展有很重要的意義。
在網(wǎng)上購(gòu)物時(shí),評(píng)論信息可以直接影響消費(fèi)者的購(gòu)買決策。因此,在利益的驅(qū)動(dòng)下,一些商家雇人為自己的商品發(fā)布一些不切實(shí)際的正面評(píng)論以提高信譽(yù),或者為了詆毀競(jìng)爭(zhēng)對(duì)手而發(fā)布一些惡意的負(fù)面評(píng)論。這些虛假評(píng)論者嚴(yán)重影響了電商平臺(tái)上的正常競(jìng)爭(zhēng)。通過(guò)總結(jié)之前研究者對(duì)虛假評(píng)論者的認(rèn)識(shí),本文將虛假評(píng)論者分為以下2類:
1) 類型1(欺騙性評(píng)論發(fā)布者):蓄意發(fā)布一些正面評(píng)論以提高商家名聲,或者故意寫(xiě)下惡意評(píng)論破壞商家聲譽(yù)。
2) 類型2(破壞性評(píng)論發(fā)布者):發(fā)布一些與商品無(wú)關(guān)的評(píng)論、廣告。
因?yàn)槿藗兛梢院苋菀椎刈R(shí)別破壞性評(píng)論,所以破壞性發(fā)布者的危害不大。但是欺騙性評(píng)論發(fā)布者可以刻意地掩飾自己所發(fā)表的虛假評(píng)論,使其與正常評(píng)論看似沒(méi)有差別,即使是人工識(shí)別方法也難以檢測(cè)。而且,到目前為止,欺騙性評(píng)論者的檢測(cè)方法不是很多,且效果不好。本文主要面向于這種識(shí)別難度更大的欺騙性虛假評(píng)論者的研究,創(chuàng)新性地采用了評(píng)論者之間情感方面的差異來(lái)構(gòu)建特征模型,并結(jié)合用戶之間的關(guān)系構(gòu)造出一種多邊圖的模型,最后計(jì)算出用戶不可靠分?jǐn)?shù)來(lái)識(shí)別虛假評(píng)論者。
1相關(guān)研究
最近幾年,虛假評(píng)論者的識(shí)別已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域最為活躍的研究之一。相關(guān)研究者提出了許多新穎的方法,但是仍然有許多問(wèn)題存在。由于在很多情況下,正常用戶也無(wú)法識(shí)別一個(gè)評(píng)論是否為虛假評(píng)論,從而造成標(biāo)注數(shù)據(jù)不足以及難以評(píng)估檢測(cè)效果,這也是虛假評(píng)論者識(shí)別研究中所面臨的最大問(wèn)題之一。
自從Jindal等人提出虛假評(píng)論的廣泛存在[1],研究者已經(jīng)提出了許多識(shí)別技術(shù)。其中一個(gè)主要的是有監(jiān)督的學(xué)習(xí)方法。Jindal、Liu通過(guò)提取評(píng)論文本、評(píng)論者和商品的特征進(jìn)行建模來(lái)區(qū)分重復(fù)評(píng)論和非重復(fù)評(píng)論[1,2]。Li等人[4]利用評(píng)論和評(píng)論者的特征提出一種雙視圖、聯(lián)合訓(xùn)練的半監(jiān)督學(xué)習(xí)方法,取得了很好的效果。
由于缺乏標(biāo)注數(shù)據(jù),無(wú)監(jiān)督的學(xué)習(xí)方法也被提出識(shí)別虛假評(píng)論者。Jindal等利用一種基于用戶行為的無(wú)監(jiān)督方法識(shí)別那些操縱特定商品評(píng)分等級(jí)的虛假評(píng)論者。Lai等人[5]根據(jù)高階概念關(guān)聯(lián)的挖掘方法提供一種基本術(shù)語(yǔ)關(guān)聯(lián)知識(shí)的無(wú)監(jiān)督識(shí)別方法。Wang等人[6]通過(guò)捕捉評(píng)論者、評(píng)論和商家之間的關(guān)系提出一種基于關(guān)系圖的無(wú)監(jiān)督方法。Mukherjee等人[7]發(fā)現(xiàn)了評(píng)論者之間不同的行為分布,總結(jié)出9類用戶行為特征。Liang等人[8]將用戶之間關(guān)系和用戶特征結(jié)合起來(lái),識(shí)別準(zhǔn)確率取得了很大的提高。
由于虛假評(píng)論者團(tuán)體可以很輕松地提高或破壞特定商品的聲譽(yù),虛假評(píng)論者團(tuán)體的識(shí)別成了近幾年研究的熱點(diǎn)。Liu等人[9]首次提出通過(guò)計(jì)算虛假評(píng)論指標(biāo)值來(lái)檢測(cè)虛假評(píng)論者,然后他們又構(gòu)造了一種團(tuán)體、個(gè)人評(píng)論者以及他們所評(píng)論商品之間的關(guān)系模型[10]。
2用戶情感分析及特征定義
2.1用戶情感分析
傳統(tǒng)的評(píng)論文本分析大多基于客觀的要素,而忽略了其中所蘊(yùn)含的主觀要素,比如用戶的情感信息、心理特征等。近年來(lái),對(duì)評(píng)論文本的情感分析成為信息科學(xué)研究的熱點(diǎn),心理學(xué)關(guān)于情感的研究成果也對(duì)分析網(wǎng)絡(luò)信息具有重要的參考價(jià)值。由于虛假評(píng)論是蓄意發(fā)布以提高或破壞產(chǎn)品名聲,虛假評(píng)論者在寫(xiě)評(píng)論時(shí)的情緒、情感等心理特征和正常評(píng)論者必然存在一定差異。因此,本文創(chuàng)新性的在建模過(guò)程中加入了用戶的情感特征。
2.2特征定義
根據(jù)先前研究者對(duì)特征定義和構(gòu)建的方法[2],并結(jié)合用戶心理語(yǔ)言學(xué)知識(shí)以及情感極性的分析,本文總結(jié)了以下8個(gè)特征。每個(gè)特征的取值范圍為[0,1],特征值越大,該用戶為虛假評(píng)論者的可能性就越大。表1列出了相關(guān)符號(hào)的定義。
表1 符號(hào)定義
續(xù)表1
2.2.1商品屬性詞提及度
商品屬性詞匯量是指評(píng)論中描述商品各項(xiàng)屬性的詞的個(gè)數(shù)。如果評(píng)論中商品屬性詞出現(xiàn)頻率越高,評(píng)論內(nèi)容與商品的相關(guān)度就越大,該用戶為垃圾評(píng)論者的可能性就越小,反之可能性就越大。本文采用評(píng)論中屬性詞所占總詞匯的比重作為商品屬性詞提及度。
(1)
因?yàn)樵O(shè)定的特征值得分越高,越可能為虛假評(píng)論者,因此定義此特征為:
f1=1-RPW(r)
(2)
2.2.2第一人稱代詞詞頻
在評(píng)論中使用第一人稱代詞可以把評(píng)論者置于顯現(xiàn)的位置從而增強(qiáng)評(píng)論的真實(shí)性和親切感。所以本文認(rèn)為虛假評(píng)論者應(yīng)會(huì)更多地使用第一人稱代詞,以加強(qiáng)評(píng)論的可信性。
(3)
2.2.3詞匯的多樣性
詞匯的多樣性是指句子中使用不同詞語(yǔ)的比例。其中形容詞和副詞可以更準(zhǔn)確地表達(dá)評(píng)論者的情感。本文認(rèn)為虛假評(píng)論者使用詞匯的多樣性少于正常評(píng)論者。這里采用形容詞和副詞的占總詞匯的比例代表詞匯的多樣性。
(4)
f3(r)=1-LV(r)
(5)
2.2.4用戶活躍度
虛假評(píng)論者一般不是某一網(wǎng)站的長(zhǎng)期用戶[10],然而真實(shí)的用戶會(huì)經(jīng)常使用自己賬戶購(gòu)買東西并發(fā)表相關(guān)評(píng)論。這里通過(guò)計(jì)算用戶第一次評(píng)論與最后一次評(píng)論之間時(shí)間間隔來(lái)判定評(píng)論者的活躍度,評(píng)論時(shí)間間隔越久,評(píng)論者為虛假評(píng)論者的可疑性就越高。
(6)
其中ζ為時(shí)間間隔閾值,本文根據(jù)下文所構(gòu)建的數(shù)據(jù)集,利用啟發(fā)式的方法設(shè)定閾值,此處ζ設(shè)定為60天。
2.2.5用戶積極性
用戶在網(wǎng)上購(gòu)買商品時(shí)往往依賴于該商品靠前面的評(píng)論來(lái)抉擇是否購(gòu)買。因此,虛假評(píng)論者會(huì)盡量搶占評(píng)論靠前的位置以迷惑消費(fèi)者[4]。本文通過(guò)計(jì)算評(píng)論者對(duì)某商品的評(píng)論時(shí)間與該商品第一條評(píng)論之間的時(shí)間間隔來(lái)判斷評(píng)論者的積極性。
(7)
其中β為時(shí)間閾值,此處設(shè)定β為150天。當(dāng)用戶評(píng)論時(shí)間與該商品第一條評(píng)論時(shí)間間隔小于150天時(shí),我們認(rèn)為此用戶可能為虛假評(píng)論者。間隔時(shí)間越短,該用戶的可疑度就越大。
2.2.6用戶極端評(píng)分
虛假評(píng)論者更容易給出極端的評(píng)分(5分或1分)以最大限度地提高或損害商品的名聲。當(dāng)用戶評(píng)分為5分或1分時(shí),我們?cè)O(shè)定此特征值為1,其他評(píng)分時(shí)則設(shè)置特征值為0。
(8)
2.2.7情感表達(dá)強(qiáng)度
情感是人對(duì)客觀現(xiàn)實(shí)的一種特殊反映形式。因此,用戶對(duì)產(chǎn)品的使用體會(huì)越深刻,在評(píng)論中所表達(dá)的情感的顯性程度越大。而虛假評(píng)論者往往沒(méi)有商品體驗(yàn)經(jīng)歷,情感表達(dá)強(qiáng)度會(huì)偏低。本文通過(guò)建立情感詞典,并計(jì)算情感詞占總詞匯的比例來(lái)代表情感表達(dá)強(qiáng)度。
(9)
2.2.8平均評(píng)分的偏差
虛假評(píng)論者通常是給質(zhì)量不好的商品以好的評(píng)價(jià),而給質(zhì)量好的商品以差的評(píng)價(jià)。因此,虛假評(píng)論者的平均評(píng)分和總的用戶平均評(píng)分有一定偏差。本文認(rèn)為偏差越大,該用戶為虛假評(píng)論者的可能性就越大。
(10)
2.3特征組合
我們將前面總結(jié)的8個(gè)特征組合在一起,并根據(jù)實(shí)驗(yàn)和經(jīng)驗(yàn)對(duì)每個(gè)特征賦予一定的權(quán)重,來(lái)計(jì)算用戶的特征初始得分,這一步對(duì)識(shí)別虛假評(píng)論者很關(guān)鍵。首先分別計(jì)算每個(gè)評(píng)論者的這8個(gè)特征值,然后根據(jù)式(11)得出該用戶得分的初始值。得分越高,該用戶為虛假評(píng)論者的可能性就越大。
(11)
3用戶關(guān)系模型構(gòu)建
3.1用戶關(guān)系分析
虛假評(píng)論者是被商家雇傭以促進(jìn)自己商品銷售或中傷競(jìng)爭(zhēng)對(duì)手的商品。因此,評(píng)論者、評(píng)論和商品之間必然存在著一定的聯(lián)系:
1) 虛假評(píng)論者通常對(duì)于目標(biāo)商品會(huì)給出一樣或者相似的評(píng)分,而與真實(shí)評(píng)論者的評(píng)分卻有一定的偏差。
2) 虛假評(píng)論者通常被信譽(yù)不好的商家所雇傭以促進(jìn)自己商品的銷售,而信譽(yù)好的商家一般不會(huì)。
3) 評(píng)論的真實(shí)性取決于所評(píng)論商品的可靠性以及與該商品其他評(píng)論的一致性。
4) 商品的可靠性取決于信譽(yù)高的評(píng)論者所給出的評(píng)分。
3.2模型構(gòu)建
為了說(shuō)明評(píng)論者、評(píng)論和商品之間存在的聯(lián)系,本文構(gòu)建了一個(gè)異構(gòu)圖的模型,如圖1所示。圖中有三種類型節(jié)點(diǎn):評(píng)論者、評(píng)論和商品。同時(shí),圖中有兩種類型的邊:(i)評(píng)論者節(jié)點(diǎn)與他所發(fā)表的評(píng)論節(jié)點(diǎn)之間的邊。(ii)評(píng)論節(jié)點(diǎn)指向其所評(píng)論商品節(jié)點(diǎn)的邊。
圖1 用戶、評(píng)論、商品之間關(guān)系
由圖1可知,不同評(píng)論者對(duì)于商品有著相同或相反的評(píng)論。例如用戶1給商品1差評(píng),而用戶2給商品1好評(píng),評(píng)分相反;用戶2給商品3好評(píng),用戶3也給商品3好評(píng),評(píng)分相同。為了更好地闡述他們之間的關(guān)系,本文根據(jù)圖1構(gòu)建了用戶之間關(guān)系的多邊圖的模型,如圖2所示。圖中每個(gè)節(jié)點(diǎn)代表一個(gè)評(píng)論者,兩個(gè)節(jié)點(diǎn)之間的邊代表評(píng)論者之間的關(guān)系。在此模型中定義了兩種類型的邊:
? “支持邊”:如果兩個(gè)評(píng)論者對(duì)于商品評(píng)價(jià)相同或相似,兩個(gè)節(jié)點(diǎn)之間添加一條“支持邊”。如評(píng)論者2與評(píng)論者3對(duì)于商品3的評(píng)價(jià)相同,因此他們之間就添加一條關(guān)于商品3的“支持邊”。
? “反對(duì)邊”:如果兩個(gè)評(píng)論者對(duì)于商品評(píng)價(jià)相反或相差很大,兩個(gè)節(jié)點(diǎn)之間添加一條“反對(duì)邊”。如評(píng)論者1與評(píng)論者2關(guān)于商品1的評(píng)價(jià)不同,在他們之間添加一條關(guān)于商品1“反對(duì)邊”。
圖2 用戶之間關(guān)系
4虛假評(píng)論者識(shí)別
4.1數(shù)據(jù)集構(gòu)建
本文采用httpclient模擬瀏覽器從亞馬遜購(gòu)物網(wǎng)站上(http://www.amazon.cn/)獲取了關(guān)于日用商品的一些評(píng)論信息。每個(gè)評(píng)論信息包含以下屬性:用戶編號(hào)、商品編號(hào)、商品評(píng)分、評(píng)論日期以及評(píng)論文本。通過(guò)對(duì)評(píng)論信息的一些預(yù)處理操作,最后獲得5961條評(píng)論、2342位評(píng)論者以及412個(gè)商品作為實(shí)驗(yàn)數(shù)據(jù)集。然后根據(jù)以上據(jù)數(shù)據(jù)集構(gòu)建了評(píng)論者之間的關(guān)系模型,其中有21 675條同意邊以及10 184條反對(duì)邊。
4.2用戶不可靠分?jǐn)?shù)
本文基于TrustRank[11]方法,并結(jié)合上文所構(gòu)造的用戶關(guān)系模型和特征工程計(jì)算評(píng)論者不可靠分?jǐn)?shù)。我們根據(jù)以下準(zhǔn)則計(jì)算用戶的不可靠分?jǐn)?shù):
1) 評(píng)論者的不可靠分?jǐn)?shù)不是根據(jù)所評(píng)論的數(shù)量多少,而是根據(jù)所評(píng)論的真實(shí)性。虛假評(píng)論越多,評(píng)論者不可靠分?jǐn)?shù)越高,該評(píng)論者為虛假評(píng)論者的可疑度就越大。
2) 評(píng)論者的分?jǐn)?shù)應(yīng)當(dāng)增加/減少如果和其他評(píng)論者之間有同意邊/反對(duì)邊,因?yàn)樘摷僭u(píng)論者通常都協(xié)同合作,對(duì)特定商品給一樣或相似的評(píng)價(jià)。
3) 不可靠分?jǐn)?shù)由評(píng)論者特征初始值和用戶之間關(guān)系共同決定。
因此,我們定義用戶的不可靠分?jǐn)?shù)的計(jì)算方法為:
(12)
其中score(r)由式(11)所得,表示用戶的特征初始值,本文α設(shè)定為0.2。此公式采用了以e為底的指數(shù)函數(shù)作為削減函數(shù)。由公式可知,當(dāng)有其他評(píng)論者支持該用戶評(píng)論時(shí),不可靠分?jǐn)?shù)會(huì)增加;反之,當(dāng)有其他評(píng)論者反對(duì)此評(píng)論時(shí),該用戶的不可靠分?jǐn)?shù)會(huì)相應(yīng)減少。特別的,如果當(dāng)前用戶沒(méi)有相關(guān)聯(lián)的支持邊,公式的第一項(xiàng)值為0,不可靠分?jǐn)?shù)則由用戶特征初始值決定。
4.3虛假評(píng)論者識(shí)別
本文采用的識(shí)別虛假評(píng)論者的方法既考慮了評(píng)論者的情感特征又考慮了評(píng)論者之間的關(guān)系。具體步驟如下:
輸入:用戶、評(píng)論、商品數(shù)據(jù)集合
輸出:虛假評(píng)論者候選集合
步驟1構(gòu)建評(píng)論者之間的關(guān)系圖。
步驟2根據(jù)式(11)計(jì)算所有用戶的特征初始值。
步驟3歸納用戶相對(duì)應(yīng)的支持邊與反對(duì)邊的集合。
步驟4根據(jù)式(12)計(jì)算用戶最終的不可靠分?jǐn)?shù)。
步驟5將用戶不可靠分?jǐn)?shù)按照降序排列,排名越靠前的用戶放入虛假評(píng)論者的候選集合。
5實(shí)驗(yàn)結(jié)果評(píng)估與分析
5.1評(píng)估策略
本文采用基于信息檢索的評(píng)估策略,首先選取不可靠分?jǐn)?shù)排名靠前的用戶作為虛假評(píng)論者的候選。然后我們邀請(qǐng)三位標(biāo)記人對(duì)候選者進(jìn)行人工標(biāo)記,以判斷候選者是否為虛假評(píng)論者。相似的評(píng)估方法在之前的研究中已經(jīng)被廣泛運(yùn)用了[2,4],因此這是一個(gè)完善的評(píng)估方法。具體評(píng)估流程如下:
(1) 選擇候選集合
我們選擇得分最高的100個(gè)最有可能為虛假評(píng)論者的用戶,把他們放入候選集合之中。然后將他們隨機(jī)排序,這樣他們的順序和不可靠分?jǐn)?shù)就沒(méi)有關(guān)聯(lián)。
(2) 對(duì)候選者進(jìn)行人工識(shí)別
由于在評(píng)論信息中沒(méi)有虛假評(píng)論者的標(biāo)簽,因此采用人工評(píng)估是必要的。我們的標(biāo)記人為計(jì)算機(jī)專業(yè)學(xué)生并且擁有豐富的網(wǎng)上購(gòu)物經(jīng)驗(yàn)。人工識(shí)別虛假評(píng)論者是一項(xiàng)非常復(fù)雜的工作,不僅要研究評(píng)論者所發(fā)表的評(píng)論,而且要查看所評(píng)價(jià)的商品和商家的其他評(píng)論以及他們的品質(zhì)和信譽(yù)。在識(shí)別過(guò)程中還可能受到主觀和直覺(jué)因素的影響,因此我們制定了一些虛假評(píng)論者的識(shí)別準(zhǔn)則:
?經(jīng)常與其他大多數(shù)評(píng)論者評(píng)論相反。
?經(jīng)常發(fā)布重復(fù)或者相似的評(píng)論。
?經(jīng)常給聲譽(yù)不好的商家以正面評(píng)論。
?經(jīng)常是某些特定商品的前排評(píng)論者。
?經(jīng)常夸張地贊揚(yáng)某商品完全沒(méi)有任何缺點(diǎn)。
5.2實(shí)驗(yàn)結(jié)果
在選取的候選集合中,3位標(biāo)記人根據(jù)自己的經(jīng)驗(yàn)以及上文制定的準(zhǔn)則獨(dú)立的進(jìn)行標(biāo)記。一個(gè)用戶如果同時(shí)被2位及以上的標(biāo)記人標(biāo)記為虛假評(píng)論者,則該用戶被認(rèn)為是虛假評(píng)論者。最終,61個(gè)用戶被標(biāo)記為虛假評(píng)論者(49個(gè)用戶得到3票,12個(gè)用戶得到2票),準(zhǔn)確率為61%,對(duì)于49%的準(zhǔn)確率有很大的提高[1]。表2給出了標(biāo)記結(jié)果以及標(biāo)記人之間的一致度。
表2 人工標(biāo)記結(jié)果
5.3結(jié)果分析
根據(jù)表2,我們可以看出3位標(biāo)記人分別標(biāo)記了57、59、68個(gè)虛假評(píng)論者。標(biāo)記人1與標(biāo)記人2有52個(gè)相同結(jié)果與標(biāo)記人3有56個(gè)相同結(jié)果;標(biāo)記人2與標(biāo)記人3有58個(gè)相同結(jié)果。為了研究標(biāo)記人之間的一致性,我們采用Fleiss’ kappa[12]方法,得到本次的標(biāo)記信度為62.4%,達(dá)到了實(shí)質(zhì)上一致性的區(qū)間[0.61,0.80],證明了本次人工標(biāo)記的有效性。
6結(jié)語(yǔ)
本文基于用戶在情感極性方面的差異,總結(jié)了用戶情感特征。并結(jié)合用戶之間復(fù)雜的關(guān)系創(chuàng)新性的構(gòu)造了評(píng)論者之間多邊圖模型,提出一種無(wú)監(jiān)督虛假評(píng)論者的識(shí)別方法。最后通過(guò)實(shí)驗(yàn)證明了該方法的有效性。
目前此方法仍有一些不足,如對(duì)用戶情感特征分析不是很全面,人工標(biāo)記存在一定的偏差,影響實(shí)驗(yàn)結(jié)果的評(píng)估。未來(lái)將更透徹分析不同用戶之間情感差別,并將用戶更多主觀特征加入特征集構(gòu)建中。為了更好地評(píng)估方法效果,改進(jìn)評(píng)估策略也是本文下一步的工作。
參考文獻(xiàn)
[1] Jindal N,Liu B.Review spam detection[C]//Proceedings of the 16th international conference on World Wide Web,Banff,AB,Canada,May 08-12,2007.New York,NY,USA:ACM,2007:1189-1190.
[2] Jindal N,Liu B.Opinion spam and analysis[C]//Proceedings of the international conference on Web search and web data mining,California,USA,Feb 11-12,2008.New York,NY,USA:ACM,2008:219-230.
[3] Li F,Huang M,Yang Y,et al.Learning to identify review spam[C]//Proceedings of the 22nd international joint conference on Artificial Intelligence,Barcelona,Spain,Jul 16-22,2011.Palo Alto,CA,USA:AAAI,2011:2488-2493.
[4] Lim E,Nguyen V,Jindal N,et al.Detecting product review spammers using rating behaviors[C]//Proceedings of the 19th ACM international conference on Information and knowledge management,Toronto,ON,Canada,October 26-30,2010.New York,NY,USA:ACM,2010:939-948.
[5] Lai C,Xu K,Lau R,et al.High-order concept associations mining and inferential language modeling for online review spam detection[C]//Data Mining Workshops (ICDMW),2010 IEEE International Conference,Sydney,NSW,Australia,Dec 13-13,2010.Washington,DC,USA:IEEE,2010:1120-1127.
[6] Wang G,Xie S H,Liu B,et al.Review Graph Based Online Store Review Spammer Detection[C]//Proceedings of the 11th International Conference on Data Mining,Mesa,Arizona,USA,April 28-30,2011.Washington,DC,USA:IEEE,2011:1242-1247.
[7] Mukherjee A,Kumar A,Liu B,et al.Spotting opinion spammers using behavioral footprints[C]//Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining,Chicago,IL,USA,August 11-14,2013.New York,NY,USA:ACM,2013:632-640.
[8] Liang D X,Liu X Y,Shen H.Detecting Spam Reviewers by Combing Reviewer Feature and Relationship[C]//Informative and Cybernetics for Computational Social Systems (ICCSS),2014 International Conference,Qingdao,Shandong,China,Oct 9-10 2014.Washington,DC,USA:IEEE,2014:102-107.
[9] Mukherjee A,Liu B,Wang J,et al.Detecting group review spam[C]//Proceedings of the 20th international conference companion on World wide web,Hyderabad,India,March 28-April 01,2011.New York,NY,USA:ACM,2011:93-94.
[10] Mukherjee A,Liu B,Glance N.Spotting fake reviewer groups in consumer reviews[C]//Proceedings of the 21st international conference on World Wide Web,Lyon,France April 16-20,2012.New York,NY,USA:ACM,2012:191-200.
[11] Gy?ngyi Z,GarciaMolina H,Pedersen J.Combating web spam with TrustRank[C] //Proceedings of the Thirtieth international conference on Very large data bases,Toronto,Canada,August 31-September 3 2004.San Fransisco,CA 94104,USA:Morgan Kaufmann,2004:576-587.
[12] Fleiss J L,Cohen J.The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability[J].Educational and Psychological Measurement,1973,33(3):613-619.
SPOTTING FAKE REVIEWERS BASED ON SENTIMENT FEATURES AND USERS’ RELATIONSHIP
Shao ZhufengJi Donghong
(SchoolofComputer,WuhanUniversity,Wuhan430072,Hubei,China)
AbstractWith the rapid development of e-commerce, online shopping becomes more and more appealing. Before shopping online, consumers usually tend to refer to the relevant comments to decide whether to buy the products or not. Therefore, to identify fake reviewers is of great significance. Based on the difference of emotional polarities between fake reviewers and real reviewers, we added the sentiment features of comment text to feature modelling process. Combined with the inter-relationship between users and specific commodities, we constructed a multi-edge graph model and came up with a method of spotting fake reviewers. Experimental results verified the effectiveness of the proposed algorithm.
KeywordsE-commerceFake reviewersSentiment featuresUsers relationship
收稿日期:2015-01-12。邵珠峰,碩士,主研領(lǐng)域:自然語(yǔ)言處理。姬東鴻,教授。
中圖分類號(hào)TP3
文獻(xiàn)標(biāo)識(shí)碼A
DOI:10.3969/j.issn.1000-386x.2016.05.039