朱娟
〔摘要〕[目的/意義]對(duì)在線虛假評(píng)論的現(xiàn)有研究進(jìn)行梳理,分析研究現(xiàn)狀,明確未來(lái)研究發(fā)展方向。[方法/過(guò)程]以CNKI和Web of Science文獻(xiàn)為研究對(duì)象,從文獻(xiàn)分析的視角,采用定性與定量分析相結(jié)合的方法,從虛假評(píng)論的識(shí)別方法、特征提取以及防治策略的角度,對(duì)國(guó)內(nèi)外虛假評(píng)論研究的現(xiàn)狀進(jìn)行了分析,總結(jié)和概括了本領(lǐng)域研究的熱點(diǎn)和存在的問(wèn)題。[結(jié)果/結(jié)論]研究表明,在虛假評(píng)論的識(shí)別方法上,需加強(qiáng)對(duì)半監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)的研究;在特征提取上,可考慮本體技術(shù)的應(yīng)用;在防治策略上,要考慮多學(xué)科多領(lǐng)域的合作。
〔關(guān)鍵詞〕在線商品;虛假評(píng)論;文獻(xiàn)分析;機(jī)器學(xué)習(xí);識(shí)別方法;防治策略;特征提??;綜述
DOI:10.3969/j.issn.1008-0821.2017.05.028
〔中圖分類號(hào)〕F7241〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2017)05-0166-06
A Review of Key Issues in the Opinion Spams of Online ProductsZhu Juan1,2
(1.School of Information Management,Wuhan University,Wuhan 430072,China;
2.School of Information,Jiujiang University,Jiujiang 332005,China)
〔Abstract〕[Purpose/significance]The paper carded existing study about online product opinion spam,summarized research status,and put forward future research direction.[Method/process]From the perspective of document analysis,using a combination of qualitative and quantitative methods to analyze the present status of research on opinion spams,summarized the key issues and problems in the field.[Result/conclusion]This paper presented the existing problems and future direction of field from three aspects:recognition method,feature extraction and prevention strategy,which provided reference to the academic research more deeply.
〔Key words〕online products;opinion spam;literature analysis;machine learning;recognition method;prevention strategy;feature extraction
2014年,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的相關(guān)網(wǎng)購(gòu)決策的報(bào)告指出,用戶評(píng)價(jià)在現(xiàn)階段的網(wǎng)絡(luò)購(gòu)物決策中占據(jù)主導(dǎo)地位,375%的網(wǎng)購(gòu)用戶在決策時(shí)主要考慮因素為用戶評(píng)價(jià)[1]。已購(gòu)消費(fèi)者對(duì)商品的評(píng)論信息在很大程度上影響了潛在消費(fèi)者的購(gòu)買決策,已有研究表明,80%的用戶在查詢到大量負(fù)面評(píng)論之后會(huì)放棄之前中意的商品,而87%用戶的購(gòu)買決策是基于大量的正面評(píng)論[2]。在線評(píng)論信息在某種程度上會(huì)直接影響產(chǎn)品銷量,基于自身利益的考慮,商家會(huì)通過(guò)各種手段來(lái)詆毀或吹捧某些商品或服務(wù)[3]。研究表明,很多在線評(píng)論網(wǎng)站,如Amazon.com、Yelp.com等,存在著大量的虛假評(píng)論[4],在Yelp.com,16%的酒店評(píng)論信息被認(rèn)為是虛假評(píng)論[5],國(guó)內(nèi)的淘寶更是如此,刷客橫行。虛假評(píng)論的出現(xiàn),淺層次而言,容易誤導(dǎo)消費(fèi)者做出錯(cuò)誤的決策;深層次而言,破壞電子商務(wù)市場(chǎng)規(guī)則,不利于公平、有序的市場(chǎng)建立。因此,對(duì)虛假評(píng)論的研究和識(shí)別迫在眉睫,并具有重要意義。
本文以虛假評(píng)論為主題,對(duì)虛假評(píng)論的研究進(jìn)行了檢索,在分析相關(guān)文獻(xiàn)的基礎(chǔ)上,通過(guò)定性與定量分析相結(jié)合的方法,總結(jié)概括了國(guó)內(nèi)虛假評(píng)論研究的主要對(duì)象、關(guān)鍵要素及關(guān)鍵技術(shù)和方法,并對(duì)相關(guān)研究進(jìn)行了評(píng)析,以期對(duì)我國(guó)虛假評(píng)論的研究現(xiàn)狀有一個(gè)整體把握,為我國(guó)學(xué)術(shù)界對(duì)虛假評(píng)論的進(jìn)一步研究提供借鑒和參考。
1文獻(xiàn)統(tǒng)計(jì)數(shù)據(jù)
本文的研究數(shù)據(jù)主要來(lái)源于CNKI和Web of Science,檢索時(shí)間設(shè)定為2016年6月21日,以“虛假評(píng)論”、“垃圾評(píng)論”、“Review Spam”、“Fake Review”、“Opinion Spam”、“Fake Opinion”為主題進(jìn)行高級(jí)檢索,共得到中文文獻(xiàn)104篇,剔除掉4個(gè)噪聲數(shù)據(jù)《讓人又愛(ài)又恨的驗(yàn)證碼》、《業(yè)者揭秘“偽書”出版鏈條》、《現(xiàn)代偽書現(xiàn)象研究》、《亦愛(ài)亦恨驗(yàn)證碼》,有效文獻(xiàn)國(guó)內(nèi)100篇,國(guó)外最相關(guān)文獻(xiàn)50篇。從表1可以看出,虛假評(píng)論的研究始于2007年,2010年之后呈現(xiàn)出研究的活躍期,期刊數(shù)量呈逐年遞增的趨勢(shì)。究其原因,可以從社會(huì)和學(xué)術(shù)兩個(gè)領(lǐng)域來(lái)分析,在社會(huì)領(lǐng)域,電子商務(wù)經(jīng)歷了1997-2002年的初創(chuàng)期、2003-2007年的快速發(fā)展期,由于支付寶的推出和國(guó)家相關(guān)文件的出臺(tái),電子商務(wù)進(jìn)入了創(chuàng)新發(fā)展期[6],電子商務(wù)的蓬勃發(fā)展為在線評(píng)論的研究提供了土壤;在學(xué)術(shù)領(lǐng)域,2007年,Jindal首次提出了在線商品垃圾評(píng)論檢測(cè)(Review Spam Detection)[7]也為國(guó)內(nèi)學(xué)術(shù)界提供了新的視角。
5在所收集的數(shù)據(jù)中,虛假評(píng)論的研究文獻(xiàn)多集中于情報(bào)、計(jì)算機(jī)和經(jīng)濟(jì)管理領(lǐng)域,見(jiàn)表2,表中列舉了國(guó)內(nèi)發(fā)文量至少兩篇的期刊。其中,情報(bào)學(xué)領(lǐng)域發(fā)文最多,包括《現(xiàn)代圖書情報(bào)技術(shù)》、《中文信息學(xué)報(bào)》、《現(xiàn)代情報(bào)》、《圖書情報(bào)工作》共計(jì)發(fā)文13篇,主要集中在討論如何將情報(bào)學(xué)理論與計(jì)算機(jī)技術(shù)結(jié)合來(lái)研究虛假評(píng)論。其次是計(jì)算機(jī)領(lǐng)域,包括《電腦愛(ài)好者》、《計(jì)算機(jī)工程與應(yīng)用》、《計(jì)算機(jī)應(yīng)用與軟件》、《計(jì)算機(jī)工程》、《計(jì)算機(jī)應(yīng)用》、《計(jì)算機(jī)科學(xué)》共計(jì)發(fā)文12篇,主要討論虛假評(píng)論識(shí)別算法及其改進(jìn)。經(jīng)濟(jì)管理領(lǐng)域主要包括《現(xiàn)代經(jīng)濟(jì)信息》和《科技創(chuàng)業(yè)月刊》共計(jì)發(fā)文4篇,更關(guān)注虛假評(píng)論對(duì)商務(wù)活動(dòng)的影響性。國(guó)外文獻(xiàn)分布相對(duì)分散,其中,《EXPERT SYSTEMS WITH APPLICATIONS》3篇,《Application Research of Computers》2篇,其它期刊均為1篇,但是所涉及的領(lǐng)域基本與國(guó)內(nèi)分布一致,計(jì)算機(jī)、情報(bào)和經(jīng)濟(jì)管理,但是在心理學(xué)領(lǐng)域也有涉及,其中在《JOURNAL OF APPLIED PSYCHOLOGY》發(fā)文1篇。
2計(jì)算機(jī)科學(xué)2
對(duì)文獻(xiàn)作者單位進(jìn)行分析,發(fā)現(xiàn)對(duì)虛假評(píng)論的研究國(guó)內(nèi)主要集中在武漢大學(xué)、華中師范大學(xué)等科研院所,如表3所示。武漢大學(xué)計(jì)算機(jī)學(xué)院姬東鴻教授團(tuán)隊(duì)在虛假評(píng)論識(shí)別算法方面進(jìn)行了深入研究,取得了不錯(cuò)的成果[8-11]。武漢大學(xué)信息管理學(xué)院張李義團(tuán)隊(duì)在刷客識(shí)別方面也給出了創(chuàng)新意見(jiàn)[12],華中師范大學(xué)婁策群團(tuán)隊(duì)也在虛假評(píng)論的形成路徑和影響因素方面的研究做出了重要貢獻(xiàn)[13-15]。國(guó)外則主要集中在伊利諾伊大學(xué)的Liu Bing及其團(tuán)隊(duì),共發(fā)文3篇[7,16-17],新加坡南洋理工大學(xué)的Banerjee發(fā)文2篇[18-19],除此以外,來(lái)自墨西哥等國(guó)家的學(xué)者也對(duì)虛假評(píng)論進(jìn)行了相關(guān)研究,如表4所示。
22虛假評(píng)論概念解析
利用文獻(xiàn)分析工具SATI32提取100篇中文文獻(xiàn)的關(guān)鍵字,構(gòu)建共現(xiàn)矩陣,并用Netdraw畫出其關(guān)系圖,如圖1所示。圖1關(guān)鍵詞共現(xiàn)關(guān)系圖
從國(guó)內(nèi)文獻(xiàn)來(lái)看,對(duì)虛假評(píng)論的研究,在概念上對(duì)“虛假評(píng)論”和“垃圾評(píng)論”的區(qū)分是模糊的,但是從研究的實(shí)質(zhì)上,基本上一致,即通過(guò)互聯(lián)網(wǎng)發(fā)布的不真實(shí)的具有欺騙性的評(píng)論[20]。從數(shù)量上而言,“虛假評(píng)論”作為關(guān)鍵字出現(xiàn)的次數(shù)為23次,“垃圾評(píng)論”作為關(guān)鍵字出現(xiàn)的次數(shù)為29次,“虛假評(píng)論”略遜一籌,但是就影響性而言,本領(lǐng)域兩大重要學(xué)術(shù)圈,武漢大學(xué)學(xué)術(shù)圈和華中師范大學(xué)學(xué)術(shù)圈在本領(lǐng)域的探討中,均使用的是“虛假評(píng)論”的概念[21-22]。
根據(jù)學(xué)術(shù)研究的一般慣例,虛假評(píng)論研究的興起起源于國(guó)外Liu Bing學(xué)術(shù)團(tuán)隊(duì),并給出了概念Review Spam[23],將其分為3類虛假評(píng)論(Untruthful Opinions)、無(wú)關(guān)評(píng)論(Reviews on Brands Only)以及非評(píng)論信息(Non-reviews)。國(guó)內(nèi)學(xué)者就評(píng)論的影響性和價(jià)值的角度,普遍將虛假評(píng)論(Untruthful Opinions)作為了主要研究對(duì)象,但是部分學(xué)者從概念上仍然沿用了Jindal的Review Spam,即垃圾評(píng)論。
從表達(dá)的準(zhǔn)確性而言,本文認(rèn)同武漢大學(xué)和華中師范大學(xué)學(xué)術(shù)圈的觀點(diǎn),取“虛假評(píng)論”作為本文描述的概念界定。
3研究關(guān)鍵問(wèn)題解析
結(jié)合關(guān)鍵字共現(xiàn)矩陣及其所在相關(guān)論文,可以發(fā)現(xiàn)國(guó)外內(nèi)對(duì)虛假評(píng)論的研究主要集中在以下3個(gè)領(lǐng)域:虛假評(píng)論形成動(dòng)機(jī)及其對(duì)消費(fèi)者購(gòu)買意愿影響;虛假評(píng)論識(shí)別;以及虛假評(píng)論防治。
31虛假評(píng)論的形成動(dòng)機(jī)及其對(duì)消費(fèi)者購(gòu)買意愿影響由于在線評(píng)論對(duì)于消費(fèi)者購(gòu)買決策起到了至關(guān)重要的作用,促使商家或個(gè)人基于利益的考慮發(fā)布不實(shí)評(píng)論,從中謀取利益。Kugler、Mukherjee認(rèn)為虛假評(píng)論形成的主要原因是因?yàn)樵u(píng)論發(fā)布者試圖影響潛在購(gòu)買者的決策[24-25]。鄭春東等認(rèn)為虛假評(píng)論的動(dòng)機(jī)主要在于宣傳造勢(shì)、以優(yōu)抵差和惡意詆毀3類[26]。討論虛假評(píng)論的形成機(jī)制,可追溯到發(fā)布虛假評(píng)論的人,陳燕方認(rèn)為虛假評(píng)論的發(fā)布者可以分為職業(yè)虛假評(píng)論者、一般虛假評(píng)論發(fā)布者和正常評(píng)論者[27],并將虛假評(píng)論的發(fā)布路徑歸結(jié)為5條:①正常評(píng)論者——正常評(píng)論。消費(fèi)者在當(dāng)下作出了客觀真實(shí)的評(píng)價(jià),但是時(shí)移世易,隨著時(shí)間的推移,商品發(fā)生了好的或壞的變化,導(dǎo)致先前評(píng)價(jià)不適宜當(dāng)下的產(chǎn)品,從而誤導(dǎo)了后來(lái)的消費(fèi)者。②正常評(píng)論者——過(guò)高/過(guò)低評(píng)論。由正常評(píng)論者的性格屬性決定,過(guò)度寬容者習(xí)慣給好評(píng),過(guò)度完美者習(xí)慣給差評(píng)。③商家——一般虛假評(píng)論者——過(guò)高評(píng)論。一方面商家通過(guò)好評(píng)返現(xiàn)等手段誘惑消費(fèi)者給出過(guò)高評(píng)價(jià);另一方面商家對(duì)給差評(píng)者通過(guò)騷擾、退款等手段強(qiáng)迫其刪除或修改差評(píng)。④商家——一般虛假評(píng)論者——過(guò)低評(píng)論。分兩類,一類是商家和消費(fèi)者之間在購(gòu)買過(guò)程中出現(xiàn)沖突,導(dǎo)致消費(fèi)者有意給過(guò)低差評(píng)報(bào)復(fù)商家;另一類是商家故意差評(píng)競(jìng)爭(zhēng)對(duì)手,通過(guò)惡意競(jìng)爭(zhēng)謀取利益。⑤商家——中介——職業(yè)虛假評(píng)論者——過(guò)高/過(guò)低評(píng)價(jià)。商家為短期內(nèi)快速形成較高的信譽(yù)度吸引消費(fèi)者或者打擊競(jìng)爭(zhēng)對(duì)手,利用第三方平臺(tái),在沒(méi)有實(shí)際成交的情況下,職業(yè)虛假評(píng)論者進(jìn)行虛假的好評(píng)或差評(píng)。
究其原因,形成這些虛假評(píng)論的動(dòng)因,孟美任將其歸納為推銷、干擾和詆毀[28],具體而言就是:首先,電子商務(wù)中信息不對(duì)稱導(dǎo)致消費(fèi)者過(guò)度依賴商家信譽(yù)度,而現(xiàn)有電子商務(wù)交易平臺(tái)信譽(yù)監(jiān)管制度的不完善,導(dǎo)致商家為了利益在提升自己信譽(yù)度和打擊競(jìng)爭(zhēng)對(duì)手信譽(yù)度上大做文章。其次,根據(jù)口碑傳播理論,負(fù)面口碑比正面口碑對(duì)消費(fèi)者購(gòu)買意向影響更大,使得商家通過(guò)各種手段消除負(fù)面口碑對(duì)自身的影響或者制造負(fù)面口碑打擊競(jìng)爭(zhēng)對(duì)手。最后,消費(fèi)者本身的特征或者情境的改變也會(huì)造成虛假評(píng)論的產(chǎn)生。
虛假評(píng)論的存在,也會(huì)影響消費(fèi)者購(gòu)買意愿。劉璇認(rèn)為如果虛假評(píng)論大量存在,當(dāng)消費(fèi)者對(duì)此有所感知的時(shí)候,消費(fèi)者會(huì)啟動(dòng)消費(fèi)者防御模型,影響其購(gòu)買意愿和決策[29]。因此,如何識(shí)別虛假評(píng)論,盡量避免其對(duì)電子商務(wù)秩序的破壞就顯得尤為重要。
32虛假評(píng)論的識(shí)別
關(guān)于虛假評(píng)論的識(shí)別,目前的研究主要從兩個(gè)角度來(lái)展開:基于評(píng)論文本的角度和基于評(píng)論者的角度?;谠u(píng)論文本的識(shí)別主要通過(guò)在線評(píng)論的文本、語(yǔ)義特征等屬性來(lái)識(shí)別虛假評(píng)論;而后者主要是針對(duì)那些專業(yè)的虛假評(píng)論者會(huì)模仿真實(shí)評(píng)論來(lái)編寫虛假評(píng)論,故認(rèn)為從評(píng)論文本來(lái)識(shí)別存在缺陷,提出了根據(jù)評(píng)論者不同于真實(shí)評(píng)論者的行為模式和評(píng)論特征,通過(guò)識(shí)別虛假評(píng)論者從而間接識(shí)別虛假評(píng)論。
321基于評(píng)論文本的識(shí)別
基于評(píng)論文本的虛假評(píng)論識(shí)別模型是目前識(shí)別虛假評(píng)論的主流方法[30],該模型的基本原理是將虛假評(píng)論的識(shí)別問(wèn)題轉(zhuǎn)化為對(duì)評(píng)論的二分類問(wèn)題,即根據(jù)評(píng)論特征將評(píng)論分為真實(shí)評(píng)論和虛假評(píng)論兩類,其算法流程如圖2所示。圖2基于評(píng)論的虛假評(píng)論識(shí)別模型
評(píng)論特征主要包括兩部分:文本特征(文本長(zhǎng)度、評(píng)論回復(fù)數(shù)、問(wèn)答句數(shù)目、品牌提及度等[31-34]),和語(yǔ)義特征(產(chǎn)品特征詞百分比、正面情感程度、負(fù)面情感程度[35])。所用的方法主要是在特征提取的基礎(chǔ)上,將虛假評(píng)論識(shí)別問(wèn)題轉(zhuǎn)化為對(duì)評(píng)論文本的分類問(wèn)題。常用的有監(jiān)督的分類學(xué)習(xí)算法有k-近鄰算法、支持向量機(jī)算法、樸素貝葉斯等,如表5所示。陳昀通過(guò)動(dòng)態(tài)K值和對(duì)距離公式加權(quán)來(lái)改進(jìn)kNN分類器,從而提高虛假評(píng)論識(shí)別的準(zhǔn)確率和識(shí)別速[36]。對(duì)基于內(nèi)容的虛假評(píng)論識(shí)別,宋海霞分別利用支持向量機(jī)(SVM)、最大熵(ME)、以及貝葉斯(Bayes)分別進(jìn)行實(shí)驗(yàn),并且認(rèn)為支持向量機(jī)對(duì)虛假評(píng)論的識(shí)別效果最好[37]。支持向量機(jī)作分類在虛假評(píng)論識(shí)別中獲得了很好的應(yīng)用[38]。表5基于評(píng)論文本的特征識(shí)別及算法
文獻(xiàn)識(shí)別算法〖〗評(píng)論特征[31]隨機(jī)森林[32]支持向量機(jī)[33][34]樸素貝葉斯文本長(zhǎng)度,評(píng)論回復(fù)數(shù),
問(wèn)答句數(shù)目,品牌提及度[35]模糊k均值聚類[36]k-最近鄰算法產(chǎn)品特征詞百分比,正面
情感程度,負(fù)面情感程度
將評(píng)論文本作為研究對(duì)象,通過(guò)對(duì)文本特征進(jìn)行提取,分析虛假評(píng)論文本的特點(diǎn),利用有監(jiān)督的機(jī)器學(xué)習(xí)算法對(duì)評(píng)論進(jìn)行真實(shí)評(píng)論和虛假評(píng)論的分類,雖然對(duì)于虛假評(píng)論的識(shí)別取得了一定成效。但是仍然存在著缺陷:①虛假評(píng)論者可能會(huì)模仿真實(shí)評(píng)論特征發(fā)布虛假評(píng)論,這種具備真實(shí)評(píng)論特征的虛假評(píng)論通過(guò)基于評(píng)論特征的識(shí)別方法無(wú)法識(shí)別;②訓(xùn)練集的人工標(biāo)注費(fèi)時(shí)費(fèi)力,還容易出現(xiàn)誤例。
322基于評(píng)論者的識(shí)別
基于評(píng)論者的識(shí)別從某種程度上彌補(bǔ)了上述缺陷,避免了可以模仿真實(shí)評(píng)論的虛假評(píng)論的干擾。其原理是通過(guò)識(shí)別虛假評(píng)論者不同于普通用戶的評(píng)論行為方式和特征,利用分類和排序技術(shù),識(shí)別虛假評(píng)論者,從而進(jìn)一步識(shí)別出虛假評(píng)論[39]。這一方法的前提條件,是假設(shè)虛假評(píng)論者往往是慣犯,或水軍,其自身具有特殊性。于是從評(píng)論者角度,獲取其特征構(gòu)建虛假評(píng)論者識(shí)別指標(biāo)。邵珠峰認(rèn)為虛假評(píng)論者和一般評(píng)論者之間存在情感極性上的差異,因此,將評(píng)論信息的情感特征加入識(shí)別模型,并結(jié)合用戶與商品之間的關(guān)系,構(gòu)建了一個(gè)識(shí)別虛假評(píng)論者的多邊圖模型[40]。
聶卉等提出了識(shí)別虛假評(píng)論人的6個(gè)特征因子,包括貢獻(xiàn)量、層級(jí)、情緒、活躍度、文字素養(yǎng)、評(píng)論差異等[41]。其中貢獻(xiàn)量指評(píng)論人貢獻(xiàn)和評(píng)論人發(fā)文總量,層級(jí)指評(píng)論人單日最大發(fā)文量、評(píng)論人級(jí)別以及評(píng)論文本內(nèi)容最大相似度,情緒指評(píng)論人正面評(píng)論占比和負(fù)面評(píng)論占比,活躍度指網(wǎng)齡和發(fā)文間隔,文字素養(yǎng)指評(píng)論文本平均長(zhǎng)度,評(píng)論差異指評(píng)論偏差。并通過(guò)回歸分析表明評(píng)論人的貢獻(xiàn)度、活躍度以及文字素養(yǎng)對(duì)于識(shí)別其是否為虛假評(píng)論者具有顯著影響。
上述方法雖然從評(píng)論者角度來(lái)識(shí)別虛假,克服了水軍模仿真實(shí)評(píng)論發(fā)布虛假評(píng)論,而基于評(píng)論特征的識(shí)別方法不能識(shí)別的不足,但是其識(shí)別的方法仍然是分類,與基于評(píng)論的識(shí)別類似。
Wang G、徐小婷等人提出了一種全新的識(shí)別方法,基于評(píng)論圖的網(wǎng)絡(luò)產(chǎn)品虛假評(píng)論人的檢測(cè)方法[42-43],這種方法通過(guò)評(píng)論、評(píng)論人和店鋪之間的相互影響關(guān)系建立一個(gè)互相制約的評(píng)論圖結(jié)構(gòu),其中衡量作弊程度的特征指標(biāo)包括:評(píng)論的可信度、評(píng)論人的忠實(shí)度和店鋪的可靠度。王琢在此基礎(chǔ)上做了改進(jìn),將店鋪換成了產(chǎn)品節(jié)點(diǎn),并對(duì)節(jié)點(diǎn)附加了新的特征數(shù)據(jù),評(píng)論節(jié)點(diǎn)包括評(píng)分等級(jí)、與所評(píng)產(chǎn)品的其它評(píng)論間的差異度、其它評(píng)論人對(duì)該評(píng)論的投票數(shù)以及該評(píng)論有幫助的投票數(shù),產(chǎn)品節(jié)點(diǎn)包括產(chǎn)品評(píng)論打分值,評(píng)論人節(jié)點(diǎn)具有該評(píng)論人進(jìn)行多次評(píng)論的產(chǎn)品數(shù)以及在這些多次評(píng)論的產(chǎn)品中該評(píng)論人的評(píng)論數(shù)量等[44]。
基于評(píng)論圖的基本原理如圖3所示。圖中各節(jié)點(diǎn)之間具有互相制約的復(fù)雜關(guān)系:某個(gè)評(píng)論人的可信度取決于其所寫評(píng)論的忠實(shí)度;某個(gè)產(chǎn)品的可靠度取決于所有對(duì)其評(píng)論的可信評(píng)論人的分?jǐn)?shù);而某條評(píng)論的忠實(shí)度取決于該評(píng)論所評(píng)商品的可靠度。經(jīng)過(guò)多次迭代后,各節(jié)點(diǎn)的信譽(yù)度將收斂到穩(wěn)定值,系統(tǒng)達(dá)到最終平衡,最終得分較低的評(píng)論人為虛假評(píng)論撰寫者。
圖3評(píng)論圖的基本原理
33虛假評(píng)論的防治
虛假評(píng)論的防治,不僅是技術(shù)的事,還是制度和體制的事。陳燕方從虛假評(píng)論的治理目標(biāo)、治理對(duì)象以及治理途徑的角度進(jìn)行了研究,認(rèn)為虛假評(píng)論的防治必須以完善地信用體系制度、健全的法律制度作為外在輔助,以高效的檢測(cè)模型作為內(nèi)在動(dòng)力,具體而言從以下3個(gè)方面來(lái)進(jìn)行[45]:①對(duì)造成虛假評(píng)論的主要責(zé)任人加強(qiáng)監(jiān)管,包括商家、虛假評(píng)論中介、消費(fèi)者以及電子商務(wù)交易平臺(tái)。②減弱虛假評(píng)論形成路徑的促進(jìn)因素,比如完善標(biāo)準(zhǔn)化的評(píng)價(jià)體系,建立第三方信用評(píng)價(jià)機(jī)制等。③激勵(lì)消費(fèi)者做出真實(shí)有用的評(píng)論。
4存在問(wèn)題及未來(lái)研究方向
從上述的分析可以看出,當(dāng)前對(duì)于虛假評(píng)論的研究主要集中在計(jì)算機(jī)、情報(bào)以及經(jīng)濟(jì)管理領(lǐng)域,其研究的重點(diǎn)主要集中在利用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)對(duì)虛假評(píng)論的識(shí)別,利用情報(bào)組織分析理論研究虛假評(píng)論特征提高識(shí)別率,以及對(duì)虛假評(píng)論動(dòng)機(jī)及其影響因素進(jìn)行分析。各領(lǐng)域的研究都取得了一定的進(jìn)展,但是仍然存在著一些問(wèn)題,尚需進(jìn)一步研究。
1)在識(shí)別方法上,以KNN、SVM等有監(jiān)督的機(jī)器學(xué)習(xí)算法為主。這些算法在虛假評(píng)論識(shí)別的查全率和查準(zhǔn)率上取得了一定成果,但是由于有監(jiān)督的學(xué)習(xí)算法,測(cè)試集主要通過(guò)人工標(biāo)注實(shí)現(xiàn),一是代價(jià)大;二是容易出現(xiàn)誤例。因此,半監(jiān)督或無(wú)監(jiān)督的學(xué)習(xí)算法有待進(jìn)一步研究。
2)在虛假評(píng)論的特征提取上,主要采用自然語(yǔ)言處理技術(shù)獲取評(píng)論文本、評(píng)論人等屬性作為虛假評(píng)論特征,將情報(bào)組織中的元數(shù)據(jù)、本體論等方法應(yīng)用于虛假評(píng)論特征提取及分析還做得不夠,未來(lái)可考慮結(jié)合情報(bào)領(lǐng)域理論和技術(shù)更準(zhǔn)確獲取虛假評(píng)論特征。
3)在虛假評(píng)論影響因素和防治策略上,目前的研究者還集中在經(jīng)濟(jì)管理領(lǐng)域,而缺乏相關(guān)法學(xué)領(lǐng)域的介入,我國(guó)電商領(lǐng)域相關(guān)法規(guī)制度的不健全,網(wǎng)絡(luò)用戶信用制度的缺失,也是造成虛假評(píng)論猖獗的重要因素,未來(lái)需要更多領(lǐng)域?qū)<彝度氡绢I(lǐng)域的研究工作,共同構(gòu)建良好的電子商務(wù)環(huán)境和秩序。
參考文獻(xiàn)
[1]中國(guó)互聯(lián)網(wǎng)信息中心.2013年中國(guó)網(wǎng)絡(luò)購(gòu)物市場(chǎng)研究報(bào)告[R].2014,(4):18-19.
[2]Cone Research.Game Changer:Cone Survey Finds 4-out-of-5 Consumers Reverse Purchase Decisions Based on Negative Online Reviews[EB].Available at:http:∥www.conecomm.com/contentmgr/showdetails.php/id/4008.2011.
[3]Pealver-Martinez I,Garcia-Sanchez F,Valencia-Garcia R,et al.Feature-based opinion mining through ontologies[J].Expert Systems with Applications,2014,41(13):5995-6008.
[4]JOHN BOONE.A Hotel in New York Allegedly Threatened Guests With a 500 Fine If They Wrote Bad Reviews on Yelp[EB/OL].http:∥www.eonline.com/news/566056/a-hotel-in-new-york-allegedly-threatened-guests-with-a-500-fine-if-the-wrote-bad-reviews-on-yelp?utmsource=eonline&utmmedium=rssfeeds&utmcampaign=imdbtopstories,2014-08-05.
[5]Luca M,Zervas G.Fake it till you make it:Reputation,competition,and Yelp review fraud[J].Management Science,2016.
[6]中國(guó)電子商務(wù)研究中心.盤點(diǎn):我國(guó)電子商務(wù)發(fā)展歷程、現(xiàn)狀分析[EB/OL].http:∥b2b.toocle.com/detail--6170951.html.
[7]Jindal N,Liu B.Review spam detection[C]∥Proceedings of the 16th international conference on World Wide Web.ACM,2007:1189-1190.
[8]任亞峰,姬東鴻,張紅斌,等.基于PU學(xué)習(xí)算法的虛假評(píng)論識(shí)別研究[J].計(jì)算機(jī)研究與發(fā)展,2015,52(3):639-648.
[9]任亞峰,尹蘭,姬東鴻.基于語(yǔ)言結(jié)構(gòu)和情感極性的虛假評(píng)論識(shí)別[J].計(jì)算機(jī)科學(xué)與探索,2014,8(3):313-320.
[10]任亞峰,姬東鴻,尹蘭.基于半監(jiān)督學(xué)習(xí)算法的虛假評(píng)論識(shí)別研究[J].四川大學(xué)學(xué)報(bào):工程科學(xué)版,2014 (3):62-69.
[11]任亞峰,姬東鴻.基于情感特征和用戶關(guān)系的虛假評(píng)論者的識(shí)別[J].計(jì)算機(jī)應(yīng)用與軟件,2016,33(5):158-161.
[12]張李義,張皎.一種基于主成分分析和隨機(jī)森林的刷客識(shí)別方法[J].現(xiàn)代圖書情報(bào)技術(shù),2015,(10):65-71.
[13]李京蔚,婁策群.在線商品虛假評(píng)論形成與影響綜述[J].科技創(chuàng)業(yè)月刊,2015,(14):38-39.
[14]李京蔚.在線商品垃圾評(píng)論發(fā)布動(dòng)機(jī)影響因素研究[J].企業(yè)技術(shù)開發(fā):中旬刊,2016,35(2):72-72.
[15]楊敏.在線商品虛假評(píng)論對(duì)交易雙方的影響研究[J].現(xiàn)代經(jīng)濟(jì)信息,2016,(1):159.
[16]Mukherjee A,Kumar A,Liu B,et al.Spotting opinion spammers using behavioral footprints[C]∥Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2013:632-640.
[17]Mukherjee A,Liu B,Glance N.Spotting fake reviewer groups in consumer reviews[C]∥Proceedings of the 21st international conference on World Wide Web.ACM,2012:191-200.
[18]Chua A Y K,Banerjee S.Understanding review helpfulness as a function of reviewer reputation,review rating,and review depth[J].Journal of the Association for Information Science and Technology,2015,66(2):354-362.