皇蘇斌,修宇,趙森嚴(yán),汪千松
安徽工程大學(xué)計(jì)算機(jī)與信息學(xué)院安徽工程大學(xué)計(jì)算機(jī)應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室,安徽 蕪湖 241000
基于多維特征權(quán)重的虛假評(píng)論識(shí)別方法
皇蘇斌,修宇,趙森嚴(yán),汪千松
安徽工程大學(xué)計(jì)算機(jī)與信息學(xué)院
安徽工程大學(xué)計(jì)算機(jī)應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室,安徽 蕪湖 241000
[摘要]在線商品評(píng)論是消費(fèi)者網(wǎng)購(gòu)決策的重要依據(jù),利益的驅(qū)動(dòng)使得越來(lái)越多的網(wǎng)絡(luò)虛假評(píng)論呈現(xiàn)在消費(fèi)者面前。針對(duì)此問(wèn)題,提出一種多維特征權(quán)重的在線虛假評(píng)論識(shí)別方法。首先,從網(wǎng)購(gòu)信息有用性角度出發(fā),在商品、評(píng)論者和評(píng)論內(nèi)容3個(gè)維度中選取9個(gè)對(duì)評(píng)論屬類語(yǔ)義貢獻(xiàn)大的特征。然后,基于Fisher準(zhǔn)則,運(yùn)用賦予權(quán)重的特征構(gòu)建用于識(shí)別虛假評(píng)論的方法。試驗(yàn)結(jié)果驗(yàn)證了基于多維特征權(quán)重的虛假評(píng)論識(shí)別方法的有效性:多維特征權(quán)重方法的準(zhǔn)確率、查全率和綜合分類率均高于Logistic回歸方法和自適應(yīng)聚類方法
[關(guān)鍵詞]虛假評(píng)論;特征選擇;特征權(quán)重;Fisher準(zhǔn)則 在線商品評(píng)論作為短文本的一種[1,2],具有稀疏、正常評(píng)論與虛假評(píng)論分布不均衡等特點(diǎn)?,F(xiàn)有虛假識(shí)別方法側(cè)重于相關(guān)特征的選取,多數(shù)研究在識(shí)別分類上直接使用特征值作為分類依據(jù)[3,6~10],忽略已選特征信息對(duì)虛假評(píng)論識(shí)別的具體貢獻(xiàn)權(quán)重,使得評(píng)論分類結(jié)果傾向于正常評(píng)論而忽視虛假評(píng)論[4],導(dǎo)致分類的準(zhǔn)確率、查全率不高,不能滿足實(shí)際需求。事實(shí)上,特征權(quán)重能夠反映該特征對(duì)標(biāo)識(shí)評(píng)論的貢獻(xiàn)度,體現(xiàn)評(píng)論間的區(qū)分能力。因此,如何選擇用于虛假評(píng)論識(shí)別的評(píng)論特征以及賦予其權(quán)重對(duì)在線虛假評(píng)論識(shí)別有著重要的意義。
虛假評(píng)論識(shí)別與傳統(tǒng)文本分類有相通之處,但也存在評(píng)論文本自身的特點(diǎn)??傮w來(lái)講,按特征的選擇現(xiàn)有虛假識(shí)別方法可以分為基于評(píng)論內(nèi)容的識(shí)別和基于評(píng)論行為的識(shí)別2種。
1)基于評(píng)論內(nèi)容的識(shí)別方法。JINDAL等[5]率先提出垃圾意見(jiàn)檢測(cè),并使用Logistic模型對(duì)垃圾評(píng)論進(jìn)行識(shí)別[6]。鄧莎莎等[7]從心理學(xué)角度對(duì)評(píng)論內(nèi)容進(jìn)行研究,提出包括11種欺騙語(yǔ)言線索的3類欺騙特征,實(shí)現(xiàn)對(duì)虛假評(píng)論的識(shí)別,并對(duì)不同欺騙組合特征的分類效果進(jìn)行驗(yàn)證。任亞峰等[3]認(rèn)為真實(shí)評(píng)論和虛假評(píng)論在情感極性和語(yǔ)言結(jié)構(gòu)上存在差異,提出利用遺傳算法對(duì)語(yǔ)言結(jié)構(gòu)及情感極性特征進(jìn)行選擇優(yōu)化,然后對(duì)優(yōu)化的特征采用無(wú)監(jiān)督硬、軟聚類算法進(jìn)行虛假評(píng)論識(shí)別。
2)基于評(píng)論行為的識(shí)別方法。虛假評(píng)論的產(chǎn)生通常伴隨著一些特有的行為特征,而這些特征有助于識(shí)別評(píng)論中的欺騙內(nèi)容。LIM等[8]將評(píng)論欺騙行為分為2大特點(diǎn):欺騙者通常僅關(guān)注于某一種或一類商品,并在這些商品評(píng)論中最大化發(fā)揮他們的評(píng)論影響力;欺騙者的評(píng)分行為往往和其他正常用戶有很大的區(qū)別,因此定義了4種不同類型的欺騙行為模型。宋海霞等[9]借助評(píng)論者的行為特征,對(duì)虛假評(píng)論進(jìn)行識(shí)別,根據(jù)評(píng)論數(shù)據(jù)定義自身基本特征,并計(jì)算與其他評(píng)論之間的關(guān)聯(lián)性特征,通過(guò)自適應(yīng)聚類算法實(shí)現(xiàn)對(duì)虛假評(píng)論的檢測(cè)。
然而,上述研究側(cè)重于特征或方法的選擇,未考慮特征本身對(duì)評(píng)論屬類的貢獻(xiàn)程度,為此,筆者提出一種基于多維特征權(quán)重的虛假評(píng)論識(shí)別方法。
1多維特征選擇
商品評(píng)論所表達(dá)的屬類語(yǔ)義信息與商品本身、評(píng)論者和評(píng)論內(nèi)容密切相關(guān)。筆者以網(wǎng)購(gòu)信息的有用性為出發(fā)點(diǎn),基于特征對(duì)虛假評(píng)論分類的貢獻(xiàn)度,從商品、評(píng)論者和評(píng)論內(nèi)容3個(gè)維度中選擇9個(gè)貢獻(xiàn)大的特征來(lái)標(biāo)識(shí)評(píng)論的分類,具體如下:
1.1商品維度
1)商品價(jià)格(F1) 商品價(jià)格越高,欺詐雙方經(jīng)濟(jì)成本和風(fēng)險(xiǎn)程度也隨之增加,因此相對(duì)于價(jià)格較高的商品,虛假評(píng)論更多存在于價(jià)格較低的商品評(píng)論之中[11]。
2)商品屬性(F2)用戶只有在使用商品之后才會(huì)獲得切身體會(huì),包括對(duì)商品特征、性能等屬性的使用感受描述。如果一條評(píng)論中沒(méi)有或較少涉及對(duì)商品屬性的描述,那么該評(píng)論為虛假評(píng)論的可能性較大。
1.2評(píng)論者維度
1)評(píng)論者信譽(yù)(F3)一般情況下,信譽(yù)高的用戶發(fā)表的評(píng)論比信譽(yù)低的更具有可信性。
2)是否匿名評(píng)論(F4) 實(shí)名用戶發(fā)布虛假評(píng)論后被發(fā)現(xiàn)的風(fēng)險(xiǎn)比匿名用戶要高,因此虛假評(píng)論更多存在于匿名評(píng)論中。
1.3評(píng)論內(nèi)容維度
1)評(píng)論長(zhǎng)度(F5)真實(shí)評(píng)論者一般不愿意評(píng)論或者給予簡(jiǎn)單的評(píng)論,而虛假評(píng)論者為取到夸大或詆毀的效果,往往較冗長(zhǎng)地描述商品質(zhì)量或服務(wù)。因此,篇幅較長(zhǎng)的評(píng)論為虛假評(píng)論的可能性較大[3]。
2)正面情感詞(F6)和負(fù)面情感詞(F7)虛假評(píng)論者為了贊揚(yáng)或貶低某一商品,會(huì)盡可能地增加正面或負(fù)面情感詞,以達(dá)到夸大或詆毀的作用。如果一條評(píng)論中過(guò)多出現(xiàn)正面或負(fù)面情感詞,則該評(píng)論為虛假評(píng)論的可能性較大。
3)品牌名稱(F8) 評(píng)論中反復(fù)出現(xiàn)品牌名稱,以此來(lái)提高該條評(píng)論的可信性,則該評(píng)論是虛假評(píng)論的可能性較高。
4)是否附圖評(píng)論(F9)用戶發(fā)布附帶商品圖片的評(píng)論要比直接的文本評(píng)論可信性高,虛假評(píng)論更多存在于直接文本評(píng)論中。
2單個(gè)特征的Fisher值
筆者采用Fisher準(zhǔn)則來(lái)分析各特征對(duì)虛假識(shí)別的貢獻(xiàn)權(quán)重,采用單個(gè)特征的Fisher值作為計(jì)算準(zhǔn)則[12]。
(1)
(2)
單個(gè)特征的Fisher準(zhǔn)則表示為:
(3)
F(k)稱為第k維的Fisher值。如果某一維特征在樣本集上的F(k)值越大,則說(shuō)明該維特征在類別區(qū)分上作用越強(qiáng)。
3權(quán)重計(jì)算及特征向量化
筆者將虛假評(píng)論識(shí)別看作一個(gè)二分類問(wèn)題,形式化定義為:假設(shè)預(yù)處理評(píng)論類型集為D={d0,d1},其中,d0表示正常評(píng)論,稱為負(fù)類,d1表示虛假評(píng)論,稱為正類,需進(jìn)行分類的評(píng)論集為P={p1,p2,…,pn},每條評(píng)論由特征集Fi(i=1,2,…,9)組成。
對(duì)此,根據(jù)式(1)~(3),計(jì)算評(píng)論中單個(gè)特征的Fisher值F(j):
(4)
最后,結(jié)合特征權(quán)重和特征值將評(píng)論樣本向量化為表1所示。
4試驗(yàn)
4.1試驗(yàn)設(shè)置
表2 實(shí)驗(yàn)數(shù)據(jù)集
采用專家標(biāo)注方法,選擇Alexa排名靠前的國(guó)內(nèi)2家電子商務(wù)平臺(tái)(淘寶:http://www.taobao.com;京東商城:http://www.jd.com),分別從中抓取5000條手機(jī)評(píng)論相關(guān)信息,分為4組每組2500條,包含8個(gè)字段的內(nèi)容:評(píng)論者姓名、商品詳情、商品價(jià)格、評(píng)論者信譽(yù)、評(píng)論內(nèi)容、評(píng)論時(shí)間、是否匿名評(píng)論和是否附圖評(píng)論。選擇20名專家并將其分為5組,分別對(duì)4組數(shù)據(jù)集進(jìn)行真實(shí)評(píng)論與虛假評(píng)論的人工標(biāo)注,從5組標(biāo)注結(jié)果中選取4組結(jié)果相同的評(píng)論作為實(shí)驗(yàn)數(shù)據(jù)集,最終取得真實(shí)評(píng)論5283條,虛假評(píng)論2401條,具體分布如表2。
采用中科院計(jì)算技術(shù)研究所研制的ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)[13]漢語(yǔ)語(yǔ)法分析系統(tǒng)對(duì)數(shù)據(jù)集的評(píng)論內(nèi)容和商品詳情進(jìn)行分詞處理,去除停用詞、虛詞和標(biāo)點(diǎn)符號(hào)等;利用知網(wǎng)HowNet情感詞典[14],除去一些生僻詞,加入一些網(wǎng)絡(luò)流行新詞,構(gòu)建評(píng)論情感詞詞典;采用哈工大信息檢索研究中心同義詞詞林?jǐn)U展版[15]構(gòu)建商品屬性、品牌名稱同義詞詞典。
4.2試驗(yàn)結(jié)果分析
采用文本分類中通用分類性能評(píng)估指標(biāo)準(zhǔn)確率PR(Precision)、查全率RE(Recall)和綜合分類率F1來(lái)分析引入特征權(quán)重方法后的評(píng)論樣本分類效果。對(duì)于評(píng)論類型集li(i=0,1),假設(shè)xi為第i類的評(píng)論樣本總數(shù),yi為分類中正確被分到第i類的評(píng)論文本數(shù),zi為分類中實(shí)際被分到第i類的評(píng)論文本數(shù),則對(duì)于第i類評(píng)論樣本的分類性能評(píng)估指標(biāo)的計(jì)算方法如下:
(6)
(7)
(8)
筆者采用宏平均對(duì)分類效果進(jìn)行全局評(píng)價(jià),具體如下:
(9)
(10)
(11)
圖1 分類效果比較
對(duì)4組試驗(yàn)數(shù)據(jù)集進(jìn)行特征權(quán)重計(jì)算和向量化處理,其中每組數(shù)據(jù)集的行代表評(píng)論樣本,列代表分類特征。在Matlab環(huán)境下使用SVM分類器對(duì)多維特征權(quán)重方法進(jìn)行分類測(cè)試,測(cè)試方法采用循環(huán)交叉試驗(yàn)方法,輪流將其中3組作為訓(xùn)練集,另外1組作為測(cè)試集,共進(jìn)行4次訓(xùn)練和測(cè)試,取4次試驗(yàn)結(jié)果的平均值。然后以文獻(xiàn)[5]中的Logistic回歸模型和文獻(xiàn)[9]中的自適應(yīng)聚類方法作為對(duì)比試驗(yàn)。具體試驗(yàn)結(jié)果如圖1所示。
從圖1中可看出,多維特征權(quán)重方法的準(zhǔn)確率、查全率和綜合分類率均高于Logistic回歸方法和自適應(yīng)聚類方法,原因分析如下:在評(píng)論樣本中,正常評(píng)論與虛假評(píng)論分布是不均衡的,這種不均衡現(xiàn)象對(duì)分類效果的影響體現(xiàn)為在不同批次的分類中分類效果會(huì)出現(xiàn)較大的波動(dòng)。筆者提出的多維特征權(quán)重方法以網(wǎng)購(gòu)信息的有用性為基礎(chǔ),多維度選取對(duì)評(píng)論分類標(biāo)識(shí)重要的特征,并計(jì)算特征的權(quán)重,運(yùn)用賦予權(quán)重的特征構(gòu)建虛假評(píng)論識(shí)別分類的決策信息,從而實(shí)現(xiàn)待分類評(píng)論樣本分布的優(yōu)化,更好地反映特征對(duì)虛假評(píng)論分類的重要程度。特征權(quán)重方法綜合考慮了各特征信息對(duì)全局的決策能力,進(jìn)一步優(yōu)化特征對(duì)評(píng)論樣本劃分的一致性程度,進(jìn)而提高虛假評(píng)論分類的準(zhǔn)確率、查全率和綜合分類率。
5結(jié)語(yǔ)
考慮多維特征信息對(duì)虛假評(píng)論分類的貢獻(xiàn)度,提出了一種基于多維特征權(quán)重的虛假評(píng)論識(shí)別方法。在特征的選取上,從網(wǎng)購(gòu)信息的有用性角度出發(fā),多維度的選取9個(gè)對(duì)評(píng)論分類標(biāo)識(shí)重要的特征,在特征權(quán)重的計(jì)算上,綜合考慮特征信息的決策能力,將賦予權(quán)重的特征運(yùn)用于構(gòu)建虛假評(píng)論識(shí)別分類的決策信息中。與已有的方法相比,該方法可以優(yōu)化評(píng)論樣本的分布,提高虛假評(píng)論分類的準(zhǔn)確率、查全率和綜合分類率。未來(lái)的工作將研究網(wǎng)購(gòu)用戶行為與虛假評(píng)論的關(guān)系以及店鋪虛假銷量的識(shí)別。
[參考文獻(xiàn)]
[1]林煜明,王曉玲,朱濤,等.用戶評(píng)論的質(zhì)量檢測(cè)與控制研究綜述[J].軟件學(xué)報(bào),2014,25(3):506~527.
[2]黃婷婷,曾國(guó)蓀,熊煥亮.基于商品特征關(guān)聯(lián)度的購(gòu)物客戶評(píng)論可信排序方法[J].計(jì)算機(jī)應(yīng)用,2014,34(8):2322~2327,2341.
[3]任亞峰,尹蘭,姬東鴻.基于語(yǔ)言結(jié)構(gòu)和情感極性的虛假評(píng)論識(shí)別[J].計(jì)算機(jī)科學(xué)與探,2014,8(3):313~320.
[4]林智勇,郝志峰,楊曉偉.不平衡數(shù)據(jù)分類的研究現(xiàn)狀[J].計(jì)算機(jī)應(yīng)用研究,2008,25(2):332~336.
[5]Jindal N,Liu B.Review spam detection[A].Proceedings of the 16th International Conference on World Wide Web[C].USA:ACM,2007:1189~1190.
[6]Jindal N,Liu B.Analyzing and Detecting Review Spam[A].Proceedings of the 7th IEEE International Conference on Data Mining[C].USA:IEEE Computer Society,2007:547~552.
[7]鄧莎莎,張朋柱,張曉燕,等.基于欺騙語(yǔ)言線索的虛假評(píng)論識(shí)別[J].系統(tǒng)管理學(xué)報(bào),2014,23(2):263~270.
[8]Lim E,Nguyen V,Jindal N,et al.Detecting product review spammers using rating behabiors [C].Proceedings of the 19th ACM International Conference on Information and Knowledge Management,ACM,2010.
[9]宋海霞,嚴(yán)馨,余正濤,等.基于自適應(yīng)聚類的虛假評(píng)論檢測(cè)[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,49(4):433~438.
[10]李霄,丁晟春.垃圾商品評(píng)論信息的識(shí)別研究[J].現(xiàn)代圖書情報(bào)技術(shù),2013,299(1):63~68.
[11]WEIJIA YOU,LU LIU,MING XIA,et al.Reputation inflation detection in a Chinese C2C market [J]. Electronic Commerce Research and Applications, 2011, 10:510~519.
[12]王颯,鄭鏈.基于Fisher準(zhǔn)則和特征聚類的特征選擇[J].計(jì)算機(jī)應(yīng)用,2007,27(11):2812~2814.
[13]ICTCLAS[EB/OL].http://ictclas.nlpir.org/,2014-09-20.
[14]HowNet[EB/OL]. http://www.keenage.com/html/c_index.html,2014-09-20.
[15]HIT-CIR Tongyici Cilin (Extended)[EB/OL]. http://ir.hit.edu.cn/demo/ ltp/Shari- ng_Plan.htm,2014-09-20.
[編輯]洪云飛
[引著格式]皇蘇斌,修宇,趙森嚴(yán),等.基于多維特征權(quán)重的虛假評(píng)論識(shí)別方法[J].長(zhǎng)江大學(xué)學(xué)報(bào)(自科版),2015,12(16):34~38.
29 Collaborative Recommendation Method Based on Social Network
Wang Qiansong, Jiang Sheng, Wang Zhongqun(AnhuiPolytechnicUniversity,Wuhu241000)
Abstract:In consideration of the problem of lower recommendation precision in the traditional collaborative filtering recommendation algorithm, a new collaborative recommendation method is proposed based on social network.The similarities and credibility of users are integrated in the social network.Firstly, the similarities between the users are calculated based on the ratings, and then the credibility of users are calculated based on direct and indirect credibility.Finally, the similarities of user rating and the credibility of user’ recommendation are integrated to get the weights of users’ recommendations and get the nearest neighbor set and provide a more accurate recommendation.The experimental results show that the new method can improve the accuracy of recommendation.
Key words:social network; collaborative filtering; recommendation accuracy; credibility; recommendation weight
[文獻(xiàn)標(biāo)志碼]A
[文章編號(hào)]1673-1409(2015)16-0034-05
[中圖分類號(hào)]TP391
長(zhǎng)江大學(xué)學(xué)報(bào)(自科版)2015年16期