張锏予
(沈陽理工大學(xué) 信息科學(xué)與工程學(xué)院, 沈陽 110158)
隨著電子商務(wù)與互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,消費(fèi)者的消費(fèi)方式也從傳統(tǒng)的線下消費(fèi)轉(zhuǎn)移到了線上購物。 而消費(fèi)者為選擇合適的商品,會參考商品的用戶評論信息。 消費(fèi)者判斷相關(guān)商家的誠信度和商品質(zhì)量的好壞會受到虛假評論的影響,這些虛假的評論信息會誘導(dǎo)消費(fèi)者對一些不符合實(shí)際的商家服務(wù)、商品價值、商品質(zhì)量等進(jìn)行選擇,嚴(yán)重干擾了消費(fèi)者的購物選擇,擾亂了網(wǎng)絡(luò)電商的運(yùn)營。
針對網(wǎng)上購物場景中的虛假評論,本文采用評論特征提取檢測技術(shù),確定虛假評論中的標(biāo)識文本內(nèi)容,將虛假評論與其他真實(shí)評論區(qū)分開。 隨著機(jī)器學(xué)習(xí)的應(yīng)用與發(fā)展,虛假評論特征提取檢測技術(shù)的發(fā)展與日俱進(jìn)[1]。 但由于虛假評論是由商家或企業(yè)利用大量水軍發(fā)布的,而水軍可以通過多個賬號進(jìn)行評價,留下的痕跡難以捕捉,目前沒有先進(jìn)的技術(shù)可用于檢測這些虛假評論,所以高精確率、低成本要求、方便客戶操作和有效篩選的虛假評論特征提取技術(shù)的研究是未來的重點(diǎn)研究方向。
虛假信息泛濫,品牌誠信對建立消費(fèi)者信任至關(guān)重要,置信度有可能直接轉(zhuǎn)化為利潤。 檢測過濾出虛假評論,對于確保在線評論反饋系統(tǒng)的完整性、可靠性至關(guān)重要。 目前主要有2 種解決方法:一種是基于傳統(tǒng)方法的特征提取檢測;另一種是基于深度學(xué)習(xí)的特征提取檢測方法。
基于傳統(tǒng)的提取評論方法是根據(jù)事實(shí)情況,手動的核對虛假信息中的虛假內(nèi)容及觀點(diǎn),通過將信息表達(dá)與核實(shí)的真實(shí)表達(dá)比較,判斷評論信息的準(zhǔn)確度。 而手動核對虛假信息又可分為兩種方式,一種是基于專家的手動核查,通過對評論的整段評價,對詳述內(nèi)容的可靠性評級,對詞句、語法的正確表達(dá)進(jìn)行篩選、評價,保證評論提取的準(zhǔn)確率,但是當(dāng)評論檢測數(shù)量激增時,準(zhǔn)確性會大打折扣;另一種是眾包的方法,利用群眾的數(shù)量優(yōu)勢對評論進(jìn)行提取篩查,可以獲得較低的成本付出,但是人工方法檢測虛假評論的精度僅為57%,評論提取的準(zhǔn)確率不高是尚未解決的問題[2]。
隨著深度學(xué)習(xí)算法的不斷發(fā)展,深度學(xué)習(xí)算法也應(yīng)用在特征提取領(lǐng)域[3]。 卷積神經(jīng)網(wǎng)絡(luò)(CNN)被應(yīng)用在矩陣分解模型中,通過從評論中提取需要的特征量,對評論進(jìn)行評分預(yù)測,并通過概率矩陣分解達(dá)到特征提取的效果,但模型無法驗(yàn)證評論特征的重要程度。 Trans-Nets[4]通過拓展,構(gòu)建了基于并行神經(jīng)網(wǎng)絡(luò)的Deep-Conn 雙塔結(jié)構(gòu)模型,將隱藏層的引入作為評論描述和商品實(shí)際特點(diǎn)的轉(zhuǎn)化;而D-ATTN(Dual Attention model)模型以及NARRE(Neural Attentional Regression model with Reviewlevel Explanations)模型在Deep-Conn 模型的基礎(chǔ)上引入注意力機(jī)制,可以輕松的抓到評論文本中的中的關(guān)鍵要素及信息[5-6];DAML 模型集成了交互注意力機(jī)制,在捕獲用戶和商品特征后,展現(xiàn)用戶和特征評論的關(guān)聯(lián),特征交互由神經(jīng)因子分解機(jī)完成[7]。
基于機(jī)器學(xué)習(xí)提取特征包含4 個部分,分別是:基于文本內(nèi)容重復(fù)評論提取特征;基于評論人屬性與行為提取特征;基于評論主觀性的特征提??;基于特征融合的方法。
1.3.1 基于文本內(nèi)容重復(fù)評論提取特征
對于大部分發(fā)布虛假評論的用戶而言,不論評論的是同類型商品還是不同類型商品,虛假評價內(nèi)容都具有極高相似度[8]。 當(dāng)某些評論里的內(nèi)容和語言表達(dá)出現(xiàn)一定程度的相似或覆蓋時,就可將相似的部分作為特征提取的訓(xùn)練集,對訓(xùn)練集進(jìn)行虛假評論特征提取訓(xùn)練。
1.3.2 基于評論人屬性與行為提取特征
Hussain 開發(fā)了一個評論圖來捕捉評論、評論者和商店之間的互動,評論的真實(shí)性是可以計(jì)算的,但這種方法沒有使用任何評論文本信息[9]。 相比之下,Wang[10]提出的方法僅基于文本特征,研究了幾個特征類別對垃圾評論識別的影響,包括打分時間、內(nèi)容、情感、產(chǎn)品或個人資料特征。
1.3.3 基于評論主觀性的特征提取
從評論主觀性角度分析,需要引入情感特征。如果評論中的表達(dá)顯得過于吹捧或者詆毀,則很可能是虛假的無意義評論,因此可以通過情感分析體現(xiàn)評論內(nèi)容的主觀性和褒貶性。 在現(xiàn)有研究中,一般利用情感詞匯的極性對文本的情感傾向進(jìn)行評價,目前主要有利用情感詞數(shù)或利用情感詞典計(jì)算情感強(qiáng)度的加權(quán)得分兩種度量方法。
1.3.4 基于特征融合的方法
在檢測虛假評論時,不僅需要提取關(guān)于評論內(nèi)容的特征,還需要提取其他特征,如評論者信息、評論者關(guān)注數(shù)量、收藏商品等來輔助檢測。
由于虛假評論與真實(shí)評論特征散亂,欺詐隱蔽性較強(qiáng),無明顯分布區(qū)分度,故而需要借助多種機(jī)器學(xué)習(xí)算法,進(jìn)行有監(jiān)督檢測學(xué)習(xí)。 當(dāng)前使用較多的機(jī)器學(xué)習(xí)分類器包括K 鄰近(KNN)、支持向量機(jī)(SVM)、樸素貝葉斯(NB)、決策樹(DT)等等。
K 鄰近算法分類是測量文本特征中不同特征值互相的距離。 假設(shè)特征空間中樣本的K個最鄰近的都同屬一種類型,那么在特征空間中的這個樣本也屬于這個類型。 KNN 算法具有很多優(yōu)點(diǎn),操作簡單、理論清晰且無需參數(shù)支持等。 在多種分類要求的問題上,KNN 可提供更高的效率及準(zhǔn)確度,但是KNN 算法對樣本數(shù)量的要求較高,需要使用很大的算力,內(nèi)存消耗大。
支持向量機(jī)通過給定系統(tǒng)的訓(xùn)練樣本集,使得系統(tǒng)在訓(xùn)練樣本集中找到無數(shù)個超平面,區(qū)分不同類型的樣本。 通過超平面做分類的支持向量機(jī)無需將樣本集中的所有樣本進(jìn)行計(jì)算,可以提高運(yùn)算效率,節(jié)省內(nèi)存。 支持向量機(jī)的缺點(diǎn)是在計(jì)算時需要將一些沒有規(guī)章且維度較低的數(shù)據(jù),在核函數(shù)的映射下,映射到高維空間,且使用超平面將樣本區(qū)分,較為復(fù)雜。
樸素貝葉斯算法是貝葉斯公式和條件獨(dú)立假設(shè)方法的結(jié)合應(yīng)用。 當(dāng)文本中的某些特征項(xiàng)不能通過直接統(tǒng)計(jì)獲得,則可以使用概率公式進(jìn)行轉(zhuǎn)換,通過加強(qiáng)的假設(shè),將概率進(jìn)行乘法運(yùn)算,從而得到對應(yīng)的屬性概率。
樸素貝葉斯算法可以設(shè)置先驗(yàn)概率,通過一系列簡單的數(shù)學(xué)計(jì)算就可以實(shí)現(xiàn),大大節(jié)省了內(nèi)存和運(yùn)算時間,缺點(diǎn)是僅適用于文本樣本,且樣本特征相互獨(dú)立。
決策樹是一種基本的機(jī)器學(xué)習(xí)模型,可以用樹形圖表示的樹結(jié)構(gòu),以此表示各個屬性與其對象值之間的映射關(guān)系。 在決策樹的整體結(jié)構(gòu)中,每個葉節(jié)點(diǎn)代表一個待預(yù)測的標(biāo)簽類型,每個內(nèi)部節(jié)點(diǎn)對應(yīng)于一個屬性,如果某些節(jié)點(diǎn)具有與之相對應(yīng)的屬性,則二者之間可能存在分支。 針對提取的特征應(yīng)用決策樹進(jìn)行預(yù)測,通過遞歸分割過程,直至實(shí)現(xiàn)所有的子集包含一樣的目標(biāo)量,但決策樹算法在訓(xùn)練過程中時間成本較高。
輕量級梯度提升分類器LGB 在不損害準(zhǔn)確率的條件下加快GBDT 模型的訓(xùn)練速度,且占用內(nèi)存更少,主要目的是利用弱分類器(決策樹)迭代訓(xùn)練以得到最優(yōu)模型,廣泛應(yīng)用于分類、預(yù)測等領(lǐng)域。
本文使用公開可用的Yelp 數(shù)據(jù)集,該數(shù)據(jù)集應(yīng)用廣泛且聲譽(yù)良好,采用Yelpzip 子集進(jìn)行實(shí)驗(yàn)。 該數(shù)據(jù)集中86.78%的數(shù)據(jù)被標(biāo)記為真實(shí)評論,13.22%為虛假評論,顯然非常不平衡。 因此,在建立相應(yīng)的分類模型之前,采用下采樣算法平衡數(shù)據(jù)集,減少分類器的識別誤差。 這種方法優(yōu)點(diǎn)是減少數(shù)據(jù)中的噪聲點(diǎn),避免過擬合,缺點(diǎn)是減少了可學(xué)習(xí)的數(shù)據(jù)量。
Salminen J[11]分析得出在虛假評論檢測任務(wù)中,行為特征比單一文本特征更加有效。 故本文選用基于特征融合的方法提取Yelp 酒店和餐廳領(lǐng)域中行為和文本特征,并分析其有效性。
(1)活躍時間窗(AW):虛假評論者很可能在短時間內(nèi)進(jìn)行評論,通常不是長期活躍的成員。 將該評論者的最后一次和第一次評論的時間戳之差作為活動窗口,檢測每一位評論者在指定時間窗內(nèi)的活躍度。 大多數(shù)的虛假評論者的活躍時間為2 個月,而真實(shí)評論者的活躍時間少于10 個月。
(2)最大評論數(shù)(MNR):表示一天內(nèi)的最大評論數(shù)。 在數(shù)據(jù)中,約三分之一的虛假評論人在一天內(nèi)發(fā)布了所有的評論,大部分的虛假評論人每天寫6 條或更多的評論,而真實(shí)評論者的日評論率非常適中。
(3)評論計(jì)數(shù)(RC):表示評論者的評論數(shù)量。大多數(shù)的虛假評論者發(fā)布評論數(shù)量在11 條之內(nèi),而半數(shù)的真實(shí)評論者評論數(shù)量超過40 條。 虛假評論者和真實(shí)評論者評論數(shù)量有明顯的區(qū)分。
(4)正面評價百分比(PR):正面評價(高于3分)占全部評價的百分比越高越可疑。 大多數(shù)的虛假評論者的目標(biāo)是提升企業(yè)口碑,正面評級較多。而在現(xiàn)實(shí)生活中,由于評價標(biāo)準(zhǔn)不同,真實(shí)評論者的評級表現(xiàn)出均衡的分布趨勢,不同范圍的評論者擁有不同比例的正面評論。
(5)評論長度(RL):大多數(shù)虛假評論的平均評論長度限制在135 個單詞以內(nèi),而大多數(shù)真實(shí)用戶的平均評論字符長度高于200 個字符。
(6)評論人偏差(RD):虛假評論者偏離一般消費(fèi)者評級共識的數(shù)量。 為了測量評論者的偏差,首先計(jì)算一個評論人與同一產(chǎn)品的其他評論人之間的絕對評分偏差;其次,取其所有評論的所有評級偏差的平均值,計(jì)算該評論者的平均偏差。 在滿分為5的尺度上,偏差可以從0 ~4。 大多數(shù)真實(shí)評論人在五星尺度上的絕對偏差為0.6,這表明真實(shí)評論人與其他真實(shí)評論人對產(chǎn)品有評級共識,而大多數(shù)虛假評論者與真實(shí)評論者的評級偏差較大。
(7)最大內(nèi)容相似度(MCS):即同一評論者的任意兩條評論內(nèi)容的余弦相似度。 大多數(shù)真實(shí)評論人在評論中幾乎沒有相似度(以0.16 余弦相似度為界);而大多數(shù)的虛假評論者在評論中有較高相似度。
通過融合上述7 種互不相關(guān)的有效特征,可提高虛假評論檢測水平。 信息融合越全面,特征提取效率越高。
由于消費(fèi)者在消費(fèi)前習(xí)慣于參考平臺的最新消費(fèi)評價信息,使得虛假評論往往在某一時間窗內(nèi)呈爆發(fā)趨勢。 選取Yelpzip 子集近兩年的評論數(shù)據(jù),并隨機(jī)選取其中80%數(shù)據(jù)集作為訓(xùn)練集,其余作為測試集,采用交叉驗(yàn)證法,比較不同分類模型的預(yù)測性能優(yōu)劣,分類結(jié)果見表1。 從召回率來看,LGB 模型是檢測效果最佳的模型。
表1 交叉驗(yàn)證機(jī)器學(xué)習(xí)模型分類結(jié)果Tab.1 Classification results of different machine learning models%
AUC(Area Under the Curve of ROC)是評估分類器性能的主流數(shù)值指標(biāo),能夠很好地平衡使用不同概率閾值的預(yù)測模型的真陽性率和假陽性率,所以針對嚴(yán)重不均衡的評論數(shù)據(jù)集,往往將高AUC值作為預(yù)測性能的首要評價指標(biāo)。 將下采樣法應(yīng)用于Yelp 數(shù)據(jù)集,機(jī)器學(xué)習(xí)模型分類結(jié)果見表2。 各個分類器模型的AUC值均有所提高,LGB 模型增長最為顯著,證實(shí)了基于分類器融合的有監(jiān)督方法在虛假評論檢測中具有較好效果,但需要在召回率和精度之間做出權(quán)衡。 此外,單純基于文本重復(fù)、評論人行為和評論主觀屬性中一方面進(jìn)行特征提取的檢測效果遠(yuǎn)低于多特征融合特征提取。 因此,虛假評論檢測精度與互不重疊的有效文本特征數(shù)呈正相關(guān)。
表2 下采樣后機(jī)器學(xué)習(xí)模型分類結(jié)果Tab.2 Classification results after downsampling %
本文針對Yelp 數(shù)據(jù)集中的已標(biāo)注虛假評論,提取虛假評論的文本特征和行為特征,運(yùn)用多種機(jī)器學(xué)習(xí)比較融合的方法,對虛假評論進(jìn)行有監(jiān)督機(jī)器學(xué)習(xí)分類。 實(shí)驗(yàn)結(jié)果表明,Yelpzip 數(shù)據(jù)集極不均衡且虛假評論特征隱蔽性強(qiáng),有監(jiān)督方法在虛假評論檢測中具有一定效果;提出利用下采樣法在分類檢測過程中平衡檢測精度和召回率;有監(jiān)督方法在實(shí)際應(yīng)用中取得了較好效果,也可為下一步設(shè)計(jì)基于在線虛假評論特征自動提取檢測技術(shù)方法提供參考。