徐瑞卿 張志旺 孫宏亮
(南京財(cái)經(jīng)大學(xué)信息工程學(xué)院,南京,210046)
隨著互聯(lián)網(wǎng)應(yīng)用的發(fā)展,欺詐檢測(cè)是一項(xiàng)至關(guān)重要的技術(shù),有著廣闊的前景,在安全[1]、金融[2]、醫(yī)療[3]和審查管理[4]等領(lǐng)域有許多具備影響力的應(yīng)用。例如,網(wǎng)絡(luò)商鋪通過(guò)購(gòu)買(mǎi)水軍刷好評(píng),來(lái)夸大自己店鋪的聲譽(yù),或者是通過(guò)惡意評(píng)論來(lái)抹黑競(jìng)爭(zhēng)對(duì)手的評(píng)價(jià)[5]。在金融行業(yè)中,有欺詐的借貸者通過(guò)偽造良好信譽(yù)形象,或者和高信譽(yù)的人產(chǎn)生關(guān)聯(lián),來(lái)提高自己的信譽(yù),進(jìn)行欺詐。如今,欺詐檢測(cè)技術(shù)早已應(yīng)用到諸如淘寶、京東等電子商務(wù)平臺(tái),但水軍也在提高欺詐能力,欺詐檢測(cè)的精確度仍需要進(jìn)一步提升。
在過(guò)去已經(jīng)出現(xiàn)了許多用于檢測(cè)多維點(diǎn)集合中欺詐者的技術(shù)[6]。隨著圖數(shù)據(jù)變得無(wú)處不在,圖神經(jīng)網(wǎng)絡(luò)(GNN)技術(shù)快速發(fā)展,基于圖的欺詐檢測(cè)[7]受到了關(guān)注。從本質(zhì)上講,基于圖的欺詐檢測(cè)的基本假設(shè)是,用戶(hù)和欺詐者在購(gòu)買(mǎi)產(chǎn)品或發(fā)布評(píng)論時(shí)有豐富的行為交互,這種交互可以表示為類(lèi)似于圖的數(shù)據(jù),為欺詐檢測(cè)提供有效的多方面信息。
圖卷積網(wǎng)絡(luò)(GCN)的核心是通過(guò)將節(jié)點(diǎn)特征傳遞給相鄰節(jié)點(diǎn)來(lái)操作圖結(jié)構(gòu)上的各種聚合函數(shù);每個(gè)節(jié)點(diǎn)聚集其鄰居的特征向量,結(jié)合其自身的特征,計(jì)算更新為新的特征向量表示。電子商務(wù)中的水軍欺詐檢測(cè)問(wèn)題可以看成是圖上的節(jié)點(diǎn)分類(lèi)問(wèn)題,因此GCN可被用于異常檢測(cè)并且逐漸成為一種有效且常用的手段。
最開(kāi)始的基于GNN的欺詐檢測(cè)工作僅在狹窄的范圍內(nèi)應(yīng)用,而忽略了欺詐者的偽裝行為,偽裝有以下兩種類(lèi)型。
(1)特征偽裝:聰明的欺詐者可以調(diào)整自己的行為,在評(píng)論中添加特殊字符(所謂的惡意用戶(hù)),或者使用深層語(yǔ)言生成模型來(lái)掩蓋明顯的可疑結(jié)果[8]。這有助于繞過(guò)基于特征的檢測(cè)器,以往簡(jiǎn)單的評(píng)分信譽(yù)系統(tǒng)漸漸失去優(yōu)勢(shì)。
(2)關(guān)系偽裝:水軍用戶(hù)在在線社交網(wǎng)絡(luò)上積極進(jìn)行意見(jiàn)欺詐,他們可以調(diào)查辯護(hù)人使用的圖表,并調(diào)整他們的行為以減輕猜疑。這些狡猾的欺詐者通過(guò)連接到許多良性實(shí)體(例如,發(fā)布定期評(píng)論或連接到信譽(yù)良好的用戶(hù))來(lái)偽裝自己[9]。
隨著圖深度學(xué)習(xí)技術(shù)的興起,將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用于欺詐檢測(cè)的研究層出不窮。遺憾的是,對(duì)于新興的欺詐節(jié)點(diǎn)的偽裝行為,目前并沒(méi)有太好的檢測(cè)方案,普通的方法對(duì)于欺詐節(jié)點(diǎn)的檢測(cè)準(zhǔn)確率較低。
除了欺詐節(jié)點(diǎn)會(huì)有偽裝行為,電商欺詐檢測(cè)任務(wù)還存在欺詐節(jié)點(diǎn)不平衡的問(wèn)題。在欺詐檢測(cè)問(wèn)題中,我們會(huì)將用戶(hù)節(jié)點(diǎn)分成兩大類(lèi),一個(gè)是正常用戶(hù),一個(gè)是欺詐用戶(hù),正常用戶(hù)占多數(shù),欺詐用戶(hù)只占少數(shù)部分,因此兩種類(lèi)別的占比分配不平衡。在機(jī)器學(xué)習(xí)中,樣本類(lèi)別不平衡會(huì)影響神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)的精度,因此這種節(jié)點(diǎn)類(lèi)別的不平衡會(huì)影響欺詐檢測(cè)任務(wù)中對(duì)欺詐節(jié)點(diǎn)檢測(cè)的精確性。在來(lái)自Yelp的真實(shí)世界評(píng)論數(shù)據(jù)集YelpChi中,14.5%的評(píng)論是惡意用戶(hù)的評(píng)論,而其他評(píng)論被視為推薦評(píng)論[10];在阿里巴巴集團(tuán)的真實(shí)金融數(shù)據(jù)集中,只有0.5%的用戶(hù)是違約者,無(wú)法償還從金融平臺(tái)借來(lái)的信用債務(wù)[11]。因此,基于圖的欺詐檢測(cè)算法常常存在類(lèi)不平衡問(wèn)題,并且表現(xiàn)不佳,特別是對(duì)于少數(shù)但更重要的欺詐者。同時(shí),專(zhuān)門(mén)研究類(lèi)不平衡問(wèn)題的圖神經(jīng)網(wǎng)絡(luò)算法還沒(méi)有得到充分的研究。
針對(duì)上述問(wèn)題,本文提出了一種基于精準(zhǔn)化采樣自適應(yīng)鄰域的多關(guān)系圖神經(jīng)網(wǎng)絡(luò)PS-GNN(Multi Graph Neural Network Based on Precise Sampling from Adaptive Neighborhood),針對(duì)類(lèi)別不平衡問(wèn)題,我們引入精準(zhǔn)化采樣策略,采樣后的節(jié)點(diǎn)的類(lèi)別不平衡情況得到緩解;為了應(yīng)對(duì)偽裝行為,我們結(jié)合多關(guān)系神經(jīng)網(wǎng)絡(luò)的聚合機(jī)制,先對(duì)各個(gè)關(guān)系下各節(jié)點(diǎn)信息作嵌入表達(dá),再對(duì)各關(guān)系作關(guān)系間的聚合。該方法在兩個(gè)真實(shí)世界數(shù)據(jù)集Yelp和Amazon上表現(xiàn)很好,對(duì)比目前主流的方法在準(zhǔn)確性上提升了0.06%-4.73%。
現(xiàn)有的欺詐檢測(cè)模型大多數(shù)都基于圖神經(jīng)網(wǎng)絡(luò)方法。圖神經(jīng)網(wǎng)絡(luò)(GNN)的進(jìn)步使多種領(lǐng)域的有效表示學(xué)習(xí)成為可能,包括生物信息學(xué)、化學(xué)信息學(xué)、社會(huì)網(wǎng)絡(luò)、自然語(yǔ)言處理[12]、社會(huì)事件、推薦系統(tǒng)[13]、時(shí)空交通[14]、計(jì)算機(jī)視覺(jué)和物理學(xué),其中圖形主要是表示。GNN模型被證明能夠在大量數(shù)據(jù)集(引文網(wǎng)絡(luò)[15]、生化網(wǎng)絡(luò)[16]、社交網(wǎng)絡(luò)、知識(shí)圖、商品網(wǎng)絡(luò)、API調(diào)用網(wǎng)絡(luò)等)的不同任務(wù)上達(dá)到性能目標(biāo),如節(jié)點(diǎn)分類(lèi)、節(jié)點(diǎn)聚類(lèi)、鏈接預(yù)測(cè)、圖分類(lèi)[17]等。
異構(gòu)圖在現(xiàn)實(shí)世界系統(tǒng)中無(wú)處不在。圖通常由具有多種類(lèi)型的節(jié)點(diǎn)和節(jié)點(diǎn)之間的多關(guān)系邊組成。例如,在Yelp惡意用戶(hù)數(shù)據(jù)中,存在異構(gòu)節(jié)點(diǎn)(例如,業(yè)務(wù)、評(píng)論、用戶(hù)等)和關(guān)系(例如,由同一用戶(hù)發(fā)布,在同一產(chǎn)品下具有相同的星級(jí),以及在兩次評(píng)論之間的同一月份發(fā)布的同一產(chǎn)品)?,F(xiàn)有的GNN迭代聚合機(jī)制尚未仔細(xì)考慮語(yǔ)義關(guān)系的多樣性和所提出模型的可用性。同質(zhì)GNN如GraphSAGE[18]、GCN[19]、GAT[20]、GIN[21]忽 略或簡(jiǎn)化了實(shí)際網(wǎng)絡(luò)中節(jié)點(diǎn)和邊的多樣性和復(fù)雜性,不足以表示數(shù)據(jù)的異質(zhì)性。為了解決上述問(wèn)題,Michael Schlichtkrull[22]等人提出了多關(guān)系GNN,在多關(guān)系GNN下,模型先將多關(guān)系拆分成一個(gè)個(gè)單關(guān)系,在各個(gè)單關(guān)系下作節(jié)點(diǎn)嵌入表示,最后匯總聚合為多關(guān)系。
近年來(lái),研究人員致力于解決傳統(tǒng)的基于特征的監(jiān)督學(xué)習(xí)環(huán)境中的類(lèi)別失衡問(wèn)題,主要分為兩個(gè)方向,即重新采樣和重新加權(quán)方法:重新采樣方法通過(guò)對(duì)少數(shù)類(lèi)進(jìn)行過(guò)采樣或?qū)Χ鄶?shù)類(lèi)進(jìn)行欠采樣來(lái)平衡示例數(shù)量;重新加權(quán)方法通過(guò)對(duì)成本敏感的調(diào)整或基于元學(xué)習(xí)的方法將不同的權(quán)重分配給不同的類(lèi)別或甚至不同的樣本。為了解決圖上類(lèi)不平衡問(wèn)題,Huang等[23]提出了DR-GCN,該方法包括類(lèi)條件對(duì)抗正則化其和分布對(duì)齊正則化器,但不能擴(kuò)展到大型圖。
總體而言,雖然傳統(tǒng)特征空間中的類(lèi)不平衡監(jiān)督學(xué)習(xí)得到了很好的研究,但專(zhuān)門(mén)研究類(lèi)不平衡問(wèn)題的圖神經(jīng)網(wǎng)絡(luò)算法還沒(méi)有得到充分的研究。我們的方法是在多關(guān)系的大型圖上,將各個(gè)關(guān)系先分開(kāi)聚合信息,引入精準(zhǔn)化采樣機(jī)制,賦予各類(lèi)別節(jié)點(diǎn)不同的采樣概率,在緩解節(jié)點(diǎn)不平衡影響的同時(shí),化大圖為小圖,簡(jiǎn)化算法操作,使得在大型多關(guān)系圖上的操作成為可能。
本文所提方法主要基于精準(zhǔn)化采樣自適應(yīng)鄰域的多關(guān)系圖神經(jīng)網(wǎng)絡(luò),下面就相關(guān)概念和基本知識(shí)予以介紹。
圖神經(jīng)網(wǎng)絡(luò)(GNN)是一種深度學(xué)習(xí)框架,通過(guò)聚合來(lái)自其相鄰節(jié)點(diǎn)的信息來(lái)嵌入圖形結(jié)構(gòu)化數(shù)據(jù)。其公式原理可以表示成:
其中,對(duì)于一個(gè)中心節(jié)點(diǎn)v,表示第l層v節(jié)點(diǎn)的隱藏嵌入表示,能將高維特征信息用低維向量表示出來(lái),Nv表示v節(jié)點(diǎn)的鄰域節(jié)點(diǎn)集合,AGG是表示將來(lái)自鄰域信息映射到向量中的聚合函數(shù),例如均值聚合和注意力聚合。是組合節(jié)點(diǎn)信息的運(yùn)算符以及通過(guò)級(jí)聯(lián)或求和來(lái)獲得其相鄰信息,是激活函數(shù),可以是比如ReLU函數(shù)。d維特征向量xi作為初始化節(jié)點(diǎn)嵌入。
然而我們面對(duì)的多關(guān)系圖,需要考慮圖中邊緣的復(fù)雜性和多樣性,因此基于問(wèn)題定義3.1,我們可以根據(jù)不同關(guān)系從多層鄰居聚合的角度概述多關(guān)系GNN的統(tǒng)一公式。
鑒于多關(guān)系圖神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力和特征表示能力,本文提出一種基于精準(zhǔn)化采樣自適應(yīng)鄰域的多關(guān)系圖神經(jīng)網(wǎng)絡(luò)PS-GNN,該方法由3部分組成。具體框架如圖1所示。首先,我們對(duì)部分標(biāo)記節(jié)點(diǎn),使用二分類(lèi)損失函數(shù)監(jiān)督訓(xùn)練GNN,作全圖節(jié)點(diǎn)標(biāo)簽預(yù)測(cè)。接著,設(shè)計(jì)了精準(zhǔn)化采樣策略,賦予節(jié)點(diǎn)一個(gè)采樣概率,對(duì)于不平衡的少數(shù)類(lèi)節(jié)點(diǎn)給與更高的采樣概率,對(duì)于多數(shù)類(lèi)的節(jié)點(diǎn)減少其采樣概率,平衡最后參與特征學(xué)習(xí)和鄰域聚合的節(jié)點(diǎn)類(lèi)別,構(gòu)建用于小批量訓(xùn)練的子圖。接下來(lái),對(duì)于每個(gè)中心節(jié)點(diǎn),在每個(gè)關(guān)系下,利用Top-p采樣以及自適應(yīng)濾波閾值來(lái)構(gòu)造每個(gè)關(guān)系下的相似鄰居,自適應(yīng)閾值p由強(qiáng)化學(xué)習(xí)學(xué)得不同關(guān)系下的動(dòng)態(tài)閾值。最后,基于為每個(gè)關(guān)系選擇相似的鄰居,在關(guān)系之間聚合所有這些鄰居信息,以進(jìn)行全面嵌入并獲得目標(biāo)節(jié)點(diǎn)的最終表示,最后一層的節(jié)點(diǎn)嵌入用于預(yù)測(cè)。
圖1 基于精準(zhǔn)化采樣自適應(yīng)鄰域的多關(guān)系圖神經(jīng)網(wǎng)絡(luò)模型框架圖Fig.1 Framework of Multi-relationship Graph Neural Network Based on Precise Sampling and Adaptive Neighborhood
與無(wú)監(jiān)督相似性度量(如余弦相似性或神經(jīng)網(wǎng)絡(luò))相比,許多實(shí)際問(wèn)題(如財(cái)務(wù)欺詐、疾病診斷等)需要額外的領(lǐng)域知識(shí)(例如,高保真數(shù)據(jù)注釋?zhuān)﹣?lái)識(shí)別異常實(shí)例。為此,我們基于來(lái)自領(lǐng)域?qū)<业谋O(jiān)督信號(hào)設(shè)計(jì)了一個(gè)節(jié)點(diǎn)相似性度量,即標(biāo)簽感知神經(jīng)相似性度量。
此任務(wù)是半監(jiān)督學(xué)習(xí)任務(wù),所以數(shù)據(jù)是不完整的,而收集全部數(shù)據(jù)需要耗費(fèi)太多的人力,故依據(jù)現(xiàn)有的部分?jǐn)?shù)據(jù),受到RioGNN[24]啟發(fā),結(jié)合了完全卷積網(wǎng)絡(luò)(FCN)和線性正則化,我們?cè)趫D神經(jīng)網(wǎng)絡(luò)的每一層采用FCN作為節(jié)點(diǎn)標(biāo)簽預(yù)測(cè)器。
其中,F(xiàn)CN是完全卷積網(wǎng)絡(luò),它將輸入的特征,輸出為分類(lèi)結(jié)果,此文中分類(lèi)為0(正常用戶(hù))和1(欺詐用戶(hù))。是激活函數(shù),即是第l層v節(jié)點(diǎn)的標(biāo)簽預(yù)測(cè),最后用l1距離范式衡量v節(jié)點(diǎn)和u節(jié)點(diǎn)的距離。因此,兩個(gè)節(jié)點(diǎn)的相似性就可以定義為:
在訓(xùn)練標(biāo)簽相似性預(yù)測(cè)器時(shí),結(jié)合已知的標(biāo)簽作直接監(jiān)督信號(hào),我們可以定義l層FCN的交叉熵?fù)p失函數(shù)為:
yv是節(jié)點(diǎn)標(biāo)簽的真實(shí)分布,是全卷積網(wǎng)絡(luò)作標(biāo)簽分類(lèi)預(yù)測(cè)的分布。對(duì)于整個(gè)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)階段的損失函數(shù),最后在訓(xùn)練網(wǎng)絡(luò)參數(shù)的時(shí)候,是全網(wǎng)絡(luò)損失函數(shù)的一部分。其預(yù)測(cè)階段損失函數(shù)為:
由于欺詐用戶(hù)的類(lèi)別不平衡,可以借鑒傳統(tǒng)機(jī)器學(xué)習(xí)欠采樣的思想,在模型學(xué)習(xí)節(jié)點(diǎn)特征表示時(shí),減少正常用戶(hù)的采樣,增加對(duì)欺詐用戶(hù)的采樣率。如何精準(zhǔn)的對(duì)欺詐用戶(hù)進(jìn)行采樣,可以從下面兩個(gè)方向切入:一是盡可能選取較多稀少的不平衡節(jié)點(diǎn),根據(jù)節(jié)點(diǎn)子圖中同類(lèi)別節(jié)點(diǎn)的個(gè)數(shù)約束采樣概率,對(duì)節(jié)點(diǎn)數(shù)多的,給與小的采樣權(quán)重,對(duì)于節(jié)點(diǎn)數(shù)少的,說(shuō)明是不平衡的節(jié)點(diǎn),給與較大的概率;二是只選取一部分多數(shù)節(jié)點(diǎn),對(duì)同一類(lèi)別下的多數(shù)節(jié)點(diǎn),根據(jù)節(jié)點(diǎn)的度指標(biāo),分配其重要性,度越大,默認(rèn)其更具備采樣留取價(jià)值,度越小,默認(rèn)其舍棄的概率就越大。
首先對(duì)于選取稀少的不平衡節(jié)點(diǎn)階段,我們會(huì)統(tǒng)計(jì)子圖中每個(gè)節(jié)點(diǎn)的標(biāo)簽,對(duì)子圖中每個(gè)節(jié)點(diǎn)v,會(huì)得到子圖下與v節(jié)點(diǎn)相同標(biāo)簽節(jié)點(diǎn)的個(gè)數(shù)
其中,N(v)表示子圖中所有節(jié)點(diǎn)的集合,表示子圖中除v節(jié)點(diǎn)以外的所有節(jié)點(diǎn)。顯然,在每個(gè)子圖中,最后我們會(huì)得到兩個(gè)值,一個(gè)是良性節(jié)點(diǎn)標(biāo)簽個(gè)數(shù),一個(gè)是欺詐節(jié)點(diǎn)標(biāo)簽個(gè)數(shù)。
針對(duì)剔除部分多類(lèi)節(jié)點(diǎn),我們同時(shí)統(tǒng)計(jì)子圖內(nèi)每個(gè)節(jié)點(diǎn)的度d(v),表示如下:
最終對(duì)每個(gè)節(jié)點(diǎn),給予其一個(gè)采樣概率p(v),結(jié)合式(1)和式(2),具體如下:
其中,A(:v)是v節(jié)點(diǎn)的歸一化鄰接矩陣的列,可以協(xié)助衡量v節(jié)點(diǎn)的一階鄰居節(jié)點(diǎn)數(shù)量信息,w是權(quán)重系數(shù),一般取0.01。ΣL(v)越大,顯示子圖中與v節(jié)點(diǎn)相同標(biāo)簽的節(jié)點(diǎn)就越多,屬于多類(lèi)節(jié)點(diǎn),選取概率就越小;d(v)一定程度上衡量了v節(jié)點(diǎn)的重要程度,在面對(duì)眾多多類(lèi)節(jié)點(diǎn)時(shí),可以有更大概率選取d(v)值較大的節(jié)點(diǎn)。
基于為每個(gè)關(guān)系選擇相似的鄰居,下一步是在關(guān)系之間聚合所有這些鄰居信息,以進(jìn)行全面嵌入。先前的方法使用注意力機(jī)制[23]或加權(quán)參數(shù)[26]來(lái)學(xué)習(xí)聚合過(guò)程中的關(guān)系權(quán)重。
不同關(guān)系下的閾值p由強(qiáng)化學(xué)習(xí)學(xué)得。形式上,用于中心節(jié)點(diǎn),關(guān)系r下,在第l層,可以如下定義關(guān)系內(nèi)鄰居聚合:
欺詐檢測(cè)問(wèn)題屬于節(jié)點(diǎn)分類(lèi)問(wèn)題,神經(jīng)網(wǎng)絡(luò)最后一層的輸出是節(jié)點(diǎn)的最終嵌入表示,通過(guò)softmax函數(shù)進(jìn)行分類(lèi)預(yù)測(cè)。我們將節(jié)點(diǎn)分類(lèi)階段產(chǎn)生的交叉熵?fù)p失函數(shù)定義為:
其中zv表示節(jié)點(diǎn)的最終嵌入表示。結(jié)合節(jié)點(diǎn)預(yù)測(cè)階段的損失函數(shù),在整個(gè)欺詐檢測(cè)的神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)過(guò)程中,我們可以得到需要訓(xùn)練的損失函數(shù)為:
本研究在真實(shí)世界數(shù)據(jù)集Yelp和Amazon上進(jìn)行實(shí)驗(yàn)。在這些數(shù)據(jù)集中,欺詐者成分的占比分別為14.5%和9.5%。表1給出了數(shù)據(jù)集所對(duì)應(yīng)的詳細(xì)項(xiàng)目信息。
表1 實(shí)驗(yàn)數(shù)據(jù)集Table 1 Experimental Data Sets
我們使用Yelp評(píng)論數(shù)據(jù)集[27]和Amazon評(píng)論數(shù)據(jù)集[28]來(lái)研究欺詐者偽裝和基于GNN的欺詐檢測(cè)問(wèn)題。Yelp數(shù)據(jù)集包括Yelp過(guò)濾(惡意用戶(hù))和推薦(合法)的酒店和餐廳評(píng)論。Amazon數(shù)據(jù)集包括樂(lè)器類(lèi)別下的產(chǎn)品評(píng)論。我們將超過(guò)80%有幫助投票的用戶(hù)標(biāo)記為良性實(shí)體,將低于20%有幫助投票用戶(hù)標(biāo)記為欺詐實(shí)體。盡管先前的工作提出了其他欺詐數(shù)據(jù)集,如Epinion[29]和Bitcoin[30],但它們只包含圖結(jié)構(gòu)和壓縮特征,我們無(wú)法使用這些結(jié)構(gòu)構(gòu)建有意義的多關(guān)系圖。在本文中,我們對(duì)Yelp數(shù)據(jù)集和Amazon數(shù)據(jù)集執(zhí)行垃圾郵件審查檢測(cè)(欺詐用戶(hù)檢測(cè))任務(wù),這是一個(gè)二進(jìn)制分類(lèi)任務(wù)。
Yelp數(shù)據(jù)集下存在三個(gè)關(guān)系:(1)R-U-R:它連接同一用戶(hù)發(fā)布的評(píng)論;(2)R-T-R:它連接了具有相同星級(jí)的相同產(chǎn)品(1-5星級(jí));(3)R-S-R:它將同一個(gè)月發(fā)布的同一產(chǎn)品下的兩篇評(píng)論聯(lián)系起來(lái)。
Amazon數(shù)據(jù)集下存在三個(gè)關(guān)系:(1)U-P-U:它將審查至少一個(gè)相同產(chǎn)品的用戶(hù)連接起來(lái);(2)U-S-U:連接一周內(nèi)至少有一個(gè)相同星級(jí)的用戶(hù);(3)U-V-U:它將所有用戶(hù)中相互審查文本相似度最高的5%(由TF-IDF衡量)的用戶(hù)聯(lián)系起來(lái)。
在本次實(shí)驗(yàn)中,我們采用常用的評(píng)價(jià)指標(biāo)ROC-AUC(AUC)和Recall來(lái)評(píng)估欺詐檢測(cè)方法的效果,AUC和Recall也是欺詐檢測(cè)領(lǐng)域常用的兩種性能指標(biāo)衡量方法。
Recall表示的是樣本中的正例有多少被預(yù)測(cè)正確了,即所有正例中被正確預(yù)測(cè)出來(lái)的比例,其公式表達(dá)如下:
其中,TP表示將正類(lèi)預(yù)測(cè)為正類(lèi)的數(shù)量,F(xiàn)N表示將正類(lèi)錯(cuò)誤地預(yù)測(cè)為負(fù)類(lèi)的數(shù)量,因此TP+FN表示樣本中所有正類(lèi)的個(gè)數(shù)。
在介紹AUC指標(biāo)之前,我們先了解以下兩個(gè)概念,偽陽(yáng)性率FPR和真陽(yáng)性率TPR,它們的計(jì)算表達(dá)分別如下:
其中FP表示將本該為負(fù)類(lèi)樣本預(yù)測(cè)判定為正類(lèi)樣本的數(shù)量,TN表示本來(lái)為負(fù)類(lèi)樣本,正確預(yù)測(cè)為負(fù)類(lèi)樣本的數(shù)量,因此偽陽(yáng)性率FPR表示將原本負(fù)類(lèi)樣本錯(cuò)誤判定為正類(lèi)的概率,并且偽陽(yáng)性率FPR值越小代表算法表現(xiàn)越好;真陽(yáng)性率TPR表示將原本正類(lèi)樣本正確判定為正類(lèi)的概率,并且真陽(yáng)性率TPR值越大代表算法表現(xiàn)越好。
我們以FPR值為橫軸,以TPR值為縱軸,可以得出算法的ROC曲線,AUC便是ROC曲線下的面積,顯然此面積越大代表算法性能越好。故結(jié)合式(14)和式(15),AUC計(jì)算ROC曲線下的面積表達(dá)公式如下,其中m表示樣本個(gè)數(shù):
為了驗(yàn)證PS-GNN在解決欺詐檢測(cè)中類(lèi)別不平衡問(wèn)題的效果,我們將其與半監(jiān)督學(xué)習(xí)設(shè)置下的各種GNN基線進(jìn)行了比較。我們選擇GCN和GraphSAGE來(lái)表示一般的GNN模型。我們選擇CARE-GNN[31]、SemiGNN[32]和Rio-GNN作為三種最先進(jìn)的基于GNN的欺詐檢測(cè)器。
在Yelp 和Amazon 數(shù)據(jù)集中,我們選取40%作訓(xùn)練集,60%數(shù)據(jù)作為測(cè)試集,并進(jìn)行小批量重復(fù)實(shí)驗(yàn)。例如,Yelp 數(shù)據(jù)集中,訓(xùn)練集由4777 個(gè)節(jié)點(diǎn)組成,在每一批次訓(xùn)練中,數(shù)據(jù)集會(huì)被重新隨機(jī)欠采樣欺詐節(jié)點(diǎn)。
在我們的實(shí)驗(yàn)中,模型由神經(jīng)網(wǎng)絡(luò)構(gòu)成,實(shí)現(xiàn)方法基于Python以及pytorch框架,其中超參數(shù)λ1默認(rèn)為2、λ2默認(rèn)為1e-3,隱藏層數(shù)默認(rèn)為2層,神經(jīng)元個(gè)數(shù)默認(rèn)為64。在實(shí)驗(yàn)結(jié)果中匯報(bào)的值是多個(gè)源項(xiàng)目進(jìn)行驗(yàn)證后的平均值。其中,每次驗(yàn)證的結(jié)果是在最優(yōu)的參數(shù)配置下模型收斂時(shí)的平均性能。我們采用的策略是對(duì)于每個(gè)目標(biāo)項(xiàng)目的同一種參數(shù)配置,以其能在所有的源項(xiàng)目取得最優(yōu)平均值的參數(shù)組合作為最佳的參數(shù)配置。
為了評(píng)估基于精準(zhǔn)化采樣自適應(yīng)鄰域的多關(guān)系圖神經(jīng)網(wǎng)絡(luò)PS-GNN在欺詐檢測(cè)中的有效性,我們研究了以下兩個(gè)問(wèn)題。
RQ1:PS-GNN是否比目前的其他欺詐檢測(cè)器有更好的性能效果?
RQ2:調(diào)整神經(jīng)網(wǎng)絡(luò)隱藏層數(shù)和神經(jīng)元個(gè)數(shù)是否能有更好的效果?
為了驗(yàn)證RQ1,我們將PS-GNN模型與其他幾個(gè)比較常見(jiàn)和較新的欺詐檢測(cè)模型方法進(jìn)行了對(duì)比實(shí)驗(yàn),比較的指標(biāo)是AUC分?jǐn)?shù)和Recall分?jǐn)?shù),實(shí)驗(yàn)的結(jié)果見(jiàn)表2。
表2 PS-GNN 與其他欺詐檢測(cè)方法性能比較Table 2 Performance Comparison Between PS-GNN and Other Fraud Detection Methods
一般的GNN模型方法GCN和GraphSAGE并沒(méi)有考慮不同關(guān)系下的鄰居聚合,也沒(méi)有精準(zhǔn)化采樣策略。與這兩種方法相比,在Yelp數(shù)據(jù)集中,在AUC指標(biāo)和Recall指標(biāo)上,我們的方法提高了45%-55%。在Amazon數(shù)據(jù)集中,AUC指標(biāo)和Recall指標(biāo)上,我們的方法提高了27%-32%。
最先進(jìn)的基于GNN的欺詐檢測(cè)算法CARE-GNN與Rio-GNN,考慮了圖上的多關(guān)系,卻沒(méi)有精準(zhǔn)化采樣策略。與這兩種方法相比,在Yelp數(shù)據(jù)集中,在AUC指標(biāo)上我們的方法分別比CARE-GNN和RioGNN提高了3.94%-10.1%;在Recall指標(biāo)上我們的方法分別比CARE-GNN和RioGNN提高了4.73%-5.62%。在Amazon數(shù)據(jù)集中,在AUC指標(biāo)上我們的方法分別 比CARE-GNN和RioGNN提高了3.94%-7.62%;在Recall指標(biāo)上我們的方法分別比CARE-GNN和RioGNN提高了0.06%-0.7%。
為了強(qiáng)化顯示在大型多關(guān)系圖上引入新型精準(zhǔn)化采樣策略的效果,我們將PS-GNN與CARE-GNN進(jìn)行對(duì)比,比較每個(gè)訓(xùn)練批次下的AUC和Recall分?jǐn)?shù)變化。實(shí)驗(yàn)結(jié)果如圖2和圖3所示。
圖2、圖3、圖4顯示,隨著訓(xùn)練批次的增加,在Recall,AUC和F1指標(biāo)上,PS-GNN表現(xiàn)效果均比CARE-GNN要好,證明了我們?cè)黾有滦途珳?zhǔn)化采樣策略后有提升效果。綜上,PS-GNN明顯優(yōu)于傳統(tǒng)一般GNN欺詐檢測(cè)模型算法,并且對(duì)比現(xiàn)有最新模型,仍有提升。
圖2 隨訓(xùn)練批次Recall 分?jǐn)?shù)對(duì)比Fig.2 Comparison of Recall Scores Between Training Batches
圖3 隨訓(xùn)練批次AUC 分?jǐn)?shù)對(duì)比Fig.3 Comparison of AUC Scores Between Training Batches
圖4 隨批次F1分?jǐn)?shù)的對(duì)比Fig.4 Comparison of F1 Scores Between Training Batches
為了驗(yàn)證RQ2,我們選擇上述實(shí)驗(yàn)中表現(xiàn)比較好的CARE-GNN,RioGNN以及我們的PS-GNN進(jìn)行進(jìn)一步實(shí)驗(yàn),調(diào)整神經(jīng)網(wǎng)絡(luò)隱藏層數(shù)layer和神經(jīng)元個(gè)數(shù)embed-size,實(shí)驗(yàn)結(jié)果如表3、表4所示。
從表3、表4中可以看出,針對(duì)不同欺詐檢測(cè)算法,控制其神經(jīng)元個(gè)數(shù)與網(wǎng)絡(luò)層數(shù),對(duì)其效果有波動(dòng)影響,選擇合理的網(wǎng)絡(luò)層數(shù)和神經(jīng)元個(gè)數(shù),會(huì)促進(jìn)模型收斂到一個(gè)好的性能。
表3 Yelp 數(shù)據(jù)集下調(diào)整網(wǎng)絡(luò)層數(shù)和神經(jīng)元性能比較Table 3 Performance Comparison of Adjusting Network Layers and Neuron Using Yelp Data Set
表4 Amazon 數(shù)據(jù)集下調(diào)整網(wǎng)絡(luò)層數(shù)和神經(jīng)元性能比較Table 4 Performance Comparison of Adjusting Network Layers and Neuron Using Amazon Data Set
總之,我們提出的PS-GNN對(duì)比其他方法有較好的性能提升并有著魯棒性,具有指導(dǎo)意義和實(shí)踐價(jià)值。
為了更好的闡釋我們的模型中的精準(zhǔn)化采樣策略,我們結(jié)合實(shí)驗(yàn)中在Yelp數(shù)據(jù)集上的一個(gè)具體例子進(jìn)一步分析說(shuō)明。
如圖5,給出的是在Yelp數(shù)據(jù)集下,某一個(gè)批次訓(xùn)練中,子圖節(jié)點(diǎn)樣本圖的采樣示例,其中,為了方便表述與區(qū)分,我們給這8個(gè)節(jié)點(diǎn)標(biāo)注序號(hào)a,b,c,d,e,f,g,h(實(shí)驗(yàn)中為索引數(shù)字序號(hào))。Yelp數(shù)據(jù)集下存在三種關(guān)系,分別用關(guān)系1、關(guān)系2、關(guān)系3表示,a、c節(jié)點(diǎn)表示欺詐節(jié)點(diǎn),其余節(jié)點(diǎn)表示良性正常節(jié)點(diǎn)。
圖5 Yelp 數(shù)據(jù)集下精準(zhǔn)化采樣策略示意說(shuō)明圖Fig.5 Schematic Diagram of Precise Sampling Strategy Using Yelp Dataset
a節(jié)點(diǎn)的度為d(a)=4,a節(jié)點(diǎn)的采樣概率為
b節(jié)點(diǎn)的度為d(b)=2,b節(jié)點(diǎn)的采樣概率為
c節(jié)點(diǎn)的度為d(c)=3,c節(jié)點(diǎn)的采樣概率為
d節(jié)點(diǎn)的度為d(d)=2,d節(jié)點(diǎn)的采樣概率為
e節(jié)點(diǎn)的度為d(e)=1,e節(jié)點(diǎn)的采樣概率為
f節(jié)點(diǎn)的度為d(f)=1,f節(jié)點(diǎn)的采樣概率為
g節(jié)點(diǎn)的度為d(g)=1,g節(jié)點(diǎn)的采樣概率為
h節(jié)點(diǎn)的度為d(h)=2,h節(jié)點(diǎn)的采樣概率為
根據(jù)計(jì)算得出的采樣概率,最終采樣出a、b、c、d、h這5個(gè)節(jié)點(diǎn),欺詐節(jié)點(diǎn)和正常用戶(hù)節(jié)點(diǎn)個(gè)數(shù)比例為2:3,消除了原先的不平衡性。
觀察各個(gè)采樣概率發(fā)現(xiàn),欺詐節(jié)點(diǎn)a、c節(jié)點(diǎn)采樣概率明顯高于其它正常節(jié)點(diǎn),這也說(shuō)明了少數(shù)類(lèi)的節(jié)點(diǎn)往往有更大的可能性被納入采樣。而普通節(jié)點(diǎn)中,只有b、d、h被納入采樣,這是因?yàn)橥瑸槎鄶?shù)類(lèi)的節(jié)點(diǎn),b、d、h節(jié)點(diǎn)的度卻高于其他正常節(jié)點(diǎn),因此會(huì)被認(rèn)為相對(duì)更加“重要”,也就對(duì)比其它正常節(jié)點(diǎn)更有概率被選中。
同理,在關(guān)系2下,采樣出a、c、d、e、g、h節(jié)點(diǎn),在關(guān)系3下采樣出a、b、c、f、h節(jié)點(diǎn),然后再進(jìn)行下一步的多關(guān)系聚合嵌入操作。
基于精準(zhǔn)化采樣自適應(yīng)鄰域的多關(guān)系圖神經(jīng)網(wǎng)絡(luò)方法是我們?cè)陔娮由虅?wù)水軍檢測(cè)領(lǐng)域提出的一種新型方法,該類(lèi)方法可應(yīng)用于日益流行的多關(guān)系大型圖上,因此具有非常強(qiáng)大的實(shí)用性。
針對(duì)現(xiàn)有的電子商務(wù)水軍檢測(cè)算法并不能在大型多關(guān)系圖上解決欺詐節(jié)點(diǎn)類(lèi)別不平衡的問(wèn)題,本文基于多關(guān)系圖神經(jīng)網(wǎng)絡(luò)算法原理,結(jié)合全卷積網(wǎng)絡(luò)對(duì)未標(biāo)注標(biāo)簽預(yù)測(cè),接著引入新型的精準(zhǔn)化采樣策略,緩解欺詐節(jié)點(diǎn)類(lèi)別不平衡帶來(lái)的影響,通過(guò)自適應(yīng)鄰域下的多關(guān)系信息聚合,可以更加精確地進(jìn)行節(jié)點(diǎn)特征的嵌入表達(dá),最終進(jìn)行節(jié)點(diǎn)的二分類(lèi)。通過(guò)在兩個(gè)真是數(shù)據(jù)集上的實(shí)驗(yàn),對(duì)比多種先進(jìn)的水軍欺詐檢測(cè)算法,驗(yàn)證了本文所提出的新型電子商務(wù)水軍檢測(cè)算法可以緩解大型多關(guān)系圖上欺詐節(jié)點(diǎn)類(lèi)別不平衡的問(wèn)題,有一定的創(chuàng)新性和有效性。
作者貢獻(xiàn)說(shuō)明
徐瑞卿:提出研究思路,設(shè)計(jì)研究方案,進(jìn)行實(shí)驗(yàn),論文初稿撰寫(xiě)與修訂;
張志旺:修改論文;
孫宏亮:提供研究思路,指導(dǎo)研究方向,論文修訂。
支撐數(shù)據(jù)
支撐數(shù)據(jù)由作者自存儲(chǔ),E-mail:hlsun84@mail.ustc.edu.cn。
1.徐瑞卿,孫宏亮.Amazon.csv.Amazon 用戶(hù)點(diǎn)評(píng)數(shù)據(jù).
2.徐瑞卿,孫宏亮.Yelp.csv.Yelp 用戶(hù)點(diǎn)評(píng)數(shù)據(jù).