何湘東+++魏吉勇
【 摘 要 】 B2B電商平臺的欺詐問題一直困擾著電商平臺的經(jīng)營者。以往利用數(shù)據(jù)挖掘技術(shù)解決B2B問題的研究中仍然存在著一些不足。論文利用真實B2B平臺公司數(shù)據(jù),采用基于決策樹(Decision tree)的集成學(xué)習(xí)算法——Easy-Ensemble對B2B平臺反欺詐問題進行研究。實驗結(jié)果表明,Easy-Ensemble算法的確是解決數(shù)據(jù)類別不平衡性的一個有效的算法,適用于B2B平臺反欺詐問題研究。論文在實驗結(jié)果的基礎(chǔ)上進行深入的商業(yè)分析,為B2B企業(yè)欺詐問題提出行之有效的建議。
【 關(guān)鍵詞 】 B2B平臺;反欺詐;數(shù)據(jù)挖掘;類別不平衡;代價敏感性
【 中圖分類號 】 TP391
【 文獻標識碼 】 A
Research on the B2B Platform Anti-fraud Problem
He Xiang-dong 1 Wei Ji-yong 2
(1.Network and Information Center, Nanjing University JiangsuNanjing 210023;
2.School of Management, Nanjing University JiangsuNanjing 210093)
【 Abstract 】 The fraud in B2B business platform has troubled the platform operations. There are still many gaps and deficiencies in data mining technology area about how to solve these frauds. This paper use the real data of a large B2B e-commerce company and chose the ensemble algorithm ╞ Easy-Ensemble, which is based on Decision Tree to deal with the problem of B2B fraud. From the experiments results, we can find that Easy-Ensemble algorithm is effective to solve the problem of class imbalance and suit to solve the problem of B2B anti-fraud. As a result, we can provide supports and suggestions for the anti-fraud problems on B2B platform.
【 Keywords 】 b2b platform; anti-fraud; data mining; class imbalance; cost-sensitive
1 引言
隨著互聯(lián)網(wǎng)和信息技術(shù)的高速發(fā)展,電子商務(wù)以其高效益,低成本等特點,為企業(yè)尤其是中小企業(yè),提供了更為廣闊的發(fā)展空間。然而在電子商務(wù)高速發(fā)展的今天,其商業(yè)進行中隱藏的問題也逐漸暴露出來。最為顯著的問題就是電子商務(wù)欺詐問題。B2B(Business to Business)是企業(yè)與企業(yè)之間通過互聯(lián)網(wǎng)進行產(chǎn)品、服務(wù)及信息的交換。B2B網(wǎng)站為買賣雙方提供信息交流的網(wǎng)絡(luò)商業(yè)平臺并為用戶提供網(wǎng)上交流的條件,促成交易的機會。但是往往網(wǎng)站中的信息存在欺詐性,會對交易受欺詐方和平臺方造成較大的損害。
本文的研究目在于解決B2B平臺上欺詐檢測問題?;谄脚_上的買家或賣家的數(shù)據(jù)對客戶進行分類識別。從而增強B2B平臺運營商對其網(wǎng)站上的欺詐用戶識別與預(yù)防能力,從而保護用戶的權(quán)益,維護平臺的穩(wěn)定發(fā)展。目前有研究者利用數(shù)據(jù)挖掘技術(shù)解決B2B電商平臺的欺詐問題,但現(xiàn)有研究仍然存在一些不足:第一,在線欺詐問題描述性的較多,提出實際解決方案的研究比較少;第二,缺乏用來進行實驗的真實數(shù)據(jù);第三,以往研究很少考慮到類別不平衡問題與代價敏感問題。本文利用集成學(xué)習(xí)算法——Easy-Ensemble[1]對真實B2B企業(yè)數(shù)據(jù)進行應(yīng)用,并于其他算法進行比較論證分析。
2 相關(guān)文獻回顧
2.1 傳統(tǒng)反欺詐的研究
欺詐指交易方有意隱瞞或提供錯誤的與交易相關(guān)的信息以獲得經(jīng)濟利益的行為,是感知風險的一種。從根本上講,B2B在線欺詐行為的出現(xiàn)可以用“信息不對稱”進行解釋。在信息不對稱的情況下,賣方擁有比買方更多的關(guān)于交易對象的信息 [2]。
近十幾年國內(nèi)對電子商務(wù)的研究主要是新的技術(shù)帶來的商業(yè)模式以及新的觀念等方面 [3]。通過對相關(guān)文獻的回顧,可以發(fā)現(xiàn)對于B2B平臺反欺詐問題的研究主要包括兩方面:一是欺詐預(yù)防;二是欺詐檢測。欺詐預(yù)防指的是起初就采取有效措施阻止欺詐發(fā)生;而欺詐檢測指的是當預(yù)防措施無效時,能夠用最短的時間識別欺詐的方法[4]。大部分的研究都會同時涉及這兩個方面。從信任機制的角度入手,有學(xué)者利用實證方法比較系統(tǒng)地研究了影響B(tài)2B電子商務(wù)風險的因素[5]。根據(jù)Selmar Meents等(2003)實證研究中所分析的聲譽因素在B2B在線交易中的正向影響效應(yīng)[6],Josang等人(2007)提出了關(guān)于基于名聲的信任機制 [7]。Rafael Maranzato等(2010)在電子商務(wù)平臺聲譽系統(tǒng)的基礎(chǔ)上運用邏輯回歸和逐步優(yōu)化的方法進行網(wǎng)上欺詐的研究[8]。
2.2 基于數(shù)據(jù)挖掘的B2B平臺反欺詐研究
目前,數(shù)據(jù)挖掘方法解決B2B平臺反欺詐問題研究有很多,大多集中于從描述性的角度[11]和欺詐預(yù)測的角度[12]來進展開。其中,Chang(2011)[12]運用決策樹進行分類,Zhang等人(2011)使用了邏輯回歸的方法[13],Pandit等人(2007)使用馬爾可夫隨機域模型的方法[14]。
此外,欺詐問題的研究還關(guān)注了類別不平衡性問題,在數(shù)據(jù)挖掘的研究中,一般是假定用于訓(xùn)練的數(shù)據(jù)集類型是平衡的,即各類所擁有的樣本數(shù)量是大致相當?shù)模欢@一假設(shè)在很多真實問題中是不成立的。例如在欺詐問題方面,欺詐的數(shù)據(jù)量遠遠小于非欺詐的數(shù)據(jù)量,在這種情況下,分類器通常會傾向于將測試樣本全部判別為大類而忽視了小類,可想而知,由此得到的分類器在小類的預(yù)測上效果會很差。Weiss G(2004)指出分類器在不平衡數(shù)據(jù)上性能下降的原因有:不恰當?shù)男阅茉u價準則、不恰當?shù)臍w納偏置、一類樣本數(shù)目過少產(chǎn)生的絕對稀少問題等[15]。
3 Easy-Ensemble算法
Easy-Ensemble算法首先是多次獨立地利用隨機下采樣的方法,將大類樣本劃分成多個與小類樣本平衡的子集,然后將如此得到的數(shù)據(jù)集進行訓(xùn)練得到多個分類器,然后將多次獨立的下采樣方法得到不同的分類器進行了集成;本算法可顯著的提高下采樣方法在類別不平衡問題上的性能,同時繼承了下采樣方法的高效性。該算法的原理是:
對于二元分類的類別不平衡問題,設(shè)定小類為正類,用字母P表示,大類為反類,用字母N表示,運用下采樣的方法,從N中隨機采樣得到其子集,我們用N'來表示,并且有| N' |<| N |。為使類別平衡,一般地會使| N' |=| P |。
Easy-Ensemble方法是采取了一種直接的集成策略,它充分利用隨機下采樣方法所忽略的大類樣本,我們用N∩N'表示。在Easy-Ensemble方法中,隨機下采樣方法被獨立的使用多次,因此得到多個大類的子集N1,N2,…,NT 。然后將每個子集Ni(1
因此,最終的Easy-Ensemble得到是一個集成分類器,Easy-Ensemble方法使用了所有的小類樣本。當小類樣本很少時,充分地利用每個小類樣本是非常重要的。本研究要解決的問題就是小類樣本—欺詐用戶樣本信息較少的分類問題,而且通過解決類別不平衡問題,可以提高小類樣本分類的正確類,從而也解決了小類樣本誤分類帶來的高額代價,因此解決本文的問題,可以采用Easy-Ensemble算法。
4 實驗結(jié)果與分析
4.1 實驗設(shè)計
本研究的數(shù)據(jù)來源于國內(nèi)一家大型B2B平臺公司,該公司注冊會員記錄大約有300萬。文中使用2012年1月至9月的數(shù)據(jù),選取數(shù)據(jù)的方式是,首先收集全部欺詐數(shù)據(jù),然后再從非欺詐數(shù)據(jù)中隨機抽取一部分非欺詐數(shù)據(jù)。最終數(shù)據(jù)集中包含正常數(shù)據(jù)1250條,欺詐數(shù)據(jù)33條。
首先將原始信息進行預(yù)處理,得到的主要屬性:1)公司ID號標識一家公司的唯一編號;2)欺詐與否的標簽(其中0代表非欺詐用戶,1代表欺詐用戶);3)是否是金牌會員(其中0代表非金牌會員,1代表金牌會員);4)是否購買質(zhì)量認證;5)用戶從注冊到數(shù)據(jù)更新時刻的時間間隔(月);6)平均每天的登錄次數(shù);7)平均每個月的登陸天數(shù);8)該公司產(chǎn)品總共被搜索次數(shù);9)該公司商情總共被搜索次數(shù);10)訪問公司數(shù);11)訪問產(chǎn)品數(shù);12)收詢盤總數(shù);13)回復(fù)詢盤總數(shù);14)閱讀盤總數(shù);15)產(chǎn)品更新天數(shù);16)產(chǎn)品總數(shù);17)該公司所包含的三級行業(yè)數(shù);18)IP數(shù);19)近30天的產(chǎn)品數(shù);20)近30天的三級行業(yè)數(shù);21)近30天的產(chǎn)品關(guān)鍵詞均值;22)產(chǎn)品關(guān)鍵詞均值;23)總訪問頁面次數(shù);24)總搜索次數(shù);25)購買服務(wù)的金額。
實驗中將本文采用的Easy-Ensemble算法與決策樹算法、貝葉斯分類器以及SVM 算法進行比較,以驗證Easy-Ensemble算法是否適合B2B平臺反欺詐這類問題。實驗采用Weka 3.7.10軟件中提供的相關(guān)算法以及用Matlab編寫的Easy-Ensemble算法進行實驗分析。
4.2 實驗結(jié)果與分析
本節(jié)將討論實驗結(jié)果,并對實驗結(jié)果進行分析,如表1所示。
從四種算法的實驗結(jié)果中可以看出,與三種比較算法相比,Easy-Ensemble算法除F-measure指標表現(xiàn)較差外,G-mean和AUC指標表現(xiàn)更優(yōu)。對于F-measure指標進行進一步的分析,Easy-Ensemble算法在正確類的分類上,效果較其他幾個算法是不太理想的,但G-mean和AUC兩項指標說明該算法在分類時的第一類錯誤率和第二類錯誤率較低, Easy-Ensemble算法的Confusion矩陣如表2所示。
通過對表2的分析可以看出, Easy-Ensemble算法的準確率以及第一類誤判率情況為:分類準確率為92.67%,說明該算法的分類準確性依然很高;第一類誤判率為7.28%,這說明Easy-Ensemble算法在數(shù)據(jù)類別不平衡度較高的情況下將好用戶分類的錯誤率也是比較低的。對于第二類誤判率,也是我們比較關(guān)心的指標,Easy-Ensemble算法的實驗結(jié)果是9.09%,說明當數(shù)據(jù)類別不平衡程度較大時,該算法不會將更多的欺詐用戶預(yù)測為好用戶。
將2012年份的樣本數(shù)據(jù)使用Easy-Ensemble算法進行運行,最后將欺詐與非欺詐的數(shù)據(jù)進行區(qū)分之后,得到的模型如圖1所示。通過該圖可以看出是V _CNT(訪問其他用戶的總次數(shù)),S_PROD_CNT(用戶產(chǎn)品被搜索的次數(shù)),MONEY(購買服務(wù)的金額),S_OFFER_CNT(用戶商情被搜索的次數(shù)),INTER_ADD_TIME(從注冊到數(shù)據(jù)更新時刻的時間間隔),這些屬性需要重點監(jiān)測。
綜上分析,文中驗證了Easy-Ensemble算法能夠有效解決數(shù)據(jù)類別不平衡性,并且適用于本文研究的研究問題。通過實驗得到的實驗結(jié)果是本文重要的分析依據(jù),基于此本文將對B2B企業(yè)反欺詐給出意見及建議。
5 B2B電商企業(yè)反欺詐策略
通過以上實驗結(jié)果的分析,本文為電商平臺企業(yè)提供指導(dǎo)性建議。
(1)增加在線支付的功能,或者是交易款項的擔保功能。這樣將使得買賣雙方交易時更加放心,進而降低了欺詐的發(fā)生,從而也更好地促進電商行業(yè)的發(fā)展。
(2)增加物流配送功能,電商平臺可以很好地清楚賣方是否提供符合要求的貨物,而且也可以保證貨物能夠在規(guī)定的、可控的時間內(nèi)到達買方指定的地點。
(3)完善電商平臺上及時通訊軟件的功能,如文字、音頻、視頻、大容量文件的傳輸功能等,且一定要保證該軟件使用的安全性,讓買賣雙方更愿意使用平臺自帶的通訊軟件來交流,且能夠滿足各種交流方式的需求。
(4)若B2B交易的額度較高,可以對交易雙方的公司進行實地的考察,保證巨大交易金額背后的公司具有負擔如此巨額貨款的實力,進而降低交易的風險。
(5)針對有信譽或者信用等級較高的用戶,也需要認識和了解欺詐行為發(fā)生的規(guī)律,即分類算法得到的決策樹結(jié)果,從而有依據(jù)地提高自身甄別欺詐用戶的水平,并創(chuàng)建口碑傳播的相關(guān)機制。
本文引言部分提到在目前數(shù)據(jù)挖掘技術(shù)解決B2B平臺反欺詐問題的研究中存在三個問題:一是在線欺詐問題描述性的較多,提出實際解決方案的研究比較少;二是缺乏用來進行實驗的真實數(shù)據(jù);三是很少考慮到類別不平衡問題與代價敏感問題。本文從所采用的方法,到實驗用到的數(shù)據(jù),再到根據(jù)實驗結(jié)果給出的商業(yè)建議,很好地回答以上三個問題,希望能為B2B電商企業(yè)反欺詐問題提供一些借鑒。
參考文獻
[1] Liu X., Wu J., Zhou Z.(2009) Exploratoryunder-sampling for class-imbalance learning.IEEE Transactions on Systems, Man, and CyberneticsPart B: Cybernetics, 39(2), 539-550. DOI:10.1109/TSMCB.2008.2007853.
[2] Mishra D.P., Heide J.B. and Cort, S.G. Information asymmetry and levels of agency relationships[J].Journal of Marketing Research,1998, 35(3):277-295.
[3] Zhang Rui, Gao Chang Yuan. Electronic Commerce Development of 13 years in China: A Literature Analysis[J].IEEE, 2011.
[4] Bolton,R. J., Hand, D. J. Statistical fraud detection: A review[J]. Statistical Science,2002,28(3), 235-255.
[5] Selmar Meents, Yao-Hua Tan and Tibert Verhagen. Distinguishing different types of trust in online B2B marketplaces[J].A Research Agenda for Emerging Electronic Markets, 2003: 53.
[6] Josang A,Ismail R,Boyd C.A survey of trust and reputation systems for online service provision[J].Decision Support Systems,2007,43(2):618-644.
[7] Maranzato R,Neubert M, Pereira A M, et al. Feature Extraction for Fraud Detection in Electronic Marketplaces[C]// Web Congress, 2009. LA-WEB '09. Latin American. IEEE, 2009:185-192.
[8] Almendra. Finding the needle: A risk-based ranking of product listings at online auction sites for non-delivery fraud prediction[J]. Expert Systems with Applications, 2013,2: 4805-4811.
[11] Gavish, B., & Tucci, C. Fraudulent auctions on the internet[J].Electronic Commerce Research, 2006, 6: 127-140.
[12] Chang, W.-H. and Chang, J.-S. A novel two-stage phased modeling framework for early fraud detection in online auctions[J].Expert Systems with Applications, 2011, 38:11244-11260.
[13] Zhang, L., Yang, J., Chu, W. and Tseng, B. A machine-learned proactive moderation system for auction fraud detection[C].In Proceedings of the 20th ACM international conference on Information and knowledge management CIKM 11. New York, NY, USA: ACM. 2011: 2501-2504.
[14] Pandit, S., Chau, D. H., Wang, S. and Faloutsos, C. NetProbe: A fast and scalable system for fraud detection in online auction networks[C]. In Proceedings of the 16th international conference on World Wide Web WWW 2007. Banff, Alberta, Canada: ACM Press.
[15] Weiss G. Mining with rarity: A unifying frame work[J].SIGKDD Explorations, 2004, 6(1):7-19.
作者簡介:
何湘東(1975-),男,滿族,吉林人,畢業(yè)于吉林大學(xué),碩士,南京大學(xué)網(wǎng)絡(luò)信息中心信息系統(tǒng)部主任,工程師;主要研究方向和關(guān)注領(lǐng)域:高校信息化建設(shè)、網(wǎng)絡(luò)安全。
魏吉勇(1988-),男,漢族,山東人,畢業(yè)于南京大學(xué),碩士,南京掌控網(wǎng)絡(luò)科技有限公司產(chǎn)品經(jīng)理;主要研究方向和關(guān)注領(lǐng)域:電子商務(wù)、云服務(wù)產(chǎn)品設(shè)計。