湯鑫
摘要:隨著信息時代的蓬勃發(fā)展,網(wǎng)絡(luò)訂單無序的爆炸式膨脹,交易數(shù)據(jù)可能出現(xiàn)的信息失真使得快速交易的風(fēng)險呈指數(shù)增長,導(dǎo)致越來越多的網(wǎng)絡(luò)欺詐行為被推向了風(fēng)口浪尖。本文通過分析網(wǎng)絡(luò)機(jī)票訂單的歷史數(shù)據(jù),采用主成分分析(Principal Component Analysis,PCA)的方法對其特征空間進(jìn)行降維,運(yùn)用支持向量機(jī)(Support Vector Machine,SVM)算法進(jìn)行模型訓(xùn)練,從數(shù)據(jù)和模型層面得到分類預(yù)測模型,從而實(shí)現(xiàn)對網(wǎng)絡(luò)訂單欺詐行為的風(fēng)險預(yù)測和監(jiān)控。
關(guān)鍵詞:主成分分析;支持向量機(jī);特征空間;風(fēng)險控制
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)35-0046-02
The Research and Application of SVM Algorithm Based on PCA in Network Fraud
TANG Xin
(College of Big Data and Computer Science, Guizhou Normal University, Guizhou 550025, China)
Abstract:With the prosperous of Internet Times, the inflation its no arrangements to online ordering and the information distortion that the transaction data may appear makes the risk of the rapid growing exponentially, which promote more and more online fraud to the top. The assignment, according to analysis the historic data of online flight and the feature space is reduced by the method of principal component analysis, and use model training to support vector machine algorithm.And we receive the sorts based on data and model, thus to realize the prediction and monitoring of the online fraud.
Key words:PCA;SVM;feature space;risk management
1 前言
在大數(shù)據(jù)時代,隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等技術(shù)如火如荼的運(yùn)用于世界的各個領(lǐng)域,滲透到醫(yī)療、科技、教育、經(jīng)濟(jì)等社會的各個層面,信息技術(shù)將“大數(shù)據(jù)”推向了一個新的高度,由于網(wǎng)絡(luò)訂單的日益流行,其行為方式在強(qiáng)大的高頻交易和程序化交易中凸顯出強(qiáng)烈的反差。網(wǎng)絡(luò)欺詐行為頻頻發(fā)生,使得數(shù)據(jù)的真實(shí)性和有效性屢見報端。因此,本文通過分析網(wǎng)絡(luò)機(jī)票歷史訂單的交易記錄,對海量的交易數(shù)據(jù)進(jìn)行人工分類、數(shù)據(jù)預(yù)處理、主成分分析降維后,利用支持向量機(jī)算法建立詐騙行為的分類預(yù)測模型,對未知的訂單數(shù)據(jù)進(jìn)行預(yù)測,從而實(shí)現(xiàn)網(wǎng)絡(luò)欺詐行為的監(jiān)控服務(wù)。
2 大數(shù)據(jù)風(fēng)控的現(xiàn)狀
全球知名咨詢公司麥肯錫提出:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來。”[1]
如今,在互聯(lián)網(wǎng)技術(shù)和信息技術(shù)的推動下,海量數(shù)據(jù)已然擺在面前,是機(jī)遇必然伴隨著挑戰(zhàn),[3]大數(shù)據(jù)風(fēng)險控制的浪潮已然深深撼動了整個世界,成為發(fā)達(dá)國家互聯(lián)網(wǎng)領(lǐng)域的標(biāo)準(zhǔn)配置。由于交易要求更快速的交易通道和更高效的策略模型,從而需要搭建風(fēng)控平臺,將風(fēng)控與大數(shù)據(jù)相結(jié)合,通過分析海量的網(wǎng)絡(luò)交易及行為數(shù)據(jù),運(yùn)用大量的指標(biāo)構(gòu)建能夠?qū)Υ罅匡L(fēng)險因子的相關(guān)性進(jìn)行描述、估測和模擬的統(tǒng)計模型,力圖探索靈活、準(zhǔn)確、高效描述各高維風(fēng)險因子之間的相依性,對其進(jìn)行預(yù)測評估,進(jìn)而實(shí)時風(fēng)險預(yù)測和交易監(jiān)控。
3實(shí)驗(yàn)過程
3.1數(shù)據(jù)獲取
本實(shí)驗(yàn)的實(shí)驗(yàn)環(huán)境來源于R 3.2.3,實(shí)驗(yàn)語言為R語言,實(shí)驗(yàn)數(shù)據(jù)來源于某公司機(jī)票訂購網(wǎng)站的真實(shí)交易信息,由于網(wǎng)站上線的產(chǎn)品變化,欺詐行為的特征隨之變化,早期的數(shù)據(jù)可能成為噪聲點(diǎn)。因此,本文只選擇近兩年的交易數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。
3.2人工選擇
由于非外卡交易數(shù)據(jù)量非常龐大,這可能會帶來預(yù)處理和模型訓(xùn)練過程的內(nèi)存壓力,因此需要消除相應(yīng)的冗余數(shù)據(jù),通過對機(jī)票業(yè)務(wù)的了解,人工從經(jīng)驗(yàn)或直觀上選擇字段特征,直接過濾掉與欺詐行為無關(guān)的客觀信息,如:訂單編號、車票編碼、供應(yīng)商id等特征。
3.3數(shù)據(jù)預(yù)處理
由于原始數(shù)據(jù)的特征是數(shù)據(jù)分析的重點(diǎn),在大量的數(shù)據(jù)字典中需要對數(shù)據(jù)集做去重處理,對于缺失值的處理,本文使用已有值的平均值來填補(bǔ)缺失數(shù)據(jù)。
3.4特征抽取和選擇
3.4.1量化選擇
通過量化選擇,采用信息熵的方法計算各特征字段給分類(欺詐/非欺詐)系統(tǒng)所帶來的信息增益量,從而權(quán)衡和量化字段特征的重要性,信息增益越大,特征字段越重要。本文選用信息增益量前20的字段作為模型特征來進(jìn)行實(shí)驗(yàn)。
3.4.2特征編碼
從選出的特征字段中,對類別型特征進(jìn)行編碼。遍歷整列數(shù)據(jù),依次將特征重組成一組新的向量,每個不同的特征對應(yīng)一個向量標(biāo)號,改向量索引特征中的每個值,將其替換為向量標(biāo)號。以此類推,依次處理每一列因子型的數(shù)據(jù),使得編碼后的特征只有數(shù)字。對于邏輯型的數(shù)據(jù),存在為1,不存在為0。再將處理后的因子型和邏輯型數(shù)據(jù)與已做完缺失值處理的整形和數(shù)值型的數(shù)據(jù)融合形成模型的輸入數(shù)值特征。
3.4.3特征空間降維
PCA是目前應(yīng)用較為廣泛的特征選擇方法[4],它是一種將多個變量通過線性變換以選出較少個數(shù)重要變量的多元統(tǒng)計分析方法,又稱主分量分析。這種方法意義明確,易于操作[4],能將原來眾多具有一定相關(guān)性的變量重新組合成一組新的互相無關(guān)的綜合指標(biāo)來代替原來的指標(biāo)。
由于經(jīng)過選擇后的特征詞匯維度依然較高,因此,本文選擇PCA的方法對量化后的向量空間進(jìn)行降維處理。
3.5模型訓(xùn)練
分類是利用已經(jīng)分類的數(shù)據(jù)對模型進(jìn)行訓(xùn)練,然后通過模型對未分類的數(shù)據(jù)進(jìn)行分類。模型的選擇對預(yù)測的效果至關(guān)重要。
支持向量機(jī)是新型的基于邊界的分類方法,以統(tǒng)計學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險最小化原則為基礎(chǔ),在模型的待定樣本學(xué)習(xí)精度和精準(zhǔn)的識別樣本能力之間運(yùn)用有限的樣本信息找尋最可靠的折中,展現(xiàn)了它在解決高維模式識別、局部小樣本以及非線性函數(shù)擬合等實(shí)際問題中的獨(dú)特優(yōu)勢。
因此,為了使模型復(fù)雜度適中以及避免“過擬合”現(xiàn)象,本文采用[C]-支持向量機(jī),選擇SVM算法的高斯徑向基核函數(shù):
[K(x,x')=exp-||x-x'||22σ2]
對已有的網(wǎng)絡(luò)訂單數(shù)據(jù)對未知的訂單數(shù)據(jù)進(jìn)行模型訓(xùn)練,在大量交易記錄中識別出"外卡"的欺詐行為,達(dá)到預(yù)測和監(jiān)控的目的。
4 實(shí)驗(yàn)評估
以機(jī)票訂單的非欺詐行為為正類,否則為負(fù)類,則精確度P(Precision)反映了被分類器判定的正例中真正的正例樣本的比重,召回率R(Recall)反映了被正確判定的正例占總的正例的比重,準(zhǔn)確率A(Accuracy)反映了分類器統(tǒng)對整個樣本的判定能力——能將正的判定為正,負(fù)的判定為負(fù),其計算方法如下:
[P=TPTP+FP]
[R=TPTP+FN]
[A=TP+TNP+N=TP+TNTP+FP+TN+FN]F1值為Precision和Recall的綜合指標(biāo),計算方法:
[2F1=1Precision+1Recall]
若不對原始數(shù)據(jù)做人工特征選擇和數(shù)據(jù)預(yù)處理的話,數(shù)據(jù)將無法繼續(xù)進(jìn)行實(shí)驗(yàn);若原始數(shù)據(jù)只經(jīng)過人工特征選擇、數(shù)據(jù)預(yù)處理,而未通過PCA降維的實(shí)驗(yàn)?zāi)P徒Y(jié)果對測試集預(yù)測的平均A = 92.447%;若通過PCA降維處理后,預(yù)測的準(zhǔn)確率將達(dá)到A=98.564%,實(shí)驗(yàn)?zāi)P蛯y試集預(yù)測的混淆矩陣(confusionMatrix)為:
通過實(shí)驗(yàn)結(jié)果看出,原始數(shù)據(jù)的預(yù)處理和數(shù)據(jù)的降維處理對預(yù)測結(jié)果的效果影響較大,經(jīng)過PCA處理后的各項(xiàng)預(yù)測參數(shù)都表現(xiàn)出了較高的性能,較好的提高了模型分類預(yù)測的準(zhǔn)確性,但對于SVM的核函數(shù)的參數(shù)選擇和數(shù)據(jù)缺失值的填補(bǔ)方法上也存在一些應(yīng)用上的改進(jìn),在模型的選擇方面,也可以嘗試更加高效的驗(yàn)證方法。
5 總結(jié)
總的來說,隨著科學(xué)技術(shù)的不斷發(fā)展,在線網(wǎng)絡(luò)訂單越發(fā)的普及,網(wǎng)絡(luò)欺詐行為也更加的多元化,由于本文僅僅是對某企業(yè)網(wǎng)絡(luò)交易訂單中的欺詐行為進(jìn)行預(yù)測分析,所以只是處于探索階段,對于如何更加高效準(zhǔn)確的監(jiān)控、預(yù)防網(wǎng)絡(luò)欺詐行為將是下一步工作的重點(diǎn)。
參考文獻(xiàn):
[1] 黃文,王正林. 數(shù)據(jù)挖掘:R語言實(shí)戰(zhàn)[M]. 北京: 電子工業(yè)出版社, 2014.
[2] 巴曙松,侯暢,唐時達(dá).大數(shù)據(jù)風(fēng)控的現(xiàn)狀、問題及優(yōu)化路徑[J].金融理論與實(shí)踐,2016(2).
[3] 若英.如何理解“大數(shù)據(jù)時代”?[J].紅旗文稿,2013(11).
[4] 范雪莉,馮海泓,原猛.基于互信息的主成分分析特征選擇算法[J].控制與決策,2013(6).
[5] 羅娜. 數(shù)據(jù)挖掘中的新方法——支持向量機(jī)[J].軟件導(dǎo)刊,2008(10).
[6] 李航.統(tǒng)計學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.
[7] Cortes C,Vapnik V.Support-vector networks.Machine Learning,1995,20.
[8] Filip Mulier.Vapnik-Chervonenkis (VC)learning theory and its applications.IEEE Transactions on Neural Networks,1999,10(5).
[9] VAPNIK V N. 統(tǒng)計學(xué)習(xí)理論[M].許建華,張學(xué)工,譯.北京: 電子工業(yè)出版社, 2004.
[10] 孔英會,景美麗.基于混淆矩陣和集成學(xué)習(xí)的分類方法研究[J].計算機(jī)工程與科學(xué),2012,34(6):111-117.
[11] 閆友彪,陳元琰.機(jī)器學(xué)習(xí)的主要策略綜述[J],2004(7):4-13.
[12] 張學(xué)工. 關(guān)于統(tǒng)計學(xué)習(xí)理論與支持向量機(jī)[J].自動化學(xué)報,2000,26(1): 32-41.