呂芳,湯豐赫,黃俊恒,王佰玲
金融網絡頻繁鏈路發(fā)現(xiàn)算法
呂芳,湯豐赫,黃俊恒,王佰玲
(哈爾濱工業(yè)大學(威海)計算機科學與技術學院,山東 威海 264209)
隨著各種非法金融活動的泛濫,從金融網絡中發(fā)現(xiàn)犯罪線索的分析研究越來越引起學者的重視。對銀行賬戶交易數(shù)據(jù)的特點進行了詳細分析,建立了銀行賬戶交易網絡通用模型。在此基礎上,為解決金融實體之間關系強度的評估問題,提出了雙向活躍邊搜索計算方法。為了還原犯罪組織的資金流動方式,提出了深度可控的廣度優(yōu)先頻繁鏈路發(fā)現(xiàn)方法。在真實銀行數(shù)據(jù)上的實驗證明,上述方法能有效解決同伙預測和資金追蹤問題。
雙向活躍邊;頻繁鏈路;同伙預測;資金追蹤
多年來,非法傳銷、非法集資、洗錢和詐騙等金融犯罪組織或犯罪活動屢禁不止。這些組織或活動在進行資金吸納和資金運作時,離不開銀行賬戶間的資金交易。隨著我國社會經濟的飛速發(fā)展,銀行賬戶的開戶數(shù)量以及賬戶間的交易數(shù)目和交易金額大幅增長。交易的非現(xiàn)金支付占整個支付系統(tǒng)比例超過70%。非現(xiàn)金支付和DT(data technology)時代的到來,使金融數(shù)據(jù)呈爆炸式增長。美國波士頓咨詢公司2015年發(fā)布的《互聯(lián)網金融生態(tài)系統(tǒng)2020系列報告之大數(shù)據(jù)篇》中指出,銀行業(yè)每創(chuàng)收1×106美元,平均產生820 GB的數(shù)據(jù)。金融犯罪組織的資金運轉線索隱藏在這龐大的銀行數(shù)據(jù)中。從銀行海量交易中挖掘賬戶實體的關系強度、挖掘非法資金的交易鏈路,對打擊經濟犯罪活動有直接的指導意義。
目前,由于銀行數(shù)據(jù)的保密性質,針對資金交易數(shù)據(jù)的分析研究還處于初級階段,有關研究主要體現(xiàn)在下幾個方面。
1) 在欺詐檢測方面:Yu等[1]將隨機游走算法應用于欺詐檢測中,以路徑是否經過認證節(jié)點為依據(jù),判定節(jié)點是否可疑。Tran等[2]在文獻[1]的基礎上,提出一種在隨機游走算法上結合廣度優(yōu)先搜索的改進系統(tǒng)。不同于上述從正常節(jié)點出發(fā)預測可疑節(jié)點的策略,Yang等[3]提出一種從已知可疑節(jié)點出發(fā)搜索可疑節(jié)點的算法;劉梟等[4]提出一種利用概率圖檢測可疑節(jié)點的方法。此外,結合規(guī)則庫的設計,丁濛濛[5]提出一個基于規(guī)則引擎的反欺詐模型,研究了規(guī)則匹配過程的優(yōu)化方法。
2) 在反洗錢研究方面:張成虎等[6]基于AI技術設計了一種反洗錢系統(tǒng)。喻煒等[7]基于交易網絡特征向量中心度量,提出了一種可疑洗錢行為檢測系統(tǒng)。孫景等[8]提出利用復雜網絡理論研究反洗錢的思路和方法。劉麗芳等[9]利用拓撲機構分析工具,分析了洗錢關聯(lián)賬戶之間的資金流轉關系。
3) 在非法傳銷研究方面:Wang等[10]提出了利用決策樹理論識別可疑客戶的框架。Liu等[11]采用線性判別和中心圖發(fā)現(xiàn)技術,建立了傳銷網絡核心人物和同伙判定模型。李艷麗等[12]從用戶社交行為數(shù)據(jù)中識別傳銷網絡模型,分別建立了正常、傳銷等不同性質用戶的“自我中心網絡”,進而根據(jù)網絡結構特性分析了傳銷用戶的行為特征。
以上這些研究均針對特定的金融犯罪活動,根據(jù)犯罪活動的不同模式和特點,設計啟發(fā)式、機器學習等方法檢測異常個體或異常組織。
在非法傳銷、非法集資、洗錢和虛開發(fā)票等需要多人協(xié)作完成犯罪的非法金融活動中,普遍存在初始資金通過多個賬戶中轉最終到達匯集賬戶的現(xiàn)象。如何快速、準確地挖掘出進行上述非法資金轉移的關系賬戶和交易鏈路,對打擊非法金融組織有直接的指導意義。
本文通過詳細分析銀行賬戶交易數(shù)據(jù)特點,首先構建了金融交易數(shù)據(jù)通用網絡模型;其次,在對銀行賬戶交易數(shù)據(jù)特點分析的基礎上,分別提出了評估賬戶實體關系強度的“雙向活躍邊”搜索計算方法和還原資金流向的深度可控廣度優(yōu)先“頻繁鏈路”發(fā)現(xiàn)算法。在真實銀行數(shù)據(jù)上的實驗結果證明,“雙向活躍邊”算法能有效預測傳銷同伙,“頻繁鏈路”發(fā)現(xiàn)算法能有效追蹤傳銷資金的去向。
如果把每一個銀行賬戶表示為網絡中的節(jié)點,賬戶間的交易關系表示為節(jié)點之間的有向邊,兩個節(jié)點之間交易的時間、金額、次數(shù)等信息表示為有向邊的權重,則銀行賬戶之間的交易構成一個有向加權金融交易網絡。根據(jù)金融交易網絡的特點,本文定義銀行賬戶交易網絡數(shù)學模型如下。
根據(jù)定義2,本文提出了一種雙向活躍邊搜索計算方法。
1) 雙向活躍邊搜索計算方法1
算法1 雙向活躍邊搜索計算方法1
5) end if
6) end for
2) 雙向活躍邊搜索計算方法2
算法2 雙向活躍邊搜索計算方法2
7) end if
8) end for
9) end for
在非法傳銷、非法集資、洗錢和詐騙等涉眾型非法金融活動中,資金的流向、流通方式均受違法者操控,即初始資金往往通過多個賬戶周轉到最終獲利賬戶,而且中轉賬戶在特定場景下是固定的。可見,在一段時間內,被操控的非法資金會多次由固定的賬戶順次進行流通。本文把這種多次發(fā)生的交易賬戶路徑稱作頻繁鏈路。
算法3 深度可控的廣度優(yōu)先頻繁鏈路發(fā)現(xiàn)算法
9) end if
10) end for
11) end if
12) end while
Inter(R) Core i7-7700HQ CPU@ 2.80 GHz,內存(RAM) 16 GB。軟件環(huán)境為:Python語言,Windows 7操作系統(tǒng)。
實驗數(shù)據(jù)來自某經偵部門經過脫敏處理、包含某大型線下傳銷組織的長期資金交易的銀行賬戶交易數(shù)據(jù),包含15 685個交易賬戶和227 231條交易信息,其中傳銷賬戶為1305個,可疑賬戶對之間的交易記錄為18 549條。
賬號對之間的直接交易反映了賬號的親密關系,多個賬號之間的頻繁資金流動反映了組織的資金流動模式。本節(jié)首先說明了線下傳銷組織的資金交易特點,然后分析了資金交易網絡中雙向活躍邊的存在情況,進而驗證了雙向活躍邊搜索計算算法在預測傳銷同伙應用中的準確性。針對頻繁鏈路挖掘算法,本文首先分析了傳銷組織交易頻繁環(huán)路的存在情況,然后給出了該算法用于資金追蹤的有效性。
1) 線下傳銷組織資金交易特點
線下傳銷組織的成員關系結構呈金字塔型,自頂向下的等級明確且不可逾越,且上下級之間是一對多的所屬關系。上級以拉人頭的形式進行會員擴張,下級以繳納會員費的形式加入組織,該過程中上級的收益方式為依據(jù)自身層級等因素獲得相應比例的返利提成。資金頻繁地從多個下級賬戶匯集到塔尖的最大獲利賬戶。因此,傳銷組織在資金流動上也呈現(xiàn)出一定的定向、環(huán)路現(xiàn)象。
圖1 線下傳銷資金流動方式
2) 雙向活躍邊實驗分析
3) 利用雙向活躍邊預測傳銷同伙
圖3 值對傳銷賬戶預測準確率的影響
4) 傳銷網絡中頻繁環(huán)路分析
由圖1可知,傳銷組織之間的資金交易關系存在穩(wěn)定的環(huán)結構。去掉資金交易發(fā)生的時間順序,將交易網絡視為靜態(tài)網絡,則網絡中由可疑賬戶產生的最大長度為8的交易鏈路共有233 764 835條。對真實網絡中存在于可疑賬戶之間的環(huán)結構的大小及相應數(shù)量分析如表1所示。
由表1可知,交易網絡中可疑賬戶之間存在的2節(jié)點環(huán)結構數(shù)量為210個,可見,傳銷組織中雙向的存在比例較低,且由實驗3)可知,當雙向邊的活躍度提高到一定閾值時,2節(jié)點環(huán)結構對傳銷組織的覆蓋率可達到70%。隨著環(huán)結構的增大,網絡中環(huán)結構的數(shù)量急劇增加,且長度為7時達到最大??梢?,可疑賬戶存在長度為7的環(huán)結構的概率極高。因此,驗證了圖1中資金交易的網絡關系。
表1 環(huán)結構存在情況分析
5) 頻繁鏈路挖掘算法分析
圖4 頻繁鏈路數(shù)隨閾值值變化
此外,實驗還分析了頻繁鏈路與傳銷組織資金交易鏈路的重合情況,如圖5所示。
圖5 頻繁鏈路對傳銷節(jié)點的覆蓋率
針對金融網絡實體關系強度計算問題,本文提出了雙向活躍邊的概念和搜索計算方法,該算法在傳銷同伙的預測方面取得了良好的效果。在實際應用中發(fā)現(xiàn),兩個賬號除具有直接關系外,還具有其他間接關系,為提高預測準確率,在下一步的研究中將加入對間接關系的計算。針對涉眾型金融犯罪的資金追蹤問題,本文提出了頻繁鏈路的概念和一種深度可控的廣度優(yōu)先頻繁鏈路挖掘算法,在真實的傳銷網絡的資金追蹤應用中取得了很好的效果。
以上兩種方法在面對海量數(shù)據(jù)量時容易遇到性能瓶頸。近年來,遺傳、蟻群等仿生算法在很多領域取得了很好的效果,接下來將開展利用仿生算法解決金融問題的分析研究。
[1] YU H, KAMINSKY M, Gibbons P B, et al. SybilGuard: defending against sybil attacks via social networks[J]. IEEE/ACM Transactions on Networking, 2008, 16(3):576-589.
[2] TRAN N, LI J, SUBRAMANIAN L, et al. Optimal Sybil-resilient node admission control[C]// IEEE Infocom. 2015.
[3] YANG C, HARKREADER R, ZHANG J, et al. Analyzing spammers' social networks for fun and profit: a case study of cyber criminal ecosystem on twitter[C]//International Conference on World Wide Web. 2012.
[4] 劉梟, 王曉國. 基于概率圖的銀行電信詐騙檢測方法[J]. 計算機科學, 2018, 45(7):122-128.
LIU X, WANG X G. Probabilistic graphical model based approach for bank telecommunication fraud detection[J]. Computer Science, 2018, 45(7): 122-128.
[5] 丁濛濛. 基于規(guī)則引擎的互聯(lián)網金融反欺詐研究[J]. 電腦知識與技術, 2018, 14(1):1-3.
DING M M. Internet finance anti-fraud research based on rule engine[J]. Computer Knowledge and Technology, 2018, 14(1):1-3.
[6] 張成虎, 李時. 基于AI技術的反洗錢系統(tǒng)設計[J]. 中國金融電腦,2005, (3):44-47.
ZHANG C H, LI S. Design of anti-money laundering system based on AI technology[J]. Financial Computer of China, 2005, (3): 44-47.
[7] 喻煒, 王建東. 基于交易網絡特征向量中心度量的可疑洗錢識別系統(tǒng)[J]. 計算機應用, 2009,29(9):2581-2585.
YU Y, WANG J D. Suspicious money laundering detection system based on eigenvector centrality measure of transaction network[J]. Journal of Computer Applications, 2009, 29(9): 2581-2585.
[8] 孫景, 陳婧, 萬紅. 基于復雜網絡的可疑金融交易識別研究[J]. 數(shù)字技術與應用, 2013, 4(149):206-207.
SUN J, CHEN J, WAN H. Research on suspicious financial transaction identification based on complex network[J]. Digital Technology and Application, 2013, 4(149):206-207.
[9] 劉麗芳, 陶文立, 陳延妙. 拓撲工具在反洗錢關聯(lián)賬戶資金流分析中的運用[J]. 福建金融, 2013, 2:39-44.
LIU L F, TAO W L, CHEN Y M. Application of topology tools in analysis of fund flow of anti-money laundering related accounts[J]. Fujian Finance, 2013, 2:39-44.
[10] WANG S N, YANG J G. A money laundering risk evaluation method based on decision tree[C]//International Conference on Machine Learning and Cybernetics. 2007.
[11] LIU Y. Based on social network crime organization relation mining and central figure determining[C]//IEEE 3rd International Conference on Software Engineering and Service Science. Beijing, China, 2012.
[12] 李艷麗, 劉陽, 謝文波, 等. 大數(shù)據(jù)發(fā)現(xiàn)非法傳銷網絡[J]. 大數(shù)據(jù), 2017, 3(5):106-112.
LI Y L, LIU Y, XIE W B, et al. Detecting illegal pyramid scheme network in big data[J]. Big Data, 2017, 3(5):106-112.
Frequent path discovery algorithm for financial network
LYU Fang, TANG Fenghe, HUANG Junheng, WANG Bailing
School of Computer Science and Technology, Harbin Institute of Technology(weihai), Weihai 264209, China
With the proliferation of various illegal financial activities, more and more attention is paid to the research of finding criminal cues in financial network by scholars. The characteristics of the transaction data generated by bank accounts are analyzed in detail, and a general model of bank account transaction network is established. On this basis, a two-direction active edge searching method is proposed to solve the problem of evaluating the relationship strength between financial entities. And then, a breadth-first frequent path discovery algorithm with depth controlled is presented, with which the way how the financial flows is restored. Experiment results on the real bank data show that the above two methods are effective in solving the problem of peer prediction and financial tracking respectively.
two-direction active edge, frequent path, peer prediction, financial tracking
呂芳(1990? ),女,山東陽谷人,哈爾濱工業(yè)大學(威海)博士生,主要研究方向為復雜網絡、信息內容安全、數(shù)據(jù)挖掘。
湯豐赫(1998? ),男,滿族,內蒙古呼和浩特人,主要研究方向為信息內容安全。
黃俊恒(1966? ),男,河南新鄉(xiāng)人,哈爾濱工業(yè)大學(威海)副教授,主要研究方向為數(shù)據(jù)挖掘、人工智能。
王佰玲(1978? ),男,黑龍江哈爾濱人,哈爾濱工業(yè)大學教授、博士生導師,主要研究方向為信息對抗、信息安全、信息搜索、移動網絡、金融安全。
TP393
A
10.11959/j.issn.2096?109x.2019050
2018?11?28;
2019?02?10
王佰玲,wbl@hit.edu.cn
國家重點研發(fā)計劃重點專項基金資助項目(No.2018YFB2004201, No.2017YFB0801804);前沿科技創(chuàng)新專項基金資助項目(No.2016QY05X1002-2);國家區(qū)域創(chuàng)新中心科技專項基金資助項目(No.2017QYCX14);山東省重點研發(fā)計劃基金資助項目(No.2017CXGC0706);中央高?;究蒲袠I(yè)務費專項資金資助項目(No.HIT.NSRIF.2020098);2017威海市大學共建基金資助項目
The National Key Research and Development Program of China (No.2018YFB2004201, No.2017YFB0801804), Frontier Science and Technology in Notation of China (No.2016QY05X1002-2), National Regional Innovation Center Science and Technology Special Project of China (No.2017QYCX14), Key Research and Development Program of Shandong Province (No.2017CXGC0706), The Fundamental Research Funds for the Central Universities (No.HIT.NSRIF.2020098), 2017 University Co-construction Project in Weihai City
呂芳, 湯豐赫, 黃俊恒, 等. 金融網絡頻繁鏈路發(fā)現(xiàn)算法[J]. 網絡與信息安全學報, 2019, 5(5): 48-55.
LYU F, TANG F H, HUANG J H, et al. Frequent path discovery algorithm for financial network[J]. Chinese Journal of Network and Information Security, 2019, 5(5): 48-55.