呂林濤+袁琴琴+呂暉+李婉榮
摘 要: 針對(duì)洗錢交易的大數(shù)據(jù)大額可疑特征和量化特點(diǎn),基于凝聚和優(yōu)化指標(biāo)的思想,提出一種ML?CDBIE算法。該算法根據(jù)節(jié)點(diǎn)信息熵的相似性和社區(qū)信息熵的穩(wěn)定性進(jìn)行洗錢社區(qū)發(fā)現(xiàn)。根據(jù)增加節(jié)點(diǎn)后社區(qū)熵的變化是否劇烈可以判斷節(jié)點(diǎn)的劃分是否正確,是否屬于社區(qū)的成員,從而實(shí)現(xiàn)洗錢社區(qū)的發(fā)現(xiàn)。實(shí)驗(yàn)結(jié)果表明,該算法不僅具有洗錢賬戶識(shí)別率高和良好的社區(qū)結(jié)構(gòu),而且為金融網(wǎng)絡(luò)洗錢社區(qū)發(fā)現(xiàn)提供了一種新途徑。
關(guān)鍵詞: 金融網(wǎng)絡(luò); 洗錢交易; 信息熵; 社區(qū)發(fā)現(xiàn); 社區(qū)劃分
中圖分類號(hào): TN911.1?34; TP393 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)17?0131?04
An information entropy based new money laundering community
discovery algorithm of financial network
L? Lintao1, YUAN Qinqin1, L? Hui2, LI Wanrong3
(1. Department of Information Engineering, Xijing University, Xian 710123, China;
2. College of Civil Engineering, Chongqing University, Chongqing 400044, China;
3. College of Computer Science and Engineering, Xian University of Technology, Xian 710048, China)
Abstract: According to the large quantity and suspicious characteristic and quantitative features of money laundering transaction, a money laundering community discovery algorithm based on information entropy (ML?CDBIE) is proposed according to the thoughts of aggregation and indicator optimization. The characteristic of the algorithm is to discover money laundering community according to the similarity of nodes information entropy and stability of community information entropy. According to the dramatic change of the community entropy after nodes addition, it can determine whether the nodes division is correct, or belongs to the community, which can discover the money laundering community. The experimental results show that the algorithm has high recognition rate and perfect community structure of money laundering account, and also provides a new way to discover the money laundering community of financial network.
Keywords: financial network; money laundering transaction; information entropy; community discovery; community division
0 引 言
隨著金融系統(tǒng)的全球化、信息化和網(wǎng)絡(luò)化發(fā)展,使得資本在世界范圍內(nèi)以更快更便捷的方式流動(dòng),但是如何有效防范金融網(wǎng)絡(luò)中的洗錢犯罪行為已成為當(dāng)前人們關(guān)注的熱點(diǎn)。
目前,社區(qū)發(fā)現(xiàn)技術(shù)不僅應(yīng)用于網(wǎng)絡(luò)結(jié)構(gòu)、分析網(wǎng)絡(luò)個(gè)體間關(guān)系,而且也是解決挖掘網(wǎng)絡(luò)中隱藏有價(jià)值的大數(shù)據(jù)的一種有效途徑。因此,為了有效獲取復(fù)雜金融網(wǎng)絡(luò)的洗錢社區(qū),本文基于信息熵的社區(qū)發(fā)現(xiàn)技術(shù),根據(jù)金融網(wǎng)絡(luò)中的交易結(jié)構(gòu)及洗錢交易的大額和可疑特征,建立了將交易賬戶映射為網(wǎng)絡(luò)中的節(jié)點(diǎn),賬戶間的交易關(guān)系映射為網(wǎng)絡(luò)中邊的數(shù)學(xué)模型,并針對(duì)洗錢交易的大數(shù)據(jù)大額可疑特征和量化等特點(diǎn),提出一種基于信息熵的洗錢社區(qū)發(fā)現(xiàn)算法,通過應(yīng)用后表明,該方法不僅解決了金融網(wǎng)絡(luò)中節(jié)點(diǎn)社區(qū)快速有效的劃分,而且也能依據(jù)可疑交易特征發(fā)現(xiàn)洗錢社區(qū),從而為金融安全交易提供了有力保障。
1 洗錢特征的提取與量化
金融網(wǎng)絡(luò)中的洗錢[1]是通過交易金額、交易頻率、交易周期、交易方式等一系列復(fù)雜的賬戶交易達(dá)到資金的非法流動(dòng),其操作過程主要分為入賬、分賬和融合三個(gè)階段,如文獻(xiàn)[2]給出的洗錢交易網(wǎng)絡(luò)圖如圖1所示。
圖1中的A1~A11表示交易賬戶;箭頭代表交易方向和交易類型,包括存款、轉(zhuǎn)賬和取款;邊上的數(shù)字代表交易金額,單位為萬元。由圖1分析可知,洗錢交易所涉及的單筆和累計(jì)交易金額都非常巨大,遠(yuǎn)遠(yuǎn)高于普通賬戶的平均水平,并且在一定時(shí)間內(nèi),賬戶之間的頻繁交易使得其交易頻次也體現(xiàn)出大于普通賬戶的特征。若根據(jù)中國政府制定的相關(guān)可疑交易監(jiān)測(cè)標(biāo)準(zhǔn)[3]中的規(guī)定,一般情況下,對(duì)于交易金額超過一定銀行規(guī)定下限的賬戶以及交易行為符合異常交易監(jiān)測(cè)標(biāo)準(zhǔn)中描述的賬戶需要進(jìn)行報(bào)告、監(jiān)測(cè)和追蹤,因?yàn)檫@些賬戶都屬于可疑洗錢交易賬戶。endprint
針對(duì)上述特點(diǎn),本文提取了能夠進(jìn)行量化的交易金額和交易頻次這兩個(gè)主要特征作為洗錢社區(qū)發(fā)現(xiàn)的特征向量集。本文提取的是賬戶在某段時(shí)間內(nèi)累計(jì)的交易金額和交易頻次,并采用鄰接矩陣和進(jìn)行量化表達(dá)及存儲(chǔ):
(1)
式中表示有效賬戶個(gè)數(shù)。
設(shè)表示一個(gè)金融網(wǎng)絡(luò)(n表示賬戶個(gè)數(shù)),每個(gè)節(jié)點(diǎn)代表一個(gè)交易賬戶,是所有節(jié)點(diǎn)的集合,是所有邊的集合,其中賬戶的存(?。┛罱灰子靡粭l零節(jié)點(diǎn)指向節(jié)點(diǎn)(由節(jié)點(diǎn)指向零節(jié)點(diǎn))的邊表示。如果賬戶和賬戶之間存在交易關(guān)系,則有邊否則。因此式(1)簡(jiǎn)化為式(2)的求解:
(2)
式中:表示邊上的權(quán)值,即交易金額和交易頻次。如果賬戶和賬戶之間存在交易,的值就不為0,否則的值為0;表示賬戶自身的交易金額和交易頻次信息。
2 基于信息熵的洗錢社區(qū)發(fā)現(xiàn)算法
2.1 節(jié)點(diǎn)信息熵的定義
信息熵[4]在數(shù)學(xué)理論上是一個(gè)較為抽象的概念,主要是指某種特定信息的出現(xiàn)概率,一般用來標(biāo)記一個(gè)事件的信息熵。對(duì)于由個(gè)事件構(gòu)成的系統(tǒng)每一個(gè)事件發(fā)生的概率為其產(chǎn)生的信息熵為整個(gè)系統(tǒng)的信息熵為。
通過對(duì)洗錢交易特征[5?9]的分析,如果賬戶的交易行為同時(shí)滿足大額交易和可疑交易特征,則作為洗錢賬戶被識(shí)別的概率就很大。相應(yīng)地,這種賬戶節(jié)點(diǎn)的信息熵就大于其他的賬戶節(jié)點(diǎn)。
根據(jù)矩陣中賬戶交易金額的值,賬戶的交易金額為網(wǎng)絡(luò)交易金額為為賬戶的交易金額占網(wǎng)絡(luò)總交易金額的比例,的值越大,賬戶屬于大額交易賬戶的概率越大;根據(jù)矩陣中賬戶交易頻次的值,賬戶的交易頻次網(wǎng)絡(luò)交易頻次為為賬戶的交易頻次占網(wǎng)絡(luò)交易頻次的比例,的值越大,賬戶屬于可疑交易賬戶的概率就越大。只有當(dāng)一個(gè)賬戶同時(shí)滿足大額交易和可疑交易特征,才能被認(rèn)為是洗錢交易賬戶。因此,賬戶在由金融網(wǎng)絡(luò)構(gòu)成的交易系統(tǒng)中作為洗錢賬戶發(fā)生的概率為:。賬戶節(jié)點(diǎn)的信息熵為。
網(wǎng)絡(luò)的信息熵可以通過計(jì)算該網(wǎng)絡(luò)所有節(jié)點(diǎn)的信息熵的均值得到,為網(wǎng)絡(luò)中包含的賬戶個(gè)數(shù),即。
2.2 洗錢社區(qū)的發(fā)現(xiàn)算法構(gòu)建
基于信息熵的洗錢社區(qū)發(fā)現(xiàn)算法(以下簡(jiǎn)稱ML?CDBIE)是基于凝聚和優(yōu)化指標(biāo)的思想,根據(jù)節(jié)點(diǎn)信息熵的相似性和社區(qū)信息熵的穩(wěn)定性[10?11]進(jìn)行洗錢社區(qū)發(fā)現(xiàn)。根據(jù)本文社區(qū)的定義,相同社區(qū)內(nèi)部的節(jié)點(diǎn)具有相似的屬性和緊密的聯(lián)系,因此社區(qū)內(nèi)部的節(jié)點(diǎn)會(huì)具有相似的信息熵,并且整個(gè)社區(qū)的信息熵也會(huì)相對(duì)穩(wěn)定。在對(duì)節(jié)點(diǎn)進(jìn)行社區(qū)劃分時(shí),如果節(jié)點(diǎn)加入到社區(qū),造成社區(qū)熵的劇烈增加或減少,表明這個(gè)節(jié)點(diǎn)不應(yīng)該被劃分到該社區(qū),否則應(yīng)該將該節(jié)點(diǎn)劃分到該社區(qū)。根據(jù)增加節(jié)點(diǎn)后社區(qū)熵的變化是否劇烈,可以判斷節(jié)點(diǎn)的劃分是否正確,是否屬于社區(qū)的成員,從而實(shí)現(xiàn)社區(qū)發(fā)現(xiàn)。
根據(jù)社區(qū)發(fā)現(xiàn)的原理,本文定義了一個(gè)閾值作為判斷節(jié)點(diǎn)劃分的依據(jù)。如果添加節(jié)點(diǎn)到洗錢社區(qū)之后的信息熵增量絕對(duì)值小于閾值,則添加,否則不添加。考慮到賬戶交易在交易金額以及交易頻次上具有的不確定性和波動(dòng)性,采用網(wǎng)絡(luò)平均信息熵和節(jié)點(diǎn)信息熵的標(biāo)準(zhǔn)差作為信息熵增量閾值的標(biāo)準(zhǔn):
(3)
(4)
因此,基于信息熵的洗錢社區(qū)發(fā)現(xiàn)算法可以通過兩個(gè)階段進(jìn)行。
第一階段:主要完成洗錢社區(qū)節(jié)點(diǎn)的劃分。設(shè)是所有網(wǎng)絡(luò)節(jié)點(diǎn)的集合,其算法描述如下:
Step1:計(jì)算所有節(jié)點(diǎn)的信息熵,并選取節(jié)點(diǎn)信息熵最大的節(jié)點(diǎn)作為初始社區(qū)核節(jié)點(diǎn);
Step2:將核節(jié)點(diǎn)的鄰接點(diǎn)以及核節(jié)點(diǎn)作為初始社區(qū)計(jì)算社區(qū)的熵如果繼續(xù)下一步。否則從中去掉中的節(jié)點(diǎn);
Step3:從的鄰接點(diǎn)中選取信息熵最大的節(jié)點(diǎn)如果繼續(xù)下一步,否則從中去掉中的節(jié)點(diǎn)和的鄰接點(diǎn);
Step4:計(jì)算加入新節(jié)點(diǎn)之后的信息熵差如果添加該節(jié)點(diǎn)到洗錢社區(qū),否則不進(jìn)行添加,并從中剔除該節(jié)點(diǎn);
Step5:重復(fù)以上步驟,直到所有滿足條件的節(jié)點(diǎn)都被劃分到洗錢社區(qū)為止。
第二階段:主要完成洗錢社區(qū)的相關(guān)合并。合并算法描述如下:
Step1:洗錢社區(qū)的合并;
Step2:對(duì)有邊相連的相鄰社區(qū)進(jìn)行合并;
Step3:計(jì)算合并兩個(gè)社區(qū)之后的信息熵與原社區(qū)的信息熵增量的絕對(duì)值,如果增量的絕對(duì)值在范圍內(nèi),則合并兩個(gè)社區(qū),否則不合并;
Step4:重復(fù)上述步驟直到?jīng)]有滿足合并條件的子社區(qū)為止。最終生成的社區(qū)結(jié)構(gòu)就是洗錢交易社區(qū)。
3 實(shí)驗(yàn)與分析
3.1 數(shù)據(jù)預(yù)處理
實(shí)踐表明,洗錢交易周期一般為20天左右。因此本實(shí)驗(yàn)的原始數(shù)據(jù)集選取了某商業(yè)銀行2005年3月—5月的流水交易結(jié)算數(shù)據(jù)。共3 026條交易記錄,860個(gè)交易賬號(hào)。部分原始交易數(shù)據(jù)集如表1所示。
對(duì)原始數(shù)據(jù)需要進(jìn)行預(yù)處理,剔除不必要的屬性;交易金額的記賬單位改為萬,并截取后四位小數(shù)作為精度計(jì)算;交易賬號(hào)也依次進(jìn)行了從的編號(hào);并且刪除非活躍賬戶,即沒有發(fā)生轉(zhuǎn)賬交易的賬戶。預(yù)處理之后的交易數(shù)據(jù)集示例如表2所示。
3.2 算法評(píng)價(jià)指標(biāo)
為了驗(yàn)證ML?CDBIE算法的有效性,本文提出了兩個(gè)算法評(píng)價(jià)標(biāo)準(zhǔn)對(duì)算法的識(shí)別準(zhǔn)確率和社區(qū)結(jié)構(gòu)進(jìn)行評(píng)價(jià)。
3.2.1 ML?CDBIE算法準(zhǔn)確率評(píng)價(jià)
從理論上講,洗錢交易社區(qū)應(yīng)該包括所有的可疑交易節(jié)點(diǎn),即符合大額交易和異常交易特征的賬戶,并且正常賬戶或者不符合該社區(qū)特征的交易賬戶都不應(yīng)該被劃分到洗錢社區(qū)中。因此,算法識(shí)別的準(zhǔn)確率評(píng)價(jià)對(duì)評(píng)價(jià)算法的有效性至關(guān)重要。
通過對(duì)原始交易數(shù)據(jù)中相應(yīng)賬戶的交易明細(xì)進(jìn)行分析、判斷和統(tǒng)計(jì),設(shè)是具有可疑洗錢交易特征且被正確劃分到社區(qū)的節(jié)點(diǎn)個(gè)數(shù),是不具有洗錢交易特征但被劃分到社區(qū)的節(jié)點(diǎn)個(gè)數(shù),是具有洗錢交易特征但是沒有被正確劃分到社區(qū)的節(jié)點(diǎn)個(gè)數(shù)。本文算法對(duì)洗錢交易識(shí)別的準(zhǔn)確率定義為:endprint
(5)
洗錢交易社區(qū)的劃分精度為:
(6)
3.2.2 社區(qū)結(jié)構(gòu)評(píng)價(jià)
Newman提供了模塊度對(duì)社區(qū)結(jié)構(gòu)的劃分質(zhì)量進(jìn)行評(píng)價(jià)[12]。假設(shè)網(wǎng)絡(luò)經(jīng)過社區(qū)劃分之后一共有個(gè)子社區(qū),矩陣是一個(gè)維的對(duì)稱矩陣,元素表示連接兩個(gè)不同社區(qū)和的邊在所有網(wǎng)絡(luò)邊中占據(jù)的比例。表示與社區(qū)中的節(jié)點(diǎn)相連的邊在網(wǎng)絡(luò)所有邊中所占的比例。模塊度的計(jì)算公式定義為:
(7)
式中:的上限為1,的值越接近1,社區(qū)結(jié)構(gòu)就越明顯,在實(shí)際網(wǎng)絡(luò)中,該值通常位于0.3~0.7之間。
3.3 實(shí)驗(yàn)結(jié)果
將預(yù)處理后的數(shù)據(jù)進(jìn)行ML?CDBIE算法處理,最終生成了具有可疑洗錢交易特征的4個(gè)子洗錢社區(qū),如圖2所示。
在4個(gè)洗錢社區(qū)中,有的子社區(qū)之間依然有邊相連,但是他們不符合合并社區(qū)的條件;子社區(qū)與其他子社區(qū)沒有邊相連,是一個(gè)獨(dú)立的子社區(qū),因?yàn)檫@些節(jié)點(diǎn)對(duì)應(yīng)的賬戶只在該社區(qū)范圍內(nèi)進(jìn)行交易。這些社區(qū)中的節(jié)點(diǎn)基本都符合大額交易和可疑交易的特征。
3.4 結(jié)果分析
3.4.1 準(zhǔn)確率
通過對(duì)數(shù)據(jù)的分析,其中社區(qū)內(nèi)部共有111個(gè)節(jié)點(diǎn),符合可疑判斷標(biāo)準(zhǔn)賬戶節(jié)點(diǎn)一共有98個(gè),不符合的共有13個(gè),社區(qū)外部符合判斷標(biāo)準(zhǔn)的賬戶節(jié)點(diǎn)共有15個(gè),根據(jù)式(5)和式(6)對(duì)ML?CDBIE算法的準(zhǔn)確率進(jìn)行計(jì)算。ML?CDBIE算法對(duì)洗錢交易識(shí)別的準(zhǔn)確率為:
洗錢交易社區(qū)的劃分精度為:
通過計(jì)算可知,ML?CDBIE有較高的識(shí)別準(zhǔn)確率和精確度。
3.4.2 社區(qū)模塊度
通過實(shí)驗(yàn)結(jié)果對(duì)社區(qū)結(jié)構(gòu)評(píng)價(jià)指標(biāo)進(jìn)行計(jì)算和分析。以下是4×4維的對(duì)稱矩陣
按照模塊度的計(jì)算公式對(duì)社區(qū)的模塊度進(jìn)行計(jì)算,社區(qū)模塊度=0.403 3≈0.4。一般網(wǎng)絡(luò)的模塊度都在0.3~0.7之間,該社區(qū)的網(wǎng)絡(luò)模塊度介于該值之間,模塊度良好。
4 結(jié) 語
本文提出基于信息熵的洗錢社區(qū)發(fā)現(xiàn)算法,通過應(yīng)用社區(qū)發(fā)現(xiàn)技術(shù)和信息熵的原理結(jié)合,針對(duì)洗錢交易的大額交易和可疑交易特征,較好地解決了通過金融網(wǎng)絡(luò)中的節(jié)點(diǎn)社區(qū)劃分從而發(fā)現(xiàn)洗錢交易社區(qū)問題。實(shí)驗(yàn)結(jié)果表明,本文提出的算法不僅具有較高的識(shí)別準(zhǔn)確率,而且具有良好的社區(qū)結(jié)構(gòu),因此,本文提出的算法在反洗錢技術(shù)領(lǐng)域具有重要的理論和實(shí)用價(jià)值。
參考文獻(xiàn)
[1] 魏萊.反洗錢監(jiān)管體系與檢測(cè)方法研究[D].湖南:湖南大學(xué),2011.
[2] 李玉華,易鑫,孫小林.基于圖熵的鏈接發(fā)現(xiàn)算法在反洗錢領(lǐng)域的應(yīng)用[J].計(jì)算機(jī)工程與科學(xué),2007,29(11):50?52.
[3] 中國人民銀行.金融機(jī)構(gòu)大額交易和可疑交易報(bào)告管理辦法[EB/OL].[2016?12?30].http://www.pbc.gov.cn/publish/Tiaofasi/274/ index.html.
[4] 王剛,鐘國祥.基于信息熵的社區(qū)發(fā)現(xiàn)算法研究[J].計(jì)算機(jī)科學(xué),2011,38(2):238?240.
[5] 張曉宇,鄧昌智,王宏安.面向地下錢莊洗錢行為的可視化交互分析平臺(tái)[J].計(jì)算機(jī)應(yīng)用研究,2015,32(1):170?175.
[6] ZHANG Chengwei, WANG Yubo. Research on application of distributed data mining in anti?money laundering monitoring system [C]// Proceedings of 2010 the 2nd IEEE International Conference on Advanced Computer Control. Shenyang, China: IEEE, 2010: 133?135.
[7] DE KOKER L. Aligning anti?money laundering, combating of financing of terror and financial inclusion: questions to consider when FATF standards are clarified [J]. Journal of financial crime, 2011, 18(4): 361?386.
[8] LIU Keyan, YU Tingting. An improved support?vector network model for anti?money laundering [C]// Proceedings of 2011 the Fifth International Conference on Management of E?Commerce and E?Government. Wuhan, China: IEEE, 2011: 193?196.
[9] ZHANG Chenghu, ZHAO Xiaohu. Research on money laundering recognition based on decision tree algorithm [J]. Journal of Wuhan University of Technology, 2008, 30(2): 154?156.
[10] 鐘芬芬.復(fù)雜網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法研究[D].西安:西安電子科技大學(xué),2012.
[11] 蔡波斯,陳翔.基于行為相似度的微博社區(qū)發(fā)現(xiàn)研究[J].計(jì)算機(jī)工程,2013,39(8):55?59.
[12] 王林,戴冠中,趙煥成.一種新的評(píng)價(jià)社區(qū)結(jié)構(gòu)的模塊度研究[J].計(jì)算機(jī)工程,2010,36(14):227?229.endprint