祝越野
隨著通訊技術(shù)的迅猛發(fā)展,電信詐騙行為也在與日俱增。目前,對電信詐騙的主要防范措施是建立預(yù)防詐騙管理系統(tǒng)。例如,國際知名公司NCR的Teradata數(shù)據(jù)庫就通過建立客戶行為模式檔案,以此篩查欺詐行為。愛立信公司的Fraud Office也建立了反欺詐規(guī)則庫,通過對比客戶行為與規(guī)則是否吻合或相似,從而預(yù)警詐騙行為。①G.Martin, J.P.Cunningharn, “Signs of Spring at the UK's Serious Fraud Office: Challenges, Changes, and the Impact on Global Anti-Corruption Compliance”, Financial Fraud Law Report, Vol.10, No.3, 2013, pp.1314-1319.在探索防范電信欺詐的模式方面,研究人員已取得了一定的成果,比如通過應(yīng)用數(shù)據(jù)挖掘技術(shù),基于聚類、基于SVM的分類器②吉涵之、馬宇宸、李爽、李靜林:《基于SVM的電信詐騙行為特征識別方法》,《軟件》2017年第12期。等方案,對用戶欺詐行為進(jìn)行預(yù)測。此外,電商利用互聯(lián)網(wǎng)“眾標(biāo)眾享”模式③劉娜:《電話詐騙百度手機(jī)衛(wèi)士精準(zhǔn)識別》,《計算機(jī)與網(wǎng)絡(luò)》2015年第6期。(即當(dāng)客戶發(fā)現(xiàn)詐騙行為后就及時對詐騙號碼進(jìn)行標(biāo)記,再由系統(tǒng)自動將標(biāo)記結(jié)果發(fā)送至云端共享,形成黑名單庫),也建立了一種群防群治的電信詐騙防范模式。
本文嘗試?yán)脧?fù)雜網(wǎng)絡(luò)理論模型對詐騙通信網(wǎng)絡(luò)展開研究,通過結(jié)合真實(shí)網(wǎng)絡(luò)的相關(guān)特性,構(gòu)建起電信詐騙的復(fù)雜網(wǎng)絡(luò)模型。在此基礎(chǔ)上,再進(jìn)一步進(jìn)行仿真實(shí)驗(yàn)驗(yàn)證、理論推導(dǎo)和網(wǎng)絡(luò)傳播動力研究,從而為發(fā)現(xiàn)電信詐騙犯罪規(guī)律以及開展有針對性的預(yù)防工作提供理論支持。
本文所用的實(shí)驗(yàn)數(shù)據(jù),是經(jīng)過脫敏的詐騙團(tuán)伙真實(shí)通信話單數(shù)據(jù),部分通信記錄如圖 1。Gephi是由各國工程師和科學(xué)家聯(lián)合研發(fā)的社交網(wǎng)絡(luò)分析工具,它適于處理動態(tài)大數(shù)據(jù),具有可視化功能,動態(tài)分析能力強(qiáng)大。①鄧君、馬曉君、畢強(qiáng):《社會網(wǎng)絡(luò)分析工具Ucinet和Gephi的比較研究》,《情報理論實(shí)踐》2014年第8期。截取話單中“手機(jī)號碼”“對方號碼”和“通話時長”三列,導(dǎo)入Gephi后生成的網(wǎng)絡(luò)如圖2,其中網(wǎng)絡(luò)中節(jié)點(diǎn)的大小和顏色代表節(jié)點(diǎn)度,邊的粗細(xì)和顏色代表權(quán)重。
圖1 話單數(shù)據(jù)截圖
圖2 話單數(shù)據(jù)截圖
在圖中,節(jié)點(diǎn)度數(shù)的異質(zhì)性非常明顯。三個詐騙分子構(gòu)成了網(wǎng)絡(luò)的中心,與大量節(jié)點(diǎn)相連,且連邊的權(quán)重較低。同時,有一個特殊節(jié)點(diǎn)與這三個節(jié)點(diǎn)都有連接,且邊權(quán)重較大,初步判斷該節(jié)點(diǎn)可能為詐騙團(tuán)伙的組織者之一。進(jìn)一步分析話單數(shù)據(jù),可以發(fā)現(xiàn)該節(jié)點(diǎn)是在“對方號碼”一列,對應(yīng)于“NA”,即空數(shù)據(jù),由此否定了最初的判斷。但是,篩選所有的“NA”,其對應(yīng)的第一列數(shù)據(jù)均為“6”(“4”表示“主叫”,“6”表示“被叫”),表明均是由“NA”撥向詐騙分子。這主要包含兩種可能的情況:一是受騙者號碼回?fù)埽欢菆F(tuán)伙組織者撥號,這里無法做出具體區(qū)分。第一種情況在其余號碼中也有體現(xiàn)。由此,本文所建模型的演化機(jī)制主要是基于對上述特征的考慮。
圖3 度分布
進(jìn)一步對網(wǎng)絡(luò)的基本性質(zhì)——頂點(diǎn)度的頻率分布進(jìn)行分析:定義度分布Pk是度數(shù)為k的節(jié)點(diǎn)占節(jié)點(diǎn)總數(shù)的比值②[美]馬克·紐曼:《網(wǎng)絡(luò)科學(xué)引論》,郭世澤、陳哲譯,電子工業(yè)出版社2014年版,第159-161頁。,由此本網(wǎng)絡(luò)的度分布如圖 3所示,圖中曲線為等式取對數(shù)后得到的擬合曲線。再對等式兩側(cè)做指數(shù)運(yùn)算,可將對數(shù)關(guān)系記為:
其中C為常數(shù),a為冪律。顯然,Pk是隨著k的冪變化。因此,可以簡略地說明度分布遵循冪律形式。直觀地理解冪律分布,即網(wǎng)絡(luò)中度最高的節(jié)點(diǎn)只占節(jié)點(diǎn)總數(shù)的小部分,而大部分節(jié)點(diǎn)度數(shù)較小。通常,符合冪律分布的網(wǎng)絡(luò)也被稱為無標(biāo)度網(wǎng)絡(luò)③A-L Barabasi, Eric Bonabeau, “Scale-Free Networks”, Scientific American.Vol.288, No.5, 2003, pp.60-69.。
模擬部分真實(shí)網(wǎng)絡(luò)的演化規(guī)律,是復(fù)雜網(wǎng)絡(luò)研究的根本動力,也是研究人員長期探索的一個問題。本文在構(gòu)建電信詐騙活動的通信網(wǎng)絡(luò)模型過程中,借鑒了優(yōu)先連接和三元閉合理論等現(xiàn)有的研究成果。
在復(fù)雜網(wǎng)絡(luò)的研究中,優(yōu)先連接是由Barabasi和Albert在BA無標(biāo)度網(wǎng)絡(luò)模型中引入的連接特性①A-L.Barabasi, R.Albert, “Emergence of Scaling in Random Networks”, Science, Vol.286, No.5439, 1999, pp.509-512.,即節(jié)點(diǎn)在新加入網(wǎng)絡(luò)時,總是會選擇與網(wǎng)絡(luò)中度數(shù)大的節(jié)點(diǎn)相連接。BA無標(biāo)度網(wǎng)絡(luò)在這一機(jī)制的基礎(chǔ)上,以節(jié)點(diǎn)動態(tài)增加的方式模擬了復(fù)雜網(wǎng)絡(luò)中冪律分布形成的過程。
有研究者指出,在具有社區(qū)子圖(即子圖內(nèi)部連接密度要比整個網(wǎng)絡(luò)的密度高得多)的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)中,三角形結(jié)構(gòu)比例非常高②D.V.Foster, J.G.Foster, P.Grassberger & M.Paczuski, “Clustering drives assortativity and community structure in ensembles of networks”, Physical Review , Vol.84, No.6, 2011, pp.1-4.。社會學(xué)中的社會平衡理論也指出,在社會關(guān)系中,“我朋友的朋友是我的朋友”比“我朋友的朋友是我的敵人”更常見③唐杰、黃宏、張靜:《社交網(wǎng)絡(luò)的三角定律》,《中國計算機(jī)學(xué)會通訊》2016年第4期。?;谝陨险J(rèn)知,研究人員在復(fù)雜網(wǎng)絡(luò)模型中又引入了三元閉合機(jī)制④P.Klimek & S.Thurner, “Triadic closure dynamics drives scaling laws in social multiplex networks”, New Journal of Physics, Vol.15, No.6, 2013, pp.1-9.,即新朋友通常是經(jīng)中間人加入社交網(wǎng)絡(luò)的,在多次交互后才變?yōu)槭烊?。同時,早期的研究還認(rèn)為,社區(qū)子圖內(nèi)部節(jié)點(diǎn)之間形成三元組的概率要高于不同子圖中的節(jié)點(diǎn),這一特點(diǎn)也已被用于社區(qū)發(fā)現(xiàn)算法⑤, G.Palla, I.Derényi, I.Farkas & T.Vicsek, “Uncovering the overlapping community structure of complex networks in nature and society”, Nature, Vol.435, No.7043, 2005, pp.814–818.。
由此,本文在Perra等人提出的時變網(wǎng)絡(luò)模型⑥N.Perra, B.Gon?alves, R.Pastor-Satorras & A.Vespignani, “Activity driven modeling of time varying networks”,Scientific Reports,Vol.2, No.1, 2012, pp.1-6.基礎(chǔ)上,結(jié)合上述研究成果,最終形成了電信詐騙活動中通信網(wǎng)絡(luò)的理論演化模型。從原始時變模型來看,在模型演化之前網(wǎng)絡(luò)中不存在連邊,每個節(jié)點(diǎn)都會被賦予一個活躍度的先驗(yàn)概率,且這個概率是異質(zhì)的⑦C.Cattuto, W.V.D.Broeck, A.Barrat, V.Colizza, J.F.Pinton & A.Vespignani, “Dynamics of Person-to- Person Interactions from Distributed RFID Sensor Networks”, PloS One,Vol.5 , No.7, 2010, pp.1-9.。隨后,網(wǎng)絡(luò)會通過兩步進(jìn)行演化:(1)以先驗(yàn)概率判斷隨機(jī)選擇的節(jié)點(diǎn)是否為活躍節(jié)點(diǎn),若是,便隨機(jī)與網(wǎng)絡(luò)中的節(jié)點(diǎn)創(chuàng)建連接;(2)在時間步迭代完所有節(jié)點(diǎn)后,刪除創(chuàng)建的連接,并進(jìn)入下一個時間步的迭代。
在演化開始時,模型初始化一個網(wǎng)絡(luò)平均度為0,節(jié)點(diǎn)數(shù)為N的網(wǎng)絡(luò)。隨后,在每個時間步的迭代中,節(jié)點(diǎn)的刪除概率為pd。若刪除了該節(jié)點(diǎn),則在下一時間步中添加一個節(jié)點(diǎn)到網(wǎng)絡(luò)中。若節(jié)點(diǎn)未被刪除且完成一次迭代,則更新網(wǎng)絡(luò)中節(jié)點(diǎn)和邊的屬性信息。
在一個時間步中,若節(jié)點(diǎn)i的活躍參數(shù)為1,則i要么通過概率P(i)創(chuàng)建新連接,要么以概率(1- P(i))與鄰居節(jié)點(diǎn)交互。后一種情況會根據(jù)邊權(quán)重概率(即鄰居節(jié)點(diǎn)連邊權(quán)值比該節(jié)點(diǎn)所有連邊權(quán)值和)選擇鄰居節(jié)點(diǎn),遞增加強(qiáng)權(quán)重值,并將加強(qiáng)后的權(quán)值更新到邊的屬性字典中。在前一種情況下,依據(jù)前文模型的理論機(jī)制分析,需要分兩種情況考慮 P(i)的取值:當(dāng)節(jié)點(diǎn)代表詐騙者時,節(jié)點(diǎn)創(chuàng)建新連接的概率隨度數(shù)的增加而增大;當(dāng)節(jié)點(diǎn)代表正常用戶時,節(jié)點(diǎn)創(chuàng)建新連接的概率隨度數(shù)的增加而減小。由于網(wǎng)絡(luò)中兩類節(jié)點(diǎn)的度數(shù)往往差距較大,本模型主要利用網(wǎng)絡(luò)節(jié)點(diǎn)的平均度來分段計算不同的 P(i)。計算方法如下,其中a為常數(shù),ki 為節(jié)點(diǎn)度,算式為:
如果節(jié)點(diǎn)i要創(chuàng)建一個新的連接,需要經(jīng)歷如下步驟:一是判斷節(jié)點(diǎn)i是否會進(jìn)行優(yōu)先連接,若是,直接根據(jù)優(yōu)先連接機(jī)制創(chuàng)建新連接,否則進(jìn)入下一步。二是判斷節(jié)點(diǎn) i的度數(shù)是否為 0,若是,則隨機(jī)與網(wǎng)絡(luò)中其余節(jié)點(diǎn)創(chuàng)建連接,否則進(jìn)入下一步。三是對節(jié)點(diǎn)i根據(jù)三元閉合機(jī)制創(chuàng)建連接。具體過程描述如下:首先,遍歷i的所有鄰居節(jié)點(diǎn),以邊權(quán)重概率選取一個節(jié)點(diǎn)n。若節(jié)點(diǎn)n的度為1,說明n只有鄰居節(jié)點(diǎn)i。此時i通過隨機(jī)連接機(jī)制創(chuàng)建新連接。然后,遍歷n的鄰居節(jié)點(diǎn)(不包含i),以邊權(quán)重概率選取節(jié)點(diǎn)m,如果m不是i的鄰居節(jié)點(diǎn),則節(jié)點(diǎn)i要么與m以概率pt創(chuàng)建新連接,要么以概率(1-pt)與隨機(jī)選取的節(jié)點(diǎn)創(chuàng)建新連接或加強(qiáng)現(xiàn)有連接的權(quán)重,否則加強(qiáng)節(jié)點(diǎn)i與m連邊權(quán)重。該機(jī)制實(shí)現(xiàn)方法如圖 4。四是所有節(jié)點(diǎn)都完成了迭代過程后,更新相關(guān)節(jié)點(diǎn)與邊權(quán)重信息。本文采用python語言對詐騙網(wǎng)絡(luò)的時變模型進(jìn)行了再現(xiàn),實(shí)現(xiàn)方法如圖5。
圖4 三元閉合
圖5 時變網(wǎng)絡(luò)模型
在上文對電信詐騙活動的通信網(wǎng)絡(luò)進(jìn)行時變模型分析的過程中,除了節(jié)點(diǎn)數(shù)、演化時間步及節(jié)點(diǎn)活躍概率等變量固定的條件下,該模型還包括參數(shù)刪除概率 pd、優(yōu)先連接概率 pp、三元閉合概率 pt以及累積權(quán)重R。理論上,通過控制這四個參數(shù)的變化,模型就能模擬出電信詐騙活動中的通信網(wǎng)絡(luò)。由于聚類系數(shù)作為網(wǎng)絡(luò)基本特征,通常用來分析復(fù)雜網(wǎng)絡(luò)①楊強(qiáng)、盧罡:《博社交網(wǎng)絡(luò)模型的建立及其性質(zhì)研究》,《計算機(jī)工程與應(yīng)用》2016年第12期。,因而下文就從聚類系數(shù)出發(fā),具體分析各個參數(shù)的變化對網(wǎng)絡(luò)結(jié)構(gòu)的影響,并闡述這些變化特征是否符合實(shí)際規(guī)律。
平均聚類系數(shù)是能夠體現(xiàn)網(wǎng)絡(luò)中三元結(jié)構(gòu)特征的參考量。局部聚類系數(shù)是面向節(jié)點(diǎn)的,計算公式如下:
算式中,ei是節(jié)點(diǎn)i的鄰居節(jié)點(diǎn)的連邊數(shù),該式計算的是ei與鄰居節(jié)點(diǎn)構(gòu)成全連通圖時邊數(shù)的比值。平均聚類系數(shù)就是將網(wǎng)絡(luò)中所有節(jié)點(diǎn)的局部聚類系數(shù)之和與節(jié)點(diǎn)數(shù)作比。圖7則是在兩類不同概率參數(shù)取值下,平均聚類系數(shù)的時變曲線。當(dāng)其中一項(xiàng)概率變化時,將另一項(xiàng)概率參數(shù)設(shè)為 0,變化取值如圖7。
圖6 平均聚類系數(shù)的變化曲線
圖7 網(wǎng)絡(luò)圖
對比兩圖的曲線斜率變化,pt對網(wǎng)絡(luò)結(jié)構(gòu)的影響更大。隨著pt增加,平均聚類系數(shù)快速提高。這時,網(wǎng)絡(luò)中的三元閉合連接大量出現(xiàn)。在達(dá)到最大值后,節(jié)點(diǎn)在現(xiàn)有三元結(jié)構(gòu)上多次交互,或者隨機(jī)創(chuàng)建連接的占比增加,因此,平均聚類系數(shù)會有所減小。pp對網(wǎng)絡(luò)結(jié)構(gòu)的影響是一個漸近的過程。這也符合新邊產(chǎn)生的特征:節(jié)點(diǎn)以pp的概率與網(wǎng)絡(luò)中度數(shù)最大的部分節(jié)點(diǎn)連接,或隨機(jī)連接。隨著時間步的增加,越來越多的節(jié)點(diǎn)與度數(shù)大的節(jié)點(diǎn)相連,平均聚類系數(shù)也就逐漸變大。
為了更為直觀地展示pt與pp對網(wǎng)絡(luò)結(jié)構(gòu)的影響,令pt+pp=1,參數(shù)取值如表1。取500個節(jié)點(diǎn),演化時間步為15000,生成演化后的靜態(tài)網(wǎng)絡(luò)圖如圖8。
表1 圖8中的參數(shù)值
這里選取的節(jié)點(diǎn)刪除概率較大,以避免因節(jié)點(diǎn)邊數(shù)過多而導(dǎo)致網(wǎng)絡(luò)特征表現(xiàn)不明顯,但這也會使網(wǎng)絡(luò)存在較多孤立節(jié)點(diǎn)。網(wǎng)絡(luò)中節(jié)點(diǎn)的大小由PageRank①Amy N.Langville and Carl D.Meyer, “Deeper Inside PageRank”, Internet Mathematics, Vol.1, No.3, 2004, pp.335-380.值決定,PageRank值越大,則節(jié)點(diǎn)越大。節(jié)點(diǎn)顏色不同表示節(jié)點(diǎn)的度不同。連邊的顏色表示邊的介數(shù)中心度。圖8表明,在pt占主導(dǎo)的網(wǎng)絡(luò)中,節(jié)點(diǎn)趨向于形成一個個小社團(tuán),由此可以預(yù)見,若令節(jié)點(diǎn)數(shù)增加,pd減小,網(wǎng)絡(luò)會演化成普通的社交通信網(wǎng)絡(luò)結(jié)構(gòu)。隨著pp增大,網(wǎng)絡(luò)逐漸向非正常社交網(wǎng)絡(luò)演化,并出現(xiàn)符合電信詐騙活動中的通信網(wǎng)絡(luò)的結(jié)構(gòu)特征:少數(shù)節(jié)點(diǎn)與網(wǎng)絡(luò)中大量節(jié)點(diǎn)相連,同時這些少數(shù)節(jié)點(diǎn)之間也存在連接。
基于上述分析,取能夠較好模擬電信詐騙活動中通信網(wǎng)絡(luò)演化特征的參數(shù)組“pd=5e-04,pt=0.1,pp=0.9,R=1”,為了驗(yàn)證網(wǎng)絡(luò)特征在節(jié)點(diǎn)數(shù)大量增加的條件下是否發(fā)生變化,令節(jié)點(diǎn)數(shù)為5000,演化生成的靜態(tài)網(wǎng)絡(luò)如圖8(此處只截取連通的節(jié)點(diǎn))。驗(yàn)證結(jié)果表明,網(wǎng)絡(luò)的演化情況依然符合上述特征。網(wǎng)絡(luò)的節(jié)點(diǎn)度分布如圖9所示,橫坐標(biāo)表示節(jié)點(diǎn)的度數(shù),縱坐標(biāo)表示相應(yīng)度數(shù)的節(jié)點(diǎn)數(shù)。圖9中度數(shù)超過10的15個節(jié)點(diǎn)與圖8中顏色與其他部分明顯不同的15個節(jié)點(diǎn)相對應(yīng),說明了度數(shù)小的節(jié)點(diǎn)占網(wǎng)絡(luò)中的比重很大,度數(shù)大的節(jié)點(diǎn)只有一小部分,從而驗(yàn)證了演化生成的網(wǎng)絡(luò)是符合無標(biāo)度網(wǎng)絡(luò)特性的。
圖8 網(wǎng)絡(luò)圖
圖9 度分布
本文提出的模型不僅考慮了網(wǎng)絡(luò)的靜態(tài)特征,也考慮了個體交互的時變性。其著重考慮了優(yōu)先連接、三元閉合、權(quán)重加強(qiáng)機(jī)制對節(jié)點(diǎn)交互趨勢與網(wǎng)絡(luò)結(jié)構(gòu)的影響。此外,該模型還引入了節(jié)點(diǎn)刪除機(jī)制,通過控制刪除概率的變化使生成的網(wǎng)絡(luò)達(dá)到穩(wěn)定的狀態(tài)。在仿真分析中,本文提出的模型模擬了不同特征的網(wǎng)絡(luò),包括真實(shí)移動通信以及電信詐騙通信的時變網(wǎng)絡(luò),均體現(xiàn)出了實(shí)際網(wǎng)絡(luò)的主要特征。最后,筆者選取了符合詐騙通信網(wǎng)絡(luò)特征的一組參數(shù),生成了較大規(guī)模的網(wǎng)絡(luò)模型。驗(yàn)證結(jié)果表明,該模型特征符合實(shí)際詐騙網(wǎng)絡(luò)的特點(diǎn),且不會隨網(wǎng)絡(luò)規(guī)模的變化而改變。當(dāng)然,需要指出的是,該模型在通過三元閉合機(jī)制模擬詐騙團(tuán)伙成員之間的交互時仍存在缺陷,它會導(dǎo)致將較多正常用戶節(jié)點(diǎn)之間的交互反映在詐騙團(tuán)伙的通信網(wǎng)絡(luò)中。為此,可以考慮進(jìn)一步結(jié)合同配混合理論,以改進(jìn)不足之處。