高淵 董宇翔 張麾軍 韓冰建 北松滋
【摘要】? ? 隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)詐騙呈現(xiàn)持續(xù)高發(fā)態(tài)勢(shì),詐騙分子呈現(xiàn)出專業(yè)化、團(tuán)伙化的特點(diǎn)。為了更好識(shí)別詐騙團(tuán)伙,通過接入詐騙事件,提取涉詐資源之間的關(guān)聯(lián)關(guān)系,涉詐資源的行為特征,進(jìn)行關(guān)聯(lián)分析和相似度分析,得到涉詐資源關(guān)聯(lián)圖,再基于LPA算法進(jìn)行詐騙組織切分得到準(zhǔn)確結(jié)果。
【關(guān)鍵詞】? ? 互聯(lián)網(wǎng)? ? 網(wǎng)絡(luò)詐騙? ? 安全分析模型
一、背景
近年來,我國(guó)電信網(wǎng)絡(luò)詐騙總體形勢(shì)嚴(yán)峻,詐騙分子呈現(xiàn)出專業(yè)化、團(tuán)伙化的特點(diǎn),警方抓獲的電信詐騙團(tuán)伙,都多達(dá)數(shù)百人,詐騙設(shè)備、詐騙卡號(hào)、詐騙賬號(hào)都是數(shù)以萬計(jì)[1]。隨著移動(dòng)互聯(lián)網(wǎng)的普及,國(guó)家和公安機(jī)關(guān)對(duì)反詐的宣傳,單純依靠語音、短信或網(wǎng)絡(luò)詐騙的場(chǎng)景越來越少,詐騙分子往往是三者結(jié)合才能詐騙成功[2]。這些詐騙分子可能實(shí)施了多次詐騙才被抓獲,而且還有部分詐騙分子隱藏在其他地市或國(guó)外,詐騙設(shè)備也經(jīng)過了多次更新,僅憑一次詐騙案件難以評(píng)估詐騙團(tuán)伙整體規(guī)?!,F(xiàn)有技術(shù)方案中基于單一場(chǎng)景的詐騙團(tuán)伙分析已經(jīng)越來越難以準(zhǔn)確地挖掘出全部詐騙團(tuán)伙了[3]。本方法提出一種基于語音話單、短信話單和上網(wǎng)日志進(jìn)行關(guān)聯(lián)分析發(fā)現(xiàn)詐騙團(tuán)伙的方案。通過接入詐騙事件,提取涉詐資源之間的關(guān)聯(lián)關(guān)系,涉詐資源的行為特征,進(jìn)行關(guān)聯(lián)分析和相似度分析,得到涉詐資源關(guān)聯(lián)圖,再基于LPA算法進(jìn)行詐騙組織切分得到準(zhǔn)確的詐騙組織。
二、方法
為了更好的識(shí)別詐騙團(tuán)伙,設(shè)計(jì)基于語音話單、短信話單和上網(wǎng)日志進(jìn)行關(guān)聯(lián)分析的方案。通過接入詐騙事件,提取涉詐資源之間的關(guān)聯(lián)關(guān)系,涉詐資源的行為特征,進(jìn)行關(guān)聯(lián)分析和相似度分析,得到涉詐資源關(guān)聯(lián)圖,再基于LPA算法進(jìn)行詐騙組織切分得到準(zhǔn)確的詐騙組織。
本方案的基本設(shè)計(jì)概念和處理流程如下圖所示:
2.1詐騙事件接入
分析系統(tǒng)需要接入多種詐騙事件:
基于GOIP、多卡寶等多種遠(yuǎn)程部署的語音詐騙事件;
基于短信網(wǎng)關(guān)群發(fā)詐騙短信的短信詐騙事件;
基于社交網(wǎng)絡(luò)的殺豬盤詐騙、刷單詐騙等網(wǎng)絡(luò)詐騙事件。
對(duì)語音詐騙事件需要獲取以下主要字段:卡號(hào)、對(duì)方卡號(hào)、IMEI、時(shí)間、地理位置。
對(duì)短信詐騙事件需要獲取以下主要字段:卡號(hào)、對(duì)方卡號(hào)、IMEI、時(shí)間、地理位置。
對(duì)網(wǎng)絡(luò)詐騙事件需要獲取以下主要字段:卡號(hào)、IMEI、社交賬號(hào)、時(shí)間、地理位置、流量大小。
2.2詐騙資源關(guān)聯(lián)分析
詐騙團(tuán)伙分析包括兩種方式:直接關(guān)聯(lián)分析和相似度分析。
2.2.1直接關(guān)聯(lián)分析
直接關(guān)聯(lián)分析,通過涉詐資源之間的直接聯(lián)系建立關(guān)聯(lián)圖,如下:
通過卡號(hào)共享進(jìn)行關(guān)聯(lián):多個(gè)詐騙卡號(hào)都給一個(gè)受害者卡號(hào)撥打電話;詐騙卡號(hào)之間的通信。
通過設(shè)備進(jìn)行關(guān)聯(lián):多個(gè)卡號(hào)共用了一個(gè)設(shè)備,即一IMEI多卡;一個(gè)卡號(hào)用在了多個(gè)設(shè)備上,及一卡多IMEI。
通過社交賬號(hào)進(jìn)行關(guān)聯(lián):多個(gè)卡號(hào)共用了一個(gè)賬號(hào),即一賬號(hào)多卡;多個(gè)賬號(hào)共用了一個(gè)卡號(hào),即一卡多賬號(hào);多個(gè)卡號(hào)共用了一個(gè)設(shè)備,即一設(shè)備多卡;多個(gè)設(shè)備共用了一個(gè)卡號(hào),即一卡多設(shè)備。
通過上述關(guān)聯(lián)分析發(fā)現(xiàn)的涉詐資源節(jié)點(diǎn)和節(jié)點(diǎn)之間的連線用圖數(shù)據(jù)庫(kù)存儲(chǔ)。后面不斷接入新的詐騙事件,對(duì)詐騙事件進(jìn)行接入,獲取涉詐資源階段,按照上述流程添加到圖數(shù)據(jù)庫(kù),可發(fā)現(xiàn)更多的攻擊組織。
2.2.2相似度分析
一個(gè)詐騙團(tuán)伙作案都有相似性,包括空間上、時(shí)間上、行為上。取以下行為作為判定涉詐資源之間的相似性:
地理位置:換算為經(jīng)度和維度。
活躍時(shí)間分布屬性:按時(shí)間段劃分24h為24個(gè)數(shù)值,若有話單則為1,否則為0,得到一個(gè)24元素的數(shù)組。分別計(jì)算語音活躍時(shí)間,上網(wǎng)活躍時(shí)間。
連續(xù)工作時(shí)長(zhǎng):計(jì)算一整天的工作時(shí)長(zhǎng)。
上網(wǎng)流量:分為上行流量大小和下行流量大小。
上網(wǎng)類型分布:按照上網(wǎng)日志的域名類型劃分為9類域名:咨詢門戶類網(wǎng)站、企業(yè)品牌類網(wǎng)站、交易類網(wǎng)站、社區(qū)網(wǎng)站、辦公及政府機(jī)構(gòu)網(wǎng)站、互動(dòng)游戲網(wǎng)站、有償資訊類網(wǎng)站、功能性網(wǎng)站、綜合類網(wǎng)站。若有則為1,否則為0,得到一個(gè)9個(gè)元素的數(shù)組。用余弦相似度計(jì)算涉詐資源之間的相似度,假設(shè)X1,X2為2個(gè)涉詐資源,X1X2相似度如下:
2.3 LPA詐騙組織切分
2.3.1團(tuán)伙標(biāo)簽初始化
LPA算法全稱label propagation algorithm,即標(biāo)簽傳遞算法,是一種圖聚類算法,如圖3,節(jié)點(diǎn)代表團(tuán)伙標(biāo)簽,邊上的黑色數(shù)字代表邊的權(quán)重。
各節(jié)點(diǎn)和邊初始化方式如下:節(jié)點(diǎn)初始化為1,團(tuán)伙標(biāo)簽初始化為自己,邊的初始化分為兩種計(jì)算方式:
直接關(guān)聯(lián)分析的邊關(guān)聯(lián)程度用反正切函數(shù)計(jì)算,假設(shè)發(fā)現(xiàn)涉詐資源A和B之間有x次直接關(guān)聯(lián),則關(guān)聯(lián)度為arctan(x)。相似度分析的邊關(guān)聯(lián)程度計(jì)算直接用余弦相似度。
2.3.2團(tuán)伙標(biāo)簽傳遞
每個(gè)涉詐資源節(jié)點(diǎn)向鄰居節(jié)點(diǎn)發(fā)送消息,消息權(quán)重為涉詐資源節(jié)點(diǎn)權(quán)重*邊權(quán)重*分割系數(shù)(涉詐資源節(jié)點(diǎn)出度的倒數(shù)),每個(gè)涉詐資源節(jié)點(diǎn)對(duì)收到的權(quán)重累加,更新涉詐資源節(jié)點(diǎn)標(biāo)簽為累加權(quán)重最大的團(tuán)伙標(biāo)簽,若多個(gè)涉詐資源節(jié)點(diǎn)的團(tuán)伙標(biāo)簽的權(quán)重相等就隨機(jī)選一個(gè)。反復(fù)執(zhí)行發(fā)送消息和接收消息,直到標(biāo)簽穩(wěn)定算法終止,最后相同標(biāo)簽的節(jié)點(diǎn)即為一個(gè)團(tuán)伙。如下圖4分析得出團(tuán)伙1和團(tuán)伙2。
三、結(jié)束語
技術(shù)創(chuàng)新是一把雙刃劍,人工智能技術(shù)在不斷促進(jìn)防范治理技術(shù)發(fā)展和進(jìn)步的同時(shí),也開始被詐騙分子所利用,帶來了一定程度的風(fēng)險(xiǎn)隱患。特別是隨著基于人工智能的“深度偽造”、群聊群控等詐騙手法的傳播和應(yīng)用,這些風(fēng)險(xiǎn)被進(jìn)一步集聚、放大,引起了社會(huì)各界的關(guān)注[4]。通過實(shí)踐,本方法可有效甄別詐騙團(tuán)伙,準(zhǔn)確率高,覆蓋范圍廣,幫助相關(guān)部門快速掌握詐騙團(tuán)伙動(dòng)態(tài),有效挽回群眾損失。下一步,我們將進(jìn)一步完善改進(jìn)方法,創(chuàng)新技術(shù)。
參? 考? 文? 獻(xiàn)
[1] 蒲黎明. 電信詐騙語義分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 北京:北京郵電大學(xué),2019.
[2] 李易.反電信網(wǎng)絡(luò)詐騙全民指南[M]. 上海:上海社會(huì)科學(xué)院出版社,2016.
[3] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M]. 北京:清華大學(xué)出版社,2012.
[4] 電信網(wǎng)絡(luò)詐騙治理與人工智能應(yīng)用白皮書[M].北京:中國(guó)信息通信研究院安全研究所,2019.