李佳 王競文 閆 繼培 楊春宇
1. 北京市公安局 2. 海鑫科金AI研究院
隨著社會科技的不斷發(fā)展,通過電話、短信、互聯(lián)網(wǎng)等手段進(jìn)行詐騙的新型電信網(wǎng)絡(luò)詐騙逐漸成為一種高發(fā)的詐騙犯罪。相比于傳統(tǒng)類型的詐騙,電信網(wǎng)絡(luò)詐騙不需要和受害人進(jìn)行實(shí)質(zhì)接觸,嫌疑人以現(xiàn)代通訊工具作為工具,通過虛構(gòu)事實(shí)或隱瞞真相,騙取受害人的錢財。一般而言,電信網(wǎng)絡(luò)詐騙案件往往有以下的特點(diǎn):(1)發(fā)展迅速,蔓延快,收益高;(2)犯罪地域分布廣,跨國跨境詐騙比較突出;(3)團(tuán)伙作案,組織嚴(yán)密,分工明確;(4)詐騙方式翻新迅速,手段多樣;(5)詐騙手段科技含量高,隱蔽性高,普通群眾難以辨別信息真假。電信網(wǎng)絡(luò)詐騙案件的高發(fā),給人民的財產(chǎn)安全造成了極大的威脅和損害。同時,電信網(wǎng)絡(luò)詐騙類案件常常面臨技術(shù)條件缺失、取證繁瑣、證據(jù)鏈易于缺失、警銀缺乏深度合作等原因,使得案件的偵破面臨巨大的挑戰(zhàn)。因此,從海量的數(shù)據(jù)中找出電信類詐騙案件的線索,能 夠?yàn)殡娦啪W(wǎng)絡(luò)詐騙案件的偵破提供信息,具有很大的實(shí)際應(yīng)用價值。
串并案是把同一個或同一伙犯罪嫌疑人所作的多起案件串聯(lián)到一起,用于統(tǒng)一組織和偵破的一種技術(shù)手段。一般情況下,同一個或同一伙犯罪嫌疑人在一定的時間內(nèi),所作的案件會具有類似的作案目標(biāo)、作案手段等特點(diǎn)。同時,也會在這些案件中留下類似的線索。通過將這些案件整合到一起,可以利用多起案件中的線索交叉驗(yàn)證,獲取更多關(guān)于嫌疑人的線索和特征,加速案件的偵破。實(shí)踐證明,在犯罪活動日益專業(yè)化和職業(yè)化的情況下,采用串并案的方法,對系列案件進(jìn)行偵辦,是一種更加高效的方法。
電信網(wǎng)絡(luò)詐騙案件中,犯罪嫌疑人往往通過電話、短信、互聯(lián)網(wǎng)等方式進(jìn)行詐騙。在犯罪過程的實(shí)施中,不可避免的會留下一些通訊工具的ID,如電話號碼、微信號碼、QQ號等,在此統(tǒng)一將這些號碼或者ID統(tǒng)稱為標(biāo)識號。同時,受害人在報案時,會描述受騙的經(jīng)歷過程,形成簡要案情。標(biāo)識號和簡要案情給出了案件的絕大部分信息,也是串并案的數(shù)據(jù)來源。因此常見的電信網(wǎng)絡(luò)詐騙串并案方法也可以分為標(biāo)識號串并和語義相似度串并。本文首先分別介紹這兩種串并案方法,然后在此基礎(chǔ)上,對串并案方法進(jìn)行改進(jìn)。
電信網(wǎng)絡(luò)詐騙的嫌疑人在和被害人接觸的過程中,會留下通訊工具的標(biāo)識號。而通訊工具的ID通常具有唯一性,因此,標(biāo)識號可以作為一個串并案的重要線索。當(dāng)不同的案件中,出現(xiàn)了相同的標(biāo)識號時,可以大概率確定,這些案件是由同一個(伙)犯罪嫌疑人所作的案件。因此,通過標(biāo)識號串并是一種重要的串并案手段。
一般而言,受害人在報案時,會在簡要案情中提到所遇到詐騙嫌疑人使用的各種不同類型的標(biāo)識號,因此,進(jìn)行串并的第一步是先要從案情文本中,對各種標(biāo)識號進(jìn)行提取。在提取標(biāo)識號的過程中,要注意避免提取到一些公共標(biāo)識號如銀行的客戶服務(wù)號碼等, 以避免這些公共標(biāo)識號對串并案結(jié)果造成影響。本研究中,通過使用正則表達(dá)式的手段,對以下通訊手段的ID號進(jìn)行了提取:電話號碼(包含手機(jī)和固定電話)、QQ號、微信號、銀行賬號、支付寶賬號、網(wǎng)址、郵箱、微博、陌陌、閑魚、旺旺、淘寶、京東、轉(zhuǎn)轉(zhuǎn)。得到標(biāo)識號之后,通過對案件數(shù)據(jù)庫進(jìn)行匹配,如果有不同的案件中出現(xiàn)了相同的標(biāo)識號,則可以認(rèn)為這些案件是由同一團(tuán)伙所作的案件。下面通過一個案件對標(biāo)識號串并進(jìn)行說明:
待串并案件A1:2018年9月17日17時許,我所接米**來所報警稱:自己被冒充公安民警的人詐騙9996元人民幣。接警后我所民警迅速開展工作。經(jīng)工作了解:2018年9月16日14時許米**接到一自稱是電信工作人員的電話稱米**因涉嫌詐騙案現(xiàn)座機(jī)已被昆明市公安局鎖定,并要求米**聯(lián)系134****2158一自稱是昆明市公安局曹姓民警,米**聯(lián)系對方后,對方稱因米**涉嫌一起詐騙案,又讓其聯(lián)系134****3165一自稱是馬科長的人,該自稱是馬科長的人向米**索要銀行賬號及密碼,米**將銀行賬號密碼通過電話告知馬科長后,發(fā)現(xiàn)卡內(nèi)9996元現(xiàn)金被人通過電話銀行轉(zhuǎn)走。米**銀行賬號為:6222************882,開戶人:米**;對方自稱曹警官的人員聯(lián)系方式 為: 134****2158, 自 稱 馬 科 長 的 人 員 聯(lián) 系 方 式 為:134****3165。
使用標(biāo)識號提取工具提取后可以得到相應(yīng)的標(biāo)識號如下所示:
{'QQ': {}, 'PHONE': {'134****3165', '134****2158'}, 'BANK': {'6222************882'}, 'WECHAT': {}, 'WEB':{}, 'EMAIL': {}, 'ALIPAY': {}}
將這些標(biāo)識號用于案件串并,最終串并得到案件28條,列舉出其中的一條如下所示:
案件A2:2018年9月5日17時許,牛**在**花園*號樓*門**家中接到自稱是云南省昆明市公安局民警電話(134****3165、135****2431、0357****8520、03337****7116)。電話內(nèi)牛**被告知涉嫌犯罪,名下銀行賬戶存款需證實(shí)合法來源并被要求配合調(diào)查。后牛**向?qū)Ψ教峁┘彝プ≈贰?018年9月6日12時許,一自稱是昆明市公安局女警察,便衣持工作證到牛**家中向其索要銀行存折、存單、密碼及戶主身份證件原件。牛**及其丈夫劉**為配合調(diào)查將此交給該女子,后該女子離開失聯(lián)。2018年9月7日上午,牛**發(fā)現(xiàn)銀行錢款被盜,報警求助。資金具體去向,涉案賬號:中國建設(shè)銀行,卡號:6217************655,開卡人:馮**。
可以看到,在兩起案件中都出現(xiàn)了134****3165的手機(jī)號碼,并且從案情來看,都屬于冒充公檢法類型的詐騙,同時作案時間也很接近,可以基本認(rèn)定是由同一團(tuán)伙所作的案件。
使用標(biāo)識號進(jìn)行串并,雖然精確率較高,但是忽略了很多案情中作案手段特點(diǎn)的信息,導(dǎo)致當(dāng)標(biāo)識號間沒有直接關(guān)聯(lián)的案件無法串并到一起。同時,隨著犯罪團(tuán)伙反偵查意識的提高,犯罪分子會不斷更換通訊工具的ID,使得標(biāo)識號串并案的召回率較低。另一方面,同一詐騙團(tuán)伙,在一定的時間內(nèi),會采用相同詐騙手段,對受害人進(jìn)行詐騙。語義串并是通過挖掘簡要案情文本中的信息,從而將語義類似的案件串到一起。本研究也給出了基于語義相似度串并的思路。首先對案情文本進(jìn)行預(yù)處理,之后通過自然語言處理的技術(shù)將其表示為一個特征向量,通過特征向量之間的余弦相似度來判斷案件之間語義的相似程度。當(dāng)兩個案件案情的相似度大于某個閾值時,則認(rèn)為是由同一團(tuán)伙所作的案件。
本研究中,使用了TextCNN作為案情文本的特征提取器。先使用已經(jīng)標(biāo)注好小類標(biāo)識的案情數(shù)據(jù),訓(xùn)練了一個TextCNN分類器,然后將分類器除去Softmax層的部分用于提取案情的特征向量,然后將特征向量用于串并案。當(dāng)有新的案件需要進(jìn)行串并時,首先通過特征提取器得到其特征向量,然后計算該特征向量和數(shù)據(jù)庫中的其他案件的特征向量的相似度,從而進(jìn)行新案件的串并。為了演示語義相似度的串并過程,也以上述的案件A1進(jìn)行了串并,從得到的串并結(jié)果中選取了一起進(jìn)行說明:
案件A3:2018年6月19日事主傅**報警稱在**東里*號樓*單元**接到一個冒稱鐵嶺市公安局的電話(對方陳**,曹**),說事主涉及到一起非法洗錢案,需要事主向自己的農(nóng)業(yè)銀行卡存入20000元的抵押金防止外逃的保證金,事主農(nóng)業(yè)銀行卡原本有7100元人民幣,又從微信往農(nóng)業(yè)銀行卡提現(xiàn)了10000元人民幣,還讓 事 主 瀏 覽 了 一 個 網(wǎng) 址(**.**.**.**)并 且 注 冊,(到 款 賬 戶:6230************673,開戶人:賈**)頁面提示要求事主填寫自己戶名,身份證號,手機(jī)號,銀行卡號及密碼,后事主手機(jī)就收到銀行短信提醒告知事主卡內(nèi)的錢都被劃走了,后事主發(fā)現(xiàn)被打電話報警了。資金去向:事主登陸了一個網(wǎng)址(域名網(wǎng)址:**.**.**.**),填寫了銀行卡號(6228************871)和密碼,后自己的錢就被劃走了、,(到款賬戶:6230************673,開戶人:賈**)對方信息:陳**手 機(jī) 號133****2650, 曹**手 機(jī) 號:(182****2070,133****0104曹**QQ128*******昵稱:武昌****)
從案情文本來看,也是屬于冒充公檢法類型的案件,但是并沒有標(biāo)識號和待串案件相同。類似這樣被串中的案件數(shù)量較多,較難區(qū)分出到底哪些案件是真的由同一團(tuán)伙所為,因此需要對方法進(jìn)行進(jìn)一步的改進(jìn)。
上述介紹了兩種常用的電信網(wǎng)絡(luò)詐騙串并案方法。然而以上方法都有其一定的局限性:(1)標(biāo)識號串并雖然精確率較高,但是由于標(biāo)識號記錄的不完整性、易錯性,以及犯罪團(tuán)伙的反偵查,會使得本應(yīng)串并的案件未能串中,導(dǎo)致召回率較低;(2)語義相似度串并的方法,由于同一種類型的案件都會有比較接近的語義相似度,使得同一類案件中,由不同團(tuán)伙所作的案件較難區(qū)分,雖然召回率較高,但是精確率較低。因此,需要對方法進(jìn)行進(jìn)一步的改進(jìn)。
為了改善串并案方法的性能,本研究對數(shù)據(jù)進(jìn)行了探索,發(fā)現(xiàn)屬于同一類別的案件,雖 然在作案手段上很相似,但是也還是會有關(guān)鍵信息點(diǎn),可以對這些案件進(jìn)行區(qū)分,從而將其串到不同的類別中。因此,提取到有價值的關(guān)鍵信息點(diǎn),是解決這一問題的關(guān)鍵。例如,在冒充公檢法的案件中,同一團(tuán)伙在一定時間內(nèi),會冒充同一公安機(jī)關(guān)進(jìn)行詐騙。因此,在這類型的詐騙中,可以將被冒充的公安機(jī)關(guān)作為一個關(guān)鍵信息點(diǎn),將具有相似語義的案件中,冒充同一公安機(jī)關(guān)的案件串到一起,從而大幅度提升串并案的精確率。
本研究中,先針對案情的文本數(shù)據(jù)進(jìn)行了探索,根據(jù)業(yè)務(wù)知識,找到了一些關(guān)鍵信息點(diǎn),然后使用命名實(shí)體識別的技術(shù),對案情文本中的關(guān)鍵信息點(diǎn)進(jìn)行了提取。提取之后的關(guān)鍵點(diǎn)信息需要進(jìn)行進(jìn)一步的實(shí)體統(tǒng)一處理,將屬于同一實(shí)體的不同描述映射為統(tǒng)一的描述。例如“北京市公安局順義分局”,也可以描述為“北京順義公安局”、“順義公安分局”等。將這些命名實(shí)體的名稱統(tǒng)一之后,就可以用于案件的串并。
為了對比上述方法的效果,本研究用單案串并的方法,對上述方法進(jìn)行了測試,給出了不同方法的串并結(jié)果的對比,如圖1所示。
圖中,橫軸是案件的編號,縱軸是不同的串并案方法,綠色表示該案件被串中。其中,使用標(biāo)識號串并串中案件28起,語義和關(guān)鍵信息點(diǎn)串并串中案件55起,只使用語義相似度串并的案件數(shù)量超過1000起,數(shù)量太多以至于無法在圖中合理展示。
從圖1中可以看出,兩種方法得到的結(jié)果還是有很大部分的重合。然而,由于案情數(shù)據(jù)錄入的不完整性,也導(dǎo)致有些案件只在一種方法中串中,而在另一種方法中沒有串中。由于使用標(biāo)識號串中的案件中出現(xiàn)了同一團(tuán)伙的標(biāo)識號,而在語義和關(guān)鍵信息點(diǎn)串中的案件語義相似度高,且有相同的關(guān)鍵信息點(diǎn),因此都具有較高的置信度。實(shí)際應(yīng)用中,可以將兩者結(jié)果的并集作為最終的串并結(jié)果。這樣最終的串并方法相比于單一的標(biāo)識號串并方法提高了召回率,相比于單一的語義串并提高了精確率,具有較高的實(shí)用價值。
在本研究中,主要闡述了常見的電信網(wǎng)絡(luò)詐騙的串并案方法,即基于正則表達(dá)式提取標(biāo)識號的標(biāo)識號串并和基于TextCNN作為特征提取器的語義相似度串并。同時,為了進(jìn)一步提升方法的精確率和召回率,對數(shù)據(jù)研究得到的關(guān)鍵信息點(diǎn)進(jìn)行提取,使得方法在語義相似度的基礎(chǔ)上,可以區(qū)分不同團(tuán)伙所作的案件,提升了方法的精確率。
然而,本文提出的方法也有一些局限性,比如,標(biāo)識號和關(guān)鍵信息點(diǎn)的提取都需要大量的人工經(jīng)驗(yàn),是一種手動構(gòu)造特征的過程,而沒有實(shí)現(xiàn)利用深度學(xué)習(xí)實(shí)現(xiàn)端到端的處理,方法過程稍顯復(fù)雜。要想實(shí)現(xiàn)端到端的方法也需要更多的精細(xì)化的對數(shù)據(jù)的標(biāo)注,以及采集更多更詳細(xì)、更全面的數(shù)據(jù)。