[李高翔 葉宇中 黃福鴻 卓采標(biāo) 潘國良 陳金林 陳德興 吳雁琛]
在信息網(wǎng)絡(luò)快速發(fā)展的背景下,電信網(wǎng)絡(luò)詐騙已成為當(dāng)前發(fā)展最快、嚴(yán)重影響人民群眾安全感的刑事犯罪。根據(jù)文獻[1]的數(shù)據(jù),2020 年以來,公安機關(guān)累計破獲電信網(wǎng)絡(luò)詐騙案件達25.6萬,累計封堵詐騙網(wǎng)站網(wǎng)址31.6萬個,由此可見目前電信網(wǎng)絡(luò)詐騙傳播的廣泛性。當(dāng)前電信網(wǎng)絡(luò)詐騙手法多樣,主要包括兼職詐騙、殺豬盤詐騙、貸款詐騙等。其中貸款詐騙主要是指犯罪團伙通過模仿國內(nèi)知名借貸平臺,如京東金融、微粒貸、百度有錢花等的官網(wǎng)頁面搭建仿冒站點,以免息或低息為噱頭誘導(dǎo)用戶貸款并繳納一定金額激活賬號實施詐騙。由于仿冒站點的頁面和正規(guī)平臺的官網(wǎng)非常相似,所以普通民眾極易受騙。與此同時,詐騙團伙通過使用多種網(wǎng)站模板和小眾域名,可在短時間內(nèi)迅速搭建一批仿冒站點,給公安機關(guān)、運營商等部門的打擊防范工作帶來了極大挑戰(zhàn)。
本文旨在設(shè)計一種針對貸款類詐騙網(wǎng)站的識別方法,為此本文先通過對國內(nèi)知名借貸平臺站點官網(wǎng)及相關(guān)URL進行收集整理形成白名單,然后基于對公安部門積累樣本的分析結(jié)果,設(shè)計了域名、網(wǎng)頁內(nèi)容、網(wǎng)頁HTML 標(biāo)簽三類特征應(yīng)用于分類算法,最后通過實驗驗證本文提出算法的有效性。本文的主要研究成果如下。
①對國內(nèi)知名借貸平臺及其域名等信息進行了梳理。
② 提出了一種結(jié)合基于規(guī)則和基于機器學(xué)習(xí)的貸款類詐騙網(wǎng)站識別框架。
③進行了多種算法的對比實驗,驗證結(jié)果表明本文所提方法可有效識別貸款類詐騙網(wǎng)站。
本文的其余章節(jié)組織如下。
第2 章 綜述電信網(wǎng)絡(luò)詐騙及網(wǎng)站識別的研究現(xiàn)狀。
第3 章 介紹貸款類詐騙網(wǎng)站識別框架。
第4 章 實驗驗證算法模型。
第5 章 總結(jié)與展望。
現(xiàn)有的網(wǎng)站識別方法可以分為基于規(guī)則的識別與基于機器學(xué)習(xí)的識別?;谝?guī)則的識別主要依靠黑名單和簡單匹配規(guī)則對網(wǎng)站URL 或?qū)崟r特征等進行模糊匹配。黑名單匹配能夠快速且精準(zhǔn)返回涉詐網(wǎng)站,但是需要對黑名單庫進行定期的維護。實時特征是指IP 地址、網(wǎng)頁端口號、存活時間、PageRank 排名等可以很好地指示一個網(wǎng)址的有害性,但是需要在識別中通過URL 在網(wǎng)絡(luò)中實時搜尋的特征?;谝?guī)則的識別精度高、速度快,但可能產(chǎn)生一定應(yīng)用成本,因此多為一些防護軟件供應(yīng)商等如360、騰訊等所使用。
基于機器學(xué)習(xí)的方法對未發(fā)現(xiàn)的有害網(wǎng)址泛化性更強,性能更好,在近年來受到了研究者的關(guān)注?;跈C器學(xué)習(xí)的方法需要預(yù)先收集一些樣本并進行標(biāo)注,再利用參數(shù)模型對標(biāo)注的數(shù)據(jù)進行訓(xùn)練,以獲得泛化性能。現(xiàn)有的網(wǎng)站識別文獻多采用通用分類模型如SVM、DNN 等來進行訓(xùn)練。如魏勝娜等利用CART 樹對URL 特征進行學(xué)習(xí),并修改代價函數(shù)為最小均方誤差,成功降低了釣魚網(wǎng)站的誤報率[2]。杜錦波、付順順等利用集成算法思想,將多個fasttext弱分類器組合為一個強分類器,并利用該分類器對網(wǎng)站文本內(nèi)容進行了分類[3,4]。毛世奇將網(wǎng)站URL 進行獨熱編碼,并利用嵌入層對不同字符進行轉(zhuǎn)換,最后輸入到卷積神經(jīng)網(wǎng)絡(luò)中進行訓(xùn)練和預(yù)測[5]。左雯、張士坤等在利用字符嵌入的基礎(chǔ)上,對不同的深度模型結(jié)構(gòu)進行了實驗,最后確定了卷積神經(jīng)網(wǎng)絡(luò)、門控循環(huán)單元和softmax 的組合作為最終結(jié)構(gòu),并取得了良好的效果[6,7]。
本文提出的識別框架結(jié)合了基于規(guī)則的識別與基于機器學(xué)習(xí)的識別兩種方法,先通過基于規(guī)則的白名單規(guī)則進行過濾,然后再使用機器學(xué)習(xí)方法進行識別貸款詐騙網(wǎng)站。算法流程圖如圖1 所示。
圖1 算法流程圖
作者統(tǒng)計了公安部門積累樣本中貸款詐騙網(wǎng)站主要仿冒平臺名稱及相關(guān)信息,具體內(nèi)容如表1 所示。
表1 詐騙網(wǎng)站主要仿冒平臺相關(guān)信息
對運營商等擁有大量數(shù)據(jù)的機構(gòu)而言,可先對所有要判定的網(wǎng)站數(shù)據(jù)進行白名單過濾,因為正規(guī)平臺的訪問日志較多,經(jīng)過白名單過濾后可有效減小后續(xù)需處理的數(shù)據(jù)規(guī)模,節(jié)省大量計算資源。
作者對大量貸款詐騙網(wǎng)站的URL 進行分析,發(fā)現(xiàn)主要有如下特點。
(1)多使用HTTP 協(xié)議傳輸
因為正規(guī)借貸平臺站點涉及了大量資金及用戶敏感信息,需考慮網(wǎng)絡(luò)傳輸安全問題,多使用HTTPS 協(xié)議,如表1 中URL 全部是HTTPS。而詐騙網(wǎng)站主要目的是誘導(dǎo)欺騙,并不考慮數(shù)據(jù)安全問題,所以選擇HTTP 協(xié)議,建站效率更高,成本更低。
(2)多使用小眾域名
正規(guī)借貸平臺站點通常會使用其主體公司域名為其背書,或使用較短的拼音、諧音域名方便推廣傳播。如微粒貸w.webank.com 是微眾銀行的子域名,人人貸www.renrendai.com 則使用了拼音。而詐騙團伙通常選擇小眾域名(如kfbzh.bcsbhm.bar,afdfe.545idifjf.zkakdf.txhb.mhmh9.cn 等)建站,這些域名價格便宜、數(shù)量較多,可快速進行批量替換更新,躲避監(jiān)管部門追蹤打擊。
(3)存在使用非默認(rèn)端口情況
考慮到服務(wù)器運營商可能會對站點進行安全掃描檢測,而普通掃描檢測工具主要覆蓋常見協(xié)議及端口,如HTTP 協(xié)議的80 端口,F(xiàn)TP 協(xié)議的21 端口等。部分詐騙團伙為了降低被檢測識別的風(fēng)險,會啟用非默認(rèn)端口,即訪問詐騙網(wǎng)站需指定固定端口,如81,使用默認(rèn)端口80則無法訪問。
(4)多使用境外單一IP
目前國內(nèi)一直保持對電信網(wǎng)絡(luò)詐騙的嚴(yán)打高壓態(tài)勢,所以詐騙團伙建站通??紤]使用境外IP,且通常將多個域名綁定在同一IP 上,方便其部署管理,并進一步縮減成本。而正規(guī)借貸平臺站點多使用國內(nèi)IP,且考慮到不同地區(qū)、省份的網(wǎng)絡(luò)情況,可能會將同一域名解析到多個IP 地址,提升用戶訪問體驗。
基于上述分析,可以對任意給定的URL 進行分析,構(gòu)造如表2 的URL 相關(guān)特征。
高河瞪圓了雙眼,用力搖著頭:“不、不是,不是這樣,他說謊。我知道,他一定會把自己做的事都推在我的頭上……”
表2 域名相關(guān)特征
大部分網(wǎng)頁的結(jié)構(gòu)如圖2 所示,部分詐騙團伙為了提高網(wǎng)頁排名,會在標(biāo)題(title),關(guān)鍵詞(keywords)和描述(description)字段部分對網(wǎng)頁內(nèi)容進行重點描述,因此需要對網(wǎng)頁不同部分的內(nèi)容分別進行分析。
圖2 常見網(wǎng)站結(jié)構(gòu)URL 相關(guān)特征
(1)網(wǎng)頁頭部字段部分關(guān)鍵詞特征
本文定義網(wǎng)頁的標(biāo)題(title),關(guān)鍵詞(keywords)和描述(description)字段為網(wǎng)頁的頭部字段,根據(jù)作者對大量涉詐樣本的分析,詐騙團伙習(xí)慣在頭部字段使用諸如“微粒貸”、“京東金融”、“極速放款”等詞語進行描述。作者對收集到的正常樣本和貸款詐騙網(wǎng)站樣本進行處理,提取其標(biāo)題、關(guān)鍵詞和描述部分的內(nèi)容,然后對其進行分詞處理,并分別計算每個詞語的TF-IDF,取權(quán)重最高的N個詞作為該部分的關(guān)鍵。N可根據(jù)實際情況進行設(shè)定。
(2)網(wǎng)頁主體內(nèi)容關(guān)鍵詞特征
網(wǎng)頁主體(主要包括
標(biāo)簽字段的內(nèi)容)的關(guān)鍵詞提取思路和頭部字段基本一致,先將網(wǎng)頁主體中的各類HTML 標(biāo)簽清洗,提取其主要內(nèi)容,然后進行分詞,計算TF-IDF 權(quán)重并排序。因為網(wǎng)頁主體內(nèi)容較長,且樣本有限,較多詞的權(quán)重差別并不大,因此本文在該部分引入專家領(lǐng)域知識,對高權(quán)重的詞進行人工二次篩選,最終確定K個詞作為該部分的關(guān)鍵詞。同樣K可根據(jù)實際情況進行設(shè)定。基于上述分析,可對任意給定的URL 網(wǎng)頁內(nèi)容分析,對不同區(qū)域的內(nèi)容分別進行對應(yīng)關(guān)鍵詞匹配,將詞頻作為其特征值。
部分貸款詐騙網(wǎng)站呈現(xiàn)出高對抗的特點,如圖3 所示,該類網(wǎng)站基本沒有網(wǎng)頁內(nèi)容,因此3.3 節(jié)提出的關(guān)鍵詞特征對該類樣本無效。此外,許多詐騙網(wǎng)站多采用相似的網(wǎng)站模板快速建站,因此可考慮對網(wǎng)頁源碼中的HTML 標(biāo)簽進行特征提取。
圖3 網(wǎng)頁主體無內(nèi)容的頁面舉例
具體操作方式為對任意給定的URL 網(wǎng)頁內(nèi)容,抽取其網(wǎng)頁內(nèi)容中的所有HTML 標(biāo)簽。統(tǒng)計分析每一種標(biāo)簽(如div,href 等)在該網(wǎng)頁的出現(xiàn)次數(shù),作為其特征值。同時抽取部分典型標(biāo)簽的值作為關(guān)鍵詞特征,統(tǒng)計其在網(wǎng)頁出現(xiàn)次數(shù)作為特征值。
本章節(jié)通過基于真實數(shù)據(jù)的實驗評估本文提出特征的有效性,并對比分析多種算法的實驗結(jié)果。
本文使用的數(shù)據(jù)集主要有兩個來源,一個是公安部門收集到的大量貸款詐騙網(wǎng)站樣本,另一個則是通過爬蟲抓取互聯(lián)網(wǎng)上包含3.3 節(jié)關(guān)鍵詞的網(wǎng)頁并進行人工標(biāo)注。訓(xùn)練集一共有2 134 個樣本,其中貸款詐騙網(wǎng)站有875 個,正常網(wǎng)站有1 259 個,測試集一共有1 423 個樣本,其中貸款詐騙網(wǎng)站有608 個,正常網(wǎng)站有815 個。訓(xùn)練集和測試集均已通過白名單過濾。
本文采用如表3 所示的混淆矩陣來評價模型的準(zhǔn)確度。
表3 混淆矩陣
評價模型準(zhǔn)確度的主要指標(biāo)包括查準(zhǔn)率、查全率和F1 得分,其定義如下:直觀上,查準(zhǔn)率表示模型預(yù)測貸款詐騙網(wǎng)站正確的精度,查全率表示模型成功預(yù)測出的實際貸款詐騙網(wǎng)站占比,F(xiàn)1 得分綜合考慮查準(zhǔn)率和查全率,提供了一種平衡型的評價打分。
本文使用了4 種分類算法(包括樸素貝葉斯、邏輯回歸、K 最近鄰和隨機森林)對本文提出的特征進行實驗驗證,算法結(jié)果如表4 所示。
表4 不同算法的對比結(jié)果
從表4 觀察可知隨機森林算法的查全率、查準(zhǔn)率和F1 值上均取得了最好效果,其中F1 值為0.95,表明了本文所提算法可有效對貸款詐騙網(wǎng)站和正常網(wǎng)站進行較好的區(qū)分。
本文針對貸款類詐騙網(wǎng)站的識別問題設(shè)計了一種算法框架,該框架通過結(jié)合白名單過濾,域名、網(wǎng)頁內(nèi)容、網(wǎng)頁HTML 標(biāo)簽三類特征以及機器學(xué)習(xí)分類算法可對貸款類詐騙網(wǎng)站進行有效識別。作者通過基于真實數(shù)據(jù)的實驗驗證了本文提出算法框架的有效性。后續(xù)將考慮如何將貸款類詐騙的其它環(huán)節(jié)與詐騙網(wǎng)站識別進行結(jié)合,形成更完整的解決方案。