• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      隨機森林數(shù)據(jù)挖掘技術在電話詐騙行為的方法體系設計

      2022-05-30 04:12:54王薇鈉盧忠渭張堅吳俊王振東
      中國新通信 2022年13期
      關鍵詞:隨機森林系統(tǒng)設計

      王薇鈉 盧忠渭 張堅 吳俊 王振東

      摘要:近年來隨著互聯(lián)網(wǎng)科技的不斷發(fā)展,電信詐騙現(xiàn)象逐年增多,直接成為威脅人民財產(chǎn)安全的核心所在,對此建立并完善防詐騙體系成為了預防工作的關鍵。本文基于數(shù)據(jù)挖掘的隨機森林算法以及聚類算法技術展開了相應的綜合分析,并在底層架構中的算法中置入了防范電話詐騙模型,并設計了相關的結構和系統(tǒng),對通話特性進行表征分析,提升了模型的預測效率和準確度,為防范電話詐騙提供更加清晰和準確的架構體系。

      關鍵詞:隨機森林;電話詐騙;方法體系;系統(tǒng)設計

      目前,電信詐騙的形式較為嚴峻。大數(shù)據(jù)背景下,個人的網(wǎng)絡信息嚴重威脅著人們的財產(chǎn)安全,對此工信部以及公安部和運營商相繼發(fā)布重要整治措施,整改和預防電信詐騙事件的發(fā)生。從應用層面上來看,主要是從用戶端上來綜合的篩選用戶的終端通訊,進而實現(xiàn)過濾的作用,但是這樣的模式仍舊是過程處理,此時的詐騙活動已經(jīng)發(fā)生,因此難以實現(xiàn)全面防治的效果。對此,本文針對著事前開展的過程進行綜合分析,提出基于通話特征的前、中、后三級研判標準,并采用混合模型(隨機森林模型、聚類模型)的挖掘技術體系對詐騙行為進行綜合研判,旨在促進更好的防范電信詐騙工作。

      一、防范電話詐騙體系架構

      現(xiàn)有的防詐體制主要是在話務特征上進行用戶畫像的描述,因此在對于整個通訊過程來說具有一定的滯后性,無法實現(xiàn)第一時間的電話防范和攔截。目前大多數(shù)的數(shù)據(jù)分析過程和攔截過程主要是基于物理庫存進行展開的,通過建立電話數(shù)據(jù)的黑名單制度來對號碼進行綜合管控。數(shù)據(jù)庫存系統(tǒng)能夠對歷史號碼和歷史數(shù)據(jù)進行綜合儲存,對于可疑賬戶和可疑的數(shù)據(jù)信息號碼進行綜合儲存并實現(xiàn)前期的預警[1]。黑名單的預警機制僅僅只是根據(jù)號碼的來源來做篩選,根據(jù)可疑的電話進行綜合整理,真是建立在已有的用戶舉報數(shù)據(jù)以及公安系統(tǒng)內(nèi)的數(shù)據(jù)庫為基礎的。網(wǎng)址內(nèi)一旦出現(xiàn)黑名單號碼數(shù)據(jù)則會立即進行攔截處理,并在不斷的攔截和信息處理過程中豐富號碼的基礎用戶數(shù)據(jù),促進系統(tǒng)整體效率的提升[2]。數(shù)據(jù)庫信息系統(tǒng)當中對于信息的綜合處理過程維度較高,為了便于后續(xù)過程的模型處理,首先需要依據(jù)號碼特征進行數(shù)據(jù)信息的基礎分類,涵蓋運營商號碼、公檢法號碼以及金融號碼等參數(shù)。對于模型誤判的詐騙號碼也會實現(xiàn)不斷的更迭優(yōu)化,名單庫的建立不僅僅是建模的數(shù)據(jù)基礎,同時也是模型優(yōu)化的關鍵核心。

      二、基于通話行為以及數(shù)據(jù)挖掘算法的電話詐騙模型

      (一)機器學習算法

      機器學習的算法應用過程中,主要是將已有的數(shù)據(jù)信息導入到機器當中進行模型訓練和數(shù)據(jù)處理的過程,通過數(shù)據(jù)來建立綜合的信息傳導模型,數(shù)據(jù)量越高、信息參數(shù)越全面,同時數(shù)據(jù)模型的優(yōu)化效果就越高。依據(jù)這類型的分類形式,機器學習主要分為無監(jiān)督學習以及監(jiān)督學習兩種形式,監(jiān)督學習的過程中主要通過批量的算法進行不斷的迭代計算,計算的過程當中不斷豐富數(shù)值結果的質(zhì)量。最終的數(shù)據(jù)結果涵蓋最終的數(shù)據(jù)結果,根據(jù)數(shù)據(jù)中已含的數(shù)據(jù)標簽來得到最終的綜合結果。本文的數(shù)據(jù)處理過程中,主要是將黑名單中數(shù)據(jù)樣本作為基礎訓練集,并用數(shù)據(jù)挖掘算法進行數(shù)據(jù)處理,建立相關的信息模型,最終實現(xiàn)實時的號碼攔截和干預。在信息的預防和預警過程中,詐騙號碼的分類過程并不是一個區(qū)分制的二分類問題,整體的數(shù)據(jù)表現(xiàn)是一個多分類的模式,不同類型的詐騙形式具有著不同的通話特性。隨著電話詐騙形式的不斷拓展,其基礎算法的優(yōu)化也需要不斷的進行維護和運維,對此無監(jiān)督的數(shù)據(jù)處理模式體現(xiàn)出了優(yōu)勢。無監(jiān)督的學習過程主要是通過將未知數(shù)據(jù)和訓練樣本進行綜合處理的過程,通過不同類型電話號碼的通話時長、通話地域類型以及通話目標群體的畫像描述,能夠區(qū)分出號碼的行為特征。但是隨著詐騙行為和形式不斷豐富多樣,需要及時的調(diào)整和修改數(shù)據(jù)模型參數(shù),以保證高質(zhì)量的判斷效率。結合著無監(jiān)督以及有監(jiān)督算法的深度融合,還能夠描述不同的用戶畫像,進而發(fā)現(xiàn)全新的詐騙類型,結合著人工參數(shù)調(diào)節(jié)的不斷干預,能夠實現(xiàn)實時的參數(shù)調(diào)整,進而綜合的提升模型研判的準確度和精確度。

      (二)決策樹算法

      監(jiān)督模型實現(xiàn)了全過程的信息監(jiān)控[3],在數(shù)據(jù)挖掘和信息建模的過程中,對于同一號碼的信息綜合研判能夠對詐騙類型進行綜合區(qū)分,在準確的描述號碼基礎特征的基礎上能夠對通話信息參數(shù)作為已有的數(shù)據(jù)分類樣本集,而后進行綜合分類,實現(xiàn)號碼參數(shù)的綜合預測,最終判斷出號碼是否為詐騙號碼,及時地進行攔截。過程中對于需要考慮的詐騙類型較為豐富,因此其數(shù)值模型也需要進行不斷地實時調(diào)整,在數(shù)據(jù)挖掘算法的建模過程中,詐騙號碼的分類本身是一個基礎性的分類問題,其結果只有“是”和“否”兩種結果,因此可以將其作為一個分類分析來進行綜合求解,結合著通話信息作為分類號碼的基礎數(shù)據(jù)集來建立分類模型,實現(xiàn)預測式分類??紤]到分類建模的速度較快,因此決策樹算法適用于大量號碼的應用過程里,能夠顯著提升數(shù)據(jù)處理效率。對于數(shù)據(jù)信息變量較多的參數(shù),可能會對判斷過程產(chǎn)生誤差的影響,因此本文的設計環(huán)節(jié)中還重點選取了隨機森林的方法對數(shù)據(jù)信息進行二次處理,尤其是對候選變量的信息參數(shù)進行重要性綜合評估和評價,參照著重要程度進行綜合評分,對于選取到的重要性評分較高的變量來作為信息和模型處理的核心變量,實現(xiàn)數(shù)據(jù)的清洗和數(shù)據(jù)預處理,對于達到一定準確率的信息參數(shù)來進行綜合判別。

      (三)聚類算法

      在本文進行大量樣本的數(shù)據(jù)訓練過程中,發(fā)現(xiàn)詐騙電話具有著相似的粘片特征,在進行隨機森林數(shù)據(jù)處理后還可以通過聚類分析的方法來綜合的提取詐騙特征,實現(xiàn)詐騙號碼的綜合性描述,其中K-means算法是聚類分析算法的典型代表,綜合選取了號碼的基礎特征和通話行為屬性作為信息參數(shù)處理的基礎,來進行模型的建立過程。由于現(xiàn)有的詐騙號碼類型較多,通過聚類分析的過程能夠從數(shù)據(jù)的處理過程中綜合提取聚類中心,并且計算各個詐騙號碼的集合聚類中心的屬性差異性,最終在不斷的迭代計算過程中逐漸收斂,得出不同詐騙類型的基礎信息參數(shù)和通話行為特征,建立了相關的數(shù)據(jù)模型集。通過黑名單的電話數(shù)據(jù)分析還能夠深度聚類出不同數(shù)據(jù)庫之間的詐騙類型。

      三、基于號碼基礎特征的防范電話詐騙模型

      通過算法處理后的數(shù)據(jù)具有著一定的規(guī)律性,最終對信息處理的過程能夠有一定的鋪墊性,在數(shù)據(jù)處理的過程中需要綜合考慮詐騙號碼存在詐騙的行為特征后才能被系統(tǒng)識別為是詐騙電話,最終對電話通訊過程進行攔截,基于號碼的基礎性特征的防詐騙電話能夠有效地彌補傳統(tǒng)挖掘模型的缺陷,實現(xiàn)了前置性攔截的過程。從實際詐騙行為的發(fā)生過程來看,大部分的詐騙活動都是以團伙作案的形式進行的,甚至是其身份和地點以及漫游地都存在著一定的集中性。針對上述特征活動的綜合分析后,能夠初步建立防范電話的詐騙類型,具體的判別調(diào)節(jié)和判別形式主要是依據(jù)套餐的月租和激活時間進行綜合的數(shù)據(jù)研判。同時在算法構建的過程中也可以針對可能存在的疑似詐騙電話進行攔截,在算法側設置相關的定義條件,有效地提升了攔截效率[4]。相關的標簽設置情況如圖1所示。

      根據(jù)前線專員多年的反詐業(yè)務經(jīng)驗反饋得知,在電信網(wǎng)絡詐騙犯罪中詐騙犯罪的手段眾多,嫌疑人單打獨斗的情況極少,絕大多數(shù)是以職業(yè)化特征明顯的團伙形式進行作案。從犯罪形式來看,不同團伙采用的手段各異。例如:冒充正規(guī)機構發(fā)送詐騙短信,偽基站發(fā)布詐騙信息,境外虛假改號,利用黑客軟件、惡意群呼等形式眾多,不同團伙的作案反映在話單歷史記錄上表現(xiàn)出的行為特征也差別很大。由此,可將詐騙電話識別問題抽象為一個多分類問題,方法上也無法用單一的模型進行預測結果輸出因此需要耦合隨機森林和聚類分析二者的綜合優(yōu)勢來記性判斷。系統(tǒng)的挖掘過程需要依據(jù)著多種不同的話務行為異常特性來進行綜合判斷,設計不同的場景策略來進行多場景的綜合輸出,進而提升平臺的詐騙電話綜合識別能力,也有助于模型上線后進行點對點的改進、持續(xù)迭代,促進其保持較強的識別能力和數(shù)據(jù)處理能力。

      采用運營商的數(shù)據(jù)采集、數(shù)據(jù)清洗以及數(shù)據(jù)的標準化處理能夠綜合的提取相關的業(yè)務特征,并且對已有的過濾數(shù)據(jù)采用統(tǒng)計學和分類識別的模式綜合分析詐騙號碼的實施行為,形成適用于不同場景的電信詐騙號碼檢測模型。本方法的檢測場景主要涉及的領域有:沉默卡復活、漫游話單涉詐、新開卡涉詐等。技術方案的落地分為場景定義、風險識別、綜合評分3個環(huán)節(jié),最終完成模型在系統(tǒng)層面的固化。模型訓練的過程如圖2所示。

      (一)風險場景劃分

      對詐騙號碼的話單行為進行分析,對多場景進行特征提取,輸出各場景的涉詐風險分值,方便模型可調(diào)可配。并且基于歷史情報庫進行特征預測效果校驗,確保進入模型的特征能有效反映異常行為。技術上采用用戶畫像技術,通過用戶基礎屬性、行為特質(zhì)的多維度特征和基線值進行對比,不同場景下特征和基線值偏差的程度不同,以此劃分場景。這是數(shù)據(jù)算法信息處理的通用步驟,但是由于各地方的電信詐騙手段有所區(qū)別、詐騙團伙作案手段變化速度快,落地的具體方案還需分析結合著實際的通話記錄來進行補充和細化。

      (二)風險識別

      考慮到部署模型對全網(wǎng)號卡進行實時檢測需要消耗大量算力,為增強實施方案的可行性,其風險識別的過程主要是通過兩步走的形式來進行綜合辨析。首先通過業(yè)務數(shù)據(jù)分析生成過濾條件,篩選低危疑似號碼;再通過有監(jiān)督模型構成多個涉詐高危號碼檢測策略,輸出可信度更高的結果。核心的涉詐高危號碼主要是涵蓋主動分析模型、基于短信特征的主動分析模型、基于流量特征的主動分析模型以及基于黑樣本的被動分析模型等模型。通過通話、短信、流量行為的特征分析和模型落地,能夠實現(xiàn)基于用戶異常行為判別的主動分析過程。模型構建流程主要涵蓋業(yè)務分析、模型訓練、模型預測等多個過程。其中為了應對詐騙團伙的反欺詐手段變化,對反詐平臺內(nèi)的專家規(guī)則——閾值類的研判場景,構建模型算法進行閾值推薦和自動化更新。規(guī)則或模型均根據(jù)滑動窗口時期內(nèi)的歷史數(shù)據(jù),定期自動生成符合現(xiàn)狀的閾值或模型參數(shù),并更新至離線分析策略或統(tǒng)計類模型中。

      (三)綜合評分

      評分體系需適應于應用方的實際業(yè)務場景和詐騙號卡重點打擊對象,例如:基于新開賬戶的政企用戶評分卡、個人用戶評分卡、新開卡評分卡等。最終根據(jù)風險分值,輸出對應的黑白預測樣本數(shù)據(jù)到相關接口。用戶的風險評分閾值由模型實現(xiàn)智能推薦,也可根據(jù)關停號碼量的需求進行調(diào)整。

      四、案例分析

      首先對案例進行綜合辨析,根據(jù)單維度進行特征篩選,再加入跨維度的特征并且使用基于Boosting的集成算法,相比傳統(tǒng)的僅基于通話行為的特征或不考慮跨維度特征,本方案提出的識別模型的預測效果更好,且多維特征提取更加直觀反映了詐騙用戶群體是短信作案、電話作案還是網(wǎng)絡作案。剔除了過去一年里沒有任何短信、語音話單記錄的號碼,訓練集和測試集共1441471條正樣本、19713個正常號碼,11273條負樣本、848個標記涉詐號碼,隨機抽取30%的用戶作為測試集。根據(jù)各單維度特征和采用多維特征進行隨機森林算法建模,最后進行測試集涉詐號碼預測的準確率回測和比較的結果。結果顯示,多維特征融合模型值準確率、查全率上都要優(yōu)于其他單一維度模型。加入跨維度特征的融合模型預測效果在準確率上明顯優(yōu)于不加入跨維度特征的融合模型,但查全率有所下降。是否加入跨維度特征,可基于現(xiàn)實預測目標進行調(diào)整。如果更注重模型識別的全面性,難以接受負樣本的漏過,建議使用不加跨維度特征的融合模型。如果更注重模型識別的準確性,難以接受正樣本被誤判,建議使用加跨維度特征的融合模型。

      五、結束語

      本文結合著數(shù)據(jù)挖掘的隨機森林算法以及聚類分析算法對詐騙電話的號碼基礎信息特征以及通話行為進行綜合建模,實現(xiàn)了詐騙電話的綜合判別和研析,實現(xiàn)了詐騙電話和詐騙號碼的實時攔截和分析,具有著時效性高并且更新速度快的基本優(yōu)勢,提升了數(shù)據(jù)信息系統(tǒng)的應用效率。

      作者單位:王薇鈉? ? 盧忠渭? ? 張堅? ? 吳俊? ? 王振東? ? 中國電信股份有限公司杭州分公司

      參? 考? 文? 獻

      [1]劉惠彬.數(shù)據(jù)挖掘及大數(shù)據(jù)分析技術在反網(wǎng)絡欺詐中的應用[J].中國新通信,2019,21(01):82-84.

      [2]陳郝鶇,山丹,趙安曉宇.電信網(wǎng)絡詐騙犯罪預警實證研究[J].新疆警察學院學報,2020,40(03):31-40.

      [3]白晶晶,張利宏.基于大數(shù)據(jù)挖掘技術的詐騙電話識別與管理[J].長江信息通信,2021,34(05):126-128.

      [4]劉宗妹.區(qū)塊鏈助力電信網(wǎng)絡反欺詐協(xié)同治理[J].信息通信技術與政策,2021,47(03):61-65.

      猜你喜歡
      隨機森林系統(tǒng)設計
      隨機森林在棉蚜蟲害等級預測中的應用
      基于二次隨機森林的不平衡數(shù)據(jù)分類算法
      軟件(2016年7期)2017-02-07 15:54:01
      拱壩變形監(jiān)測預報的隨機森林模型及應用
      一種基于SATA硬盤陣列的數(shù)據(jù)存儲與控制系統(tǒng)設計研究
      基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
      工業(yè)熱電偶計量檢定系統(tǒng)設計
      基于物聯(lián)網(wǎng)的煤礦智能倉儲與物流運輸管理系統(tǒng)設計與應用
      目標特性測量雷達平臺建設構想
      科技視界(2016年22期)2016-10-18 14:34:34
      星級酒店建筑電氣及弱電智能系統(tǒng)設計分析
      信息管理服務平臺項目應用系統(tǒng)設計探析
      武威市| 舞阳县| 额敏县| 塔河县| 甘南县| 徐闻县| 安康市| 阿坝县| 喜德县| 湟中县| 灵武市| 阿拉善盟| 曲阳县| 东阳市| 宁津县| 建瓯市| 松阳县| 磴口县| 宁晋县| 新竹县| 若尔盖县| 万宁市| 南城县| 赤峰市| 革吉县| 民县| 鸡泽县| 昌都县| 郸城县| 普兰店市| 通渭县| 祁东县| 鞍山市| 白银市| 泰安市| 昌江| 恩施市| 康保县| 安图县| 桂林市| 柯坪县|