• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于動態(tài)基線和無監(jiān)督異常檢測技術的業(yè)務風險分析系統(tǒng)實踐

      2023-11-22 10:28:30
      江蘇通信 2023年5期
      關鍵詞:日志基線用戶

      葉 枰

      中國電信股份有限公司江蘇分公司

      0 引言

      隨著移動業(yè)務互聯(lián)網(wǎng)化的發(fā)展,江蘇電信建設了一大批面向互聯(lián)網(wǎng)的應用系統(tǒng):網(wǎng)上營業(yè)廳、掌上營業(yè)廳、微信公眾號等,通過這些線上渠道系統(tǒng),用戶可足不出戶,享受在線查詢、充值、業(yè)務辦理等便利,越來越多的交易正在從傳統(tǒng)的線下渠道遷移到線上渠道?;ヂ?lián)網(wǎng)的發(fā)展在提升用戶體驗的同時,也帶來了網(wǎng)絡安全風險,相關黑色產(chǎn)業(yè)鏈的興起,不僅有可能造成業(yè)務層面的損失,也會對企業(yè)形象產(chǎn)生不良社會影響。此外,為應對網(wǎng)絡安全風險,我國出臺頒布了《數(shù)據(jù)安全法》《個人信息保護法》,對用戶個人信息保護也提出了更高要求。

      圍繞上述風險和發(fā)展要求,江蘇電信建設了Web 應用防火墻(WAF),基于靜態(tài)特征碼、行為特征和特定規(guī)則進行報文檢測與過濾,實現(xiàn)對已知特定攻擊的阻斷,在一定程度上有效遏制了網(wǎng)絡攻擊行為,但在面對攻擊者使用新工具、利用未知漏洞的攻擊行為時,往往無法進行有效防護,因此需要在做好傳統(tǒng)安全防護的基礎上,探索出一條新的安全風險感知思路,及時發(fā)現(xiàn)、處置安全風險,降低風險影響。

      本文實現(xiàn)的系統(tǒng)通過采集線上渠道數(shù)據(jù),對用戶訪問行為、業(yè)務數(shù)據(jù)進行清洗和轉換,結合業(yè)務場景建立業(yè)務風險模型,通過數(shù)據(jù)分析,構建各業(yè)務特征模型,有效識別繞過安全策略、非法為別人辦理業(yè)務等惡意行為,并對這些欺詐或違規(guī)行為進行分析識別和告警。

      1 技術概述

      1.1 動態(tài)基線技術

      基線技術主要與異常檢測和異常告警結合使用,傳統(tǒng)基線技術一般采用事先設定好的告警基線值,當異常檢測結果達到基線值時即觸發(fā)告警?;€值的設置至關重要,由業(yè)務特性決定。當監(jiān)測指標較多,且業(yè)務特性復雜時,需要針對性地配置多個基線值,比如業(yè)務一天內(nèi)高峰時間、低谷時間、正常時間的基線值不同,工作日和非工作日基線值不同,尤其是在業(yè)務發(fā)生重大變化后,需要對基線值重新進行設置。

      動態(tài)基線技術中的基線值并不是事先設定的,而是通過動態(tài)計算出來的,核心思想是結合時間計算出各個時間區(qū)間的理想基線。計算的數(shù)據(jù)來自歷史業(yè)務數(shù)據(jù),在實際計算中一般需要對數(shù)據(jù)進行預處理,去除不合理數(shù)據(jù),以減少數(shù)據(jù)異常對動態(tài)基線的影響,提高算法的穩(wěn)定性。動態(tài)計算結果作為觸發(fā)告警的依據(jù),可以是一個具體的基線值,也可以是一個基線區(qū)間。在真實應用場景中,部分動態(tài)基線算法可采用插值法對數(shù)據(jù)進行填充以及降噪處理,提高數(shù)據(jù)的完整性。

      動態(tài)基線技術能有效解決業(yè)務迭代速度快、基線值變動頻繁、基線值維護工作量大等問題,尤其是在某些場景下能夠基于歷史經(jīng)驗給出未來一段時間內(nèi)的預測結果,相較于傳統(tǒng)基線技術更能準確、有效地發(fā)現(xiàn)業(yè)務風險并進行告警。

      1.2 無監(jiān)督異常檢測技術

      異常檢測是一種識別不正常情況與挖掘非邏輯數(shù)據(jù)的技術,用來在數(shù)據(jù)集中發(fā)現(xiàn)顯著不同于其他數(shù)據(jù)的對象,是數(shù)據(jù)挖掘中的一個重要組成部分,常用于金融、工業(yè)、通信等風控領域。

      異常檢測模型根據(jù)數(shù)據(jù)標簽內(nèi)容可大致分為有監(jiān)督異常檢測、半監(jiān)督異常檢測、無監(jiān)督異常檢測。當訓練數(shù)據(jù)集中的數(shù)據(jù)都能打上正常和異常標簽時,有監(jiān)督異常檢測模型能快速建立并作出預測。當訓練數(shù)據(jù)集中的數(shù)據(jù)包含正常標簽時,半監(jiān)督異常檢測模型也能適用。然而在實際應用中,訓練數(shù)據(jù)集往往來自不含任何標簽的歷史業(yè)務數(shù)據(jù),如果需要通過人工訓練進行打標,必然產(chǎn)生大量的人工成本。因此,無監(jiān)督異常檢測技術更適用于正常業(yè)務數(shù)據(jù)和異常業(yè)務數(shù)據(jù)都存在但沒有標簽,同時正常業(yè)務數(shù)據(jù)遠大于異常數(shù)據(jù)的情況。

      無監(jiān)督異常檢測模型一般定義一個打分函數(shù)來表示一個數(shù)據(jù)對象的異常程度,按照數(shù)據(jù)對象的異常分排序,異常分高的數(shù)據(jù)對象往往作為異常。根據(jù)算法不同,無監(jiān)督異常檢測模型通常分為基于統(tǒng)計與概率的模型、基于距離的模型、基于密度的模型、基于線性的模型、基于樹的模型和基于神經(jīng)網(wǎng)絡的模型。

      2 業(yè)務風險分析系統(tǒng)實踐

      2.1 系統(tǒng)設計

      本系統(tǒng)的技術架構主要分為展示層、分析層、系統(tǒng)層等三層結構,核心分析層主要分為離線分析及終端檢測模塊,如圖1 所示。

      圖1 系統(tǒng)技術架構設計

      系統(tǒng)層實現(xiàn)各類安全數(shù)據(jù)的采集、處理、匯聚、存儲、檢索能力,以接口形式向安全威脅分析與預警分析提供輸入數(shù)據(jù)。系統(tǒng)層通過主動或被動方式采集相關系統(tǒng)及應用數(shù)據(jù)源,主要包括登錄日志、訂單日志、接口調用日志以及業(yè)務辦理日志等。針對采集數(shù)據(jù)格式的不一致、數(shù)據(jù)輸入錯誤、數(shù)據(jù)不完整等情況,系統(tǒng)層對數(shù)據(jù)進行轉換和加工,如字段映射、數(shù)據(jù)過濾、數(shù)據(jù)清洗、靜態(tài)補齊等過程,將輸出的數(shù)據(jù)進行存儲。

      分析層提供平臺分析方法與分析能力,其中分析方法采用了分析引擎、分析場景、分析輸出的分別定義,建立威脅分析檢測模型、預測分析模型等,依據(jù)不同安全場景需求采用離線分析、匯總統(tǒng)計、機器學習等方法進行數(shù)據(jù)分析的驅動。

      展示層將分析、處理、整合的數(shù)據(jù)根據(jù)不同業(yè)務場景需求進行可視化的呈現(xiàn)、風險的概覽、用戶行為的分析、事件管理呈現(xiàn),同時提供原始日志與標準化日志的智能搜索功能以及系統(tǒng)管理入口。

      2.2 數(shù)據(jù)管理模塊設計

      數(shù)據(jù)管理模塊是系統(tǒng)實現(xiàn)的核心,主要包含數(shù)據(jù)采集、數(shù)據(jù)清洗和標準化、數(shù)據(jù)存儲。

      采集模塊原則上以主動采集為主,被動收集為輔,通過Flume 組件采集用戶各類操作日志并傳輸至消息隊列Kafka 中,支持基于Ftp/Sftp、webservice、SNMP、file、JDBC/ODBC、Syslog、Flow 協(xié)議的日志采集,支持分布式多節(jié)點部署,支持多采集節(jié)點存活、健康狀態(tài)監(jiān)控,發(fā)現(xiàn)節(jié)點異常后,及時告警。

      數(shù)據(jù)清洗和標準化模塊通過分布式消息隊列Kafka 組件,對采集到的數(shù)據(jù)進行字段映射、數(shù)據(jù)類型轉換、數(shù)據(jù)清洗、數(shù)據(jù)加載解析規(guī)則等處理。

      數(shù)據(jù)存儲模塊中的日志存儲用于對采集上來的不同類型的數(shù)據(jù)進行分類存儲,以滿足數(shù)據(jù)分析的要求,支持對結構化數(shù)據(jù)、非結構化數(shù)據(jù)、關系型數(shù)據(jù)庫等進行分類存儲,支持的存儲方式包括HDFS、Hbase、Kafka、Elasticsearch 等。

      2.3 終端檢測模塊設計

      當用戶使用終端設備啟動應用程序時,判斷設備是否存在異常,服務端通過接收終端設備信息,提取核心字段進行設備指紋計算,為終端生成高唯一性、強穩(wěn)定性的設備標識符。隨后使用多維度終端屬性數(shù)據(jù)建模分析識別偽造虛假設備,檢測惡意終端繞過業(yè)務規(guī)則進行如虛假訂單、活動作弊等風險行為。

      2.4 離線分析模塊設計

      離線分析模塊中的用戶行為分析是通過對用戶操作日志數(shù)據(jù)持續(xù)監(jiān)控,為單個用戶或群體構建標準行為基線,通過動態(tài)基線技術提供從用戶、終端設備、IP 地址、UA 等維度,配置分析算法(基于經(jīng)驗法則、四分位異常、MA 序列)和自定義策略找出偏離基線的異常行為。它不僅僅是把行為分成非白即黑,而是經(jīng)過概率計算輸出分值來判斷是否異常,根據(jù)風險累計的數(shù)值判斷用戶風險級別。同時為用戶及其操作添加標簽,通過可視化的方式呈現(xiàn)單個用戶的行為畫像。

      由于業(yè)務存在大量的多維數(shù)據(jù),離線分析模塊采用基于孤立森林模型的異常識別打分算法,對歷史數(shù)據(jù)進行訓練,同時根據(jù)時間維度不斷完善訓練數(shù)據(jù)集,算法的識別率隨著時間穩(wěn)步提升。假設用戶在訪問同一個接口時調用的參數(shù)相對固定,那么將這個接口的所有訪問參數(shù)在query 參數(shù)個數(shù)、參數(shù)中數(shù)字個數(shù)和參數(shù)總長度等維度上做對比,來確定哪一條訪問的參數(shù)異常,并對異常度進行打分,然后對異常分數(shù)最高的一批訪問進行人工打標簽來確認是否真實存在異常,并將結果作為后續(xù)模型的訓練樣本。

      3 應用場景和效果

      3.1 應用場景

      圍繞識別數(shù)據(jù)信息泄露、用戶異常行為等業(yè)務風險,構建了以下三個場景模型:

      (1)登錄異常檢測模型:對業(yè)務系統(tǒng)中用戶登錄認證操作進行行為分析,識別出有撞庫、暴力破解、掃號等風險行為的賬戶。

      (2)業(yè)務系統(tǒng)互聯(lián)網(wǎng)安全檢測模型:對用戶登錄系統(tǒng)后辦理流量包、基礎業(yè)務、積分兌換等業(yè)務進行風險分析,通過辦理業(yè)務時間、業(yè)務名稱、辦理狀態(tài)等信息,建模分析識別其存在風險,如繞過檢測規(guī)則、非法為他人辦理業(yè)務、惡意兌換積分等敏感操作,防止敏感信息泄露。

      (3)違規(guī)腳本訂單檢測模型:分析通過各個系統(tǒng)產(chǎn)生的數(shù)據(jù),及時發(fā)現(xiàn)無效訂單,同時避免惡意刷單、惡意下單、訂單頻次異常等業(yè)務風險。

      3.2 效果驗證

      為驗證風險識別效果,江蘇電信以線上渠道生產(chǎn)的數(shù)據(jù)進行訓練,并輸出風險識別異常結果,包括風險用戶、風險行為、風險事件及風險評分,如圖2 至圖5 所示。

      圖2 業(yè)務風險識別異常結果總覽(a)

      圖3 業(yè)務風險識別異常結果總覽(b)

      圖4 業(yè)務風險識別異常結果總覽(c)

      圖5 業(yè)務風險識別異常結果總覽(d)

      系統(tǒng)運行初期,根據(jù)事先定義的風險模型自動化輸出的風險識別異常結果較多,月均達50000 條以上,經(jīng)過分析篩選出實際存在風險數(shù)量月均2 條左右,有效識別率不超過0.04%,這主要是風險模型構建不夠精細、樣本數(shù)據(jù)質量不高等原因造成的。經(jīng)過5 個月的數(shù)據(jù)訓練及模型優(yōu)化,目前風險識別異常結果數(shù)量下降至月均300條左右,經(jīng)分析實際存在風險76條,有效風險識別率提升至25.3%。

      4 結束語

      業(yè)務風險分析系統(tǒng)作為一種分析平臺,是以數(shù)據(jù)驅動為核心主線,使用多種算法檢測、提取、建模出整個分析過程,通過行為分析盡可能將異常行為從海量數(shù)據(jù)中分析出來,提供更加精準的異常行為結果,經(jīng)測試獲得了較好的應用效果,從而在實踐過程中探索出一條新的運營商線上渠道安全風險感知思路。但是不同的算法都有各自的局限性,很難有一個算法完全適用所有場景,且業(yè)務風險分析系統(tǒng)依賴于歷史數(shù)據(jù)、專家經(jīng)驗,未來需要針對不同業(yè)務場景進行參數(shù)優(yōu)化和算法優(yōu)化,不斷對異常檢測結果進行驗證和回饋,以提升有效風險識別率。

      猜你喜歡
      日志基線用戶
      一名老黨員的工作日志
      華人時刊(2021年13期)2021-11-27 09:19:02
      適用于MAUV的變基線定位系統(tǒng)
      高技術通訊(2021年3期)2021-06-09 06:57:46
      航天技術與甚長基線陣的結合探索
      科學(2020年5期)2020-11-26 08:19:14
      扶貧日志
      心聲歌刊(2020年4期)2020-09-07 06:37:14
      游學日志
      關注用戶
      商用汽車(2016年11期)2016-12-19 01:20:16
      一種改進的干涉儀測向基線設計方法
      關注用戶
      商用汽車(2016年6期)2016-06-29 09:18:54
      關注用戶
      商用汽車(2016年4期)2016-05-09 01:23:12
      如何獲取一億海外用戶
      安顺市| 清丰县| 鸡东县| 小金县| 尖扎县| 华宁县| 玉溪市| 昌图县| 绥德县| 成安县| 青铜峡市| 永康市| 龙岩市| 赣榆县| 卢龙县| 汉中市| 荔浦县| 元朗区| 阳东县| 闽清县| 徐汇区| 芷江| 茶陵县| 乌恰县| 启东市| 永清县| 乌鲁木齐市| 祥云县| 扎兰屯市| 新乡县| 镇坪县| 闽清县| 绥中县| 阿坝县| 娱乐| 莱阳市| 洛扎县| 迁西县| 永州市| 布尔津县| 句容市|