• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      機(jī)器學(xué)習(xí)在收單系統(tǒng)信用卡套現(xiàn)偵測(cè)中的應(yīng)用分析

      2019-09-18 03:58:30陳澤瀛于衛(wèi)國(guó)
      中國(guó)科技縱橫 2019年14期
      關(guān)鍵詞:機(jī)器學(xué)習(xí)

      陳澤瀛 于衛(wèi)國(guó)

      摘 要:隨著互聯(lián)網(wǎng)金融的迅猛發(fā)展,交易欺詐手法呈現(xiàn)出快速多變的發(fā)展趨勢(shì),而受制于人力、時(shí)間、空間等多種因素,僅憑專家經(jīng)驗(yàn)的方式難以應(yīng)對(duì)復(fù)雜多變的外部風(fēng)險(xiǎn)。為更好適應(yīng)收單業(yè)務(wù)互聯(lián)網(wǎng)化的發(fā)展趨勢(shì),防范各類欺詐風(fēng)險(xiǎn),需要將以經(jīng)驗(yàn)驅(qū)動(dòng)為主導(dǎo)的工作方式轉(zhuǎn)變?yōu)橐詳?shù)據(jù)驅(qū)動(dòng)為主導(dǎo)的工作方式,通過(guò)應(yīng)用大數(shù)據(jù)、人工智能等技術(shù)將沉淀的數(shù)據(jù)轉(zhuǎn)換成有用的風(fēng)控模型,提高智能化風(fēng)險(xiǎn)管控能力。本文研究利用機(jī)器學(xué)習(xí)的方法,識(shí)別收單業(yè)務(wù)中信用卡套現(xiàn)行為,并對(duì)建模方法給了完整呈現(xiàn)。

      關(guān)鍵詞:風(fēng)險(xiǎn)管理系統(tǒng);機(jī)器學(xué)習(xí);信用卡套現(xiàn)

      中圖分類號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-2064(2019)14-0058-03

      1 建模過(guò)程

      1.1 業(yè)務(wù)問(wèn)題定義

      信用卡套現(xiàn)是指在銀行卡收單業(yè)務(wù)場(chǎng)景中,商家和持卡人合謀以虛構(gòu)交易的形式消費(fèi),然后商家以現(xiàn)金返還給刷卡人。傳統(tǒng)的反信用卡欺詐依賴于專家規(guī)則,需要大量的人工核查成本,并且具有明顯的滯后性。利用機(jī)器學(xué)習(xí)方法構(gòu)建分類器,從大量、高維歷史數(shù)據(jù)中學(xué)習(xí)套現(xiàn)行為模式,并精準(zhǔn)識(shí)別存在典型套現(xiàn)行為的商家,打擊此類違法行為。

      1.2 數(shù)據(jù)基礎(chǔ)

      收單機(jī)構(gòu)在業(yè)務(wù)過(guò)程中積累了大量的商戶數(shù)據(jù),交易數(shù)據(jù)和樣本數(shù)據(jù)。結(jié)合以往的業(yè)務(wù)經(jīng)驗(yàn),對(duì)這些數(shù)據(jù)進(jìn)行分析,盡可能的構(gòu)建更多特征來(lái)刻畫商戶行為,形成最終特征寬表。本業(yè)務(wù)構(gòu)建的特征寬表包含靜態(tài)特征21維,動(dòng)態(tài)特征979維。動(dòng)態(tài)特征可按照日期間隔動(dòng)態(tài)配置為天、周、月、季、年等不同的維度。

      1.3 數(shù)據(jù)抽取

      在2016年1月至2017年12月的流水?dāng)?shù)據(jù)和商戶數(shù)據(jù)基礎(chǔ)上,構(gòu)建特征寬表。由于2016年和2017年黑樣本數(shù)量差距過(guò)大,數(shù)據(jù)分布不同,所以選擇2016年數(shù)據(jù)進(jìn)行建模。訓(xùn)練集選取2016年2月到2016年7月的樣本,測(cè)試集分別選取2016年8,9月的樣本。模型更新測(cè)試選取2016年4月到2016年9月的樣本為訓(xùn)練集,選取2016年10月的樣本為測(cè)試集。數(shù)據(jù)抽取為分層采樣,抽取10%的白樣本和100%黑樣本,采樣比例約為1:50。特征寬表樣本數(shù)量分布如表1所示。

      按照業(yè)務(wù)要求,定義以商戶、日期為一個(gè)樣本,每個(gè)樣本需要涵蓋商戶過(guò)去交易、商戶畫像等特征信息。由于樣本特征都是按天統(tǒng)計(jì)的結(jié)果,所以首先需要將流水表里的數(shù)據(jù)按照商戶和日期分組,然后對(duì)金額、筆數(shù)等字段進(jìn)行匯總,從而得到特征寬表。

      1.4 分析建模

      1.4.1 冗余處理

      為了剔除明顯沒(méi)有套現(xiàn)風(fēng)險(xiǎn)的白樣本,在數(shù)據(jù)進(jìn)入模型之前采用一些規(guī)則過(guò)濾部分?jǐn)?shù)據(jù)。原則是在減少少量黑樣本的條件下大幅減少白樣本。方法是首先篩選黑樣本,然后觀察商戶當(dāng)天信用卡交易筆數(shù)、金額、最大交易金額、交易筆數(shù)占比、商戶分店數(shù)、終端數(shù)的分位數(shù)分布,取值大于等于1/4分位數(shù)的那些樣本。規(guī)則篩選前后樣本數(shù)量(2016-02到2016-12)分布如下。

      從上表2可以看出,規(guī)則篩選后,黑樣本減少了約40%,白樣本減少了約90%。事先用規(guī)則剔除樣本的作用有三點(diǎn):

      (1)減少數(shù)據(jù)量,提高模型運(yùn)算速度,減少模型運(yùn)算時(shí)長(zhǎng)。

      (2)保證在訓(xùn)練集抽樣過(guò)程中,盡量抽取到與黑樣本較難區(qū)分的白樣本,使模型的訓(xùn)練更有針對(duì)性,提高模型預(yù)測(cè)精度。

      (3)剔除不準(zhǔn)確標(biāo)記的黑樣本,減少錯(cuò)誤標(biāo)記對(duì)模型的干擾。

      1.4.2 異常值控制

      建模過(guò)程中涉及對(duì)樣本數(shù)據(jù)的異常值確認(rèn)。一般通過(guò)大量的統(tǒng)計(jì)工作,將明顯異常的觀測(cè)值排除出建模樣本,或者采用分位數(shù)來(lái)確定數(shù)據(jù)的正常值范圍。樹模型對(duì)異常值不敏感,因此當(dāng)選用GBDT模型來(lái)構(gòu)建分類器時(shí),無(wú)需對(duì)異常值進(jìn)行處理。

      1.4.3 特征選擇

      過(guò)高的數(shù)據(jù)維度往往增加了模型訓(xùn)練和預(yù)測(cè)時(shí)的資源消耗,甚至降低模型效果。根據(jù)樹模型輸出的特征重要性排序,通過(guò)多次實(shí)驗(yàn),使用模型輸出的前100個(gè)重要特征重新建模,依然能維持甚至提升模型效果。

      利用原始特征建立模型,然后根據(jù)模型的輸出對(duì)變量重要性進(jìn)行評(píng)估。線性模型系數(shù)通常反應(yīng)特征對(duì)響應(yīng)變量的影響程度,GBDT模型可以輸出入模特征的重要性,數(shù)值越大表示該特征重要性越強(qiáng)。

      1.4.4 模型訓(xùn)練

      使用機(jī)器學(xué)習(xí)平臺(tái)構(gòu)建的完整建模流程圖如圖1所示。

      HiveTable:從Hive表中讀取帶有標(biāo)記的特征寬表。

      TimeFilter:按時(shí)間切分,把特征寬表中數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,以2016-08-01為切分時(shí)間點(diǎn),前6個(gè)月的數(shù)據(jù)(2016-2-1到2016-7-31)為訓(xùn)練集,后1個(gè)月數(shù)據(jù)為測(cè)試集。

      QuataRandomSample:對(duì)數(shù)據(jù)進(jìn)行抽樣。當(dāng)輸入為訓(xùn)練集時(shí),表示對(duì)訓(xùn)練集按照某一列進(jìn)行抽樣。

      GbdtClassification:調(diào)用GBDT模型,輸入為抽樣之后的訓(xùn)練集數(shù)據(jù)。

      EvaluateClassificationModel:觀測(cè)模型在訓(xùn)練集中的表現(xiàn),評(píng)估模型效果, 默認(rèn)閾值為0.5。

      PredictClassification:對(duì)測(cè)試集數(shù)據(jù)進(jìn)行預(yù)測(cè)。

      EvaluateClassificationModelOnly:評(píng)估模型預(yù)測(cè)效果,展示在不同閾值下模型的Precision,Recall,F(xiàn)-Score,Auc等指標(biāo)。

      1.5 模型評(píng)估

      表3是GBDT模型在相同訓(xùn)練集條件下不同測(cè)試集中的表現(xiàn)結(jié)果。在2016年8月份的測(cè)試集中,閾值為0.5時(shí),模型精度和召回分別能達(dá)到0.32和0.35。精度和召回兩項(xiàng)指標(biāo)中套現(xiàn)場(chǎng)景更加注重模型的精度表現(xiàn),在提高閾值后,模型在多個(gè)測(cè)試集中的精度均能達(dá)到0.5以上。

      隨著時(shí)間增長(zhǎng),模型效果呈下降趨勢(shì),但整體保持穩(wěn)定。表4顯示了用2016年4月到9月數(shù)據(jù)訓(xùn)練模型之后,效果有顯著提升。閾值為0.9時(shí),更新之后的模型將精度和召回分別從原來(lái)的0.53和0.05提升到了0.66和0.11。因此為了保證模型有較好的預(yù)測(cè)水平,應(yīng)該定期對(duì)模型進(jìn)行更新,用最新的數(shù)據(jù)訓(xùn)練模型。隨著閾值提高,模型召回率在下降,精確率在提升。對(duì)精度要求高于召回要求的場(chǎng)景,應(yīng)該設(shè)置較高的閾值,提高黑樣本的置信度。

      2 應(yīng)用分析

      現(xiàn)有場(chǎng)景中只設(shè)置了規(guī)則,規(guī)則需要經(jīng)驗(yàn)豐富的業(yè)務(wù)專家來(lái)設(shè)置調(diào)整,并且這個(gè)過(guò)程需要一定的時(shí)間要求和人員能力要求?,F(xiàn)有規(guī)則觸發(fā)量大,面對(duì)風(fēng)險(xiǎn)交易無(wú)法及時(shí)阻斷調(diào)查,對(duì)于風(fēng)險(xiǎn)交易需要一定的人力去調(diào)查。

      機(jī)器學(xué)習(xí)模型系統(tǒng)對(duì)于現(xiàn)有規(guī)則系統(tǒng)的主觀經(jīng)驗(yàn)是一種替代和強(qiáng)化。機(jī)器學(xué)習(xí)模型的方式可以極大的增加預(yù)測(cè)的準(zhǔn)確率,并且在一定程度上可以彌補(bǔ)規(guī)則的短板,模型的輸出是概率值,可根據(jù)實(shí)際業(yè)務(wù)情況調(diào)整閾值,比較靈活。

      在現(xiàn)有的模型中,主要能起到以下幾個(gè)作用:

      (1)能夠提供及時(shí)的預(yù)測(cè),提高業(yè)務(wù)效率。

      (2)能夠輸出套現(xiàn)概率,有利于業(yè)務(wù)人員的決策。

      (3)能夠?qū)σ?guī)則進(jìn)行補(bǔ)充,捕捉到大量灰樣本。

      3 結(jié)語(yǔ)

      一方面,目前模型的效果在以往規(guī)則基礎(chǔ)上提升了十余倍,極大地降低了業(yè)務(wù)人員案例核查成本。另一方面,模型仍然有很大的提升空間。優(yōu)化的方向可以參考以下幾點(diǎn):

      (1)本次建模過(guò)程中測(cè)試過(guò)集成模型,具體思路是用第一個(gè)模型識(shí)別出大量的白樣本,用第二個(gè)模型針對(duì)性識(shí)別預(yù)測(cè)為黑的樣本,但效果提升不大。未來(lái)可以進(jìn)一步分析該種集成方法的可行性和具體集成模型構(gòu)建方案。

      (2)有監(jiān)督模型訓(xùn)練集抽樣時(shí),先利用聚類方法,從不同的類簇中抽取白樣本,使抽取到的白樣本更能準(zhǔn)確代表總體白樣本分布,從而提高模型識(shí)別精度。

      (3)根據(jù)業(yè)務(wù)風(fēng)險(xiǎn),構(gòu)建更具相關(guān)性的特征,對(duì)建模過(guò)程多次迭代優(yōu)化。

      (4)更進(jìn)一步分析不同的套現(xiàn)場(chǎng)景,建立各自不同的特征,不同的黑白樣本標(biāo)注準(zhǔn)則,對(duì)每個(gè)場(chǎng)景分開建模。

      (5)對(duì)每個(gè)分支機(jī)構(gòu)單獨(dú)建模。

      參考文獻(xiàn)

      [1] 方向,肖曉飛.數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用研究[J].太原科技,2008(02):39-40.

      [2] 謝平,鄒傳偉.互聯(lián)網(wǎng)金融模式研究[J].金融研究,2012(12):11-22.

      [3] 劉鎮(zhèn).人工智能和機(jī)器學(xué)習(xí)在金融領(lǐng)域的發(fā)展及對(duì)金融穩(wěn)定的影響[J].吉林金融研究,2018(02):36-38.

      [4] 吳載斌.互聯(lián)網(wǎng)時(shí)代的信用卡欺詐風(fēng)險(xiǎn)管理淺析[J].中國(guó)信用卡,2017(04):15-17.

      [5] 蔡文學(xué),羅永豪,張冠湘,鐘慧玲.基于GBDT與Logistic回歸融合的個(gè)人信貸風(fēng)險(xiǎn)評(píng)估模型及實(shí)證分析[J].管理現(xiàn)代化,2017,37(02):1-4.

      猜你喜歡
      機(jī)器學(xué)習(xí)
      基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
      基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
      前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
      下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
      活力(2016年8期)2016-11-12 17:30:08
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      基于Spark的大數(shù)據(jù)計(jì)算模型
      基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
      基于圖的半監(jiān)督學(xué)習(xí)方法綜述
      機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
      平陆县| 廉江市| 乐昌市| 海口市| 汶川县| 同仁县| 田林县| 元江| 卫辉市| 正镶白旗| 璧山县| 东乡县| 德昌县| 科尔| 濮阳市| 西林县| 大城县| 九寨沟县| 永年县| 潼南县| 康乐县| 仙桃市| 金寨县| 建阳市| 富宁县| 陇川县| 开原市| 公安县| 额尔古纳市| 仙游县| 文水县| 余江县| 鄄城县| 井陉县| 乃东县| 福海县| 淮滨县| 勐海县| 永定县| 璧山县| 五常市|