• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      非平衡大數(shù)據(jù)下的保險欺詐識別研究

      2015-05-30 10:30:46范廣哲劉瑾雯
      中國新通信 2015年1期
      關(guān)鍵詞:隨機森林

      范廣哲 劉瑾雯

      【摘要】 隨著保險欺詐(Insurance Fraud)向全球蔓延,研究方法開始由定性研究向?qū)嵶C研究過渡。然而現(xiàn)有分類器的設(shè)計都是基于類分布大致平衡這一假設(shè)的,針對現(xiàn)實世界中廣泛存在不平衡數(shù)據(jù)這一事實,本研究對美國機動車保險機構(gòu)提供的車險索賠非平衡大數(shù)據(jù),運用隨機森林(Random Forest)對欺詐進行識別預(yù)測,為構(gòu)建我國保險欺詐識別模型提出建議。

      【關(guān)鍵詞】 保險欺詐 識別模型 隨機森林

      國內(nèi)外保險欺詐(Insurance Fraud)識別研究 早期的識別模型主要是以 Logit 模型為主。Artis、Ayuso 和 Guillen 建立了 AAG 欺詐識別模型。Caudill、Ayuso、Guillen 建立多項分對數(shù)模型。

      Ridit模型通過建立標準組,將其他組的數(shù)據(jù)與之做對比來計算 R 值。我國學(xué)者葉明華1,運用 Logit 回歸分析對識別因子進行精煉,將 BP 神經(jīng)網(wǎng)絡(luò)應(yīng)用在車險欺詐識別中,得到了更高的準確率。

      然而,在實際操作過程中,可能會因兩方面因素影響,導(dǎo)致準確率偏差:一是數(shù)據(jù)樣本小,缺乏對于現(xiàn)實中包含微弱信息的大型數(shù)據(jù)庫的數(shù)據(jù)分析。二是以理想的數(shù)據(jù)平衡狀態(tài)作為研究背景,脫離實際。

      研究數(shù)據(jù) 研究樣本為美國車輛保險機構(gòu)提供的車險索賠數(shù)據(jù),共包含 11336 項記錄。其中 94 年的數(shù)據(jù)為訓(xùn)練集(6141 條),95 年的數(shù)據(jù)為測試集(5195 條)。共有包括“車輛品牌”、“事故發(fā)生地”等在內(nèi)的 31 個自變量,一個應(yīng)變量“欺詐與否”,誠實索賠為 0,欺詐索賠為 1,正類樣本只占樣本總量的 6%,為兩分類非平衡大數(shù)據(jù)。

      評價準則

      目前分類算法常見的評價準則主要有:

      (1) 準確率(Precision ): Precision= TP / ( TP + F P ) )

      (2) 查全率(Recall): Recall = TP / ( TP + FN ))

      此外,人們從醫(yī)療分析領(lǐng)域引入了一種新的評判方法—ROC分析,其橫坐標是將負例錯分為正例的概率(FPR),縱坐標是將正例分對的概率(TPR),通常采用ROC曲線下面積AUC來代替ROC曲線對分類器的性能進行定量評估。在眾多現(xiàn)實分類任務(wù)中AUC已經(jīng)替代準確率成為分類算法的性能評價指標。

      本研究選取AUC作為分類器性能評價準則。 保險欺詐識別中的隨機森林(Random Forest)應(yīng)用 Leo Breiman2將統(tǒng)計學(xué)理論中的數(shù)據(jù)分析分為數(shù)據(jù)建模文化(The Data Modeling Culture),例如線性回歸,邏輯回歸,Cox 模型等;算法建模文化(The Algorithmic Modeling Culture),典型模型是 Leo Breiman 在決策樹基礎(chǔ)上建立的隨機森林3。

      相比數(shù)據(jù)建模文化,算法建模文化可以得到更有效的預(yù)測模型。隨機森林對缺失數(shù)據(jù)和非平衡的數(shù)據(jù)比較穩(wěn)健,可以很好地預(yù)測多達幾千個解釋變量的作用,而不需要對解釋變量進行交叉檢驗及精煉,從而避免刪除隱藏的有效信息。此外,隨機森林算法還不容易產(chǎn)生過擬合現(xiàn)象,被譽為當前最好的算法之一。

      研究采用 R 軟件的 randomForest 程序包命令對數(shù)據(jù)進行分析。將訓(xùn)練集數(shù)據(jù)(1994 年數(shù)據(jù))全部輸入,設(shè)置參數(shù),500 顆樹(ntree),每個節(jié)點選取 5個特征值(mtry),構(gòu)建隨機森林欺詐識別模型。將測試集(1995 年數(shù)據(jù))輸入模型中,得到欺詐預(yù)測輸出結(jié)果。圖為預(yù)測結(jié)果ROC曲線,得到AUC面積為0.724。用ROC曲線的AUC評價診斷試驗的準確性判斷標準為:AUC在0.5~0.7之間表示診斷價值較低,在0.7~0.9之間表示診斷價值中等,大于0.9則表示診斷價值較高4。

      結(jié)論與建議

      本文針對現(xiàn)實生活中存在的多為非平衡數(shù)據(jù)這一事實,對獲得的車險索賠大數(shù)據(jù)進行欺詐識別研究?;跀?shù)據(jù)的不平衡特性,選取AUC作為分類器性能的評價指標,利用94年的數(shù)據(jù)對95年的車險欺詐進行預(yù)測,很好的保證了研究樣本的

      時間連貫性。 由于國內(nèi)目前的車險欺詐識別研究沒有針對非平衡數(shù)據(jù)的分析,研究結(jié)果沒有準確的比較標準,從醫(yī)療領(lǐng)域利用AUC進行評價的分類器性能研究中可以看到,大多數(shù)預(yù)測研究的AUC都在0.7~0.8之間,且研究樣本也并沒有如此龐大。由此可以看出,本文的研究結(jié)果在可接受范圍內(nèi)。 在進一步的研究中,我們將會進行國內(nèi)保險數(shù)據(jù)的收集和整理,規(guī)避人為的數(shù)據(jù)篩選,保持數(shù)據(jù)的原始性,通過進一步的研究分析,構(gòu)建符合國內(nèi)行情的,立足于現(xiàn)實的保險欺詐識別模型。

      參 考 文 獻

      [1]葉明華,基于 BP 神經(jīng)網(wǎng)絡(luò)的保險欺詐識別研究[J].保險研究,2011(3):79-86

      [2] Leo Breiman, Statistical Modeling: The Two Cultures[J].Statistical Science,2001,Vol. 16,No. 3: 199–231

      [3] Leo Breiman, Random Forests[J].Machine Learning,2001,45(1):5–32

      [4] Bradley A P. The use of the area under the ROC curve in the evaluation of machine learning algorithms[ J ]. Pattern Recognition,1997,30(7)

      猜你喜歡
      隨機森林
      隨機森林算法在中藥指紋圖譜中的應(yīng)用:以不同品牌夏桑菊顆粒指紋圖譜分析為例
      基于隨機森林的登革熱時空擴散影響因子等級體系挖掘
      基于隨機森林的HTTP異常檢測
      個人信用評分模型比較數(shù)據(jù)挖掘分析
      時代金融(2017年6期)2017-03-25 22:21:13
      隨機森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
      基于二次隨機森林的不平衡數(shù)據(jù)分類算法
      軟件(2016年7期)2017-02-07 15:54:01
      拱壩變形監(jiān)測預(yù)報的隨機森林模型及應(yīng)用
      基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
      基于奇異熵和隨機森林的人臉識別
      軟件(2016年2期)2016-04-08 02:06:21
      基于隨機森林算法的B2B客戶分級系統(tǒng)的設(shè)計
      中牟县| 汝城县| 行唐县| 荥经县| 钟山县| 通州市| 建昌县| 保定市| 武汉市| 六盘水市| 花莲县| 关岭| 错那县| 托里县| 唐河县| 灵丘县| 河池市| 房山区| 息烽县| 福州市| 长阳| 景德镇市| 灵丘县| 贵南县| 寻乌县| 二连浩特市| 松江区| 且末县| 宁津县| 元朗区| 景泰县| 新沂市| 汉川市| 闻喜县| 台安县| 盈江县| 明溪县| 介休市| 西乌| 汪清县| 湟源县|