• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于數(shù)據(jù)挖掘的醫(yī)保欺詐預警模型研究

      2016-06-17 19:06陳亞琳王旭明
      電腦知識與技術 2016年11期
      關鍵詞:欺詐決策樹醫(yī)囑

      陳亞琳++王旭明

      摘要:為識別醫(yī)療保險中的欺詐行為,提出了一種基于數(shù)據(jù)挖掘的醫(yī)保欺詐預警模型。首先運用ACCESS數(shù)據(jù)庫軟件和SQL查詢語句,篩選出能運用于醫(yī)保欺詐行為檢測的數(shù)據(jù);其次根據(jù)醫(yī)保數(shù)據(jù)的特點,結合SPSS Modeler軟件,采用聚類分析方法和分類決策樹算法,建立預測判別模型,識別某位病人在一段時間內是否存在醫(yī)保欺詐行為;最后通過數(shù)據(jù)映射關系來找到與嫌疑人有關的嫌疑科室、嫌疑醫(yī)生等。從而為醫(yī)療保險機構的決策者和醫(yī)?;疬\營監(jiān)管人員進行科學決策提供客觀依據(jù),提升社會預測力和科學決策力。

      關鍵詞:醫(yī)保欺詐;SQL查詢語句;聚類分析;C5.0決策樹

      中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)11-0001-04

      隨著近年來參保覆蓋面和基金規(guī)模的迅速擴大、定點服務機構的大量增加、社會對醫(yī)療保險的認知度增強以及信息管理的薄弱,導致了醫(yī)療保險欺詐問題日趨嚴峻。欺詐手段也開始呈現(xiàn)出復雜性與多樣性。這些欺詐行為嚴重損害著廣大參保人員的利益,制約醫(yī)療保險公平可持續(xù)發(fā)展。面對日益膨脹的醫(yī)?;饠?shù)額,以及其廣泛的影響力,僅靠人工檢測已明顯不能滿足需求。目前,國內醫(yī)療保險信息化日漸完善,在醫(yī)療保險信息化過程中操作型數(shù)據(jù)庫記錄了大量詳細的醫(yī)保相關的交易信息,為數(shù)據(jù)挖掘的研究與應用提供了廣闊的空間。因此通過選取醫(yī)保數(shù)據(jù)中的相關屬性特征,利用數(shù)據(jù)挖掘技術進行欺詐行為的識別和預警,建立合理的醫(yī)保欺詐預警模型,是一項極其重要的研究,能為醫(yī)保管理決策者提供支持。

      1 醫(yī)保數(shù)據(jù)的預處理

      由于醫(yī)療保險數(shù)據(jù)的來源廣泛和涉及內容多,其主要有四大特點:(1)數(shù)據(jù)類型多、動態(tài)性、數(shù)據(jù)量大;(2)存放數(shù)據(jù)的表繁多且關系復雜;(3)數(shù)據(jù)相對完整,空缺值較少;(4)存在大量不一致和沒有價值的數(shù)據(jù)。因此,數(shù)據(jù)預處理是數(shù)據(jù)挖掘的極其重要的一部分,能剔除大量“臟數(shù)據(jù)”,提供更為干凈、準確、具有針對性的數(shù)據(jù)。本研究采用的數(shù)據(jù)主要是某地區(qū)一個月的醫(yī)保數(shù)據(jù),包括病人資料、醫(yī)療費用明細、醫(yī)囑表等6個Excel表格約30余萬條記錄,數(shù)據(jù)量符合數(shù)據(jù)挖掘的要求。

      1.1 醫(yī)保數(shù)據(jù)的清洗

      基于課題的研究背景、研究意義和研究方向,并結合6個excel表格,進行數(shù)據(jù)清洗,刪除大量對于本次數(shù)據(jù)挖掘沒有意義的數(shù)據(jù)。從這些表中選取的屬性數(shù)目如表1所示。

      表1 原有數(shù)據(jù)與所用數(shù)據(jù)屬性數(shù)對比表

      [表名\&病人資料表\&費用明細表\&醫(yī)囑表\&醫(yī)囑子類\&核算分類\&患者費別\&原有屬性數(shù)\&86\&20\&158\&33\&11\&17\&所選屬性數(shù)\&4\&14\&5\&5\&4\&3\&]

      1.2 醫(yī)保數(shù)據(jù)的轉換

      上面清洗得到的數(shù)據(jù)表中的數(shù)據(jù)并不能直接使用,還需要轉換為需要的形式,首先將日期一律采用“年-月-日”格式;接著通過出生日期和就診日期得到患者年齡;最后將醫(yī)囑ID號精簡成數(shù)字型。

      1.3 醫(yī)保數(shù)據(jù)的集成

      由于數(shù)據(jù)分別儲存在數(shù)據(jù)庫的幾個表中,因此需要將相關的表通過SQL查詢語句進行連接,生成一個初步的集成表“醫(yī)保數(shù)據(jù)表”。

      但是該表格的屬性繁多,冗余較大,還需進一步的處理。下面這些情況都有可能是醫(yī)保欺詐:單張?zhí)幏剿庂M偏高,就醫(yī)次數(shù)偏多,多人合伙進行欺詐等。因此,可計算病人就診時的單次賬單費用、每一個病人所看病的總消費額和就醫(yī)次數(shù)。生成兩個新的表格分別為“賬單費用表”和“綜合費用表”。

      2 醫(yī)保欺詐模型的建立與求解

      2.1 參保人騙保行為識別

      根據(jù)相關知識和文獻可知,對參保人騙保行為的識別主要通過以下兩種情況:一是單次處方費用偏高的識別;二是就醫(yī)次數(shù)偏多的識別。然后結合醫(yī)保數(shù)據(jù)的特點,本模型將采用聚類的方法對問題進行研究。具體的研究流程圖如圖1。

      1) 對所有病人聚類——Modeler的異常診斷方法

      圖1 研究流程圖

      根據(jù)病人的就醫(yī)特征,從“醫(yī)保數(shù)據(jù)表”中選取病人ID號、醫(yī)保手冊號、年齡、性別、就醫(yī)費用、就醫(yī)次數(shù)6個相關屬性,構建異常檢測聚類模型,對就醫(yī)人群進行聚類,判別出各類的異常點,從而找出就醫(yī)行為存在異常的參保人,即Modeler的異常診斷方法。

      ① SPSS Modeler的操作過程

      先將醫(yī)保數(shù)據(jù)表導入到SPSS Modeler中,并將除病人ID號、醫(yī)保手冊號、年齡、性別、就醫(yī)費用、就醫(yī)次數(shù)外的字段過濾掉;接著從表中的醫(yī)保手冊號這個字段中可看出,有一部分人在醫(yī)院的記錄中使用了醫(yī)保卡,而一部分人沒有使用,具體表現(xiàn)為:未使用醫(yī)??ǖ娜酸t(yī)保手冊號為1,因此將“醫(yī)保手冊號”屬性轉換成“是否參?!睂傩裕覍⒃摗搬t(yī)保手冊號”屬性過濾;然后選擇字段類型;最后利用Modeler的異常診斷方法,構建異常檢測聚類模型,找出就醫(yī)行為存在異常值。并設定訓練集中異常的記錄百分比為5%,SPSS Modeler的具體操作過程如下圖2。

      ② 運行結果如表2

      通過表5可以篩選出就醫(yī)行為存在異常的病人,并將研究的對象從58010名病人縮小到2047名異常的參保病人。為了方便之后的研究,在醫(yī)保數(shù)據(jù)庫的綜合費用表中新增一列“異常情況”,并導入“異常情況”這一屬性,得到“新綜合費用表”,通過該表,就可以很容易的查找出就醫(yī)行為存在異常的參保病人。

      2) 對異常參保人聚類——Modeler的K-means聚類

      通過步驟一的Modeler異常診斷方法,可以得到異常參保人有829人,但這并不代表就醫(yī)行為存在異常的參保病人都會進行醫(yī)保欺詐,因此本文將對這些異常參保病人進行K-means聚類分析,找出不同類群的異常就醫(yī)行為的病人行為特征,并定義醫(yī)保欺詐手段,從而識別出存在醫(yī)療保險欺詐的類群,再從中找出可能存在醫(yī)保欺詐的參保人員。

      ① SPSS Modeler的操作過程

      首先由于利用Modeler的K-means聚類方法時,首先需要給出聚類的類數(shù),但是聚類的類數(shù)難以確定,因此選擇Modeler的自動聚類方法。

      Modeler的自動聚類方法主要是Kohonen聚類、兩步聚類、K-means聚類,綜合本文實際情況、數(shù)據(jù)的特點以及聚類的質量,對比情況如圖4所示。因此最終選擇K-means聚類方法,從而找出不同類群的異常就醫(yī)行為的病人行為特征。

      ② 運行結果

      聚類結果顯示:聚類數(shù)為5類時最為適合,且聚類質量較好,操作結果如表3所示。

      根據(jù)表3聚類結果可以初步得知:

      對于聚類-1,該類參保異常人平均年齡為5.78,屬于少年群體,平均就醫(yī)次數(shù)6次,平均單次就醫(yī)費用69.5元,此費用較低,屬于正常范圍,這與少年本身身體素質有關,治療費用并不需要太高,因此認為這類人群不存在醫(yī)保欺詐的行為;

      對于聚類-2,該類參保異常人的平均年齡為46.06,屬于中年群體,平均就醫(yī)次數(shù)5次左右,平均單次就醫(yī)費用達到788.6元,與正常就醫(yī)行為特征相差十分大,因此認為該類人群存在醫(yī)保欺詐的行為;

      對于聚類-3,該類參保異常人的平均年齡為35.70,也屬于青年群體,雖然平均單次就醫(yī)費用僅77.34元,但其平均就醫(yī)次數(shù)達到9.52,由于就醫(yī)頻次過高,因此認為該類人群存在醫(yī)保欺詐的行為;

      對于聚類-4,該類參保異常人的平均年齡為68.44,已屬于老年群體,該類人群平均就醫(yī)次數(shù)3.42,平均單次就醫(yī)費用301.03;就醫(yī)費用較高,這與老年人體弱多病有關,一旦患病則需要較長的治療周期,因此本文認為該類人群不存在醫(yī)保欺詐的行為;

      對于聚類-5,該類參保異常人的平均年齡為37.78,屬于青年群體,該類人群平均就醫(yī)次數(shù)3.31,平均單次就醫(yī)費用256.7元;可認為該類人群不存在醫(yī)保欺詐的行為。

      根據(jù)以上的聚類結果和對各類人群的就醫(yī)行為特征進行歸納分析,可發(fā)現(xiàn),參保人就醫(yī)行為存在異常的病人中有醫(yī)保欺詐行為的僅163人,占參保異常人總數(shù)的7.96%,符合實際情況。本文將要探討的醫(yī)保欺詐行為定義為以下三類:

      a.參保人頻繁到醫(yī)院就醫(yī),超量購藥,導致就醫(yī)次數(shù)偏高和就醫(yī)費用偏高;

      b.若干參保人同一時間到醫(yī)院頻繁刷卡,開取昂貴藥,且開取的藥物藥效相似。

      c.參保人購買的藥物類型與所屬的年齡段不相符;

      3) 建立預測決策樹模型——Modeler的C5.0決策樹

      根據(jù)步驟一、二,已識別出存在醫(yī)保欺詐行為的病人。因此,通過結合存在醫(yī)保欺詐行為病人的就醫(yī)行為和不存在醫(yī)保欺詐行為病人的就醫(yī)行為特征,運用C5.0決策樹算法,建立了一個識別某位病人在一段時間內是否存在醫(yī)保欺詐行為的判別分類模型。

      ① SPSS Modeler的操作過程

      首先通過篩選建立參保病人表,確定決策樹的輸入變量為就醫(yī)次數(shù)、就醫(yī)費用以及年齡,輸出變量為“是否騙?!保渲袑⒋嬖卺t(yī)保欺詐的病人變量賦值為1,其余病人賦值為0;然后,將所有的樣本隨機劃分為兩個數(shù)據(jù)集,其中70%的參保病人作為決策樹的訓練集,用于進行決策樹的訓練,30%的參保病人作為決策樹的測試集,用于檢驗決策樹的正確率。具體的操作步驟如圖5。

      根據(jù)圖6所示,可以得到以下幾條判斷某位參保人在一個月內存在醫(yī)保欺詐行為的5 條規(guī)則:

      A. 如果 就醫(yī)次數(shù)>10,則存在醫(yī)保欺詐行為;

      B. 如果 就醫(yī)次數(shù)>8 并且 年齡>55,則存在醫(yī)保欺詐行為;

      C. 如果 就醫(yī)次數(shù)>7 并且 55>=年齡>15,則存在醫(yī)保欺詐行為;

      D. 如果 就醫(yī)費用>2097.38 并且 57>=年齡>32,則存在醫(yī)保欺詐行為;

      E. 如果 就醫(yī)費用>3305.02,則存在醫(yī)保欺詐行為。

      為驗證建模結果的準確性,通過對模型添加矩陣節(jié)點和分析節(jié)點,可以得到模型的準確率和損失率。結果見如表3和表4。

      通過表4可知:在訓練集里該決策樹的準確率高達100%,在測試集里準確率也高達99.94%,準確率極高。再通過表8的損失矩陣中可知:本來不存在醫(yī)保欺詐行為但是被該決策樹誤判為存在醫(yī)保欺詐行為的人數(shù)僅有1人;本來存在醫(yī)保欺詐行為但是被該決策樹誤判為不存在醫(yī)保欺詐行為的人數(shù)也只有5人。因此,該模型的準確率是非常高的,存在醫(yī)保欺詐行為的人數(shù)僅有163人,則該決策樹的適用范圍還是比較小的,具有可信度。

      2.2 數(shù)據(jù)映射查找相關欺詐信息

      通過對參保人騙保行為進行識別,找出了參保病人中可能進行醫(yī)保欺詐行為的病人。由醫(yī)保欺詐的欺詐對象來看,欺詐除了參保人還有醫(yī)生。因此,將繼續(xù)根據(jù)騙保人信息表的數(shù)據(jù)映射關系來找到與嫌疑人員有關的嫌疑科室、嫌疑醫(yī)生以及高頻醫(yī)囑子類、核算分類。從而可以確定協(xié)助作案的科室醫(yī)生以及醫(yī)保詐騙事故高發(fā)的醫(yī)囑項、醫(yī)囑子類以及核算類,便于以后的重點監(jiān)督和排查。

      1) 查找嫌疑科室

      根據(jù)醫(yī)保欺詐的欺詐方式來看,在某些情況下,科室可以通過偽造病歷、票據(jù)醫(yī)保等方式欺詐,以騙取醫(yī)保資金。顯然,通過這種操作方式會造成某些患者費用和頻率較高。因此,可以通過騙保人信息表篩選出與嫌疑參保人有關的科室,并且統(tǒng)計他們與嫌疑參保人進行操作的次數(shù)。本研究將采用醫(yī)保手冊號來統(tǒng)計下醫(yī)囑科室與嫌疑參保人進行操作的次數(shù)。

      最終由條形圖可知,前5個科室的交易次數(shù)明顯高于其他科室,并且和與其相鄰的科室樣本突然發(fā)生較大變化,因此將下醫(yī)囑科室為173、124、133、203、143的認為是嫌疑科室。

      2)查找嫌疑醫(yī)生

      與嫌疑科室同理,嫌疑醫(yī)生可以通過偽造病歷、票據(jù)醫(yī)保等方式通過欺詐,以騙取醫(yī)保資金。因此根據(jù)同樣的方法查詢出嫌疑醫(yī)生,條形圖顯示,前2個醫(yī)生的交易次數(shù)明顯高于其他醫(yī)生,并且和與其相鄰的科室樣本突然發(fā)生較大變化,因此將開囑醫(yī)生ID號為1180、794的認為是嫌疑醫(yī)生。

      3)查找高頻醫(yī)療作案項目

      醫(yī)保欺詐通常選擇效率高、收益高、周期短的醫(yī)療項目作為作案目標,因此可以通過查找記錄中高頻醫(yī)囑項、高頻醫(yī)囑子類、高頻核算分類來確認醫(yī)保欺詐高發(fā)的作案項目。為更直觀地看到各高頻類在項目中所占的比例,將繪制成餅圖來統(tǒng)計。

      由餅圖結果可以將醫(yī)囑項為6886、16428、5462等前十名,醫(yī)囑子類ID號為6、1、23,核算分類ID號為1的三個高頻項目認為是參保人極易選擇的作案項目,其內容具體意義為醫(yī)囑項:89SrCL2注射液[4mci]、重組人紅細胞生成素[5000IU/瓶]、0.9%氯化鈉注射液(直軟)[100ml]等,醫(yī)囑子類:針劑、口服藥、成藥口服,核算分類:西藥費。對于這幾種效率高、收益高、周期短的醫(yī)療項目要重點監(jiān)督,防止醫(yī)保欺詐。

      3 研究結論

      本文的研究結果表明:基于聚類分析和決策樹的數(shù)據(jù)挖掘方法對醫(yī)保欺詐行為能夠進行較為準確的預警,無論是學習還是最后實踐的識別準確率都達到了99%,可信度強。這種預警方法可以大大減少人工檢測,提高識別效率,為醫(yī)療保險機構的決策者和醫(yī)?;疬\營監(jiān)管人員進行科學決策提供客觀依據(jù),提升社會預測力和科學決策力。

      但在取得一些研究成果的同時,還存在一些不足:1)本研究所使用的費用相關數(shù)據(jù)都是只與藥物消費有關,因此研究的醫(yī)保欺詐行為也只局限在與藥物方面異常的有關情況,這使醫(yī)保欺詐主動發(fā)現(xiàn)的模型缺乏普遍性;2)在建立決策樹模型時,只利用到數(shù)據(jù)庫中的幾個相關屬性,具有局限性。若再進一步研究,可以將更多的信息用于建立決策樹模型,使得模型更具有普遍性;3)由于數(shù)據(jù)中沒有給出病人是否存在醫(yī)保欺詐的屬性指標,因此對模型的檢驗存在一定的缺陷。

      參考文獻:

      [1] 甘櫪元.基于數(shù)據(jù)挖掘醫(yī)保系統(tǒng)的研究[J].信息安全與技術,2013(10):67-68.

      [2] 陳真,秦偉,徐緒堪,房道偉.大數(shù)據(jù)環(huán)境下醫(yī)保數(shù)據(jù)監(jiān)測和預警模型構建[J].現(xiàn)代商業(yè),2014(20):101-102.

      [3] 朱攀.基于人工神經網絡的醫(yī)保定點醫(yī)療機構信用等級評價模型[D].國防科學技術大學,2010.

      [4] 高宇彤.基于離群點檢測的新農合醫(yī)保欺詐識別的研究[D].哈爾濱商業(yè)大學,2015.

      [5] 樓磊磊.醫(yī)療保險數(shù)據(jù)異常行為檢測算法和系統(tǒng)[D].浙江大學,2015.

      [6] 沈培,張吉凱.聚類分析在醫(yī)療費用數(shù)據(jù)挖掘中的應用[J].華南預防醫(yī)學,2012(1).

      [7] 馮麗蕓.數(shù)據(jù)挖掘在我國醫(yī)保方面應用綜述[J].電腦知識與技術,2014(05):880-881.

      [8] 孫晶晶,魏俊麗,萬昊,趙冠宏.數(shù)據(jù)信息在醫(yī)院醫(yī)療保險管理中的應用[J].中國醫(yī)院,2015(12).

      [9] 劉江超.數(shù)據(jù)挖掘算法在醫(yī)保數(shù)據(jù)上的應用研究[D].國防科學技術大學碩士論文,2009(11).

      [10] 薛薇.基于SPSS Modeler的數(shù)據(jù)挖掘[M].北京:中國人民大學出版社,2014.

      猜你喜歡
      欺詐決策樹醫(yī)囑
      關于假冒網站及欺詐行為的識別
      關于假冒網站及欺詐行為的識別
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      警惕國際貿易欺詐
      決策樹和隨機森林方法在管理決策中的應用
      基于決策樹的出租車乘客出行目的識別
      網購遭欺詐 維權有種法
      醫(yī)囑
      基于肺癌CT的決策樹模型在肺癌診斷中的應用
      電子醫(yī)囑在優(yōu)質護理中的應用
      沭阳县| 东乡县| 太原市| 景德镇市| 康定县| 同江市| 兴宁市| 连州市| 朔州市| 祁阳县| 莆田市| 黄平县| 靖安县| 大埔县| 霸州市| 吴桥县| 抚州市| 都江堰市| 甘肃省| 瓮安县| 广元市| 洛扎县| 雷州市| 泊头市| 巴南区| 隆化县| 成武县| 屯留县| 八宿县| 始兴县| 胶南市| 娱乐| 伽师县| 巫溪县| 贵阳市| 吉木萨尔县| 师宗县| 阳新县| 沙田区| 临安市| 林西县|