• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于統(tǒng)計(jì)分析和AGNES算法的醫(yī)保欺詐行為自動(dòng)檢測(cè)研究

      2018-12-08 09:29:34黃陽(yáng)彭濤劉偉
      關(guān)鍵詞:粒子群優(yōu)化算法統(tǒng)計(jì)分析

      黃陽(yáng) 彭濤 劉偉

      摘要:結(jié)合深圳市某三甲醫(yī)院一個(gè)月真實(shí)數(shù)據(jù),對(duì)醫(yī)保欺詐行為進(jìn)行研究。方法:(1)了解原始數(shù)據(jù)中各屬性的含義,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,采用數(shù)據(jù)挖掘的方法對(duì)數(shù)據(jù)進(jìn)行研究,分析詐騙行為。(2)對(duì)一個(gè)病人持有多張卡、單張卡多人使用、病人死后仍有拿藥記錄這三種欺詐手段開(kāi)展統(tǒng)計(jì)分析。(3)以科室和醫(yī)生為對(duì)象進(jìn)行欺詐分析。結(jié)論:基于統(tǒng)計(jì)分析和AGNES聚類(lèi)算法可以成功檢測(cè)出部分醫(yī)保欺詐行為。

      關(guān)鍵詞:醫(yī)保欺詐;統(tǒng)計(jì)分析;AGNES;粒子群優(yōu)化算法

      中圖分類(lèi)號(hào):TP3016 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2018)08-0114-03

      隨著社會(huì)保障信息系統(tǒng)的廣泛應(yīng)用和醫(yī)保制度推廣范圍的擴(kuò)大,醫(yī)保數(shù)據(jù)呈現(xiàn)指數(shù)級(jí)別的增長(zhǎng)。這些數(shù)據(jù)中蘊(yùn)含著醫(yī)保行業(yè)極其重要的資金信息,此外,還有病人的就診信息、醫(yī)生的醫(yī)囑信息、病癥的治療方案、就診費(fèi)用等。如果這些數(shù)據(jù)能夠被挖掘出來(lái)加以利用,將對(duì)醫(yī)療行業(yè)具有重要意義。可是,目前國(guó)內(nèi)對(duì)這些重要的民生數(shù)據(jù)只能做一些簡(jiǎn)單的處理,例如增加、修改、圖表顯示,沒(méi)有進(jìn)行深層次的數(shù)據(jù)分析。

      國(guó)外的醫(yī)保行業(yè)起步較早,醫(yī)保檢測(cè)研究較為深入,數(shù)據(jù)挖掘技術(shù)在國(guó)外醫(yī)療保險(xiǎn)行業(yè)的應(yīng)用日益廣泛。但目前國(guó)外大多數(shù)更加側(cè)重于在數(shù)據(jù)挖掘中使用的技術(shù)方法,很少與醫(yī)保欺詐者進(jìn)行聯(lián)系。如何利用醫(yī)保數(shù)據(jù),分析其中的隱含信息,找出不同醫(yī)保欺詐行為的特征,設(shè)計(jì)不同的檢測(cè)方法就變得尤為重要。

      1 基于統(tǒng)計(jì)分析的醫(yī)保欺詐行為識(shí)別

      1.1 數(shù)據(jù)來(lái)源

      本文數(shù)據(jù)來(lái)源于深圳市某三甲醫(yī)院一個(gè)月的真實(shí)數(shù)據(jù)。在所提供的數(shù)據(jù)集中,包括病人資料數(shù)據(jù)58017條,費(fèi)用明細(xì)數(shù)據(jù)289799條,醫(yī)囑項(xiàng)目數(shù)據(jù)29434條,醫(yī)囑子類(lèi)數(shù)據(jù)215條,核算分類(lèi)58條,患者費(fèi)別29條,本文主要研究病人資料表與費(fèi)用明細(xì)表。

      1.2 數(shù)據(jù)預(yù)處理

      原始數(shù)據(jù)中包含了諸多屬性和復(fù)雜的關(guān)系,而且存在很多屬性缺少數(shù)據(jù)。為了讓數(shù)據(jù)更適合挖掘,算法的執(zhí)行效率更高,在進(jìn)行數(shù)據(jù)分析之前,需要先進(jìn)行數(shù)據(jù)預(yù)處理。

      本文對(duì)數(shù)據(jù)預(yù)處理的具體步驟如下:

      (1)數(shù)據(jù)準(zhǔn)備階段。將Excel表格中的數(shù)據(jù)導(dǎo)入到MySQL中,生成對(duì)應(yīng)的表。

      (2)醫(yī)??ㄌ?hào)為1的病人是普通病人,這類(lèi)病人不存在欺詐嫌疑,所以用函數(shù)delete_PAPMI_IDNAME3_1()去刪除醫(yī)??╥d為1的數(shù)據(jù),得到pa_patmas_new表。

      (3)用函數(shù)delete_dhc_workload_not_in_pa_patmas_new()刪除藥費(fèi)明細(xì)表dhc_workload中病人ID不在pa_patmas_new中的數(shù)據(jù),得到dhc_workload_new表。

      (4)對(duì)藥費(fèi)明細(xì)表進(jìn)行降維處理,去除其他無(wú)關(guān)屬性,使用函數(shù)create_bills()創(chuàng)建新的賬單表bills,該表有賬單號(hào)、病人ID、部門(mén)ID、醫(yī)生ID、總費(fèi)用、拿藥次數(shù)6個(gè)屬性。其中,總費(fèi)用和拿藥次數(shù)是判斷是否有欺詐行為的直接因素,科室、醫(yī)生和病人也可能存在合伙欺詐的行為,所以引入部門(mén)ID和醫(yī)生ID進(jìn)行分析。

      (5)由于dhc_workload_new表中同一個(gè)賬單號(hào)擁有多條記錄,我們需要將同一個(gè)賬號(hào)的多條記錄合并為同一條記錄。根據(jù)賬單號(hào)進(jìn)行分類(lèi),統(tǒng)計(jì)每個(gè)賬單號(hào)的總費(fèi)用,使用函數(shù)insert_bills_some_ data()插入賬單號(hào)、病人ID、科室ID、醫(yī)生ID、總費(fèi)用。使用函數(shù)insert_times()統(tǒng)計(jì)每個(gè)病人ID的購(gòu)藥次數(shù)。

      (6)最后采用函數(shù)standardData(),將數(shù)據(jù)矩陣標(biāo)準(zhǔn)化為0或1。

      經(jīng)過(guò)預(yù)處理后,得到bills表數(shù)據(jù)一共54113條。數(shù)據(jù)預(yù)處理流程如圖1所示:

      1.3 統(tǒng)計(jì)分析

      對(duì)預(yù)處理后的數(shù)據(jù),運(yùn)用統(tǒng)計(jì)分析方法判斷是否存在一個(gè)病人持有多張卡、單張卡多人使用和病人死后仍有拿藥等欺詐行為。

      1.3.1 一個(gè)病人持有多張卡

      將新生成的病人資料表pa_patmas_new按照病人ID進(jìn)行分組,然后統(tǒng)計(jì)每個(gè)病人擁有的醫(yī)??ǖ臄?shù)量,最后將擁有多張卡的病人ID和醫(yī)??ㄌ?hào)打印出來(lái)。

      檢測(cè)結(jié)果:該數(shù)據(jù)集中無(wú)病人持有多張卡。

      1.3.2 單張卡多人使用

      對(duì)pa_patmas_new表按照醫(yī)保卡號(hào)進(jìn)行分組,然后統(tǒng)計(jì)每一組病人的個(gè)數(shù),最后將使用人數(shù)大于1的病人ID和醫(yī)??ㄌ?hào)打印出來(lái)。

      檢測(cè)結(jié)果:一共找到186張醫(yī)??ū恢辽賰蓚€(gè)人重復(fù)使用,375個(gè)病人之間存在2個(gè)或者3個(gè)共用一張卡。

      1.3.3 病人死后仍有拿藥記錄

      部分病人在死后,醫(yī)??ㄈ匀焕^續(xù)被使用。針對(duì)這一欺詐手段,首先需要在病人資料表pa_patmas_new中找到被標(biāo)注為死亡的病人,查詢(xún)出已經(jīng)標(biāo)注死亡的病人ID,醫(yī)保卡號(hào),死亡日期,然后在費(fèi)用明細(xì)表dhc_workload_new中找到該病人的拿藥記錄,比較醫(yī)囑日期與死亡日期的前后,判斷此條消費(fèi)記錄是否有欺詐。

      檢測(cè)結(jié)果:pa_patmas_new表中一共有2位標(biāo)注為死亡,拿藥日期在死亡日期之后記錄均0條,不存在醫(yī)保欺詐。

      1.3.4 統(tǒng)計(jì)分析結(jié)論

      在一個(gè)病人持有多張卡、單張卡多人使用、病人死后仍有拿藥記錄這三種欺詐手段中,只有第二種欺詐手段有欺詐記錄。在pa_patmas_new中,總共有35651張醫(yī)保卡,有186張卡被至少兩個(gè)病人共同使用,占總卡數(shù)的0.52%。

      2 AGNES層次聚類(lèi)算法及應(yīng)用

      2.1 使用粒子群算法求解屬性權(quán)重最優(yōu)解

      2.1.1 改進(jìn)歐式距離

      經(jīng)過(guò)預(yù)處理后數(shù)據(jù)集設(shè)為X={X1,X2,…,Xn},其中,n表示數(shù)據(jù)集的個(gè)數(shù),Xi(1≤ i ≤ n)由m個(gè)屬性組成,即Xi=(xi1,xi2,…,xim)。為了描述兩個(gè)樣本點(diǎn)Xp和Xq在數(shù)據(jù)集X上的相似度,通常使用歐式距離,一般定義為:

      考慮不同屬性對(duì)于聚類(lèi)效果的影響,以此歐氏距離去計(jì)算兩個(gè)樣本點(diǎn)的距離,可能導(dǎo)致聚類(lèi)分析的結(jié)果不準(zhǔn)確。故在歐式距離的計(jì)算公式中加入權(quán)重的概念,其定義為:

      2.1.2 屬性權(quán)重評(píng)價(jià)函數(shù)

      為了讓聚類(lèi)的結(jié)果具有模糊性相對(duì)較小的性質(zhì),通過(guò)調(diào)整ω的值,使得分類(lèi)的模糊程度盡量小,不相似的數(shù)據(jù)間距離更大,我們引入了屬性評(píng)價(jià)函數(shù),用來(lái)評(píng)價(jià)聚類(lèi)結(jié)果的相似度,使得總體可以達(dá)到模糊性最小。通過(guò)求取該函數(shù)的最優(yōu)解,得到一組權(quán)重值。定義度量樣本點(diǎn)Xp和Xq的相似度的函數(shù)為Spq和,在普通的歐式距離下:

      2.1.3 粒子群優(yōu)化算法

      粒子群優(yōu)化(Particle Swarm Optimization, PSO)算法是一種搜索算法,其基本步驟如下:

      (1)初始化粒子群中群體規(guī)模N,每個(gè)粒子的速度vi和粒子位置xi;(2)計(jì)算每個(gè)粒子的適應(yīng)度值Fit[i];(3)比較各粒子的適應(yīng)度值Fit[i]與個(gè)體極值Pbest[i],若Fit[i]>Pbest[i],則Pbest[i]=Fit[i];(4)比較各粒子的適應(yīng)度值Fit[i]與全局極值gbest,如果Fit[i]>gbest[i],則gbest=Fit[i];(5)更新粒子的速度vi和位置xi;(6)如果誤差足夠好或者達(dá)到最大循環(huán)次數(shù),則程序退出。否則返回步驟2。

      通過(guò)計(jì)算,最終各屬性權(quán)重的分布情況如圖2所示。

      由圖2可知,醫(yī)保欺詐行為與賬單的總費(fèi)用和拿藥次數(shù)關(guān)系較大。

      2.2 AGNES聚類(lèi)算法

      AGNES(Agglomerative Nesting) 是凝聚型層次聚類(lèi)算法的一種,通過(guò)合并距離較近的簇、自底向上逐步進(jìn)行數(shù)據(jù)聚類(lèi)。本文在運(yùn)用AGNES算法中,在計(jì)算類(lèi)距離公式時(shí)采用平均距離:

      在公式7中|Ci|表示類(lèi)i中樣本的數(shù)目,|p-q|表示樣本p,q之間的距離。

      AGNES算法的基本步驟如下:

      (1)將數(shù)據(jù)集每個(gè)樣本都當(dāng)做一個(gè)類(lèi),放入集合C中,計(jì)算任意兩個(gè)類(lèi)之間的距離,設(shè)置聚類(lèi)后的類(lèi)的個(gè)數(shù)k;(2)得到當(dāng)前類(lèi)的個(gè)數(shù)m;(3)找到當(dāng)前距離最近的兩個(gè)類(lèi)ci和cj,并合并成一個(gè)類(lèi),計(jì)算新類(lèi)與其他類(lèi)的距離;(4)m大于k時(shí),重復(fù)2、3。否則、返回集合C。

      算法流程如圖3所示。

      2.3 聚類(lèi)結(jié)果分析

      將經(jīng)過(guò)預(yù)處理后的數(shù)據(jù)運(yùn)用到AGNES算法中,考慮到內(nèi)存溢出等問(wèn)題,我們以5000個(gè)數(shù)據(jù)為一組,分別對(duì)其進(jìn)行聚類(lèi)。由于層級(jí)聚類(lèi)缺乏目標(biāo)函數(shù),我們將k從[2,15]聚類(lèi)結(jié)果顯示出來(lái),從而判斷最佳聚類(lèi)數(shù),總共檢測(cè)出疑似欺詐點(diǎn)109個(gè),部分疑似欺詐點(diǎn)如表1所示。

      同樣以科室和醫(yī)生為對(duì)象進(jìn)行分析,在本次檢測(cè)結(jié)果中,科室191以64次地高次數(shù)的出現(xiàn),另外科室423也有22次。因此,這兩個(gè)科室很有可能存在為了自身利益騙取醫(yī)保基金的行為。在本次檢測(cè)結(jié)果中,檢測(cè)結(jié)果中醫(yī)生出現(xiàn)醫(yī)保欺詐中。醫(yī)生次數(shù)較多的有1180(23次)、2928(8次)、1060(7次)、794(6次)、1028(6次),總共50次,在本次檢測(cè)結(jié)果中占46%。與醫(yī)生1180相關(guān)的數(shù)據(jù)占總數(shù)據(jù)的21%,醫(yī)生1180給病人452114、病人230476、病人523612的拿藥次數(shù)分別是21、20和18,遠(yuǎn)遠(yuǎn)超過(guò)正常水平。另外,給病人191054一次性拿藥價(jià)格1338.08元。醫(yī)生2928的數(shù)據(jù)中,要么病人的費(fèi)用為負(fù)數(shù),要么病人單次拿藥記錄高昂,表明該數(shù)據(jù)也存在異常,有待進(jìn)一步人工審查。

      3 結(jié)語(yǔ)

      本文對(duì)預(yù)處理后的醫(yī)院真實(shí)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,針對(duì)一個(gè)病人持有多張卡、單張卡多人使用、病人死后仍有拿藥記錄這三種欺詐手段設(shè)計(jì)相應(yīng)的檢測(cè)函數(shù)。其中檢測(cè)到一個(gè)病人持有多張卡0條記錄,單張卡被多人使用的醫(yī)??ü?86張,病人死后仍有拿藥的記錄為0條;采用AGNES對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)分析,檢測(cè)疑似欺詐點(diǎn)109個(gè),分析了檢測(cè)結(jié)果中的部門(mén)ID和醫(yī)生ID與欺詐行為的關(guān)系。

      本文應(yīng)用統(tǒng)計(jì)分析與AGNES聚類(lèi)對(duì)比分析,通過(guò)在聚類(lèi)過(guò)程中引入屬性權(quán)重能夠分析不同屬性的對(duì)聚類(lèi)的影響程度,有效提高了聚類(lèi)效果,避免了主觀評(píng)價(jià)對(duì)分類(lèi)的影響。不足之處在于選取的算法時(shí)間復(fù)雜度和空間復(fù)雜度都較大,運(yùn)行時(shí)間較長(zhǎng),在今后的工作中將進(jìn)一步優(yōu)化和完善。

      參考文獻(xiàn)

      [1]陳真,秦偉,徐緒堪,房道偉.大數(shù)據(jù)環(huán)境下醫(yī)保數(shù)據(jù)監(jiān)測(cè)和預(yù)警模型構(gòu)建[J].現(xiàn)代商業(yè),2014,(20):101-103.

      [2]史徑宇,冉松靈,李晨萍.醫(yī)保欺詐行為的主動(dòng)發(fā)現(xiàn)——基于引進(jìn)指標(biāo)權(quán)重的聚類(lèi)分析算法[J].數(shù)學(xué)建模及其應(yīng)用,2016,5(01):54-59.

      [3]李華,陳寧江.基于PSO的WFCM算法研究及其在醫(yī)保欺詐行為發(fā)現(xiàn)中的應(yīng)用[J].廣西科學(xué)院學(xué)報(bào),2017,33(01):32-39.

      [4]Musal, R. M. Two models to investigate medicare fraud within unsupervised databases [J].Expert Systems with Applications,2010,37(12):8628-8633.

      [5]楊維,李歧強(qiáng).粒子群優(yōu)化算法綜述[J].中國(guó)工程科學(xué),2004,(05):87-94.

      猜你喜歡
      粒子群優(yōu)化算法統(tǒng)計(jì)分析
      基于改進(jìn)SVM的通信干擾識(shí)別
      基于自適應(yīng)線程束的GPU并行粒子群優(yōu)化算法
      基于混合粒子群算法的供熱管網(wǎng)優(yōu)化設(shè)計(jì)
      基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報(bào)模型
      財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警的統(tǒng)計(jì)研究
      叩診質(zhì)量,促進(jìn)數(shù)學(xué)有效教學(xué)
      如何發(fā)揮新時(shí)期統(tǒng)計(jì)工作的作用之我見(jiàn)
      企業(yè)固定資產(chǎn)分析存在問(wèn)題及對(duì)策分析
      以統(tǒng)計(jì)分析為基礎(chǔ)的房地產(chǎn)稅收優(yōu)化分析
      SPSS在高校圖書(shū)館服務(wù)體系中的應(yīng)用研究
      科技視界(2016年20期)2016-09-29 11:18:30
      鸡东县| 灵宝市| 威远县| 大足县| 富阳市| 石门县| 本溪| 滕州市| 沈丘县| 乌恰县| 玉门市| 宁陕县| 行唐县| 丰顺县| 博客| 辉南县| 黄石市| 昔阳县| 绥芬河市| 怀来县| 图们市| 莱西市| 沧源| 大方县| 阿瓦提县| 冷水江市| 济宁市| 满城县| 黔南| 佛冈县| 柘城县| 庆元县| 镇宁| 大同县| 太保市| 石棉县| 科技| 水富县| 文山县| 洛阳市| 常山县|