陳清鳳,朱 寧,朱畝鑫
(桂林電子科技大學(xué)數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,廣西 桂林 541004)
隨著參保覆蓋面和基金規(guī)模的迅速擴(kuò)大,定點(diǎn)服務(wù)機(jī)構(gòu)的大量增加,我國(guó)的醫(yī)保信息系統(tǒng)也得到了廣泛的應(yīng)用,如何利用海量的醫(yī)療數(shù)據(jù)建立有效的醫(yī)保欺詐預(yù)警模型,為醫(yī)保中心實(shí)施監(jiān)管的工作提供決策支持,是當(dāng)前所要解決的首要任務(wù).
對(duì)于醫(yī)療保險(xiǎn)欺詐的理論分析和實(shí)證研究,國(guó)外學(xué)者主要從社會(huì)心理學(xué)、博弈論以及數(shù)據(jù)挖掘的角度進(jìn)行研究.Arrow[1]根據(jù)信息不對(duì)稱理論,首次對(duì)健康保險(xiǎn)欺詐問(wèn)題進(jìn)行了探討和研究.隨后Pauly[2],Schiller,Moreno[3]分別從管控道德風(fēng)險(xiǎn)和剔除受投保方操縱信號(hào)的方式反制欺詐.在此基礎(chǔ)上,Artis[4],Chiappori[5],Brocket[6]等人分別采用Probit、AAG、Pridit、logit等統(tǒng)計(jì)模型,對(duì)具體的欺詐行為進(jìn)行識(shí)別.但由于這些模型對(duì)數(shù)據(jù)有一定的要求,加上欺詐的復(fù)雜性,這使得傳統(tǒng)的單一模型在實(shí)際的應(yīng)用中受到很大的限制.為此Marisa S[7],Sokol[8],Lious[9],等人把人工智能識(shí)別模型和統(tǒng)計(jì)回歸模型進(jìn)行有效的組合,分別建立了基于BP神經(jīng)網(wǎng)絡(luò)模型、遺傳算法、貝葉斯網(wǎng)絡(luò)、糊集聚類算法、數(shù)據(jù)挖掘的欺詐識(shí)別模型,并用于特定的例子中,識(shí)別效果較好.除此之外基于啟發(fā)式和機(jī)器學(xué)習(xí)的電子欺詐識(shí)別技術(shù)也被廣泛的應(yīng)用于醫(yī)療保險(xiǎn)欺詐識(shí)別.
國(guó)內(nèi)學(xué)者對(duì)醫(yī)療保險(xiǎn)欺詐問(wèn)題主要是運(yùn)用信息不對(duì)稱和博弈論,圍繞欺詐的類型、表現(xiàn)形式、欺詐的成因分析和反欺詐措施等三個(gè)方面進(jìn)行理論研究,關(guān)于社會(huì)醫(yī)療保險(xiǎn)欺詐的識(shí)別和度量的研究還較少[10].對(duì)于社會(huì)醫(yī)療保險(xiǎn)欺詐的識(shí)別,較早應(yīng)用的是徐遠(yuǎn)純[11]根據(jù)粗糙集理論的特征屬性提出的欺詐風(fēng)險(xiǎn)識(shí)別方法,隨后陳輝金、韓元杰[12]基于數(shù)據(jù)挖掘和信息融合技術(shù)建立孤立點(diǎn)集來(lái)挖掘可疑數(shù)據(jù);梁子君[13]利用貝葉斯網(wǎng)絡(luò)建立了識(shí)別、評(píng)估和管控欺詐風(fēng)險(xiǎn)的概念模型;葉明華[14]把統(tǒng)計(jì)回歸和神經(jīng)網(wǎng)絡(luò)進(jìn)行有效融合,建立了基于江、浙、滬機(jī)動(dòng)車保險(xiǎn)索賠數(shù)據(jù)構(gòu)建了欺詐識(shí)別的BP神經(jīng)網(wǎng)絡(luò)模型.楊超[15]在葉明華的研究的基礎(chǔ)上,運(yùn)用嵌入logistic回歸分析的BP神經(jīng)網(wǎng)絡(luò)模型研究識(shí)別被保險(xiǎn)人道德風(fēng)險(xiǎn)引致的欺詐.總的來(lái)說(shuō),如何從海量的復(fù)雜隱秘的醫(yī)療保險(xiǎn)數(shù)據(jù)中識(shí)別出具有欺詐行為的信息還沒(méi)有得到具體的解決,為此把統(tǒng)計(jì)方法與大數(shù)據(jù)相結(jié)合的識(shí)別模型的研究是有意義的.
本文在大數(shù)據(jù)背景對(duì)醫(yī)療保險(xiǎn)欺詐這一課題進(jìn)行研究,首先對(duì)給定的醫(yī)療數(shù)據(jù)進(jìn)行預(yù)處理,通過(guò)主成分分析構(gòu)建欺詐識(shí)別的有效指標(biāo)體系;其次由K-Means聚類得到可疑的醫(yī)保欺詐行為的類別;再次,利用因子分析方法,根據(jù)特征因子分析詐騙類的特征確定其詐騙方式;最后把模型用于由樣本經(jīng)驗(yàn)分布的反函數(shù)生成的大數(shù)據(jù)中.具體流程如圖1.
圖1 醫(yī)保欺詐模型流程圖
本文以2015年“深圳杯”數(shù)學(xué)建模夏令營(yíng)A題:醫(yī)保欺詐行C醫(yī)保數(shù)據(jù)為研究數(shù)據(jù),共289 001條記錄.為了構(gòu)造醫(yī)保詐騙有效識(shí)別的數(shù)據(jù)集,本文利用大數(shù)據(jù)挖掘技術(shù)對(duì)參保人信息進(jìn)行數(shù)據(jù)預(yù)處理,利用Excel軟件中的vlookup函數(shù)對(duì)原始數(shù)據(jù)進(jìn)行定性篩選,去掉不必要的數(shù)據(jù).
數(shù)據(jù)清洗基于課題的研究意義和方向,結(jié)合給出的6個(gè)表格的醫(yī)療數(shù)據(jù),進(jìn)行數(shù)據(jù)清洗.首先利用Excel中的透視表剔除缺失值個(gè)數(shù)大于列數(shù)20%的行,并刪除對(duì)于本次數(shù)據(jù)挖掘沒(méi)有意義數(shù)據(jù),保留相關(guān)數(shù)據(jù)列,觀察得到的數(shù)據(jù)集中沒(méi)有重復(fù)記錄,省去了對(duì)重復(fù)記錄的處理.其次是對(duì)于缺失的必要數(shù)據(jù),例如刷卡次數(shù)缺失的數(shù)據(jù),其占總樣本的25.5%,采用數(shù)據(jù)歸約中多項(xiàng)式回歸的方法填補(bǔ)空缺,其他指標(biāo)也如此.
數(shù)據(jù)的轉(zhuǎn)換清洗得到的數(shù)據(jù)轉(zhuǎn)換為便于處理的形式,日期采用“年-月-日”格式,醫(yī)囑ID號(hào)精簡(jiǎn)成數(shù)字型.
生成有效識(shí)別數(shù)據(jù)集從給定的數(shù)據(jù)中提取出用于描述樣本的指標(biāo),從而解釋醫(yī)療數(shù)據(jù)的標(biāo)簽和分類的來(lái)由.根據(jù)參保人信息數(shù)據(jù)集和醫(yī)保交易記錄數(shù)據(jù)集中的屬性對(duì)數(shù)據(jù)進(jìn)行適當(dāng)處理,進(jìn)而派生出所需要的識(shí)別指標(biāo).對(duì)醫(yī)保交易記錄數(shù)據(jù)集中的重要屬性進(jìn)行不重復(fù)計(jì)數(shù)處理,派生出總費(fèi)用、刷卡總次數(shù)、一次性消費(fèi)最高額、平均消費(fèi)金額以及醫(yī)囑子類、開(kāi)囑醫(yī)ID、下醫(yī)囑科室、核算分類、執(zhí)行科室和病人科室的不重復(fù)計(jì)數(shù)這10個(gè)指標(biāo).
本文選取了具有代表性的屬性,并根據(jù)參保人信息數(shù)據(jù)集中的PAPMI_PAPER_DR(身份證ID)和醫(yī)保交易記錄數(shù)據(jù)集中的WorkLoad_PAPMI_DR(病人病歷ID)將兩數(shù)據(jù)集進(jìn)行自然連接,從而生成目標(biāo)數(shù)據(jù)集,即醫(yī)保詐騙有效識(shí)別數(shù)據(jù)集,見(jiàn)表1.此時(shí)數(shù)據(jù)集已經(jīng)從初始的289 001條原始記錄整合成58 014條目標(biāo)記錄.
表1 參保人信息和醫(yī)保交易記錄交叉數(shù)據(jù)集
數(shù)據(jù)標(biāo)準(zhǔn)化根據(jù)zij=(xij-x)i/si對(duì)提取出的數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理,其中zij為標(biāo)準(zhǔn)化后的變量值,xij為實(shí)際變量值.
由于得到的識(shí)別指標(biāo)過(guò)多,如果對(duì)所有的指標(biāo)進(jìn)行分析可能會(huì)存在信息重疊,對(duì)部分個(gè)體的欺詐識(shí)別因子進(jìn)行主成分分析,提取綜合指標(biāo)來(lái)消除指標(biāo)間相關(guān)性.首先,對(duì)指標(biāo)進(jìn)行了相關(guān)分析,運(yùn)用SAS統(tǒng)計(jì)軟件導(dǎo)入包含58 014個(gè)醫(yī)保人信息的數(shù)據(jù)集,計(jì)算出各指標(biāo)之間的Pearson相關(guān)系數(shù),結(jié)果如表2.
由表2可以看出,部分指標(biāo)之間存在著嚴(yán)重的相關(guān)性,如病人科室不重復(fù)計(jì)數(shù)和下醫(yī)囑科室不重復(fù)計(jì)數(shù)間的相關(guān)系數(shù)高達(dá)0.999,接近于1;一次性消費(fèi)最高數(shù)額和總費(fèi)用的相關(guān)系數(shù)也達(dá)到了0.758,說(shuō)明原指標(biāo)變量間有一定的相關(guān)性.此時(shí)如果直接對(duì)原來(lái)的指標(biāo)進(jìn)行分析就會(huì)造成信息的重復(fù)使用而使得結(jié)果不準(zhǔn)確.
表2 指標(biāo)之間Pearson相關(guān)系數(shù)
隨后,通過(guò)主成分分析來(lái)消除指標(biāo)之間的相關(guān)性,提取出欺詐識(shí)別模型的綜合指標(biāo),結(jié)果如表3.
表3 主成分分析結(jié)果
由表3的數(shù)據(jù)可以看出,前五個(gè)主成分的累計(jì)貢獻(xiàn)率已達(dá)到91.02%,可以認(rèn)為它們能較好地概括原始指標(biāo)的大部分信息,即用前五個(gè)主成分作為欺詐識(shí)別指標(biāo).
為了更好的識(shí)別出醫(yī)保數(shù)據(jù)中的欺詐行為,根據(jù)收集到的六萬(wàn)人的消費(fèi)交易記錄,利用類平均聚類對(duì)其進(jìn)行聚類獲取先驗(yàn)信息,將主成分分析得到的前五個(gè)主成分作為綜合指標(biāo),通過(guò)無(wú)放回簡(jiǎn)單隨機(jī)抽樣方法抽取5組樣本(每一組容量5 000)進(jìn)行聚類,下面對(duì)其中一組建立醫(yī)保詐騙識(shí)別模型.聚類的信息如表4.
從R2統(tǒng)計(jì)量來(lái)看,當(dāng)NCL(聚類數(shù))>5時(shí)下降較緩慢,且NCL=5時(shí)下降較大,半偏相關(guān)統(tǒng)計(jì)量達(dá)到最大;從偽F統(tǒng)計(jì)量來(lái)看,NCL=5時(shí),取得極大值,且NCL=5時(shí),PST2(偽F統(tǒng)計(jì)量)取得極大值.由此可知,隨機(jī)樣本分成5類較合適.
表4 隨機(jī)樣本類平均聚類結(jié)果
重復(fù)以上步驟,再對(duì)隨機(jī)抽取的其他4組樣本進(jìn)行K-Means聚類分析,過(guò)程與上面樣本類似.通過(guò)對(duì)利用無(wú)放回簡(jiǎn)單隨機(jī)抽取方法抽取到的5組樣本量為5 000的樣本依次進(jìn)行主成分聚類分析,其中有3組樣本認(rèn)為聚成5類最合適,其余2組比較分散,將這些信息作為先驗(yàn)信息,根據(jù)最大似然函數(shù)的原理認(rèn)為全部樣本聚成5類是合適的.聚類結(jié)果如表5.
表4 K-Means動(dòng)態(tài)聚類
由表4看出第五類包含的樣本最多,共有50 111條記錄,其次是第三類,而第1、2、4類的個(gè)數(shù)較少.由于醫(yī)療保險(xiǎn)詐騙事件屬于小概率事件,且詐騙的形式有多種,比如拿著別人的醫(yī)??ㄅ渌?、在不同的醫(yī)院和醫(yī)生處重復(fù)配藥等,可以表現(xiàn)為單張?zhí)幏剿庂M(fèi)特別高、一張卡在一定時(shí)間內(nèi)反復(fù)多次拿藥等.由表4的數(shù)據(jù)可直觀的認(rèn)為第1、2、4類屬于醫(yī)保詐騙的可能性較大,因?yàn)樗鼈兘M內(nèi)均方根的標(biāo)準(zhǔn)差和從凝聚點(diǎn)到各類內(nèi)觀測(cè)值的最大距離都比較大,說(shuō)明這些類之間有一定的差異,存在著問(wèn)題,需要謹(jǐn)慎對(duì)待.
為了驗(yàn)證K-Means動(dòng)態(tài)聚類結(jié)果的合理性,利用判別分析中的交叉確認(rèn)估計(jì)來(lái)判斷聚類準(zhǔn)確性,結(jié)果如表5和表6.
表5 各組錯(cuò)判具體情況
表6 錯(cuò)判概率
由表5和表6的數(shù)據(jù)可知,聚類時(shí)總體的錯(cuò)判概率為0.147 9.其中第1組中錯(cuò)判的樣本量為9個(gè),錯(cuò)判概率為0.034 2,且這9個(gè)錯(cuò)判的樣本都被錯(cuò)判到第4組;第2組中錯(cuò)判的樣本量為2,錯(cuò)判概率高達(dá)0.500 0,且這2個(gè)錯(cuò)判的樣本都被錯(cuò)判到第4組;第3組中錯(cuò)判的樣本量為388,錯(cuò)判概率為0.051 0,其中387個(gè)樣本被錯(cuò)判到第1組,1個(gè)樣本被錯(cuò)判到第5組;第4組中錯(cuò)判的樣本量為2,錯(cuò)判概率為0.083 3,且這2個(gè)錯(cuò)判的樣本都被錯(cuò)判到1組;第5組中錯(cuò)判的樣本量為3 564,錯(cuò)判概率高達(dá)0.071 1,其中4個(gè)樣本被錯(cuò)判到第1組,3 560個(gè)樣本被錯(cuò)判到第3組.
結(jié)合K-Means聚類的結(jié)合和判別分析的結(jié)果可知,在57 723個(gè)非欺詐個(gè)體中有391個(gè)可能屬于欺詐個(gè)體,錯(cuò)判概率為0.677%;而初始判斷為欺詐類別的291個(gè)樣本中有0個(gè)被錯(cuò)判,此時(shí)錯(cuò)判概率為0%.由此可以初始確定的詐騙類別是合理的.
利用因子分析找出潛在的對(duì)醫(yī)療數(shù)據(jù)中較為可疑的醫(yī)療數(shù)據(jù)的特征進(jìn)行分析,通過(guò)公共因子來(lái)查找出K-Means聚類中的第1,2,4類可疑詐騙的基本特征,最終確定詐騙方式.設(shè)特征值(Eigenvalues)、貢獻(xiàn)率(Contribution rate)和累計(jì)貢獻(xiàn)率分別用(Cumulative contribution rate)Eig、CR、CCR表示,則進(jìn)行因子分析后的統(tǒng)計(jì)量如表7.
表7 因子分析統(tǒng)計(jì)量
從表7可以看出,在以100%的累計(jì)方差貢獻(xiàn)率確定的10個(gè)因子中,前4個(gè)因子特征值大于1,累計(jì)方差貢獻(xiàn)率高達(dá)84.9%,故考慮提取4個(gè)公因子.又從最大方差旋轉(zhuǎn)的因子載荷矩陣可知,公因子f1主要在病人科室非重復(fù)計(jì)數(shù)、開(kāi)囑醫(yī)生ID非重復(fù)計(jì)數(shù)、執(zhí)行科室非重復(fù)計(jì)數(shù)上具有較大的正載荷,故命名為科室分類因子;公共因子f2主要在刷卡次數(shù)、費(fèi)用有很大的正載荷,故命名為刷卡費(fèi)用因子;公共因子f3主要在執(zhí)行科室非重復(fù)計(jì)數(shù)、醫(yī)囑子類非重復(fù)計(jì)數(shù)有較大的正載荷,故命名為醫(yī)療服務(wù)因子;公共因子f4主要在一次性消費(fèi)最高金額、平均消費(fèi)金額有很大的正載荷,故命名為費(fèi)用因子.
通過(guò)上述分析可發(fā)現(xiàn)此類有個(gè)共同特點(diǎn)就是一次性消費(fèi)平均消費(fèi)最高金額,病人科室非重復(fù)計(jì)數(shù)所占比率最高,存在故意串通醫(yī)生開(kāi)大處方行為,購(gòu)大量藥品等來(lái)套取統(tǒng)籌醫(yī)?;鸬南右桑瑢儆卺t(yī)療保險(xiǎn)服務(wù)供方與需方合謀的詐騙行為.
以此類推可以得到第2、第4類的詐騙方式.其中,第2類欺詐的方式可定義為販賣藥品詐騙,是指醫(yī)?;颊咄ㄟ^(guò)醫(yī)保卡去不同的醫(yī)保定點(diǎn)醫(yī)院多次重復(fù)看病、取藥,然后再將多取的藥品販賣,從而達(dá)到騙取醫(yī)?;鸬哪康?;第4類詐騙方式定義為分解收費(fèi)詐騙,即定點(diǎn)醫(yī)療機(jī)構(gòu)在為參保患者提供醫(yī)療服務(wù)過(guò)程中,人為地將一個(gè)完整的連續(xù)的醫(yī)療服務(wù)項(xiàng)目分成兩個(gè)或兩個(gè)以上的醫(yī)療服務(wù)項(xiàng)目,并按分割后的項(xiàng)目進(jìn)行收費(fèi),從中獲取差價(jià)進(jìn)行醫(yī)療詐騙.
綜上所述,可將欺詐行為分成三大類:
1.醫(yī)療保險(xiǎn)服務(wù)供應(yīng)方的詐騙行為;
2.醫(yī)療保險(xiǎn)需求方的詐騙行為;
3.醫(yī)療保險(xiǎn)服務(wù)供應(yīng)方與需求方合謀的詐騙行為.
結(jié)合各類的具體特征,又可以將各欺詐行為分別定義為分解收費(fèi)詐騙、販賣藥品詐騙、提供虛假證明或偽造病歷詐騙、冒名頂替詐騙.
為了驗(yàn)證模型的適用性,將識(shí)別模型應(yīng)用于生成的海量數(shù)據(jù)中運(yùn)行.首先,把第一個(gè)指標(biāo)的數(shù)據(jù)(刷卡次數(shù)(x1))由origin軟件擬合出樣本的分布函數(shù)為:
其次,產(chǎn)生符合該分布隨機(jī),通過(guò)分布F(x)反函數(shù)求出隨機(jī)數(shù)對(duì)應(yīng)的樣本x值,重復(fù)以上步驟便可得其他各指標(biāo)的數(shù)據(jù)的樣本的分布函數(shù),最后把提出的識(shí)別欺詐模型帶入求得的樣本值中,再利用上述方法重新運(yùn)行一遍,以便驗(yàn)證之前所用方法是否正確.
研究結(jié)果表明:基于主成分K-Means聚類和因子分析的數(shù)據(jù)挖掘方法對(duì)醫(yī)保欺詐行為能夠進(jìn)行較為準(zhǔn)確的預(yù)警,與直接進(jìn)行聚類相比,文中提出的模型運(yùn)行速度較快、效率較高,并適用于大數(shù)據(jù)中的欺詐行為的識(shí)別.在設(shè)計(jì)思路上從統(tǒng)計(jì)分析的角度出發(fā),定量地研究了如何從大量數(shù)據(jù)中識(shí)別出少數(shù)的可疑的醫(yī)保詐騙行為.
[1]ARROW K J.Uncertainty and the welfare economics of medical care[J].Uncertainty in Economics,1978,82(2):141-149.
[2]PAULY M V.Taxation,health insurance,and market failure in the medical economy[J].Journal of Economic Literature,1986,24(2):629-675.
[3]SCHILLER J.The impact of insurance fraud detection systems[J].Journal of Risk and Insurance,2006,73(3):421-438.
[4]ARTíS M, AYUSO M, GUILLéN M.Detection of automobile insurance fraud with discrete choice models and misclassified claims[J].Journal of Risk and Insurance,2002,69(3):325-340.
[5]CHIAPPORI P A,SALANIE B.Testing for asymmetric information in insurance markets[J].Journal of Political Economy,2000,108(1):56-78.
[6]BROCKETT P L.Fraud classification using principal component analysis of RIDITs[J].Journal of Risk and Insurance,2002,69(3):341-371.
[7]VIVEROSMS,NEARHOSJ P,ROTHMAN MJ.Applying data mining techniques to a health insurance information system[C]//VLDB'96 Proceedings of the 22th International Conference on Very Large Data Bases.San Francisco:Morgan Kaufmann Publishers Inc.1996:286-294.
[8]SOKOL L,GARCIA B,RODRIGUEZ J,et al.Using data mining to find fraud in HCFA health care claims[J].Topics in Health Information Management,2001,22(1):1-13.
[9]LIOU FM,TANG Y C,CHEN J Y.Detecting hospital fraud and claim abuse through diabetic outpatient services[J].Health Care Management Science,2008,11(4):353-358.
[10]林源.國(guó)內(nèi)外醫(yī)療保險(xiǎn)欺詐研究現(xiàn)狀分析[J].保險(xiǎn)研究,2010(12):115-122.
[11]徐遠(yuǎn)純,柳炳祥,盛昭瀚.一種基于粗集的欺詐風(fēng)險(xiǎn)分析方法[J].計(jì)算機(jī)應(yīng)用,2004,24(1):20-21.
[12]陳輝金,韓元杰.數(shù)據(jù)挖掘和信息融合在保險(xiǎn)業(yè)欺詐識(shí)別中的應(yīng)用[J].計(jì)算機(jī)與現(xiàn)代化,2005(9):110-112.
[13]梁子君.保險(xiǎn)公司操作風(fēng)險(xiǎn)管理——用貝葉斯網(wǎng)絡(luò)評(píng)估和管理保險(xiǎn)欺詐[D].上海:上海財(cái)經(jīng)大學(xué),2006.
[14]葉明華.基于BP神經(jīng)網(wǎng)絡(luò)的保險(xiǎn)欺詐識(shí)別研究——以中國(guó)機(jī)動(dòng)車保險(xiǎn)索賠為例[J].保險(xiǎn)研究,2011(3):79-86.
[15]楊超.基于BP神經(jīng)網(wǎng)絡(luò)的健康保險(xiǎn)欺詐識(shí)別研究[D].青島:青島大學(xué),2014.