潘芳
摘要:為避免病患欺詐給我國相關(guān)部門帶來的極大經(jīng)濟損失,甚至會危害到我國醫(yī)療的進一步發(fā)展,采用貝葉斯分類對防病患欺詐模型進行了研究,并對其性能進行測試。測試結(jié)果表明所建模型性能良好。研究成果可為相關(guān)部門防范病患欺詐提供理論支持。
關(guān)鍵詞:貝葉斯;病患;欺詐; 異常檢測;社會穩(wěn)定
中圖分類號:F27
文獻標識碼:A
文章編號:1672—3198(2014)10—0080—03
0引言
目前社會上存在著一些不法分子在履行參保繳費義務上虛構(gòu)事實,隱瞞真相,以騙取醫(yī)保權(quán)益,或在醫(yī)療行為上虛構(gòu)事實,隱瞞真相,以騙取醫(yī)?;鸹蜥t(yī)保待遇。這類欺詐行為在各個國家普遍存在。美國聯(lián)邦政府多次表示,打擊醫(yī)療保險詐騙案,是醫(yī)療保險改革議程的重要組成部分。這些違法行為已經(jīng)給我們國家?guī)砹藰O大的經(jīng)濟損失,嚴重影響我國醫(yī)療行業(yè)的進一步發(fā)展。我國雖還沒有完整的社會醫(yī)療保險欺詐統(tǒng)計數(shù)據(jù),但防病患欺詐已經(jīng)成為引起學者重視的社會問題。
就目前業(yè)界人士認為,防范欺詐的手段有兩個,一是政策調(diào)控,采用行政手段,依靠法律和行業(yè)互助來限制這種不良行為;二是利用技術(shù)手段,防范于未然。兩者相比,利用技術(shù)手段是目前最佳的防范欺詐手段。實踐證明較為有效的有NCR公司開發(fā)的Teradata數(shù)據(jù)倉庫。Taniguchi等學者也提出了三種欺詐偵測方法。國內(nèi)對這種防病患欺詐主要采用的還是行政手段。夏宏等認為要加強法律法規(guī)建設,完善醫(yī)療保險制度等措施。李連友等梳理了相關(guān)制度,指出應該做一些實證研究。楊鶴標等提出了基于概率分布的異常檢測模型,但該模型只能應用于已結(jié)束治療且有醫(yī)療欺詐嫌疑的情況。
綜上可知,國內(nèi)對防病患欺詐問題的研究處于起步階段,需要一種技術(shù)為作為重要手段來解決目前存在的病患欺詐問題。與此同時,貝葉斯分類以其簡單,高效與準確等特點,在一些實際的事例里得到了廣泛的研究與應用。本文嘗試運用貝葉斯的相關(guān)理論與方法建立防病患欺詐模型,對未知類別屬性的患者進行預測,識別有欺詐趨向的病患。為相關(guān)醫(yī)療部門有針對性地采取處理措施,防范病患欺詐行為的發(fā)生,減少欺詐行為帶來的經(jīng)濟損失提供理論支持。
1模型構(gòu)建
客戶的數(shù)據(jù)主要包括兩種:靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)。靜態(tài)數(shù)據(jù)指的是通常不會改變的數(shù)據(jù),如客戶的基本信息等。動態(tài)數(shù)據(jù)指的是經(jīng)?;蚨ㄆ诟淖兊臄?shù)據(jù)信息,如每月消費金額,交費記錄等。由于社會對人的隱私權(quán)的尊重,現(xiàn)在患者的手續(xù)已趨于簡單化,一般只需提供證件號碼和地址即可辦理,所以現(xiàn)在相關(guān)部門所擁有的客戶基本信息已經(jīng)很簡單,很難從中發(fā)現(xiàn)對欺詐分析有價值的信息。而動態(tài)數(shù)據(jù)反映的是具體行為,往往可能隱藏一些行為特征,所以應從動態(tài)數(shù)據(jù)中進行挖掘,嘗試從中發(fā)現(xiàn)欺詐行為的一些規(guī)律和特征。通過對欺詐行為的具體分析,本文得出貝葉斯分類模型所需要的訓練樣本集的各屬性(如表1)。
模型建立如下:
(1)每個數(shù)據(jù)樣本用一個n維特征向量X=x1,x2,…xn表示,分別描述對n個屬性A1,A2,…,An樣本的n個度量,即為病患設定的基本屬性例如年齡、出生,消費金額等。
(2)假定有m個類C1,C2,…Cm。給定一個未知的數(shù)據(jù)樣本X(即沒有類標號),分類法將預測X屬于具有最高后驗概率(條件X下)的類。即貝葉斯分類將未知的樣本分配給類Ci,當且僅當PCiX>PCjX,1≤j≤m,j≠i。
則,最大化PCiX。其PCiX最大的類Ci稱為最大后驗假定??傻茫?/p>
PCiX=PXCiPCiPX
(1)
(3)由于P(X)對于所有類為常數(shù),只需要P(X|Ci)P(Ci)最大即可。如果類的先驗概率未知,則通常假定這些類是等概率的,即P(C1)=P(C2)=…=P(Cm)。并據(jù)此只對PXCi最大化。否則,最大化P(X|Ci)P(Ci)。類的先驗概率可以用PCi=sis計算,其中si是類Ci中的訓練樣本數(shù),而s是訓練樣本總數(shù)。
(4)給定具有許多屬性的數(shù)據(jù)集,計算PXCi的開銷可能非常大。為降低計算PXCi的開銷,在下面的模型中我們做了類條件獨立的假定。給定樣本的類標號,假定屬性值相互條件獨立,即在屬性間,不存在依賴關(guān)系。這樣,
PXCi=∏nk=1PxkCi(2)
概率PX1Ci,PX2Ci,…PXnCi可以由訓練樣本估值,其中Ak是分類屬性, PXkCi=siksi,其中sik是在屬性Ak上具有值Xk的類Ci的樣本數(shù),而si是Ci中的訓練樣本數(shù)。
(5)為對未知樣本X分類,對每個類Ci,計算PXCiPCi。樣本X被指派到類Ci,當且僅當
PXCiPCi>PXCjPCj,1≤j≤m,j≠i。
即X被指派到其PXCiPCi最大的類Ci。
2實驗研究
在射陽中醫(yī)院相關(guān)工作人員幫助下,獲得了大約2000條病患的數(shù)據(jù)。
2.1數(shù)據(jù)預處理
首先把獲得的數(shù)據(jù)通過數(shù)據(jù)清理數(shù)據(jù)轉(zhuǎn)換形成滿足屬性表1所示的各類樣本數(shù)據(jù)集,為實驗做好準備。把樣本數(shù)據(jù)集分為兩個部分:一部分用來訓練模型,其他數(shù)據(jù)用于對模型進行修正和檢驗。
2.2實驗過程
參照了相關(guān)資料,貝葉斯分類對于多屬性的數(shù)據(jù)集計算量會比較大。為降低計算復雜度,我們做了獨立性假設,同時選取15個訓練樣本(見表2)。通過分析訓練數(shù)據(jù),得出Age的三個離散值分別為<20,20~50,>50;Jy(Freq)的三個離散值分別為low,medium,high;Yh(Ratio)的三個離散值分別為<20,20~40,>40;Bh(Grade)的三個離散值分別為fair,excellent,bad。
設C1對應Is(Fraud)=“yes”,C2對應Is(Fraud)=“no”。待分類未知樣本為:
X=(Age=“20~50”,JY=“medium”,YH=“<20”,BH=“fair”)。則由P(Ci|X)=P(X|Ci)P(Ci)P(X)可知,P(X)為常量,需要計算P(X|Ci)P(Ci)。然后比較值,取最大的Ci即為樣本的類標識屬性。
首先計算先驗概率P(Ci),i=1,2。
P(C1)=P(Is_Fraud="yes")=7/15=0.47
P(C2)=P(Is_Fraud="no")=8/15=0.54
然后計算P(X|Ci),i=1,2。為了計算它,需要計算以下條件概率:
P(X1|C1)=P(Age="20~50"|Is_Fraud="yes")=043
P(X1|C2)=P(Age="20~50"|Is_Fraud="no")=013
P(X2|C1)=P(Jy="medium"|Is_Fraud="yes")=029
P(X2|C2)=P(Jy="medium"|Is_Fraud="no")=013
P(X3|C1)=P(Yh="<20"|Is_Fraud="yes")=014
P(X3|C2)=P(Yh="<20"|Is_Fraud="no")=0.75
P(X4|C1)=P(Bh="fair"|Is_Fraud="yes")=0.43
P(X4|C2)=P(Bh="fair"|Is_Fraud="no")=0.38
可得:
P(X|C1)=P(X1|C1)P(X2|C1)P(X3|C1)P(X4|C1)=P(X|Is_Fraud="yes")
=0.43*0.29*0.14*0.43=0.0075
P(X|C1) =P(X1|C2)P(X2|C2)P(X3|C2)P(X4|C2)
=P(X|Is_Fraud="no")=0.13*0.13*0.75*0.38=0.0048
P(X|C1)P(C1)
=P(X|Is_Fraud="yes")P(Is_Fraud="yes")
=0.0075*0.47=0.0035
P(X|C2)P(C2)
=P(X|Is_Fraud="no")P(Is_Fraud="no")=0.0048*0.53=0.0025
顯然P(X|C1)P(C1)>P(X|C2)P(C2),所以預測得到該樣本的類別屬性是Is_Fraud="yes"。
2.3程序?qū)崿F(xiàn)
因C++面向?qū)ο蟮膬?yōu)點,用其編寫了子程序BaysClass來實現(xiàn)上述模型的功能,工作流程見圖1。具體效果如圖2。
數(shù)組變量p1用來存儲測試樣本集中如果類標識屬性“Is_Fraud”=“yes”時不同字段取得不同值時的條件概率;數(shù)組變量p2用來存儲測試樣本集中如果類標識屬性“Is_Fraud”=“no”時不同字段取得不同值時的條件概率;數(shù)組變量q1用來存儲測試樣本集中如果類標識屬性“Is_Fraud”=“yes”時不同字段取得不同值時的條件概率值的積;數(shù)組變量q2用來存儲測試樣本集中如果類標識屬性“Is_Fraud”=“no”時不同字段取得不同值時的條件概率值的積。
2.4性能測試
準確率是用來衡量某個分類模型對整個數(shù)據(jù)集分類的準確程度。在病患實際應用中,相比有欺詐趨向的病患和正常病患,我們更關(guān)心有欺詐趨向的病患,從這個方面來講,命中率更能衡量此類模型的優(yōu)劣。其定義分別說明如下:
準確率=預測正確的記錄數(shù)/全部記錄數(shù)
命中率=被準確預測為某個類別的記錄數(shù)/預測出為此類別的記錄數(shù)
由于k-折交叉確認方法的優(yōu)點,本文選擇10-折交叉法對模型進行評估(k取10具有相對低的偏置和方差[10])。
共取1000個數(shù)據(jù)作為測試數(shù)據(jù),其中欺詐病患共計256個,正常病患744個。256/744=0.34。把這些數(shù)據(jù)分為10個大小不等且互不相交的子集:S1,S2,….,S10。其中每個子集的欺詐病患/正常病患都接近0.43。測試的結(jié)果見表3,表4。
3結(jié)束語
本文建立了基于貝葉斯的防病患欺詐模型,通過程序進行了實驗,并對其性能進行評估。需要說明的是,經(jīng)模型分析出患者有異常行為不一定說明該患者就發(fā)生了欺詐行為,正?;颊哂袝r也會因一些特殊的原因或突發(fā)事件而表現(xiàn)出異常行為。故模型測試結(jié)果僅作為相關(guān)醫(yī)藥部門進行防病患欺詐的輔助手段,為其有針對性的進行跟蹤,節(jié)省社會資源提供幫助。
本模型在訓練樣本集屬性的選擇上主要是分析了個人病患的就醫(yī)行為,下一步將會以病患種類作為分析對象,并將現(xiàn)有程序延伸成為一個系統(tǒng)繼續(xù)完善。
參考文獻
[1]Taniguchi M, Haft M, Hollmen J, et al. Fraud detection in communication networks using neural and probabilistic methods. In Proceedings of The 1998 IEEE International Conference in Acoustics[C]//Speech and Signal Processing, 1998:12411244.
[2]夏宏,汪凱,張守春.醫(yī)療保險中的欺詐與反欺詐[J].現(xiàn)代預防醫(yī)學, 2007,34(20):39073908.
[3]Li Lianyou,Shen Chunyu.On overview of researches on fraud in Chinas social health insurance system[J].Journal of Xiangtan University,2009,(06):7175.
[4]楊鶴標, 史曉麗.基于概率分布的臨床行為檢測模型[J].計算機工程與設計,2011,32(8):28573860.
[5]王玨,楊鶴標.序列挖掘在臨床行為模式發(fā)現(xiàn)中的應用研究[D].江蘇大學,2008.
[6]陳朝大,梁柱勛,鄭士基.一種利用關(guān)聯(lián)規(guī)則的改進樸素貝葉斯分類算法[J].計算機系統(tǒng)應用,2010, 19(11):106109.
[7]廖陽.基于拓展貝葉斯決策模型的云計算類企業(yè)財務風險實證[J].統(tǒng)計與決策,2013(24):179182.
[8]郭剛正.貝葉斯方法在決策分析中的應用[J].統(tǒng)計與決策,2013(16):6769.
[9]王姝音,印桂生,湛浩旻等.網(wǎng)構(gòu)軟件系統(tǒng)中實體協(xié)作的貝葉斯博弈分析[J].計算機工程,2014,40(2):5257.
[10]肖可礫,熊輝.數(shù)據(jù)挖掘在金融欺詐檢測和預防中的應用[J].金融電子化,2010,(8):8990.