霍振昂 王仲陽 孫 韜△
住院醫(yī)療費用分布擬合研究*
霍振昂1王仲陽2孫 韜1△
住院醫(yī)療費用分布的特點一般為左偏、厚尾,尾部趨于零的速度緩慢,國內外研究者一般采用重尾分布族模型對其密度函數(shù)和分布函數(shù)進行刻畫。本研究擬從大樣本角度對住院醫(yī)療費用分布模型進行擬合。
本研究數(shù)據(jù)來源于2015年河南省國家衛(wèi)生統(tǒng)計直報系統(tǒng)病例首頁(衛(wèi)計統(tǒng)表 4-1,字段名:ZYF)報表,刪除了缺失值、零值等無效信息值,對住院費用小于 100 的病例也做了刪除處理。清洗后的數(shù)據(jù)共5023135 例,涵蓋了 253 家醫(yī)院上報數(shù)據(jù)。
表1顯示一級醫(yī)院數(shù)據(jù)量非常小,僅有 14267 例,占比2.8%,絕大部分病例來自二級以上醫(yī)院;醫(yī)院級別與住院醫(yī)療費用均值、中位數(shù)均存在明顯的正相關,檢驗結果證實了這一點( Kruskal-Wallisχ2=978650,P<0.01)。
表1 河南省醫(yī)院住院費用基本情況表
綜合仇春涓[1]、薛秦香[2]等人的研究,本文利用重尾分布族模型(對數(shù)正態(tài)、 Pareto、 Weibull、 Burr和loglogis 分布)分別進行了擬合。設x為隨機變量,且x>0,各分布模型的概率密度函數(shù)和分布函數(shù),分別如下。
1.對數(shù)正態(tài)分布
2.Pareto 分布
3.WeiBull 分布
4.Burr分布(Type XII)
5.loglogistic分布
應用R軟件對住院醫(yī)療費用數(shù)據(jù)進行擬合,得到擬合參數(shù),并繪制相應直方圖和概率密度圖。
圖1、圖2和圖3分別顯示了對數(shù)正態(tài)、Pareto和Weibull分布的擬合情況。從圖中可以直觀地看出,三個模型參數(shù)都在 1%水平上顯著,但數(shù)據(jù)擬合情況均不太理想,與直方圖顯示的實際概率密度相比,均有較大的偏差,上述 3 個模型均未能很好地刻畫出住院醫(yī)療費用分布的變化趨勢。
圖4、圖5分別顯示了Burr分布和Llogistic分布擬合情況。如圖中顯示,兩個分布概率密度函數(shù)從始至終反映出了直方圖的變動趨勢,契合度非常高。如前所述,當Burr概率密度函數(shù)參數(shù)a=1時,實質上就轉化了Llogistic分布,這一點從圖5中可以看到, Llogistic分布估計參數(shù)與Burr分布后兩個估計參數(shù)完全一致,并且Llogistic參數(shù)的標準誤更小,表明在相同條件下,其參數(shù)估計的精度相對更高,更加有效。綜合圖1~5情況初步分析,相對于其他模型,采用Llogistic分布模型得到概率密度圖與直方圖擬合效果最好。
圖1 對數(shù)正態(tài)分布模型擬合圖
圖2 Pareto分布模型擬合圖
圖3 Weibull分布模型擬合圖
圖4 Burr(Type XⅡ)模型擬合圖
圖5 Llogistic分布模型擬合圖
從表2反映的各分布模型累積概率對比情況看,Burr、Llogistic模型也要大大好于前三個模型,在所劃分的離散區(qū)間上,前兩個模型與實際累積概率都非常接近,尤其是在對兩端數(shù)據(jù)累積概率擬合時,幾乎與實際概率分布值相等。相比之下,其余三個模型的擬合度要差很多,尤其是對數(shù)正態(tài)分布模型擬合出的效果,偏離實際值甚遠。
表2 各分布模型累積概率對比情況
圖6匯總顯示了各分布模型的累計密度圖,從中可以清晰地看出,Llogistic和Burr模型累積概率曲線幾乎與實際累積概率曲線重疊,而其余三個模型的累積概率曲線圖則相對偏離較遠。綜合累積概率密度擬合情況判斷,住院醫(yī)療費用依然最有可能符合Burr和Llogistic分布。
圖6 各分布模型累積概率匯總
由于樣本量過于龐大,難以找到直接的方法對模型進行分布擬合檢驗,本研究采取了 Bootstrap 方法進行替代。
表3 Bootstrap檢驗結果匯總表
整個檢驗步驟在R軟件中通過編程實現(xiàn),具體步驟如下:第一步,建立H0:總體符合(某種)模型分布,H1:總體不符合該模型分布類型,置信水平α=0.01;第二步,對住院醫(yī)療費用進行有放回隨機抽樣,每次抽取2000個樣本;第三步,根據(jù)不同分布模型概率密度函數(shù)公式計算并記錄樣本參數(shù)擬合值,進行K-S檢驗(置信水準設定為5%,如果K-S檢驗報告的P值>0.05,則認為通過,否則為不通過),記錄相應結果;第四步,重復上述第二步、第三步N次;分別計算N個參數(shù)擬合值的樣本方差,做為參數(shù)擬合值的方差估計量。第五步,以K-S檢驗通過次數(shù)與總抽樣次數(shù)(N)之比為統(tǒng)計量,計算相應P值,作出統(tǒng)計推斷。
檢驗結果列在表3中Burr和Llogistic模型通過K-S檢驗的次數(shù)分別為996次、 997次(N=1000)和4979次、 4983次(N=5000),相應的P值分別為0.996、0.997。其余三個模型則沒有通過K-S檢驗的記錄,相應的P值均為0。檢驗結果表明,在1%的置信水準下,不能拒絕總體符合Burr分布和Llogistic分布的原假設;可以拒絕總體符合Lnorm分布、Pareto分布和Weibull分布的原假設。通過表3還可以看出,抽樣1000次與5000次的結果整體差別不算太大。通過抽樣計算參數(shù)均值幾乎與醫(yī)療費用總體均值相等,但標準誤更加穩(wěn)健。
判斷數(shù)據(jù)分布類型對于統(tǒng)計和計量建模的重要性不言而喻。如果分布類型假定錯誤,在進行相應參數(shù)估計時則很可能得出有偏估計值。如在以往一些對醫(yī)療費用的研究中,直接將醫(yī)療費用做對數(shù)轉換,僅從圖形上判斷就做出數(shù)據(jù)符合對數(shù)正態(tài)分布,進而采取相應的方法進行參數(shù)估計。從本研究結果看,并未找到住院費用符合對數(shù)正態(tài)分的證據(jù),因此不加判斷直接采取這樣的做法一定要慎重。
此外需要注意的是,住院醫(yī)療費用厚尾的特征非常突出,在本研究所收集到的數(shù)據(jù)中, 95分位以后的樣本費用合計數(shù)占到了總數(shù)的34.5%。在這樣的情況下,如果采取以往的算數(shù)平均來計算次均住院費用的話,實際上并不能很好地反映住院醫(yī)療費用的集中趨勢。這也提示我們,判斷次均醫(yī)療費用的高低,不能僅憑均值來進行,還需要研究更有效的評判指標。
[1] 仇春涓,陳滔,吳賢毅.重尾分布下醫(yī)療保險保費合理性評估——基于上海市閔行區(qū)新農合的實證研究.數(shù)理統(tǒng)計與管理,2013,6:974-983.
[2] 薛秦香,胡安霞,陳璐.新型農村合作醫(yī)療住院費用損失分布擬合.中國衛(wèi)生經濟,2012,6:35-36.
[3] 沈穎,尹娟,傅陳欣熹.南昌市某三甲醫(yī)院住院費用結構研究.中國衛(wèi)生統(tǒng)計,2016,(3):491-492.
[4] 許建強,鄭娟,井淇,等.山東省某市新農合大病保險補償 20 類大病費用分布情況及效果評價.中國衛(wèi)生統(tǒng)計,2016,(1):81-84.
[5] Marazzi A,Yohai V.Adaptively truncated maximum likelihood regression with asymmetric errors.Journal of Statistical Planning and Inference,2004,122:271-291.
[6] Gilleskie DB,Mroz TA.A flexible approach for estimating the effect of covariates on health expenditures.Journal of Health Economics,2004,23:391-418.
[7] 王新宇,宋學鋒.擬合中國股票市場收益的統(tǒng)計分布.系統(tǒng)工程理論與實踐,2006,12:40-46.
河南省重點科技攻關項目(1042102310142)
1.河南醫(yī)學高等??茖W校 (450000) 2.河南省衛(wèi)生計生委
△通信作者:孫韜,E-mail:549130@qq.com
劉 壯)