周可心,袁永生,林春進(jìn)
(河海大學(xué)理學(xué)院,南京 211100)
2020年3月發(fā)布的《中共中央國(guó)務(wù)院關(guān)于深化醫(yī)療保障制度改革的意見》中指出,到2030年,全面建成以基本醫(yī)療保險(xiǎn)為主體,醫(yī)療救助為托底,補(bǔ)充醫(yī)療保險(xiǎn)、商業(yè)健康保險(xiǎn)、慈善捐贈(zèng)、醫(yī)療互助共同發(fā)展的醫(yī)療保障制度體系[1]。目前,中國(guó)商業(yè)醫(yī)療保險(xiǎn)參保的城鄉(xiāng)差距較大,2008年城鄉(xiāng)居民商業(yè)醫(yī)療保險(xiǎn)參保率均為6.9%,到2013年城鎮(zhèn)居民商業(yè)醫(yī)療保險(xiǎn)參保率上升至7.7%,而農(nóng)村居民商業(yè)醫(yī)療保險(xiǎn)參保率則下降到6.1%[2],因此大力促進(jìn)農(nóng)村商業(yè)醫(yī)療保險(xiǎn)的發(fā)展,縮短城鄉(xiāng)差距具有重要的實(shí)際意義。從供給側(cè)來(lái)說(shuō),對(duì)于保險(xiǎn)企業(yè)能夠準(zhǔn)確識(shí)別農(nóng)村潛在客戶,對(duì)于中國(guó)多層次醫(yī)療保險(xiǎn)的建設(shè)以及促進(jìn)自身業(yè)務(wù)發(fā)展都具有重要的作用。
針對(duì)商業(yè)保險(xiǎn)領(lǐng)域,潛在用戶識(shí)別方法主要有:影響因素分析及使用單個(gè)基礎(chǔ)分類算法。胡銘珉[3]提出使用數(shù)據(jù)挖掘技術(shù),挖掘有價(jià)值的信息,提高信息的利用率,以拉動(dòng)保險(xiǎn)行業(yè)的發(fā)展,但未進(jìn)行具體實(shí)踐僅介紹了數(shù)據(jù)挖掘技術(shù)在保險(xiǎn)業(yè)中應(yīng)用。陸草[2]提出使用二元邏輯回歸對(duì)商業(yè)醫(yī)療保險(xiǎn)的參保情況進(jìn)行影響因素分析,但并不能幫助企業(yè)有效地識(shí)別潛在參保用戶。王姍姍[4]提出通過(guò)訓(xùn)練單個(gè)決策樹方法對(duì)居民商業(yè)醫(yī)療保險(xiǎn)進(jìn)行分析,以幫助企業(yè)有效識(shí)別潛在用戶。為進(jìn)一步提高識(shí)別準(zhǔn)確率,孫成偉等[5]提出使用集成學(xué)習(xí)中同質(zhì)模型融合方法隨機(jī)森林法預(yù)測(cè)農(nóng)村居民是否會(huì)購(gòu)買商業(yè)養(yǎng)老保險(xiǎn),準(zhǔn)確率達(dá)到77.9%,以準(zhǔn)確率為模型評(píng)價(jià)的惟一指標(biāo),不能全方位檢驗(yàn)?zāi)P偷男阅堋?/p>
本研究從基礎(chǔ)的統(tǒng)計(jì)學(xué)習(xí)方法出發(fā),提出了一個(gè)基于k-近鄰算法、決策樹算法和邏輯回歸算法的k-DT-LR融合模型,根據(jù)數(shù)據(jù)環(huán)境動(dòng)態(tài)地為個(gè)體學(xué)習(xí)器分配不同的權(quán)重,經(jīng)多組數(shù)據(jù)集測(cè)試表明該方法具有良好的性能,為保險(xiǎn)公司識(shí)別農(nóng)村潛在用戶提供更加有效科學(xué)的方法。該方法將分類正確率提高到90.024%,且在閾值設(shè)定為0.6時(shí),第一類別即農(nóng)村居民購(gòu)買商業(yè)醫(yī)療保險(xiǎn)的召回率提高到91.402%,解決了模型泛化能力弱、容易遺漏潛在用戶的問題。
k近鄰算法(k-nearest neighbor algorithm,k-NN)是通過(guò)測(cè)試樣本的k個(gè)最近鄰的標(biāo)簽來(lái)計(jì)算測(cè)試樣本的類標(biāo)簽。假設(shè)已經(jīng)定義了它的距離度量。對(duì)于任何一個(gè)測(cè)試樣本x,都可以找到它的k個(gè)最近鄰,用來(lái)表示它們[6]。x的類標(biāo)簽由中的訓(xùn)練樣本的標(biāo)簽決定,輸入訓(xùn)練樣本T={(x1,y1),(x2,y2),…,(xN,yN)}其中,xi∈χ為實(shí)例的特征向量,其中實(shí)例的類別 為yi∈Y={c1,c2,…,cK},i=1,2,…,N??擅?述為:
式中,I為指示函數(shù);i=1,2,…,N;j=1,2,…,K。
對(duì)于每個(gè)類,它都有一個(gè)指示功能。以第i個(gè)類為例,其指標(biāo)功能為:
決策樹算法(Decision tree algorithm,DT)是一個(gè)基本的分類和回歸算法,模型呈樹形結(jié)構(gòu)。決策樹主要由結(jié)點(diǎn)和有向邊組成,從根結(jié)點(diǎn)出發(fā),對(duì)實(shí)例的某個(gè)特征進(jìn)行測(cè)試,根據(jù)結(jié)果將實(shí)例分配到其子結(jié)點(diǎn);每一個(gè)子結(jié)點(diǎn)對(duì)映該特征的一個(gè)取值,如此遞歸地對(duì)每個(gè)實(shí)例進(jìn)行測(cè)試并分配,直至達(dá)到葉結(jié)點(diǎn),最終將實(shí)例分到葉結(jié)點(diǎn)的類中[7]。
邏輯回歸算法(Logistic regression algorithm,LR)是統(tǒng)計(jì)學(xué)習(xí)方法中的一種經(jīng)典分類方法,屬于線性模型。給定數(shù)據(jù)集T={(x1,y1),(x2,y2),…,(xN,yN)},離散隨機(jī)變量的Y取值集合為{1 ,2,…,K},多項(xiàng)邏輯回歸模型公式為:
式中,k=1,2,…,K-1;x∈Rn+1,wk∈Rn+1。
單一模型的泛化能力是比較薄弱的,集成學(xué)習(xí)算法可以聚集多個(gè)基礎(chǔ)模型的優(yōu)點(diǎn),在精度參數(shù)上的表現(xiàn)優(yōu)于單個(gè)基礎(chǔ)學(xué)習(xí)器,獲得一個(gè)魯棒性更強(qiáng)的分類器。本研究所提的新異質(zhì)模型融合方法,融合過(guò)程可簡(jiǎn)述為:首先,單獨(dú)訓(xùn)練上述3個(gè)基礎(chǔ)分類模型得到3個(gè)概率矩陣;然后計(jì)算權(quán)重,得到融合基礎(chǔ)模型;最后,根據(jù)數(shù)據(jù)環(huán)境設(shè)定閾值,得到最終分類結(jié)果。
使用Python軟件構(gòu)造上述3種基礎(chǔ)模型,并計(jì)算得到每個(gè)樣本被分到每一個(gè)類別的概率值,生成3個(gè)概率矩陣。假設(shè)k近鄰算法、決策樹算法和邏輯回歸算法輸出結(jié)果用f(x),g(x),h(x)表示:
其中,yi∈Y={c1,c2,…,cK}為實(shí)例的類別,x為樣本,p(x|y=ci)代表樣本x被分到第i類的概率。
通常在集成學(xué)習(xí)中,所有的個(gè)體學(xué)習(xí)器性能都被考慮在相同的水平上。然而,無(wú)論集成是由同質(zhì)個(gè)體學(xué)習(xí)器組成,還是由異構(gòu)個(gè)體學(xué)習(xí)器組成,基礎(chǔ)學(xué)習(xí)器的弱點(diǎn)和優(yōu)勢(shì)都會(huì)被忽略。為了解決該問題,本研究所提的融合模型給不同性能的個(gè)體學(xué)習(xí)器分配不同的影響能力,即較強(qiáng)的影響能力應(yīng)該分配給性能較強(qiáng)的基礎(chǔ)學(xué)習(xí)器,較低的影響能力應(yīng)該分配給性能較弱的基礎(chǔ)學(xué)習(xí)器。
因此,本研究所提出的k-DT-LR融合算法不是通過(guò)取個(gè)體分類器的平均值進(jìn)行組合,而是使用線性加權(quán)組合,其中每個(gè)算法的不同權(quán)重是基于性能計(jì)算得到,將不同影響系數(shù)分配給集成學(xué)習(xí)方法中使用的基礎(chǔ)學(xué)習(xí)器。
該方法融合算法為:
個(gè)體學(xué)習(xí)器被選擇的概率被認(rèn)為是不相等的,個(gè)體學(xué)習(xí)器在異構(gòu)集成學(xué)習(xí)中的功能是不相同的。在集成中個(gè)體分類器被選擇的概率是每個(gè)個(gè)體分類器的性能與總性能之比。根據(jù)權(quán)重計(jì)算式(8)和式(9)得到每個(gè)個(gè)體分類器被選擇的概率,增加選擇較強(qiáng)大的基分類器的概率,降低選擇較弱的基分類器的概率,微調(diào)每一個(gè)個(gè)體分類器的效果。
權(quán)重ω計(jì)算函數(shù)為:
acc1、acc2、acc3表示3個(gè)模型的準(zhǔn)確率,p(x)為概率矩陣。
設(shè)置相應(yīng)閾值T={T1,T2,…,Tk-1},T的維數(shù)與分類數(shù)據(jù)集的類別數(shù)k有關(guān),控制分類精確和召回率,得到最終分類結(jié)果。以三分類為例,首先閾值將假設(shè)為T={T1,T2},最終分類函數(shù)為如下所示:
式中,result為最終的輸出函數(shù),c1、c2、c3為二進(jìn)制函數(shù)且不同時(shí)為1,即當(dāng)p1值大于閾值T1時(shí),函數(shù)c1為1,c2、c3為0,并輸出p1相應(yīng)類別;否則,函數(shù)c1為0。進(jìn)一步判斷p2值是否大于閾值T2,大于則c2為1,輸出該類別;反之,c3為1,輸出p3所對(duì)應(yīng)類別。
為集合中各種基礎(chǔ)學(xué)習(xí)器分配不同的能力,輸出函數(shù)從不同的數(shù)據(jù)環(huán)境接收到的不同信號(hào),調(diào)整分類閾值進(jìn)行分類工作。
本研究采用準(zhǔn)確率、精確率及召回率3種評(píng)價(jià)指標(biāo),從更加全面的角度來(lái)評(píng)價(jià)模型性能。其中,精確率和召回率是二分類問題常用的評(píng)價(jià)指標(biāo),將其推廣至多分類,即在多分類中每一類別依次當(dāng)作正例,求其每個(gè)類別的精確度和召回率以適應(yīng)不同數(shù)據(jù)集的分類要求。根據(jù)分類函數(shù)算法,發(fā)現(xiàn)不同的閾值會(huì)影響各個(gè)類別分類的最終輸出結(jié)果。升高閾值會(huì)提高分類的精確度但是相應(yīng)召回率會(huì)有所下降,因此要根據(jù)數(shù)據(jù)集分類的具體要求適當(dāng)?shù)卣{(diào)整閾值實(shí)現(xiàn)分類模型效果最優(yōu)?;谏鲜鲇?jì)算過(guò)程,構(gòu)建k-DT-LR融合算法。
輸出:待分類樣本的預(yù)測(cè)結(jié)果result。
1)分割數(shù)據(jù)集為訓(xùn)練樣本和測(cè)試樣本;
2)單獨(dú)訓(xùn)練k近鄰、決策樹和邏輯回歸學(xué)習(xí)器,并計(jì)算3個(gè)基學(xué)習(xí)器的分類準(zhǔn)確率;
3)依據(jù)權(quán)重ω計(jì)算函數(shù)式(8)、式(9),計(jì)算權(quán)重;
4)依據(jù)式(7)融合模型,得到概率矩陣p(x);
5)設(shè)定閾值T={T1,T2,…,Tk-1},依次提取概率矩陣p(x)中每行元素pi1,pi2,…,pik;
6)比較閾值T1和pi1,若pi1大于T1輸出第1類類別,反之繼續(xù)比較閾值T2和pi2輸出樣本所在類別,此行循環(huán)結(jié)束;
7)循環(huán)終止直至概率矩陣p(x)每行類別輸出,得到最終分類結(jié)果result。
本研究所提融合算法的貢獻(xiàn)包括:
1)提出了一種新的異質(zhì)融合策略,結(jié)合k近鄰算法、決策樹算法和邏輯回歸算法學(xué)習(xí)器的優(yōu)點(diǎn),提高了分類模型的泛化能力;
2)根據(jù)基分類器性能分配權(quán)重,將不同的影響系數(shù)分配給集成學(xué)習(xí)方法中使用的基礎(chǔ)學(xué)習(xí)器,模型正確分類的性能提升;
3)從在不同的數(shù)據(jù)環(huán)境中接受反饋,動(dòng)態(tài)調(diào)整各類別分類效果,使模型實(shí)現(xiàn)了分類效果最優(yōu)。
本研究從UCI數(shù)據(jù)庫(kù)中隨機(jī)選取用于分類的5組背景不同的數(shù)據(jù)集:鳶尾屬植物、葡萄酒、國(guó)際象棋、乳腺組和皮膚病數(shù)據(jù)(分別使用序號(hào)1至5代指5組數(shù)據(jù)集)[8]。使用對(duì)比分析法對(duì)該融合模型的性能進(jìn)行驗(yàn)證,使用不同領(lǐng)域的數(shù)據(jù)集對(duì)融合模型進(jìn)行試驗(yàn),檢驗(yàn)?zāi)P偷母鞣矫嫘阅堋?/p>
試驗(yàn)所用評(píng)價(jià)指標(biāo)為準(zhǔn)確率、精確率和召回率。分類器在測(cè)試數(shù)據(jù)集上的預(yù)測(cè)或正確或不正確,4種情況出現(xiàn)的總數(shù)分別記作:TP表示將正類預(yù)測(cè)為正類數(shù);FN表示將正類預(yù)測(cè)為負(fù)類數(shù);FP表示將負(fù)類預(yù)測(cè)為正類;TN表示將負(fù)類預(yù)測(cè)為負(fù)類數(shù)[6]。即準(zhǔn)確率定義為:
精確率(precision)與召回率(recall)通常以關(guān)注的類為正類,其他類為負(fù)類,精確率定義為:
精確率代表正例占了所有預(yù)測(cè)為正例的百分比,召回率定義為:
召回率又稱查全率,是指真正例占了所有原來(lái)為正例的百分比。
為進(jìn)行評(píng)估,對(duì)本研究將融合方法與k近鄰算法、決策樹算法和邏輯回歸算法3個(gè)基本分類器進(jìn)行性能指標(biāo)比較。準(zhǔn)確率對(duì)比結(jié)果如表1所示。由表1可以看出,在不同的數(shù)據(jù)集中,k-NN-LR融合模型準(zhǔn)確率均高于所對(duì)比的模型,說(shuō)明該模型具有更強(qiáng)的泛化能力和更好的分類性能。
表1 UCI數(shù)據(jù)集模型建模準(zhǔn)確率
為進(jìn)一步說(shuō)明模型性能,計(jì)算各個(gè)模型精確率和召回率,結(jié)果如表2所示。融合算法在多組數(shù)據(jù)集中,每個(gè)類別的精確率和召回率基本上實(shí)現(xiàn)數(shù)值最優(yōu),說(shuō)明該融合模型可以結(jié)合多個(gè)模型的優(yōu)點(diǎn),在實(shí)現(xiàn)準(zhǔn)確率提高的同時(shí),也能實(shí)現(xiàn)各個(gè)類別分類性能最優(yōu)。試驗(yàn)結(jié)果表明,本研究提出的融合方法可以結(jié)合多種模型的優(yōu)點(diǎn),一方面其各方面性能都要優(yōu)于使用單一模型,證明了上述主張的正確性;另一方面,k-DT-LR有能力與所有不同類型的數(shù)據(jù)進(jìn)行同步,并實(shí)現(xiàn)更有利的性能。
表2 模型各類別精確率和召回率
本研究中實(shí)例分析數(shù)據(jù)來(lái)自中國(guó)綜合社會(huì)調(diào)查(CGSS)項(xiàng)目組發(fā)布CGSS2017年的家戶調(diào)查數(shù)據(jù),該數(shù)據(jù)集系統(tǒng)地收集了中國(guó)人與中國(guó)社會(huì)各方面的信息,對(duì)探討中國(guó)社會(huì)發(fā)展具有重大理論和現(xiàn)實(shí)意義,為促進(jìn)中國(guó)社會(huì)科學(xué)開放性和共享性發(fā)展,以及為政府決策與國(guó)際比較研究提供準(zhǔn)確、全面的數(shù)據(jù)資料?,F(xiàn)今公布的數(shù)據(jù)包含A核心模塊、C社會(huì)網(wǎng)絡(luò)和網(wǎng)絡(luò)社會(huì)(含ISSP2017)模塊和D家庭問卷(含EASS2016)模塊,共783個(gè)變量[9]。
為促進(jìn)中國(guó)農(nóng)村居民商業(yè)醫(yī)療保險(xiǎn)的發(fā)展,本研究CGSS2017年的家戶調(diào)查數(shù)據(jù)中挑選是否參與商業(yè)醫(yī)療保險(xiǎn)作為因變量,基本特征、收入情況、保險(xiǎn)參與、社會(huì)生活4個(gè)維度,共11個(gè)指標(biāo)作為自變量。其中,基本特征包括:性別、婚姻狀況、健康狀況、兒女?dāng)?shù)量、教育度;收入情況包括:家庭收入、經(jīng)濟(jì)狀況所在檔次;保險(xiǎn)參與包括:公共醫(yī)療保險(xiǎn)參與情況、公共養(yǎng)老保險(xiǎn)參與情況;社會(huì)生活包括:社會(huì)信任、幸福感[10]。
本研究分析農(nóng)村人口購(gòu)買商業(yè)醫(yī)療保險(xiǎn)的情況,因此根據(jù)戶籍信息篩選出戶籍為農(nóng)業(yè)戶口的樣本,且以是否購(gòu)買商業(yè)醫(yī)療保險(xiǎn)為類別,在該類別中凡是回答:無(wú)法回答、拒絕回答以及不適用的樣本,不適用于本研究故刪去?,F(xiàn)共有樣本6 628個(gè),其中第一類別是購(gòu)買商業(yè)醫(yī)療保險(xiǎn),共400個(gè)樣本;第二類別為沒有購(gòu)買商業(yè)醫(yī)療保險(xiǎn),共6 228個(gè)樣本。由于初始數(shù)據(jù)中第一類樣本量遠(yuǎn)小于第二類樣本量,數(shù)據(jù)存在較為嚴(yán)重不平衡性的情況。因此在數(shù)據(jù)分析前,使用過(guò)采樣法對(duì)數(shù)據(jù)進(jìn)行處理。使用Python實(shí)現(xiàn)上述融合方法,分別計(jì)算出在閾值設(shè)定為0.6時(shí),使用各個(gè)模型的準(zhǔn)確率(表3)。
表3 農(nóng)村商業(yè)醫(yī)療保險(xiǎn)4種模型建模準(zhǔn)確率
融合模型的準(zhǔn)確率高達(dá)90.024%,明顯高于k近鄰算法、決策樹算法以及邏輯回歸算法3個(gè)模型的準(zhǔn)確率,說(shuō)明該融合方法正確分類的性能最好。為更加準(zhǔn)確評(píng)價(jià)該模型性能,計(jì)算精確率和召回率來(lái)進(jìn)一步評(píng)價(jià)該模型的分類性能。從表4可以得到,在數(shù)據(jù)集中需要避免遺漏潛在用戶,而不會(huì)將第二類別樣本錯(cuò)分到第一類別中,因此第一類的召回率越高越好。當(dāng)閾值設(shè)定為0.6時(shí),第一類別的召回率達(dá)到91.402%,說(shuō)明該模型對(duì)于遺漏識(shí)別潛在用戶的可能性小,能夠更加準(zhǔn)確地找到潛在用戶,避免客戶的流失。
表4 k-DT-LR模型各類別精確率和召回率
本研究通過(guò)融合k近鄰算法、決策樹算法和邏輯回歸算法3種基礎(chǔ)分類算法,構(gòu)建起針對(duì)農(nóng)村居民的商業(yè)醫(yī)療保險(xiǎn)潛在客戶識(shí)別模型,試驗(yàn)結(jié)果表明該方法優(yōu)于現(xiàn)有的分析方法,第一類類別召回率可以達(dá)到91.402%。
第一,堅(jiān)持城鄉(xiāng)統(tǒng)籌發(fā)展。根據(jù)CGSS數(shù)據(jù),農(nóng)村居民購(gòu)買商業(yè)醫(yī)療保險(xiǎn)僅占6.4%,參保人數(shù)較少。因此,要加大商業(yè)醫(yī)療保險(xiǎn)的宣傳力度,向農(nóng)村居民普及購(gòu)買商業(yè)醫(yī)療保險(xiǎn)的諸多好處,縮小城鄉(xiāng)差距。加快構(gòu)建農(nóng)村商業(yè)醫(yī)療保險(xiǎn)建設(shè),實(shí)現(xiàn)多層次醫(yī)療保障體系的構(gòu)建。
第二,優(yōu)化醫(yī)療保障供給。保險(xiǎn)公司要結(jié)合農(nóng)村具體情況,推出符合農(nóng)村居民的商業(yè)醫(yī)療保險(xiǎn)。在確保低風(fēng)險(xiǎn)的前提下,盡可能提高農(nóng)村居民投資商業(yè)醫(yī)療保險(xiǎn)的收益。引入大數(shù)據(jù)分析技術(shù),完善服務(wù)體系。
第三,深化鄉(xiāng)村振興戰(zhàn)略。農(nóng)村地區(qū)經(jīng)濟(jì)較為薄弱,農(nóng)村醫(yī)療保障體系主要依賴于政府為主導(dǎo)的新型農(nóng)村合作醫(yī)療保險(xiǎn)[11]。推進(jìn)農(nóng)村現(xiàn)代化建設(shè),實(shí)現(xiàn)農(nóng)業(yè)經(jīng)濟(jì)高效運(yùn)行,培養(yǎng)出素質(zhì)富足經(jīng)濟(jì)富裕的現(xiàn)代化農(nóng)村居民,為實(shí)現(xiàn)農(nóng)村醫(yī)療保障體系提供有力的經(jīng)濟(jì)支撐。