陸澤凱 王雅瑜 謝穎
[摘 要]2020 年是我國(guó)全面建成小康社會(huì)的決勝年,我國(guó)也進(jìn)入了決戰(zhàn)決勝脫貧攻堅(jiān)的最后階段。唯有精確的識(shí)別貧困人口,才能推進(jìn)精準(zhǔn)扶貧工作更好地開(kāi)展。文章以西部?jī)?nèi)陸省份 G 省 A 市農(nóng)村地區(qū)的調(diào)研數(shù)據(jù)為基礎(chǔ),選取了多個(gè)指標(biāo),通過(guò)隨機(jī)森林算法來(lái)精確識(shí)別貧困人口。通過(guò)研究發(fā)現(xiàn),隨機(jī)森林算法在甄別貧困人口中效果好,同時(shí)擁有較大的靈活性,能較好適應(yīng)精準(zhǔn)扶貧識(shí)別工作。
[關(guān)鍵詞]精準(zhǔn)扶貧;機(jī)器學(xué)習(xí);隨機(jī)森林;評(píng)價(jià)指標(biāo)
[DOI]10.13939/j.cnki.zgsc.2021.25.022
1 引言
2018年2月12日,習(xí)近平總書(shū)記在打好精準(zhǔn)脫貧攻堅(jiān)戰(zhàn)座談會(huì)上強(qiáng)調(diào),脫貧攻堅(jiān),精準(zhǔn)是要義。必須堅(jiān)持“六個(gè)精準(zhǔn)”,扶貧扶到點(diǎn)上扶到根上。但是,隨著扶貧工作難度的提高,一些缺陷日益突出。一些冒領(lǐng)扶貧款,扶貧名額變成干部“獲取民心”的工具、扶貧名額分配不均的情況時(shí)有發(fā)生。以四川省×縣為例,每個(gè)村只有十幾個(gè)指標(biāo)申請(qǐng)貧困戶,卻經(jīng)常達(dá)到幾百號(hào)人甚至幾乎全村的人都去申請(qǐng),這種情況下扶貧名額的分配往往由干部的主觀意愿決定。這種情況也不僅僅發(fā)生在西部地區(qū),在沿海發(fā)達(dá)省份廣東省 S 市也出現(xiàn)了扶貧不精確、不高效的問(wèn)題。這些問(wèn)題與扶貧對(duì)象的識(shí)別不夠精確有緊密關(guān)系。而文章以我國(guó)扶貧的重要攻堅(jiān)點(diǎn)西部 G 省 A 市某一農(nóng)村為研究樣本,注重研究一種基于隨機(jī)森林模型的貧困戶精準(zhǔn)識(shí)別評(píng)價(jià)體系。
2 隨機(jī)森林模型
隨機(jī)森林(Random Forest)是一種集成學(xué)習(xí)方法,常用于分類(lèi)、回歸和其他機(jī)器學(xué)習(xí)任務(wù)[1]。它的原理是在訓(xùn)練時(shí)構(gòu)建大量決策樹(shù)(Decision Tree),隨機(jī)森林的每一棵決策樹(shù)之間是沒(méi)有關(guān)聯(lián)的,當(dāng)有一個(gè)新的樣本進(jìn)入算法的時(shí)候,每一棵決策樹(shù)都會(huì)分別進(jìn)行一下判斷,并各自識(shí)別這個(gè)樣本應(yīng)該屬于哪一類(lèi)別,然后根據(jù)某一類(lèi)別被選擇最多,就預(yù)測(cè)這個(gè)樣本為哪一類(lèi)別,隨機(jī)森林有效地糾正了決策樹(shù)擬合的問(wèn)題。[2]
在統(tǒng)計(jì)學(xué)中,邏輯回歸(Logistic Regression)是最常用的分類(lèi)算法,因?yàn)槠湟捉忉屝裕3J莻鹘y(tǒng)社科文章定量分類(lèi)的工具[3],然而由于一般的邏輯回歸有一定的局限性,通常需要通過(guò)增加組合項(xiàng)或高斯項(xiàng)來(lái)提高其分類(lèi)性能,然而添加了各類(lèi)項(xiàng)式后模型的解釋力度卻也下降了。同時(shí)有研究指出,在較小數(shù)據(jù)中隨機(jī)森林分類(lèi)的效果優(yōu)于邏輯回歸模型,研究中重點(diǎn)是放在模型的精確度上而不是其解釋性上,因此文章采用了隨機(jī)森林的算法,以提高模型的分類(lèi)性能。
3 問(wèn)卷清洗
本次調(diào)研通過(guò)研究人員與 G 省 A 市某農(nóng)村村委會(huì)的溝通,通過(guò)該村支部的工作人員分發(fā)紙質(zhì)問(wèn)卷為主要調(diào)查手段,分發(fā)了600張問(wèn)卷,在該村委會(huì)的大力支持下共回收問(wèn)卷 329 份,回收率達(dá)到了54%,問(wèn)卷涵蓋了個(gè)人情況、家庭情況以及各種社會(huì)保險(xiǎn)情況共三個(gè)方面。
本次問(wèn)卷調(diào)研中是貧困戶的對(duì)象為 78 人,非貧困戶的對(duì)象為 251 人,調(diào)研中對(duì)象的貧困發(fā)生率約為 23.7%。由于被調(diào)查者問(wèn)卷填寫(xiě)不規(guī)范、對(duì)自身信息不確定、不愿公開(kāi)個(gè)人信息等原因,導(dǎo)致問(wèn)卷中存在一定數(shù)量的缺失值,為提高數(shù)據(jù)的可用性,方便進(jìn)一步分析問(wèn)卷數(shù)據(jù),本節(jié)對(duì)問(wèn)卷問(wèn)題進(jìn)行描述并對(duì)問(wèn)卷中的缺失值進(jìn)行進(jìn)一步的填補(bǔ)。
由于預(yù)測(cè)的目標(biāo)變量——是否為貧困戶是村委會(huì)提供相應(yīng)的扶貧數(shù)據(jù)并沒(méi)有出現(xiàn)缺失,研究中用的是填補(bǔ)后的家庭成員數(shù)量以及勞動(dòng)成員數(shù)量,也不存在缺失值。
研究中對(duì)于數(shù)值型變量采用了中位數(shù)填補(bǔ)法,這是由于扶貧數(shù)據(jù)的特殊性所致的。扶貧對(duì)象和普通人之間往往存在收入、支出等各方面差異懸殊的情況。如果使用平均數(shù)填補(bǔ)法容易出現(xiàn)扶貧對(duì)象被平均的情況,導(dǎo)致數(shù)據(jù)失真。而在因子型變量中采用給缺失值貼新標(biāo)簽的方法,則利用了機(jī)器學(xué)習(xí)分類(lèi)預(yù)測(cè)的優(yōu)勢(shì),由于目標(biāo)變量始終是確定的,因此新的標(biāo)簽也可以作為被機(jī)器學(xué)習(xí)使用的特征,比如說(shuō)在低保戶申請(qǐng)上如果不選擇回答的人中的目標(biāo)變量觀測(cè)值較多的是扶貧對(duì)象,他們可能出現(xiàn)難以啟齒的現(xiàn)象而選擇不回答。那么機(jī)器學(xué)習(xí)也會(huì)給這個(gè)缺失值標(biāo)簽在扶貧對(duì)象的識(shí)別上更多的權(quán)重。在完成缺失值的填補(bǔ)后就可以利用機(jī)器學(xué)習(xí)算法進(jìn)行預(yù)測(cè)了。
4 模型預(yù)測(cè)效果
將被調(diào)研的人分為兩類(lèi):第一類(lèi)是獲得精準(zhǔn)扶貧補(bǔ)助的貧困戶;第二類(lèi)是未獲得精準(zhǔn)扶貧補(bǔ)助的非貧困戶,通過(guò)隨機(jī)森林算法進(jìn)行二分類(lèi)預(yù)測(cè)。以前面收集到的 G 省 A市所得數(shù)據(jù)并清理好的數(shù)據(jù)進(jìn)行訓(xùn)練,通過(guò)隨機(jī)森林模型預(yù)測(cè)被調(diào)研者是否貧困。數(shù)據(jù)的自變量是被調(diào)研者關(guān)于 16 項(xiàng)問(wèn)卷問(wèn)題的回答,因變量則為一個(gè)是否貧困的標(biāo)簽。算法中會(huì)自動(dòng)將數(shù)值型數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理(Standardize),并將因子型變量轉(zhuǎn)換為機(jī)器識(shí)別的啞變量(Dummy Variable),隨機(jī)森林的參數(shù)如表2所示。
將數(shù)據(jù)集分為 10 折,其中 9 折作為訓(xùn)練集以建立和優(yōu)化模型,1 折作為驗(yàn)證集以驗(yàn)證模型在新數(shù)據(jù)上的表現(xiàn),并采用自助法訓(xùn)練以克服數(shù)據(jù)集較小的弱點(diǎn)。根據(jù)上面的參數(shù)設(shè)定隨機(jī)森林模型訓(xùn)練后得到以下結(jié)果,如表3所示。
模型的準(zhǔn)確性(Accuracy)達(dá)到了 80%,機(jī)器學(xué)習(xí)中最為關(guān)注的 ROC 曲線下方的面積大?。ˋUC)也達(dá)到了 86.59%,下圖為模型的 ROC 曲線圖。其他測(cè)量模型適應(yīng)度的數(shù)值也相對(duì)比較高。模型的 Kappa值達(dá)到了 57.64%,表現(xiàn)出模型一致性較好,模型在各折數(shù)據(jù)上都表現(xiàn)出較強(qiáng)的魯棒性(Robust)。綜上所述,隨機(jī)森林模型訓(xùn)練效果較好,能較好識(shí)別出貧困人口。之后根據(jù)模型給出的結(jié)果做出混淆矩陣(Confusion Matrix),如表4所示??梢园l(fā)現(xiàn)模型在識(shí)別錯(cuò)誤的兩種情況即假陽(yáng)性和假陰性。假陽(yáng)性為 52,在模型中表示為錯(cuò)誤的將本來(lái)不是貧困戶的對(duì)象給識(shí)別為貧困戶。假陰性為 14,在模型中表現(xiàn)為將本來(lái)是貧困戶的識(shí)別為非貧困戶?,F(xiàn)實(shí)中,希望的是寧可幫錯(cuò)一個(gè)也不能少幫一個(gè)。模型還是較好的符合預(yù)期,模型后續(xù)還可以加入懲罰函數(shù),對(duì)假陰性施加懲罰項(xiàng),以減少識(shí)別錯(cuò)誤的概率。