梁驍 張明 覃琳
【摘 要】自黨的十八大以來,黨中央對(duì)脫貧攻堅(jiān)工作進(jìn)行了新的部署,提出減少貧困人口、為貧困縣摘帽、解決區(qū)域性整體貧困,是建設(shè)小康社會(huì)的底線工作,是黨對(duì)人民的承諾,必須言必信、行必果。脫貧攻堅(jiān)已作為政府重點(diǎn)突破的工作之一,而通過大數(shù)據(jù)技術(shù)手段分析各類扶貧數(shù)據(jù),制定有效的扶貧策略,對(duì)提高政府脫貧攻堅(jiān)成效具有重大意義。文章提出了一種利用機(jī)器學(xué)習(xí)分析貧困戶數(shù)據(jù)的方法,旨在為建設(shè)扶貧攻堅(jiān)大數(shù)據(jù)分析平臺(tái)及精準(zhǔn)識(shí)別貧困戶工作提供支持。
【關(guān)鍵詞】貧困人口;機(jī)器學(xué)習(xí);隨機(jī)森林;數(shù)據(jù)分析
【中圖分類號(hào)】TP181 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1674-0688(2017)05-0039-03
1 貧困人口判別標(biāo)準(zhǔn)
根據(jù)2011年11月29日中央扶貧開發(fā)工作會(huì)議提出的標(biāo)準(zhǔn),我國(guó)扶貧標(biāo)準(zhǔn)為人均純收入2 300元。此標(biāo)準(zhǔn)逐年調(diào)整,至2016年調(diào)整為3 000元。但實(shí)際工作中僅僅考慮人均純收入并不科學(xué),還應(yīng)把包括但不限于地方政策、社會(huì)環(huán)境、技術(shù)環(huán)境、經(jīng)濟(jì)環(huán)境的諸多因素作為判斷的參考。
根據(jù)各地相關(guān)政策,可把以下示例指標(biāo)作為貧困人口判別的部分參考標(biāo)準(zhǔn):是否在城鎮(zhèn)有購(gòu)買商品房;是否擁有多處房產(chǎn);是否擁有商鋪;是否經(jīng)營(yíng)私人企業(yè);是否有轎車、高檔摩托車、高檔冰箱、空調(diào)、電腦等高檔消費(fèi)品;是否有大中型農(nóng)業(yè)機(jī)械、加工機(jī)械、工程機(jī)械、運(yùn)輸工具;家庭成員中是否有人是現(xiàn)任公務(wù)員或事業(yè)單位在編人員;家庭成員中是否有自費(fèi)出國(guó)留學(xué)人員;家庭成員中是否有購(gòu)買商業(yè)養(yǎng)老保險(xiǎn)人員;是否種養(yǎng)大戶或長(zhǎng)期雇傭他人從事生產(chǎn)經(jīng)營(yíng)活動(dòng)。更詳細(xì)的貧困人口判別標(biāo)準(zhǔn)和不得列入貧困人口的標(biāo)準(zhǔn)參照各地實(shí)際實(shí)施的政策。
2 數(shù)據(jù)分析過程
為了實(shí)現(xiàn)自動(dòng)、準(zhǔn)確、高效地分析貧困戶數(shù)據(jù),引入機(jī)器學(xué)習(xí)技術(shù)能夠發(fā)揮重要作用。簡(jiǎn)單來說,機(jī)器學(xué)習(xí)的過程就是使用大量數(shù)據(jù)信息對(duì)學(xué)習(xí)系統(tǒng)進(jìn)行訓(xùn)練的過程。在這一過程中,系統(tǒng)根據(jù)獲取的信息完成模型建立、模型訓(xùn)練等步驟,最終找到問題的最優(yōu)或次優(yōu)解。利用機(jī)器學(xué)習(xí)進(jìn)行貧困人口識(shí)別分析要經(jīng)過以下過程。{1}數(shù)據(jù)采集。盡可能地收集貧困人口數(shù)據(jù),收集的廣度和深度都會(huì)影響分析模型的準(zhǔn)確度。數(shù)據(jù)量越大涉及的細(xì)節(jié)越細(xì),則模型分析的準(zhǔn)確度就越高。{2}數(shù)據(jù)預(yù)處理。清洗和整理數(shù)據(jù)集,提高數(shù)據(jù)集的有效性。{3}特征庫(kù)構(gòu)建。關(guān)聯(lián)數(shù)據(jù)集中的主屬性和分支屬性,形成多維度的特征庫(kù)。{4}特質(zhì)篩選排序。分析特征的重要性,選取重要性高的特征形成模型的訓(xùn)練集。{5}生成模型。根據(jù)實(shí)際工作需要設(shè)計(jì)分析模型。{6}訓(xùn)練模型。將訓(xùn)練集輸入分析模型,得到最終完成訓(xùn)練的模型。{7}應(yīng)用分析。獲得了最終完成訓(xùn)練的分析模型就可以將其應(yīng)用在貧困人口識(shí)別分析軟件或相關(guān)平臺(tái)上,對(duì)其中的貧困人口數(shù)據(jù)進(jìn)行處理。
3 數(shù)據(jù)采集
根據(jù)各地扶貧工作實(shí)際情況的不同,可把以下數(shù)據(jù)收集納入分析模型進(jìn)行精準(zhǔn)分析和有效運(yùn)用。
(1)下鄉(xiāng)扶貧工作中建檔立卡采集的數(shù)據(jù)。這是分析工作所需的最基礎(chǔ)的數(shù)據(jù),根據(jù)這些數(shù)據(jù)能夠獲得基本的分析結(jié)果,但精度上難以達(dá)到精準(zhǔn)識(shí)別的要求,仍需要更多的數(shù)據(jù)來提高分析精度。
(2)國(guó)土、公安、住建、工商、財(cái)政、編辦、國(guó)稅等部門的信息。這部分?jǐn)?shù)據(jù)很重要,尤其是其中一些關(guān)鍵特征會(huì)直接影響對(duì)貧困戶的分析評(píng)價(jià)結(jié)果。這些外聯(lián)數(shù)據(jù)越詳細(xì)、越準(zhǔn)確,分析的結(jié)果也越準(zhǔn)確。
(3)互聯(lián)網(wǎng)數(shù)據(jù)。這部分?jǐn)?shù)據(jù)的主要關(guān)注點(diǎn)在于貧困戶以個(gè)人或組織的身份在互聯(lián)網(wǎng)上的行為,如參與互聯(lián)網(wǎng)金融商業(yè)活動(dòng)的信息、網(wǎng)上交易信息等。這些信息能夠在一定程度上反映該戶人口的財(cái)務(wù)狀況,為判定其貧困與否提供線索。
4 數(shù)據(jù)預(yù)處理與特征庫(kù)構(gòu)建
對(duì)采集到的數(shù)據(jù)進(jìn)行清洗和整理,清洗內(nèi)容包括編寫數(shù)據(jù)的計(jì)算邏輯,處理異常值、缺失值,將有效結(jié)果輸出或者直接編寫數(shù)據(jù)去除和整理邏輯函數(shù),然后將這些邏輯運(yùn)算打包成分布式任務(wù)進(jìn)行分布式計(jì)算,最后得到對(duì)業(yè)務(wù)有價(jià)值的數(shù)據(jù)源。
貧困戶信息特征庫(kù)由農(nóng)戶數(shù)據(jù)和外聯(lián)數(shù)據(jù)2個(gè)部分組成。在數(shù)據(jù)挖掘的初始階段,在各類源數(shù)據(jù)中抽取足夠多維度的相關(guān)信息進(jìn)行特征庫(kù)的構(gòu)建。首先,抽取農(nóng)戶數(shù)據(jù)中的人物屬性數(shù)據(jù)(戶主姓名、住址、家庭成員姓名及與戶主關(guān)系等)和資產(chǎn)屬性數(shù)據(jù)(財(cái)產(chǎn)、家庭年收入、房屋結(jié)構(gòu)、裝修情況等)。其次,根據(jù)人物屬性數(shù)據(jù)關(guān)聯(lián)各單位部門的外聯(lián)數(shù)據(jù)。例如:{1}以人物屬性作為主字段關(guān)聯(lián)車管所信息,得到戶主及家庭成員、直系親屬的所屬車輛信息(車輛品牌、類別、價(jià)值、年限等)。{2}以人物屬性作為主字段關(guān)聯(lián)教育部門信息,獲取戶主及家庭成員、直系親屬的教育程度、受教育時(shí)間、技能培訓(xùn)等信息。{3}以人物屬性作為主字段關(guān)聯(lián)工商局系統(tǒng),獲取戶主及家庭成員、直系親屬名下的注冊(cè)商鋪信息。{4}以人物屬性作為主字段關(guān)聯(lián)銀行數(shù)據(jù)系統(tǒng),獲取存款、名下信用卡、刷卡消費(fèi)等信息。{5}以人物屬性作為主字段關(guān)聯(lián)幫扶需求數(shù)據(jù),獲取主要致貧原因、次要致貧原因、“一主兩輔”幫扶需求、幫扶措施、幫扶單位、幫扶責(zé)任人及其聯(lián)系電話等信息。以此得到一個(gè)關(guān)于“貧困戶”的1*n維的信息特征庫(kù),該特征庫(kù)包含所有和“貧困戶”直接相關(guān)或間接相關(guān)的信息。此步驟的關(guān)鍵要點(diǎn)在于以下2個(gè)方面:結(jié)合業(yè)務(wù)特性抽取盡量多的字段信息來構(gòu)建特征庫(kù);各貧困戶的特征維度需要保證一致性。
5 特征篩選排序
特征篩選與排序的目的是從貧困戶信息特征庫(kù)中篩選出有代表性的特征信息,這些特征信息可以有效地衡量單個(gè)貧困戶的貧困程度,同時(shí)降低精準(zhǔn)識(shí)別模型數(shù)據(jù)的復(fù)雜度。隨機(jī)森林是一個(gè)包含多個(gè)決策樹的分類器,它有一個(gè)特性就是在決定類別時(shí),能夠評(píng)估變量的重要性?;诖颂卣鳎梢允褂迷摲椒ㄍ瓿商卣鞯呐判?,并選擇排名靠前的m個(gè)特征作為模型訓(xùn)練的訓(xùn)練集。
5.1 建立隨機(jī)森林
建立隨機(jī)森林時(shí),要對(duì)輸入的數(shù)據(jù)進(jìn)行行采樣和列采樣。行即是數(shù)據(jù)集中的樣本,列即是樣本的特征(見表1)。在進(jìn)行行采樣時(shí),采取有放回的采樣方式降低過度擬合出現(xiàn)的可能:假設(shè)輸入樣本集包含樣本數(shù)量為M個(gè),則作為決策樹根節(jié)點(diǎn)的采樣樣本數(shù)量也應(yīng)為M個(gè),這使得每一顆決策樹包含的樣本都不是樣本集的全集。在進(jìn)行列采樣時(shí),當(dāng)樣本有T個(gè)特征,則在分裂決策樹的節(jié)點(diǎn)時(shí),從樣本的T個(gè)特征里隨機(jī)選擇t個(gè),并且t<
5.2 特征篩選排序
通過對(duì)每一顆決策樹應(yīng)用袋外數(shù)據(jù)并加入干擾數(shù)據(jù),可以測(cè)算特征的重要性程度。對(duì)多個(gè)特征隨機(jī)加入干擾數(shù)據(jù)之后觀察袋外準(zhǔn)確率的變化,哪個(gè)特征在被影響后導(dǎo)致袋外準(zhǔn)確率下降的幅度比其他特征更大,則說明該特征的影響力更大,重要性更高。將袋外數(shù)據(jù)誤差記為errA,將加入干擾數(shù)據(jù)后再次計(jì)算的袋外數(shù)據(jù)誤差記為errB,而一個(gè)隨機(jī)森林中決策樹的數(shù)量為N,則可以計(jì)算某個(gè)特征的重要性:
VI=■(errB-errA)/N
對(duì)特征按照重要性計(jì)算結(jié)果降序排列,并排除一定比例不重要的特征。用剩余特征再次建立新隨機(jī)森林,再次計(jì)算選擇重要性高的特征,排除重要性低的特征,如此循環(huán)直到剩余的特征數(shù)量達(dá)到預(yù)設(shè)的m個(gè)。
6 生成和訓(xùn)練數(shù)據(jù)分析模型
貧困戶的精準(zhǔn)識(shí)別一般采用分類算法,考慮到貧困戶信息特征庫(kù)中所使用的特征信息與貧困程度存在一定的相關(guān)性,一般采用決策樹類算法模型。XGBoost算法是一種高效并被廣泛應(yīng)用的機(jī)器學(xué)習(xí)算法。它具備一般決策樹的優(yōu)點(diǎn),并能夠并行化實(shí)現(xiàn),對(duì)于海量數(shù)據(jù)處理所需的資源也遠(yuǎn)遠(yuǎn)低于一般的算法。
XGBoost相比于傳統(tǒng)GBDT在防止過擬合方面有很大的提升。而在分布式算法方面,XGBoost可以分布在不同機(jī)器內(nèi)執(zhí)行多個(gè)特征計(jì)算,最后進(jìn)行結(jié)果匯總,從而具有分布計(jì)算的能力。在非分布式計(jì)算環(huán)境下,XGBoost也可以自動(dòng)利用CPU進(jìn)行多線程并行計(jì)算,同時(shí)由于其改進(jìn)的算法又獲得了相較傳統(tǒng)GBDT更高的精度。
模型訓(xùn)練的過程是通過根據(jù)指定規(guī)則或其他方式定義的已人為確認(rèn)的貧困戶樣本(該樣本數(shù)量越多,訓(xùn)練出的模型越準(zhǔn)確),并關(guān)聯(lián)到篩選后的貧困戶信息特征庫(kù)中,得到訓(xùn)練樣本,并將該訓(xùn)練樣本加上貧困戶的定義標(biāo)簽,輸入到XGBoost模型中進(jìn)行訓(xùn)練,得到由多個(gè)相同深度的決策樹組成的分類器即貧困戶精準(zhǔn)識(shí)別模型。
通過參數(shù)調(diào)整即調(diào)整決策樹的深度等參數(shù)值來調(diào)整模型的精度(重要的調(diào)整參數(shù)見表2),此過程中通過觀察預(yù)測(cè)的精確值和ROC(AUC)值進(jìn)行評(píng)估;可以對(duì)訓(xùn)練樣本采用交叉驗(yàn)證的方式,通過觀測(cè)預(yù)測(cè)的精確值和ROC(AUC)值選擇出訓(xùn)練樣本最優(yōu)的模型。利用此模型即可對(duì)貧困人口數(shù)據(jù)進(jìn)行挖掘分析,篩選出符合標(biāo)準(zhǔn)的貧困人口數(shù)據(jù)。
7 結(jié)語
目前,經(jīng)過多年的扶貧開發(fā),相關(guān)扶貧數(shù)據(jù)已有一定量的積累,尤其在國(guó)家“精準(zhǔn)扶貧、精準(zhǔn)脫貧”戰(zhàn)略工程的推動(dòng)下,全國(guó)各地紛紛加大力量推進(jìn)精準(zhǔn)扶貧工作,加大對(duì)貧困地區(qū)人口信息、產(chǎn)業(yè)資源等數(shù)據(jù)采集。把機(jī)器學(xué)習(xí)技術(shù)引入扶貧領(lǐng)域,促進(jìn)數(shù)據(jù)分析技術(shù)與脫貧攻堅(jiān)融合,利用機(jī)器學(xué)習(xí)和數(shù)據(jù)分析領(lǐng)域的研究基礎(chǔ)和技術(shù)成果,研究脫貧攻堅(jiān)數(shù)據(jù)建模分析、可視化展示等關(guān)鍵技術(shù)與應(yīng)用模式,將在推進(jìn)脫貧攻堅(jiān)工作及大數(shù)據(jù)產(chǎn)業(yè)發(fā)展方面帶來顯著效果。
參 考 文 獻(xiàn)
[1]程開明.統(tǒng)計(jì)數(shù)據(jù)預(yù)處理的理論與方法述評(píng)[J].統(tǒng)計(jì)與信息論壇,2007(6).
[2]方匡南,吳見彬,朱建平,等.隨機(jī)森林方法研究綜述
[J].統(tǒng)計(jì)與信息論壇,2011(3).
[3]路翀,徐輝,楊永春.基于決策樹分類算法的研究與應(yīng)用[J].電子設(shè)計(jì)工程,2016(18).
[4]楊靜,張楠男,李建,等.決策樹算法的研究與應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010(2).
[5]董師師,黃哲學(xué).隨機(jī)森林理論淺析[J].集成技術(shù),2013
(1).
[6]莫光輝.大數(shù)據(jù)在精準(zhǔn)扶貧過程中的應(yīng)用及實(shí)踐創(chuàng)新[J].求實(shí),2016(10).
[責(zé)任編輯:鐘聲賢]