孔艷春,蘇為斌,陳國(guó)平,徐子珺,楊雪瓊,李懿航
(1.昆明冶金高等??茖W(xué)校 a.建筑工程學(xué)院;b.測(cè)繪學(xué)院;c.電氣與機(jī)械學(xué)院;d.商學(xué)院;e.后勤服務(wù)中心, 云南 昆明 650033; 2.云南工商學(xué)院智能科學(xué)與工程學(xué)院,云南 昆明 651701)
近年來(lái),大數(shù)據(jù)助力脫貧成為了研究的熱點(diǎn),然而,大數(shù)據(jù)具有“全局思維、混雜相關(guān)”的性質(zhì),不能很好地適用于具有“隨機(jī)個(gè)體、因果關(guān)聯(lián)”的扶貧小數(shù)據(jù)分析。大數(shù)據(jù)在扶貧領(lǐng)域的應(yīng)用存在諸多問(wèn)題:大數(shù)據(jù)一般以網(wǎng)絡(luò)為基礎(chǔ),受限于貧困地區(qū)客觀條件,比如智能手機(jī)的使用率、網(wǎng)絡(luò)普及率低就很難實(shí)現(xiàn)“全數(shù)據(jù)”采集覆蓋;大數(shù)據(jù)并非大家都可以使用,比如涉及個(gè)人的隱私、機(jī)密等就不宜廣泛使用;大數(shù)據(jù)無(wú)論有多全面,也只能記錄人的片面行為,無(wú)法確切描述人的思維;此外在技術(shù)實(shí)現(xiàn)上,由于大數(shù)據(jù)重“相關(guān)”輕“因果”,導(dǎo)致難以全面分析農(nóng)戶致貧原因。為了從源頭根除貧困,眾多學(xué)者都認(rèn)識(shí)到“扶貧必先智志雙扶”,人的價(jià)值觀才是脫貧的最終根源。小數(shù)據(jù)從個(gè)體出發(fā),通過(guò)統(tǒng)計(jì)個(gè)人信息,觀察行為特征,挖掘分析數(shù)據(jù),提高扶貧的“精準(zhǔn)”度。該方法能夠有效檢測(cè)扶貧效果,改進(jìn)扶貧工作方法。
在大數(shù)據(jù)提出之前,數(shù)據(jù)本無(wú)大小之分。隨著大數(shù)據(jù)的火熱,越來(lái)越多的學(xué)者意識(shí)到小數(shù)據(jù)具有不可替代的價(jià)值。學(xué)術(shù)界通常把Estrin[1]于2014 年通過(guò)觀察記錄其父親去世前幾個(gè)月的行為數(shù)據(jù),認(rèn)定為小數(shù)據(jù)研究的開端。事實(shí)上關(guān)于小數(shù)據(jù)的應(yīng)用先例早已有之:“星星之火,可以燎原”是毛澤東同志于1927年革命失敗后,透過(guò)現(xiàn)象看本質(zhì),應(yīng)用唯物辯證法,科學(xué)分析國(guó)內(nèi)政治形勢(shì)和敵我力量作出的正確激勵(lì);“關(guān)鍵少數(shù)”是習(xí)近平同志于 2015 年兩會(huì)期間提出的最新熱詞,是抓好黨員思想建設(shè)和制度保障的“精準(zhǔn)良方”??v觀歷史,小數(shù)據(jù)總能指導(dǎo)人們?cè)陉P(guān)鍵時(shí)刻作出決策,解決棘手問(wèn)題。
小數(shù)據(jù)的顯著特征在于對(duì)單個(gè)個(gè)體或小團(tuán)體范圍內(nèi)人的行為的全數(shù)據(jù)記錄,它由多個(gè)時(shí)間標(biāo)簽系列的小樣本組成。在國(guó)外,Augustin[2]認(rèn)為,一個(gè)高質(zhì)量的小樣本數(shù)據(jù)要比低質(zhì)量的大樣本數(shù)據(jù)更具決策價(jià)值;O'Brien[3]認(rèn)為,小數(shù)據(jù)能夠優(yōu)化大數(shù)據(jù),實(shí)現(xiàn)客觀報(bào)告行為與自我報(bào)告態(tài)度的同步;Robertson[4]指出,通過(guò)對(duì)個(gè)人活動(dòng)中心和地理社會(huì)數(shù)據(jù)的統(tǒng)計(jì)分析,可以驗(yàn)證小數(shù)據(jù)高質(zhì)量樣本的“精準(zhǔn)”特性。在國(guó)內(nèi),陳廉芳[5]指出,小數(shù)據(jù)是個(gè)體用戶的“全”數(shù)據(jù),具有大數(shù)據(jù)無(wú)法替代的作用;孫紅蕾[6]認(rèn)為,小數(shù)據(jù)將為數(shù)字文化治理帶來(lái)新的機(jī)遇。
習(xí)近平總書記講到,扶貧工作不能搞大水漫灌,務(wù)必要做到“六個(gè)精準(zhǔn)”,即:因村派人精準(zhǔn)、扶持對(duì)象精準(zhǔn)、項(xiàng)目安排精準(zhǔn)、資金使用精準(zhǔn)、措施到位精準(zhǔn)、脫貧成效精準(zhǔn)。扶貧不是養(yǎng)懶漢,如果不能有效挖掘單個(gè)個(gè)體或小團(tuán)體范圍內(nèi)的小數(shù)據(jù),那么這些具體且特定的數(shù)據(jù)或有可能因大數(shù)據(jù)的分析方法而泛化,導(dǎo)致真正需要幫扶的人沒有得到有效幫助,那些“等、靠、要”的懶漢則一次次地獲得政策傾斜。針對(duì)該類問(wèn)題,安素霞[7]指出,應(yīng)當(dāng)通過(guò)開展社會(huì)工作,解決貧困戶過(guò)度依賴扶貧收益不愿意脫貧的問(wèn)題;姚展鵬[8]認(rèn)為,基層組織應(yīng)當(dāng)激勵(lì)幫扶者改進(jìn)幫扶方式、提升扶志效果;沈霞[9]提出,教育應(yīng)當(dāng)成為精準(zhǔn)扶貧的重要保障。顯然,要實(shí)現(xiàn)精準(zhǔn)扶貧助力鄉(xiāng)村振興,必須長(zhǎng)期做好基于小數(shù)據(jù)的社會(huì)學(xué)調(diào)查統(tǒng)計(jì)工作,建立科學(xué)的小數(shù)據(jù)理論分析體系,提高精準(zhǔn)識(shí)別率。
很多學(xué)者認(rèn)為大數(shù)據(jù)與小數(shù)據(jù)是矛盾關(guān)系,但事實(shí)上,它們之間存在著互補(bǔ)與交叉。如圖1所示,學(xué)術(shù)界通常把數(shù)據(jù)間的關(guān)系定義為“因果”和“相關(guān)”。通過(guò)“獲取數(shù)據(jù)樣本→聚類→測(cè)定類間距離→獲得相關(guān)系數(shù)”的方法屬于傳統(tǒng)大數(shù)據(jù)方法;通過(guò)“個(gè)體行為的調(diào)查研究→實(shí)驗(yàn)論證→得出數(shù)據(jù)因果關(guān)系”的方法屬于小數(shù)據(jù)方法。顯然在扶貧工作中對(duì)數(shù)據(jù)的界定與劃分是本文研究的首要內(nèi)容,劃分方法如下:
1)若數(shù)據(jù)與數(shù)據(jù)間具有純相關(guān)性,則送入大數(shù)據(jù)系統(tǒng),不在本項(xiàng)目研究范疇;
2)若數(shù)據(jù)與數(shù)據(jù)間既有相關(guān)關(guān)系,又有因果關(guān)系,則采用樸素貝葉斯機(jī)器學(xué)習(xí)算法,構(gòu)建混淆矩陣,分析準(zhǔn)確率;
3)若數(shù)據(jù)與數(shù)據(jù)間屬純因果關(guān)系,則采用確定性演繹推理方法,對(duì)駐村工作中統(tǒng)計(jì)的具有數(shù)值屬性和非數(shù)值屬性的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),驗(yàn)證理論可行性。
在脫貧攻堅(jiān)小數(shù)據(jù)的分析過(guò)程中,依靠確定性推理能夠?qū)崿F(xiàn)問(wèn)題的自動(dòng)求解?!爸R(shí)表示”是實(shí)現(xiàn)確定性推理的前提條件。所謂脫貧攻堅(jiān)小數(shù)據(jù)的“知識(shí)”是對(duì)國(guó)家政策規(guī)定解讀和長(zhǎng)期的駐村扶貧工作中積累的認(rèn)識(shí)和經(jīng)驗(yàn),而“知識(shí)表示”是對(duì)這一類知識(shí)的進(jìn)一步模型化,構(gòu)建謂詞邏輯,形成產(chǎn)生式和框架表示規(guī)則[11]。“推理”是對(duì)這些知識(shí)規(guī)則,按照某種策略求解的一般過(guò)程,如表1所示。
圖1 大數(shù)據(jù)與小數(shù)據(jù)的界定與劃分Fig.1 Definition and division of big data and small data
表1 推理方式及分類Tab.1 Reasoning mode and classification
在推理的方向上,已知國(guó)家制訂的貧困線標(biāo)準(zhǔn),該標(biāo)準(zhǔn)為已知的知識(shí)庫(kù),也稱為大前提;若有一農(nóng)戶收入水平在該標(biāo)準(zhǔn)之下,則由該農(nóng)戶數(shù)據(jù)構(gòu)造的謂詞邏輯稱為小前提;顯然得到的結(jié)論必然是該農(nóng)戶屬于貧困戶。這種由一般到個(gè)別的推理也稱正向推理,是從已知實(shí)事出發(fā)的結(jié)論構(gòu)建。
與之向反,若已知部分農(nóng)戶數(shù)據(jù)及他們向工作組反映的情況,但又找不到國(guó)家或地方相關(guān)的政策依據(jù),那么就應(yīng)當(dāng)進(jìn)行數(shù)據(jù)歸納,然后以某個(gè)假設(shè)目標(biāo)作為出發(fā)點(diǎn),尋找支持該假設(shè)的證據(jù)。這種由個(gè)別到一般的推理過(guò)程也稱為逆向推理,獲得的結(jié)論有利于向農(nóng)戶提供解釋。
樸素貝葉斯(Naive Bayes Classifier, NBC)是基于貝葉斯定理特征條件獨(dú)立假設(shè)的分類方法。具有所需估計(jì)參數(shù)少,對(duì)缺失數(shù)據(jù)不敏感等特點(diǎn)。結(jié)合概率統(tǒng)計(jì),既可避免先驗(yàn)的主觀偏見,又可避免單獨(dú)使用樣本信息的過(guò)擬合現(xiàn)象[10]。駐村扶貧工作統(tǒng)計(jì)的原始小數(shù)據(jù)往往是時(shí)間離散、格式不統(tǒng)一的excel表格或word文檔。為了向上級(jí)呈現(xiàn)更加精練的數(shù)據(jù)信息,工作人員一般通過(guò)鄉(xiāng)鎮(zhèn)一級(jí)統(tǒng)一指揮,把整理后的數(shù)據(jù)錄入國(guó)辦數(shù)據(jù)庫(kù)系統(tǒng),存在錄入失誤和人為主觀更改等問(wèn)題。對(duì)駐村工作人員的原始數(shù)據(jù)進(jìn)行上下文文本的樸素貝葉斯分類,能夠在一定程度上規(guī)避這些問(wèn)題。
駐村扶貧統(tǒng)計(jì)數(shù)據(jù)屬于定性的樣本特征向量,把這些數(shù)據(jù)代入樸素貝葉斯分類器進(jìn)行訓(xùn)練,由此估計(jì)每種致貧因素類型的識(shí)別概率。貝葉斯分類器提供了分類程序的基本概率模型,例如統(tǒng)計(jì)辨別分析貝葉斯定理估計(jì)概率公式為:
(1)
(2)
(3)
公式(3)是基于小數(shù)據(jù)最終分類的樸素貝葉斯概率估計(jì)公式,其特點(diǎn)是在獲得一個(gè)新的貧困戶特征樣本x時(shí)可以估計(jì)出該貧困戶能否脫貧的概率。為了盡量降低錯(cuò)誤的估計(jì)數(shù)量,應(yīng)當(dāng)盡可能地獲得運(yùn)算結(jié)果的最大值,通常取公式(3)分子的最大值來(lái)進(jìn)行分類決策。
為了奠定小數(shù)據(jù)推理基礎(chǔ),需要把扶貧工作中駐村工作隊(duì)與村民間的談話和各級(jí)會(huì)議記錄等形成的自然語(yǔ)言轉(zhuǎn)換為謂詞邏輯。
謂詞是對(duì)主語(yǔ)的陳述或說(shuō)明,指出“做什么”“是什么”或“怎么樣”,是條件表達(dá)式求值返回真或假的過(guò)程。表2以小壩村為例解析了扶貧記錄的謂詞表示。
表2 確定性知識(shí)表示謂詞公式規(guī)則
表2第一列中均出現(xiàn)了謂詞關(guān)鍵字“是”,然而卻有不同的含義。雖然人類可以輕易理解這種自然語(yǔ)言,但是計(jì)算機(jī)很難做到正確分析,會(huì)錯(cuò)誤地把 “張老二”認(rèn)定隸屬于“張三”,錯(cuò)誤地把時(shí)間“2017年”認(rèn)定為“貧困戶”。顯然,研究人工智能謂詞公式錄入規(guī)則可以解決自然語(yǔ)言在計(jì)算機(jī)中的知識(shí)表示能力不足的問(wèn)題,利于構(gòu)建確定性扶貧小數(shù)據(jù)知識(shí)體系。
扶貧小數(shù)據(jù)確定性推理的第二項(xiàng)重要任務(wù)是運(yùn)用“量詞”實(shí)現(xiàn)謂詞公式的建立。量詞分為2種,如表3所示。
表3 量詞規(guī)則
需要注意的是,表3中的2個(gè)例子均有泛化屬性,比如:例1泛化“小壩村的路”為x;例2泛化“魯老三”為x。泛化的充要條件是具備“個(gè)別”與“一般”的縮放條件。
“連詞”是對(duì)已知事實(shí)即前提P與結(jié)論Q之間的關(guān)系建立,具有“否定”“合取”“析取”“蘊(yùn)含”“等價(jià)”5種連接關(guān)系。如表4所示,連接詞與自然語(yǔ)言具有相應(yīng)的對(duì)照關(guān)系。
表4 連接詞與自然語(yǔ)言對(duì)照Tab.4 Conjunctions and natural language
國(guó)家對(duì)脫貧的要求,必須做到“兩不愁,三保障”。對(duì)于“吃”“穿”“教育”“醫(yī)療”“住房”,若只考慮“達(dá)到”和“未達(dá)到”2個(gè)層面。假如任取一戶,存在5項(xiàng)中的任1項(xiàng)未達(dá)到,將導(dǎo)致全村無(wú)法實(shí)現(xiàn)脫貧,可描述謂詞公式為:
?(x)?(y){吃(x)∨穿(x)∨教育(x)∨醫(yī)療(x) ∨住房(x)→達(dá)到(y)}
小數(shù)據(jù)確定性推理的關(guān)鍵是把謂詞公式化為子句集的過(guò)程。該過(guò)程共分為9個(gè)步驟,謂詞公式不可滿足的充要條件是其子句集不可滿足。獲得子句集的目的是為了使用魯賓遜歸結(jié)原理(消解原理)的基本思想,建立規(guī)則、事實(shí)、求證三者之間歸結(jié)反演邏輯[10]。任一謂詞公式通過(guò)九步法可以化成一個(gè)子句集,如圖2所示,依次變換即可得到子句集。
圖2 子句集劃分步驟Fig.2 Clause set transformation
子句集的劃分是對(duì)知識(shí)的拆解,通過(guò)魯賓遜歸結(jié)反演方法[11],可以從脫貧攻堅(jiān)小數(shù)據(jù)集中抽取知識(shí)實(shí)現(xiàn)針對(duì)特定問(wèn)題的求證。顯然通過(guò)長(zhǎng)期觀察并建立確定性扶貧小數(shù)據(jù)集,該方法能夠正確表達(dá)小數(shù)據(jù)確定性推理過(guò)程,提供決策輔助脫貧攻堅(jiān)和鄉(xiāng)村振興。
基于小數(shù)據(jù)開展樸素貝葉斯算法可以帶來(lái)更高的分類精準(zhǔn)性。由于地區(qū)之間的語(yǔ)言、民族、氣候、產(chǎn)業(yè)結(jié)構(gòu)、習(xí)俗等存在差異,導(dǎo)致很難找到一個(gè)合適的訓(xùn)練數(shù)據(jù)集來(lái)支撐這種因地區(qū)差異而存在的樸素貝葉斯分類算法。本文以小壩村為例,以事實(shí)數(shù)據(jù)作為依據(jù),科學(xué)設(shè)定統(tǒng)計(jì)表格,從而求出樸素貝葉斯公式的先驗(yàn)概率、似然概率和邊際概率。通過(guò)把主動(dòng)訪談與事件觸發(fā)相結(jié)合的時(shí)間系列記錄數(shù)據(jù)代入樸素貝葉斯公式,求解后驗(yàn),更新先驗(yàn),不斷獲得特定貧困戶的趨勢(shì)曲線觀察。
在脫貧攻堅(jiān)工作中,往往以戶為單位判斷是否為貧困戶。在該分類過(guò)程中,根據(jù)以往的經(jīng)驗(yàn),工作人員通常會(huì)將收入、民族、健康狀況、受教育程度等因素作為“經(jīng)驗(yàn)”訓(xùn)練貧困戶判斷的模型要素。這一過(guò)程往往需要3個(gè)流程:
第一階段:準(zhǔn)備階段。對(duì)收入、戶籍人數(shù)、健康狀況等特征屬性進(jìn)行劃分。
第二階段:訓(xùn)練階段。該階段將計(jì)算小壩村調(diào)查數(shù)據(jù)在每個(gè)類別的訓(xùn)練樣本中的出現(xiàn)頻率,并劃分特征屬性得到每個(gè)類別的條件概率。
第三階段:應(yīng)用階段。使用分類器對(duì)新數(shù)據(jù)分類,輸入分類器和新數(shù)據(jù),輸出新數(shù)據(jù)的分類結(jié)果。
本文用于樸素貝葉斯分類實(shí)驗(yàn)的小數(shù)據(jù)來(lái)自小壩村截至2019年的219戶貧困戶監(jiān)測(cè)數(shù)據(jù),如表5所示。該表列出了用于訓(xùn)練的特征屬性樣本,其中一部分具有數(shù)值屬性,比如收入;一部分為非數(shù)值屬性,比如文化程度。實(shí)驗(yàn)的目的是對(duì)這些具有混合屬性的數(shù)據(jù)設(shè)計(jì)基于小數(shù)據(jù)理論的脫貧攻堅(jiān)樸素貝葉斯分類器。為了保護(hù)貧困戶隱私,表中姓名進(jìn)行了加*替換。
表5 樸素貝葉斯分類器訓(xùn)練樣本表
表5訓(xùn)練樣本列出了2014—2019年每戶的人均年收入數(shù)據(jù),最后一列“脫貧評(píng)估”是人工統(tǒng)計(jì)后給出的綜合決策。表格的第一和第二列對(duì)最后一列的脫貧評(píng)估不會(huì)造成影響,其余列均是綜合評(píng)估的特征指標(biāo)?!叭藬?shù)”列表示該戶共有多少人口,人數(shù)較多的戶口,其人均收入水平也會(huì)較低。設(shè)計(jì)該表的初衷在于發(fā)現(xiàn)脫貧與家庭人口數(shù)、民族、文化程度、健康及技能之間的關(guān)系。表中“#N/A”表示缺失,可計(jì)算一個(gè)平均值進(jìn)行替換,否則會(huì)影響識(shí)別正確率。對(duì)于該表,首先需要進(jìn)行數(shù)據(jù)預(yù)處理,然后使用開源數(shù)據(jù)分析工具實(shí)現(xiàn)樸素貝葉斯算法的性能分析。
WEKA是一款開源的機(jī)器學(xué)習(xí)及數(shù)據(jù)挖掘軟件[13],它把需要訓(xùn)練和推理的數(shù)據(jù)分成屬性和實(shí)例2個(gè)部分。一般情況下,對(duì)應(yīng)了表格的列對(duì)應(yīng)屬性,行則對(duì)應(yīng)實(shí)例,通過(guò)把表格轉(zhuǎn)換為ARFF文件從而可以依靠該工具實(shí)現(xiàn)樸素貝葉斯分析。由于WEKA不支持中文,首先需要把表5轉(zhuǎn)換為漢語(yǔ)拼音表格,然后去除序號(hào)、戶名2列對(duì)最終決策毫無(wú)影響的屬性。通常這種數(shù)據(jù)預(yù)處理過(guò)程會(huì)占用大量的工作時(shí)間,本文通過(guò)Python調(diào)用excel庫(kù),把預(yù)處理的代碼發(fā)布于CSDN[14],可通過(guò)調(diào)用該代碼重現(xiàn)。
為了防止訓(xùn)練過(guò)程中的過(guò)擬合問(wèn)題,通常將數(shù)據(jù)分為訓(xùn)練和測(cè)試集。由于測(cè)試集不參與訓(xùn)練,用于模型評(píng)估,這樣就會(huì)在小數(shù)據(jù)集上浪費(fèi)了這部分?jǐn)?shù)據(jù),無(wú)法使模型達(dá)到最優(yōu)。采用K-Fold 交叉驗(yàn)證能夠很好地解決這個(gè)問(wèn)題,進(jìn)而利用全部數(shù)據(jù)構(gòu)建模型。交叉驗(yàn)證又稱循環(huán)驗(yàn)證。它將原始數(shù)據(jù)分成K組,然后對(duì)每個(gè)子集數(shù)據(jù)做一次驗(yàn)證,剩下的K-1組子集數(shù)據(jù)用作訓(xùn)練,即可得到K個(gè)模型。最后對(duì)這K個(gè)模型驗(yàn)證評(píng)估結(jié)果。交叉驗(yàn)證能夠盡可能接近模型在測(cè)試集上的表現(xiàn)優(yōu)化模型。
針對(duì)表5的219個(gè)實(shí)例,應(yīng)用WEKA選擇樸素貝葉斯分類器,設(shè)定10折交叉驗(yàn)證可以得到如下數(shù)據(jù):
=== Stratified cross-validation ====== Summary ===Correctly Classified Instances17278.5388%Incorrectly Classified Instances4721.4612%Kappa statistic0.133Mean absolute error0.1332Root mean squared error0.2875Relative absolute error100.6491%Root relative squared error113.8194%Total Number of Instances219
表5源自國(guó)辦系統(tǒng)的數(shù)據(jù)導(dǎo)出,從分類正確率來(lái)看,實(shí)例樣本還有很大的提升空間。Kappa指標(biāo)與分類器正確率成正相關(guān)關(guān)系,值域?yàn)閇-1,1]且越接近1越好,訓(xùn)練數(shù)據(jù)集值為0.133,說(shuō)明統(tǒng)計(jì)數(shù)據(jù)對(duì)最終脫貧評(píng)估分類具有良性的支撐作用;平均絕對(duì)誤差MAE為0.133 2,均方根誤差RMSE為0.287 5,也獲得了較好的數(shù)值范圍;然而,相對(duì)絕對(duì)誤差、根相對(duì)平方誤差的值則過(guò)于欠佳。這也恰恰說(shuō)明了脫貧攻堅(jiān)和鄉(xiāng)村振興需要科學(xué)的小數(shù)據(jù)分析方法促進(jìn)數(shù)據(jù)精準(zhǔn)率的提升。
基于WEKA樸素貝葉斯分類器的10折交叉驗(yàn)證分析該數(shù)據(jù)集,還可得到如下的混淆矩陣:
可以看出主對(duì)角線上的樣本總計(jì)172例,錯(cuò)誤的肯定得到的誤報(bào)數(shù)為24例,錯(cuò)誤的否定得到的誤報(bào)數(shù)為23例。此外,基于WEKA的數(shù)據(jù)集分析還可得到準(zhǔn)確率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲線、PR曲線等評(píng)價(jià)指標(biāo)參數(shù),能夠?qū)δP托ЧM(jìn)行科學(xué)評(píng)價(jià),為后續(xù)算法改進(jìn)提供思路。
運(yùn)用WEKA雖然可以方便地獲取數(shù)據(jù)集分析的效果,但在特征參數(shù)選取與分類上往往存在矛盾。雖然通過(guò)數(shù)據(jù)預(yù)處理,可以一定程度上減少一些無(wú)用特征,比如序號(hào)、姓名等,但是一些特征與最終分類的權(quán)重往往不能均分,比如2014—2019年的收入。顯然2019年的收入權(quán)重更大,但也不是說(shuō)2014—2018年的收入沒有多少用。若收入屬于平穩(wěn)增長(zhǎng),則說(shuō)明其返貧的概率要小得多。此外,“民族”特征屬性對(duì)最終分類顯然沒有因果關(guān)系,但卻又有一定的相關(guān)性,所以應(yīng)當(dāng)弱化其對(duì)最終分類的權(quán)重?;诖吮疚倪\(yùn)用Python語(yǔ)言,以樸素貝葉斯分類公式(3)作為指導(dǎo)設(shè)計(jì)分類程序。
為了驗(yàn)證算法的有效性,我校5名駐村工作人員隨機(jī)調(diào)查各抽取1戶數(shù)據(jù)形成測(cè)試集,如表6所示。
表6 樸素貝葉斯分類器測(cè)試樣本表Tab.6 Reasoning sample table of Naive Bayes Classifier
由于表6中序號(hào)、戶名兩列特征對(duì)最終推理結(jié)果分類不會(huì)產(chǎn)生任何貢獻(xiàn),導(dǎo)致程序的運(yùn)行分類結(jié)果為:
測(cè)試 1 是 監(jiān)測(cè)戶
測(cè)試 2 是 監(jiān)測(cè)戶
測(cè)試 3 是 監(jiān)測(cè)戶
測(cè)試 4 是 監(jiān)測(cè)戶
測(cè)試 5 是 監(jiān)測(cè)戶
正確率: 0.4
顯然可以看出這是一個(gè)錯(cuò)誤的分類。這是由于第一列和第二列特征的條件概率計(jì)算值為0造成的分類錯(cuò)誤。為了消除這種分類錯(cuò)誤,可以改進(jìn)公式(3)如下:
(4)
公式(4)中aj的作用在于屏蔽、開啟、強(qiáng)化或弱化特征系列對(duì)分類結(jié)果造成的影響。若aj=0,則該特征對(duì)應(yīng)概率為1,即表示屏蔽了該列特征對(duì)推理結(jié)果的影響;若aj=1,則該特征對(duì)應(yīng)概率不變,既沒有被強(qiáng)化,也沒有被弱化,以本征的方式開啟了樸素貝葉斯的推理運(yùn)算;若0
為了消除序號(hào)、戶名2列特征對(duì)最終推理的影響,代入aj數(shù)列,即a=[0,0,1,1,1,1,1,1,1,1,1,1,1],然后再運(yùn)行程序。所得結(jié)果與表6的人工統(tǒng)計(jì)結(jié)果存在1項(xiàng)偏差。主要是“測(cè)試2”的人工統(tǒng)計(jì)結(jié)果為“監(jiān)測(cè)戶”,而推理識(shí)別的結(jié)果為“脫貧戶”,使得正確率為0.8。代入aj數(shù)列,屏蔽序號(hào)、戶名可以得到程序運(yùn)行的最終分類結(jié)果為:
測(cè)試1是未脫貧戶
測(cè)試 2是脫貧戶
測(cè)試 3是脫貧戶
測(cè)試 4是監(jiān)測(cè)戶
測(cè)試 5是未脫貧戶
正確率: 0.8
事實(shí)上監(jiān)測(cè)戶本來(lái)就被歸納為脫貧戶,由于兩者存在細(xì)微的數(shù)據(jù)差別,很難獲得正確的分類。駐村工作人員往往通過(guò)到戶走訪,根據(jù)自身的感覺最終劃分分類。由于測(cè)試集數(shù)據(jù)過(guò)少,識(shí)別正確率的實(shí)際值,可以通過(guò)增加測(cè)試數(shù)量獲得。最科學(xué)的方法就是從訓(xùn)練集中隨機(jī)抽取1/3的數(shù)據(jù)進(jìn)行10次交叉驗(yàn)證[16]。也就是每次隨機(jī)抽取訓(xùn)練集中的71條數(shù)據(jù)作為測(cè)試數(shù)據(jù)代入推理。同時(shí)位于最后一列,即2019年收入的權(quán)重相對(duì)較高,為了強(qiáng)化其作用,設(shè)定系數(shù)為0.8,即把a(bǔ)j數(shù)列設(shè)定為a=[0,0,1,1,1,1,1,1,1,1,1,1,0.8],得到了交叉驗(yàn)證準(zhǔn)確率統(tǒng)計(jì)表(表7)。
表7 交叉驗(yàn)證準(zhǔn)確率Tab.7 Cross validation accuracy
其算術(shù)平均準(zhǔn)確率為0.893,這是一個(gè)相對(duì)較好的統(tǒng)計(jì)數(shù)據(jù),表明該方法在脫貧攻堅(jiān)小數(shù)據(jù)分析中性能優(yōu)越。
當(dāng)然這種方法適用于在特定區(qū)域、特定時(shí)間段的數(shù)據(jù)分析。因?yàn)榈貐^(qū)收入水平、民風(fēng)、民情、自然資源等存在差異,且認(rèn)定標(biāo)準(zhǔn)會(huì)隨時(shí)間變化,駐村工作人員統(tǒng)計(jì)標(biāo)準(zhǔn)不一,所以訓(xùn)練集并不能總是一成不變,應(yīng)當(dāng)使用最新數(shù)據(jù)更新訓(xùn)練集確保正確識(shí)別率。
在國(guó)家的貧困治理工作中,實(shí)現(xiàn)精準(zhǔn)幫扶始終是核心與關(guān)鍵。隨著大數(shù)據(jù)的火熱,小數(shù)據(jù)也以其獨(dú)特的魅力讓更多的學(xué)者注意到它。小數(shù)據(jù)側(cè)重個(gè)體、決定、精準(zhǔn)、因果的特性為精準(zhǔn)幫扶工作開創(chuàng)了新路徑。它針對(duì)個(gè)體,能夠從根源上提高扶貧的“精準(zhǔn)”度,在當(dāng)前扶貧攻堅(jiān)的關(guān)鍵時(shí)期,具有幫助扶貧工作者作出決策、預(yù)防“大水漫灌”的風(fēng)險(xiǎn)、測(cè)試幫扶成效、降低返貧風(fēng)險(xiǎn)的科學(xué)價(jià)值。
本課題組常年駐村扶貧,深刻體會(huì)到通過(guò)采集、整理獲取小數(shù)據(jù)精準(zhǔn)樣本的重要性。本文致力于構(gòu)建脫貧攻堅(jiān)小數(shù)據(jù)理論體系,應(yīng)用機(jī)器學(xué)習(xí)、數(shù)據(jù)理論中的推理方法和相關(guān)性分析方法,對(duì)扶貧工作中的數(shù)據(jù)進(jìn)行分析驗(yàn)證,提出基于樸素貝葉斯的小數(shù)據(jù)分析方法。通過(guò)反復(fù)實(shí)踐,證明該方法計(jì)算簡(jiǎn)便,能夠得出扶貧成效的準(zhǔn)確率,具有推廣使用的價(jià)值。