NCA降維和貝葉斯優(yōu)化調(diào)參對(duì)分類模型的改進(jìn)

2019-08-14 11:41:20王衛(wèi)星

計(jì)算機(jī)應(yīng)用與軟件 2019年8期

李斌王衛(wèi)星

(河南科技大學(xué)應(yīng)用工程學(xué)院現(xiàn)代教育技術(shù)中心河南三門峽 472000)

0 引言

目前對(duì)高校貧困生進(jìn)行判定的方法大都利用數(shù)據(jù)挖掘技術(shù)定量和定性結(jié)合。文獻(xiàn)[1]通過能夠面向多值屬性的關(guān)聯(lián)規(guī)則Apriori算法的改進(jìn)提高了數(shù)據(jù)挖掘效率，為高校貧困生認(rèn)定工作提供了有利依據(jù)；文獻(xiàn)[2-4]對(duì)數(shù)據(jù)預(yù)處理并使用C4.5算法，將知識(shí)表示成樹的形式，采用錯(cuò)誤預(yù)測(cè)率進(jìn)行修剪，分別歸納出決策樹，分析并選出其中較優(yōu)結(jié)果，原理簡單且計(jì)算快速準(zhǔn)確；文獻(xiàn)[5]基于加權(quán)約束的決策樹認(rèn)定方法提高了貧困生認(rèn)定效率；文獻(xiàn)[6]結(jié)合Logistic回歸、Native Bayes和k近鄰三種分類預(yù)測(cè)模型綜合比較認(rèn)為k近鄰模型能更好地判別出學(xué)生是否是貧困生；文獻(xiàn)[7]在相同的數(shù)據(jù)集中證明隨機(jī)森林算法分類正確率較高。

上述學(xué)者針對(duì)貧困生判定的研究主要側(cè)重于個(gè)別分類算法，對(duì)算法的計(jì)算成本、性能優(yōu)化缺乏深入分析，評(píng)價(jià)方式比較單一化。本文認(rèn)為高校貧困生識(shí)別可以在做好反復(fù)訓(xùn)練和評(píng)估模型的基礎(chǔ)上，集成多個(gè)分類算法，運(yùn)用NCA對(duì)特征參數(shù)降維以提升計(jì)算性能；引入成本懲罰函數(shù)并利用貝葉斯超參數(shù)調(diào)優(yōu)對(duì)分類模型進(jìn)行進(jìn)一步優(yōu)化，以提升分類模型的預(yù)測(cè)準(zhǔn)確率。

1 分類算法的對(duì)比選擇

分類算法旨在構(gòu)建分類預(yù)測(cè)的模型，是人工智能、模式識(shí)別和數(shù)據(jù)挖掘領(lǐng)域中重要的數(shù)據(jù)處理方法[8]。

1.1 分類算法簡述

1.1.1決策樹CART

CART(Classification and Regression tree)分類回歸樹使用基尼指數(shù)(Gini)，采用二元切分法選擇特征進(jìn)行訓(xùn)練數(shù)據(jù)切割：

決策樹算法的優(yōu)點(diǎn)是計(jì)算復(fù)雜度不高，輸出結(jié)果易于理解，對(duì)中間值的缺失不敏感，缺點(diǎn)是易會(huì)產(chǎn)生過擬合問題[9-10]。

1.1.2非線性SVM

SVM支持向量機(jī)是將低維空間的輸入數(shù)據(jù)投放到一個(gè)更高維的特征空間，用線性決策邊界分割在低維空間難以區(qū)分的正例和負(fù)例。在非線性問題上，用內(nèi)積φ(xi)·φ(xj)代替最優(yōu)分類面中的點(diǎn)積。

最大化目標(biāo)函數(shù)為：

約束條件：

相應(yīng)的分類器函數(shù)轉(zhuǎn)化為：

SVM的優(yōu)點(diǎn)是泛化錯(cuò)誤率低，計(jì)算開銷不大，結(jié)果易解釋;缺點(diǎn)是對(duì)主要適用于處理二分類問題，參數(shù)調(diào)節(jié)和核函數(shù)的選擇敏感，但經(jīng)過構(gòu)造可以將多分類問題轉(zhuǎn)化為二分類問題[11]。

1.1.3k-最近鄰算法

k-最近鄰給每個(gè)屬性相等的權(quán)重進(jìn)行基于距離的鄰近比較。常用的鄰近距離是歐幾里德距離，兩個(gè)點(diǎn)或樣本X1=(x11,x12,…,x1n)和X2=(x21,x22,…,x2n)的歐幾里德距離為：

(6)

k-最近鄰分類算法的優(yōu)點(diǎn)是無數(shù)據(jù)輸入假定、噪聲數(shù)據(jù)影響不大、精度略高;缺點(diǎn)是計(jì)算空間復(fù)雜度高。

1.1.4貝葉斯方法

貝葉斯是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類方法，在數(shù)據(jù)集D中令A(yù)1,A2,…,A|A|為用離散值表示的屬性集合，令C為具有|C|個(gè)不同值的類別屬性，假設(shè)所有屬性都是條件獨(dú)立于類別C=cj，數(shù)學(xué)表示為：

P=(A1=a1|A2=a2,…,A|A|=a|A|,C=cj)=P(A1=ai|C=cj)

從訓(xùn)練數(shù)據(jù)中可以直接得到先驗(yàn)概率P(C=cj)和條件概率P(A1=ai)，貝葉斯的分類公式為：

貝葉斯法的優(yōu)點(diǎn)即使數(shù)據(jù)較少也可高效處理多類別問題;缺點(diǎn)是對(duì)于數(shù)據(jù)輸入假設(shè)條件較為敏感。

1.1.5BP神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是由一個(gè)輸入層、若干個(gè)隱含層和一個(gè)輸出層組成的多層網(wǎng)絡(luò)，各層之間的連接方式通過權(quán)重值調(diào)節(jié)。若模型確定訓(xùn)練誤差的理想輸出是tk，實(shí)際輸出是zk，c代表輸出向量的長度，ω代表網(wǎng)絡(luò)的所有權(quán)值，η是學(xué)習(xí)速率，那么總誤差表示為：

(8)

基于梯度下降的誤差反向傳播算法BP神經(jīng)網(wǎng)絡(luò)是沿著減小誤差的方向來調(diào)整權(quán)值：

BP算法對(duì)網(wǎng)絡(luò)拓?fù)浼俺跏紮?quán)重敏感，泛化性能往往不能得到保證，容易陷入局部最小[12-14]。

綜上所述，將幾種典型的機(jī)器分類算法的對(duì)比總結(jié)如表1所示。

表1 幾種分類算法分析比較

續(xù)表1

1.2 分類算法的選擇

在機(jī)器學(xué)習(xí)領(lǐng)域里，一方面高度靈活的模型由于擬合了噪聲數(shù)據(jù)的細(xì)微變化易造成過擬合，另一方面簡單的模型可能又需有更多的假設(shè)條件。在模型速度、準(zhǔn)確性和復(fù)雜性之間的權(quán)衡本已不易，算法的選擇還取決于要處理的數(shù)據(jù)的大小和類型以及如何運(yùn)用從數(shù)據(jù)中獲得的洞察力，因此不存在一種萬能的算法可以完美解決所有問題。

在對(duì)高校貧困生預(yù)測(cè)判定建模時(shí)，需要做好反復(fù)訓(xùn)練和評(píng)估模型的準(zhǔn)備。既可運(yùn)行所有算法進(jìn)行比較，也可從特定分類任務(wù)的經(jīng)驗(yàn)最佳擬合算法開始。對(duì)每個(gè)訓(xùn)練的分類器，要保留驗(yàn)證數(shù)據(jù)或反復(fù)使用交叉驗(yàn)證對(duì)精確度進(jìn)行評(píng)估，最終嘗試集成多類分類算法克服訓(xùn)練數(shù)據(jù)的過擬合。

2 算法模型的改進(jìn)優(yōu)化

分類模型的改進(jìn)優(yōu)化意味著進(jìn)一步提高其準(zhǔn)確性和預(yù)測(cè)能力，避免模型無法區(qū)分?jǐn)?shù)據(jù)和噪聲時(shí)過擬合。本文在對(duì)分類模型經(jīng)反復(fù)評(píng)估初步確定后，對(duì)模型的改進(jìn)優(yōu)化手段主要采取鄰域向量分析NCA特征降維和貝葉斯超參數(shù)調(diào)優(yōu)。

2.1 NCA特征降維

特征降維是向模型添加變量或移除不能改進(jìn)模型性能的變量，以在數(shù)據(jù)建模中提供最佳預(yù)測(cè)能力[15]。特征降維不但可以降低計(jì)算成本和存儲(chǔ)要求，還能使預(yù)測(cè)結(jié)果更加精確。

NCA是一種距離測(cè)度學(xué)習(xí)算法。該算法隨機(jī)選擇近鄰，通過優(yōu)化留一法(Leave-one-out, LOO)的交叉檢驗(yàn)結(jié)果來求得馬氏距離中的變換矩陣。在這個(gè)過程中完成降維，最后在低維空間對(duì)數(shù)據(jù)完成分類。

數(shù)據(jù)集X={x1，x2，…，xn}在RD空間內(nèi)分別具有類標(biāo)簽c1，c2，…，cn，限定馬氏距離變換矩陣Q=ATA，兩個(gè)樣本點(diǎn)之間的馬氏距離定義為：

i，j=1，2，…，n

(10)

樣本點(diǎn)xi隨機(jī)選擇一個(gè)xj近鄰并繼承其類標(biāo)簽cj的概率Pij，概率Pij在變化空間中使用歐式距離定義如下：

因?yàn)槊總€(gè)數(shù)據(jù)點(diǎn)都可以選擇為近鄰，因此輸入數(shù)據(jù)可以繼承所有的類標(biāo)簽，樣本點(diǎn)xi正確分類的概率為：

(12)

NCA搜索變換矩陣A，目標(biāo)函數(shù)可以理解為要使得正確分類的點(diǎn)數(shù)最大化期望，也就等同于最小化類間距離：

(13)

這個(gè)無約束優(yōu)化問題通過共軛梯度法或隨機(jī)梯度法求出A，使用微分的變換矩陣：

式中：xij=xi-xj,當(dāng)A是d×D的非方陣時(shí)，經(jīng)過NCA距離測(cè)度學(xué)習(xí)可以將樣本降到RD空間[16-17]。

實(shí)際應(yīng)用中，由于共軛梯度法通過多次迭代才能得到目標(biāo)函數(shù)最優(yōu)解，占用內(nèi)存的同時(shí)耗時(shí)較大，因此使用等價(jià)于共軛梯度的擬牛頓法基礎(chǔ)上的L-BFGS(Limited-memory BFGS)算法進(jìn)行計(jì)算，其中BFGS是四個(gè)提出這種擬牛頓法的四個(gè)人名的首字母。L-BFGS算法的核心是不再存儲(chǔ)完整的矩陣，而是存儲(chǔ)計(jì)算過程中的向量序列，且只利用最新的向量序列，以大幅降低運(yùn)算成本。

2.2 超參數(shù)調(diào)優(yōu)

識(shí)別能提供最佳模型的參數(shù)集的過程可稱為超參數(shù)調(diào)優(yōu)。兩個(gè)常用的參數(shù)調(diào)優(yōu)方法是網(wǎng)格搜索和貝葉斯優(yōu)化。雖然網(wǎng)格搜索能徹底搜索參數(shù)值組合的有限集，但耗時(shí)太長并易遇到維度災(zāi)難。

貝葉斯參數(shù)優(yōu)化充分利用被測(cè)試點(diǎn)忽略的前一個(gè)點(diǎn)的信息[18]。它根據(jù)先驗(yàn)分布假設(shè)一個(gè)搜集函數(shù)，使用每次新采樣點(diǎn)去測(cè)試目標(biāo)函數(shù)的信息來更新目標(biāo)函數(shù)的先驗(yàn)分布。然后測(cè)試由后驗(yàn)分布給出的全局最值最可能出現(xiàn)的位置點(diǎn)。貝葉斯優(yōu)化雖需執(zhí)行更多的迭代計(jì)算以確定下一個(gè)采樣點(diǎn)，但可以較少的評(píng)估就找到復(fù)雜非凸函數(shù)的最小值，主要分三個(gè)步驟：

(1) 選擇一個(gè)先驗(yàn)函數(shù)來表達(dá)關(guān)于被優(yōu)化函數(shù)的假設(shè)。本文選擇使用的高斯過程是一個(gè)隨機(jī)變量的集合，任意有限個(gè)隨機(jī)變量都滿足一個(gè)聯(lián)合高斯分布[9]。若X表示訓(xùn)練集{x1,x2,…,xt}，f表示未知函數(shù)值集合{f(x1),f(x2),…,f(xt)}，Σ表示k(x,x′)構(gòu)成的協(xié)方差矩陣Ⅱ，θ表示超參數(shù)，當(dāng)存在觀測(cè)噪聲且假設(shè)噪聲ε滿足獨(dú)立同分布的高斯分布p(ε)=N(0,σ2)，可以得到邊際似然分布為：

(15)

式中：y表示觀測(cè)值集合{y1,y2,…,yt}。

然后選擇采集函數(shù)用來從后驗(yàn)?zāi)Ｐ蜆?gòu)造一個(gè)效用函數(shù)，來確定下一個(gè)采樣點(diǎn)[20-22]。采集函數(shù)可以在具有低建模目標(biāo)函數(shù)的點(diǎn)上對(duì)采樣進(jìn)行平衡，并對(duì)尚未建模區(qū)域進(jìn)行搜索。

貝葉斯超參數(shù)調(diào)優(yōu)的算法步驟如算法1所示。

算法1貝葉斯優(yōu)化算法

Bayesian optimization：選取n個(gè)采樣點(diǎn)作為先驗(yàn)，假設(shè)它們服從高斯分布

1： forn=1，2，…,n，do

2：根據(jù)最大化采集函數(shù)α選取下一個(gè)采集點(diǎn)xn+1

3：查詢目標(biāo)函數(shù)以獲得yn+1

4：整合數(shù)據(jù)集Dn+1={Dn,(xn+1,yn+1)}

5：更新概率模型

6： end for

為提高找到最優(yōu)參數(shù)值的機(jī)率，并使超參數(shù)調(diào)優(yōu)更加高效，使用MATLAB中的貝葉斯優(yōu)化工具執(zhí)行超參數(shù)調(diào)優(yōu)，同時(shí)引入成本函數(shù)對(duì)錯(cuò)誤分類進(jìn)行懲罰。

3 應(yīng)用實(shí)證

高校貧困學(xué)生的貧困成因多集中在家庭經(jīng)濟(jì)情況、生活水平、家庭勞動(dòng)力狀況、在校消費(fèi)能力水平、消費(fèi)習(xí)慣、學(xué)業(yè)水平、學(xué)習(xí)主動(dòng)力等方面[23]。

本文通過某高校2016-2017年度校園應(yīng)用服務(wù)中積累的數(shù)據(jù)。首先選擇訓(xùn)練數(shù)據(jù)進(jìn)行分類學(xué)習(xí)，反復(fù)訓(xùn)練和評(píng)估分類模型后選擇合適的分類算法。然后采用NCA特征降維和貝葉斯參數(shù)調(diào)優(yōu)對(duì)模型進(jìn)行優(yōu)化，對(duì)某高校的貧困生的精準(zhǔn)判定實(shí)現(xiàn)預(yù)測(cè)和評(píng)判。

3.1 選擇訓(xùn)練數(shù)據(jù)和算法驗(yàn)證

樣本數(shù)據(jù)會(huì)以各種形式和大小出現(xiàn)，如高校貧困生的真實(shí)數(shù)據(jù)集可能較混亂、不完整且采用格式各異。對(duì)高校各個(gè)業(yè)務(wù)子系統(tǒng)中得到的原始數(shù)據(jù)進(jìn)行預(yù)處理需采用專業(yè)數(shù)據(jù)處理工具和不同的預(yù)處理方法。

將從高校各個(gè)應(yīng)用系統(tǒng)中抽取出的數(shù)據(jù)進(jìn)行標(biāo)簽標(biāo)記、清理無效數(shù)據(jù)、分類匯總后得到完整的樣本數(shù)據(jù)共9 909組。這些組樣本數(shù)據(jù)初步特征值共有21種，其中部分特征來源于學(xué)生調(diào)查問卷等，并對(duì)部分?jǐn)?shù)據(jù)進(jìn)行了離散化處理，如表2所示。

表2 樣本特征值列表

續(xù)表2

在MATLAB中將經(jīng)過初步清噪脫敏后的數(shù)據(jù)導(dǎo)入，對(duì)數(shù)據(jù)樣本采用k折交叉驗(yàn)證，k值取5，每次以k-1份作為訓(xùn)練集，1份作為驗(yàn)證集。得到驗(yàn)證集性能后，將5次結(jié)果平均作為模型的性能指標(biāo)，以最大化使用模型訓(xùn)練的數(shù)據(jù)量，得到泛化更好的模型。MATLAB中多個(gè)分類器的性能比較和分類初始結(jié)果如圖1所示。

圖1 多個(gè)分類算法的初始比較圖

從圖1中可以看出，訓(xùn)練樣本明顯地被分為common、poorer和poorest三類灰度程度不同的顏色，其中的“×”為噪聲數(shù)據(jù)。實(shí)證對(duì)比算法模型結(jié)果，高校貧困生預(yù)測(cè)最初顯示二次支持向量機(jī)(SVM)表現(xiàn)良好，然后是線性支持向量機(jī)和決策樹算法。不同分類器的時(shí)間消耗和準(zhǔn)確率性能比較如表3所示。

表3 不同分類算法的初始性能比較

3.2 運(yùn)用NCA進(jìn)行特征降維

在處理高校貧困生涉及的數(shù)據(jù)集包含大量特征和有限的觀察值時(shí)，運(yùn)用NCA特征選擇技術(shù)降維，具體步驟如下：

Step1將訓(xùn)練數(shù)據(jù)分成5份，使用CVpartition進(jìn)行交叉驗(yàn)證，賦值λ并創(chuàng)建一個(gè)數(shù)組陣列來存儲(chǔ)損失函數(shù)值。

Step2使用每部分中的訓(xùn)練集，為每個(gè)值訓(xùn)練NCA模型。使用NCA模型計(jì)算每部分中相應(yīng)測(cè)試集的分類損失，記錄損失值。

Step3重復(fù)所有部分訓(xùn)練值和λ值，計(jì)算得出每個(gè)λ值的每個(gè)部分的平均損失。繪制平均損失值與λ值之間的關(guān)系，找到與最小平均損失對(duì)應(yīng)的最佳λ值。

Step4使用最佳λ值擬合NCA模型，使用計(jì)算效率更好的L-BFGS算法去求解目標(biāo)函數(shù)，標(biāo)準(zhǔn)化預(yù)測(cè)值繪制特征權(quán)重。

圖2顯示了在MATLAB中使用鄰域分量分析NCA識(shí)別的特征權(quán)重結(jié)果，圓圈表示對(duì)應(yīng)特征的特征權(quán)重?？梢钥闯鎏卣髦笜?biāo)1(num_consump)、2(sum_consump)、3(var_consump)、9(income_family)、18(score_mutual)、12(cost_living)、6(weight_average_core)、8(elecNum)、14(indebt)、17(disease_family)、19(tuition_defer)的特征權(quán)重值高于相對(duì)閾值0.374 6。利用MATLAB中自帶的NCA降維揭示了在貧困生特征中大約一半的特征對(duì)模型沒有重要作用。因此，我們可以減少特征數(shù)量，從21個(gè)減至11個(gè)。

圖2 使用鄰域分量分析NCA識(shí)別最相關(guān)的特征結(jié)果

按照NCA降維后的特征選擇，重復(fù)前述分類算法，比較不同算法降維后的各項(xiàng)性能參數(shù)如表4所示。

表4 不同分類算法NCA降維后性能比較

從表4的幾種分類算法的性能變化值可以明顯看出，NCA降維后，整體預(yù)測(cè)速度和計(jì)算時(shí)間變化明顯，特別是線性判別算法因?yàn)樘卣鲾?shù)的大幅減少而性能大幅提升，決策樹分類算法表現(xiàn)優(yōu)異。

使用單獨(dú)的分類算法往往會(huì)過度擬合訓(xùn)練數(shù)據(jù)，為了克服這種傾向，可以嘗試集成多個(gè)分類算法，典型的比如Boosted Trees和Bagged Trees。測(cè)試表明這兩種集成分類算法在降維后的準(zhǔn)確率仍可以達(dá)到99.3%。從上述算法對(duì)比中也可以看出，某些算法初始表現(xiàn)很好，改進(jìn)后表現(xiàn)一般，有的反之。所以可以后退到特征提取階段去尋找其他特征并降維，在機(jī)器學(xué)習(xí)工作流程的不同階段之間反復(fù)實(shí)驗(yàn)和對(duì)比，尋找最佳模型。

3.3 引入成本函數(shù)的超參數(shù)調(diào)優(yōu)

在高校貧困生預(yù)測(cè)分類模型中，單單根據(jù)總體精確度分析性能很容易產(chǎn)生誤導(dǎo)，比如未能準(zhǔn)確預(yù)測(cè)實(shí)際貧困相比錯(cuò)誤地將正常情況學(xué)生誤判為貧困要造成更大的不公平。圖3所示的初步模型分類結(jié)果混淆矩陣，將3%的貧困生誤報(bào)為正常學(xué)生，而將8%的普通學(xué)生分類為貧困和極度貧困。這將造成部分學(xué)生的評(píng)判結(jié)果失真，不需補(bǔ)助的學(xué)生得到補(bǔ)助，而急需補(bǔ)助的學(xué)生卻失去應(yīng)有的補(bǔ)助。

圖3 初步模型的混淆矩陣

為了改進(jìn)分類器，引入成本函數(shù)對(duì)誤分類進(jìn)行懲罰，補(bǔ)償數(shù)據(jù)中較少的“異?！庇^察，并使分類器偏向于較少的錯(cuò)誤分類異常噪聲，將較高的錯(cuò)誤分類成本分配給“異?！鳖?。同時(shí)利用貝葉斯優(yōu)化方法對(duì)模型參數(shù)進(jìn)行超參數(shù)調(diào)優(yōu)。由于Trees的表現(xiàn)優(yōu)于SVM，本文以生成樹為效果目標(biāo)，步驟如下：

Step1因?yàn)槭莄ommon、poorer和poorest多分類，首先使用AdaBoostM1和Trees模型5倍交叉驗(yàn)證分類，指定每個(gè)Trees最多被分割5次。然后對(duì)“common”的誤分類分配一個(gè)高成本值20以進(jìn)行懲罰，即引入置信度的AdaBoostM2模型進(jìn)行對(duì)比。

Step2在MATLAB中選用Bayseopt工具箱[24]，使用fitcensemble找到使交叉驗(yàn)證損失最小化5倍的超參數(shù)，設(shè)置隨機(jī)種子值并使用“expected-improvement-plus”采集函數(shù)確定下一個(gè)要評(píng)估的點(diǎn)，并在置信區(qū)域內(nèi)進(jìn)行探索。為了重復(fù)并可視化，將它們傳遞到OptimizeHyperparameters名稱-值對(duì)中，需要優(yōu)化的參數(shù)默認(rèn)為KernelScale和BoxConstraint。

Step3傳遞參數(shù)作為優(yōu)化超參數(shù)的值后命令行中會(huì)出現(xiàn)迭代顯示，超參數(shù)調(diào)優(yōu)結(jié)果如圖4所示，目標(biāo)函數(shù)為回歸的log(1+交叉驗(yàn)證損失)和分類的誤分類率。進(jìn)行迭代以優(yōu)化超參數(shù)、最小化分類器的交叉驗(yàn)證損失，使用經(jīng)過優(yōu)化超參數(shù)訓(xùn)練的模型預(yù)測(cè)驗(yàn)證集的類標(biāo)簽，可以看出經(jīng)過迭代后泛化能力擬合。圖4中的稍小圓點(diǎn)表明目標(biāo)點(diǎn)，稍大圓點(diǎn)標(biāo)明采集函數(shù)值最大的位置并以此作為下一個(gè)采集點(diǎn)。最佳估計(jì)可行點(diǎn)是根據(jù)最新模型估計(jì)均值最低的采集點(diǎn)，最佳觀測(cè)可行點(diǎn)是目標(biāo)函數(shù)評(píng)價(jià)返回值最低的采集點(diǎn)。

圖4 超參數(shù)調(diào)優(yōu)迭代過程和結(jié)果

表5說明了采用集成分類AdaBoostM2經(jīng)過貝葉斯超參數(shù)調(diào)優(yōu)后最佳估計(jì)可行點(diǎn)和最佳觀測(cè)可行點(diǎn)的比較結(jié)果?？梢钥闯鰷?zhǔn)確率由93.45%提升到了97.49%，函數(shù)計(jì)算時(shí)間成本約降低了14 s，優(yōu)化效果明顯。

表5 超參數(shù)調(diào)優(yōu)后最佳估計(jì)可行點(diǎn)和最佳觀測(cè)可行點(diǎn)比較

Step4利用MATLAB中的混淆矩陣生成函數(shù)Confusion Matrix和熱圖生成函數(shù)Heatmap將經(jīng)過訓(xùn)練的模型預(yù)測(cè)驗(yàn)證集的類標(biāo)簽，生成優(yōu)化后的多分類混淆矩陣并可視化，如圖5所示。

圖5 模型優(yōu)化后的多分類標(biāo)簽混淆矩陣

從優(yōu)化后的多分類標(biāo)簽混淆矩陣可以看出，經(jīng)過NCA降維后引入成本函數(shù)懲罰并用貝葉斯超參數(shù)優(yōu)化后的模型將初步模型8%的普通學(xué)生分類為貧困和極度貧困誤報(bào)率減少到5%，模型的準(zhǔn)確率明顯提升，達(dá)到了優(yōu)化效果。

4 結(jié) 語

高校貧困生預(yù)測(cè)判定建模運(yùn)行了多種算法訓(xùn)練分類器，單獨(dú)的分類算法會(huì)過度擬合訓(xùn)練數(shù)據(jù)，而且沒有一種算法是萬能最優(yōu)，反復(fù)訓(xùn)練試錯(cuò)才是選擇最佳算法的前提。對(duì)比算法模型結(jié)果，二次支持向量機(jī)(SVM)、線性支持向量機(jī)和決策樹算法表現(xiàn)略優(yōu)。使用NCA方法降維后，整體預(yù)測(cè)速度和計(jì)算時(shí)間變化明顯，決策樹分類算法表現(xiàn)優(yōu)異。集成分類算法Boosted Trees和Bagged是提升泛化能力的合理有效選擇。

在初始模型上保留驗(yàn)證數(shù)據(jù)，使用AdaBoostM1和Trees模型k折交叉驗(yàn)證反復(fù)評(píng)估，與引入成本函數(shù)權(quán)重值調(diào)整的AdaBoostM2模型經(jīng)貝葉斯超參數(shù)調(diào)優(yōu)后對(duì)比。高校貧困生預(yù)測(cè)判定AdaBoostM2模型的準(zhǔn)確率提升了近4%，計(jì)算時(shí)間成本降低了14 s，誤判率由初始的8%改進(jìn)到5%，說明優(yōu)化改進(jìn)后的算法模型的泛化能力得到了一定的改進(jìn)。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看