異質(zhì)集成學(xué)習(xí)器在鳶尾花卉分類中的應(yīng)用

2018-11-19 06:47:10吳嘉樂

中國設(shè)備工程 2018年20期

吳嘉樂

1 引言

分類模型的研究在機器學(xué)習(xí)中具有重要意義。而集成學(xué)習(xí)作為提高分類模型性能的方法也廣泛被使用。集成學(xué)習(xí)又分為同質(zhì)集成學(xué)習(xí)與異質(zhì)集成學(xué)習(xí)，目前在機器學(xué)習(xí)界，大多數(shù)采用同質(zhì)集成學(xué)習(xí)，包括一些主流的機器學(xué)習(xí)框架，如sklearn，都只實現(xiàn)了同質(zhì)集成學(xué)習(xí)。因此，對于異質(zhì)集成學(xué)習(xí)進(jìn)行探索就有了重要意義。研究依據(jù)具體的Iris鳶尾花卉識別實例，探究異質(zhì)集成學(xué)習(xí)的方法。

1.1 數(shù)據(jù)集特征

Iris是機器學(xué)習(xí)中一個常見的數(shù)據(jù)集，其用于鳶尾花卉分類，數(shù)據(jù)集共包含150個樣本，每個樣本包括花瓣長度、花瓣寬度、花萼長度、花萼寬度4個特征，樣本共具有3個花卉類別，分別為Iris Setosa（山鳶尾）、Iris Versicolour（雜色鳶尾），以及Iris Virginica（維吉尼亞鳶尾）。研究將根據(jù)該數(shù)據(jù)集，探究異質(zhì)集成學(xué)習(xí)的方法。

1.2 數(shù)據(jù)集預(yù)處理

我們的Iris數(shù)據(jù)集的預(yù)處理一共包含2個步驟，第一個步驟需要將Iris Setosa（山鳶尾）、Iris Versicolour（雜色鳶尾），以及Iris Virginica（維吉尼亞鳶尾）這3種類別的花卉映射成0、1和2共3個類別數(shù)字，映射后的數(shù)據(jù)才能參與模型的訓(xùn)練。另一方面，由于Iris數(shù)據(jù)集的前100個數(shù)據(jù)只包含0、1共2個類別的花卉，后50個數(shù)據(jù)全部為第2個類別的花卉。所以我們需要對150個數(shù)據(jù)進(jìn)行隨機打亂后才能進(jìn)行訓(xùn)練。

1.3 數(shù)據(jù)集劃分

為了模型的訓(xùn)練與模型的性能檢驗，我們需要把數(shù)據(jù)集分為訓(xùn)練集和測試集2個部分。對于我們的Iris數(shù)據(jù)集，一共具有150個樣本。我們隨機挑選出100個數(shù)據(jù)作為訓(xùn)練集，用于訓(xùn)練模型。剩下50個數(shù)據(jù)作為測試集，用于檢驗訓(xùn)練出的模型的性能好壞。

2 構(gòu)建分類模型

2.1 構(gòu)建kNN模型

（1）基本原理。kNN模型是機器學(xué)習(xí)中一種比較簡單的分類模型。在訓(xùn)練階段，模型通過將所有的訓(xùn)練集映射在一個特征空間內(nèi)。在預(yù)測階段，模型將所有待分類的樣本，通過計算與訓(xùn)練集的距離，挑選出最近的k個距離，在這k個訓(xùn)練集樣本中，通過簡單的投票原則，來決定待分類樣本的預(yù)測類別。

（2）在Iris數(shù)據(jù)集上應(yīng)用kNN模型。在我們的Iris數(shù)據(jù)集上，我們通過將訓(xùn)練集的100個樣本映射在一個四維特征空間內(nèi)來實現(xiàn)kNN模型的訓(xùn)練。在預(yù)測過程，我們計算測試集的50個樣本與訓(xùn)練集的100個樣本的距離，從中挑選出最近的k個距離，然后采用投票原則來確定測試集樣本的花卉種類。

（3）結(jié)果分析。我們通過sklearn中的kNN模型包，在Iris數(shù)據(jù)集上運用了kNN模型。通過改變不同的k取值，觀察在測試集上的準(zhǔn)確率。經(jīng)過測試，當(dāng)k= 2,3,4,5時，模型在測試集上的準(zhǔn)確率分別為86%，92%，88%，92%。當(dāng)k = 3或5時，在測試集上的準(zhǔn)確率達(dá)到最高92%。

（4） kNN模型的優(yōu)缺點分析。kNN模型的優(yōu)點在于模型比較簡單，結(jié)果也比較直觀。但是缺點是當(dāng)訓(xùn)練集樣本非常大時，由于要計算每個測試集樣本與整個訓(xùn)練集的距離，所以速度會明顯的降低。但是由于我們的樣本數(shù)目只有150個，因此采用kNN模型一方面計算速度很快，另一方面在測試集上能夠取得不錯的性能。

2.2 構(gòu)建邏輯回歸模型

（1）基本原理。邏輯回歸模型是機器學(xué)習(xí)中一種常見的分類模型，其主要運用在二分類中。在多分類問題中，可以運用ovr或者ovo等策略將多分類問題轉(zhuǎn)化為多個二分類問題來使用邏輯回歸。邏輯回歸的基本原理是采用sigmoid函數(shù)來作為我們的預(yù)測函數(shù)。在我們的鳶尾花卉分類問題中，sigmoid函數(shù)的輸出就是屬于每一類花卉的概率，范圍在[0，1]之間。邏輯回歸在訓(xùn)練的過程中，通過不斷的最小化交叉熵代價函數(shù)，來尋求一個合適的學(xué)習(xí)參數(shù)θ向量，來使模型在訓(xùn)練集上的誤差相對較小，同時在訓(xùn)練的過程中，通過加入一定的正則化項，來緩解模型的過擬合。

（2）假設(shè)函數(shù)。邏輯回歸采用sigmoid作為假設(shè)函數(shù)，如式2.1所示。假設(shè)函數(shù)的值域為[0,1]，對應(yīng)了事件發(fā)生的概率。其中z = θTxX，θ是模型需要學(xué)習(xí)的參數(shù)，X在該問題中對應(yīng)每個花卉樣本的特征向量。即z是每個花卉樣本所有特征的線性組合。

（3）交叉熵代價函數(shù)。為了衡量模型的性能，需要在訓(xùn)練的過程中引入代價函數(shù)。對于機器學(xué)習(xí)中的分類問題而言，最常用的代價函數(shù)是交叉熵代價函數(shù)，如式2.2所示。其中yi為樣本的真實分布，g(θ)為模型給出的預(yù)測值，即預(yù)測屬于每一種花卉的概率值。模型在訓(xùn)練的過程中通過梯度下降法，不斷的調(diào)整θ的值，來使模型在訓(xùn)練集上的代價函數(shù)不斷降低，不斷對模型進(jìn)行優(yōu)化。

（4）邏輯回歸的正則化。在訓(xùn)練的過程中，代價函數(shù)會隨著迭代次數(shù)的增加而不斷降低，最終穩(wěn)定在一個比較小的值。代價函數(shù)越小，說明對訓(xùn)練集擬合得越好，但是會帶來機器學(xué)習(xí)中一個常見的問題，即模型陷入過擬合。雖然此時的模型能夠很好的擬合訓(xùn)練集，但是對于未知數(shù)據(jù)的泛化能力會比較低，也就是說，模型在測試集上的準(zhǔn)確率會比較低。對于機器學(xué)習(xí)中出現(xiàn)的過擬合問題，不可能完全解決，但可以在一定程度上緩解。緩解過擬合的常用手段有2種。一種是增加訓(xùn)練集樣本的數(shù)量，當(dāng)訓(xùn)練集樣本的數(shù)量增加時，模型可在一定程度上緩解過擬合，但是通常在實際情況下，我們很難去獲取到更多的樣本，或者說是獲取更多樣本的成本太高。所以我們一般采用第二種手段，即正則化，來緩解模型的過擬合。正則化的基本思想是通過在代價函數(shù)的基礎(chǔ)上，對學(xué)習(xí)到的參數(shù)向量進(jìn)行一定的限制，使學(xué)習(xí)到的參數(shù)向量不會很大，從而能得到一個相對比較簡單的機器學(xué)習(xí)模型，提高了模型的泛化能力。常用的正則化手段有L1正則化和L2正則化，L1正則化是在代價函數(shù)的基礎(chǔ)上，對學(xué)習(xí)參數(shù)進(jìn)行L1范數(shù)限制，L2正則化則是對學(xué)習(xí)參數(shù)進(jìn)行L2范數(shù)限制。L1正則化相對于L2正則化更容易產(chǎn)生稀疏解，偏向于得到一個更簡單的模型。

（5）在Iris數(shù)據(jù)集上應(yīng)用邏輯回歸模型。在我們的Iris鳶尾花分類問題中，由于花卉種類共有3類。因此我們無法直接應(yīng)用邏輯回歸。但是我們可以采用ovr手段，將1個三分類問題轉(zhuǎn)化為3個二分類問題。也就是分別把每種花卉作為一類，把剩下的2種花卉作為另外一類。在這種劃分下，在每2個類別之間訓(xùn)練一個二分類器，也就得到了相應(yīng)的3個判別函數(shù)。在預(yù)測階段，我們將未知類別的花卉特征分別代入3個分類器中，然后取最大概率分類器的類別，作為未知花卉的類別。同時，在訓(xùn)練的過程中，我們加入了L2正則化項，來緩解模型的過擬合問題。加入了正則化項的代價函數(shù)，如式（3）所示。

（6）結(jié)果分析。在經(jīng)過若干時間的訓(xùn)練后，模型最終在測試集上達(dá)到了80%的準(zhǔn)確率，這個準(zhǔn)確率相對于kNN模型來講，性能相差很大。其主要原因在于一般邏輯回歸模型通常適用于二分類，在我們采用ovr手段把三分類問題轉(zhuǎn)換為多個二分類問題的同時，會引入機器學(xué)習(xí)中另外一個比較常見的“偏斜類”問題，即不同類別的樣本數(shù)目相差比較大，會使訓(xùn)練出的模型性能不佳。

2.3 構(gòu)建SVM模型

（1） SVM模型基本原理。支持向量機（support vector machine，SVM），它最初于20世紀(jì)90年代由Vapnik提出，是機器學(xué)習(xí)中一種十分強大的分類模型。與數(shù)據(jù)挖掘中的其他分類模型相比，具有較好的泛化能力。而且針對非線性可分?jǐn)?shù)據(jù)，擁有一套先進(jìn)的理論方法來處理。由于其優(yōu)秀的分類性能，在機器學(xué)習(xí)領(lǐng)域成為了研究的熱點。在學(xué)術(shù)界，不斷有新的理論被提出。近年來，與SVM相關(guān)的方法，在人臉識別、手寫識別、文本分類中得到了廣泛的應(yīng)用，并且取得了很好的效果。SVM可以簡單的理解為是對邏輯回歸模型的改進(jìn)，對于邏輯回歸來講，是尋找一個超平面，把2類數(shù)據(jù)在特征空間中劃分開來，對于線性可分的數(shù)據(jù)集來講，可能存在無數(shù)個超平面將數(shù)據(jù)劃分開來，而邏輯回歸只是尋找到其中的某一個超平面。而對于SVM來講，則是在這眾多的超平面中，尋找到最優(yōu)的一個超平面，這里的最優(yōu)是指到2類樣本點的間隔都相對較大。這個最優(yōu)的分隔超平面可以使模型的泛化能力更強。

（2）核函數(shù)。在實際的數(shù)據(jù)集中，最常見的還是線性不可分的數(shù)據(jù)集，此時SVM無法直接使用，需要引入帶核函數(shù)的SVM。核函數(shù)的作用主要是將在低維特征空間中線性不可分的數(shù)據(jù)映射到高維特征空間中，在高緯空間中，原本線性不可分的數(shù)據(jù)就有可能成為線性可分的數(shù)據(jù)。

（3）結(jié)果分析。我們最終在Iris花卉數(shù)據(jù)集上嘗試使用不同的核函數(shù)，如線性核函數(shù)、高斯核函數(shù)、多項式核函數(shù)等。在經(jīng)過多輪迭代之后，最終在測試集上得到了92%的準(zhǔn)確率。由此可見，SVM是泛化能力比較強的一種分類模型。

2.4 構(gòu)建集成學(xué)習(xí)器

（1）集成學(xué)習(xí)的基本原理。在人工智能的監(jiān)督學(xué)習(xí)中，我們希望學(xué)習(xí)到一個穩(wěn)定、強大的強學(xué)習(xí)器，但是實際上往往不那么理想，我們可能會得到若干個在不同的方面存在著不同缺陷的弱學(xué)習(xí)器。而集成學(xué)習(xí)就是組合這里的多個弱監(jiān)督模型，以期得到一個更好更全面的強監(jiān)督模型，集成學(xué)習(xí)的思想就是綜合多個弱監(jiān)督模型的優(yōu)點，根據(jù)多個弱監(jiān)督模型的決策結(jié)果來得到最終的決策結(jié)果。這樣即使某一個弱分類器得到了錯誤的預(yù)測，那么其他的分類器也能將錯誤糾正過來。因此，我們從集成學(xué)習(xí)的基本思想可以知道，集成學(xué)習(xí)共分為2步。第1步是得到多個基本的學(xué)習(xí)器，第2步是采用一定的策略，把第1步得到的學(xué)習(xí)器結(jié)合起來，得到最終的學(xué)習(xí)器。

（2）集成學(xué)習(xí)的個體學(xué)習(xí)器。在機器學(xué)習(xí)中，通常有2種方式得到個體學(xué)習(xí)器：第一種方式是所有的個體學(xué)習(xí)器來自于同一個模型，即是同質(zhì)學(xué)習(xí)器，例如都來自CART樹，或者都來自神經(jīng)網(wǎng)絡(luò)。第二種方式是所有的個體來自于不同的模型，即是異質(zhì)學(xué)習(xí)器，比如個體學(xué)習(xí)器分別來自kNN、SVM、邏輯回歸等。目前在機器學(xué)習(xí)領(lǐng)域，一般都采用基于同質(zhì)學(xué)習(xí)器的集成學(xué)習(xí)。我們所說的集成學(xué)習(xí)，在默認(rèn)情況下都是指同質(zhì)集成學(xué)習(xí)器。對同質(zhì)學(xué)習(xí)器的研究也比較多，對異質(zhì)學(xué)習(xí)器的研究比較少。但異質(zhì)學(xué)習(xí)器同樣作為一種重要的集成學(xué)習(xí)策略，被廣泛使用。

（3）集成學(xué)習(xí)的結(jié)合法。

①平均法。對于機器學(xué)習(xí)中的回歸問題，比較常用的方法是將若干個基本學(xué)習(xí)器的輸出求平均值來得到最終分類器的輸出。比較常用的求平均值的方法有算法平均和加權(quán)平均。最簡單的為算法平均，如（4）式所示。如果每個個體學(xué)習(xí)器有一個權(quán)重wi，則最終的預(yù)測如式（5）所示。其中H（x）為集成學(xué)習(xí)器的最終輸出，hi（x）為每個個體學(xué)習(xí)器的輸出，T為集成的個體學(xué)習(xí)器的個數(shù)。②投票法。對于分類問題，一般采用投票法進(jìn)行決策。每個弱分類器給出自己的判別結(jié)果，然后將所有的結(jié)果進(jìn)行綜合得到最終決策。最簡單的投票法是相對多數(shù)的投票法，也就是我們常說的少數(shù)服從多數(shù)，也就是T個弱學(xué)習(xí)器對樣本x的預(yù)測結(jié)果中，數(shù)量最多的類別cici為最終的分類類別。如果不止一個類別獲得最高票，則隨機選擇一個作為最終類別。稍微復(fù)雜的投票法是絕對多數(shù)投票法，也就是我們常說的要票過半數(shù)。在相對多數(shù)投票法的基礎(chǔ)上，不僅要求獲得最高票，還要求票數(shù)過半。否則會拒絕預(yù)測。更加復(fù)雜的是加權(quán)投票法，和加權(quán)平均法一樣，每個弱學(xué)習(xí)器的分類票數(shù)要乘以一個權(quán)重，最終將各個類別的加權(quán)票數(shù)求和，最大的值對應(yīng)的類別為最終類別。

（4）在Iris花卉數(shù)據(jù)集上應(yīng)用異質(zhì)集成學(xué)習(xí)。在Iris花卉數(shù)據(jù)集上，我們采用了3個個體學(xué)習(xí)器，分別是kNN模型、邏輯回歸模型、SVM模型，把這3個學(xué)習(xí)器采用基本投票策略的方式結(jié)合起來，票數(shù)最多的花卉類別作為預(yù)測樣本的類別，最終得到了一個準(zhǔn)確率更高更強大的學(xué)習(xí)器。經(jīng)過在測試集上進(jìn)行測試，最終在測試集上達(dá)到了94%的準(zhǔn)確率，相對于單個個體學(xué)習(xí)器的最高只達(dá)到了92%而言，提升了2%。這充分說明了在采用異質(zhì)集成學(xué)習(xí)后，融合后的模型的性能得到了提升，取得了一定的效果。

3 結(jié)語

本文對Iris鳶尾花卉數(shù)據(jù)集，分別采用了單獨的個體學(xué)習(xí)器kNN、邏輯回歸、SVM以及異質(zhì)集成學(xué)習(xí)，把單獨的個體學(xué)習(xí)器在測試集地上的準(zhǔn)確率從92%、80%、92%提升到了融合后的94%，充分說明了異質(zhì)集成學(xué)習(xí)在該問題上取得了效果，也證明了異質(zhì)集成學(xué)習(xí)和同質(zhì)學(xué)習(xí)一樣，具有廣泛的應(yīng)用前景。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看