• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      異質(zhì)集成學(xué)習(xí)器在鳶尾花卉分類中的應(yīng)用

      2018-11-19 06:47:10吳嘉樂
      中國設(shè)備工程 2018年20期
      關(guān)鍵詞:集上異質(zhì)類別

      吳嘉樂

      1 引言

      分類模型的研究在機器學(xué)習(xí)中具有重要意義。而集成學(xué)習(xí)作為提高分類模型性能的方法也廣泛被使用。集成學(xué)習(xí)又分為同質(zhì)集成學(xué)習(xí)與異質(zhì)集成學(xué)習(xí),目前在機器學(xué)習(xí)界,大多數(shù)采用同質(zhì)集成學(xué)習(xí),包括一些主流的機器學(xué)習(xí)框架,如sklearn,都只實現(xiàn)了同質(zhì)集成學(xué)習(xí)。因此,對于異質(zhì)集成學(xué)習(xí)進(jìn)行探索就有了重要意義。研究依據(jù)具體的Iris鳶尾花卉識別實例,探究異質(zhì)集成學(xué)習(xí)的方法。

      1.1 數(shù)據(jù)集特征

      Iris是機器學(xué)習(xí)中一個常見的數(shù)據(jù)集,其用于鳶尾花卉分類,數(shù)據(jù)集共包含150個樣本,每個樣本包括花瓣長度、花瓣寬度、花萼長度、花萼寬度4個特征,樣本共具有3個花卉類別,分別為Iris Setosa(山鳶尾)、Iris Versicolour(雜色鳶尾),以及Iris Virginica(維吉尼亞鳶尾)。研究將根據(jù)該數(shù)據(jù)集,探究異質(zhì)集成學(xué)習(xí)的方法。

      1.2 數(shù)據(jù)集預(yù)處理

      我們的Iris數(shù)據(jù)集的預(yù)處理一共包含2個步驟,第一個步驟需要將Iris Setosa(山鳶尾)、Iris Versicolour(雜色鳶尾),以及Iris Virginica(維吉尼亞鳶尾)這3種類別的花卉映射成0、1和2共3個類別數(shù)字,映射后的數(shù)據(jù)才能參與模型的訓(xùn)練。另一方面,由于Iris數(shù)據(jù)集的前100個數(shù)據(jù)只包含0、1共2個類別的花卉,后50個數(shù)據(jù)全部為第2個類別的花卉。所以我們需要對150個數(shù)據(jù)進(jìn)行隨機打亂后才能進(jìn)行訓(xùn)練。

      1.3 數(shù)據(jù)集劃分

      為了模型的訓(xùn)練與模型的性能檢驗,我們需要把數(shù)據(jù)集分為訓(xùn)練集和測試集2個部分。對于我們的Iris數(shù)據(jù)集,一共具有150個樣本。我們隨機挑選出100個數(shù)據(jù)作為訓(xùn)練集,用于訓(xùn)練模型。剩下50個數(shù)據(jù)作為測試集,用于檢驗訓(xùn)練出的模型的性能好壞。

      2 構(gòu)建分類模型

      2.1 構(gòu)建kNN模型

      (1)基本原理。kNN模型是機器學(xué)習(xí)中一種比較簡單的分類模型。在訓(xùn)練階段,模型通過將所有的訓(xùn)練集映射在一個特征空間內(nèi)。在預(yù)測階段,模型將所有待分類的樣本,通過計算與訓(xùn)練集的距離,挑選出最近的k個距離,在這k個訓(xùn)練集樣本中,通過簡單的投票原則,來決定待分類樣本的預(yù)測類別。

      (2)在Iris數(shù)據(jù)集上應(yīng)用kNN模型。在我們的Iris數(shù)據(jù)集上,我們通過將訓(xùn)練集的100個樣本映射在一個四維特征空間內(nèi)來實現(xiàn)kNN模型的訓(xùn)練。在預(yù)測過程,我們計算測試集的50個樣本與訓(xùn)練集的100個樣本的距離,從中挑選出最近的k個距離,然后采用投票原則來確定測試集樣本的花卉種類。

      (3)結(jié)果分析。我們通過sklearn中的kNN模型包,在Iris數(shù)據(jù)集上運用了kNN模型。通過改變不同的k取值,觀察在測試集上的準(zhǔn)確率。經(jīng)過測試,當(dāng)k= 2,3,4,5時,模型在測試集上的準(zhǔn)確率分別為86%,92%,88%,92%。當(dāng)k = 3或5時,在測試集上的準(zhǔn)確率達(dá)到最高92%。

      (4) kNN模型的優(yōu)缺點分析。kNN模型的優(yōu)點在于模型比較簡單,結(jié)果也比較直觀。但是缺點是當(dāng)訓(xùn)練集樣本非常大時,由于要計算每個測試集樣本與整個訓(xùn)練集的距離,所以速度會明顯的降低。但是由于我們的樣本數(shù)目只有150個,因此采用kNN模型一方面計算速度很快,另一方面在測試集上能夠取得不錯的性能。

      2.2 構(gòu)建邏輯回歸模型

      (1)基本原理。邏輯回歸模型是機器學(xué)習(xí)中一種常見的分類模型,其主要運用在二分類中。在多分類問題中,可以運用ovr或者ovo等策略將多分類問題轉(zhuǎn)化為多個二分類問題來使用邏輯回歸。邏輯回歸的基本原理是采用sigmoid函數(shù)來作為我們的預(yù)測函數(shù)。在我們的鳶尾花卉分類問題中,sigmoid函數(shù)的輸出就是屬于每一類花卉的概率,范圍在[0,1]之間。邏輯回歸在訓(xùn)練的過程中,通過不斷的最小化交叉熵代價函數(shù),來尋求一個合適的學(xué)習(xí)參數(shù)θ向量,來使模型在訓(xùn)練集上的誤差相對較小,同時在訓(xùn)練的過程中,通過加入一定的正則化項,來緩解模型的過擬合。

      (2)假設(shè)函數(shù)。邏輯回歸采用sigmoid作為假設(shè)函數(shù),如式2.1所示。假設(shè)函數(shù)的值域為[0,1],對應(yīng)了事件發(fā)生的概率。其中z = θTxX,θ是模型需要學(xué)習(xí)的參數(shù),X在該問題中對應(yīng)每個花卉樣本的特征向量。即z是每個花卉樣本所有特征的線性組合。

      (3)交叉熵代價函數(shù)。為了衡量模型的性能,需要在訓(xùn)練的過程中引入代價函數(shù)。對于機器學(xué)習(xí)中的分類問題而言,最常用的代價函數(shù)是交叉熵代價函數(shù),如式2.2所示。其中yi為樣本的真實分布,g(θ)為模型給出的預(yù)測值,即預(yù)測屬于每一種花卉的概率值。模型在訓(xùn)練的過程中通過梯度下降法,不斷的調(diào)整θ的值,來使模型在訓(xùn)練集上的代價函數(shù)不斷降低,不斷對模型進(jìn)行優(yōu)化。

      (4)邏輯回歸的正則化。在訓(xùn)練的過程中,代價函數(shù)會隨著迭代次數(shù)的增加而不斷降低,最終穩(wěn)定在一個比較小的值。代價函數(shù)越小,說明對訓(xùn)練集擬合得越好,但是會帶來機器學(xué)習(xí)中一個常見的問題,即模型陷入過擬合。雖然此時的模型能夠很好的擬合訓(xùn)練集,但是對于未知數(shù)據(jù)的泛化能力會比較低,也就是說,模型在測試集上的準(zhǔn)確率會比較低。對于機器學(xué)習(xí)中出現(xiàn)的過擬合問題,不可能完全解決,但可以在一定程度上緩解。緩解過擬合的常用手段有2種。一種是增加訓(xùn)練集樣本的數(shù)量,當(dāng)訓(xùn)練集樣本的數(shù)量增加時,模型可在一定程度上緩解過擬合,但是通常在實際情況下,我們很難去獲取到更多的樣本,或者說是獲取更多樣本的成本太高。所以我們一般采用第二種手段,即正則化,來緩解模型的過擬合。正則化的基本思想是通過在代價函數(shù)的基礎(chǔ)上,對學(xué)習(xí)到的參數(shù)向量進(jìn)行一定的限制,使學(xué)習(xí)到的參數(shù)向量不會很大,從而能得到一個相對比較簡單的機器學(xué)習(xí)模型,提高了模型的泛化能力。常用的正則化手段有L1正則化和L2正則化,L1正則化是在代價函數(shù)的基礎(chǔ)上,對學(xué)習(xí)參數(shù)進(jìn)行L1范數(shù)限制,L2正則化則是對學(xué)習(xí)參數(shù)進(jìn)行L2范數(shù)限制。L1正則化相對于L2正則化更容易產(chǎn)生稀疏解,偏向于得到一個更簡單的模型。

      (5)在Iris數(shù)據(jù)集上應(yīng)用邏輯回歸模型。在我們的Iris鳶尾花分類問題中,由于花卉種類共有3類。因此我們無法直接應(yīng)用邏輯回歸。但是我們可以采用ovr手段,將1個三分類問題轉(zhuǎn)化為3個二分類問題。也就是分別把每種花卉作為一類,把剩下的2種花卉作為另外一類。在這種劃分下,在每2個類別之間訓(xùn)練一個二分類器,也就得到了相應(yīng)的3個判別函數(shù)。在預(yù)測階段,我們將未知類別的花卉特征分別代入3個分類器中,然后取最大概率分類器的類別,作為未知花卉的類別。同時,在訓(xùn)練的過程中,我們加入了L2正則化項,來緩解模型的過擬合問題。加入了正則化項的代價函數(shù),如式(3)所示。

      (6)結(jié)果分析。在經(jīng)過若干時間的訓(xùn)練后,模型最終在測試集上達(dá)到了80%的準(zhǔn)確率,這個準(zhǔn)確率相對于kNN模型來講,性能相差很大。其主要原因在于一般邏輯回歸模型通常適用于二分類,在我們采用ovr手段把三分類問題轉(zhuǎn)換為多個二分類問題的同時,會引入機器學(xué)習(xí)中另外一個比較常見的“偏斜類”問題,即不同類別的樣本數(shù)目相差比較大,會使訓(xùn)練出的模型性能不佳。

      2.3 構(gòu)建SVM模型

      (1) SVM模型基本原理。支持向量機(support vector machine,SVM),它最初于20世紀(jì)90年代由Vapnik提出,是機器學(xué)習(xí)中一種十分強大的分類模型。與數(shù)據(jù)挖掘中的其他分類模型相比,具有較好的泛化能力。而且針對非線性可分?jǐn)?shù)據(jù),擁有一套先進(jìn)的理論方法來處理。由于其優(yōu)秀的分類性能,在機器學(xué)習(xí)領(lǐng)域成為了研究的熱點。在學(xué)術(shù)界,不斷有新的理論被提出。近年來,與SVM相關(guān)的方法,在人臉識別、手寫識別、文本分類中得到了廣泛的應(yīng)用,并且取得了很好的效果。SVM可以簡單的理解為是對邏輯回歸模型的改進(jìn),對于邏輯回歸來講,是尋找一個超平面,把2類數(shù)據(jù)在特征空間中劃分開來,對于線性可分的數(shù)據(jù)集來講,可能存在無數(shù)個超平面將數(shù)據(jù)劃分開來,而邏輯回歸只是尋找到其中的某一個超平面。而對于SVM來講,則是在這眾多的超平面中,尋找到最優(yōu)的一個超平面,這里的最優(yōu)是指到2類樣本點的間隔都相對較大。這個最優(yōu)的分隔超平面可以使模型的泛化能力更強。

      (2)核函數(shù)。在實際的數(shù)據(jù)集中,最常見的還是線性不可分的數(shù)據(jù)集,此時SVM無法直接使用,需要引入帶核函數(shù)的SVM。核函數(shù)的作用主要是將在低維特征空間中線性不可分的數(shù)據(jù)映射到高維特征空間中,在高緯空間中,原本線性不可分的數(shù)據(jù)就有可能成為線性可分的數(shù)據(jù)。

      (3)結(jié)果分析。我們最終在Iris花卉數(shù)據(jù)集上嘗試使用不同的核函數(shù),如線性核函數(shù)、高斯核函數(shù)、多項式核函數(shù)等。在經(jīng)過多輪迭代之后,最終在測試集上得到了92%的準(zhǔn)確率。由此可見,SVM是泛化能力比較強的一種分類模型。

      2.4 構(gòu)建集成學(xué)習(xí)器

      (1)集成學(xué)習(xí)的基本原理。在人工智能的監(jiān)督學(xué)習(xí)中,我們希望學(xué)習(xí)到一個穩(wěn)定、強大的強學(xué)習(xí)器,但是實際上往往不那么理想,我們可能會得到若干個在不同的方面存在著不同缺陷的弱學(xué)習(xí)器。而集成學(xué)習(xí)就是組合這里的多個弱監(jiān)督模型,以期得到一個更好更全面的強監(jiān)督模型,集成學(xué)習(xí)的思想就是綜合多個弱監(jiān)督模型的優(yōu)點,根據(jù)多個弱監(jiān)督模型的決策結(jié)果來得到最終的決策結(jié)果。這樣即使某一個弱分類器得到了錯誤的預(yù)測,那么其他的分類器也能將錯誤糾正過來。因此,我們從集成學(xué)習(xí)的基本思想可以知道,集成學(xué)習(xí)共分為2步。第1步是得到多個基本的學(xué)習(xí)器,第2步是采用一定的策略,把第1步得到的學(xué)習(xí)器結(jié)合起來,得到最終的學(xué)習(xí)器。

      (2)集成學(xué)習(xí)的個體學(xué)習(xí)器。在機器學(xué)習(xí)中,通常有2種方式得到個體學(xué)習(xí)器:第一種方式是所有的個體學(xué)習(xí)器來自于同一個模型,即是同質(zhì)學(xué)習(xí)器,例如都來自CART樹,或者都來自神經(jīng)網(wǎng)絡(luò)。第二種方式是所有的個體來自于不同的模型,即是異質(zhì)學(xué)習(xí)器,比如個體學(xué)習(xí)器分別來自kNN、SVM、邏輯回歸等。目前在機器學(xué)習(xí)領(lǐng)域,一般都采用基于同質(zhì)學(xué)習(xí)器的集成學(xué)習(xí)。我們所說的集成學(xué)習(xí),在默認(rèn)情況下都是指同質(zhì)集成學(xué)習(xí)器。對同質(zhì)學(xué)習(xí)器的研究也比較多,對異質(zhì)學(xué)習(xí)器的研究比較少。但異質(zhì)學(xué)習(xí)器同樣作為一種重要的集成學(xué)習(xí)策略,被廣泛使用。

      (3)集成學(xué)習(xí)的結(jié)合法。

      ①平均法。對于機器學(xué)習(xí)中的回歸問題,比較常用的方法是將若干個基本學(xué)習(xí)器的輸出求平均值來得到最終分類器的輸出。比較常用的求平均值的方法有算法平均和加權(quán)平均。最簡單的為算法平均,如(4)式所示。如果每個個體學(xué)習(xí)器有一個權(quán)重wi,則最終的預(yù)測如式(5)所示。其中H(x)為集成學(xué)習(xí)器的最終輸出,hi(x)為每個個體學(xué)習(xí)器的輸出,T為集成的個體學(xué)習(xí)器的個數(shù)。②投票法。對于分類問題,一般采用投票法進(jìn)行決策。每個弱分類器給出自己的判別結(jié)果,然后將所有的結(jié)果進(jìn)行綜合得到最終決策。最簡單的投票法是相對多數(shù)的投票法,也就是我們常說的少數(shù)服從多數(shù),也就是T個弱學(xué)習(xí)器對樣本x的預(yù)測結(jié)果中,數(shù)量最多的類別cici為最終的分類類別。如果不止一個類別獲得最高票,則隨機選擇一個作為最終類別。稍微復(fù)雜的投票法是絕對多數(shù)投票法,也就是我們常說的要票過半數(shù)。在相對多數(shù)投票法的基礎(chǔ)上,不僅要求獲得最高票,還要求票數(shù)過半。否則會拒絕預(yù)測。更加復(fù)雜的是加權(quán)投票法,和加權(quán)平均法一樣,每個弱學(xué)習(xí)器的分類票數(shù)要乘以一個權(quán)重,最終將各個類別的加權(quán)票數(shù)求和,最大的值對應(yīng)的類別為最終類別。

      (4)在Iris花卉數(shù)據(jù)集上應(yīng)用異質(zhì)集成學(xué)習(xí)。在Iris花卉數(shù)據(jù)集上,我們采用了3個個體學(xué)習(xí)器,分別是kNN模型、邏輯回歸模型、SVM模型,把這3個學(xué)習(xí)器采用基本投票策略的方式結(jié)合起來,票數(shù)最多的花卉類別作為預(yù)測樣本的類別,最終得到了一個準(zhǔn)確率更高更強大的學(xué)習(xí)器。經(jīng)過在測試集上進(jìn)行測試,最終在測試集上達(dá)到了94%的準(zhǔn)確率,相對于單個個體學(xué)習(xí)器的最高只達(dá)到了92%而言,提升了2%。這充分說明了在采用異質(zhì)集成學(xué)習(xí)后,融合后的模型的性能得到了提升,取得了一定的效果。

      3 結(jié)語

      本文對Iris鳶尾花卉數(shù)據(jù)集,分別采用了單獨的個體學(xué)習(xí)器kNN、邏輯回歸、SVM以及異質(zhì)集成學(xué)習(xí),把單獨的個體學(xué)習(xí)器在測試集地上的準(zhǔn)確率從92%、80%、92%提升到了融合后的94%,充分說明了異質(zhì)集成學(xué)習(xí)在該問題上取得了效果,也證明了異質(zhì)集成學(xué)習(xí)和同質(zhì)學(xué)習(xí)一樣,具有廣泛的應(yīng)用前景。

      猜你喜歡
      集上異質(zhì)類別
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      復(fù)扇形指標(biāo)集上的分布混沌
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      隨機與異質(zhì)網(wǎng)絡(luò)共存的SIS傳染病模型的定性分析
      Ag2CO3/Ag2O異質(zhì)p-n結(jié)光催化劑的制備及其可見光光催化性能
      MoS2/ZnO異質(zhì)結(jié)的光電特性
      物理實驗(2015年10期)2015-02-28 17:36:52
      論類別股東會
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      幾道導(dǎo)數(shù)題引發(fā)的解題思考
      昆山市| 大丰市| 曲沃县| 苏尼特左旗| 台东市| 高碑店市| 定南县| 綦江县| 五台县| 慈溪市| 汝阳县| 佛冈县| 西畴县| 墨玉县| 藁城市| 原平市| 聊城市| 益阳市| 天峨县| 虞城县| 驻马店市| 钟祥市| 乳山市| 汕头市| 汝州市| 将乐县| 益阳市| 吕梁市| 都匀市| 武城县| 嵊州市| 永和县| 双桥区| 德州市| 涪陵区| 和硕县| 滦南县| 象州县| 楚雄市| 大田县| 郸城县|