劉夢(mèng)綺
摘要:統(tǒng)計(jì)學(xué)習(xí)理論建立在結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則基礎(chǔ)上,專門針對(duì)小樣本下的機(jī)器學(xué)習(xí)問(wèn)題而建立的一套新的學(xué)習(xí)理論體系?;诮y(tǒng)計(jì)學(xué)習(xí)理論的算法具有理論完整、全局優(yōu)化、適應(yīng)性強(qiáng)、推廣能力好等優(yōu)點(diǎn),是機(jī)器學(xué)習(xí)研究的新熱點(diǎn)。本文首先研究了支持向量機(jī)的基本理論,接著對(duì)支持向量機(jī)算法和神經(jīng)網(wǎng)絡(luò)算法進(jìn)行了全面性能比較。最后對(duì)文章整體做出總結(jié),并寫出了自己的感悟。
引言
分類一直是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)[1] 和模式識(shí)別中一個(gè)重要的研究領(lǐng)域。隨著計(jì)算能力、存儲(chǔ)、網(wǎng)絡(luò)的高速發(fā)展,更需要發(fā)現(xiàn)更深層次的規(guī)律,對(duì)決策,商務(wù)應(yīng)用提供更加有效的支持。為了滿足這種需求,數(shù)據(jù)挖掘技術(shù)得到了長(zhǎng)足的發(fā)展,而分類在數(shù)據(jù)挖掘中是一項(xiàng)非常重要的任務(wù)。分類算法歷來(lái)受到許多領(lǐng)域研究者的關(guān)注。
傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法,如支持向量機(jī)等,慢慢不像十多年前那么火熱。但在進(jìn)行小數(shù)據(jù)樣本處理時(shí),支持向量機(jī)算法展現(xiàn)出基于大數(shù)據(jù)樣本的深度學(xué)習(xí)無(wú)法取代的優(yōu)勢(shì)。因此對(duì)支持向量機(jī)和用于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法的對(duì)比分析就顯得尤為重要。
1 ?概述
1.1背景
統(tǒng)計(jì)模式識(shí)別、線性或非線性回歸以及人工神經(jīng)網(wǎng)絡(luò)等方法是數(shù)據(jù)挖掘的有效工具,但多年來(lái)我們也受制于一個(gè)難題:作為深度學(xué)習(xí)的燃料,在實(shí)際的問(wèn)題中并非一定會(huì)有海量級(jí)別、帶有標(biāo)注的數(shù)據(jù)。傳統(tǒng)的模式識(shí)別或人工神經(jīng)網(wǎng)絡(luò)方法都需要較多的訓(xùn)練樣本,而許多實(shí)際課題中,已知樣本較少,對(duì)于小樣本集,訓(xùn)練結(jié)果最好不一定是預(yù)報(bào)能力最好的模型。[3] 而SVM 只需要很小的數(shù)據(jù)就能找到數(shù)據(jù)之間分類的超平面,得到很不錯(cuò)的分類結(jié)果。
1.2現(xiàn)狀
數(shù)據(jù)是機(jī)器學(xué)習(xí)的燃料,包括模式識(shí)別、神經(jīng)網(wǎng)絡(luò)等在內(nèi)的現(xiàn)有機(jī)器學(xué)習(xí)方法重要的基礎(chǔ)是傳統(tǒng)的統(tǒng)計(jì)學(xué),基于傳統(tǒng)統(tǒng)計(jì)學(xué)研究的是樣本數(shù)目趨于無(wú)窮大事的漸進(jìn)理論,當(dāng)樣本有限的時(shí)候,難以達(dá)到想要的效果。統(tǒng)計(jì)學(xué)習(xí)理論(Statistical Learning Theory,SLT)則著重提出了小樣本情況下的統(tǒng)計(jì)規(guī)律和學(xué)習(xí)方法性質(zhì),發(fā)展出一種新的通用學(xué)習(xí)方法--支持向量機(jī)(Support vector machine,SVM)。當(dāng)前關(guān)于支持向量機(jī)研究的熱點(diǎn)主要是對(duì)支持向量機(jī)中算法的優(yōu)化,包括解決SVM中二次規(guī)劃求解問(wèn)題,對(duì)大規(guī)模SVM的求解問(wèn)題;另外就是如何提高SVM的歸納能力和分類速度以及根據(jù)具體問(wèn)題確定核函數(shù)等。
2 支持向量機(jī)
支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的模式識(shí)別方法,主要應(yīng)用于模式識(shí)別領(lǐng)域。20世紀(jì)末,由于研究不夠完善,在解決模式識(shí)別問(wèn)題中往往趨于保守,且數(shù)學(xué)知識(shí)匱乏,導(dǎo)致這些研究沒(méi)有得到充分重視。直至統(tǒng)計(jì)學(xué)習(xí)理論(Statistical Learning Theory,SLT)的實(shí)現(xiàn)以及新興機(jī)器學(xué)習(xí)方法如神經(jīng)網(wǎng)絡(luò)等研究遇到瓶頸,使得SVM迅速發(fā)展。
2.1 SVM基于統(tǒng)計(jì)學(xué)理論的基礎(chǔ)
(1)對(duì)實(shí)際輸入的結(jié)果輸出標(biāo)簽時(shí),風(fēng)險(xiǎn)可以用錯(cuò)誤率進(jìn)行表示。
(2)VC維理論:一個(gè)假設(shè)空間的VC維,是該假設(shè)空間中可以解決分類問(wèn)題的方程數(shù)目的度量。
(3)SVM算法要求的樣本相對(duì)比較少。
2.2 支持向量機(jī)算法的基本原理
SVM以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為理論基礎(chǔ),以尋找最優(yōu)分割超平面進(jìn)行建模,引入松弛變量和錯(cuò)誤代價(jià)系數(shù)處理數(shù)據(jù)不可分和存在噪聲的情況。這使其在訓(xùn)練樣本有限的情況下能夠有效避免過(guò)擬合問(wèn)題,從而提高算法的泛化性能。
2.3 最優(yōu)分類超平面
支持向量機(jī)中最簡(jiǎn)單也是最早提出的模型是最大間隔分類器。最初僅用于處理兩類分類問(wèn)題,核函數(shù)的引入使其具有構(gòu)建非線性分類邊界的能力。通過(guò)尋找一個(gè)分類超平面,能夠使支持向量和超平面最小距離的最大。支持向量機(jī)通過(guò)對(duì)分類間隔最大化來(lái)控制泛化能力,將二維空間推廣到高維空間,最優(yōu)分割線就成為最優(yōu)分類面,即最優(yōu)超平面。
2.4 核函數(shù)及其特征空間
支持向量機(jī)中研究的兩個(gè)關(guān)鍵因素分別是數(shù)學(xué)規(guī)劃及核函數(shù)問(wèn)題。通過(guò)引用核函數(shù),將當(dāng)前維度下線性不可分的訓(xùn)練數(shù)據(jù)映射到更高維度的特征空間,將問(wèn)題轉(zhuǎn)化為高維空間中線性可分問(wèn)題,然后構(gòu)建相應(yīng)的分類超平面。
核函數(shù)的選擇一般考慮使用徑向基函數(shù)。其關(guān)系到支持向量機(jī)的性能,只要參數(shù)選擇合適,支持向量機(jī)可以對(duì)任意具有這一性質(zhì)的數(shù)據(jù)集進(jìn)行分類。
3 SVM和神經(jīng)網(wǎng)絡(luò)對(duì)比分析
3.1 非線性學(xué)習(xí)能力
隨著理論的逐步發(fā)展,由于核函數(shù)的引入,支持向量機(jī)通過(guò)變換將非線性輸入映射到高維特征空間,然后再進(jìn)行最優(yōu)化求解,使其有效的處理非線性學(xué)習(xí)問(wèn)題。
神經(jīng)網(wǎng)絡(luò)由大量神經(jīng)元組成,自身是非線性的。并且非線性是一種分布于整個(gè)網(wǎng)絡(luò)中的特殊性質(zhì)。正是由于神經(jīng)網(wǎng)絡(luò)的這種非線性性質(zhì),使得它表現(xiàn)出復(fù)雜的智能處理能力和非線性處理能力,并成功應(yīng)用于多個(gè)領(lǐng)域。
3.2 模型結(jié)構(gòu)
神經(jīng)網(wǎng)絡(luò)是一種層次網(wǎng)絡(luò)結(jié)構(gòu),可分為輸入層、卷積層、池化層、全連接層及輸出層等部分。
支持向量機(jī)的模型結(jié)構(gòu)與神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)相類似,它相當(dāng)于一個(gè)隱層的三層BP網(wǎng)絡(luò),在支持向量機(jī)中的支持向量對(duì)應(yīng)于神經(jīng)網(wǎng)絡(luò)中的隱含層。
3.3 神經(jīng)網(wǎng)絡(luò)的特點(diǎn)
神經(jīng)網(wǎng)絡(luò)在生物神經(jīng)學(xué)研究基礎(chǔ)上提出,是對(duì)人腦神經(jīng)組織結(jié)構(gòu)和行為的模擬。神經(jīng)網(wǎng)絡(luò)通過(guò)使用計(jì)算單元間的相互連接來(lái)獲得好的學(xué)習(xí)結(jié)果。其計(jì)算能力有以下特點(diǎn):大規(guī)模并行分布式結(jié)構(gòu);具有自適應(yīng)性和容錯(cuò)能力,可以實(shí)現(xiàn)聯(lián)想記憶以及聚類等自組織學(xué)習(xí);理論上神經(jīng)網(wǎng)絡(luò)可以逼近任何的連續(xù)函數(shù),若神經(jīng)元足夠多,還可以逼近任何具有有限斷點(diǎn)的非連續(xù)函數(shù);一般在小樣本情況下,經(jīng)驗(yàn)風(fēng)險(xiǎn)與實(shí)際風(fēng)險(xiǎn)的差異比較明顯,學(xué)習(xí)效果不佳。
3.4 支持向量機(jī)的特點(diǎn)
系統(tǒng)結(jié)構(gòu)簡(jiǎn)單,無(wú)需過(guò)多的先驗(yàn)知識(shí);SVM以統(tǒng)計(jì)學(xué)中結(jié)構(gòu)風(fēng)險(xiǎn)最小化為理論基礎(chǔ),以尋找最優(yōu)分割面進(jìn)行建模,通過(guò)引入松弛變量和的撒四家系數(shù)避免出現(xiàn)過(guò)擬合的問(wèn)題;支持向量機(jī)通過(guò)最優(yōu)超平面進(jìn)行學(xué)習(xí),具有全局最優(yōu)性。
4 總結(jié)
本文的主要內(nèi)容包括:關(guān)于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)以及傳統(tǒng)機(jī)器學(xué)習(xí)算法支持向量機(jī)的發(fā)展現(xiàn)狀;對(duì)支持向量機(jī)中的發(fā)展、算法理論以及重要部分作出分析研究;分析比較支持向量機(jī)以及神經(jīng)網(wǎng)絡(luò)這兩種應(yīng)用廣泛的學(xué)習(xí)機(jī)器進(jìn)行全面的性能比較,并深入分析了支持向量機(jī)的良好學(xué)習(xí)性能和具有的諸多優(yōu)勢(shì)。
參考文獻(xiàn):
[1] 張學(xué)工譯.統(tǒng)計(jì)學(xué)理論的本質(zhì).北京:清華大學(xué)出版社,2000,1-226
[2] 曾志華,張銀奎譯.機(jī)器學(xué)習(xí).北京:計(jì)協(xié)工業(yè)出版社,2003,1-13
[3] 范勝龍,茹凱麗,陳巧燕.清華大學(xué)資源與環(huán)境學(xué)院,基于BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的農(nóng)用地分等方法研究
[4] 郭月,基于SVM的高分圖像自動(dòng)分類算法研究與系統(tǒng)實(shí)現(xiàn)
[5] VAPNIK V N. 統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)[M],張學(xué)工,譯. 北 京:清華大學(xué)出版社,2000:2 -6.
[6] 宋杰,唐煥文. 基于線性規(guī)劃的支持向量機(jī)分類器,大連理工大學(xué)學(xué)報(bào),2005,45
[7] 閻威武,支持向量機(jī)理論、方法與應(yīng)用研究[上海交通大學(xué)博士學(xué)位論文],上海:上海交通大學(xué)電子信息與電氣工程學(xué)院,2003,89,106
[8] 張小云,劉允才,高斯核支撐向量機(jī)的性能分析,計(jì)算機(jī)工程,2010,29(8)22-25
(作者單位:鄭州大學(xué)軟件與應(yīng)用科技學(xué)院)