文/衛(wèi)志鵬 岳宛瑩,山西財(cái)經(jīng)大學(xué)
?
機(jī)器學(xué)習(xí)建模方法及其研究進(jìn)展
文/衛(wèi)志鵬 岳宛瑩,山西財(cái)經(jīng)大學(xué)
本文對(duì)機(jī)器學(xué)習(xí)方法總結(jié)為有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)這三大類。并對(duì)機(jī)器學(xué)習(xí)方法進(jìn)行了詳細(xì)總結(jié),對(duì)比分析。
機(jī)器學(xué)習(xí);建模方法;研究進(jìn)展
有監(jiān)督學(xué)習(xí),指有結(jié)果度量的學(xué)習(xí)過(guò)程,這里的結(jié)果度量包括定性和定量,分別對(duì)應(yīng)統(tǒng)計(jì)學(xué)中的回歸和分類問(wèn)題。常見(jiàn)模型有:決策樹(shù)、Boosting與Bagging算法、人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等;半監(jiān)督學(xué)習(xí),指獲取的觀察量的一部分由指導(dǎo)者確認(rèn)并加上標(biāo)識(shí)的數(shù)據(jù),即已標(biāo)識(shí)數(shù)據(jù)。另一部分觀察量由于一些原因未能標(biāo)識(shí),即未標(biāo)識(shí)數(shù)據(jù),需要解決的是如何利用標(biāo)識(shí)數(shù)據(jù)和未標(biāo)識(shí)數(shù)據(jù)以及相關(guān)知識(shí)對(duì)未標(biāo)識(shí)觀察量的標(biāo)識(shí)做出合理推斷;無(wú)監(jiān)督學(xué)習(xí)中,則只能夠通過(guò)觀察特征,二并沒(méi)有結(jié)果度量,即只能利用由總體中獲取的樣本對(duì)總體做出推斷,并不需要某個(gè)目標(biāo)變量和訓(xùn)練數(shù)據(jù)集。
機(jī)器學(xué)習(xí)并非是為代替?zhèn)鹘y(tǒng)統(tǒng)計(jì)分析技術(shù),相反,它是統(tǒng)計(jì)學(xué)的延伸和擴(kuò)展。大多數(shù)的統(tǒng)計(jì)分析方法都是基于完善的數(shù)學(xué)理論和嚴(yán)格的假定條件實(shí)現(xiàn)的,機(jī)器學(xué)習(xí)方法正是避免過(guò)多繁雜的假定條件從而達(dá)到傳統(tǒng)統(tǒng)計(jì)方法無(wú)法達(dá)到的效果。統(tǒng)計(jì)建模,以模型驅(qū)動(dòng)的建模方法,是基于概率分布進(jìn)行推斷,其目的是獲得數(shù)據(jù)的概率分布、追求最佳模型的精確解;機(jī)器學(xué)習(xí),以數(shù)據(jù)驅(qū)動(dòng)的建模方法,基于最小化預(yù)測(cè)誤差,無(wú)需考慮數(shù)據(jù)分布,其目的是實(shí)現(xiàn)精確化。
1.決策樹(shù)算法,是一個(gè)樹(shù)狀預(yù)測(cè)模型,即通過(guò)把實(shí)例從根節(jié)點(diǎn)排列到某個(gè)葉子節(jié)點(diǎn)來(lái)進(jìn)行分類,葉子節(jié)點(diǎn)即為實(shí)例所屬分類。該算法核心在于選擇分裂屬性和剪枝問(wèn)題。決策樹(shù)算法有很多種,Hunt等(1966)提出了CLS算法,隨后的ID3、C4.5、CART都是對(duì)CLS算法的改進(jìn),為處理大規(guī)模訓(xùn)練樣本又提出了SLIQ、SPRINT算法,但由于之前有剪枝的算法均是生成樹(shù)后再剪枝,RajeevRaSto等人(2000)提出的PUBLIC算法對(duì)未完全生成的樹(shù)進(jìn)行剪枝,除此之外模糊決策樹(shù)也有較快發(fā)展。
2.隨機(jī)森林算法。當(dāng)數(shù)據(jù)中噪聲或分裂屬性過(guò)多時(shí),則無(wú)法解決樹(shù)不平衡問(wèn)題和對(duì)訓(xùn)練集過(guò)度擬合問(wèn)題,因此通過(guò)構(gòu)造多分類器或回歸器的集成來(lái)提高分類或預(yù)測(cè)的精度。隨機(jī)森林算法是Leo Breiman提出的一種利用多個(gè)樹(shù)分類器進(jìn)行分類和預(yù)測(cè)的方法,可用于處理回歸、分類、聚類以及生存分析等問(wèn)題。當(dāng)用于分類或回歸時(shí)主要思想是通過(guò)自助法重采樣,生成很多個(gè)樹(shù)回歸器或分類器。
3.神經(jīng)網(wǎng)絡(luò)算法提供了從樣例中學(xué)習(xí)值為實(shí)數(shù)、離散或向量的函數(shù),其重點(diǎn)是構(gòu)造閾值邏輯單元,一個(gè)邏輯單元是一個(gè)對(duì)象,它可以輸入一組加權(quán)系數(shù)的量并對(duì)它們進(jìn)行求和,若這個(gè)和達(dá)到或者超過(guò)某個(gè)閾值,輸出一個(gè)量。神經(jīng)網(wǎng)絡(luò)是基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則的學(xué)習(xí)算法,存在一些固有的缺陷,如:層數(shù)和神經(jīng)元個(gè)數(shù)難以確定易陷入局部極小,但這些缺陷在SVM算法都有很好的解決。
4.支持向量機(jī)算法,由Vapnik等人于1995年提出,該方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的機(jī)器學(xué)習(xí)方法,。SVM算法可以自動(dòng)尋找出那些對(duì)分類有較好區(qū)分能力的支持向量,由此構(gòu)造出的分類器能夠最大化類之間的間隔,故有較好的適應(yīng)能力和較高的區(qū)分率。該算法的目的是要尋找一個(gè)超平面,該超平面可以將訓(xùn)練集中的數(shù)據(jù)分開(kāi)且與類域邊界的沿垂直于該超平面方向的距離最大。
5.Boosting和Bagging算法。Boosting算法是一種用來(lái)提高學(xué)習(xí)算法準(zhǔn)確度的方法,通過(guò)構(gòu)造一個(gè)預(yù)測(cè)函數(shù)系列,然后以一定的方式將他們組合成一個(gè)預(yù)測(cè)函數(shù),達(dá)到把一弱學(xué)習(xí)算法提升為強(qiáng)學(xué)習(xí)算法的目的。Bagging(Boostrap Aggregating),亦稱自舉聚合,由Breiman提出的與Boosting類似的方法。主要思想是給定一個(gè)弱學(xué)習(xí)算法和一個(gè)訓(xùn)練集讓該學(xué)習(xí)算法訓(xùn)練多輪,每輪訓(xùn)練集由從最初的的訓(xùn)練集中隨機(jī)取出n個(gè)訓(xùn)練例構(gòu)成,初始訓(xùn)練例在訓(xùn)練集中可以出現(xiàn)多次或根本不出現(xiàn),訓(xùn)練之后得到一個(gè)預(yù)測(cè)函數(shù)序列,最終的預(yù)測(cè)函數(shù)對(duì)分類問(wèn)題采用投票方式,對(duì)回歸問(wèn)題采用簡(jiǎn)單平均方法對(duì)新示例進(jìn)行判別。以上二者的區(qū)別在于:后者的訓(xùn)練集選擇是隨機(jī)的,各輪訓(xùn)練集之間相互獨(dú)立,而前者的訓(xùn)練集選擇不是獨(dú)立的,各輪訓(xùn)練集的選擇與前面各輪的學(xué)習(xí)結(jié)果有關(guān)。
6.關(guān)聯(lián)規(guī)則算法。關(guān)聯(lián)規(guī)則挖掘是由R.Agrawal,T.Imielinski和A.Swanmi于1992年最先提出,用來(lái)分析變量之間關(guān)系,并且把這種關(guān)系表達(dá)成非常容易解釋的規(guī)則的方法。該算法對(duì)數(shù)據(jù)分布不做任何要求,所得結(jié)果是完全基于數(shù)據(jù)的,沒(méi)有任何主觀假定,客觀的反映了數(shù)據(jù)的本質(zhì)。Agrawal等人提出了最早的經(jīng)典關(guān)聯(lián)規(guī)則Apriori算法,針對(duì)Apriori算法的缺點(diǎn)提出多種改進(jìn)算法,如Park提出的基于散列技術(shù)的算法、Toivonen提出的基于采樣思想的算法。
7.貝葉斯學(xué)習(xí)算法。Bayes法是在已知先驗(yàn)概率和類條件概率的情況下模式分類方法,待分樣本的分類結(jié)果取決于各類域中樣本的全體。該算法的薄弱環(huán)節(jié)在于實(shí)際情況下,類別總體的概率分布和各類樣本的概率分布函數(shù)(或密度函數(shù))常常是不可知的,未獲得概率分布函數(shù)就要求樣本足夠大,此外,當(dāng)用于文本分類時(shí),Bayes法要求表達(dá)文本的主題詞相互獨(dú)立,此條件在實(shí)際文本中一般較難滿足。
8.EM算法。它是從不完全數(shù)據(jù)中求解模型參數(shù)的極大似然估計(jì)方法。一般情況下,該算法的結(jié)果只能保證收斂到后驗(yàn)分布密度函數(shù)的穩(wěn)定點(diǎn),并不能保證收斂到極大值點(diǎn)。
[1]Hunt E B, Marin J, Stone P J. Experiments in induction[J].1966.
[2]方匡南[1,2],吳見(jiàn)彬,朱建平[1,2],謝邦昌[1,2],.隨機(jī)森林方法研究綜述[J].統(tǒng)計(jì)與信息論壇,2011,26(3)
[3]瓦普尼克.統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)[M].清華大學(xué)出版社,2000.
衛(wèi)志鵬(1992—)男,山西呂梁人,山西財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)碩士研究生,研究方向:國(guó)民經(jīng)濟(jì)核算與宏觀經(jīng)濟(jì)統(tǒng)計(jì)分析。岳宛瑩(1993—)女,山西運(yùn)城人,山西財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)碩士研究生,研究方向:國(guó)民經(jīng)濟(jì)核算與宏觀經(jīng)濟(jì)統(tǒng)計(jì)分析。