辛夷
1. 基于統(tǒng)計學習理論的機器學習方法
數(shù)據(jù)序列是一組按照某種順序排列的隨機數(shù)據(jù),采用統(tǒng)計的方法可以有效分析數(shù)據(jù)的統(tǒng)計特征。機器學習方法的重要理論基礎是統(tǒng)計學,現(xiàn)代人工智能是基于大量數(shù)據(jù)的機器學習理論,機器學習的主要目的是對新的樣本盡可能給出精確的估計。
2.提升方法
隨機猜測一個是或否的問題,將會有50%的正確率。如果一個假設能夠稍微地提高猜測正確的概率,那么這個假設就是弱學習算法,如果一個假設能夠顯著地提高猜測正確的概率,那么這個假設就稱為強學習算法。提升方法是統(tǒng)計學習方法中常用的一種。提升方法就是從弱學習算法出發(fā),改變訓練數(shù)據(jù)的權(quán)值分布,反復學習,得到一系列弱分類器,然后組合這些分類器,構(gòu)成一個強分類器。
提升方法的基本思路:
(1)剛開始訓練數(shù)據(jù)中的每個樣本被賦予一個相等的權(quán)重,這些權(quán)重構(gòu)成分類樣本[D];
(2)在訓練集上訓練出一個弱分類器并計算該分類器的錯誤率[ε],根據(jù)分類器的錯誤率可以計算出該分類器的權(quán)重[α=1/2ln(1-εε)];
(3)根據(jù)上一次分類器的權(quán)重調(diào)整每個訓練樣本的權(quán)重,分對的樣本權(quán)重降低,分錯的樣本權(quán)重升高,然后在同一訓練集上再次訓練弱分類器;反復訓練,直到錯誤率達到要求為止。
3.實例解析
假設現(xiàn)有“+”與“-”兩種類別的數(shù)據(jù),共10個數(shù)據(jù)點構(gòu)成的數(shù)據(jù)集,我們用水平或垂直線作為分類器進行分類。初始情況下,每個樣本的權(quán)重[D1](如圖1)是相等的,為0.1。
<img src="http://img1.qikan.com.cn/qkimages/gzss/gzss201706/gzss20170633-1-l.jpg" alt="" />