鄭學(xué)偉
1遼寧廣播電視大學(xué),(沈陽 110034)2遼寧裝備制造職業(yè)技術(shù)學(xué)院,(沈陽 110161)
傳統(tǒng)的自主學(xué)習(xí)需要一組足夠多的已標(biāo)記樣例作為訓(xùn)練集,否則無法獲得足夠泛化性能的自主學(xué)習(xí)方法,而在實(shí)際應(yīng)用中,得到大量標(biāo)記樣例是非常困難的,甚至無法實(shí)現(xiàn);試圖通過發(fā)現(xiàn)未標(biāo)記樣例中的隱含結(jié)構(gòu),從而構(gòu)造出相應(yīng)的學(xué)習(xí)器,這導(dǎo)致自主學(xué)習(xí)通常很難保證較高的學(xué)習(xí)精度。因此,將少量帶標(biāo)記樣例和大量無標(biāo)記樣例結(jié)合的半自主學(xué)習(xí)成為機(jī)器學(xué)習(xí)研究熱點(diǎn)。
Tri-training算法是Zhou等提出的一種新的Co-training模式半監(jiān)督分類算法,本文提出一種能夠降低誤標(biāo)記樣例數(shù)的ART算法。該算法結(jié)合SVM自主學(xué)習(xí)輔助策略和富信息策略到Tri-training學(xué)習(xí)過程,在每次迭代生成新訓(xùn)練集時(shí),首先用SVM自主學(xué)習(xí)輔助策略降低新標(biāo)記樣例中可能的誤標(biāo)記樣例數(shù)以減少新訓(xùn)練集的噪聲,其次采用富信息策略訓(xùn)練學(xué)習(xí)器,獲得另一個(gè)學(xué)習(xí)模型;重復(fù)這個(gè)過程,直到滿足停止準(zhǔn)則,學(xué)習(xí)過程結(jié)束。實(shí)驗(yàn)表明,ART算法優(yōu)于Tri-training算法。
假設(shè)初始少量帶標(biāo)記的樣例集為L(zhǎng),由L訓(xùn)練得到3個(gè)不同的初始學(xué)習(xí)器H1,H2和H3,x是無標(biāo)記樣例集U內(nèi)任意一點(diǎn),Tri-training迭代訓(xùn)練基本過程為:如果H2和H3對(duì)x的分類結(jié)果H2(x)和H3(x)一致,那么可將x標(biāo)記為H2(x)并加入H1的訓(xùn)練集,如此 形成H1的新訓(xùn)練集S1=L∪{x|x∈U且H2(x)=H3(x)}。類似地,H2和H3的訓(xùn)練集也分別擴(kuò)充為S2和S3,然后3個(gè)學(xué)習(xí)器重新訓(xùn)練,如此重復(fù)迭代,直至H1,H2,H3都沒有變化,訓(xùn)練過程結(jié)束。
顯然,Tri-training迭代訓(xùn)練過程中H2和H3共同標(biāo)記x為H2(x),并給H1作訓(xùn)練數(shù)據(jù)時(shí),如果準(zhǔn)確性足夠高,會(huì)優(yōu)化H1的訓(xùn)練結(jié)果,否則會(huì)在H1的訓(xùn)練集中加入噪聲,影響訓(xùn)練效果。為此,Zhou等分析得出一個(gè)能使假設(shè)分類錯(cuò)誤率迭代降低的充分條件,并以該充分條件作為判斷準(zhǔn)則來決定新標(biāo)記的樣例集是否應(yīng)該被加入新訓(xùn)練集。由于Tri-training算法所采用的判斷準(zhǔn)則不僅沒有移除噪聲,而且限制了無標(biāo)記樣例被加入新訓(xùn)練集的數(shù)量,因此導(dǎo)致Tri-training算法不能充分地利用無標(biāo)記樣例,進(jìn)而提出本文算法。
對(duì)機(jī)器學(xué)習(xí)來說,采樣策略是必須的。富信息策略是一種特殊的采樣策略,即,一個(gè)弱學(xué)習(xí)器不能很好學(xué)習(xí)的樣例,將盡可能成為下一個(gè)弱學(xué)習(xí)器著重學(xué)習(xí)的樣例。本文中,“富信息”樣本的選取方法:如果某個(gè)樣例被當(dāng)前弱學(xué)習(xí)器準(zhǔn)確分類,則在構(gòu)造下一個(gè)分量學(xué)習(xí)器的訓(xùn)練集時(shí),它被選中的概率為0;相反,如果某個(gè)樣例沒有被正確分類,則它入選下一個(gè)分量學(xué)習(xí)器訓(xùn)練集的概率為1。通過這種方式,學(xué)習(xí)器能夠聚焦于那些比較容易出現(xiàn)錯(cuò)分的樣本,從而使學(xué)習(xí)器獲得較好的學(xué)習(xí)效果,提高分類精度。
算法的基本設(shè)置是給定一個(gè)具有N類數(shù)據(jù)的已標(biāo)記樣例集、驗(yàn)證集、無標(biāo)記樣例集以及測(cè)試集,所采用的三個(gè)分量學(xué)習(xí)器為SVM1(多項(xiàng)式核函數(shù))、KNCN、SVM2(RBF核函數(shù)),輔助學(xué)習(xí)器為SVM3(線性核函數(shù)),當(dāng)在驗(yàn)證集上的集成測(cè)試達(dá)到穩(wěn)定狀態(tài)后算法終止。
本實(shí)驗(yàn)共150個(gè)音頻數(shù)據(jù),其中包括:有說話聲樣本、音樂鈴聲、各種動(dòng)物聲音、環(huán)境音以及交通工具聲等。音頻數(shù)據(jù)的長(zhǎng)度為4s,采樣率為8kHz,量化精度為16Bit。實(shí)驗(yàn)中采用的音頻信號(hào)幀長(zhǎng)為32ms、幀移10ms、預(yù)加重系數(shù)α取0.97、Mel濾波器的個(gè)數(shù)為24,并提取每個(gè)訓(xùn)練樣本的14維特征:第3層小波低頻系數(shù)的MFCC均值、質(zhì)心方差、譜熵方差。
為比較驗(yàn)證Tri-training算法、僅采用富信息策略R-Tri-training算法以及結(jié)合富信息策略與輔助學(xué)習(xí)策略ART,本文對(duì)已標(biāo)記樣例數(shù)為5、10、20,無標(biāo)記樣例數(shù)分別為1、10、20、30、40、50、60的情況進(jìn)行了以上3種算法的實(shí)驗(yàn)。所進(jìn)行的實(shí)驗(yàn)都是基于相同的驗(yàn)證集、測(cè)試集,標(biāo)記樣例數(shù)和無標(biāo)記樣例在測(cè)試集上測(cè)試率的比較結(jié)果如圖1所示。
通過實(shí)驗(yàn)結(jié)果可得出,在具有相同已標(biāo)記樣例,無標(biāo)記樣例比例的情況下,本文算法優(yōu)于前兩者算法。
在已標(biāo)記樣例個(gè)數(shù)相同的情況下,由于Tri-training算法不能充分地利用無標(biāo)記樣例,因此Tri-training算法的測(cè)試率逐漸降低;然而R-Tri-training算法在Tri-training算法的基礎(chǔ)上添加驗(yàn)證集,能夠使得算法聚焦于出錯(cuò)樣本,從而提高測(cè)試率,但噪聲數(shù)據(jù)依然存在;本文算法在增加1個(gè)學(xué)習(xí)器的基礎(chǔ)上結(jié)合富信息策略與輔助策略,達(dá)到降低誤標(biāo)記樣例的目的,充分地利用無標(biāo)記樣例的信息,進(jìn)一步提高測(cè)試率,并且體現(xiàn)半自主學(xué)習(xí)的本質(zhì)特點(diǎn)。
同時(shí),為了證明本文算法具有降低噪聲的能力,我們對(duì)ART算法、RT算法在訓(xùn)練過程中所出現(xiàn)的噪聲數(shù)進(jìn)行了統(tǒng)計(jì)。在已標(biāo)記樣例數(shù)為10的情況下,無標(biāo)記樣例數(shù)分別為10、20、30、40、50、60的統(tǒng)計(jì)結(jié)果如表1所示。從表中我們很容易看出,本文算法ART有效的降低了噪聲。隨著樣本數(shù)的增加,ART算法優(yōu)于R-Tri-training算法,如,無標(biāo)記樣本數(shù)為60時(shí),本文算法統(tǒng)計(jì)結(jié)果是4,而R-Tri-training統(tǒng)計(jì)結(jié)果是18。由此可見,本文算法結(jié)合富信息策略與輔助策略,充分利用了無標(biāo)記樣例信息,有效的降低了誤標(biāo)記樣例,起到了降低噪聲的能力。
表1 兩種算法在訓(xùn)練過程中出現(xiàn)的噪聲數(shù)統(tǒng)計(jì)結(jié)果
針對(duì)Tri-training算法引起積累噪聲以及無標(biāo)記樣例利用率低,本文提出了基于輔助學(xué)習(xí)的ART算法,并將其引入說話聲識(shí)別。該算法采用富信息策略,使得錯(cuò)分樣例成為弱學(xué)習(xí)器著重學(xué)習(xí)的樣例,從而提高學(xué)習(xí)器的分類精度;采用輔助學(xué)習(xí)策略,能夠有效地降低ART算法訓(xùn)練過程中積累的噪聲,同時(shí)提高了無標(biāo)記樣例的利用率。實(shí)驗(yàn)驗(yàn)證了該算法在噪聲性能方面的有效性。
[1]李昆侖,張偉,代運(yùn)娜.基于Tri-training的半監(jiān)督SVM[J].計(jì)算機(jī)工程與應(yīng)用.2009,45(22):103-106.
[2]張雁,呂丹桔,吳保國(guó).基于Tri-Training半監(jiān)督分類算法的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013,23(7):77-79.
[3]鄧超,郭茂祖.基于自適應(yīng)數(shù)據(jù)剪輯策略的Tri-training算法[J].計(jì)算機(jī)學(xué)報(bào),2007,30(8):1213-1226.
[4]徐慶伶,汪西莉.一種基于支持向量機(jī)的半監(jiān)督分類方法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(10):115-117.