摘要 針對(duì)當(dāng)前主動(dòng)學(xué)習(xí)策略直接用于SVM分類器時(shí)存在的泛化能力不強(qiáng)的問(wèn)題,結(jié)合協(xié)同訓(xùn)練思想,提出了兩層主動(dòng)學(xué)習(xí)策略(TLAC),并用于SVM深層挖掘未標(biāo)記樣本數(shù)據(jù)的分布知識(shí).實(shí)驗(yàn)表明,該TLAC策略能夠合理的指定TSVM算法中的正樣本數(shù),在典型指標(biāo)測(cè)試中都表現(xiàn)出了一定的優(yōu)越性.
關(guān)鍵詞 協(xié)同訓(xùn)練;主動(dòng)學(xué)習(xí);貝葉斯網(wǎng)絡(luò);支持向量機(jī)
中圖分類號(hào) TP315 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào)-1000-2537(2014)01-0090-05
在傳統(tǒng)的學(xué)習(xí)機(jī)技術(shù)中,學(xué)習(xí)器的學(xué)習(xí)主要針對(duì)帶有標(biāo)記的樣本數(shù)據(jù),而且通過(guò)模擬建立的模型主要用于對(duì)有標(biāo)記的樣本數(shù)據(jù)集進(jìn)行數(shù)據(jù)的預(yù)測(cè)和推斷,并在分類問(wèn)題中標(biāo)記出樣本數(shù)據(jù)的類別.由于目前數(shù)據(jù)收集技術(shù)的快速發(fā)展和逐步提高,在收集數(shù)據(jù)時(shí)對(duì)未標(biāo)記樣本數(shù)據(jù)的收集十分容易,而在獲取大量有標(biāo)記的樣本數(shù)據(jù)時(shí)比較困難,這是因?yàn)樵讷@取有標(biāo)記樣本數(shù)據(jù)時(shí)需要耗費(fèi)大量的人力、財(cái)力、物力等資源.而利用少量有標(biāo)記樣本數(shù)據(jù)訓(xùn)練出的學(xué)習(xí)器往往泛化能力并不強(qiáng).那么如何在有標(biāo)記樣本數(shù)據(jù)較少的情況下,通過(guò)利用大量的不帶標(biāo)記樣本數(shù)據(jù)來(lái)改善學(xué)習(xí)器的性能已經(jīng)成為目前機(jī)器學(xué)習(xí)研究的熱點(diǎn)之一.
1研究現(xiàn)狀
文獻(xiàn)[1]首次將主動(dòng)學(xué)習(xí)策略用于支持向量機(jī)(Support Vector Machine,SVM)算法中,文中利用主動(dòng)學(xué)習(xí)策略選取SVM分類器最有可能預(yù)測(cè)的樣本,根據(jù)這些樣本盡可能地簡(jiǎn)約SVM分類器超平面所在的版本空間,從而得到最有可能近似正確劃分所有樣本的超平面.實(shí)驗(yàn)分析也指出對(duì)直推支持向量機(jī)(Transducive Support Vector Machine, TSVM)采用文中所提的主動(dòng)查詢策略在某些情況下不如隨機(jī)查詢效果好.文獻(xiàn)[2]利用主動(dòng)學(xué)習(xí)策略并結(jié)合高斯隨機(jī)場(chǎng)和諧波函數(shù)對(duì)學(xué)習(xí)器進(jìn)行半監(jiān)督形式的學(xué)習(xí),該策略首先通過(guò)樣本數(shù)據(jù)訓(xùn)練建立一個(gè)圖,圖中建立的每個(gè)節(jié)點(diǎn)都代表一個(gè)(有標(biāo)記或未標(biāo)記)樣本數(shù)據(jù),然后通過(guò)求解對(duì)應(yīng)的函數(shù)最優(yōu)值,進(jìn)一步獲取未標(biāo)記樣本數(shù)據(jù)的最優(yōu)標(biāo)記.該文在最后的實(shí)驗(yàn)分析中指出如果利用結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則去主動(dòng)查詢訓(xùn)練SVM,所得到的精度甚至不如直接在SVM上隨機(jī)查詢所得的訓(xùn)練精度.文獻(xiàn)[3]提出的基于SVM的主動(dòng)學(xué)習(xí)方法,采用版本空間和邊緣方法選取樣本的標(biāo)記,其主要思想是反復(fù)選擇離分類超平面最近的未標(biāo)記樣本標(biāo)注直至達(dá)到設(shè)定閾值停止.文獻(xiàn)[4]則對(duì)文中提出的方法進(jìn)行改進(jìn),提出了一種基于不確定選樣和確定選擇相結(jié)合的主動(dòng)學(xué)習(xí)方法,并應(yīng)用于淺層語(yǔ)義分析的任務(wù).
基于上述文獻(xiàn)分析,目前基于SVM的學(xué)習(xí)存在下面兩個(gè)問(wèn)題:(1)對(duì)于錯(cuò)誤樣本標(biāo)記敏感,如果初始的SVM分類超平面位置不好,需要很長(zhǎng)時(shí)間才能移動(dòng)到合理的位置,甚至受錯(cuò)誤標(biāo)記影響較大時(shí),分類超平面會(huì)一直停留在不合理的位置:(2)基于SVM的主動(dòng)學(xué)習(xí)在查詢的中后期,查詢的點(diǎn)大部分位于SVM分類超平面附近,使得算法的泛化能力不強(qiáng).
2兩層主動(dòng)學(xué)習(xí)策略
2.1直推支持向量機(jī)設(shè)計(jì)
因?yàn)閿?shù)據(jù)集中的標(biāo)記樣本是在數(shù)據(jù)集中隨機(jī)選取的,如果初始分類超平面處在不合理的位置,利用TSVM訓(xùn)練得到的準(zhǔn)確率也可能不太好.從圖1可以看出,在處理1類和3類時(shí),我們的算法準(zhǔn)確率更高,這是因?yàn)門SVM在初始估計(jì)的正樣本數(shù)和真實(shí)值之間相差較大.但是1類和3類的召回率有所下降,這是因?yàn)檫@兩類維數(shù)較高,由于高維特征空間映射時(shí)可能導(dǎo)致樣本相對(duì)位置改變,從而影響分類器的決策.4類的樣本分布不均勻?qū)е铝司扔兴陆?
4結(jié)束語(yǔ)
針對(duì)當(dāng)前TSVM算法存在的問(wèn)題和主動(dòng)學(xué)習(xí)策略用于SVM分類器的缺陷,本文提出了一種基于貝葉斯的主動(dòng)學(xué)習(xí)選取樣本策略用于TSVM算法中,在一定程度上解決了TSVM算法指定正樣本的問(wèn)題,同時(shí)也使主動(dòng)學(xué)習(xí)策略能在全局分布上進(jìn)行查詢樣本,進(jìn)而使SVM分類器的超平面移動(dòng)到合理的位置.由于貝葉斯分類器也有其固有的假設(shè)性缺陷,本文的后續(xù)工作是進(jìn)一步改進(jìn)主動(dòng)學(xué)習(xí)策略,挖掘未標(biāo)記數(shù)據(jù)的潛在分布知識(shí),并用真實(shí)數(shù)據(jù)集加以測(cè)試.
參考文獻(xiàn):
[1]袁勛,吳秀清,洪日昌. 基于主動(dòng)學(xué)習(xí)SVM分類器的視頻分類[J]. 中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào), 2009,39(5):473478.
[2]趙英剛,陳奇,何欽銘.一種基于支持向量機(jī)的直推式學(xué)習(xí)算法[J].江南大學(xué)學(xué)報(bào):自然科學(xué)版, 2006,26(8):441444.
[3]陳耀東,王挺,陳火旺.半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)相結(jié)合的淺層次語(yǔ)義分析[J].中文信息學(xué)報(bào), 2008,22(2):7075.
[3]CHEN Y D, WANG T, CHEN H W. Combining semisupervised learning and active learning for shallow semantic parsing[J]. J Chin Infor Proc, 2008,22(2):7075.
[4]劉端陽(yáng),邱衛(wèi)杰. 基于SVM期望間隔的多標(biāo)簽分類的主動(dòng)學(xué)習(xí)[J].計(jì)算機(jī)科學(xué), 2011,38(4): 230233.
[5]劉端陽(yáng),邱衛(wèi)杰. 基于加權(quán)SVM主動(dòng)學(xué)習(xí)的多標(biāo)簽分類[J].計(jì)算機(jī)工程, 2011,37(8):181183.
[6]趙衛(wèi)中,馬慧芳,李志清. 一種結(jié)合主動(dòng)學(xué)習(xí)的半監(jiān)督文檔聚類算法[J]. 軟件學(xué)報(bào), 2012,23(6):14861499.
[7]白龍飛, 王文劍, 郭虎升. 一種新的支持向量機(jī)主動(dòng)學(xué)習(xí)策略[J]. 南京大學(xué)學(xué)報(bào):自然科學(xué)版, 2012,48(2):182189.
[8]楊穎濤,王躍鋼,鄧衛(wèi)強(qiáng),等. 基于共軛先驗(yàn)分布的貝葉斯網(wǎng)絡(luò)分類模型[J].控制與決策, 2012,27(9):13931397.
[9]王中鋒,王志海. 基于條件對(duì)數(shù)似然函數(shù)導(dǎo)數(shù)的貝葉斯網(wǎng)絡(luò)分類器優(yōu)化算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2012,35(2):364374.
[10]曾杰鵬, 廖芹, 谷志元. 基于結(jié)構(gòu)繼承的貝葉斯網(wǎng)結(jié)構(gòu)學(xué)習(xí)優(yōu)化設(shè)計(jì)[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2012,33(7):27822786.
[11]張曉宇. 基于動(dòng)態(tài)可行域劃分的SVM主動(dòng)學(xué)習(xí)[J].計(jì)算機(jī)科學(xué), 2012,39(7):175178.
[12]吳偉寧,劉揚(yáng),郭茂祖. 基于采樣策略的主動(dòng)學(xué)習(xí)算法研究進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展, 2012,19(6):11621173.
[13]戴上平,姬盈利,王華. 基于多群協(xié)同人工魚(yú)群算法的分類規(guī)則提取算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2012,29(5):16661669.
[14]MERZ C, MURPHY P, AHA W. UCI Repository of machine learning databases[D].Irvine: Department of Information and Computer Science, University of California, 1997.
[15]謝科. 基于可分辨矩陣的屬性集依賴度計(jì)算方法[J]. 湖南師范大學(xué)自然科學(xué)學(xué)報(bào), 2012,35(6):1316.
(編輯沈小玲)
摘要 針對(duì)當(dāng)前主動(dòng)學(xué)習(xí)策略直接用于SVM分類器時(shí)存在的泛化能力不強(qiáng)的問(wèn)題,結(jié)合協(xié)同訓(xùn)練思想,提出了兩層主動(dòng)學(xué)習(xí)策略(TLAC),并用于SVM深層挖掘未標(biāo)記樣本數(shù)據(jù)的分布知識(shí).實(shí)驗(yàn)表明,該TLAC策略能夠合理的指定TSVM算法中的正樣本數(shù),在典型指標(biāo)測(cè)試中都表現(xiàn)出了一定的優(yōu)越性.
關(guān)鍵詞 協(xié)同訓(xùn)練;主動(dòng)學(xué)習(xí);貝葉斯網(wǎng)絡(luò);支持向量機(jī)
中圖分類號(hào) TP315 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào)-1000-2537(2014)01-0090-05
在傳統(tǒng)的學(xué)習(xí)機(jī)技術(shù)中,學(xué)習(xí)器的學(xué)習(xí)主要針對(duì)帶有標(biāo)記的樣本數(shù)據(jù),而且通過(guò)模擬建立的模型主要用于對(duì)有標(biāo)記的樣本數(shù)據(jù)集進(jìn)行數(shù)據(jù)的預(yù)測(cè)和推斷,并在分類問(wèn)題中標(biāo)記出樣本數(shù)據(jù)的類別.由于目前數(shù)據(jù)收集技術(shù)的快速發(fā)展和逐步提高,在收集數(shù)據(jù)時(shí)對(duì)未標(biāo)記樣本數(shù)據(jù)的收集十分容易,而在獲取大量有標(biāo)記的樣本數(shù)據(jù)時(shí)比較困難,這是因?yàn)樵讷@取有標(biāo)記樣本數(shù)據(jù)時(shí)需要耗費(fèi)大量的人力、財(cái)力、物力等資源.而利用少量有標(biāo)記樣本數(shù)據(jù)訓(xùn)練出的學(xué)習(xí)器往往泛化能力并不強(qiáng).那么如何在有標(biāo)記樣本數(shù)據(jù)較少的情況下,通過(guò)利用大量的不帶標(biāo)記樣本數(shù)據(jù)來(lái)改善學(xué)習(xí)器的性能已經(jīng)成為目前機(jī)器學(xué)習(xí)研究的熱點(diǎn)之一.
1研究現(xiàn)狀
文獻(xiàn)[1]首次將主動(dòng)學(xué)習(xí)策略用于支持向量機(jī)(Support Vector Machine,SVM)算法中,文中利用主動(dòng)學(xué)習(xí)策略選取SVM分類器最有可能預(yù)測(cè)的樣本,根據(jù)這些樣本盡可能地簡(jiǎn)約SVM分類器超平面所在的版本空間,從而得到最有可能近似正確劃分所有樣本的超平面.實(shí)驗(yàn)分析也指出對(duì)直推支持向量機(jī)(Transducive Support Vector Machine, TSVM)采用文中所提的主動(dòng)查詢策略在某些情況下不如隨機(jī)查詢效果好.文獻(xiàn)[2]利用主動(dòng)學(xué)習(xí)策略并結(jié)合高斯隨機(jī)場(chǎng)和諧波函數(shù)對(duì)學(xué)習(xí)器進(jìn)行半監(jiān)督形式的學(xué)習(xí),該策略首先通過(guò)樣本數(shù)據(jù)訓(xùn)練建立一個(gè)圖,圖中建立的每個(gè)節(jié)點(diǎn)都代表一個(gè)(有標(biāo)記或未標(biāo)記)樣本數(shù)據(jù),然后通過(guò)求解對(duì)應(yīng)的函數(shù)最優(yōu)值,進(jìn)一步獲取未標(biāo)記樣本數(shù)據(jù)的最優(yōu)標(biāo)記.該文在最后的實(shí)驗(yàn)分析中指出如果利用結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則去主動(dòng)查詢訓(xùn)練SVM,所得到的精度甚至不如直接在SVM上隨機(jī)查詢所得的訓(xùn)練精度.文獻(xiàn)[3]提出的基于SVM的主動(dòng)學(xué)習(xí)方法,采用版本空間和邊緣方法選取樣本的標(biāo)記,其主要思想是反復(fù)選擇離分類超平面最近的未標(biāo)記樣本標(biāo)注直至達(dá)到設(shè)定閾值停止.文獻(xiàn)[4]則對(duì)文中提出的方法進(jìn)行改進(jìn),提出了一種基于不確定選樣和確定選擇相結(jié)合的主動(dòng)學(xué)習(xí)方法,并應(yīng)用于淺層語(yǔ)義分析的任務(wù).
基于上述文獻(xiàn)分析,目前基于SVM的學(xué)習(xí)存在下面兩個(gè)問(wèn)題:(1)對(duì)于錯(cuò)誤樣本標(biāo)記敏感,如果初始的SVM分類超平面位置不好,需要很長(zhǎng)時(shí)間才能移動(dòng)到合理的位置,甚至受錯(cuò)誤標(biāo)記影響較大時(shí),分類超平面會(huì)一直停留在不合理的位置:(2)基于SVM的主動(dòng)學(xué)習(xí)在查詢的中后期,查詢的點(diǎn)大部分位于SVM分類超平面附近,使得算法的泛化能力不強(qiáng).
2兩層主動(dòng)學(xué)習(xí)策略
2.1直推支持向量機(jī)設(shè)計(jì)
因?yàn)閿?shù)據(jù)集中的標(biāo)記樣本是在數(shù)據(jù)集中隨機(jī)選取的,如果初始分類超平面處在不合理的位置,利用TSVM訓(xùn)練得到的準(zhǔn)確率也可能不太好.從圖1可以看出,在處理1類和3類時(shí),我們的算法準(zhǔn)確率更高,這是因?yàn)門SVM在初始估計(jì)的正樣本數(shù)和真實(shí)值之間相差較大.但是1類和3類的召回率有所下降,這是因?yàn)檫@兩類維數(shù)較高,由于高維特征空間映射時(shí)可能導(dǎo)致樣本相對(duì)位置改變,從而影響分類器的決策.4類的樣本分布不均勻?qū)е铝司扔兴陆?
4結(jié)束語(yǔ)
針對(duì)當(dāng)前TSVM算法存在的問(wèn)題和主動(dòng)學(xué)習(xí)策略用于SVM分類器的缺陷,本文提出了一種基于貝葉斯的主動(dòng)學(xué)習(xí)選取樣本策略用于TSVM算法中,在一定程度上解決了TSVM算法指定正樣本的問(wèn)題,同時(shí)也使主動(dòng)學(xué)習(xí)策略能在全局分布上進(jìn)行查詢樣本,進(jìn)而使SVM分類器的超平面移動(dòng)到合理的位置.由于貝葉斯分類器也有其固有的假設(shè)性缺陷,本文的后續(xù)工作是進(jìn)一步改進(jìn)主動(dòng)學(xué)習(xí)策略,挖掘未標(biāo)記數(shù)據(jù)的潛在分布知識(shí),并用真實(shí)數(shù)據(jù)集加以測(cè)試.
參考文獻(xiàn):
[1]袁勛,吳秀清,洪日昌. 基于主動(dòng)學(xué)習(xí)SVM分類器的視頻分類[J]. 中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào), 2009,39(5):473478.
[2]趙英剛,陳奇,何欽銘.一種基于支持向量機(jī)的直推式學(xué)習(xí)算法[J].江南大學(xué)學(xué)報(bào):自然科學(xué)版, 2006,26(8):441444.
[3]陳耀東,王挺,陳火旺.半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)相結(jié)合的淺層次語(yǔ)義分析[J].中文信息學(xué)報(bào), 2008,22(2):7075.
[3]CHEN Y D, WANG T, CHEN H W. Combining semisupervised learning and active learning for shallow semantic parsing[J]. J Chin Infor Proc, 2008,22(2):7075.
[4]劉端陽(yáng),邱衛(wèi)杰. 基于SVM期望間隔的多標(biāo)簽分類的主動(dòng)學(xué)習(xí)[J].計(jì)算機(jī)科學(xué), 2011,38(4): 230233.
[5]劉端陽(yáng),邱衛(wèi)杰. 基于加權(quán)SVM主動(dòng)學(xué)習(xí)的多標(biāo)簽分類[J].計(jì)算機(jī)工程, 2011,37(8):181183.
[6]趙衛(wèi)中,馬慧芳,李志清. 一種結(jié)合主動(dòng)學(xué)習(xí)的半監(jiān)督文檔聚類算法[J]. 軟件學(xué)報(bào), 2012,23(6):14861499.
[7]白龍飛, 王文劍, 郭虎升. 一種新的支持向量機(jī)主動(dòng)學(xué)習(xí)策略[J]. 南京大學(xué)學(xué)報(bào):自然科學(xué)版, 2012,48(2):182189.
[8]楊穎濤,王躍鋼,鄧衛(wèi)強(qiáng),等. 基于共軛先驗(yàn)分布的貝葉斯網(wǎng)絡(luò)分類模型[J].控制與決策, 2012,27(9):13931397.
[9]王中鋒,王志海. 基于條件對(duì)數(shù)似然函數(shù)導(dǎo)數(shù)的貝葉斯網(wǎng)絡(luò)分類器優(yōu)化算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2012,35(2):364374.
[10]曾杰鵬, 廖芹, 谷志元. 基于結(jié)構(gòu)繼承的貝葉斯網(wǎng)結(jié)構(gòu)學(xué)習(xí)優(yōu)化設(shè)計(jì)[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2012,33(7):27822786.
[11]張曉宇. 基于動(dòng)態(tài)可行域劃分的SVM主動(dòng)學(xué)習(xí)[J].計(jì)算機(jī)科學(xué), 2012,39(7):175178.
[12]吳偉寧,劉揚(yáng),郭茂祖. 基于采樣策略的主動(dòng)學(xué)習(xí)算法研究進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展, 2012,19(6):11621173.
[13]戴上平,姬盈利,王華. 基于多群協(xié)同人工魚(yú)群算法的分類規(guī)則提取算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2012,29(5):16661669.
[14]MERZ C, MURPHY P, AHA W. UCI Repository of machine learning databases[D].Irvine: Department of Information and Computer Science, University of California, 1997.
[15]謝科. 基于可分辨矩陣的屬性集依賴度計(jì)算方法[J]. 湖南師范大學(xué)自然科學(xué)學(xué)報(bào), 2012,35(6):1316.
(編輯沈小玲)
摘要 針對(duì)當(dāng)前主動(dòng)學(xué)習(xí)策略直接用于SVM分類器時(shí)存在的泛化能力不強(qiáng)的問(wèn)題,結(jié)合協(xié)同訓(xùn)練思想,提出了兩層主動(dòng)學(xué)習(xí)策略(TLAC),并用于SVM深層挖掘未標(biāo)記樣本數(shù)據(jù)的分布知識(shí).實(shí)驗(yàn)表明,該TLAC策略能夠合理的指定TSVM算法中的正樣本數(shù),在典型指標(biāo)測(cè)試中都表現(xiàn)出了一定的優(yōu)越性.
關(guān)鍵詞 協(xié)同訓(xùn)練;主動(dòng)學(xué)習(xí);貝葉斯網(wǎng)絡(luò);支持向量機(jī)
中圖分類號(hào) TP315 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào)-1000-2537(2014)01-0090-05
在傳統(tǒng)的學(xué)習(xí)機(jī)技術(shù)中,學(xué)習(xí)器的學(xué)習(xí)主要針對(duì)帶有標(biāo)記的樣本數(shù)據(jù),而且通過(guò)模擬建立的模型主要用于對(duì)有標(biāo)記的樣本數(shù)據(jù)集進(jìn)行數(shù)據(jù)的預(yù)測(cè)和推斷,并在分類問(wèn)題中標(biāo)記出樣本數(shù)據(jù)的類別.由于目前數(shù)據(jù)收集技術(shù)的快速發(fā)展和逐步提高,在收集數(shù)據(jù)時(shí)對(duì)未標(biāo)記樣本數(shù)據(jù)的收集十分容易,而在獲取大量有標(biāo)記的樣本數(shù)據(jù)時(shí)比較困難,這是因?yàn)樵讷@取有標(biāo)記樣本數(shù)據(jù)時(shí)需要耗費(fèi)大量的人力、財(cái)力、物力等資源.而利用少量有標(biāo)記樣本數(shù)據(jù)訓(xùn)練出的學(xué)習(xí)器往往泛化能力并不強(qiáng).那么如何在有標(biāo)記樣本數(shù)據(jù)較少的情況下,通過(guò)利用大量的不帶標(biāo)記樣本數(shù)據(jù)來(lái)改善學(xué)習(xí)器的性能已經(jīng)成為目前機(jī)器學(xué)習(xí)研究的熱點(diǎn)之一.
1研究現(xiàn)狀
文獻(xiàn)[1]首次將主動(dòng)學(xué)習(xí)策略用于支持向量機(jī)(Support Vector Machine,SVM)算法中,文中利用主動(dòng)學(xué)習(xí)策略選取SVM分類器最有可能預(yù)測(cè)的樣本,根據(jù)這些樣本盡可能地簡(jiǎn)約SVM分類器超平面所在的版本空間,從而得到最有可能近似正確劃分所有樣本的超平面.實(shí)驗(yàn)分析也指出對(duì)直推支持向量機(jī)(Transducive Support Vector Machine, TSVM)采用文中所提的主動(dòng)查詢策略在某些情況下不如隨機(jī)查詢效果好.文獻(xiàn)[2]利用主動(dòng)學(xué)習(xí)策略并結(jié)合高斯隨機(jī)場(chǎng)和諧波函數(shù)對(duì)學(xué)習(xí)器進(jìn)行半監(jiān)督形式的學(xué)習(xí),該策略首先通過(guò)樣本數(shù)據(jù)訓(xùn)練建立一個(gè)圖,圖中建立的每個(gè)節(jié)點(diǎn)都代表一個(gè)(有標(biāo)記或未標(biāo)記)樣本數(shù)據(jù),然后通過(guò)求解對(duì)應(yīng)的函數(shù)最優(yōu)值,進(jìn)一步獲取未標(biāo)記樣本數(shù)據(jù)的最優(yōu)標(biāo)記.該文在最后的實(shí)驗(yàn)分析中指出如果利用結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則去主動(dòng)查詢訓(xùn)練SVM,所得到的精度甚至不如直接在SVM上隨機(jī)查詢所得的訓(xùn)練精度.文獻(xiàn)[3]提出的基于SVM的主動(dòng)學(xué)習(xí)方法,采用版本空間和邊緣方法選取樣本的標(biāo)記,其主要思想是反復(fù)選擇離分類超平面最近的未標(biāo)記樣本標(biāo)注直至達(dá)到設(shè)定閾值停止.文獻(xiàn)[4]則對(duì)文中提出的方法進(jìn)行改進(jìn),提出了一種基于不確定選樣和確定選擇相結(jié)合的主動(dòng)學(xué)習(xí)方法,并應(yīng)用于淺層語(yǔ)義分析的任務(wù).
基于上述文獻(xiàn)分析,目前基于SVM的學(xué)習(xí)存在下面兩個(gè)問(wèn)題:(1)對(duì)于錯(cuò)誤樣本標(biāo)記敏感,如果初始的SVM分類超平面位置不好,需要很長(zhǎng)時(shí)間才能移動(dòng)到合理的位置,甚至受錯(cuò)誤標(biāo)記影響較大時(shí),分類超平面會(huì)一直停留在不合理的位置:(2)基于SVM的主動(dòng)學(xué)習(xí)在查詢的中后期,查詢的點(diǎn)大部分位于SVM分類超平面附近,使得算法的泛化能力不強(qiáng).
2兩層主動(dòng)學(xué)習(xí)策略
2.1直推支持向量機(jī)設(shè)計(jì)
因?yàn)閿?shù)據(jù)集中的標(biāo)記樣本是在數(shù)據(jù)集中隨機(jī)選取的,如果初始分類超平面處在不合理的位置,利用TSVM訓(xùn)練得到的準(zhǔn)確率也可能不太好.從圖1可以看出,在處理1類和3類時(shí),我們的算法準(zhǔn)確率更高,這是因?yàn)門SVM在初始估計(jì)的正樣本數(shù)和真實(shí)值之間相差較大.但是1類和3類的召回率有所下降,這是因?yàn)檫@兩類維數(shù)較高,由于高維特征空間映射時(shí)可能導(dǎo)致樣本相對(duì)位置改變,從而影響分類器的決策.4類的樣本分布不均勻?qū)е铝司扔兴陆?
4結(jié)束語(yǔ)
針對(duì)當(dāng)前TSVM算法存在的問(wèn)題和主動(dòng)學(xué)習(xí)策略用于SVM分類器的缺陷,本文提出了一種基于貝葉斯的主動(dòng)學(xué)習(xí)選取樣本策略用于TSVM算法中,在一定程度上解決了TSVM算法指定正樣本的問(wèn)題,同時(shí)也使主動(dòng)學(xué)習(xí)策略能在全局分布上進(jìn)行查詢樣本,進(jìn)而使SVM分類器的超平面移動(dòng)到合理的位置.由于貝葉斯分類器也有其固有的假設(shè)性缺陷,本文的后續(xù)工作是進(jìn)一步改進(jìn)主動(dòng)學(xué)習(xí)策略,挖掘未標(biāo)記數(shù)據(jù)的潛在分布知識(shí),并用真實(shí)數(shù)據(jù)集加以測(cè)試.
參考文獻(xiàn):
[1]袁勛,吳秀清,洪日昌. 基于主動(dòng)學(xué)習(xí)SVM分類器的視頻分類[J]. 中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào), 2009,39(5):473478.
[2]趙英剛,陳奇,何欽銘.一種基于支持向量機(jī)的直推式學(xué)習(xí)算法[J].江南大學(xué)學(xué)報(bào):自然科學(xué)版, 2006,26(8):441444.
[3]陳耀東,王挺,陳火旺.半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)相結(jié)合的淺層次語(yǔ)義分析[J].中文信息學(xué)報(bào), 2008,22(2):7075.
[3]CHEN Y D, WANG T, CHEN H W. Combining semisupervised learning and active learning for shallow semantic parsing[J]. J Chin Infor Proc, 2008,22(2):7075.
[4]劉端陽(yáng),邱衛(wèi)杰. 基于SVM期望間隔的多標(biāo)簽分類的主動(dòng)學(xué)習(xí)[J].計(jì)算機(jī)科學(xué), 2011,38(4): 230233.
[5]劉端陽(yáng),邱衛(wèi)杰. 基于加權(quán)SVM主動(dòng)學(xué)習(xí)的多標(biāo)簽分類[J].計(jì)算機(jī)工程, 2011,37(8):181183.
[6]趙衛(wèi)中,馬慧芳,李志清. 一種結(jié)合主動(dòng)學(xué)習(xí)的半監(jiān)督文檔聚類算法[J]. 軟件學(xué)報(bào), 2012,23(6):14861499.
[7]白龍飛, 王文劍, 郭虎升. 一種新的支持向量機(jī)主動(dòng)學(xué)習(xí)策略[J]. 南京大學(xué)學(xué)報(bào):自然科學(xué)版, 2012,48(2):182189.
[8]楊穎濤,王躍鋼,鄧衛(wèi)強(qiáng),等. 基于共軛先驗(yàn)分布的貝葉斯網(wǎng)絡(luò)分類模型[J].控制與決策, 2012,27(9):13931397.
[9]王中鋒,王志海. 基于條件對(duì)數(shù)似然函數(shù)導(dǎo)數(shù)的貝葉斯網(wǎng)絡(luò)分類器優(yōu)化算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2012,35(2):364374.
[10]曾杰鵬, 廖芹, 谷志元. 基于結(jié)構(gòu)繼承的貝葉斯網(wǎng)結(jié)構(gòu)學(xué)習(xí)優(yōu)化設(shè)計(jì)[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2012,33(7):27822786.
[11]張曉宇. 基于動(dòng)態(tài)可行域劃分的SVM主動(dòng)學(xué)習(xí)[J].計(jì)算機(jī)科學(xué), 2012,39(7):175178.
[12]吳偉寧,劉揚(yáng),郭茂祖. 基于采樣策略的主動(dòng)學(xué)習(xí)算法研究進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展, 2012,19(6):11621173.
[13]戴上平,姬盈利,王華. 基于多群協(xié)同人工魚(yú)群算法的分類規(guī)則提取算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2012,29(5):16661669.
[14]MERZ C, MURPHY P, AHA W. UCI Repository of machine learning databases[D].Irvine: Department of Information and Computer Science, University of California, 1997.
[15]謝科. 基于可分辨矩陣的屬性集依賴度計(jì)算方法[J]. 湖南師范大學(xué)自然科學(xué)學(xué)報(bào), 2012,35(6):1316.
(編輯沈小玲)