顧明亮 ,張世形 ,鮑 薇
1.江蘇師范大學(xué) 物理與電子工程學(xué)院,江蘇 徐州 221116
2.江蘇師范大學(xué) 語(yǔ)言科學(xué)學(xué)院,江蘇 徐州 221116
20世紀(jì)90年代,Dietterich等[1]在對(duì)藥物活性預(yù)測(cè)問(wèn)題的研究中,提出了多示例學(xué)習(xí)的概念,其目的是通過(guò)對(duì)已知適合或不適合制藥的分子進(jìn)行分析來(lái)構(gòu)建一個(gè)學(xué)習(xí)系統(tǒng),以盡可能準(zhǔn)確地預(yù)測(cè)某種分子是否適合制造藥物。此后,國(guó)內(nèi)外很多學(xué)者對(duì)該問(wèn)題進(jìn)行了研究,并應(yīng)用于其他領(lǐng)域:Maron[2]將多示例學(xué)習(xí)應(yīng)用于股票投資中的個(gè)股選擇問(wèn)題;Ruffo[3]將多示例學(xué)習(xí)應(yīng)用于數(shù)據(jù)挖掘;Andrews[4]、Huang[5]、Yang[6]、Zhang 等[7]分別將多示例學(xué)習(xí)用于圖像檢索;Chevaleyre等[8]用多示例學(xué)習(xí)研究了Mutagenesis問(wèn)題并取得了理想成果。在多示例學(xué)習(xí)中,訓(xùn)練樣本的歧義性比較特殊,使得多示例學(xué)習(xí)模型與傳統(tǒng)的機(jī)器學(xué)習(xí)模型有很大差別。多示例學(xué)習(xí)的這種獨(dú)特性質(zhì)和良好的應(yīng)用前景,使得多示例學(xué)習(xí)被稱為與監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)并列的第四種機(jī)器學(xué)習(xí)框架。
多示例學(xué)習(xí)(multi-instance learning)問(wèn)題可描述為:假設(shè)訓(xùn)練數(shù)據(jù)集中的每個(gè)數(shù)據(jù)是一個(gè)包(bag),每個(gè)包是一組示例(instances)集合,有一個(gè)訓(xùn)練標(biāo)記,而包中的示例沒(méi)有標(biāo)記。如果一個(gè)包被標(biāo)記為負(fù)包(negative bag),即用戶不感興趣的訓(xùn)練樣本,則包中的每一個(gè)示例為負(fù)例;如果包被標(biāo)記為正包(positive bag),即用戶感興趣的樣本,則包中至少一個(gè)示例為正例。學(xué)習(xí)算法通過(guò)對(duì)多個(gè)包組成的訓(xùn)練數(shù)據(jù)集進(jìn)行學(xué)習(xí),生成一個(gè)分類(lèi)器,以盡可能正確地對(duì)訓(xùn)練集外的未知包(unseen bag)進(jìn)行預(yù)測(cè)。多示例學(xué)習(xí)框架可以用圖1來(lái)表示。
圖1 多示例學(xué)習(xí)框架示意圖
多示例學(xué)習(xí)提出后,國(guó)內(nèi)外很多學(xué)者對(duì)該問(wèn)題進(jìn)行了研究,并提出了很多有效的算法:Maron等[9]提出了多樣性密度(Diverse Density,DD)算法;Zhang等[10]將多樣性密度算法與EM算法結(jié)合起來(lái),提出了EM-DD算法;Ramon等[11]構(gòu)造了多示例神經(jīng)網(wǎng)絡(luò);Zhou等[12]通過(guò)使用特殊的誤差函數(shù),提出了BP-MIP算法。
多樣性密度算法對(duì)后來(lái)的研究影響很大,很多學(xué)者都在此算法的基礎(chǔ)上進(jìn)行了研究。戴宏斌[13]、王春燕[14]、陳綿書(shū)等[15]以及龍哲[16]分別運(yùn)用多樣性密度算法進(jìn)行了圖像檢索方法的創(chuàng)新與應(yīng)用。目前,還沒(méi)有學(xué)者將多樣性密度算法應(yīng)用于語(yǔ)音識(shí)別中。本文利用多樣性密度算法能夠有效發(fā)掘語(yǔ)音信號(hào)內(nèi)在規(guī)律和分布的特點(diǎn),并提出Instances-k近鄰分類(lèi)算法,探索了一種語(yǔ)音性別識(shí)別的方法。
1998年,Maron等[9]提出了多樣性密度算法。在該算法中,給出了多樣性密度的概念,并規(guī)定在屬性空間中某點(diǎn)周?chē)霈F(xiàn)的正包數(shù)越多,且負(fù)包示例出現(xiàn)得越遠(yuǎn),則該點(diǎn)的多樣性密度越大。多樣性密度點(diǎn)示意圖如圖2所示。
圖2 多樣性密度點(diǎn)示意圖
令代表第i個(gè)正包,代表第i個(gè)負(fù)包,則代表第i個(gè)正包中第j個(gè)示例的第k個(gè)屬性,代表第i個(gè)負(fù)包中第j個(gè)示例的第k個(gè)屬性。對(duì)于特征空間內(nèi)的任一點(diǎn)t,假設(shè)目標(biāo)概念點(diǎn)的概率為:
假設(shè)各包是條件獨(dú)立的,根據(jù)貝葉斯定理,上式可化為:
在實(shí)際應(yīng)用中,Maron使用了“noisy-or”模型,上式可化為:
其中:
Zhang和Goldman提出了EM-DD算法[10],他們將DD算法與EM算法相結(jié)合來(lái)求解目標(biāo)特征t。EM-DD算法首先假設(shè)一個(gè)初始目標(biāo)特征h;然后E步從訓(xùn)練集的每個(gè)示例包中選出最靠近h的示例組成一個(gè)集合;再在M步中,采用梯度搜索法對(duì)E步中獲得的集合進(jìn)行計(jì)算,得到一個(gè)新的使多樣性密度最大的特征點(diǎn)h′,用h′代替h。重復(fù)E步和M步到算法收斂為止。由于DD算法要進(jìn)行多次梯度下降搜索來(lái)求解多樣性密度點(diǎn),計(jì)算時(shí)間比較長(zhǎng),效率不高,而EM-DD算法將多示例轉(zhuǎn)變?yōu)閱我皇纠?,提高了搜索效率?/p>
2.2.1 雙類(lèi)別多樣性密度
雙類(lèi)別多樣性密度的定義:在多類(lèi)別訓(xùn)練樣本集合中,將A類(lèi)訓(xùn)練樣本包標(biāo)記為正,其他類(lèi)別樣本包標(biāo)記為負(fù),通過(guò)EM-DD算法計(jì)算,得到A類(lèi)樣本的正最大多樣性密度點(diǎn)PA;反之,將A類(lèi)樣本包標(biāo)記為負(fù),其他類(lèi)樣本包標(biāo)記為正,則得到A類(lèi)樣本的負(fù)最大多樣性密度點(diǎn)NA。如果待測(cè)未知包為A類(lèi)樣本包,則未知包中包含距離點(diǎn)PA最近和距離點(diǎn)NA最遠(yuǎn)的示例。
雙類(lèi)別多樣性密度的基本思想是對(duì)多類(lèi)別訓(xùn)練樣本集進(jìn)行兩類(lèi)多次標(biāo)記,以獲取訓(xùn)練樣本集的內(nèi)在規(guī)律與分布特點(diǎn)。假設(shè)樣本集合包含A、B、C三類(lèi)數(shù)據(jù),以{A,B,C}樣本集合為例,PA、PB、PC分別代表A、B、C的正最大多樣性密度點(diǎn),NA、NB、NC分別代表A、B、C的負(fù)最大多樣性密度點(diǎn),則各最大多樣性密度點(diǎn)的標(biāo)記方式如表1。
表1 A、B、C的雙類(lèi)別多樣性密度點(diǎn)的標(biāo)記方式
假設(shè)男性最大正、負(fù)多樣性密度點(diǎn)為PM、NM,女性最大正、負(fù)多樣性密度點(diǎn)為PF、NF,則男、女信號(hào)的最大正、負(fù)多樣性密度點(diǎn)通過(guò)圖3表示方式得到。
圖3 男、女信號(hào)的最大正、負(fù)多樣性密度點(diǎn)
語(yǔ)音信號(hào)中只包含男、女兩類(lèi)信號(hào),男性信號(hào)的最大正多樣性密度點(diǎn)PM也是女性信號(hào)的最大負(fù)多樣性密度點(diǎn)NF,同樣,點(diǎn)PF和點(diǎn)NM也為同一點(diǎn)。在語(yǔ)音識(shí)別技術(shù)中提取的語(yǔ)音特征往往是多維的:如32維、64維甚至是128維,因此很難在平面上描繪出樣本數(shù)據(jù)在空間中的具體分布。為了既形象又簡(jiǎn)便地描繪多樣性密度算法原理,本文在繪圖時(shí)將多維數(shù)據(jù)“降維”至二維數(shù)據(jù),此時(shí)在樣本空間中點(diǎn)PM和點(diǎn)PF組成的雙點(diǎn)語(yǔ)言模型如圖4。
圖4 雙點(diǎn)模型下的分類(lèi)判決
需要說(shuō)明的是:在實(shí)際樣本空間中,圖4中虛線圓并不是一個(gè)平面圓,而是一個(gè)多屬性球,屬性數(shù)與提取的語(yǔ)音特征的維數(shù)相同。圖5和圖6采用同樣的描述方式。
圖5 k近鄰分類(lèi)算法
圖6 Instance-k近鄰分類(lèi)算法
在傳統(tǒng)的單點(diǎn)模型中,對(duì)未知包進(jìn)行分類(lèi)判決時(shí),首先需要大量計(jì)算示例空間中最近示例到多樣性密度點(diǎn)的距離作為參考數(shù)據(jù),然后人為地設(shè)置閾值θ。假設(shè)未知包中示例到男性樣本的多樣性密度點(diǎn)的最小Hausdorff距離為distance1,則判決公式如下:
在雙點(diǎn)模型下進(jìn)行分類(lèi)判決時(shí),首先計(jì)算出示例空間中未知包中示例到兩類(lèi)別多樣性密度點(diǎn)的最小Hausdorff距離distance1、distance2,然后比較距離的大小關(guān)系,具體判決準(zhǔn)則如下:
雙點(diǎn)模型下的判決不需要進(jìn)行大量實(shí)驗(yàn)來(lái)人為設(shè)置閾值θ,減小了系統(tǒng)的運(yùn)算次數(shù),節(jié)省了時(shí)間,提高了系統(tǒng)的效率。
2.2.2 Instance-k近鄰分類(lèi)算法
Instance-k近鄰算法的思想來(lái)自于理論上比較成熟的k近鄰分類(lèi)算法。在k近鄰分類(lèi)算法中,如果一個(gè)樣本在特征空間中的k個(gè)最鄰近樣本中的大多數(shù)屬于某一類(lèi)別,則該樣本也屬于這個(gè)類(lèi)別。圖5為k近鄰分類(lèi)算法示意圖。
Instance-k近鄰分類(lèi)算法:在示例空間中,選取未知包中距離各多樣性密度點(diǎn)最近的k個(gè)示例,計(jì)算這k個(gè)示例到各點(diǎn)的Hausdorff距離并求和,未知包屬于Hausdorff距離之和最小的那一類(lèi)。圖6為Instance-k近鄰分類(lèi)算法示意圖。
假設(shè)示例空間中存在三個(gè)多樣性密度點(diǎn)Pa、Pb、Pc,未知包中最近k個(gè)示例到各多樣性密度點(diǎn)的距離表示如下:
未知包類(lèi)別屬于距離最小的多樣性密度點(diǎn)所屬類(lèi)別:
當(dāng)Instance-k近鄰分類(lèi)算法中k=1時(shí),其實(shí)就是示例最近鄰分類(lèi)算法。由圖5可以知道,在示例空間中,如果未知包中存在野點(diǎn)示例,最近鄰分類(lèi)算法會(huì)受到野點(diǎn)示例的影響而錯(cuò)誤分類(lèi)。Instance-k近鄰分類(lèi)算法可以有效地減小示例野點(diǎn)對(duì)分類(lèi)判決的影響,從而盡可能正確地對(duì)未知包進(jìn)行預(yù)測(cè)。
本實(shí)驗(yàn)語(yǔ)音全部采用國(guó)際標(biāo)準(zhǔn)OGI(Oregon Graduate Institute)語(yǔ)音數(shù)據(jù)庫(kù)。OGI語(yǔ)音數(shù)據(jù)庫(kù)包含11種國(guó)家的語(yǔ)言,每種語(yǔ)言都包含男女語(yǔ)音信號(hào),本實(shí)驗(yàn)只選取普通話。訓(xùn)練集共80人,其中男性42人,女性38人;訓(xùn)練語(yǔ)音時(shí)長(zhǎng)約3 840 s,其中男性約1 920 s,女性1 920 s;測(cè)試集時(shí)長(zhǎng)約500 s,男女性各250 s。訓(xùn)練集和測(cè)試集不交叉,采樣頻率為8 kHz,量化比為16 bit。訓(xùn)練集用于多樣性密度點(diǎn)的訓(xùn)練,測(cè)試集用于系統(tǒng)的測(cè)試。
在多示例學(xué)習(xí)中,包的生成至關(guān)重要,本文語(yǔ)音包的生成分為三個(gè)步驟:首先,計(jì)算機(jī)讀取語(yǔ)音信號(hào)后進(jìn)行預(yù)處理和特征提?。蝗缓髮⑻卣骷鶆蚯蟹譃閚段,其中n即為包的個(gè)數(shù);最后,采用k-means算法將每段特征向量集聚類(lèi)為k個(gè)特征向量作為包中示例,k即為包中示例個(gè)數(shù)。圖7是包生成的原理框圖。
圖7 包生成原理圖
其中,預(yù)處理中所用的預(yù)加重濾波器為1-0.95z-1,窗函數(shù)為Hamming窗,語(yǔ)音信號(hào)幀長(zhǎng)取256點(diǎn),幀移為128點(diǎn);由于MFCC特征是性別分類(lèi)中最具區(qū)別性的參數(shù)之一,特征提取時(shí)提取語(yǔ)音信號(hào)的42維MFCC特征,包括對(duì)數(shù)能量、倒譜系數(shù)、一階差分系數(shù)和二階差分。訓(xùn)練包集由所有訓(xùn)練語(yǔ)音連接組成,包的最優(yōu)個(gè)數(shù)n和包中示例數(shù)k將通過(guò)實(shí)驗(yàn)進(jìn)行選擇;每一測(cè)試包由持續(xù)時(shí)長(zhǎng)2.5 s的測(cè)試語(yǔ)音生成,示例數(shù)與訓(xùn)練包中的示例數(shù)相等。
在尋找最優(yōu)數(shù)量的包數(shù)和示例數(shù)時(shí),首先固定示例為32,比較不同包數(shù)對(duì)性別識(shí)別系統(tǒng)的影響。圖8表明當(dāng)訓(xùn)練包的數(shù)目不足200時(shí),同一類(lèi)別的最大多樣性密度點(diǎn)不容易被發(fā)現(xiàn),識(shí)別率不高;當(dāng)訓(xùn)練包數(shù)為200時(shí),識(shí)別率最高,分別為男性93%、女性94%;當(dāng)訓(xùn)練包數(shù)大于200時(shí),系統(tǒng)識(shí)別精度略有下降且趨于穩(wěn)定。綜合考慮計(jì)算成本與識(shí)別率,訓(xùn)練包數(shù)目設(shè)為200。
圖8 包數(shù)對(duì)性別識(shí)別系統(tǒng)的影響
考察示例數(shù)對(duì)性別識(shí)別系統(tǒng)的影響時(shí),固定包數(shù)為200,改變示例的數(shù)量。觀察圖9可以知道,隨著示例數(shù)的增加,識(shí)別率會(huì)先提高后下降,且系統(tǒng)對(duì)示例數(shù)非常敏感。當(dāng)示例數(shù)設(shè)為32時(shí),系統(tǒng)的平均識(shí)別率最高。
圖9 示例數(shù)對(duì)性別識(shí)別系統(tǒng)的影響
確定了訓(xùn)練包數(shù)目為200,示例數(shù)為32后,考察Instance-k近鄰分類(lèi)算法中k的選擇對(duì)系統(tǒng)的影響。從圖10可以看出,隨著k的增加,識(shí)別率先提高后下降。當(dāng)k等于3時(shí),系統(tǒng)識(shí)別率達(dá)到最高值:男性97%,女性98%,提高了系統(tǒng)的識(shí)別率。但是,隨著k值的增加,識(shí)別率也在不斷下降。
圖10 k值對(duì)性別識(shí)別系統(tǒng)的影響
Instance-k近鄰分類(lèi)算法的作用是減小野點(diǎn)示例對(duì)分類(lèi)判決的影響,但隨著k值的增加,即參與計(jì)算的示例數(shù)增加,與多示例學(xué)習(xí)中利用未知包中單一示例進(jìn)行判決的差異性變大,判決結(jié)果可能會(huì)出現(xiàn)錯(cuò)誤,圖10證明了這一點(diǎn)。
利用雙類(lèi)別多樣性密度算法構(gòu)造了一個(gè)雙點(diǎn)語(yǔ)言模型,并在分類(lèi)階段提出了Instance-k近鄰分類(lèi)算法,進(jìn)行了語(yǔ)音性別識(shí)別。實(shí)驗(yàn)結(jié)果表明:采用改進(jìn)多樣性密度算法的多示例學(xué)習(xí)在語(yǔ)音性別識(shí)別上是可行的,系統(tǒng)的平均識(shí)別率最終達(dá)到了97%。
另外,在多示例學(xué)習(xí)問(wèn)題中,包的生成方法非常關(guān)鍵,將直接影響學(xué)習(xí)算法的分類(lèi)結(jié)果。因此,在今后的研究學(xué)習(xí)中,將繼續(xù)探究語(yǔ)音信號(hào)的包生成問(wèn)題,將作為多示例學(xué)習(xí)應(yīng)用于其他語(yǔ)音信號(hào)處理中。
[1]Dietterich T G,Lathrop R H,Lozano P T.Solving the multiple-instance problem with axisparallel rectangles[J].Artificial Intelligence,1997,89(1/2):31-71.
[2]Maron O,Ratan A L.Multiple-instance learning for natural scene classification[C]//Proceedings of ICML,Madison,USA,1998:341-349.
[3]Ruffo G.Learning single and multiple instance decision tree for computer security applications[D].Torino:University of Turin,2000.
[4]Andrews S,Hofman T,Tsochantaridis I.Multiple instance learning with generalized support vector machines[C]//ProceedingsofAAAI/IAAI,Edmonton,Canada,2002:943-944.
[5]Huang X,Chen S C,Shy M L,et al.User concept pattern discovery using relevance feedback and multiple instance learning for content-based image retrieval[C]//Proceedings of MDM/KDD2002 Workshop,Edmomton,Canada,2002:100-108.
[6]Yang C,Lozano P T.Image database retrieval with multipleinstance learning techniques[C]//Proceedings of ICDE,San Diego,USA,2000:233-243.
[7]Zhang Q,Goldman S A,Yu W,et al.Content-based image retirveal using multiple-instance learning[C]//Proceedings of ICML,Sydney,Australian,2002:682-689.
[8]Chevaleyre Y,Zucker J D.Solving multiple-instance and multiple-part learning problems with decision trees and decision rules:application to the mutagenesis problem[C]//Proceedings of LNAI,Berlin,German,2001:204-214.
[9]Maron O,Ratan A L.A framework for multiple-instance learning[C]//Proceedings of NIPS,Cambridge,USA,1998:570-576.
[10]Zhang Q,Goldman S A.EM-DD:an improved multipleinstance learning technique[C]//Proceedings ofNIPS,Cambridge,USA,2001:1073-1080.
[11]Ramon J,Raedt L D.Multi-instance neural networks[C]//Proceedings of ICML,Stanford,USA,2000:53-60.
[12]Zhou Z H,Zhang M L.Neural networks for multi-instance learning[C]//Proceedings of ICIIT,Beijing,2002:455-459.
[13]戴宏斌,張靈敏,周志華.一種基于多示例學(xué)習(xí)的圖像檢索方法[J].模式識(shí)別與人工智能,2006,19(2):179-185.
[14]王春燕,袁津生.一種結(jié)合多示例學(xué)習(xí)的圖像檢索方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2010,19(6):212-215.
[15]陳綿書(shū),楊樹(shù)媛,趙志杰,等.多點(diǎn)多樣性密度算法及其在圖像檢索中的應(yīng)用[J].吉林大學(xué)學(xué)報(bào):工學(xué)版,2011(5):1456-1460.
[16]龍哲.基于多樣性密度的多示例學(xué)習(xí)方法[J].工業(yè)控制計(jì)算機(jī),2012,25(7):73-74.