• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多類分類預(yù)選取的SVM 在語(yǔ)音識(shí)別中的應(yīng)用

      2013-02-22 08:11:00賀元元張雪英劉曉峰
      關(guān)鍵詞:訓(xùn)練樣本詞匯量識(shí)別率

      賀元元,張雪英,劉曉峰

      1.太原理工大學(xué) 信息工程學(xué)院,太原030024

      2.太原理工大學(xué) 理學(xué)院 數(shù)學(xué)系,太原030024

      1 引言

      語(yǔ)音識(shí)別技術(shù)是人機(jī)交互的基礎(chǔ),隨著計(jì)算機(jī)科學(xué)技術(shù)的發(fā)展,語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,逐漸開(kāi)始從實(shí)驗(yàn)室走向市場(chǎng)。支持向量機(jī)作為一種新型的模式識(shí)別方法,是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理[1-2]基礎(chǔ)上的,已經(jīng)成功地運(yùn)用到語(yǔ)音識(shí)別中。但是隨著語(yǔ)音識(shí)別系統(tǒng)規(guī)模的增加,支持向量機(jī)算法復(fù)雜度隨著所求解二次規(guī)劃問(wèn)題規(guī)模的增大呈指數(shù)增長(zhǎng),且計(jì)算量大,訓(xùn)練速度慢,其不適宜大規(guī)模數(shù)據(jù)問(wèn)題的應(yīng)用,已成為影響支持向量機(jī)發(fā)展的主要因素。

      訓(xùn)練樣本的支持向量(SV)預(yù)選取能夠?qū)⒂?xùn)練樣本中對(duì)支持向量機(jī)所構(gòu)造的判決函數(shù)有貢獻(xiàn)的樣本數(shù)據(jù)篩選出來(lái)。最近幾年來(lái),人們對(duì)支持向量機(jī)中樣本預(yù)選取的關(guān)注越來(lái)越多,并提出了很多簡(jiǎn)便有效的方法[3]。本文提出了基于核模糊C 均值聚類的樣本預(yù)選取算法,并且運(yùn)用到語(yǔ)音識(shí)別中。本文方法減小了訓(xùn)練樣本的規(guī)模,使得訓(xùn)練時(shí)間得到了明顯的減少,進(jìn)而增加了支持向量機(jī)的分類效率。

      2 非線性支持向量機(jī)

      對(duì)于非線性分類問(wèn)題,給定訓(xùn)練集T={(x1,y1),(x2,y2),…,(xl,yl)}∈(Rn×Y)l,其中引入核函數(shù)K(xi,xj)以及懲罰參數(shù)C >0,構(gòu)造并求解凸二次規(guī)劃問(wèn)題:

      構(gòu)造決策函數(shù)為:

      從決策函數(shù)表達(dá)式(2)可以看出,不是所有的訓(xùn)練樣本都起作用,而只有對(duì)應(yīng)于上述二次規(guī)劃問(wèn)題的解α*的分量非零的那部分訓(xùn)練樣本對(duì)決策函數(shù)起作用[4],即:只有支持向量對(duì)應(yīng)的訓(xùn)練樣本對(duì)決策函數(shù)有貢獻(xiàn)。

      3 核模糊C 均值聚類樣本預(yù)選取算法

      3.1 核模糊C 均值聚類

      FCM(模糊C 均值聚類)算法是由硬C-均值(Hard C-Means,HCM)算法演化而來(lái)的,它基于誤差平方和目標(biāo)函數(shù)準(zhǔn)則,是一種常用的典型動(dòng)態(tài)聚類算法。KFCM 算法把聚類歸結(jié)成一個(gè)帶約束的非線性規(guī)劃問(wèn)題,通過(guò)優(yōu)化并求解獲得數(shù)據(jù)集的模糊劃分和聚類。文獻(xiàn)[5]介紹了基于核函數(shù)的模糊C 均值聚類算法,其主要原理就是將常用的模糊C均值聚類算法中的歐式距離的計(jì)算用核模型來(lái)取代。

      式中,U 為C×N 的隸屬度矩陣;V 為聚類中心矩陣;m 為權(quán)重系數(shù)(一般取為2);K( x,y )為核函數(shù)。

      根據(jù)拉格朗日乘數(shù)法可求得uij和vi為:

      將上式帶入式(3)和式(4)中,可以得到目標(biāo)函數(shù):

      KFCM 算法增加了模式的線性可分概率,即擴(kuò)大模式類之間的差異,在高維特征空間達(dá)到線性可聚的目的。樣本點(diǎn)隸屬于某一類的程度是用隸屬度來(lái)反映的,不同的樣本點(diǎn)以不同的隸屬度屬于每一類。

      3.2 支持向量機(jī)的樣本預(yù)選取算法

      通過(guò)KFCM 算法,可以得到樣本中所有類別的聚類中心V 。根據(jù)支持向量機(jī)的多類分類算法中一對(duì)一方法[9]的思路,可以把所有的C 個(gè)聚類中心任意的兩個(gè)分為一組。分別求出所有樣本點(diǎn)到每一組內(nèi)兩個(gè)聚類中心的距離,對(duì)于任一組聚類中心有:

      然后求出|Di-Dj|,若其中| dik-djk|<ε(ε 為一個(gè)閾值),說(shuō)明該樣本點(diǎn)在兩個(gè)聚類中心的邊界附近,可能屬于支持向量樣本,則標(biāo)記該樣本點(diǎn);反之,該樣本在聚類中心點(diǎn)附近,則不標(biāo)記該樣本點(diǎn)。依次重復(fù)循環(huán),分別求出所有的聚類中心的組合中屬于兩個(gè)聚類中心之間附近的樣本點(diǎn)。

      最后按照一個(gè)準(zhǔn)則:分別把樣本集中屬于同一類的樣本數(shù)據(jù)取出,再把各類中的樣本點(diǎn)按照其出現(xiàn)的次數(shù)由大到小排序,然后根據(jù)各類中所取樣本的數(shù)量占該類樣本總數(shù)的比例α(0 <α <1) 來(lái)決定每類中所保留樣本的最后個(gè)數(shù),由此得到所要選取的樣本。

      算法的流程圖如圖1 所示。

      圖1 KFCM 預(yù)選取算法流程圖

      本文算法旨在通過(guò)聚類的方法,把訓(xùn)練樣本中可能屬于支持向量的樣本點(diǎn),按照前文的方法取出來(lái)。算法對(duì)訓(xùn)練樣本集中的所有樣本都通過(guò)核函數(shù)把模式空間的數(shù)據(jù)非線性映射到高維特征空間中,增加了模式的線性可分概率,同時(shí)可以除去樣本集中的一些野點(diǎn)數(shù)據(jù)的影響,從而提高支持向量機(jī)模型的穩(wěn)定性及分類性能。

      4 實(shí)驗(yàn)結(jié)果與分析

      本實(shí)驗(yàn)選取了一個(gè)小詞匯量的非特定人韓語(yǔ)語(yǔ)音庫(kù),該語(yǔ)音庫(kù)在實(shí)驗(yàn)室環(huán)境下由16 人分別對(duì)50 個(gè)詞進(jìn)行錄音,每人每個(gè)詞發(fā)音3 次,選取其中9 人在詞匯量分別為10詞、20 詞、30 詞、40 詞、50 詞的數(shù)據(jù)為訓(xùn)練樣本;同樣測(cè)試樣本為剩余7 人在各詞匯量下的數(shù)據(jù)。錄音的采樣率為11.025 kHz,然后把采樣系統(tǒng)得到的語(yǔ)音音頻文件作為實(shí)驗(yàn)樣本,語(yǔ)音中所加的噪聲為高斯白噪聲,分別在信噪比為25 dB、0 dB 和無(wú)噪聲語(yǔ)音的情況下進(jìn)行實(shí)驗(yàn)。原始語(yǔ)音樣本經(jīng)過(guò)MFCC(Mel 頻率倒譜系數(shù))特征提取得到特征樣本數(shù)據(jù),MFCC 特征提取的幀長(zhǎng)N為256 點(diǎn),幀移M為128 點(diǎn)。

      實(shí)驗(yàn)過(guò)程先用本文提出的樣本預(yù)選取算法對(duì)訓(xùn)練樣本進(jìn)行處理,然后再經(jīng)過(guò)支持向量機(jī)進(jìn)行訓(xùn)練并預(yù)測(cè)識(shí)別結(jié)果。支持向量預(yù)選取的實(shí)驗(yàn)參數(shù)在人工條件下,經(jīng)過(guò)反復(fù)多次實(shí)驗(yàn)取得一組合理的參數(shù),取高斯核函數(shù)的參數(shù)b=91,距離差的冗余度ε=1-4。支持向量機(jī)選用Libsvm-2.9程序包,其中核函數(shù)均選RBF 核函數(shù),懲罰參數(shù)和核參數(shù)采用網(wǎng)格搜索法,求得最優(yōu)值為:C=32,γ=0.000 122 07。實(shí)驗(yàn)環(huán)境:CPU 為Intel?CoreTM2 Duo 2.2 GHz,內(nèi)存為2 GB;操作系統(tǒng)為Windows XP-SP2;在軟件平臺(tái)為Matlab 7.0。

      表1 SNR=25 dB 時(shí)預(yù)選取的實(shí)驗(yàn)結(jié)果比較

      本實(shí)驗(yàn)由3 部分組成:

      (1)原始訓(xùn)練樣本集直接用標(biāo)準(zhǔn)SVM 進(jìn)行實(shí)驗(yàn);

      (2)當(dāng)α=0.75 時(shí),即:選取原訓(xùn)練樣本集中每一類樣本個(gè)數(shù)的75%,用本文方法進(jìn)行實(shí)驗(yàn);

      (3)當(dāng)α=0.50 時(shí),即:選取原訓(xùn)練樣本集中每一類樣本個(gè)數(shù)的50%,用本文方法進(jìn)行實(shí)驗(yàn)。

      在信噪比分別為25 dB、0 dB 和無(wú)噪聲語(yǔ)音的情況下,逐個(gè)對(duì)10 詞、20 詞、30 詞、40 詞、50 詞的訓(xùn)練樣本按照上述的3 部分進(jìn)行對(duì)比實(shí)驗(yàn),其中的時(shí)間是重復(fù)3 次取平均值得到的。實(shí)驗(yàn)結(jié)果如表1和圖2,表2和圖3,表3和圖4所示。

      圖2 SNR=25 dB 時(shí)表1 中的訓(xùn)練時(shí)間比較

      圖3 SNR=0 dB 時(shí)表2 中的訓(xùn)練時(shí)間比較

      表2 SNR=0 dB 時(shí)預(yù)選取的實(shí)驗(yàn)結(jié)果比較

      表3 無(wú)噪聲語(yǔ)音時(shí)預(yù)選取的實(shí)驗(yàn)結(jié)果比較

      圖4 無(wú)噪聲語(yǔ)音時(shí)表3 中的訓(xùn)練時(shí)間比較

      從以上實(shí)驗(yàn)結(jié)果可以得到,經(jīng)過(guò)預(yù)選取的訓(xùn)練樣本的支持向量總數(shù)明顯減少,在不同信噪比的情況下,隨著詞匯量的增加,支持向量機(jī)的訓(xùn)練時(shí)間隨之增加,同時(shí)預(yù)測(cè)樣本的識(shí)別率有所減小,在信噪比為0 dB 時(shí),由于噪聲較強(qiáng),故識(shí)別率受到一定的影響但均保持在較高的水平。運(yùn)用本文的算法進(jìn)行訓(xùn)練,當(dāng)α=0.75 時(shí),在各個(gè)信噪比下識(shí)別率保持不變或隨詞匯量增加識(shí)別率略受影響,而訓(xùn)練時(shí)間明顯減少,說(shuō)明此時(shí)所選的支持向量數(shù)對(duì)分類機(jī)的性能影響并不大,識(shí)別率仍然很接近;當(dāng)α=0.50 時(shí),訓(xùn)練樣本集的識(shí)別率隨著詞匯量越大和信噪比的減小有所降低,但是從圖2、圖3、圖4 可以很直觀地看出,預(yù)選取后的訓(xùn)練時(shí)間大大減少,其中最大的減少了原時(shí)間的60.40%,取得了較為滿意的實(shí)驗(yàn)結(jié)果。

      5 總結(jié)

      本文基于核模糊C均值聚類提出了一種樣本預(yù)選取算法,并且在語(yǔ)音識(shí)別上進(jìn)行了應(yīng)用。該算法目的是把支持向量機(jī)訓(xùn)練過(guò)程中對(duì)計(jì)算構(gòu)建最優(yōu)分類超平面貢獻(xiàn)大的樣本點(diǎn)篩選出來(lái),然后把這些樣本數(shù)據(jù)組成一個(gè)新的訓(xùn)練樣本集,這樣刪減了冗余的樣本點(diǎn),從而使得訓(xùn)練時(shí)間得以減少,提高了效率。從實(shí)驗(yàn)結(jié)果可以看出,隨著信噪比的減小和詞匯量的增加,訓(xùn)練時(shí)間逐漸變長(zhǎng),識(shí)別率幾乎保持穩(wěn)定,實(shí)驗(yàn)的效果在某種程度上受到了所選參數(shù)的制約,通過(guò)參數(shù)的優(yōu)化將會(huì)提高算法的性能;另外,當(dāng)訓(xùn)練樣本中的冗余樣本點(diǎn)較多時(shí),本文方法的效果將會(huì)更加顯著。運(yùn)用本文方法進(jìn)行樣本預(yù)選取后的訓(xùn)練樣本集在保證分類精度的前提下,訓(xùn)練時(shí)間明顯減少,從而得到了較為理想的支持向量樣本預(yù)選取效果。

      [1] Vapnik V.The nature of statistical learning theory[M].New York:Springer-Verlag,1995:77-79.

      [2] 張學(xué)工.關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J].自動(dòng)化學(xué)報(bào),2000,26(1):32-42.

      [3] 韓德強(qiáng),韓崇昭,楊藝.基于k-最近鄰的支持向量預(yù)選取方法[J].控制與決策,2009,24(4):494-498.

      [4] 鄧乃揚(yáng),田英杰.支持向量機(jī)——理論、算法與拓展[M].北京:科學(xué)出版社,2009:97-101.

      [5] Zhang D Q,Chen S C.Kernel-based fuzzy clustering incorporating spatial constraints for image segmentation[C]//Proceedings of the 2nd International Conference on Machine Learning and Cybernetics,2003.

      [6] Du C,Sun D,Jachman P,et al.Development of a hybrid image processing algorithm for automatic evaluation of intramuscular fat in beef M longissimus dorsi[J].Meat Science,2008,80(4):1231-1237.

      [7] 唐成龍,王石剛,徐威.基于數(shù)據(jù)加權(quán)策略的模糊聚類改進(jìn)算法[J].電子與信息學(xué)報(bào),2010,32(6):1277-1283.

      [8] 伍學(xué)千,廖宜濤,樊玉霞,等.基于KFCM 和改進(jìn)分水嶺算法的豬肉背最長(zhǎng)肌分割技術(shù)[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2010,41(1):172-176.

      [9] Knerr S,Personnaz L,Dreyfus G.Single-layer learning revisited:a stepwise procedure for building and training a neural network[M]//Neurocomputing:Algorithms Architectures and Applications.New York:Springer Verlag,1990:236-241.

      猜你喜歡
      訓(xùn)練樣本詞匯量識(shí)別率
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
      人工智能
      用詞類活用法擴(kuò)充詞匯量
      基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
      提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
      Receptive and Productive Vocabulary in Language Teaching
      寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
      融合原始樣本和虛擬樣本的人臉識(shí)別算法
      基于稀疏重構(gòu)的機(jī)載雷達(dá)訓(xùn)練樣本挑選方法
      高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
      衡东县| 将乐县| 介休市| 枣强县| 新泰市| 浠水县| 太和县| 色达县| 德兴市| 泗水县| 南岸区| 锡林郭勒盟| 耒阳市| 平昌县| 巴中市| 壶关县| 金寨县| 衡阳市| 新绛县| 南开区| 甘泉县| 凤冈县| 信阳市| 会泽县| 镇康县| 咸丰县| 淮南市| 邯郸市| 甘肃省| 项城市| 庆云县| 阜南县| 米易县| 北安市| 宜君县| 黔南| 竹北市| 三门峡市| 上犹县| 米脂县| 右玉县|