李卓茜,高 鎮(zhèn),王 化,劉俊南,朱光旭
(1. 天津大學(xué) 電氣自動(dòng)化與信息工程學(xué)院,天津 300072;2. 因諾微科技(天津)有限公司,天津 300392)
語(yǔ)種識(shí)別技術(shù)能夠根據(jù)給定語(yǔ)段判定語(yǔ)言的種類,在語(yǔ)音、語(yǔ)種、聲紋識(shí)別、機(jī)器翻譯、通信和信息檢索等領(lǐng)域有較為廣泛的應(yīng)用[1],不僅為我們的生活帶來(lái)了便利,同時(shí)也為不同民族和國(guó)家之間的溝通架起了橋梁。當(dāng)前語(yǔ)種識(shí)別技術(shù)對(duì)長(zhǎng)語(yǔ)段識(shí)別的準(zhǔn)確率已經(jīng)足夠好,但對(duì)短語(yǔ)音(時(shí)長(zhǎng)小于10s)及易混淆語(yǔ)種的識(shí)別還有待提升。短語(yǔ)音存在語(yǔ)段特征中有效數(shù)據(jù)不足、易受多種噪音干擾、無(wú)法充分表達(dá)語(yǔ)種信息等問(wèn)題;而易混淆語(yǔ)種存在語(yǔ)音特征中差異信息較弱的問(wèn)題。本文針對(duì)時(shí)長(zhǎng)小于等于1s的短語(yǔ)音及易混淆語(yǔ)音的語(yǔ)種識(shí)別進(jìn)行了研究。
語(yǔ)音特征的選取是影響語(yǔ)種識(shí)別準(zhǔn)確率的關(guān)鍵因素之一。語(yǔ)音中包含著豐富的信息,按照從低到高的層次可依次劃分為聲學(xué)層、韻律層、音素層、詞法層和句法層。語(yǔ)種識(shí)別主要采用聲學(xué)特征和音素特征。聲學(xué)特征為基礎(chǔ)特征,主要描述語(yǔ)音信號(hào)的物理特性(如強(qiáng)度、頻率)。常用的有基于人耳聽覺模型的梅爾倒譜系數(shù)(mel-frequency cepstral coefficient, MFCC)特征、梅爾濾波器組(mel-scale filter bank, Fbank)特征和移位差分譜特征[2]。相比聲學(xué)特征,音素特征能夠更有效地利用上下文的相關(guān)性。常用的有移位差分音素對(duì)數(shù)似然比特征(shifted delta-phone log likelyhood ratio,SD-PLLR)[3-4]和深度瓶頸層特征(deep bottleneck feature,DBF)[5]。
語(yǔ)音特征建模對(duì)于識(shí)別結(jié)果同樣至關(guān)重要,語(yǔ)種識(shí)別系統(tǒng)依據(jù)聲學(xué)單元的統(tǒng)計(jì)差異對(duì)聲學(xué)特征進(jìn)行建模,依據(jù)不同語(yǔ)種間音素的搭配關(guān)系對(duì)音素特征進(jìn)行建模。聲學(xué)特征建模的常用方法有高斯混合-通用背景模型、高斯混合-支持向量機(jī)模型及全差異變量(total variability, TV)模型。其中,TV模型因?qū)φZ(yǔ)段信息具有良好的低維表征能力而成為目前主流的聲學(xué)建模方法[6-7]。音素特征建模的常用方法有音素識(shí)別器結(jié)合語(yǔ)言模型(phone recognizer followed by language model, PRLM),并行音素識(shí)別器集合語(yǔ)言模型(language recognizer followed by language model, PPRLM)和并行音素識(shí)別器結(jié)合支持向量機(jī)模型[8]。此外,近年來(lái)發(fā)展迅速的神經(jīng)網(wǎng)絡(luò)模型也被用于語(yǔ)音特征建模,包括針對(duì)聲學(xué)特征后驗(yàn)概率建模的深度神經(jīng)網(wǎng)絡(luò)模型(deep neural network, DNN)、能夠獲取更好魯棒性特征的卷積神經(jīng)網(wǎng)絡(luò)、能夠更多考慮樣本間關(guān)聯(lián)性的循環(huán)神經(jīng)網(wǎng)絡(luò)以及具有一定動(dòng)態(tài)記憶能力的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[9]等。
本文圍繞幾種語(yǔ)音特征的對(duì)比和語(yǔ)種識(shí)別中TV模型的應(yīng)用優(yōu)化進(jìn)行研究。全文安排如下: 第1節(jié)介紹SD-PLLR特征和DBF特征。第2節(jié)介紹DBF-I-VECTOR語(yǔ)種識(shí)別基線系統(tǒng)及改進(jìn)系統(tǒng),提出適用于短語(yǔ)音和易混淆識(shí)別任務(wù)的變速均衡數(shù)據(jù)方法,并對(duì)比不同分類模型的性能。第3節(jié)介紹實(shí)驗(yàn)設(shè)置、實(shí)驗(yàn)結(jié)果及分析。第4節(jié)總結(jié)全文,并對(duì)下一步工作進(jìn)行展望。
本節(jié)分別介紹SD-PLLR特征和DBF特征的原理及提取流程。
SD-PLLR特征為音素識(shí)別器輸出的幀級(jí)別特征。為了使識(shí)別出的音素盡可能均勻地覆蓋測(cè)試集中的各語(yǔ)種,需選取一種獨(dú)立于測(cè)試集語(yǔ)種的音素識(shí)別器。本研究主要針對(duì)東方語(yǔ)種,因而選取Buro科技大學(xué)研發(fā)的由英文數(shù)據(jù)訓(xùn)練得到的PhnRec[10]解碼器。SD-PLLR特征的原理及具體的提取流程如下:
(1) 將音頻輸入音素識(shí)別器輸出第t幀音素單元i的狀態(tài)s對(duì)應(yīng)的聲學(xué)后驗(yàn)概率pi,s(t),累加音素對(duì)應(yīng)狀態(tài)的后驗(yàn)概率得到音素單元i的后驗(yàn)概率,如式(1)所示。
(2) 將第t幀中音素單元i的后驗(yàn)概率按照式(2)規(guī)整,將每幀得到的N個(gè)對(duì)數(shù)似然比率的值作為新的PLLR特征。其中,N對(duì)應(yīng)英文音素識(shí)別器中音素的數(shù)量39。
(3) 對(duì)上述PLLR特征進(jìn)行主成分分析[11],從而在保留原始信息的基礎(chǔ)上得到更加準(zhǔn)確且能量更加集中的13維新特征,然后進(jìn)行移位差分操作[12]中所述過(guò)程對(duì)該特征進(jìn)行移位差分操作,最終得到23維的SD-PLLR特征。
神經(jīng)網(wǎng)絡(luò)具有良好的非線性表達(dá)能力。因此,從神經(jīng)網(wǎng)絡(luò)中較狹窄的一層中提取的特征可視為對(duì)底層輸入聲學(xué)特征的低維壓縮表示,該特征稱為DBF,是一種具有較好魯棒性的語(yǔ)音特征。本文希望提取DBF的神經(jīng)網(wǎng)絡(luò)在多個(gè)語(yǔ)種上訓(xùn)練所得從而能夠均衡地表征各語(yǔ)種音素信息,減少由于音素出現(xiàn)的頻率差異造成最終提取的特征偏向個(gè)別語(yǔ)種。綜合考慮語(yǔ)料資源、時(shí)間因素等問(wèn)題,本文選取開源工具BUT[13]來(lái)提取DBF。
BUT提供了3個(gè)訓(xùn)練好的網(wǎng)絡(luò),本文使用基于IARPA BABEL項(xiàng)目提供的17個(gè)語(yǔ)種訓(xùn)練的網(wǎng)絡(luò)。BUT可提取語(yǔ)音信號(hào)的DBF或者對(duì)應(yīng)音素狀態(tài)的后驗(yàn)概率,采用兩級(jí)瓶頸神經(jīng)網(wǎng)絡(luò)堆疊的網(wǎng)絡(luò)結(jié)構(gòu)(如圖1所示)。每級(jí)瓶頸網(wǎng)絡(luò)從輸入到輸出共6層,其中瓶頸層的維度為80,其余隱藏層維度為1 500。第一級(jí)網(wǎng)絡(luò)的輸入為11幀的Fbank加基頻特征。對(duì)第一級(jí)網(wǎng)絡(luò)的輸出進(jìn)行t-10,t-5,t,t+5,t+10(其中t為當(dāng)前幀)形式的采樣作為第二級(jí)神經(jīng)網(wǎng)絡(luò)的輸入,從而獲取到更廣泛的上下文信息。第二層網(wǎng)絡(luò)輸出的瓶頸特征作為最終提取的DBF。
圖1 DBF提取器網(wǎng)絡(luò)結(jié)構(gòu)圖
為提升短語(yǔ)音和易混淆語(yǔ)種識(shí)別準(zhǔn)確率,本文針對(duì)DBF-I-VECTOR基線系統(tǒng)前端數(shù)據(jù)準(zhǔn)備和后端分類模型進(jìn)行改進(jìn)。前者使用變速均衡數(shù)據(jù)方法,后者使用支持向量機(jī)(support vector machine, SVM)、極端梯度提升(extreme gradient boosting,XGBoost)、隨機(jī)森林(random forest, RF)算法替代傳統(tǒng)的概率判別分析(probabilistic linear discriminant Analysis,PLDA)和余弦距離(cosine distance scoring,CDS)分類方法。下面首先介紹DBF-I-VECTOR基線系統(tǒng),然后介紹實(shí)驗(yàn)訓(xùn)練集OLR-2017并詳細(xì)介紹改進(jìn)方法。
DBF-I-VECTOR語(yǔ)種識(shí)別基線系統(tǒng)如圖2所示。首先,將訓(xùn)練和測(cè)試語(yǔ)音輸入1.2節(jié)介紹的BUT提取器。然后,使用TV模型對(duì)DBF特征進(jìn)行建模。
圖2 DBF-I-VECTOR語(yǔ)種識(shí)別基線系統(tǒng)
2.2.1 OLR-2017數(shù)據(jù)集
本文的訓(xùn)練集為海天瑞聲和清華大學(xué)聯(lián)合舉辦的 “東方多語(yǔ)種識(shí)別競(jìng)賽(challenge-oriental language recognition challenge,OLR)”所提供的OLR-2017數(shù)據(jù)集。[14]該數(shù)據(jù)集采集了697名發(fā)音人的10萬(wàn)條語(yǔ)音,數(shù)據(jù)總量達(dá)到116小時(shí)。數(shù)據(jù)集包含十個(gè)語(yǔ)種,分別為漢語(yǔ)普通話、粵語(yǔ)、維吾爾語(yǔ)、哈薩克語(yǔ)、藏語(yǔ)、日語(yǔ)、韓語(yǔ)、俄語(yǔ)、越南語(yǔ)、印尼語(yǔ)。本文實(shí)驗(yàn)中統(tǒng)一選取OLR-2017數(shù)據(jù)集中的train和dev集合(共106 602句)為訓(xùn)練集。
2.2.2 變速均衡數(shù)據(jù)方法
2.1節(jié)中的基線系統(tǒng)存在如下三個(gè)問(wèn)題: 1)由于訓(xùn)練數(shù)據(jù)集中各語(yǔ)種語(yǔ)段數(shù)量不均衡,會(huì)導(dǎo)致訓(xùn)練得到的I-VECTOR模型統(tǒng)計(jì)量參數(shù)偏向語(yǔ)段數(shù)量多的語(yǔ)種,影響整體識(shí)別準(zhǔn)確率;2)短語(yǔ)音時(shí)長(zhǎng)過(guò)短,語(yǔ)段中能提取到的有效信息非常有限,易受噪音、信道等外界干擾的影響,這會(huì)造成測(cè)試集與訓(xùn)練集語(yǔ)種的I-VECTOR向量匹配度降低,降低識(shí)別準(zhǔn)確率;3)易混淆語(yǔ)種具有相似的語(yǔ)音特征。因此,從訓(xùn)練語(yǔ)料中獲取的有效信息區(qū)分度有限。
本文擬使用均衡數(shù)據(jù)方法解決第一個(gè)問(wèn)題。由于不同語(yǔ)速下同一特征向量所含信息有所不同,且語(yǔ)速的改變不會(huì)引入太多失真。所以,本文通過(guò)改變語(yǔ)段速度來(lái)擴(kuò)充信息,從而解決后兩個(gè)問(wèn)題。綜合考慮上述方案提出變速均衡數(shù)據(jù)方法,其流程如下:
(1) 若訓(xùn)練集中語(yǔ)種n的語(yǔ)段數(shù)量為xn,使用sox工具將各語(yǔ)段分別變速至0.9、1.1倍速,得到各語(yǔ)種變速數(shù)據(jù)集yn=xn+0.9倍速xn+1.1倍速xn。
(2) 以變速數(shù)據(jù)集yn中語(yǔ)段數(shù)量最多的14 470*3=43 410(訓(xùn)練集中藏語(yǔ)語(yǔ)段數(shù)量為14 470)為基準(zhǔn),計(jì)算藏語(yǔ)外的其余各語(yǔ)種變速數(shù)據(jù)集yn與43 410的語(yǔ)段數(shù)量差l,l=43 410-yn。
(3) 若l≤xn,則從xn中隨機(jī)取l段音頻,將其變0.8倍速得到0.8倍速l;若xn 該過(guò)程的流程圖如圖3所示。 圖3 變速均衡數(shù)據(jù)流程圖 2.2.3 改進(jìn)的后端分類模型 基線系統(tǒng)后端采用傳統(tǒng)的余弦距離打分CDS和PLDA[15]模型。CDS為判別式模型,該模型通過(guò)將測(cè)試語(yǔ)段I-VECTOR矢量和語(yǔ)種注冊(cè)信息I-VECTOR矢量的余弦距離得分與閾值進(jìn)行比較,從而判定測(cè)試語(yǔ)段所屬語(yǔ)種的類別。PLDA屬于生成式模型,能夠?qū)-VECTOR語(yǔ)種識(shí)別系統(tǒng)進(jìn)行信道增益優(yōu)化。通過(guò)計(jì)算測(cè)試樣本矢量和語(yǔ)種均值矢量來(lái)自同一模型及來(lái)自不同模型的對(duì)數(shù)似然比對(duì)語(yǔ)段所屬語(yǔ)種類別進(jìn)行判定。作為基于LDA[15]思想的概率擴(kuò)展方法,PDLA方法具有一定的線性區(qū)分能力,相同條件下分類效果通常優(yōu)于CDS。 生成式模型基于數(shù)據(jù)的統(tǒng)計(jì)分布反映同類數(shù)據(jù)的相似度,判別式模型則通過(guò)尋找不同類別間最優(yōu)分類面反映異類數(shù)據(jù)的差異。傳統(tǒng)的PLDA分類模型假設(shè)語(yǔ)種的先驗(yàn)概率和I-VECTOR的條件概率都是高斯分布,這種假設(shè)與實(shí)際情況不一定相符。而且,語(yǔ)種識(shí)別是一個(gè)區(qū)分目標(biāo)語(yǔ)種和非目標(biāo)語(yǔ)種的明確分類任務(wù),采用相比CDS具有更好區(qū)分度的判別式模型將是一個(gè)更合理的選擇[16-17]。 典型的判別式模型包括SVM、XGBoost和RF。下面對(duì)這幾種算法的原理進(jìn)行簡(jiǎn)單的介紹: (1) SVM算法[18] SVM算法使用非線性變換將低維的輸入空間變換至高維,通過(guò)在高維空間中尋找最大分類間隔的分類面劃分類別。語(yǔ)種識(shí)別系統(tǒng)中,將訓(xùn)練集語(yǔ)段的I-VECTOR作為輸入,訓(xùn)練得到SVM模型,用于對(duì)測(cè)試語(yǔ)段進(jìn)行分類。SVM算法中常用的核函數(shù)包括線性核函數(shù)、徑像核函數(shù)、多項(xiàng)式核函數(shù)和sigmod核函數(shù)。該算法是語(yǔ)種識(shí)別領(lǐng)域一種常規(guī)的建模方法,在小數(shù)據(jù)集情況下依然具有良好的泛化能力。 (2) XGBoost算法[19] XGBoost算法使用了提升樹模型,通過(guò)集成學(xué)習(xí)構(gòu)架形成一個(gè)強(qiáng)分類器。其算法思想為:將給定的訓(xùn)練集訓(xùn)練得到k棵分類樹集合;將輸入樣本按照屬性值分割點(diǎn)劃分到不同的對(duì)應(yīng)實(shí)時(shí)分?jǐn)?shù)的葉子節(jié)點(diǎn);最終,通過(guò)對(duì)各棵分類樹葉子節(jié)點(diǎn)預(yù)測(cè)分?jǐn)?shù)加和確定最終的分類結(jié)果。該算法具備對(duì)稀疏數(shù)據(jù)的處理能力,相比神經(jīng)網(wǎng)絡(luò)具有可解釋、易于調(diào)參等優(yōu)點(diǎn)。又因其較高的運(yùn)行效率和預(yù)測(cè)精度,在科學(xué)競(jìng)賽和工業(yè)界取得了較好的分類效果。 (3) Random Forest算法[20] RF與XGBoost算法同屬于機(jī)器學(xué)習(xí)領(lǐng)域的集成算法,基本單元是決策樹,相比于單個(gè)決策樹來(lái)說(shuō)具有更強(qiáng)的分類能力。該算法基于bagging思想: 每次從訓(xùn)練樣本中等概率隨機(jī)選取部分特征來(lái)構(gòu)建決策樹,每棵決策樹相互獨(dú)立,樣本的最終分類結(jié)果由這些樹的共同規(guī)則決定。對(duì)于一個(gè)輸入樣本、每棵決策樹都會(huì)得到一個(gè)分類結(jié)果。最終輸出的類別判定結(jié)果綜合所有決策樹的分類結(jié)果,將判定次數(shù)最多的類別做為輸出類別。該算法具有較好的抗噪聲能力、較高的靈活度、極好的準(zhǔn)確率并能有效地運(yùn)行在大數(shù)據(jù)集上。因而,在近幾年國(guó)內(nèi)外大賽如Kaggle數(shù)據(jù)科學(xué)競(jìng)賽、2014年阿里巴巴天池?cái)?shù)據(jù)競(jìng)賽中被廣泛使用。 使用2.2.2節(jié)的變速均衡數(shù)據(jù)方法和2.2.3節(jié)的判別式模型后得到的DBF-I-VECTOR語(yǔ)種識(shí)別改進(jìn)系統(tǒng)如圖4所示。 圖4 DBF-I-VECTOR語(yǔ)種識(shí)別改進(jìn)系統(tǒng) 本節(jié)首先介紹實(shí)驗(yàn)數(shù)據(jù)集,然后針對(duì)短語(yǔ)音和易混淆語(yǔ)音的語(yǔ)種識(shí)別任務(wù),比較語(yǔ)音特征的性能及DBF-I-VECTOR基線系統(tǒng)與DBF-I-VECTOR改進(jìn)系統(tǒng)的性能。 文中實(shí)驗(yàn)所采用的訓(xùn)練集為2.2.1節(jié)所述的OLR-2017數(shù)據(jù)集。測(cè)試數(shù)據(jù)集為短語(yǔ)音和易混淆數(shù)據(jù)集。其中,短語(yǔ)音測(cè)試集為OLR-2017[14]數(shù)據(jù)集中語(yǔ)段時(shí)長(zhǎng)小于等于1s的test_1s(共22 051句)集合。由于2017年沒(méi)有發(fā)布易混淆的測(cè)試任務(wù),所以選取2018年發(fā)布的易混淆測(cè)試任務(wù)task_2(共7 357句)集合為本文的易混淆測(cè)試數(shù)據(jù)集。易混淆集合中,包含中文普通話、粵語(yǔ)和韓語(yǔ)。 該部分對(duì)比MFCC特征、SD-PLLR特征和DBF在短語(yǔ)音和易混淆語(yǔ)種識(shí)別中的性能。使用TV模型對(duì)上述特征建模,綜合考慮識(shí)別準(zhǔn)確度、計(jì)算復(fù)雜度、時(shí)間開銷及存儲(chǔ)空間的影響。實(shí)驗(yàn)中統(tǒng)一設(shè)置UBM的維度為512,I-VECTOR度為400。實(shí)驗(yàn)后端采用余弦距離打分(cosine distance scoring,CDS)、概率線性判別分析(probabilistic linear discriminant analysis, PLDA),各組實(shí)驗(yàn)設(shè)置如下: 實(shí)驗(yàn)一語(yǔ)音特征為常規(guī)的39維MFCC[21](13維MFCC +一階Δ+二階Δ)特征。 實(shí)驗(yàn)二語(yǔ)音特征為1.1節(jié)中提取的SD-PLLR特征。 實(shí)驗(yàn)三語(yǔ)音特征為1.2節(jié)中提取的DBF。 選取EER和平均代價(jià)(c-average,Cavg)作為實(shí)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo),對(duì)test_1s和task_2的實(shí)驗(yàn)結(jié)果分別如表1、表2所示。 表1 test_1s短語(yǔ)音語(yǔ)種識(shí)別特征對(duì)比 表2 task_2易混淆語(yǔ)音語(yǔ)種識(shí)別特征對(duì)比 基于表1和表2可得到如下結(jié)論: (1) 在短語(yǔ)音和易混淆語(yǔ)音語(yǔ)種識(shí)別中,MFCC特征優(yōu)于SD-PLLR特征。這是由于解碼音素序列的PhnRec解碼器是由英文數(shù)據(jù)訓(xùn)練所得。解碼器中,音素?cái)?shù)量較少且訓(xùn)練解碼器的網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)簡(jiǎn)單,造成提取音素信息的能力有限、不能夠突出語(yǔ)種間的差異和充分反映語(yǔ)段中的音素信息。若能夠提升解碼器中的音素?cái)?shù)量或?qū)W(wǎng)絡(luò)結(jié)構(gòu)有更好的改善則SD-PLLR特征的識(shí)別效果將會(huì)提升。 (2) 短語(yǔ)音語(yǔ)段時(shí)長(zhǎng)過(guò)短,噪音對(duì)語(yǔ)段中有效信息的影響更大。而DBF具有抗噪性,因此其在語(yǔ)段時(shí)長(zhǎng)極短情況下具有更好的表現(xiàn)。DBF在易混淆語(yǔ)種識(shí)別中性能遠(yuǎn)遠(yuǎn)優(yōu)于MFCC和SD-PLLR,這是因?yàn)橐谆煜Z(yǔ)段時(shí)長(zhǎng)足夠保證了能夠提取到穩(wěn)定信息。DBF作為基于音素層的信息比聲學(xué)特征具有更好的區(qū)分度,因而有利于區(qū)分相似的語(yǔ)種。 該部分設(shè)置UBM的維度為512,I-VECTOR維度為400,測(cè)試集為test_1s和task_2, 選取EER和Cavg作為實(shí)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo),各組實(shí)驗(yàn)設(shè)置如下: 實(shí)驗(yàn)一2.1節(jié)中所述的DBF-I-VECTOR語(yǔ)種識(shí)別基線系統(tǒng) 實(shí)驗(yàn)二2.2節(jié)中所述的DBF-I-VECTOR語(yǔ)種識(shí)別改進(jìn)系統(tǒng)。其中,各算法模型參數(shù)設(shè)置如下: SVM中的核函數(shù)為徑像核(即高斯核),XGBoost算法中學(xué)習(xí)率設(shè)置為0.1,決策樹個(gè)數(shù)為3 000,RF模型中子樹的個(gè)數(shù)設(shè)置為3 000,模型中其它參數(shù)采用默認(rèn)設(shè)置。 對(duì)test_1s和task_2的識(shí)別結(jié)果分別如表3和表4所示, 表3 基于短語(yǔ)音test_1s的語(yǔ)種識(shí)別系統(tǒng)對(duì)比 表4 基于易混淆task_2的語(yǔ)種識(shí)別系統(tǒng)對(duì)比 對(duì)比表3和表4中的實(shí)驗(yàn)一、實(shí)驗(yàn)二可知,單獨(dú)使用變速均衡數(shù)據(jù)方法分別降低了短語(yǔ)音和易混淆語(yǔ)種識(shí)別的等錯(cuò)誤率,該方法在提升兩種任務(wù)的識(shí)別準(zhǔn)確率上均有不錯(cuò)的效果。 由表3中實(shí)驗(yàn)二的結(jié)果可知,SVM分類性能優(yōu)于LDA+CDS,但略差于LDA+PLDA。XGBoost和RF分類性能優(yōu)于LDA+CDS和LDA+PLDA。由表4中實(shí)驗(yàn)二可知使用SVM、XGBoost、RF降低了CDS+LDA、PLDA+LDA的EER結(jié)果。綜上可知,改進(jìn)系統(tǒng)中的分類模型在兩種任務(wù)中均具有較好的分類效果。 在短語(yǔ)音分類任務(wù)中RF算法獲得了最好的分類性能。這是由于RF算法結(jié)合了多個(gè)基學(xué)習(xí)器的預(yù)測(cè)結(jié)果,從而改善了單個(gè)學(xué)習(xí)器的泛化能力和魯棒性,是更適合多分類任務(wù)的分類模型。在易混淆語(yǔ)種的分類任務(wù)中,SVM分類結(jié)果最優(yōu)。在上述分類模型中,CDS、PLDA訓(xùn)練速度較快,均在15分鐘內(nèi)完成了訓(xùn)練;RF分類器訓(xùn)練速度次之,大約需要40分鐘,但其占用的存儲(chǔ)空間較大;SVM分類方法的訓(xùn)練速度略快于XGBoost方法,需要大約3個(gè)小時(shí);XGBoost由于每輪迭代產(chǎn)生的弱分類器都依賴上一輪的迭代結(jié)果,因而需要的訓(xùn)練時(shí)間最長(zhǎng),大約3個(gè)半小時(shí)。由上述結(jié)果可知,對(duì)于固定數(shù)據(jù)集樣本的分類任務(wù),判別式模型具有更好的區(qū)分性,能夠提升識(shí)別的效果。這部分的實(shí)驗(yàn)結(jié)果驗(yàn)證了2.2節(jié)中的實(shí)驗(yàn)思路。 本文通過(guò)實(shí)驗(yàn)對(duì)比MFCC特征、SD-PLLR特征、DBF在不同測(cè)試任務(wù)中的表現(xiàn),證明了DBF是語(yǔ)種識(shí)別中適合短語(yǔ)音和易混淆任務(wù)的較好語(yǔ)音特征,其在易混淆語(yǔ)種識(shí)別中表現(xiàn)出突出的性能。 為提升識(shí)別準(zhǔn)確率,本文提出DBF-I-VECTOR語(yǔ)種識(shí)別改進(jìn)系統(tǒng)。該系統(tǒng)中的變速均衡數(shù)據(jù)方法在兩個(gè)語(yǔ)種識(shí)別任務(wù)中均能夠有效提升識(shí)別結(jié)果。在短語(yǔ)音識(shí)別任務(wù)中,XGBoost、RF模型均超越傳統(tǒng)的LDA+CDS、LDA+PLDA分類模型。其中,RF模型訓(xùn)練速度快且分類結(jié)果最優(yōu),是適合短語(yǔ)音多分類任務(wù)中的較好模型。在易混淆識(shí)別任務(wù)中SVM、XGBoost、RF均超越傳統(tǒng)的LDA+CDS、LDA+PLDA分類模型。其中SVM分類結(jié)果最優(yōu),是適合此小數(shù)據(jù)集(易混淆測(cè)試集中只含3個(gè)語(yǔ)種,語(yǔ)段數(shù)較少)的分類模型。DBF-I-VECTOR改進(jìn)系統(tǒng)相比基線DBF-I-VECTOR系統(tǒng)有效提升了識(shí)別結(jié)果。 后續(xù)工作將更多關(guān)注短語(yǔ)音和易混淆語(yǔ)種識(shí)別中語(yǔ)音特征及語(yǔ)種識(shí)別模型的改進(jìn)、創(chuàng)新工作。值得一提的是,在對(duì)比引言所提到的PRLM、PPRLM、DBF-I-VECTOR、TDNN模型性能時(shí),發(fā)現(xiàn)對(duì)短語(yǔ)音語(yǔ)種識(shí)別來(lái)說(shuō),PRLM、PPRLM模型均存在模型失配問(wèn)題。EER打分結(jié)果較差,TDNN略遜色于DBF-I-VECTOR。更多有關(guān)語(yǔ)種識(shí)別模型的研究、創(chuàng)新工作將于后續(xù)工作中繼續(xù)展開。3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集
3.2 語(yǔ)音特征的對(duì)比
3.3 DBF-I-VECTOR基線系統(tǒng)與改進(jìn)系統(tǒng)性能比對(duì)
4 總結(jié)及展望