涂中文,趙艷明,宋金寶
(1.中國(guó)傳媒大學(xué) 播音主持藝術(shù)學(xué)院,北京 100024;2.中國(guó)傳媒大學(xué) 信息工程學(xué)院,北京 100024)
基于自動(dòng)編碼器的語(yǔ)音音色客觀評(píng)價(jià)
涂中文1,趙艷明2,宋金寶2
(1.中國(guó)傳媒大學(xué) 播音主持藝術(shù)學(xué)院,北京 100024;2.中國(guó)傳媒大學(xué) 信息工程學(xué)院,北京 100024)
本文詳細(xì)介紹了嗓音識(shí)別和深度學(xué)習(xí)的基本原理,然后闡述了怎樣將深度學(xué)習(xí)理論應(yīng)用于嗓音質(zhì)量識(shí)別分析的研究中,從基于深度學(xué)習(xí)的語(yǔ)音特征參數(shù)提取和神經(jīng)網(wǎng)絡(luò)模型建模兩方面入手,首先提取不同的音頻特征參數(shù),然后構(gòu)建以稀疏編碼器為核心的堆棧式自動(dòng)編碼器,“封頂”softmax分類器以構(gòu)成完整的深度學(xué)習(xí)網(wǎng)絡(luò),最后測(cè)試了不同特征參數(shù)、不同的網(wǎng)絡(luò)層數(shù)和網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)對(duì)于實(shí)驗(yàn)準(zhǔn)確率的影響。
語(yǔ)音音色;客觀評(píng)價(jià);自動(dòng)編碼器
說(shuō)話人的嗓音質(zhì)量識(shí)別包含在說(shuō)話人識(shí)別之內(nèi)。說(shuō)話人識(shí)別又稱聲紋識(shí)別,是對(duì)說(shuō)話人產(chǎn)生的語(yǔ)音信號(hào)進(jìn)行分析處理,提取說(shuō)話人的個(gè)性特征,從而對(duì)說(shuō)話人進(jìn)行辨認(rèn)或確認(rèn),是人的一種身份認(rèn)證形式。說(shuō)話人的嗓音質(zhì)量信息也蘊(yùn)含在這些個(gè)性特征中,專業(yè)上可以將人的嗓音特質(zhì)劃分16對(duì),如厚與薄、干與潤(rùn)等。在播音類藝考這樣對(duì)嗓音質(zhì)量有嚴(yán)格要求的場(chǎng)合下,對(duì)嗓音質(zhì)量的分析與選拔具有廣闊的應(yīng)用需求市場(chǎng)。作為近年來(lái)發(fā)展迅速的一種神經(jīng)網(wǎng)絡(luò)模型,深度學(xué)習(xí)模擬人類大腦的學(xué)習(xí)方式,對(duì)海量數(shù)據(jù)量具有超強(qiáng)的建模能力,并且對(duì)于不完全信息具有良好的魯棒性,廣泛應(yīng)用于多分類模式識(shí)別,在圖像、語(yǔ)音識(shí)別等領(lǐng)域取得了驚人的效果。
由于現(xiàn)今尚未出版系統(tǒng)、嚴(yán)謹(jǐn)、明確的音質(zhì)評(píng)價(jià)客觀評(píng)價(jià)體系,所以本實(shí)驗(yàn)采用國(guó)內(nèi)主流的林達(dá)悃老師的主觀評(píng)價(jià)理論[1]。在該理論中,音質(zhì)主觀評(píng)價(jià)的結(jié)果受到四個(gè)方面因素的影響:①主觀評(píng)價(jià)用語(yǔ)的統(tǒng)一性、明確性;②評(píng)價(jià)人的評(píng)價(jià)素質(zhì)保證;③評(píng)價(jià)素材的代表性;④傳輸系統(tǒng)聲學(xué)特性的規(guī)范化。
主觀評(píng)價(jià)用語(yǔ)的統(tǒng)一性、明確性。音質(zhì)主觀評(píng)價(jià)用語(yǔ)主要有兩大類:藝術(shù)語(yǔ)言和音樂(lè)。本實(shí)驗(yàn)研究的嗓音質(zhì)量就是針對(duì)藝術(shù)語(yǔ)言質(zhì)量的分析。藝術(shù)語(yǔ)言采用兩級(jí)評(píng)價(jià)標(biāo)準(zhǔn),即音質(zhì)良好用語(yǔ)/音質(zhì)不足用語(yǔ),包含:通/不通,有彈性/木,集中/散(以上3對(duì)為必要條件),亮/暗,窄、扁、橫/空,柔/硬,剛/硬,圓/鼻音、悶、喉音、卡、擠,實(shí)/空、飄,(缺)/沙、啞,純、凈/濁,(缺)/炸,潤(rùn)/干,(缺)/抖,親切、有力度/字音分裂,共16對(duì)。
在本研究中,評(píng)價(jià)用語(yǔ)沿用上述16對(duì)標(biāo)準(zhǔn)用語(yǔ),評(píng)價(jià)者均為業(yè)界較為認(rèn)可的專家,評(píng)價(jià)素材產(chǎn)出于經(jīng)過(guò)選拔的、具備專業(yè)素質(zhì)的專業(yè)人員,樣本生產(chǎn)環(huán)境為標(biāo)準(zhǔn)配置的無(wú)噪錄音室,滿足主觀評(píng)價(jià)體系的四點(diǎn)要求。
圖1給出了說(shuō)話人嗓音質(zhì)量識(shí)別系統(tǒng)框圖,和語(yǔ)音識(shí)別系統(tǒng)一樣,建立和應(yīng)用這一系統(tǒng)可以分為兩個(gè)階段,即訓(xùn)練階段和識(shí)別階段。在訓(xùn)練階段,系統(tǒng)每種嗓音特質(zhì)的說(shuō)話人說(shuō)出若干訓(xùn)練語(yǔ)句,系統(tǒng)據(jù)此建立每種嗓音特質(zhì)的模板或模型參量參考集。而在識(shí)別階段,待識(shí)別嗓音特質(zhì)語(yǔ)音中導(dǎo)出的參量與訓(xùn)練中的參考參量或模板進(jìn)行比較,并且根據(jù)一定的相似性進(jìn)行判斷。
圖1 嗓音質(zhì)量識(shí)別系統(tǒng)框圖
說(shuō)話人的嗓音質(zhì)量信息包含在說(shuō)話人的被識(shí)別的信息內(nèi),對(duì)嗓音的分析屬于說(shuō)話人識(shí)別的分支,所以對(duì)說(shuō)話人的識(shí)別研究在理論和操作上同樣適用于對(duì)嗓音的分析。說(shuō)話人識(shí)別的研究最早開(kāi)始于20世紀(jì)30年代,早期的工作主要集中在人耳聽(tīng)辨實(shí)驗(yàn)和探討聽(tīng)音識(shí)別的可能性方面。隨著研究手段和工具的改進(jìn),研究工作不再僅僅局限于單純的人耳聽(tīng)辨。1962年,Bell實(shí)驗(yàn)室的研究通過(guò)可見(jiàn)的語(yǔ)譜圖進(jìn)行人工說(shuō)話人識(shí)別,并將語(yǔ)譜圖稱為聲紋(Voiceprint),意思是同指紋類似。美國(guó)法院在1966年第一次采用了此方法進(jìn)行取證。20世紀(jì)60年早期的說(shuō)話人研究中,幾乎所有的工作都使用語(yǔ)音時(shí)頻能量分析。之后,隨著計(jì)算機(jī)技術(shù)和電子技術(shù)的發(fā)展,使通過(guò)機(jī)器自動(dòng)識(shí)別人的語(yǔ)音成為可能。Bell實(shí)驗(yàn)室的S.Pruzansky提出了基于統(tǒng)計(jì)方差分析和模式匹配的說(shuō)話人識(shí)別方法,其間的工作主要集中在各種識(shí)別參數(shù)的提取、選擇和實(shí)驗(yàn)上,并將倒譜和線性預(yù)測(cè)法分析等方法應(yīng)用于說(shuō)話人識(shí)別,從而引起了信號(hào)處理領(lǐng)域許多學(xué)者的注意,形成了聲紋識(shí)別研究的一個(gè)高潮。
隨著計(jì)算機(jī)技術(shù)的發(fā)展,七十年代起開(kāi)始自動(dòng)說(shuō)話人識(shí)別相關(guān)領(lǐng)域的研究。70年代中期B.S.Atal研究了LPC稀疏、自相關(guān)系數(shù)、聲道的沖激響應(yīng)、聲道的面積函數(shù)及倒譜系數(shù)等不同的特征參數(shù)在自動(dòng)說(shuō)話人識(shí)別中的有效性,并通過(guò)實(shí)驗(yàn)指出倒譜系數(shù)是較為有效的語(yǔ)音特征。從此,說(shuō)話人識(shí)別的方法和技術(shù)在近幾十年來(lái)得到了更加迅速的發(fā)展。識(shí)別模型從單模板模型發(fā)展到多模板模型,從模板模型發(fā)展到矢量量化模型、高斯混合模型、隱馬爾科夫模型,再到人工神經(jīng)網(wǎng)絡(luò);識(shí)別環(huán)境從無(wú)噪聲環(huán)境下對(duì)少數(shù)說(shuō)話人的識(shí)別發(fā)展到復(fù)雜環(huán)境下對(duì)大量說(shuō)話人識(shí)別:所采用的識(shí)別技術(shù)從僅涉及動(dòng)態(tài)規(guī)劃發(fā)展到涉及統(tǒng)計(jì)信號(hào)處理、矢量量化與編碼、莫不系統(tǒng)理論與方法、最優(yōu)估計(jì)理論、人工神經(jīng)網(wǎng)絡(luò)、灰色系統(tǒng)分析等多學(xué)科領(lǐng)域。
如今,說(shuō)話人識(shí)別技術(shù)已逐漸走向?qū)嶋H應(yīng)用。AT&T應(yīng)用說(shuō)話人識(shí)別技術(shù)研制出了智慧卡(smart card),已用于自動(dòng)提款機(jī)。歐洲電信聯(lián)盟在電信與金融結(jié)合領(lǐng)域應(yīng)用說(shuō)話人識(shí)別技術(shù),于1998年完成了CAVE(Caller Verification in Banking and Telecommunication)計(jì)劃,并于同年又啟動(dòng)了PICASSO(Pioneering Call Authentication for Secure Operation)計(jì)劃,在電信網(wǎng)上完成了說(shuō)話人識(shí)別。
3.1 堆棧式稀疏自動(dòng)編碼器原理[5]
如果給定一個(gè)神經(jīng)網(wǎng)絡(luò),假設(shè)其輸入與輸出是相同的,然后訓(xùn)練調(diào)整其參數(shù),得到每一層的權(quán)重。輸入的幾種不同表示(每一層代表一種表示),這些表示就是特征(representation)。自動(dòng)編碼器就是一種盡可能復(fù)原輸入信號(hào)的神經(jīng)網(wǎng)絡(luò),為此,自動(dòng)編碼器就必須捕捉到可以代表原信息的主要成分。
自動(dòng)編碼器的訓(xùn)練過(guò)程可分為以下3個(gè)步驟:
(1)輸入無(wú)標(biāo)簽數(shù)據(jù),采用非監(jiān)督學(xué)習(xí)方式學(xué)習(xí)特征。
(2)通過(guò)編碼器產(chǎn)生特征訓(xùn)練下一層,逐層訓(xùn)練。
(3)輸入有標(biāo)簽數(shù)據(jù),采用監(jiān)督學(xué)習(xí)方式微調(diào)。
3.2 堆棧式稀疏自動(dòng)編碼器建模分析
本研究中,采用樣本的MFCC[5]及其一階差分參數(shù)、LPC以及這兩者的結(jié)合作為網(wǎng)絡(luò)的輸入,構(gòu)建的堆棧式自動(dòng)編碼器根據(jù)原理可以分為以下4個(gè)模塊。
(1)輸入數(shù)據(jù)的向量化處理
對(duì)樣本提取特征后,得到的是一個(gè)個(gè)excel文件,訓(xùn)練網(wǎng)絡(luò)時(shí)需要將數(shù)據(jù)集打包成向量形式的矩陣,包括數(shù)據(jù)Datafeature×samples矩陣和標(biāo)簽Label向量。其中Data的每一列表示一個(gè)樣本,即將原來(lái)一個(gè)excel數(shù)據(jù)表降維reshape成一個(gè)列向量,需要注明的是,原數(shù)據(jù)的打包方式不影響后續(xù)模型訓(xùn)練過(guò)程中深層特征的提取。Label矩陣實(shí)質(zhì)上是一個(gè)列向量,樣本的標(biāo)簽用阿拉伯?dāng)?shù)字從0開(kāi)始表示。
(2)稀疏自動(dòng)編碼器
每層隱藏層均為稀疏自動(dòng)編碼器,采用逐層貪婪[4]訓(xùn)練法來(lái)訓(xùn)練每層自動(dòng)編碼器,訓(xùn)練方法是用梯度下降法對(duì)目標(biāo)損失函數(shù)(Cost-Function)求導(dǎo),使之局部收斂到最小值,在這個(gè)過(guò)程中不斷更新當(dāng)前層的權(quán)值W2、b2和前一層的權(quán)值W1、b1,并由W1生成當(dāng)前層的激勵(lì)值a2,即更深層的特征,作為下一隱藏層的輸入z3。此梯度下降法采用反向傳播算法(back-propagation,BP)來(lái)計(jì)算每一步梯度,即對(duì)W和b的導(dǎo)函數(shù),見(jiàn)式7-13。
目標(biāo)損失函數(shù)定義為J(W,b),由3部分組成:均方差項(xiàng)Jcost,權(quán)重衰減項(xiàng)Jweight和稀疏性懲罰項(xiàng)Jsparse:
J(W,b)=Jcost+λJweight+βJsparse
(1)
(2)
(3)
(4)
其中λ是權(quán)重衰減參數(shù),β是控制稀疏性懲罰因子的權(quán)重。
梯度下降法中,對(duì)W和b進(jìn)行更新:
(5)
(6)
其中α是學(xué)習(xí)速率,且:
(7)
(8)
(9)
對(duì)于輸出層,即nl層,沒(méi)有稀疏性限制,有:
(10)
對(duì)于隱藏層,即l=nl-1,nl-2,……,2層,有:
(11)
最終,
(12)
(13)
在本實(shí)驗(yàn)中,每次下一層都作為輸出層來(lái)對(duì)待,所以當(dāng)前層更新權(quán)重參考的殘差來(lái)源于第nl層,參考式10,上一層更新權(quán)重參考的殘差來(lái)源于當(dāng)前層,認(rèn)為是第nl-1層,參考式11。圖2為兩層隱藏層權(quán)重W和b的更新示意圖。
圖2 W,b更新流程圖
(3)softmax分類器
當(dāng)所有層的自動(dòng)編碼器都預(yù)訓(xùn)練完備后,需要封頂一個(gè)分類器,并輸入有標(biāo)簽數(shù)據(jù)來(lái)訓(xùn)練這個(gè)分類器,達(dá)到分類識(shí)別的作用。假設(shè)共有k中分類標(biāo)簽,樣本集構(gòu)成為
(14)
與稀疏自動(dòng)編碼器一樣,采用梯度下降法計(jì)算分類器代價(jià)函數(shù)的梯度,然后更新分類器的權(quán)重。記輸入x的每一種分類結(jié)果y=j,j=1,2,……k的概率為p(y(i)=j|x(i);θ),有
(15)
softmax分類器的代價(jià)函數(shù)J(θ)與自動(dòng)編碼器的代價(jià)函數(shù)不同,它僅由兩部分組成:判斷正確的概率Jcost(θ),權(quán)重衰減項(xiàng)Jweight(θ)
J(θ)=Jcost(θ)+Jweight(θ)
(16)
(17)
(18)
(19)
θj每次迭代更新為:
θj=θj-α▽?duì)萰J(θ)(j=1,…,k)
(20)
(4)微調(diào)(fine-tuning)
在本實(shí)驗(yàn)中,所采用的微調(diào)方式是將所有隱藏層和分類器看成一個(gè)整體進(jìn)行更新。其糅合了稀疏性自動(dòng)編碼器與softmax分類器更新方式的特點(diǎn),也是采取BP算法進(jìn)行權(quán)重更新,此時(shí)系統(tǒng)整體的error是softmax分類器的損失函數(shù),所以從后向前推,所以除softmax分類器層外,每一層自動(dòng)編碼器的殘差error都是來(lái)自后一層,即滿足
(21)
(22)
本實(shí)驗(yàn)中,實(shí)驗(yàn)樣本為2686個(gè)不帶標(biāo)簽的音頻樣本和672個(gè)標(biāo)簽為由“厚”到“薄”劃分6個(gè)等級(jí)的有標(biāo)簽樣本,672個(gè)有標(biāo)簽樣本中400個(gè)樣本用于訓(xùn)練,272個(gè)樣本用于測(cè)試。選擇MFCC、LPC以及二者的結(jié)合作為神經(jīng)網(wǎng)絡(luò)的輸入;隱藏層的節(jié)點(diǎn)數(shù)在200~800范圍內(nèi);隱藏層層數(shù)范圍在2~4層。以下是改變某一變量時(shí)測(cè)試準(zhǔn)確率的變化情況,具體數(shù)據(jù)參見(jiàn)附錄。
4.1 音頻特征參數(shù)對(duì)實(shí)驗(yàn)準(zhǔn)確率的影響
(a)2層隱藏層下不同特征參數(shù)的準(zhǔn)確率分布圖
(b)3層隱藏層下不同特征參數(shù)的準(zhǔn)確率分布圖
(c)4層隱藏層下不同特征參數(shù)的準(zhǔn)確率分布圖圖3 不同隱藏下不同特征參數(shù)的準(zhǔn)確率分布圖
圖3中的3張圖分別是2層隱藏層、3層隱藏層和4層隱藏層的結(jié)構(gòu)下,以MFCC參數(shù)、LPC參數(shù)以及兩者結(jié)合作為輸入時(shí),測(cè)試準(zhǔn)確率的分布情況。總體來(lái)說(shuō),以LPC參數(shù)作為輸入時(shí),識(shí)別準(zhǔn)確率最高在59%左右,但MFCC參數(shù)作為輸入時(shí),識(shí)別準(zhǔn)確率最高達(dá)到88.8%,識(shí)別能力顯著提高。另外,以MFCC&LPC參數(shù)作為輸入時(shí),其識(shí)別準(zhǔn)確率相較于MFCC又有微小的提升,這從側(cè)面也反應(yīng)出在這種高準(zhǔn)確率下,MFCC參數(shù)對(duì)實(shí)驗(yàn)準(zhǔn)確率的貢獻(xiàn)遠(yuǎn)高于LPC參數(shù)對(duì)實(shí)驗(yàn)準(zhǔn)確率的貢獻(xiàn)。
4.2 網(wǎng)絡(luò)層數(shù)對(duì)實(shí)驗(yàn)準(zhǔn)確率的影響
(a)MFCC參數(shù)下,不同隱藏層層數(shù)時(shí)的準(zhǔn)確率分布圖
(b)MFCC&LPC參數(shù)下,不同隱藏層層數(shù)時(shí)的準(zhǔn)確率分布圖圖4 不同特征參數(shù)下不同隱藏層層數(shù)時(shí)的準(zhǔn)確率分布圖
以上2張圖片分別是以MFCC參數(shù)和MFCC參數(shù)與LPC參數(shù)相結(jié)合作為輸入時(shí),2層隱藏層、3層隱藏層和4層隱藏層結(jié)構(gòu)下識(shí)別準(zhǔn)確率的對(duì)比。當(dāng)輸入為MFCC參數(shù)時(shí),3層隱藏層的網(wǎng)絡(luò)結(jié)構(gòu)能達(dá)到最高的識(shí)別率(注意MFCC此時(shí)還有上升的趨勢(shì)),接近89%,2層隱藏層的網(wǎng)絡(luò)結(jié)構(gòu)的準(zhǔn)確率稍低,4層隱藏層的網(wǎng)絡(luò)結(jié)構(gòu)識(shí)別準(zhǔn)確率最低。但當(dāng)輸入為MFCC&LPC時(shí),僅2層網(wǎng)絡(luò)層就可以達(dá)到很好的識(shí)別效果,識(shí)別準(zhǔn)確率有91%,3、4層隱藏層的網(wǎng)絡(luò)結(jié)構(gòu)時(shí)的準(zhǔn)確率都只有88%左右。由此說(shuō)明最優(yōu)的網(wǎng)絡(luò)層數(shù)受到輸入?yún)?shù)選擇的影響,且網(wǎng)絡(luò)層數(shù)并非越多越好,在某一范圍內(nèi)其作用效果最佳,低于或高于這個(gè)范圍,其會(huì)阻礙實(shí)驗(yàn)準(zhǔn)確率的提高。
4.3 網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)對(duì)實(shí)驗(yàn)準(zhǔn)確率的影響
圖5 3層隱藏層下不同特征參數(shù)時(shí)的準(zhǔn)確率分布圖
上圖反映了網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)對(duì)識(shí)別準(zhǔn)確率的影響狀況:不管是LPC參數(shù)、MFCC參數(shù)還是兩者結(jié)合,隨著隱藏層節(jié)點(diǎn)數(shù)的增加,識(shí)別準(zhǔn)確率隨之增加;當(dāng)隱藏層節(jié)點(diǎn)數(shù)達(dá)到一定值時(shí),識(shí)別準(zhǔn)確率不再增加,持平或發(fā)生微小的抖動(dòng)。
以上各組實(shí)驗(yàn)說(shuō)明,在較少的有標(biāo)簽樣本情況下,構(gòu)建堆棧式自動(dòng)編碼器+softmax分類器的深度神經(jīng)網(wǎng)絡(luò),選擇MFCC&LPC特征參數(shù)為輸入,采取兩層隱藏層,隱藏層節(jié)點(diǎn)數(shù)在450左右時(shí),對(duì)嗓音分析的準(zhǔn)確率可以達(dá)到91%,實(shí)現(xiàn)較好的分類效果。
5.1 總結(jié)
深度學(xué)習(xí)是當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)熱門(mén)研究課題,在圖像、語(yǔ)音處理等多個(gè)方面具有很強(qiáng)的應(yīng)用價(jià)值[3]。而自動(dòng)編碼器在標(biāo)簽樣本數(shù)據(jù)量不足的情況下,通過(guò)輸入無(wú)標(biāo)簽數(shù)據(jù)預(yù)訓(xùn)練網(wǎng)絡(luò),初步提取網(wǎng)絡(luò)參數(shù),再通過(guò)有標(biāo)簽數(shù)據(jù)進(jìn)行微調(diào),可以很好的克服這個(gè)限制。嗓音也可以作為一個(gè)人的身份特征信息,特別在對(duì)人嗓音條件有嚴(yán)格要求的場(chǎng)合下,基于深度學(xué)習(xí)的嗓音分析的模型的建立,可以有效地節(jié)省人力資源,并保證相當(dāng)高的準(zhǔn)確率。
本文主要以深度學(xué)習(xí)理論為基礎(chǔ),以語(yǔ)音特征提取和堆棧式稀疏自動(dòng)編碼器建模為切入點(diǎn),以MATLAB為實(shí)驗(yàn)平臺(tái),較為系統(tǒng)地研究了深度學(xué)習(xí)在嗓音分析中的具體問(wèn)題。實(shí)驗(yàn)結(jié)果證明,深度學(xué)習(xí)在嗓音分析研究上具有準(zhǔn)確性和可靠性,堆棧式稀疏性自動(dòng)編碼器在少量有標(biāo)簽數(shù)據(jù)的限制下也能達(dá)到很好的分析效果。
5.2 展望
盡管本實(shí)驗(yàn)整體上符合目標(biāo)預(yù)期,但在實(shí)驗(yàn)結(jié)果分析中,我們發(fā)現(xiàn)一個(gè)出乎意料的規(guī)律,就是在測(cè)試網(wǎng)絡(luò)層數(shù)對(duì)識(shí)別準(zhǔn)確率的影響時(shí),不管輸入是什么特征參數(shù),在準(zhǔn)確率最大值附近都有一個(gè)偏大的抖動(dòng),隨后識(shí)別準(zhǔn)確率會(huì)隨著隱藏層節(jié)點(diǎn)數(shù)的增加恢復(fù)上升至一個(gè)平穩(wěn)值。在將來(lái),我們希望對(duì)這一特殊現(xiàn)象作具體研究與分析。
此外,本實(shí)驗(yàn)僅對(duì)一組聲音特性做研究,后期應(yīng)當(dāng)廣泛采集標(biāo)簽樣本,系統(tǒng)完整地測(cè)試稀疏自動(dòng)編碼器對(duì)不同聲音特性的識(shí)別準(zhǔn)確率的作用效果。
[1]林悃達(dá).錄音中的監(jiān)聽(tīng)與審聽(tīng)——關(guān)于音質(zhì)主觀評(píng)價(jià)的若干問(wèn)題[J].廣播電視信息,1995.
[2]余建潮,張瑞林.基于MFCC和LPCC的說(shuō)話人識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2009.
[3]余凱,賈磊,陳雨強(qiáng),徐偉.深度學(xué)習(xí)的昨天、今天和明天[J].計(jì)算機(jī)研究與發(fā)展,2013.
[4]YoshuaBengio,PascalLamblin,DanPopovici,HughLarochelle.GreedyLayer-WiseTrainingofDeepNetworks[J].NIPS,2007.
[5]BengioY.LearningDeepArchitecturesforAI[J].FoundationsandTrendsinMachineLearning,2009.
(責(zé)任編輯:宋金寶)
Objective Evaluation of Speech Timbre Based on Auto Encoder
TU Zhong-wen1,ZHAO Yan-ming2,SONG Jin-bao2
(1.School of Presentation Arts,Communication University of China,Beijing 100024,China;2.School of Information Engineering,Communication University of China,Beijing 100024,China)
This paper would first introduce the basic principles of voice recognition and Deep Learning in detail,then set forth how to put the theory of DL into use of voice quality recognition.Starting with extraction of the feature of audio signal,we then set up stacked auto encoder with sparse coding as the core and softmax classification as top.Finally,we take the different features as input and change the number of hidden layers and hidden unites to observe their impacts on validating accuracy.
speech timbre;objective evaluation;auto encoder
2017-04-05
涂中文(1979-),男(漢族),山東濟(jì)寧人,中國(guó)傳媒大學(xué)播音主持藝術(shù)學(xué)院高級(jí)工程師.E-mail:bytuzhongwen@cuc.edu.cn
TP391.4
A
1673-4793(2017)04-0008-06