• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      語言發(fā)音模型研究綜述

      2018-06-26 10:19:28張金光
      計算機(jī)工程與應(yīng)用 2018年12期
      關(guān)鍵詞:聲道聲門聲源

      張金光

      北京大學(xué) 中國語言文學(xué)系,北京 100871

      1 引言

      傳統(tǒng)觀點(diǎn)認(rèn)為語音是離散的線性的序列,是由最小語音單位(音素或音段)按照時間順序排列組合而成的。然而發(fā)音音系學(xué)(Articulatory Phonology)卻認(rèn)為言語信號是連續(xù)的非線性的語音聚合群,是由交叉重疊的發(fā)音器官姿勢(音姿)協(xié)同變化產(chǎn)生的[1]。

      到底語音是如何產(chǎn)生的?能不能建立模型,模擬語音的產(chǎn)生過程?研究者們做過哪些嘗試?成功和失敗的原因是什么?本文嘗試梳理各種有較大影響的語言發(fā)音模型的文獻(xiàn)資料,概括已有的研究成果,探索這些問題的答案。

      很早以前,人們就對語言發(fā)音的原理產(chǎn)生了濃厚的興趣,并嘗試?yán)脵C(jī)械手段模擬語言發(fā)音過程。在中國,唐朝小說家張鷟所著的《朝野僉載》卷六,有木和尚說話化緣的記載:將作大匠楊務(wù)廉,甚有巧思,常于沁州市內(nèi)刻木作僧,手執(zhí)一椀,自能行乞,椀中錢滿,關(guān)鍵忽發(fā),自然作聲云“布施”,市人競觀,欲其作聲,施者日盈數(shù)千矣。在外國,18世紀(jì)80年代匈牙利人Wolfgang von Kempelen發(fā)明了一個講話機(jī),用風(fēng)箱模仿肺,用笛子模仿聲帶,用管子模仿口腔,不僅能產(chǎn)生一些元音和輔音,而且能發(fā)出完整的詞和短語[2]。第一個基于電子技術(shù)的廣為人知的語言發(fā)音模型是1939年在紐約世界博覽會上展出的Voder,這個模型用脈沖發(fā)生器作為濁音聲源,用噪聲發(fā)生器作為清音聲源,用濾波器產(chǎn)生共鳴效果。

      語言發(fā)音模型的理論基礎(chǔ)是言語產(chǎn)生的聲學(xué)理論。根據(jù)Stevens的觀點(diǎn),聲門把氣流通道分成了上下兩部分,對于大多數(shù)語音的產(chǎn)生過程而言,聲門以下的系統(tǒng)提供了氣流能量,喉部和聲門以上的結(jié)構(gòu)對氣流進(jìn)行調(diào)制,產(chǎn)生可以聽到的聲音[3]。經(jīng)過對語音進(jìn)行深入研究,學(xué)者們普遍認(rèn)為:(1)由聲帶震動產(chǎn)生周期信號,通過聲道共鳴,形成濁音;(2)由氣流爆破或者摩擦產(chǎn)生非周期噪聲,形成清音;(3)清音和濁音經(jīng)過唇、鼻輻射,在空間進(jìn)行傳播,形成語音。根據(jù)這種理論,只要掌握了聲源、共鳴、輻射的聲學(xué)規(guī)律,就可以模擬語音的產(chǎn)生過程。

      2 發(fā)音模型分類

      Klatt把語音合成器分成了兩類:(1)第一類是生理合成器,企圖忠實地模擬發(fā)音器官的機(jī)械運(yùn)動,以及由此產(chǎn)生的肺部、咽喉、口腔和鼻腔里的體積速度和聲壓的分布情況;(2)第二類是共振峰合成器,利用聲學(xué)描述的簡單規(guī)則集,構(gòu)造語音波形[4]。Sondhi和Schroeter把語音合成器分成了3類:共振峰合成器、線性預(yù)測系數(shù)合成器和生理合成器[5]。

      Theobald把可視化語音合成系統(tǒng)分成了3類:生理合成、基于規(guī)則的合成和拼接合成[6]。Birkholz和Jackel用兩個標(biāo)準(zhǔn)對聲道模型進(jìn)行了分類,他們認(rèn)為,一方面,聲道模型可以分為二維模型和三維模型,二維模型用發(fā)音器官輪廓描述中矢面聲道形狀,而三維模型卻生成真實的聲道三維形狀;另一方面,聲道模型可以分為幾何模型、統(tǒng)計模型和生物機(jī)能模型,幾何模型基于先驗經(jīng)驗描述發(fā)音器官的幾何形狀,統(tǒng)計模型利用統(tǒng)計分析方法建立發(fā)音器官形狀的變化規(guī)則,生物機(jī)能模型通常利用有限元方法研究發(fā)音器官的肌肉動作[7]。

      借鑒以上分類方法,本文把語言發(fā)音模型分為言語聲音模型和言語動作模型,針對言語聲音模型,重點(diǎn)討論基于頻譜分析原理的Vocoder語碼器,基于共振峰原理的Klatt合成器,以及基于生理發(fā)音模型的ASY合成器;針對言語動作模型,將討論幾何特征模型、統(tǒng)計參數(shù)模型和生理機(jī)能模型。

      3 言語聲音模型

      言語聲音模型研究語言發(fā)音的聲學(xué)原理,利用聲音信號處理技術(shù)重構(gòu)語音信號波形。由于對聲源和共鳴之間的關(guān)系的認(rèn)識不同,以及對共鳴的分析方法的不同,產(chǎn)生了3種不同的語言發(fā)音模型,第一種是頻譜分析模型,第二種是共振峰模型;第三種是生理發(fā)音模型。

      頻譜分析模型把語音信號從時域變到頻域,以基頻信號作為聲門激勵,以頻譜包絡(luò)作為聲道響應(yīng),經(jīng)過信號處理之后,重構(gòu)語音信號波形。共振峰模型利用周期信號作為濁音聲源,利用噪聲信號作為清音聲源,利用共鳴器(濾波器)在特定頻率位置構(gòu)造極點(diǎn)和零點(diǎn),模擬共鳴和反共鳴,聲源信號經(jīng)過濾波產(chǎn)生具有特定共鳴特征的語音信號。生理發(fā)音模型反對聲源-濾波的線性模型,認(rèn)為聲源和共鳴之間有耦合,提出直接解聲學(xué)方程的方法,嘗試建立符合發(fā)音生理過程的語言發(fā)音模型。

      3.1 頻譜分析模型

      所有基于頻譜分析的語言發(fā)音模型的根本特征都在于解卷積。語音信號是聲門激勵、聲道響應(yīng)和唇鼻輻射的卷積。通過解卷積,把聲門激勵和聲道響應(yīng)分離開。Channel Vocoder、LPC分析和倒譜分析是3種解卷積的方法。

      第一種頻譜分析模型是Channel Vocoder。Dudley的Voder是第一個成功的Channel Vocoder,在分析階段,首先用10個模擬帶通濾波器對輸入信號進(jìn)行頻率分離,然后通過積分電路獲得每個頻帶的幅度包絡(luò)。在合成階段,用振蕩器產(chǎn)生基頻信號,作為濁音聲源,用“s”噪聲作為清音聲源,通過10個帶通濾波器分別進(jìn)行濾波,然后疊加,生成語音信號。因為每個通道只保留了幅度丟失了相位,所以叫Channel Vocoder,后來增加了對相位的處理,叫Phase Vocoder。在同態(tài)濾波器的基礎(chǔ)上,Opennheim提出了Homomorphic Vocoder[8-9],這種方法利用倒譜算法,對聲源和共鳴進(jìn)行分離,經(jīng)過處理之后,再進(jìn)行合成,產(chǎn)生語音波形,Homomorphic Vocoder是現(xiàn)在很多HMM TTS合成器的基礎(chǔ)。

      第二種頻譜分析模型稱為LPC分析,用線性預(yù)測編碼(LPC)技術(shù),對語音信號的聲源和共鳴進(jìn)行分離。這種技術(shù)最初用在圖像處理領(lǐng)域,由于聲音信號和圖像信號有類似的變化規(guī)律,才被引入語音信號處理領(lǐng)域。從時域來看,相鄰時刻的語音信號有很大的相似性,如果把前一個信號作為當(dāng)前信號的預(yù)測值,通常情況下預(yù)測誤差很小。假設(shè)一幀內(nèi)的所有樣本各自乘以系數(shù)ai,把得到的樣本序列的前p個樣本之和,作為當(dāng)前樣本的預(yù)測值,運(yùn)用最小二乘法,計算使得殘差平方和最小的ai系數(shù)矩陣,這就是LPC系數(shù),預(yù)測誤差稱為LPC殘差。如果把一幀LPC系數(shù)按照固定比例(比如乘以15 000)放大幅值,并在前后添加0,構(gòu)成512個樣本,對這組樣本做傅里葉變換,就可以得到平滑的頻譜包絡(luò)[10],因此,從頻域來看,LPC系數(shù)體現(xiàn)了頻譜包絡(luò)變化規(guī)律,代表的是聲道響應(yīng)特征;LPC殘差包含的是基頻信息,代表的是聲門激勵狀態(tài)。用LPC系數(shù)和聲門信號可以重構(gòu)語音波形。如果聲門信號用記錄的LPC殘差,合成出來的語音與原始語音幾乎沒有差別,但是這只是記錄和回放而已,LPC處理失去了建立語言發(fā)音模型的意義。

      第三種頻譜分析模型是倒譜分析模型,利用倒譜分析技術(shù)分離聲門激勵和聲道響應(yīng)。先對語音信號進(jìn)行快速傅里葉變換,把信號從時域變到頻域,如果把這個頻域信號當(dāng)成時域信號,不難看出這是一個抑制了副半周期的調(diào)幅波,原始信號的基頻相當(dāng)于載波,原始信號的頻譜包絡(luò)相當(dāng)于調(diào)制信號,對這個信號再進(jìn)行傅里葉變換(稱為inverse FFT),輸出信號的低“頻”區(qū)是原始信號的頻譜包絡(luò),高“頻”區(qū)是原始信號的基頻載波[9-10],此時,聲源和共鳴已經(jīng)分開了,通常在傅里葉逆變換之前對信號取對數(shù),取對數(shù)之后的信號只保留實部,然后進(jìn)行傅里葉逆變換,就得到了倒譜。之所以“頻”字加引號,是因為實際上信號已經(jīng)回到時域了。在基于HMM的語音合成中,經(jīng)常采用美爾(Mel)倒譜分析模型。所謂美爾倒譜,是對傅里葉變換的結(jié)果經(jīng)過美爾濾波之后,取對數(shù),然后再求倒譜。所謂美爾濾波,是符合人耳生理特征的濾波,在人耳基底膜上,頻譜成分是一組一組疊加在一起進(jìn)行感知的,每一組形成一個臨界帶,頻率越高臨界帶的帶寬越寬,可以設(shè)計濾波器組模擬基底膜的工作過程,這就是美爾濾波器。之所以取對數(shù)有兩個原因,其一,振幅和音強(qiáng),基頻和音高,都不是線性關(guān)系,通常呈現(xiàn)對數(shù)關(guān)系;其二,語音信號可以近似表示為聲門激勵和聲道響應(yīng)的卷積,二者不是線性關(guān)系,無法進(jìn)行加法運(yùn)算,但是取對數(shù)之后,可以變成線性疊加關(guān)系,這叫同態(tài)處理[9]。對語音信號進(jìn)行預(yù)加重,提升高頻成分,然后進(jìn)行快速傅里葉變換,計算譜線能量,計算通過美爾濾波器的能量,取對數(shù),用離散余弦變換(DCT)求倒譜,這樣就得到了MFCC系數(shù)[11-12]。

      頻譜分析模型的共同問題都在于聲源信號的有效控制,如果用L-F Model等周期性聲門脈沖作為聲源信號,合成的語音存在無法消除的金屬聲,另外,聲源和共鳴無法徹底分離[13]。

      3.2 共振峰模型

      共振峰模型是在頻域上特定位置構(gòu)造極點(diǎn)和零點(diǎn),模擬共鳴和反共鳴。共振峰合成器有3種類型,共鳴器并聯(lián)組合的PAT合成器,共鳴器串聯(lián)組合的OVE合成器,共鳴器串并聯(lián)組合的 Klatt合成器[2,4,14],Klatt合成器的DECTalk版本是最成功的共振峰合成器。

      Klatt合成器的濁音聲源可以是自然聲源(聲帶震動)的采樣信號(語音波形逆濾波),也可以是理想聲源信號(如L-F Model),Klatt合成器的清音聲源是由隨機(jī)數(shù)產(chǎn)生的噪聲聲源。共鳴效果用數(shù)字共鳴器(濾波器)實現(xiàn)。Klatt合成器的數(shù)字共鳴器通過輸入信號、前一個時刻的輸出信號、前兩個時刻的輸出信號,三者相加來實現(xiàn),如公式(1)所示,其中,A、B、C 系數(shù)由Gold和Rabiner給出的公式來計算,如公式(3)~(5)所示,PI是常數(shù)π,BW是帶寬,F(xiàn)是共振頻率,T是每個樣本的時長[15]。其傳遞函數(shù)如公式(2),根據(jù) A、B、C 的值,可以畫出共鳴器的頻率響應(yīng)曲線。

      Klatt合成器可以單獨(dú)用并聯(lián)共鳴器組,也可以用串并聯(lián)共鳴器組,共鳴效果取決于預(yù)先設(shè)置的共振頻率、帶寬和增益,這些特征值以參數(shù)的形式傳遞給程序。根據(jù)讀入的每幀參數(shù)數(shù)據(jù),按照公式(3)~(5)計算各個共鳴器的A、B、C系數(shù)值,然后,這些A、B、C系數(shù)值分別被送入各個共鳴器,根據(jù)公式(1)進(jìn)行計算,產(chǎn)生樣本數(shù)據(jù)。一般情況下,語音信號在10 ms時間內(nèi)頻譜穩(wěn)定,因此每幀參數(shù)通常持續(xù)10 ms,如果采樣頻率設(shè)置為16 000 Hz,那么每組參數(shù)要產(chǎn)生(16 000/1 000)×10=160個樣本,也就是說,需要循環(huán)160次進(jìn)行共鳴運(yùn)算。各個共鳴器的輸出信號進(jìn)行疊加產(chǎn)生的樣本就是合成出來的語音波形數(shù)據(jù)[16]。

      共振峰發(fā)音模型的優(yōu)點(diǎn)在于語音學(xué)意義非常清晰,各個語音學(xué)特征值可以自由調(diào)整,并且可以合成出理論上存在而現(xiàn)實中沒有的語音。其缺點(diǎn)在于合成的語音不夠自然,與真實語音存在無法消除的差別,另外,參數(shù)的準(zhǔn)確提取非常困難,參數(shù)設(shè)置非常復(fù)雜,通常需要手動反復(fù)嘗試。

      3.3 生理發(fā)音模型

      生理發(fā)音模型認(rèn)為傳統(tǒng)聲源-濾波模型是一種線性模型,這種線性模型把聲源的發(fā)聲和聲道的調(diào)音當(dāng)成了兩個獨(dú)立的系統(tǒng),在某種程度上,這種假設(shè)限制了共振峰合成器的語音質(zhì)量。因此,生理發(fā)音模型反對頻域分離方法,提出了時域模擬思想,嘗試建立符合發(fā)音生理過程的語言發(fā)音模型。

      早在1959年,F(xiàn)lanagan就提到了一種基于生理發(fā)音原理的聲道合成器[17]。1962年,Kelly和Lochbaum提出了Kelly-Lochbaum聲道計算模型[18]。1969年,言語產(chǎn)生的生理發(fā)音模型基本形成,F(xiàn)lanagan提出了用聲門下壓(subglottal pressure)、聲帶張力(vocal-cord tension)和聲道形狀(vocal-tract shape)三個生理因素,合成所有語音的目標(biāo)[19]。1960年代到1980年代,Coker、Mermelstein、Rubin、Maeda等人加入了生理發(fā)音模型研究的行列。生理發(fā)音模型的早期語言發(fā)音理論框架主要體現(xiàn)在Maeda和Rubin的研究論文當(dāng)中。

      根據(jù)Maeda的描述[20-21],生理發(fā)音模型包含一個氣流恒壓源,一個時變聲門,兩個管子,一個代表口腔,一個代表鼻腔。有兩個規(guī)則,一個是空間矩形規(guī)則,是指某個變量在一個空間段內(nèi)的積分值等價于空間中點(diǎn)的積分值乘以空間長度,一個是時間梯形規(guī)則,是指某個變量在一個時間段內(nèi)的積分值等價于下限積分值和上限積分值的平均值乘以時間長度,通過這兩個規(guī)則,制約聲波產(chǎn)生和傳播的原理,被轉(zhuǎn)換成了離散變量表征的聲學(xué)方程。由于頻率曲變(frequency warping),這種離散化處理引起了頻譜變形,頻率曲變程度取決于采樣頻率和空間取樣間隔。Maeda以20 kHz的采樣頻率和1 cm的空間取樣間隔,合成了11個法語元音。盡管頻譜的第三共振峰有明顯變形,這些元音聽起來還是很自然,很清晰。當(dāng)采樣頻率等于40 kHz的時候,4 kHz以下的頻譜變形幾乎可以忽略。在Maeda的發(fā)音模型中,沒有獨(dú)立的聲帶模型,而是把聲門面積變化的時間函數(shù)看作聲道面積函數(shù)的一部分。在Maeda的發(fā)音模型中,也沒有考慮聲道中噪聲的產(chǎn)生方式,而是通過平均體積速度和截面積,估計特定位置噪聲信號的大小。

      根據(jù)Rubin的描述[22],ASY生理發(fā)音模型的聲道傳遞函數(shù)的計算方法來自于Kelly-Lochbaum模型。利用ASY的言語動作模型,把聲道近似等間距(缺省模式0.25 cm)分段,每一段作為一個均勻聲管,中線的長度代表聲道的長度,然后根據(jù)文獻(xiàn)所提供的每段聲道的形狀,計算聲管截面積。根據(jù)Kelly-Lochbaum模型,利用聲管截面積計算聲道傳遞函數(shù)。用特定波形信號作為聲源激勵,激勵信號輸入到聲道傳遞函數(shù),就可以產(chǎn)生語音信號波形。

      圖1[22]是聲道等效電路。

      圖1 聲道等效電路

      圖1中的(a)圖是濁音和送氣音的等效電路模型,經(jīng)過諾頓等效變換之后,可以看出其傳遞函數(shù)是:

      這個公式反映了濁音和送氣音的輸出聲壓pm+pn和聲門激勵Ug之間的關(guān)系。圖1中的(b)圖是擦音的等效電路模型,其傳遞函數(shù)是:

      這個公式反映了擦音的輸出聲壓pm和擦音聲源的聲壓之間的關(guān)系。根據(jù)前面兩個公式,只要計算出相應(yīng)的阻抗Z和增益G,就可以根據(jù)聲源信號波形,計算輸出信號聲壓。每段聲管n的阻抗為:

      這是聲道截面積A的函數(shù),增益為:

      其中,α1/2=1-0.007/是傳輸損耗

      也是聲道截面積A的函數(shù)。根據(jù)聲源阻抗和輻射阻抗,利用如下公式:

      逐段迭代,計算各段聲管的阻抗和增益,利用傳遞函數(shù),就可以得到輸出信號聲壓。

      Kelly-Lochbaum模型經(jīng)過Liljencrants的發(fā)展,在生理語音合成領(lǐng)域被廣泛應(yīng)用,稱為RTLA(Reflection Type Line Analog)模型,這個模型的特點(diǎn)是在時域逐段聲管計算聲波前后傳遞的聲壓和氣流,其缺點(diǎn)在于計算過程中聲管長度必須固定,無法處理那些引起聲管長度改變的語音序列,如從[u]到[i],從[a]到[u]等[23]。

      1987年,Sondhi和Schroeter提出了時域和頻域混合的生理發(fā)音模型。用非線性聲帶振蕩器模型作為激勵信號,這個信號依賴于聲門上壓,體現(xiàn)了聲道和聲源的耦合,這是與聲源-濾波模型的根本不同之處。用噪聲信號作為送氣音和擦音聲源,信號強(qiáng)度取決于雷諾數(shù)。利用頻域模型分析聲道(包括口腔和鼻腔),利用時域方法處理聲門。文中提到了生理發(fā)音模型的兩種計算聲道傳遞函數(shù)的方法,F(xiàn)lanagan和Maeda用的是第一種方法,利用微分方程對聲門和聲道進(jìn)行建模,這種方法需要求解大量線性或非線性方程,計算量太大;第二種方法是Kelly-Lochbaum模型,這種方法把聲道當(dāng)成數(shù)字傳輸線,分析聲波的前后傳播,計算速度較快。然而,時域和頻域混合方法卻不同于這兩種方法,而是把頻域聲道信號通過傅里葉逆變換轉(zhuǎn)變到時域,然后和時域聲門信號進(jìn)行數(shù)字卷積。這個發(fā)音模型把聲道分成了4個區(qū)域:KG從聲門到軟腭,KN從軟腭到鼻孔,KC從軟腭到收緊點(diǎn),KL從收緊點(diǎn)到雙唇,每個區(qū)域?qū)?yīng)一個包含A、B、C、D函數(shù)的頻域矩陣。這種方法的優(yōu)勢在于可以利用發(fā)音器官形狀碼本[5]。

      1988年,出現(xiàn)了一種簡化聲道計算的有爭議的Distinctive Regions and Modes(DRM)理論[24-26]。該理論把聲道分成了8個對稱的區(qū)域,各區(qū)域占整個聲道長度的比例分別為:1/10,1/15,2/15,2/10,2/10,2/15,1/15,1/10。在每個區(qū)域中,對應(yīng)于聲道截面積的增大(或減小),共振峰 F1、F2、F3增大(或減?。?,并且與敏感函數(shù)成比例,所謂敏感函數(shù)是指均勻聲管中聲波的動能減去勢能,其原理如圖2[26]所示。

      盡管DRM有爭議,生理語音合成器的商業(yè)化軟件GNUSpeech的聲道模型卻基于DRM。HILL等人運(yùn)用聲管共鳴原理和DRM理論設(shè)計了一個生理發(fā)音模型,并用于GNUSpeech。這個模型把口腔和咽腔分成10段等長均勻聲管,中間的第4和第5段連在一起對應(yīng)于DRM的第4區(qū),第6和第7段連在一起對應(yīng)于DRM的第5區(qū),鼻腔分成6段[27]。這個模型利用聲管共鳴模型TRM(Tube Resonance Model)[28]和特異區(qū)域模式DRM,并借助雙向延遲線,分析聲音在聲道中的傳播過程,實現(xiàn)了聲道形狀和波形輸出的精確控制。

      圖2 DRM模型

      4 言語動作模型

      言語動作模型研究發(fā)音的生理過程,利用圖像信號處理技術(shù)重構(gòu)發(fā)音器官的發(fā)音動作。言語動作模型主要研究主動發(fā)音器官的動作,如雙唇、下頜、舌頭、軟腭、聲帶等。舌頭、軟腭和聲帶通常無法直接觀察,需要借助X光成像、磁共振成像、超聲、腭位照相、動態(tài)腭位記錄、光纖維喉鏡等技術(shù),捕捉它們的運(yùn)動過程。

      根據(jù)建模方法的不同,言語動作模型可以分為3類:生理機(jī)能模型、幾何特征模型、統(tǒng)計參數(shù)模型。

      4.1 生理機(jī)能模型

      生理機(jī)能模型利用生理結(jié)構(gòu)分析的方法,研究發(fā)音器官的組織結(jié)構(gòu)形式和肌肉運(yùn)動過程,通常運(yùn)用3D建模技術(shù),構(gòu)造三維動態(tài)模型。

      最早建立生理機(jī)能模型的是Perkell。在博士論文中,他描述了一個舌頭動態(tài)生理調(diào)音模型,這是一個中矢面二維功能性模型,輸入和輸出都是可以測量的生理變量,這個模型包括16個相互連接的承載質(zhì)量的fleshpoints模型,這些fleshpoints通過38個主動拉力元素,47個被動拉力元素,連接到骨質(zhì)成分上。張力、體積守恒力、滑動摩擦力和硬結(jié)構(gòu)抗穿透力作用到fleshpoints模型上,決定它們的運(yùn)動方式[29]。

      Wilhelms-Tricarico利用有限元方法建立了三維生理發(fā)音模型。他在1995年的論文中提到:用有限元方法,建立雙唇、舌頭等軟組織在言語產(chǎn)生中的生物力學(xué)模型,通過求解拉格朗日運(yùn)動方程的方法,計算這些軟組織的位移和形變,他預(yù)期中的生理發(fā)音模型包括6個部分:下頜、舌體、舌葉、雙唇、軟腭咽腔接口、咽腔,但是最終只用8條肌肉建立了一個舌頭模型[30-31]。

      Honda等構(gòu)造了一個雙唇發(fā)音模型通過唇肌肉收縮模式到唇輪廓形變過程的線性映射建立模型,用多元線性回歸分析,估計唇輪廓上7個點(diǎn)的x、y坐標(biāo)。肌電信號分析表明存在唇型的肌肉群組選擇模式,閉唇是中性唇形,唇輪匝肌OOI和降下唇肌DLI的共同收縮產(chǎn)生了圓唇的各種形變,OOI有兩層,分別是邊緣層(marginal layer)和周圍層(peripheral layer),在突唇動作中,OOI的周圍層活動增強(qiáng)[32]。

      Dang等人建立了一個三維生理發(fā)音模型(如圖3[33]),包括下頜、舌頭、雙唇、牙齒、硬腭、軟腭、咽腔壁、喉等器官。對雙唇和軟腭沒有進(jìn)行生理建模,而是用一個可變長度和截面的短管代表雙唇,用鼻腔和咽腔接口面積大小表示軟腭的運(yùn)動。用粘彈圓柱代替彈簧振子對舌頭進(jìn)行建模,用基于分布的有限元方法提高建模的準(zhǔn)確性。研究表明發(fā)音器官的空間位置和肌肉拉力存在唯一不變映射關(guān)系,主動肌和拮抗肌的協(xié)同收縮,可以控制舌尖和舌背到達(dá)各自的目標(biāo)位置[33-34]。

      圖3 Dang的聲道模型

      Wu等人采用計算機(jī)仿真的方法對言語產(chǎn)生過程中控制發(fā)音器官運(yùn)動的肌肉協(xié)同工作方式進(jìn)行了探索,用有限元方法(Finite Element Method),建立了一個可以模仿人類發(fā)音器官動作的生理模型,該模型包括舌頭、下頜骨、舌骨、聲道壁等發(fā)音器官,以及控制發(fā)音器官運(yùn)動的肌肉組織,此外,他們還建立了一套模型的自動控制方法,使模型可以用于探索人類言語產(chǎn)生的生理機(jī)制。自動地找到一組肌肉激活模式,并控制模型達(dá)到目標(biāo)位置,這是設(shè)計的難點(diǎn),Wu等人已經(jīng)研究出一套自動控制的方法,可以對模型進(jìn)行有效控制[35]。

      Steiner等人運(yùn)用多重線性形狀空間模型,開發(fā)了一個端到端的系統(tǒng),在這個系統(tǒng)中,發(fā)音人參數(shù)決定了舌頭的解剖特征,姿勢參數(shù)代表了發(fā)音動作相關(guān)的形狀特征,解剖特征和形狀特征映射到多邊形網(wǎng)格,形成三維舌頭結(jié)構(gòu)。該系統(tǒng)首先應(yīng)用傳統(tǒng)HTS(隱馬語音合成)方法融合語音和動作兩個模態(tài),然后把兩個模態(tài)分離,調(diào)整多重線性舌頭模型,使其適應(yīng)TTS過程,從而直接從文本合成出語音和三維舌頭發(fā)音動作[36]。

      生理機(jī)能模型模擬了發(fā)音器官的肌肉活動方式,但是由于模型的生理解剖參數(shù)難以獲得,并且控制方式過于復(fù)雜,這種模型產(chǎn)生的發(fā)音動作準(zhǔn)確度并不高。

      4.2 幾何特征模型

      幾何特征模型不注重發(fā)音器官內(nèi)在的生理組織結(jié)構(gòu),而是更關(guān)注發(fā)音器官外在的形狀輪廓,以及這些形狀輪廓之間的變化關(guān)系,嘗試用簡約的線條描述發(fā)音器官的運(yùn)動方式。

      1971年,Lindblom等建立了一個幾何特征模型,通過指令控制發(fā)音器官動作產(chǎn)生元音,這個模型包括5個發(fā)音器官:雙唇、下頜、舌尖、舌體和咽喉,在這個模型中,下頜是區(qū)分不同元音的主要因素,語音動作通過發(fā)音省力原則進(jìn)行優(yōu)化,語音音質(zhì)運(yùn)用最大感知對立算法進(jìn)行優(yōu)化[29,37]。

      Coker建立的調(diào)音模型包括4部分:(1)接近真實發(fā)音的調(diào)音系統(tǒng);(2)發(fā)音狀態(tài)之間插值的器官動作約束系統(tǒng);(3)聲源激勵系統(tǒng),包括:聲門下壓、聲帶夾角、聲帶張力3個子成分;(4)發(fā)音指令轉(zhuǎn)化為發(fā)音動作的控制系統(tǒng)。這個模型的發(fā)音器官動作方式如圖4[38]所示。

      圖4 Coker的聲道模型

      這個模型的舌體輪廓是一段圓弧,用兩個坐標(biāo)控制發(fā)元音時舌體的位置,以及下頜轉(zhuǎn)動角度,用一個參數(shù)控制快速運(yùn)動的輔音發(fā)音時舌頭的位置,用5個參數(shù)控制其他輔音發(fā)音時舌頭的位置,用兩個參數(shù)控制舌尖的抬升和卷舌,還有兩個參數(shù)控制閉唇和圓唇。這個模型有兩種合成語音的算法,一種是用Flanagan-Ishizaka發(fā)音模型直接計算聲壓,一種是用迭代算法通過聲道形狀計算共振頻率,然后驅(qū)動共振峰合成器產(chǎn)生語音[38-39]。

      Mermelstein建立了聲道調(diào)音模型ASY,這個模型和Coker的模型大同小異,Coker的模型強(qiáng)調(diào)基于規(guī)則的合成,而ASY更強(qiáng)調(diào)對咽喉以上調(diào)音器官的配置,以及交互式的系統(tǒng)性控制。這個模型的發(fā)音器官動作方式如圖5[40]所示。

      圖5 Mermelstein的聲道模型

      ASY有6個發(fā)音器官:舌體、軟腭、舌尖、下頜、雙唇、舌根骨,這些器官分成了兩組,一組能夠獨(dú)立運(yùn)動,包括:下頜、軟腭和舌根骨;另一組不能獨(dú)立運(yùn)動,包括舌體、舌尖和雙唇,這3個器官的位置都依賴于下頜,舌尖的位置依賴于舌體。下頜和軟腭的運(yùn)動只有一個自由度,其他器官的運(yùn)動都有兩個自由度。軟腭的運(yùn)動既可以改變口腔聲道的形狀,也可以影響鼻咽耦合的程度。通過拼接準(zhǔn)靜態(tài)聲道沖激響應(yīng)的方式合成語音,元音依賴于下頜、舌體、雙唇、軟腭的位置,輔音取決于發(fā)音器官狀態(tài)變化,這種變化是由底層元音為了滿足發(fā)音位置約束而引起的,ASY用一段圓弧代表舌體輪廓[22,40]。其改進(jìn)版本是CASY,用一條二次曲線代表舌體輪廓[41]。Birkholz等人對這個模型進(jìn)行了改進(jìn),嘗試在二維中矢面模型基礎(chǔ)上,建立三維模型[7]。

      幾何特征模型的發(fā)音器官形狀由簡單的幾何圖形構(gòu)成,并非真實的發(fā)音動作,盡管便于調(diào)整,但是經(jīng)常出現(xiàn)超越生理極限的動作。

      4.3 統(tǒng)計參數(shù)模型

      統(tǒng)計參數(shù)模型通常用主成分分析、線性成分分析、回歸分析、多層神經(jīng)網(wǎng)絡(luò)等統(tǒng)計方法建立發(fā)音器官模型,聲道形狀和控制參數(shù)都依賴于統(tǒng)計結(jié)果。

      基于Maeda發(fā)音模型的VTDemo,是介于幾何特征模型和統(tǒng)計參數(shù)模型之間的類型,雖然這個模型對聲道參數(shù)進(jìn)行了因子分析統(tǒng)計建模,但是整個聲道形狀依然是幾何線條結(jié)構(gòu)。Maeda建立發(fā)音動作模型的方法是用固定的半極坐標(biāo)網(wǎng)格從聲道中選取樣本點(diǎn),然后做因子分析,得到統(tǒng)計參數(shù),如圖6[42]所示。

      圖6 Maeda模型的聲道樣本選擇方法

      在Maeda的模型中,舌頭選了25個樣本點(diǎn),雙唇選了4個樣本點(diǎn),咽喉選了5個樣本點(diǎn),經(jīng)過因子分析之后,舌頭有3個因子,雙唇有2個因子,咽喉有1個因子。另外,下頜選了1個樣本點(diǎn),聲道壁選了25個樣本點(diǎn),這些點(diǎn)沒有做因子分析。這個模型有10個參數(shù),分別控制下頜高度、舌體位置、舌頭形狀、舌尖前后、開口程度、突唇程度、喉頭高度、聲門面積、基頻大小、鼻咽接口。Maeda的模型是靜態(tài)發(fā)音模型,在應(yīng)用過程中,可以靈活調(diào)整參數(shù),然后根據(jù)因子分析的結(jié)果,用回歸方程計算參數(shù)調(diào)整之后的聲道的形狀分布,各個樣本點(diǎn)的回歸算法如下:參數(shù)和對應(yīng)的因子載荷相乘,再累加,然后再乘以標(biāo)準(zhǔn)差,最后加上樣本點(diǎn)的平均值。這個模型的研究結(jié)果表明,在代償發(fā)音中,為了得到相同的F1-F2模式,發(fā)前元音時下頜高度僅能通過舌體位置代償,發(fā)后元音時下頜高度僅能通過開口程度代償[21,42]。

      Laprie和Busset用主成分分析法對X-ray和MRI圖像進(jìn)行了分析,建立了二維發(fā)音模型。對比Maeda模型而言,這個模型更接近統(tǒng)計參數(shù)模型。這個模型和Maeda模型的不同之處在于發(fā)音器官形狀完全來自于統(tǒng)計參數(shù),Maeda模型只有3個舌頭因子,這個模型卻有6個控制舌頭的線性成分,能夠精確匹配各種元音和輔音的原始X-ray和MRI圖像。舌頭輪廓取樣的參照標(biāo)準(zhǔn)和Maeda模型也不同,不是半極坐標(biāo)網(wǎng)格,而是曲線坐標(biāo)。另外,這個模型建立了旋轉(zhuǎn)算法,能夠適應(yīng)不同發(fā)音人的聲道圖像[43-44]。

      Badin等人用主成分分析法[45]和線性成分分析法[46],對X-ray和MRI圖像中的聲道進(jìn)行了建模。這個模型的2D版本用3個參數(shù)(LH、LP、LV)控制突唇、圓唇、翹唇等動作;用4個參數(shù)(JH、TB、TD、TT)控制下頜位置和舌頭形狀;喉頭高度和唇參數(shù)有相關(guān)性,可以用一個參數(shù)(LY)控制喉頭高度;舌根骨的水平位置和下頜高度有很強(qiáng)的相關(guān)性,然而舌根骨的豎直位置和喉頭高度有更強(qiáng)的相關(guān)性,因此用一個參數(shù)(TA)就可以控制舌根骨[47]。這個模型還有一個3D版本,是先前2D中矢面模型的擴(kuò)展,是同一個發(fā)音人的聲道模型。利用這些模型,研究者分析了原始語音的共振峰,2D聲道模型計算的共振峰,以及3D聲道模型計算的共振峰,結(jié)果發(fā)現(xiàn)三者之間差別很小。優(yōu)化的2D模型對聲道面積函數(shù)的計算相當(dāng)準(zhǔn)確。另外,研究者發(fā)現(xiàn)用2D中矢面生理發(fā)音模型的命令參數(shù)可以驅(qū)動3D生理發(fā)音模型[45]。

      統(tǒng)計參數(shù)模型針對真實的發(fā)音器官動作進(jìn)行建模,符合發(fā)音器官的運(yùn)動規(guī)律,但是建模樣本特征點(diǎn)的自動提取技術(shù)很復(fù)雜,通常需要手工測量,限制了樣本的數(shù)量,另外發(fā)音器官動作通常無法靈活調(diào)整。

      5 結(jié)束語

      語言發(fā)音模型研究非常重要,因為語言發(fā)音模型不僅可以用于發(fā)音過程研究,揭示發(fā)音規(guī)律,促進(jìn)語音合成技術(shù)的發(fā)展;而且還可以用于語言教學(xué),無論是針對聽障兒童,還是針對二語習(xí)得,發(fā)音器官動作示范,對于學(xué)習(xí)語言的重要性,已經(jīng)反復(fù)被各種實驗所證實。

      言語聲音模型研究曾經(jīng)是語音合成技術(shù)的必要基礎(chǔ)。然而,隨著波形拼接語音合成技術(shù)的發(fā)展,言語聲音模型研究逐漸退出了工程實踐領(lǐng)域。近年來,情感語音合成受到關(guān)注,逐漸暴露了波形拼接技術(shù)的內(nèi)在缺陷,言語聲音模型研究再次引起普遍重視,共振峰語音合成和生理語音合成有望突破技術(shù)瓶頸,達(dá)到情感語音合成的目標(biāo)。

      言語動作模型研究由于技術(shù)條件的限制進(jìn)展緩慢。近年來,由于核磁共振成像技術(shù)飛速發(fā)展,拍攝清晰的連續(xù)的發(fā)音器官動作圖像,逐漸變得可行,舌頭和軟腭等發(fā)音器官的發(fā)音動作研究在未來幾年將取得重大突破。

      語音的個性特征,以及情感特征,與聲門波形和頻譜包絡(luò)的關(guān)系,及有效控制,是未來研究的重點(diǎn)和難點(diǎn)。統(tǒng)計建模、規(guī)則控制和深度學(xué)習(xí)相結(jié)合,是未來發(fā)展的趨勢。

      [1]Goldstein L,F(xiàn)owler C A.Articulatory phonology:A phonology for public language use[C]//Schiller N O,Meyer A S.Phonetics and Phonology in Language Comprehension and Production,2003:159-207.

      [2]呂士楠.漢語語音合成:原理和技術(shù)[M].北京:科學(xué)出版社,2012:4-6.

      [3]Stevens K N.Acoustic phonetics[D].Massachusetts Institute of Technology,1998.

      [4]Klatt D H.Software for a cascade/parallel formant synthesizer[J].Journal of the Acoustical Society of America,1980,67(3):971-995.

      [5]Sondhi M M,Schroeter J.A hybrid time-frequency domain articulatory speech synthesizer[J].IEEE Transactions on Acoustics Speech&Signal Processing,1987,35(7):955-967.

      [6]Theobald B.Audiovisual speech synthesis[C]//International Congress on Phonetic Sciences,2007:285-290.

      [7]Birkholz P,Jackel D,Kroger B J.Construction and control of a three-dimensional vocal tract model[C]//Proceedings of the International Conference on Acoustics,Speech,and Signal Processing,Toulouse,2006:873-876.

      [8]Oppenheim A V,Schafer R W.Homomorphic analysis of speech[J].IEEE Transactions on Audio&Electroacoustics,1968,16(2):221-226.

      [9]Oppenheim A V.Speech analysis-synthesis system based on homomorphic filtering[J].Journal of the Acoustical Society of America,1969,45(2):458.

      [10]Coleman J.Introducing speech and language processing[M].Cambridge:Cambridge University Press,2005:79-83.

      [11]Pols L C W.Spectral analysis and identification of Dutch vowels in monosyllabic words[D].Amsterdam The Netherlands:Free University,1977.

      [12]Zheng Fang.Comparison of different implementations of MFCC[J].Journal of Computer Science and Technology,2001,16(6):582-589.

      [13]Taylor P.Text-to-speech synthesis[M].Cambridge:Cambridge University Press,2009:408-409.

      [14]Klatt D H,Klatt L C.Analysis,synthesis,and perception of voice quality variations among female and male talkers[J].Journal of the Acoustical Society of America,1990,87(2):820-857.

      [15]Gold B,Rabiner L R.Analysis of digital and analog formant synthesizers[J].IEEE Transactions on Audio&Electroacoustics,1968,16(8):81-94.

      [16]張金光.視聽言語合成技術(shù)綜述[J].電聲技術(shù),2017,41(z2):103-107.

      [17]Flanagan J L.Estimates of intraglottal pressure during phonation[J].Journal of Speech& Hearing Research,1959,2(2):168-172.

      [18]Kelly J L,Lochbaum C.Speech synthesis[C]//Proceedings of the Stockholm Speech Communications,Stockholm,1962:1-4.

      [19]Flanagan J L,Cherry L.Excitation of vocal-tract synthesizers[J].Journal of the Acoustical Society of America,1969,45(3):764-769.

      [20]Maeda S.A digital simulation method of the vocal-tract system[J].Speech Communication,1982,1(3):199-229.

      [21]Maeda S.Improved articulatory models[J].Journal of the Acoustical Society of America,1988,84(S1):146.

      [22]Rubin P,Baer T,Mermelstein P.An articulatory synthesizer for perceptual research[J].Journal of the Acoustical Society of America,1981,70(2):321-328.

      [23]Kroger B J,Birkholz P.Articulatory synthesis of speech and singing:state of the art and suggestions for future research[C]//Multimodal Signals:Cognitive and Algorithmic Issues,2009:306-319.

      [24]Mrayati M,Carre R,Guerin B.Distinctive regions and modes:A new theory of speech production[J].Speech Communication,1988,7(3):257-286.

      [25]Mrayati M,Carre R,Guerin B.Distinctive regions and modes:Articulatory-acoustic-phonetic aspects:A reply to Boe¨and Perrier’s comments[J].Speech Communication,1990,9(3):231-238.

      [26]Boe L J,Perrier P.Comments on“distinctive regions and modes:A new theory of speech production” by M Mrayati,R Carre and B Guerin[J].Speech Communication,1990,9(3):217-230.

      [27]Hill D R,Taubeschock C R,Manzara L.Low-level articulatory synthesis:A working text-to-speech solution and a linguistic tool[J].Canadian Journal of Linguistics,2017,62(3):1-40.

      [28]Manzara L C.The tube resonance model speech synthesizer[J].Journal of the Acoustical Society of America,2009,117(4):2541.

      [29]Perkell J S.A physiologically-oriented model of tongue activity in speech production[D].Massachusetts:Massachusetts Institute of Technology,1974.

      [30]Wilhelms-Tricarico R.Physiological modeling of speech production:Methods for modeling soft tissue articulators[J].Journal of the Acoustical Society of America,1995,97(1):3085-3098.

      [31]Gerard J M,Wilhelms-Tricarico R,Perrier P,et al.A 3D dynamical biomechanical tongue model to study speech motor control[J].Physics,2006,1:49-64.

      [32]Honda K,Kurita T,Kakita Y,et al.Physiology of the lips and modelingof lip gestures[J].Journal of Phonetics,1995,23(1):243-254.

      [33]Fang Q,Dang J.Speech synthesis based on a physiologicalarticulatory model[C]//Chinese Spoken Language Processing.Berlin Heidelberg:Springer,2006:211-222.

      [34]Dang J,Honda K.Construction and control of a physiological articulatory model[J].Journal of the Acoustical Society of America,2004,115(2):853-870.

      [35]Wu X,Dang J,Stavness I.Iterative method to estimate muscle activation with a physiological articulatory model[J].The Acoustic Society of Japan,2014,35(4):201-212.

      [36]Steiner I,Maguer S L,Hewer A.Synthesis of tongue motion and acoustics from text using a multimodal articulatory database[J].IEEE/ACM Transactions on Audio Speech&Language Processing,2016,25(12).

      [37]Lindblom B E,Sundberg J E.Acoustical consequences of lip,tongue,jaw,and larynx movement[J].Journal of the Acoustical Society of America,1971,50(4):1166.

      [38]Coker C H.A model of articulatory dynamics and control[J].Proceedings of the IEEE,1976,64(4):452-460.

      [39]Coker C H,F(xiàn)ujimura O.Model for Specification of the Vocal Tract Area Function[J].Journal of the Acoustical Society of America,1966,40(5):63-75.

      [40]Mermelstein P.Articulatory model for the study of speech production[J].Journal of the Acoustical Society of America,1973,53(4):1070-1082.

      [41]Iskarous K,Goldstein L M,Whalen D H,et al.CASY:The haskins configurable articulatory synthesizer[C]//15th ICPhS Barcelona,2003.

      [42]Maeda S.Compensatory articulation in speech:Analysis of x-ray data with an articulatory model[C]//European Conference on Speech Communication and Technology(Eurospeech 1989),Paris,F(xiàn)rance,1989:2441-2445.

      [43]Laprie Y,Busset J.Construction and evaluation of an articulatory model of the vocal tract[C]//European IEEE Signal Processing Conference,2011:466-470.

      [44]Laprie Y,Vaxelaire B,Cadot M.Geometric articulatory model adapted to the production of consonants[C]//International Seminar on Speech Production,2014.

      [45]Badin P,Bailly G,Raybaudi M,et al.A three-dimensional linear articulatory model based on MRI data[C]//The International Conference on Spoken Language Processing,Incorporating the Australian International Speech Science and Technology Conference,Sydney Convention Centre,Sydney,Australia,1998:533-553.

      [46]Badin P,Elisei F,Bailly G,et al.An audiovisual talking head foraugmented speech generation:Models and animations based on a real speaker’s articulatory data[J].Articulated Motion&Deformable Objects,2008:132-143.

      [47]Beautemps D,Badin P,Bailly G.Linear degrees of freedom in speech production:Analysis of cineradio-and labiofilm data and articulatory-acoustic modeling[J].Journal of the Acoustical Society of America,2001,109(5):2165-2180.

      猜你喜歡
      聲道聲門聲源
      虛擬聲源定位的等效源近場聲全息算法
      9.7.8聲道、造價250余萬 James極品影院賞析
      為發(fā)燒需求打造的11聲道后級 Orisun(傲力聲)OA-S11
      支撐喉鏡聲門區(qū)暴露困難影響因素的logistics分析
      基于GCC-nearest時延估計的室內(nèi)聲源定位
      電子制作(2019年23期)2019-02-23 13:21:12
      尷尬的打嗝
      實現(xiàn)從7.2到11.2聲道的飛躍 Onkyo(安橋)TX-RZ830
      運(yùn)用內(nèi)積相關(guān)性結(jié)合迭代相減識別兩點(diǎn)聲源
      基于“聲門適度感”的聲樂演唱與教學(xué)研究
      力-聲互易在水下聲源強(qiáng)度測量中的應(yīng)用
      息烽县| 砀山县| 武乡县| 黎城县| 旬邑县| 漯河市| 三门县| 房山区| 南澳县| 新昌县| 顺义区| 苏尼特左旗| 电白县| 正阳县| 巴彦淖尔市| 岑巩县| 阿城市| 隆安县| 东丰县| 龙川县| 宁河县| 肇东市| 泸溪县| 平湖市| 新乡市| 阳春市| 中山市| 关岭| 永川市| 周至县| 黔东| 濮阳市| 临泽县| 东乡| 赤峰市| 景谷| 武冈市| 西华县| 宜昌市| 曲阜市| 古丈县|