加入調(diào)型信息的漢語孤立詞識別研究

2010-07-18 03:12:02王鵬胡郁戴禮榮劉慶峰

中文信息學(xué)報 2010年4期

王鵬,胡郁,戴禮榮,劉慶峰

(中國科技大學(xué)電子工程與信息科學(xué)系科大訊飛語音實(shí)驗(yàn)室,安徽合肥230027)

1 引言

眾所周知,漢語是一種有調(diào)語言,漢語中的每一個字都是以一個音節(jié)作為基本的發(fā)音單位,音節(jié)和調(diào)決定了這個字的發(fā)音。正確的調(diào)型對區(qū)別不同字或詞起到了很關(guān)鍵的作用[1-4]。因此,調(diào)的信息在漢語語音識別中起著很重要的作用。尤其在同字不同調(diào)的情況下,調(diào)的正確識別顯得就更為重要。

調(diào)的信息如何更好的與現(xiàn)有的隱馬爾可夫模型(H idden M arkov M odel)進(jìn)行結(jié)合,還沒有得到很好的解決。主要有以下困難：第一,調(diào)的類型實(shí)際上由基頻曲線的形狀所決定,而基頻的一個特點(diǎn)是非連續(xù)性,基頻僅存于語音的濁音段,在靜音段以及清音段的基頻是不存在的,因此不便直接將調(diào)型信息融入于傳統(tǒng)的連續(xù)HMM;第二,調(diào)型特征相比較于聲學(xué)段的特征,是一種超音段特征(supra-segmental feature)。這使得在進(jìn)行上下文相關(guān)的聲學(xué)建模時,將調(diào)的上下文信息加入到原有的Tri-phone建模單元中需要特殊考慮。原因在于,加入調(diào)的上下文信息后,模型的復(fù)雜度將極大地增加,以 Tritone為例,模型單元中韻母(調(diào)的載體單元)為150個,經(jīng)過擴(kuò)展后將比原來增大25倍,而在現(xiàn)有的系統(tǒng)中很難采用這么大的phone集合來建立可靠模型。

為了解決以上兩個困難,近些年來研究者進(jìn)行了一系列的嘗試[1-2]。針對第一個問題,目前有兩種解決方案,第一種是采用對非濁音段進(jìn)行內(nèi)插的方法來保證基頻連續(xù)性[3],再將基頻特征與原來的頻譜特征拼接起來,重新組成一個增大的特征向量來訓(xùn)練模型,這就是Em bedded Tone M odel[4]。第二種是Tokuda提出的基于多空間概率分布的HMM模型(MSD-HMM)[5-7],也就是對于基頻和聲學(xué)譜特征,建立兩個概率分布空間,離散的和連續(xù)的,分別對應(yīng)于清音段和濁音段,此方法可以避免由于人工內(nèi)插基頻所帶來的對模型參數(shù)估計的影響。而對于第二個問題,可采用Exp licit Tone M odel的建模方式。也就是對調(diào)單獨(dú)建模。由于將調(diào)分離出來建模,我們可以采用更為復(fù)雜的建模方式,如上下文相關(guān)的建模方案以及考慮超音段特性等[8,12-13]。再利用此模型,對已有的解碼網(wǎng)絡(luò)進(jìn)行重新打分,從而獲得識別率的上升。

這兩個問題處于調(diào)的信息在自動語音識別中運(yùn)用的兩個不同層面：第一個問題在于如何在傳統(tǒng)的連續(xù)HMM模型框架下使用基頻特征;第二個問題在于如何挖掘調(diào)的更為精細(xì),更為深層的信息。本文從這兩個層面出發(fā),提出了一套在二遍解碼的框架下將 Embedded Tone M odel和Explicit Tone M odel的優(yōu)勢相結(jié)合的方法,充分利用了調(diào)的有效信息,從而使識別性能較大幅度提升。

本文的組織結(jié)構(gòu)如下,第2節(jié)給出整個系統(tǒng)構(gòu)成并分別介紹調(diào)型特征,雙流建模[6]方法和Explicit Tone M odel的建模方法,以及二遍解碼的兩模型得分融合方法及原理;第3節(jié)給出實(shí)驗(yàn)結(jié)果及分析;第4節(jié)給出結(jié)論并展望今后工作的趨勢和方向。

2 系統(tǒng)構(gòu)成及原理

2.1 系統(tǒng)構(gòu)成

本文的系統(tǒng)是以 Embedded Tone M odel和Explicit Tone M odel結(jié)合為基礎(chǔ),目的在于將兩者的優(yōu)勢充分結(jié)合,從而實(shí)現(xiàn)對調(diào)的信息的充分利用,以達(dá)到提高識別率的目的。此系統(tǒng)是在漢語孤立詞識別任務(wù)上進(jìn)行試驗(yàn)。

系統(tǒng)結(jié)構(gòu)為圖1所示,在第一遍解碼中我們將不考慮調(diào)的上下文相關(guān)的信息,將頻譜特征和調(diào)型特征分流建模,在決策樹綁定的時候根據(jù)不同流來分別進(jìn)行聚類,兩個流都是通過連續(xù)HMM進(jìn)行建模。在第二遍解碼過程中,Explicit Tone M odel可以通過第一遍解碼所得到的結(jié)果確定音節(jié)邊界,從而確定濁音段的時間邊界信息,再利用此信息訓(xùn)練出一個精細(xì)的上下文相關(guān)的調(diào)的模型。最后利用該模型對第一遍解碼后得到的Nbest保留備選結(jié)果重新打分、排序,從而得到最終識別結(jié)果。

圖1 系統(tǒng)構(gòu)成圖

2.2 特征處理

在Embedded Tone Model中對于第一個流選取的特征是廣泛運(yùn)用的M FCC(梅爾倒譜參數(shù))特征,第二個流采用的是利用諧波求和法算出的F0特征及其一階二階差分,以及通過自相關(guān)法算出的濁音置信度。F0特征利用動態(tài)規(guī)劃算法進(jìn)行了后處理,一方面使特征具有連續(xù)性,另一方面在一定程度上減少半頻,倍頻誤差。同時為了降低不同說話人的調(diào)域影響,我們還利用前后各1秒的窗對F0特征進(jìn)行規(guī)整,也就是長時基音周期規(guī)整(LPN)[10-11]。

在Exp licit Tone M odel中我們采用了與第二個流相同的特征,只是對特征的使用有所區(qū)別,其具體方法如下：利用模型對原訓(xùn)練數(shù)據(jù)進(jìn)行硬切分,用以確定作為帶調(diào)載體的韻母所在的時間位置,從而能夠消除為連接基頻而加入的虛假基頻的影響,以達(dá)到對調(diào)精確建模的目的。

2.3 雙流建模

傳統(tǒng)的Embedded Tone M odel是單流建模,即將頻譜特征和調(diào)型特征綁定成一個流進(jìn)行建模。我們知道頻譜特征和調(diào)型特征是兩種具有一定獨(dú)立性的特征,因此在決策樹綁定的時候?qū)煞N特征參數(shù)綁定在一起有兩個缺陷：一是不夠靈活,兩種特征應(yīng)該根據(jù)其不同特點(diǎn)進(jìn)行分類,因此,單流建模很難將調(diào)的特點(diǎn)發(fā)揮出來,也就得不到更為充分的訓(xùn)練。另一是模型的復(fù)雜度過大,對于漢語來說,phone的模型單元數(shù)共69個,擴(kuò)展為T ri-phone的時候大約2000狀態(tài)數(shù)即可描述其特性。而調(diào)的模型單元數(shù)只有5個,只需要約500狀態(tài)即可描述。如果采用單流建模,由于將兩個建模單元綁定在一起,因此,調(diào)型模型的狀態(tài)數(shù)必須與音的模型狀態(tài)數(shù)保持一致,這樣就造成模型的復(fù)雜度提高。而雙流建模恰好可以解決這樣的問題。在雙流建模中,每一個HMM的狀態(tài)單元包含兩個分布,一個用以描述頻譜參數(shù),另一個用于描述調(diào)型參數(shù)。在訓(xùn)練過程中,輸入特征向量Ot(包含頻譜特征和調(diào)型特征)被當(dāng)作兩個獨(dú)立的流,獨(dú)立估計每個流的混合高斯參數(shù)。比如,給定輸入特征向量Ot,在t時間j狀態(tài)下的輸出概率變?yōu)楣?1)：

其中bc和bp分別對應(yīng)著頻譜和調(diào)型的分布,特征向量Ot也是由頻譜特征和調(diào)型特征組成。而連續(xù)HMM的高斯混合模型也分別由獨(dú)立參數(shù)描述,其表示如公式(2)和公式(3)所示：

對于每一個狀態(tài),頻譜分布和調(diào)型特征分布是用不同的高斯數(shù)來描述的,這樣就可以通過不同復(fù)雜度的模型實(shí)現(xiàn)最優(yōu)建模。

當(dāng)作為調(diào)載體的韻母模型單元進(jìn)行T ri-phone綁定的時候,我們假設(shè)頻譜和調(diào)的特征是獨(dú)立分布的。因此,對于處在同一狀態(tài)相同中心phone單元,我們可以將其第一個流綁定在一起,同理,對于同一狀態(tài)的相同調(diào)單元,我們可以將其第二個流綁定在一起。具體原理如圖2所示。

圖2 韻母雙流綁定訓(xùn)練的示意圖

2.4 Exp licit Tone Model的訓(xùn)練方法

在Embedded Tone Model中,我們已經(jīng)在一定程度上使用了調(diào)的相關(guān)信息。但是由于調(diào)的特性和HMM建模自身的限制,并未能夠?qū)φ{(diào)進(jìn)行精細(xì)建模,比如并未考慮上下文相關(guān)信息以及消除在非發(fā)音段中的人為添加的基頻所造成的影響。因此,在Explicit Tone M odel中我們必須考慮到這些因素,從而在二遍解碼中增加有用的信息量以進(jìn)一步提高識別率。具體建模過程如下：第一步,通過訓(xùn)練好的模型對原訓(xùn)練數(shù)據(jù)進(jìn)行硬切分,從而獲得帶調(diào)韻母的特征邊界;第二步,進(jìn)行上下文相關(guān)的調(diào)的模型訓(xùn)練。在本文的實(shí)驗(yàn)中,我們采用的是左相關(guān)調(diào)的建模,因?yàn)橛袑?shí)驗(yàn)表明,在連續(xù)語流中,左相關(guān)調(diào)的建模比右相關(guān)的性能要好。

2.5 二遍解碼中兩模型得分的融合方法

建立 Em plicit Tone M odel后,便可對用Embedded Tone Model解碼出來的Nbest備選結(jié)果進(jìn)行重新打分,并根據(jù)得分對識別備選條目重新排序,最終得到識別結(jié)果。在這里,我們可以將最終后驗(yàn)概率計算公式寫為(4),因?yàn)槭枪铝⒃~識別任務(wù),所以不考慮語言模型：

其中P(TS|XTS)為第一遍解碼中利用Embedded Tone M odel所計算出的后驗(yàn)概率,α為其所占的權(quán)重。而P(T|XT)為Explicit M odel中的利用了左相關(guān)調(diào)信息的后驗(yàn)概率得分,β為其所占的權(quán)重。其中為了得到最優(yōu)結(jié)果,α和β將在開發(fā)集上進(jìn)行調(diào)整。由于識別任務(wù)是孤立詞識別任務(wù),因此其解碼網(wǎng)絡(luò)也是受限網(wǎng)絡(luò),所以我們可以認(rèn)為在Lattice上進(jìn)行重新打分與在Nbest出來的每一個備選條目上進(jìn)行重新打分是效果一致的。在實(shí)驗(yàn)中,我們發(fā)現(xiàn)對于命令詞識別任務(wù)來說,一般3Best的覆蓋率已經(jīng)很高,足以作為識別上界。因此我們的試驗(yàn)都是保留3Best作為備選結(jié)果,整個融合過程以及重新打分的具體方案如下：

第一步利用Embedded Tone M odel進(jìn)行一遍解碼,解碼后保留3Best結(jié)果,并且對每一個備選條目進(jìn)行Phone一級的硬切分,從而得到其帶調(diào)韻母的邊界,為利用Explicit Tone M odel進(jìn)行重新打分作準(zhǔn)備。

第二步利用Exp licit Tone M odel和上一步中一遍解碼得到的切分結(jié)果對每一個3Best中的備選條目中的每一個帶調(diào)韻母單元重新計算得分。在此處,需要注意的是,每一個調(diào)的得分計算的不再是似然值,而是當(dāng)前調(diào)的后驗(yàn)概率。具體公式如(5)：

其中(5)式的X表示基頻的特征向量,Ti表示當(dāng)前的調(diào)的類型,如Tone1_2(當(dāng)前調(diào)型為陽平,前調(diào)為陰平),Nt為調(diào)的總的模型數(shù)目,由于是左相關(guān)的調(diào)的模型,因此 Nt的值為20。T表示當(dāng)前韻母的時間段長度,用以進(jìn)行幀級別的歸一化。進(jìn)行幀級別歸一化的原因在于與原來一遍解碼的結(jié)果相比,我們所計算的后驗(yàn)概率只利用韻母段的特征進(jìn)行計算,這樣就造成了一遍解碼和二遍解碼所采用的特征段不一致,所以必須進(jìn)行幀一級別的歸一化。當(dāng)完成此步驟后,即可計算每一個備選的調(diào)后驗(yàn)概率得分,公式如(6)：

(6)式是由于Nbest中每一個備選的調(diào)的數(shù)目不同而進(jìn)行的歸一化,NHt為當(dāng)前備選中韻母的總數(shù)目。

第三步,融合由Embedded Tone M odel得到的每一個備選的后驗(yàn)概率和由 Exp licit Tone Model得到的每一個備選的后驗(yàn)概率,并計算出最終的得分,公式如(7),(8),(9)所示。

其中(7)式為Em bedded Tone M odel的每一個備選在Nbest備選中的后驗(yàn)概率的得分,(8)式為Explicit Tone M odel中的每一個備選在Nbest中的后驗(yàn)概率的得分,(9)式為最后重新進(jìn)行得分計算的公式。

注：(9)式中的 α,β分別為 Embedded Tone M odel和Exp licit Tone M odel中的后驗(yàn)概率所占的權(quán)重。

第四步,對備選得分按從大到小排序,輸出識別結(jié)果。

3 實(shí)驗(yàn)結(jié)果及分析

3.1 數(shù)據(jù)庫介紹

為了驗(yàn)證本文中的方法的有效性,我們采用的訓(xùn)練數(shù)據(jù)庫是一個電話數(shù)據(jù)庫,該數(shù)據(jù)庫為電話信道采集的真實(shí)語音數(shù)據(jù),內(nèi)容包括短語、數(shù)字串、字母或短句等,覆蓋全國大部分省份,男女各半,總時長為360小時。其中我們使用的是該數(shù)據(jù)集的一個子集,共 17萬句。此子集用來訓(xùn)練 Em bedded Tone M odel。Explicit Tone M odel的訓(xùn)練數(shù)據(jù)是從該訓(xùn)練庫中另抽取的5萬句組成。

測試庫共有6個,是在不同環(huán)境下錄制的真實(shí)數(shù)據(jù),分別是：

(1)干凈環(huán)境下錄制的電話數(shù)據(jù)庫,共有1 300個條目,后面的報告中統(tǒng)稱為測試集一。

(2)一定噪聲環(huán)境下錄制的電話數(shù)據(jù)庫,并從中挑選信噪比低于20dB的語音數(shù)據(jù)組成測試集,共1 600個條目,后面的報告稱為測試集二。

(3)在會場嘈雜環(huán)境下錄制的數(shù)據(jù)庫,共1 600個條目,后面的總結(jié)報告中對整理后的數(shù)據(jù)定義為測試集三。

(4)車載環(huán)境下錄制的數(shù)據(jù)庫,存在開窗或開空調(diào)等背景噪聲,共4 800個條目,但信噪比較高,后面的總結(jié)報告中定義為測試集四。

3.2 前端處理

對于語音信號先去直流,預(yù)加重(因子為0.97),漢明窗加窗,幀長 25m s,幀移 10m s的。在抽取MFCC特征參數(shù)的同時,采用一種基于能量的VAD算法,對每一段語音濾除掉大約25%～30%的無聲段。抽取0～12維MFCCs,總計為13維。特征參數(shù)通過倒譜均值相減(CMS)去除信道卷積噪聲;計算一階差分、二階差分總計構(gòu)成39維;對于調(diào)型相關(guān)特征,采用利用諧波加權(quán)法和長時基音周期規(guī)整算法所得到的經(jīng)過歸一化的基頻(F0)特征和其一階,二階差分以及一維濁音置信度。

3.3 Embedded ToneM odel和Exp licit ToneM odel的訓(xùn)練

兩個模型的訓(xùn)練都是基于HTK工具,Embedded Tone M odel中采用的是聲韻母建模單元,并進(jìn)行T ri-phone擴(kuò)展。該模型采用雙流建模,第一個流狀態(tài)數(shù)控制為2000狀態(tài),第二個流為500狀態(tài),每狀態(tài)高斯數(shù)為12;此外,一個3狀態(tài)的silence模型及一個單狀態(tài)的shortPause(sp)模型也被引人系統(tǒng)中以吸收靜寂段及各數(shù)字之間的短停頓。在Triphone擴(kuò)展的過程中對于兩個流設(shè)計了不同問題集以及不同決策樹進(jìn)行聚類。Exp licit Tone M odel我們采用的是左相關(guān)的調(diào)型建模單元,每個模型單元為5狀態(tài),高斯數(shù)為8高斯。

3.4 實(shí)驗(yàn)結(jié)果以及分析

實(shí)驗(yàn)一,調(diào)識別率實(shí)驗(yàn)。為了驗(yàn)證 Explicit Tone M odel中的左相關(guān)調(diào)建模的有效性,我們進(jìn)行了下列實(shí)驗(yàn)。利用M onoTone作為基線系統(tǒng),分別進(jìn)行左相關(guān)以及右相關(guān)的調(diào)的建模進(jìn)行對照,實(shí)驗(yàn)結(jié)果如表1所示：

表1 M onoTone,左相關(guān),右相關(guān)建模調(diào)的識別率

如表1所示,左相關(guān)(Left_BiTone)或右相關(guān)(Right_BiTone)的建模相比于原M onoTone建模,其識別率能大大提高,并且左調(diào)相關(guān)的識別率高于右調(diào)相關(guān)的識別率。這是在于對于M onoTone而言,沒有考慮到調(diào)的左右相關(guān)信息,因此不能更好的突出漢語連續(xù)語流中左右調(diào)對于當(dāng)前調(diào)的的影響,所以識別性能不如采用考慮左右相關(guān)性的調(diào)的建模方式。并且由于漢語自身的發(fā)聲特點(diǎn),左相關(guān)的建模能夠更好的描述在連續(xù)語流中變調(diào)現(xiàn)象。因此,我們相信采用左相關(guān)的Exp licit Tone Model將會帶來更為準(zhǔn)確的信息。

實(shí)驗(yàn)二,覆蓋率實(shí)驗(yàn)。為了驗(yàn)證 Em bedded Tone Model中得到的3best備選結(jié)果是否能達(dá)到充分覆蓋正確結(jié)果的目的,我們分別測定了10best,5best,3best和1best下的識別結(jié)果,以確定其有效性,其結(jié)果如表2所示：

表2 覆蓋率實(shí)驗(yàn)

如表2所示,隨著備選的增多,正確詞的覆蓋率可以得到極大的提高。其原因在于對于漢語孤立詞識別任務(wù),由于解碼空間是受限空間,因此解碼后的得到的NBest備選將會覆蓋絕大部份正確答案,從而具有很高的正確詞覆蓋率。Explicit Tone Model的作用就在于如何將這些在備選中混淆的詞利用更加準(zhǔn)確的調(diào)信息加以區(qū)別以獲得更高的識別率。由實(shí)驗(yàn)結(jié)果可得,3best的準(zhǔn)確詞覆蓋率已遠(yuǎn)高于1best,因此,從效率因素考慮本文中進(jìn)行兩遍解碼所保留Nbest的備選數(shù)目為3個。

實(shí)驗(yàn)三,利用Explicit Tone M odel對 Embedded Tone Model所得到的識別結(jié)果進(jìn)行兩遍解碼,從而得到最終的識別結(jié)果。其中我們從電話數(shù)據(jù)庫中找出一部分作為開發(fā)集,以確定了α,β權(quán)重的參數(shù)范圍。α,β的參數(shù)設(shè)置為(1,0.05)。實(shí)驗(yàn)的基線系統(tǒng)為不帶調(diào)特征的單流模型,其他配置與Embedded Tone Model系統(tǒng)保持一致。實(shí)驗(yàn)結(jié)果如表3所示。

表3 二遍解碼的識別結(jié)果

表3中,可以看到Embedded Tone M odel中的雙流建模(DS_1best)對識別率提高非常明顯,平均能提高3%左右,在測試集三上能提高5.36%。其原因在于雙流建模能更好的將音的特性和調(diào)的特性分流去進(jìn)行綁定、建模,從而極大程度上提高了調(diào)的信息的在漢語語音識別中的作用。結(jié)合Explicit Tone M odel的二遍解碼(BT)方法,也看到了其對識別性能的提升所起到的作用,由于Explicit Tone Model在建模過程中避免了基頻內(nèi)插所帶來的影響和在Embedded Tone M odel中由于超音段限制而無法考慮的調(diào)的上下文相關(guān)性的影響。因此,在更為精細(xì)的Explicit Tone M odel的幫助下,還能在一定程度上提高識別率。

4 結(jié)論及展望

在本文中,主要討論了如何在漢語孤立詞識別任務(wù)上更好的利用調(diào)的信息,采用的方法是在兩遍解碼的框架下,將 Embedded Tone M odel和 Exp licit Tone M odel相結(jié)合的方式。在 Embedded Tone M odel中我們用的M onoTone進(jìn)行建模,并且利用雙流建模兩方面的優(yōu)勢：一方面在 Triphone綁定的時候,將頻譜信息和調(diào)型信息分開,從而能夠利用兩者不同的特點(diǎn)進(jìn)行綁定;另一方面,降低了模型復(fù)雜度。但是由于Embedded Tone Model沒有充分利用調(diào)的上下文相關(guān)信息,因此我們利用Explicit Tone M odel中進(jìn)行更為精細(xì)的建模。在融合過程中,由于不同備選的時間切分信息不一致,造成兩者的得分范圍不一致。為解決此問題,我們進(jìn)行了幀一級的歸一化,然后再進(jìn)行后驗(yàn)概率的得分融合。本文中的兩種方法的結(jié)合較大幅度提高了識別率,并且在一定程度上降低了模型復(fù)雜度。本文工作主要運(yùn)用于漢語孤立詞識別,但是沒有充分利用語流中詞調(diào)和句調(diào)信息,因此如何將這些高層次信息運(yùn)用到孤立詞識別任務(wù)中,以及將相關(guān)方法推廣到漢語大詞匯量連續(xù)語流識別中將是下一步工作中所要考慮的問題。

[1] Y.W.Wong and E.Chang.The effect of pitch and tone on different Mandarin speech recognition tasks[C]//Proc.Eurospeech,2001：1517-1521.

[2] C.J.Chen,R.A.Gopinath,M.D.M onkow ski,M.A.Picheny,and K.Shen.New methods in continuous Mandarin speech recognition[C]//Proc.Eurospeech,1997：1543-1546.

[3] M odeling of fundamental frequency using a quad ratic sp line function[C]//'IYavaux de I'Institut-de Phonetique d'Aix 15,1993：71-85.

[4] Qian Y.Use of Tone information in cantonese LVCSR based on generalized character posterior p robability decoding[D].PhD.Thesis,CUHK,2005.

[5] Tokuda K,Masuko T,M iyazaki N,Kobayashi T.M ultispace p robability distribution HMM[C]//IEICE Trans.Inf.&Syst.,2002;E85-D(3)：455-464.

[6] Frank Seide and N.Wang,Two-Stream Modeling of Mandarin Tones[C]//Proc.ICSLP 2000,October,2000.

[7] Wang H L,Q ian Y,Soong F K,Zhou JL,H an JQ.A Multi-Space Distribution(M SD)approach to speech recognition of tonal languages[C]//Proc.of ICSLP,2006：1047-1050.

[8] Jin-song Zhang and Keikichi H irose,Anchoring H ypothesis and its App lication to Tone Recognition of Chinese Continuous Speech[C]//Proc.ICASSP 2000,2000.

[9] C.H.H uang and F.Seide.Pitch tracking and tone features for mandarin speech recognition[C]// Proceedings of ICASSP,2000：1523-1526.

[10] 朱小燕,王昱,劉俊,漢語聲調(diào)識別中的基音平滑新方法[J].中文信息學(xué)報,2001,20(2)：45-50.

[11] 潘逸倩,魏思,王仁華,基于韻律信息的連續(xù)語流調(diào)型評測研究[J].中文信息學(xué)報,2008,20(4)：88-93.

[12] 林茂燦.普通話語句的韻律結(jié)構(gòu)和基頻(F0)高低線構(gòu)建[J].當(dāng)代語言學(xué),2002,(4)：254-265.

[13] 勇強(qiáng),初敏,賀琳,呂士海.漢語話音節(jié)時長統(tǒng)計分析[C]//第五屆全國現(xiàn)代語音學(xué)學(xué)術(shù)會議論文集,2001：66-69.