李 琦 張二華
(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)
連續(xù)語(yǔ)音的自動(dòng)切分,是指從連續(xù)的語(yǔ)音信號(hào)中切分獨(dú)立的音素、音節(jié)或單詞。漢字是單音節(jié)字[1],每個(gè)字都對(duì)應(yīng)一個(gè)音節(jié)。在語(yǔ)音識(shí)別過(guò)程中,不宜直接對(duì)整段語(yǔ)音進(jìn)行識(shí)別,因?yàn)槠渲锌赡馨罅繚h字。由單字組合成句子的情況太多,并且字庫(kù)的大小是有限的,必須通過(guò)連續(xù)語(yǔ)音的自動(dòng)切分技術(shù)對(duì)語(yǔ)音切分,才能進(jìn)行識(shí)別。
現(xiàn)有的連續(xù)語(yǔ)音自動(dòng)切分技術(shù)主要有兩類(lèi)。一類(lèi)是基于時(shí)域特征或頻域特征的切分方法。基于雙門(mén)限和倒譜的檢測(cè)方法[2]是一種傳統(tǒng)的連續(xù)語(yǔ)音切分方法,該方法對(duì)于不含明顯輔音音節(jié)的漢字難以正確切分。曹冠斌[2]等提出了一種多級(jí)切分方法,該方法在分析漢語(yǔ)語(yǔ)音基礎(chǔ)上利用雙門(mén)限端點(diǎn)檢測(cè)技術(shù)、基于倒譜的端點(diǎn)檢測(cè)技術(shù)、相干分析和基音周期軌跡檢測(cè)等方法對(duì)連續(xù)漢語(yǔ)語(yǔ)音進(jìn)行切分。
另一類(lèi)是基于模型的切分方法,該方法需要輸入人工切分好的數(shù)據(jù),對(duì)模型進(jìn)行訓(xùn)練。張揚(yáng)[3]等提出了一種基于時(shí)間長(zhǎng)度的音節(jié)切分方法,利用高斯函數(shù)擬合音節(jié)的長(zhǎng)度對(duì)音節(jié)進(jìn)行切分。
本文綜合利用端點(diǎn)檢測(cè)、語(yǔ)譜圖分析、基音周期軌跡檢測(cè)等技術(shù)研究了漢語(yǔ)連續(xù)語(yǔ)音的自動(dòng)切分。研究了一種連續(xù)語(yǔ)音多級(jí)切分方法,計(jì)算流程如圖1。
圖1 連續(xù)語(yǔ)音多級(jí)切分計(jì)算過(guò)程
語(yǔ)音信號(hào)是一種短時(shí)信號(hào),在短時(shí)間內(nèi)可看作平穩(wěn)信號(hào)[6]。語(yǔ)音信號(hào)攜帶有語(yǔ)義和大量的說(shuō)話人特征。語(yǔ)音特征參數(shù)可分為時(shí)域特征參數(shù)和頻域特征參數(shù)。
計(jì)算語(yǔ)音特征參數(shù)之前,要對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理,一般包括預(yù)加重、分幀和加窗[7]。預(yù)加重可以增強(qiáng)語(yǔ)音高頻部分能量,使語(yǔ)音特征更明顯。因?yàn)檎Z(yǔ)音信號(hào)具有短時(shí)平穩(wěn)性,所以對(duì)其進(jìn)行分幀和加窗,以便用處理平穩(wěn)信號(hào)的方法處理語(yǔ)音信號(hào)。
時(shí)域特征包括短時(shí)能量和短時(shí)過(guò)零率。短時(shí)能量表示每一幀語(yǔ)音信號(hào)包含能量的大小;短時(shí)過(guò)零率表示一幀語(yǔ)音信號(hào)經(jīng)過(guò)零點(diǎn)的次數(shù)。時(shí)域特征是語(yǔ)音切分的基礎(chǔ),可以用來(lái)檢測(cè)有聲段邊界[8]。
頻域特征指的是信號(hào)的各個(gè)頻率成分振幅的強(qiáng)弱變化,頻域特征主要有頻譜、功率譜和頻譜包絡(luò)等,分析方法包括傅里葉變換法、線性預(yù)測(cè)法和帶通濾波器組法等。本文主要研究語(yǔ)音信號(hào)的語(yǔ)譜圖和基音周期譜圖。
相對(duì)于時(shí)域特征,頻譜特征對(duì)于外界的干擾具有一定的魯棒性。另外,頻譜具有非常明顯的聲學(xué)特征,頻域特征具有實(shí)際的物理意義,如共振峰參數(shù)和基音周期參數(shù)等。
2.3.1 語(yǔ)譜圖
語(yǔ)譜圖[9]可以顯示語(yǔ)音的時(shí)-頻特性。語(yǔ)譜圖的橫軸為時(shí)間(幀序號(hào)),縱軸為頻率,二維坐標(biāo)點(diǎn)的值表示對(duì)應(yīng)時(shí)刻、對(duì)應(yīng)頻率成分的振幅,通過(guò)用像素點(diǎn)的顏色深淺來(lái)表示。顏色越深表示該時(shí)-頻點(diǎn)的振幅越強(qiáng)。語(yǔ)譜圖的繪制過(guò)程如下:
1)預(yù)處理,對(duì)語(yǔ)音信號(hào)進(jìn)行分幀、加窗。
2)通過(guò)式(1),對(duì)第n 幀語(yǔ)音信號(hào)xn(m)做快速傅里葉變換,得到短時(shí)頻譜。
該函數(shù)物理意義為:當(dāng)n 固定時(shí),將窗函數(shù)起點(diǎn)移到n 處截取信號(hào)xn(m),再做傅里葉變換得到短時(shí)頻譜Xn(ω)。根據(jù)快速傅里葉變換的結(jié)果,可以得到每幀數(shù)據(jù)Xn(ω)對(duì)應(yīng)的實(shí)部R和虛部I,通過(guò)式(2)得到振幅譜c:
根據(jù)振幅譜c 繪制語(yǔ)譜圖,振幅越大,對(duì)應(yīng)的像素點(diǎn)顏色越深;振幅越小,對(duì)應(yīng)的像素點(diǎn)顏色越淺。因?yàn)閷?shí)數(shù)的振幅譜為偶函數(shù),每一幀數(shù)據(jù)都關(guān)于頻率中心點(diǎn)對(duì)稱(chēng),所以繪制語(yǔ)譜圖時(shí)只需在每一幀的起始位置繪制前一半的頻率樣點(diǎn)即可。
2.3.2 基音周期譜圖
人在發(fā)聲時(shí),聲帶振動(dòng)的頻率稱(chēng)為基頻,相應(yīng)的周期稱(chēng)為基音周期(pitch)?;糁芷谧V圖是基音周期隨時(shí)間的變化圖,能夠反映語(yǔ)音音調(diào)的變化、元音的起始位置和結(jié)束位置等多種信息。基音周期譜圖的繪制方法仿照語(yǔ)譜圖,根據(jù)式(3)求取倒譜ceps,根據(jù)ceps 振幅p 的排序繪制基音譜圖。振幅越大,對(duì)應(yīng)像素點(diǎn)顏色越深;振幅越小,對(duì)應(yīng)像素點(diǎn)顏色越淺。并且在每一幀的起始位置繪制前一半的倒譜樣點(diǎn)。
基于雙門(mén)限和倒譜的端點(diǎn)檢測(cè)技術(shù)是比較經(jīng)典的語(yǔ)音端點(diǎn)檢測(cè)方法。計(jì)算過(guò)程如下:
1)對(duì)語(yǔ)音做雙門(mén)限端點(diǎn)檢測(cè),得到有聲段邊界。
2)對(duì)語(yǔ)音進(jìn)行倒譜端點(diǎn)檢測(cè),得到元音段邊界。
3)根據(jù)漢語(yǔ)的發(fā)音規(guī)律,當(dāng)一個(gè)字的發(fā)音只有元音時(shí),那么該元音段的起始和結(jié)束邊界就是該漢字的語(yǔ)音邊界;當(dāng)一個(gè)字的發(fā)音既包含元音又包含輔音時(shí),輔音往往在元音的前面,此時(shí)將輔音的起始位置和元音的結(jié)束位置作為該字的語(yǔ)音邊界。從有聲段中搜索元音段,取元音段的末尾邊界作為切分的依據(jù)。
該方法對(duì)于基音周期軌跡不相連的多個(gè)字段切分正確率較高;但對(duì)于占少數(shù)的基音周期軌跡相連的字段,單字切分正確率不高。
語(yǔ)音切分點(diǎn)可分為三種。第一種切分點(diǎn)是有聲段和無(wú)聲段的交界處。連續(xù)語(yǔ)音往往包含有聲段和無(wú)聲段,它們?cè)跁r(shí)間域的特征參數(shù)有著較大差異,可以通過(guò)雙門(mén)限端點(diǎn)檢測(cè)方法對(duì)其進(jìn)行區(qū)分。
第二種切分點(diǎn)是元音段和輔音段的邊界。因?yàn)橛新暥瓮鄠€(gè)字段,所以第二種切分點(diǎn)的檢測(cè)在有聲段內(nèi)部進(jìn)行。在多個(gè)連續(xù)字段中,如果后面字段有輔音,那么前一個(gè)字段的元音會(huì)和后一個(gè)字段的輔音相連,因此元音末尾成為單字切分的依據(jù)。
第三種切分點(diǎn)是基音周期軌跡相連的字段邊界。假設(shè)兩漢字元音段相連,即后面的漢字沒(méi)有輔音段。如“師恩難忘”的“師恩”,后面漢字“恩”的元音“en”可能會(huì)和前面漢字“一”的元音“i”連到一起。
盡管傳統(tǒng)的雙門(mén)限法[9]可以將大部分有聲段與無(wú)聲段的邊界找出,但存在輔音段丟失和將無(wú)聲段誤判為有聲段的情況。常規(guī)邊緣端點(diǎn)檢測(cè)在雙門(mén)限法的基礎(chǔ)上增設(shè)了疑似輔音段,提高了有聲段檢測(cè)的準(zhǔn)確率。
傳統(tǒng)雙門(mén)限法在檢測(cè)輔音時(shí),對(duì)于短時(shí)平均過(guò)零率Z設(shè)置閾值ZX。當(dāng)Z ≥ZX時(shí),判定該語(yǔ)音段為輔音。在此過(guò)程中,雙門(mén)限法忽略了短時(shí)能量的限制。這會(huì)導(dǎo)致一部分無(wú)聲段混入輔音段,造成語(yǔ)音段切分誤差。為解決此問(wèn)題,增設(shè)短時(shí)能量閾值EC,定義如式(4):
其中0 ≤α1≤1,Eave為語(yǔ)音的短時(shí)能量,EL為雙門(mén)限法中短時(shí)能量的低門(mén)限。
在此基礎(chǔ)之上,增加判定輔音段的條件:當(dāng)短時(shí)能量參數(shù)E滿(mǎn)足EC≤E ≤EL,且短時(shí)平均過(guò)零率Z滿(mǎn)足Z ≥ZX時(shí),判定該段語(yǔ)音為輔音段。這種方法同時(shí)使用短時(shí)能量和短時(shí)平均過(guò)零率對(duì)輔音段進(jìn)行判斷,可以有效避免將無(wú)聲段誤檢測(cè)為輔音段。
傳統(tǒng)的雙門(mén)限法分別設(shè)置EH、EL分別作為高低兩個(gè)門(mén)限對(duì)元音段進(jìn)行檢測(cè)。當(dāng)E ≥EH時(shí),判定為元音段;當(dāng)EH≤E ≤EL時(shí),判定為過(guò)渡段,過(guò)渡段一般為輔音段;當(dāng)E 圖2 語(yǔ)音“師恩”的短時(shí)能量和語(yǔ)音波形圖 從圖2 可以看出,“師”的短時(shí)能量在元音段和輔音段的交界處大幅度降低,接近于無(wú)聲段,這樣會(huì)導(dǎo)致前面的輔音段整體丟失。因此,本文增設(shè)疑似輔音閾值ES,定義如式(5): 其中0 ≤α2≤1,Eave為語(yǔ)音的平均短時(shí)能量。在之前的判定基礎(chǔ)上增設(shè)條件:當(dāng)滿(mǎn)足ES≤E ≤EC,且Z≤ZX時(shí);或者滿(mǎn)足EC≤E ≤EL且Z ≤ZX時(shí),判定該段語(yǔ)音為疑似輔音段,在擴(kuò)展輔音段時(shí)將相鄰的疑似輔音段合并進(jìn)去。 基音周期譜圖橫軸為時(shí)間(采樣點(diǎn)序號(hào)),縱軸為語(yǔ)音對(duì)應(yīng)的基音周期T。它可以反映語(yǔ)音的元音段位置,同時(shí)還能顯示語(yǔ)音音調(diào)隨時(shí)間的變化。 4.3.1 基音周期軌跡不相連的音節(jié)切分 基音周期軌跡檢測(cè)目的是從基音周期譜圖中找出語(yǔ)音的元音段,并將元音段的結(jié)束位置作為單字切分的依據(jù)。具體切分步驟如下: 1)在有聲段內(nèi),檢測(cè)存在基音周期軌跡的語(yǔ)音段,標(biāo)記其起始和結(jié)束位置為W1、W2。在人的語(yǔ)音當(dāng)中,只有元音段的語(yǔ)音才有基音周期,因此確定W1W2語(yǔ)音段為元音段。 2)根據(jù)漢字發(fā)音規(guī)律,每個(gè)漢字的語(yǔ)音都存在元音段,但不一定存在輔音段。當(dāng)輔音段不存在時(shí),就將存在基音周期軌跡部分的語(yǔ)音認(rèn)定為該字對(duì)應(yīng)的語(yǔ)音;當(dāng)輔音段存在時(shí),將W1W2左側(cè)相鄰的無(wú)基音周期軌跡語(yǔ)音段認(rèn)定為該漢字的輔音段,如圖3。 圖3 語(yǔ)音“周歲”的基音周期譜圖 在圖3 中,找到元音段W1W2后,從W1向左延伸到上一段元音段的末尾,標(biāo)記為W0,W0W2為字段“歲”的語(yǔ)音范圍。若檢測(cè)的字段為有聲段的第一個(gè)字,在檢測(cè)到元音段邊界后,只需向左延伸到有聲段左邊界,將其作為該字段的邊界即可。 4.3.2 基音周期軌跡相連的音節(jié)切分 通過(guò)觀察大量數(shù)據(jù)發(fā)現(xiàn),當(dāng)音節(jié)發(fā)生變化時(shí),語(yǔ)譜圖中能量集中的位置也會(huì)發(fā)生變化。根據(jù)不同頻帶能量總和的變化,可以對(duì)基音周期軌跡相連且變化不明顯的多個(gè)字段,進(jìn)行單字切分。本文將語(yǔ)譜圖的頻率域分為多個(gè)頻帶,并對(duì)各個(gè)時(shí)間、各個(gè)頻帶的語(yǔ)音能量進(jìn)行求和,稱(chēng)為頻帶能量。頻帶能量檢測(cè)就是通過(guò)統(tǒng)計(jì)不同頻帶的能量,找到相鄰音節(jié)之間頻帶能量發(fā)生突變的點(diǎn),作為單字切分依據(jù)。具體實(shí)現(xiàn)過(guò)程如下。 1)計(jì)算語(yǔ)音的頻譜并繪制其語(yǔ)譜圖。語(yǔ)譜圖的縱軸由256 個(gè)頻率采樣點(diǎn)有序排列構(gòu)成,頻率采樣間隔Δt的計(jì)算公式如式(6)所示,其中幀長(zhǎng)N 取512,采樣頻率f取16000Hz。 2)將256 個(gè)數(shù)據(jù)點(diǎn)序號(hào)分成多個(gè)頻帶分,并對(duì)其能量進(jìn)行統(tǒng)計(jì)。由于元音段的能量主要集中在采樣點(diǎn)序號(hào)0~128 范圍內(nèi),因此將頻率域分成[0,31]、[32,63]、[64,127]、[128,191]、[192,255]五個(gè) 頻 帶,分 別 對(duì) 應(yīng)0~1000Hz、1000Hz~2000Hz、2000Hz~4000Hz、4000Hz~6000Hz、6000Hz~8000Hz頻帶,并將數(shù)據(jù)歸一化至0~100 范圍內(nèi),記為w1~w5,如圖4(a)。 圖4 語(yǔ)音“師恩”的語(yǔ)譜圖和頻帶能量曲線 3)檢測(cè)元音段相連的字段邊界。分別統(tǒng)計(jì)w1~w5范圍內(nèi)語(yǔ)音的頻帶能量,并繪制頻帶能量曲線。如圖4(b),“師恩”的元音段相連。在語(yǔ)音邊界處,曲線w2、w3、w4發(fā)生突變,可推斷此處能量變化較大。設(shè)置條件一:w2>40,w3>30,0 如“師恩難忘”其中“難”的輔音“n”和“恩”的元音段相連。“n”是濁輔音,它在語(yǔ)譜圖中的能量主要集中在低頻部分,且能量較低。設(shè)置條件二對(duì)其進(jìn)行切分:w3<40、w4<40、0 本實(shí)驗(yàn)采用的是南京理工大學(xué)NJUST603語(yǔ)音庫(kù),該語(yǔ)音庫(kù)含男、女生語(yǔ)音200 段。語(yǔ)音的采樣頻率為16kHz,誦讀內(nèi)容為作家劉紹棠所著《師恩難忘》,包含593 個(gè)漢字。本文采用命中率(Hit Rate,HR)作為算法的評(píng)價(jià)標(biāo)準(zhǔn),HR 計(jì)算方式如式(7): 其中Nhit表示算法正確檢測(cè)的分段邊界個(gè)數(shù),Nref表示算法檢測(cè)的分段邊界數(shù)。本文設(shè)置了基于雙門(mén)限和倒譜的端點(diǎn)檢測(cè)技術(shù)作為對(duì)比實(shí)驗(yàn)。 根據(jù)4.1 節(jié)~4.4 節(jié)對(duì)連續(xù)語(yǔ)音切分基礎(chǔ)的闡述,可總結(jié)成連續(xù)語(yǔ)音多級(jí)切分方法,具體切分步驟如下: 1)利用改進(jìn)的雙門(mén)限法找出語(yǔ)音的有聲段,將有聲段范圍集合記為S1,無(wú)聲段集合記為S0。 2)利用基音周期軌跡檢測(cè),找出有聲段S1中的元音段和輔音段,并根據(jù)輔音段和元音段的交界位置做切分,初步得到字與字之間的語(yǔ)音邊界,將切分得到的范圍集合記為S2。 3)根據(jù)4.2 節(jié),由于S2中可能存在兩個(gè)字的基音周期軌跡連續(xù),且語(yǔ)音的音調(diào)沒(méi)有明顯變化的情況。本文對(duì)每個(gè)S2中對(duì)應(yīng)的語(yǔ)音段做頻帶能量檢測(cè),通過(guò)頻帶能量的變化對(duì)如“師恩”一類(lèi)的語(yǔ)音做切分,得到最終的語(yǔ)音切分范圍集合S3,S3為最終得到的切分結(jié)果。 本實(shí)驗(yàn)選取男、女生語(yǔ)音共6 個(gè),采用“師恩難忘,原題,老師領(lǐng)進(jìn)門(mén),劉紹棠,那年正月新春,我不滿(mǎn)六周歲,便到鄰近的鄉(xiāng)村小學(xué)去讀書(shū)”作為測(cè)試語(yǔ)音段,共228個(gè)音節(jié)。 本文結(jié)合常規(guī)邊緣端點(diǎn)檢測(cè)、語(yǔ)譜圖分析、基音周期軌跡檢測(cè)等技術(shù)將漢語(yǔ)語(yǔ)音切分為獨(dú)立音節(jié)。通過(guò)對(duì)實(shí)驗(yàn)語(yǔ)音庫(kù)的切分實(shí)驗(yàn),得到表1 的對(duì)比結(jié)果。由表1 可以看出,對(duì)于相同的測(cè)試樣本,多級(jí)切分方法的準(zhǔn)確率更高,比傳統(tǒng)的雙門(mén)限-倒譜端點(diǎn)檢測(cè)技術(shù)高出25.4%。 表1 多個(gè)語(yǔ)音實(shí)驗(yàn)結(jié)果對(duì)比 本文研究的連續(xù)語(yǔ)音多級(jí)切分方法綜合利用了聲學(xué)、語(yǔ)音學(xué)信號(hào)處理等知識(shí),綜合利用常規(guī)邊緣端點(diǎn)檢測(cè)、語(yǔ)譜圖分析、基音周期軌跡檢測(cè)等技術(shù),獲得了較高的準(zhǔn)確率。同時(shí),實(shí)驗(yàn)中也發(fā)現(xiàn)了一些問(wèn)題需要解決,如一些詞語(yǔ)誦讀太快,音量偏小,能量較低,難以找到語(yǔ)音切分邊界的問(wèn)題。這是本文之后的研究方向。4.3 基音周期軌跡檢測(cè)
5 實(shí)驗(yàn)設(shè)置
5.1 多級(jí)切分端點(diǎn)檢測(cè)方法
5.2 實(shí)驗(yàn)結(jié)果
6 結(jié)語(yǔ)