連續(xù)漢語(yǔ)語(yǔ)音的自動(dòng)切分研究*

2023-08-02 07:07:56張二華

計(jì)算機(jī)與數(shù)字工程 2023年4期

李琦張二華

（南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院南京 210094）

1 引言

連續(xù)語(yǔ)音的自動(dòng)切分，是指從連續(xù)的語(yǔ)音信號(hào)中切分獨(dú)立的音素、音節(jié)或單詞。漢字是單音節(jié)字［1］，每個(gè)字都對(duì)應(yīng)一個(gè)音節(jié)。在語(yǔ)音識(shí)別過(guò)程中，不宜直接對(duì)整段語(yǔ)音進(jìn)行識(shí)別，因?yàn)槠渲锌赡馨罅繚h字。由單字組合成句子的情況太多，并且字庫(kù)的大小是有限的，必須通過(guò)連續(xù)語(yǔ)音的自動(dòng)切分技術(shù)對(duì)語(yǔ)音切分，才能進(jìn)行識(shí)別。

現(xiàn)有的連續(xù)語(yǔ)音自動(dòng)切分技術(shù)主要有兩類(lèi)。一類(lèi)是基于時(shí)域特征或頻域特征的切分方法。基于雙門(mén)限和倒譜的檢測(cè)方法［2］是一種傳統(tǒng)的連續(xù)語(yǔ)音切分方法，該方法對(duì)于不含明顯輔音音節(jié)的漢字難以正確切分。曹冠斌［2］等提出了一種多級(jí)切分方法，該方法在分析漢語(yǔ)語(yǔ)音基礎(chǔ)上利用雙門(mén)限端點(diǎn)檢測(cè)技術(shù)、基于倒譜的端點(diǎn)檢測(cè)技術(shù)、相干分析和基音周期軌跡檢測(cè)等方法對(duì)連續(xù)漢語(yǔ)語(yǔ)音進(jìn)行切分。

另一類(lèi)是基于模型的切分方法，該方法需要輸入人工切分好的數(shù)據(jù)，對(duì)模型進(jìn)行訓(xùn)練。張揚(yáng)［3］等提出了一種基于時(shí)間長(zhǎng)度的音節(jié)切分方法，利用高斯函數(shù)擬合音節(jié)的長(zhǎng)度對(duì)音節(jié)進(jìn)行切分。

本文綜合利用端點(diǎn)檢測(cè)、語(yǔ)譜圖分析、基音周期軌跡檢測(cè)等技術(shù)研究了漢語(yǔ)連續(xù)語(yǔ)音的自動(dòng)切分。研究了一種連續(xù)語(yǔ)音多級(jí)切分方法，計(jì)算流程如圖1。

圖1 連續(xù)語(yǔ)音多級(jí)切分計(jì)算過(guò)程

2 語(yǔ)音特征參數(shù)提取

語(yǔ)音信號(hào)是一種短時(shí)信號(hào)，在短時(shí)間內(nèi)可看作平穩(wěn)信號(hào)［6］。語(yǔ)音信號(hào)攜帶有語(yǔ)義和大量的說(shuō)話人特征。語(yǔ)音特征參數(shù)可分為時(shí)域特征參數(shù)和頻域特征參數(shù)。

2.1 預(yù)處理

計(jì)算語(yǔ)音特征參數(shù)之前，要對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理，一般包括預(yù)加重、分幀和加窗［7］。預(yù)加重可以增強(qiáng)語(yǔ)音高頻部分能量，使語(yǔ)音特征更明顯。因?yàn)檎Z(yǔ)音信號(hào)具有短時(shí)平穩(wěn)性，所以對(duì)其進(jìn)行分幀和加窗，以便用處理平穩(wěn)信號(hào)的方法處理語(yǔ)音信號(hào)。

2.2 時(shí)域特征

時(shí)域特征包括短時(shí)能量和短時(shí)過(guò)零率。短時(shí)能量表示每一幀語(yǔ)音信號(hào)包含能量的大小；短時(shí)過(guò)零率表示一幀語(yǔ)音信號(hào)經(jīng)過(guò)零點(diǎn)的次數(shù)。時(shí)域特征是語(yǔ)音切分的基礎(chǔ)，可以用來(lái)檢測(cè)有聲段邊界［8］。

2.3 頻域特征

頻域特征指的是信號(hào)的各個(gè)頻率成分振幅的強(qiáng)弱變化，頻域特征主要有頻譜、功率譜和頻譜包絡(luò)等，分析方法包括傅里葉變換法、線性預(yù)測(cè)法和帶通濾波器組法等。本文主要研究語(yǔ)音信號(hào)的語(yǔ)譜圖和基音周期譜圖。

相對(duì)于時(shí)域特征，頻譜特征對(duì)于外界的干擾具有一定的魯棒性。另外，頻譜具有非常明顯的聲學(xué)特征，頻域特征具有實(shí)際的物理意義，如共振峰參數(shù)和基音周期參數(shù)等。

2.3.1 語(yǔ)譜圖

語(yǔ)譜圖［9］可以顯示語(yǔ)音的時(shí)-頻特性。語(yǔ)譜圖的橫軸為時(shí)間（幀序號(hào)），縱軸為頻率，二維坐標(biāo)點(diǎn)的值表示對(duì)應(yīng)時(shí)刻、對(duì)應(yīng)頻率成分的振幅，通過(guò)用像素點(diǎn)的顏色深淺來(lái)表示。顏色越深表示該時(shí)-頻點(diǎn)的振幅越強(qiáng)。語(yǔ)譜圖的繪制過(guò)程如下：

1）預(yù)處理，對(duì)語(yǔ)音信號(hào)進(jìn)行分幀、加窗。

2）通過(guò)式（1），對(duì)第n 幀語(yǔ)音信號(hào)xn（m）做快速傅里葉變換，得到短時(shí)頻譜。

該函數(shù)物理意義為：當(dāng)n 固定時(shí)，將窗函數(shù)起點(diǎn)移到n 處截取信號(hào)xn（m），再做傅里葉變換得到短時(shí)頻譜Xn（ω）。根據(jù)快速傅里葉變換的結(jié)果，可以得到每幀數(shù)據(jù)Xn（ω）對(duì)應(yīng)的實(shí)部R和虛部I，通過(guò)式（2）得到振幅譜c：

根據(jù)振幅譜c 繪制語(yǔ)譜圖，振幅越大，對(duì)應(yīng)的像素點(diǎn)顏色越深；振幅越小，對(duì)應(yīng)的像素點(diǎn)顏色越淺。因?yàn)閷?shí)數(shù)的振幅譜為偶函數(shù)，每一幀數(shù)據(jù)都關(guān)于頻率中心點(diǎn)對(duì)稱(chēng)，所以繪制語(yǔ)譜圖時(shí)只需在每一幀的起始位置繪制前一半的頻率樣點(diǎn)即可。

2.3.2 基音周期譜圖

人在發(fā)聲時(shí)，聲帶振動(dòng)的頻率稱(chēng)為基頻，相應(yīng)的周期稱(chēng)為基音周期（pitch）?；糁芷谧V圖是基音周期隨時(shí)間的變化圖，能夠反映語(yǔ)音音調(diào)的變化、元音的起始位置和結(jié)束位置等多種信息。基音周期譜圖的繪制方法仿照語(yǔ)譜圖，根據(jù)式（3）求取倒譜ceps，根據(jù)ceps 振幅p 的排序繪制基音譜圖。振幅越大，對(duì)應(yīng)像素點(diǎn)顏色越深；振幅越小，對(duì)應(yīng)像素點(diǎn)顏色越淺。并且在每一幀的起始位置繪制前一半的倒譜樣點(diǎn)。

3 傳統(tǒng)語(yǔ)音切分方法

基于雙門(mén)限和倒譜的端點(diǎn)檢測(cè)技術(shù)是比較經(jīng)典的語(yǔ)音端點(diǎn)檢測(cè)方法。計(jì)算過(guò)程如下：

1）對(duì)語(yǔ)音做雙門(mén)限端點(diǎn)檢測(cè)，得到有聲段邊界。

2）對(duì)語(yǔ)音進(jìn)行倒譜端點(diǎn)檢測(cè)，得到元音段邊界。

3）根據(jù)漢語(yǔ)的發(fā)音規(guī)律，當(dāng)一個(gè)字的發(fā)音只有元音時(shí)，那么該元音段的起始和結(jié)束邊界就是該漢字的語(yǔ)音邊界；當(dāng)一個(gè)字的發(fā)音既包含元音又包含輔音時(shí)，輔音往往在元音的前面，此時(shí)將輔音的起始位置和元音的結(jié)束位置作為該字的語(yǔ)音邊界。從有聲段中搜索元音段，取元音段的末尾邊界作為切分的依據(jù)。

該方法對(duì)于基音周期軌跡不相連的多個(gè)字段切分正確率較高；但對(duì)于占少數(shù)的基音周期軌跡相連的字段，單字切分正確率不高。

4 連續(xù)語(yǔ)音的多級(jí)切分

4.1 語(yǔ)音切分點(diǎn)類(lèi)型

語(yǔ)音切分點(diǎn)可分為三種。第一種切分點(diǎn)是有聲段和無(wú)聲段的交界處。連續(xù)語(yǔ)音往往包含有聲段和無(wú)聲段，它們?cè)跁r(shí)間域的特征參數(shù)有著較大差異，可以通過(guò)雙門(mén)限端點(diǎn)檢測(cè)方法對(duì)其進(jìn)行區(qū)分。

第二種切分點(diǎn)是元音段和輔音段的邊界。因?yàn)橛新暥瓮鄠€(gè)字段，所以第二種切分點(diǎn)的檢測(cè)在有聲段內(nèi)部進(jìn)行。在多個(gè)連續(xù)字段中，如果后面字段有輔音，那么前一個(gè)字段的元音會(huì)和后一個(gè)字段的輔音相連，因此元音末尾成為單字切分的依據(jù)。

第三種切分點(diǎn)是基音周期軌跡相連的字段邊界。假設(shè)兩漢字元音段相連，即后面的漢字沒(méi)有輔音段。如“師恩難忘”的“師恩”，后面漢字“恩”的元音“en”可能會(huì)和前面漢字“一”的元音“i”連到一起。

4.2 常規(guī)邊緣端點(diǎn)檢測(cè)

盡管傳統(tǒng)的雙門(mén)限法［9］可以將大部分有聲段與無(wú)聲段的邊界找出，但存在輔音段丟失和將無(wú)聲段誤判為有聲段的情況。常規(guī)邊緣端點(diǎn)檢測(cè)在雙門(mén)限法的基礎(chǔ)上增設(shè)了疑似輔音段，提高了有聲段檢測(cè)的準(zhǔn)確率。

傳統(tǒng)雙門(mén)限法在檢測(cè)輔音時(shí)，對(duì)于短時(shí)平均過(guò)零率Z設(shè)置閾值ZX。當(dāng)Z ≥ZX時(shí)，判定該語(yǔ)音段為輔音。在此過(guò)程中，雙門(mén)限法忽略了短時(shí)能量的限制。這會(huì)導(dǎo)致一部分無(wú)聲段混入輔音段，造成語(yǔ)音段切分誤差。為解決此問(wèn)題，增設(shè)短時(shí)能量閾值EC，定義如式（4）：

其中0 ≤α1≤1，Eave為語(yǔ)音的短時(shí)能量，EL為雙門(mén)限法中短時(shí)能量的低門(mén)限。

在此基礎(chǔ)之上，增加判定輔音段的條件：當(dāng)短時(shí)能量參數(shù)E滿(mǎn)足EC≤E ≤EL，且短時(shí)平均過(guò)零率Z滿(mǎn)足Z ≥ZX時(shí)，判定該段語(yǔ)音為輔音段。這種方法同時(shí)使用短時(shí)能量和短時(shí)平均過(guò)零率對(duì)輔音段進(jìn)行判斷，可以有效避免將無(wú)聲段誤檢測(cè)為輔音段。

傳統(tǒng)的雙門(mén)限法分別設(shè)置EH、EL分別作為高低兩個(gè)門(mén)限對(duì)元音段進(jìn)行檢測(cè)。當(dāng)E ≥EH時(shí)，判定為元音段；當(dāng)EH≤E ≤EL時(shí)，判定為過(guò)渡段，過(guò)渡段一般為輔音段；當(dāng)E

圖2 語(yǔ)音“師恩”的短時(shí)能量和語(yǔ)音波形圖

從圖2 可以看出，“師”的短時(shí)能量在元音段和輔音段的交界處大幅度降低，接近于無(wú)聲段，這樣會(huì)導(dǎo)致前面的輔音段整體丟失。因此，本文增設(shè)疑似輔音閾值ES，定義如式（5）：

其中0 ≤α2≤1，Eave為語(yǔ)音的平均短時(shí)能量。在之前的判定基礎(chǔ)上增設(shè)條件：當(dāng)滿(mǎn)足ES≤E ≤EC，且Z≤ZX時(shí)；或者滿(mǎn)足EC≤E ≤EL且Z ≤ZX時(shí)，判定該段語(yǔ)音為疑似輔音段，在擴(kuò)展輔音段時(shí)將相鄰的疑似輔音段合并進(jìn)去。

4.3 基音周期軌跡檢測(cè)

基音周期譜圖橫軸為時(shí)間（采樣點(diǎn)序號(hào)），縱軸為語(yǔ)音對(duì)應(yīng)的基音周期T。它可以反映語(yǔ)音的元音段位置，同時(shí)還能顯示語(yǔ)音音調(diào)隨時(shí)間的變化。

4.3.1 基音周期軌跡不相連的音節(jié)切分

基音周期軌跡檢測(cè)目的是從基音周期譜圖中找出語(yǔ)音的元音段，并將元音段的結(jié)束位置作為單字切分的依據(jù)。具體切分步驟如下：

1）在有聲段內(nèi)，檢測(cè)存在基音周期軌跡的語(yǔ)音段，標(biāo)記其起始和結(jié)束位置為W1、W2。在人的語(yǔ)音當(dāng)中，只有元音段的語(yǔ)音才有基音周期，因此確定W1W2語(yǔ)音段為元音段。

2）根據(jù)漢字發(fā)音規(guī)律，每個(gè)漢字的語(yǔ)音都存在元音段，但不一定存在輔音段。當(dāng)輔音段不存在時(shí)，就將存在基音周期軌跡部分的語(yǔ)音認(rèn)定為該字對(duì)應(yīng)的語(yǔ)音；當(dāng)輔音段存在時(shí)，將W1W2左側(cè)相鄰的無(wú)基音周期軌跡語(yǔ)音段認(rèn)定為該漢字的輔音段，如圖3。

圖3 語(yǔ)音“周歲”的基音周期譜圖

在圖3 中，找到元音段W1W2后，從W1向左延伸到上一段元音段的末尾，標(biāo)記為W0，W0W2為字段“歲”的語(yǔ)音范圍。若檢測(cè)的字段為有聲段的第一個(gè)字，在檢測(cè)到元音段邊界后，只需向左延伸到有聲段左邊界，將其作為該字段的邊界即可。

4.3.2 基音周期軌跡相連的音節(jié)切分

通過(guò)觀察大量數(shù)據(jù)發(fā)現(xiàn)，當(dāng)音節(jié)發(fā)生變化時(shí)，語(yǔ)譜圖中能量集中的位置也會(huì)發(fā)生變化。根據(jù)不同頻帶能量總和的變化，可以對(duì)基音周期軌跡相連且變化不明顯的多個(gè)字段，進(jìn)行單字切分。本文將語(yǔ)譜圖的頻率域分為多個(gè)頻帶，并對(duì)各個(gè)時(shí)間、各個(gè)頻帶的語(yǔ)音能量進(jìn)行求和，稱(chēng)為頻帶能量。頻帶能量檢測(cè)就是通過(guò)統(tǒng)計(jì)不同頻帶的能量，找到相鄰音節(jié)之間頻帶能量發(fā)生突變的點(diǎn)，作為單字切分依據(jù)。具體實(shí)現(xiàn)過(guò)程如下。

1）計(jì)算語(yǔ)音的頻譜并繪制其語(yǔ)譜圖。語(yǔ)譜圖的縱軸由256 個(gè)頻率采樣點(diǎn)有序排列構(gòu)成，頻率采樣間隔Δt的計(jì)算公式如式（6）所示，其中幀長(zhǎng)N 取512，采樣頻率f取16000Hz。

2）將256 個(gè)數(shù)據(jù)點(diǎn)序號(hào)分成多個(gè)頻帶分，并對(duì)其能量進(jìn)行統(tǒng)計(jì)。由于元音段的能量主要集中在采樣點(diǎn)序號(hào)0～128 范圍內(nèi)，因此將頻率域分成［0，31］、［32，63］、［64，127］、［128，191］、［192，255］五個(gè) 頻帶，分別對(duì) 應(yīng)0～1000Hz、1000Hz～2000Hz、2000Hz～4000Hz、4000Hz～6000Hz、6000Hz～8000Hz頻帶，并將數(shù)據(jù)歸一化至0～100 范圍內(nèi)，記為w1～w5，如圖4（a）。

圖4 語(yǔ)音“師恩”的語(yǔ)譜圖和頻帶能量曲線

3）檢測(cè)元音段相連的字段邊界。分別統(tǒng)計(jì)w1～w5范圍內(nèi)語(yǔ)音的頻帶能量，并繪制頻帶能量曲線。如圖4（b），“師恩”的元音段相連。在語(yǔ)音邊界處，曲線w2、w3、w4發(fā)生突變，可推斷此處能量變化較大。設(shè)置條件一：w2>40，w3>30，0

如“師恩難忘”其中“難”的輔音“n”和“恩”的元音段相連。“n”是濁輔音，它在語(yǔ)譜圖中的能量主要集中在低頻部分，且能量較低。設(shè)置條件二對(duì)其進(jìn)行切分：w3<40、w4<40、0

5 實(shí)驗(yàn)設(shè)置

本實(shí)驗(yàn)采用的是南京理工大學(xué)NJUST603語(yǔ)音庫(kù)，該語(yǔ)音庫(kù)含男、女生語(yǔ)音200 段。語(yǔ)音的采樣頻率為16kHz，誦讀內(nèi)容為作家劉紹棠所著《師恩難忘》，包含593 個(gè)漢字。本文采用命中率（Hit Rate，HR）作為算法的評(píng)價(jià)標(biāo)準(zhǔn)，HR 計(jì)算方式如式（7）：

其中Nhit表示算法正確檢測(cè)的分段邊界個(gè)數(shù)，Nref表示算法檢測(cè)的分段邊界數(shù)。本文設(shè)置了基于雙門(mén)限和倒譜的端點(diǎn)檢測(cè)技術(shù)作為對(duì)比實(shí)驗(yàn)。

5.1 多級(jí)切分端點(diǎn)檢測(cè)方法

根據(jù)4.1 節(jié)～4.4 節(jié)對(duì)連續(xù)語(yǔ)音切分基礎(chǔ)的闡述，可總結(jié)成連續(xù)語(yǔ)音多級(jí)切分方法，具體切分步驟如下：

1）利用改進(jìn)的雙門(mén)限法找出語(yǔ)音的有聲段，將有聲段范圍集合記為S1，無(wú)聲段集合記為S0。

2）利用基音周期軌跡檢測(cè)，找出有聲段S1中的元音段和輔音段，并根據(jù)輔音段和元音段的交界位置做切分，初步得到字與字之間的語(yǔ)音邊界，將切分得到的范圍集合記為S2。

3）根據(jù)4.2 節(jié)，由于S2中可能存在兩個(gè)字的基音周期軌跡連續(xù)，且語(yǔ)音的音調(diào)沒(méi)有明顯變化的情況。本文對(duì)每個(gè)S2中對(duì)應(yīng)的語(yǔ)音段做頻帶能量檢測(cè)，通過(guò)頻帶能量的變化對(duì)如“師恩”一類(lèi)的語(yǔ)音做切分，得到最終的語(yǔ)音切分范圍集合S3，S3為最終得到的切分結(jié)果。

5.2 實(shí)驗(yàn)結(jié)果

本實(shí)驗(yàn)選取男、女生語(yǔ)音共6 個(gè)，采用“師恩難忘，原題，老師領(lǐng)進(jìn)門(mén)，劉紹棠，那年正月新春，我不滿(mǎn)六周歲，便到鄰近的鄉(xiāng)村小學(xué)去讀書(shū)”作為測(cè)試語(yǔ)音段，共228個(gè)音節(jié)。

本文結(jié)合常規(guī)邊緣端點(diǎn)檢測(cè)、語(yǔ)譜圖分析、基音周期軌跡檢測(cè)等技術(shù)將漢語(yǔ)語(yǔ)音切分為獨(dú)立音節(jié)。通過(guò)對(duì)實(shí)驗(yàn)語(yǔ)音庫(kù)的切分實(shí)驗(yàn)，得到表1 的對(duì)比結(jié)果。由表1 可以看出，對(duì)于相同的測(cè)試樣本，多級(jí)切分方法的準(zhǔn)確率更高，比傳統(tǒng)的雙門(mén)限-倒譜端點(diǎn)檢測(cè)技術(shù)高出25.4%。

表1 多個(gè)語(yǔ)音實(shí)驗(yàn)結(jié)果對(duì)比

6 結(jié)語(yǔ)

本文研究的連續(xù)語(yǔ)音多級(jí)切分方法綜合利用了聲學(xué)、語(yǔ)音學(xué)信號(hào)處理等知識(shí)，綜合利用常規(guī)邊緣端點(diǎn)檢測(cè)、語(yǔ)譜圖分析、基音周期軌跡檢測(cè)等技術(shù)，獲得了較高的準(zhǔn)確率。同時(shí)，實(shí)驗(yàn)中也發(fā)現(xiàn)了一些問(wèn)題需要解決，如一些詞語(yǔ)誦讀太快，音量偏小，能量較低，難以找到語(yǔ)音切分邊界的問(wèn)題。這是本文之后的研究方向。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看