文/卓嘎
隨著計(jì)算機(jī)的發(fā)展和人工智能技術(shù)的普及,語音信號(hào)處理技術(shù)作為人工智能接口和交互模塊的交叉學(xué)科研究領(lǐng)域得到了越來越多的關(guān)注。各種語音處理工具和軟件也應(yīng)運(yùn)而生,其中Praat作為一個(gè)比較簡(jiǎn)單有效的語音處理和分析軟件,在嗓音分析、語音波合成、語言輔助教學(xué)和語音數(shù)據(jù)統(tǒng)計(jì)分析等相關(guān)研究領(lǐng)域得到了廣泛的應(yīng)用。
Praat最早是荷蘭阿姆斯特丹大學(xué)的Paul Boersma教授和David Weenink教授合作開發(fā)的語音分析軟件,Praat在荷蘭語里是交談和說話的意思。研究資料顯示,目前國內(nèi)外有很多語言教學(xué)工作者、語音信號(hào)處理和人工智能研究者都在使用Praat軟件進(jìn)行世界各國語言的語音研究分析,如英語、荷蘭語、日語、西班牙語、法語、俄語等。
近年來,Praat在國內(nèi)語音處理研究中得到了廣泛的應(yīng)用,這些研究主要內(nèi)容集中在對(duì)漢語普通話、漢語方言進(jìn)行語音參數(shù)提取特征分析、語音頻譜和聲紋分析、語音標(biāo)注以及語料庫統(tǒng)計(jì)分析等方面。Praat也是語音教學(xué)過程中的有效工具之一,在輔助教學(xué)、發(fā)音糾正、口語測(cè)評(píng)等方面獲得了很好的教學(xué)效果。
Praat在少數(shù)民族語言的語音處理研究中也有一些應(yīng)用,如維吾爾語、藏語等,但是相關(guān)的資料和文獻(xiàn)比較少,本文利用Praat強(qiáng)大的語音分析和聲學(xué)參數(shù)提取功能對(duì)藏語語音進(jìn)行錄音、標(biāo)注、參數(shù)提取、頻譜分析和藏語連續(xù)語音聲學(xué)分析。
1993年P(guān)aul Boersma教授和David Weenink教授合作發(fā)布了Praat語音分析軟件的第一個(gè)版本,后來他們?nèi)∠耸跈?quán),作為開源軟件為用戶免費(fèi)提供。目前最新的版本是Praat6.1,在語音處理研究領(lǐng)域得到了廣泛的應(yīng)用。軟件可以在不同的操作系統(tǒng)上跨平臺(tái)使用,是一款具有語音波形繪制、語譜顯示、特征參數(shù)標(biāo)注、語音分解和合成等多種功能的語音信號(hào)分析研究工具。Praat強(qiáng)大的可視化交互界面,可以直觀動(dòng)態(tài)觀察語音信號(hào)的細(xì)節(jié)參數(shù)。圖1是把一個(gè)真人錄音的語音文件導(dǎo)入到Praat軟件后的語音分析界面。
在Praat軟件環(huán)境下,一段語音完成錄音后,可以進(jìn)行語音的各種時(shí)域參數(shù)提取和分析。圖2是一個(gè)語音文件的時(shí)域語音強(qiáng)度波形圖。從強(qiáng)度曲線變化上可以直觀的觀察這段語音強(qiáng)度的特性,是語音發(fā)音過程中節(jié)奏變化的體現(xiàn)。在Praat里可以通過設(shè)置音強(qiáng)參數(shù)生成語音的分析文件進(jìn)行數(shù)據(jù)分析。繪制的強(qiáng)度曲線單位為分貝,可以通過轉(zhuǎn)換功能變成振幅強(qiáng)度曲線。
Praat軟件還可以提取語音的各種評(píng)語參數(shù),包括語譜圖、共振峰、基音軌跡等。語譜圖是一種三維圖形,橫坐標(biāo)和縱坐標(biāo)分別表示語音持續(xù)的時(shí)間和對(duì)應(yīng)的頻率,而第三維坐標(biāo)一般為灰度圖或者是彩色圖,代表對(duì)應(yīng)時(shí)刻語音的強(qiáng)度。圖3是上面例句語音的語譜圖,陰影的濃度表示語音的強(qiáng)度,通過選擇不同的帶寬可以繪制寬帶語譜圖和窄帶語譜圖。語譜圖上有各種不同的“圖紋”,如亂紋、橫杠和沖直條等,分別代表不同的語音發(fā)音特征,沖直條代表發(fā)音的爆破音,亂紋是摩擦音,而橫杠紋路代表語音的濁音。語譜圖包含了語音的豐富的頻率信息,包括語音音調(diào)的變化和語音基音頻率變化軌跡以及語音的共振峰等參數(shù)特征,可以比較精確地分析語音的頻域聲學(xué)特征。
Praat還可以編寫腳本語言,praat script語法簡(jiǎn)單、數(shù)據(jù)類型豐富,占用空間少,對(duì)于具備一定的編程能力的人可以進(jìn)行快速有效的程序編寫,實(shí)現(xiàn)語音數(shù)據(jù)參數(shù)的快速提取。在軟件主窗口的Control菜單下面點(diǎn)擊“New praat script”按鈕,就可以建立新的腳本語言編輯窗口。
圖1:Praat語音分析界面
圖2:時(shí)域語音強(qiáng)度波形圖
圖3:語音頻域語譜圖
圖4:Praat腳本代碼
圖4是一個(gè)提取語音二維譜中各頻率成分的能量值的腳本界面。在對(duì)象列表窗口中選定一個(gè)二維頻譜對(duì)象(Spectrum),然后點(diǎn)擊“Run”按鈕,運(yùn)行腳本編輯器,完成執(zhí)行后會(huì)以txt文件形式默認(rèn)保存在“C:/temp.txt”下面。
表1:藏文輔音元音拉丁字母轉(zhuǎn)換表
圖5:藏語連續(xù)語音時(shí)域、頻譜和音節(jié)標(biāo)注
圖6:藏語連續(xù)句子標(biāo)注
圖7:語音強(qiáng)度曲線
Praat軟件可以在前期的錄音、標(biāo)注和各種語音參數(shù)提取基礎(chǔ)上,進(jìn)行數(shù)據(jù)的統(tǒng)計(jì)分析,如語音聲學(xué)參數(shù)數(shù)據(jù)的相關(guān)性分析、相似度分析、方差分析、回歸分析各種統(tǒng)計(jì)分析,為語音合成、語音濾波和建立語音聲學(xué)模型提供重要的數(shù)據(jù)分析依據(jù)。
本實(shí)驗(yàn)是在安靜環(huán)境下的真人錄音,被錄音者是藏語母語話者,用cool edit錄音軟件錄制了一段藏語連續(xù)語音,句子內(nèi)容為“”,漢語翻譯為“好的,那到時(shí)候咱兩一起去看節(jié)目吧!”,語音文件保存為tbs.wav。采集的語音數(shù)據(jù)采樣頻率為44100Hz,量化精度為16bit。錄制后導(dǎo)入到Pratt語音分析軟件并進(jìn)行標(biāo)注,該段語音的時(shí)域波形、頻譜分布和對(duì)應(yīng)的語料標(biāo)注如圖5所示。第1層是語音的使用波形,第2層是頻譜分布、語音強(qiáng)度,共振峰峰分布和基音軌跡的混合圖。第3層和4層是標(biāo)注層,第3層是該連續(xù)句子中每一個(gè)音節(jié)段的切分和藏語標(biāo)注,標(biāo)注為“sl”的是靜音段。最后一層是每一個(gè)音節(jié)對(duì)應(yīng)的序號(hào)標(biāo)注。從圖上可以看出語音信號(hào)延續(xù)的時(shí)間是2.91秒。
藏語是拼音文字,發(fā)音規(guī)則類似于英語,以音節(jié)為單位,由30個(gè)輔音字母作為音節(jié)的基字,基字與“前加字”、“上加字”、“下加字”、“后加字”和“再后加字”和四個(gè)元音符號(hào)拼讀出一個(gè)音節(jié)。音節(jié)是由一個(gè)或一個(gè)以上的音素構(gòu)成,藏語音素的發(fā)音可以轉(zhuǎn)寫成對(duì)應(yīng)的國際音標(biāo)拉丁字母。表1是藏語輔音(30個(gè))和元音的拉丁字母轉(zhuǎn)寫表,表中最后4個(gè)音素對(duì)應(yīng)的是藏語4個(gè)元音的拉丁轉(zhuǎn)寫,分別為i,u,e,o。
在Praat軟件里,通過各種分層標(biāo)注可以對(duì)原始語音進(jìn)行各種語音聲學(xué)參數(shù)提取,這些分層標(biāo)注類型包括:音節(jié)層、音素層、重音標(biāo)注層、聲韻母層、清音濁音層等等。Praat軟件可以較精確的標(biāo)注連續(xù)語音波形對(duì)應(yīng)的音素和音節(jié),為了正常顯示各個(gè)音標(biāo)的拉丁符號(hào)需要提前將國際音標(biāo)字體IPA下載到本地機(jī)器上。標(biāo)注層按所需聲學(xué)參數(shù)分層后,就可以把對(duì)應(yīng)音素的國際音標(biāo)用拉丁字母標(biāo)注在Praat的聲波層(Tier)里,圖6是上述藏語連續(xù)語音例句的錄音文件tbs.wav的時(shí)域波形和對(duì)應(yīng)的藏語拉丁字母轉(zhuǎn)寫的音節(jié)標(biāo)注,圖中包含三層標(biāo)注層,第一層是例句的藏文句子,第二層是對(duì)應(yīng)拉丁字母轉(zhuǎn)換的音節(jié)層標(biāo)注,標(biāo)注為“sl”的單元代表靜段,最后一層是句子中各個(gè)音節(jié)的序號(hào)標(biāo)注,便于后面的數(shù)據(jù)描述。
圖7是上述連續(xù)語音句子的語音強(qiáng)度曲線波形圖.橫坐標(biāo)是時(shí)間,以秒為單位,縱坐標(biāo)是語音強(qiáng)度的分貝值,單位是dB,整體句子的強(qiáng)度分布比較均勻,在提取時(shí)間線上的全部強(qiáng)度值,發(fā)現(xiàn)平均強(qiáng)度為63.7dB,最大強(qiáng)度11.8dB,最小強(qiáng)度為84.1dB。圖7是根據(jù)前面連續(xù)語音句子的標(biāo)注信息,將每個(gè)藏語音節(jié)對(duì)應(yīng)的幅度曲線分割繪制出來。從圖上可以直觀的看到每個(gè)音節(jié)的強(qiáng)度曲線波形,在句子中一共有14個(gè)音節(jié),語音的強(qiáng)度值越大,能量就越強(qiáng),發(fā)清音時(shí)聲帶不振動(dòng),能量小,因此其強(qiáng)度值也??;發(fā)濁音時(shí)聲帶振動(dòng),能量強(qiáng)其強(qiáng)度值也較大,在語音特征分析研究中,通常也會(huì)用輕音和濁音的能量值的高低作為語音端點(diǎn)檢測(cè)的依據(jù)之一。對(duì)照?qǐng)D6中第三層標(biāo)注的音節(jié)序列,在這句藏語連續(xù)語音中,第2,4,9,11音節(jié)的能量較強(qiáng)對(duì)應(yīng)的幅值也較高。
共振峰是語音信號(hào)的重要頻域參數(shù)之一,反映了語音的聲道諧振的情況也是體現(xiàn)語音音質(zhì)的重要參數(shù)。圖8是實(shí)驗(yàn)例句共振峰頻率峰值點(diǎn)的曲線圖,圖中橫坐標(biāo)是時(shí)間,縱坐標(biāo)為共振峰頻率值。圖9是例句語音的語譜圖,語音信號(hào)中元音的發(fā)音較長其能量比較強(qiáng)對(duì)應(yīng)的頻率值也較高。元音是一種周期信號(hào),因此共振峰的頻率也是按周期倍數(shù)增長,在語譜圖上是橫杠,如第1、4和9音節(jié),例句中摩擦音類似于噪聲的隨機(jī)信號(hào),共振峰頻率值相對(duì)較低,語譜圖上是亂紋,如圖中的第2、11音節(jié);爆破音類似猝發(fā)波,發(fā)音前端的頻譜波紋是沖直線,如圖中的第3、13、14音節(jié)的前端的共振峰頻率。在語音信號(hào)中,共振峰的前三個(gè)頻率是非常重要,一般會(huì)用F0,F1和F2來表示,其中F0是基音頻率,對(duì)應(yīng)圖8中最下面的曲線,F(xiàn)1是1次諧波頻率對(duì)應(yīng)基頻F0上面的的頻率,F2為2次諧波頻率,對(duì)應(yīng)F1上面的頻率,以此類推,圖8中實(shí)驗(yàn)例句的第1個(gè)音節(jié)的前三個(gè)共振峰頻率分別為327.80Hz,1932.16Hz,2733.38Hz。
語音的基音參數(shù)提取方法很多,包括波形估計(jì)、自相關(guān)算法、語音倒譜算法等。在語音信號(hào)分析中,對(duì)于有調(diào)的語音來說,通常用提取基音的頻率軌跡波形來觀察語音的語調(diào)和韻律。圖10是例句語音的基音頻率包絡(luò)曲線和對(duì)應(yīng)的音節(jié)序號(hào)圖,橫坐標(biāo)為時(shí)間,縱坐標(biāo)為各個(gè)時(shí)刻的基音頻率值,平均基音頻率為115.28Hz;從曲線上可以看出藏語的發(fā)音語調(diào)有起伏變化,有明顯的聲調(diào)、降調(diào)、平調(diào)等四聲的變化,也有韻律短語,如第4、5、6、7音節(jié)的連讀音的韻律。另外,在語音合成處理過程中可以通過修改基音頻率周期進(jìn)行語調(diào)合成。
Praat是可視化語音綜合分析的有效平臺(tái)之一。Praat軟件對(duì)語音錄音數(shù)據(jù)繪圖比較直觀,語音特征參數(shù)提取方法簡(jiǎn)單,數(shù)據(jù)也比較準(zhǔn)確,誤差較小,特別是繪制的語音參數(shù)圖像分辨率較高,語譜圖的紋理比較清晰,基音軌跡輪廓清楚,因此在利用圖像處理技術(shù)進(jìn)行語音參數(shù)方面具有很大優(yōu)勢(shì)。本文中,對(duì)錄制的藏語連續(xù)語音的音頻文件,利用Praat軟件進(jìn)行了詳細(xì)的語音標(biāo)注并提取了基本的語音參數(shù),分析了藏語連續(xù)語音中音節(jié)語音強(qiáng)度、共振峰曲線、基音軌跡等特征參數(shù),研究內(nèi)容為藏語連續(xù)語音的參數(shù)提取、語音識(shí)別、語音合成以及藏語言發(fā)音教學(xué)提供一些基礎(chǔ)研究數(shù)據(jù)。
圖8:共振峰頻率曲線圖
圖9:連續(xù)語音的語譜圖
圖10:語音基音軌跡