卓嘎 姜軍 董志誠
摘要:語音特征參數(shù)是語音信號分析的重要參數(shù)依據(jù),藏語語音特征參數(shù)的精確度直接影響藏語語音合成、語音識別及語音壓縮等處理的效果。介紹了藏語時域語音信號處理過程中的語音特征參數(shù)及其提取關(guān)鍵技術(shù):包括短時平均能量,短時平均幅度,短時過零率,短時自相關(guān)函數(shù)和端點檢測等算法.分析了語音的時域特征參數(shù)在藏語語音分析中的實際應(yīng)用。
關(guān)鍵詞:藏語語音;特征參數(shù);短時平均能量;短時平均過零率;自相關(guān)函數(shù)
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)08-0186-03
1引言
語音特征參數(shù)的選擇和提取是語音識別前端處理的最后一個環(huán)節(jié),是語音信號處理的前提和基礎(chǔ),對語音合成、語音識別效果起著至關(guān)重要的作用。只有分析出語音信號本質(zhì)的參數(shù),才有可能利用這些參數(shù)進(jìn)行高效的語音通信、語音合成和藏語語音識別等處理。語音信號中包含了大量的信息,如,男聲和女聲;說話者的各種情緒信息、如,高興或者疲勞;還有各種語種信息如漢語、英語、藏語等。語音參數(shù)提取的目的是從夾雜著各種信息的語音信號中準(zhǔn)確地提取真正代表該語音特征的有用信號,去除其他冗余信息以提高語音識別的精度。在實際的應(yīng)用中,可以根據(jù)不同的用途進(jìn)行語音的時域和頻率的特征參數(shù)提取。
我國語音處理技術(shù)發(fā)展和進(jìn)步推動了56個民族語言的信息化進(jìn)程。藏語語音識別技術(shù)的研究起步雖然較晚,但是近年來在政策的扶持和研究人員的刻苦鉆研下取得了顯著的成績。藏語語音識別技術(shù)研究的初期主要是一些對經(jīng)典理論算法的驗證性研究。這些研究方式與英、漢語音的參數(shù)提取方式基本類似,將語音信號看作短時平穩(wěn)信號進(jìn)行采樣、量化、預(yù)加重、分幀、加窗及端點檢測,然后根據(jù)一些經(jīng)典算法進(jìn)行短時能量、短時平均幅度短時過零率、短時自相關(guān)函數(shù)、短時平均幅度差函數(shù)等語音時域特征參數(shù)的提取。
2藏語語音時域特征參數(shù)提取關(guān)鍵技術(shù)
語音信號的時域分析是在語音信號隨時間變化過程中提取信號的能量、幅度等特征信息進(jìn)行分析。典型的時域語音特征參數(shù)有:短時平均能量、短時平均幅度、短時平均過零率、短時自相關(guān)系數(shù)。提取的關(guān)鍵技術(shù)包括采樣、量化、預(yù)加重、分幀和加窗、短時能量、短時幅度、短時過零和端點檢測等關(guān)鍵環(huán)節(jié),藏語語音時域特征參數(shù)提取流程如圖1所示。
2.1采樣、量化和預(yù)加重
在進(jìn)行語音的時域參數(shù)特征提取之前,需要通過采樣量化編碼和預(yù)處理將原始錄音的模擬語音信號轉(zhuǎn)換成數(shù)字信號。根據(jù)采樣定理,必須保證語音的采樣頻率為信號最高頻率的兩倍以上,一般取3-5倍。量化過程是將時間離散化的語音信號進(jìn)行幅度離散化,語音信號一般在300~3400Hz的頻率范圍內(nèi),采樣率一般為8KHZ,量化精度16比特。語音在8kHz左右的高頻端會按照6dB衰減,為了提升語音的高頻部分,用高通數(shù)字濾波器進(jìn)行濾波處理,使語音信號的頻譜變得平坦,從而提高信噪比并去除口唇輻射的影響,這個過程也叫預(yù)加重過程,在接收端通過去加重恢復(fù)原始語音信號。
2.2分幀和加窗
語音信號雖然是一種典型的非平穩(wěn)信號,但由于語音的形成過程是與發(fā)音器官的運動密切相關(guān)的,這種物理運動比起聲音振動速度緩慢得多,因此可以假定語音信號為短時平穩(wěn)的,即在10~20ms這樣的時間段內(nèi),其頻譜特征和某些物理特征參量可近似的看做是不變的。這樣,就可以采用平穩(wěn)過程的分析處理方法來處理了。將每個短時的語音稱為一個分析幀。一般幀長取10~30ms。采用一個長度有限的窗函數(shù)來截取語音信號形成分析幀。通常會采用矩形窗和漢明窗。
2.3短時平均能量
語音的短時平均能量定義如公式(1)所示,En表示語音信號在時域上能量的變化量。在實際的分析中,由于進(jìn)行了分幀加窗的截取,因此用公式(1)來表示語音的短時平均能量。通過分析語音的短時平均能量值的大小,可以進(jìn)行語音的清音濁音和爆破音的區(qū)別,濁音的平均能量較高于清音的平均能量。在噪聲環(huán)境下,可用于區(qū)分語音的有聲段和無聲段。此外,還可用于聲母韻母的分解和連字的切分。
2.4短時平均幅度
語音信號隨時間振動的幅值變化如公式(2)所示Mn是每幀短時幅度值,能較好地反映清音的幅度變化,公式(1)中x信號的平方計算對高頻信號非常敏感,可以用短時平均幅度或者短時對數(shù)能量來替代信號的短時能量。語音的短時平均幅度差函數(shù)可用于語音的濁音基音檢測,定義方式如公式(3),F(xiàn)n(k)是語音原信號與移k位后的幅值差,在差值中通過計算最大類似性來確定基音周期,這種算法也叫短時自相關(guān)函數(shù)法。
2.5短時平均過零率
語音的短時平均過零數(shù)定義如公式(4),時域信號幅度通過橫軸(零值)情況叫做過零。每秒鐘通過零值的次數(shù)叫做過零率。對于語音的離散信號相鄰信號幅值的符號發(fā)生變化就叫過零,單位時間內(nèi)的過零次數(shù)叫做平均過零次數(shù)。在實際的語音信號分析中,濁音信號的能量頻率較低,其過零率較低;而清音信號的能量頻率較高,過零率也相對高,因此可以利用語音的短時平均過零率來大致區(qū)分藏語語音信號中的清音和濁音。
2.6端點檢測
在連續(xù)語音信號中,清音和濁音有交錯的區(qū)域,這種情況下單獨的平均過零率或者平均短時能量參數(shù)不能精確地區(qū)分清音和濁音,因此,在實際的語音信號分析中,在提取上述語音參數(shù)之前,會先進(jìn)行端點檢測處理,其目的是比較準(zhǔn)確地提取有效的語音段,然后進(jìn)行各種語音特征參數(shù)分析。在時域語音信號分析中,通常采用雙門限端點檢測算法,該算法結(jié)合語音的短時均能量和短時平均過零率分別設(shè)定兩個門限參數(shù),通過門限值的范圍確定語音信號的清音和濁音、有聲段和無聲段。
3結(jié)束語
時域語音信號的特征參數(shù)比較直觀、具有明確的物理意義,參數(shù)提取比較簡單。在實際的語音分析和實驗中,可以單獨進(jìn)行上述的特征參數(shù)分析,也可以通過組合參數(shù)進(jìn)行綜合分析和應(yīng)用,比如語音的端點檢測就是利用語音的短時平均過零率和短時平均能量參數(shù)設(shè)計出兩個門限參數(shù),從而得到相對準(zhǔn)確的有效語音段。在語音信號分析過程中還需要考慮噪聲干擾問題,安靜環(huán)境下的語音信噪比較高,提取的語音特征參數(shù)也比較精準(zhǔn),但是,如果環(huán)境噪聲比較大,在低信噪比下如何較準(zhǔn)確地提取語音特征參數(shù)就要求我們進(jìn)一步改進(jìn)和完善特征參數(shù)提取算法。