方臻成
【摘要】 在語音信號(hào)處理中,端點(diǎn)檢測(cè)是十分重要的一項(xiàng)內(nèi)容。端點(diǎn)檢測(cè),可以在有噪聲的背景中確定語音信號(hào)的起始點(diǎn)和終止點(diǎn),為后續(xù)處理做必要的準(zhǔn)備。而由于背景噪聲的存在,光從波形上判斷始終點(diǎn)會(huì)有一定困難。本文針對(duì)端點(diǎn)檢測(cè),介紹短時(shí)能量法與過零率法兩種方法,并對(duì)這兩種方法進(jìn)行討論。
【關(guān)鍵詞】 語音信號(hào)處理 端點(diǎn)檢測(cè)
一、背景
在錄制語音時(shí),除了將說話人的語音錄進(jìn)計(jì)算機(jī)外,還不可避免地將外界噪聲也錄入計(jì)算機(jī)。因此,在說話者沒有說話的時(shí)候,也會(huì)有信號(hào)出現(xiàn)在錄制好的文件中。在這種情況下,就給判斷語音信號(hào)從哪開始,在哪結(jié)束帶來困難。在這種情況下,對(duì)信號(hào)進(jìn)行端點(diǎn)檢測(cè),來判斷語音的始點(diǎn)與終點(diǎn)是有必要的。下面介紹的是兩種常用方法:短時(shí)能量法與過零率法。
二、語音的分類
從發(fā)音特點(diǎn)來分,語音可以分成很多種。最基本的兩種是元音與輔音。當(dāng)我們發(fā)元音時(shí),聲帶發(fā)出的聲音氣流從喉腔、咽腔進(jìn)入口腔從唇腔出去時(shí),這些聲腔完全開放,氣流順利通過,如漢語拼音的a、o、e。當(dāng)我們發(fā)輔音時(shí),呼出的聲流,由于通路的某一部分封閉起來或受到阻礙,氣流被阻,與發(fā)聲器官發(fā)生摩擦從而發(fā)出聲音,如漢語拼音的s、t。
三、短時(shí)能量法
將語音信號(hào)數(shù)字化后,信號(hào)x(n)短時(shí)能量定義如下:
其中w(n)是窗函數(shù)。由于語音信號(hào)的短時(shí)能量一般會(huì)比噪聲的要大,因此可以通過短時(shí)能量對(duì)語音信號(hào)的起點(diǎn)與終點(diǎn)進(jìn)行判斷。
四、短時(shí)過零率法
如果將時(shí)間作為橫軸,聲音的振幅作為縱軸,那么就可以在坐標(biāo)上記錄聲音的波形圖。過零率就是單位時(shí)間內(nèi)波形穿越時(shí)間軸的次數(shù)。一般來說,噪聲都是頻率高,振幅小的信號(hào),因此噪聲的過零率極高。為了屏蔽噪聲的過零率,我們?cè)O(shè)置一個(gè)閾值。比如說,假設(shè)噪聲的幅度一般不超過a(a是一個(gè)比較小的數(shù)),那么我們就把正負(fù)a作為一個(gè)閾值,只有波形穿越了正負(fù)a這一區(qū)間,才算一次穿越橫軸。這樣,噪聲就在正負(fù)a區(qū)間震動(dòng),并不會(huì)提高過零率。這樣,就可以通過過零率判斷語音的始終點(diǎn)。信號(hào){x(n)}的短時(shí)平均過零率定義為:
其中sgn是符號(hào)函數(shù):
五、兩種方法的比較
錄取“一、二、三”三個(gè)字節(jié)的音頻,將音頻數(shù)字化后進(jìn)行分幀,幀長(zhǎng)為160點(diǎn)。以160點(diǎn)為幀長(zhǎng),80為幀移,分別計(jì)算其短時(shí)能量與過零率。圖1由上至下三個(gè)圖分別是語音數(shù)字化后的波形圖、短時(shí)能量與過零率。
在三個(gè)圖中,用豎線劃分出來的部分就是元音部分。從這三個(gè)圖中可以看到,對(duì)于元音,不管用短時(shí)能量還是過零率,都能較好地看出元音地起點(diǎn)與終點(diǎn)。但對(duì)于輔音,情況就有點(diǎn)復(fù)雜。以音節(jié)“三”為例,“三”包含一個(gè)輔音“s”和一個(gè)元音“an”,從圖中可看出,發(fā)“s”時(shí),語音的短時(shí)能量非常低,而過零率卻非常高,這證明,輔音的幅度很小(但比噪音大),而輔音的頻率比元音大得多。因此,如果光用短時(shí)能量,很難判斷出輔音的出現(xiàn)。而對(duì)元音方面,雖然用兩種方法都能判斷元音的始終點(diǎn),但從音節(jié)“三”看出,元音的過零率比輔音要低,因此光靠過零率來識(shí)別元音,會(huì)有誤差。
因此,從圖1可知,輔音過零率高而短時(shí)能量小,元音過零率低而短時(shí)能量大。光靠一種方法來判斷語音的始終會(huì)有誤差的,應(yīng)該將兩者結(jié)合起來看??偟膩碚f,在噪聲比較小的時(shí)候,用短時(shí)能量判斷會(huì)比較準(zhǔn)確,而在噪聲比較大時(shí),用過零率來判斷會(huì)比較準(zhǔn)確。
參 考 文 獻(xiàn)
[1] 趙力. 語音信號(hào)處理[M].機(jī)械工業(yè)出版社