• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于時頻分布的漢語語音關(guān)鍵頻率分布研究

      2011-03-14 05:12:48王鐘斐王彪
      電子設(shè)計工程 2011年10期
      關(guān)鍵詞:語譜韻母時頻

      王鐘斐,王彪

      (寶雞文理學(xué)院數(shù)學(xué)系,陜西寶雞721013)

      語音識別(speech recognition)是機器通過識別和理解過程把人類的語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。其根本目的是研究出一種具有聽覺功能的機器,這種機器能直接接受人的語音,理解人的意圖,并做出相應(yīng)的反映[1]。

      目前,語音識別技術(shù)已成為世界上最熱門的技術(shù)之一,它以語音為研究對象。因此,掌握語音的關(guān)鍵信息將有助于提高語音識別效果,而本文就是通過時間-頻率聯(lián)合分布來研究漢語語音關(guān)鍵頻率分布的情況。

      1 漢語語音簡介

      語音是指人類通過發(fā)音器官發(fā)出來并且具有一定意義的聲音,其目的是進(jìn)行社會交際。漢語語音[2]的特點是音節(jié)結(jié)構(gòu)簡單,音節(jié)界限分明,聲調(diào)是音節(jié)的重要組成成分。音素是按照音質(zhì)的不同劃分出的最小的語音單位。

      音節(jié)是語音結(jié)構(gòu)的基本單位,是說話時自然發(fā)出、聽話時自然感到的最小的語音片斷。一般來說,漢語中用一個漢字來代表一個音節(jié)。只有兒化韻兩個漢字只記錄一個音節(jié)。音節(jié)可以構(gòu)成詞,詞可以構(gòu)成句子。漢語的音節(jié)結(jié)構(gòu)有很強的規(guī)律性。中國傳統(tǒng)把一個音節(jié)分為聲母、韻母和聲調(diào)3部分。聲母是指處在音節(jié)開頭的輔音。音節(jié)的開頭如果沒有聲母,就是零聲母音節(jié)。韻母是指音節(jié)中聲母后面的成分,可以只是一個元音,也可以是元音的組合或元音和輔音的組合。漢語各方言雖然語音分歧相當(dāng)大,但聲母、韻母和聲調(diào)的基本結(jié)構(gòu)是一致的。

      研究漢語語音關(guān)鍵頻率分布,要首先研究聲母和韻母的頻率分布,因為二者結(jié)合起來就是漢語語音,了解了聲母和韻母的頻率分布,就必然能夠大體確定漢語語音關(guān)鍵頻率分布。因此,下面主要以聲母和韻母為例來研究。

      2 語音信號時頻分析

      語音信號時域分析和頻域分析都有一定的局限性:前者對語音信號的頻率特性沒有直觀的了解;而后者提供的信息中又沒有語音信號隨時間的變化關(guān)系,即無法標(biāo)定信號發(fā)生的時間位置和發(fā)生變化的劇烈程度。因此要想比較準(zhǔn)確的分析語音信號,單獨依靠時域分析或者是頻域分析,是不能完成的。要從時域、頻域兩方面同時入手,對語音信號進(jìn)行分析,得到代表其本質(zhì)的特征參數(shù),才能達(dá)到辨析語音的要求。

      而時頻分析方法就提供了時間域與頻率域的聯(lián)合分布信息,清楚地描述了信號頻率隨時間變化的關(guān)系。其基本思想是:設(shè)計時間和頻率的聯(lián)合函數(shù),用它同時描述語音信號在不同時間和頻率的能量密度或強度。時間和頻率的這種聯(lián)合函數(shù)簡稱為時頻分布。利用時頻分布來分析信號,能給出各個時刻的瞬時頻率及其幅值,并且能夠進(jìn)行時頻濾波和時變信號研究。也就是,借助于時間和頻率的聯(lián)合表示,能夠準(zhǔn)確地描述非平穩(wěn)信號的特性,從而能夠?qū)ζ溥M(jìn)行分析[3]。

      2.1 時頻表示

      對于非平穩(wěn)信號,為了得到信號的頻率隨時間變化的情況,需要使用時間和頻率的聯(lián)合函數(shù)來表示信號,這種表示稱為信號的時頻表示。其目的是將一維時間信號x(n)或頻域信號X(ejω)映射成時間-頻率平面上的二維信號Px(n,ω)。那么,信號的瞬時能量和功率譜可以分別表示為

      信號在時頻域n∈[n1,n2]和ω∈[ω1,ω2]的能量成分表示為:

      可以根據(jù)函數(shù)Px(n,ω)計算在某一特定時間內(nèi)的頻率密度,計算該分布的整體和局部的各階陣等。

      目前,有很多種時頻表示方法,主要有線性時頻表示、二次時頻表示(又稱雙線性時頻表示)。線性時頻表示主要有短時傅里葉變換、Gabor變換及小波變換。二次時頻表示是由能量譜或功率譜演化而來,特點是變換為二次的。在某些實用場合,要用雙線性時頻表示來描述描述語言信號的能量密度分布,這種更嚴(yán)格意義下的時頻表示就稱為信號的時頻分布。

      2.2 時頻分布

      能量譜或功率譜具有雙線性變換特點,也就是說當(dāng)信號之間滿足下式時

      能量譜函數(shù)有如下的雙線性關(guān)系:

      式中,ε(ejω)、ε1(ejω)與ε2(ejω)分別為x(n)、x1(n)和x2(n)的能量譜,而*號表示對信號的頻譜取共軛操作。此時,當(dāng)x1(n)和x2(n)的頻譜隨時間變化時,根據(jù)能量譜或功率譜得到的時頻表示Px1(n,ω)和Px2(n,ω)是二次的,則有

      其中,Px(n,ω)是x(n)的時頻表示。上式右邊的最后一項稱為交叉項或互項,而Px1x2(n,ω)稱為x1(n)和x2(n)的互時頻表示。

      此外,其他一些二次型能量化的時頻表示可統(tǒng)一的由Cohen L提出的廣義雙線性時頻表示,即

      其中,φ(ξ,τ)表示核函數(shù),它決定Px(n,ω)的特性。

      采用不同的核函數(shù),會得到不同的時頻分布。而對核函數(shù)要求是:一能壓縮交叉干擾項,二能有好的特性。

      2.3 語譜圖

      語譜圖是語音信號短時頻譜的時間-強度表示[4]。語譜圖是語音信號時頻分布的一個比較好的應(yīng)用。其橫坐標(biāo)表示時間,縱坐標(biāo)表示頻率,每個像素的灰度值大小及顏色的濃淡反映相應(yīng)時刻和相應(yīng)頻率的能量。能量功率譜具體表示為

      其中,

      ω[n]是一個長度為2N+1的窗函數(shù),X(n,ω)表示在時域以n點為中心的一幀信號的傅里葉變換在ω處的大小。

      下面圖1給出了語音“開始”的語譜圖。圖中橫軸表示時間,縱軸表示頻率,顏色的深淺表示(n,ω)處的能量大小,一般用能量的對數(shù)表示,即lg(Px(n,ω))。語譜圖根據(jù)帶通濾波器的帶寬分為寬帶語譜圖和窄帶語譜圖。通過語譜圖很容易看出語音信號關(guān)鍵頻率的分布情況和能量的分布情況。圖1(a)和(b)分別是“開始”的寬帶語譜圖和窄帶語譜圖。

      圖1 語音“開始”的寬帶語譜圖和窄帶語譜圖Fig.1Speech“start”broadband spectrogram and narrowband spectrogram

      由于寬帶語譜圖的頻率分辨率較高,時間分辨率較低,因而語譜圖呈現(xiàn)的是垂直的條紋;而窄帶語譜圖則相反,從而呈現(xiàn)的是橫向的條紋。從上圖中可以看出,條紋較明顯的分成兩個部分,其中第一部分是漢字“開”的圖譜,第二部分是漢字“始”的圖譜。

      3 語音采集及分析處理

      3.1 語音信號采集

      本文中所用的語音信號示例分為兩類:一是電視臺、廣播臺播音員的標(biāo)準(zhǔn)普通話語音錄音,二是現(xiàn)實生活中普通人的普通話錄音。這樣,語音示例既具有標(biāo)準(zhǔn)語音有具有普通語音,能夠比較全面的反映人類語音的大致情況,從而使下面得出的結(jié)論具有一定的代表性。

      1)電視臺、廣播臺播音員的標(biāo)準(zhǔn)普通話語音錄音可以在網(wǎng)絡(luò)上下載,本文下載了播音員用普通話朗讀漢語拼音聲明、韻母的語音錄音,這樣就得到了較為標(biāo)準(zhǔn)的語音信號范本。

      2)現(xiàn)實生活中的普通人用普通話朗讀漢語拼音聲明、韻母,然后通過電腦麥克風(fēng)進(jìn)行錄音,并保存為.wav的文件格式,音頻的位速為352 Kb/s,采樣大小為16位,級別為22 kHz,為單聲道錄音。而這就是普通人的語音信號范本。

      上面的兩類語音信號范本作為后面的分析處理對象。其中,聲母共23個,即:b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s、y、w;韻母共24個,即:a、o、e、i、u、v、ai、ei、ui、ao、ou、iu、ie、ve、er、an、en、in、un、vn、ang、eng、ing、ong。

      3.2 語音信號分析處理

      在前面介紹了時頻分布的特點和優(yōu)勢,下面就利用時頻分布來處理上一小節(jié)中的語音信號范本。在此,本文采用了兩類方式進(jìn)行處理:一是使用語音處理軟件Adobe Audition 3.0來播放語音文件,得到其頻率-能量-時域圖(即語譜圖),從圖中觀察總結(jié)其頻率分布等重要信息;二是使用自己設(shè)計的MATLAB程序來播放語音文件,得到其語譜圖,從而觀察總結(jié)其頻率分布等重要信息。兩種方式相互驗證比較,將使結(jié)論變得更全面、更具有說服性。

      3.2.1 Adobe Audition 3.0軟件處理語音文件

      將用Adobe Audition3.0軟件分別播放前面的語音信號文件,得到其語譜圖,并從中觀察總結(jié)出其關(guān)鍵信息。但由于聲母、韻母較多,在此不一一列舉,分別以韻母a、聲母b為例。

      1)韻母

      下面圖2是韻母a的語譜圖,分別是標(biāo)準(zhǔn)普通話、普通男聲和普通女聲的圖譜。

      圖2中,橫軸表示時間,單位是ms,縱軸表示頻率,單位是Hz。圖中的帶顏色區(qū)域表示語音信號在對應(yīng)時刻所攜帶的能量,顏色愈亮,表示能量愈大;反之,顏色愈暗,則表示此時刻能量愈小。圖中開始和結(jié)束的地方顏色發(fā)暗發(fā)黑,表示語音信號未發(fā)音及已發(fā)音結(jié)束,不攜帶能量,所以顏色發(fā)暗發(fā)黑。由于韻母a的發(fā)音平緩且變化不大,所以圖中反映的能量也呈不變趨勢,是一道較平滑的語音帶。從圖2(a)中可以看出,語音a的能量主要集中于0~4 000 Hz頻率范圍之間,在4 000~7 000 Hz的頻率范圍內(nèi)能量分布較少,而當(dāng)頻率高于7 000 Hz時,幾乎沒有能量。而在0~4 000 Hz頻率范圍內(nèi),能量分布具有如下的特點:幾乎語音一半的能量集中于0~1 600 Hz頻率范圍內(nèi),頻率在2 800 Hz及3 800 Hz處又具有較大的能量,其余地方能量相對較小。從圖2(b)中可以看出,語音a的能量主要分布在兩個頻率范圍內(nèi),其中第一個頻率范圍是0~1400Hz,第二個頻率范圍是3000~5000Hz,且從圖中顏色明亮度可以看出語音a的大約70%的能量集中于第一個頻率范圍內(nèi),即0~1 400 Hz之間。從圖2(c)中可以看出,語音a的能量主要分布在0~1 800 Hz頻率范圍內(nèi),其余頻率段內(nèi)能量可以忽略不計。因此,可以得出結(jié)論:韻母a的能量集中分布于0~4 000 Hz頻率范圍之間,而這也就是其關(guān)鍵頻率范圍,而這個結(jié)論將為其后續(xù)處理提高一定的理論依據(jù)。

      2)聲母

      下面圖3是聲母b的語譜圖,分別是標(biāo)準(zhǔn)普通話、普通男聲和普通女聲的圖譜。

      圖3(a)中可以看出:語音b的能量主要分布在兩個頻率范圍內(nèi),大約70%的能量分布在0~1 200 Hz頻率范圍內(nèi),其余的能量分布在2 200~4 000 Hz之間。而圖3(b)的情況與圖(a)類似,語音b的能量大致分布在兩個頻率范圍內(nèi),其中大約80%的能量分布在0~1 200 Hz頻率范圍內(nèi),其余能量大致分布在2 800~4 000 Hz之間,另外在頻率5 000 Hz以上的地方也有一定的能量,可以忽略不計。從圖3(c)可以看出,語音能量絕大部分分布在0~1 200 Hz頻率段內(nèi),其余能量可以忽略不計。因此,可以得出結(jié)論:聲母b的能量大致分布在0~4 000 Hz頻率段內(nèi),但主要分布在0~1 200 Hz之間,這也是其關(guān)鍵頻率所在頻率段,是后續(xù)研究的重點區(qū)域。

      圖2 韻母a的語譜圖Fig.2Vowels a spectrogram

      圖3 聲母b的語譜圖Fig.3Initials b spectrogram

      3.2.2 自制MATLAB程序來處理語音文件

      本文應(yīng)用自制MATLAB軟件處理語音信號,通過調(diào)用MATLAB程序來得到語音文件的三維立體語譜圖,從中分析總結(jié)出其攜帶的關(guān)鍵信息。與上一小節(jié)類似,分別以韻母a、聲母b為例。

      1)韻母

      下面圖4是韻母a的語譜圖,分別是標(biāo)準(zhǔn)普通話、普通男聲和普通女聲的圖譜。

      上圖中的語音信號語譜圖是表示時頻聯(lián)合分布的三維圖,它的橫坐標(biāo)是時間,單位是ms,縱坐標(biāo)是頻率,單位是Hz,豎坐標(biāo)是幅度,表示語音的數(shù)據(jù)能量,單位是db(分貝)。能量值的大小是通過顏色深淺來表示的,顏色深,表示該點的語音能量越強;反之,顏色淺,則表示語音能量越小。從圖4(a)中可以看出,語音a的能量主要集中于0~4 000 Hz頻率范圍之間,在4 000~9 000 Hz的頻率范圍內(nèi)能量分布較少,而當(dāng)頻率高于9 000 Hz時,幾乎沒有能量。而在0~4 000 Hz頻率范圍內(nèi),能量分布具有如下的特點:幾乎語音70%的能量集中于600~1 600 Hz頻率范圍內(nèi),頻率在3 500 Hz及4 000 Hz處又具有大約20%的能量,其余地方能量相對較小。從圖4(b)中可以看出,語音a的能量主要分布在兩個頻率范圍內(nèi),其中第一個頻率范圍是0~2 000 Hz,第二個頻率范圍是2 500~4 500 Hz,且從圖中顏色明亮度可以看出語音a的大約80%的能量集中于第一個頻率范圍內(nèi),即0~2 000 Hz之間。從圖4(c)中可以看出,語音a的能量主要分布在0~2 000 Hz頻率范圍內(nèi),其余頻率段內(nèi)能量可以忽略不計。因此,可以得出結(jié)論:韻母a的能量集中分布于0~4 500 Hz頻率范圍之間,而這也就是其關(guān)鍵頻率范圍,而這個結(jié)論將為其后續(xù)處理提高一定的理論依據(jù)。

      2)聲母

      下面圖5是聲母b的語譜圖,分別是標(biāo)準(zhǔn)普通話、普通男聲和普通女聲的圖譜。

      在圖5(a)中可以看出:語音b的能量主要分布在兩個頻

      圖4韻母a的語譜圖

      圖5 聲母b的語譜圖Fig.5Initials b spectrogram

      Fig.4Vowels a spectrogram率范圍內(nèi),大約90%的能量分布在0~1 600 Hz頻率范圍內(nèi),其余的能量分布在2 000~4 000 Hz之間。從圖5(b)可以看出,語音b的能量大致分布在兩個頻率范圍內(nèi),其中大約70%的能量分布在0~1 700 Hz頻率范圍內(nèi),其余能量大致分布在3 000~4 200 Hz之間。從圖5(c)可以看出,語音能量絕大部分分布在0~1 700 Hz頻率段內(nèi),其余能量可以忽略不計。因此,可以得出結(jié)論:語音b的能量大致分布在0~4 200 Hz頻率段內(nèi),但主要分布在0~1 700 Hz之間,這也是其關(guān)鍵頻率所在頻率段,是后續(xù)研究的重點區(qū)域。

      3.3 漢語語音關(guān)鍵頻率分布

      按照上面3.2小節(jié)中的方法,將兩種方法結(jié)合起來,可以得出所有聲母和韻母的頻率大致分布情況,而漢語語音是有聲母和韻母拼合而成的,了解了聲母和韻母的頻率大致分布情況,那必然經(jīng)能夠大體確定漢語語音的頻率分布情況,從而為后面的辨析語音提高一定的理論基礎(chǔ)。

      經(jīng)過比較分析得出如下結(jié)論:在所有聲母和韻母中,絕大部分的頻率分布范圍是0~5 000 Hz,在這個頻率范圍內(nèi),0~1 200 Hz是一個關(guān)鍵頻率分布范圍段,即在此頻率段內(nèi)語音能量較多,接下來2 000~4 000 Hz又是一較為關(guān)鍵的頻率段,也具有一定的語音能量,其余頻率段內(nèi)語音能量較小,幾乎可以忽略不計。由于漢語語音中用一個漢字來代表一個音節(jié),一般來說,一個音節(jié)由聲母、韻母和聲調(diào)3部分組成,因此,確定了聲母和韻母的頻率分布情況,那么也就大體確定了漢語語音的頻率分布情況。所有上面的結(jié)論也適用于絕大部分的漢語語音,這個結(jié)論為后面的辨析語音提供了很好的理論基礎(chǔ)。

      在有關(guān)電子耳蝸的研究中,有的研究所選用濾波器的通帶帶寬在300~6 250 Hz之間[5],說明通過電子耳蝸的語音信號的關(guān)鍵頻率大致分布在300 Hz到6 250 Hz這個頻率范圍內(nèi)。而這也間接說明了上面的結(jié)論具有一定的準(zhǔn)確性,是可行的,可以作為后續(xù)研究的理論依據(jù)。

      4 結(jié)束語

      本文首先介紹了有關(guān)漢語拼音[6]的知識;然后介紹了時頻分布的特點和優(yōu)勢;最后通過時頻分布,用兩種方法分析總結(jié)了聲母和韻母的頻率分布情況及關(guān)鍵頻率分布特點,從而確定漢語語音的關(guān)鍵頻率分布情況,以為語音識別的研究提供一定的理論基礎(chǔ)。

      當(dāng)然,本文還要一定的不足:聲母和韻母的頻率分布情況能否更加細(xì)化、更加準(zhǔn)確?這是以后工作中亟待解決的問題,需要進(jìn)一步去研究。

      [1]韓紀(jì)慶,張磊,鄭鐵然.語音信號處理[M].北京:清華大學(xué)出版社,2004.

      [2]付妮妮.漢語拼音字母詞研究[D].遼寧:遼寧師范大學(xué),

      2007.

      [3]鄭普亮,許剛.時頻分布不同特性進(jìn)行語音分類[J].計算機工程與應(yīng)用,2005(22):48-50.ZHENG Pu-liang,XU Gang.Classification of speech using the different properties of the time-frequency distributions[J].Computer Engineering and Applications,2005(22):48-50.

      [4]馬義德,袁敏,齊春亮,等.基于PCNN的語譜圖特征提取在說話人識別中的應(yīng)用[J].計算機工程與應(yīng)用,2005(20):81-84.MA Yi-de,YUAN Min,QI Chun-liang,et al.Research of feature extraction from spectrogram based on pulse coupled neuralnetworkinspeakerrecognition[J].Computer Engineering and Applications,2005(20):81-84.

      [5]孟麗,肖靈,李平,等.定點DSP實現(xiàn)電子耳蝸CIS策略研究[J].中國生物醫(yī)學(xué)工程學(xué)報,2009,28(3):386-392.MENGLi,XIAOLing,LIPing,etal.Researchonimplementation of CIS strategy for cochlear implants on fixed-point DSP[J].Chinese Journal of Biomedical Engineering,2009,28(3):386-392.

      [6]吳葵.漢語拼音在對內(nèi)漢語教學(xué)中的應(yīng)用研究[D].湖南:湖南師范大學(xué),2007.

      猜你喜歡
      語譜韻母時頻
      聲母韻母
      HR-DCGAN方法的帕金森聲紋樣本擴(kuò)充及識別研究
      單韻母扛聲調(diào)
      基于時頻域特征的場景音頻研究
      語譜圖二次傅里葉變換特定人二字漢語詞匯識別
      面向語音情感識別的語譜圖特征提取算法
      基于時頻分析的逆合成孔徑雷達(dá)成像技術(shù)
      對采樣數(shù)據(jù)序列進(jìn)行時頻分解法的改進(jìn)
      雙線性時頻分布交叉項提取及損傷識別應(yīng)用
      淺析《守望燈塔》中的時頻
      柞水县| 石棉县| 孝感市| 灯塔市| 新巴尔虎左旗| 辰溪县| 红河县| 陆良县| 塔城市| 卓尼县| 马关县| 宜昌市| 冷水江市| 湄潭县| 博白县| 治多县| 监利县| 繁峙县| 丹寨县| 交口县| 治县。| 涪陵区| 通辽市| 离岛区| 高尔夫| 通辽市| 通海县| 潼南县| 巩义市| 平定县| 广河县| 巴林左旗| 五指山市| 泽库县| 山西省| 东城区| 兰考县| 屯昌县| 九龙城区| 双峰县| 卫辉市|