• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于語音知識的音節(jié)切分

      2010-07-18 03:12:02湯霖黃建中尹俊勛
      中文信息學(xué)報 2010年4期
      關(guān)鍵詞:韻母聲母音節(jié)

      湯霖,黃建中,尹俊勛

      (1.江門職業(yè)技術(shù)學(xué)院電子與信息技術(shù)系,廣東江門529090;2.華南理工大學(xué)電子與信息學(xué)院,廣東廣州510641)

      1 引言

      在連續(xù)語音識別系統(tǒng)的研制過程中,人們首先面對識別基元的選取問題,對于漢語來說,一個自然的選擇就是音節(jié)。目前廣泛使用的HMM模型及其改進模型,通過Viterbi解碼或幀同步算法給出狀態(tài)解碼序列,借助語音模型和語法模型給出識別的句子,它面臨著搜索路徑組合爆炸問題和狀態(tài)解碼序列錯配問題,如果能事先進行必要的音節(jié)切分,這些問題就迎刃而解。因此,人們不斷進行音節(jié)切分實驗[1-6],提出了很多方法。目前的自動語音切分方法大致可分成兩類。

      第一類是通過求取的穩(wěn)健的音節(jié)切分特征或?qū)嵱玫乃惴▉磉M行切分。如張紅等[1]根據(jù)聽覺感知系統(tǒng)對于動態(tài)語音特征的響應(yīng)特點,提出了半波差分譜特征。王帆等[2]提出將普通分形維數(shù)擴展為多尺度分形維數(shù)作為切分特征。王卓[3]等用高階譜作語音端點特征,在各種噪聲環(huán)境下取得了好的語音端點檢測效果。還有人用子帶能量映射、小波變換域子帶能量變化等特征作切分實驗。W ilpon[7]和Van Hemert等[8]提出了利用語音信號幀與幀之間的頻譜變化特點進行切分的方法。但此類方法存在邊界劃分不可靠和計算復(fù)雜度高等問題。Greenberg[9]則提出了利用時域特征進行語音切分的思想,該方法適合于與語言無關(guān)的語音分段,或作為語種辨識的前端處理,但也存在邊界插入和缺失錯誤以及倒置失真的問題。Prasad等[10]提出了一種利用語音信號的能量來構(gòu)造具有最小相位函數(shù)的語音特征信號,然后通過計算該信號的群延遲函數(shù)達到切分語音音節(jié)的目的的新算法。顧明亮等[11]對該算法進行了改進,根據(jù)漢語語音特點和統(tǒng)計自適應(yīng)方法提出了一種新的統(tǒng)計切分算法。賈磊等[12]提出的檢測熵變化趨勢的跳變點檢測語音分割點,取得了較好的語音與非語音的分割效果。在漢語語音切分方法中,人們還提出了基于歸并的音節(jié)切分自動機[4]、基于神經(jīng)網(wǎng)絡(luò)切分算法[13]、模糊切分算法[14]、支持向量機切分算法[6]等,這些算法對提高漢語的切分精度進行了有益的探索,但計算的工作量和復(fù)雜性較高。

      第二類是利用語言學(xué)知識進行切分,如Rabiner等[15]根據(jù)語言學(xué)中音素的先驗知識進行劃分。張文軍等[5]在基于隱馬爾科夫模型的語音切分基礎(chǔ)上,融合了不受噪聲干擾的先驗切分模型,提出了基于貝葉斯方法的語音切分方法。

      在進行普通話水平客觀測試系統(tǒng)的研究中,因普通話水平測試的5個項目里,除了在朗讀項要評測語音的流利程度、停連、節(jié)奏等韻律因素外,主要是測試語音中各音節(jié)的聲、韻、調(diào)的準確程度,這就需要將測試中的多音節(jié)字詞項和朗讀項的語音切分成一個一個的音節(jié)來進行評測。音節(jié)切分的準確程度極大地影響后續(xù)評測的準確率。

      在普通話水平評測中,由于測試編排的特點,語音文件都有標準文本可以依賴,這給音節(jié)切分提供了先驗知識,在充分運用這些先驗知識和分析漢語語音結(jié)構(gòu)特點的基礎(chǔ)上,本文提出了一種基于隸屬度的二級切分算法。實驗結(jié)果表明,該方法的音節(jié)切分準確率達98.3%。

      2 語音音節(jié)切分特征提取

      傳統(tǒng)的音節(jié)切分采用的特征為短時能量和過零率以及它們的變種,如能零積和能零比等。這些參數(shù)在信噪比較高時,能取得比較好的性能。但是,在環(huán)境噪聲比較大的情況下,系統(tǒng)性能就急劇下降。通過實驗比較,目前具有較好抗噪性能的特征參數(shù)有基于幀的Teager能量和平滑累計能量等,下面分別介紹這兩種參數(shù)的計算。

      2.1 基于幀的Teager能量

      設(shè)Xw(n)為加窗語音采樣序列,首先對其進行N點短時傅立葉變換:

      然后用頻率的平方值對功率譜進行加權(quán):

      最后計算幀的Teager能量:

      其中求和的范圍從250H z到3 750Hz,范圍以外的功率譜值設(shè)為零。從公式中不難發(fā)現(xiàn)Teager能量[16]不僅與信號的幅度有關(guān),還與相應(yīng)頻率有關(guān)。該方法之所以能夠檢測出低幅度的摩擦音和爆破音是因為這些發(fā)音能量分布在高頻范圍內(nèi)。

      2.2 平滑累積能量

      設(shè)信號為X(i),其平滑累積能量[9]為:

      3 音節(jié)切分

      3.1 普通話水平客觀評測中的音節(jié)切分特點

      普通話水平客觀評測中的音節(jié)切分任務(wù)有兩個:一個是進行多音節(jié)字詞的切分,另一個是進行朗讀語音的切分。由于被切分的語音是對照文本朗讀的,所以在進行切分的過程中,可用已知語音文本的先驗知識來引導(dǎo)切分過程。

      多項研究結(jié)果[17-20]表明:人與人之間的平均音節(jié)時長變化比較大,但同一人的發(fā)音中,在常規(guī)語速下同一聲母的時長比較穩(wěn)定,同時,聲母之間和韻母之間的相對時長基本保持比例關(guān)系等特點。因此,聲韻母時長是一個穩(wěn)定的可提供先驗知識的特征。

      3.1.1 普通話聲韻母時長統(tǒng)計

      齊士鈐、張家騄等[19]對雙音節(jié)詞中漢語普通話輔音音長進行了統(tǒng)計分析,得出如下結(jié)論:1)輔音音長與送氣狀態(tài)有直接關(guān)系,不送氣塞音最短,送氣塞擦音最長。各種發(fā)音方式之間有一定的音長比值。而音長與發(fā)音部位關(guān)系不大。2)輔音音長與聲調(diào)、全音節(jié)長度關(guān)系不大,但送氣塞擦音受后接元音影響,元音開口度大音長短。3)在連讀中,前后兩音節(jié)中的輔音長度與所在前后位置無關(guān)。

      陳肖霞等[21],對3個發(fā)音人的連續(xù)語音進行切分標注,統(tǒng)計了語料中的聲母音長與韻母聲長。見表1和表2。

      表1 聲母的平均時長(ms)

      表2 韻母的平均時長(ms)

      在連續(xù)語音中,“的、地、得”和“了”基本上是讀輕聲“de”和“l(fā)e” ,“de”的時長平均為 88m s,比從表 1和表2組合出來的要短15m s左右?!發(fā)e”的平均時長為72m s,比從表 1和表 2組合出來的要短約83m s左右,因此,在遇到這兩個輕聲時,采用輕聲時長。

      3.1.2 參試者的聲韻母時長估計

      聲韻母時長統(tǒng)計需要進行語音的聲韻切分,但目前的自動切分技術(shù)還不完善。因此,只能采用借助前面的統(tǒng)計結(jié)果,以及普通話水平測試第一項“單音節(jié)字詞”中的聲韻母時長信息,進行聲韻母時長估計。

      在聲韻切分中,單音節(jié)字詞中的以擦音作為聲母的音節(jié)的自動切分最容易也最準確。因此,以參試者的普通話水平測試第一項“單音節(jié)字詞”中得到的較少誤讀的s和x的時長平均值作為標準,按前面的統(tǒng)計結(jié)果的聲母時長比例,就可以得到參試者的聲母時長估計值。

      將“單音節(jié)字詞”中的每個詞的時長減去剛得到的聲母時長就是該詞的韻母時長(不考慮過渡段)。對各個韻母時長分別求平均就形成了參試者的韻母時長估計值。

      具體的統(tǒng)計方法如下:

      1)在“單音節(jié)字詞”語音文件中查找所有s和x所對應(yīng)的音節(jié),對這些音節(jié)進行聲韻切分,計算聲母的時長平均值L1。

      計算就得到參試者的聲母時長估計值。

      3)用每個音節(jié)的時長減去剛得到的對應(yīng)聲母的時長得到該音節(jié)的韻母時長,對各個韻母時長分別求平均就形成了參試者的韻母時長估計值。

      4)對于沒出現(xiàn)過的韻母,在表2中查找與該韻母時長最接近的出現(xiàn)過的韻母時長值替代。

      3.2 切分算法

      對由語音端點檢測得出的語音段進行音節(jié)切分,采用兩級切分:第一級切分出明顯的語音段,而且確保切分準確,第二級再對第一級切分出來的語音段進行詳細確定端點,必要時進行再切分。

      采用的切分特征為從小波變換后的數(shù)據(jù)中提取出的3種平滑累計能量參數(shù),以及Teager參數(shù)。

      對語音信號進行四級二進小波變換后,重構(gòu)第3級、第4級細節(jié)數(shù)據(jù)和第4級近似數(shù)據(jù)。按公式(4)求其平滑累計能量,得到3組曲線,然后以64點為一幀計算其平均值,再對其歸一化,得到3種參數(shù) ,分別記為 Ed3(i)、Ed4(i)、Ea4(i)。

      3.2.1 第一級切分

      3.2.1.1 語音段中音節(jié)數(shù)的確定

      2)考試或者提交機器人作品??梢宰灾鬟x擇其中的一種考核方式。設(shè)計制作機器人作品要求學(xué)生有很好的理論基礎(chǔ),學(xué)生需要獨立完成設(shè)計、制作的整個過程。這種方式注重培養(yǎng)學(xué)生實際動手操作的能力,提升創(chuàng)新思維,同時可以鍛煉學(xué)生在突發(fā)情況下分析、解決問題的能力。

      1)多音節(jié)字詞項的語音段中音節(jié)數(shù)的確定。

      在多音節(jié)字詞項的測試中,每個詞組之間的無音段時長遠大于詞組內(nèi)的無音段時長,因此,可以作為詞組之間的分割點,也就可以確定語音段與文本的對應(yīng)關(guān)系。

      2)朗讀項的語音段中音節(jié)數(shù)的確定。

      首先,由文本文件通過查已經(jīng)經(jīng)單音節(jié)字詞項話者適用過的音節(jié)時長表得到文本的總體累計經(jīng)驗時長Stw,其中的聲母累計時長Siw和韻母累計時長Sfw=Stw-Siw。統(tǒng)計語音文件的累計語音時長Stv。從上一節(jié)的分析中,知道每個人的普通話語音的聲母時長基本不隨語境而變化,由此,可計算語音文件的韻母時長Sfv=Stv-Siw。得到語音文件與文本文件的韻母時長比:R=Sfv/Sfw。

      其次,以文本中的每個標點符號作為分割點,在語音文件中逐段查找時長值大于100m s的無音段,按下面方法確定本段文本對應(yīng)的語音段。

      設(shè)目前進行文本中的第k段對應(yīng)語音段的搜索,而語音文件的大語音段(指無音段時長大于200m s之間的語音段)已到m段,該段的語音時長為Ym。查表得到第k段文本文件的聲母時長W ik和韻母時長Wfk。求:

      則認為m到n段語音段對應(yīng)第k段文本。

      接著,從語音文件第m段語音段中的第一小段Vm1開始,設(shè)其時長為Sm1,嘗試由第k段文本文件的第一個音節(jié)Wk1查表得到它的聲母時長Sik1和韻母時長S fk1。如果,|Sm1-(Sik 1+Sfk1×R)|≤30,就認為Vm1與Wk1對應(yīng),進行Vm2段的匹配。否則,在Wk1的基礎(chǔ)上增加音節(jié)Wk2,再判斷|Sm1-[Sik1+Sik 2+(Sfk1+Sfk2)×R]|≤30是否成立,成立就認為Vm1與Wk1和Wk2對應(yīng)。否則,繼續(xù)添加音節(jié)直至條件成立,如果誤差越來越大,就認定誤差最小的那個為對應(yīng)音節(jié)串。繼續(xù)運行到m段中所有小段都匹配完畢,開始m+1段,重復(fù)以上工作,直到第n段匹配結(jié)束,再開始文本文件的第k+1段文本與語音文件的匹配,一直運行到語音文件結(jié)尾。

      3.2.1.2 第一級切分

      1)如果本段語音對應(yīng)的音節(jié)數(shù)為1,不必切分,進行下一語音段的切分。

      2)從Ed3(i)和Ed4(i)曲線中,查找小于Eth1(為域值,本文中設(shè)為 0.005)的區(qū)域,如果有,則認為該區(qū)域的起點為音節(jié)的切分點,將語音段一分為二,按先驗音長知識確定前后段語音應(yīng)包含的音節(jié)數(shù)?;氐降?步。

      3)從Ed4(i)中檢測語音段中超過Eth2(為域值,本文中設(shè)為0.1)的孤立段,比較段數(shù)是否與本段語音所對應(yīng)的音節(jié)數(shù)相同,按先驗音長知識確定各段在語音段中的位置是否在范圍內(nèi),是則根據(jù)以下原則確定切分點:

      如果該對應(yīng)音節(jié)是零聲母、濁輔音聲母或是不送氣塞音聲母,則該音節(jié)的起點為該段曲線前沿的具有大于0.035以上3點差分值的最低點,同時該點也是前一音節(jié)的終點。

      否則,取前一段的后沿的具有大于0.035以上3點負差分值的最低點作為本音節(jié)的起點。同時也是前一音節(jié)的終點。

      處理完所有孤立段,跳第二級切分繼續(xù)進行音節(jié)切分。

      如果不存在合格孤立段,用Ed3(i)替換Ed4(i)再執(zhí)行本步驟。

      3.2.2 第二級切分

      對第一級切分還存在沒切分出來的音節(jié)的語音段,繼續(xù)在本級進行切分。首先采用確定音節(jié)數(shù)時用的辦法,利用語音時長的先驗知識大概確定各音節(jié)的切分點,根據(jù)以下原則在該點的±32ms內(nèi)確定本段中音節(jié)的切分點。

      如果該音節(jié)是以濁輔音開始,檢測Ed4(i)中的3點差分大于等于0.035的點,其中值最小的點作為音節(jié)切分點。

      如果該音節(jié)是以零聲母開始,則檢測Ea4(i)中的最低點作為音節(jié)切分點。

      其他的,則在 teager曲線中,找V 型反轉(zhuǎn)點,該點必需為最低點。

      4 實驗結(jié)果

      從語音數(shù)據(jù)庫中,選擇了5男5女的測試數(shù)據(jù)作為音節(jié)切分的實驗數(shù)據(jù)。這些數(shù)據(jù)中,沒有漏讀和重讀,總共包含1 000個單音節(jié)字詞,含1 000個音節(jié)的多音節(jié)詞語,以及含4 056個音節(jié)的10篇短文。這些數(shù)據(jù)都進行了人工端點確定。對多音節(jié)詞語和短文也進行手工音節(jié)切分。

      音節(jié)切分實驗結(jié)果如表3所示,音節(jié)切分正確與否是以系統(tǒng)切分出來的音節(jié)端點與人工確定的音節(jié)端點誤差是否在1幀之內(nèi)為判斷準則。

      表3 音節(jié)切分實驗結(jié)果

      從實驗結(jié)果看,本文提出的方法比傳統(tǒng)的基于小波變換域子帶能量的雙域值法音節(jié)切分正確率高6%以上,也比半波差分譜法音節(jié)切分正確率高4%,證明本方法是準確可靠的。

      朗讀項的切分錯誤同樣主要出現(xiàn)在輕聲音節(jié)的尾端點上,因其輕短,與后面音節(jié)的過渡段比較長,其尾端點切分困難。還有前音節(jié)是非鼻韻尾,而后一音節(jié)以零聲母開始或元音開始的情況,也比較難切分。

      5 小結(jié)

      在充分利用文本信息和語音時長信息,以及利用改進了的語音小波變換后的幾個分量的累計能量等特征的基礎(chǔ)上,提出使用話者語音統(tǒng)計信息進行音節(jié)切分的算法,該算法使音節(jié)切分精度最少達98.3%。

      在利用文本信息進行語音段音節(jié)數(shù)確定時,如果遇到朗讀出現(xiàn)漏讀和重讀時,將會出現(xiàn)系統(tǒng)性錯誤,在后續(xù)的研究中要重點加以研究。

      [1] 張紅,黃泰翼,李治.基于半波差分譜的語音信號音節(jié)切分[J].聲學(xué)學(xué)報(中文版),2000,25(4):323-328.

      [2] 王帆,鄭方,吳文虎.基于多尺度分形維數(shù)的漢語語音聲韻切分[J].清華大學(xué)學(xué)報(自然科學(xué)版),2002,42(1):68-71.

      [3] 王卓,蘇牧,李鵬,等.噪聲環(huán)境下基于高階譜的端點檢測算法[J].中文信息學(xué)報,2004,18(5):70-77.

      [4] 張繼勇,鄭方,杜術(shù),等.連續(xù)漢語語音識別中基于歸并的音節(jié)切分自動機[J].軟件學(xué)報,1999,10(11):1212-1215.

      [5] 張文軍,謝劍英,李聰.基于貝葉斯方法的魯棒語音切分[J].數(shù)據(jù)采集與處理,2002,17(3):260-264.

      [6] 齊峰巖,鮑長春.一種基于支持向量機的含噪語音的清/濁/靜音分類的新方法[J].電子學(xué)報,2006,34(4):605-611.

      [7] W ilpon J.G.;Juang B.H.;Rabiner L.R.An investigation on the use ofacoustic sub-w ord units for automatic speech recognition[C]//Proc.of IEEE Internat.Conf.on A coustic,Speech,and Signal Processing.1987:821-824.

      [8] Van Hernert J.P.Automatic segmentation of speech[J].IEEE Trans.Signal Process,1991,39(4):1008-1012.

      [9] G reenberg S.Speaking in short hand:asy llable-centric perspective for under standing pronunciation variation[J].Speech Communication,1999,29(2):159-176.

      [10] Prasad V.K.;Nagarajan T.;Murthy H.A.Automatic segmentation of continuous speech using m inimum phase group delay functions[J].Speech Communication,2004,42(3-4):429.

      [11] 顧明亮,代春倩.一種新的漢語連續(xù)語音統(tǒng)計切分算法[J].徐州師范大學(xué)學(xué)報(自然科學(xué)版),2005,23(4):45-49.

      [12] 賈磊,穆向禺,徐波.廣播語音的音頻分割[J].中文信息學(xué)報,2002,16(1):37-42.

      [13] 胡瑞敏,薛東輝,姚天任,等.BP人工神經(jīng)元網(wǎng)絡(luò)與漢語語音的音節(jié)切分[J].華中理工大學(xué)學(xué)報,1996,24(S2):25.

      [14] 劉宇紅,劉橋,任強.基于改進的模糊ART的語音信號端點檢測與切分[J].系統(tǒng)工程與電子技術(shù),2004,26(8):147.

      [15] Rabiner L.R.;Rosenberg A.E.;W ilpon J.G.,et al.A bootstrapping training technique for obtaining dem isy llab le reference patterns[J].J.Acoustic Soc.Amer.,1982,71(6):1588-1595.

      [16] Ying G.S.;M itchell C.D.;Jam ieson L.H.Endpoint Detection of Isolated U tterances Based on a Modified Teager Energy Measurement[C]//Proc.ICASSP,1992:732-735.

      [17] 馮隆.北京話語流中聲韻調(diào)的時長[M].北京語音實驗錄,北京:北京大學(xué)出版社,1985.

      [18] 馬大猷,沈豪,等.聲學(xué)手冊[M].北京:科學(xué)出版社,1983.

      [19] 齊士鈐,張家騄.漢語普通話輔音音長分析[J].聲學(xué)學(xué)報,1982,7(1):5.

      [20] 吳宗濟,曹劍芬.普通話輔音聲學(xué)特征的幾個問題[C]//1979第二屆全國聲學(xué)學(xué)術(shù)會議論文摘要.

      [21] 陳肖霞,祖漪清.基于連續(xù)話語語料庫的語音音段的初步統(tǒng)計分析[R].語音研究報告,1998.

      猜你喜歡
      韻母聲母音節(jié)
      聲母韻母
      上古漢語*kl-、*kr-類聲母的舌齒音演變
      聲母順口溜
      聲母歌
      拼拼 讀讀 寫寫
      單韻母扛聲調(diào)
      藏文音節(jié)字的頻次統(tǒng)計
      快樂拼音
      木管樂器“音節(jié)練習(xí)法”初探
      “兒”字和“兒化”韻母不同
      克什克腾旗| 沅陵县| 盱眙县| 襄城县| 罗甸县| 乌拉特前旗| 仁寿县| 申扎县| 桑植县| 博湖县| 巴林左旗| 高阳县| 无为县| 潮州市| 禄丰县| 井陉县| 孟州市| 界首市| 定州市| 吉隆县| 襄垣县| 镇江市| 休宁县| 柯坪县| 资源县| 溧水县| 嵩明县| 永吉县| 宁津县| 错那县| 张北县| 宁夏| 金昌市| 新蔡县| 称多县| 治县。| 云林县| 中山市| 朝阳区| 绿春县| 林周县|