• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種藏語連續(xù)語音聲學(xué)特征參數(shù)提取算法研究*

      2019-09-03 08:57:16卓嘎邊巴旺堆
      通信技術(shù) 2019年8期
      關(guān)鍵詞:基音藏語特征參數(shù)

      卓嘎,邊巴旺堆

      (西藏大學(xué)工學(xué)院電信系,西藏 拉薩 850000)

      0 引 言

      藏族是我國(guó)少數(shù)民族之一,人口分布廣,使用藏語人數(shù)多,主要有衛(wèi)藏、安多和康三大方言[1]。藏語是拼音語言,有嚴(yán)格的拼讀規(guī)則。三種方言文字一樣,但同一個(gè)字發(fā)音卻有很大的差異。近年來,藏語語音識(shí)別研究人數(shù)的逐漸增多,藏語語音識(shí)別技術(shù)取得了一定的成績(jī),但是與其它語言的語音識(shí)別技術(shù)相比還是存在很大差距,特別是在連續(xù)語音識(shí)別研究上需要進(jìn)一步加強(qiáng)研究深度[2]。

      語音的聲學(xué)特征參數(shù)是語音識(shí)別的關(guān)鍵參數(shù)之一[3],其精確度直接影響語音識(shí)別的效率。即使是一段幾秒長(zhǎng)的語音文件其信息量也是很大的,為了提高語音的識(shí)別質(zhì)量必須有選擇性的提取語音中的表征語音特色的有用信息,一般語音聲學(xué)參數(shù)分為語音時(shí)域特征參數(shù)和頻域特征參數(shù)。時(shí)域參數(shù)包括短時(shí)幅度、短時(shí)能量、短時(shí)過零率、短時(shí)自相關(guān)函數(shù)等。頻率參數(shù)包括語音基音頻率、共振峰、MFCC梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficents)參數(shù)等。在孤立詞語音信號(hào)中單獨(dú)的字或詞的語音信號(hào)的音強(qiáng)、時(shí)長(zhǎng)、能量分布等特征比較容易觀察和分析,但是日常生活和實(shí)際的社會(huì)環(huán)境中使用的都是連續(xù)的語音句子,這些句子根據(jù)說話人的說話風(fēng)格,語速、背景,情緒有很大的差異,因而藏語孤立字和詞的聲學(xué)參數(shù)特征提取已經(jīng)不能滿足藏語語音大數(shù)據(jù)智能化的需求,本論文在Matlab環(huán)境下對(duì)藏語連續(xù)語音數(shù)據(jù)提取部分時(shí)域和頻域參數(shù),結(jié)合藏語發(fā)音特征進(jìn)行參數(shù)特征分析,為藏語連續(xù)語音識(shí)別、語音合成和語音智能化的提供參考數(shù)據(jù)。

      1 連續(xù)語音短時(shí)特征參數(shù)

      語音信號(hào)是頻率隨時(shí)間變換的一維信號(hào),是一種非平穩(wěn)信號(hào)。為了能夠在類似穩(wěn)定狀態(tài)下對(duì)語音的特征進(jìn)行分析,需要對(duì)原始的語音信號(hào)進(jìn)行短時(shí)處理,一般情況下語音在10-30ms時(shí)間段內(nèi)信號(hào)相對(duì)平穩(wěn),因此,在此時(shí)段內(nèi)對(duì)原始語音進(jìn)行分幀加窗處理[4][5]然后計(jì)算語音的短時(shí)平均能量、短時(shí)過零率、短時(shí)自相關(guān)函數(shù)等各種特征參數(shù)。

      1.1 短時(shí)能量

      短時(shí)能量是經(jīng)過分幀加窗的連續(xù)語音,對(duì)各幀計(jì)算語音能量,其計(jì)算公式如下:

      E(i)是語音信號(hào)分幀后第i幀的短時(shí)能量,各幀的幀長(zhǎng)為L(zhǎng),分幀后的總幀數(shù)為fn。聲帶振動(dòng)的語音短時(shí)能量較強(qiáng)[6],如濁音語音信號(hào);聲帶不震動(dòng)的語音,短時(shí)能量較弱,如清音語音信號(hào)。語音短時(shí)能量的值受前期分幀加窗時(shí)所選擇的窗的類型的影響。一般采用Hamming窗[7]。

      1.2 短時(shí)過零率

      短時(shí)過零率是連續(xù)語音采樣后的離散語音信號(hào)樣本值的改變情況或次數(shù)。在語音短時(shí)分析中,一般用一幀語音信號(hào)穿過橫州的次數(shù)來計(jì)算,其計(jì)算公式為:

      L是短時(shí)分幀后各幀的幀長(zhǎng),Z(i)是第i幀樣本值的過零次數(shù)[8]。公式中sgn[·]是符號(hào)函數(shù),表達(dá)式如下:

      聲帶振動(dòng)的濁音語音信號(hào)能量較強(qiáng)頻率較低,因此短時(shí)過零次數(shù)少,反之,聲帶不振動(dòng)的濁音語音信號(hào)能量較弱頻率較高,因此短時(shí)過零次數(shù)多。語音信號(hào)處理中,通常用短時(shí)能量和短時(shí)過零率的這個(gè)特點(diǎn)來設(shè)置相應(yīng)的閾值進(jìn)行語音的端點(diǎn)檢測(cè)[9],用于清濁音的判斷和音節(jié)分割等應(yīng)用[10]。

      1.3 短時(shí)自相關(guān)

      語音離散信號(hào)的自相關(guān)函數(shù)公式為:

      k是時(shí)間移位,Ri是第i幀的自相關(guān)值,xi是周期性語音信號(hào)的樣點(diǎn)值。如果信號(hào)周期為T,則在第一個(gè)周期及其整數(shù)倍的延時(shí)樣點(diǎn)上Ri(k)有最大值。

      語音的短時(shí)自相關(guān)函數(shù)[9-12]就是語音信號(hào)分幀后各幀離散信號(hào)延時(shí)后的相關(guān)程度或者相似程度。對(duì)于具有周期性的語音信號(hào)其短時(shí)自相關(guān)函數(shù)也具有周期性。一般用短時(shí)自相關(guān)的周期或周期的倒數(shù)即頻率作為語音特征參數(shù)之一進(jìn)行語音基音特征提取[13-14]。語音濁音信號(hào)具有周期性,而清音信號(hào)的頻率變化沒有明顯的規(guī)律,類似于隨機(jī)噪聲信號(hào)。在實(shí)際語音信號(hào)處理過程中由于存在聲道影響、頻率混合等各種干擾,降低了提取的基音參數(shù)的準(zhǔn)確性,因此會(huì)在計(jì)算短時(shí)自相關(guān)函數(shù)之前進(jìn)行中心削波非線性處理[15],其計(jì)算公式如下:

      式中,CL是自定義的閾值,是中心削波后的語音樣點(diǎn)幅值,x(n)是原始語音的樣本幅值。中心削波后,濾掉了原始語音信號(hào)中部分干擾峰值信號(hào),提高了基音周期峰值的精確度。

      2 仿真實(shí)驗(yàn)與結(jié)果分析

      實(shí)驗(yàn)對(duì)藏語母語話者進(jìn)行了一段拉薩語(衛(wèi)藏方言)連續(xù)語音的錄音,語音內(nèi)容為(句子意思是“你們的專業(yè)是藏語文還是漢語文?”);語音長(zhǎng)度為2.0 s,采樣頻率44 100 Hz,進(jìn)行短時(shí)分析用漢明窗,窗長(zhǎng)為20 sm,幀交叉重疊為10 sm,語音文件保存為“a.wave”。在Matlab軟件環(huán)境下進(jìn)行仿真實(shí)驗(yàn),實(shí)驗(yàn)流程圖1如所示,連續(xù)語音信號(hào)進(jìn)行單聲道處理以后先分幀加窗生成穩(wěn)定的短時(shí)幀,然后計(jì)算短時(shí)能量、短時(shí)過零率和短時(shí)自相關(guān)函數(shù)。計(jì)算短時(shí)自相關(guān)函數(shù)之前先進(jìn)行中心削波處理,最后再繪制連續(xù)語音基音軌跡圖。

      圖1 實(shí)驗(yàn)流程圖

      圖2 原始藏語連續(xù)語音波形

      圖2是例句語音a.wave的原始時(shí)域波形,橫軸為語音持續(xù)的時(shí)間,縱軸是語音的幅度。

      圖3、圖4、圖5分別是對(duì)原始連續(xù)語音信號(hào)進(jìn)行分幀、加窗后計(jì)算的短時(shí)平均能量、短時(shí)過零率和用短時(shí)自相關(guān)函數(shù)法提取的基音波形。圖3中縱軸上的值代表語音短時(shí)能量強(qiáng)弱值,單位為dB,用虛豎線人工分割了連續(xù)句子的各個(gè)音節(jié),一共是十個(gè)音節(jié)。語音例句中的十個(gè)音節(jié)平均時(shí)長(zhǎng)在表1中列出,第5個(gè)音節(jié)時(shí)長(zhǎng)最短,第7個(gè)音節(jié)時(shí)長(zhǎng)最長(zhǎng)。在連續(xù)語音中,音節(jié)之間存在兩個(gè)或幾個(gè)音節(jié)的連讀,有時(shí)會(huì)有發(fā)音延時(shí)或者縮短的問題[16],音節(jié)之間的停頓很難確定,如圖3中的第7和第10兩個(gè)音節(jié)是同一個(gè)音節(jié)都是疑問詞,但由于表達(dá)的語氣不同,第七個(gè)音節(jié)延長(zhǎng)了音節(jié)尾部的發(fā)音,帶有強(qiáng)調(diào)的語調(diào),因此其時(shí)長(zhǎng)較長(zhǎng),而第10個(gè)音節(jié)是整句話最后的疑問詞,聲調(diào)短而輕長(zhǎng)。同樣第6和第9音節(jié)在連續(xù)語音中與前面的音節(jié)連讀形成雙音節(jié)短語其時(shí)長(zhǎng)、短時(shí)能量和短時(shí)過零率都有區(qū)別。

      如圖3、圖4中虛線劃分的每個(gè)音節(jié)的平均能量和平均過零率值在表1中列出。發(fā)音過程中,清音聲帶不振動(dòng)能量較小,濁音聲帶振動(dòng)能量較大。圖3中短時(shí)能量值較低的片段是開頭讀清音的音節(jié),短時(shí)能量值較高的片段是開頭讀濁音的音節(jié),因此第1、2、4、7、9音節(jié)的短時(shí)能量值較大。

      圖3 語音短時(shí)能量波形

      圖4 語音短時(shí)過零率波形

      一般清音過率高,濁音過零率低,因此在音節(jié)里,開頭發(fā)濁音的音節(jié)過零率低,開頭發(fā)清音的音節(jié)過零率高。與短時(shí)能量相反,從圖4語音的短時(shí)過零率波形中可以看出,短時(shí)能量較高的音節(jié)其對(duì)應(yīng)的過零率值反而低,短時(shí)能量較低的音節(jié)其過零率值較高。

      語音清音發(fā)音時(shí)由于聲帶不振動(dòng)能量較弱不具備明顯的周期性。而濁音信號(hào)具有周期性,可以通過提取基音特征參數(shù)跟蹤觀察語音的基音軌跡。圖5是例句語音文件a.wave的連續(xù)語音基音頻率的仿真波形圖。采用了自相關(guān)基音提取算法,圖中每個(gè)虛線片段內(nèi)是每個(gè)音節(jié)的基音頻率分布曲線。其中基音最高頻率在500 Hz左右,最低在100 Hz左右。一般男性聲音的基音頻率在64~523 Hz左右[17],語音文件a.wave也是男生的錄音??v坐標(biāo)上的頻率值為對(duì)應(yīng)時(shí)間該音節(jié)的基音頻率值,單位為Hz。每個(gè)音節(jié)的平均基音頻率在表1中列出。由于粗略地提取了基音參數(shù),圖5中各個(gè)音節(jié)的基音分布不是很明顯。圖6是經(jīng)過語音噪聲濾波、中心削波處理后的基音軌跡波形,除了第一共振峰[18]和靜音造成的局部噪點(diǎn)和野點(diǎn)外,圖6中連續(xù)語音基音波形中可以看出比較明顯的基音分布規(guī)律。藏語語音發(fā)音中,一個(gè)音節(jié)的發(fā)音是該音節(jié)各個(gè)音素加上元音和音調(diào)的拼讀。圖6波形可以看出本實(shí)驗(yàn)語音例句中10個(gè)音節(jié)的基音頻率分布情況。連續(xù)語音發(fā)音過程中存在兩個(gè)或兩個(gè)以上的音節(jié)的連讀,因此其基音頻率也具有連續(xù)性,比如第1、2音節(jié)連讀,3、4音節(jié)連讀,5、6、7音節(jié)連讀,圖6中對(duì)應(yīng)音節(jié)的基音波形也具有連貫性,其中發(fā)清音的音節(jié)由于不具備周期性,其基音頻率分布也比較雜亂,如例句中的第8個(gè)音節(jié),該音節(jié)發(fā)清音短而輕是送氣的塞音清音。

      圖5 語音短時(shí)自相關(guān)基音波形

      圖6 藏語連續(xù)語音基音軌跡

      3 結(jié) 語

      實(shí)驗(yàn)中提取短時(shí)平均能量、短時(shí)過零率、短時(shí)自相關(guān)函數(shù)等聲學(xué)參數(shù)基本上能夠很好的表征藏語連續(xù)語音中的聲學(xué)特征,特別是實(shí)驗(yàn)中經(jīng)過濾波、中心削波處理藏語連續(xù)語音的基音軌跡波形,能夠很好地表征連續(xù)語音中各個(gè)音節(jié)的頻率變化。需要說明的是本實(shí)驗(yàn)是在無噪音的環(huán)境下對(duì)語音錄音數(shù)據(jù)進(jìn)行參數(shù)提取,實(shí)際情況中可能還存在各種人為噪聲和自然環(huán)境噪聲,因此在以后的研究中,還需要對(duì)不同噪聲環(huán)境下提取藏語連續(xù)語音聲學(xué)特征參數(shù)進(jìn)行更深入的研究。

      致謝:本文獲得西藏自治區(qū)高原通信科研創(chuàng)新團(tuán)隊(duì)的支持!

      猜你喜歡
      基音藏語特征參數(shù)
      淺談藏語中的禮儀語
      客聯(lián)(2022年2期)2022-04-29 22:05:07
      故障診斷中信號(hào)特征參數(shù)擇取方法
      基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
      漢藏語及其音樂
      基于基音跟蹤的語音增強(qiáng)研究
      基于PSO-VMD的齒輪特征參數(shù)提取方法研究
      藏語拉達(dá)克話的幾個(gè)語音特征
      西藏研究(2017年3期)2017-09-05 09:44:58
      藏語地理分布格局的形成原因
      西藏研究(2016年5期)2016-06-15 12:56:42
      統(tǒng)計(jì)特征參數(shù)及多分類SVM的局部放電類型識(shí)別
      樂理小知識(shí)
      小演奏家(2014年11期)2014-12-17 01:18:52
      专栏| 云龙县| 江口县| 宁陵县| 岱山县| 甘肃省| 临泽县| 贡山| 山东省| 富宁县| 邢台县| 桐城市| 沙坪坝区| 达孜县| 无极县| 上饶市| 文昌市| 定西市| 孝义市| 绍兴市| 封丘县| 江门市| 铜梁县| 小金县| 合水县| 宜昌市| 英山县| 连州市| 苗栗市| 清原| 内乡县| 克拉玛依市| 新源县| 元江| 万宁市| 丹东市| 屯留县| 上思县| 怀远县| 屏东县| 淳安县|