• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于HMM的聲調(diào)語音模型研究

      2019-01-02 12:44:34易雪蓉
      關(guān)鍵詞:同音字音素聲調(diào)

      易雪蓉,黃 巍*,2,胡 迪,蔣 怡

      1.武漢工程大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,湖北 武漢 430205;2.智能機(jī)器人湖北省重點(diǎn)實(shí)驗(yàn)室(武漢工程大學(xué)),湖北 武漢 430205

      語言是人類溝通的重要工具,語音識(shí)別是人工智能研究的重要領(lǐng)域。20世紀(jì)50年代,貝爾實(shí)驗(yàn)室設(shè)計(jì)了第一個(gè)語音識(shí)別系統(tǒng),實(shí)現(xiàn)了對(duì)孤立數(shù)字的語音識(shí)別[1]。20世紀(jì)60年代,提出了時(shí)間歸一化打分機(jī)制、音素動(dòng)態(tài)跟蹤技術(shù)和動(dòng)態(tài)規(guī)劃算法,有效地解決了語音信號(hào)的特征提取和不等長(zhǎng)語音匹配問題[2]。20世紀(jì)70年代,模式識(shí)別思想、線性預(yù)測(cè)編碼等技術(shù)被應(yīng)用于語音識(shí)別中,識(shí)別對(duì)象從孤立詞轉(zhuǎn)移到連續(xù)語音[3]。20世紀(jì)90年代及以后,隱馬爾科夫模型(hidden markov modol,HMM)、高斯混 合 模 型(gaussian mixed model,GMM)被提出[4],基于GMM-HMM的語音識(shí)別框架得到廣泛使用和研究,文獻(xiàn)[5]通過改進(jìn)語音特征參數(shù)相鄰幀的相關(guān)性,進(jìn)一步提高GMM-HMM的準(zhǔn)確度;文獻(xiàn)[6-7]使用GMM-HMM識(shí)別了連續(xù)語音的聲調(diào)。目前,深度學(xué)習(xí)技術(shù)也被應(yīng)用于語音處理系統(tǒng)[8-11],由于它對(duì)訓(xùn)練數(shù)據(jù)和硬件資源有著極高的要求,限制了其使用范圍。

      現(xiàn)代漢語是一種有聲調(diào)的特殊語音,音素和聲調(diào)組合可以構(gòu)成無數(shù)個(gè)多音字和同音字的發(fā)音。一方面,同一個(gè)漢字在不同的聲調(diào)下代表不同的意義,另一方面,相同的讀音可能代表完全不同的漢字,因此,與印歐語系的語言相比,聲調(diào)和上下文信息對(duì)漢語語音的識(shí)別具有更重要的作用[12]。

      本文在語音模型中添加聲調(diào),并使用字轉(zhuǎn)移概率捕獲上下文信息,修改HTK[13]工具包以適應(yīng)漢語語音識(shí)別問題,實(shí)驗(yàn)結(jié)果證明了聲調(diào)對(duì)近音字識(shí)別的重要性,同時(shí)字轉(zhuǎn)移概率的引入能有效提高同音字識(shí)別的準(zhǔn)確率。

      1 基于HMM的聲調(diào)語音模型

      GMM-HMM語音識(shí)別系統(tǒng)的框架圖如圖1所示,其結(jié)構(gòu)主要由3部分組成:語言模型、字典和語音模型[14]。

      圖1 語音識(shí)別系統(tǒng)框架Fig.1 Framework of speech recognition system

      1.1 聲調(diào)語音模型

      GMM-HMM通常由λ={O,S,π,A,B}來描述[15],其中 O 代表L個(gè)觀測(cè)向量集合{o1,o2,…,oL},S是 K 個(gè) HMM 狀態(tài)的集合 {s1,s2,…, sK},π={π1,π2,…,πK}是初始狀態(tài)分布,A是所有狀態(tài)轉(zhuǎn)移概率所構(gòu)成的矩陣(aij)(aij表示從狀態(tài)i到狀態(tài)j的轉(zhuǎn)移概率),B是狀態(tài)觀測(cè)符號(hào)的概率分布{bi(oj)}K*L(bi(oj)表示在狀態(tài)si下觀察到觀測(cè)向量oj的概率)。一個(gè)HMM的生成模型M如圖2所示[13],圖2中1,2,3,4,5,6代表狀態(tài) s1,s2,s3,s4,s5,s6。

      圖2 HMM的生成模型Fig.2 HMM Generation Model

      作為一個(gè)例子,在M的一個(gè)實(shí)例中,出現(xiàn)狀態(tài)X=(s2,s2,s3,s4,s4,s5)并觀察到觀測(cè)向量序列O=(o1,o2,o3,o4,o5,o6)的概率為:

      在基于GMM-HMM的語音識(shí)別應(yīng)用中,X是未知隱藏的,則:

      x(0)是模型的初態(tài),x(T+1)是模型的終態(tài)。

      當(dāng)觀察到觀測(cè)序列 O=[o(1),o(2),…,o(t)]時(shí),最可能出現(xiàn)的未知狀態(tài)序列X應(yīng)該是使得觀測(cè)向量序列O出現(xiàn)的可能性最大的狀態(tài)序列,即:

      本文的實(shí)驗(yàn)中一個(gè)模型M對(duì)應(yīng)一個(gè)音素W,即p(O|W)=p(O|M)。

      在漢語中,一個(gè)漢字讀音就是一個(gè)音節(jié),每個(gè)基本音節(jié)由3個(gè)部分組成:聲母、韻母和聲調(diào)[16],聲母和韻母又是由音素組成的復(fù)合音。聲母有23個(gè),韻母有39個(gè),音素包含輔音22個(gè)和元音10個(gè),輔音對(duì)應(yīng)聲母,元音對(duì)應(yīng)韻母。漢語拼音聲母、韻母和音素對(duì)照見圖3[17],其中-i(前)為zi,ci,si發(fā)音的尾部部分,-i(后)為 zhi,chi,shi發(fā)音的尾部部分。聲調(diào)有4種,其中僅由聲母和韻母構(gòu)成并實(shí)際存在的聲韻結(jié)合體據(jù)統(tǒng)計(jì)一共有400多個(gè),將這些聲韻結(jié)合體與音調(diào)組合成音節(jié)共記1 200多個(gè)[18]。在實(shí)際生活中,漢語口語中的音調(diào)不僅僅是一聲、二聲、三聲和四聲,還存在輕聲。為了識(shí)別的準(zhǔn)確性和全面性,在本文實(shí)驗(yàn)的聲調(diào)模型中,除了標(biāo)準(zhǔn)規(guī)定的四種聲調(diào)外,另加了一種輕聲,構(gòu)成5種聲調(diào),見表1。最后添加了聲調(diào)的音素模型有81個(gè),聲調(diào)僅跟在每個(gè)音節(jié)的最后一個(gè)音素后(見圖4)。

      表1 聲調(diào)模型對(duì)應(yīng)表Tab.1 Mapping table of tone model

      圖3 漢語拼音聲母、韻母和音素對(duì)照?qǐng)DFig.3 Comparison of Chinese Pinyin initials,finals and phonemes

      圖4 音素-聲調(diào)模型內(nèi)容Fig.4 Content of phoneme-tone model

      從圖3和圖4中可以看出:新模型與聲韻母-音調(diào)組合相比較降低了復(fù)雜度,與傳統(tǒng)音素模型相比較提高了精確度。部分傳統(tǒng)音素從1個(gè)細(xì)分成5個(gè),讓識(shí)別過程中的分類更加精細(xì),如圖5和圖6所示,圖5是傳統(tǒng)音素建立HMM模型的示意圖,音素相同發(fā)音不同的漢字所生成的HMM模型是一樣的;圖6是聲調(diào)-音素建立HMM模型的示意圖,添加聲調(diào)模型后,音素相同發(fā)音不同的漢字所生成的HMM模型是不一樣的。傳統(tǒng)模型中音素相同發(fā)音不同的漢字因?yàn)楣灿孟嗤腍MM模型,最后計(jì)算的 p(O|M)相等,無法選取最優(yōu)字;聲調(diào)-音素模型中音素相同發(fā)音不同的漢字因?yàn)镠MM模型的不同,最后計(jì)算出的 p(O|M)不一樣,根據(jù)實(shí)際情況選擇可能性最大的概率,可以讓識(shí)別結(jié)果更準(zhǔn)確。

      圖5 基于傳統(tǒng)音素的HMM模型示意圖Fig.5 Schematic diagram of HMM model based on traditional phoneme

      圖6 基于聲調(diào)-音素的HMM模型示意圖Fig.6 Schematic diagram of HMM model based on tone-phoneme

      1.2 字轉(zhuǎn)移概率語言模型

      語音識(shí)別應(yīng)用中常用的語言模型是基于N-gram的統(tǒng)計(jì)語言模型。N-gram模型采用的是Markov假設(shè)[14],即當(dāng)前字出現(xiàn)的概率僅與前1個(gè)字有關(guān)系。

      用 A=(start,a1,a2,a3,…,am,end)表示一段待識(shí)別的字序列,ai表示其中的一個(gè)字,根據(jù)語音模型的處理結(jié)果,可以從詞網(wǎng)中選取出ai的所有同音字,然后計(jì)算每一個(gè)字出現(xiàn)的概率,選取概率最大的字組成最后識(shí)別出的字序列,若概率相同則選取同音字里出現(xiàn)的第一個(gè)字。

      假設(shè)用 w1,w2,w3,…,wm-1,wm表示完整的句子中出現(xiàn)的每一個(gè)字,根據(jù)Markov假設(shè),字wi出現(xiàn)的概率為:

      整個(gè)句子出現(xiàn)的概率:

      其中 p(w1)表示start后出現(xiàn)字 wi的概率。這些概率在原始模型中全等于1,以至在同音字識(shí)別中正確率是不高的。

      本文首先對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行統(tǒng)計(jì),構(gòu)建一個(gè)為全0的矩陣C=(cij)(N+2)*(N+2),cij表示字i后面出現(xiàn)字j的概率,N+2表示有N個(gè)無重復(fù)的漢字和表示開始與結(jié)束的start與end;然后依次讀取訓(xùn)練集,讀取到字符X,就在矩陣的行中找到X的位置x,接著讀取下一個(gè)字符Y,在矩陣的列中找到該字符的位置y,則cxy=cxy+1,表示字X后出現(xiàn)Y的次數(shù);最后對(duì)矩陣中的數(shù)值進(jìn)行計(jì)算。則字轉(zhuǎn)移概率:p(wi|wi-1)=cwi-1wi。

      2 實(shí)驗(yàn)部分

      2.1 實(shí)驗(yàn)工具和數(shù)據(jù)

      本文研究修改了HTK工具包,以得到支持聲調(diào)和字轉(zhuǎn)移概率的GMM-HMM語音識(shí)別模型。為驗(yàn)證聲調(diào)信息和字轉(zhuǎn)移概率對(duì)漢語語音識(shí)別的影響,分別進(jìn)行了兩組實(shí)驗(yàn)。實(shí)驗(yàn)一是對(duì)聲韻母相同聲調(diào)不同的近音字的識(shí)別;實(shí)驗(yàn)二是對(duì)聲韻母和聲調(diào)都相同的同音字的識(shí)別。

      實(shí)驗(yàn)一所使用的語音數(shù)據(jù)集一為本研究收集的6個(gè)人對(duì)5組聲韻母相同但聲調(diào)不同的單個(gè)漢字的發(fā)音,共1 000條語音數(shù)據(jù),其中每5個(gè)相同聲韻結(jié)合體不同聲調(diào)的孤立漢字為一組,每組有180個(gè)訓(xùn)練發(fā)音,20個(gè)測(cè)試發(fā)音。5組數(shù)據(jù)分別為:

      1、ma1媽,ma2麻,ma3馬,ma4罵,ma5嗎;

      2、ya1壓,ya2牙,ya3雅,ya4訝,ya5呀;

      3、mo1摸,mo2磨,mo3抹,mo4末,mo5魹;

      4、zuo1作,zuo2昨,zuo3左,zuo4坐,zuo5咗;

      5、qi1七,qi2奇,qi3起,qi4氣,qi5啐。

      這5組數(shù)據(jù)中,第1組和第2組有著相同的韻母,不同的聲母,目的是驗(yàn)證聲母對(duì)聲調(diào)發(fā)音的影響;第1、3組數(shù)據(jù)有相同的聲母和不同的韻母,目的是驗(yàn)證韻母對(duì)聲調(diào)發(fā)音的影響。

      實(shí)驗(yàn)二所使用的語音數(shù)據(jù)集二為本研究收集的10個(gè)人對(duì)10句連續(xù)字的發(fā)音,共110條,其中100條訓(xùn)練發(fā)音,10條測(cè)試發(fā)音。10組訓(xùn)練數(shù)據(jù)為:

      1、慢man4慢man4喜xi3歡huan1你ni3;

      2、我wo3在zai4雨yü3中zhong1漫man4步bu4;

      3、我wo3在zai4洗xi3衣yi1服fu5;

      4、再zai4見jian4;

      5、我wo3在zai4做zuo4作zuo4業(yè)ye4;

      6、我wo3在zai4做zuo4手shou3工gung1;7、作zuo4息xi1時(shí)shi2間jian1;

      8、小xiao3荷he2才cai2露lu4尖jian1尖jian1角jiao3;

      9、保bao3持chi2沉chen2默mo4;10、藍(lán)lan2色se4墨mo4水shui3。

      這10組數(shù)據(jù)中,第1組和第2組有相同發(fā)音的“慢”和“漫”,第2、3、4、5、6組有相同發(fā)音的“在”和“再”,第1、3組有相同發(fā)音的“喜”和“洗”,第5、6、7組有相同發(fā)音的“做”和“作”,第9、10組有相同發(fā)音的“默”和“墨”,這幾組數(shù)據(jù)可以用來驗(yàn)證字轉(zhuǎn)移概率對(duì)同音字識(shí)別的作用。

      2.2 實(shí)驗(yàn)過程

      第一步:統(tǒng)計(jì)實(shí)驗(yàn)數(shù)據(jù)中的漢字,編輯語法文件,實(shí)驗(yàn)一中的語法規(guī)則是多選一,然后通過HTK命令將語法文件轉(zhuǎn)換成可供計(jì)算機(jī)識(shí)別的“詞網(wǎng)文件”;實(shí)驗(yàn)二中的語法規(guī)則是多選多,然后建立兩個(gè)“詞網(wǎng)文件”,分別是HTK命令自動(dòng)生成的無字轉(zhuǎn)移概率的詞網(wǎng)文件wnet1和添加了字轉(zhuǎn)移概率的詞網(wǎng)文件wnet2。

      第二步:提取供訓(xùn)練的漢字語音文件的梅爾倒譜系數(shù),轉(zhuǎn)化成為特征矢量文件。

      第三步:結(jié)合實(shí)驗(yàn)數(shù)據(jù)構(gòu)建兩個(gè)字典。字典一直接使用HTK命令生成,由漢字和音素組成,不含音調(diào)信息;字典二是在字典一的基礎(chǔ)上添加聲調(diào)信息,將聲調(diào)與每個(gè)字的最后一個(gè)音素相結(jié)合,生成含有音調(diào)的字典。

      第四步:構(gòu)建音素和音素-聲調(diào)兩個(gè)列表。音素表只包含音素,而音素-聲調(diào)表在音素表的基礎(chǔ)上加入聲調(diào)信息,在每個(gè)元音后加上聲調(diào),聲母不變。

      第五步:構(gòu)建基于音素的隱馬爾科夫模型HMM1和基于音素-聲調(diào)的隱馬爾科夫模型HMM2,HMM1和HMM2都被迭代訓(xùn)練了7次。

      第六步:實(shí)驗(yàn)一和實(shí)驗(yàn)二分別使用了語音數(shù)據(jù)集一和語音數(shù)據(jù)集二,對(duì)比了無聲調(diào)模型HMM1和有聲調(diào)模型HMM2對(duì)近音字和同音字的識(shí)別效果。

      2.3 實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)中正確率(Correct,α)定義如式(6),準(zhǔn)確率(Accuracy,β)定義如式(7),其中N表示語音轉(zhuǎn)譯文件中的標(biāo)簽總數(shù),D表示刪除錯(cuò)誤的數(shù)量,S表示替換錯(cuò)誤的數(shù)量,I插入錯(cuò)誤的數(shù)量[13]。

      從實(shí)驗(yàn)一的結(jié)果(見表2)中可以看出,在識(shí)別孤立漢字時(shí),聲調(diào)模型對(duì)近音字識(shí)別結(jié)果的影響很大。無聲調(diào)模型的識(shí)別結(jié)果均是詞網(wǎng)中的第一個(gè)漢字,所以只有20%的正確性;而有聲調(diào)模型基本可以有效的識(shí)別聲韻母相同但聲調(diào)不同的漢字,但是仍然有些錯(cuò)誤。從圖7中可以看出,一聲比較容易被識(shí)別成二聲,輕聲容易被識(shí)別為四聲,其原因是一聲和二聲均以平聲結(jié)尾,輕聲和四聲均有些短促,所以容易被混淆。

      表2 孤立字識(shí)別的正確率和準(zhǔn)確率比較Tab.2 Comparison of correct rate and accuracy of isolated word recognition %

      圖7 有音調(diào)模型識(shí)別結(jié)果錯(cuò)誤對(duì)比Fig.7 Errors comparison of tonal model recognition

      從實(shí)驗(yàn)二2次測(cè)試結(jié)果的正確率和準(zhǔn)確率的比較結(jié)果(見表3)中可以看出,在連續(xù)漢語語音識(shí)別中,聲調(diào)信息與字轉(zhuǎn)移概率結(jié)合使用對(duì)同音字識(shí)別結(jié)果影響很大。在相同數(shù)據(jù)下,有字轉(zhuǎn)移概率的識(shí)別正確率比沒有字轉(zhuǎn)移概率的正確率提升了20%左右,準(zhǔn)確率也提升了30%左右。在沒有字轉(zhuǎn)移概率的識(shí)別中,系統(tǒng)會(huì)默認(rèn)選擇詞網(wǎng)中第一個(gè)出現(xiàn)相同發(fā)音的字,在添加字轉(zhuǎn)移概率后,系統(tǒng)會(huì)通過計(jì)算概率選擇概率最大的字,因此正確率會(huì)提升。

      表3 連續(xù)語音識(shí)別正確率和準(zhǔn)確率比較Tab.3 Comparison of correct rate and accuracy of continuous speech recognition %

      3 結(jié) 語

      將漢語中的聲調(diào)信息和字間轉(zhuǎn)移概率引入基于GMM-HMM的語音識(shí)別系統(tǒng),通過改造語音模型和語言模型,提高近音字和同音字的識(shí)別率。但仍然存在,比如輕聲和四聲的誤判;連續(xù)語音中的三聲容易出現(xiàn)插入錯(cuò)誤等問題,預(yù)期解決這些問題能夠進(jìn)一步提高系統(tǒng)的識(shí)別率。

      猜你喜歡
      同音字音素聲調(diào)
      新目標(biāo)英語七年級(jí)(上)Starter Units 1-3 STEP BY STEP 隨堂通
      聲調(diào)符號(hào)位置歌
      同音字與多音字練習(xí)
      面向語音合成的藏語同音字研究*
      西藏科技(2022年3期)2022-04-22 09:17:20
      聲調(diào)歌
      依托繪本課程,培養(yǎng)學(xué)生英語音素意識(shí)
      小學(xué)英語課堂中音素意識(shí)與自然拼讀整合訓(xùn)練的探索
      坐著轎車學(xué)聲調(diào)
      單韻母扛聲調(diào)
      同音字 我會(huì)分
      404 Not Found

      404 Not Found


      nginx
      九龙坡区| 崇左市| 蓝田县| 太仓市| 金寨县| 疏附县| 张掖市| 利辛县| 绥滨县| 云霄县| 民丰县| 调兵山市| 淅川县| 康平县| 炎陵县| 长宁县| 葵青区| 丰镇市| 广德县| 乐昌市| 会理县| 和静县| 伊川县| 来宾市| 黄平县| 潞西市| 三亚市| 西林县| 彝良县| 郸城县| 尤溪县| 绥化市| 嘉定区| 东光县| 叶城县| 砀山县| 连江县| 沧州市| 伊金霍洛旗| 海门市| 平原县|