• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于卷積神經(jīng)網(wǎng)絡(luò)的苗語孤立詞語音識別

      2022-03-07 06:57:48張學(xué)文馮夫健李學(xué)林
      軟件導(dǎo)刊 2022年2期
      關(guān)鍵詞:苗語語料庫語音

      張學(xué)文,王 林,馮夫健,譚 棉,李學(xué)林

      (1.貴州民族大學(xué)數(shù)據(jù)科學(xué)與信息工程學(xué)院;2.貴州省模式識別與智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,貴州貴陽 550025)

      0 引言

      語音識別技術(shù)在漢語、英語和一些常用少數(shù)民族語言(藏語、蒙語、維爾吾語)中已有一定研究基礎(chǔ),但關(guān)于低資源、無文字的少數(shù)民族語言(苗語、普米語、佤語、白語)的語音識別研究成果較少。在歷史上,苗語只有語言,沒有通用文字,其語言和文化僅通過口授相傳,相關(guān)文字資料留存有限,且受其他常用語言的影響,使用苗語交流的人越來越少,導(dǎo)致苗族的語言文化正逐漸走向消亡。為了更好地傳承和保護(hù)苗族語言文化,苗語語音語料庫的構(gòu)建和語音識別逐漸成為相關(guān)學(xué)者的研究重點(diǎn)。

      1 相關(guān)研究

      早期語音識別方法主要基于動(dòng)態(tài)時(shí)間規(guī)整算法(Dynamic Time Warping,DTW)和隱馬爾可夫模型(Hidden Markov Model,HMM)實(shí)現(xiàn)。例如,徐利軍采用DTW算法和放寬起始點(diǎn)的DTW算法對孤立詞語音識別進(jìn)行研究,發(fā)現(xiàn)相較于原始DTW算法,放寬起始點(diǎn)的DTW算法能有效降低噪聲干擾,但語音識別率改善不明顯;易雪蓉等利用HMM 模型對聲調(diào)語音模型進(jìn)行研究,通過改造語音模型和語言模型提高近音字和同音字的識別率,但對輕聲和四聲詞識別效果不理想。

      傳統(tǒng)模型在小詞匯識別方面取得了良好效果,但針對大量詞匯、非特定人語音的識別效果有待提升。近年來,深度學(xué)習(xí)技術(shù)在語音識別方面受到廣大研究者的青睞。例如,Sundermeyer等將前饋神經(jīng)網(wǎng)絡(luò)(Feed Forward Deep Neural Network,F(xiàn)DNN)和遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)引入聲學(xué)模型中,在法語語音識別任務(wù)中,RNN 的效果優(yōu)于FDNN,但需進(jìn)一步改進(jìn)最佳列表的解碼;Naing 等以深度神經(jīng)網(wǎng)絡(luò)—隱馬爾科夫混合模型(DNN-HMM)為網(wǎng)絡(luò)框架,設(shè)計(jì)了一種自動(dòng)噪聲檢測前端技術(shù)對孤立詞進(jìn)行識別,其在高噪聲條件下的識別率高于梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC);李云紅等提出一種結(jié)合深度玻爾茲曼機(jī)(Deep Boltzmann Machine,DBM)的DNN-HMM 語音識別方法,在詞錯(cuò)率和句錯(cuò)率方面比傳統(tǒng)DNN-HMM 模型均有所下降;Ashar等將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)與MFCC 特征相結(jié)合,其對存在背景噪音的說話人識別精度達(dá)87.5%,但該方法的計(jì)算復(fù)雜度較高;Shetty 等將Transformer 框架引入語音識別系統(tǒng)中,其對低資源語言識別任務(wù)的識別效果優(yōu)于RNN 模型;Li 等改進(jìn)了語音識別系統(tǒng)中的RNN-T 模型,相較于類似尺寸的混合模型,該模型能有效降低識別錯(cuò)誤率。

      在少數(shù)民族語言語音識別研究中,韓清華等采用HMM 模型對安多藏語非特定人孤立詞語音識別進(jìn)行了研究,但僅針對小量詞匯進(jìn)行了識別,且識別效果有待提高;Pan 等提出一種基于動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(Dynamic Bayesian Network,DBN)的算法對藏語語音進(jìn)行識別,相較于傳統(tǒng)的HMM 識別算法,該算法提高了抗噪聲的識別能力,但需要設(shè)計(jì)適合大量詞匯和連續(xù)語音識別的DBN 識別模型;Li等對基于機(jī)器學(xué)習(xí)的孤立詞識別算法進(jìn)行研究,通過提取不同特征向量,在不同分類器下提高了詞語音識別的準(zhǔn)確性;Hu 等利用混合單元進(jìn)行語言建模,通過引入插值LM 提高模型的識別性能,降低對維吾爾族語言語音識別的錯(cuò)詞率。目前,關(guān)于苗語數(shù)據(jù)收集、發(fā)音特點(diǎn)等已有一定研究,但在語音識別方面研究成果較為欠缺。例如,李一如對黔東苗語的比較結(jié)構(gòu)進(jìn)行了分析;李學(xué)林等對貴州省中部苗語音素邊界檢測方法進(jìn)行了研究,實(shí)現(xiàn)了音素邊界的劃分,但需要對音素進(jìn)行人工標(biāo)注;楊建菊等基于HMM 對苗語連續(xù)語音識別系統(tǒng)進(jìn)行初步設(shè)計(jì)和識別測試,但語音識別系統(tǒng)規(guī)模較小、復(fù)雜度較低。

      由于苗語存在文字缺失、地域差異等問題,采用現(xiàn)有語音識別方法難以直接對其進(jìn)行識別。為此,本文以漢語拼音為媒介標(biāo)注苗語語音,構(gòu)建包含常用字詞句的苗語語音語料庫,引入CNN 建立苗語孤立詞匯識別模型;然后以自建苗語語音語料庫的數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集驗(yàn)證該模型對同地域和不同地域苗語孤立詞語音識別的有效性,檢驗(yàn)具有地域差異的苗語孤立詞語音對模型識別效果的影響。

      2 語音語料庫構(gòu)建

      語音語料庫是語音識別研究的基礎(chǔ)。苗語文本語料庫需要借助漢字拼音或國際音標(biāo)進(jìn)行語音標(biāo)注。苗語雖然沒有通用文字,但多數(shù)語法結(jié)構(gòu)與漢語相似。因此,苗語語料庫的構(gòu)建需要參考漢語、英語及其他少數(shù)民族語言語料庫的構(gòu)建方法,語料選取要盡可能覆蓋苗語語言內(nèi)容,根據(jù)苗語的發(fā)音特點(diǎn)及語法結(jié)構(gòu)構(gòu)建相對完備的苗語語音語料庫,為苗語語音識別研究提供數(shù)據(jù)基礎(chǔ)。

      2.1 苗語聲韻母、聲調(diào)特點(diǎn)

      貴州中部苗語是基于聲韻母、聲調(diào)組合發(fā)音,本文參考貴州大學(xué)出版社出版的《苗族語文讀本》中所列苗語聲韻母及聲調(diào)標(biāo)注方法對苗語語料庫進(jìn)行標(biāo)注,苗語聲母、韻母、聲調(diào)如表1 所示。

      Table 1 Initial consonants,vowels and tone of Hmong language表1 苗語聲母、韻母、聲調(diào)

      2.2 苗語語料庫構(gòu)建

      本文建立的苗語語音語料庫主要參考小學(xué)語文課本、貴州普通話考試測試題以及《苗族語文讀本》內(nèi)容進(jìn)行錄制采集,語料應(yīng)充分展示中部苗語聲母、韻母、聲調(diào)的特點(diǎn)。選取具有代表性的字詞句進(jìn)行錄制,語料庫包含苗語的100個(gè)常用字、800個(gè)常用詞和100個(gè)常用語句。采用單聲道麥克風(fēng)在安靜環(huán)境下進(jìn)行語音錄制,采樣頻率為44 000Hz,保存格式為WAV。語料庫構(gòu)建包含苗語語音資源采集、語音數(shù)據(jù)預(yù)處理、語音標(biāo)注和存儲4個(gè)步驟,具體如圖1 所示。

      Fig.1 Construction flow of Hmong language corpus圖1 苗語語料庫構(gòu)建流程

      3 苗語孤立詞識別模型

      首先提取苗語語音的MFCC,以MFCC 特征作為語音識別網(wǎng)絡(luò)的輸入訓(xùn)練模型,并采用測試數(shù)據(jù)對模型進(jìn)行測試。苗語孤立詞的識別流程如圖2 所示。

      Fig.2 Identification process of isolated words in Hmong language圖2 苗語孤立詞識別流程

      3.1 MFCC 特征提取

      MFCC 是語音識別研究領(lǐng)域常用的語音特征,是在Mel標(biāo)度頻率域提取出來的倒譜參數(shù),其與頻率的關(guān)系可表示為:

      式中,

      f

      為頻率,單位為

      H

      z。

      在cnn-24 文件夾下有一個(gè)命名為“get-mfcc.py”的代碼,其功能為提取語音的MFCC 特征參數(shù)。MFCC 特征提取的過程為:

      (1)讀取語音WAV 文件,獲取語音波形和采樣率;

      (2)對波型進(jìn)行快速傅里葉變換,對特征參數(shù)進(jìn)行歸一化處理,歸一化處理方法表示為:

      式中,x 為原始語音特征值,

      μ

      為原始特征的均值,

      σ

      為標(biāo)準(zhǔn)差。

      (3)將二維特征參數(shù)(600,13)擴(kuò)充為三維數(shù)據(jù)(600,13,1),便于輸入CNN 中進(jìn)行訓(xùn)練。

      3.2 模型參數(shù)設(shè)置

      苗語孤立詞識別模型由4個(gè)卷積層、2個(gè)池化層、1個(gè)全連接層、1個(gè)Softmax 層組成。模型的輸入為提取的MFCC 特征,對輸入特征進(jìn)行卷積操作后,采用ReLU 激活函數(shù)對卷積核的輸出值進(jìn)行非線性變換,然后進(jìn)行最大池化操作。全連接層采用的激活函數(shù)為ReLU 函數(shù),采用dropout 方法解決訓(xùn)練模型過擬合問題,即在全連接層后添加dropout 層,參數(shù)值分別設(shè)為0.25、0.4,學(xué)習(xí)率設(shè)為0.000 1。苗語孤立詞的識別網(wǎng)絡(luò)框架如圖3 所示。模型參數(shù)設(shè)置如表2 所示。

      Fig.3 Recognition network frame of isolated words in Hmong language圖3 苗語孤立詞識別網(wǎng)絡(luò)框架

      Table 2 Model parameter settings表2 模型參數(shù)設(shè)置

      4 實(shí)驗(yàn)方法與結(jié)果分析

      4.1 實(shí)驗(yàn)數(shù)據(jù)

      選取苗語語料庫中24個(gè)常用苗語孤立詞匯作為實(shí)驗(yàn)數(shù)據(jù),分別為爸媽、吃飯、讀書、回家、今天、朋友、起床、睡覺、耳朵、早晚、中午、我們、家里、現(xiàn)在、說話、后面、明天、跑步、眼前、眼睛、走路、昨天。在實(shí)驗(yàn)數(shù)據(jù)集中創(chuàng)建24個(gè)語音文件夾,以漢語拼音的形式命名,將苗語語音存放于對應(yīng)的漢語拼音文件夾中。文件命名的數(shù)字代表漢字拼音的聲調(diào),例如“chifan14”代表“吃飯”這個(gè)詞的語音數(shù)據(jù),其中“14”代表吃飯兩個(gè)字的聲調(diào)。苗語語音詞匯對應(yīng)的漢語拼音標(biāo)注文件名如表3 所示。

      Table 3 Vocabulary checklist表3 詞匯對照

      采用write 函數(shù)對語音文本進(jìn)行定義,該函數(shù)可將語音樣本生成為.txt 格式。引入random 函數(shù)使生成的數(shù)據(jù)具有隨機(jī)性,該函數(shù)可將實(shí)驗(yàn)數(shù)據(jù)集中的數(shù)據(jù)順序打亂,然后將這些亂序的語音數(shù)據(jù)按照設(shè)定的比例隨機(jī)分為訓(xùn)練、驗(yàn)證、測試數(shù)據(jù)集,具體數(shù)據(jù)量如表4 所示。

      Table 4 Amount of training,verification and test data表4 訓(xùn)練、驗(yàn)證、測試數(shù)據(jù)量

      4.2 實(shí)驗(yàn)環(huán)境

      采用Adobe Audition 3.0 錄制苗語語音數(shù)據(jù)。實(shí)驗(yàn)在Windows10的64位系統(tǒng)上進(jìn)行,處理器為Intel(R)Core(TM)i7-7700 CPU@3.6Hz。以Keras 深度學(xué)習(xí)框架為基礎(chǔ),編程語言使用Python3.7。

      以詞匯識別準(zhǔn)確率為評價(jià)指標(biāo),當(dāng)輸入測試數(shù)據(jù)與輸出對應(yīng)標(biāo)簽相符時(shí),則表明該詞匯識別正確,反之識別錯(cuò)誤。詞匯識別準(zhǔn)確率表示為:

      式中,

      M

      表示苗語孤立詞識別正確個(gè)數(shù),

      N

      表示苗語孤立詞識別總數(shù)。

      4.3 實(shí)驗(yàn)結(jié)果與分析

      為驗(yàn)證本文模型的有效性和穩(wěn)定性,選取苗語語料庫中部分常用詞匯作為實(shí)驗(yàn)數(shù)據(jù),在24個(gè)常用詞匯組成的數(shù)據(jù)集上設(shè)置3 組不同的實(shí)驗(yàn),通過accuracy 和loss 曲線變化情況判斷模型的識別效果和收斂情況。

      首先,采用苗語孤立詞識別模型對同一地域的苗語語音進(jìn)行識別,結(jié)果如圖4 所示??梢钥闯?,對于同一地域的苗語語音,苗語孤立詞識別模型的訓(xùn)練精度與驗(yàn)證精度均大于95%,迭代40 次之后模型趨于平穩(wěn)。該模型能有效識別以漢語拼音標(biāo)注的苗語孤立詞。

      然后,采用苗語孤立詞識別模型對不同地域的苗語語音進(jìn)行識別,結(jié)果如圖5 所示??梢钥闯?,對于不同地域的苗語語音,苗語孤立詞識別模型的訓(xùn)練精度大于95%,驗(yàn)證精度小于95%,二者之間存在差距。該模型在訓(xùn)練和驗(yàn)證階段的loss 值也存在差距。

      Fig.4 Speech recognition effect in the same region圖4 同一地域語音識別效果

      Fig.5 Speech recognition effect in different regions圖5 不同地域語音識別效果

      最后,采用苗語孤立詞識別模型對同一地域和不同地域融合的苗語語音進(jìn)行識別,并打亂數(shù)據(jù)集的原始排序,以驗(yàn)證該模型識別組合地域語音的穩(wěn)定性,結(jié)果如圖6 所示??梢钥闯?,對于組合地域的苗語語音,苗語孤立詞識別模型的訓(xùn)練精度和驗(yàn)證精度比較接近,說明該模型對組合地域苗語語音識別具有穩(wěn)定性。

      Fig.6 Speech recognition effect in combined regions圖6 組合地域語音識別效果

      以上3 組實(shí)驗(yàn)的訓(xùn)練精度和測試精度具體數(shù)據(jù)如表5所示。可以看出,苗語孤立詞識別模型在同一地域語音上的識別準(zhǔn)確率達(dá)97%,在不同地域語音上的識別準(zhǔn)確率達(dá)94%,而將兩個(gè)數(shù)據(jù)集合并為一個(gè)數(shù)據(jù)集訓(xùn)練該模型時(shí),識別準(zhǔn)確率為95%。

      Table 5 Comparison of data of 3 groups of experiments表5 3 組實(shí)驗(yàn)數(shù)據(jù)比較

      由以上數(shù)據(jù)可知,苗語孤立詞識別模型能有效識別采用漢語拼音標(biāo)注的苗語語音,對同地域苗語語音的識別效果優(yōu)于不同地域苗語語音,說明該模型會受到地域差異的影響,泛化能力還有待提升。當(dāng)同一地域與不同地域語音合并為一個(gè)數(shù)據(jù)集訓(xùn)練模型時(shí),相較于不同地域語音識別,模型的識別效果略有提升,說明模型對組合地域的語音識別效果良好。

      5 結(jié)語

      針對苗語因無文字而難以直接進(jìn)行語音識別的問題,本文首先借助漢語拼音對苗語進(jìn)行語音標(biāo)注,構(gòu)建了包含苗語常用字詞句的語音語料庫;然后構(gòu)建基于CNN 的苗語孤立詞語音識別模型,對同地域、不同地域以及組合地域的苗語進(jìn)行識別。結(jié)果表明,該模型能有效識別出苗語孤立詞語料庫中同地域和不同地域的常用詞。然而,由于該模型受到苗語地域差異的影響,識別效果不夠穩(wěn)定。未來擬通過對苗語語料庫發(fā)音人、錄制內(nèi)容、錄音設(shè)備、錄音格式、存儲方式以及標(biāo)注方式等進(jìn)行規(guī)范化以完善語料庫構(gòu)建,利用苗語語音數(shù)據(jù)的多樣性提高模型的泛化能力。此外,還在此基礎(chǔ)上研究連續(xù)語音的自動(dòng)分割技術(shù),為苗語連續(xù)語音識別奠定基礎(chǔ),最終實(shí)現(xiàn)苗語與其他語言的互譯。

      猜你喜歡
      苗語語料庫語音
      苗語典型存在動(dòng)詞初探
      黔東南地區(qū)苗語的使用現(xiàn)狀及其保護(hù)傳承
      ——以凱里地區(qū)為例
      苗語漢語互譯工具設(shè)計(jì)與實(shí)現(xiàn)
      《語料庫翻譯文體學(xué)》評介
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      我打算這樣過寒假
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫
      永德县| 文昌市| 宣城市| 普兰县| 修水县| 静宁县| 盱眙县| 武宣县| 崇信县| 河池市| 北辰区| 昔阳县| 郎溪县| 凉山| 邢台市| 乌海市| 六安市| 庆云县| 安乡县| 涟源市| 安陆市| 济源市| 广饶县| 嵊泗县| 溧水县| 万荣县| 邵阳市| 上高县| 通河县| 嘉义县| 金堂县| 绥宁县| 宣武区| 乌拉特后旗| 搜索| 海南省| 眉山市| 湘西| 咸阳市| 龙里县| 包头市|