• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于改進(jìn)的DTW算法的變電站巡檢機(jī)器人語(yǔ)音識(shí)別的實(shí)現(xiàn)

      2014-03-06 07:11:36谷志偉李漢峰
      機(jī)電信息 2014年6期
      關(guān)鍵詞:端點(diǎn)語(yǔ)音變電站

      谷志偉 李漢峰

      (廣西電網(wǎng)公司欽州供電局,廣西 欽州535000)

      0 引言

      語(yǔ)音識(shí)別起始于20世紀(jì)50年代。隨著研究的深入和相關(guān)學(xué)科的發(fā)展,語(yǔ)音識(shí)別技術(shù)逐步從實(shí)驗(yàn)室走向了現(xiàn)實(shí)應(yīng)用。語(yǔ)言是人類交流的主要方式,而使機(jī)器能夠聽懂人類的語(yǔ)音,是當(dāng)前的研究熱點(diǎn)和難點(diǎn)。語(yǔ)音識(shí)別是通過(guò)一定的技術(shù)將語(yǔ)音信號(hào)轉(zhuǎn)化為相應(yīng)文本的技術(shù)[1-2]。語(yǔ)音識(shí)別主要包含3個(gè)主要部分:特征提取、算法匹配和模型訓(xùn)練。圖1為語(yǔ)音識(shí)別的實(shí)現(xiàn)過(guò)程。

      圖1 語(yǔ)音識(shí)別過(guò)程

      變電站巡檢機(jī)器人目前已經(jīng)在國(guó)內(nèi)推廣和應(yīng)用,為維護(hù)變電站的安全穩(wěn)定運(yùn)行做出了卓越貢獻(xiàn)。但是當(dāng)前機(jī)器人的控制指令由主控室的后臺(tái)程序下達(dá),工作人員無(wú)法在設(shè)備區(qū)直接操作機(jī)器人或者查詢狀態(tài)信息,并且后臺(tái)程序的專業(yè)性較強(qiáng),操作人員需經(jīng)嚴(yán)格的培訓(xùn)來(lái)熟悉后臺(tái)程序,操作路徑相對(duì)復(fù)雜。語(yǔ)言作為人類特有的功能,不但是相互傳遞信息的主要手段,也是人們最理想的人機(jī)交互方式之一[3]。使用語(yǔ)音控制巡檢機(jī)器人進(jìn)行常規(guī)操作、查詢相關(guān)信息,相對(duì)于后臺(tái)操作更加簡(jiǎn)便,操作人員只要掌握相關(guān)指令,就能進(jìn)行常規(guī)操作,方便機(jī)器人的日常應(yīng)用和維護(hù)。變電站巡檢機(jī)器人平臺(tái)上搭建語(yǔ)音識(shí)別功能后,利用語(yǔ)音識(shí)別技術(shù)還可以協(xié)助變電站的無(wú)人值守,實(shí)現(xiàn)變電站的智能化和自動(dòng)化管理。

      本文的變電站機(jī)器人語(yǔ)音識(shí)別是基于改進(jìn)的DTW算法,主要應(yīng)用語(yǔ)音識(shí)別算法來(lái)進(jìn)行人機(jī)交流,使機(jī)器人能夠聽懂經(jīng)過(guò)訓(xùn)練的口頭命令,并能夠按照命令進(jìn)行相應(yīng)的動(dòng)作。主要實(shí)現(xiàn)過(guò)程是:外部語(yǔ)音命令通過(guò)巡檢機(jī)器人攜帶的拾音器或無(wú)線話筒進(jìn)行聲音采集并傳送到系統(tǒng)內(nèi)部,采集到的語(yǔ)音信號(hào)經(jīng)過(guò)語(yǔ)音識(shí)別算法得到特征參數(shù),進(jìn)而識(shí)別出語(yǔ)音命令。

      1 語(yǔ)音控制命令特征提取

      1.1 Mel頻率倒譜

      人耳對(duì)不同頻率的語(yǔ)音具有不同的感知能力,這是一種非線性的關(guān)系[4]。結(jié)合人耳的生理結(jié)構(gòu),運(yùn)用對(duì)數(shù)關(guān)系來(lái)模擬人耳對(duì)不同頻率語(yǔ)音的感知特性,Davies和Mermelstein于1980年提出了Mel頻率(MFCC)的概念。Mel頻率與實(shí)際頻率的具體關(guān)系如式(1)所示。人耳的聽覺(jué)特性與 Mel頻率的增長(zhǎng)一致。與實(shí)際頻率在1000Hz以下呈現(xiàn)線性分布,1000Hz以上呈現(xiàn)對(duì)數(shù)增長(zhǎng)[5]。

      MFCC是利用上述這種關(guān)系,計(jì)算出Hz頻率的頻譜特征。目前,MFCC已經(jīng)成為語(yǔ)音識(shí)別的主流算法,并且Mel頻率與Hz頻率之間存在著非線性的對(duì)應(yīng)關(guān)系,使得在頻率提高時(shí)MFCC計(jì)算精度下降。這就是現(xiàn)實(shí)中僅適用低頻的MFCC而舍棄高頻MFCC的原因。MFCC處理過(guò)程流程圖如圖2所示,計(jì)算MFCC參數(shù)主要有以下步驟:

      (1)預(yù)加重:使信號(hào)的頻譜變得平坦;

      (2)分幀:根據(jù)語(yǔ)音的短時(shí)平穩(wěn)特性,語(yǔ)音以幀為單位進(jìn)行處理;

      (3)加窗:窗函數(shù)處理后可以減小吉布斯效應(yīng)的影響;

      (4)快速傅立葉變換(Fast Fourier Transformation,F(xiàn)FT):將時(shí)域信號(hào)轉(zhuǎn)化為頻域的頻譜;

      (5)加三角窗濾波:濾波處理進(jìn)而來(lái)模擬人耳的掩蔽效應(yīng);

      (6)對(duì)數(shù)處理;

      (7)離 散 余 弦 變 換 (Discrete Cosine Transformation,DCT):去除信號(hào)的相關(guān)性并進(jìn)行降維處理;

      (8)參數(shù)差分:提高系統(tǒng)識(shí)別性能。

      圖2 MFCC過(guò)程圖(傅立葉變換)

      1.2 端點(diǎn)檢測(cè)

      采集到語(yǔ)音信號(hào)后,在進(jìn)行分析時(shí)還需進(jìn)行相關(guān)的預(yù)處理操作,目的是為了得到真實(shí)的語(yǔ)音信號(hào)。分析真實(shí)有效的語(yǔ)音信號(hào)才能使識(shí)別結(jié)果的可信度增強(qiáng),否則識(shí)別結(jié)果的可信度會(huì)受到質(zhì)疑。由于種種原因,采集到的待處理語(yǔ)音信號(hào)往往夾雜著噪聲,這些噪聲會(huì)扭曲語(yǔ)音的原本特征。因此,要進(jìn)行語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)。

      如今比較常見的端點(diǎn)檢測(cè)有短時(shí)能量和短時(shí)過(guò)零率。單純的短時(shí)能量或短時(shí)過(guò)零率不能夠準(zhǔn)確地檢測(cè)出語(yǔ)音信號(hào)。因此,本文采用短時(shí)能量和短時(shí)過(guò)零率相結(jié)合的方法進(jìn)行端點(diǎn)檢測(cè),來(lái)提取有效的語(yǔ)音信號(hào),稱為雙門限端點(diǎn)檢測(cè)。

      1.2.1 短時(shí)能量

      某一語(yǔ)音時(shí)域信號(hào)為x,分幀后,第n幀信號(hào)為xn(m),則xn(m)的短時(shí)能量用En表示,計(jì)算公式如式(2)所示:

      式中,N為幀長(zhǎng)。

      由此可見,En可以衡量信號(hào)幅度值的變化。然而,對(duì)于高電平來(lái)說(shuō),En比較敏感。為了減少敏感度,采用短時(shí)平均幅度函數(shù) Mn,如式(3)所示:

      其中,Mn也能表示語(yǔ)音信號(hào)能量大小,并且不會(huì)由于En的二次方造成較大反差[6-7]。

      1.2.2 短時(shí)過(guò)零率

      短時(shí)過(guò)零率是每幀語(yǔ)音信號(hào)穿過(guò)橫軸(零電平)的次數(shù)。對(duì)連續(xù)信號(hào)來(lái)說(shuō),“過(guò)零”即信號(hào)通過(guò)時(shí)間軸;而對(duì)于離散信號(hào)來(lái)說(shuō),若相鄰的采樣值符號(hào)改變則可認(rèn)為信號(hào)穿過(guò)了橫軸,即“過(guò)零”。短時(shí)過(guò)零率就是樣本改變符號(hào)的次數(shù)。第n幀語(yǔ)音信號(hào)xn(m)(m∈[0,N-1],N 為幀長(zhǎng))的過(guò)零率如式(4)所示:

      本文在使用短時(shí)過(guò)零率時(shí),需要判斷前后2個(gè)采樣值的符號(hào)和2個(gè)采樣值的差值,如果前后2個(gè)采樣值符號(hào)不同并且差值大于設(shè)定的閾值,則認(rèn)為短時(shí)過(guò)零率有意義。

      判斷信號(hào)是有效的語(yǔ)音段還是靜音段時(shí),首先要對(duì)數(shù)據(jù)的短時(shí)能量和過(guò)零率進(jìn)行分析。首先為短時(shí)能量和過(guò)零率分別設(shè)定一個(gè)閾值,若當(dāng)前數(shù)據(jù)的短時(shí)能量和過(guò)零率2個(gè)參數(shù)中,有一個(gè)超過(guò)相應(yīng)閾值,則認(rèn)為進(jìn)入了語(yǔ)音段,并從這一段數(shù)據(jù)開始記錄;在對(duì)之后的采樣數(shù)據(jù)的檢測(cè)過(guò)程中,當(dāng)發(fā)現(xiàn)2個(gè)參數(shù)的數(shù)值都回落到閾值以下之后,則認(rèn)為當(dāng)前語(yǔ)音段結(jié)束,并停止記錄數(shù)據(jù)。

      2 模式匹配識(shí)別

      動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)是語(yǔ)音識(shí)別中經(jīng)典的算法之一[8]。在小詞匯表孤立詞識(shí)別時(shí)與HMM算法性能相同[9]。由于HMM算法復(fù)雜、訓(xùn)練過(guò)程繁瑣,而DTW算法簡(jiǎn)單又有效,使得DTW算法在特定場(chǎng)合下的應(yīng)用范圍超過(guò)了HMM算法。

      端點(diǎn)檢測(cè)即確定語(yǔ)音的起始點(diǎn)和終結(jié)點(diǎn)貫穿于DTW算法始終。模板庫(kù)中的各個(gè)語(yǔ)音信號(hào)稱為參考模板,表示為R={R(1),R(2),…,R(m),…,R(M)},其中,m為參考模板語(yǔ)音信號(hào)的第m幀,m=1時(shí)表示語(yǔ)音幀開始,m=M時(shí)表示語(yǔ)音幀結(jié)束,即M模板語(yǔ)音的幀數(shù),并且R(m)為第m幀的特征向量。待識(shí)別的語(yǔ)音信號(hào)稱為測(cè)試模板,表示為T={T(1),T(2),…,T(n),…,T(N)},n表示測(cè)試語(yǔ)音信號(hào)的第n幀,n=1時(shí)表示語(yǔ)音信號(hào)第一幀,n=N時(shí)表示語(yǔ)音最后一幀,即N為待識(shí)別語(yǔ)音的幀數(shù),T(n)為第n幀的語(yǔ)音特征向量。為了比較它們之間的相似情況,可以計(jì)算它們之間的歐式距離,即D[T,R],距離越小代表2個(gè)信號(hào)的相似度越高。

      傳統(tǒng)的DTW算法對(duì)路徑有一定的局限性,即在匹配過(guò)程中限定彎折率的變化區(qū)間為[0.5,2],因此很多點(diǎn)是達(dá)不到的。為了防止搜索范圍的擴(kuò)大,可以對(duì)搜索范圍再加以限制[10]。在傳統(tǒng)的DTW算法中,需將測(cè)試模板中的每一幀與參考模板中的每一幀做相似度比較。即使將搜索路徑的彎折率進(jìn)行了限定,運(yùn)算量仍然很大,從而導(dǎo)致識(shí)別時(shí)間增加。

      本文中,改進(jìn)的算法搜索區(qū)域如圖3所示。某個(gè)待識(shí)別的語(yǔ)音,在樣本庫(kù)中匹配成功時(shí)的最佳路徑應(yīng)該靠近圖3中矩形MBNE的對(duì)角線BE。因此,可以在對(duì)角線附近做上下限的限制,即在多邊形ABCDEF中計(jì)算測(cè)試幀與參考幀之間的相似度。其中,直線AF和直線CD方程如式(6)(7)所示,C為直線偏移對(duì)角線BE的程度,可以利用實(shí)驗(yàn)樣本來(lái)確定C的取值。

      圖3 DTW算法搜索區(qū)域

      3 實(shí)驗(yàn)及其結(jié)果分析

      為了驗(yàn)證算法的性能,本文設(shè)計(jì)了語(yǔ)音識(shí)別實(shí)驗(yàn)。在matlab7.0下對(duì)改進(jìn)的算法進(jìn)行測(cè)試,設(shè)計(jì)了仿真實(shí)驗(yàn)。在實(shí)驗(yàn)中,使用MFCC倒譜系數(shù)作為樣本數(shù)據(jù)的特征,歐式距離作為相似度,距離越小相似度越高。

      使用變電站巡檢機(jī)器人錄制了以下基本控制命令:前進(jìn)、后退、向左轉(zhuǎn)彎、向右轉(zhuǎn)彎、溫度查詢、濕度查詢、天氣查詢、一鍵返回。將這些機(jī)器人控制指令作為測(cè)試樣本,來(lái)測(cè)試算法的性能。

      針對(duì)采集的樣本進(jìn)行分析,訓(xùn)練和識(shí)別過(guò)程圖如圖4所示。其中,實(shí)線框中為訓(xùn)練部分,虛線框中為識(shí)別部分。

      圖4 語(yǔ)音處理過(guò)程圖

      實(shí)驗(yàn)過(guò)程中,本文算法步驟為:

      Step1:樣本采集,組建樣本庫(kù);

      Step2:樣本預(yù)處理;

      Step3:MFCC特征提??;

      Step4:構(gòu)建數(shù)學(xué)模型;

      Step5:DTW算法識(shí)別,輸出識(shí)別結(jié)果。

      圖5所示是語(yǔ)音“一鍵返回”的雙門限端點(diǎn)檢測(cè)結(jié)果,其中,圖中第一行為原始信號(hào),第二行為短時(shí)能量,第三行為短時(shí)過(guò)零率。從圖中可以看出,語(yǔ)音段正確地提取出來(lái)了,這為后續(xù)特征提取提供了保障。表1是算法性能的對(duì)比情況。

      圖5 雙門限端點(diǎn)檢測(cè)

      表1 算法性能對(duì)比

      從實(shí)驗(yàn)結(jié)果看出,在非特定人語(yǔ)音識(shí)別系統(tǒng)中,與現(xiàn)有的DTW算法相比,本文的算法不論是在時(shí)間上還是系統(tǒng)識(shí)別率上都要優(yōu)于現(xiàn)有算法。本文的算法由于提高了系統(tǒng)的運(yùn)行速度和準(zhǔn)確率,可以應(yīng)用在變電站機(jī)器人上,并且能夠很好地滿足對(duì)變電站巡檢機(jī)器人的實(shí)時(shí)控制。

      4 結(jié)論

      本文使用改進(jìn)的DTW算法,提取語(yǔ)音信號(hào)的MFCC特征,實(shí)現(xiàn)了語(yǔ)音識(shí)別。實(shí)驗(yàn)結(jié)果表明,該算法識(shí)別時(shí)間短,正確率高,算法性能穩(wěn)定,魯棒性強(qiáng)。將該算法應(yīng)用在變電站巡檢機(jī)器人上,能夠做到實(shí)時(shí)控制巡檢機(jī)器人的運(yùn)動(dòng)。通過(guò)人機(jī)交互方式,對(duì)機(jī)器人下發(fā)相關(guān)語(yǔ)音指令,讓機(jī)器人完成對(duì)應(yīng)指令的操作,這種人機(jī)交互方式簡(jiǎn)化了工作人員的工作流程,提高了工作人員的工作效率,真正做到了“說(shuō)什么做什么”的效果。該算法的實(shí)現(xiàn)不但增加了變電站機(jī)器人的功能,還推進(jìn)了變電站智能化管理的步伐,完全滿足該智能變電站推進(jìn)無(wú)人值守的自動(dòng)檢測(cè)識(shí)別要求。

      [1]李書貞,施玉霞.基于語(yǔ)音指令的遠(yuǎn)程控制機(jī)器人系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].微電腦應(yīng)用,2008(11)

      [2]胡亞洲,王新民,曹江濤.基于改進(jìn)DTW的機(jī)器人語(yǔ)音指令識(shí)別系統(tǒng)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(7)

      [3]李麟.家用機(jī)器人語(yǔ)音識(shí)別及人機(jī)交互系統(tǒng)的研究[D].哈爾濱工業(yè)大學(xué),2007

      [4]韓一,王國(guó)胤,楊勇.基于 MFCC的語(yǔ)音情感識(shí)別[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2008(5)

      [5]張晶,范明,馮文全,等.基于MFCC參數(shù)的說(shuō)話人特征提取算法的改進(jìn)[J].電聲技術(shù),2009(9)

      [6]趙力.語(yǔ)音信號(hào)處理[M].第2版.機(jī)械工業(yè)出版社,2009

      [7]呂霄云,王宏霞.基于MFCC和短時(shí)能量混合的異常聲音識(shí)別算法[J].計(jì)算機(jī)應(yīng)用,2010(3)

      [8]胡金平,陳若珠,李戰(zhàn)明.語(yǔ)音識(shí)別中DTW改進(jìn)算法的研究[J].微型機(jī)及應(yīng)用,2011(3)

      [9]朱淑琴.語(yǔ)音識(shí)別系統(tǒng)關(guān)鍵技術(shù)研究[D].西安電子科技大學(xué),2004

      [10]朱淑琴,趙瑛.DTW語(yǔ)音識(shí)別算法研究與分析[J].微計(jì)算機(jī)信息,2012(5)

      猜你喜歡
      端點(diǎn)語(yǔ)音變電站
      非特征端點(diǎn)條件下PM函數(shù)的迭代根
      不等式求解過(guò)程中端點(diǎn)的確定
      魔力語(yǔ)音
      基于MATLAB的語(yǔ)音信號(hào)處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對(duì)方正在輸入……
      關(guān)于變電站五防閉鎖裝置的探討
      電子制作(2018年8期)2018-06-26 06:43:34
      超高壓變電站運(yùn)行管理模式探討
      電子制作(2017年8期)2017-06-05 09:36:15
      參數(shù)型Marcinkiewicz積分算子及其交換子的加權(quán)端點(diǎn)估計(jì)
      220kV戶外變電站接地網(wǎng)的實(shí)用設(shè)計(jì)
      晴隆县| 威宁| 莒南县| 锦州市| 涪陵区| 沐川县| 桑植县| 白山市| 阿瓦提县| 镶黄旗| 荥阳市| 永丰县| 鹿泉市| 阳朔县| 全南县| 灵台县| 隆昌县| 鲜城| 邯郸县| 法库县| 寿宁县| 东乌| 札达县| 乌鲁木齐县| 四川省| 浮山县| 杭州市| 左云县| 长泰县| 南安市| 融水| 中阳县| 武宁县| 广西| 宁化县| 望都县| 黑水县| 五指山市| 苏州市| 黄平县| 托克逊县|