付維,劉冬,閔華松,2
(1.武漢科技大學(xué)冶金自動化及檢測技術(shù)教育部工程研究中心,武漢 430081;2.北京航空航天大學(xué))
付維(碩士研究生),主要研究方向?yàn)榍度胧较到y(tǒng)與應(yīng)用;劉冬(碩士研究生),主要研究方向?yàn)榍度胧较到y(tǒng)與應(yīng)用、機(jī)器人控制;閔華松(碩士研究生),主要研究方向?yàn)榍度胧较到y(tǒng)與SOPC、機(jī)器人網(wǎng)絡(luò)控制。
隨著現(xiàn)代科技和計(jì)算機(jī)技術(shù)的不斷發(fā)展,人們在與機(jī)器的信息交流中,需要一種更加方便、自然的交互方式,實(shí)現(xiàn)人機(jī)之間的語音交互,讓機(jī)器聽懂人話是人們夢寐以求的事情。語音識別技術(shù)的發(fā)展,使得這一理想得以實(shí)現(xiàn),把語音識別技術(shù)與機(jī)器人控制技術(shù)相結(jié)合,正成為目前研究的熱點(diǎn),不但具有較好的理論意義,而且有較大的實(shí)用價值。
語音識別技術(shù)應(yīng)用于機(jī)器人系統(tǒng)大多是針對特定的環(huán)境,設(shè)計(jì)出語音命令來進(jìn)行控制的。只需要對幾十個字或詞的命令行進(jìn)語音識別,便可使得原本需要手工操作的工作由語音輕松完成。本文針對現(xiàn)有機(jī)器人平臺,設(shè)計(jì)一個非特定人的孤立詞語音識別系統(tǒng)。
語音識別系統(tǒng)是一種模式識別系統(tǒng),系統(tǒng)首先對語音信號進(jìn)行分析,得到語音的特征參數(shù),然后對這些參數(shù)進(jìn)行處理,形成標(biāo)準(zhǔn)的模板。這個過程稱為訓(xùn)練或?qū)W習(xí)。當(dāng)有測試語音進(jìn)入系統(tǒng)時,系統(tǒng)將對這些語音信號進(jìn)行處理,然后進(jìn)行參考模板的匹配,得出結(jié)果。此時便完成了語音識別的過程。
目前,HMM作為語音信號的一種統(tǒng)計(jì)模型,是語音識別技術(shù)的主流建模方法,正在語音處理各個領(lǐng)域中獲得廣泛的應(yīng)用?,F(xiàn)在許多商用語音軟件,以及各種具有優(yōu)良性能的語音識別系統(tǒng),都是在此模型上開發(fā)的,已經(jīng)形成了完整的理論框架[1-2]。
基于HM M模式匹配算法的語音識別系統(tǒng)表現(xiàn)為:在訓(xùn)練階段,采用 HMM訓(xùn)練算法為每一個詞條建立一個HMM模型。詞條經(jīng)過反復(fù)訓(xùn)練后,將得到的對應(yīng)HMM模型加入HMM模型庫中以數(shù)據(jù)的形式保存。在匹配階段,也就是識別階段,采用HMM匹配算法將輸入的未知語音信號與訓(xùn)練階段得到的模型庫中的模型進(jìn)行匹配,輸出語音識別的結(jié)果[2]。
Julius是日本京都大學(xué)和日本IPA(Information-technology Promotion Agency)聯(lián)合開發(fā)的一個實(shí)用高效雙通道的大詞匯連續(xù)語音識別引擎。目前已經(jīng)能較好地應(yīng)用于日語和漢語的大詞匯量連續(xù)的語音識別系統(tǒng)。Julius由純C語言開發(fā),遵循 GPL開源協(xié)議,能夠運(yùn)行在 Linux、Windows、Mac OS X 、Solaris 以及其他Unix平臺。Julius最新的版本采用模塊化的設(shè)計(jì)思想,使得各功能模塊可以通過參數(shù)配置。
Julius的運(yùn)行需要一個語言模型和一個聲學(xué)模型。利用Julius,通過結(jié)合語言模型和聲學(xué)模型,可以很方便地建立一個語音識別系統(tǒng)。語言模型包括一個詞的發(fā)音字典和語法約束。Julius支持的語言模型包括:N-gram模型,以規(guī)則為基礎(chǔ)的語法和針對孤立詞識別的簡單單詞列表。聲學(xué)模型必須是以分詞為單位且由HMM定義的。
應(yīng)用程序可以有兩種方式與Julius交互:一種是基于套接字的服務(wù)器-客戶端通信方式,另一種是基于函數(shù)庫的嵌入方式。在這兩種情況下,只要識別過程結(jié)束,識別結(jié)果就被送入應(yīng)用程序中,應(yīng)用程序就能得到Julius引擎的現(xiàn)有狀態(tài)和統(tǒng)計(jì),并可以操作它[4]。Julius概述如圖1所示。
圖1 Julius概述圖
在語音識別的機(jī)器狗控制系統(tǒng)中Atom Z510為訓(xùn)練學(xué)習(xí)機(jī)大腦(1.1 GHz主頻的Intel Atom Z510嵌入式控制平臺),它主要完成語音識別的功能。PXA270控制器(Intel公司于2003年底推出的性能強(qiáng)勁的PXA27x系列嵌入式處理器,基于ARMv5E的XScale內(nèi)核,最高頻率可達(dá)624 MHz)作為機(jī)器狗本體上的核心智能控制器,接收Atom Z510識別后的結(jié)果,發(fā)出控制命令。AT-mega128控制器(Atmel公司的8位系列單片機(jī)中的一種,運(yùn)行頻率16 MHz)完成基于串行總線的數(shù)字舵機(jī)控制,完成對機(jī)器狗的前后腿以及尾巴等關(guān)節(jié)控制。機(jī)器狗硬件結(jié)構(gòu)平臺如圖2所示。
圖2 機(jī)器狗硬件結(jié)構(gòu)平臺
整個機(jī)器人系統(tǒng)包括3個模塊:Julius語音識別模塊、GUI人機(jī)界面、機(jī)器人控制模塊。Julius將識別的語音命令提交給GUI模塊,并在GUI上顯示;同時GUI將語音命令轉(zhuǎn)化為動作控制命令并發(fā)給機(jī)器人控制模塊;GUI還可以控制Julius的啟動和停止。其中機(jī)器人控制模塊主要在PXA270上,而語音識別和GUI是在Atom Z510上。系統(tǒng)軟件模型如圖3所示。
圖3 系統(tǒng)軟件結(jié)構(gòu)
一個完整的語音識別系統(tǒng)一般包括3部分:聲學(xué)模型、語言模型和識別器。在本系統(tǒng)中只建立基于控制命令(動詞)的識別語法,其他詞忽略,因此沒有構(gòu)建語言模型;識別器采用Julius開源平臺,此部分只用配置參數(shù)和相關(guān)文件。本文主要工作是聲學(xué)模型訓(xùn)練和語音識別系統(tǒng)構(gòu)建。
聲學(xué)模型是識別系統(tǒng)的底層模型,是語音識別系統(tǒng)中最關(guān)鍵的一部分,它是每個聲學(xué)單元的聲學(xué)模型參數(shù)集合。本系統(tǒng)的聲學(xué)模型是使用HTK對采集的語音庫進(jìn)行多次迭代訓(xùn)練后提取的,基于詞的聲學(xué)特征向量集。HTK(HMM Tools Kit)是由英國劍橋大學(xué)工程系的語音視覺和機(jī)器人技術(shù)工作組(Speech Vision and Robotics Group)開發(fā),專門用于建立和處理 HMM的實(shí)驗(yàn)工具包,主要應(yīng)用于語音識別領(lǐng)域,也可用于語音模型的測試和分析。其具體訓(xùn)練步驟如下:
(1)數(shù)據(jù)準(zhǔn)備
收集漢語標(biāo)準(zhǔn)普通話的語料庫,并將語料庫中的語音標(biāo)記,創(chuàng)建語音識別單元元素列表文件。
(2)特征提取
本系統(tǒng)采用MFCC進(jìn)行語音的特征參數(shù)提取,訓(xùn)練中將每一個語音文件用工具HCopy轉(zhuǎn)換成MFCC格式。
(3)HMM定義
圖4 HMM基本結(jié)構(gòu)
在訓(xùn)練HMM模型時要給出模型的初始框架,本系統(tǒng)中的HMM模型選擇同一個結(jié)構(gòu),如圖4所示。該模型包含4個活動狀態(tài){S2,S3,S4,S5},開始和結(jié)束(這里是S1,S6),是非發(fā)散狀態(tài)。觀察函數(shù)bi是帶對角矩陣的高斯分布,狀態(tài)的可能轉(zhuǎn)換由aij表示。
(4)HMM訓(xùn)練
本系統(tǒng)先使用HInit工具對HMM模型進(jìn)行初始化,再用HCompv工具來對模型進(jìn)行平坦初始化。HMM模型的每個狀態(tài)給定相同的平均向量和變化向量,在整個訓(xùn)練集上全局計(jì)算而得。最后用HRest的多次估計(jì)迭代,估計(jì)出HMM模型參數(shù)的最佳值,經(jīng)多次迭代,將訓(xùn)練得到的單個HMM模型整合到一個hmmsdef.mmf文件中。聲學(xué)模型HTK訓(xùn)練流程如圖5所示。
圖5 聲學(xué)模型HTK訓(xùn)練流程
3.2.1 Julius部署
在本系統(tǒng)中語音識別部分是部署在Atom Z510上,而Atom Z510上首先需要移植linux操作系統(tǒng)(本系統(tǒng)采用的是ubuntu8.10)以上步驟在此不詳細(xì)介紹,文獻(xiàn)[3]中有詳細(xì)說明。語音識別的核心部分是Julius識別器,需要將Julius源碼編譯部署到Atom Z510平臺。其步驟如下:
①要確保linux系統(tǒng)中有以下支持庫:Zlib、flex、OSS音頻驅(qū)動接口、ESounD和libsndfile。
②從Julius官網(wǎng)下載源代碼Julius-4.1.5。
③解壓:tar-zxjf julius-4.1.5。
④編譯:%./configure,%make,%make install。
3.2.2 Julius配置
Julius全部采用C語言代碼實(shí)現(xiàn),采用模塊化設(shè)計(jì)方式,而且各功能模塊可配置。在使用前需要將配置參數(shù)寫入jconf文件,此文件作為運(yùn)行參數(shù)載入系統(tǒng),系統(tǒng)掃描參數(shù)配置并啟動各功能塊。其中重點(diǎn)介紹以下幾個配置參數(shù):
◆-dfa rtdog.dfa,指定語法文件rtdog.dfa;
◆-v rtdog.dict,指定字典文件;
◆-h rtdog.binhmm,指定HMM 模型文件;
◆-lv 8000,設(shè)定音頻的閾值便于濾去噪音;
◆-rejectshort 600,設(shè)定最小的語音長度;
◆-input mic,設(shè)定語音的輸入方式為microphone。
3.3.1 GUI設(shè)計(jì)
本系統(tǒng)為了方便測試,采用QT4的圖形庫來開發(fā)人機(jī)界面(GUI),同時加入了手動控制的按鈕。其總體功能如圖6所示。通信線程是本系統(tǒng)的數(shù)據(jù)傳輸樞紐,十分重要。在QT中通過對線程類QThread繼承來實(shí)現(xiàn)新的線程設(shè)計(jì)。該類提供了創(chuàng)建一個新線程以及控制線程運(yùn)行的各種方法。線程是通過QThread::run()重載函數(shù)開始執(zhí)行的。在本系統(tǒng)中設(shè)計(jì)了1個數(shù)據(jù)通信線程,用它來不斷地讀取共享內(nèi)存中的語音命令,然后將其轉(zhuǎn)化為控制命令傳給機(jī)器人控制模塊。
圖7 模塊間通信流程
3.3.2 模塊間通信
由于系統(tǒng)的3個模塊不在同一個平臺上部署,運(yùn)行過程中需要進(jìn)行數(shù)據(jù)通信。GUI和Julius都部署在Atom Z510平臺上,但屬于2個進(jìn)程,它們之間可以通過共享內(nèi)存來交互數(shù)據(jù)。而GUI和機(jī)器人控制模塊就需要通過網(wǎng)絡(luò)通信來實(shí)現(xiàn)數(shù)據(jù)交互。這里采用的是基于 TCP的socket編程接口來實(shí)現(xiàn)模塊間的通信,模塊間通信流程如圖7所示。
演示系統(tǒng)界面如圖8所示。本文使用大量的語音樣本來完成HTK的訓(xùn)練和模式構(gòu)建,語音樣本采用16 kHz采樣,16位量化。獨(dú)立的語音識別測試中,將訓(xùn)練集以及測試集中語音樣本和識別結(jié)果進(jìn)行了對比分析。本文語音樣本的內(nèi)容包括訓(xùn)練集(語料庫中的語音成分)和測試集(本實(shí)驗(yàn)中采集的語音)。由于本系統(tǒng)只用提取語音命令,不需要完整句子的識別,所以沒有針對句子做測試。
圖8 圖形界面
本文對于訓(xùn)練集基于詞的識別率為71.7%,測試集基于詞的識別率為56.5%,測試結(jié)果如表1所列。
表1 測試結(jié)果表
表中各符號所表示的意義如下所示:
H,正確;S,替代錯誤;D,刪除錯誤;I,插入錯誤;N,標(biāo)記文件中單元總數(shù);SENT,句子,WORD:基本單元。
本文在給定的實(shí)驗(yàn)室機(jī)器人平臺上,設(shè)計(jì)了基于語音控制的機(jī)器狗系統(tǒng)。其中,語音識別子系統(tǒng)通過HTK和Julius的開源平臺構(gòu)建而成。經(jīng)過測試分析,該系統(tǒng)能夠較好地識別人發(fā)出的語音命令,簡化了機(jī)器人的操作,使機(jī)器與人的交互更加智能化。
[1]孫長斌.基于特定人的小詞匯量孤立詞語音識別[D].吉林:吉林大學(xué),2007.
[2]苗苗.基于HMM的語音識別技術(shù)的研究[D].西安:西安建筑科技大學(xué),2007.
[3]博創(chuàng)科技.UP-Atom510平臺Ubuntu實(shí)驗(yàn)指導(dǎo)書[M].2009.
[4]Akinobu Lee,Tatsuya Kawahara.Recent Development of Open-Source Speech Recognition Engine Julius[R].Nagoya Institute of Technology.Nagoya,2009.
[5]Yilu Zhang,Jurang weng.Autonomous Speech Acquisition of a Robot[C]//Proceedings of the IEEE International Workshop on Robot and Human Interactive communication.2001:524-529.
[6]Xiaoling Lv,Minglu Zhang,Hui Li.Robot Control Based on Voice Command[C]//Proceedings of the IEEE International Conference on Automation and Logistics,2008:2490-2494.