孫林超 秦會(huì)斌 崔佳冬
摘 要:由于傳統(tǒng)人機(jī)交互大多使用鍵盤、鼠標(biāo)等交互方式,速度較慢,因此語音識(shí)別開始受到越來越多人的青睞。但語音識(shí)別也存在如擴(kuò)展性太差、可復(fù)制性不好造成單個(gè)產(chǎn)品價(jià)格過高、過于依賴外部條件導(dǎo)致對(duì)自身使用有所限制等問題。設(shè)計(jì)并實(shí)現(xiàn)一種基于本地的語音識(shí)別系統(tǒng),通過構(gòu)建抽象語法樹,實(shí)現(xiàn)語音控制操作。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)的離線識(shí)別準(zhǔn)確率可達(dá)70%以上,可以在局域網(wǎng)內(nèi)實(shí)現(xiàn)語音操作。
關(guān)鍵詞:語音識(shí)別;離線識(shí)別;XML文件;語法樹
DOI:10. 11907/rjdk. 192017 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類號(hào):TP319文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2019)009-0116-05
Design and Implementation of Offline Keyword Recognition Based on Windows
SUN Lin-chao,QIN Hui-bin,CUI Jia-dong
(Institute of Electron Devices & Application, Hangzhou Dianzi University,Hangzhou 310018, China)
Abstract:In view of the shortcomings of the keyboard and mouse interaction methods used in the traditional human-computer interaction mode, such as slow speed and easy travel, voice recognition is increasingly favored by everyone. Nowadays, there are different problems in the speech recognition, such as extremely poor expansion, poor reproducibility of individual products, and relatively limited dependence on external conditions. We have designed and implemented a local speech recognition system in which an abstract grammar tree is constructed to realize operation controlled by speech. The experimental results show that the accuracy of the design is over 70%, and the effective speech recognition is realized. By setting off-line keywords with good extensibility and reproducibility, we can achieve the independence of speech recognition and the desired voice operation in the LAN.
Key Words:speech recognition;offline recognition;XML file;grammar tree
0 引言
語言是人們最常使用的交流方式之一,因此語音識(shí)別技術(shù)也成為人們關(guān)注的焦點(diǎn)。語音識(shí)別是將語音信號(hào)轉(zhuǎn)化為機(jī)器可理解信號(hào)的技術(shù)[1],涉及概率論、人工智能、信號(hào)論等多學(xué)科知識(shí)。語音識(shí)別始于上世紀(jì)50年代,當(dāng)時(shí)主要實(shí)現(xiàn)了針對(duì)特定說話人的數(shù)字識(shí)別[2]以及對(duì)10個(gè)單音節(jié)詞的識(shí)別[3]。之后蘇聯(lián)學(xué)者Vintsyuk[4]以及日本的Itakura[5]、Sakoe[6]提出動(dòng)態(tài)時(shí)間規(guī)劃與線性預(yù)測(cè)編碼技術(shù),對(duì)于特定人與特定詞的語音識(shí)別取得了較好效果;1973年,美國的卡耐基梅隆大學(xué)和貝爾實(shí)驗(yàn)室等研究單位構(gòu)造了Harpy[7]等系統(tǒng),為之后語音識(shí)別技術(shù)的快速發(fā)展奠定了基礎(chǔ);進(jìn)入80年代后,語音識(shí)別技術(shù)進(jìn)入高速發(fā)展期,工具包HTK(Hidden Markov Toolkit)[8]等開源開發(fā)包與卡耐基梅隆大學(xué)搭建的SPHINX[9]的出現(xiàn)極大降低了語音識(shí)別技術(shù)的研究門檻,引發(fā)了語音識(shí)別技術(shù)新的研究熱潮;90年代之后,隨著技術(shù)的不斷進(jìn)步,尤其是新聲學(xué)模型[10]的出現(xiàn),例如線性動(dòng)態(tài)模型(Linear Dynamic Model,LDM)[11]、隱藏動(dòng)態(tài)模型(Hidden Dynamic Model,HDM)[12]等,語音識(shí)別技術(shù)開始從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用。近年來隨著運(yùn)算與存儲(chǔ)技術(shù)的不斷成熟,語音識(shí)別技術(shù)開始大規(guī)模商用,國內(nèi)外公司都紛紛推出自己的語音識(shí)別系統(tǒng),如國外的微軟和蘋果,國內(nèi)的百度、科大訊飛等公司,可以預(yù)見未來語音識(shí)別的商業(yè)應(yīng)用范圍將會(huì)更廣[13]。
語音識(shí)別一般分為3類:孤立詞語音識(shí)別、連續(xù)語音識(shí)別與關(guān)鍵詞語音識(shí)別[14]。用于語音識(shí)別的技術(shù)手段較多,主要分為基于語音芯片與基于云平臺(tái)語音接口兩種方法?;谡Z音芯片的方法利用微處理器芯片上的嵌入式系統(tǒng)實(shí)現(xiàn)語音識(shí)別,但是存儲(chǔ)容量有限,給以后的二次開發(fā)帶來了較大困難[15];基于云平臺(tái)語音接口的方法因?yàn)槠鋵⒄Z音片段存儲(chǔ)于云端,可節(jié)省本地內(nèi)存,降低二次開發(fā)難度,但是同樣存在因網(wǎng)絡(luò)不穩(wěn)定導(dǎo)致的問題,限制了其在部分局域網(wǎng)內(nèi)的語音識(shí)別應(yīng)用。
因此,針對(duì)以上問題,本文設(shè)計(jì)了基于Windows操作系統(tǒng)的離線關(guān)鍵詞識(shí)別軟件,可解決因存儲(chǔ)容量有限造成二次開發(fā)難度較高,以及網(wǎng)絡(luò)通信不暢時(shí)語音識(shí)別效果差等問題,同時(shí)充分考慮對(duì)語音要素的識(shí)別,在關(guān)鍵詞設(shè)置上充分考慮關(guān)鍵詞的通用識(shí)別性,以提高離線識(shí)別率。
1 語音識(shí)別基本流程與應(yīng)用場(chǎng)景設(shè)計(jì)
1.1 語音識(shí)別基本流程
語音識(shí)別(SR)的本質(zhì)是將輸入的音頻流信號(hào)借助訓(xùn)練好的聲學(xué)模型轉(zhuǎn)變?yōu)槲谋拘畔⒌倪^程。該過程是一個(gè)搜索匹配過程,對(duì)存儲(chǔ)空間與系統(tǒng)計(jì)算能力有一定要求,也可以看成一個(gè)前端(Client)和后端(Server)的處理與通訊過程。語音識(shí)別基本流程如圖1所示。
前端過程為:將獲取到的錄音按照訓(xùn)練的聲學(xué)模型進(jìn)行切片處理,然后從每個(gè)單獨(dú)切片中獲取可能表示某個(gè)字詞的發(fā)音單元,然后將其轉(zhuǎn)換成該音頻信號(hào)中表示的數(shù)值。所以麥克風(fēng)采樣率越高,對(duì)錄音的識(shí)別也越準(zhǔn)確。
從技術(shù)層面上看,語音識(shí)別的后端處理更像是一個(gè)專門的搜索引擎,其接收前端產(chǎn)生的輸出并搜索3個(gè)數(shù)據(jù)庫:聲學(xué)模型、詞典及語言模型[16]。主要分為3部分:①聲學(xué)模型可以訓(xùn)練識(shí)別特定用戶的語音模式與聲學(xué)環(huán)境特征;②詞典列出該語言中的大量單詞,并提供每個(gè)單詞如何發(fā)音的信息;③語言模型表示單詞組合方式。
對(duì)于任意給定的聲音片段,語音識(shí)別質(zhì)量取決于搜索改進(jìn)情況,以消除不良匹配,并選擇更可能的匹配。無論是處理聲音還是搜索模型,在很大程度上都取決于語言與聲學(xué)模型質(zhì)量及其算法的有效性。
雖然識(shí)別器的內(nèi)置語言模型旨在表示綜合語言域(如英語口語),但語音應(yīng)用程序通常僅需處理對(duì)該應(yīng)用程序具有特定語義的某些語言。 應(yīng)用程序不應(yīng)使用通用語言模型,而應(yīng)使用限制識(shí)別的語法,以僅偵聽對(duì)應(yīng)用程序有意義的語音。該方式具有以下優(yōu)點(diǎn):①提高識(shí)別準(zhǔn)確性;②保證所有識(shí)別結(jié)果對(duì)應(yīng)用程序都有意義;③使識(shí)別引擎能夠識(shí)別文本中固有的語義值。
1.2 離線關(guān)鍵詞語音識(shí)別設(shè)計(jì)應(yīng)用場(chǎng)景
現(xiàn)有網(wǎng)絡(luò)系統(tǒng)主要分為兩類:廣域網(wǎng)與局域網(wǎng)。廣域網(wǎng)網(wǎng)絡(luò)連接外網(wǎng)系統(tǒng),優(yōu)點(diǎn)是易于擴(kuò)展、系統(tǒng)處理能力強(qiáng),但缺點(diǎn)是其嚴(yán)重依賴外網(wǎng),如果外網(wǎng)出現(xiàn)問題,整個(gè)系統(tǒng)則難以運(yùn)行,而且連接外網(wǎng)也會(huì)帶來一定安全風(fēng)險(xiǎn);局域網(wǎng)不連接外網(wǎng),在處理能力上不如廣域網(wǎng)系統(tǒng),但不會(huì)面臨外網(wǎng)攻擊的危險(xiǎn),因此在使用過程中可靠性較高。廣域網(wǎng)系統(tǒng)與局域網(wǎng)系統(tǒng)分別如圖2、圖3所示。
對(duì)于語音識(shí)別開發(fā)而言,語音識(shí)別分為在線識(shí)別與離線識(shí)別兩類。因?yàn)樵诰€語音識(shí)別的主要識(shí)別過程位于云服務(wù)器上,所以在線語音識(shí)別又稱為云語音識(shí)別。由于云服務(wù)器強(qiáng)大的存儲(chǔ)與計(jì)算能力[17],在線語音識(shí)別方法對(duì)長(zhǎng)語音的識(shí)別準(zhǔn)確率較高,但其缺點(diǎn)也很明顯,由于廣域網(wǎng)系統(tǒng)嚴(yán)重依賴于網(wǎng)絡(luò)連接,可能會(huì)產(chǎn)生網(wǎng)絡(luò)延遲等問題。在一些特殊場(chǎng)景下,如在局域網(wǎng)內(nèi)或外網(wǎng)連接環(huán)境較差時(shí),則要考慮采用離線語音識(shí)別方法。離線語音識(shí)別受限于系統(tǒng)自身?xiàng)l件,識(shí)別語句相對(duì)較短,準(zhǔn)確率也較低,但其相對(duì)在線語音識(shí)別更加穩(wěn)定可靠。
語音識(shí)別本質(zhì)上是一個(gè)搜索匹配過程,離線語音識(shí)別要提高匹配準(zhǔn)確率,需要在開發(fā)前為想要識(shí)別的語音設(shè)計(jì)專門的語法結(jié)構(gòu),以提高語音識(shí)別度。離線語音識(shí)別通過注冊(cè)特定詞匯,實(shí)現(xiàn)對(duì)特定聲紋的識(shí)別[18],比較適合于命令型場(chǎng)景,例如打開瀏覽器等。對(duì)于大型、復(fù)雜的軟件,由于交互界面按鈕較多,操作十分繁瑣,導(dǎo)致用戶體驗(yàn)不佳,因此可以設(shè)定命令詞,在說出需要的關(guān)鍵詞后即可直接跳轉(zhuǎn)到對(duì)應(yīng)頁面,并完成相應(yīng)功能。
1.3 離線關(guān)鍵詞語音識(shí)別設(shè)計(jì)與實(shí)現(xiàn)
本設(shè)計(jì)是基于微軟的Windows系統(tǒng)平臺(tái)實(shí)現(xiàn)的,可將復(fù)雜的控制操作轉(zhuǎn)變?yōu)楹?jiǎn)單的語音命令,并實(shí)現(xiàn)離線情況下對(duì)命令詞的識(shí)別,以及對(duì)語音命令的文本輸出。具體包括以下幾個(gè)步驟:①設(shè)計(jì)語音識(shí)別具體流程;②對(duì)關(guān)鍵的語法樹構(gòu)建原則進(jìn)行分析;③設(shè)置測(cè)試用例;④性能測(cè)試;⑤總結(jié)。
2 語音識(shí)別具體流程
對(duì)于Windows系統(tǒng)而言,語音應(yīng)用程序需要VC++ Runtime Library和.Net Framework 4兩個(gè)運(yùn)行時(shí)庫,本質(zhì)是構(gòu)建基于SR與語音轉(zhuǎn)換(TTS)引擎上語音識(shí)別API(即SAPI)的語音應(yīng)用程序。在Windows系統(tǒng)底層原理中,將SAPI Runtime作為提供語音技術(shù)支持(SR和TTS)的服務(wù)器,而每一個(gè)Application相當(dāng)于訪問服務(wù)器接口的客戶端,因此需要安裝相關(guān)類庫。SPAI體系結(jié)構(gòu)如圖4所示。
對(duì)于通用的語言識(shí)別有通用語言模型,但本文不使用通用語言模型,而使用限制識(shí)別的語法,以僅偵聽對(duì)應(yīng)用程序有意義的語音。
在開發(fā)過程中主要遵循以下流程:①初始化語音識(shí)別器;②創(chuàng)建要識(shí)別的內(nèi)建語法;③將創(chuàng)建的語法載入語音識(shí)別器;④注冊(cè)語音識(shí)別事件;⑤為注冊(cè)的語音識(shí)別事件創(chuàng)建對(duì)應(yīng)處理程序。主要代碼如下:
首先需要設(shè)置相關(guān)的語音識(shí)別引擎。因?yàn)檎Z音識(shí)別引擎只能根據(jù)具體某個(gè)國家、地區(qū)文化的語法、詞匯表、發(fā)音、意群等進(jìn)行識(shí)別,所以當(dāng)設(shè)置識(shí)別時(shí),第一步需要指定要識(shí)別的國家語言發(fā)音庫、語法詞法結(jié)構(gòu)等。例如設(shè)置識(shí)別的語言信息是中文,之后為音頻輸入添加相關(guān)配置,并添加系統(tǒng)音頻采樣設(shè)備參數(shù)。如麥克風(fēng)采樣參數(shù)需要設(shè)置采樣率在8 000Hz 以上,一般設(shè)置為 16kHz ,可確保音頻信號(hào)不失真。采樣率是指 A/D 轉(zhuǎn)換過程中單位時(shí)間內(nèi)的采樣次數(shù),采樣頻率越高,則信號(hào)失真越小,對(duì)語音信號(hào)的識(shí)別越準(zhǔn)確;麥克風(fēng)聲道數(shù)一般設(shè)置簡(jiǎn)單的單聲道即可,但為了應(yīng)用于嘈雜的環(huán)境中,本文使用雙聲道,因?yàn)殡p聲道降噪效果更好[19];位深度是指單次采樣精度,深度越深則精度越高。其它參數(shù)包括:語句間隔停頓時(shí)間、是否使用喚醒詞觸發(fā)等。
然后創(chuàng)建并加載語音識(shí)別語法,這也是其中最重要的。對(duì)于智能語音識(shí)別,需要充分考慮用戶可能表達(dá)的多種詞組,然后結(jié)合語音開發(fā)規(guī)范構(gòu)建語法樹與詞典,以確保盡可能地識(shí)別含義相近的輸入。主要在SRGS xml文件中自定義語法,例如將以打開瀏覽器為目的的語法設(shè)置為“打開瀏覽器”,之后將語法文件載入程序中,作為語音識(shí)別分析與對(duì)比的對(duì)象;接下來注冊(cè)并添加識(shí)別之后的處理程序,以決定識(shí)別后的結(jié)果如何輸出,是以靜態(tài)文本形式輸出,還是以彈框形式輸出;識(shí)別完成后,最后卸載語法、關(guān)閉音頻輸入接口、卸載語音識(shí)別引擎,完成一次語音識(shí)別過程。具體流程如圖5所示。
3 語法樹構(gòu)建原則
在執(zhí)行識(shí)別任務(wù)時(shí),語音識(shí)別引擎將識(shí)別結(jié)果返回到語音應(yīng)用,包括語音輸入的語義信息,以及識(shí)別的單詞和短語文本。識(shí)別結(jié)果中包含的語義信息對(duì)于應(yīng)用程序而言通常比識(shí)別的文本更具有意義。通過編寫語義內(nèi)容,以及從識(shí)別結(jié)果中檢索語義代碼,為應(yīng)用程序提供可操作的信息。
語音識(shí)別語法由結(jié)構(gòu)化的規(guī)則列表組成,該規(guī)則列表是語音識(shí)別引擎應(yīng)嘗試在語音輸入中識(shí)別的單詞或短語。語法規(guī)則可以識(shí)別簡(jiǎn)單的單字命令,例如“打開”或“打印”,以及更復(fù)雜的句子結(jié)構(gòu),例如“我想預(yù)訂從廣州飛往上海的航班,下周二出發(fā)”。語法通常定義有限的詞匯表,其關(guān)注于用戶希望完成的特定任務(wù)或任務(wù)集上。
語法必須定義適用于特定情況的結(jié)構(gòu)化邏輯語音語句。同時(shí),語法必須足夠靈活,以包容語音輸入的細(xì)微變化,以實(shí)現(xiàn)更為自然的說話風(fēng)格,提供更好的用戶體驗(yàn)。以咖啡訂購為例:①“一會(huì)兒我想要一個(gè)拿鐵咖啡”;②“你可以給我一杯咖啡嗎?謝謝”。
上述語言語法,包括主謂賓的陳述表達(dá)形式、祈使句形式和禮貌用語的提問形式等。但事實(shí)上,一家咖啡店絕不僅只有拿鐵咖啡一種類型,可能還包含卡布奇諾等其它種類咖啡,因而還涉及到選擇。又例如:①“我打開電燈”;②“我打開空調(diào)”;③“你關(guān)閉電燈”;④“你關(guān)閉空調(diào)”。
該陳述句也涉及到選擇,如圖6所示。
當(dāng)選擇結(jié)構(gòu)出現(xiàn)時(shí),每個(gè)語法結(jié)構(gòu)中的語法單元(主語、謂語、賓語)都是一種新狀態(tài)的開始,選擇結(jié)束后則會(huì)轉(zhuǎn)至下一狀態(tài),語音識(shí)別應(yīng)能很好地應(yīng)對(duì)具體用語范圍內(nèi)表達(dá)相同含義的不同語法結(jié)構(gòu)與同義詞組選擇。
4 抽象語法實(shí)現(xiàn)
因用例識(shí)別以實(shí)現(xiàn)命令為主,而不需要考慮主語是誰,所以根據(jù)語法樹構(gòu)建原則,只需考慮謂語及賓語變化。用例主要分為以下幾類命令:①控制類命令,如 “打開”、“關(guān)閉”;②改變屬性類命令,如“增大”、“減小”。這些命令的作用對(duì)象主要根據(jù)具體命令類型進(jìn)行確定,例如:①具體設(shè)備。如:“電燈”、“空調(diào)”、“攝像頭”;②具體屬性。不同設(shè)備有不同屬性,例如:“亮度”之于“電燈”,“溫度”之于“空調(diào)”。
但用戶使用時(shí),又會(huì)存在不同表達(dá)方式,例如:①“打開電燈”和“把電燈打開”;②“電燈”的同義詞組,如“電燈”、“燈”、“智能燈”等,“打開”的同義詞組,如“開”、“打開”、“開啟”等。
因此,將語音識(shí)別核心處理邏輯分為兩部分:①語法構(gòu)建;②注冊(cè)的語音識(shí)別程序處理業(yè)務(wù)邏輯。
語法構(gòu)建調(diào)用CreateGrammar()函數(shù),使用基于靜態(tài)的SrgsDocument文檔加載方法,因?yàn)樵摲椒梢酝ㄟ^替換生成的靜態(tài)SrgsDocument文檔,有效應(yīng)對(duì)語料庫不斷變更(如刪減或擴(kuò)充)的情況,并且無需重新編譯整個(gè)語音程序。
調(diào)用CreateGrammar()函數(shù)后,則在內(nèi)存中創(chuàng)建了語法樹。調(diào)用GenerateGrammar(srgsDoc)函數(shù)后,便通過DOM技術(shù)將內(nèi)存中的語法樹寫入類xml風(fēng)格文件中,并編譯生成性能更好、體積更小,但不易擴(kuò)展與維護(hù)的擴(kuò)展名為 ? ? ?“.cfg”的二進(jìn)制語法樹格式文件。不論是裝載類xml風(fēng)格的語法樹文件,還是裝載類xml風(fēng)格編譯后生成的二進(jìn)制語法樹格式文件,語音識(shí)別引擎都能識(shí)別出構(gòu)建的語料庫,區(qū)別僅在于:①“.cfg”文件需要通過編譯“.xml”生成;②替換與裝載“.xml”文件,或者“.cfg”文件。
5 系統(tǒng)性能測(cè)試
為了驗(yàn)證開發(fā)的語音識(shí)別系統(tǒng)是否可以較為準(zhǔn)確地識(shí)別出預(yù)定義的語音指令,下面進(jìn)行語音測(cè)試實(shí)驗(yàn)。測(cè)試環(huán)境選擇較為安靜的大學(xué)教室,試驗(yàn)設(shè)備如表1所示。選擇A、B、C 3人分別讀出“打開電燈”、“打開空調(diào)”、“關(guān)閉電燈”、“關(guān)上電燈”,每人平均讀100次,然后統(tǒng)計(jì)成功率。
其中,“打開電燈”的成功率為71%,“打開空調(diào)”的成功率為72.3%,雖然低于在線識(shí)別方法90%的成功率,但仍達(dá)到了比較滿意的效果[20]。對(duì)比表4、表5可以看出,在相同環(huán)境下,針對(duì)3人語音的平均識(shí)別率因命令詞不同而有很大差別,一個(gè)高達(dá)71.7%,一個(gè)只有34%。其中的主要差別是“閉”與“上”,雖然語義目的相同,但是語音語調(diào)不同[21]?!吧稀敝邪寺N舌與后鼻音,有些地方方言較重,無法區(qū)分前鼻音和后鼻音或者翹平舌,有些地方方言較輕則讀音較準(zhǔn)。但“關(guān)上”動(dòng)作在系統(tǒng)操作中是不可或缺的,所以設(shè)計(jì)命令詞時(shí),需要回避一些難以識(shí)別的詞,以增強(qiáng)系統(tǒng)可靠性。
6 結(jié)語
本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于Windows的關(guān)鍵詞離線語音識(shí)別系統(tǒng),可根據(jù)實(shí)際應(yīng)用需要設(shè)置控制詞,方法較為簡(jiǎn)單,在語音識(shí)別中不需要花費(fèi)大量時(shí)間與精力設(shè)計(jì)聲學(xué)模型,且不依賴于網(wǎng)絡(luò)連接。經(jīng)過測(cè)試,該方法可以有效識(shí)別出文本結(jié)果,且成功率較高。由于實(shí)驗(yàn)條件的限制,本設(shè)計(jì)還有許多需要改進(jìn)的地方,例如對(duì)一些長(zhǎng)句識(shí)別的靈活性尚有待提高,并且需要進(jìn)一步實(shí)現(xiàn)與移動(dòng)端的結(jié)合。
參考文獻(xiàn):
[1] 詹新明,黃南山,楊燦. 語音識(shí)別技術(shù)研究進(jìn)展[J]. 現(xiàn)代計(jì)算機(jī):專業(yè)版,2008(9):43-45,50
[2] DAVIS K H,BIDDULPH R,BALASHEK S. Automatic recognition of spoken digits[J]. The Journal of the Acoustical Society of America, 2005, 24(7):669.
[3] OLSON H F,BELAR H. Phonetic typewriter[J]. IRE Transactions on Audio, 1957, 5(4):90-95.
[4] VINTSYUK T K. Speech discrimination by dynamic programming[J]. ?Cybernetics, 1968, 4(1):52-57.
[5] ITAKURA F. Minimum prediction residual principle applied to speech recognition[J]. IEEE Trans. Acoust. Speech Signal Process,1975.
[6] SAKOE H,CHIBA S. Dynamic programming algorithm optimization for spoken word recognition[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing,1978, 26(1):43-49.
[7] LOWERRE B. THE harpy speech understanding system[M]. Readings in Speech Recognition, 1990:576-586.
[8] AL-QATAB B A Q,AINON R N. Arabic speech recognition using hidden Markov model toolkit(HTK)[C]. Information Technology (ITSim), 2010 International Symposium in. IEEE, 2010.
[9] LEE K F,HON H W,REDDY R. ?An overview of the SPHINX speech recognition system[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1990, 38(1):35-45.
[10] 劉聰. 聲學(xué)模型區(qū)分性訓(xùn)練及其在LVCSR系統(tǒng)的應(yīng)用[D]. 合肥:中國科學(xué)技術(shù)大學(xué), 2010.
[11] FRANKEL J F J,KING S K S. Speech recognition using linear dynamic models[J]. IEEE Transactions on Audio Speech and Lanuage Processing,2007,15(1):246-256.
[12] DENG L. Dynamic speech models—theory, algorithms, and applications[J]. IEEE Transactions on Neural Networks,2009,20(3):545-546.
[13] 孫晶,凌云峰. 語音識(shí)別系統(tǒng)技術(shù)及市場(chǎng)前景探析[J]. ?科技資訊,2011(20):1.
[14] 張帥林. 基于HMM的關(guān)鍵詞語音識(shí)別技術(shù)在智能家居中的應(yīng)用研究[D]. 蘭州:蘭州交通大學(xué),2017.
[15] 陳哲. 智能家居語音控制系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 成都:電子科技大學(xué),2013.
[16] 馬志欣,王宏,李鑫. 語音識(shí)別技術(shù)綜述[J]. 昌吉學(xué)院學(xué)報(bào),2006(3):93-97.
[17] 吳吉義,平玲娣,潘雪增,等. 云計(jì)算:從概念到平臺(tái)[J]. 電信科學(xué),2009,25(12):1-11.
[18] 鄭方. 聲紋識(shí)別技術(shù)及其應(yīng)用現(xiàn)狀[J]. 信息安全研究,2016,2(1):44-57.
[19] 李曉雪. 基于麥克風(fēng)陣列的語音增強(qiáng)與識(shí)別研究[D]. 杭州:浙江大學(xué),2010.
[20] 茍鵬程. 基于Android的語音識(shí)別設(shè)計(jì)及應(yīng)用[D]. 天津:天津大學(xué),2017.
[21] 李如龍.論漢語方言語音的演變[J]. 語言研究,1999(1):102-113.
(責(zé)任編輯:黃 ?。?/p>