歐陽志紅
摘 要
如同人與人之間的相互對話那樣,用語音對設(shè)備、機械等發(fā)出控制命令和信息,這不僅對于從事計算機的工作者,而且對于普通的人們,也曾是一個令人神往的夢想。近些年來,由于集成電路技術(shù)、數(shù)字信號處理技術(shù)和圖形識別等技術(shù)的不斷取得進展,語音識別技術(shù)也在長足地向前發(fā)展。如今,以聲音為輸入信號的自動控制系統(tǒng)已在不少場合開始得到應(yīng)用。
【關(guān)鍵詞】特點 方法 現(xiàn)狀 應(yīng)用
1 語音識別的優(yōu)點和方法
直接用語音作為輸入控制信號方法具有許多優(yōu)點:對人來說,作為最自然的輸入控制信號的手段,不必進行特殊的訓(xùn)練;信息的產(chǎn)生速度較快,一般為鍵盤輸入方法的2~4倍;操作者在用眼和手共同進行其它作業(yè)的同時能輸入信息;操作者能邊走動邊輸入信息;能遠(yuǎn)距離用電話輸入;可以省略鍵盤、發(fā)光字母讀出器等中間輸入設(shè)備;即使在某些緊急的場合,也能在轉(zhuǎn)瞬之間投入使用。
說明語音識別的方法,應(yīng)首先從語音的分析談起。語音大體上包含著兩種信息:即具有一定含義的信息和發(fā)音者固有的信息。前者的識別處理稱為:“狹義聲音識別”,而后者的識別處理則叫作“發(fā)言人辨認(rèn)”。
在聲音頻譜中,能量集中的頻帶稱為共振峰。共振峰頻率隨著發(fā)音者性別及其他條件的不同而變化。分析輸入的語音,找出其特征是語音識別的第一步。
識別輸入的語言是語音識別的下一步。對此在“單詞識別”和“單音識別”兩種方式。前者是在識別裝置內(nèi)設(shè)有以單詞為單位的模擬型詞匯標(biāo)準(zhǔn),進而選出與輸入語音最類似模式的方式。后者的方式是在識別裝置內(nèi)設(shè)有以此單詞低次的單音、音節(jié)為單位的模擬型標(biāo)準(zhǔn),將輸入的語音按單音的不同進行變換,再進行單詞的識別。
單詞(單間)與單詞(單音)之間是否有間隔,這是語音識別技術(shù)要考慮的一個重要問題。“離散話音”指的是在單詞間有200毫秒左右時間間隔的輸入方法。還有所謂“連續(xù)會話”方式,其作為識別對象的是多個單詞連續(xù)一氣講出的語句,相應(yīng)的識別處理將較復(fù)雜一些。
另外,講話人是否受到限制的問題,對語音識別裝置來說,在技術(shù)上和造價方面都是必須考慮的。所謂“特別指定說話人”識別,就是將識別對象的全部單詞,經(jīng)數(shù)次練習(xí)預(yù)先進行話音輸入,使之在裝置中存儲發(fā)音人個人所特有的單詞模式,使用時將輸入的語音與比單詞模式進行比較而加以識別的方式。這種方式以比較簡單的識別處理就能得到較高的識別率。還有“可更換發(fā)音人”的識別方式,它是預(yù)先用多人的語音信號瞬時值作成標(biāo)準(zhǔn)模式,這樣在更換了發(fā)音人、口音有所差異的情況下,識別裝置也能進行正確的識別。
語音識別的最高發(fā)展階段是識別人們以普通速度講的會話語言。眾所周知,一般人的會話中包含著無意義用語(口頭語),因此要一字一句地準(zhǔn)確識別人的普通會話語言是極難的。作為解決方法,產(chǎn)生了被稱之為“語音理解”的新概念:就是將輸入的語音中所包含的冗余信息(方言、單調(diào)等)進行引用,作為理解輸入信息內(nèi)容的近似方法,而不要求一定將輸入語音逐一正確地加以識別,這是與其它的語音識別方式根本不同的。采用此種識別方式的語音識別裝置作文章理解系統(tǒng),它在聲音打字機和口語自動翻譯等方面可得廣泛的應(yīng)用。
2 語音識別技術(shù)的現(xiàn)狀
按功能分類,語音識別裝置有數(shù)據(jù)輸入型、自然口語輸入型和發(fā)音人辨認(rèn)三種。
2.1 數(shù)據(jù)輸入型
語音識別裝置首先在美國開始實用并最早出現(xiàn)商用產(chǎn)品的,現(xiàn)在實用的語音識別主要采用的還是對專人的并基于以單詞為單位的離散信息的識別方式,識別率達(dá)99%以上,適用于識別語句較少而且在較肅靜的室內(nèi)場合使用。作為一般用戶為對象的(例如:旅客問詢)系統(tǒng),則要求使用“可更換發(fā)音人”方式的語音識別裝置。
2.2 自然口語輸入型
對于自然口語輸入型的語音識別,美國國防部作為ARPA計劃,進行了大量的研究工作。在日本也以電子技術(shù)綜合研究所為中心,作為圖形識別研究大型計劃的一環(huán)進行了研究。目前已有聲音打字機那樣的應(yīng)用。
2.3 發(fā)音人辨認(rèn)
“發(fā)音人辨認(rèn)”是語音識別最完善的方式。由于不同的發(fā)音人在發(fā)同一語音時,可以產(chǎn)生有顯著差別的聲學(xué)圖案,這種差別便體現(xiàn)了個人的特征。人的聽覺區(qū)別個人特征的能力是很強的。目前用電子設(shè)備辨認(rèn)發(fā)音人常用的簡便方法是:檢出語音基頻隨時間變化的圖形作為辨認(rèn)的依據(jù)。它的應(yīng)用前景是相當(dāng)廣泛的,比如用存儲某人的語音代替簽字(有人稱之為“聲紋”)進而利用電話等實現(xiàn)遠(yuǎn)距離的身分確認(rèn)將成可能。
3 語音識別在鐵路系統(tǒng)的應(yīng)用
語音識別裝置按應(yīng)用分類:有控制、指令型,利用電話(包括無線電話)型,OA(事務(wù)自動化)應(yīng)用型和“發(fā)音人辨認(rèn)”型等。
3.1 有控制、指令型
在控制、指令型的應(yīng)用方面,采用“專人”語音識別裝置可以進行選排調(diào)車進路、調(diào)車機車的無人駕駛、行包自動分揀等;采用“可更換發(fā)音人”的語音識別裝置可以實現(xiàn)自動售票、行包受理和列車緊急停車等。
3.2 利用電話(包括無線電話)型
在利用電話型的應(yīng)用方面,采用“專人”語音識別裝置可以進行在危險處所工作的機械操作(高空作業(yè)等)、火車司機的模擬訓(xùn)練和列車到發(fā)時刻通知等;采用“可更換發(fā)音人”的語音識別裝置可應(yīng)用于指定票(指定乘車日期和車次的車票)發(fā)售情況的問詢和預(yù)約及列車運行情況問詢。
3.3 OA(事務(wù)自動化)應(yīng)用型和“發(fā)音人辨認(rèn)”型
在OA型應(yīng)用方面,適用于編制口述程序、語音打字機、圖書及文獻的檢索等。
例如在車站上的調(diào)車作業(yè)中,以往是按照作為高度作業(yè)指揮者的調(diào)車員的指示,由扳道員(電氣集中車站是由信號樓的信號員)扳道岔來辦理進路的。若將站內(nèi)聯(lián)絡(luò)用的無線通信設(shè)備附加選路用的語音裝置,則可由調(diào)車員在站內(nèi)任意地點直接指揮進行調(diào)車作業(yè)。
再比如利用主意控制的電磁客票預(yù)售自動化系統(tǒng),在國外也已使用。這樣在一些預(yù)定將來也不設(shè)置“綠色窗口”(售票窗口)的沿線小站上,可通過聯(lián)機的形式向旅客發(fā)售指定票。站務(wù)員按旅客的要求,只要用電話以語音輸入的方式向售票中心站申請發(fā)售指定票,當(dāng)?shù)玫接芍行恼景l(fā)出的確有該指定票座席的話音應(yīng)答之后,站務(wù)員即可向旅客發(fā)售指定票。
語音識別技術(shù)作為一門成熟的技術(shù),已進入實用化階段,應(yīng)用范圍也越來越來廣泛,隨著電子技術(shù)的飛速發(fā)展,它的技術(shù)將越來越成熟,應(yīng)用領(lǐng)域也將不斷地擴大,從而更好的服務(wù)于各行各業(yè)。
參考文獻
[1]高新濤.語音識別技術(shù)的發(fā)展現(xiàn)狀及應(yīng)用前景[J].甘肅科技縱橫,2007.
[2]馬志欣.語音識別技術(shù)綜述[J].昌吉學(xué)院學(xué)報,2006.
作者單位
湖南化工職業(yè)技術(shù)學(xué)院 湖南省株洲市 412011endprint