朱斌
【摘 要】隨著計算機硬件技術的飛速發(fā)展,計算機性能在不斷提高的同時功耗、體積在不斷減小,通過多年的技術研究模式識別的算法也在不斷走向精準,從而推動模式識別技術向實用化不斷進展。語音識別技術是模式識別技術中的一個分支,而語音合成技術與語音識別技術一起會帶給我們劃時代的交互方式,本文針對智能語音技術中的語音識別和語音和成技術進行了介紹,并從應用角度進行了分析。
【關鍵詞】智能語音技術;語音合成;語音識別;呼叫中心
一、智能語音技術簡介
智能語音技術的研究工作大約開始于上世紀50年代。智能語音技術主要分為兩個方面,一個是語音合成技術,一個是語音識別技術。目前國內比較著名的語音識別公司有科大訊飛等公司,國際上比較知名的公司有Google、微軟、IBM、NUANCE等
(一)語音識別技術
語音識別技術從其本身來講還有多個研究方向,如自動語音識別、聲紋識別和語種識別等多個方面,以下我們分別進行簡要介紹。
1.自動語音識別
自動語音識別(AutomaticSpeechRecognition簡稱"ASR")技術是一種將人的語音轉換為文本的技術,它的目標是讓計算機能夠“聽寫”出不同人所說出的連續(xù)語音,實現(xiàn)“聲音”到“文字”的轉換。它是一個多學科交叉的領域,與聲學、語音學、語言學、數(shù)字信號處理理論、信息論、計算機科學等學科緊密相連。
語音識別包括了語言模型訓練、聲學模型訓練、特征提取和搜索等過程,特征提取的主要任務是從輸入的語音信號中提取特征,用于聲學模型的建模以及解碼搜索過程,在提取特征前也要服務則對語音信號進行降噪處理,以提高系統(tǒng)魯棒性。在大詞匯量的連續(xù)語音識別中一般選用上下文相關的三音素聲學模型,對于語音庫難以覆蓋三音素的情況可以采用狀態(tài)聚類,綁定同類轉臺從而減少訓練狀態(tài)的總數(shù)目。目前統(tǒng)計語言模型已成為語言處理的主流技術,例如N-Gram語言模型、馬爾可夫N元模型、指數(shù)模型和決策樹模型。搜索算法中的解碼器是自動語音識別系統(tǒng)的核心模塊,其任務是對輸入的語音信號,在由語句或單詞序列構成的空間當中,按照一定的優(yōu)化準則,并且根據(jù)聲學和語言模型及詞典生成一個用于搜索的狀態(tài)空間,在該狀態(tài)空間中檢索到最優(yōu)狀態(tài)序列,即尋找能夠以最大概率輸出該信號的句子或者單詞序列。搜索算法按照搜索策略分類的有幀同步Viterbi算法和幀異步堆棧算法,按空間擴展分類有靜態(tài)擴展和動態(tài)擴展算法。
另外,其他的模式識別方法如基于人工神經(jīng)網(wǎng)絡對語音進行識別,其主要用來配合HMM以達到較高的性能。
2.聲紋識別
人類語言的產生是語言中樞與發(fā)音器官之間一個復雜的生理物理過程,人在講話時使用的發(fā)聲器官:舌、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個人的差異很大,所以任何兩個人的發(fā)聲特征都有差異。個體的聲學特征既有相對穩(wěn)定性,又有變異性,不是絕對的、一成不變的。這種變異可來自生理、病理、心理、模擬、偽裝,也與環(huán)境干擾有關。聲紋識別是一套利用人的個性語音特征對話語者進行區(qū)分的技術,它本身與說話內容無關,同時與語種也無關。
說話人識別過程包括了預處理、特征提取、分段聚類、識別分類和得分規(guī)整。預處理模塊用于去掉音頻流中的非語音成分,采用基于能量判斷去除靜音,基于模型分類去掉彩鈴。特征提取有助于說話人分類的樣本信息,主要技術采用Mel頻率倒譜系數(shù)(MFCC)和其長時移動差分變換。分段聚類切分話單中不同說話人段落,并將同一個人的片段聚合到一起,主要采用層次聚類技術(每次尋找最近的段落聚合。識別分類模塊通過學習注冊人樣本語音,對測試語音進行打分,主要技術包括高斯混合模型和支持向量機模型。得分規(guī)整模塊用于縮小冒認者的得分方差,盡量和目標人拉開距離主要技術包括T-規(guī)整和Z-規(guī)整。
3.語種識別
語音的自動語言辨識技術(Language Identification, LID)就是計算機能夠識別出語音段所屬的語言的過程。它是從語音信號中自動提取信息的幾個過程之一。
自動語言辨識同其他模式識別一樣,主要包括三個方面:特征提取、模型建立和判決規(guī)則。特征提取用到的技術有倒譜特征提取和短時和長時差分變。分類器模型包括支持向量機分類(SVM)和人工神經(jīng)網(wǎng)絡分類(NN)。另外還涉及了有效語音檢測(VAD)、譜規(guī)整和得分規(guī)整、線性鑒別分析(LDA)和信道因子分析(LFA)等魯棒技術。當前很多系統(tǒng)都通過線性和非線性融合來提高系統(tǒng)的準確率。
(二)語音合成技術
語音合成技術最為常見的就是TTS(Text to Speech,文本語音轉換)的應用,TTS最新的語音合成引擎(連接技術和合成算法的結合),其應用范圍非常廣,如文本的有聲校對、語音應答系統(tǒng)、信息庫查詢系統(tǒng)、殘疾人輔助發(fā)音系統(tǒng)等。
(三)應用分析
智能語音技術有相當廣泛的應用場景,不但在傳統(tǒng)呼叫中心有廣泛應用,隨著智能設備的不斷發(fā)展,它也逐步向這些領域開始進軍。
(四)人機交互
傳統(tǒng)人機交互都采用專用輸入設備,比如鍵盤、鼠標、手寫板、顯示器等,利用這些方式雖然可以滿足信息輸入和輸出,實現(xiàn)基本人機交互,但是針對越來越多的智能設備的出現(xiàn),傳統(tǒng)的輸入方式逐漸顯得力不從心。
通過語音合成技術,可以將信息通過聲音的方式與人進行交流,通過自動語音識別,不但可以完成文本輸入工作,還可以進行設備控制,從而實現(xiàn)更為簡便、有效的人機交互。人機交互可以應用于智能手機、智能家電、汽車控制、有聲校對、語音應答系統(tǒng)、信息庫查詢系統(tǒng)、殘疾人輔助發(fā)音等多個方面。
(五)身份確認
身份確認主要采用聲紋識別技術,其主要應用場景是確認說話人是否為特定人。聲紋識別技術已經(jīng)逐漸走向實際應用,很多公司都根據(jù)這項技術應用到業(yè)務系統(tǒng),比如AT&T應用聲紋識別技術研制出的智慧卡(Smart Card),將其應用于自動提款機上;Nuance公司推出了Nuance Verifier,在電信網(wǎng)上實現(xiàn)文本激勵的說話人識別,已經(jīng)可靠應用于金融服務等系統(tǒng)。其他一些商用系統(tǒng)還包括:ITT公司的SpeakerKey、Keyware公司的VoiceGuardian、T-NETIX 公司的SpeakEZ等。
(六)身份辨認
身份辨認同樣也主要采用聲紋識別技術,其主要應用場景為對特定語音進行分析,確認其身份,這種應用可應用于公安司法以及軍隊和國防。如:對于各種電話勒索、綁架、電話人身攻擊等案件,身份辨認可以在一段錄音中查找出嫌疑人或縮小偵察范圍;身份辨認可以發(fā)現(xiàn)電話交談過程中是否有特定說話人出現(xiàn),繼而對交談的內容進行跟蹤,并可以對發(fā)出命令的人的身份進行確認(敵我指戰(zhàn)員鑒別),目前此術在國外軍事方面已有所應用。
二、存在問題
盡管智能語音技術在技術上已經(jīng)獲得突破性進展,然而在實際應用過程中語音識別技術仍然面臨著一些難點,特別是針對語音識別技術:
(一)對環(huán)境依賴性較大,抗干擾能力較差
語音采集時,不可避免會混入環(huán)境噪聲,同時由于采集設備的不同也會對采集結果造成影響,這些影響都會影響到最終識別結果。
(二)地方口音的差異造成影響
語音往往存在地域性,他不同于語種。比如北方與南方人同樣講普通話,差異還是非常明顯,這些都對識別工作造成一定的影響。
(三)自然語言的隨機性、多變性
針對于語音朗讀,目前的語音識別技術已經(jīng)有很好的效果,但是實際生活中,人們講話都較為隨意,同時伴隨講話時的情緒,這些都會對語音識別結果造成較大影響。
但我們相信,隨著技術的不斷發(fā)展,通過語音素材數(shù)據(jù)的不斷積累,相信這些問題將會逐步被解決。
三、結束語
人與設備如何便捷交互,信息輸入是否高效,一定程度上影響了整個工作過程的效率,智能語音技術為大家提供了一條新的道路,除去了人與設備之間的隔閡。效率和成本是每一個企業(yè)管理必須權衡的關鍵因素,雖然智能語音技術現(xiàn)在還有很多不足,但是從長遠來看必將是應用發(fā)展的方向,會對人們的工作效率產生深遠影響。