語音識別技術(shù)在智能語音機器人中的應(yīng)用

2021-11-22 16:55:56胡釗龍李柵柵

電子技術(shù)與軟件工程 2021年13期

胡釗龍李柵柵

（國家電網(wǎng)有限公司客戶服務(wù)中心南方分中心江蘇省南京市 210000）

人工智能時代下實現(xiàn)人機語言間的交互是所有科技人員夢寐以求的目標，雖然當下智能機器人、人工智能、虛擬現(xiàn)實、增強現(xiàn)實等新型技術(shù)與概念的提出已經(jīng)讓人們有了更充分的了解與感知，但是當下的人工智能還有很遠的路要走。智能機器人的應(yīng)用與研發(fā)在近年來形成了非?；鸨内厔?，想要正真意義上的實現(xiàn)人機交互必然離不開語音識別技術(shù)的應(yīng)用。語音識別、自然語言理解以及語音合成是人機交互的三種主要方式，為充分發(fā)揮計算機的作用，非常多的學(xué)者與科研人員不僅對人機交互的技術(shù)進行了深入的探究，而且還不斷在語音識別技術(shù)上有所突破。本文重點從語音識別技術(shù)在智能機器人中的應(yīng)用角度來展開探討，并且結(jié)合實際情況主要探究關(guān)于語音識別原理、設(shè)計與智能機器人應(yīng)用實踐的內(nèi)容。

1 語音識別技術(shù)的原理與方法

1.1 語音識別技術(shù)的基礎(chǔ)原理

雖然語音識別技術(shù)在國內(nèi)出現(xiàn)的時間較晚，沒有成熟的發(fā)展環(huán)境，但是隨著我國互聯(lián)網(wǎng)與AI技術(shù)的飛躍發(fā)展，越來越多的科研者參與到了這項技術(shù)的研究之中。目前語音識別技術(shù)實現(xiàn)的原理與方式有非常多種，但萬變不離其宗，這些原理的基本內(nèi)容都是一致的，即通過一個模式識別系統(tǒng)，使語音轉(zhuǎn)換為計算機可以識別的數(shù)據(jù)。從實際的角度來講，就是人們對機器進行一種語言的輸出，但是計算機是無法直接明白這其中的含義，所以需要通過特定模式與系統(tǒng)來進行轉(zhuǎn)換為計算機直接能聽懂的語言。就像C語言、C++、java、python、PLC等編程語言的使用環(huán)境是特定的，必須要進行轉(zhuǎn)換才能進行編譯。而當下的語音識別技術(shù)模式中主要包含了三個單元：特征提取、模式匹配以及參考模式庫，其中語音信號預(yù)處理階段主要是講人們發(fā)出的原始語音經(jīng)過專業(yè)的端點檢測、語音分幀后，從其中提出關(guān)鍵數(shù)據(jù)與參數(shù)，之后再對比參考模型庫中的樣本語音等對相似度進行度量，最后進行識別。從原理上看，語音識別技術(shù)是非常簡單的，但是在實際應(yīng)用之中卻大相徑庭。例如語音識別的參數(shù)庫的信息如果不夠完整那么很容易造成語音識別過程的差錯，終端檢測器與語音分幀器的過濾作用如果無法保障質(zhì)量也會造成識別困難的情況。

本文側(cè)重對隱馬爾可夫模型與人工神經(jīng)網(wǎng)絡(luò)進行簡要介紹。首先，隱馬爾可夫模型的實現(xiàn)主要是通過對人類語音特征分布的概率進行統(tǒng)計，并且經(jīng)過一定的算法處理后，得到特定的語音信號序列，最終達到語音識別的效果。這種概率型的計算識別技術(shù)在一定角度上很容易得到語音序號，同時在語言識別的過程中也很方便，但是長時間、持續(xù)性的語音輸出難免會出現(xiàn)語音識別的遺漏。在現(xiàn)實情況中也就會出現(xiàn)人們對機器人說話、問答時而機器人卻毫無反應(yīng)或者答非所問的情況。而人工神經(jīng)網(wǎng)絡(luò)則是依據(jù)生物神經(jīng)網(wǎng)絡(luò)的特征所構(gòu)建的一種算法模型，通過學(xué)習(xí)和存貯大量的輸入-輸出模式映射關(guān)系來實現(xiàn)語音的識別。人工神經(jīng)網(wǎng)絡(luò)技術(shù)目前是全人類的共同難題，一旦搭建好全面、系統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)，那么機器人的語音識別應(yīng)用幾乎可以做到百分百的正確性。

1.2 語音識別技術(shù)現(xiàn)存難題

人工神經(jīng)網(wǎng)絡(luò)技術(shù)是當下人工智能研究的最前沿技術(shù)，但盡管神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)是當今AI的最先進技術(shù)，但與人類智能仍然相距甚遠。在實際的人工智能語音識別中，人工神經(jīng)網(wǎng)絡(luò)技術(shù)存在很多的難題與弊端，比如神經(jīng)網(wǎng)絡(luò)的搭建不僅需要大量的數(shù)據(jù)作為支撐而且機器人的學(xué)習(xí)方式與人類大相徑庭。在學(xué)習(xí)特定事物的過程中，也許人類僅僅需要很少的示例就能掌握但是機器人卻需要成千上萬的案例。當我們對智能機器人發(fā)出問好的語音時，其語音識別系統(tǒng)就需要通過神經(jīng)網(wǎng)絡(luò)中的東西來輔助識別，進而給出回應(yīng)，這也就要求智能機器人在語音識別階段需要記錄與學(xué)習(xí)大量的人類語言信息。大數(shù)據(jù)與云計算方面的限制也就很容易造成智能機器人因語音識別算法效率過低而無法正常運行的問題。如今各大型軟件公司與企業(yè)都推出了智能機器人的功能，例如華為手機機器人、百度助手、阿里智能機器人等等，國網(wǎng)客服中心也始終堅持向客戶提供優(yōu)質(zhì)、便捷、多元化的服務(wù)為目標，積極應(yīng)用移動互聯(lián)網(wǎng)、云服務(wù)、人工智能等成熟、可靠的先進技術(shù)手段，立足電力行業(yè)公共事業(yè)服務(wù)的特點，準確把握客戶需求變化，啟動人工智能技術(shù)在客戶服務(wù)領(lǐng)域的應(yīng)用研究與實踐，按照先易后難、試點推進的原則，邊建設(shè)，邊運營，先后完成智能語音質(zhì)檢、智能知識庫、智能機器人等典型應(yīng)用建設(shè)，服務(wù)范圍涵蓋了27家省公司。在實際的人機交互中可以很明顯體會到語音識別技術(shù)的重要性。這一切都離不開人工智能技術(shù)的支持，語音識別技術(shù)在人工智能機器人中的應(yīng)用非常重要，所以我們要克服技術(shù)的局限性與束縛才能更好地實現(xiàn)人機交互的效果。

2 語音識別技術(shù)在智能機器人的應(yīng)用設(shè)計與實踐

2.1 語音識別系統(tǒng)總設(shè)計

人工智能機器人的目的就是能夠識別人類語言并且做出相應(yīng)的處理，給與一定的互動，所以語言識別系統(tǒng)的總設(shè)計應(yīng)該遵循這一基本原理與要求。根據(jù)人工智能技術(shù)期刊報道可以發(fā)現(xiàn)當前的人工智能機器人在語音識別方面存在很多的弊端與問題，這不僅會影響人工智能機器人對語音信號的正確錄入與處理而且還會造成算法的混亂，影響人機交互體驗。故而語音識別系統(tǒng)的總體結(jié)構(gòu)設(shè)計應(yīng)包括語音控制端以及機器人運動控制端。首先，語音控制總端要有語音命令識別與預(yù)處理，并且還要有相應(yīng)的轉(zhuǎn)換工具，實現(xiàn)對錄入語音的算法分析，將其轉(zhuǎn)換成機器人能明白的語言。其次，機器人控制中端中要有語音主控系統(tǒng)來實現(xiàn)對輸入語音的互動功能，尤其要有高效的算法分析設(shè)計。很大程度上機器人的語音互動功能就取決于算法分析的優(yōu)劣，比如有的智能機器人不但能回答我們提出的問題，還可以舉一反三，而有的機器人單回答問題就需要消耗非常多的時間。所以算法分析設(shè)計是語音識別中的重中之重，要針對實際的機器人功能來選擇合適的編譯語言與算法設(shè)計。

當然人工智能機器人想要實現(xiàn)較好的人機交互效果不僅是需要依靠強大的算法分析與編譯器，還有非常多的細節(jié)也有著不可磨滅的作用。例如，終端檢測器與語音識別器的質(zhì)量對智能機器人實踐應(yīng)用就有著非常大的影響，人工機器人無論擁有多強大的算法分析能力與轉(zhuǎn)換編譯器，如果在語音識別階段無法完整、有效地對語音信號進行收集，那么一切都是空談。所以在整個人工智能機器人的語音識別系統(tǒng)設(shè)計中不單單要考慮好核心工作，還要特別重視對整個語音信號處理設(shè)備的創(chuàng)新與突破。

2.2 語音信號預(yù)處理研究

語音信號的預(yù)處理主要包括:采樣、A/D轉(zhuǎn)換、分幀、數(shù)據(jù)加窗、高頻提升等，這些每一環(huán)節(jié)都是至關(guān)重要的，采樣影響著語音信號的完整性，分幀是語音信號能夠有效轉(zhuǎn)換的保障，數(shù)據(jù)加窗是為了機器人能夠做出交互運動。在預(yù)處理階段，語音識別系統(tǒng)一般會采用無指向性麥克風(fēng)的模式將人類語音信號多方位、更完整地輸入給智能機器人的計算機系統(tǒng)，在實踐應(yīng)用中很容易出現(xiàn)聲麥克風(fēng)語音收錄不完整的情況?？梢葬槍π缘剡M行麥克風(fēng)擴建，并且加強聲信號收集器的作用范圍來解決這一難題。而聲卡在語音識別中主要擔當特定頻率的數(shù)據(jù)采樣工作，然后進行A/D轉(zhuǎn)換，將轉(zhuǎn)換后的語音原始數(shù)據(jù)儲存起來。這與語音參數(shù)庫的工作很相似，分頻率數(shù)據(jù)采樣要特別重視一個原則就是：人類語音信號是時刻變化的隨機信號，所以在原始語音信號的處理與分析階段必須控制好時間的長短?？梢圆捎枚虝r分析法，也就是把原始的語音信號分成若干小段，即分幀，按幀進行數(shù)據(jù)處理。每幀取20ms，幀移10ms。最后在語音信號的加窗與高頻提升時，要特別注意到人類發(fā)聲器官的特性，比如在語音從嘴唇輻射將有6分貝/貝頻的衰減，這種現(xiàn)象對語音的識別系統(tǒng)的組成特征提取普遍會造成不利的影響，因此必須對信號進行高頻補償工作，即高頻提升，使得信號頻譜平坦化。

根據(jù)智能機器人在實際運行的測試報告中，可以很發(fā)現(xiàn)：語音信號預(yù)處理階段對機器人運動控制的影響是非常深的，也就是說，如果能在語音識別階段簡化預(yù)處理的工作，那么智能機器人在后續(xù)的反應(yīng)控制中將會有更好的表現(xiàn)。語音識別技術(shù)在人工智能機器人中的應(yīng)用是有具有舉足輕重的作用，其不僅是實現(xiàn)智能機器人與外界環(huán)境交互的技術(shù)保障，而且語音識別的效率還會影響著智能機器人未來的發(fā)展走向。

2.3 實踐應(yīng)用分析

如果將人工智能機器人比作是一個新生的幼兒，那么語音識別技術(shù)對其而言就是眼睛鼻子耳朵。根據(jù)百例人工智能機器人語音識別實踐應(yīng)用分析：

（1）語音識別正確率一般維持在百分之45到85之間，其中識別下限幾乎為零而上限卻很難接近百分之百。這與語音識別系統(tǒng)設(shè)計脫不開關(guān)系，并且在分幀、加窗、采樣等階段都有不可忽視的問題與局限。目前，筆者所在電力呼叫中心通過智能語音機器人在電話渠道中預(yù)受理解答客戶簡單重復(fù)咨詢，結(jié)合客戶需求精準分流到人工服務(wù)、智能服務(wù)及在線自助服務(wù)，確保了電話“一撥就通”、答復(fù)“一口說清”、訴求“一說就辦”，為客戶快速解決用電問題，語音識別準確率從上線初期的88%-90%，穩(wěn)定提升至目前的98%-99%。

（2）人工智能機器人在語音識別后做出運動控制反應(yīng)的平均時間在5秒左右，這很大程度上取決于輸入語音的問題是什么。簡單的問題與復(fù)雜的問題時間不能一概而論，智能機器人的算法分析卻與其原理不同。

（3）智能機器人做出正確交互反饋的概率維持在百分之75左右，盡管絕大數(shù)時候機器人可以輕松做出互動反饋，但仍存在特定的環(huán)境會出現(xiàn)差錯。在智能交互方面，為提高智能交互準確率，常態(tài)開展語音標注工作，筆者組織開展了語音機器人交互驗證工作，對已同步的9642條語音標注內(nèi)容進行測試驗證，其中仍有0.96%表述無法準確與客戶交互，問題包括出在語音識別后，無法與服務(wù)訴求進行準確匹配、出現(xiàn)意圖纏繞等，降低客戶服務(wù)感知，這也給語音識別算法分析設(shè)計提出了更明確的要求。

3 結(jié)束語

最后本文就探究內(nèi)容進行總結(jié)。人工智能時代下智能機器人的應(yīng)用與研究迎來了前所未有的熱潮，語音識別技術(shù)作為智能機器人運行的核心內(nèi)容是采集信息、處理信息的先行者。相信在不久的未來，語音識別技術(shù)會在客戶服務(wù)行業(yè)會得到更廣泛的應(yīng)用，滿足客戶多元化的服務(wù)需求的同時，幫助企業(yè)降低人力成本，結(jié)合大數(shù)據(jù)提供精準服務(wù)策略建議，從而從整體上提高客戶服務(wù)水平，實現(xiàn)呼叫中心的轉(zhuǎn)型發(fā)展。這也需要在實踐應(yīng)用中更好實現(xiàn)智能機器人的交互過程，語音識別技術(shù)是不可忽視的突破與創(chuàng)新方向。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看