• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      智能機(jī)器人語音交互專利技術(shù)分析

      2020-08-04 20:28:41張媛媛宋海榮楊少魁
      河南科技 2020年9期
      關(guān)鍵詞:語音識別機(jī)器人

      張媛媛 宋海榮 楊少魁

      摘要:語言是人類最自然便捷的溝通手段,是人類之間進(jìn)行交流的重要表達(dá)方式。語音交互技術(shù)在智能機(jī)器人的應(yīng)用,主要是通過語音輸入設(shè)備輸入語音,再通過相應(yīng)的軟件、程序等使計(jì)算機(jī)分辨出人類語音的內(nèi)容,實(shí)現(xiàn)人與計(jì)算機(jī)之間的交互?;谡Z音的機(jī)器人交互技術(shù),主要包括語音采集、語音識別、語音合成等關(guān)鍵技術(shù)環(huán)節(jié)。因此,本文從語音采集、語音合成、語音識別三個(gè)分支通過歷年申請量、區(qū)域分布、技術(shù)活躍度、主要申請人以及技術(shù)演進(jìn)等角度,對智能機(jī)器人語音交互的專利進(jìn)行了梳理,以期對智能機(jī)器人語音交互專利進(jìn)行深入分析,為機(jī)器人語音交互技術(shù)領(lǐng)域提供技術(shù)發(fā)展方向和專利布局指導(dǎo)。

      關(guān)鍵詞:機(jī)器人;語音采集;語音合成;語音識別

      中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-5168(2020)09-0153-08

      1 概述

      隨著人工智能的蓬勃發(fā)展,智能機(jī)器人在商業(yè)、軍事、醫(yī)療等方法都有廣泛的應(yīng)用。追求智能化的今天,實(shí)現(xiàn)人和機(jī)器之間“無障礙”的對話與交流,以提高機(jī)器的主動性與能動性,也能不斷擴(kuò)大應(yīng)用的領(lǐng)域[1]。因此,語音交互技術(shù)是智能機(jī)器人的核心技術(shù),其通過語音輸入設(shè)備輸入語音,再通過相應(yīng)的軟件、程序等使計(jì)算機(jī)分辨出人類語音的內(nèi)容,實(shí)現(xiàn)人與計(jì)算機(jī)之間的交互。基于語音的機(jī)器人交互技術(shù),主要包括語音采集、語音識別、語音合成等關(guān)鍵技術(shù)環(huán)節(jié)。因此,本文從語音采集、語音合成、語音識別三個(gè)分支通過歷年申請量、區(qū)域分布、技術(shù)活躍度、主要申請人以及技術(shù)演進(jìn)等角度,對智能機(jī)器人語音交互的專利進(jìn)行了梳理,以期對智能機(jī)器人語音交互專利進(jìn)行深入分析,為機(jī)器人語音交互技術(shù)領(lǐng)域提供技術(shù)發(fā)展方向和專利布局指導(dǎo)。

      2 專利技術(shù)分支及其發(fā)展路線

      2.1 基于語音的智能機(jī)器人專利技術(shù)分支

      2.1.1 語音采集。語音采集,基于語音的人機(jī)交互中通常采用麥克風(fēng)進(jìn)行語音采集。麥克風(fēng)(又稱微音器和話筒,正式的中文名是傳聲器),是一種將聲音轉(zhuǎn)換成電子信號的換能器。麥克風(fēng)的歷史可以追溯到19世紀(jì)末,貝爾等科學(xué)家致力于尋找更好的拾取聲音的辦法,以用于改進(jìn)當(dāng)時(shí)的最新發(fā)明——電話。期間他們發(fā)明了液體麥克風(fēng)和碳粒麥克風(fēng),這些麥克風(fēng)效果并不理想,只是勉強(qiáng)能夠使用。20世紀(jì),麥克風(fēng)由最初通過電阻轉(zhuǎn)換聲電發(fā)展為電感、電容式轉(zhuǎn)換,大量新的麥克風(fēng)技術(shù)逐漸發(fā)展起來,這其中包括鋁帶、動圈等麥克風(fēng),以及當(dāng)前廣泛使用的電容麥克風(fēng)和駐極體麥克風(fēng)、ECM麥克風(fēng)、MEMS麥克風(fēng)[2]。

      2.1.2 語音合成。語音合成,即將文本信息轉(zhuǎn)換為語音信號。語音合成的發(fā)展經(jīng)歷了機(jī)械式語音合成、電子式語音合成和基于計(jì)算機(jī)的語音合成發(fā)展階段。語音合成方法按照設(shè)計(jì)的主要思想分為規(guī)則驅(qū)動方法和數(shù)據(jù)驅(qū)動方法,前者的主要思想是根據(jù)人類發(fā)音物理過程從而制定一系列規(guī)則來模擬這一過程,后者則是在語音庫中的數(shù)據(jù)上利用統(tǒng)計(jì)方法如建模來實(shí)現(xiàn)合成的方法,因而數(shù)據(jù)驅(qū)動方法更多的依賴語音語料庫的質(zhì)量、規(guī)模和最小單元等[3-5]。

      2.1.3 語音識別。語音識別是將人類的聲音信號轉(zhuǎn)化為文字或者指令的過程。語音識別系統(tǒng)包括前端處理、特征提取、聲學(xué)模型、語言學(xué)模型和解碼幾個(gè)模塊。前端處理包括對高頻信號進(jìn)行預(yù)加重,將語音信號分幀,對語音信號做初步處理,特征提取將聲音信號從時(shí)域轉(zhuǎn)換為頻域,聲學(xué)模型以特征向量作為輸入,對應(yīng)到語音到音節(jié)的概率,語言學(xué)模型根據(jù)語言特性,對應(yīng)到音節(jié)到字的概率,解碼器結(jié)合聲學(xué)模型和語言學(xué)模型及詞典信息輸出可能性最大的詞序列。其中,聲學(xué)模型和語言模型是語音識別中比較重要的環(huán)節(jié)[6-10]。

      2.2 基于語音的智能機(jī)器人專利申請總體情況

      2.2.1 數(shù)據(jù)來源及檢索要素。本文采用了中國專利文摘數(shù)據(jù)庫(CNABS)、德溫特世界專利索引數(shù)據(jù)庫(DWPI)。其中,CNABS用于中文專利檢索,DWPI用于英文庫專利的檢索,最后數(shù)據(jù)匯總到DWPI數(shù)據(jù)庫進(jìn)行統(tǒng)計(jì)查看。檢索時(shí)限截止到2019年7月10日,其中由于專利文獻(xiàn)從提出申請到向公眾公開有時(shí)間的延后,因此,2018年的樣本會有不完整的問題,所以對于以下分析圖中有關(guān)2018年申請量的下降曲線不排除是由于樣本數(shù)據(jù)量的不完整而造成的。2019年數(shù)據(jù)缺少比較多,其中的數(shù)據(jù)就沒有體現(xiàn)在分析的范圍內(nèi)。

      2.2.2 全球?qū)@暾埩糠治?/p>

      ①全球歷年專利申請量

      下圖示出了語音人機(jī)交互技術(shù)的全球?qū)@暾堏厔轄顩r。自1992年起,全球申請量趨勢如下。后面基于歷年專利申請量,對語音人機(jī)交互技術(shù)的發(fā)展趨勢進(jìn)行了分階段的分析。

      萌芽階段(1992—1998年):語音人機(jī)交互技術(shù)的專利申請量較少,雖然機(jī)器人的概念已經(jīng)被提出了幾十年了,但是限于通過語音與機(jī)器人交互的方面研究較少,人機(jī)交互相關(guān)的語音識別技術(shù)還不成熟,音頻數(shù)據(jù)處理所需的CPU還不能滿足其大量計(jì)算的需求,企業(yè)和研究機(jī)構(gòu)對其研發(fā)的熱度不高,尚處于技術(shù)萌芽階段。

      快速增長階段(1999—2015年):語音人機(jī)交互技術(shù)專利申請量開始呈現(xiàn)一定的增長趨勢,從1999年到2015年,伴隨著計(jì)算機(jī)硬件技術(shù)尤其是Intel和NVDIA兩家公司的CPU產(chǎn)品性能的發(fā)展,以及機(jī)器人相關(guān)硬件如傳感器、攝像頭等的快速發(fā)展,使得語音人機(jī)交互技術(shù)不斷成熟,因此年專利申請量迅速增長了好幾倍。但由于成本因素以及實(shí)際效果難以達(dá)到消費(fèi)者滿意的程度,仍舊無法達(dá)到大規(guī)模商業(yè)生產(chǎn)的條件。

      急速增長階段(2015年至今):2015年以后,隨著計(jì)算機(jī)技術(shù)和處理器技術(shù)的快速發(fā)展,以及市場對于智能機(jī)器人語音人機(jī)交互技術(shù)的需求,各類企業(yè)紛紛開始在該領(lǐng)域進(jìn)行大量專利布局,以期在后續(xù)的市場中搶占先機(jī)。

      ②各國家/地區(qū)/組織專利申請量

      由上圖可以看出,語音人機(jī)交互技術(shù)全球?qū)@暾埩壳拔逦粐曳謩e為日本、中國、美國、韓國和歐洲,這五個(gè)國家的申請量占全球申請量的82%,其他國家/地區(qū)/組織的申請量僅占全球申請量的18%,可見該領(lǐng)域的專利申請較為集中。其中日本、中國、美國、韓國和歐洲都是世界上工業(yè)較為發(fā)達(dá)的幾個(gè)國家,有著先進(jìn)的科學(xué)技術(shù)作為支撐,并且有市場需求的驅(qū)動。因此這些國家對機(jī)器人的專利申請和布局占據(jù)了絕大部分比例。

      ③技術(shù)活躍度分析

      上圖顯示了語音人機(jī)交互技術(shù)的申請人的數(shù)量的變化情況,可以看出,從2000年至2005年,各個(gè)申請人剛開始關(guān)注語音人機(jī)交互技術(shù),每年新增申請人少量增加。從2006年開始,到2014年由于技術(shù)不成熟,商業(yè)化應(yīng)用不廣泛,雖然關(guān)注語音人機(jī)交互技術(shù)的申請人有所增加,但是并沒有引起足夠多的企業(yè)關(guān)注。而從2015年開始,大量申請人踴躍加入語音人機(jī)交互技術(shù)的研究。

      ④全球/中國主要申請人分析

      從全球?qū)@暾埩颗琶?0位的申請人來看,主要來自日本、韓國和中國。其中日本企業(yè)占據(jù)7個(gè)席位,中國和韓國分別只有2個(gè)和1個(gè)席位??梢婋m然中國語音人機(jī)交互專利申請量在全球地區(qū)分布時(shí)所占比例與日本差不多,但僅有北京光年無線一家企業(yè)的專利申請量排在全球第二,可見中國申請人的專利申請較為分散,目前還沒有實(shí)力較強(qiáng)的申請人出現(xiàn)。從企業(yè)類型來看,索尼、本田、夏普、豐田、三星、日本電氣、日本電報(bào)電話公司和松下都是日本和韓國知名的企業(yè),占據(jù)了8個(gè)席位。

      上圖示出了國內(nèi)主要申請人在語音人機(jī)交互領(lǐng)域申請專利的情況。與全球主要申請人相比,國內(nèi)主要申請人在申請量上具有一定的差距,申請量相對較少。

      2.3 基于語音的智能機(jī)器人的專利技術(shù)演進(jìn)

      2.3.1 麥克風(fēng)。麥克風(fēng)的歷史可以追溯到19世紀(jì)末,貝爾等科學(xué)家致力于尋找更好的拾取聲音的辦法,以用于改進(jìn)當(dāng)時(shí)的最新發(fā)明——電話。期間他們發(fā)明了液體麥克風(fēng)和碳粒麥克風(fēng),這些麥克風(fēng)效果并不理想,只是勉強(qiáng)能夠使用。二十世紀(jì),麥克風(fēng)由最初通過電阻轉(zhuǎn)換聲電發(fā)展為電感、電容式轉(zhuǎn)換,大量新的麥克風(fēng)技術(shù)逐漸發(fā)展起來,這其中包括鋁帶、動圈等麥克風(fēng),以及當(dāng)前廣泛使用的電容麥克風(fēng)和駐極體麥克風(fēng)、ECM麥克風(fēng)、MEMS麥克風(fēng)。

      在機(jī)器人語音交互的語音傳感器中,2011年CN102137321A提出一種薄膜型傳聲器陣列,其針對傳統(tǒng)的駐極體電容傳聲器結(jié)構(gòu)復(fù)雜、體積無法減小的問題,采用多孔聚合物薄膜的壓電駐極體薄膜,減小了零件數(shù)目及器件的體積,使得薄膜型傳聲器陣列的聲電轉(zhuǎn)換性能穩(wěn)定。隨后,MEMS傳感器因其相比傳統(tǒng)的傳感器具有體積小、重量輕、成本低、功耗低、可靠性高、適用批量生產(chǎn)、易于集成和實(shí)現(xiàn)智能化等特點(diǎn),在機(jī)器人語音交互中得到了廣泛應(yīng)用。KR20130044761A提出的MEMS麥克風(fēng)將集成電路與具有壓電特性的納米線組合以最大化壓電效應(yīng)。US201815938665A基于現(xiàn)有的MEMS組件質(zhì)檢存在的差異導(dǎo)致各個(gè)部件的電容發(fā)生變化而提出能夠確定MEMS換能器的電容的MEMS換能器系統(tǒng),其中所確定的電容可用于校準(zhǔn)MEMS換能器電路以實(shí)現(xiàn)給定輸入壓力或聲波的給定輸出信號。

      2.3.2 語音合成。語音合成方法按照設(shè)計(jì)的主要思想分為規(guī)則驅(qū)動方法和數(shù)據(jù)驅(qū)動方法,前者的主要思想是根據(jù)人類發(fā)音物理過程從而制定一系列規(guī)則來模擬這一過程,如共振峰合成、發(fā)音規(guī)則合成等,后者則是在語音庫中的數(shù)據(jù)上利用統(tǒng)計(jì)方法如建模來實(shí)現(xiàn)合成的方法,因而數(shù)據(jù)驅(qū)動方法更多的依賴語音語料庫的質(zhì)量、規(guī)模和最小單元等,如波形拼接合成、單元選擇合成、波加噪聲模型、HMM合成、神經(jīng)網(wǎng)絡(luò)模型合成等。

      在機(jī)器人語音交互的語音合成中,最早由索尼公司JP2002268699A提出采用波形拼接進(jìn)行語音合成,其通過在文本分析結(jié)果中的音素信息獲取必要的音素片數(shù)據(jù),并且把音素片數(shù)據(jù)連接起來,同時(shí)根據(jù)韻律數(shù)據(jù)和合成控制參數(shù)處理數(shù)據(jù),以生成具有相應(yīng)韻律和音調(diào)質(zhì)量的合成音調(diào)數(shù)據(jù),但存在占用內(nèi)存大、耗費(fèi)人力物力等缺點(diǎn)。緊接著松下、日本電氣株式會社相繼采用單元選擇合成方法進(jìn)行語音合成,其中WO2006123539A1根據(jù)所述韻律生成單元所獲得的音韻串及韻律和所述說話位置決定單元所決定的說話位置,從標(biāo)準(zhǔn)聲音單元記錄部或所述特殊聲音單元記錄部選擇聲音單元,并生成聲音波形,實(shí)現(xiàn)在表現(xiàn)情感或表現(xiàn)力的聲音中經(jīng)??梢砸姷降呢S富的聲音表現(xiàn);CN101379549A采用從單位波形數(shù)據(jù)記憶部中根據(jù)發(fā)聲形式所選擇的單位波形數(shù)據(jù)記憶部,根據(jù)發(fā)音符號串和韻律信息選擇單位波形,從韻律信息和單位波形數(shù)據(jù)產(chǎn)生合成聲音波形。但是單元選擇合成方法存在拼接時(shí)選擇錯(cuò)誤單元的情況。而后,CN101751921A選用諧波加噪聲模型作為語音分析合成模型,該模型將語音信號看成是各種分量諧波和噪聲的加權(quán)和,解決了單元選擇中的誤拼情況。如今,神經(jīng)網(wǎng)絡(luò)模型合成方法成為主流,大大提升了語音合成系統(tǒng)對語音的描述能力。KR20180100001A采用深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行語音合成,其解決了傳統(tǒng)方法中上下文建模的低效率、上下文空間和輸入空間分開聚類而導(dǎo)致的訓(xùn)練數(shù)據(jù)分裂、過擬合和音質(zhì)受損的問題。CN109036371A采用WaveNet神經(jīng)網(wǎng)絡(luò)合成器,利用WaveNet生成的語音,在音質(zhì)上大大超越了之前的參數(shù)合成效果,滿足了對高采樣率的音頻時(shí)域信號建模的要求。

      3 語音識別

      3.1 聲學(xué)模型

      在機(jī)器人語音交互中,目前最常用也最有效的幾種聲學(xué)識別模型包括動態(tài)時(shí)間規(guī)整模型(DTW)、隱馬爾可夫模型(HMM)、神經(jīng)網(wǎng)絡(luò)模型等。

      3.1.1 動態(tài)時(shí)間規(guī)整(DTW)。時(shí)間規(guī)整的語音識別方法最早由來自RCA實(shí)驗(yàn)室的Martin在上世紀(jì)60年代提出并實(shí)現(xiàn)了解決語音時(shí)長不統(tǒng)一的歸一化打分機(jī)制。后來,來自前蘇聯(lián)的Vintsyuk提出了采用動態(tài)規(guī)劃實(shí)現(xiàn)動態(tài)時(shí)間規(guī)則的方法。在應(yīng)用DTW算法進(jìn)行語音識別時(shí),就是將已經(jīng)預(yù)處理和分幀過的語音測試信號和參考語音模板進(jìn)行比較以獲取他們之間的相似度,按照某種距離測度得出兩模板間的相似程度并選擇最佳路徑。動態(tài)時(shí)間規(guī)整算法是在非特定人語音識別中一種簡單有效的方法,該算法基于動態(tài)規(guī)劃的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識別技術(shù)中出現(xiàn)較早、較常用的一種算法,在小詞匯量、孤立詞語音識別中獲得了良好性能,但因其不適合連續(xù)語音大詞匯量語音識別系統(tǒng),目前已逐漸被HMM和ANN模型替代。不過仍然可以看見DTW在機(jī)器人語音識別中的應(yīng)用,CN103971682A提出冰雪機(jī)器人的語音控制方法,采用數(shù)字語音命令DTW識別算法得到識別的語音數(shù)字命令;CN108447477A提出一種基于自然語言理解的機(jī)器人控制方法,獲取語音信號并轉(zhuǎn)化為相應(yīng)數(shù)字信號,而后通過動態(tài)時(shí)間規(guī)整算法將數(shù)字信號轉(zhuǎn)換為相應(yīng)的文本信息。

      3.1.2 隱馬爾科夫鏈(HMM)。20世紀(jì)70年代,隱馬爾可夫法(HMM)被應(yīng)用于語音識別的研究中,該方法的應(yīng)用使得語音識別技術(shù)取得了重大進(jìn)展。隱馬爾可夫模型是傳統(tǒng)語音識別的主流模型,其是由短時(shí)間內(nèi)看做平穩(wěn)變化的聲學(xué)信號模型串聯(lián)構(gòu)成的馬爾可夫鏈組成的,表示了一個(gè)雙重隨機(jī)過程,一個(gè)是用具有有限狀態(tài)數(shù)的馬爾可夫鏈來模擬語音信號統(tǒng)計(jì)特性變化的隱含的隨機(jī)過程,另一個(gè)是與馬爾可夫鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測序列的隨機(jī)過程。索尼WO0172478A1最早將HMM模型應(yīng)用于機(jī)器人語音識別中,HMM很好的模擬了人得語言過程,目前應(yīng)用十分廣泛,出現(xiàn)了很多以改進(jìn)隱含馬爾可夫鏈為基礎(chǔ)的機(jī)器人語音識別申請,US2012130716A1使用隱馬爾可夫模型(HMM)、最大后驗(yàn)概率(MAP)、最大似然線性回歸(MLLR)的聲學(xué)模型對接收到的語音信號執(zhí)行機(jī)器人語音識別;由于神經(jīng)網(wǎng)絡(luò)在語音識別中突出表現(xiàn),將神經(jīng)網(wǎng)絡(luò)與HMM結(jié)合使用成為研究熱點(diǎn),如CN106228982A基于HMM-DNN聲學(xué)模型的Token-passing算法對其進(jìn)行語音識別。

      3.1.3 神經(jīng)網(wǎng)絡(luò)模型。人工神經(jīng)網(wǎng)絡(luò)(ANN)是20世紀(jì)80年代末期提出的一種新的語音識別方法。ANN以數(shù)學(xué)模型模擬神經(jīng)元活動,將人工神經(jīng)網(wǎng)絡(luò)中大量神經(jīng)元并行分布運(yùn)算的原理、高效的學(xué)習(xí)算法以及對人的認(rèn)知系統(tǒng)的模仿能力充分運(yùn)用到語音識別領(lǐng)域。2011年,微軟以深度神經(jīng)網(wǎng)絡(luò)替代多層感知機(jī)形成的混合模型系統(tǒng)大大提高了語音識別的準(zhǔn)確率。此外,由于神經(jīng)網(wǎng)絡(luò)在語音識別中突出表現(xiàn),后來人們又將卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)以及深度神經(jīng)網(wǎng)絡(luò)(DNN)應(yīng)用在了語音識別中。在機(jī)器人語音識別中,US2017098444A1采用基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型進(jìn)行語音識別;CN105681318A基于DNN-UBM模型(深層神經(jīng)網(wǎng)絡(luò)和通用背景模型)建立身體狀態(tài)對應(yīng)的聲學(xué)模板;CN106898350A采用卷積神經(jīng)網(wǎng)絡(luò)CNN進(jìn)行語音識別;CN108281139A基于深度全序列卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行語音識別。在RNN基礎(chǔ)之上進(jìn)一步提出的長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM),解決了RNN中由于引進(jìn)了時(shí)間維度信息而可能出現(xiàn)的梯度消失問題。目前最好的語音識別系統(tǒng)采用雙向長短時(shí)記憶網(wǎng)絡(luò)(LSTM),這種網(wǎng)絡(luò)能夠?qū)φZ音的長時(shí)相關(guān)性進(jìn)行建模,但是這一系統(tǒng)存在訓(xùn)練復(fù)雜度高、解碼時(shí)延高的問題,在工業(yè)界的實(shí)時(shí)識別系統(tǒng)中很難應(yīng)用,直到CN108364066A采用LSTM深度神經(jīng)網(wǎng)絡(luò)編碼器進(jìn)行語音識別,引入了attention模型和語言模型共同處理LSTM神經(jīng)網(wǎng)絡(luò)處理后的固定長度向量, 保證了聊天過程中答復(fù)信息的準(zhǔn)確性,使對話更加真實(shí)。

      3.2 語言模型

      語言模型是對一段文本的概率進(jìn)行估計(jì)即針對文本X,計(jì)算P(X)的概率,語言模型在整個(gè)語音識別過程中的作用非常重要,其性能的好壞直接影響到了整個(gè)語音識別系統(tǒng)的使用范圍和識別效率。常用的語言模型包括n-gram模型、神經(jīng)網(wǎng)絡(luò)語言模型。

      3.2.1 n-gram語言模型。n-gram模型也稱為n-1階馬爾科夫模型,它有一個(gè)有限歷史假設(shè):當(dāng)前詞的出現(xiàn)概率僅僅與前面n-1個(gè)詞相關(guān),即。n-gram語言模型通常包括參數(shù)估計(jì)和數(shù)據(jù)平滑等過程,其中,n-gram語言模型的參數(shù)估計(jì)一般采用最大似然估計(jì)(MLE)方法,n-gram模型的數(shù)據(jù)平滑可以采用加法平滑、Good-Turing平滑、Katz平滑、插值平滑等。N-Gram因其簡單有效被廣泛應(yīng)用,CN105931218A,CN106056207A,CN106782502A,均通過隱馬爾科夫模型進(jìn)行聲學(xué)模型建模,均采用N-gram統(tǒng)計(jì)語言模型,CN108364066A利用N-GRAM、WFST技術(shù)生成語言模型,保證了聊天過程中答復(fù)信息的準(zhǔn)確性,使對話更加真實(shí)。

      3.2.2 神經(jīng)網(wǎng)絡(luò)語言模型。神經(jīng)網(wǎng)絡(luò)語言模型的提出解決了N-gram模型當(dāng)n較大時(shí)會發(fā)生數(shù)據(jù)稀疏的問題。與N-gram語言模型相同,神經(jīng)網(wǎng)絡(luò)語言模型(NNLM)也是對n元語言模型進(jìn)行建模,與統(tǒng)計(jì)語言模型不同的是,神經(jīng)網(wǎng)絡(luò)語言模型不通過計(jì)數(shù)的方法對n元條件概率進(jìn)行估計(jì),而是直接通過一個(gè)神經(jīng)網(wǎng)絡(luò)對其建模求解。隨著深度學(xué)習(xí)的不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)語言模型得到了很多關(guān)注。在機(jī)器人語音識別中,CN107451126A采用神經(jīng)網(wǎng)絡(luò)語言模型應(yīng)用于聊天機(jī)器人中;US20180307779A1使用深度神經(jīng)網(wǎng)絡(luò)語言模型來學(xué)習(xí)如何映射自然語言命令以在適當(dāng)級別上獎(jiǎng)勵(lì)函數(shù);相比全連接網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)同一層各個(gè)節(jié)點(diǎn)間也是有連接的,當(dāng)前節(jié)點(diǎn)的輸出與前面節(jié)點(diǎn)的輸出有關(guān)。因此,循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型(RNNLM)可以獲得很長的歷史信息,解決了句子的長距離依賴問題,相比N-gram模型,RNNLM模型的效果有很大的提升,如KR20180054408A使用循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型RNNLM,生成并輸出與自然語言處理生成的自然語言對應(yīng)的會話語句單位使用學(xué)習(xí)結(jié)果。

      4 結(jié)論與建議

      智能機(jī)器人語音交互是智能機(jī)器人人機(jī)交互中的關(guān)鍵環(huán)節(jié),對機(jī)器人控制起著關(guān)鍵性的作用。本文從語音采集、語音合成、語音識別三個(gè)分支通過歷年申請量、區(qū)域分布、技術(shù)活躍度、主要申請人以及技術(shù)演進(jìn)等角度,對智能機(jī)器人語音交互的專利進(jìn)行了梳理,專利申請主要集中在語音識別這一分支,從申請量以及技術(shù)演進(jìn)來看,日本在智能機(jī)器人語音交互方面占據(jù)領(lǐng)先地位,國內(nèi)的新型企業(yè)如北京光年、芋頭科技以及高校也在乘勝追擊,但是智能機(jī)器人語音交互仍然面臨諸如識別精度和準(zhǔn)確性等問題,相關(guān)企業(yè)、高校可以考慮從這些方面對智能機(jī)器人語音交互進(jìn)行改進(jìn)。

      參考文獻(xiàn):

      [1] 溫昕等.基于語音識別的機(jī)器人研究[J].科技廣場,2017:190-192.

      [2] 張永強(qiáng).基于專利文獻(xiàn)分析的MEMS麥克風(fēng)技術(shù)發(fā)展趨勢[J].科技展望,2016:254-258.

      [3] 劉豫軍等.計(jì)算機(jī)語音合成技術(shù)研究及發(fā)展方向[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014:22-24.

      [4] 張丹烽等.語音合成技術(shù)發(fā)展綜述與研究現(xiàn)狀[J].科技風(fēng),2017:72.

      [5] 張斌等.語音合成方法和發(fā)展綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2016,37(1):186-192.

      [6] 李雪林.基于人機(jī)互動的語音識別技術(shù)綜述[J].電子世界,2018:105.

      [7] 趙英娣.語音識別聲學(xué)模型發(fā)展現(xiàn)狀綜述[J].科技風(fēng),2017:76.

      [8] 邢銘生等.語音識別技術(shù)綜述[J].科協(xié)論壇,2010:62-63.

      [9] 惠益龍等.語音識別中的統(tǒng)計(jì)語言模型研究[J].信息技術(shù),2017:44-46.

      [10] 王慧健等.基于神經(jīng)網(wǎng)絡(luò)語言模型的時(shí)間序列趨勢預(yù)測[J].計(jì)算機(jī)工程,2018:1-8.

      猜你喜歡
      語音識別機(jī)器人
      機(jī)器人,讓未來走近你
      金橋(2019年10期)2019-08-13 07:15:16
      通話中的語音識別技術(shù)
      面向移動終端的語音簽到系統(tǒng)
      農(nóng)業(yè)物聯(lián)網(wǎng)平臺手機(jī)秘書功能分析與實(shí)現(xiàn)
      基于LD3320的非特定人識別聲控?zé)粝到y(tǒng)設(shè)計(jì)
      機(jī)器人來幫你
      認(rèn)識機(jī)器人
      機(jī)器人來啦
      為什么造機(jī)器人?
      認(rèn)識機(jī)器人
      即墨市| 通河县| 焦作市| 利川市| 潜江市| 鲁山县| 舞钢市| 安仁县| 榆社县| 新营市| 宁化县| 洛南县| 中山市| 苍山县| 东阳市| 固始县| 阿鲁科尔沁旗| 饶河县| 东阿县| 丹巴县| 浦东新区| 泗阳县| 百色市| 张家川| 姜堰市| 双流县| 昭通市| 兴仁县| 津南区| 绵阳市| 凯里市| 白山市| 车致| 麻城市| 上犹县| 农安县| 泽州县| 平定县| 松江区| 平乡县| 阿城市|