莫 玲
(安徽省科學技術(shù)情報研究所,安徽合肥 230011)
語音是人工智能的重要入口[1]。近20年來,隨著人工智能算法的突破、大規(guī)模語料資源的積累、移動數(shù)據(jù)網(wǎng)速的提高,智能語音技術(shù)快速發(fā)展,從實驗室走向市場,智能語音產(chǎn)業(yè)也隨之步入應(yīng)用的快速增長期,人工智能日益受到產(chǎn)業(yè)界和各國政府的重視[2]。歐洲各國對人工智能相關(guān)產(chǎn)業(yè)的發(fā)展高度重視。20世紀80年代,西歐國家制定“尤里卡計劃”,在人工智能等領(lǐng)域開展研究與發(fā)展合作。瑞典Artificial Solutions軟件公司致力為企業(yè)和政府機構(gòu)開發(fā)客服機器人,已為歐洲近幾十個政府部門提供客服機器人,從而減輕了工作人員的壓力[3]。2015年,福特歐洲公司推出新一代車載信息娛樂系統(tǒng)Sync3,提高了觸控的靈敏度和語音指令傳達的順暢性,駕駛者可以通過語音對話向系統(tǒng)發(fā)布指令。2016年,谷歌在歐洲瑞士蘇黎世設(shè)立新的研究部門專注研究機器學習、機器智能、機器感知、自然語言處理和理解等,開發(fā)了知識圖譜使用的引擎以及谷歌Allo消息應(yīng)用中谷歌助手使用的會話引擎[4]。
本文則從專利申請的角度對歐洲各國智能語音技術(shù)的發(fā)展態(tài)勢進行分析研究。
智能語音技術(shù)涉及語言學、語音學、聲學、數(shù)字信息處理、模式識別與人工智能等眾多相關(guān)基礎(chǔ)學科,主要包括語音識別、自然語言理解和語音合成3 個環(huán)節(jié)。通過查閱相關(guān)文獻,借鑒智能語音領(lǐng)域?qū)<业挠^點[5-7],制定了智能語音自標引技術(shù)分支表(表1)。
依據(jù)自標引技術(shù)分支表確定檢索詞(表2),對檢索詞的同義詞、關(guān)鍵詞、縮寫詞、上位詞、下位詞、相關(guān)詞等不同表達方式進行擴展,采取分總式檢索策略進行專利檢索,先對各技術(shù)分支展開檢索,再將檢索結(jié)果進行合并,得到總的檢索結(jié)果[9]。
檢索時間為2016年5月,IncoPat專利數(shù)據(jù)庫收錄了全球112 個國家、組織、地區(qū)的專利信息,數(shù)據(jù)覆蓋全面,更新速度快,同時對全球?qū)@峁┝酥杏㈦p語的標題和摘要,便于專業(yè)人員快速掌握專利基本內(nèi)容。因此,本研究選取IncoPat專利數(shù)據(jù)庫進行專利檢索。對專利數(shù)據(jù)進行檢索與下載,經(jīng)過人工篩選和逐條去噪,對專利申請時間和申請人名稱進行簡化處理和規(guī)范統(tǒng)一,最后按照自標引技術(shù)分支表進行四級技術(shù)標引。對所有標引結(jié)果,由語音領(lǐng)域內(nèi)專業(yè)技術(shù)人員進行審核。審核員采用抽樣驗證的方式,在所有已加工完成的專利數(shù)據(jù)中,以200 件專利為一組,隨機抽取10 件專利,保證加工完成的數(shù)據(jù)與智能語音技術(shù)或者產(chǎn)品相關(guān),對于不相關(guān)的及時刪除。最終得到全球申請專利12895 件,其中智能語音關(guān)鍵技術(shù)歐洲申請專利1865 件。由于在專利申請過程中有18 個月的公開期,因此IncoPat數(shù)據(jù)庫的數(shù)據(jù)收集和錄入會有一定的滯后,2014年后的數(shù)據(jù)僅供參考。根據(jù)專利檢索結(jié)果,關(guān)于歐洲智能語音最早的專利要追溯到1929年,鑒于1929—1990年歐洲申請的智能語音關(guān)鍵技術(shù)專利信息總量較少且較為零散,因此本文選取了1990—2015年1647 件相關(guān)的專利申請信息進行分析,其中語音識別專利申請量1246 件,語音合成專利申請量350 件,自然語言理解專利申請量51 件。根據(jù)得到的數(shù)據(jù)結(jié)果,下面從專利申請趨勢、關(guān)鍵技術(shù)、主要競爭者、重點專利4 個維度,對歐洲智能語音技術(shù)發(fā)展現(xiàn)狀進行深入分析和初步判斷。
表1 智能語音自標引技術(shù)分支表[8]
自20世紀80年代西歐“尤里卡計劃”實施以來,歐洲國家越來越重視在人工智能等領(lǐng)域開展研究與發(fā)展合作。從圖1可以看出,歐洲智能語音領(lǐng)域?qū)@笾陆?jīng)歷了發(fā)展、快速增長、迅速下降、緩慢上升和緩慢下降這5 個階段,反映了歐洲智能語音技術(shù)的生命周期。研究顯示,2000年之前專利申請量上升較快,在2000—2004年大幅增加,這充分說明了歐洲智能語音專利申請與歐洲國家出臺的重要戰(zhàn)略和政策密不可分,在此期間研發(fā)活動較為活躍,因而申請量較大,在2004年達到峰值(141 件),自2004年后呈下降趨勢,在2014—2015年專利申請量下降趨勢明顯,這與專利發(fā)布有18 個月的滯后期有一定的關(guān)系。
從歐洲智能語音技術(shù)的三大技術(shù)類別來看,語音識別專利申請量占總申請量的七成以上,與歐洲智能語音總體發(fā)展趨勢相一致,語音合成專利申請量占兩成以上,自然語言理解專利申請量僅占不到一成。語音識別技術(shù)和語音合成技術(shù)發(fā)展趨勢在近年來都有不同程度的下降,這也反映了語音合成技術(shù)和語音識別技術(shù)發(fā)展較為成熟,并開始進入衰退期,企業(yè)利潤率減少,因此自2002年后專利的申請總量呈下降趨勢;而自然語言理解專利在技術(shù)發(fā)展及應(yīng)用上有較大的技術(shù)發(fā)展空間,體現(xiàn)了智能語音的未來發(fā)展方向,因而自然語言理解專利申請量變化較為平穩(wěn),其專利申請趨勢與總體趨勢出現(xiàn)了不同的走勢,在2013年后呈現(xiàn)平穩(wěn)上升的態(tài)勢。
表2 智能語音檢索關(guān)鍵詞
圖1 歐洲智能語音領(lǐng)域?qū)@暾堏厔?/p>
圖2是20世紀90年代以來歐洲在語音合成、語音識別和自然語言理解領(lǐng)域細分技術(shù)的分布情況。以每3年一個時間段為節(jié)點,將1990—2015年分為9 個時間區(qū)間,顯示了歐洲智能語音領(lǐng)域10 個細分技術(shù)專利申請的發(fā)展趨勢。語音識別是智能語音領(lǐng)域一項成熟的技術(shù),其產(chǎn)業(yè)發(fā)展和應(yīng)用都比較廣泛,專利申請總量較多,主要集中在20世紀末21世紀初,但總體上均呈現(xiàn)先上升后下降的態(tài)勢,其中聲學模型是語音識別系統(tǒng)中最關(guān)鍵的部分。該技術(shù)歐洲專利申請量最多,增長較快,波動最為明顯,于1999-2001年達到了峰值(111 件)。語音合成領(lǐng)域中基于共振峰、LPC和LMA技術(shù)是非常有效的語音分析技術(shù),起步較早,應(yīng)用較為廣泛,可以對語音產(chǎn)生模型的參數(shù)進行準確推算,因此也不難發(fā)現(xiàn),基于共振峰、LPC和LMA技術(shù)的專利申請量較大,趨勢波動較為劇烈,于2002—2004年達到了峰值(47 件)。自然語言理解以語言學為基礎(chǔ),內(nèi)容涉及多門學科,是人工智能領(lǐng)域中的一個重要方向,從圖2中明顯可以看出,自然語言理解的專利申請總量雖然較少,但技術(shù)發(fā)展趨勢較為平穩(wěn),尤其是自然語言理解對計算機實現(xiàn)技術(shù)要求的不斷提高,人機交互的成果不斷出現(xiàn),從而推進了機器翻譯的持續(xù)發(fā)展,因此有的細分技術(shù)發(fā)展較為平穩(wěn),沒有出現(xiàn)大起大落的波動趨勢。
表3顯示了20世紀90年代以來歐洲智能語音領(lǐng)域排名前10 位的IPC小類專利申請情況。
圖2 歐洲智能語音領(lǐng)域?qū)@夹g(shù)申請發(fā)展分布
表3 歐洲智能語音領(lǐng)域?qū)@腎PC小類(前10 位)
從歐洲專利申請的國際專利分類號(IPC)統(tǒng)計結(jié)果來看,1990-2015年,排名前10 名的專利申請總數(shù)(798 件),占了總申請量(1647件)近半數(shù)。排在首位的是“創(chuàng)建基準模板;訓(xùn)練語音識別系統(tǒng),例如對說話者聲音特征的適應(yīng)”(G10L15/06),其專利申請量(281)占專利申請總量17.1%,其次是“利用自然語言模型”(G10L15/18)。再次是“語音識別”(G10L15/00),這三大技術(shù)領(lǐng)域的專利申請量總和(445 件)占專利申請總量的近三成。從表3分析得出,1990—2015年,歐洲智能語音技術(shù)重點在于發(fā)展語音識別、信息檢索、語音合成、語音增強等技術(shù)領(lǐng)域,在這些技術(shù)領(lǐng)域紛紛申請專利保護,以獲得在該領(lǐng)域的核心競爭力和技術(shù)優(yōu)勢。無論是從專利申請量排名前三占比情況,還是從專利申請量排名前十占比情況來看,在智能語音領(lǐng)域的技術(shù)發(fā)展中,歐洲研發(fā)重點和研究成果主要集中在語言識別技術(shù)上,相對于其他技術(shù)領(lǐng)域最為成熟,具有明顯的競爭優(yōu)勢。
從歐洲智能語音的三大技術(shù)領(lǐng)域來看,語音識別申請數(shù)占申請總量75.7%,語音合成占21.2%,自然語言理解占3.1%??梢?,語音識別占了七成以上,語音合成占了兩成,這兩個領(lǐng)域的技術(shù)成熟度較高,應(yīng)用較為廣泛。雖然自然語言理解作為熱點技術(shù),成熟度不高,但其發(fā)展?jié)摿薮蟆?/p>
在語音識別技術(shù)領(lǐng)域,聲學模型占申請總量的28.7%,后端處理占18.3%(其中解碼或解碼器占14.9%),語言模型占17.1%,前端處理占11.5%(其中降噪處理占11.1%)??梢?,從語音識別的流程處理來看,歐洲比較注重于建立聲學模型和語言模型,運用核心算法對語音進行識別,通過后端處理進行搜索解碼,對于降噪和特征提取等前端處理過程關(guān)注度相對不高(圖3)。
在語音合成技術(shù)領(lǐng)域,基于共振峰、LPC和LMA技術(shù)占申請總量的13.7%,基于波形拼接技術(shù)占3.9%,基于聲學統(tǒng)計建模技術(shù)占3.6%。基于共振峰、LPC和LMA技術(shù)在歐洲起步較早,這種參數(shù)合成方法主要是通過模擬發(fā)聲機理進行語音合成,可以靈活調(diào)整適應(yīng)不同的合成要求,在歐洲語音合成中的專利申請量比重較大(圖4)。
在自然語言理解技術(shù)領(lǐng)域,語言學技術(shù)占申請總量的1.9%,計算機上實現(xiàn)的占0.9%,語料庫占0.3%。自然語言理解是語言學、數(shù)據(jù)處理、人工智能和認知科學以及語言工程等諸多領(lǐng)域的熱門課題,具有廣闊的發(fā)展前景,歐洲日益重視和加強語言學技術(shù)的基礎(chǔ)研究和應(yīng)用,側(cè)重于信息檢索和人際交互方向,以真正實現(xiàn)人機自然交互的最終目標(圖5)。
圖6顯示了20世紀90年代以來歐洲智能語音領(lǐng)域排名前10 位專利申請人申請專利的情況。
從歐洲智能語音專利申請量排名(圖6)分析得知,居于前10 位的公司申請專利總數(shù)(571件)占專利總數(shù)(1647 件)的34.7%。從圖6中可以看出,美國、日本、歐洲企業(yè)占據(jù)優(yōu)勢,美國企業(yè)專利申請量占七成,日本企業(yè)占兩成,歐洲企業(yè)占一成。排名前5 名的申請人分別為微軟、AT&T、IBM、飛利浦和高通,競爭優(yōu)勢較為明顯,尤其是美國微軟公司,其專利申請量為107 件,在排名前10 位的機構(gòu)中占近兩成。可見美國企業(yè)和日本企業(yè)尤為注重在歐洲的專利權(quán)保護,在智能語音領(lǐng)域的創(chuàng)新能力和技術(shù)競爭實力較強。
雖然歐洲之外的國家紛紛在歐洲進行專利布局,但作為歐洲本土企業(yè)的飛利浦公司在智能語音技術(shù)研發(fā)中也具有較強的競爭力。飛利浦作為一家生產(chǎn)照明、家庭電器、醫(yī)療系統(tǒng)產(chǎn)品的公司,擁有8 萬項專利。隨著專利數(shù)量的上升,其專利布局也日益成熟,越來越注重知識產(chǎn)權(quán)的保護和防御,并且近年來在智能語音領(lǐng)域的實力也逐漸增強。2012年,飛利浦推出HUE智能照明系統(tǒng),使用Siri語音助理控制;2013年,飛利浦采用了Nuance的Dragon TV語音技術(shù)推出智能電視,為用戶在家庭娛樂控制體驗中帶來更多選擇和便利,用戶可通過日常語言與電視機“溝通”,實現(xiàn)從“看電視”到“玩電視”,與電視互動的轉(zhuǎn)變[10];2015年,飛利浦與阿里智能合作推出一款基于阿里智能系統(tǒng)的智能無線音箱——飛利浦小飛阿里智能音箱,在現(xiàn)有資源庫整合植入的同時加入了語音交互功能,并能脫離APP獨立使用,大大增加了其使用中的便攜性[11]。
圖3 歐洲語音識別技術(shù)專利分布
圖4 歐洲語音合成技術(shù)專利分布
圖5 歐洲自然語言理解技術(shù)專利分布
圖6 歐洲智能語音專利主要申請公司的專利申請數(shù)
從飛利浦公司的歐洲專利布局分析,其申請專利的技術(shù)領(lǐng)域集中在IPC的G部(物理),涉及IPC的兩個大類:G10(樂器、聲學,約占86.3%)和G06(計算、推算、計數(shù),約占13.7%)。排在前3 位的IPC小類分別涉及G10L(語音分析或合成、語音識別、音頻分析或處理)、G06F(電數(shù)字數(shù)據(jù)處理)、G06K(數(shù)據(jù)識別、數(shù)據(jù)表示、記錄載體、記錄載體的處理)技術(shù)領(lǐng)域,合計約占專利申請量的95%,排名前2位的IPC小組主要為G10L15/06(創(chuàng)建基準模板、訓(xùn)練語音識別系統(tǒng)、例如對說話者聲音特征的適應(yīng),約占27.3%)和G10L15/18(利用自然語言模型,約占18.2%),合計約占專利申請量的五成,說明飛利浦公司智能語音技術(shù)主要集中在語音分析、合成、識別和數(shù)據(jù)處理等方面,在這些方面技術(shù)創(chuàng)新較多,非常注重在歐洲本土進行專利布局,市場競爭力較強。
被引次數(shù)是判定專利質(zhì)量的重要指標,在通常情況下,專利越重要,被引證的次數(shù)就越多。表4顯示了20世紀90年代以來歐洲智能語音領(lǐng)域排名前10 位重點專利被引情況。
從表4分析得出,歐洲智能語音技術(shù)領(lǐng)域涉及3 個大類:G10(樂器、聲學,約占75.4%)、H04(電通信技術(shù),約占18.5%)和G06(計算、推算、計數(shù),約占6.1%),排在前3 位的IPC小類分別涉及G10L15/06(創(chuàng)建基準模板、訓(xùn)練語音識別系統(tǒng)、例如對說話者聲音特征的適應(yīng),約占46.8%)、G10L15/22(在語音識別過程中,約占12.4%)、H04M1/27(可以同時存儲許多信號的裝置,約占11.2%),合計約占專利總被引次數(shù)的七成,技術(shù)研發(fā)主要集中在語音識別的聲學模型和語音合成上,其中涉及語音識別的達238次,約占專利總被引次數(shù)的近六成;主要申請人包括AT&T、IBM、領(lǐng)英、LG、施樂、佳能信息等公司,除了LG是韓國企業(yè)外,其他均為美國公司,這反映了美國非常注重在歐洲的專利布局,處于絕對的壟斷地位,在歐洲智能語音領(lǐng)域具有較強的影響力。
圖7顯示了20世紀90年代以來歐洲智能語音領(lǐng)域被引專利數(shù)量排名前10 位申請公司情況。
根據(jù)總被引次數(shù)分析(圖7),在歐洲智能語音專利的前10 位申請人中,AT&T和IBM公司高被引專利量達233 次和172 次,排在前兩位,遠遠領(lǐng)先于其他專利申請人,其研究成果對智能語音的研究和技術(shù)開發(fā)具有重要的參考和借鑒意義。另外,根據(jù)專利的平均被引次數(shù),LG公司專利平均被引次數(shù)最高(15.33 次),其專利質(zhì)量也相對較高,其次是領(lǐng)英公司(12.75 次)。無論從專利總被引次數(shù)還是平均被引次數(shù),都不難看出,美國非常注重在歐洲進行專利布局,專利申請數(shù)量和質(zhì)量都呈現(xiàn)穩(wěn)步上升的態(tài)勢,擁有絕對的競爭優(yōu)勢。
表4 歐洲智能語音領(lǐng)域重點專利被引情況(前10 位)
圖7 歐洲智能語音領(lǐng)域高被引專利數(shù)量排名前10 位申請公司
本文從專利申請量、關(guān)鍵技術(shù)、主要競爭者、重點專利等方面,剖析了歐洲智能語音技術(shù)的發(fā)展,結(jié)果表明。
(1)20世紀90年以來,歐洲智能語音技術(shù)專利申請量起伏較大,總體上呈現(xiàn)先上升后下降的趨勢,大致經(jīng)歷了發(fā)展、快速增長、迅速下降、緩慢上升和緩慢下降5 個階段,語音合成技術(shù)和語音識別技術(shù)發(fā)展較為成熟,應(yīng)用較為廣泛,自然語言理解作為熱點技術(shù),雖然成熟度不高,但發(fā)展?jié)摿薮蟆?/p>
(2)歐洲本土企業(yè)的飛利浦公司競爭實力較強,其技術(shù)研發(fā)主要集中在語音分析、合成、識別和數(shù)據(jù)處理等領(lǐng)域,但是,美國和日本企業(yè)非常注重在歐洲進行專利布局,AT&T和IBM公司在歐洲智能語音領(lǐng)域具有較強的影響力。
(3)近年來,歐洲智能語音產(chǎn)業(yè)已經(jīng)從產(chǎn)業(yè)應(yīng)用發(fā)展到深入推廣階段,掌握了相當一部分產(chǎn)業(yè)核心技術(shù),憑借新興產(chǎn)業(yè)的支配地位,以新技術(shù)研發(fā)和新產(chǎn)品營銷為發(fā)展重點,獲得在技術(shù)創(chuàng)新方面的競爭優(yōu)勢,在智能家居、智慧教育、智能醫(yī)療、汽車智能化、智能機器人等社會發(fā)展領(lǐng)域都有著非常重要的應(yīng)用價值與開發(fā)前景。