李秀娟 孫劍鋒 韓虎 / 工業(yè)和信息化部電子知識產(chǎn)權(quán)中心
從專利視角看我國語音技術(shù)的發(fā)展
李秀娟孫劍鋒韓虎/工業(yè)和信息化部電子知識產(chǎn)權(quán)中心
摘要:移動互聯(lián)網(wǎng)和云計算的發(fā)展,語音技術(shù)得以發(fā)展和廣泛應(yīng)用。中國作為全球語音技術(shù)的主要市場,受到各大公司的關(guān)注。通過專利數(shù)據(jù)分析,發(fā)現(xiàn)我國是全球領(lǐng)軍企業(yè)專利布局的重點地區(qū),日本和美國企業(yè)布局了大量專利。國外領(lǐng)軍企業(yè)在全球主要地區(qū)都布局了大量專利,而我國領(lǐng)軍企業(yè)的專利布局主要集中在國內(nèi),全球競爭力較弱,如果產(chǎn)品出口可能面臨較大的知識產(chǎn)權(quán)風險。
語音技術(shù)的研究工作可以追溯到20 世紀50 年代AT&T 貝爾實驗室的Audry,它是第一個可以識別十個英文數(shù)字的語音系統(tǒng)。但真正取得實質(zhì)性進展,則是在60年代末70年代初。計算機技術(shù)的發(fā)展提供了硬件和軟件的保障,線性預測編碼(LPC)技術(shù)和動態(tài)時間規(guī)整(DTW)技術(shù)的提出,有效的解決了語音信號的特征提取和不等長匹配問題。20 世紀90 年代前期,許多著名的大公司如IBM、蘋果、AT&T和NTT都對語音識別系統(tǒng)的實用化研究投以巨資。國外以Nuance公司為代表,Nuance占據(jù)了全球語音識別產(chǎn)品市場的70%左右。
中國的語音技術(shù)發(fā)展相對滯后。2008年之前,語音控制還停留在學術(shù)研究領(lǐng)域,主要研究單位包括清華大學、中科院聲學所和自動化所、中國科學技術(shù)大學等高校科研院所。從 2008年開始,伴隨移動互聯(lián)網(wǎng)的快速發(fā)展,語音識別才真正形成產(chǎn)業(yè)。同時,借助云計算的大力發(fā)展,語音技術(shù)迎來了前所未有的發(fā)展機遇和規(guī)模應(yīng)用。
語音交互方式的專利申請起步較早,在2000年左右達到高峰,之后有所下降,最近幾年下降趨勢明顯。目前,語音交互技術(shù)比較成熟,識別率和準確率能日常應(yīng)用的基本需求,近幾年和未來的研究重點集中在自然語言理解,技術(shù)創(chuàng)新點較少,相應(yīng)地專利申請數(shù)量下降。(見圖1)
圖1 語音技術(shù)全球?qū)@甓壬暾堏厔菁爸袊鴮@甓壬暾堏厔?/p>
2011年,蘋果發(fā)布iPhone 4S,內(nèi)置Siri語音系統(tǒng),帶來了語音應(yīng)用的熱潮。谷歌也在開發(fā)類似于Siri的語音系統(tǒng),通過向安卓手機發(fā)出語音命令來控制機頂盒、智能手機和數(shù)字攝錄機等設(shè)備。三星在手機Galaxy III系列上應(yīng)用的S Voice語音服務(wù),能對8種語言進行識別。2013年微軟發(fā)布Xbox One,內(nèi)置Kinect傳感器和麥克風,可實現(xiàn)語音功能,隨后索尼發(fā)布的PlayStation 4,也支持語音功能。這表明,經(jīng)過長期的研究和積累,語音技術(shù)已走向市場,充分參與市場競爭。
相比全球申請,中國語音技術(shù)專利申請起步較晚,增長速度緩慢,1999年至2004年,是專利直線增長的時期。2005年到2011年,專利申請平穩(wěn)發(fā)展。國內(nèi)的語音控制產(chǎn)品從2011年開始出現(xiàn)。繼蘋果發(fā)布iPhone 4S之后,國內(nèi)手機廠商也不甘人后。如,華為在高端機上采用“語音智能助手”功能,中興和Nuance通訊公司合作名為“駕駛助手”的車載應(yīng)用。語音技術(shù)提供商科大訊飛自主研發(fā)語音云技術(shù),并將其應(yīng)用到智能電視中。
我國的語音技術(shù)研究和專利申請較早,但與國外相比仍然有若干年的滯后。從2005年開始到2011年相關(guān)產(chǎn)品才出現(xiàn),技術(shù)的積攢與產(chǎn)品的出現(xiàn)時間相隔較長。2007年以后云計算技術(shù)的發(fā)展解決了語音控制技術(shù)的諸多技術(shù)瓶頸,從而使得基于大數(shù)據(jù)庫和深度神經(jīng)網(wǎng)絡(luò)的語音識別迅速達到實用化水平。同時,在我國,由于中文語言與英文等西方語言的巨大差異,語音技術(shù)也有很大區(qū)別,因此一定程度的滯后是正常的。
全球申請量排名前20的申請人中,日本和美國申請人的專利實力較強,在申請人數(shù)量和專利申請數(shù)量方面都占據(jù)較大優(yōu)勢。日本申請人有12位,美國申請人5位,申請人專利申請量都在100件以上,其中,索尼、松下和IBM的申請量都在700件以上,排名前三。如圖2所示,不同顏色圖柱對應(yīng)不同國家的申請人。
圖 2全球語音控制領(lǐng)域?qū)@暾埲伺琶?/p>
以上排名反映了全球語音市場各申請人對語音技術(shù)的重視程度和專利實力。上述申請人在語音市場的競爭實力也不容小覷,在語音技術(shù)的研究過程中,不斷推出新產(chǎn)品。從市場反應(yīng)來看,這些產(chǎn)品的占有率和口碑都得到了消費者的認可。2013年,索尼發(fā)布了可接受語音控制的自有品牌電視棒Bravia Smart Stick及具備語音功能的PlayStation 4游戲機,具備語音輸入和語音控制功能。松下的Viera 2012系列平板電視,IBM的ViaVoice,微軟的Speech SDK,摩托羅拉頭戴式顯示器,高通的PureVoice等產(chǎn)品都支持語音功能。值得注意的是,以上排名靠前的專利申請人中沒有中國申請人。
在中國語音控制專利中,美國和日本處于領(lǐng)先地位。日本有七位申請人入圍,,美國申請人有四位。在前二十名申請人中,中國申請人有五位,中科院排名第五,其余申請人排名較為靠后。從專利申請數(shù)量上看,中國申請人與國外申請人差距較大。(見圖3)
圖3 中國語音控制領(lǐng)域?qū)@饕暾埲伺琶?/p>
從上述兩幅圖可看出,全球領(lǐng)軍企業(yè)注重中國市場,在中國布局了大量專利。飛利浦和索尼處于領(lǐng)先地位,申請數(shù)量達到140件左右。兩家公司都在中國設(shè)立研究院,分別為飛利浦亞洲研究院和索尼中國研究院,為在中國申請專利創(chuàng)造了有利條件。飛利浦的語音技術(shù)主要應(yīng)用在智能電視上,2013年,飛利浦推出支持普通話的語音控制智能電視,同年推出一款名為Surf(沖浪)的通用遙控器。索尼的語音技術(shù)主要應(yīng)用于游戲機PS系列,由于2000年文化部聯(lián)合其它七部委下發(fā)通知,全面禁止中國內(nèi)地的游戲機生產(chǎn)和銷售,因此索尼在中國的專利申請量與其全球申請量相比并不多。
進一步分析產(chǎn)業(yè)鏈特點,不難發(fā)現(xiàn),美國領(lǐng)軍企業(yè)既有技術(shù)提供商、網(wǎng)絡(luò)運營商,也有產(chǎn)品制造商,產(chǎn)業(yè)鏈完整而強壯,日本的企業(yè)以下游廠商電視制造商為主,產(chǎn)業(yè)鏈以下游為重;我國的產(chǎn)業(yè)鏈部分環(huán)節(jié)缺失,參與企業(yè)的類型、數(shù)量都較少,企業(yè)的規(guī)模和產(chǎn)品競爭實力與國外相比也有較大差距。
具體而言,美國不僅擁有許多實力強勁的大公司,而且其更大的優(yōu)勢在于這些公司較為合理地組成了完整而強壯的產(chǎn)業(yè)鏈。技術(shù)提供商以Nuance、微軟(研究院)、IBM、高通為代表,網(wǎng)絡(luò)運營商以AT&T為代表,產(chǎn)品制造商以微軟(產(chǎn)品)、蘋果為代表。這些企業(yè)不僅在專利申請中名列前茅,同時其技術(shù)輸出和產(chǎn)品在全球的影響力也是首屈一指。日本的應(yīng)用廠商數(shù)量龐大,除以上提到的廠商外,NEC,東芝、佳能、富士通、三菱、雅馬哈等都參與其中,實現(xiàn)了通過下游影響整個產(chǎn)業(yè)的目的。
我國的領(lǐng)軍企業(yè),中科院、華為和科大訊飛在專利申請數(shù)量方面與國外企業(yè)相比,差距較大。中科院作為科研機構(gòu),在語音技術(shù)方面研究較為深入,主要集中在算法等理論研究,目前為止還沒有相關(guān)產(chǎn)品問世,參與市場競爭較少。華為作為通信技術(shù)企業(yè),在智能手機業(yè)務(wù)方面與國外企業(yè)抗衡的實力正在逐步形成,其語音技術(shù)領(lǐng)域的應(yīng)用也主要集中在手機終端,業(yè)務(wù)領(lǐng)域待繼續(xù)擴展,專利實力也有待加強??拼笥嶏w是全球最大的中文智能語音技術(shù)和解決方案提供商,主要為智能電視、智能手機、家用電子設(shè)備等提供語音技術(shù)支持,其在中國市場的份額在50%以上,但專利申請嚴重不足,與龐大市場份額反差明顯。
圖4 各國領(lǐng)軍企業(yè)全球主要地區(qū)專利布局
從以上領(lǐng)軍企業(yè)中選擇各選擇一家企業(yè)作為中國、美國、日本、歐洲、韓國地區(qū)的代表企業(yè),分析上述企業(yè)在以上五個地區(qū)的專利布局情況。圖中對角線的氣泡大小表示上述企業(yè)在本國的專利申請力度,除對角線之外的氣泡大小表示上述企業(yè)向國外申請力度的大小??煽闯?,歐洲企業(yè)飛利浦、日本企業(yè)索尼具有較強的全球布局意識,尤其注重中國和美國市場;美國企業(yè)IBM在美國國內(nèi)申請專利較多,在全球?qū)@季州^為均衡。韓國三星也較為注重中國和美國市場。中國企業(yè)科大訊飛,專利申請集中在國內(nèi),這與科大訊飛專注中文語音技術(shù)研究有關(guān)。(見圖4)
通過觀察對角線氣泡大小可看出,各國的領(lǐng)軍企業(yè)在其國內(nèi)都有一定的專利實力。觀察對角線以外對應(yīng)的氣泡,可看出,領(lǐng)軍企業(yè)注重中國、美國、歐洲這些主要國家和地區(qū)的專利布局。此外,除科大訊飛外的公司都注重企業(yè)的海外布局、企業(yè)合作和全球產(chǎn)品銷售。如上述公司都在中國成立的研究院;都與語音技術(shù)提供商nuance合作,將其成果應(yīng)用到產(chǎn)品中;三星、索尼、飛利浦和IBM的產(chǎn)品及服務(wù)遍及全球,并享有良好聲譽。中國企業(yè)代表科大訊飛目前主要專注中文語音,業(yè)務(wù)范圍也局限與國內(nèi),在海外沒有專利申請,也沒有相應(yīng)的分支機構(gòu)或技術(shù)輸出。如果未來中國的語音產(chǎn)品出口海外,科大訊飛作為技術(shù)提供商將面臨較大風險。
語音技術(shù)經(jīng)過較長時間的發(fā)展,在全球大部分市場已經(jīng)較為成熟,技術(shù)性能達到實用化的要求,專利申請在2000年左右已達到高峰,未來研究的重點和熱點將集中于自然語言的理解。我國的語音技術(shù)相關(guān)研究和專利申請起步較國外有近10年的滯后。2007年以后,云計算技術(shù)的發(fā)展解決了語音技術(shù)的諸多技術(shù)瓶頸,基于大數(shù)據(jù)庫和深度神經(jīng)網(wǎng)絡(luò)的語音技術(shù)迅速達到實用化水平,預計未來的專利申請還將持續(xù)快速增長。
在語音技術(shù)領(lǐng)域,美國擁有許多實力強勁的大公司,其產(chǎn)業(yè)鏈完整而強壯;日本產(chǎn)業(yè)鏈以下游為重。我國語音技術(shù)領(lǐng)域的產(chǎn)業(yè)鏈發(fā)展與國外相比有明顯差距,部分環(huán)節(jié)仍空缺或薄弱,例如網(wǎng)絡(luò)運營商沒有介入其中,使得產(chǎn)業(yè)鏈的知識產(chǎn)權(quán)保護存在明顯的短板和缺失。而科大訊飛作為最大的中文語音技術(shù)提供商,其專利申請仍嚴重不足,與其占有的龐大市場份額反差明顯。我國在企業(yè)參與數(shù)量和專利申請數(shù)量方面與國外企業(yè)相比還有一定差距。
國外領(lǐng)軍企業(yè)注重技術(shù)、市場和專利的全球化布局,部分企業(yè)如飛利浦,在中國的專利申請數(shù)量甚至超過了其在歐洲的數(shù)量,說明國外領(lǐng)軍企業(yè)的向外申請意愿和全球市場意識強烈。雖然國外企業(yè)進軍中文市場較為困難,但如果該領(lǐng)域的核心基礎(chǔ)技術(shù)在中國申請了專利,將對我國企業(yè)的發(fā)展構(gòu)成一定威脅。我國以科大訊飛為代表的領(lǐng)軍企業(yè)專利申請集中在國內(nèi),在國外申請幾乎為零,未來產(chǎn)品出口將會面臨較大風險。鑒于我國的企業(yè)在國內(nèi)的專利申請數(shù)量也不多,整合產(chǎn)業(yè)鏈上下游的專利資源,可增強抗擊風險的能力。