• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      搶灘智能語音

      2014-06-18 00:47霍娜
      中國計算機報 2014年22期
      關鍵詞:江濤廠商語音

      霍娜

      這是一個最好的時代,這是一個聲控的時代,這是個光明的季節(jié),也是個希望的春日。

      從幾年前蘋果Siri將語音迅速升溫推至消費者面前,到現(xiàn)在語音助手幾乎已成為智能手機、汽車電子、智能家居的標配,從人們過去在路邊招手打車到現(xiàn)在先用微信與出租車師傅說好再出門……似乎,智能語音產業(yè)已經迎來生機盎然的春天。語音一時間成為輿論的焦點:“語音將徹底替代鼠標、鍵盤”,“語音將成為移動互聯(lián)網主流信息入口”,“誰掌控語音誰就將掌控一切”……看好、贊揚語音之聲不絕于耳。

      但一個技術從萌芽期開始不斷發(fā)展,要醞釀多久才會到爆發(fā)期?智能語音產業(yè)是真的到爆發(fā)期了,還是被提前過度炒作了?智能語音產業(yè)現(xiàn)狀和未來發(fā)展方向如何?中國智能語音企業(yè)又該如何選擇適合自己的成長路徑?帶著這些疑問,本報記者先后采訪多位智能語音專家,力求探知一二。

      莫錯失趕超良機

      智能語音是新一代的人機交互技術手段之一。就像人與人之間對話交流一樣,智能語音是要通過語音實現(xiàn)人與機器之間的交互,即機器能聽懂,并能回答提問,實現(xiàn)對話互動?!爸悄苷Z音技術主要包括語音識別、自然語言理解和語音合成三個環(huán)節(jié),完成讓機器聽懂人說話,再讓機器說人話的過程。這種交互需要基于海量的語料庫,通過模型實現(xiàn)語音識別和語義理解,包括對語法、分詞、情景,甚至是情緒等的理解,再通過知識庫系統(tǒng)找到答案,然后通過語音合成技術說出答案,來回交互?!痹诮邮苡浾卟稍L時,中國語音產業(yè)聯(lián)盟副秘書長李德升這樣給出他對智能語音的理解。

      百度語音首席研究員賈磊在第十八屆中國國際軟件博覽會的演講中介紹,百度語音就是通過語音識別、語義理解和后臺資源來實現(xiàn)“你說我聽”、“你說我想”和“你說我做”的過程,打造人機交互的閉環(huán)過程。

      人機智能語音交互,說起來容易做起來難。20世紀50年代,AT&T開發(fā)出第一個語音識別系統(tǒng)Audry;20世紀80年代,智能語音技術研究由傳統(tǒng)的基于標準模型匹配的技術思路開始轉向基于統(tǒng)計模型的技術思路;21世紀初,智能語音從技術研究走向實用并進入產業(yè)化,進入呼叫中心、家電、汽車等領域;而近期,以蘋果Siri發(fā)布為重要引爆點,智能語音應用才開始向移動互聯(lián)網等新興領域延伸,產業(yè)進而不斷積累、發(fā)展。

      智能語音技術是人工智能的研究領域之一,其原理涉及聲學、語言學、數(shù)字信號處理和計算機科學等多個學科,研究周期長,投入成本大,技術壁壘高。全球和中國智能語音市場基本形成寡頭壟斷的格局。隨著智能語音產業(yè)的快速發(fā)展,產業(yè)競爭進一步加劇,也吸引了IT巨頭和中小創(chuàng)業(yè)團隊爭相進入,與傳統(tǒng)語音技術提供商共同角逐智能語音市場。

      在國際市場,既有像Nuance這樣的占據全球62%語音市場的傳統(tǒng)語音技術巨頭,也有谷歌、蘋果、微軟、IBM等IT巨頭的競爭參與。在國內市場,李德升告訴記者,目前我國語音技術廠商基本分為三類:一類是傳統(tǒng)語音技術廠商,一般從科研院所基礎研究脫胎,包括像科大訊飛(中國科技大學)、捷通華聲(清華大學、中科院聲學所、北京大學)、中科模識(中科院自動化所)、中科信利(中科院聲學所)等;第二類是互聯(lián)網廠商,包括百度、騰訊、搜狗等,它們?yōu)榻o其廣大的互聯(lián)網用戶提供更好的增值服務,普遍采用戰(zhàn)略合作或者收購等方式,掌握智能語音技術,推廣語音服務;第三類是創(chuàng)業(yè)企業(yè),像云知聲、思必馳等,它們專注于某些行業(yè)領域,比如汽車、家電、教育、社交網絡來推廣自己的語音技術和產品。

      近幾年來,移動互聯(lián)網蓬勃發(fā)展,基于互聯(lián)網海量數(shù)據的深度神經網絡技術有力推進,智能家電、汽車電子、可穿戴設備等領域加速應用,汽車、醫(yī)療、智能家居、教育等行業(yè)應用不斷拓展,智能語音作為新的信息入口,開始引領產業(yè)重大變革。

      這一兩年來,我國智能語音市場也是風起云涌:2012年8月中國移動以13.6億元戰(zhàn)略投資科大訊飛,科大訊飛受二級市場機構投資者追捧市值超過200億元;云知聲創(chuàng)立僅一年就先后獲得兩輪投資,其中一次融資金額高達1億元;2013年5月,捷通華聲宣布來自百度、清華大學戰(zhàn)略投資;2013年8月,百度正式宣布向開發(fā)者開放語音生態(tài)系統(tǒng),包括底層的語音識別技術應用程序開發(fā)接口(API)、百度語音助手軟件開發(fā)工具包(SDK);同樣在這個月騰訊在微信5.0中增加語音輸入功能,一出來便風靡大眾,微信APP已經成為消費者每天必刷的強大APP之一;直到最近,2014年4月12日,云知聲組織創(chuàng)業(yè)公司牽頭成立“全智能交互聯(lián)盟”;2014年4月29日,科大訊飛的訊飛輸入法繼支持粵語、四川話、河南話等方言之后宣布支持東北話語音輸入;5月20日晚,錘子科技首款智能手機Smartisan T1發(fā)布,借科大訊飛智能語音技術實現(xiàn)語音搜索、語音輸入等特色功能……整個產業(yè)一片欣欣向榮。

      “智能語音是人機智能交互的手段之一,而人機智能交互是目前中國技術企業(yè)有可能趕超國際的為數(shù)不多的產業(yè)機遇之一。產業(yè)變革是以技術為先導的。在PC/互聯(lián)網時代,我國技術企業(yè)在計算機技術尤其是操作系統(tǒng)等方面,因為起步晚,趕超微軟、谷歌等國際技術公司比較難,但在智能交互這個技術領域,相對而言,目前中西方起步差不多,如果我們能把握好現(xiàn)在的機會,好好練內功,發(fā)展我們自己的包括智能語音在內的交互技術,也許在這方面我們可以真正和國際公司一較高下,真正從中國制造走向中國創(chuàng)造?!北本┙萃ㄈA聲語音技術有點公司(簡稱捷通華聲)董事長張連毅這樣告訴記者。

      與張連毅持相同觀點的還有科大訊飛信息科技股份有限公司(簡稱科大訊飛)副總裁江濤和北京云知聲信息技術有限公司(簡稱云知聲)CEO黃偉。在他們看來,智能語音是難得的一次產業(yè)良機,錯過語音,中國技術企業(yè)很難再有機會趕超國際了。

      磨一根針 破一片天

      “做語音是需要慢慢熬的?!边@句話記者不止聽一個被采訪人說過。

      1989年從清華大學畢業(yè)任職紫光推進OCR(圖像掃描識別),中間赴美,2000年與中國科學院聲學所研究員呂士楠共同創(chuàng)辦捷通華聲的張連毅稱自己是語音乃至整個智能交互行業(yè)的老兵。在他看來,從“入口說”、“門檻說”到“血統(tǒng)說”再到“技術說”,這兩年來的語音熱其實更多是一種炒作,而這種炒作對行業(yè)本身未必有多大好處?!拔抑徽J可‘技術說。因為語音只是交互的方式之一,智能語音就是一門技術,它與應用結合,這項技術就能創(chuàng)造出巨大價值。而這門技術的特點是厚積薄發(fā),需要慢慢積累,所以這就決定智能語音產業(yè)是要用一根針刺破天的專業(yè)領域,而不是用一個鐵錘砸出一片聲勢的產業(yè),必須專注、專業(yè),精耕細作,深耕久釀。”endprint

      而所謂的積累,在云知聲CEO黃偉看來,就是算法、數(shù)據和團隊經驗的積累。他告訴記者,作為創(chuàng)業(yè)型公司,“云知聲的優(yōu)勢不在于數(shù)據積累,而在于算法。從云知聲成立第一天起,我們就用了比對手少一個數(shù)量級的數(shù)據來訓練算法模型,最終達到甚至超越對手產品性能,這個過程我們也積累了豐富而寶貴的團隊經驗。而現(xiàn)在開放的語音云平臺已經讓我們有了很多用戶數(shù)據,我們的數(shù)據短板已經得到了彌補?!?/p>

      黃偉畢業(yè)于中國科學技術大學,后加入摩托羅拉并帶隊研發(fā)出世界上首個手機聲紋認證系統(tǒng)。國際金融危機期間,摩托羅拉將整個語音識別團隊出售給Nuance。黃偉拒絕被Nuance收編,于2009年7月加入盛大網絡旗下的創(chuàng)新院,2010年10月創(chuàng)建了語音分院,2013年年底正式出任公司CEO。黃偉告訴記者,在技術方面云知聲先后四次升級語音識別內核,目前識別準確率達96.26%,技術領先,并且可提供中、英、粵多語言識別;在商業(yè)化方面,云知聲單月簽約額突破千萬元,合作伙伴超過3200家,云知聲智能語音已廣泛應用在移動互聯(lián)網、智能家電、車載、可穿戴設備、呼叫中心、教育、醫(yī)療等領域。

      無獨有偶,科大訊飛副總裁江濤也同樣是語音界的老人。畢業(yè)于中國科技大學自動化與計算機專業(yè)的他是科大訊飛的元老,作為科大訊飛創(chuàng)業(yè)團隊成員,一直在從事語音技術在通信和互聯(lián)網方向的應用推廣。在江濤看來,語音技術和其他技術一樣,都在沿技術成熟曲線不斷發(fā)展。幾年前蘋果Siri帶動語音走進向上發(fā)展階段,那時整個產業(yè)被看好,很多資本投入進來至一個高潮,而現(xiàn)在是高潮過后走入技術成熟曲線下行階段,很多人開始悲觀,資本撤離,只有堅持下來的公司能做成。他判斷,帶語音走入下一波上行曲線的動力很可能是可穿戴設備、智能家居、智能汽車等。

      江濤向記者回憶,在上世紀90年代,當時公認語音做得最好是南北二“王”,南“王”就是中國科技大學的王仁華老師,他也是科大訊飛第一任董事長,也是他支持科大訊飛現(xiàn)任董事長劉慶峰創(chuàng)業(yè)的;北“王”指的就是清華大學的王作英老師,語音識別和語音合成做得都很不錯。在江濤看來,語音成為人機交互的主要信息入口這是大勢所趨,毋庸置疑,只是語音真正價值的實現(xiàn)還有賴于技術的成熟和應用的普及。應用的普及需要慢慢來,引導、教育市場,培養(yǎng)人們的使用習慣要一點點推進,但要全面推廣、普及還是需要過程的?!皫啄昵耙怯腥嗽陔娞堇飳χ约菏謾C喃喃自語大家都會覺得奇怪,不知道這人干嘛呢,但現(xiàn)在因為微信的普及,這種行為習慣已經被接受認可?!?/p>

      而對于技術的成熟,江濤同樣認為是需要專注投入、不斷積累的。江濤向記者介紹目前的語音識別技術現(xiàn)狀,他以環(huán)境從嘈雜到安靜的程度為橫軸,以人說話的清晰程度為縱軸,劃分四個象限。在第一象限,也就是環(huán)境也安靜、人說話也清楚的情況下,目前各家語音廠商技術實力差距不大,語音識別率都很高。在第二象限,也就是環(huán)境嘈雜、網絡不好的情況下,目前科大訊飛做得很不錯。噪音大、網絡信號時斷時續(xù)非常影響語音識別效果?!败囕d語音識別最大的對手就是噪音。2013年8月,奔馳在全球對云技術提供商進行選型發(fā)布的報告中分別按不同時速(每小時60、100、140公里)測噪,科大訊飛是唯一在100公里時速上識別率超過90%的廠商?!苯瓭院赖亟榻B。在第三象限,也就是環(huán)境不錯、人發(fā)音不太配合(最典型的各種口音)的情況下,看的就是對語言種類,尤其是方言的支持程度。云知聲實現(xiàn)對粵語、英語的識別支持。科大訊飛除了實現(xiàn)對粵語、英語的識別支持,2014年以來陸續(xù)支持對河南話、四川話、東北話等方言的識別。江濤透露今年還會陸續(xù)支持湖南話、山東話、武漢話、合肥話、閩南話的方言識別。除了口音之外,語速、講話模式等也會對語音識別帶來不同挑戰(zhàn),比如演講與開會的語音識別的識別算法和模型都不一樣。“今年年底科大訊飛將推出一個產品實現(xiàn)普通話開會過程中,將語音轉變?yōu)槲淖郑R別率很高?!苯瓭嘎丁6诘谒南笙?,即環(huán)境又不好、發(fā)音又不好的情況是世界性的難題,很難有誰能攻克。

      各展所長 開放競合

      隨著谷歌、微軟、IBM等IT巨頭加快對智能語音領域的布局,以及Nuance在中國的本土化不斷加強,國內語音企業(yè)將面臨越來越大的競爭壓力。相較于Nuance等國際巨頭,國內語音企業(yè)在研發(fā)力量、創(chuàng)新能力、集成應用、行業(yè)應用拓展等方面還有不小差距。國內語音企業(yè)間的合作、并購、整合步伐也相對要緩慢一些。

      對于國內語音企業(yè)的發(fā)展,作為行業(yè)專家的李德升給出了他的見解和建議。他認為,在傳統(tǒng)語音技術廠商中,科大訊飛的實力有目共睹,而捷通華聲的語音合成在鐵路交通、金融電信等領域也有較高的市場占有率,很多高鐵、公交站等的報站語音是捷通華聲做的。對于這類廠商,李德升給出的建議是得專注于語音,引入互聯(lián)網思維,真正做大做強。對于百度、騰訊、搜狗等互聯(lián)網廠商做語音,李德升認為他們具有最豐富的互聯(lián)網語音資源,更重要的是他們有技術實力、有用戶、有互聯(lián)網思維,這些廠商最有可能可以和國外競爭者一較高下。而對于第三類語音創(chuàng)業(yè)企業(yè),李德升的建議是盡量采取合作方式,與互聯(lián)網廠商合作,專注于特定行業(yè)領域積累實力,既不能小富即安,也不能貪高大上,只要積極進取,踏實經營,還是有非常大的成長空間的。

      “其實,以蘋果為代表的軟硬件一體化廠商做語音是為了賣硬件產品,互聯(lián)網廠商大多是從幫助用戶搜索的角度做語音,相對于創(chuàng)業(yè)型的語音企業(yè),科大訊飛的優(yōu)勢就在于語音的寬度和厚度積累,優(yōu)勢就在于多年來對語音識別、語音合成、語音評測與語義理解各方面立體的投入和研究,目前擁有全方位立體的語音技術產品。”江濤說,在語音推廣方面,科大訊飛堅持兩條腿走路:一是堅持移動互聯(lián)網能力開發(fā),一是通信、教育和安全等重點行業(yè)推進。逐步拓展移動互聯(lián)網能力的三駕馬車是手機、汽車和智能電視。目前科大訊飛手機語音已經有四億的用戶,每天活躍用戶達四千多萬。在教育領域,科大訊飛的語音合成、語音評測在廣東高考英語口語考試,西部中小學的英語教具和日常教學中已經發(fā)揮很大作用;而在安全領域,公安部第一個跟企業(yè)合辦的部級重點實驗室——公安部聲紋實驗室就設在科大訊飛。

      江濤也坦言,相較于百度等互聯(lián)網巨頭做語音,傳統(tǒng)語音技術廠商確實存在一些劣勢,“在整個大的開發(fā)平臺、云存儲、位置服務和構建整個生態(tài)系統(tǒng)方面,互聯(lián)網公司確實值得我們學習。我們還是要專心做好自己所長,聚焦在語音和語義方面,真正做好開發(fā)者服務,基于語音和語義構建生態(tài)系統(tǒng),嘗試推廣人機交互廣告等?!?/p>

      “互聯(lián)網巨頭要擁有語音這個技術,不被別人卡住喉嚨,但他們有自己的主業(yè),不會放太多精力在語音上。”張連毅如此判斷,“語音技術廠商只要做好自己的技術和產品,保持開放合作就能獲得良好的發(fā)展?!背撕粚嵵悄苷Z音市場,捷通華聲更要做的是實現(xiàn)包括智能語音、圖像識別(OCR)、生物特征識別在內的全方位的人機智能交互。

      說到與其他廠商的競爭,云知聲并不擔心。干凈環(huán)境下朗讀語音的識別早已不是問題,特殊場景應用大幅提升,語音市場未來潛力巨大。黃偉認為,語音這個市場足夠大,找準各自細分的目標市場,只要各自做得好,都能分到自己那杯羹,生存發(fā)展的機會很大。云知聲除了做金融等行業(yè)應用推廣,主要聚焦在視頻和車載領域。而對于全智能交互,云知聲的策略是連橫——聯(lián)合多家創(chuàng)業(yè)公司,包括語義理解技術公司哦啦、圖像識別技術公司亮風臺、人臉識別技術公司Face++成立了全智能交互聯(lián)盟,將語音、圖像、人臉交互方案打包,期待不同的交互技術發(fā)生化學反應,用做乘法代替做加法,為用戶打造最佳的全智能交互體驗。除此之外,云知聲仍將專注于云(移動應用、呼叫中心、在線教育)、端(智能終端包括智能家電、可穿戴設別、智能車載等)、芯(智能芯片)領域的智能語音推廣與應用。

      的確,這是一個蓬勃向上的時代,也是一個不進則退的時代。中國語音技術企業(yè)只要抱定“以針破天”的信念,專注堅持,踏實積累,把握機遇,就能鯤鵬擊浪,展翅怒飛,扶搖直上九萬里。加油吧,中國智能語音。endprint

      猜你喜歡
      江濤廠商語音
      愛情如衣
      玩具廠商及合作機構新年進步
      魔力語音
      基于MATLAB的語音信號處理
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      對方正在輸入……
      廠商對北京卡車市場不抱希望
      改革強軍打頭陣
      考慮產能約束的耐用品廠商易耗部件兼容策略
      Preparation and characterization of TiO2-SiO2-Fe3O4 core-shell powders in nano scale
      玛纳斯县| 炎陵县| 内黄县| 理塘县| 交城县| 湘乡市| 和林格尔县| 察隅县| 雷山县| 天长市| 宁城县| 龙南县| 平度市| 铜川市| 巴东县| 福泉市| 常德市| 萨迦县| 枣庄市| 巫溪县| 左权县| 子长县| 嘉善县| 葫芦岛市| 乌拉特后旗| 腾冲县| 永泰县| 施甸县| 巴中市| 卢湾区| 呼和浩特市| 沐川县| 砀山县| 广德县| 克拉玛依市| 永和县| 门头沟区| 龙胜| 长武县| 西丰县| 安国市|