作者│徐鑫
語音識別的未來之路
作者│徐鑫
盡管在瑪麗·米克爾第二十一次公布的年度《互聯(lián)網趨勢》報告中,提及語音識別正在成為未來的趨勢;但具體未來的語音識別究竟應該具備什么樣的功能,才能真正成為所謂的“風口”?
2016年6月,有“互聯(lián)網女皇”之稱的瑪麗·米克爾在美國Code大會上第二十一次公布了年度《互聯(lián)網趨勢》報告。報告稱,在技術終端和平臺方面,新的以語音為核心的交互模式漸成“風口”。這份報告的依據(jù)是亞馬遜智能音響Echo被熱捧,這款在2014年底推出的、基于語音識別的音響再次引發(fā)了業(yè)內的關注,甚至被喻為未來智能家居的真正入口。那么語音識別為何現(xiàn)在才被認為是未來趨勢,它將給我們帶來什么?
實際上,Amazon用于Echo上的語音技術在2011年就已經起步,其先是收購語音識別公司Yap。Yap成立于2006年,主要提供語音轉換文本的服務。2012年,Amazon又收購了語音技術公司Evi,繼續(xù)加強語音識別在商品搜索方面的應用;不得不提的是,Evi這家公司也曾經應用過Nuance的語音識別技術。2013年,Amazon繼續(xù)收購語音技術公司Ivona Software;Ivona是一家波蘭公司,主要從事文本語音轉換,其技術已被應用在Kindle Fire的文本至語音轉換功能、語音命令和Explore by Touch應用之中,Echo也是利用了這項技術。
由此不難看出,亞馬遜很早就已經通過并購與自研的方式進入到語音識別領域,只是此前相當?shù)驼{而已,更為關鍵的是,其擁有自己語音識別的核心技術—采用了非線性排列的遠程麥克風陣列(7個麥克風)。這使得相比Siri、Google Now、Cortana等存在于手機的語音助手,Echo最大的優(yōu)勢在于它超強的“聽力”。而比技術更重要的是應用,蘋果的Siri、谷歌的Google Now基本是面向智能手機等移動設備,微軟的Cortana除了智能手機,還面向傳統(tǒng)PC。而這些設備都有其他輸入方式,語音并非是有優(yōu)勢的解決方案。而亞馬遜則通過音響這種“取巧”的方式加以推廣應用,對音響來說,語音控制比拿起遙控器或者手機更方便。
好的途徑帶來更好的市場,Intelligence Research Partners預計,亞馬遜已銷售出了大約300萬臺Echo,其中在今年第一季度就銷售了100萬臺。其實在技術上,亞馬遜并非出類拔萃,但是它給語音識別應用一個好的定位。
其實,瑪麗·米克爾的言論并非那么權威,湊巧的是,語音識別在最近兩年取得了很大突破。
前不久,麻省理工學院(MIT)主辦的知名科技期刊《麻省理工科技評論》(MIT Technology Review),評選出了“2016年十大突破技術”?!堵槭±砉た萍荚u論》稱,在過去一年里,這10項技術均已經或即將到達一個里程碑式的階段。而語音識別的突破就在其中的第三項,通過該技術,可將語音識別和自然語言理解相結合,為全球互聯(lián)網市場創(chuàng)造切實可用的語音接口,而百度、谷歌、蘋果、Nuance通信公司、Facebook等公司是這一領域的大玩家。
實際上單純的語音識別技術已經很古老,PC時代IBM語音輸入的誕生至今已經20年了,蘋果的Siri可以追溯到更早期的軍方監(jiān)聽項目。而真正的難度在于語意識別,即把語音高正確率地轉化成文字還不夠,而是要聽懂人類在說什么,要表達什么意圖,這個才是“皇冠上的寶石”。幸運的是,隨著近年來人類科技的進步,這方面已經有了很大的突破。
突破首先來自于硬件的進步,這幾年計算機飛速發(fā)展,特別是通用計算的發(fā)展,使人類有了強大的計算能力,使得一些過去不可能實現(xiàn)的人工智能算法成為可能。
此外,在人工智能中神經網絡與深度學習都取得了很大進步,特別是深度學習算法的應用,大幅度提升了語音識別的正確率,并且提供了語意識別的可能。這方面,國內的百度走得很遠,百度語音識別可以做到安靜環(huán)境下97%準確率,領先正常人的聽力。如今,百度通過CNN(卷積神經網絡)與LSTM(長短時記憶模型)的混合建模,連接時序分類(CTC)訓練已經做到了真實環(huán)境中,日常非標準語言的精確識別,百度甚至在上海某家KFC放了一個機器人,與人自由對話、點餐。這不是編程對固定指令的處理,而是人工智能設備直接與人對話,理解人的語言,這才是語音技術的真正突破。
編輯|孫永杰 sunyongjie@bjxintong.com.cn