賀文
智能音箱未必會成為入口,但語音交互一定是下一個流量入口。
這個生態(tài)鏈非常復雜,需要有資源有積累才能玩轉。迅雷創(chuàng)始人程浩最近撰文《創(chuàng)業(yè)公司做智能音箱是九死一生》,他分享了這樣一個觀點:在智能音箱語音交互這件事上,巨頭有著創(chuàng)業(yè)公司無可比擬的競爭優(yōu)勢,數據、內容和生態(tài)體系。
尤其是當巨頭選擇“開放”策略之后。比如百度DuerOS、阿里AliGenie、騰訊的叮當和小微,都已經選擇了做開放平臺。他們?yōu)橛布S商提供對話式人工智能系統、Skills以及內容的一站式服務。巨頭們都想做智能硬件AI時代的“安卓系統”。最惹眼的當屬百度,它剛剛宣布,百度將永久免費開放語音識別、語音合成和語音喚醒三大語音技術接口。
樂觀者認為,語音交互目前是一個封閉生態(tài),而一人之力難成大事,對一家單打獨斗的企業(yè)也是一樣。行業(yè)起步,場景逐漸放開,個性化需求呈現指數級增長,要想打破瓶頸和天花板,勢必要開放,要合作。同時,競爭本就殘酷,所有的語音公司沒有那一項技術是“你們能做我們做不了”的,尤其是在技術、資源、資本兼具的巨頭面前,大家無非都是跟時間賽跑。
讓BAT的優(yōu)勢資產“梅開二度”
巨頭下重注在語音賽道,目標是切入未來更大的人工智能(AI)市場,因為硬件背后的語音平臺有機會成為智能物聯網時代的“操作系統”,連接全新的產業(yè)生態(tài)。
人工智能時代靠的不只是技術,海量數據、暴力計算和大數據的豐滿度是重要的競爭優(yōu)勢,也正是互聯網巨頭的優(yōu)勢領域。百度高舉“免費”大旗,用意很明顯,一是走技術營銷路線,二是希望獲得足夠的運用場景來積累更豐富的語音語料數據。
對所有國內語音企業(yè)來說,百度是繞不過去的。“All In AI”的百度希望借人工智能這個“新風口”,重回中國互聯網行業(yè)之巔,因為在PC和移動互聯網時代百度借由搜索主業(yè)所沉淀的大量的產品、技術、數據等等資產,都將有可能在AI時代被充分地激活。
語音交互是2017百度世界大會上一條隱形的技術主線。除了李彥宏當天演示的手機百度TTS(從文本到語音)功能,足夠搶鏡的智能音箱Raven H,以及“幕后”百度對話式人工智能操作系統DuerOS2.0,百度度秘事業(yè)部總經理景鯤還在大會上宣布了DuerOS2.0正式對業(yè)界開放。
DuerOS是百度度秘事業(yè)部研發(fā)的對話式人工智能操作系統,搭載DuerOS的設備可讓用戶以自然語言對話的交互方式,實現影音娛樂、信息查詢、生活服務、出行路況等10大類目的100多項功能等操作。同時,借助云端大腦,DuerOS可以不斷學習進化,越變越“聰明”。
景鯤是DuerOS語音交互平臺的總負責人,直接向百度集團總裁兼COO陸奇匯報。2017年2月,百度對外公布了兩個重要消息:一是度秘團隊升級為度秘事業(yè)部,一是收購渡鴉團隊。兩條業(yè)務線都是向陸奇匯報工作。有媒體解讀,百度“這種軟硬融合的戰(zhàn)略選擇是極其正確的”,作為國內對人工智能投入力度最大的公司,百度終于在人工智能這個大方向上走在了對的路。
DuerOS開放平臺,從2017年7月百度AI開發(fā)者大會發(fā)布,到2.0版本亮相之間的四個多月時間里,加速迭代,合作伙伴已新增130余家、落地硬件解決方案超過20個、每月新增5款以上搭載DuerOS的設備。目前,DuerOS的對話能力已經應用到手機、電視、音箱等智能家居、智能穿戴和車載場景中。
外界說Raven H“漂亮得不像百度的產品”,李彥宏卻認為它很“百度”,意在更加聰明的對話能力“背后有百度這么多年做搜索的積累,無論是人工智能的技術,還是相關的數據,以及背后的知識圖譜”。依托百度在語音語義技術上的優(yōu)勢,DuerOS的野心是打造成人工智能時代的“安卓系統”。
C端和智能硬件一直是百度短板,過去幾年,百度在移動互聯網領域頻頻布局失誤,已經錯失了移動互聯網的紅利期。借由包括語音交互在內的AI技術,并且通過輸出技術性產品和服務,占領更多的終端,是百度現在迫切想做到的。
騰訊在語音賽道上的布局,則延續(xù)了它內部孵化創(chuàng)新所特有的“賽馬”機制。依據公開信息,騰訊目前有4個部分在做語音交互的平臺性產品,騰訊叮當、騰訊云小微(騰訊在2017年6月份正式推出的智能語音開放平臺)、騰訊AI Lab和騰訊的微信開放平臺。
最近嶄露頭角的,是在2017年11月騰訊全球伙伴大會上正式亮相的騰訊叮當。這是一款智能助手系統,提供高質、完整、開放的人工智能服務,幫助終端硬件設備快速獲得聽覺和視覺的交互能力。叮當專注于探索場景化的人機智能交互,騰訊在其中整合了信息服務、內容服務、生活服務和各種硬件的連接服務。與百度阿里不同的是,騰訊的優(yōu)勢是在音樂、閱讀、視頻、新聞、動漫、體育等泛娛樂領域擁有大量優(yōu)質內容和應用資源,這些恰恰是通過語音這種工具完成信息搜索、服務達成所必不可少的。
在AI時代,阿里給語音企業(yè)的印象是,“又有技術,又能做C端,還能突破。”最近沒參加烏鎮(zhèn)飯局的馬云,在上海某個地鐵站,用阿里iDST(Institute of Data Science & Technologies,數據科學與技術研究院)的語音技術,動動嘴就買了張地鐵票,還沒說喚醒詞。
阿里iDST語音團隊負責人鄢志杰對外介紹,地鐵智能購票系統所用的多模態(tài)交互就是阿里巴巴iDST團隊對下一代人機交互可能性的一種嘗試——把計算機視覺技術融合到語音識別技術中,攻克嘈雜環(huán)境下的遠講降噪問題,這樣一來,你只要走近機器,不需要喚醒,它就會自動與你發(fā)生交互。
對生態(tài)的渴求
對于思必馳這樣的專注于智能設備領域的語音技術服務商,像科大訊飛這樣的老牌智能語音公司一下子氣氛緊張起來,可預想的直接影響是,像BAT、京東、小米這些可能的、曾經的客戶,轉身伙伴秒變對手,似乎 AI一來,語音行業(yè)的洗牌在即。
“現在只要是干語音這行的,不管你是做市場的還是干技術的,不管你什么職位,大公司聞訊就會過來挖人,不設崗位、不設工資,一切面聊?!庇姓Z音行業(yè)的人士透露,語音領域的人才在國內一下子變得奇貨可居。
把對話鏈條的所有環(huán)節(jié)聚合到一起再開放給開發(fā)者,這樣的語音對話全鏈路平臺,現在國內主要有三股勢力在做:一是互聯網公司如百度DuerOS,一是專注于語音領域的老牌技術公司科大訊飛的訊飛開放平臺,一是思必馳今年9月推出的DUI 開放平臺。
DUI平并不是思必馳的首款開放平臺。2013年9月,思必馳發(fā)布了國內首款對話平臺“思必馳對話工場”,開放底層的ASR、TTS、NLU等SDK接口,把語音對話能力搭建在平臺上,賦能給移動互聯網的開發(fā)者。
但那時,移動互聯網產業(yè)還在中場,整個物聯網大產業(yè)還在非常早的早期,不像現有爆品、產品的這般普及度,整個產業(yè)鏈的成熟度、人工智能的成熟度、落地速度和質量也遠不及今天。那時的思必馳,面向的是相對弱的需求,是“拿著錘子找釘子”。
2015年,基于對軟硬件的探索,思必馳推出AIOS對話操作系統,賦能更多智能硬件合作伙伴。伴隨著物聯網端的速度更新加快,產品更加個性化,需求更加差異化,今年思必馳推出DUI開放平臺。
同時,語音交互領域的競爭環(huán)境也在迅速變化,攜技術、資源、資本優(yōu)勢的互聯網大公司相繼涌入這個領域,語音技術服務商所倚重的面向B端企業(yè)的項目制產品模式和盈利模式,在與互聯網公司的平臺制規(guī)?;^量時,優(yōu)劣對比越來越明顯。
開放和平臺,已是競爭大勢所趨。尚在創(chuàng)業(yè)階段的公司做平臺,“為與不為”變得相當重要。
思必馳CEO高始興表示,思必馳通過DUI平臺開放核心語音技術,愿意將DUI全鏈路的每個環(huán)節(jié)都開放,數據接口開放,硬件模組也開放,在這方面,思必馳已與海知智能、聲智科技建立了合作關系,比如在AI技能、文本分析、硬件模組接口等更加細分的技術層面,開發(fā)者既可以使用思必馳的語音技術,也可以用行業(yè)伙伴的技術。
在思必馳首席科學家俞凱看來,目前國內提供語音交互技能的公司大體上有兩種不同的思路。一是提供封閉的解決方案,所有的東西都包攬優(yōu)化;二是像思必馳DUI這樣的思路,開放,形成生態(tài)圈,有博弈的過程,但是多贏博弈的過程,在生態(tài)圈上大家互相體諒。
思必馳對AI領域的關注,也開始從聚焦人工智能物聯網上下游產業(yè)鏈,到關注傳統行業(yè),例如擴展到了教育、醫(yī)療等。在元禾資本、富士康、清華控股等LP的支持下,思必馳于2016年牽頭成立了馳星創(chuàng)投,截止目前,已成功投資、孵化了七家企業(yè)。
原阿里iDST語音團隊負責人初敏博士加入思必馳,也是今年下半年語音交互領域的一大新聞。由初敏牽頭,思必馳北京研發(fā)院正式成立,并將在一年之內組建從基礎研究到應用落地的研發(fā)團隊,為思必馳拓展新的業(yè)務路線,比如面向企業(yè)端的“智能服務”。
在通往平臺的路上,競爭已來。