?
科大訊飛的人工智能探索
技術(shù)創(chuàng)新將來不會顛覆人類,而是會讓人類生活得更幸福
2 015年12月21日,科大訊飛董事長劉慶峰在公司年度發(fā)布會上,首次面向全球3000多人發(fā)表演講,他一邊演講,機器人一邊把他的語音轉(zhuǎn)變?yōu)閮蛇叴笃聊簧系奈淖?,通過視頻直播,所有觀眾也都可以看到機器“轉(zhuǎn)寫”的結(jié)果。一個多小時的演講,機器“轉(zhuǎn)寫”的準確率超過95%,比速記員還高。
這讓劉慶峰十分自豪,因為中國企業(yè)定義了萬物互聯(lián)時代人機語音交互的全新標準。
作為亞太地區(qū)最大的智能語音和人工智能上市公司,科大訊飛創(chuàng)立于1999年,具有語音合成、語音識別、語音翻譯等多項領(lǐng)先技術(shù),占有中文語音市場70%的份額。
科大訊飛以語言、語音為入口的認知智能“訊飛超腦”,與“百度大腦”提出的感知智能,被認為是中國人工智能的兩大風(fēng)向標。
今年距離世界上人工智能概念的首次提出已60年。而中國人工智能的發(fā)展歷史只有30年——1986年國家863計劃中首次提出做語音合成。
1999年,劉慶峰與中國科大的師兄弟們一起創(chuàng)辦了科大訊飛,探索產(chǎn)學(xué)研結(jié)合的機制來發(fā)展智能語音產(chǎn)業(yè)。
智能語音是一門交叉學(xué)科,需要聲音、語言和計算機多學(xué)科的融合。在新的機制下,科大訊飛承擔了智能語音國家工程實驗室的職能,加快整合國內(nèi)外的源頭技術(shù)資源,在清華大學(xué)、中國科學(xué)院聲學(xué)所和中國社科院語言所等單位,都建立了聯(lián)合實驗室。
最初,科大訊飛開發(fā)的是一款面向普通消費者的智能語音軟件,因為太超前遭到冷遇,公司生存岌岌可危。有人說,轉(zhuǎn)行算了;有人說,不如改做房地產(chǎn)。但劉慶峰篤信語音交互將成主流。
后來,科大訊飛轉(zhuǎn)做B2B市場,給華為、中興、聯(lián)想等大企業(yè),提供智能語音應(yīng)用的嵌入式軟件,公司經(jīng)營好轉(zhuǎn),逐步實現(xiàn)了盈利。
劉慶峰說,之所以堅持下來,核心是對語音發(fā)自內(nèi)心的熱愛。
“第一,我們熱愛它。第二,我們對自己有信心。第三,商業(yè)邏輯也決定了必須要做源頭創(chuàng)新,才有可能在市場上立足。高科技領(lǐng)域從來沒有捷徑可走,你如果不做原創(chuàng)技術(shù)創(chuàng)新,那市場上一定沒有你的機會,很多技術(shù)產(chǎn)品只有第一、沒有第二。”劉慶峰說。
微軟、谷歌、百度、騰訊等國內(nèi)外IT巨頭,也紛紛搶食智能語音產(chǎn)業(yè)的巨大商機。在與巨頭們的較量中,科大訊飛如何能突圍而出、實現(xiàn)領(lǐng)先?
除了在智能語音領(lǐng)域的專注、堅持、努力,科大訊飛還把技術(shù)創(chuàng)新戰(zhàn)略定為“頂天立地”。
“頂天”是指技術(shù)上一定要保持國際領(lǐng)先的水平,為此不惜大量地投入;“立地”是技術(shù)要落地,服務(wù)于億萬家庭和用戶,“我們要比科學(xué)界更知道技術(shù)的發(fā)展趨勢,比消費者更知道他需要什么。一流的企業(yè)滿足市場,超一流的企業(yè)創(chuàng)造市場,訊飛要做創(chuàng)造市場的企業(yè)”。
過去掣肘中國科技創(chuàng)新的是機制問題。所以科大訊飛推動了產(chǎn)、學(xué)、研資源整合,把中國科大、中科院聲學(xué)所、中國社科院語言所、清華大學(xué)、新疆大學(xué)、西藏大學(xué)等相關(guān)研發(fā)資源聚攏在一起。
憑借擁有自主知識產(chǎn)權(quán)的智能語音技術(shù),科大訊飛推出從大型電信級應(yīng)用到小型嵌入式應(yīng)用,覆蓋從電信、金融等行業(yè)到企業(yè)和消費者用戶,從手機到車載,從家電到玩具等產(chǎn)品。
從電信、IT業(yè)起步,嵌入式智能語音軟件的應(yīng)用,下一步的重點是智能家居、智能車載及穿戴式設(shè)備方向。今年,科大訊飛與京東合作推出一款“DingDong智能音箱”。智能語音應(yīng)用很多,科大訊飛正在有選擇、有步驟地開拓不同細分市場。目前,康佳、長虹、TCL等國內(nèi)主流彩電企業(yè)均與訊飛展開了合作。
科大訊飛已占有中文語音市場70%的份額,以訊飛為核心的中文語音產(chǎn)業(yè)已初具規(guī)模。隨著移動互聯(lián)網(wǎng)的到來,2010年,科大訊飛率先發(fā)布了全球首個提供移動互聯(lián)網(wǎng)智能語音交互能力的“訊飛開放平臺”,還推出了“訊飛輸入法”“靈犀”等手機應(yīng)用。
“訊飛開放平臺”通過5年的發(fā)展,已經(jīng)開放了語音合成、語音識別、語義理解、語音喚醒、語音評測、人臉識別、聲紋識別等10項核心能力,旨在構(gòu)建全新移動互聯(lián)網(wǎng)語音及交互生態(tài)。目前,訊飛開放平臺已吸引了包括QQ、高德地圖、滴滴、攜程、大眾點評、新浪微博等在內(nèi)的8萬多合作伙伴,覆蓋終端用戶數(shù)超過8億。
語音交互技術(shù)的下一步,是人工智能,科大訊飛對此深信不疑。
未來的物聯(lián)網(wǎng)時代,由“云+端”構(gòu)成。人與各種智能終端之間進行語音交互,形成的大數(shù)據(jù)反饋到后臺的云,云計算中心利用人工智能技術(shù)做出預(yù)測、判斷,再反饋到各種智能終端,讓人享受更好的產(chǎn)品和服務(wù)。
“訊飛超腦”是科大訊飛目前推出的針對人工智能領(lǐng)域的重大攻關(guān)項目。目標就是要實現(xiàn)一個真正的中文的認知智能計算引擎,未來將真正引爆在教育、客服、人機交互、醫(yī)療等領(lǐng)域的智能應(yīng)用。劉慶峰曾表示,只有掌握人工智能技術(shù),才能搶占未來科技發(fā)展的制高點??拼笥嶏w不僅要抓住“小波浪”的創(chuàng)新,更關(guān)鍵的是抓住“大波浪”的創(chuàng)新,而下一輪“大波浪”正是物聯(lián)網(wǎng)和人工智能時代。
“我們定義了萬物互聯(lián)時代人機語音交互的全新標準?!眲c峰自豪地說,萬物互聯(lián)時代的人機交互,第一需要遠場,人對機器說話,應(yīng)該在3-5米之外也能聽得清;第二可以隨時隨地打斷了仍能繼續(xù)進行交互;第三是上下文要相關(guān),比如問上海明天天氣,機器回答完,你說合肥呢,它馬上就知道說合肥的天氣。
“技術(shù)創(chuàng)新將來不會顛覆人類,而是會讓人類生活得更幸福。”
作為“訊飛超腦”計劃的一部分,類人答題機器人的研制如火如荼??拼笥嶏w計劃讓機器在未來三到五年,也就是2020年高考時可以考上一本。它有交互、知識管理、學(xué)習(xí)和推理三方面能力,可應(yīng)用在教育、醫(yī)療等領(lǐng)域。
一些地方高考的英語口語測試,已經(jīng)嘗試用科大訊飛的機器打分,通過應(yīng)用這套系統(tǒng),還可以提升日常師生教課和學(xué)習(xí)的效率。
而在醫(yī)療領(lǐng)域,劉慶峰說,一線的全科醫(yī)生將來很缺乏,這套系統(tǒng)也可以應(yīng)用在醫(yī)療上。未來醫(yī)生看病,可能會越來越多在網(wǎng)上進行,病人一說病癥,系統(tǒng)就自動做出判斷,給醫(yī)生相應(yīng)的提示和指導(dǎo)。
訊飛超腦計劃的思路叫沿途下蛋,階段性成果要能用起來?!眲c峰透露,訊飛已推出一個智慧學(xué)習(xí)的網(wǎng)站叫“智學(xué)網(wǎng)”。
“沿途下蛋”的過程中,如何在技術(shù)創(chuàng)新與商業(yè)收益之間平衡?劉慶峰介紹了其中的秘訣:科大訊飛有四級體系,聯(lián)合實驗室面對5-10年甚至更長遠的研究;科大訊飛研究院做3-5年的研發(fā);語音云平臺的開發(fā)部門把研究院的成果變成產(chǎn)品,外部的創(chuàng)業(yè)者也可以方便調(diào)用;在云平臺上,有教育業(yè)務(wù)、客服業(yè)務(wù)等各種服務(wù)。“這四級體系就可以保證我們不斷地進行源頭技術(shù)創(chuàng)新,同時還不斷地把階段性成果輸入到市場上?!?/p>
(本刊記者孫玉敏根據(jù)相關(guān)資料整理)