對話主持:中興通訊云計算及IT研究院人工智能首席專家 杜新凱(左一)
對話嘉賓:醫(yī)渡云(北京)技術有限公司CTO 徐濟銘(左二)
知盛集團全球CEO 王曉梅(中間)
昆侖智匯數(shù)據(jù)科技(北京)有限公司CEO 陸薇(右二)
哈爾濱工業(yè)大學副教授、智能技術與自然語言處理研究室副主任 劉秉權(右一)
在2017中國軟件大會的“中國人工智能和大數(shù)據(jù)百人會·數(shù)智思享高峰論壇”上,四位來自產業(yè)界和學術界的高管、專家就“大數(shù)據(jù)開啟人工智能時代”這一話題展開了深入討論,分享了他們的真知灼見。
Q:怎么看待大數(shù)據(jù)和人工智能二者之間的關系?
劉秉權:當今IT領域的三大支柱是人工智能、大數(shù)據(jù)、云計算。如果人工智能是追求的目標,那么大數(shù)據(jù)和云計算則是人工智能的重要支撐。
當前人工智能發(fā)展的主流方向是深度學習,相當于大數(shù)據(jù)和深度學習的結合。就我個人而言,我研究的方向是自然語言處理,近幾年自然語言里最熱的是多人對話,像聊天機器人、智能客服等。
人工智能的發(fā)展歷程和自然語言處理比較吻合,因為自然語言處理是AI最重要的方向。很明顯的是傳統(tǒng)的技術逐漸過渡到當前深度學習領域,包括多人對話,傳統(tǒng)的方法用深度學習來解決。在其他領域,除了多人對話外,像語音識別、自動駕駛、人機博弈等,都充分體現(xiàn)了近幾年人工智能領域的發(fā)展。
近幾年人工智能的發(fā)展有以下幾個特點:第一,人工智能應用范圍廣,成績顯著;第二,人工智能的發(fā)展存在周期性。
當前深度學習延長了人工智能發(fā)展的周期,意義深遠。深度學習相比其他技術更貼近人腦的認知以及人的思維方式。
陸薇:昆侖智匯一直是用大數(shù)據(jù)和人工智能的技術來幫助工業(yè)企業(yè)解決問題和增加價值。在人工智能和大數(shù)據(jù)的關系的問題上,我個人認為二者沒有必然聯(lián)系,二者的關系依賴于不同問題的規(guī)則機理,數(shù)據(jù)和規(guī)則機理有機結合,最終形成人工智能。
我舉一個典型的例子,大家都非常熟悉AlphaGo,棋牌類的問題有非常清楚的規(guī)則和機理,比如下圍棋的規(guī)則非常清楚,但是因為縱橫十九道,有非常多的變化,其實我們面臨的問題是計算不過來的問題,因為人的腦力有限,無法對棋局進行整體布局。但機器卻不然,其無限的計算能力,能夠快速進行推理、演繹,推算出很多不同的路徑,從而選擇最優(yōu)路徑。這跟數(shù)據(jù)沒有必然的聯(lián)系,完全在清晰的規(guī)則和機理的指導之下進行大量的計算。其實人工智能與大數(shù)據(jù)沒有必然的聯(lián)系。
另外一類人工智能問題是沒有機理的,比如與人相關的,像圖片識別、語音識別,甚至識別一個人。一個人是高興還是悲傷,我們怎么用一個清晰的規(guī)則來描述呢?其實非常難描述,所以在這個時候我們就只能讓機器用學習的辦法,給它大量的圖片,這叫高興的人,這叫悲傷的人,這叫憤怒的人,希望在大量的數(shù)據(jù)之中,讓機器通過學習的方法,它自己能夠掌握其中的規(guī)律,然后用這個規(guī)律來做相應的判斷。這種情況屬于沒有明顯的規(guī)則和機理,這個時候我們需要應用大數(shù)據(jù),要通過大量的數(shù)據(jù)訓練,讓機器能夠掌握這樣的一些智能,在這種情況下,人工智能和大數(shù)據(jù)有非常緊密的依存關系。
我自己是從事工業(yè)領域的,我們在工業(yè)領域的人工智能應用其實會出現(xiàn)第三種情況,就是有部分的規(guī)則和機理,但是是不完全的,怎么理解?比如我們做風力發(fā)電,風力跟天氣、跟風有關,當跟風電廠、跟風力發(fā)電機有關的時候,我們會用到類似于空氣動力學等原理來開發(fā)模型,對于像空氣動力學、流體力學、摩擦學這樣的一些自然科學的原理,其中有部分的機理沒被破解。我們所處的自然社會,其實有部分的機理可循,但是還有一部分是未知的,在解決這樣的問題的時候,我們需要把機理和數(shù)據(jù)做一個有機的結合,比如我們在做工業(yè)智能的時候,我們一方面肯定要結合這個領域的知識,要結合這個領域里面已經通過科學家若干年研究出來的相關的機理。同時因為這個機理是不充分的,我們一定還需要再結合大量的數(shù)據(jù),把數(shù)據(jù)和機理有機地結合在一起才能更好地解決這個問題。
總結一下,我覺得人工智能跟大數(shù)據(jù)的關系完全依賴于這個問題本身:如果這個問題本身是一個強機理的問題,其實它跟大數(shù)據(jù)沒有關系;如果它是一個無機理的問題完全要依賴于數(shù)據(jù);如果正好介于中間,我們需要把機理和數(shù)據(jù)有機地結合在一起,才能很好地解決這個問題。
王曉梅:在今天的分享開始之前,我想跟大家分享一下我自己的從業(yè)經驗,知盛集團是一個雙總部公司,核心研發(fā)團隊在美國和歐洲,我們集結了世界頂級的科學家,在我成立這個人工智能集團公司之前,我個人在IBM有近18年的從業(yè)經驗,18年里我一直在IBM美國總部主管數(shù)據(jù)信息、數(shù)據(jù)管理,特別是自2011年以來,我主管全球的大數(shù)據(jù)分析和人工智能的技術和業(yè)務。
我為什么會提到這個從業(yè)的經驗呢?因為我接下來這些經驗的分享是多年來我一直在全球的各個市場、各個行業(yè)跟各類大中型企業(yè)的深度合作的心得體會。接下來我會從多種維度,解讀大數(shù)據(jù)和人工智能的關系。
第一個維度,數(shù)據(jù)價值鏈。知盛集團LOGO標志,下面有一行小小的字,四個詞組成,依次是數(shù)據(jù)、分析、人工智能、行動。這四個詞的組成和選擇有深遠意義,它非常清晰地解讀了數(shù)據(jù)、分析、人工智能和商業(yè)價值的關系。
首先,數(shù)據(jù)。數(shù)據(jù)是資產、數(shù)據(jù)是基礎,需要對數(shù)據(jù)進行有效的存儲管理;其次,分析。如果數(shù)據(jù)不進行分析,不產生洞察力,數(shù)據(jù)將不再是有用的自然資源,而只是一堆垃圾,特別是當今世界,每兩年全球的數(shù)據(jù)量就會翻一翻,只有具備嚴謹、高效的分析能力,我們才可以真正地把這些數(shù)據(jù)的資源轉換為各種各樣的商業(yè)價值和洞察力;最后,行動。只有完成這三步,我們的數(shù)據(jù)才具有生命,才能逐漸增強各行業(yè)的商業(yè)能力,甚至很多時候能夠產生顛覆性的商業(yè)模式,所以這個價值鏈的闡述其實能非常清晰和簡單地解讀大數(shù)據(jù)和人工智能之間的關系。
第二個維度,如何甄別真正的人工智能系統(tǒng)。遵循三個字母U、R、L。U代表理解,理解是人工智能的基本要求,當今全球人工智能在理解層面上,主要涉及人機交互,人機交互最常見的是通過語音或文本這種自然語言實現(xiàn)人機之間的交互。包括Facebook在內的諸多領軍公司都在研究如何捕捉人意識的腦電波,真正實現(xiàn)人機交互。業(yè)界預測可能3~5年,這項技術便可以實現(xiàn)商業(yè)化。雖然很多國家把人工智能上升為國家戰(zhàn)略,迄今為止,大部分人工智能還僅僅停留或者起步在理解層面上。R代表能夠非常精準地瞄準人工智能的系統(tǒng),在甄別的時候,我們要看是不是有相關的算法、模型,真正讓這個系統(tǒng)模擬人的推理能力來進行新的運算、推理、預測等。最后,L代表自主學習。自主學習其實是人工智能在商業(yè)領域如火如荼落地的一個非常重要的原因。endprint
就目前而言,歸根結底都是以人工智能、大數(shù)據(jù)分析為引領的幾大技術在推動。人工智能是各大技術綜合性的應用。學習為什么這么重要呢?因為世界每時每刻都在變化,每時每刻都在產生大量數(shù)據(jù)。只有具備自主學習能力,并對當下的數(shù)據(jù)進行分析,你的系統(tǒng)才真正精準實時。
最后一個維度,三五年以后會有越來越多的更復雜、更高級的人工智能的能力以價格低廉的方式由各大廠商提供給這個市場,通過云計算上的一個API你就可以輕松地調用,這個勢態(tài)將不可逆轉,三五年以后人工智能的競爭點、競爭力到底在哪里呢?從長遠的人工智能競爭市場來說,數(shù)據(jù)將是長遠的核心競爭點。所以今天我其實也非常想借著這個機會,希望大家不僅僅能夠看到當下的人工智能市場,也同時能夠展望三五年以后,或者更長遠的人工智能的市場,我們的關注點到底應該在哪里。
徐濟銘:醫(yī)渡云利用人工智能技術服務于將近100家中國頂級的三甲醫(yī)院,利用醫(yī)院沉淀十幾年的患者診療數(shù)據(jù),用人工智能技術服務于醫(yī)院的整個臨床研究、科研的管理、醫(yī)院的管理以及臨床的服務。因為前面幾位專家和老師都從大的技術角度、行業(yè)的角度闡述了人工智能和大數(shù)據(jù)的關系。我更想結合垂直行業(yè)的應用說一下我自己的理解。
從人工智能角度看,我可能會把智能分成兩個方面,一方面是感知智能,另外一方面是認知智能。感知智能主要是利用現(xiàn)在深度學習的方法,對影像、語音,包括相關的一些數(shù)據(jù)去感知里面所包含的信息。另外,認知智能是各自然語言的處理,這是智能的核心,關注整個邏輯推理是怎樣的。
對醫(yī)療行業(yè)來說這兩方面都很重要,醫(yī)療數(shù)據(jù)里面包含了基因的數(shù)據(jù)、影像的數(shù)據(jù),還有大醫(yī)生書寫的文書的文字數(shù)據(jù)。如果要把醫(yī)療的人工智能做好,需要基于大量的數(shù)據(jù),通過全面的人工智能技術包括感知智能和認知智能等把數(shù)據(jù)里面的價值和經驗進行有機的提取。比如,每個醫(yī)生在診療的過程中會依賴于自己的經驗,我們服務于頂級醫(yī)院,擁有中國最好的專家為患者診療的整個周期數(shù)據(jù),這里面蘊含著大量的知識和經驗,是否有好的方法從這里邊學習,把這些經驗能夠引擎化、知識化和服務化,再反饋到醫(yī)療里面,這其實是數(shù)據(jù)和人工智能技術有機結合,并且能夠用到產業(yè)里面很典型的例子,但是這里面的技術難點非常多。剛才有專家說未來3~5年可能就會有一個很大的騰飛,我對這個速度表示一定謹慎的態(tài)度,因為這里面的技術難度比較大,但是我希望早一天到來,能夠解放醫(yī)生的雙手,增強醫(yī)生的大腦,讓更多的人接受到更好的醫(yī)療服務。
Q:如何才能夠讓兩者互相融合,使人工智能技術應用于更多的領域?
劉秉權:我主要的工作是做自然語言處理,就是人機對話方面的研究。實際上這個領域與整個人工智能的趨勢差不多。目前主要是更好地運用深度學習的技術解決所面臨的各種問題。這些問題包括以下幾點:
第一,深度學習技術自身的完善和發(fā)展。認識深度學習自身的規(guī)律,研究其系統(tǒng)的構建、結構和模型等。同時,兼顧其他領域。針對一些具體問題,比如如何與知識推理相結合,這并不是傳統(tǒng)的自然語音處理技術,像剛才專家講到的知識圖譜的構建與運用,關鍵是如何與深度學習技術實現(xiàn)一體化。
第二,在構建人機對話的過程中面臨一些個性化的需求,比如客服系統(tǒng)基本上很難完成特別個性化的需求,那么如何與個性化的技術結合,如何更好地讓自然語音系統(tǒng)滿足個性化的需求,自然是今后要解決的問題。
第三,在機器學習領域,與遷移學習等各種成分的結合,使得深度學習系統(tǒng)具有更好的適應和轉換能力,及終身學習的特點。
以上問題都是我們研究自然語音處理領域需要關心的問題。另外,需要強調的是,任何人工智能,都離不開大數(shù)據(jù)的支持。
我們平時可能不太關注通用的大數(shù)據(jù),比如我在構建一個具體系統(tǒng)的時候,除了通用的自然語音處理資源之外,很關鍵的知識就是我們需要大量的問答,可能是幾千萬、上億,或者幾十億、上百億規(guī)模的面向單人的,或者面向多人的數(shù)據(jù)庫對話,這些數(shù)據(jù)從哪兒來呢?并沒有直接可以利用的表達形式。同時,需要利用我們的技術開發(fā)多人對話資源的挖掘方法,然后建立挖掘的系統(tǒng),實現(xiàn)工具化,經過不斷地迭代,最后實現(xiàn)構建足夠規(guī)模的、包含上億的問答規(guī)模的資源。
作為高?;蚣兇獾难芯繖C構,當前面臨的一個突出的問題,就是我們在做深度學習的研究過程中,需要更大規(guī)模的數(shù)量級數(shù)據(jù),那么這些數(shù)據(jù)除了自己加工之外,更迫切地需要與行業(yè)內其他的合作伙伴一起合作,比如從政府部門或大企業(yè)所具備的資源里獲取有價值的東西。這實際上是我們很多研究者面臨的一個困境。
我們的研究人員在做研究工作的時候,首先他們可能有很多的思路和想法,想方設法克服這些大數(shù)據(jù)所面臨的瓶頸,因此很多東西無法立即開展起來。因此需要很大程度上通過企業(yè)合作來實現(xiàn),我們也希望如果有機會,政府部門或大型企業(yè)能不能通過更好的機制,把他們所擁有的高質量的、大規(guī)模的數(shù)據(jù)更好地分享出來,推動大數(shù)據(jù)的發(fā)展。
陸薇:這些年,我們一直致力于把人工智能和大數(shù)據(jù)向業(yè)界推廣應用,幫助企業(yè)解決問題。這些年下來,我們自己有點心得,我覺得無論是大數(shù)據(jù)還是人工智能,真的要實現(xiàn)產業(yè)上的成功有四個因素非常重要,第一場景,第二領域知識,第三數(shù)據(jù),第四技術。
相比技術,我認為場景最重要。大家很多時候都在講,在互聯(lián)網上大家在進行場景革命,在大數(shù)據(jù)和人工智能領域同樣有場景革命,我們要做一件事情,必須找到清晰的、有價值的、有痛點的業(yè)務場景,這才是真正的問題所在,而且這個問題解決以后,才會給對方帶來非常大的價值。有了場景,我們才能保證我們在做一件對的事,剩下的就是我們怎么把事情做對。
從把事情做對的角度,我們需要把剩下的三個因素很好地結合起來,一個是領域知識,其實有些領域是有規(guī)則的、有機理的,當我們要解決這個領域問題的時候,我們要充分考慮這些規(guī)則和機理,充分把領域專家的知識用起來。
另外,我們需要有數(shù)據(jù),特別是我們在一個不是很強的機理和規(guī)則的問題之下,我們需要有大量的數(shù)據(jù)供我們學習與挖掘,來找到一些專家所不具備的知識。再者,有相關的技術,我們要有數(shù)據(jù)的采集、傳輸、學習、挖掘等技術的支持。最后,問題得到一個最好的解決。endprint
從我們昆侖數(shù)據(jù)自己這幾年的實踐來看,我們認為需要方法、工具、人這三方面結合好。
從方法的角度我們總結了一套方法叫BMT,我們首先要有商業(yè)問題的引領,商業(yè)問題是起始點,M就是數(shù)據(jù)科學,是必由之路。
我們也推出了相關的工具,能夠幫助我們去做商業(yè)問題的梳理,能夠做數(shù)據(jù)相應的管理、挖掘,然后我們把技術綜合在一起。
最后,人也非常重要,因為無論是問題的解決,還是工具的應用,最后都需要人去解決數(shù)據(jù)和人工智能領域的問題,我們覺得可能需要有這么幾類人來分工協(xié)作:
一類是業(yè)務分析師,他的職能是理解這個領域的具體問題,能夠把這個問題從一個業(yè)務問題轉變成一個數(shù)學問題,一個數(shù)據(jù)的問題。
一類是數(shù)據(jù)科學家,他能夠開發(fā)算法、模型,能夠解決具體的數(shù)學問題。
一類是數(shù)據(jù)工程師,如果說數(shù)據(jù)科學家是大廚的話,數(shù)據(jù)工程師就是給大廚打下手的小工,在炒菜之前必須有人把菜摘好、洗好,把數(shù)據(jù)清理干凈,整理好,大廚才能有更好的發(fā)揮。
一類是系統(tǒng)工程師,他需要懂大數(shù)據(jù)的系統(tǒng),能夠圍繞這樣的一個核心算法,能夠把它開發(fā)成一個應用的系統(tǒng),能夠部署到客戶的現(xiàn)場,這樣才能解決客戶的問題。
以上是我們這些年的心得,我們需要把場景、領域知識、數(shù)據(jù)、技術有機地結合起來,我們需要有方法、工具和合適技能的人,團結協(xié)作。然后,才能達到理想的效果,讓大數(shù)據(jù)和人工智能的技術真正地在產業(yè)界落地,能夠解決問題,能夠為客戶帶來價值。
王曉梅:我覺得這個問題問得特別好,因為這個問題直接就決定了大數(shù)據(jù)分析和人工智能如何能夠快速地在市場落地。在我分享之前,我必須強調一下,我是做技術出身的,我這邊必須強調,人工智能和大數(shù)據(jù)分析是以高度業(yè)務價值為驅動的,必須是與行業(yè)緊密相關聯(lián)的,作為一個技術背景的人說出這句話,這后面是有深刻的含義的,因為人工智能和大數(shù)據(jù)分析跟傳統(tǒng)的所有以前IT的技術完全不同,這是我這么多年來最大的個人體會和一個最佳實戰(zhàn)經驗。
數(shù)據(jù)分析本身潮起潮落很多年了,我在全球那么多市場看了那么多成功的、失敗的公司,我覺得他們都高度秉承這個原理,即以高度業(yè)務價值驅動,而且任何一家成功的長青樹的人工智能或者大數(shù)據(jù)分析,特別是數(shù)據(jù)分析的公司,一定與行業(yè)緊密關聯(lián)。這就回到我設計整個知盛集團公司戰(zhàn)略的時候,如果我用一種比較粗淺的方式來劃分全世界各行各業(yè),有18大行業(yè)模塊。
全世界第一大人工智能采納行業(yè)板塊是醫(yī)療行業(yè),這也是為什么我在知盛集團設立的時候,專門有一個子公司做人工智能醫(yī)療行業(yè)服務,我這邊的切入點是預防性醫(yī)療,因為整個醫(yī)療行業(yè)本身范圍非常廣泛,大家所熟知的是20%疾病市場,包括各種癌癥、糖尿病診療,這些僅僅屬于診療疾病的市場,但是真正在崛起的,在醫(yī)療行業(yè)里面最大的新的商業(yè)的機會其實是預防性醫(yī)療,整個醫(yī)療行業(yè)正在發(fā)生巨大的變化。由以前的以醫(yī)療機構、醫(yī)院等為中心,轉變?yōu)橐钥蛻魹橹行牡淖晕铱醋o的新興預防性醫(yī)療市場。
第二大塊業(yè)務是人工智能與傳媒,最后一塊業(yè)務是人工智能與電子商務,這與行業(yè)的深度結合是密不可分的,因為在與專業(yè)行業(yè)的人結合的時候,他為我們整個人工智能項目落地提供了幾個關鍵的元素,第一是行業(yè)的深度認知,第二是業(yè)務的痛點和描述,第三是數(shù)據(jù)。只有基于對行業(yè)的知識的深度的認知,對相關業(yè)務場景的深度的理解,然后再加上相關的數(shù)據(jù),然后再配合人工智能的算法和模型,這樣才會有一個真正的切實可行的人工智能的產品,服務于這個行業(yè),服務于大眾。
另外,我還想分享一點,這一點非常重要,我們在進行行業(yè)落地的時候,因為數(shù)據(jù)現(xiàn)在已經變成了一種可流動的資產,一種新的貨幣,現(xiàn)在行業(yè)跟行業(yè)之間的競爭,行業(yè)跟行業(yè)之間的壁壘,行業(yè)跟行業(yè)之間的界限正在模糊,所以我們大家在人工智能落地的時候,我們要考慮一下跨行業(yè),如何打破行業(yè)之間的壁壘?如何進行一個跨行業(yè)的合作跟融合?這也是整個人工智能落地盈利點更多,產生的一個重要的思維。
最后,我們在行業(yè)落地的過程中,有一種應用場景,現(xiàn)在已經占到了全世界60%以上的人工智能跟數(shù)據(jù)分析的應用場景,跟行業(yè)無關,所有行業(yè)都適用,就是以客戶為中心,這個以客戶為中心非常關鍵,是另一個商業(yè)機會的嵌入點。
徐濟銘:剛才聽到各位專家老師的觀點我挺興奮的,特別是剛才陸總講到在垂直行業(yè)要把場景、知識、數(shù)據(jù)結合才能使AI、大數(shù)據(jù)服務于整個垂直行業(yè),醫(yī)療更是這樣,醫(yī)療場景很復雜,醫(yī)療又是很復雜的學科,對數(shù)據(jù)的依賴也很重,AI的技術又涉及多個方面,包括認知計算、感知計算等。當初我們創(chuàng)立醫(yī)渡云是相信數(shù)據(jù)可以驅動醫(yī)療,創(chuàng)新可以驅動醫(yī)療。(根據(jù)演講內容整理,未經本人審核)endprint