吉燕勇
我想跟大家分享兩個(gè)話(huà)題,一個(gè)是IBM怎么看大數(shù)據(jù),另一個(gè)是IBM的認(rèn)知計(jì)算。
IBM如何看大數(shù)據(jù)
現(xiàn)在有很多大數(shù)據(jù)項(xiàng)目在實(shí)施過(guò)程中,怎么證明這個(gè)項(xiàng)目能成功呢?我們有三個(gè)標(biāo)準(zhǔn),第一是看它是否能夠改變企業(yè)做決策的方式;第二是看這個(gè)項(xiàng)目是否能夠改造創(chuàng)造價(jià)值的方式;第三是看是否通過(guò)它能夠改變對(duì)每個(gè)用戶(hù)創(chuàng)造價(jià)值的方式。
大數(shù)據(jù)其實(shí)是關(guān)于產(chǎn)業(yè)轉(zhuǎn)型、提升、重塑秩序,轉(zhuǎn)型以后會(huì)出現(xiàn)一個(gè)多發(fā)經(jīng)濟(jì),會(huì)有新的經(jīng)濟(jì)形態(tài)呈現(xiàn)。第一是由基于洞察的服務(wù)構(gòu)成的;第二是數(shù)據(jù)的生產(chǎn)者、消費(fèi)者以及運(yùn)營(yíng)者可以在同一個(gè)平臺(tái)共享利益。由于云計(jì)算比較成熟、分析能力比較豐富,所以洞察經(jīng)濟(jì)是應(yīng)運(yùn)而生的。想要得到一個(gè)方法論,就要在標(biāo)準(zhǔn)、模塊和資本化中有更多的探索。
IBM大數(shù)據(jù)能力
IBM過(guò)去十年投入了200億元,通過(guò)收購(gòu)和研發(fā)構(gòu)建了非常健全的大數(shù)據(jù)體系。第一部分是大數(shù)據(jù)本身的存儲(chǔ)、探索以及管理能力;第二部分是數(shù)據(jù)分析,也叫預(yù)測(cè),包括算法、建模、積極學(xué)習(xí);第三部分就是計(jì)算能力。我們希望通過(guò)大數(shù)據(jù)本身的能力,包括建模、預(yù)測(cè)、云計(jì)算,能夠創(chuàng)造出價(jià)值。
有了相關(guān)能力,怎么使用呢?想通過(guò)大數(shù)據(jù)改變一些決策方式。比如,兩個(gè)選手在打網(wǎng)球比賽之前,幫助選手做三個(gè)PPI:S球的成功率多少等等,這樣對(duì)網(wǎng)球比賽會(huì)有新的幫助。我們通過(guò)8182場(chǎng)比賽,包括4100萬(wàn)數(shù)據(jù)點(diǎn)(這是數(shù)據(jù)的收集和儲(chǔ)存),找到5500個(gè)模型出來(lái),再進(jìn)行分析,由45個(gè)模型最終變成19個(gè)影響勝負(fù)的關(guān)鍵點(diǎn)。每個(gè)選手之間的比賽,選擇三個(gè)點(diǎn),這三點(diǎn)做得比較好就能贏,做的不好就不能贏,最終經(jīng)過(guò)學(xué)習(xí)和訓(xùn)練,以此來(lái)指導(dǎo)選手如何能夠贏得比賽。我們通過(guò)大數(shù)據(jù)分析來(lái)改變決策,影響比賽的勝負(fù)。
IBM戰(zhàn)略的方向
第一、基于云計(jì)算;第二、希望把企業(yè)的數(shù)據(jù),包括銀行數(shù)據(jù)、保險(xiǎn)數(shù)據(jù)、企業(yè)的內(nèi)部數(shù)據(jù)和企業(yè)的外部數(shù)據(jù)相結(jié)合,幫助企業(yè)建立一個(gè)企業(yè)洞察體系。通過(guò)這種方式幫助企業(yè)決策,并產(chǎn)生出更高的價(jià)值。
IBM在大數(shù)據(jù)中的新動(dòng)向是擁抱開(kāi)源。我們擁抱開(kāi)源,培養(yǎng)100萬(wàn)個(gè)數(shù)據(jù)科學(xué)家,目前做大數(shù)據(jù)特別緊缺科學(xué)家。我們建立一個(gè)Spark技術(shù)中心,IBM成為Spark的創(chuàng)始性會(huì)員,IBM通過(guò)開(kāi)源加速大數(shù)據(jù)開(kāi)發(fā)的能力。
我們希望通過(guò)大數(shù)據(jù)的能力,幫助客戶(hù)做更多的創(chuàng)新。比如,我們?cè)谥圃煨袠I(yè),通過(guò)預(yù)測(cè)性的運(yùn)維與質(zhì)量管理,做出高端制造。在制造業(yè)轉(zhuǎn)型的大背景下,企業(yè)會(huì)安裝很多海量的傳感器,這些傳感器采集很多的數(shù)據(jù),如何把這些數(shù)據(jù)集中到大數(shù)據(jù)中心,是很多企業(yè)面臨高端制造時(shí)遇到的困難。如何通過(guò)這些傳感器的數(shù)據(jù)做實(shí)時(shí)的運(yùn)維也是比較大的挑戰(zhàn)。我們通過(guò)Spark和大數(shù)據(jù)平臺(tái),做實(shí)時(shí)的運(yùn)維和維護(hù),這樣可以實(shí)現(xiàn)秒級(jí)、分鐘級(jí)的健康檢測(cè),并對(duì)所有的狀況進(jìn)行分析。
關(guān)于大數(shù)據(jù),最大的挑戰(zhàn)還是非結(jié)構(gòu)化數(shù)據(jù)的爆發(fā)性增長(zhǎng)所帶來(lái)的新的技術(shù)挑戰(zhàn)。IBM推出了認(rèn)知計(jì)算,并進(jìn)入到認(rèn)知時(shí)代。在這之前是編程時(shí)代,需要寫(xiě)程序、精確編程,而在這之后則是認(rèn)知時(shí)代。
在認(rèn)知計(jì)算中,人工智能有很多新的發(fā)展。在1997年,IBM便有人工智能。2011年,沃森系統(tǒng)戰(zhàn)勝了人類(lèi),這算得上是一個(gè)新的里程碑。今年,阿爾法狗也是人工智能上一個(gè)突破。
那什么是認(rèn)知計(jì)算呢?每個(gè)公司的理解不一樣。IBM認(rèn)為就是URL。U是指能夠理解各種數(shù)據(jù);R是指這個(gè)系統(tǒng)能夠推理和抉擇;L是指能夠自主學(xué)習(xí)。所以,沃森通過(guò)危險(xiǎn)邊緣游戲,能夠理解你說(shuō)什么,也能夠進(jìn)行推理和決策、回答問(wèn)題,還可以增強(qiáng)學(xué)習(xí)能力。這是IBM所有的認(rèn)知解決方案、認(rèn)知計(jì)算的基本能力。
沃森如何實(shí)現(xiàn)這個(gè)能力呢?你提出問(wèn)題以后,它需要對(duì)問(wèn)題進(jìn)行分析和分解。把問(wèn)題變成若干個(gè)小問(wèn)題之后,通過(guò)檢索知識(shí)庫(kù),產(chǎn)生一些假設(shè),再通過(guò)證據(jù)庫(kù)的證據(jù)打分,考量這個(gè)假設(shè)有多高的可能性,最后合并成一個(gè)答案。所以整個(gè)的架構(gòu)中有一個(gè)信息庫(kù)和一個(gè)證據(jù)庫(kù)。
目前IBM做得比較好、進(jìn)展比較快的是,在美國(guó)已經(jīng)可以通過(guò)計(jì)算機(jī)在腫瘤醫(yī)院幫助癌癥病人看病,里面有知識(shí)庫(kù)的信息。很多數(shù)據(jù)也是有專(zhuān)利的,包括實(shí)驗(yàn)、病歷,還有公共數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)等等。此外,還有一些證據(jù)庫(kù),如果病人口述一些癥狀,他希望通過(guò)知識(shí)庫(kù)判斷出侯選結(jié)果。
如何建立知識(shí)系統(tǒng)和知識(shí)庫(kù)呢?如何把行業(yè)內(nèi)的內(nèi)容放在一起,構(gòu)建知識(shí)庫(kù)呢?這是一個(gè)比較復(fù)雜的過(guò)程。有了知識(shí)庫(kù)以后,又如何檢索出結(jié)果呢?怎么通過(guò)繼續(xù)學(xué)習(xí),通過(guò)推理,通過(guò)自學(xué)習(xí),讓系統(tǒng)更加的智能化,最終通過(guò)知識(shí)庫(kù),怎么形成假設(shè),通過(guò)證據(jù)庫(kù)怎么進(jìn)行打分,形成一個(gè)答案?這和搜索引擎不一樣,搜索出關(guān)健詞以后,可以看到一萬(wàn)、兩萬(wàn)個(gè)風(fēng)險(xiǎn)答案,而在這里只有一個(gè)答案可以看到。認(rèn)知計(jì)算對(duì)傳統(tǒng)大數(shù)據(jù)的落地是比較大且有利的補(bǔ)充,但還是有區(qū)別。
傳統(tǒng)大數(shù)據(jù)的分析,有以下幾個(gè)特點(diǎn):首先是用數(shù)字方式與計(jì)算機(jī)交付;其次是問(wèn)題相對(duì)比較清晰;第三是需要提供一個(gè)確定的答案。你需要存儲(chǔ)數(shù)據(jù)、記錄算法,用機(jī)器學(xué)習(xí),建模,就可以做到。
認(rèn)知計(jì)算中更多是通過(guò)資產(chǎn)語(yǔ)言進(jìn)行交互,不需要通過(guò)計(jì)算機(jī)編程,答案也不見(jiàn)得是百分之百的,它可能是70%或是90%。目前,在美國(guó)看病需要通過(guò)的答案是80%~90%,專(zhuān)家需要對(duì)答案進(jìn)行下一步分析,分析出為什么是80%~90%。
另外,處理更多的東西沒(méi)有明確的信息,因?yàn)閿?shù)據(jù)量很大,不知道數(shù)據(jù)存到哪兒,如何分析,則需要計(jì)算機(jī)自己算出來(lái)。
目前,很多企業(yè)認(rèn)同要把認(rèn)知計(jì)算落地中國(guó),IBM在中國(guó)有一款產(chǎn)品已經(jīng)落地,并且是免費(fèi),名叫IBM Watson Analytics。只要有數(shù)據(jù),就可以導(dǎo)入進(jìn)去,不需要任何程序。你不需要做任何安裝,它是基于云的服務(wù),只需要通過(guò)互聯(lián)網(wǎng)使用就可以了。IBM Watson Analytics基于自然語(yǔ)言,人們可以直接問(wèn)他問(wèn)題,當(dāng)然目前還是英文版本的,中文的還沒(méi)有做完。比如,把銷(xiāo)售數(shù)據(jù)放進(jìn)去以后,想知道哪個(gè)區(qū)域銷(xiāo)售量最好,他會(huì)馬上告訴你答案。
(根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)