佚名
似乎一夜之間,大數(shù)據(jù)(Big Data)變成一個(gè)IT行業(yè)中最時(shí)髦的詞匯。首先,大數(shù)據(jù)不是什么完完全全的新生事物,Google的搜索服務(wù)就是一個(gè)典型的大數(shù)據(jù)運(yùn)用。根據(jù)客戶的需求,Google實(shí)時(shí)從全球海量的數(shù)字資產(chǎn)(或數(shù)字垃圾)中快速找出最可能的答案,就是一個(gè)最典型的大數(shù)據(jù)服務(wù)。只不過過去這樣規(guī)模的數(shù)據(jù)量處理和有商業(yè)價(jià)值的應(yīng)用太少,在IT行業(yè)沒有形成成型的概念?,F(xiàn)在隨著全球數(shù)字化、網(wǎng)絡(luò)寬帶化、互聯(lián)網(wǎng)應(yīng)用于各行各業(yè),累積的數(shù)據(jù)量越來越大,越來越多企業(yè)、行業(yè)和國家發(fā)現(xiàn),可以利用類似的技術(shù)更好地服務(wù)客戶、發(fā)現(xiàn)新商業(yè)機(jī)會、擴(kuò)大新市場以及提升效率,才逐步形成大數(shù)據(jù)這個(gè)概念。
“是什么”比“為什么”重要
大數(shù)據(jù)使企業(yè)真正有能力從以自我為中心改變?yōu)橐钥蛻魹橹行?。企業(yè)是為客戶而生,目的是為股東獲得利潤。只有服務(wù)好客戶,才能獲得利潤。但過去,很多企業(yè)是沒有能力做到以客戶為中心的,原因就是相應(yīng)客戶的信息量不大,挖掘不夠,系統(tǒng)也不支持,目前的保險(xiǎn)業(yè)就是一個(gè)典型。大數(shù)據(jù)的使用能夠使對企業(yè)的經(jīng)營對象從客戶的粗略歸納(就是所謂提煉歸納的“客戶群”)還原成一個(gè)個(gè)活生生的客戶,這樣經(jīng)營就有針對性,對客戶的服務(wù)就更好,投資效率就更高。
大數(shù)據(jù)一定程度上將顛覆企業(yè)的傳統(tǒng)管理方式?,F(xiàn)代企業(yè)的管理方式是來源于對軍隊(duì)的模仿,依賴于層層級級的組織和嚴(yán)格的流程,依賴信息的層層匯集、收斂來制定正確的決策,再通過決策在組織的傳遞與分解,以及流程的規(guī)范,確保決策得到貫徹,確保每一次經(jīng)營活動都有質(zhì)量保證,也確保一定程度上對風(fēng)險(xiǎn)的規(guī)避。過去這是一種有用而笨拙的方式。在大數(shù)據(jù)時(shí)代,我們可能重構(gòu)企業(yè)的管理方式,通過大數(shù)據(jù)的分析與挖掘,大量的業(yè)務(wù)本身就可以自決策,不必要依靠膨大的組織和復(fù)雜的流程。大家都是基于大數(shù)據(jù)來決策,都是依賴于既定的規(guī)則來決策。是高高在上的CEO決策,還是一線人員決策,本身并無大的區(qū)別,那么企業(yè)是否還需要如此多層級的組織和復(fù)雜的流程呢?
大數(shù)據(jù)另外一個(gè)重大的作用是改變了商業(yè)邏輯,提供了從其他視角直達(dá)答案的可能性?,F(xiàn)在人的思考或者是企業(yè)的決策,事實(shí)上都是一種邏輯的力量在主導(dǎo)起作用。我們?nèi)フ{(diào)研,去收集數(shù)據(jù),去進(jìn)行歸納總結(jié),最后形成自己的推斷和決策意見,這是一個(gè)觀察、思考、推理、決策的商業(yè)邏輯過程。人和組織的邏輯形成是需要大量的學(xué)習(xí)、培訓(xùn)與實(shí)踐,代價(jià)是非常巨大的。但是否這是唯一的道路呢?大數(shù)據(jù)給了我們其他的選擇,就是利用數(shù)據(jù)的力量,直接獲得答案。就好像我們學(xué)習(xí)數(shù)學(xué),小時(shí)候?qū)W九九乘法表,中學(xué)學(xué)幾何,大學(xué)還學(xué)微積分。碰到一道難題,我們是利用了多年學(xué)習(xí)沉淀的經(jīng)驗(yàn)來努力求解,但我們還有一種方法,在網(wǎng)上直接搜索是不是有這樣的題目,如果有,直接抄答案就好了。很多人就會批評說,這是抄襲,是作弊。但我們?yōu)槭裁匆獙W(xué)習(xí)???不就是為了解決問題嘛。如果我任何時(shí)候都可以搜索到答案,都可以用最省力的方法找到最佳答案,這樣的搜索難道不可以是一條光明大道嗎?換句話說,為了得到“是什么”,我們不一定要理解“為什么”。我們不是否定邏輯的力量,但是至少我們有一種新的巨大力量可以依賴,這就是未來大數(shù)據(jù)的力量。
顯微鏡+廣角鏡=新視野
通過大數(shù)據(jù),我們可能有全新的視角來發(fā)現(xiàn)新的商業(yè)機(jī)會和重構(gòu)新的商業(yè)模式。我們現(xiàn)在看這個(gè)世界,比如分析家中食品腐敗,主要就是依賴于我們的眼睛再加上我們的經(jīng)驗(yàn),但如果我們有一臺顯微鏡,我們一下就看到壞細(xì)菌,那么分析起來完全就不一樣了。大數(shù)據(jù)就是我們的顯微鏡,它可以讓我們從全新視角來發(fā)現(xiàn)新的商業(yè)機(jī)會,并可能重構(gòu)商業(yè)模型。我們的產(chǎn)品設(shè)計(jì)可能不一樣了,很多事情不用猜了,客戶的習(xí)慣和偏好一目了然,設(shè)計(jì)就能輕易命中客戶的心窩;營銷也完全不同了,我們知道客戶喜歡什么、討厭什么,更有針對性。特別是顯微鏡再加上廣角鏡,我們就有更多全新的視野了。這個(gè)廣角鏡就是跨行業(yè)的數(shù)據(jù)流動,使我們過去看不到的東西都能看到了,比如前面所述的汽車案例,開車是開車,保險(xiǎn)是保險(xiǎn),本來不相關(guān),但當(dāng)我們把開車的大數(shù)據(jù)傳遞到保險(xiǎn)公司,那整個(gè)保險(xiǎn)公司的商業(yè)模式就被完全重構(gòu)了。
最后一點(diǎn),大數(shù)據(jù)發(fā)展對IT本身技術(shù)架構(gòu)的革命性影響。大數(shù)據(jù)的根基是IT系統(tǒng)。現(xiàn)代企業(yè)的IT系統(tǒng)基本上是建立在IOE(IBM小型機(jī)、Oracle數(shù)據(jù)庫、EMC存儲)+Cisco模型基礎(chǔ)上的,這樣的模型是Scale-UP型的架構(gòu),在解決既定模型下一定數(shù)據(jù)量的業(yè)務(wù)流程是適配的,但如果是大數(shù)據(jù)時(shí)代,很快會面臨成本、技術(shù)和商業(yè)模式的問題,大數(shù)據(jù)對IT的需求很快就會超越了現(xiàn)有廠商架構(gòu)的技術(shù)頂點(diǎn),超大數(shù)據(jù)增長將帶來IT支出增長之間的線性關(guān)系,使企業(yè)難以承受。因此,目前在行業(yè)中提出的去IOE趨勢,利用Scale-out架構(gòu)+開源軟件對Scale-up架構(gòu)+私有軟件的取代,本質(zhì)是大數(shù)據(jù)業(yè)務(wù)模型所帶來的,也就是說大數(shù)據(jù)將驅(qū)動IT產(chǎn)業(yè)新一輪的架構(gòu)性變革。
所以有人說,大數(shù)據(jù)是資源,和大油田、大煤礦一樣,可以源源不斷挖出大財(cái)富。而且和一般資源不一樣,它是可再生的,是越挖越多、越挖越值錢的,這是反自然規(guī)律的。對企業(yè)如此,對行業(yè)、對國家也是這樣,對人同樣如此。這樣的東西誰不喜歡呢?因此,大數(shù)據(jù)這么熱門,是完全有道理的。
“思考不過你 但是算死你”
當(dāng)時(shí)人工智能就是模擬人的智能思考方式來構(gòu)筑機(jī)器智能。以機(jī)器翻譯來說,語言學(xué)家和語言專家必須不辭勞苦地編撰大型詞典和與語法、句法、語義學(xué)有關(guān)的規(guī)則,數(shù)十萬詞匯構(gòu)成詞庫,語法規(guī)則高達(dá)數(shù)萬條,考慮各種情景、各種語境,模擬人類翻譯,計(jì)算機(jī)專家再構(gòu)建復(fù)雜的程序。最后發(fā)現(xiàn)人類語言實(shí)在是太復(fù)雜了,窮舉式的做法根本達(dá)不到最基本的翻譯質(zhì)量。這條道路最后的結(jié)果是,1960年后,人工智能技術(shù)研發(fā)停滯不前數(shù)年,科學(xué)家痛苦地發(fā)現(xiàn)以“模擬人腦”、“重建人腦”的方式來定義人工智能走入一條死胡同,這導(dǎo)致后來幾乎所有的人工智能項(xiàng)目都進(jìn)入了冷宮。
后來有人就想,機(jī)器為什么要向人學(xué)習(xí)邏輯呢,又難學(xué)又學(xué)不好,機(jī)器本身最強(qiáng)大的是計(jì)算能力和數(shù)據(jù)處理能力,為什么不揚(yáng)長避短、另走一條道路呢?這條道路就是IBM“深藍(lán)”走過的道路。1997年5月11日,國際象棋大師卡斯帕羅夫在和IBM公司開發(fā)的計(jì)算機(jī)“深藍(lán)”進(jìn)行對弈時(shí)宣布失敗,計(jì)算機(jī)“深藍(lán)”因此贏得了這場意義深遠(yuǎn)的“人機(jī)對抗”。 “深藍(lán)”不是靠邏輯、不是靠所謂的人工智能取勝的,而是靠超強(qiáng)的計(jì)算能力取勝:思考不過你,但是算死你。
類似的邏輯在后續(xù)也用到了機(jī)器翻譯上。谷歌、微軟和IBM都走上了這條道路。就是主要采用匹配法,同時(shí)結(jié)合機(jī)器學(xué)習(xí),依賴于海量的數(shù)據(jù)及其相關(guān)統(tǒng)計(jì)信息,不管語法和規(guī)則,將原文與互聯(lián)網(wǎng)上的翻譯數(shù)據(jù)對比,找到最相近、引用最頻繁的翻譯結(jié)果做為輸出。也就是利用大數(shù)據(jù)以及機(jī)器學(xué)習(xí)技術(shù)來實(shí)現(xiàn)機(jī)器翻譯?,F(xiàn)有的數(shù)據(jù)量越是龐大,這個(gè)系統(tǒng)就能越好地運(yùn)行,這也正是為何新的機(jī)器翻譯只有在互聯(lián)網(wǎng)出現(xiàn)以后才有可能重新取得突破性進(jìn)展的原因所在。
因此,在目前這些公司機(jī)器翻譯團(tuán)隊(duì)中,有不少計(jì)算機(jī)科學(xué)家,但卻連一個(gè)純粹的語言學(xué)家也沒有,只要擅長數(shù)學(xué)和統(tǒng)計(jì)學(xué),然后又會編程,那就可以了。
總而言之,利用這種技術(shù),計(jì)算機(jī)教會自己從大數(shù)據(jù)中建立模式。有了足夠大的信息量,你就能讓機(jī)器學(xué)會做看上去有智能的事情,別管是導(dǎo)航、理解話語、翻譯語言,還是識別人臉,或者模擬人類對話。英國劍橋微軟研究院的克里斯·畢肖普(Chris Bishop)打了個(gè)比方:“你堆積足夠多的磚塊,然后退后幾步,就能看到一座房子。”
這里我們假設(shè)這種技術(shù)能夠持續(xù)進(jìn)步,未來基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)基礎(chǔ)上的人工智能達(dá)到比較流暢地模擬人類對話,就是人類可以和機(jī)器進(jìn)行比較自如的對話。