文 | 竇勇 達晨創(chuàng)投 投資總監(jiān)
投資邏輯:由點到面構建大數據領域生態(tài)圈
文 | 竇勇 達晨創(chuàng)投 投資總監(jiān)
大數據的概念在國內興起才幾年時間,很多人可能還不太清楚大數據的具體內涵。就整體產業(yè)而言,大數據產業(yè)是一個龐大的閉環(huán),涉及數據源、場景化應用、可視化展示以及數據安全。
數據源環(huán)節(jié)主要解決數據的儲存和管理問題。每個細分產業(yè)領域都有各自的大數據,海量數據的存放、檢索、清洗、流通非常關鍵。此外,數據就像是一座座礦山,如何把這些礦山轉化成可變現的資源?這即是數據的場景化主要解決的問題。
比如現在很多企業(yè)通過互聯(lián)網做CRM(客戶關系管理)精準營銷,需要分析用戶的行為并對用戶進行標簽和分類。消費者在超市里選擇一件商品時,可能還對關聯(lián)性商品有很大的需求,貨架的擺放需要有大數據提供關聯(lián)性的指導,這就是典型的場景化應用。
在此基礎上,還要解決數據的可視化問題去跟用戶交互,因為無形的數據需要被生動地展現出來才有價值。無形的數據能夠通過有形的圖形、圖表及各種轉換方式來展現,至此數據便初步具有了資產屬性,數據安全的重要性也隨之凸顯。在數據產業(yè)鏈之中,數據的誕生、存儲、場景化應用、可視化展示以及信息安全構成了一個龐大的版圖。
大數據最早起源于氣象領域,但數據的存放一直是一個很大的問題。直到分布式存儲技術的出現,極大降低了數據儲存的成本,提高了數據獲取的效率,從而增加了數據使用的價值。
大數據的概念最早可以追溯到2001年麥肯錫的一份報告。到了2009年,美國將大數據上升為國家戰(zhàn)略資源。2012年左右大數據開始在中國嶄露頭角。隨后2013-2014年大數據行業(yè)進入一個泡沫期。當時很多企業(yè)都爭相為自己貼上大數據的標簽,但實際上并沒有去做大數據的事情。比如,一些做統(tǒng)計的公司以大數據自居,宣稱自己開始涉足大數據的挖掘和清洗,但實際上好多公司還做原來一模一樣的事情,卻大大提升了估值水平和溢價水平。2014年上半年以后,行業(yè)泡沫有所擠壓,在這個過程中大數據也漸漸從概念走向清晰。
我認為,大數據不是單指具體的技術而更多是一種思維。在傳統(tǒng)思維中,我們對數據的認識通常停留在因果關系的表層,關注更多的是如何從A得到B。而在大數據的語境下,數據之間的相關性逐漸顯露出潛在的商業(yè)邏輯。比如:研究美國沃爾瑪的數據發(fā)現,購買尿不濕的顧客與啤酒高度關聯(lián)。
此外,比較知名的案例還有谷歌流感趨勢預測。谷歌認為,人們輸入的搜索關鍵詞代表了他們的即時需要,能夠反映出用戶面臨的具體情況。用戶只要輸入流感相關的關鍵詞,系統(tǒng)就會展開跟蹤分析。盡管有很多人批評谷歌預測存在各種問題,在實踐中,谷歌流感預測趨勢與美國疾病控制和預防中心的報告還是存在很大的相關性。
達晨創(chuàng)投在2014年開始布局大數據行業(yè),到現在為止已經在大數據領域投資了12家企業(yè),從數據源至平臺應用的整體生態(tài),覆蓋大數據全產業(yè)鏈。2014年,大數據行業(yè)的投資還沒有現在這么火熱。我們非常關心數據源的問題,我們也特別關注有能力促進數據流通的企業(yè)。目前,國內的各個數據源像是孤立的島嶼,不同機構、部門的信息分散在這些孤島上。數據經過流通才有價值,單一分散的數據價值極其有限。在達晨大數據系的版圖上,包括國內第一家“數據銀行”數據堂,國內最年輕的博導周濤創(chuàng)建的針對企業(yè)風險控制的數聯(lián)銘品,IBM中國杰出十大工程師之一創(chuàng)建的全球的工業(yè)大數據企業(yè)昆侖數據,多次跟隨國家領導人出訪的美林數據,公安部大數據平臺中心中奧科技,國產數據庫的領導者南大通用等等。
從整個大數據行業(yè)在中國的發(fā)展的階段來看,2013-2014年經歷了概念從模糊到清晰的過程,而2015年才真正落地。我個人認為,在整個大數據行業(yè)當中,數據源會是一個風口,涉及數據的采集、清洗、加工、交易、交換。簡言之,即是數據的流動。
數據堂是我們投的一家企業(yè)。數據堂的商業(yè)模式,簡言之即是將散落的數據融合起來進行價值再造。數據堂提出了一個“數據銀行”概念,就是說:通過一個數據銀行的平臺,散落在各地的數據可以實現價值交換;在這里數據發(fā)揮了和現金一樣的功能,等量存儲可以在企業(yè)之間交互提取。在這層意義上,數據就變成了一種資產。數據堂是國內第一家提出這種模式的企業(yè),旨在把數據作為一種資產,通過他們的加工然后進行交易。原始數據像是礦山,數據存放到這里之后,還需要進行提煉。此外,企業(yè)既是數據的購買者,也可以作為數據的出售者。當前數據的定價沒有統(tǒng)一標準,只能根據需求來定義價格。企業(yè)將數據放到數據堂之后,彼此之間就可以實現握手交易。
數據堂獲取數據有幾個渠道,包括:線上網絡、線上線下眾包平臺以及向特定渠道購買。線上數據靠網絡爬蟲可以抓取,但線下的數據需要大量的人員去采集和匯聚。經過6年的沉淀,數據堂的線下眾包平臺已經有50萬人的規(guī)模。
數據眾包的意義,類似游戲中的打怪升級。以智能識別為例,眾包過程中搜集越多的人臉照片,系統(tǒng)就能獲得越多的學習,從而提高識別的精度和準度。然而,數據的價值并不是通過數量來體現,而是針對B端(企業(yè)端)客戶的需求進行加工和融合,于是數據就有了技術附加值。比如,氣象數據、地理數據、人流數據融合打包可以開發(fā)成一種標準化產品,它可以服務于商鋪的選址,也可以為超市的貨架擺放提供及時性參考。但這個工作有一定的門檻,一方面是數據獲得的門檻,另一方面是整合加工的技術壁壘。數據的整合加工不僅要理解數據的本質,還要像產品經理一樣對不同行業(yè)的數據有一定的敏感和洞察,從而才能針對不同的場景化應用開發(fā)相應的標準化產品。粗略看來,數據產品經理這份工作通常需要在數據行業(yè)沉淀4-5年時間才能勝任。
到了2015年,大數據行業(yè)開始瘋狂生長。2014年大數據公司還不到100家,一年時間增加了500多家。此外,只要打上大數據的標簽,一些公司的估值動輒會翻好幾倍。高估值伴隨的是巨大的泡沫,在高估值的驅動下,許多企業(yè)的發(fā)展遠遠無法回歸企業(yè)的本質。一些企業(yè)A輪剛完成,幾個月后又是B輪,短短時間估值就增加數倍,但高估值對于初創(chuàng)團隊而言并不一定是好事。在這樣的背景下,創(chuàng)業(yè)企業(yè)容易膨脹和浮躁,可能導致過度擴張,結果是企業(yè)供給與市場需求之間的脫節(jié)。
一方面,企業(yè)可能會開發(fā)出一些太超前的產品,但市場還沒發(fā)展到可以吸收的階段。不同行業(yè)的發(fā)展水平影響和制約著大數據在特定行業(yè)領域的場景化應用。當其他行業(yè)的生態(tài)還沒能達到一個維度時,大數據的發(fā)展不能太超前,因為大數據的核心終究還是要服務特定行業(yè)領域的企業(yè)。大數據行業(yè)只有擁抱其他行業(yè)才能生存。比如,現在很火的一個概念叫做智能制造,大家也都在提柔性加工。然而,在大多數制造企業(yè)還沒有實現自動化升級的大環(huán)境下,大數據又如何服務于智能制造的場景化應用呢?
另一方面,企業(yè)的技術和研發(fā)能力可能達不到市場的預期?,F在大家正在興頭上競相擁抱大數據,但如果大家發(fā)現一些大數據產品與自己的預期價值出現嚴重落差,一旦大數據的承諾無法兌現,行業(yè)口碑就會受到影響。
然而,那些真正專注于大數據價值的企業(yè)依然非常值得堅守。在這樣的企業(yè)里,首席數據官的技術背景非常扎實。他們通常由兩類人群構成,一類是BAT出身的技術人才,另一類是從硅谷回來的技術精英。此外,盡管企業(yè)需求還無法與大數據產品實現無縫對接,但大數據企業(yè)與用戶之間的配合正在逐步完善。