特約通訊員 楊學(xué)濡
無論你是否意識到,大數(shù)據(jù)時代都已經(jīng)進入我們的生活。也許它已經(jīng)與你打過交道——比如,海量數(shù)據(jù)的存儲、訪問,數(shù)據(jù)處理、數(shù)據(jù)的結(jié)構(gòu)化分類。或者是更深層次的大數(shù)據(jù)分析,通過分析龐大的數(shù)據(jù)集提煉出一些有價值的數(shù)據(jù),從中得到一些關(guān)于客戶、業(yè)務(wù)或者企業(yè)所處商業(yè)環(huán)境的信息。即使你還沒做這一步,但是數(shù)據(jù)管理的重要性已經(jīng)日益顯著。
作為云計算領(lǐng)域的重要延伸,大數(shù)據(jù)是海量的(Volume)、多種類的(Variety)、需要大規(guī)模的處理才能夠凝聚足夠價值的(Value)、處理和檢索響應(yīng)速度快的(Velocity)的數(shù)據(jù)。處理大數(shù)據(jù)所需要的系統(tǒng),和傳統(tǒng)的數(shù)據(jù)挖掘工作所需要的系統(tǒng)有根本性區(qū)別。同時,大數(shù)據(jù)時代愈發(fā)強調(diào)數(shù)據(jù)的關(guān)聯(lián)性,將各種數(shù)據(jù)進行關(guān)聯(lián)組合,以產(chǎn)生更大的價值。作為一家提供海量數(shù)據(jù)實時分析技術(shù)的年輕公司,Causata在這一領(lǐng)域備受業(yè)界關(guān)注與好評,該公司主要基于行為預(yù)測分析、機器學(xué)習(xí)及Hadoop/HBase架構(gòu)等核心技術(shù),提供了實時互動式存儲、實時決策、動態(tài)行為預(yù)測和網(wǎng)絡(luò)個性化等服務(wù)方案。也正由于其出色的技術(shù),今年 8月,NICE Systems公司(NASDAQ:NICE)宣布收購 Causata,幫助NICE的解決方案更精準(zhǔn)地觀察、捕捉客戶在網(wǎng)絡(luò)上的活動數(shù)據(jù),使各機構(gòu)在面對萬億字節(jié)量的信息時,能夠更好地進行實時決策和指導(dǎo)。
大數(shù)據(jù)(Big Data)是指所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)進行擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。隨著云時代的來臨,大數(shù)據(jù)也吸引了越來越多的關(guān)注。利用大數(shù)據(jù),企業(yè)能夠挖掘用戶的行為習(xí)慣和喜好,在凌亂紛繁的數(shù)據(jù)背后找到更符合用戶興趣和習(xí)慣的產(chǎn)品和服務(wù),并對產(chǎn)品和服務(wù)進行針對性地調(diào)整和優(yōu)化。越來越多的政府、企業(yè)等機構(gòu)開始意識到數(shù)據(jù)正在成為最重要的資產(chǎn),數(shù)據(jù)分析能力成為一種核心競爭力。然而,許多企業(yè)并不能真正利用好大數(shù)據(jù),對于如何管理并運用龐大的數(shù)據(jù)無從下手。
來自加利福尼亞州的Causata公司正是一家致力于提供海量數(shù)據(jù)實時分析方案、讓企業(yè)輕松管理大數(shù)據(jù)的客戶體驗管理(CXM)軟件供應(yīng)商。公司成立于2009年,總部在加利福尼亞州的圣馬特奧。其基于Hadoop海量數(shù)據(jù)架構(gòu)的預(yù)測分析和實時全渠道提案管理應(yīng)用,能夠讓B2C(商家對顧客)公司借助數(shù)據(jù),提供有價值的客戶體驗。Causata針對不同行業(yè)有不同的應(yīng)用,這些應(yīng)用可以幫助公司增加交叉銷售、爭取更多客戶、減少客戶流失。
以“利用數(shù)據(jù)創(chuàng)造個性化客戶體驗”為經(jīng)營理念,Causata的目標(biāo)是——在營銷上,把實時數(shù)據(jù)轉(zhuǎn)化為正確時機的數(shù)據(jù);在分析上,利用大數(shù)據(jù)創(chuàng)造更好的數(shù)據(jù);在管理上,信息不是力量,是潛力。Causata的數(shù)據(jù)分析應(yīng)用是建立在平行大數(shù)據(jù)存儲結(jié)構(gòu)上的,這種結(jié)構(gòu)可以有效分析數(shù)以萬億字節(jié)計的多樣化、碎片化、多結(jié)構(gòu)化的客戶數(shù)據(jù)。
Causata能將未結(jié)構(gòu)化的和結(jié)構(gòu)化的客戶交互數(shù)據(jù)結(jié)合起來,組合成簡單且結(jié)構(gòu)化的客戶記錄,用于專業(yè)分析、預(yù)測建模和高級機器學(xué)習(xí)。這些數(shù)據(jù)通常來自于不同的數(shù)據(jù)來源和渠道。其數(shù)據(jù)的存儲和分析流程如下:
在最底層的結(jié)構(gòu)層,Causata利用HBase分布式存儲系統(tǒng)存儲了一組巨大的碎片化事件數(shù)據(jù)。HBase分布式存儲系統(tǒng)是一個高度可伸縮的數(shù)據(jù)庫,是開源云存儲的組成部分,利用HBase來存儲每個個人客戶的交互數(shù)據(jù)具有高效廉價的優(yōu)點。
Causata儲存來自各個數(shù)據(jù)頻道的詳細客戶交互記錄,比如一次網(wǎng)頁點擊,一項產(chǎn)品購買記錄,一封郵件或一條微博。每個數(shù)據(jù)點都被記錄為一組簡單的關(guān)鍵字鍵值,稱為一個事件。
舉例來講,一次網(wǎng)頁點擊記錄可能包括網(wǎng)頁鏈接、分類頁、瀏覽器類型、語言設(shè)置和時間區(qū)域;一項產(chǎn)品購買記錄包含的信息可能包括庫存單位、品牌、價格、尺碼和、顏色。Causata將這些凌亂的、多結(jié)構(gòu)的事件數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化的數(shù)據(jù)以供分析。有時這些結(jié)構(gòu)化數(shù)據(jù)被稱為“矩形數(shù)據(jù)”,因為每個客戶記錄都包括了同一組計算域。
使用HBase還有便于增加新的客戶交互數(shù)據(jù)類型。Causata并沒有一個傳統(tǒng)的固定或關(guān)系數(shù)據(jù)模式。任何來源的數(shù)據(jù)均可以加載或流入Causata,數(shù)據(jù)的結(jié)構(gòu)和信號提取在讀取數(shù)據(jù)時才進行。
為了快速訪問個人客戶記錄,數(shù)據(jù)會在Causata多個服務(wù)器間冗余存儲。這樣可以有效防止數(shù)據(jù)丟失,并且通過并行處理可以支持大容量數(shù)據(jù)檢索和分析。
Causata的大數(shù)據(jù)引擎中一個關(guān)鍵要素就是它的身份圖(Identity Graph)。通過觀察一起出現(xiàn)的標(biāo)識符的模式,Causata建立了一個對應(yīng)于個人的標(biāo)識符圖譜,將每個數(shù)據(jù)片段都映射到正確的客戶上。隨著客戶數(shù)據(jù)的不斷增加,這張圖譜會越來越豐富。
比如說,如果一個客戶在家里登錄了他的網(wǎng)絡(luò)賬戶,一個星期后,他在辦公電腦上再次登錄,那么兩個信息都會連接到該客戶上,并且兩組網(wǎng)絡(luò)活動數(shù)據(jù)會整合在同一個事件流中,讓客戶的檔案更加豐富。
來自郵件、手機、社交網(wǎng)絡(luò)和傳統(tǒng)實體企業(yè)渠道的數(shù)據(jù),通過信用卡、會員卡、賬號、郵件地址、手機號碼等標(biāo)識符的比對,就可以很容易地整合在一起。標(biāo)識圖譜會實時對新的連接事件進行調(diào)整,使得在任何時候都可以及時提供關(guān)于客戶的盡可能完整的信息。
此外,Causata通過組織和存儲客戶的交互數(shù)據(jù),還形成了一條以事件為基礎(chǔ)的客戶時間軸。按照時間順序保留詳細的事件序列,允許分析員分析客戶行為的起因和影響,并調(diào)查特定場景或做路徑分析。
事件流或客戶時間軸對路徑分析是十分有價值的,但對專業(yè)分析或統(tǒng)計建模就比較困難。Causata將客戶的事件流和描述性屬性提取成為一組預(yù)測變量或集合,計算出一個具體的時間表。
舉例來講,一般計算過去一個月內(nèi)顧客的消費總額是將顧客在當(dāng)月購買物品的金額進行加總。對于一些特定行業(yè),比如金融服務(wù)、通信和數(shù)字媒體行業(yè),Causata還會預(yù)先內(nèi)置一些有用的特定變量,方便業(yè)務(wù)分析師管理和分析數(shù)據(jù)。
當(dāng)讀取客戶數(shù)據(jù)時,Causata能根據(jù)需求利用其并行計算能力來計算這些變量。根據(jù)需求計算能夠保證客戶的檔案總是最新的,并且考慮到了客戶最近的活動。新的預(yù)測數(shù)據(jù)或變量只需幾秒鐘就可以定義好,并立即激活添加到客戶檔案中。
Causata提供了內(nèi)建的回歸模型,以確定那些因果變量的準(zhǔn)確度和預(yù)測能力。這些線性和邏輯回歸模型能夠讓分析師和營銷者快速地為他們的客戶找到最有價值的變量來提供分析。
一旦建立了統(tǒng)計預(yù)測模型,分析師或建模員就可以通過Java API實時把模型導(dǎo)入Causata并按需執(zhí)行,導(dǎo)入時間只需要幾秒鐘。每當(dāng)客戶檔案被請求訪問或更新時,Causata都會對任何可行的模型進行評估并得出模型分數(shù),該模型分數(shù)會作為客戶預(yù)測數(shù)據(jù)的其中一個參數(shù)。模型是在HBase服務(wù)器中并行執(zhí)行的,模型分數(shù)的計算也與其他預(yù)測變量的計算相類似。
預(yù)測模型分數(shù)可用于數(shù)據(jù)查詢。例如檢索事件流、預(yù)測數(shù)據(jù)甚至是查詢出具有大概率流失可能的客戶名單;此外,也可用于實時決策,例如決定網(wǎng)頁上顯示的內(nèi)容,或者營銷員向客戶提供最優(yōu)匹配的銷售方案。
Causata檢索數(shù)據(jù)一般通過客戶層面或事件層面進行。
在客戶層面,通過Causata SQL查詢語言可以根據(jù)客戶行為進行查詢,對非結(jié)構(gòu)化數(shù)據(jù)提出結(jié)構(gòu)化問題。這些問題查詢在數(shù)據(jù)庫并行計算,并返回事件流、預(yù)測數(shù)據(jù)和模型分數(shù)。查詢還可以是對特殊事件、模型變量和預(yù)測分數(shù)的組合。
舉一個簡單的查詢例子,比如一個銀行分析師,他可能會選擇查詢哪些客戶在過去的一周中使用移動設(shè)備在線支付賬單,也可能會選擇查詢哪些客戶在過去90天中下載了一個宣傳銀行的電子郵件。返回的結(jié)果通常是一組結(jié)構(gòu)化的記錄,里面是所有滿足查詢條件的客戶,這組記錄集就可用于后續(xù)分析。通過允許分析師對大規(guī)模數(shù)據(jù)集的查詢,Causata可以節(jié)省大量的時間,避免浪費在所謂的“數(shù)據(jù)爭論”中。
分析師或營銷員可以選擇對所有滿足特定標(biāo)準(zhǔn)的客戶執(zhí)行一項完整查詢,也可以只檢索一個樣本以用于初步分析。Causata合理安排了這些客戶數(shù)據(jù),以保證所有這些數(shù)據(jù)都是無偏差的,而且可以用于可靠的分析,可結(jié)合Tableau、QlikView和 Excel等數(shù)據(jù)可視化工具來作進一步分析。
事件數(shù)據(jù)的查詢也可以通過Hadoop工具來完成,如Hive、Cloudera Impala,這兩種軟件分別采用批處理和交互的方式來查詢Causata的原始事件數(shù)據(jù)。這對查詢那些非結(jié)構(gòu)化的具體客戶行為數(shù)據(jù)非常有用,但對傳統(tǒng)的商業(yè)智慧宏觀分段分析則沒有什么價值。
Causata的客戶體驗管理(CXM)應(yīng)用致力于應(yīng)對現(xiàn)代B2C市場營銷的挑戰(zhàn)?;贑ausata大數(shù)據(jù)結(jié)構(gòu)的分析技術(shù),CXM通過與客戶在各種渠道的接觸過程中,采集、識別和分析大量客戶的在線和離線交互數(shù)據(jù),實時確定合適的營銷手段(如交叉銷售,打折,促銷,個性化等等)。通過個性化個體客戶體驗,Causata幫助營銷人員和企業(yè)分析師實現(xiàn)了其主要業(yè)務(wù)目標(biāo),如增加收入、提高客戶參與度、增加客戶生命周期價值等。其主要技術(shù)手段包括:身份圖(Identity Graph)、下一步行動預(yù)測(Next BesToffer)、機器學(xué)習(xí)(Machine Learning)和決策(Decisions)。
在上文中,我們已經(jīng)對Causata的身份圖作過介紹,通過這個工具,企業(yè)可以識別不同的個體客戶,整合他們的信息,并理解他們的意圖。身份圖通過Hadoop/HBase存儲系統(tǒng)和預(yù)建數(shù)據(jù)適配器為通常的營銷應(yīng)用進行數(shù)據(jù)提取,每一組客戶數(shù)據(jù)都被存儲在一個具有關(guān)鍵值對的單獨的記錄中。其數(shù)據(jù)存儲具有靈活、以事件為基礎(chǔ)的特點,允許分散式的數(shù)據(jù)進行橫向和縱向的連結(jié),形成完整的信息結(jié)構(gòu)。并且,在這里,客戶的信息會相應(yīng)地受到最大的隱私保護和安全對待。
Causata的“Next BestOffer”應(yīng)用數(shù)十個預(yù)測模型包含的客戶資料來進行客戶細分和預(yù)測客戶的意圖。Causata認為,客戶數(shù)據(jù)的價值在于預(yù)測客戶的下一步行動。該技術(shù)利用了大數(shù)據(jù)結(jié)構(gòu)中的“預(yù)測資料”以及“模型分數(shù)和行為預(yù)測”,對客戶資料及時更新,而相關(guān)的線性和邏輯回歸模型能夠讓分析師快速地為他們的客戶找到最有價值的變量來提供分析,使企業(yè)可以清晰了解客戶的意圖和偏好。
Causata正在申請專利的“Machine Learning”算法利用在線強化學(xué)習(xí)技術(shù),在客戶做出決定的同時不斷建立更好的實時動態(tài)預(yù)測分析模型。該技術(shù)不僅可以預(yù)測如何為個體客戶提供最好的銷售方案,還能預(yù)測一系列的營銷方案以幫助客戶生命周期價值最大化。
Decisions確保在任意渠道中,都能在不到50毫秒的時間內(nèi)預(yù)測客戶的下一步行動,提供始終如一的優(yōu)化客戶體驗。該功能使得營銷人員可以大規(guī)模地進行跨渠道的一對一營銷,思客戶之所思,使用Decisions,營銷人員可以方便地進行反復(fù)測試,跨渠道地為客戶和細分市場找到最好的營銷策略。
Causata將數(shù)字渠道和傳統(tǒng)渠道整合到一起,對各渠道的多結(jié)構(gòu)化客戶數(shù)據(jù)按照客戶事件進行連接和儲存;實時分析客戶在多個渠道當(dāng)前和以往的活動,在此基礎(chǔ)上生成動態(tài)客戶資料;使用預(yù)測分析和機器學(xué)習(xí)技術(shù),指導(dǎo)工作人員采取下一步最佳行動,從而完善實時決策。
通過使用這些先進的技術(shù),Causata可以更好地了解客戶體驗旅程,從而滿足客戶個性化的需求和喜好,同時根據(jù)分析的結(jié)果,提升客戶體驗,以取得更多商業(yè)成功。Causata在海量數(shù)據(jù)分析方面成績斐然,引以為豪,加入NICE之后,后者在全球市場的地位將能夠讓更多的人使用到Causata的技術(shù)。
參考資料:http://www.causata.com/