■本刊記者 趙志遠(yuǎn)
隨著大數(shù)據(jù)時(shí)代的到來(lái),越來(lái)越多的人意識(shí)到,世界上最有價(jià)值的資產(chǎn)就是數(shù)據(jù),企業(yè)也紛紛踏入數(shù)字化轉(zhuǎn)型的浪潮中。
但眾所周知,大數(shù)據(jù)具有數(shù)據(jù)類(lèi)型繁多、數(shù)據(jù)價(jià)值密度相對(duì)較低、處理速度快、時(shí)效性要求高等特點(diǎn),想要吃到這一美味的“蛋糕”可不是那么容易的事,充分利用好數(shù)據(jù)的價(jià)值才是關(guān)鍵所在。
AWS 首席云計(jì)算企業(yè)戰(zhàn)略顧問(wèn)張俠認(rèn)為,數(shù)字化轉(zhuǎn)型包含很多方面的內(nèi)容,其中很重要的一個(gè)內(nèi)容就是把企業(yè)的數(shù)據(jù)化資產(chǎn)使用好。
IDC 統(tǒng)計(jì)顯示,全球近90%的數(shù)據(jù)將在這幾年內(nèi)產(chǎn)生,預(yù)計(jì)到2025 年,全球數(shù)據(jù)量將比2016 年的16.1ZB 增加10 倍,達(dá)到163ZB。數(shù)據(jù)的海量與多元化決定了從數(shù)據(jù)中獲取有用的價(jià)值變得越來(lái)越困難,如果無(wú)法從數(shù)據(jù)中獲得益處,那么數(shù)據(jù)價(jià)值就無(wú)從談起。
傳統(tǒng)方法上,數(shù)據(jù)從產(chǎn)生到分析處理及使用總要經(jīng)歷這樣的過(guò)程:數(shù)據(jù)通過(guò)一些底層交易型的數(shù)據(jù)庫(kù),經(jīng)過(guò)整理后形成中間層的數(shù)據(jù)倉(cāng)庫(kù),再到上層的商務(wù)智能BI。如果這些多元的數(shù)據(jù)無(wú)法被其它應(yīng)用所使用,那么將不可避免地會(huì)形成數(shù)據(jù)孤島。
張俠表示:“用戶期盼從數(shù)據(jù)中獲取價(jià)值?!倍鴤鹘y(tǒng)數(shù)據(jù)分析方式無(wú)法快速地將這些多元數(shù)據(jù)展示出來(lái),從中獲取價(jià)值也就難以實(shí)現(xiàn)了。
雖然說(shuō)數(shù)據(jù)湖的概念出現(xiàn)已有將近10 年了,近年來(lái)又不斷被提起,足見(jiàn)其價(jià)值所在。數(shù)據(jù)湖可以看作是一個(gè)中心數(shù)據(jù)存儲(chǔ)的容器,將各類(lèi)設(shè)備及應(yīng)用所產(chǎn)生的原始數(shù)據(jù)進(jìn)行存儲(chǔ),成為數(shù)據(jù)“倉(cāng)庫(kù)”,進(jìn)而可以進(jìn)行查詢或分析等操作。與傳統(tǒng)所稱的數(shù)據(jù)倉(cāng)庫(kù)不同,數(shù)據(jù)湖中存儲(chǔ)的是原始的數(shù)據(jù),可以是結(jié)構(gòu)化的或是非結(jié)構(gòu)化的,借助云計(jì)算可以快速的縮放存儲(chǔ)海量數(shù)據(jù),還可以實(shí)現(xiàn)進(jìn)一步的查詢、分析及處理能力,通過(guò)應(yīng)用機(jī)器學(xué)習(xí)與人工智能技術(shù)實(shí)現(xiàn)商業(yè)智能,預(yù)測(cè)分析等。張俠表示,數(shù)據(jù)湖在實(shí)現(xiàn)高可用、高持久、EB 級(jí)數(shù)據(jù)的同時(shí),還可滿足安全、合規(guī)、審計(jì)等要求。
當(dāng)然,不同的服務(wù)商對(duì)數(shù)據(jù)湖有不同的理解,AWS 對(duì)數(shù)據(jù)湖也有著自己的理解和應(yīng)用。2006 年發(fā)布的Amazon S3是全球第一款公有云服務(wù),在Amazon S3 中可以存儲(chǔ)包含結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),以及進(jìn)一步的各種預(yù)測(cè)分析等。
數(shù)據(jù)湖平臺(tái)在實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)、大數(shù)據(jù)處理、交互查詢、實(shí)時(shí)分析、預(yù)測(cè)分析等能力時(shí),需要有不同的產(chǎn)品服務(wù)用以支撐。例如,Amazon RDS服務(wù)是一個(gè)云托管的關(guān)系型數(shù)據(jù)庫(kù),支持6 種常用數(shù)據(jù)庫(kù)引擎的關(guān)系型數(shù)據(jù)庫(kù)服務(wù);Amazon Aurora 云原生的關(guān)系型數(shù)據(jù)庫(kù)可自動(dòng)執(zhí)行各種耗時(shí)的管理任務(wù)等。
近期,AWS 宣布AWS Glue與Amazon Athena 在由西云數(shù)據(jù)運(yùn)營(yíng)的AWS 中國(guó)(寧夏)區(qū)域正式上線。其中,Amazon Athena 是一種交互式查詢服務(wù),它讓客戶可以使用標(biāo)準(zhǔn)SQL 語(yǔ)言、輕松分析Amazon S3 中的數(shù)據(jù)。AWS Glue 是一種全托管的數(shù)據(jù)提取、轉(zhuǎn)換和加載 (ETL) 服務(wù)及元數(shù)據(jù)目錄,讓客戶更容易準(zhǔn)備數(shù)據(jù),加載數(shù)據(jù)到數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖,用于數(shù)據(jù)分析。
這兩個(gè)服務(wù)都是AWS 數(shù)據(jù)湖平臺(tái)非常重要的組成部分。Amazon Athena 可 以 讓用戶方便地對(duì)Amazon S3 數(shù)據(jù)湖中的數(shù)據(jù)執(zhí)行查詢,由于Athena 是一種無(wú)服務(wù)器服務(wù),用戶不用關(guān)心配置和管理服務(wù)器、集群等情況。
茄子快傳是一家全球化的互聯(lián)網(wǎng)科技公司,通過(guò)搭建一個(gè)數(shù)字內(nèi)容連接入口,幫助全球200 多個(gè)國(guó)家和地區(qū)的用戶獲取優(yōu)質(zhì)數(shù)字內(nèi)容。茄子快傳此前面臨數(shù)據(jù)量大、分析維度多、業(yè)務(wù)復(fù)雜等挑戰(zhàn),所以經(jīng)常需要多維度多顆粒度的高并發(fā)分析。茄子快傳數(shù)據(jù)運(yùn)營(yíng)負(fù)責(zé)人何誠(chéng)表示:“茄子快傳通過(guò)使用Amazon Athena,使其運(yùn)行新數(shù)據(jù)分析所需的時(shí)間縮短了30%,大幅減少了成本與運(yùn)維方面的風(fēng)險(xiǎn)?!?/p>
AWS Glue 讓Amazon S3數(shù)據(jù)湖中的數(shù)據(jù)集可以被發(fā)現(xiàn),可用于查詢和分析。一般來(lái)說(shuō),客戶在使用數(shù)據(jù)湖架構(gòu)實(shí)現(xiàn)數(shù)據(jù)分析解決方案時(shí),通常有75%的時(shí)間花在數(shù)據(jù)集成任務(wù)上,而AWS Glue 消除了ETL 作業(yè)基礎(chǔ)設(shè)施方面的重復(fù)勞動(dòng),極大地縮短分析項(xiàng)目中做ETL 和數(shù)據(jù)編目階段的時(shí)間,讓ETL 變得很容易。
雖說(shuō)數(shù)據(jù)湖對(duì)于實(shí)現(xiàn)數(shù)據(jù)價(jià)值是個(gè)行之有效的方法,但要構(gòu)建真正安全高效的數(shù)據(jù)湖并非易事。傳統(tǒng)構(gòu)建數(shù)據(jù)湖首先需要設(shè)置存儲(chǔ),然后將數(shù)據(jù)移動(dòng)及加載到不同位置,清理、準(zhǔn)備數(shù)據(jù)及編寫(xiě)數(shù)據(jù)目錄,配置并實(shí)施安全性與合規(guī)策略,最后使用相關(guān)工具提取數(shù)據(jù)并用于分析。
如今新技術(shù)的發(fā)展也使數(shù)據(jù)湖迸發(fā)出新的活力。張俠表示,AWS 已有多種新服務(wù)幫助用戶更快、更好地完成數(shù)據(jù)湖的構(gòu)建。一類(lèi)是無(wú)服務(wù)器分析,無(wú)需用戶手動(dòng)管理即可實(shí)現(xiàn)數(shù)據(jù)湖的分析,以上提到的AWS Glue 就是典型的無(wú)服務(wù)器托管及分析服務(wù),為用戶提供按需數(shù)據(jù)湖分析。
另一類(lèi)是借助機(jī)器學(xué)習(xí)和人工智能服務(wù)實(shí)現(xiàn)對(duì)數(shù)據(jù)的預(yù)測(cè)性洞察,尤其是與Amazon SageMaker 服務(wù)相結(jié)合,可實(shí)現(xiàn)更多自動(dòng)化的預(yù)測(cè)性分析。
值得指出的是,AWS 有著多種服務(wù)確保數(shù)據(jù)湖安全,以滿足對(duì)安全、合規(guī)、審計(jì)等的要求。張俠表示,Amazon S3 可 以 達(dá) 到“11 個(gè)9”的數(shù)據(jù)持久性,采取三個(gè)可用區(qū),來(lái)保障用戶的數(shù)據(jù)安全,AWS Identity and Access Management(IAM) 可實(shí)現(xiàn)用戶身份和接入管理等,以滿足對(duì)用戶以及當(dāng)?shù)叵嚓P(guān)法律法規(guī)的要求。
張俠表示,數(shù)據(jù)湖是數(shù)據(jù)分析智能商務(wù)的新趨勢(shì),AWS提供的數(shù)據(jù)湖與分析服務(wù)可幫助企業(yè)用戶企業(yè)從數(shù)據(jù)中獲得洞察力。