James Kobielus
有跡象表明,類似AWS Lake Formation和Delta Lake等平臺,都在朝著一個用于決策支持和AI驅動決策自動化的中央樞紐發(fā)展。
數(shù)據(jù)倉庫是再次獲得發(fā)展動力,還是會逐漸消亡呢?如果你對這個問題感到困惑也是情有可原的。一方面,數(shù)據(jù)倉庫似乎仍處于熱門階段。作為一個長期的行業(yè)觀察者,我發(fā)現(xiàn)這一行業(yè)在一連串成功的創(chuàng)新和創(chuàng)業(yè)活動中正迸發(fā)出新的活力。
這種趨勢基本上始于十年前設備標準進入數(shù)據(jù)倉庫主流,然后隨著市場向新一代云數(shù)據(jù)倉庫轉移,又在幾年前獲得了新動力。在過去幾年中,云數(shù)據(jù)倉庫供應商Snowflake在市場上獲得了眾多支持。
數(shù)據(jù)倉庫的衰落
但另一方面,數(shù)據(jù)倉庫在大數(shù)據(jù)、機器學習和人工智能等新行業(yè)的沖擊下正逐漸黯然失色。這種趨勢造成了數(shù)據(jù)倉庫在企業(yè)IT優(yōu)先等級中不斷下降,但是實際上大多數(shù)企業(yè)現(xiàn)在至少有一個或是有多個數(shù)據(jù)倉庫服務于各種下游應用程序。
數(shù)據(jù)倉庫一直是企業(yè)的核心工作負載,這也是幾年前我認為自己有必要搞清楚為什么數(shù)據(jù)倉庫遠未消亡的原因。同時,這也可能解釋了為什么其他觀察者認為他們必須重新定義數(shù)據(jù)倉庫的概念,以使其能夠融入數(shù)據(jù)湖和云計算時代。
數(shù)據(jù)倉庫作為一種實踐不僅蓬勃發(fā)展,而且現(xiàn)在還被視為云計算行業(yè)的增長核心。如果你只關注以此標簽進入市場的那些平臺(例如Snowflake),那么你將錯過這個領域內的眾多機遇。
數(shù)據(jù)湖的興起
被許多人稱之為“數(shù)據(jù)湖”的概念正在迅速發(fā)展成為下一代數(shù)據(jù)倉庫。對于那些不熟悉這個概念的人來說,數(shù)據(jù)湖是一種多結構化數(shù)據(jù)的系統(tǒng)或存儲庫,它們以原始格式和模式存儲,通常作為blob對象或文件。
數(shù)據(jù)湖通常用作所有企業(yè)數(shù)據(jù)的單個存儲,包括源系統(tǒng)數(shù)據(jù)的原始副本和用于報告、可視化、分析和機器學習等任務的轉換數(shù)據(jù)。它們包含分布式文件或對象存儲、機器學習模型庫以及高度并行化的處理與存儲資源集群。并且,數(shù)據(jù)庫通常在讀取時進行處理,并使用統(tǒng)計模型從中提取有意義的相關性和模式,而不是對它們存儲的對象強制執(zhí)行通用模式和語義。
這與Inmon和Kimball核心概念不一樣,后者的概念是將大多數(shù)專業(yè)人員的方法提供給數(shù)據(jù)倉庫。在本質上,數(shù)據(jù)倉庫是用于聚合、保留和管理官方認可的“單一版本的真實”數(shù)據(jù)記錄。此概念與管理數(shù)據(jù)的特定應用程序域以及使用它們的特定用例無關。
如果你對我的看法持懷疑態(tài)度,那么你可以看一下Bill Inmon對數(shù)據(jù)倉庫的定義以及對Inmon和Ralph Kimball框架的比較。數(shù)據(jù)倉庫通常都是關于數(shù)據(jù)驅動的決策支持,這使得它們可以很好地擴展到由人工智能驅動的推理領域。
下一代數(shù)據(jù)倉庫
在過去的一年當中,多個備受矚目的行業(yè)公告標志著數(shù)據(jù)倉庫的角色發(fā)生了轉變。盡管決策支持(即商業(yè)智能、報告和在線分析處理)仍然是大多數(shù)數(shù)據(jù)倉庫的核心用例,但是我們看到了其正在穩(wěn)步向著決策自動化轉型。換句話說,數(shù)據(jù)倉庫現(xiàn)在支持數(shù)據(jù)科學管道,為數(shù)據(jù)驅動的推理構建機器學習應用程序。
新一代數(shù)據(jù)倉庫實際上就是數(shù)據(jù)湖,其主要用途是對用于構建和訓練機器學習模型的數(shù)據(jù)進行管理。這些數(shù)據(jù)已經(jīng)進行過了清洗、整合和驗證。例如,在去年秋天召開的Amazon re:Invent大會上,亞馬遜網(wǎng)絡服務公布了AWS Lake Formation。這種新托管服務的目的很明確,就是簡化和加速安全數(shù)據(jù)湖的設置。雖然AWS Lake Formation擁有云數(shù)據(jù)倉庫的所有標志,并且實際上提供了一個面向決策支持應用程序的經(jīng)典數(shù)據(jù)倉庫Amazon Redshift,但是亞馬遜網(wǎng)絡服務(AWS)并沒有這樣稱呼它。
AWS Lake Formation的外觀和功能類似于數(shù)據(jù)倉庫。AWS將其描述為:“數(shù)據(jù)湖是一個集中化的、有機的且安全的存儲庫,它們以原始形式存儲所有數(shù)據(jù)并為分析做好準備。通過數(shù)據(jù)湖,你可以打破數(shù)據(jù)孤島并組合不同類型的分析,從而獲得深刻的洞察力,更好地指導業(yè)務決策?!?/p>
實際上,AWS將AWS Lake Formation作為一種超級數(shù)據(jù)倉庫用于決策支持和人工智能驅動的決策自動化。AWS表示該服務旨在管理數(shù)據(jù)集,讓用戶能夠選擇并使用Amazon EMR for Apache Spark、Redshift、Athena、SageMaker和QuickSight等分析與機器學習服務。
另一個例子是Databricks最近宣布的Delta Lake開源項目。Delta Lake可以在Apache 2.0許可下使用,類似于AWS Lake格式,主要用途是對在數(shù)據(jù)湖中維護的數(shù)據(jù)集進行聚合、清洗和管理,以支持機器學習。
Delta Lake位于本地部署或云數(shù)據(jù)存儲平臺之上,可以從Apache Spark訪問HDFS、Amazon S3或微軟Azure blob等存儲。Delta Lake將數(shù)據(jù)存儲在Parquet中,以提供Databricks所稱的“事務存儲層”。Parquet是一種開源的列式存儲格式,可用于Hadoop生態(tài)系統(tǒng)中的任何項目,與選擇數(shù)據(jù)處理框架無關。它們通過開放式并發(fā)串行、快照隔離、數(shù)據(jù)版本控制、回滾和模式強制來支持ACID事務。
Delta Lake和AWS Lake Formation之間的一個關鍵區(qū)別是Delta Lake可處理該管道中的批量數(shù)據(jù)和流數(shù)據(jù)。另一個區(qū)別是Delta Lake支持所有數(shù)據(jù)的ACID事務,允許數(shù)百個應用程序同時進行多次寫入和讀取。此外,開發(fā)人員還可以訪問每個Delta Lake的早期版本,以進行審計、回滾或重現(xiàn)其MLFlow機器學習實驗的結果。
Delta Lake似乎要與Apache Hive展開競爭。雖然Apache Hive完全依賴基于HDFS的存儲,并且直到最近才解決了對ACID的支持,但是它們已經(jīng)成為了部署最為廣泛的開源數(shù)據(jù)倉庫項目。Hive 3在一年前才宣布要為基于Hadoop的數(shù)據(jù)倉庫提供ACID支持。Hive 3可為使用delta文件的CRUD(創(chuàng)建讀取更新刪除)表單提供原子性和快照隔離等操作。
作為人工智能驅動的決策自動化的基礎
近期關于AWS Lake Formation、Delta Lake和Hive 3的這些行業(yè)公告都預測了數(shù)據(jù)湖成為決策支持與決策自動化應用以及交易數(shù)據(jù)應用的中央樞紐的時間。為了加速這一趨勢,Hive 3和Delta Lake等開源項目需要吸引供應商和用戶更多的關注。
未來“數(shù)據(jù)倉庫”這一術語可能將主要指那些存儲了用于商業(yè)智能的結構化數(shù)據(jù)的多域倉庫。底層數(shù)據(jù)平臺還會將繼續(xù)發(fā)展,以便為基于云的人工智能提供核心數(shù)據(jù)治理基礎。不過,目前推動企業(yè)數(shù)據(jù)倉庫發(fā)展的主要動力是人工智能而非商業(yè)智能。
本文作者James Kobielus為SiliconAngle Wikibon公司負責人工智能、數(shù)據(jù)科學和應用程序開發(fā)的首席分析師。
原文網(wǎng)址
https://www.infoworld.com/article/3405443/the-data-lake-is-becoming-the-new-data-warehouse.html