(中國移動通信集團設計院有限公司,北京 100080)
MPP數據庫在中國移動大數據應用中的前景分析
田雯,劉倩,孫紅恩
(中國移動通信集團設計院有限公司,北京 100080)
隨著云計算、大數據應用的迅猛發(fā)展,中國移動IT系統的數據量呈現爆炸式的增長,而傳統的以小型機架構為主的數據庫系統在存儲和分析能力等方面開始出現瓶頸,且造價高昂,因此中國移動對MPP數據庫的應用需求量大幅增加。本文通過對MPP數據庫在中國移動的現網使用情況、產品技術優(yōu)劣及適用場景的分析,來探討MPP數據庫在中國移動大數據應用中的發(fā)展前景。
大數據技術;MPP數據庫;share-nothing架構應用
由阿里巴巴造出的“去IOE”概念在IT圈已經迅速火熱起來,中國移動也跟隨浪潮掀起了“去IOE”的運動?!叭OE”即去掉造價高昂的IBM小型機、Oracle數據庫和EMC存儲設備,代之以廉價的國產化、開源化的軟硬件系統,實質就是以“分布式+開源”的架構替換傳統的“集中式+封閉”架構,是系統云化的重要組成部分。而實現“去IOE”之路,就必須要借助云計算、大數據等新型技術。
研究機構Gartner對于“大數據”(Big Data)給出的定義是“需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產”。大數據具有大量(Volume)、高速(Velocity)、多樣(Variety)和價值(Value)四大特點,簡稱“4V”特征。而大數據技術則是對大容量、高周轉率、高可變性的信息資產的管理,它要求經濟實惠的、創(chuàng)新的信息處理形式以提升洞察力和決策水平。
目前主流的大數據技術主要包括分布式數據庫(Massively Parallel Processing大規(guī)模并行處理, MPP數據庫)、Hadoop平臺、NoSQL和NewSQL技術等。
各種大數據技術擅長領域不同,如表1所示,用戶需要根據實際的應用場景選取最優(yōu)匹配的大數據技術。
3.1 MPP數據庫在中國移動現網的應用情況
隨著移動互聯網應用的迅猛發(fā)展,中國移動IT系統的數據量呈現爆炸式的增長,帶來了海量的數據存儲、分析和管理需求。而傳統的以小型機架構為主的數據庫系統,在存儲、計算、查詢和分析能力等方面均開始出現瓶頸,且造價高昂,因此中國移動對MPP數據庫的應用需求量大幅增加。
表1 各類大數據技術的適用領域
2015年最新調研結果顯示,中國移動各省約有40個IT系統使用了MPP數據庫,總數據量約為8PB。其中,47%用于數據共享平臺(多數為企業(yè)級或部門級內部共享使用),22%用于經分系統,12%用于詳單云,7%用于集中性能管理系統,其余用于深度分析庫、信令監(jiān)測系統、VGOP等系統。
從規(guī)模統計情況來看,中國移動MPP現網應用規(guī)模主要集中在10~50個節(jié)點、50~500 TB數據量之間。同時各省根據系統滿足期、使用用戶、業(yè)務發(fā)展等情況對各系統終期將實現的規(guī)模進行預測,預測結果顯示MPP遠期業(yè)務發(fā)展將可達到100節(jié)點、1 000 TB數據量的規(guī)模。圖1、2為中國移動MPP現網應用規(guī)模和遠期預測規(guī)模分布圖。
3.2 MPP數據庫適用場景分析
根據上述應用情況可以看出,MPP數據庫主要適用于具有以下特性的OLAP類應用(數據倉庫/集市、數據分析類系統等):
離線批處理、復雜邏輯的關聯分析;
自定義查詢、自助取數;
支持結構化數據、少量的非結構化數據;
單集群一般100節(jié)點以下;
數據規(guī)模在TB~PB級。
MPP數據庫針對OLAP類應用場景提供了大量的技術優(yōu)化,以充分發(fā)揮Share-Nothing架構的性能優(yōu)勢和關系數據庫的數據關聯分析能力。相較于傳統的關系型數據庫產品,MPP數據庫具有高性能處理能力和高數據吞吐能力,適合較大數據量、高計算負載度、低延時要求的關系型數據處理,可提供結構化數據的深度分析挖掘以及多變的自助分析功能:
圖1 中國移動MPP現網應用規(guī)模
圖2 中國移動MPP現網應用遠期預測規(guī)模
(1)深度分析與挖掘:承擔部分主庫結構化數據處理任務,執(zhí)行大量歷史信息處理和查詢任務,完成海量數據挖掘任務;
(2)即席查詢與自助分析:執(zhí)行非固定信息的分析任務,以及臨時、即席、快速變化的分析任務,提供更加開放的分析探索環(huán)境。
4.1 MPP技術特點及產品介紹
MPP數據庫依然是關系型數據庫。典型的MPP系統是通過Share-Nothing(無共享)的方式實現大規(guī)模的并行處理,它將任務并行的分散到多個節(jié)點上,每個節(jié)點都有獨立的磁盤存儲系統和內存系統,業(yè)務數據根據數據庫模型和應用特點劃分到各個節(jié)點上,每臺數據節(jié)點通過網絡互相連接,彼此協同計算,作為整體提供數據庫服務。其中,MPP又分為有Master節(jié)點和無Master節(jié)點兩種架構,Master節(jié)點承擔生產執(zhí)行計劃和任務調度等功能,有專職Master節(jié)點的架構不會影響數據節(jié)點的效率,但缺陷在于Master節(jié)點本身可能會成為性能瓶頸。
MPP數據庫與傳統的Share-Disk架構的SMP數據庫不同,SMP系統的節(jié)點之間共享文件存儲,特點是高并發(fā)、高可用性、數據量較小,適合OLTP類應用場景,而MPP系統具有海量數據、低并發(fā)、低可用性的特點,因此更適合于OLAP類應用場景。圖3為MPP數據庫系統和SMP數據庫系統的架構圖。
圖3 MPP和SMP數據庫系統架構圖
目前市面上的開源和商用MPP數據庫產品多達幾十種,而且還有新的產品不斷涌出。各種不同架構和特性的MPP數據庫產品紛紛加入市場大混戰(zhàn),技術路線很難標準統一化,給用戶帶來了選型和管理上的困擾。表2為目前市面上主流MPP數據庫產品的技術優(yōu)劣對比情況。
MPP數據庫各產品技術存在著較大的差異,產品選型應重點考慮系統的集群規(guī)模、部署環(huán)境、執(zhí)行效率和安全性等需求。綜合來講,Greenplum(EMC)、Vertica(HP)和Gbase(南大通用)這三種產品的技術更為成熟優(yōu)良。其中,南大通用作為國產MPP領域的第一品牌,技術發(fā)展水平與國外同類產品相當,甚至在架構設計方面已趕超國外同類產品。
無論選擇何種產品,用戶在進行產品選型之前,都應先明確具體的應用場景,并針對應用場景對產品進行功能和性能測試,重點比對產品的各項指標數據,從而選擇性價比最高的一款產品。
4.2 MPP技術缺陷及改進
MPP架構可以對大數據進行分析處理,可有效支撐PB級別的結構化數據,這是傳統數據庫架構無法達到的數據量,但MPP也具有一些局限性和技術缺陷:
MPP系統因為要在不同處理單元之間傳送信息,針對緊耦合的數據庫表訪問、較多事務同時處理的情況效率不佳,因此不適用于事務型數據及OLTP場景。
MPP系統的擴展能力有限,目前的技術理論上可實現512節(jié)點的互聯,但實際上系統處理性能不能隨著節(jié)
點數的增加呈線性增長趨勢,現網中100節(jié)點以上規(guī)模的應用數量極少。
MPP系統的故障容忍度不高,單節(jié)點故障性能損失可高達50%,多節(jié)點故障則可能導致整個MPP系統不可用。
各大主流廠商為解決上述問題,對MPP技術做了優(yōu)化和改進,現今已有多Master節(jié)點、行列混合存儲、植入內存計算等技術開始嘗試使用:
(1)Master節(jié)點主要承擔訪問入口、元數據管理、生成執(zhí)行計劃和任務調度等功能。有專職Master節(jié)點的架構不會影響數據節(jié)點的效率,但大規(guī)模集群下Master節(jié)點本身會成為性能短板;而無專職Master節(jié)點的架構擴展性能更好,一個節(jié)點失效不影響數據庫整體狀態(tài),但任務調度等主節(jié)點工作分布在數據節(jié)點執(zhí)行會降低數據節(jié)點的性能。因此, 多Master節(jié)點是未來的發(fā)展方向,由多個子集群組成聯邦集群: Master集群、獨立的集群服務集群(比如Zookeeper)和計算集群組,可有效解決大規(guī)模集群部署的問題。這樣多節(jié)點的分層架構提供良好的擴展性和高可用的同時,也能夠保證數據節(jié)點的對等性。
表2 MPP數據庫主流產品技術優(yōu)劣對比表
(2)按行進行Hash分布是MPP的主要特征,行式存儲更新速度快,適合多字段頻繁查詢;而列式存儲則能大幅降低分析負載的磁盤I/O,并且提供更高的數據壓縮率。行列混合式存儲可吸收兩者的優(yōu)勢,互補加成,可以按照應用類型,隨需定制分區(qū)存儲方式,以達到最優(yōu)化的訪問性能,從而提高查詢速度和數據壓縮率。
(3)內存的數據讀寫速度比磁盤要高出幾個數量級,將數據保存在內存中相比從磁盤上訪問能夠極大地提高應用的性能,適合小數據量的頻繁加載/修改。MPP通過植入內存計算技術,在內存中為實時裝載數據開辟一塊專用存儲區(qū)域,利用內存的快速讀寫能力為業(yè)務系統提供高并發(fā)、低延遲的數據處理能力,可滿足OLTP服務需求。
4.3 MPP技術發(fā)展前景
目前,中國移動IT系統使用MPP數據庫的主流解決方案是與Hadoop平臺形成混搭架構來實現海量數據分析,Hadoop可對數據規(guī)模在PB級以上的非結構化/半結構化數據進行處理,MPP數據庫可以直接加載/卸載數據到Hadoop的HDFS文件系統,提供結構化數據分析功能,同時提供豐富的SQL和事務支持能力,二者屬于互補關系。
MPP的技術優(yōu)勢在于對結構化數據的處理、響應性能和外延工具齊全等方面,未來Hadoop系列技術,會隨著大數據的發(fā)展逐漸成熟,包括Hadoop的SQL技術在性能、容錯和安全性上的不斷提升,BI工具越來越豐富等。同時,MPP技術發(fā)展也在向Hadoop靠攏,各主流廠商紛紛在做的新一代大數據產品,就是把MPP與Hadoop技術融合在一起,并結合一些內存計算、流計算等技術,一方面可為用戶提供透明的數據管理平臺,另一方面通過技術整合來有效節(jié)約投資成本。換句話說,未來不再有混搭架構的概念,MPP數據庫和Hadoop生態(tài)系統將逐漸融為一體。
綜上所述,在大數據技術融合尚未完善的現階段,MPP數據庫依然是大數據環(huán)境下不可或缺的一部分,它可提高IT系統的通用性、可擴展性和靈活性,而且成本低廉,獨立于硬件的純軟件架構,也符合中國移動集中采購現狀。
但是現今MPP技術也存在著擴展節(jié)點有限、大規(guī)模集群可用性不高和節(jié)點故障性能下降嚴重等問題。在未來的IT系統建設過程中,需要結合大數據的技術發(fā)展、現網使用的經驗積累等情況,不斷加深對MPP數據庫的研究,以便其能更好的支撐IT系統建設,順應大數據的發(fā)展。
[1] 魏進武, 靳淑嫻, 張基恒, 等. 大數據關鍵技術及運營商落地建議[J]. 郵電設計技術,2015(5)
[2] 齊磊. 大數據分析場景下分布式數據庫技術的應用[J]. 移動通信, 2015,39(12): 58-62.
[3] 孫元浩. 大數據基礎技術發(fā)展的兩大方向和最新進展[R]. 北京:第六屆中國數據庫技術大會(DTCC),2015.
MPP database’s prospect analysis on big data applicated in China Mobile
TIAN Wen, LIU Qian, SUN Hong-en
(China Mobile Group Design Institute Co., Ltd., Beijing 100080, China)
With the rapid development of cloud computing and big datatechnologies, the amount of data showing that China Mobile IT systems are growing explosively. But,traditionaldatabase systems with minicomputerbasedarchitecture began to appear a bottleneck in aspects of storage and analysis capability,and cost expensive, so China Mobile’s requirement for MPP databaseincreasesubstantial.This paper discusses the future of MPP database in big data applications, by analyzing MPP database used in China Mobile IT systems, differences of software products and applicable scenarios.
big data technologies; MPP database; share-nothing architecture applicated
TN929.5
A
1008-5599(2017)03-0087-05
2016-01-07