陳 泳,高 昂
(1.中國電信股份有限公司廣東研究院 廣州510630;2.中國電信股份有限公司廣東分公司 廣州510081)
大數(shù)據(jù)技術(shù)自2012年爆發(fā)式宣傳和進(jìn)入企業(yè)應(yīng)用以來,目前已在互聯(lián)網(wǎng)和企業(yè)中廣泛應(yīng)用。著名IT咨詢公司Gartner在新發(fā)布的2014年IT技術(shù)成熟度曲線報(bào)告[1]中指出,大數(shù)據(jù)從之前的炒作高峰已轉(zhuǎn)向低潮期,應(yīng)用領(lǐng)域已有多種較成熟和合理的解決方案,業(yè)務(wù)需求仍然很高,但已從引入和管理大數(shù)據(jù),轉(zhuǎn)為規(guī)?;?、常態(tài)化地利用大數(shù)據(jù)進(jìn)行更好的業(yè)務(wù)運(yùn)營。
[2]概述了運(yùn)營商企業(yè)的大數(shù)據(jù)發(fā)展策略,平臺(tái)建設(shè)是5個(gè)策略之一,大數(shù)據(jù)在基礎(chǔ)設(shè)施層面須共享和發(fā)揮規(guī)模集群優(yōu)勢(shì),以大數(shù)據(jù)中心的形式進(jìn)行集約化建設(shè)與運(yùn)營。
目前國內(nèi)企業(yè)的大數(shù)據(jù)應(yīng)用大部分仍處于規(guī)?;渴疬\(yùn)營初期,基礎(chǔ)平臺(tái)的建設(shè)運(yùn)營包括硬件架構(gòu)設(shè)計(jì)、軟件平臺(tái)規(guī)劃、資源的共享與各類接口的規(guī)范制定,直接關(guān)系到大數(shù)據(jù)應(yīng)用能否超越傳統(tǒng)的數(shù)據(jù)倉庫方案,低成本實(shí)現(xiàn)海量數(shù)據(jù)處理和挖掘數(shù)據(jù)價(jià)值,從而成功上線應(yīng)用。本文對(duì)大數(shù)據(jù)的基礎(chǔ)平臺(tái)建設(shè)運(yùn)營進(jìn)行探討與案例分析,旨在為規(guī)?;渴疬\(yùn)營大數(shù)據(jù)應(yīng)用提供參考。
大數(shù)據(jù)廣為接受的4V(volume、velocity、value和variety,分別代表海量、快速、價(jià)值密度低和多變)特點(diǎn)和新興技術(shù)的生態(tài)狀況帶來了大數(shù)據(jù)應(yīng)用與傳統(tǒng)IT應(yīng)用的如下3個(gè)差別和特點(diǎn)。
·分布式架構(gòu):利用廉價(jià)軟硬件分布式集群,解決海量數(shù)據(jù)的存儲(chǔ)和處理,實(shí)現(xiàn)高度的彈性可擴(kuò)展和冗余可靠性,單節(jié)點(diǎn)故障是預(yù)期的常態(tài)現(xiàn)象。
·基礎(chǔ)平臺(tái)生態(tài):Apache開源軟件基金下的Hadoop平臺(tái)框架成為大數(shù)據(jù)的事實(shí)技術(shù)標(biāo)準(zhǔn),圍繞周邊的還有基于Hadoop平臺(tái)的延伸軟件產(chǎn)品方案、開放的x86服務(wù)器平臺(tái)和存儲(chǔ)/網(wǎng)絡(luò)方案,開放的軟硬件平臺(tái)帶來眾多產(chǎn)品供應(yīng)商,如廣泛使用的Hadoop發(fā)行版本CDH、眾多的x86服務(wù)器廠商等。
·平臺(tái)化建設(shè)運(yùn)營:大數(shù)據(jù)應(yīng)用都是建立在硬件資源管理層、分布式文件系統(tǒng)、數(shù)據(jù)處理層等有機(jī)組合的平臺(tái)框架之上的,有很強(qiáng)的通用性和互操作能力,但平臺(tái)版本和新的軟件方案發(fā)展很快,對(duì)規(guī)劃運(yùn)營帶來較大影響。
上述特點(diǎn),說明基礎(chǔ)平臺(tái)包括硬件架構(gòu)、軟件平臺(tái)的選型、集成以及相關(guān)的運(yùn)營方法,對(duì)大數(shù)據(jù)應(yīng)用成功部署和發(fā)揮價(jià)值所起的關(guān)鍵作用。目前國內(nèi)知名互聯(lián)網(wǎng)企業(yè)已搭建了海量規(guī)模的大數(shù)據(jù)基礎(chǔ)平臺(tái),基礎(chǔ)平臺(tái)的規(guī)劃運(yùn)營有成功實(shí)踐。
以騰訊公司分布式數(shù)據(jù)倉庫(TDW)集群平臺(tái)為例[3],該平臺(tái)的建設(shè)驅(qū)動(dòng)力在于整合已有的多個(gè)大數(shù)據(jù)集群,實(shí)現(xiàn)數(shù)據(jù)和資源共享,通過規(guī)?;渴鸷蛷椥怨芾?,更好地發(fā)揮大數(shù)據(jù)應(yīng)用的價(jià)值。目前TDW集群的服務(wù)器節(jié)點(diǎn)數(shù)量超過8 000個(gè),硬盤數(shù)量超過50 000個(gè)。在TDW大數(shù)據(jù)基礎(chǔ)平臺(tái)的建設(shè)運(yùn)營中,騰訊公司對(duì)Hadoop開源平臺(tái)進(jìn)行定制以滿足海量規(guī)模集群下的資源和任務(wù)調(diào)度要求,并實(shí)現(xiàn)特定的業(yè)務(wù)需求,確定節(jié)點(diǎn)硬件配置保證投資性價(jià)比最優(yōu),實(shí)施海量集群的集中監(jiān)控,設(shè)備出現(xiàn)故障時(shí)可以自動(dòng)隔離和通知,定期批量維修。這些基礎(chǔ)平臺(tái)的規(guī)劃與運(yùn)營工作,直接關(guān)系到TDW平臺(tái)能否成功應(yīng)用。通過有效的軟硬件規(guī)劃和運(yùn)營流程設(shè)計(jì),TDW平臺(tái)成為騰訊公司大數(shù)據(jù)應(yīng)用的核心基礎(chǔ)。
目前運(yùn)營商企業(yè)中的大數(shù)據(jù)應(yīng)用,很多仍是分省建設(shè),各自摸索基礎(chǔ)平臺(tái)建設(shè)方案,除個(gè)別發(fā)達(dá)省份外,實(shí)際上線的大數(shù)據(jù)業(yè)務(wù)應(yīng)用數(shù)量不多,集群規(guī)模較小,技術(shù)積累、研發(fā)與運(yùn)營經(jīng)驗(yàn)存在欠缺。今后運(yùn)營商的大數(shù)據(jù)應(yīng)用趨勢(shì)是全網(wǎng)或大區(qū)集中而不再分特定地域,集群規(guī)模、數(shù)據(jù)模型和軟件平臺(tái)需要統(tǒng)一規(guī)劃,與現(xiàn)有分省建設(shè)大數(shù)據(jù)應(yīng)用有非常大的區(qū)別。目前運(yùn)營商大數(shù)據(jù)基礎(chǔ)平臺(tái)的規(guī)劃,對(duì)今后規(guī)模化發(fā)展有較大影響。
本文總結(jié)了中國電信股份有限公司部分省公司的成功經(jīng)驗(yàn),結(jié)合當(dāng)前技術(shù)趨勢(shì),給出大數(shù)據(jù)基礎(chǔ)平臺(tái)規(guī)?;ㄔO(shè)運(yùn)營的思路與方法論。
基礎(chǔ)平臺(tái)目的在于提供集約管理和池化運(yùn)營的基礎(chǔ)能力,實(shí)現(xiàn)軟硬件資源的共享和快速提供,為大數(shù)據(jù)應(yīng)用提供高效和靈活的基礎(chǔ)平臺(tái)。根據(jù)當(dāng)前主流的大數(shù)據(jù)技術(shù)架構(gòu),基礎(chǔ)平臺(tái)可劃分如下5個(gè)功能層面,為各類大數(shù)據(jù)應(yīng)用提供共享的基礎(chǔ)服務(wù)。
·資源管理層:承載各類負(fù)載的硬件平臺(tái)及資源的動(dòng)態(tài)分配,包括服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)、資源調(diào)度。
·數(shù)據(jù)存儲(chǔ)層:提供海量數(shù)據(jù)的分布式存儲(chǔ),大數(shù)據(jù)應(yīng)用主要是使用Hadoop框架中的HDFS。
·數(shù)據(jù)處理層:提供大數(shù)據(jù)并行計(jì)算基礎(chǔ)服務(wù),主流的并行計(jì)算框架包括Hadoop平臺(tái)的Map Reduce框架及之上的Hive和新興的Spark框架等。
·接入層:為前端應(yīng)用界面提供訪問接口,為后端服務(wù)提供負(fù)載均衡,當(dāng)前主流為REST風(fēng)格的HTTP訪問接口。
·平臺(tái)管理層:提供安全、監(jiān)控、配置、容災(zāi)切換等基礎(chǔ)管理。
圖1給出了一個(gè)電信運(yùn)營商大數(shù)據(jù)集群基礎(chǔ)平臺(tái)的邏輯框架。
大數(shù)據(jù)基礎(chǔ)平臺(tái)建設(shè)運(yùn)營應(yīng)結(jié)合業(yè)務(wù)需求和持續(xù)發(fā)展的技術(shù)趨勢(shì),對(duì)上述5個(gè)功能層面選用合適和符合發(fā)展趨勢(shì)的軟硬件平臺(tái)并定期更新,根據(jù)生產(chǎn)、測(cè)試、研發(fā)等用途規(guī)劃配置不同規(guī)模的集群,基于可擴(kuò)展可維護(hù)、安全性、穩(wěn)定性、持續(xù)演進(jìn)的原則,逐步擴(kuò)大基礎(chǔ)平臺(tái)規(guī)模,保證總體演進(jìn)的平滑和可靠,從而構(gòu)建規(guī)模化可擴(kuò)展、安全穩(wěn)定和持續(xù)演進(jìn)的大數(shù)據(jù)基礎(chǔ)平臺(tái)。前述幾個(gè)大數(shù)據(jù)基礎(chǔ)平臺(tái)建設(shè)運(yùn)營原則的具體說明如下。
·可擴(kuò)展可維護(hù):Hadoop平臺(tái)本身提供了較好的存儲(chǔ)和運(yùn)算擴(kuò)展能力,但需要合理的集群規(guī)劃以保證資源的有效利用和平臺(tái)的可用可維護(hù),包括軟件平臺(tái)版本的統(tǒng)一、功能節(jié)點(diǎn)的規(guī)劃、HDFS數(shù)據(jù)塊的大小設(shè)計(jì)、服務(wù)器機(jī)架和網(wǎng)絡(luò)拓?fù)湟?guī)劃等。
·安全性:運(yùn)營商大數(shù)據(jù)應(yīng)用大多涉及客戶隱私數(shù)據(jù),需規(guī)劃實(shí)施認(rèn)證框架、角色配置、實(shí)時(shí)監(jiān)控、審計(jì)日志、網(wǎng)絡(luò)隔離等技術(shù)和運(yùn)營流程,保證數(shù)據(jù)安全性。
·穩(wěn)定性:廉價(jià)軟硬件平臺(tái)的故障是常態(tài)化現(xiàn)象,在平臺(tái)規(guī)劃和運(yùn)營中必須包含軟硬件故障監(jiān)控,使用剔除單點(diǎn)的軟件版本和部署方案,應(yīng)急預(yù)案中需包含集群重啟和數(shù)據(jù)重建。
·持續(xù)演進(jìn):大數(shù)據(jù)軟硬件技術(shù)都在持續(xù)和快速發(fā)展,包括新的版本和新的產(chǎn)品,例如可以運(yùn)行在Hadoop平臺(tái)的Storm實(shí)時(shí)數(shù)據(jù)處理框架、定制高密度服務(wù)器等,解決了困擾大數(shù)據(jù)應(yīng)用和發(fā)展的瓶頸,在大數(shù)據(jù)基礎(chǔ)平臺(tái)規(guī)劃建設(shè)中,必須定期評(píng)估技術(shù)趨勢(shì)發(fā)展和適用情況,及時(shí)應(yīng)用成熟的新版本和新技術(shù)。
下面將以實(shí)際案例的形式,介紹大數(shù)據(jù)基礎(chǔ)平臺(tái)的具體建設(shè)與運(yùn)營方法。
以中國電信股份有限公司廣東分公司(以下簡稱廣東電信)大數(shù)據(jù)基礎(chǔ)平臺(tái)的逐步建設(shè)完善為案例,說明其建設(shè)運(yùn)營的思路和方法。
大數(shù)據(jù)應(yīng)用及其基礎(chǔ)平臺(tái)的引入和持續(xù)完善,涉及IT基礎(chǔ)架構(gòu)的根本改變,需要有充足的驅(qū)動(dòng)力和合適的策略,以克服技術(shù)變革必然帶來的阻力和新系統(tǒng)初期的不完善不穩(wěn)定。廣東電信自2012年起開始將大數(shù)據(jù)技術(shù)應(yīng)用在通話清單查詢系統(tǒng),初期的驅(qū)動(dòng)力在于解決傳統(tǒng)IOE商用基礎(chǔ)架構(gòu)越來越不適應(yīng)業(yè)務(wù)發(fā)展的瓶頸以及掌握大數(shù)據(jù)應(yīng)用的研發(fā)、部署建設(shè)和運(yùn)營能力。
隨著清單查詢大數(shù)據(jù)應(yīng)用及基礎(chǔ)平臺(tái)的持續(xù)完善,建設(shè)和運(yùn)營大數(shù)據(jù)基礎(chǔ)平臺(tái)的驅(qū)動(dòng)力變?yōu)榭焖俳尤胄碌拇髷?shù)據(jù)應(yīng)用,共享軟硬件資源和統(tǒng)一高效的運(yùn)營管理,規(guī)?;鸵?guī)范化運(yùn)營管理大數(shù)據(jù)應(yīng)用。陸續(xù)接入的賬單查詢、話單采集和預(yù)處理、財(cái)務(wù)量收?qǐng)?bào)表等業(yè)務(wù)系統(tǒng),越來越體現(xiàn)大數(shù)據(jù)基礎(chǔ)平臺(tái)的價(jià)值,大數(shù)據(jù)的研發(fā)運(yùn)營進(jìn)入良性循環(huán)。
廣東電信在建設(shè)、運(yùn)營大數(shù)據(jù)基礎(chǔ)平臺(tái)過程中,通過以下的策略降低研發(fā)和運(yùn)營的風(fēng)險(xiǎn),逐步鍛煉提升能力,保證了新技術(shù)的成功應(yīng)用。
·迭代完善:互聯(lián)網(wǎng)思維的一個(gè)體現(xiàn),不追求一步到位的架構(gòu)改造,使用快速見效、新技術(shù)和傳統(tǒng)技術(shù)結(jié)合的混合架構(gòu),在新系統(tǒng)研發(fā)運(yùn)營管理上使用互聯(lián)網(wǎng)企業(yè)廣泛應(yīng)用的敏捷模式,降低研發(fā)運(yùn)營的風(fēng)險(xiǎn),通過小步快走的微創(chuàng)新,持續(xù)優(yōu)化系統(tǒng)架構(gòu),最終達(dá)到高效、可用、彈性、便利等目標(biāo)。
·業(yè)務(wù)驅(qū)動(dòng):選取業(yè)務(wù)需求迫切、傳統(tǒng)技術(shù)方案無法滿足需求的系統(tǒng)作為新技術(shù)應(yīng)用的切入,合適的大數(shù)據(jù)技術(shù)可帶來明顯的優(yōu)勢(shì),包括成本、性能、擴(kuò)展性等;強(qiáng)烈的業(yè)務(wù)需求帶來充分的系統(tǒng)使用反饋和顯著的業(yè)務(wù)效益,對(duì)大數(shù)據(jù)應(yīng)用和基礎(chǔ)平臺(tái)的迭代完善非常重要。以廣東電信首個(gè)大數(shù)據(jù)生產(chǎn)應(yīng)用——通話清單查詢系統(tǒng)為例,該系統(tǒng)業(yè)務(wù)需求和業(yè)務(wù)負(fù)載都較大,清單數(shù)據(jù)隨業(yè)務(wù)發(fā)展持續(xù)增加,網(wǎng)上營業(yè)廳、掌上營業(yè)廳等新渠道也增大了系統(tǒng)業(yè)務(wù)負(fù)載,原有的商用基礎(chǔ)架構(gòu)采購和擴(kuò)容成本高,系統(tǒng)性能和用戶體驗(yàn)隨數(shù)據(jù)規(guī)模增加而顯著下降,現(xiàn)有的大數(shù)據(jù)技術(shù)對(duì)該類業(yè)務(wù)場景有比較成熟的解決方案,與原有基礎(chǔ)架構(gòu)相比,有明顯優(yōu)勢(shì)。
圖1 大數(shù)據(jù)基礎(chǔ)平臺(tái)框架
·規(guī)模化統(tǒng)一規(guī)劃:企業(yè)內(nèi)大數(shù)據(jù)相關(guān)的技術(shù)資源較為稀缺,包括研發(fā)運(yùn)營團(tuán)隊(duì)和需要集群化部署的基礎(chǔ)平臺(tái),統(tǒng)一規(guī)劃和規(guī)模效應(yīng)才能體現(xiàn)大數(shù)據(jù)應(yīng)用在總體成本、海量數(shù)據(jù)存儲(chǔ)和處理的優(yōu)勢(shì),統(tǒng)一的團(tuán)隊(duì)也有助于集中解決大數(shù)據(jù)研發(fā)和運(yùn)營遇到的問題。
前文介紹了廣東電信大數(shù)據(jù)基礎(chǔ)平臺(tái)的總體發(fā)展過程,本節(jié)詳細(xì)說明在大數(shù)據(jù)基礎(chǔ)平臺(tái)初始引入和進(jìn)入規(guī)?;ㄔO(shè)運(yùn)營兩個(gè)階段的平臺(tái)建設(shè)整體情況。不同階段的工作側(cè)重各有不同,循序漸進(jìn)地實(shí)現(xiàn)了大數(shù)據(jù)的成功運(yùn)營。
在沒有大數(shù)據(jù)研發(fā)運(yùn)營經(jīng)驗(yàn)的初始引入階段,廣東電信大數(shù)據(jù)基礎(chǔ)平臺(tái)只承載單個(gè)應(yīng)用,服務(wù)器節(jié)點(diǎn)數(shù)較小,所用的基礎(chǔ)軟件平臺(tái)相比于更為成熟的開源軟件產(chǎn)品,自身的管理能力較為簡單,平臺(tái)建設(shè)目標(biāo)是穩(wěn)定承載應(yīng)用,逐步掌握大數(shù)據(jù)應(yīng)用的運(yùn)營方法。本階段的總體規(guī)劃建設(shè)步驟如下。
(1)根據(jù)業(yè)務(wù)需求選取合適軟件平臺(tái)
清單查詢數(shù)據(jù)模型和功能簡單,業(yè)務(wù)需求主要為非功能性的高并發(fā)、數(shù)據(jù)量大、月末出賬海量清單入庫、實(shí)時(shí)查詢返回等,由此確定選用較為成熟的開源大數(shù)據(jù)和相關(guān)的軟 件 平 臺(tái), 包 括:Hadoop(HDFS、MapReduce、HBase、ZooKeeper)承載主要的存儲(chǔ)和運(yùn)算,Ganglia分布平臺(tái)監(jiān)控系統(tǒng),Nagios硬件監(jiān)控和告警,Jetty中間件提供JSON數(shù)據(jù)訪問服務(wù)。
(2)根據(jù)業(yè)務(wù)規(guī)模和業(yè)界狀況選取合適硬件
統(tǒng)計(jì)全省月清單數(shù)據(jù)量、業(yè)務(wù)要求的入庫和查詢時(shí)限、查詢并發(fā)量,以業(yè)界主流x86服務(wù)器運(yùn)行HBase的入庫和查詢效率,估算需要的Hadoop應(yīng)用主機(jī)和需配備的磁盤數(shù)量,最終的基礎(chǔ)平臺(tái)服務(wù)器配置見表1,均為2路機(jī)架服務(wù)器,操作系統(tǒng)均使用開源的CentOS Linux。
初始階段的大數(shù)據(jù)基礎(chǔ)平臺(tái)經(jīng)過兩年多的運(yùn)營,成功摸索出研發(fā)—運(yùn)營相結(jié)合的建設(shè)運(yùn)營模式(第4.3節(jié)中說明),熟悉大數(shù)據(jù)應(yīng)用日常運(yùn)營的各項(xiàng)管理要求。在此基礎(chǔ)上,逐步把適合遷移到大數(shù)據(jù)平臺(tái)的話單采集和預(yù)處理、財(cái)務(wù)量收?qǐng)?bào)表、積分查詢、CRM歷史訂單查詢等應(yīng)用,實(shí)施第二階段的應(yīng)用改造和基礎(chǔ)平臺(tái)規(guī)劃。
在第二階段的基礎(chǔ)平臺(tái)規(guī)?;ㄔO(shè)運(yùn)營中,提出了“平臺(tái)先行”的策略,目標(biāo)是使用共享的大數(shù)據(jù)基礎(chǔ)平臺(tái),統(tǒng)一承載和管理后續(xù)的大數(shù)據(jù)應(yīng)用,實(shí)現(xiàn)高效、安全、便利和規(guī)?;\(yùn)營的基礎(chǔ)平臺(tái)目標(biāo)。本階段統(tǒng)一規(guī)劃和研發(fā)部署了角色授權(quán)、應(yīng)用接入申請(qǐng)、資源監(jiān)控和分配等平臺(tái)管理層功能模塊,完善基礎(chǔ)平臺(tái)的管理能力,同時(shí)根據(jù)業(yè)務(wù)需求和各類基礎(chǔ)軟硬件的發(fā)展情況,補(bǔ)充了基礎(chǔ)平臺(tái)中的服務(wù)器型號(hào)和軟件平臺(tái)。
由于大數(shù)據(jù)應(yīng)用的陸續(xù)接入,本階段基礎(chǔ)平臺(tái)的服務(wù)器節(jié)點(diǎn)數(shù)已擴(kuò)展到超過160個(gè),在服務(wù)器選型中補(bǔ)充完善了采購規(guī)格,把已逐步成熟和完善的高密度服務(wù)器納入其中,以提高機(jī)房的空間利用率,具體見表2。
在軟件平臺(tái)規(guī)劃上,對(duì)不同的業(yè)務(wù)應(yīng)用劃分為事務(wù)型和批處理型兩種類型,規(guī)劃兩類軟件集群以實(shí)現(xiàn)不同的硬件配置和軟件優(yōu)化,增加MySQL、Redis、Kettle等軟件平臺(tái),滿足特定業(yè)務(wù)需求。控制各個(gè)集群數(shù)量和統(tǒng)一軟件平臺(tái)版本,實(shí)現(xiàn)業(yè)務(wù)應(yīng)用的規(guī)范化、業(yè)務(wù)數(shù)據(jù)共享、減輕版本控制和監(jiān)控等運(yùn)營工作量。在接入層統(tǒng)一規(guī)劃和實(shí)施提供REST風(fēng)格接口的業(yè)務(wù)引擎,使用基礎(chǔ)平臺(tái)的應(yīng)用都需要遵守預(yù)定的接口規(guī)格。
表1 基礎(chǔ)平臺(tái)初始階段服務(wù)器配置
大數(shù)據(jù)基礎(chǔ)平臺(tái)運(yùn)營與傳統(tǒng)的企業(yè)IT系統(tǒng)運(yùn)營有很大不同,根本原因在于大數(shù)據(jù)使用廉價(jià)硬件和分布式軟件平臺(tái),而傳統(tǒng)的企業(yè)IT技術(shù)架構(gòu)則依賴高端和商用軟硬件平臺(tái),兩者的運(yùn)營差別體現(xiàn)為以下幾點(diǎn)。
表2 基礎(chǔ)平臺(tái)服務(wù)器配置規(guī)格
·高端硬件與廉價(jià)硬件集群在節(jié)點(diǎn)數(shù)量上存在非常大的差別,大數(shù)據(jù)應(yīng)用的處理節(jié)點(diǎn)數(shù)量大大增加,自帶的管理功能則普遍弱于商用平臺(tái),對(duì)運(yùn)維工具提出更高的自動(dòng)化要求。
·大數(shù)據(jù)所用基礎(chǔ)軟件平臺(tái)以開源為主,開源軟件大多無官方技術(shù)支持,運(yùn)維人員需了解開源軟件內(nèi)部機(jī)制才能有效運(yùn)營;同時(shí)開源軟件自身有很大的定制潛力和適用場景限制,系統(tǒng)研發(fā)人員需要了解業(yè)務(wù)需求和存在問題,選用和定制開源軟件,這些開源軟件特點(diǎn)需要研發(fā)—運(yùn)維一體化的機(jī)制。
·開源軟件版本變更頻繁,軟件平臺(tái)升級(jí)是常態(tài),需要高效工具和流程。
基于上述差別,廣東電信在大數(shù)據(jù)基礎(chǔ)平臺(tái)中采用平臺(tái)運(yùn)維、應(yīng)用研發(fā)一體化運(yùn)營模式,類似軟件開發(fā)中的敏捷模式。運(yùn)維與研發(fā)兩個(gè)職能團(tuán)隊(duì)相比傳統(tǒng)的運(yùn)營模式,溝通和配合更為頻繁和緊密,工作地點(diǎn)盡量相近以確保現(xiàn)場面對(duì)面溝通的便利。
具體的運(yùn)維、研發(fā)團(tuán)隊(duì)的分工如下。
·平臺(tái)運(yùn)維人員職責(zé):負(fù)責(zé)平臺(tái)安裝部署和版本升級(jí),監(jiān)控系統(tǒng)狀況、應(yīng)用接入管理、業(yè)務(wù)配置變更、業(yè)務(wù)故障響應(yīng),基于對(duì)開源軟件的理解大致定位問題所在,并與研發(fā)人員溝通。
·應(yīng)用研發(fā)人員職責(zé):系統(tǒng)代碼開發(fā)、代碼缺陷修復(fù),了解業(yè)務(wù)需求和生產(chǎn)環(huán)節(jié)故障,定制完善開源軟件。
·雙方共同完成的職責(zé):平臺(tái)架構(gòu)演進(jìn)、業(yè)務(wù)需求分析、數(shù)據(jù)模型分析。
為提升知識(shí)共享能力,建立了專家知識(shí)庫的機(jī)制,記錄平臺(tái)運(yùn)營各類問題的解決方法以及各種開源軟件的使用方法、注意事項(xiàng)。
廣東電信規(guī)劃建設(shè)和運(yùn)營大數(shù)據(jù)基礎(chǔ)平臺(tái)后,在系統(tǒng)投資同比基本持平的情況下,系統(tǒng)架構(gòu)的彈性大大增加,可以更從容應(yīng)對(duì)數(shù)據(jù)規(guī)模和業(yè)務(wù)需求快速增長的考驗(yàn),系統(tǒng)響應(yīng)效率逐步提高;擺脫了之前對(duì)高端軟硬件的過度依賴,由于性能和數(shù)據(jù)在線時(shí)限的提升,客戶感知有顯著改善;運(yùn)營—研發(fā)一體化的模式,促進(jìn)了業(yè)務(wù)需求的快速實(shí)現(xiàn)和交付,運(yùn)維效率也大大增加。
以廣東電信各個(gè)BSS統(tǒng)一調(diào)用的賬單查詢和更新平臺(tái)為例,使用基于Hadoop平臺(tái)的大數(shù)據(jù)技術(shù),由傳統(tǒng)的IOE基礎(chǔ)架構(gòu)改造為賬單云平臺(tái),通過大數(shù)據(jù)基礎(chǔ)平臺(tái)的資源分配、權(quán)限和接口管理等流程接入公共平臺(tái)運(yùn)營。相比之前的傳統(tǒng)高端商用基礎(chǔ)架構(gòu),使用新的賬單云平臺(tái)后,原來的BSS J2EE應(yīng)用節(jié)點(diǎn)峰值運(yùn)算負(fù)荷降低約30%,釋放了Oracle數(shù)據(jù)庫約2000個(gè)連接,普通公眾客戶的賬單服務(wù)其平均響應(yīng)時(shí)間為140 ms,涉及多個(gè)產(chǎn)品實(shí)例的政企客戶也可以進(jìn)行實(shí)時(shí)的賬單查詢。數(shù)據(jù)存儲(chǔ)和處理能力的彈性擴(kuò)容,可實(shí)現(xiàn)賬單數(shù)據(jù)永久在線而基本不影響用戶體驗(yàn),擴(kuò)容成本較之前的商用架構(gòu)極大降低,數(shù)據(jù)的冗余存放也滿足企業(yè)的可靠性要求。
目前廣東電信大數(shù)據(jù)基礎(chǔ)平臺(tái)存在的不足,主要使用的Hadoop/HBase/Hive平臺(tái)框架適用于批處理場景,對(duì)于實(shí)時(shí)計(jì)算、交互式計(jì)算不太適用,無法滿足后續(xù)企業(yè)級(jí)大數(shù)據(jù)平臺(tái)的多種業(yè)務(wù)場景要求;大數(shù)據(jù)應(yīng)用集約化程度有待進(jìn)一步提高,基礎(chǔ)平臺(tái)的規(guī)模與運(yùn)營能力,與互聯(lián)網(wǎng)企業(yè)相比,還有較大的差距。
本文結(jié)合運(yùn)營商企業(yè)大數(shù)據(jù)平臺(tái)現(xiàn)狀,總結(jié)了與傳統(tǒng)企業(yè)IT應(yīng)用有較大差別的大數(shù)據(jù)基礎(chǔ)平臺(tái)建設(shè)運(yùn)營思路和方法,涵蓋了基礎(chǔ)平臺(tái)選型與集成,基礎(chǔ)平臺(tái)運(yùn)營設(shè)計(jì),旨在為企業(yè)規(guī)模化建設(shè)運(yùn)營大數(shù)據(jù)應(yīng)用提供參考。
大數(shù)據(jù)基礎(chǔ)平臺(tái)是云計(jì)算的一種形式,通過共享的基礎(chǔ)設(shè)施和相應(yīng)的運(yùn)營流程,實(shí)現(xiàn)了軟硬件資源的高效利用、業(yè)務(wù)應(yīng)用的快速提供,為客戶提供更優(yōu)質(zhì)服務(wù),從而提升企業(yè)的整體市場競爭能力。
參考文獻(xiàn)
1 Gartner.Gartner’s hype cycle special report for 2014.https://www.gartner.com/doc/2816917,2014
2 黃勇軍,馮明,丁圣勇等.電信運(yùn)營商大數(shù)據(jù)發(fā)展策略探討.電信科學(xué),2013,29(3)
3 崔艷堂.騰訊大規(guī)模Hadoop集群實(shí)踐.程序員,2014(2):99~103
4 中國電信集團(tuán)公司.分布式平臺(tái)實(shí)施技術(shù)指南,2014
5 中國電信股份有限公司江西分公司.Hadoop平臺(tái)規(guī)劃方案V2.0,2014