中國民生銀行總行 韓 健
基于Hadoop技術(shù)的銀行大數(shù)據(jù)平臺架構(gòu)設(shè)計(jì)
中國民生銀行總行 韓 健
基于Hadoop技術(shù)完善銀行大數(shù)據(jù)平臺架構(gòu)的設(shè)計(jì),有利于提升一行大數(shù)據(jù)平臺的安全性,有利于減少外界因素對銀行大數(shù)據(jù)的沖擊,對促進(jìn)銀行的更好發(fā)展,具有重要作用。本文在對完善銀行大數(shù)據(jù)平臺架構(gòu)設(shè)計(jì)的必要性進(jìn)行綜合闡述的基礎(chǔ)上,論述了基于Hadoop技術(shù)的銀行大數(shù)據(jù)平臺架構(gòu)的設(shè)計(jì)方案,并分析了銀行分布式大數(shù)據(jù)平臺架構(gòu)實(shí)現(xiàn)方案,以期為相關(guān)人士提供借鑒和參考。
Hadoop技術(shù);大數(shù)據(jù);平臺架構(gòu)
隨著社會經(jīng)濟(jì)的不斷發(fā)展和社會生產(chǎn)力水平的進(jìn)一步提升,商業(yè)銀行呈現(xiàn)了迅猛的發(fā)展勢頭,基于大數(shù)據(jù)時代背景下,完善銀行的大數(shù)據(jù)平臺建設(shè),顯得尤為重要。現(xiàn)階段,我國商業(yè)銀行的大數(shù)據(jù)平臺架構(gòu)設(shè)計(jì)不能充分滿足銀行對數(shù)據(jù)處理的需求,對銀行的進(jìn)一步發(fā)展形成阻礙。因此,基于Hadoop技術(shù)完善銀行大數(shù)據(jù)平臺架構(gòu)的設(shè)計(jì),具有十分重要的現(xiàn)實(shí)意義。
隨著在線銀行、移動銀行、電子金融市場的迅速發(fā)展,我國銀行業(yè)已進(jìn)入大數(shù)據(jù)時代,現(xiàn)有的聯(lián)機(jī)分析處理技術(shù)已不能充分滿足銀行業(yè)務(wù)拓展對數(shù)據(jù)資源的海量需求,不利于促進(jìn)國家級數(shù)據(jù)中心的順利建設(shè)和大數(shù)據(jù)技術(shù)的進(jìn)一步發(fā)展。銀行對大數(shù)據(jù)的處理面臨著嚴(yán)峻的挑戰(zhàn),數(shù)據(jù)處理的軟件和硬件成本均不能達(dá)到相關(guān)標(biāo)準(zhǔn),大數(shù)據(jù)系統(tǒng)的擴(kuò)展性能也不能達(dá)到最佳狀態(tài)。隨著大數(shù)據(jù)平臺由數(shù)據(jù)庫平臺向云計(jì)算平臺轉(zhuǎn)化,我國商業(yè)銀行的數(shù)據(jù)分析系統(tǒng)處于商業(yè)智能向大數(shù)據(jù)平臺轉(zhuǎn)化的風(fēng)口浪尖,不斷提升大數(shù)據(jù)平臺架構(gòu)設(shè)計(jì)的科學(xué)性與合理性,成為廣大設(shè)計(jì)人員亟需探討的問題[1]。
因此,基于銀行對數(shù)據(jù)處理需求量巨大的條件下完善銀行大數(shù)據(jù)平臺架構(gòu)設(shè)計(jì),具有十分重要的意義。目前,學(xué)術(shù)界已經(jīng)研發(fā)出較為成熟的大數(shù)據(jù)平臺系統(tǒng),其中,分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop就是成功的案例,分布式系統(tǒng)基礎(chǔ)架構(gòu)通過利用多臺廉價的PC機(jī)協(xié)同提供服務(wù),具有穩(wěn)定的性能和高速的數(shù)據(jù)處理能力,受到廣大電商企業(yè)和銀行的追捧。隨著時間的發(fā)展,分布式系統(tǒng)基礎(chǔ)架構(gòu)設(shè)計(jì)技術(shù)不斷完善,并在大數(shù)據(jù)存儲和處理方面得到了廣泛應(yīng)用,如亞馬遜、Yahoo、阿里巴巴等[2]。
(一)數(shù)據(jù)源層
基于Hadoop技術(shù)的數(shù)據(jù)源層設(shè)計(jì)能夠多種渠道獲得數(shù)據(jù)源,并能夠通過對數(shù)據(jù)源的深入分析,促進(jìn)數(shù)據(jù)的有效整合,形成后續(xù)使用的良好基礎(chǔ)。同時,數(shù)據(jù)源層對數(shù)據(jù)的采集能夠通過半結(jié)構(gòu)化、結(jié)構(gòu)化和非結(jié)構(gòu)化的方式進(jìn)行。其中,結(jié)構(gòu)化的數(shù)據(jù)采集由銀行總行的數(shù)據(jù)中心系統(tǒng)、外圍系統(tǒng)和分行的特色業(yè)務(wù)系統(tǒng)產(chǎn)生的業(yè)務(wù)數(shù)據(jù)組成。非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)采集由監(jiān)管機(jī)構(gòu)和第三方機(jī)構(gòu)以及互聯(lián)網(wǎng)文字、音頻和視頻等數(shù)據(jù)信息構(gòu)成[3]。
(二)數(shù)據(jù)傳輸轉(zhuǎn)換層
基于Hadoop技術(shù)的數(shù)據(jù)轉(zhuǎn)換層主要將數(shù)據(jù)源層的源數(shù)據(jù)利用ETL工具導(dǎo)入到數(shù)據(jù)存儲層中,數(shù)據(jù)轉(zhuǎn)換層的主要功能如下:(1)存量遷移:能夠?qū)崿F(xiàn)對存量數(shù)據(jù)的同步導(dǎo)入;(2)增量遷移:能夠破解增量數(shù)據(jù)文件的密碼,并實(shí)現(xiàn)轉(zhuǎn)碼,促進(jìn)所有數(shù)據(jù)信息的整合;(3)生命周期管理:能夠?qū)崿F(xiàn)對舊表數(shù)據(jù)的清理和新表導(dǎo)入,同時能夠?qū)υ隽繑?shù)據(jù)存儲進(jìn)行周期管理;(4)元數(shù)據(jù)管理:能夠通過后臺管理,形成表結(jié)構(gòu)、聯(lián)合主鍵、分區(qū)信息加載管理的良好基礎(chǔ);(5)調(diào)用、監(jiān)控、告警:能夠針對日常數(shù)據(jù)的加載異常,監(jiān)控整個加載流程,及時對加載異常報警,確保數(shù)據(jù)傳輸和轉(zhuǎn)換能夠持續(xù)穩(wěn)定運(yùn)行。同時,還能夠促進(jìn)Hadoop數(shù)據(jù)資源的合理分配,管理正在執(zhí)行的任務(wù)列表,優(yōu)先運(yùn)算任務(wù)等級較高的數(shù)據(jù)[4]。
(三)數(shù)據(jù)存儲計(jì)算層
基于Hadoop技術(shù)的數(shù)據(jù)存儲計(jì)算層充分利用HDFS分布式存儲和自身分布式計(jì)算的特點(diǎn),實(shí)現(xiàn)了文件分塊和計(jì)算機(jī)的有機(jī)結(jié)合,通過將數(shù)據(jù)計(jì)算任務(wù)劃分為不同的文件塊,并分派至不同計(jì)算機(jī),能夠有效提升數(shù)據(jù)運(yùn)算的效率,然后將計(jì)算結(jié)果匯總,實(shí)現(xiàn)對大數(shù)據(jù)平臺計(jì)算能力的拓展,同時,分布式計(jì)算適用于大量數(shù)據(jù)的離線處理過程中。本次基于Hadoop技術(shù)的數(shù)據(jù)轉(zhuǎn)換層利用Spark技術(shù),能夠通過較小的硬盤資源和網(wǎng)絡(luò)資源的占用量,實(shí)現(xiàn)對大量數(shù)據(jù)新系的實(shí)時分析,能夠形成科學(xué)決策的良好基礎(chǔ)。流處理技術(shù)負(fù)責(zé)處理銀行業(yè)務(wù)流中產(chǎn)生的數(shù)據(jù),實(shí)現(xiàn)對生命周期較短數(shù)據(jù)價值的有效挖掘,促進(jìn)銀行業(yè)務(wù)的更好開展[5]。
(四)數(shù)據(jù)服務(wù)層
基于Hadoop技術(shù)的數(shù)據(jù)服務(wù)層通過運(yùn)用強(qiáng)大的數(shù)據(jù)儲存能力和數(shù)據(jù)計(jì)算能力,實(shí)現(xiàn)對大數(shù)據(jù)平臺結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的有機(jī)整合整合,并能夠發(fā)揮數(shù)據(jù)挖掘功能的價值,應(yīng)用于以下場景:(1)詐騙偵測:通過對提取異常行為的實(shí)時監(jiān)測,能夠有效降低銀行信用卡丟失和盜刷事件的發(fā)生概率,為銀行爭取凍結(jié)異常賬戶的時間。(2)風(fēng)險管理:能夠通過對交易數(shù)據(jù)的深入分析,構(gòu)建模擬的市場交易模型,實(shí)現(xiàn)對潛在風(fēng)險的有效評估。(3)客戶分類優(yōu)化產(chǎn)品:能夠從微觀角度深入了解客戶的實(shí)際需求,為客戶提供針對性的產(chǎn)品,提升客戶對銀行產(chǎn)品服務(wù)的滿意度,進(jìn)而為銀行累積更多的客戶和業(yè)務(wù)量。(4)客戶流失分析:能夠通過對客戶流失原因的深入分析,制定吸引客戶的科學(xué)對策,增加銀行的業(yè)務(wù)辦理數(shù)量。(5)情感分析:能夠利用先進(jìn)的分析工具,通過對客戶的社會交往對象和行為進(jìn)行分析,了解客戶的實(shí)際需求,開發(fā)具有個性化的產(chǎn)品。(6)客戶體驗(yàn)分析:利用客戶的投資組合管理,客戶關(guān)系管理,貸款系統(tǒng),呼叫中心等數(shù)據(jù)信息,能夠?yàn)殂y行發(fā)展提供更好的前提條件,預(yù)測發(fā)展前景,構(gòu)建長期的客戶合作關(guān)系。
(五)應(yīng)用服務(wù)層
應(yīng)用服務(wù)層的主要服務(wù)內(nèi)容包含以下幾個方面:(1)數(shù)據(jù)查詢:能夠?qū)崿F(xiàn)對日常數(shù)據(jù)提取和查詢;(2)交互式報表:能夠方便外部應(yīng)用系統(tǒng)導(dǎo)入導(dǎo)出數(shù)據(jù),并為其查詢數(shù)據(jù)提供方便,同時也具有批量處理報表的功能;(3)指標(biāo)統(tǒng)計(jì)分析:能夠通過定期對指標(biāo)數(shù)據(jù)的分析,制定科學(xué)的指標(biāo)數(shù)據(jù)。
(六)數(shù)據(jù)管控層
基于Hadoop技術(shù)的數(shù)據(jù)管控層能夠通過對數(shù)據(jù)管控功能的充分利用,實(shí)現(xiàn)數(shù)據(jù)處理、數(shù)據(jù)標(biāo)準(zhǔn)化管理、元數(shù)據(jù)管理、數(shù)據(jù)生命周期管理和任務(wù)調(diào)度管理等內(nèi)容,并將數(shù)據(jù)監(jiān)控作為管理數(shù)據(jù)資源的有效手段,全面提升了數(shù)據(jù)管理的質(zhì)量,形成了數(shù)據(jù)統(tǒng)計(jì)的良好基礎(chǔ)。同時,通過建立嚴(yán)格的安全管理手段,于不同視角實(shí)現(xiàn)了對硬件、軟件和網(wǎng)絡(luò)數(shù)據(jù)訪問的有效防控。
(七)安全管理層
基于Hadoop技術(shù)的安全管理層通過在大數(shù)據(jù)平臺底部設(shè)計(jì)物理存儲冗余裝置和網(wǎng)絡(luò)訪問控制,加強(qiáng)了對大數(shù)據(jù)平臺的準(zhǔn)入管理,有效提升了大數(shù)據(jù)平臺設(shè)計(jì)的安全性,避免了數(shù)據(jù)信息的泄露,促進(jìn)了大數(shù)據(jù)平臺的安全運(yùn)行。
基于Hadoop技術(shù)的大數(shù)據(jù)平臺架構(gòu)設(shè)計(jì)借鑒了分層次設(shè)計(jì)的理論,依據(jù)大數(shù)據(jù)平臺的服務(wù)項(xiàng)目,將平臺合理劃分為不同的模層次,每一層次只能通過層次邊界的接口與上層和下層進(jìn)行交互,有效避免了跨層交互現(xiàn)象的產(chǎn)生。通過設(shè)計(jì)分層次的大數(shù)據(jù)平臺架構(gòu),使得各模塊的內(nèi)部呈現(xiàn)高內(nèi)聚的現(xiàn)象,模塊之間呈現(xiàn)松耦合的現(xiàn)象,有效提升了大數(shù)據(jù)平臺的可靠性,拓展了大數(shù)據(jù)平臺的業(yè)務(wù)范圍,便于系統(tǒng)的維護(hù)。例如:當(dāng)大數(shù)據(jù)平臺需要擴(kuò)容Hadoop集群時,只需在原有數(shù)據(jù)平臺的基礎(chǔ)上,添加一臺新的Hadoop節(jié)點(diǎn)服務(wù)器,無需對其他系統(tǒng)模塊做任何變動,具有方便快捷的特點(diǎn),便于工作人員維護(hù)。
本次分布式大數(shù)據(jù)平臺依據(jù)具體職能將數(shù)據(jù)平臺劃分為五個層次,分別為:(1)運(yùn)行環(huán)境層:運(yùn)行環(huán)境層由操作系統(tǒng)和運(yùn)行時環(huán)境兩部分構(gòu)成,負(fù)責(zé)為基礎(chǔ)設(shè)施層提供運(yùn)行時環(huán)境;(2)基礎(chǔ)設(shè)施層:基礎(chǔ)設(shè)施層由Zookeeper集群和Hadoop集群兩部分構(gòu)成,負(fù)責(zé)為基礎(chǔ)平臺層提供服務(wù),其中命名服務(wù)、分布式文件系統(tǒng)、MapReduce是該模塊的主要工作內(nèi)容;(3)基礎(chǔ)平臺層:基礎(chǔ)平臺層由HBase、任務(wù)調(diào)度控制臺和Hive構(gòu)成,主要負(fù)責(zé)為用戶網(wǎng)關(guān)層提供服務(wù)。(4)任務(wù)調(diào)度控制臺:任務(wù)調(diào)度控制臺是所有數(shù)據(jù)調(diào)度任務(wù)的中心,能夠合理安排數(shù)據(jù)處理任務(wù)的次序和等級,用戶利用任務(wù)調(diào)度控制臺提交業(yè)務(wù),大數(shù)據(jù)平臺通過Hadoop客戶端反饋數(shù)據(jù)處理任務(wù)的執(zhí)行結(jié)果。為了提升任務(wù)調(diào)度控制臺的Hadoop集群功能,銀行應(yīng)自行開發(fā)該模塊,從而提升任務(wù)調(diào)度控制臺的靈活性。HBase是基于Hadoop的列數(shù)據(jù)庫,能夠?yàn)橛脩籼峁?shù)據(jù)訪問功能。Hive能夠?qū)崿F(xiàn)數(shù)據(jù)查詢功能,用戶能夠利用Hive客戶端提交數(shù)據(jù)查詢請求,并通過客戶端的UI接口查詢反饋結(jié)果。(5)用戶網(wǎng)關(guān)層:能夠?yàn)榭蛻籼峁┱{(diào)用接口并對用戶的身份進(jìn)行認(rèn)證,通過利用用戶網(wǎng)關(guān)層實(shí)現(xiàn)與數(shù)據(jù)平臺的交互。(6)客戶應(yīng)用層:通過設(shè)計(jì)不同的終端應(yīng)用程序,實(shí)現(xiàn)對客戶的優(yōu)質(zhì)服務(wù)。
通過以上研究發(fā)現(xiàn),在基于Hadoop技術(shù)設(shè)計(jì)銀行大數(shù)據(jù)平臺架構(gòu)的過程中,通過搭建基于Hadoop技術(shù)的分布式大數(shù)據(jù)平臺,能夠?qū)崿F(xiàn)數(shù)據(jù)資源的有效整合。在此基礎(chǔ)上,根據(jù)不同的數(shù)據(jù)應(yīng)用場景,針對性的優(yōu)化大數(shù)據(jù)平臺各模塊的設(shè)計(jì),有利于充分發(fā)揮大數(shù)據(jù)平臺的價值。因此,在基于Hadoop技術(shù)設(shè)計(jì)銀行大數(shù)據(jù)平臺架構(gòu)的過程中可以應(yīng)用上述方法。
[1]李平,李強(qiáng).互聯(lián)網(wǎng)金融的發(fā)展與研究綜述[J].電子科技大學(xué)學(xué)報,2015,44(2):245-253.
[2]代紅.基于Hadoop的金融智能云平臺分布式架構(gòu)[J].遼寧科技大學(xué)學(xué)報,2016,39(2):70-90.
[3]劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報:工業(yè)版,2014,48(6):957-972.
[4]孟小峰,周龍驤.?dāng)?shù)據(jù)庫技術(shù)發(fā)展趨勢[J].軟件學(xué)報,2004,15(12):1822-1836.
[5]李德有,解晨光.Hadoop構(gòu)建的銀行海量數(shù)據(jù)存儲系統(tǒng)研究[J].哈爾濱理工大學(xué)學(xué)報,2015,20(4):60-65.
韓?。?982—),男,北京人,碩士研究生,研究方向:大數(shù)據(jù)與數(shù)據(jù)挖掘。