楊桂珍
摘要:面向金融領(lǐng)域的海量數(shù)據(jù)綜合處理服務(wù)平臺融合了分布式云計算技術(shù)、SOA技術(shù)、ETL技術(shù)、作業(yè)調(diào)度技術(shù),以SOA為基礎(chǔ),采用云計算的體系架構(gòu),整合多種ETL技術(shù)和不同的ETL工具,具有統(tǒng)一、高效、可拓展性。該服務(wù)平臺支持靈活構(gòu)建面向數(shù)據(jù)倉庫、數(shù)據(jù)集市、數(shù)據(jù)集文件進行海量數(shù)據(jù)的處理、加工和交換,實現(xiàn)批量作業(yè)的原子化、參數(shù)化、操作簡單化、流程可控化,并提供靈活、可自定義的程序接口,具有良好的可擴展性,是一個基礎(chǔ)服務(wù)框架的服務(wù)平臺。
關(guān)鍵詞:面向金融;海量網(wǎng)絡(luò)數(shù)據(jù);綜合處理服務(wù)平臺
中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2017)39-0264-03
一、研究的意義
目前,全球IT行業(yè)討論最多的兩個議題,一個是海量數(shù)據(jù)分析“Big Data”,一個是云計算“Cloud Computing”,中國的金融行業(yè)也不例外。中國五大國有商業(yè)銀行發(fā)展至今,積累了海量的業(yè)務(wù)數(shù)據(jù),同時還不斷的從外界收集數(shù)據(jù)。通過對不同來源,不同歷史階段的數(shù)據(jù)進行分析,銀行可以甄別有價值潛力的客戶群和發(fā)現(xiàn)未來金融市場的發(fā)展趨勢,針對目標客戶群的特點和金融市場的需求來研發(fā)有競爭力的理財產(chǎn)品。所以,銀行對海量數(shù)據(jù)分析的需求是尤為迫切的。再有,在信息技術(shù)高速發(fā)展的今天,金融業(yè)面臨的競爭日趨激烈,信息的高度共享和數(shù)據(jù)的安全可靠是系統(tǒng)建設(shè)中優(yōu)先考慮的問題。隨著國內(nèi)銀行業(yè)競爭的加劇,五大國有商業(yè)銀行不斷深化以客戶為中心,以優(yōu)質(zhì)業(yè)務(wù)為核心的經(jīng)營理念,這對銀行自身系統(tǒng)的不斷完善提出了更高的要求。而“云計算”技術(shù)的推出,將成為銀行增強數(shù)據(jù)的安全性和加快信息共享的速度,提高服務(wù)質(zhì)量、降低成本和贏得競爭優(yōu)勢的一大選擇。面向金融領(lǐng)域的海量數(shù)據(jù)綜合處理服務(wù)平臺融合了分布式云計算技術(shù)、SOA技術(shù)、ETL技術(shù)、作業(yè)調(diào)度技術(shù),以SOA為基礎(chǔ),采用云計算的體系架構(gòu),整合多種ETL技術(shù)和不同的ETL工具,為金融行業(yè)建立統(tǒng)一、高效、可拓展的面向金融領(lǐng)域的海量數(shù)據(jù)綜合處理服務(wù)平臺。該平臺支持靈活構(gòu)建面向數(shù)據(jù)倉庫、數(shù)據(jù)集市、數(shù)據(jù)集文件進行海量數(shù)據(jù)的處理、加工和交換,實現(xiàn)批量作業(yè)的原子化、參數(shù)化、操作簡單化、流程可控化,并提供靈活、可自定義的程序接口,具有良好的可擴展性,是一個基礎(chǔ)服務(wù)框架的產(chǎn)品平臺。該系統(tǒng)整合金融機構(gòu)的客戶、合約、交易、財務(wù)、產(chǎn)品等主要業(yè)務(wù)數(shù)據(jù),提供客戶視圖、客戶關(guān)系管理、營銷管理、財務(wù)分析、質(zhì)量監(jiān)控、風(fēng)險預(yù)警、業(yè)務(wù)流程等功能模塊。系統(tǒng)支持構(gòu)筑面向運營的服務(wù)平臺,可以按功能點或數(shù)據(jù)量來向使用方收費,使用方按格式要求提供數(shù)據(jù),然后點擊相關(guān)功能模塊得到目標結(jié)果。隨著全球各行業(yè)對數(shù)據(jù)整合應(yīng)用需求的擴大,“面向金融領(lǐng)域的海量數(shù)據(jù)綜合處理服務(wù)平臺”的需求將會越來越大。該平臺為銀行、證券、保險行業(yè)等金融領(lǐng)域服務(wù)業(yè)創(chuàng)新和轉(zhuǎn)型升級提供決策支持,能有效推進信息化技術(shù)在傳統(tǒng)金融優(yōu)勢產(chǎn)業(yè)的融合滲透,屬于國家優(yōu)先發(fā)展和重點支持技術(shù)領(lǐng)域。從宏觀的角度來看,通過本服務(wù)平臺的實施,能促進我國金融信息化的發(fā)展,調(diào)整產(chǎn)業(yè)結(jié)構(gòu),同時增強企業(yè)品牌競爭力,提高企業(yè)在國內(nèi)外信息科技領(lǐng)域的知名度,打破跨國廠商在金融軟件方面的壟斷地位,促進傳統(tǒng)優(yōu)勢企業(yè)走新型信息化道路,完善社會主義市場經(jīng)濟體制,符合我國“十二五”規(guī)劃剛要發(fā)展的特點,對全面建設(shè)小康社會新勝利、推進中國特色社會主義偉大事業(yè),具有十分重要的意義。
二、研究內(nèi)容
當前,銀行、證券和保險等金融行業(yè),積累了海量的業(yè)務(wù)數(shù)據(jù)和非機構(gòu)化數(shù)據(jù),并在海量數(shù)據(jù)的基礎(chǔ)上構(gòu)建了數(shù)據(jù)倉庫、數(shù)據(jù)集市和影像存儲平臺。有些金融機構(gòu)的海量數(shù)據(jù)達到TB級甚至是PB級,海量數(shù)據(jù)加工的性能問題、復(fù)雜異構(gòu)的加工環(huán)境、不斷變化的加工處理流程、成本的不斷增加,這些都可能成為海量數(shù)據(jù)處理的諸多棘手問題。為了有效解決上述問題,充分挖掘金融機構(gòu)海量數(shù)據(jù)的潛在價值,并為金融機構(gòu)提供一套合適的海量數(shù)據(jù)處理平臺,是本服務(wù)平臺實施的目標和出發(fā)點。本服務(wù)平臺融合了分布式云計算技術(shù)、SOA技術(shù)、ETL技術(shù)、作業(yè)調(diào)度技術(shù)、影像處理技術(shù)、工作流技術(shù),以SOA為基礎(chǔ),采用云計算的體系架構(gòu),整合多種ETL技術(shù)和不同的ETL工具,為金融行業(yè)建立統(tǒng)一、高效、可拓展的面向金融領(lǐng)域的海量數(shù)據(jù)綜合處理與運營平臺。面向金融領(lǐng)域的海量數(shù)據(jù)綜合處理與運營平臺支持靈活構(gòu)建面向數(shù)據(jù)倉庫、數(shù)據(jù)集市、數(shù)據(jù)集文件、影像文件進行海量數(shù)據(jù)的處理、加工和交換,實現(xiàn)批量作業(yè)的原子化、參數(shù)化、操作簡單化、流程可控化,并提供靈活、可自定義的程序接口,具有良好的可擴展性,是一個基礎(chǔ)服務(wù)框架的產(chǎn)品平臺。該系統(tǒng)整合金融機構(gòu)的客戶、合約、交易、財務(wù)、產(chǎn)品等主要業(yè)務(wù)數(shù)據(jù),提供客戶視圖、客戶關(guān)系管理、營銷管理、財務(wù)分析、質(zhì)量監(jiān)控、風(fēng)險預(yù)警、業(yè)務(wù)流程等功能模塊。系統(tǒng)支持構(gòu)筑面向運營的服務(wù)平臺,可以按功能點或數(shù)據(jù)量來向使用方收費,使用方按格式要求提供數(shù)據(jù),然后點擊相關(guān)功能模塊得到目標結(jié)果。
三、擬解決的關(guān)鍵問題
1.融合多種先進技術(shù)。系統(tǒng)融合了分布式云計算技術(shù)、SOA技術(shù)、ETL技術(shù)、作業(yè)調(diào)度技術(shù)、影像處理技術(shù)、工作流技術(shù)。系統(tǒng)采用基于hadoop架構(gòu)計算模式,突破傳統(tǒng)數(shù)據(jù)庫系統(tǒng)對海量數(shù)據(jù)處理的速度限制,通過對大量數(shù)據(jù)的并發(fā)訪問和處理,極大地提高了數(shù)據(jù)處理效率。hadoop在可伸縮性、健壯性、計算性能和成本上具有無可替代的優(yōu)勢,為構(gòu)建面向金融領(lǐng)域的海量數(shù)據(jù)綜合處理與運營平臺奠定了堅實的基礎(chǔ)。
2.針對金融行業(yè)的強大的海量數(shù)據(jù)處理功能。公司有多年在金融行業(yè)從事海量數(shù)據(jù)處理的經(jīng)驗,再結(jié)合當前最前沿的海量數(shù)據(jù)處理技術(shù),包括并行處理技術(shù)、作業(yè)調(diào)度技術(shù)、Hadoop架構(gòu)等,提供適合金融行業(yè)的強大的海量數(shù)據(jù)處理功能。
3.松耦合的、靈活的海量數(shù)據(jù)處理模式。采用SOA技術(shù)實現(xiàn)處理、運行、監(jiān)控服務(wù)之間的松耦合,使系統(tǒng)變得更加靈活,以適應(yīng)不斷變化的業(yè)務(wù)需求和環(huán)境。
4.支持構(gòu)筑面向運營的服務(wù)平臺。該系統(tǒng)整合金融機構(gòu)的客戶、合約、交易、財務(wù)、產(chǎn)品等主要業(yè)務(wù)數(shù)據(jù),提供客戶視圖、客戶關(guān)系管理、營銷管理、財務(wù)分析、資產(chǎn)質(zhì)量監(jiān)控、風(fēng)險預(yù)警、業(yè)務(wù)流程、統(tǒng)計報表等功能模塊。系統(tǒng)支持構(gòu)筑面向運營的服務(wù)平臺,可以按功能點或數(shù)據(jù)量來向使用方收費,使用方按格式要求提供數(shù)據(jù),然后點擊相關(guān)功能模塊得到目標結(jié)果。endprint
四、關(guān)鍵技術(shù)與創(chuàng)新性
云計算技術(shù):本服務(wù)平臺采用高性能的分布式云計算技術(shù),實現(xiàn)海量文件存儲、海量數(shù)據(jù)存儲和統(tǒng)一的海量數(shù)據(jù)處理編程方法和運行環(huán)境。云計算主要基于虛擬化和分布式并行架構(gòu)兩大核心技術(shù),虛擬化平臺將服務(wù)器虛擬為多個性能可配的虛擬機,對整個集群系統(tǒng)中所有虛擬機進行監(jiān)控和管理,并根據(jù)實際資源使用情況對資源池靈活分配和調(diào)度。虛擬化技術(shù)不僅消除大規(guī)模異構(gòu)服務(wù)器的差異化,其形成的計算池可以具有超級的計算能力。分布式并行架構(gòu)是云計算的另一個核心技術(shù),用于將大量的低配置機器整合為一臺高性能計算機,提供海量的數(shù)據(jù)存儲和處理服務(wù)。SOA技術(shù):面向服務(wù)的體系結(jié)構(gòu)(service-oriented architecture,SOA)是一個組件模型,它將應(yīng)用程序的不同功能單元(稱之為服務(wù))通過這些服務(wù)之間定義良好的接口聯(lián)系起來。接口是獨立于實現(xiàn)服務(wù)的硬件平臺、操作系統(tǒng)和編程語言的。采用SOA技術(shù)實現(xiàn)處理、運行、監(jiān)控服務(wù)之間的松耦合,使系統(tǒng)變得更加靈活,以適應(yīng)不斷變化的業(yè)務(wù)需求和環(huán)境。ETL技術(shù):ETL中三個字母分別代表的是Extract、Transform、Load,即抽取、轉(zhuǎn)換、加載。ETL作為構(gòu)建數(shù)據(jù)倉庫的一個重要環(huán)節(jié),負責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等加工到臨時中間層,然后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市,作為聯(lián)機分析處理、數(shù)據(jù)挖掘的數(shù)據(jù)基礎(chǔ)。采用自主開發(fā)的ETL工具或整合主流ETL工具,通過周期性的刷新,為用戶提供一個統(tǒng)一的干凈的數(shù)據(jù)視圖,為數(shù)據(jù)分析提供一個高質(zhì)量的數(shù)據(jù)源。作業(yè)調(diào)度技術(shù):數(shù)據(jù)倉庫、數(shù)據(jù)集市的批量作業(yè)數(shù)量很多、處理流程和作業(yè)依賴關(guān)系復(fù)雜多樣、性能低下,是ETL處理加工遇到的常見問題,系統(tǒng)采用作業(yè)調(diào)度技術(shù),通過統(tǒng)一的操作平臺和圖形化界面,定義批量作業(yè)的調(diào)度策略和調(diào)度規(guī)則,實現(xiàn)跨平臺、跨系統(tǒng)的批量作業(yè)的調(diào)度、執(zhí)行和監(jiān)控。針對數(shù)據(jù)量巨大、源數(shù)據(jù)文件多、加工邏輯復(fù)雜的系統(tǒng),使用作業(yè)調(diào)度技術(shù)達到簡化管理復(fù)雜度,提高系統(tǒng)總體性能的目的。作業(yè)調(diào)度模塊主要包括Buildtime和Runtime兩部分;Buildtime負責(zé)批量原子作業(yè)(簡稱為Job,下同)的定義和調(diào)度策略的定義及其維護,為作業(yè)調(diào)度運行時制定調(diào)度規(guī)則。調(diào)度策略就是決定作業(yè)何時運行、哪些作業(yè)先運行、那些作業(yè)可以并發(fā)運行及作業(yè)的運行順序的規(guī)則,Buildtime能滿足多種規(guī)則觸發(fā)作業(yè)運行;Runtime負責(zé)調(diào)度定義與修改、啟動與停止、掛起與恢復(fù)、作業(yè)重跑和調(diào)度監(jiān)控等功能的實現(xiàn),批量作業(yè)的運行、正常停止、異常停止都由Runtime的Job Scheduling Engine(作業(yè)調(diào)度引擎)實現(xiàn),作業(yè)調(diào)度引擎實現(xiàn)在調(diào)度運行過程中監(jiān)控作業(yè)的運行情況,同時對相關(guān)資源、并發(fā)和沖突都作了管理;Job Scheduling Engine(作業(yè)調(diào)度引擎)是參數(shù)驅(qū)動的作業(yè)管理程序,參數(shù)不僅包括作業(yè)本身、作業(yè)流程、作業(yè)依賴關(guān)系、作業(yè)并行度、例外級別,同時還包括外圍系統(tǒng)和總行系統(tǒng)定義、數(shù)據(jù)文件組定義、數(shù)據(jù)文件定義、功能模塊定義、功能模塊組定義等。參數(shù)在Buildtime中定義和維護,作為Job Scheduling Engine(作業(yè)調(diào)度引擎)的輸入。作業(yè)調(diào)度模塊具有支持多種不同作業(yè)(如Shell Job、Store Procedures Job、DataStage Job等)的通用接口,而無需根據(jù)不同的作業(yè)要編寫專用的調(diào)用接口程序;作業(yè)調(diào)度模塊全程跟蹤作業(yè)的運行軌跡,詳細記錄作業(yè)狀態(tài)和日志,提供作業(yè)的出錯控制功能和重跑功能。影像處理技術(shù):采用我公司自有知識產(chǎn)權(quán)的影像掃描通過平臺來實現(xiàn)影像的處理及上傳。掃描影像:作為一個插件,該軟件可以在IE瀏覽器平臺上調(diào)用各種掃描設(shè)備掃描圖像,并按照預(yù)先設(shè)定的摸板,對影像自動存盤,并對掃描的影像進行數(shù)據(jù)格式壓縮,確保傳輸文件的大小。影像處理:對掃描出來的影像提供了預(yù)覽的功能,支持放大、縮小查看。對影像還具有自動去黑點、去黑框、自動糾偏,以及旋轉(zhuǎn)角度等功能。影像分類:對掃描的影像文件提供分類文件夾,便于用戶按照實際的業(yè)務(wù)需求來進行分類。文件操作:支持影像文件的一般操作,如復(fù)制、粘貼、刪除、建立文件夾等功能,并支持縮略圖的拖拉操作。影像上傳:對于指定的影像資料,在特定的目錄下,支持影像的上傳功能,由服務(wù)器進行影像的存放及數(shù)據(jù)庫更新。在傳輸過程中嚴格保證文件傳輸?shù)臏蚀_性。
五、技術(shù)推廣與社會效益
金融業(yè)的數(shù)據(jù)大集中從當初概念的提出,到現(xiàn)在差不多已有五六年時間。中國銀行業(yè)進行了大規(guī)模的數(shù)據(jù)集中工作,一些銀行的數(shù)據(jù)集中工作基本完成,取得了很多成效。但是,隨著數(shù)據(jù)大集中的漸漸完成,一些實際操作中出現(xiàn)的麻煩和大集中完成后數(shù)據(jù)中心的未來趨勢等問題,又成為新的熱點?,F(xiàn)在所說的數(shù)據(jù)大集中的完成只是指所需的物理設(shè)備的建設(shè)完成,而數(shù)據(jù)資源還沒有開始真正整合和集中應(yīng)用。各應(yīng)用系統(tǒng)間缺乏信息溝通與整合,不能對數(shù)據(jù)資源進行有效的集成管理,也無從對數(shù)據(jù)資源進行更深度的挖掘與分析。在未來的五年內(nèi),國際金融市場對數(shù)據(jù)倉庫和數(shù)據(jù)分析的市場需求將會持續(xù)增長,本服務(wù)平臺開發(fā)的數(shù)據(jù)倉庫支撐技術(shù)將得到進一步的升級改造。同時,進一步推進了國內(nèi)金融信息化同行對數(shù)據(jù)倉庫相關(guān)的支撐技術(shù)的研發(fā)投入,包括云計算技術(shù)、商業(yè)智能分析、ETL工具、超并行數(shù)據(jù)庫系統(tǒng)、海量數(shù)據(jù)挖掘、SOA技術(shù)、作業(yè)調(diào)度等技術(shù)的開發(fā)和進步。從而大大推動了國內(nèi)商業(yè)智能技術(shù)在金融行業(yè)的普遍應(yīng)用,縮短國內(nèi)銀行業(yè)IT技術(shù)與外資銀行、全球金融信息化技術(shù)的差距,增強軟件企業(yè)品牌競爭力,提高企業(yè)在國內(nèi)外信息科技領(lǐng)域的知名度,打破跨國廠商在金融軟件方面的壟斷地位,對國內(nèi)金融信息化產(chǎn)業(yè)的發(fā)展,加快我國轉(zhuǎn)變經(jīng)濟發(fā)展方式,保持經(jīng)濟平穩(wěn)較快發(fā)展,具有一定的推動作用。
金融業(yè)的商業(yè)智能是國民經(jīng)濟和社會信息化的重要組成部分。發(fā)展金融業(yè)的BI是以信息化帶動工業(yè)化,轉(zhuǎn)變經(jīng)濟增長方式,提高國民經(jīng)濟運行質(zhì)量和效率,走新型工業(yè)化道路的重大舉措,對實現(xiàn)全面建設(shè)小康社會的宏偉目標具有十分重要的推廣意義。endprint