陳艷
摘要:隨著商業(yè)銀行業(yè)務電子化的發(fā)展,大數(shù)據(jù)技術在商業(yè)銀行中的應用越來越廣泛,對銀行的發(fā)展起著重要的影響作用,誰先擁有大數(shù)據(jù)誰就獲得了話語權(quán)?;诖髷?shù)據(jù)下的業(yè)務創(chuàng)新,已經(jīng)成為了銀行的重要工作方向。該文針對銀行歷史數(shù)據(jù)線上化的必要性,對Hadoop技術進行了介紹,并研究了其在大數(shù)據(jù)分析系統(tǒng)建設中的作用,對當前存在的問題提出具體的建議,使其更好促進銀行歷史數(shù)據(jù)線上化。
關鍵詞:Hadoop技術;歷史數(shù)據(jù);銀行
1銀行歷史數(shù)據(jù)線上化的必要性
1.1大數(shù)據(jù)特點
隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)對銀行的發(fā)展起著非常重要的影響作用,隨著銀行業(yè)務的快速發(fā)展,對其處理數(shù)據(jù)的能力要求不斷提高。各大銀行的競爭焦點都是基于大數(shù)據(jù)下的分析和運用創(chuàng)新,從當前大數(shù)據(jù)的運行上看,主要存在著以下四個特點:
一是數(shù)據(jù)類型多樣性,數(shù)據(jù)類型被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),相對于以往較為單一的結(jié)構(gòu)化數(shù)據(jù)而言,出現(xiàn)了網(wǎng)絡日志、音頻、圖像等為主的非機構(gòu)化數(shù)據(jù),加大了數(shù)據(jù)處理的難度,由此需要借助建立歷史數(shù)據(jù)系統(tǒng)來提高數(shù)據(jù)處理的工作效率。
二是數(shù)據(jù)數(shù)量龐大,對數(shù)據(jù)處理要求不斷加大,例如,當前,個人計算機硬盤的容量為TB量級,企業(yè)的數(shù)據(jù)容量接近EB量級,而歷史上全人類所說過的話若按照數(shù)據(jù)量來計算的話大約也只是5EB,可見現(xiàn)今數(shù)據(jù)的體量的龐大性,由此很有必要建立歷史數(shù)據(jù)庫,保障對數(shù)據(jù)的有效存儲和處理。
三是數(shù)據(jù)處理的速度快,這是大數(shù)據(jù)的一個顯著優(yōu)勢,面對海量的數(shù)據(jù),提高數(shù)據(jù)的處理效率將會是各行業(yè)需要認真考慮的一個重要問題,利用歷史數(shù)據(jù)庫在處理數(shù)據(jù)信息時的高效和快捷將會是解決這一問題的重要方法。
1.2歷史數(shù)據(jù)線上化的必要性
銀行傳統(tǒng)的歷史數(shù)據(jù)存儲方式是將其存放在磁盤庫和光盤中,查詢時的難度較大,工作效率低,不利于銀行的長遠發(fā)展。聯(lián)機服務系統(tǒng)在存儲歷史數(shù)據(jù)方面,提高了其數(shù)據(jù)查詢的效率,有利于提升銀行的服務意識,提高顧客的滿足感。現(xiàn)階段銀行業(yè)務的發(fā)展很大程度上強化了對歷史數(shù)據(jù)線上化的需求,以下將從三個方面進行闡述:
首先,從業(yè)務需求角度來看,銀行業(yè)務的發(fā)展在很大程度上會依賴歷史交易數(shù)據(jù),而歷史數(shù)據(jù)線上化可以有效地提高歷史數(shù)據(jù)導人和查詢的工作效率,對單一的數(shù)據(jù)處理來說,滿足對數(shù)據(jù)進行一次寫人多次讀寫的要求,減輕了銀行人員的工作負擔;其次,從系統(tǒng)功能上來看,銀行業(yè)務對歷史明細交易數(shù)據(jù)的存儲要求較高,而歷史數(shù)據(jù)線上化不僅可以保證數(shù)據(jù)存儲的安全性,在另一方面借助歷史積累的大數(shù)據(jù),方便跨時間跨地域的數(shù)據(jù)查詢,滿足線下數(shù)據(jù)線上化的概念;最后,從系統(tǒng)運營角度來看,歷史數(shù)據(jù)線上化具有很好的擴展性,對于增量交易數(shù)據(jù)和數(shù)據(jù)規(guī)模具有很好的預測性,便于銀行的長遠發(fā)展。雖然較多銀行已經(jīng)開始運用大數(shù)據(jù)系統(tǒng),但是在很多業(yè)務上都還需要完善,正是由于歷史數(shù)據(jù)線上化的優(yōu)勢存在,使得現(xiàn)階段開發(fā)和完善歷史數(shù)據(jù)線上化已經(jīng)成為一個趨勢,具有很大的必要性。
2Hadoop技術
2.1Hadoop技術特點
Hadoop技術產(chǎn)生于大數(shù)據(jù)時代,主要是依靠分布式架構(gòu)對數(shù)據(jù)進行存儲和計算分析,具有成本低、功能廣、性能高等優(yōu)勢,能夠很好地解決傳統(tǒng)數(shù)據(jù)存儲效率低下以及數(shù)據(jù)處理難度大等問題。Hadoop實際上是由HDFS、MapReduce、Hbase、Pig、Hive等成員組成的一種信息技術,它具有可用性高、擴展性強、集群式的特點。
1)可用性高
Hadoop技術可以實現(xiàn)對數(shù)據(jù)的多冗余復本機制,在數(shù)據(jù)的某一節(jié)點出現(xiàn)故障時,最大化的降低數(shù)據(jù)出錯的可能性;并且可以實現(xiàn)數(shù)據(jù)的自動復制,提高數(shù)據(jù)使用的安全性。
2)擴展性強
采用Hadoop技術作為系統(tǒng)架構(gòu),可以有效地增加系統(tǒng)空間,實現(xiàn)動態(tài)擴容。可以使得平臺在增加新節(jié)點后,自動地完成對數(shù)據(jù)的均衡任務,減少相關的工作量,提高數(shù)據(jù)的存儲的合理性。
3)集群式
Hadoop技術的設計理念是依靠集群力量進行工作,具有良好的工作邏輯,滿足了對于系統(tǒng)災備的要求,有利于維護銀行信息的安全可靠性,避免出現(xiàn)難以控制的突發(fā)情況,保障了銀行的可持續(xù)發(fā)展。
2.2Hadoop技術實現(xiàn)銀行歷史數(shù)據(jù)線上化的應用優(yōu)勢
當前,銀行業(yè)務的基本邏輯結(jié)構(gòu)為外圍系統(tǒng)、前置業(yè)務系統(tǒng)和核心業(yè)務系統(tǒng)組成。Hadoop是一個開放的技術平臺,將其運用在數(shù)據(jù)庫核心系統(tǒng)層中,可以實現(xiàn)對數(shù)據(jù)庫的歷史數(shù)據(jù)的備份,方便其數(shù)據(jù)查詢、數(shù)據(jù)處理和分析等功能的運用實現(xiàn)對核心數(shù)據(jù)的保護,提高數(shù)據(jù)的運用效率和效果;對于前置業(yè)務系統(tǒng)來說,引用Hadoop技術后,可根據(jù)不同的業(yè)務代碼,將外圍系統(tǒng)所需要查詢的某些業(yè)務通過Hadoop技術平臺處理后直接將處理后的結(jié)果返回到外圍系統(tǒng);Hadoop平臺系統(tǒng)可以充分的利用外圍系統(tǒng)、前置業(yè)務系統(tǒng)以及核心系統(tǒng)對于數(shù)據(jù)的處理,提高數(shù)據(jù)處理的效率。
Hadoop技術滿足歷史數(shù)據(jù)線上化的要求,是大數(shù)據(jù)技術在銀行業(yè)的應用典范,在數(shù)據(jù)加載、數(shù)據(jù)壓縮以及數(shù)據(jù)分析計算上都有較為明顯的優(yōu)勢,尤其是對數(shù)據(jù)的一次寫入和多次運用大大地提升了數(shù)據(jù)的處理能力,對于銀行的發(fā)展具有很好的促進作用。Hadoop技術可以對銀行的離線數(shù)據(jù)進行存儲和相應的開發(fā),提高銀行對于歷史數(shù)據(jù)的利用率。當前,許多商業(yè)銀行已經(jīng)將Hadoop技術運用在數(shù)據(jù)庫系統(tǒng)構(gòu)建中,Hadoop技術作為基礎的存儲和計算框架,通過統(tǒng)一的數(shù)據(jù)控制和管理平面對數(shù)據(jù)進行存儲和分析,提高了工作人員的效率。與傳統(tǒng)的數(shù)據(jù)庫技術相比,Hadoop技術具有良好的橫向擴展的能力,對于存儲和計算大量的數(shù)據(jù)更加具有優(yōu)勢,對數(shù)據(jù)的存儲采用的是分片存儲方式,提高了數(shù)據(jù)一致性的概率;Hadoop內(nèi)置的Ma—pReduee計算框架加快了數(shù)據(jù)的處理速度,在作為數(shù)據(jù)存儲和計算的平臺上具有很大的優(yōu)勢。同時,數(shù)據(jù)分析人員在使用其高度支持的SQL時也具備明顯的優(yōu)勢。
3Hadoop技術實現(xiàn)銀行歷史數(shù)據(jù)線上化的應用策略
3.1構(gòu)建歷史數(shù)據(jù)庫系統(tǒng)
歷史數(shù)據(jù)庫平臺對銀行基礎數(shù)據(jù)存儲平臺提供了數(shù)據(jù)支撐服務和降低了數(shù)據(jù)問題出現(xiàn)的可能性,提高了銀行在精準營銷、風險管控以及績效管理方面的業(yè)務能力?,F(xiàn)階段大多數(shù)銀行已經(jīng)采取了這種模式。歷史數(shù)據(jù)庫由數(shù)據(jù)層、平臺層、業(yè)務層和展示層四部分組成。
1)數(shù)據(jù)層
數(shù)據(jù)層就是系統(tǒng)的數(shù)據(jù)接口,其數(shù)據(jù)主要來源于三個方面:第一,本地化數(shù)據(jù),包括報表數(shù)據(jù)、文檔數(shù)據(jù)、外部采購數(shù)據(jù)等,一般以省內(nèi)為主;第二,由銀行總行下發(fā)的拆分平臺數(shù)據(jù),這是由總行按期下發(fā)的增量數(shù)據(jù)文件;第三,總行下發(fā)的下載平臺數(shù)據(jù),有存量數(shù)據(jù)和增量數(shù)據(jù)之分。
2)平臺層
平臺層主要由一系列的組件構(gòu)成,主要為平臺的穩(wěn)定性提供支持。
3)業(yè)務層
業(yè)務層即ETL工具,主要的功能是將內(nèi)外部數(shù)據(jù)導人HDSF中,主要有以下四個工具所組成:第一,存量遷移工具,主要功能是將下載平臺的存量數(shù)據(jù)通過Sqoop實現(xiàn)同步導人;第二,增量遷移工具,主要功能對相應的數(shù)據(jù)文件進行解密轉(zhuǎn)碼處理,并使其歸集在相關的表中;第三,生命周期管理工具,主要功能是導人新表和舊表的數(shù)據(jù)功能的處理;第四,元數(shù)據(jù)管理工具,主要通過對加載過程中的元信息進行后臺處理,提高表加載過程管理的有效性。
4)展現(xiàn)層
展現(xiàn)層主要是對外提高數(shù)據(jù)服務,包括服務于數(shù)據(jù)分析人員的數(shù)據(jù)查詢,使其完成好日常的數(shù)據(jù)處理任務;服務于外部系統(tǒng)的交互式報表,提高報表處理的質(zhì)量;服務于外部信息使用者的指標統(tǒng)計分析。
3.2建設系統(tǒng)的數(shù)據(jù)服務平臺
歷史數(shù)據(jù)庫集中管理平臺具有線性橫向擴展的特點,提高了大量數(shù)據(jù)的存儲和計算的能力,使其可以具有更長的保存時間。為此平臺還需要包含操作性的數(shù)據(jù)存儲ODS、數(shù)據(jù)倉庫、數(shù)據(jù)集合,為數(shù)據(jù)分析人員開展工作提供有力的支持服務。對于銀行的各地區(qū)分支行,要利用數(shù)據(jù)存儲系統(tǒng)進行數(shù)據(jù)拆分和整合的功能,提高區(qū)域性數(shù)據(jù)的服務能力。
3.3構(gòu)建基礎數(shù)據(jù)分析和推薦平臺
隨著電子信息時代的到來,信息技術所帶來的效益也越來越大,金融行業(yè)也越來越關注數(shù)據(jù)的價值。銀行作為服務行業(yè),應該重視客戶的體驗評價,不斷的改善產(chǎn)品以滿足用戶的需求,提高用戶的滿意度,以便更好的維持其市場份額;要不斷地推陳出新,針對市場的變化及時提供具有個性化和針對性的服務,吸引更多的用戶,擴大市場份額;數(shù)據(jù)時代更加強調(diào)對數(shù)據(jù)的運用,要對數(shù)據(jù)進行分析和分類,以匹配不同用戶的需求,提高用戶的滿意度;金融行業(yè)要合理的規(guī)避風險,銀行在進行貸款業(yè)務時,就需要利用數(shù)據(jù)庫系統(tǒng)對用戶信息進行充分的分析和評價,建立起良好的監(jiān)控制度和內(nèi)部控制制度。
3.4大數(shù)據(jù)能力的推進過程
歷史數(shù)據(jù)集中管理平臺是一個支持海量存儲和聯(lián)機查詢的系統(tǒng),可以有效地提高數(shù)據(jù)的提取、分析和運用的能力?,F(xiàn)階段已經(jīng)對經(jīng)營統(tǒng)計分析系統(tǒng)進行了完善,使其在數(shù)據(jù)分類、過濾以及關聯(lián)分析上都取得了一定的效果,建立起了初步營銷的基礎。針對市場的發(fā)展動向,可以在根據(jù)業(yè)務人員的預測之上對一些外部數(shù)據(jù)源,包括商家營銷數(shù)據(jù)、網(wǎng)頁歷史瀏覽記錄以及社交媒介的使用情況等對用戶的行為進行分析和預測,及時的制定營銷任務和業(yè)務內(nèi)容。利用現(xiàn)有的歷史數(shù)據(jù)庫的使用經(jīng)驗,完善相應的數(shù)據(jù)分析技術,為決策提供有力的支持,包括實現(xiàn)產(chǎn)品的差異化定價、信用風險、流動性風險實施預警等。
4案例分析:光大銀行對Hadoop技術的運用
銀行業(yè)已經(jīng)意識到大數(shù)據(jù)背后所帶來的巨大經(jīng)濟利益,各大銀行通過建設企業(yè)級的數(shù)據(jù)倉庫的方式對大數(shù)據(jù)進行開發(fā),幫助提高銀行的查詢、產(chǎn)品拓展以及決策分析能力。光大銀行作為首個將Hadoop技術運用于銀行數(shù)據(jù)系統(tǒng)建設的商業(yè)銀行,在數(shù)據(jù)跟蹤業(yè)務、技術發(fā)展上取得了比較好的效果,成為了中國銀行業(yè)運用Hadoop技術的先驅(qū)。
光大銀行對大數(shù)據(jù)Hadoop技術運用較早,其歷史數(shù)據(jù)查詢系統(tǒng)可以實現(xiàn)對銀行近10年來其陽光卡系統(tǒng)、Minster系統(tǒng)等數(shù)十億的交易明細數(shù)據(jù)進行查詢,它充分利用了Hadoop技術在節(jié)約成本、提高利用率上的優(yōu)勢,有效地解決了數(shù)據(jù)的存儲問題和突破了其計算能力的局限,促進了銀行的經(jīng)濟效益的提升。通過歷史數(shù)據(jù)查詢系統(tǒng),柜臺工作人員的工作時間可以有效地縮短,提高其工作的效率,同時還會減少相關人員的工作難度,減少數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié),大大地提升了數(shù)據(jù)的安全性;對其歷史數(shù)據(jù)查詢系統(tǒng)而言,實時查詢交易平臺的反應時間在200毫秒左右,而異步查詢則控制在1分鐘之內(nèi),對降低人工勞動強度和提高顧客滿意度都起到了很好的作用,促進了光大銀行業(yè)務的發(fā)展;強大的數(shù)據(jù)分析能力還為數(shù)據(jù)的記載和查詢提供了有力的支持,提高銀行的管理水平。
5結(jié)束語
在當今信息爆炸的時代,誰掌握了大數(shù)據(jù),誰就掌握了市場的發(fā)展動向,就更有利于處于行業(yè)的領導地位。大數(shù)據(jù)的到來為銀行的發(fā)展提供了新的要求,改變了其傳統(tǒng)的運作模式,基于Hadoop技術實現(xiàn)銀行的歷史數(shù)據(jù)庫的建立會大大的促進銀行的業(yè)務處理效率,有利于銀行的轉(zhuǎn)型升級,提高競爭力,搶占市場先機。