唐云霞 胡滟
當(dāng)前,以大數(shù)據(jù)、云計(jì)算等為代表的新一代信息技術(shù)風(fēng)起云涌,并迅速向金融領(lǐng)域滲透融合。人民銀行作為金融管理部門和金融服務(wù)單位,決定了央行數(shù)據(jù)信息的敏感性和多樣性,如何能在大數(shù)據(jù)、云計(jì)算這些新技術(shù)發(fā)展趨勢(shì)中,完善信息化發(fā)展環(huán)境,創(chuàng)新信息化服務(wù)模式,是新形勢(shì)下央行履職的要求。本文以人民銀行數(shù)據(jù)綜合利用為研究對(duì)象,充分發(fā)揮業(yè)務(wù)、信息、技術(shù)等多學(xué)科的優(yōu)勢(shì),著重研究大數(shù)據(jù)驅(qū)動(dòng)人民銀行數(shù)據(jù)資源治理、價(jià)值挖掘,突出管理與決策的利用,通過對(duì)區(qū)域金融云大數(shù)據(jù)應(yīng)用平臺(tái)的搭建及運(yùn)用,建立數(shù)據(jù)應(yīng)用研究的新模式。
一、目前金融數(shù)據(jù)、央行數(shù)據(jù)分布情況以及存在問題的思考
(一)金融數(shù)據(jù)分布
全國(guó)范圍金融機(jī)構(gòu)信息分布概覽
(二)央行數(shù)據(jù)分布
目前,央行有100多個(gè)自成體系的獨(dú)立系統(tǒng),而且上有多個(gè)數(shù)據(jù)中心,中有32個(gè)省級(jí)數(shù)據(jù)中心和32個(gè)城市處理中心,下有多個(gè)一級(jí)節(jié)點(diǎn)或二節(jié)點(diǎn)。具體如下圖所示:
(三)數(shù)據(jù)收集、整合、應(yīng)用存在問題
1.數(shù)據(jù)采集不統(tǒng)一。一是沒有實(shí)現(xiàn)數(shù)據(jù)一次采集多方共享。目前各個(gè)業(yè)務(wù)數(shù)據(jù)沒有統(tǒng)一的入口,且數(shù)據(jù)采集通道不暢通。
二是沒有實(shí)現(xiàn)開發(fā)標(biāo)準(zhǔn)統(tǒng)一、接口統(tǒng)一。各類業(yè)務(wù)系統(tǒng)沒有統(tǒng)一技術(shù)標(biāo)準(zhǔn),存在不同數(shù)據(jù)接口,采集方式單一。
三是沒有實(shí)現(xiàn)流程化數(shù)據(jù)清洗處理。沒有應(yīng)用新技術(shù)來實(shí)現(xiàn)規(guī)范數(shù)據(jù)采集流程,沒有實(shí)現(xiàn)對(duì)內(nèi)、對(duì)外和經(jīng)濟(jì)、金融數(shù)據(jù)采集的統(tǒng)一規(guī)范交互。
2.數(shù)據(jù)資源孤立。一是獲取外部信息不全面。我們目前沒有一個(gè)平臺(tái)可以做到對(duì)不同類型機(jī)構(gòu)、不同數(shù)據(jù)格式數(shù)據(jù)報(bào)表能通過統(tǒng)一信息、統(tǒng)一明細(xì)數(shù)據(jù)的上報(bào)和抓取。
二是內(nèi)部信息獲取碎片化。目前部門間數(shù)據(jù)信息碎片化非常嚴(yán)重,數(shù)據(jù)分散在不同部門、不同科室、不同系統(tǒng)、和不同人員的計(jì)算機(jī),各業(yè)務(wù)數(shù)據(jù)信息存在條塊切割,獲取效率不高,不利于決策層面的需要。
三是內(nèi)、外信息實(shí)效滯后分散。目前人民銀行與被監(jiān)管金融機(jī)構(gòu)的評(píng)估模式主要為系統(tǒng)交互、按需上報(bào)、問卷調(diào)查、專家評(píng)判決策等模式,數(shù)據(jù)指標(biāo)的內(nèi)外分散、收集時(shí)效的滯后、統(tǒng)計(jì)信息的缺失將會(huì)弱化后續(xù)的決策依據(jù)。
3.信息資源不共享。目前,人行、政府、其他監(jiān)管機(jī)構(gòu)關(guān)于金融信息的共享及往來,限于金融聯(lián)席會(huì)議、金融內(nèi)部網(wǎng)絡(luò)交互平臺(tái)、金融統(tǒng)計(jì)報(bào)表傳遞、多部門聯(lián)合金融信息交換等較為有限的渠道,金融機(jī)構(gòu)、單位內(nèi)設(shè)部門、政府機(jī)構(gòu)、監(jiān)管部門的信息都是以各自獨(dú)立使用數(shù)據(jù)庫方式留存,在部門之間、上下級(jí)間、經(jīng)濟(jì)金融部門、業(yè)務(wù)應(yīng)用和管理應(yīng)用之間存在信息不對(duì)稱,標(biāo)準(zhǔn)不統(tǒng)一,難以實(shí)現(xiàn)信息的有效共享。
二、區(qū)域金融云大數(shù)據(jù)應(yīng)用平臺(tái)的建設(shè)及應(yīng)用
(一)規(guī)劃“云上央行”
根據(jù)人民銀行總行數(shù)據(jù)綜合利用研究以及云南省云計(jì)算大數(shù)據(jù)“云上云”規(guī)劃部署要求,我們?cè)凇笆濉逼陂g規(guī)劃了以私有云為特征、數(shù)據(jù)統(tǒng)一管理、內(nèi)外區(qū)別利用的云計(jì)算大數(shù)據(jù)“云上央行”應(yīng)用模式。其基本架構(gòu)如下:
1.從“連接”需要考慮。目前,人行業(yè)務(wù)部門在和銀行、證券、保險(xiǎn)的業(yè)務(wù)信息連接上是不完整的,有些只和銀行連接,與證券、保險(xiǎn)等相關(guān)部門的連接是完全中斷的。通過“云上央行”行動(dòng),搭建“兩個(gè)平臺(tái)”,實(shí)現(xiàn)網(wǎng)絡(luò)連接和系統(tǒng)連接,通過金融機(jī)構(gòu)編碼作為數(shù)據(jù)信息索引標(biāo)識(shí)、作為數(shù)據(jù)信息匯聚引擎,實(shí)現(xiàn)所有數(shù)據(jù)信息的連接,實(shí)現(xiàn)金融信息處理的創(chuàng)新生態(tài)。
2.從“共享”需要考慮。目前,人行業(yè)務(wù)部門在和銀行、證券、保險(xiǎn)等單位,都是“各家只顧各家糧”,每個(gè)部門都是自己建立一個(gè)數(shù)據(jù)倉(cāng)庫,把自己的業(yè)務(wù)需求搞定就完成。但隨著金融改革的深入,人民銀行履職的特殊性,金融數(shù)據(jù)信息的相互交叉、滲透、融合,僅僅靠掌握自己手中的數(shù)據(jù)信息,管理人員和分析研究部門會(huì)發(fā)現(xiàn)越來越勢(shì)單力薄,能掌握“多少信息”能否看得“再遠(yuǎn)一點(diǎn)”是各個(gè)單位綜合部門在進(jìn)行數(shù)據(jù)處理和利用時(shí)的困惑。通過綜合平臺(tái),從兩個(gè)方面為數(shù)據(jù)信息共享搭建橋梁:
一是對(duì)“外”,建立人民銀行與外部機(jī)構(gòu)的網(wǎng)絡(luò)和應(yīng)用連接,積累大量分析數(shù)據(jù)信息,增強(qiáng)數(shù)據(jù)信息的實(shí)用價(jià)值。
二是對(duì)“內(nèi)”,建立人民銀行橫向和縱向的數(shù)據(jù)信息關(guān)聯(lián)機(jī)制,以及利用大數(shù)據(jù)、云計(jì)算和云存儲(chǔ),共享數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的共創(chuàng)和碰撞,讓數(shù)據(jù)真正地“應(yīng)用”起來,而不是僅僅“擁有”,力爭(zhēng)提升數(shù)據(jù)綜合應(yīng)用分析能力。
3.從“計(jì)算”需要考慮。大數(shù)據(jù)、云計(jì)算首當(dāng)其沖面臨的是數(shù)據(jù)的處理速度,今天我們購(gòu)買的高端機(jī)、小機(jī)、PC機(jī)或者建立數(shù)據(jù)倉(cāng)庫等等一系列都是用來解決計(jì)算的問題,綜合平臺(tái)的建立可以降低連接成本;大數(shù)據(jù)可以降低信息的獲取成本,擴(kuò)大信息的獲取范疇;提供海量數(shù)據(jù)的實(shí)時(shí)處理速度。
(二)建設(shè)大數(shù)據(jù)應(yīng)用平臺(tái)
我們結(jié)合工作實(shí)際,從各個(gè)業(yè)務(wù)處室提出的成百上千的統(tǒng)計(jì)報(bào)表匯聚;經(jīng)濟(jì)金融運(yùn)行中關(guān)聯(lián)數(shù)據(jù)的使用;數(shù)十年海量數(shù)據(jù)的利用窘境,從如何融合、共享、分析、展示部門之間的信息,為全行各職能部門研判決策提供支撐出發(fā),依托虛擬化平臺(tái),實(shí)施建設(shè)區(qū)域金融云大數(shù)據(jù)應(yīng)用平臺(tái)。
1.搭建BI(商業(yè)智能)系統(tǒng)架構(gòu)。在系統(tǒng)整體架構(gòu)中采用業(yè)界先進(jìn)的BI(商業(yè)智能)技術(shù)架構(gòu),集成ETL技術(shù)、OLAP技術(shù)、報(bào)表技術(shù)、分布式大數(shù)據(jù)技術(shù)、數(shù)據(jù)挖掘技術(shù)和云計(jì)算技術(shù),有效地保系統(tǒng)障了數(shù)據(jù)的時(shí)效性、準(zhǔn)確性和易用性。邏輯架構(gòu)如下圖所示:
2.采取分布式大數(shù)據(jù)處理核心技術(shù)。區(qū)域金融云大數(shù)據(jù)應(yīng)用平臺(tái)的數(shù)據(jù)技術(shù)涵蓋了硬軟件多個(gè)方面的技術(shù),采用的大數(shù)據(jù)處理的核心技術(shù)DB2 DPF和Hadoop。目前各種技術(shù)基本都獨(dú)立存在于存儲(chǔ)、開發(fā)、平臺(tái)架構(gòu)、數(shù)據(jù)分析挖掘的各個(gè)相對(duì)獨(dú)立的領(lǐng)域。
3.建立分布式數(shù)據(jù)庫物理結(jié)構(gòu)。平臺(tái)采用DB2 DPF實(shí)現(xiàn)非共享體系架構(gòu)的分布式高性能數(shù)據(jù)處理和大數(shù)據(jù)量存儲(chǔ)環(huán)境。
(三)大數(shù)據(jù)應(yīng)用研究成果
以編碼信息為例,我們通過對(duì)業(yè)務(wù)的理解、數(shù)據(jù)準(zhǔn)備、建模開展了以金融機(jī)構(gòu)編碼信息為收索引擎的模型應(yīng)用分析。
利用金融機(jī)構(gòu)編碼匯聚眾多金融機(jī)構(gòu)業(yè)務(wù)信息和編碼信息的之間的關(guān)系,以及相互之間是如何影響的,對(duì)于數(shù)據(jù)分析是非常重要的。關(guān)聯(lián)規(guī)則模型可以依據(jù)業(yè)務(wù)發(fā)生對(duì)象的行為,通過算法找出業(yè)務(wù)趨勢(shì)和監(jiān)測(cè)對(duì)象的相關(guān)性,如圖:
目前BMS系統(tǒng)內(nèi)登記了銀行、證券、保險(xiǎn)機(jī)構(gòu)信息并為每一家機(jī)構(gòu)賦予了唯一的金融屬性的識(shí)別碼,金融機(jī)構(gòu)編碼也嵌入ACS、賬戶、反洗錢、國(guó)庫、征信等應(yīng)用系統(tǒng)系統(tǒng)內(nèi)。以機(jī)構(gòu)編碼為信息會(huì)聚、搜索“結(jié)點(diǎn)”從“機(jī)構(gòu)信息直接分析”、“機(jī)構(gòu)信息業(yè)務(wù)關(guān)聯(lián)分析”、“機(jī)構(gòu)監(jiān)測(cè)應(yīng)用分析”三個(gè)維度(時(shí)間、地域、訪問者)展示數(shù)據(jù)應(yīng)用研究的一個(gè)成果:
三、未來發(fā)展展望
一是通過數(shù)據(jù)分析挖掘平臺(tái)在多個(gè)基礎(chǔ)業(yè)務(wù)部門開展數(shù)據(jù)挖掘研究,通過立方體多維分析服務(wù),借助下鉆、上鉆、切片、旋轉(zhuǎn)等便捷的操作實(shí)現(xiàn)對(duì)熱點(diǎn)和關(guān)注點(diǎn)的深入分析和全方位了解圍繞金融監(jiān)測(cè)、貨幣政策、金融穩(wěn)定提供利用價(jià)值。
二是選取某一關(guān)注點(diǎn),通過數(shù)據(jù)分析平臺(tái)實(shí)現(xiàn)的數(shù)據(jù)整合資源,利用大數(shù)據(jù)的技術(shù)去尋找不同變量間新的相關(guān)關(guān)系,建立1-3個(gè)決策模型,利用算法把大量碎片化數(shù)據(jù)進(jìn)行整合形成拼圖,對(duì)“數(shù)據(jù)”深度研究還原數(shù)據(jù)反映的某一類趨勢(shì)的真實(shí)情況。
三是以實(shí)驗(yàn)的方式驗(yàn)證大數(shù)據(jù)的思維方式和大數(shù)據(jù)應(yīng)用的推廣方案,把一些沒有經(jīng)過數(shù)據(jù)實(shí)證的假設(shè)當(dāng)成真理性的結(jié)論。endprint