何苗
【摘要】1980年著名的未來學(xué)家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂章”。大數(shù)據(jù)對各行業(yè)發(fā)展都將帶來巨大的、深遠(yuǎn)的影響。征信行業(yè)如何應(yīng)用大數(shù)據(jù)值得我們深入探討與研究。
【關(guān)鍵詞】征信業(yè) 大數(shù)據(jù) 應(yīng)用
隨著互聯(lián)網(wǎng)、云計算的快速發(fā)展,大數(shù)據(jù)對各行業(yè)發(fā)展都將帶來巨大和深遠(yuǎn)的影響。征信行業(yè)如何應(yīng)用大數(shù)據(jù)值得我們深入探討與研究。
一、大數(shù)據(jù)的含義與特點
(一)大數(shù)據(jù)含義
2008年在維克托·邁爾-舍恩伯格及肯·庫克耶編寫的《大數(shù)據(jù)時代》中,大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣的方式,而對所有數(shù)據(jù)進(jìn)行分析處理。
(二)大數(shù)據(jù)特點
大數(shù)據(jù)的核心價值是對海量數(shù)據(jù)進(jìn)行存儲和分析。大數(shù)據(jù)的4V特點即:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。Volume(大量)指大數(shù)據(jù)體量巨大。從TB級別躍升到PB級別。移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、云計算、PC機、手機、平板電腦以及遍布全球的各式傳感器,都是數(shù)據(jù)來源。Velocity(高速)指大數(shù)據(jù)處理速度快。大數(shù)據(jù)需要依托云計算的分布式處理、分布式數(shù)據(jù)庫、云存儲和/或虛擬化技術(shù)。Variety(多樣)即數(shù)據(jù)的類型繁多,包括各種數(shù)據(jù)庫、網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。Value(價值)即價值密度低。需要從海量數(shù)據(jù)中提取有價值的信息。
(三)大數(shù)據(jù)的處理流程
1.采集與導(dǎo)入。指將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)截取后進(jìn)行清理、轉(zhuǎn)換、集成,然后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,作為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。數(shù)據(jù)存取軟件主要有關(guān)系數(shù)據(jù)庫、NOSQL、SQL等。存儲模式主要有云存儲、分布式文件存儲等。
2.統(tǒng)計/分析。主要運用分布式數(shù)據(jù)庫、分布式計算集群對海量數(shù)據(jù)進(jìn)行普通的分析、分類匯總等,以滿足分析需求。實時性需求多采用EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而批處理或基于半結(jié)構(gòu)化數(shù)據(jù)需求可使用Hadoop。其統(tǒng)計分析的主要方式有:假設(shè)檢驗、顯著性檢驗、T檢驗、相關(guān)分析、差異分析、卡方分析、方差分析、偏相關(guān)分析、回歸分析、距離分析、簡單回歸分析、多元回歸分析等。
3.數(shù)據(jù)挖掘。與統(tǒng)計/分析過程不同的是,數(shù)據(jù)挖掘一般沒有預(yù)先設(shè)定的主題,主要是在現(xiàn)有數(shù)據(jù)上進(jìn)行基于各種算法的計算,進(jìn)行預(yù)測,實現(xiàn)高級別數(shù)據(jù)分析需求。典型的算法有用于聚類的Kmeans、用于統(tǒng)計學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要工具有Hadoop的Mahout等。
二、我國征信業(yè)信息系統(tǒng)建設(shè)情況
2013年我國出臺的《征信業(yè)管理條例》指出我國的征信業(yè)務(wù)指對企業(yè)、事業(yè)單位等組織和個人的信用信息進(jìn)行采集、整理、保存、加工,并向信息使用者提供的活動。我國的征信信息系統(tǒng)主要有央行征信系統(tǒng)、行政管理征信系統(tǒng)、商業(yè)征信系統(tǒng)。
(一)央行征信系統(tǒng)建設(shè)情況
我國征信業(yè)監(jiān)督管理機構(gòu)——人民銀行建立了金融信用信息基礎(chǔ)數(shù)據(jù)庫(包括企業(yè)信用信息基礎(chǔ)數(shù)據(jù)庫和個人信用信息基礎(chǔ)數(shù)據(jù)庫),于2006年在全國聯(lián)網(wǎng)運行,是我國最重要的征信系統(tǒng)。其數(shù)據(jù)來源于放貸機構(gòu)、政府及其他相關(guān)機構(gòu)。放貸機構(gòu)免費強制提供數(shù)據(jù),政府及其他相關(guān)機構(gòu)自愿提供數(shù)據(jù)。由人行征信中心匯總、處理數(shù)據(jù)。金融機構(gòu)依法有償查詢,政府部門及企業(yè)和個人依法免費查詢。
該系統(tǒng)接入機構(gòu)1811家,包括銀行機構(gòu)485家,小額貸款公司700家,融資性擔(dān)保公司257家,住房公積金中心310家,財務(wù)公司10家、消費金融公司4家等。截至2014年底,企業(yè)和個人征信系統(tǒng)接入機構(gòu)分別達(dá)1724家和1811家,分別收錄近2000萬戶企業(yè)、其他組織和8.6億自然人,其中,有信貸記錄的自然人3.5億人。
該系統(tǒng)采集的主要信息有:身份信息、信貸信息(包括貸款、貿(mào)易融資、保理、票據(jù)貼現(xiàn)等各類企業(yè)授信產(chǎn)品,以及個人消費貸、住房抵押貸款、信用卡、個人經(jīng)營性貸款等個人信貸產(chǎn)品)、非金融負(fù)債信息(如電信繳費信息、公用事業(yè)繳信息)、公共信息(包括住房公積金繳存信息、社保參保繳費信息、司法信息如立案判決和執(zhí)行信息、商事信息如登記注冊和財務(wù)信息等)四塊。
央行征信系統(tǒng)的產(chǎn)品與服務(wù)主要是信用報告和增值服務(wù)。增值服務(wù)主要有關(guān)聯(lián)企業(yè)的關(guān)聯(lián)查詢服務(wù)、將本機構(gòu)好客戶在其他機構(gòu)變差的信息提供給機構(gòu)用戶的信息提示服務(wù)、“個人信用報告數(shù)字解讀”(即利用個人信用報告中信貸交易和查詢信息建模,研究開發(fā)個人信用風(fēng)險量化評估工具,預(yù)測借款人未來逾期的可能性)等。此外,信貸資產(chǎn)結(jié)構(gòu)分析、歷史違約率等產(chǎn)品也正在研發(fā)中。
央行征信中心通過下屬機構(gòu)上海資信有限公司建成網(wǎng)絡(luò)金融征信系統(tǒng),將p2p網(wǎng)貸機構(gòu)納入了系統(tǒng)。截至2014年底,接入網(wǎng)貸機構(gòu)370家,收錄客戶52.4萬人。目前該系統(tǒng)尚未接入央行征信系統(tǒng),主要是幫助P2P平臺信息互享,普通消費者尚不能通過該系統(tǒng)查詢。
(二)行政管理征信體系
以地方政府及職能管理部門為主導(dǎo)建設(shè)的,收集的信息主要有工商、稅務(wù)、海關(guān)等各職能采集的數(shù)據(jù)。
(三)商業(yè)征信系統(tǒng)
商業(yè)征信體系指由民營機構(gòu)建成并按市場方式運作的機構(gòu)體系。我國上世紀(jì)80年代末、90年代初已有民營征信機構(gòu)誕生,例如鵬元征信有限公司個人征信系統(tǒng)自2002年即已開始投入運行。過去商業(yè)征信系統(tǒng)沒有獨立、穩(wěn)定的數(shù)據(jù)來源,主要是從前兩個體系挖取,再進(jìn)行整合、分析。而近幾年以互聯(lián)網(wǎng)為背景的征信公司的加入改變了這一狀況。這些機構(gòu)依托互聯(lián)網(wǎng)企業(yè)采集的電子商務(wù)、社交等信息,對征信對象進(jìn)行分析。
我國《征信業(yè)管理條例》規(guī)定,設(shè)立經(jīng)營企業(yè)征信業(yè)務(wù)的征信機構(gòu)需向所在地央行備案,設(shè)立經(jīng)營個人征信業(yè)務(wù)的征信機構(gòu)須由央行頒發(fā)個人征信業(yè)務(wù)經(jīng)營許可證。截止2014年末,央行已向29家機構(gòu)頒發(fā)了“企業(yè)征信業(yè)務(wù)經(jīng)營備案證”。2015年1月5日,央行下發(fā)《關(guān)于做好個人征信業(yè)務(wù)準(zhǔn)備工作的通知》,要求芝麻信用、騰訊征信、前海征信、鵬元征信、中誠信征信、拉卡拉信用等8家機構(gòu)做好首批個人征信業(yè)務(wù)的準(zhǔn)備工作。8家征信機構(gòu)的數(shù)據(jù)主要來源于互聯(lián)網(wǎng)平臺或集團公司。如芝麻信用主要利用阿里旗下淘寶、天貓、支付寶等購物和理財平臺,整合電商、網(wǎng)上銀行、社交、招聘、公積金社保、交通運輸?shù)刃畔?,最終形成相關(guān)征信信息。騰訊征信隸屬騰訊集團,主要基于QQ和微信平臺上用戶所累積的數(shù)據(jù)對用戶進(jìn)行分析評級。前海征信母公司為全牌照金融企業(yè)——平安集團(集團業(yè)務(wù)包括銀行、保險、信托等,旗下陸金所是國內(nèi)最大的P2P網(wǎng)貸平臺),該公司主要利用母公司的數(shù)據(jù)。
三、我國征信業(yè)大數(shù)據(jù)應(yīng)用需關(guān)注的問題
(一)征信信息公開、轉(zhuǎn)讓、共享與個人隱私保護處理問題
在大數(shù)據(jù)征信業(yè)態(tài)下,如何正確處理兩者關(guān)系的問題更為突出。政府、公共部門、企業(yè)、個人哪些信息可以公開,哪些信息應(yīng)該公開,哪些信息可以轉(zhuǎn)讓,在多大范圍、采用哪些途徑和方式公開、轉(zhuǎn)讓等尚未有專門的法律法規(guī)予以明確。目前阿里小貸雖然與淘寶、天貓等都屬于阿里巴巴集團旗下公司,電商平臺的交易數(shù)據(jù)流向阿里小貸,仍相當(dāng)于法人間數(shù)據(jù)讓渡。而目前《征信業(yè)管理條例》及相關(guān)法律法規(guī)并未對征信機構(gòu)向特定用戶提供數(shù)據(jù)的行為作明確規(guī)定,因此難以界定這種行為是否違規(guī)或存在法律風(fēng)險。
(二)央行征信系統(tǒng)信息來源受限
按照《征信業(yè)管理條例》,國家建設(shè)的金融信用信息基礎(chǔ)數(shù)據(jù)庫接受的信息為從事信貸業(yè)務(wù)的機構(gòu)和不從事信貸業(yè)務(wù)的金融機構(gòu),這限制了央行征信系統(tǒng)信息來源,不利于央行征信系統(tǒng)拓展數(shù)據(jù)采集范圍。
(三)信息安全問題
云計算、大數(shù)據(jù)采取的是云存儲、分布式文件存儲等,數(shù)據(jù)或計算分布在多臺計算機上,數(shù)據(jù)鏈條長,數(shù)據(jù)系統(tǒng)、結(jié)構(gòu)復(fù)雜,數(shù)據(jù)保密技術(shù)要求高,增加了數(shù)據(jù)泄密的風(fēng)險。
四、建議
(一)進(jìn)一步完善相關(guān)法律法規(guī)
在法律法規(guī)層面明確征信信息的歸屬權(quán),明確界定個人信息和個人隱私,以及商業(yè)化大數(shù)據(jù)機構(gòu)信息可公開、轉(zhuǎn)讓、出售的內(nèi)容、范圍等等。同時,明確互聯(lián)網(wǎng)數(shù)據(jù)使用應(yīng)遵守的原則:一是目的性原則,建立數(shù)據(jù)庫要有明確目的;二是適當(dāng)性原則,采集與目的要適當(dāng);三是本人同意和知情原則,數(shù)據(jù)的采集、使用等要本人同意、知情。
(二)制定大數(shù)據(jù)建設(shè)機制和標(biāo)準(zhǔn)
建立良好的運行機制,在信息覆蓋面上,要盡可能對放貸機構(gòu)、借款人群和地域上的全覆蓋;在數(shù)據(jù)采集、挖掘中滿足放貸機構(gòu)、信息主體、監(jiān)管部門等系統(tǒng)參與各方的需求,以促進(jìn)征信大數(shù)據(jù)建設(shè)各個環(huán)節(jié)的正規(guī)有序。建立覆蓋多個領(lǐng)域、動態(tài)更新的大數(shù)據(jù)建設(shè)標(biāo)準(zhǔn),為實現(xiàn)網(wǎng)絡(luò)和信息的互連、互通奠定基礎(chǔ)。在各專用數(shù)據(jù)庫建設(shè)的基礎(chǔ)上,通過數(shù)據(jù)集成,實現(xiàn)各級各類信息系統(tǒng)的數(shù)據(jù)交換和數(shù)據(jù)共享。進(jìn)一步強化信息安全與保護。
(三)依法對互聯(lián)網(wǎng)、大數(shù)據(jù)公司開放征信市場
互聯(lián)網(wǎng)、大數(shù)據(jù)征信是傳統(tǒng)征信的業(yè)態(tài)升級。要創(chuàng)造有利條件促進(jìn)互聯(lián)網(wǎng)征信公司發(fā)展。同時,參照國外的一些做法,把傳統(tǒng)征信數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)結(jié)合起來,在互聯(lián)網(wǎng)征信機構(gòu)做到一定規(guī)模后,金融機構(gòu)信息可在保護個人隱私和信息安全的情況下允許其使用。
(四)進(jìn)一步完善央行征信系統(tǒng)
央行征信數(shù)據(jù)源要包括證券數(shù)據(jù)、保險數(shù)據(jù)、商業(yè)信用數(shù)據(jù)、消費交易數(shù)據(jù)和公共事業(yè)繳費數(shù)據(jù)等,還需進(jìn)一步拓展信息來源,從互聯(lián)網(wǎng)機構(gòu)獲取相關(guān)信息。按照《征信業(yè)管理條例》規(guī)定,從事信貸業(yè)務(wù)的機構(gòu)應(yīng)按規(guī)定向金融信用信息基礎(chǔ)數(shù)據(jù)庫提供信貸信息,因而只要相關(guān)部門認(rèn)定P2P屬于放貸機構(gòu),就應(yīng)將其接入央行征信系統(tǒng)。同時,在將來法律法規(guī)許可的情況下,央行征信系統(tǒng)可進(jìn)一步拓展互聯(lián)網(wǎng)數(shù)據(jù)采集渠道和范圍??蓪⒒ヂ?lián)網(wǎng)企業(yè)作為征信服務(wù)業(yè)的上游機構(gòu),依法將數(shù)據(jù)提供給央行征信機構(gòu),由央行征信機構(gòu)再進(jìn)行整合、分析等后續(xù)工作。
(五)對征信業(yè)監(jiān)管要處理好行業(yè)發(fā)展與規(guī)范的矛盾
征信機構(gòu)需要采集和提供更豐富的信息以滿足信息使用者的需要,但信息采集與使用不當(dāng)又容易侵害信息主體的權(quán)益,引發(fā)違規(guī)行為。監(jiān)管者往往存在為避免違規(guī)而過度監(jiān)管的傾向,這會影響整個行業(yè)的活力與發(fā)展。因此監(jiān)管者應(yīng)更好地處理二者關(guān)系,使征信業(yè)規(guī)范與發(fā)展并重。
參考文獻(xiàn)
[1]盧芮欣.大數(shù)據(jù)時代中國征信的機遇與挑戰(zhàn).金融理論與實踐.2015.2.
[2]林平.大數(shù)據(jù)背景下加快我國征信市場發(fā)展的思考.南方金融.2014.11.
[3]魏強.大數(shù)據(jù)征信在互聯(lián)網(wǎng)金融中的應(yīng)用分析金融經(jīng)濟.2015.4.
[4]洪偌馨.大數(shù)據(jù)征信的“是與非”.第一財經(jīng)日報.2015-12-09.