• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Flink與Kafka的信貸逾期預(yù)測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

      2023-08-26 19:27:39韋海蘭黃杰
      電腦知識(shí)與技術(shù) 2023年21期
      關(guān)鍵詞:大數(shù)據(jù)

      韋海蘭 黃杰

      關(guān)鍵詞:大數(shù)據(jù);Flink;Kafka;CatBoost算法

      中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2023)21-0049-03

      1 概述

      大數(shù)據(jù)技術(shù)的快速發(fā)展,給金融業(yè)帶來(lái)了全新的發(fā)展機(jī)遇。大數(shù)據(jù)第三代計(jì)算引擎Apache Flink是一個(gè)基于內(nèi)存的分布式處理框架,可對(duì)無(wú)界和有界數(shù)據(jù)流進(jìn)行所有狀態(tài)計(jì)算,在進(jìn)行實(shí)時(shí)的流計(jì)算方面性能表現(xiàn)優(yōu)異,是Apache軟件基金會(huì)目前最活躍的項(xiàng)目之一,為企業(yè)不同業(yè)務(wù)應(yīng)用場(chǎng)景提供一站式的大數(shù)據(jù)解決方案[1]。金融行業(yè)尤其是銀行具備海量的客戶交易相關(guān)數(shù)據(jù),在研究與實(shí)施大數(shù)據(jù)具有先天優(yōu)勢(shì)。整合金融單位自身的數(shù)據(jù)資源優(yōu)勢(shì),從業(yè)務(wù)的不同屬性出發(fā),在大數(shù)據(jù)平臺(tái)利用機(jī)器學(xué)習(xí)算法,深入發(fā)掘客戶的價(jià)值和潛在的風(fēng)險(xiǎn)信息,對(duì)于提高其經(jīng)營(yíng)管理水平和風(fēng)險(xiǎn)防范能力有重要意義。

      2 背景

      2.1 信貸逾期預(yù)測(cè)問(wèn)題

      當(dāng)銀行收到貸款申請(qǐng)時(shí),必須根據(jù)申請(qǐng)人的個(gè)人資料做出貸款審批決定。銀行的決策涉及兩種類型的風(fēng)險(xiǎn):一是如果申請(qǐng)人有可能償還貸款,那么不批準(zhǔn)貸款會(huì)導(dǎo)致銀行業(yè)務(wù)損失。二是如果申請(qǐng)人不太可能償還貸款,即他可能違約,那么批準(zhǔn)貸款可能會(huì)給銀行帶來(lái)信貸風(fēng)險(xiǎn),解決上述問(wèn)題的辦法是使用歷史貸款申請(qǐng)人的信息以及相關(guān)申請(qǐng)信息進(jìn)行分類學(xué)習(xí),識(shí)別出其中的“逾期”模式,據(jù)此做出貸款決策,如拒絕貸款或批準(zhǔn)貸款。

      2.2 大數(shù)據(jù)背景下的機(jī)器學(xué)習(xí)

      目前傳統(tǒng)機(jī)器學(xué)習(xí)算法的特點(diǎn)主要有:一是樣本獨(dú)立分布、離線、假設(shè)計(jì)算資源不受限制(例如可以把全部訓(xùn)練數(shù)據(jù)加載到主存);二是訓(xùn)練生成的模型是靜態(tài)的,要想適應(yīng)樣本數(shù)據(jù)的變化就要重新進(jìn)行學(xué)習(xí)。如今,各種新興的大數(shù)據(jù)應(yīng)用如醫(yī)療信息學(xué)和軍事應(yīng)用、智能信息檢索、自動(dòng)駕駛等,通過(guò)數(shù)量不斷增長(zhǎng)的智能設(shè)備生成大量分布式數(shù)據(jù)。大多數(shù)情況下,這些數(shù)據(jù)是瞬時(shí)的,甚至可能不會(huì)永久存儲(chǔ)。傳統(tǒng)離線型的機(jī)器學(xué)習(xí)算法已不適應(yīng)大數(shù)據(jù)背景下樣本不斷變化的機(jī)器學(xué)習(xí)任務(wù)。

      利用Apache Flink流計(jì)算引擎進(jìn)行機(jī)器學(xué)習(xí)模型訓(xùn)練,一是可以進(jìn)行在線實(shí)時(shí)計(jì)算,充分利用計(jì)算資源;二是可以進(jìn)行動(dòng)態(tài)模型計(jì)算,在線實(shí)時(shí)增量學(xué)習(xí)、更新模型狀態(tài)。目前已有許多Flink實(shí)時(shí)流計(jì)算引擎用戶畫(huà)像系統(tǒng)[2]、分布式實(shí)時(shí)推薦算法[3]、風(fēng)險(xiǎn)評(píng)估系統(tǒng)[4-5]等場(chǎng)景的應(yīng)用。Apache Flink已提供了Flink平臺(tái)機(jī)器學(xué)習(xí)庫(kù)FlinkML,已經(jīng)實(shí)現(xiàn)了基礎(chǔ)的機(jī)器學(xué)習(xí)算法,如Kmeans算法、邏輯回歸算法和SVC算法等。本文利用CatBoost算法實(shí)現(xiàn)大數(shù)據(jù)背景下的信貸逾期預(yù)測(cè)問(wèn)題。

      3 應(yīng)用架構(gòu)設(shè)計(jì)及系統(tǒng)流程

      3.1 應(yīng)用架構(gòu)設(shè)計(jì)

      本系統(tǒng)基于貸款實(shí)時(shí)數(shù)據(jù)采用rest-framework體系結(jié)構(gòu)開(kāi)發(fā),貸款數(shù)據(jù)通過(guò)maxwell實(shí)時(shí)傳輸?shù)絢afka 主題中,F(xiàn)link實(shí)時(shí)流計(jì)算引擎實(shí)時(shí)讀取kafka主題中的數(shù)據(jù),再調(diào)用DataStream算子處理數(shù)據(jù)流后保存至MySQL中,并利用機(jī)器學(xué)習(xí)算法CatBoost訓(xùn)練數(shù)據(jù)建立預(yù)測(cè)模型,最后應(yīng)用服務(wù)器調(diào)用模型接口得到實(shí)時(shí)貸款申請(qǐng)信息的預(yù)測(cè)結(jié)果,并進(jìn)行可視化展示。應(yīng)用架構(gòu)如圖1所示。

      3.2 系統(tǒng)框架流程

      基于大數(shù)據(jù)的信貸逾期預(yù)測(cè)計(jì)算流程可分為:數(shù)據(jù)獲取及預(yù)處理、模型數(shù)據(jù)的轉(zhuǎn)換、模型訓(xùn)練和模型預(yù)測(cè),如圖2所示:

      4 系統(tǒng)框架的設(shè)計(jì)與實(shí)現(xiàn)

      銀行向“有風(fēng)險(xiǎn)”的申請(qǐng)人發(fā)放貸款是信貸損失的最大來(lái)源。信貸損失是指當(dāng)借款人拒絕還款或帶著欠款逃跑時(shí),貸款人損失的金額。違約的借款人給貸款人造成的損失最大。如果能夠識(shí)別出這些有風(fēng)險(xiǎn)的貸款申請(qǐng)人,就可以減少信貸損失。通過(guò)機(jī)器學(xué)習(xí)有利于挖掘貸款違約背后的驅(qū)動(dòng)因素,進(jìn)一步識(shí)別出有風(fēng)險(xiǎn)的申請(qǐng)人。

      4.1 樣本數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)

      本文以天池金融風(fēng)控-貸款違約預(yù)測(cè)賽大賽中提供的信貸數(shù)據(jù)作為樣本數(shù)據(jù),選取部分特征進(jìn)行模型訓(xùn)練,刪除了部分與模型不相關(guān)的、對(duì)一組高度相關(guān)的特征進(jìn)行去重。研究貸款申請(qǐng)人的數(shù)據(jù),預(yù)測(cè)是否可能違約,以此決定是否通過(guò)貸款。具體步驟如下:

      4.2 數(shù)據(jù)預(yù)處理

      通過(guò)Maxwell實(shí)時(shí)數(shù)據(jù)管道獲取MySQL中更新及變化的數(shù)據(jù),傳入Kafka主題中,F(xiàn)link連接集群環(huán)境創(chuàng)建Kafka消費(fèi)者讀取Kafka主題中的數(shù)據(jù),把數(shù)據(jù)轉(zhuǎn)換成JsonObject類型,再調(diào)用DataStream算子對(duì)數(shù)據(jù)流做處理,比如去除重復(fù)值、異常值處理和特征轉(zhuǎn)換等,最后再創(chuàng)建一個(gè)kafka生產(chǎn)者把DataStream算子處理后的數(shù)據(jù)保存到Kafka主題中。

      4.3 CatBoost 算法應(yīng)用

      4.3.1 模型管理

      模型管理模塊主要包括模型訓(xùn)練和模型上傳兩部分,實(shí)現(xiàn)步驟主要如下:

      1) 從數(shù)據(jù)管理模塊獲取通過(guò)特征工程篩選下來(lái)的特征數(shù)據(jù)。

      2) 設(shè)置機(jī)器學(xué)習(xí)參數(shù),通過(guò)CatBoost算法訓(xùn)練模型,查看測(cè)試集AUC,根據(jù)預(yù)測(cè)結(jié)果決定是否保留當(dāng)前模型。

      3) 上傳審核通過(guò)的模型,將模型信息加入模型信息表中,前端頁(yè)面可查看模型信息列表。

      4) 在Django后端加載模型,調(diào)用當(dāng)前模型進(jìn)行逾期預(yù)測(cè)。模型使用的測(cè)試集的AUC為0.7385。

      4.3.2 模型預(yù)測(cè)和結(jié)果可視化

      可使用貸款預(yù)測(cè)功能來(lái)預(yù)測(cè)本次貸款是否有信用風(fēng)險(xiǎn),從而判斷是否批準(zhǔn)這次貸款,主要實(shí)現(xiàn)步驟如下:

      1) 錄入用戶數(shù)據(jù)保存至oAuth_credituser(信貸用戶表)中。

      2) 通過(guò)貸款逾期預(yù)測(cè)模塊進(jìn)行預(yù)測(cè)。

      3) Django會(huì)把預(yù)測(cè)結(jié)果上傳到前端。

      4) 通過(guò)預(yù)測(cè)結(jié)果來(lái)決定是否批準(zhǔn)這次貸款。

      5 系統(tǒng)運(yùn)行效果展示

      5.1 用戶管理

      系統(tǒng)管理員可以添加用戶、修改用戶信息、搜索用戶和刪除用戶,如圖6所示:

      5.2 批量上傳信貸數(shù)據(jù)

      系統(tǒng)管理員可以選擇上傳文件的格式,比如Ex?cel、csv或txt等格式的文件,然后選擇導(dǎo)入文件即可上傳信貸數(shù)據(jù),如圖7所示:

      5.3 逾期預(yù)測(cè)結(jié)果可視化

      單擊逾期預(yù)測(cè)按鈕,右上角會(huì)彈出預(yù)測(cè)的結(jié)果。如果是0,則代表當(dāng)前貸款數(shù)據(jù)信息沒(méi)有逾期的風(fēng)險(xiǎn);如果是1,則代表當(dāng)前用戶有逾期的風(fēng)險(xiǎn)。如圖8 所示:

      6 結(jié)束語(yǔ)

      隨著Flink技術(shù)在智能金融領(lǐng)域的落地生根,給大數(shù)據(jù)技術(shù)在金融領(lǐng)域帶來(lái)更廣闊的應(yīng)用前景和充足的發(fā)展動(dòng)力。大數(shù)據(jù)技術(shù)與智能金融領(lǐng)域融合發(fā)展,其應(yīng)用場(chǎng)景也將愈發(fā)豐富,例如典型的場(chǎng)景有金融風(fēng)控、金融客戶畫(huà)像等。本文應(yīng)用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)了信貸逾期風(fēng)險(xiǎn)的預(yù)測(cè),在今后的研究中會(huì)根據(jù)評(píng)估模型的預(yù)測(cè)效果進(jìn)行參數(shù)調(diào)優(yōu),提高預(yù)測(cè)效果,并應(yīng)用更多的機(jī)器學(xué)習(xí)算法開(kāi)發(fā)更多的金融智能模型,實(shí)現(xiàn)更豐富的功能。

      猜你喜歡
      大數(shù)據(jù)
      基于在線教育的大數(shù)據(jù)研究
      “互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
      基于大數(shù)據(jù)的小微電商授信評(píng)估研究
      大數(shù)據(jù)時(shí)代新聞的新變化探究
      商(2016年27期)2016-10-17 06:26:00
      淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
      今傳媒(2016年9期)2016-10-15 23:35:12
      “互聯(lián)網(wǎng)+”對(duì)傳統(tǒng)圖書(shū)出版的影響和推動(dòng)作用
      今傳媒(2016年9期)2016-10-15 22:09:11
      大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      新聞世界(2016年10期)2016-10-11 20:13:53
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
      黄大仙区| 武强县| 宜黄县| 延津县| 洪湖市| 即墨市| 乌兰浩特市| 甘洛县| 南城县| 田阳县| 工布江达县| 连山| 桐柏县| 商丘市| 游戏| 上饶市| 和平区| 滕州市| 蕲春县| 神木县| 阳西县| 昌吉市| 海盐县| 会东县| 岢岚县| 潮州市| 苍溪县| 屏边| 黑山县| 临邑县| 开鲁县| 宿州市| 鹤峰县| 潮州市| 会昌县| 梁山县| 修武县| 乐昌市| 桑植县| 新乡县| 奇台县|