• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于爬蟲(chóng)技術(shù)的征信系統(tǒng)實(shí)現(xiàn)方案

      2017-09-06 04:11余洋軍
      科學(xué)與財(cái)富 2017年24期
      關(guān)鍵詞:網(wǎng)絡(luò)爬蟲(chóng)

      余洋軍

      摘 要: 建立大數(shù)據(jù)征信系統(tǒng),能消除信息不對(duì)稱(chēng),提供更快、更精準(zhǔn)的信用決策??梢酝ㄟ^(guò)對(duì)實(shí)時(shí)交易數(shù)據(jù)的大數(shù)據(jù)分析,分析用戶是否有異常貸款、借新還舊、信用惡化等實(shí)時(shí)評(píng)估并進(jìn)行預(yù)警。根據(jù)人口屬性、社會(huì)交往、行為偏好等信息構(gòu)建用戶消費(fèi)畫(huà)像。為互金、大數(shù)據(jù)、支付、銀行、保險(xiǎn)、電商等各領(lǐng)域提供決策依據(jù)。本文將介紹基于爬蟲(chóng)技術(shù)如何在征信系統(tǒng)中的應(yīng)用和實(shí)現(xiàn)。

      關(guān)鍵詞: 社會(huì)信用體系;信用平臺(tái)系統(tǒng);網(wǎng)絡(luò)爬蟲(chóng)

      一、征信系統(tǒng)的現(xiàn)狀與發(fā)展

      (一)社會(huì)信用體系建設(shè)的意義

      社會(huì)信用體系是一個(gè)龐大的系統(tǒng),主要涉及三個(gè)方面:一是規(guī)范、約束信用行為的法律體系;二是促進(jìn)企業(yè)自覺(jué)履行承諾的誠(chéng)信體系;三是幫助債權(quán)方判別交易對(duì)象信用狀況、違約風(fēng)險(xiǎn)、降低信用交易成本的征信體系。建立和完善社會(huì)信用體系是我國(guó)社會(huì)主義市場(chǎng)經(jīng)濟(jì)不斷走向成熟的重要標(biāo)志之一。信用是市場(chǎng)經(jīng)濟(jì)的通行證?,F(xiàn)代市場(chǎng)經(jīng)濟(jì)是建立在法制基礎(chǔ)上的信用經(jīng)濟(jì)。沒(méi)有信用,就沒(méi)有秩序,市場(chǎng)經(jīng)濟(jì)就不能健康發(fā)展。在市場(chǎng)經(jīng)濟(jì)尚不完善的我國(guó),雖然實(shí)現(xiàn)了經(jīng)濟(jì)的騰飛,但是相應(yīng)的社會(huì)信用體系建設(shè)依然滯后。當(dāng)前,信用狀況差是我國(guó)社會(huì)主義市場(chǎng)經(jīng)濟(jì)發(fā)展的一個(gè)薄弱環(huán)節(jié),已成為影響和制約經(jīng)濟(jì)發(fā)展的突出因素。由于缺乏足夠的信用,直接導(dǎo)致不少企業(yè)陷入危機(jī)。面對(duì)目前這種情況,建立健全現(xiàn)代市場(chǎng)經(jīng)濟(jì)的社會(huì)信用體系尤為迫切。

      (二)征信系統(tǒng)現(xiàn)狀

      近些年隨著消費(fèi)金融的不斷深入發(fā)展,征信行業(yè)逐步得到大家的重視。目前國(guó)內(nèi)征信只是初步建立了完整產(chǎn)業(yè)體系,其在各個(gè)環(huán)節(jié)尚存在不同問(wèn)題。相比美國(guó)成熟征信市場(chǎng)來(lái)說(shuō),目前中國(guó)仍處于數(shù)據(jù)源爭(zhēng)奪戰(zhàn)中,各家征信機(jī)構(gòu)仍將數(shù)據(jù)資源視為核心競(jìng)爭(zhēng)力。目前國(guó)內(nèi)與“征信服務(wù)”相關(guān)的公司有2000多家,其中完成備案的企業(yè)征信機(jī)構(gòu)約135家左右。相對(duì)于企業(yè)征信較容易獲取牌照,央行尚未完全放開(kāi)個(gè)人征信牌照,目前僅以芝麻信用、前海征信、騰訊征信、拉卡拉征信、中智誠(chéng)征信、中誠(chéng)信征信、鵬元征信和華道征信等八家作為個(gè)人征信試點(diǎn)機(jī)構(gòu)。除這八家試點(diǎn)之外,還有很多創(chuàng)業(yè)平臺(tái)為機(jī)構(gòu)客戶提供個(gè)人信用服務(wù),如算話征信、新顏征信、立木征信、探知數(shù)據(jù)、聚信立等等。這類(lèi)平臺(tái)作為大數(shù)據(jù)出身,在數(shù)據(jù)采集、數(shù)據(jù)處理方面具有豐富經(jīng)驗(yàn),并且并不局限于金融行業(yè),同時(shí)在切入征信時(shí),大多會(huì)選擇從營(yíng)銷(xiāo)入手,再向信用延展。例如大數(shù)據(jù)公司集奧聚合,其數(shù)據(jù)優(yōu)勢(shì)體現(xiàn)在運(yùn)營(yíng)商和互聯(lián)網(wǎng)方面,目前其不僅為客戶提供精準(zhǔn)營(yíng)銷(xiāo)等服務(wù),還提供信用評(píng)估產(chǎn)品,涉足征信行業(yè)。目前征信機(jī)構(gòu)在整合多維度數(shù)據(jù)源后,才能建設(shè)模型并提供具體征信服務(wù)。例如新顏征信結(jié)合自身海量互聯(lián)網(wǎng)金融數(shù)據(jù),建立起龐大的反欺詐庫(kù),同時(shí)通過(guò)授權(quán)數(shù)據(jù)和政府公開(kāi)數(shù)據(jù)進(jìn)行有效地交叉驗(yàn)證。目前不同征信機(jī)構(gòu)在數(shù)據(jù)源方面,都形成了自己的差異化優(yōu)勢(shì)。在場(chǎng)景應(yīng)用上,目前大多數(shù)征信機(jī)構(gòu)還是集中于金融領(lǐng)域,而不少機(jī)構(gòu)已經(jīng)開(kāi)始積極拓展金融以外的信用應(yīng)用場(chǎng)景,比如個(gè)人租房,上下游企業(yè)交易,甚至談戀愛(ài)等等。征信就像在陌生企業(yè)和陌生人群交易之間的建立起了無(wú)形的信用中介,對(duì)交易的順利進(jìn)行和風(fēng)險(xiǎn)控制有很大的幫助。例如芝麻信用近期與OFO單車(chē)及蘑菇租房等進(jìn)行深度跨界合作,將信用產(chǎn)品應(yīng)用于出行和租房領(lǐng)域。

      然而目前國(guó)內(nèi)各家征信機(jī)構(gòu)仍處于數(shù)據(jù)源爭(zhēng)奪戰(zhàn)中,仍將數(shù)據(jù)資源視為核心競(jìng)爭(zhēng)力,同時(shí)還存在各種問(wèn)題,例如:采集場(chǎng)景是互相割裂、數(shù)據(jù)源不全面、數(shù)據(jù)質(zhì)量不高、盈利模式單一、法律保障體系不完善等。

      (三)征信系統(tǒng)未來(lái)方向

      相關(guān)數(shù)據(jù)顯示,我國(guó)每年因?yàn)檎\(chéng)信缺失造成的經(jīng)濟(jì)損失約為數(shù)千億元。所以征信市場(chǎng)空間較大,產(chǎn)業(yè)資本及金融資本出于風(fēng)控、完善生態(tài)體系目的,加緊布局征信。未來(lái)征信一定會(huì)采用大數(shù)據(jù)等技術(shù)降低征信成本,而且征信市場(chǎng)最終會(huì)形成高集中度等特征。大數(shù)征信的技術(shù)關(guān)鍵在于數(shù)據(jù)整合、數(shù)據(jù)挖掘和評(píng)級(jí)模型。數(shù)據(jù)整合體現(xiàn)為將出現(xiàn)在多個(gè)數(shù)據(jù)源中個(gè)人信息甄別同一個(gè)人,并整合成完整的個(gè)體信息。伴隨著政策的放開(kāi),我國(guó)征信市場(chǎng)發(fā)展迅速,初步形成政府背景下信用信息機(jī)構(gòu)、社會(huì)征信機(jī)構(gòu)、評(píng)級(jí)公司等機(jī)構(gòu)的多元化征信市場(chǎng)。征信系統(tǒng)的未來(lái)發(fā)展趨勢(shì),預(yù)計(jì)制度保障層面將更為完善,行業(yè)層面將細(xì)分化,數(shù)據(jù)等基礎(chǔ)資源供給將趨于優(yōu)化,機(jī)構(gòu)在場(chǎng)景方面將更加廣泛。就目前形勢(shì)來(lái)看征信業(yè)存在極為明顯的規(guī)模經(jīng)濟(jì),隨著數(shù)據(jù)庫(kù)規(guī)模的擴(kuò)大和查詢量的增加,業(yè)務(wù)成本逐步降低,并且隨著數(shù)據(jù)數(shù)量和質(zhì)量的提升,在激烈的市場(chǎng)競(jìng)爭(zhēng)下,會(huì)出現(xiàn)一批非常優(yōu)秀的征信公司和產(chǎn)品。

      二、爬蟲(chóng)技術(shù)分類(lèi)及工作原理

      爬蟲(chóng)是一種按照一定的規(guī)則,自動(dòng)地抓取網(wǎng)頁(yè)信息的程序或者腳本,可以自動(dòng)采集所有其能夠訪問(wèn)到的頁(yè)面內(nèi)容,以獲取或更新這些網(wǎng)站的內(nèi)容和檢索方式。其按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),大致可以分為以下幾種類(lèi)型:通用網(wǎng)絡(luò)爬蟲(chóng)、聚焦網(wǎng)絡(luò)爬蟲(chóng)、增量式網(wǎng)絡(luò)爬蟲(chóng)、深層網(wǎng)絡(luò)爬蟲(chóng)。 在實(shí)際應(yīng)用中通常根據(jù)實(shí)際需要將幾種爬蟲(chóng)技術(shù)相結(jié)合來(lái)使用。在爬蟲(chóng)系統(tǒng)框架中,主要過(guò)程由采集器,解析器,數(shù)據(jù)存取三部分組成。采集器的主要工作是負(fù)責(zé)給多線程中的各個(gè)爬蟲(chóng)線程分配工作任務(wù)。解析器的主要工作是對(duì)已經(jīng)采集下來(lái)網(wǎng)頁(yè)資源,對(duì)關(guān)心的數(shù)據(jù)進(jìn)行解析處理。數(shù)據(jù)存取是對(duì)已經(jīng)解析好網(wǎng)頁(yè)資源,進(jìn)行數(shù)據(jù)結(jié)構(gòu)化整理,生成可用的數(shù)據(jù)資源,最終實(shí)現(xiàn)數(shù)據(jù)落地入庫(kù)。

      Robots協(xié)議(也稱(chēng)為爬蟲(chóng)協(xié)議、機(jī)器人協(xié)議等)的全稱(chēng)是“網(wǎng)絡(luò)爬蟲(chóng)排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol),網(wǎng)站通過(guò)Robots協(xié)議告訴搜索引擎哪些頁(yè)面可以抓取,哪些頁(yè)面不能抓取。由于每個(gè)爬蟲(chóng)實(shí)現(xiàn)機(jī)制的不同,需要根據(jù)實(shí)現(xiàn)情況來(lái)關(guān)注Robots協(xié)議。

      三、征信系統(tǒng)中爬蟲(chóng)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

      (一)征信系統(tǒng)整體設(shè)計(jì)架構(gòu)

      (二)征信系統(tǒng)(運(yùn)營(yíng)商爬蟲(chóng))各服務(wù)組件

      征信系統(tǒng)爬蟲(chóng)由多個(gè)具體模塊組成,現(xiàn)以運(yùn)營(yíng)商爬蟲(chóng)為例介紹具體實(shí)現(xiàn)方案。運(yùn)營(yíng)商爬蟲(chóng)模塊由用戶授權(quán)(API輸入用戶名、密碼和短信驗(yàn)證)進(jìn)行登陸相應(yīng)運(yùn)營(yíng)商網(wǎng)站,來(lái)獲取該用戶相關(guān)信息。由于國(guó)內(nèi)運(yùn)營(yíng)商(中國(guó)聯(lián)通是統(tǒng)一的官網(wǎng)除外)是每個(gè)省份獨(dú)立維護(hù)的,其登陸、驗(yàn)證及數(shù)據(jù)獲取都是相對(duì)獨(dú)立的,必須針對(duì)中國(guó)電信、中國(guó)移動(dòng)的每個(gè)省份單獨(dú)處理。征信系統(tǒng)爬蟲(chóng)模塊各服務(wù)組成如右:endprint

      (三)征信系統(tǒng)(運(yùn)營(yíng)商爬蟲(chóng))具體實(shí)現(xiàn)

      運(yùn)營(yíng)商爬蟲(chóng)開(kāi)發(fā)選取Java語(yǔ)言開(kāi)發(fā),整個(gè)上采用Sping-boot、WebClient、Selenium 等技術(shù)。整體流程為主線程循環(huán)請(qǐng)求spider-route服務(wù),通過(guò)指定任務(wù)類(lèi)型(ISP)獲取運(yùn)營(yíng)商數(shù)據(jù)攫取任務(wù)請(qǐng)求。通過(guò)前置條件檢驗(yàn)后,再根據(jù)外部服務(wù)(www.ip138.com)網(wǎng)站獲取所需要運(yùn)營(yíng)商類(lèi)型(中國(guó)聯(lián)通、移動(dòng)和電信)和省份,自動(dòng)分配對(duì)應(yīng)的爬蟲(chóng)處理器來(lái)完成具體工作。一般情況下,分布式的多線程爬蟲(chóng)處理器被調(diào)用后,會(huì)根據(jù)具體運(yùn)營(yíng)商情況來(lái)進(jìn)行登陸前準(zhǔn)備工作:將需要的圖片驗(yàn)證碼發(fā)回給spider-manager,處理任務(wù)結(jié)束線程,由spider-manager提供驗(yàn)證碼入口并生成新任務(wù)。此時(shí)分布式的多線程爬蟲(chóng)處理器又被調(diào)用,并且保證在正確的處理節(jié)點(diǎn)完成登陸工作。由于采用授權(quán)方式獲取數(shù)據(jù),在獲取用戶相關(guān)個(gè)人信息時(shí),處理器會(huì)調(diào)用運(yùn)營(yíng)商官網(wǎng)接口發(fā)授權(quán)短信,通過(guò)同上操作步驟,讓用戶輸入正確的短信驗(yàn)證碼。在驗(yàn)證短信授權(quán)后,通知spider-manager登陸狀態(tài),同時(shí)對(duì)用戶的基礎(chǔ)信息、通話、短信、網(wǎng)絡(luò)、賬單、繳費(fèi)等信息爬取后,保存到緩存中后將運(yùn)營(yíng)商登出。系統(tǒng)再根據(jù)緩存中的運(yùn)營(yíng)信結(jié)果信息自動(dòng)尋找相對(duì)應(yīng)的解析器,將緩存中信息解析成JSON格式,并將數(shù)據(jù)發(fā)送給spider-manager進(jìn)行存儲(chǔ)并調(diào)用spider-data進(jìn)行數(shù)據(jù)結(jié)構(gòu)化處理。由于處理器和解析器都為分布式多線程任務(wù),對(duì)登陸、爬取、解析通過(guò)spider-manager進(jìn)行統(tǒng)一調(diào)度,登陸后采取Cookies傳遞保證訪問(wèn)的路徑都處于已經(jīng)授權(quán)狀態(tài)。

      (四)系統(tǒng)性能要求

      1.穩(wěn)定性:整個(gè)系統(tǒng)的處理能力在40萬(wàn)任務(wù)/天以上(30臺(tái)Worker),峰值處理能力在4萬(wàn)任務(wù)/小時(shí),關(guān)鍵服務(wù)都是主從配置??赏ㄟ^(guò)簡(jiǎn)單增加worker數(shù)量來(lái)進(jìn)行無(wú)限很想擴(kuò)容。

      2.擴(kuò)展性:可以根據(jù)業(yè)務(wù)的擴(kuò)展需求進(jìn)行動(dòng)態(tài)、快速的擴(kuò)展,擴(kuò)展期間不影響現(xiàn)有系統(tǒng)的正常工作。(硬件資源需提前準(zhǔn)備好)

      3.安全性:服務(wù)間調(diào)用都以SSL為加強(qiáng)對(duì)數(shù)據(jù)的安全性保護(hù)。用戶賬戶密碼等身份信息都做了加密處理。

      4.維護(hù)性:Gatewary、Manager、Router、Worker等所有服務(wù)都可以全自動(dòng)部署。部署過(guò)程中對(duì)系統(tǒng)的穩(wěn)定性不受影像論文什么的都需要公司蓋章,這個(gè)找哪位響?!鰁ndprint

      猜你喜歡
      網(wǎng)絡(luò)爬蟲(chóng)
      基于分布式的農(nóng)業(yè)信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      微信平臺(tái)下的教務(wù)信息獲取和隱私保護(hù)方法研究
      基于網(wǎng)絡(luò)爬蟲(chóng)的電子易購(gòu)軟件設(shè)計(jì)與實(shí)現(xiàn)
      搜索引擎技術(shù)的發(fā)展現(xiàn)狀與前景
      煉鐵廠鐵量網(wǎng)頁(yè)數(shù)據(jù)獲取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      基于社會(huì)網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁(yè)挖掘研究
      主題搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)研究
      淺析如何應(yīng)對(duì)網(wǎng)絡(luò)爬蟲(chóng)流量
      基于淘寶某商品銷(xiāo)售量監(jiān)控系統(tǒng)
      網(wǎng)絡(luò)爬蟲(chóng)針對(duì)“反爬”網(wǎng)站的爬取策略研究
      会昌县| 内乡县| 吉隆县| 长沙市| 玛多县| 论坛| 瑞丽市| 九台市| 永川市| 大埔区| 林口县| 河源市| 兴仁县| 彩票| 榆中县| 航空| 武宣县| 井研县| 崇仁县| 逊克县| 禹城市| 县级市| 东乡| 保亭| 临洮县| 尖扎县| 勐海县| 普定县| 黎平县| 芦山县| 广南县| 噶尔县| 左云县| 桦川县| 东莞市| 安福县| 普定县| 邯郸市| 简阳市| 阿克陶县| 防城港市|