大數(shù)據(jù)時代網(wǎng)絡(luò)爬蟲技術(shù)在商業(yè)銀行中的應(yīng)用

2016-06-27 09:10王彥博樊營高潛

銀行家 2016年6期

王彥博　樊營　高潛

人類社會已經(jīng)進入大數(shù)據(jù)時代，傳統(tǒng)的信息存儲和傳播媒介已逐漸為計算機所替代，并呈現(xiàn)出指數(shù)增長的趨勢，成為21世紀(jì)最為重要的經(jīng)濟資源之一。作為掌握大量真實交易數(shù)據(jù)的商業(yè)銀行，面對浩如煙海的信息時，如何實現(xiàn)銀行內(nèi)部與外部信息、結(jié)構(gòu)性與非結(jié)構(gòu)性數(shù)據(jù)的緊密結(jié)合，更加準(zhǔn)確地識別信息，有效地對信息進行挖掘，將數(shù)據(jù)價值轉(zhuǎn)化為經(jīng)濟價值，已經(jīng)成為當(dāng)前商業(yè)銀行提升核心競爭力的重要途徑之一。網(wǎng)絡(luò)爬蟲技術(shù)的快速發(fā)展為商業(yè)銀行提升信息精準(zhǔn)獲取和有效整合應(yīng)用能力提供了全新的策略。

網(wǎng)絡(luò)爬蟲技術(shù)概述

網(wǎng)絡(luò)爬蟲是Spider（或Robots、Crawler）等詞的意譯，是一種高效的信息抓取工具，它集成了搜索引擎技術(shù)，并通過技術(shù)手段進行優(yōu)化，用以從互聯(lián)網(wǎng)搜索、抓取并保存任何通過HTML（超文本標(biāo)記語言）進行標(biāo)準(zhǔn)化的網(wǎng)頁信息。其作用機理是：發(fā)送請求給互聯(lián)網(wǎng)特定站點，在建立連接后與該站點交互，獲取HTML格式的信息，隨后轉(zhuǎn)移到下一個站點，并重復(fù)以上流程。通過這種自動化的工作機制，將目標(biāo)數(shù)據(jù)保存在本地數(shù)據(jù)中，以供使用。網(wǎng)絡(luò)爬蟲在訪問一個超文本鏈接時，可以從HTML標(biāo)簽中自動獲取指向其他網(wǎng)頁的地址信息，因而可以自動實現(xiàn)高效、標(biāo)準(zhǔn)化的信息獲取。

隨著互聯(lián)網(wǎng)在人類經(jīng)濟社會中的應(yīng)用日益廣泛，其所涵蓋的信息規(guī)模呈指數(shù)增長，信息的形式和分布具有多樣化、全球化特征，傳統(tǒng)搜索引擎技術(shù)已經(jīng)無法滿足日益精細(xì)化、專業(yè)化的信息獲取和加工需求，正面臨著巨大的挑戰(zhàn)。網(wǎng)絡(luò)爬蟲自誕生以來，就發(fā)展迅猛，并成為信息技術(shù)領(lǐng)域的主要研究熱點。當(dāng)前，主流的網(wǎng)絡(luò)爬蟲搜索策略有如下幾種。

深度優(yōu)先搜索策略

早期的爬蟲開發(fā)采用較多的搜索策略是以深度優(yōu)先的，即在一個HTML文件中，挑選其中一個超鏈接標(biāo)簽進行深度搜索，直至遍歷這條超鏈接到最底層時，由邏輯運算判斷本層搜索結(jié)束，隨后退出本層循環(huán)，返回上層循環(huán)并開始搜索其他的超鏈接標(biāo)簽，直至初始文件內(nèi)的超鏈接被遍歷。深度優(yōu)先搜索策略的優(yōu)點是可以將一個Web站點的所有信息全部搜索，對嵌套較深的文檔集尤其適用；而缺點是在數(shù)據(jù)結(jié)構(gòu)日益復(fù)雜的情況下，站點的縱向?qū)蛹墪o限增加且不同層級之間會出現(xiàn)交叉引用，會發(fā)生無限循環(huán)的情況，只有強行關(guān)閉程序才能退出遍歷，而得到的信息由于大量的重復(fù)和冗余，質(zhì)量很難保證。

寬度優(yōu)先搜索策略

與深度優(yōu)先搜索策略相對應(yīng)的是寬度優(yōu)先搜索策略，其作用機理是從頂層向底層開始循環(huán)，先就一級頁面中的所有超鏈接進行搜索，完成一級頁面遍歷后再開始二級頁面的搜索循環(huán)，直到底層為止。當(dāng)某一層中的所有超鏈接都被選擇過，才會基于該層信息檢索過程中所獲得的下一級超鏈接（并將其作為種子）開始新的一輪檢索，優(yōu)先處理淺層的鏈接。這種模式的一個優(yōu)點是：無論搜索對象的縱向結(jié)構(gòu)層級有多么復(fù)雜，都會極大程度上避免死循環(huán)；另一個優(yōu)勢則在于，它擁有特定的算法，可以找到兩個HTML文件間最短的路徑。一般來講，我們期望爬蟲所具有的大多數(shù)功能目前均可以采用寬度優(yōu)先搜索策略較容易的實現(xiàn)，所以它被認(rèn)為是最優(yōu)的。但其缺點是：由于大量時間被耗費，寬度優(yōu)先搜索策略則不太適用于要遍歷特定站點和HTML文件深層嵌套的情況。

聚焦搜索策略

與深度優(yōu)先和寬度優(yōu)先不同，聚焦搜索策略是根據(jù)“匹配優(yōu)先原則”對數(shù)據(jù)源進行訪問，基于特定的匹配算法，主動選擇與需求主題相關(guān)的數(shù)據(jù)文檔，并限定優(yōu)先級，據(jù)以指導(dǎo)后續(xù)的數(shù)據(jù)抓取。這類聚焦爬蟲針對所訪問任何頁面中的超鏈接都會判定一個優(yōu)先級評分，根據(jù)評分情況將該鏈接插入循環(huán)隊列，此策略能夠幫助爬蟲優(yōu)先跟蹤潛在匹配程度更高的頁面，直至獲取足夠數(shù)量和質(zhì)量的目標(biāo)信息。不難看出，聚焦爬蟲搜索策略主要在于優(yōu)先級評分模型的設(shè)計，亦即如何區(qū)分鏈接的價值，不同的評分模型針對同一鏈接會給出不同的評分，也就直接影響到信息搜集的效率和質(zhì)量。同樣機制下，針對超鏈接標(biāo)簽的評分模型自然可以擴展到針對HTML頁面的評價中，因為每一個網(wǎng)頁都是由大量超鏈接標(biāo)簽所構(gòu)成的，一般看來，鏈接價值越高，其所在頁面的價值也越高，這就為搜索引擎的搜索專業(yè)化和應(yīng)用廣泛化提供了理論和技術(shù)支撐。當(dāng)前，常見的聚焦搜索策略包括基于“鞏固學(xué)習(xí)”和“語境圖”兩種。

從應(yīng)用程度來看，當(dāng)前國內(nèi)主流搜索平臺主要采用的是寬度優(yōu)先搜索策略，主要是考慮到國內(nèi)網(wǎng)絡(luò)系統(tǒng)中信息的縱向價值密度較低，而橫向價值密度較高。但是這樣會明顯地遺漏到一些引用率較小的網(wǎng)絡(luò)文檔，并且寬度優(yōu)先搜索策略的橫向價值富集效應(yīng)，會導(dǎo)致這些鏈接量少的信息源被無限制的忽略下去；而在此基礎(chǔ)上補充采用線性搜索策略則會緩解這種狀況，不斷引入更新的數(shù)據(jù)信息到已有的數(shù)據(jù)倉庫中，通過多輪的價值判斷去決定是否繼續(xù)保存該信息，而不是“簡單粗暴”地遺漏下去，將新的信息阻滯在密閉循環(huán)之外。

網(wǎng)絡(luò)爬蟲技術(shù)發(fā)展趨勢

近年來，隨著網(wǎng)絡(luò)爬蟲技術(shù)的持續(xù)發(fā)展，搜索策略也在不斷進行優(yōu)化。從目前來看，未來網(wǎng)絡(luò)爬蟲的發(fā)展主要呈現(xiàn)以下趨勢。

網(wǎng)頁數(shù)據(jù)動態(tài)化

傳統(tǒng)的網(wǎng)絡(luò)爬蟲技術(shù)主要局限于對靜態(tài)頁面信息的抓取，模式相對單一，而近年來，隨著Web2.0/AJAX等技術(shù)成為主流，動態(tài)頁面由于具有強大的交互能力，成為網(wǎng)絡(luò)信息傳播的主流，并已取代了靜態(tài)頁面成為了主流。AJAX采用了JavaScript驅(qū)動的異步（非同步）請求和響應(yīng)機制，在不經(jīng)過網(wǎng)頁整體刷新的情況下持續(xù)進行數(shù)據(jù)更新，而傳統(tǒng)爬蟲技術(shù)缺乏對JavaScript語義的接口和交互能力，難以觸發(fā)動態(tài)無刷新頁面的異步調(diào)用機制并解析返回的數(shù)據(jù)內(nèi)容，無法保存所需信息。

此外，諸如JQuery等封裝了JavaScript的各類前端框架會對DOM結(jié)構(gòu)進行大量調(diào)整，甚至網(wǎng)頁上的主要動態(tài)內(nèi)容均不必在首次建立請求時就以靜態(tài)標(biāo)簽的形式從服務(wù)器端發(fā)送到客戶端，而是不斷對用戶的操作進行回應(yīng)并通過異步調(diào)用的機制動態(tài)繪制出來。這種模式一方面極大地優(yōu)化了用戶體驗，另一方面很大程度上減輕了服務(wù)器的交互負(fù)擔(dān)，但卻對習(xí)慣了DOM結(jié)構(gòu)（相對不變的靜態(tài)頁面）的爬蟲程序提出了巨大挑戰(zhàn)。傳統(tǒng)爬蟲程序主要基于“協(xié)議驅(qū)動”，而在互聯(lián)網(wǎng)2.0時代，基于AJAX的動態(tài)交互技術(shù)環(huán)境下，爬蟲引擎必須依賴“事件驅(qū)動”才有可能獲得數(shù)據(jù)服務(wù)器源源不斷的數(shù)據(jù)反饋。而要實現(xiàn)事件驅(qū)動，爬蟲程序必須解決三項技術(shù)問題：第一，JavaScript的交互分析和解釋；第二，DOM事件的處理和解釋分發(fā)；第三，動態(tài)DOM內(nèi)容語義的抽取。

數(shù)據(jù)采集分布化

分布式爬蟲系統(tǒng)是在計算機集群之上運轉(zhuǎn)的爬蟲系統(tǒng)，集群每一個節(jié)點上運行的爬蟲程序與集中式爬蟲系統(tǒng)的工作原理相同，所不同的是分布式需要協(xié)調(diào)不同計算機之間的任務(wù)分工、資源分配、信息整合。分布式爬蟲系統(tǒng)的某一臺計算機終端中植入了一個主節(jié)點，并通過它來調(diào)用本地的集中式爬蟲進行工作，在此基礎(chǔ)上，不同節(jié)點之間的信息交互就顯得十分重要，所以決定分布式爬蟲系統(tǒng)成功與否的關(guān)鍵在于能否設(shè)計和實現(xiàn)任務(wù)的協(xié)同，此外，底層的硬件通信網(wǎng)絡(luò)也十分重要。由于可以采用多節(jié)點抓取網(wǎng)頁，并能夠?qū)崿F(xiàn)動態(tài)的資源分配，因此就搜索效率而言，分布式爬蟲系統(tǒng)遠(yuǎn)高于集中式爬蟲系統(tǒng)。

經(jīng)過不斷的演化，各類分布式爬蟲系統(tǒng)在系統(tǒng)構(gòu)成上各具特色，工作機制與存儲結(jié)構(gòu)不斷推陳出新，但主流的分布式爬蟲系統(tǒng)普遍運用了“主從結(jié)合”的內(nèi)部構(gòu)成，也就是由一個主節(jié)點通過任務(wù)分工、資源分配、信息整合來掌控其他從節(jié)點進行信息抓取；在工作方式上，基于云平臺的廉價和高效特點，分布式爬蟲系統(tǒng)廣泛采用云計算方式來降低成本，大規(guī)模降低軟硬件平臺構(gòu)建所需要的成本投入；在存儲方式方面，當(dāng)前比較流行的是分布式信息存儲，即將文件存儲在分布式的網(wǎng)絡(luò)系統(tǒng)上，這樣管理多個節(jié)點上的數(shù)據(jù)更加方便。通常情況下使用的分布式文件系統(tǒng)為基于Hadoop的HDFS系統(tǒng)。

網(wǎng)絡(luò)爬蟲技術(shù)在商業(yè)銀行的應(yīng)用

對商業(yè)銀行而言，網(wǎng)絡(luò)爬蟲技術(shù)的應(yīng)用將助力商業(yè)銀行實現(xiàn)四個“最了解”，即“最了解自身的銀行”、“最了解客戶的銀行”、“最了解競爭對手的銀行”和“最了解經(jīng)營環(huán)境的銀行”，具體應(yīng)用場景如下。

網(wǎng)絡(luò)輿情監(jiān)測

網(wǎng)絡(luò)輿情是當(dāng)前社會主流輿論的表現(xiàn)方式之一，它主要搜集和展示經(jīng)互聯(lián)網(wǎng)傳播后大眾對部分社會焦點和熱點問題的觀點和言論。對于商業(yè)銀行而言，對網(wǎng)絡(luò)輿情進行監(jiān)測，是對自身品牌管理和危機公關(guān)的重要技術(shù)手段，從而以網(wǎng)絡(luò)作為一面“鏡子”，構(gòu)建“最了解自身的銀行”。

網(wǎng)絡(luò)輿情作為當(dāng)前社會的主流信息媒介之一，具有傳播快、影響大的特點，對于商業(yè)銀行而言，創(chuàng)建自動化的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)十分必要，一方面可以使商業(yè)銀行獲得更加精準(zhǔn)的社會需求信息，另一方面可以使商業(yè)銀行在新的輿論平臺上傳播自身的服務(wù)理念和服務(wù)特色，提升自身的業(yè)務(wù)拓展水平。由于網(wǎng)絡(luò)爬蟲在網(wǎng)絡(luò)輿情監(jiān)控中有著不可替代的作用，其工作質(zhì)量將會很大程度上影響網(wǎng)絡(luò)輿情采集的廣度和深度。依據(jù)采集目標(biāo)的類型，網(wǎng)絡(luò)爬蟲可以歸納為“通用型網(wǎng)絡(luò)爬蟲”和“主題型網(wǎng)絡(luò)爬蟲”兩種。通用型網(wǎng)絡(luò)爬蟲側(cè)重于采集更大的數(shù)據(jù)規(guī)模和更寬的數(shù)據(jù)范圍，并不考慮網(wǎng)頁采集的順序和目標(biāo)網(wǎng)頁的主題匹配情況。在當(dāng)前網(wǎng)絡(luò)信息規(guī)模呈現(xiàn)指數(shù)增長的背景下，通用型網(wǎng)絡(luò)爬蟲的使用受到信息采集速度、信息價值密度、信息專業(yè)程度的限制。為緩解這種狀況，主題型網(wǎng)絡(luò)爬蟲誕生了。不同于通用型網(wǎng)絡(luò)爬蟲，主題型網(wǎng)絡(luò)爬蟲更專注采集目標(biāo)與網(wǎng)頁信息的匹配程度，避免無關(guān)的冗余信息，這一篩選過程是動態(tài)的，貫穿于主題型網(wǎng)絡(luò)爬蟲技術(shù)的整個工作流程。

通過運用爬蟲技術(shù)對網(wǎng)絡(luò)輿情進行監(jiān)測，可以更加全面深入地了解客戶對銀行的態(tài)度與評價，洞察銀行自身經(jīng)營的優(yōu)勢與不足，同時可以起到防御聲譽風(fēng)險、增強品牌效應(yīng)的作用。

客戶全景畫像

隨著商業(yè)銀行競爭日趨激烈，利潤空間進一步壓縮，對客戶營銷和風(fēng)險控制的要求也日趨提升。在當(dāng)前的銀行經(jīng)營體系中，營銷流程管理和風(fēng)險流程管理，尤其是對潛在客戶和貸后風(fēng)險的識別與管理，往往需要耗費大量的人力、物力和時間成本。通過引入網(wǎng)絡(luò)爬蟲技術(shù)，可以有效構(gòu)建面向客戶的全景畫像，打造“最了解客戶的銀行”，這是對傳統(tǒng)“客戶關(guān)系管理”以及“非現(xiàn)場風(fēng)控”技術(shù)的有益補充，將會極大促進銀行客戶營銷和對風(fēng)險的管理。

網(wǎng)絡(luò)爬蟲程序可以用來構(gòu)建銀行客戶的全維度信息視圖，即以簡單的個人客戶身份信息或?qū)蛻艟W(wǎng)絡(luò)地址為輸入，經(jīng)過爬蟲程序的加工，將符合預(yù)設(shè)規(guī)則的客戶信息按特定的格式進行輸出。以特定的基礎(chǔ)數(shù)據(jù)作為原料，銀行數(shù)據(jù)人員將關(guān)鍵詞輸入爬蟲系統(tǒng)，并結(jié)合與客戶信息相關(guān)的網(wǎng)絡(luò)地址信息，封裝成爬蟲種子傳遞給爬蟲程序，隨后，爬蟲程序啟動相應(yīng)的業(yè)務(wù)流程，爬取客戶相關(guān)信息的網(wǎng)頁并保存下來。此外，從網(wǎng)絡(luò)輿情監(jiān)測層面進一步入手，將監(jiān)測對象從自身延伸至銀行客戶，則能夠通過網(wǎng)絡(luò)在第一時間了解銀行客戶的客戶對銀行客戶的評價，及時掌握客戶的輿情動態(tài)，指導(dǎo)銀行經(jīng)營決策。

通過采用上述網(wǎng)絡(luò)爬蟲系統(tǒng)對客戶相關(guān)信息進行實時采集、監(jiān)測、更新，不僅可以更全面地了解客戶實時情況，而且可以對客戶的潛在營銷商機和信用風(fēng)險進行預(yù)判，有效提升客戶營銷和貸后風(fēng)險管理效率，提升商業(yè)銀行綜合效益，形成銀行與客戶共贏的局面。

競爭對手分析

當(dāng)前，隨著利率市場化的到來和互聯(lián)網(wǎng)金融的沖擊，商業(yè)銀行間競爭日趨激烈，新的市場參與主體與新的產(chǎn)品層出不窮，業(yè)務(wù)競爭加劇。在此背景下，充分了解競爭對手動態(tài)，打造“最了解競爭對手的銀行”，并以此對自身進行調(diào)整，及時搶占先機，這對各家商業(yè)銀行而言都具有愈發(fā)重要的意義。

通過構(gòu)建基于網(wǎng)絡(luò)爬蟲技術(shù)的全網(wǎng)絡(luò)信息分析和展示平臺，可以有效對全網(wǎng)絡(luò)實時數(shù)據(jù)進行抓取，及時獲取其他銀行的產(chǎn)品信息與新聞動態(tài)，第一時間獲取其他競爭者的狀況，方便整合并用以分析本地行內(nèi)數(shù)據(jù)。網(wǎng)絡(luò)爬蟲通過實時采集數(shù)據(jù)構(gòu)建起動態(tài)數(shù)據(jù)平臺，抓取網(wǎng)絡(luò)數(shù)據(jù)并進行本地存儲，便于未來進行深入的數(shù)據(jù)挖掘分析應(yīng)用。網(wǎng)絡(luò)爬蟲技術(shù)不僅使得商業(yè)銀行決策層更方便地制定準(zhǔn)確的政策，用以支撐公司的運營，而且可以將網(wǎng)絡(luò)輿情信息的監(jiān)測對象從自身、客戶延伸至競爭對手，便于實時掌握競爭對手的市場競爭狀況及其優(yōu)劣勢，實現(xiàn)“知己知彼”，真正達(dá)到信息對稱。

行業(yè)垂直搜索

垂直搜索是指將搜索范圍細(xì)分至某一專業(yè)領(lǐng)域，針對初次獲取到的網(wǎng)頁信息進行更深層次的整合，最終形成“純度”更高的專業(yè)領(lǐng)域信息。銀行數(shù)據(jù)人員采用該種方式，可以極大提高有效信息的獲取效率。通過對金融主題進行抓取分析，商業(yè)銀行可以更加全面地了解監(jiān)管政策發(fā)展動態(tài)，了解區(qū)域經(jīng)濟、行業(yè)經(jīng)濟的發(fā)展形勢，以及掌握金融行業(yè)自身經(jīng)營環(huán)境動態(tài)，及時校驗并調(diào)整自身策略，緊跟市場趨勢，打造成為“最了解經(jīng)營環(huán)境的銀行”。

對金融領(lǐng)域垂直搜索的應(yīng)用，可以提高金融主體的信息處理能力。垂直搜索技術(shù)上的最大亮點就是能夠?qū)π问蕉鄻?、?guī)模巨大的數(shù)據(jù)進行有目標(biāo)地專業(yè)化的細(xì)分操作，減少垃圾信息、聚集有效信息，提高搜索效率，在某些條件下甚至可以提供實時的數(shù)據(jù)，最大限度地整合現(xiàn)有大量復(fù)雜的網(wǎng)頁數(shù)據(jù)，使用戶獲得更便捷、更完整、更高效的信息檢索服務(wù)。

結(jié)語

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和數(shù)據(jù)爆炸，網(wǎng)絡(luò)爬蟲技術(shù)為商業(yè)銀行數(shù)據(jù)采集和信息整合應(yīng)用提供了全新的技術(shù)路徑。站在商業(yè)銀行應(yīng)用實踐的角度，網(wǎng)絡(luò)爬蟲在銀行日常經(jīng)營管理中的發(fā)展?jié)摿薮?。網(wǎng)絡(luò)爬蟲技術(shù)的應(yīng)用可以助力銀行轉(zhuǎn)型成為最了解自身、最了解客戶、最了解競爭對手、最了解經(jīng)營環(huán)境的“智慧銀行”?？梢灶A(yù)見，網(wǎng)絡(luò)爬蟲技術(shù)將成為商業(yè)銀行提升精細(xì)化管理能力、提高決策智能化水平的重要技術(shù)手段。

（作者單位：中國民生銀行公司業(yè)務(wù)戰(zhàn)略規(guī)劃部，北京網(wǎng)智天元科技股份有限公司，中國社會科學(xué)院金融研究所）