王彥博 樊營 高潛
人類社會已經(jīng)進入大數(shù)據(jù)時代,傳統(tǒng)的信息存儲和傳播媒介已逐漸為計算機所替代,并呈現(xiàn)出指數(shù)增長的趨勢,成為21世紀(jì)最為重要的經(jīng)濟資源之一。作為掌握大量真實交易數(shù)據(jù)的商業(yè)銀行,面對浩如煙海的信息時,如何實現(xiàn)銀行內(nèi)部與外部信息、結(jié)構(gòu)性與非結(jié)構(gòu)性數(shù)據(jù)的緊密結(jié)合,更加準(zhǔn)確地識別信息,有效地對信息進行挖掘,將數(shù)據(jù)價值轉(zhuǎn)化為經(jīng)濟價值,已經(jīng)成為當(dāng)前商業(yè)銀行提升核心競爭力的重要途徑之一。網(wǎng)絡(luò)爬蟲技術(shù)的快速發(fā)展為商業(yè)銀行提升信息精準(zhǔn)獲取和有效整合應(yīng)用能力提供了全新的策略。
網(wǎng)絡(luò)爬蟲技術(shù)概述
網(wǎng)絡(luò)爬蟲是Spider(或Robots、Crawler)等詞的意譯,是一種高效的信息抓取工具,它集成了搜索引擎技術(shù),并通過技術(shù)手段進行優(yōu)化,用以從互聯(lián)網(wǎng)搜索、抓取并保存任何通過HTML(超文本標(biāo)記語言)進行標(biāo)準(zhǔn)化的網(wǎng)頁信息。其作用機理是:發(fā)送請求給互聯(lián)網(wǎng)特定站點,在建立連接后與該站點交互,獲取HTML格式的信息,隨后轉(zhuǎn)移到下一個站點,并重復(fù)以上流程。通過這種自動化的工作機制,將目標(biāo)數(shù)據(jù)保存在本地數(shù)據(jù)中,以供使用。網(wǎng)絡(luò)爬蟲在訪問一個超文本鏈接時,可以從HTML標(biāo)簽中自動獲取指向其他網(wǎng)頁的地址信息,因而可以自動實現(xiàn)高效、標(biāo)準(zhǔn)化的信息獲取。
隨著互聯(lián)網(wǎng)在人類經(jīng)濟社會中的應(yīng)用日益廣泛,其所涵蓋的信息規(guī)模呈指數(shù)增長,信息的形式和分布具有多樣化、全球化特征,傳統(tǒng)搜索引擎技術(shù)已經(jīng)無法滿足日益精細(xì)化、專業(yè)化的信息獲取和加工需求,正面臨著巨大的挑戰(zhàn)。網(wǎng)絡(luò)爬蟲自誕生以來,就發(fā)展迅猛,并成為信息技術(shù)領(lǐng)域的主要研究熱點。當(dāng)前,主流的網(wǎng)絡(luò)爬蟲搜索策略有如下幾種。
深度優(yōu)先搜索策略
早期的爬蟲開發(fā)采用較多的搜索策略是以深度優(yōu)先的,即在一個HTML文件中,挑選其中一個超鏈接標(biāo)簽進行深度搜索,直至遍歷這條超鏈接到最底層時,由邏輯運算判斷本層搜索結(jié)束,隨后退出本層循環(huán),返回上層循環(huán)并開始搜索其他的超鏈接標(biāo)簽,直至初始文件內(nèi)的超鏈接被遍歷。深度優(yōu)先搜索策略的優(yōu)點是可以將一個Web站點的所有信息全部搜索,對嵌套較深的文檔集尤其適用;而缺點是在數(shù)據(jù)結(jié)構(gòu)日益復(fù)雜的情況下,站點的縱向?qū)蛹墪o限增加且不同層級之間會出現(xiàn)交叉引用,會發(fā)生無限循環(huán)的情況,只有強行關(guān)閉程序才能退出遍歷,而得到的信息由于大量的重復(fù)和冗余,質(zhì)量很難保證。
寬度優(yōu)先搜索策略
與深度優(yōu)先搜索策略相對應(yīng)的是寬度優(yōu)先搜索策略,其作用機理是從頂層向底層開始循環(huán),先就一級頁面中的所有超鏈接進行搜索,完成一級頁面遍歷后再開始二級頁面的搜索循環(huán),直到底層為止。當(dāng)某一層中的所有超鏈接都被選擇過,才會基于該層信息檢索過程中所獲得的下一級超鏈接(并將其作為種子)開始新的一輪檢索,優(yōu)先處理淺層的鏈接。這種模式的一個優(yōu)點是:無論搜索對象的縱向結(jié)構(gòu)層級有多么復(fù)雜,都會極大程度上避免死循環(huán);另一個優(yōu)勢則在于,它擁有特定的算法,可以找到兩個HTML文件間最短的路徑。一般來講,我們期望爬蟲所具有的大多數(shù)功能目前均可以采用寬度優(yōu)先搜索策略較容易的實現(xiàn),所以它被認(rèn)為是最優(yōu)的。但其缺點是:由于大量時間被耗費,寬度優(yōu)先搜索策略則不太適用于要遍歷特定站點和HTML文件深層嵌套的情況。
聚焦搜索策略
與深度優(yōu)先和寬度優(yōu)先不同,聚焦搜索策略是根據(jù)“匹配優(yōu)先原則”對數(shù)據(jù)源進行訪問,基于特定的匹配算法,主動選擇與需求主題相關(guān)的數(shù)據(jù)文檔,并限定優(yōu)先級,據(jù)以指導(dǎo)后續(xù)的數(shù)據(jù)抓取。這類聚焦爬蟲針對所訪問任何頁面中的超鏈接都會判定一個優(yōu)先級評分,根據(jù)評分情況將該鏈接插入循環(huán)隊列,此策略能夠幫助爬蟲優(yōu)先跟蹤潛在匹配程度更高的頁面,直至獲取足夠數(shù)量和質(zhì)量的目標(biāo)信息。不難看出,聚焦爬蟲搜索策略主要在于優(yōu)先級評分模型的設(shè)計,亦即如何區(qū)分鏈接的價值,不同的評分模型針對同一鏈接會給出不同的評分,也就直接影響到信息搜集的效率和質(zhì)量。同樣機制下,針對超鏈接標(biāo)簽的評分模型自然可以擴展到針對HTML頁面的評價中,因為每一個網(wǎng)頁都是由大量超鏈接標(biāo)簽所構(gòu)成的,一般看來,鏈接價值越高,其所在頁面的價值也越高,這就為搜索引擎的搜索專業(yè)化和應(yīng)用廣泛化提供了理論和技術(shù)支撐。當(dāng)前,常見的聚焦搜索策略包括基于“鞏固學(xué)習(xí)”和“語境圖”兩種。
從應(yīng)用程度來看,當(dāng)前國內(nèi)主流搜索平臺主要采用的是寬度優(yōu)先搜索策略,主要是考慮到國內(nèi)網(wǎng)絡(luò)系統(tǒng)中信息的縱向價值密度較低,而橫向價值密度較高。但是這樣會明顯地遺漏到一些引用率較小的網(wǎng)絡(luò)文檔,并且寬度優(yōu)先搜索策略的橫向價值富集效應(yīng),會導(dǎo)致這些鏈接量少的信息源被無限制的忽略下去;而在此基礎(chǔ)上補充采用線性搜索策略則會緩解這種狀況,不斷引入更新的數(shù)據(jù)信息到已有的數(shù)據(jù)倉庫中,通過多輪的價值判斷去決定是否繼續(xù)保存該信息,而不是“簡單粗暴”地遺漏下去,將新的信息阻滯在密閉循環(huán)之外。
網(wǎng)絡(luò)爬蟲技術(shù)發(fā)展趨勢
近年來,隨著網(wǎng)絡(luò)爬蟲技術(shù)的持續(xù)發(fā)展,搜索策略也在不斷進行優(yōu)化。從目前來看,未來網(wǎng)絡(luò)爬蟲的發(fā)展主要呈現(xiàn)以下趨勢。
網(wǎng)頁數(shù)據(jù)動態(tài)化
傳統(tǒng)的網(wǎng)絡(luò)爬蟲技術(shù)主要局限于對靜態(tài)頁面信息的抓取,模式相對單一,而近年來,隨著Web2.0/AJAX等技術(shù)成為主流,動態(tài)頁面由于具有強大的交互能力,成為網(wǎng)絡(luò)信息傳播的主流,并已取代了靜態(tài)頁面成為了主流。AJAX采用了JavaScript驅(qū)動的異步(非同步)請求和響應(yīng)機制,在不經(jīng)過網(wǎng)頁整體刷新的情況下持續(xù)進行數(shù)據(jù)更新,而傳統(tǒng)爬蟲技術(shù)缺乏對JavaScript語義的接口和交互能力,難以觸發(fā)動態(tài)無刷新頁面的異步調(diào)用機制并解析返回的數(shù)據(jù)內(nèi)容,無法保存所需信息。
此外,諸如JQuery等封裝了JavaScript的各類前端框架會對DOM結(jié)構(gòu)進行大量調(diào)整,甚至網(wǎng)頁上的主要動態(tài)內(nèi)容均不必在首次建立請求時就以靜態(tài)標(biāo)簽的形式從服務(wù)器端發(fā)送到客戶端,而是不斷對用戶的操作進行回應(yīng)并通過異步調(diào)用的機制動態(tài)繪制出來。這種模式一方面極大地優(yōu)化了用戶體驗,另一方面很大程度上減輕了服務(wù)器的交互負(fù)擔(dān),但卻對習(xí)慣了DOM結(jié)構(gòu)(相對不變的靜態(tài)頁面)的爬蟲程序提出了巨大挑戰(zhàn)。傳統(tǒng)爬蟲程序主要基于“協(xié)議驅(qū)動”,而在互聯(lián)網(wǎng)2.0時代,基于AJAX的動態(tài)交互技術(shù)環(huán)境下,爬蟲引擎必須依賴“事件驅(qū)動”才有可能獲得數(shù)據(jù)服務(wù)器源源不斷的數(shù)據(jù)反饋。而要實現(xiàn)事件驅(qū)動,爬蟲程序必須解決三項技術(shù)問題:第一,JavaScript的交互分析和解釋;第二,DOM事件的處理和解釋分發(fā);第三,動態(tài)DOM內(nèi)容語義的抽取。
數(shù)據(jù)采集分布化
分布式爬蟲系統(tǒng)是在計算機集群之上運轉(zhuǎn)的爬蟲系統(tǒng),集群每一個節(jié)點上運行的爬蟲程序與集中式爬蟲系統(tǒng)的工作原理相同,所不同的是分布式需要協(xié)調(diào)不同計算機之間的任務(wù)分工、資源分配、信息整合。分布式爬蟲系統(tǒng)的某一臺計算機終端中植入了一個主節(jié)點,并通過它來調(diào)用本地的集中式爬蟲進行工作,在此基礎(chǔ)上,不同節(jié)點之間的信息交互就顯得十分重要,所以決定分布式爬蟲系統(tǒng)成功與否的關(guān)鍵在于能否設(shè)計和實現(xiàn)任務(wù)的協(xié)同,此外,底層的硬件通信網(wǎng)絡(luò)也十分重要。由于可以采用多節(jié)點抓取網(wǎng)頁,并能夠?qū)崿F(xiàn)動態(tài)的資源分配,因此就搜索效率而言,分布式爬蟲系統(tǒng)遠(yuǎn)高于集中式爬蟲系統(tǒng)。
經(jīng)過不斷的演化,各類分布式爬蟲系統(tǒng)在系統(tǒng)構(gòu)成上各具特色,工作機制與存儲結(jié)構(gòu)不斷推陳出新,但主流的分布式爬蟲系統(tǒng)普遍運用了“主從結(jié)合”的內(nèi)部構(gòu)成,也就是由一個主節(jié)點通過任務(wù)分工、資源分配、信息整合來掌控其他從節(jié)點進行信息抓取;在工作方式上,基于云平臺的廉價和高效特點,分布式爬蟲系統(tǒng)廣泛采用云計算方式來降低成本,大規(guī)模降低軟硬件平臺構(gòu)建所需要的成本投入;在存儲方式方面,當(dāng)前比較流行的是分布式信息存儲,即將文件存儲在分布式的網(wǎng)絡(luò)系統(tǒng)上,這樣管理多個節(jié)點上的數(shù)據(jù)更加方便。通常情況下使用的分布式文件系統(tǒng)為基于Hadoop的HDFS系統(tǒng)。
網(wǎng)絡(luò)爬蟲技術(shù)在商業(yè)銀行的應(yīng)用
對商業(yè)銀行而言,網(wǎng)絡(luò)爬蟲技術(shù)的應(yīng)用將助力商業(yè)銀行實現(xiàn)四個“最了解”,即“最了解自身的銀行”、“最了解客戶的銀行”、“最了解競爭對手的銀行”和“最了解經(jīng)營環(huán)境的銀行”,具體應(yīng)用場景如下。
網(wǎng)絡(luò)輿情監(jiān)測
網(wǎng)絡(luò)輿情是當(dāng)前社會主流輿論的表現(xiàn)方式之一,它主要搜集和展示經(jīng)互聯(lián)網(wǎng)傳播后大眾對部分社會焦點和熱點問題的觀點和言論。對于商業(yè)銀行而言,對網(wǎng)絡(luò)輿情進行監(jiān)測,是對自身品牌管理和危機公關(guān)的重要技術(shù)手段,從而以網(wǎng)絡(luò)作為一面“鏡子”,構(gòu)建“最了解自身的銀行”。
網(wǎng)絡(luò)輿情作為當(dāng)前社會的主流信息媒介之一,具有傳播快、影響大的特點,對于商業(yè)銀行而言,創(chuàng)建自動化的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)十分必要,一方面可以使商業(yè)銀行獲得更加精準(zhǔn)的社會需求信息,另一方面可以使商業(yè)銀行在新的輿論平臺上傳播自身的服務(wù)理念和服務(wù)特色,提升自身的業(yè)務(wù)拓展水平。由于網(wǎng)絡(luò)爬蟲在網(wǎng)絡(luò)輿情監(jiān)控中有著不可替代的作用,其工作質(zhì)量將會很大程度上影響網(wǎng)絡(luò)輿情采集的廣度和深度。依據(jù)采集目標(biāo)的類型,網(wǎng)絡(luò)爬蟲可以歸納為“通用型網(wǎng)絡(luò)爬蟲”和“主題型網(wǎng)絡(luò)爬蟲”兩種。通用型網(wǎng)絡(luò)爬蟲側(cè)重于采集更大的數(shù)據(jù)規(guī)模和更寬的數(shù)據(jù)范圍,并不考慮網(wǎng)頁采集的順序和目標(biāo)網(wǎng)頁的主題匹配情況。在當(dāng)前網(wǎng)絡(luò)信息規(guī)模呈現(xiàn)指數(shù)增長的背景下,通用型網(wǎng)絡(luò)爬蟲的使用受到信息采集速度、信息價值密度、信息專業(yè)程度的限制。為緩解這種狀況,主題型網(wǎng)絡(luò)爬蟲誕生了。不同于通用型網(wǎng)絡(luò)爬蟲,主題型網(wǎng)絡(luò)爬蟲更專注采集目標(biāo)與網(wǎng)頁信息的匹配程度,避免無關(guān)的冗余信息,這一篩選過程是動態(tài)的,貫穿于主題型網(wǎng)絡(luò)爬蟲技術(shù)的整個工作流程。
通過運用爬蟲技術(shù)對網(wǎng)絡(luò)輿情進行監(jiān)測,可以更加全面深入地了解客戶對銀行的態(tài)度與評價,洞察銀行自身經(jīng)營的優(yōu)勢與不足,同時可以起到防御聲譽風(fēng)險、增強品牌效應(yīng)的作用。
客戶全景畫像
隨著商業(yè)銀行競爭日趨激烈,利潤空間進一步壓縮,對客戶營銷和風(fēng)險控制的要求也日趨提升。在當(dāng)前的銀行經(jīng)營體系中,營銷流程管理和風(fēng)險流程管理,尤其是對潛在客戶和貸后風(fēng)險的識別與管理,往往需要耗費大量的人力、物力和時間成本。通過引入網(wǎng)絡(luò)爬蟲技術(shù),可以有效構(gòu)建面向客戶的全景畫像,打造“最了解客戶的銀行”,這是對傳統(tǒng)“客戶關(guān)系管理”以及“非現(xiàn)場風(fēng)控”技術(shù)的有益補充,將會極大促進銀行客戶營銷和對風(fēng)險的管理。
網(wǎng)絡(luò)爬蟲程序可以用來構(gòu)建銀行客戶的全維度信息視圖,即以簡單的個人客戶身份信息或?qū)蛻艟W(wǎng)絡(luò)地址為輸入,經(jīng)過爬蟲程序的加工,將符合預(yù)設(shè)規(guī)則的客戶信息按特定的格式進行輸出。以特定的基礎(chǔ)數(shù)據(jù)作為原料,銀行數(shù)據(jù)人員將關(guān)鍵詞輸入爬蟲系統(tǒng),并結(jié)合與客戶信息相關(guān)的網(wǎng)絡(luò)地址信息,封裝成爬蟲種子傳遞給爬蟲程序,隨后,爬蟲程序啟動相應(yīng)的業(yè)務(wù)流程,爬取客戶相關(guān)信息的網(wǎng)頁并保存下來。此外,從網(wǎng)絡(luò)輿情監(jiān)測層面進一步入手,將監(jiān)測對象從自身延伸至銀行客戶,則能夠通過網(wǎng)絡(luò)在第一時間了解銀行客戶的客戶對銀行客戶的評價,及時掌握客戶的輿情動態(tài),指導(dǎo)銀行經(jīng)營決策。
通過采用上述網(wǎng)絡(luò)爬蟲系統(tǒng)對客戶相關(guān)信息進行實時采集、監(jiān)測、更新,不僅可以更全面地了解客戶實時情況,而且可以對客戶的潛在營銷商機和信用風(fēng)險進行預(yù)判,有效提升客戶營銷和貸后風(fēng)險管理效率,提升商業(yè)銀行綜合效益,形成銀行與客戶共贏的局面。
競爭對手分析
當(dāng)前,隨著利率市場化的到來和互聯(lián)網(wǎng)金融的沖擊,商業(yè)銀行間競爭日趨激烈,新的市場參與主體與新的產(chǎn)品層出不窮,業(yè)務(wù)競爭加劇。在此背景下,充分了解競爭對手動態(tài),打造“最了解競爭對手的銀行”,并以此對自身進行調(diào)整,及時搶占先機,這對各家商業(yè)銀行而言都具有愈發(fā)重要的意義。
通過構(gòu)建基于網(wǎng)絡(luò)爬蟲技術(shù)的全網(wǎng)絡(luò)信息分析和展示平臺,可以有效對全網(wǎng)絡(luò)實時數(shù)據(jù)進行抓取,及時獲取其他銀行的產(chǎn)品信息與新聞動態(tài),第一時間獲取其他競爭者的狀況,方便整合并用以分析本地行內(nèi)數(shù)據(jù)。網(wǎng)絡(luò)爬蟲通過實時采集數(shù)據(jù)構(gòu)建起動態(tài)數(shù)據(jù)平臺,抓取網(wǎng)絡(luò)數(shù)據(jù)并進行本地存儲,便于未來進行深入的數(shù)據(jù)挖掘分析應(yīng)用。網(wǎng)絡(luò)爬蟲技術(shù)不僅使得商業(yè)銀行決策層更方便地制定準(zhǔn)確的政策,用以支撐公司的運營,而且可以將網(wǎng)絡(luò)輿情信息的監(jiān)測對象從自身、客戶延伸至競爭對手,便于實時掌握競爭對手的市場競爭狀況及其優(yōu)劣勢,實現(xiàn)“知己知彼”,真正達(dá)到信息對稱。
行業(yè)垂直搜索
垂直搜索是指將搜索范圍細(xì)分至某一專業(yè)領(lǐng)域,針對初次獲取到的網(wǎng)頁信息進行更深層次的整合,最終形成“純度”更高的專業(yè)領(lǐng)域信息。銀行數(shù)據(jù)人員采用該種方式,可以極大提高有效信息的獲取效率。通過對金融主題進行抓取分析,商業(yè)銀行可以更加全面地了解監(jiān)管政策發(fā)展動態(tài),了解區(qū)域經(jīng)濟、行業(yè)經(jīng)濟的發(fā)展形勢,以及掌握金融行業(yè)自身經(jīng)營環(huán)境動態(tài),及時校驗并調(diào)整自身策略,緊跟市場趨勢,打造成為“最了解經(jīng)營環(huán)境的銀行”。
對金融領(lǐng)域垂直搜索的應(yīng)用,可以提高金融主體的信息處理能力。垂直搜索技術(shù)上的最大亮點就是能夠?qū)π问蕉鄻?、?guī)模巨大的數(shù)據(jù)進行有目標(biāo)地專業(yè)化的細(xì)分操作,減少垃圾信息、聚集有效信息,提高搜索效率,在某些條件下甚至可以提供實時的數(shù)據(jù),最大限度地整合現(xiàn)有大量復(fù)雜的網(wǎng)頁數(shù)據(jù),使用戶獲得更便捷、更完整、更高效的信息檢索服務(wù)。
結(jié)語
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和數(shù)據(jù)爆炸,網(wǎng)絡(luò)爬蟲技術(shù)為商業(yè)銀行數(shù)據(jù)采集和信息整合應(yīng)用提供了全新的技術(shù)路徑。站在商業(yè)銀行應(yīng)用實踐的角度,網(wǎng)絡(luò)爬蟲在銀行日常經(jīng)營管理中的發(fā)展?jié)摿薮?。網(wǎng)絡(luò)爬蟲技術(shù)的應(yīng)用可以助力銀行轉(zhuǎn)型成為最了解自身、最了解客戶、最了解競爭對手、最了解經(jīng)營環(huán)境的“智慧銀行”??梢灶A(yù)見,網(wǎng)絡(luò)爬蟲技術(shù)將成為商業(yè)銀行提升精細(xì)化管理能力、提高決策智能化水平的重要技術(shù)手段。
(作者單位:中國民生銀行公司業(yè)務(wù)戰(zhàn)略規(guī)劃部, 北京網(wǎng)智天元科技股份有限公司,中國社會科學(xué)院金融研究所)