巫義銳,黃多輝,周逸徉
(1. 河海大學(xué)計(jì)算機(jī)與信息學(xué)院,江蘇 南京 211100;2. 南京大學(xué)計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210093)
· 簡訊 ·
基于網(wǎng)絡(luò)爬蟲的水利信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
巫義銳1,2,黃多輝1,周逸徉2
(1. 河海大學(xué)計(jì)算機(jī)與信息學(xué)院,江蘇 南京 211100;2. 南京大學(xué)計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210093)
隨著水利信息化進(jìn)程的快速發(fā)展,與水利信息相關(guān)的互聯(lián)網(wǎng)資源不斷增多,面對(duì)如此巨量和復(fù)雜形式的水利信息數(shù)據(jù),依靠人工檢索、分析的方式已難以滿足行業(yè)應(yīng)用的需求。隨著大數(shù)據(jù)信息技術(shù)的逐步深入研究,設(shè)計(jì)與實(shí)現(xiàn)可應(yīng)用于水利信息獲取的網(wǎng)絡(luò)爬蟲,成為解決水利信息檢索與分析問題的基礎(chǔ)。設(shè)計(jì)應(yīng)用主題網(wǎng)絡(luò)爬蟲技術(shù)的水利信息檢索系統(tǒng),通過水利主題信息爬取,數(shù)據(jù)格式轉(zhuǎn)化與整理,規(guī)范化寫入數(shù)據(jù)庫等步驟,實(shí)現(xiàn)網(wǎng)絡(luò)水利數(shù)據(jù)到格式化數(shù)據(jù)庫數(shù)據(jù)的自動(dòng)轉(zhuǎn)化。該系統(tǒng)的實(shí)現(xiàn)為多數(shù)據(jù)源信息的交叉驗(yàn)證與網(wǎng)絡(luò)應(yīng)急數(shù)據(jù)的獲取,提供新的思路與可行方案。
水利信息化;信息檢索;網(wǎng)絡(luò)爬蟲;主題爬蟲
近年來,隨著互聯(lián)網(wǎng)的快速發(fā)展,水利行業(yè)與互聯(lián)網(wǎng)的結(jié)合越來越緊密。隨著水利信息化與公共信息公開化進(jìn)程的加快,大量水利信息數(shù)據(jù)開始在相關(guān)網(wǎng)站中,以網(wǎng)頁表格形式呈現(xiàn)給公眾[1-2]。這些數(shù)據(jù)往往來源廣泛,時(shí)效性強(qiáng)。面對(duì)這些復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù),如何合理地整合與利用,成為水利信息化研究者關(guān)注的課題。
傳統(tǒng)的水利信息數(shù)據(jù)收集與檢索工作通常依靠人工完成。通過人工采集與整理的水利信息數(shù)據(jù)往往具有精度高,數(shù)據(jù)格式規(guī)整,可信程度高,但數(shù)據(jù)量小,來源單一,時(shí)效性較差等特點(diǎn)。與此相對(duì)應(yīng),網(wǎng)絡(luò)水利信息數(shù)據(jù)量大,來源廣泛,時(shí)效性強(qiáng),但數(shù)據(jù)格式復(fù)雜多變,收集和整理網(wǎng)絡(luò)水利信息數(shù)據(jù)需要耗費(fèi)大量的人力。因此,傳統(tǒng)的人工數(shù)據(jù)采集與整理方法不適用于網(wǎng)絡(luò)水利信息。在大數(shù)據(jù)時(shí)代,搜索引擎在信息檢索方面起著關(guān)鍵性的作用,為人們快速準(zhǔn)確地提供所需要的信息。網(wǎng)絡(luò)爬蟲作為搜索引擎的關(guān)鍵組成部分,為信息的準(zhǔn)確收集與檢索提供了基礎(chǔ)[3]。其中,高效率的抓取策略是網(wǎng)絡(luò)爬蟲算法的核心內(nèi)容,即通過盡可能爬取和用戶興趣相關(guān)的網(wǎng)頁,提高爬取內(nèi)容的準(zhǔn)確性。1991 年 CHAKABARTI S 等[4]提出了 Focus Project系統(tǒng),F(xiàn)ocus Project 系統(tǒng)改進(jìn)了基于關(guān)鍵詞表達(dá)主題的方式,采用具有相同特性的網(wǎng)頁描述關(guān)鍵詞。DILIGENT M 等[5]根據(jù)網(wǎng)頁所占層次的不同,建立一種基于上下文模型的爬蟲系統(tǒng)。例如,根網(wǎng)頁鏈接指向第 1 層,以此類推,在每層中依據(jù)上下文模型自動(dòng)生成網(wǎng)頁分類器對(duì)網(wǎng)頁內(nèi)容進(jìn)行分類。國內(nèi)研究網(wǎng)絡(luò)爬蟲的機(jī)構(gòu)也越來越多,例如中國科學(xué)院STIP[6]是一個(gè)基于科技文獻(xiàn)共享的課題,該系統(tǒng)資源就是采用爬蟲實(shí)現(xiàn)的?;诰W(wǎng)絡(luò)爬蟲技術(shù)的蓬勃發(fā)展與成功應(yīng)用案例,提出基于網(wǎng)絡(luò)爬蟲技術(shù)的水利信息檢索系統(tǒng),用于大數(shù)據(jù)網(wǎng)絡(luò)水利信息的自動(dòng)采集與整理工作。
基于水利信息檢索系統(tǒng),用戶將可以創(chuàng)新性地解決以下問題:
1)現(xiàn)階段所構(gòu)建的水利信息系統(tǒng)通常具有分布性的特點(diǎn),這會(huì)導(dǎo)致“信息孤島”現(xiàn)象的存在[7]。“信息孤島”指不同水利系統(tǒng)中,對(duì)于同一信息,存在不同的數(shù)值解釋。這種多源數(shù)據(jù)的不一致性,將極大地降低信息的利用率和效率。針對(duì)多源信息不一致的問題,用戶能通過水利信息檢索系統(tǒng)進(jìn)行多源數(shù)據(jù),特別是不同信息采集渠道數(shù)據(jù)的收集與整理,進(jìn)而完成多源數(shù)據(jù)的交叉驗(yàn)證與整合工作[8]。
2)針對(duì)某些突發(fā)的公眾性事件,如水體污染等,決策者往往需要在短時(shí)間內(nèi),得到時(shí)效性強(qiáng)的大量相關(guān)數(shù)據(jù),以利于做出合理的決策?;谒畔z索系統(tǒng),決策者能及時(shí)通過網(wǎng)絡(luò)獲取水利相關(guān)突發(fā)事件的多樣性信息,進(jìn)而做出合理判斷或決策。
水利信息檢索系統(tǒng)總體架構(gòu)設(shè)計(jì)是水利信息檢索的核心,設(shè)計(jì)圖如圖 1 所示。根據(jù)網(wǎng)絡(luò)數(shù)據(jù)爬取特性與水利表格數(shù)據(jù)特點(diǎn),將總體架構(gòu)設(shè)計(jì)從左至右分為以下 4 個(gè)步驟:
1)水利主題爬蟲設(shè)計(jì)。通過主題爬蟲技術(shù)判定網(wǎng)頁數(shù)據(jù)與水利主題的相關(guān)性,如表格數(shù)據(jù)與水利相關(guān),則將數(shù)據(jù)下載至本地,并給予統(tǒng)一編號(hào)。
2)數(shù)據(jù)格式轉(zhuǎn)化。將本地下載的表格轉(zhuǎn)化為通用的數(shù)據(jù)格式。
3)數(shù)據(jù)格式整理。根據(jù)網(wǎng)絡(luò)表格的呈現(xiàn)形式,自適應(yīng)地進(jìn)行數(shù)據(jù)的整理與合并,形成規(guī)整的數(shù)據(jù)文檔,以利于數(shù)據(jù)庫寫入。
4)數(shù)據(jù)庫寫入。首先自動(dòng)建立數(shù)據(jù)庫表,然后為待寫入數(shù)據(jù)添加索引項(xiàng),最后將規(guī)范數(shù)據(jù)逐條寫入本地?cái)?shù)據(jù)庫中,供用戶檢索使用。
2.1 水利主題爬蟲設(shè)計(jì)
網(wǎng)絡(luò)爬蟲是一種自動(dòng)抓取網(wǎng)頁并提取網(wǎng)頁關(guān)鍵信息的程序,是搜索引擎的主要信息獲取渠道。在給定 1 個(gè)或多個(gè)初始采集點(diǎn)的情況下,網(wǎng)絡(luò)爬蟲從初始網(wǎng)頁開始采集,在抓取網(wǎng)頁的過程中,不斷將新的檢測(cè)到的網(wǎng)絡(luò)地址放入待爬行的網(wǎng)絡(luò)地址隊(duì)列中,直到滿足一定條件(如待爬行隊(duì)列為空,達(dá)到指定爬行數(shù)量),停止爬行。在網(wǎng)絡(luò)爬蟲的基礎(chǔ)上,主題爬蟲按照預(yù)定義的爬行主題,應(yīng)用關(guān)鍵字或主題分析算法,對(duì)爬行網(wǎng)頁進(jìn)行內(nèi)容相關(guān)性分析,過濾與主題不相關(guān)的網(wǎng)頁[9]。因此,主題爬蟲不同于網(wǎng)絡(luò)爬蟲,起始數(shù)據(jù)采集點(diǎn)必須是預(yù)定義的與主題高度相關(guān)的頁面,主題爬蟲僅收集與主題相關(guān)的網(wǎng)頁。基于主題爬蟲的相關(guān)特點(diǎn)與水利數(shù)據(jù)的特性,水利信息檢索系統(tǒng)通過以下策略的應(yīng)用,設(shè)計(jì)水利主題爬蟲,用于網(wǎng)絡(luò)水利信息的爬取與篩選:
1)主題描述。即如何描述爬取的對(duì)象,水利信息檢索系統(tǒng)通過字典集合方法定義水利主題。具體而言,收集了 200 個(gè)與水利相關(guān)的常用業(yè)務(wù)詞語,例如水情、水庫、水污染等,并使其構(gòu)成集合,用于定義水利主題的外延含義。
2)主題爬行策略。主題爬蟲需要按照一定的規(guī)則抓取網(wǎng)頁。具體而言,首先定義起始數(shù)據(jù)采集點(diǎn)?;谒畔⒐_化現(xiàn)狀,在現(xiàn)階段選取了長江航道在線,全國雨水情信息網(wǎng)站,全國重點(diǎn)站點(diǎn)實(shí)時(shí)雨情、日降雨量和天氣網(wǎng)站等 3 類網(wǎng)頁作為主題爬蟲的起始爬取點(diǎn)。為了適當(dāng)減少爬取復(fù)雜度,采用深度優(yōu)先的爬取策略,并將深度值限制在合理范圍內(nèi)。此外,由于網(wǎng)頁表格中往往含有豐富的數(shù)值信息,而這些信息對(duì)于水利情況描述具有決定性作用。因此,在爬取過程中僅關(guān)注網(wǎng)頁中存在的表格信息。
圖 1 水利信息檢索的總體架構(gòu)設(shè)計(jì)圖
3)主題相關(guān)性判斷。對(duì)于爬取的相關(guān)網(wǎng)頁,所設(shè)計(jì)的主題爬蟲首先獲取頁面的文本內(nèi)容或者頁面表格的表頭信息;然后,采用關(guān)鍵字匹配方法,與定義的水利主題描述進(jìn)行對(duì)比,以判斷所爬取網(wǎng)頁是否與水利主題相關(guān)。如果數(shù)據(jù)與水利主題相關(guān),水利信息檢索系統(tǒng)將下載相關(guān)頁面的對(duì)應(yīng)表格到本地服務(wù)器,并給予獨(dú)立編號(hào),編號(hào)由網(wǎng)頁與網(wǎng)頁表格編號(hào) 2 部分構(gòu)成。
2.2 數(shù)據(jù)格式轉(zhuǎn)化
據(jù)劉天金介紹,在綜合利用互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等現(xiàn)代信息技術(shù)和裝備的前提下,傳統(tǒng)的植保工作將逐漸演變成為一種數(shù)據(jù)集中和共享的方式——在此基礎(chǔ)之上,技術(shù)融合、業(yè)務(wù)融合、數(shù)據(jù)融合都將逐步實(shí)現(xiàn)。
水利主題爬蟲所下載的網(wǎng)頁表格數(shù)據(jù)的格式為HTML5。HTML5 格式存儲(chǔ)的數(shù)據(jù)成高度離散化狀態(tài),即 HTML5 格式對(duì)數(shù)值與文字描述進(jìn)行了混合描述。為了后續(xù)步驟的順利進(jìn)行,水利信息檢索系統(tǒng)提出使用數(shù)據(jù)格式轉(zhuǎn)化,將離散化的數(shù)據(jù)描述轉(zhuǎn)化為易于提取與處理的通用數(shù)據(jù)格式,即常用于數(shù)據(jù)表格描述的 csv 格式。
對(duì) HTML5 數(shù)據(jù)特征進(jìn)行觀察后,使用基于啟發(fā)式的算法進(jìn)行數(shù)據(jù)格式轉(zhuǎn)化。在對(duì) HTML5 網(wǎng)頁所含標(biāo)簽關(guān)鍵字進(jìn)行處理時(shí),如檢測(cè)到關(guān)鍵字 table,則將表格數(shù)據(jù)寫入 csv 文檔;如檢測(cè)到關(guān)鍵字 tr,將在 csv 文檔中開始寫入新的數(shù)據(jù)行;如檢測(cè)到關(guān)鍵字 td,將在 csv 文檔中寫入新的數(shù)據(jù)列。通過簡單的轉(zhuǎn)化規(guī)則,水利信息檢索系統(tǒng)能夠成功地將數(shù)據(jù)由復(fù)雜的 HTML5 格式轉(zhuǎn)化為易于處理的 csv 格式。此外,數(shù)據(jù)表格的編號(hào)將轉(zhuǎn)化為圖 1 所示的統(tǒng)一標(biāo)注,并建立數(shù)據(jù)內(nèi)容與編號(hào)的對(duì)應(yīng)關(guān)系表。在對(duì)應(yīng)關(guān)系表中,將具體記錄某編號(hào)表格的爬取時(shí)間、下載表格表頭、更新時(shí)間等數(shù)據(jù)來源信息,以供后續(xù)的數(shù)據(jù)庫表自動(dòng)建立與寫入步驟使用。
2.3 數(shù)據(jù)格式整理
由于水利數(shù)據(jù)的呈現(xiàn)形式?jīng)]有統(tǒng)一的規(guī)范,所獲取的標(biāo)準(zhǔn) csv 文件中存在著大量不規(guī)范的數(shù)據(jù)表現(xiàn)形式。因此,水利信息檢索系統(tǒng)提出基于幾類常見的表格數(shù)據(jù)呈現(xiàn)形式,運(yùn)用自適應(yīng)檢測(cè)方法,對(duì)數(shù)據(jù)呈現(xiàn)形式進(jìn)行整理。
圖 2 展示了常用的對(duì)水利信息進(jìn)行描述的表格形式,其中圖 a,b,c 中分別展示了完整、缺失表格形式,以及一行多表形式的示例。由圖 2 可以發(fā)現(xiàn),數(shù)據(jù)表格形式復(fù)雜多變。為了整理多變的表格數(shù)據(jù)形式,提出依據(jù)以下判斷準(zhǔn)則進(jìn)行自適應(yīng)處理:
1)判斷一行是否存在同名項(xiàng)。如存在,則依據(jù)某一重復(fù)的項(xiàng),將原數(shù)據(jù)表分割成多個(gè)獨(dú)立表。該準(zhǔn)則主要用于處理圖 2 c 所示的一行多表情況。
2)判斷某行是否缺失。如存在數(shù)據(jù)缺失情況,則使用上一行中的同列數(shù)據(jù)項(xiàng)進(jìn)行填補(bǔ)。該準(zhǔn)則主要用于處理圖 2 b 所示的表格情況。
經(jīng)過自適應(yīng)處理,能夠成功地將非規(guī)范的數(shù)據(jù)整理為規(guī)范化數(shù)據(jù)。規(guī)范化數(shù)據(jù)表中的每一行均為一條完整的水文信息數(shù)據(jù)。
2.4 數(shù)據(jù)庫建立與數(shù)據(jù)寫入
將整理后的水利數(shù)據(jù)逐條寫入關(guān)系數(shù)據(jù)庫將有助于數(shù)據(jù)的結(jié)構(gòu)化與檢索。用戶在檢索相關(guān)數(shù)據(jù)時(shí),只需設(shè)置帶關(guān)鍵字的 SQL 查詢語句,即可方便快捷地獲取相關(guān)水利數(shù)據(jù)信息。為實(shí)現(xiàn)水利數(shù)據(jù)獲取與檢索過程的自動(dòng)化,將主要聚焦于建立適應(yīng)于水利數(shù)據(jù)寫入的數(shù)據(jù)庫。
首先基于對(duì)水利數(shù)據(jù)表格表頭信息與首行的分析,建立數(shù)據(jù)庫表。表頭信息中一般包含對(duì)表格數(shù)據(jù)信息的概述,例如圖 2 a 表格的表頭信息為重慶水情信息,將該概述信息作為數(shù)據(jù)庫表名,能夠簡明扼要地對(duì)數(shù)據(jù)主體進(jìn)行描述,有利于簡化用戶后期的檢索操作。為此,將表頭信息作為數(shù)據(jù)庫表名。
建立數(shù)據(jù)庫表時(shí),還需要定義字段及主鍵。其中,字段內(nèi)容來自于對(duì)數(shù)據(jù)表格首行的分析,例如圖 2 a 表格所對(duì)應(yīng)的數(shù)據(jù)庫字段包括區(qū)(市)縣、河流、水文站名、水位與流量。此外,還將加入一些額外的字段,對(duì)數(shù)據(jù)的爬取屬性進(jìn)行描述,包括爬取與數(shù)據(jù)更新的時(shí)間。其中,數(shù)據(jù)更新時(shí)間來源于網(wǎng)頁表頭信息分析,部分網(wǎng)頁該項(xiàng)可能呈缺失狀態(tài),此時(shí)將主要依賴于爬取時(shí)間對(duì)于數(shù)據(jù)的時(shí)效性。
圖 2 常見水利網(wǎng)絡(luò)信息的表格呈現(xiàn)形式
主關(guān)鍵字用于唯一地標(biāo)識(shí)表中的某一條記錄。建立適應(yīng)于數(shù)據(jù)內(nèi)容的主鍵將有助于數(shù)據(jù)信息去重。在水利信息檢索系統(tǒng)中,在數(shù)據(jù)更新時(shí)間項(xiàng)存在時(shí),將主鍵設(shè)置為數(shù)據(jù)更新時(shí)間。假使數(shù)據(jù)更新時(shí)間缺失,則將多數(shù)據(jù)項(xiàng)作為聯(lián)合主鍵。通過如此設(shè)計(jì),當(dāng)爬蟲獲取重復(fù)數(shù)據(jù)時(shí),數(shù)據(jù)將因?yàn)橹麈I限制而無法寫入數(shù)據(jù)庫。數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù)將是無重復(fù)數(shù)據(jù),對(duì)于用戶的檢索使用將提供便利。
在查找到相關(guān)水利表格頁面時(shí),將數(shù)據(jù)庫建立要素寫入數(shù)據(jù)庫腳本,并執(zhí)行該腳本,以建立數(shù)據(jù)庫表項(xiàng)。在數(shù)據(jù)庫表建立后,將整理好的水利數(shù)據(jù)內(nèi)容,逐行寫入已建立好的數(shù)據(jù)庫表。水利信息檢索系統(tǒng)能夠自動(dòng)將網(wǎng)絡(luò)上存在的水利數(shù)據(jù),通過爬取、數(shù)據(jù)整理及數(shù)據(jù)庫寫入步驟,轉(zhuǎn)化為易于檢索的規(guī)范化數(shù)據(jù)。
將爬取到的內(nèi)容依據(jù)用戶的關(guān)注程度分為當(dāng)日與歷史信息。其中,當(dāng)日信息子程序關(guān)注于爬取各水利網(wǎng)站更新的每日水利信息,能夠保證水利信息檢索系統(tǒng)穩(wěn)定地獲取時(shí)間連續(xù)的網(wǎng)絡(luò)水利信息。歷史信息子程序則提供檢索接口用于定向數(shù)據(jù)查詢。對(duì)于長江航道在線,全國雨水情信息網(wǎng)站,全國重點(diǎn)站點(diǎn)實(shí)時(shí)雨情、日降雨量和天氣網(wǎng)站,省份雨水情信息公示網(wǎng)站,水利信息檢索系統(tǒng)開放時(shí)間檢索接口;對(duì)于歐洲中期天氣預(yù)報(bào)中心,水利信息檢索系統(tǒng)開放時(shí)間與經(jīng)緯度檢索接口。
基于 C# ASP.NET 平臺(tái)與 MySQL 數(shù)據(jù)庫系統(tǒng)構(gòu)建水利信息檢索系統(tǒng)。 表 1 是水利信息檢索系統(tǒng)在擁有 Corei7 2.2 GHz CPU,6 GB RAM 配置的個(gè)人電腦的相關(guān)運(yùn)行時(shí)間數(shù)據(jù),當(dāng)日與歷史數(shù)據(jù)下載時(shí)間分別代表水利信息檢索系統(tǒng)從網(wǎng)絡(luò)中爬取當(dāng)日與歷史數(shù)據(jù)的時(shí)間。其中歷史數(shù)據(jù)被設(shè)定為一日的水利數(shù)據(jù),數(shù)據(jù)整理時(shí)間代表水利信息檢索系統(tǒng)將爬取到的數(shù)據(jù)整理為規(guī)則化表格數(shù)據(jù)的時(shí)間,數(shù)據(jù)寫入時(shí)間代表水利信息檢索系統(tǒng)將規(guī)則化表格數(shù)據(jù)寫入數(shù)據(jù)庫的時(shí)間。在實(shí)驗(yàn)中,將網(wǎng)絡(luò)爬蟲的爬取深度設(shè)定為 5。值得注意的是,網(wǎng)絡(luò)爬取數(shù)據(jù)時(shí)間與網(wǎng)絡(luò)及網(wǎng)頁提供服務(wù)器的狀況高度相關(guān)。在某些極端情況下,網(wǎng)頁鏈接可能出現(xiàn)無法訪問狀況,針對(duì)這種情況,設(shè)計(jì)了重連與失敗機(jī)制。具體來說,在出現(xiàn)網(wǎng)頁鏈接無法訪問的情況時(shí),將在等待一段時(shí)間后再次重試訪問。假使在一段時(shí)間內(nèi)多次重復(fù)訪問仍然無法爬取到相關(guān)數(shù)據(jù),將停止網(wǎng)頁鏈接的訪問嘗試,并將爬取到的網(wǎng)絡(luò)鏈接在系統(tǒng)日志中標(biāo)為不可訪問。此外,省份雨水情信息公示網(wǎng)站所提供的數(shù)據(jù)為某一省份的平均數(shù)據(jù)下載、整理和寫入時(shí)間。
基于表 1 的內(nèi)容,可分析得到水利信息檢索系統(tǒng)中最耗費(fèi)時(shí)間的步驟在于當(dāng)日與歷史數(shù)據(jù)的下載。因數(shù)據(jù)整理與數(shù)據(jù)庫寫入算法的低復(fù)雜度,數(shù)據(jù)整理與數(shù)據(jù)庫寫入所需時(shí)間較少。在所爬取的 3 類網(wǎng)站中,發(fā)現(xiàn)數(shù)據(jù)獲取總時(shí)間長短依次是:全國雨水情信息網(wǎng)站最長,全國重點(diǎn)站點(diǎn)實(shí)時(shí)雨情、日降雨量和天氣網(wǎng)站次之,長江航道在線最短。產(chǎn)生這類差異的主要原因是網(wǎng)站結(jié)構(gòu)及網(wǎng)頁內(nèi)容呈現(xiàn)形式的復(fù)雜度不同。
表 1 水利信息檢索系統(tǒng)水利數(shù)據(jù)下載、整理與寫入數(shù)據(jù)庫時(shí)間 s
在綜合集成平臺(tái)支撐下,大數(shù)據(jù)技術(shù)的蓬勃發(fā)展導(dǎo)致了水利信息系統(tǒng)的分散特性。如何獲取多源信息并進(jìn)行多源融合及提高傳統(tǒng)信息渠道獲取的信息時(shí)效性成為亟待解決的問題。許多研究者致力于通過數(shù)據(jù)倉儲(chǔ)技術(shù)進(jìn)行多源數(shù)據(jù)融合與實(shí)時(shí)更新。通過水利信息檢索系統(tǒng)運(yùn)行的設(shè)計(jì)與實(shí)驗(yàn)證明了基于網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行多源數(shù)據(jù)融合與實(shí)時(shí)更新的重要性與可行性。通過網(wǎng)絡(luò)爬蟲與數(shù)據(jù)整理技術(shù),水利信息檢索系統(tǒng)能將水利業(yè)務(wù)網(wǎng)絡(luò)信息組件化,最終形成水利業(yè)務(wù)的描述項(xiàng)。在經(jīng)過一段時(shí)期的積累后,最終可以覆蓋整個(gè)水利業(yè)務(wù)應(yīng)用。通過水利信息檢索系統(tǒng)對(duì)水利網(wǎng)絡(luò)信息進(jìn)行整合,可為用戶提供一個(gè)可靠、方便、通用的使用環(huán)境。通過實(shí)際應(yīng)用,證實(shí)了基于網(wǎng)絡(luò)爬蟲的水利信息檢索系統(tǒng)可有效解決水利業(yè)務(wù)應(yīng)用整合困難的問題,為水利業(yè)務(wù)應(yīng)用奠定良好基礎(chǔ)。水利信息檢索系統(tǒng)的開放性也對(duì)水利數(shù)據(jù)安全性和保密性提出了更高要求,下一步工作將致力于在保證數(shù)據(jù)安全性與保密性的前提下,解決水利信息化過程中存在的多源數(shù)據(jù)整合問題。
[1] 莫榮強(qiáng),艾萍,吳禮福,等. 一種支持大數(shù)據(jù)的水利數(shù)據(jù)中心基礎(chǔ)框架[J]. 水利信息化,2013 (3): 16-20.
[2] 艾萍,袁定波,邊世哲,等. 水利信息化發(fā)展?fàn)顩r簡要分析方法[J]. 水利信息化,2016 (6): 6-9.
[3] 周德懋,李舟軍. 高性能網(wǎng)絡(luò)爬蟲:研究綜述[J]. 計(jì)算機(jī)科學(xué),2009 (8): 26-29,53.
[4] CHAKRABARTI S, DOM B, AGRAWAL R, et al. Using taxonomy, discriminants, and signatures for navigating in text databases [C]// Proceedings of 23rd International Conference on Very Large Data Bases. Burlington : Morgan Kaufmann Publisher, 1997: 446-455.
[5] DILIGENTI M, COETZEE F, LAWRENCE S, et al. Focused crawling using context graphs[C]// Proceedings of 26th International Conference on Very Large Data Bases. Burlington: Morgan Kaufmann Publisher , 2000: 527-534.
[6] 張智雄. Internet 科技信息資源門戶網(wǎng)站(STIP)系統(tǒng)的實(shí)踐研究[D]. 北京:中國科學(xué)院文獻(xiàn)情報(bào)中心,2000.
[7] 嚴(yán)棟飛,陳月妹,張永進(jìn),等. 綜合集成平臺(tái)下的多源信息融合及應(yīng)用整合實(shí)例[J]. 水利信息化,2016 (1): 65-68.
[8] 馮鈞,佟瑤,陸佳民,等. 跨內(nèi)外網(wǎng)的數(shù)據(jù)資源整合與共享關(guān)鍵技術(shù)研究[J]. 水利信息化,2016 (5): 1-5,30.
[9] WANG S, ZHOU G M, WANG J. Reviews of relevance algorithm in focused crawler[J]. Computer & Modernization, 2013, 117 (2): 27-30.
Design and implementation of water information retrieval system based on web crawler
WU Yirui1,2, HUANG Duohui1, ZHOU Yiyang2
(1.College of Computer and Information, Hohai University, Nanjing 211100, China;2. State Key Labotatory of Computer and Science, Nanjing University, Nanjing 210092, China)
With the rapid development of water resource informatization process, the Internet data about water information is growing. Facing complexity and quantity of water information, searching and analyzing with manual work couldn’t satisfy the need of water conservancy industry. Based on the development of big data research, designing and emplying web crawler on water information has been the foundation of solution for water information search and analyzing problem. This paper designs a water information retrieval system based on focused web crawler, which could automatically transform the online water information to formatted database data by online crawling aboutwater information, data transforming and formatting and properly writing data into database. The proposed system offers a novel and practical solution for cross-validating information from multiple data source and achieving online data for emergency usage.
water resource informatization; information retrieval; web crawler; focused-crawler
TP391;TV21
A
1674-9405(2017)04-0036-06
10.19364/j.1674-9405.2017.04.007
2017-06-13
國家自然科學(xué)基金面上項(xiàng)目(61370091);水利部公益性行業(yè)科研專項(xiàng)(201501022);河海大學(xué)中央高?;究蒲袠I(yè)務(wù)費(fèi)項(xiàng)目(2013/B16020141);南京大學(xué)計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室開放課題項(xiàng)目(KFKT2017B05)
巫義銳(1989-),男,四川德陽人,博士,主要從事水利信息化與模式識(shí)別研究工作。