趙麗娜
摘要:隨著Internet技術(shù)的不斷發(fā)展和網(wǎng)上電子文本的日益增多,面對(duì)互聯(lián)網(wǎng)海量的信息,政府機(jī)關(guān)、企事業(yè)單位和研究機(jī)構(gòu)都迫切希望獲取與自身工作相關(guān)的有價(jià)值的信息,如何方便快捷地獲取這些信息變得至關(guān)重要。該文基于visual C++,根據(jù)預(yù)定義的抓取規(guī)則,實(shí)現(xiàn)礦產(chǎn)資源相關(guān)信息的快速抓取。該文主要研究的是基于Web的礦產(chǎn)資源行情自動(dòng)抓取技術(shù),通過分析網(wǎng)頁源代碼,提取有用、有效的數(shù)據(jù)信息。
關(guān)鍵詞:信息抓??;C++;Web技術(shù)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)29-6876-04
Abstract: With the development of Internet technology and the growing of online e-text, in the face of Internet flood of information, government agencies, enterprises and research institutions are eager to obtain valuable information related to their work..So how to obtain the information quickly and easily becomes critical. According to predefined rules crawl,this article realize the fast crawl of mineral resource-related information based on visual C ++. The research emphasis of this paper is to study a Web-based technology automatically crawl mineral resources market, by analyzing the web page source code to extract the useful and valid data.
Key words: Information crawl; C++; Web Technology
隨著Internet技術(shù)的不斷發(fā)展和網(wǎng)上電子文本的日益增多,面對(duì)互聯(lián)網(wǎng)海量的信息,政府機(jī)關(guān)、企事業(yè)單位和研究機(jī)構(gòu)都迫切希望獲取與自身工作相關(guān)的有價(jià)值的信息,如何方便快捷地獲取這些信息變得至關(guān)重要。如果采用原始的手工收集方式,費(fèi)時(shí)費(fèi)力且毫無效率,面對(duì)越來越多的信息資源,勞動(dòng)強(qiáng)度和難度可想而知[1]。因此,現(xiàn)代的政府和企業(yè)都迫切需要一種能夠提供高質(zhì)量和高效運(yùn)作的互聯(lián)網(wǎng)信息獲取系統(tǒng)。
本文以監(jiān)測抓取Internet信息為目的,實(shí)現(xiàn)在用戶自定義規(guī)則下,自動(dòng)從互聯(lián)網(wǎng)中抓取指定信息。抓取的信息可存入獨(dú)立數(shù)據(jù)庫或通過接口發(fā)送至其他系統(tǒng),用于內(nèi)部使用或外網(wǎng)發(fā)布,實(shí)現(xiàn)信息及時(shí)全面地共享。
1 互聯(lián)網(wǎng)數(shù)據(jù)獲取過程
互聯(lián)網(wǎng)數(shù)據(jù)獲取一般是指從行業(yè)權(quán)威或?qū)I(yè)的網(wǎng)站上獲取具有針對(duì)性強(qiáng)、專業(yè)性高、準(zhǔn)確度大的數(shù)據(jù)信息,并按照特定的數(shù)據(jù)抓取規(guī)則和數(shù)據(jù)過濾條件進(jìn)行數(shù)據(jù)信息獲取,最后將獲取到的數(shù)據(jù)存
儲(chǔ)到數(shù)據(jù)庫中的一個(gè)過程[2]。隨著互聯(lián)網(wǎng)的廣泛應(yīng)用,網(wǎng)絡(luò)信息爆炸式的不斷增長,各個(gè)網(wǎng)站幾乎每天都在進(jìn)行著數(shù)據(jù)的更新,這使得互聯(lián)網(wǎng)數(shù)據(jù)具有海量性、動(dòng)態(tài)性的特征。因?yàn)榛ヂ?lián)網(wǎng)中的數(shù)據(jù)信息以多種格式的方式存在,例如:文本、圖片、聲音、視頻等格式,這樣使得各站點(diǎn)的信息和組織結(jié)構(gòu)具有一定的差異性,形成一種非完全結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)。所以對(duì)目標(biāo)數(shù)據(jù)的定位與訪問就需要根據(jù)具體網(wǎng)頁的實(shí)際組織結(jié)構(gòu)特點(diǎn)進(jìn)行具體的獲取分析。數(shù)據(jù)獲取過程一般概括為以下步驟:
1) 確定需要抓取信息的目標(biāo)網(wǎng)址。首先需要找到確定抓取數(shù)據(jù)的目標(biāo)網(wǎng)址,對(duì)目標(biāo)網(wǎng)址的頁面結(jié)構(gòu)與數(shù)據(jù)元素進(jìn)行具體分析,同時(shí)判斷目標(biāo)網(wǎng)址數(shù)據(jù)抓取的可行性和難度及數(shù)據(jù)的可靠性、準(zhǔn)確性。一般確定抓取數(shù)據(jù)的網(wǎng)址都是在行業(yè)內(nèi)比較專業(yè)或權(quán)威的網(wǎng)站,但有時(shí)也需要規(guī)避一些有防范措施的網(wǎng)站,例如:限定某一IP地址對(duì)頁面的訪問時(shí)間與訪問次數(shù)、用javascript腳本語言加密的網(wǎng)頁內(nèi)容等。
2) 分析目標(biāo)網(wǎng)址的頁面內(nèi)容及其組織結(jié)構(gòu),確定數(shù)據(jù)的抓取規(guī)則。因?yàn)榫W(wǎng)頁是一種半結(jié)構(gòu)化文檔,除了包含大量的數(shù)據(jù)信息之外,還包含大量的非文本數(shù)據(jù)信息和其它多媒體數(shù)據(jù)信息。所以在抓取目標(biāo)數(shù)據(jù)之前一定要先了解目標(biāo)網(wǎng)頁上數(shù)據(jù)的組織結(jié)構(gòu)特點(diǎn),以確定目標(biāo)數(shù)據(jù)項(xiàng)的抓取規(guī)則[3]。一般是通過查看目標(biāo)網(wǎng)頁的源文件對(duì)網(wǎng)頁的數(shù)據(jù)組織結(jié)構(gòu)進(jìn)行詳細(xì)分析。一般從三個(gè)方面具體分析:①目標(biāo)網(wǎng)址URL規(guī)則,分析網(wǎng)址的命名是否有一定規(guī)律可循,一般目標(biāo)網(wǎng)址的URL會(huì)是固定不定的網(wǎng)址,但有些網(wǎng)址會(huì)是在瀏覽具體內(nèi)容時(shí)隨時(shí)更改的,這就是常說的動(dòng)態(tài)網(wǎng)址,沒有規(guī)律可循。②網(wǎng)頁組織結(jié)構(gòu),分析目標(biāo)網(wǎng)頁源文件中的內(nèi)容組織結(jié)構(gòu),確定采用哪種方式取得目標(biāo)數(shù)據(jù)源文件數(shù)據(jù)塊代碼。③具體數(shù)據(jù),分析如何從數(shù)據(jù)塊中獲取具體數(shù)據(jù)項(xiàng)。
3) 通過第三方數(shù)據(jù)抓取軟件或者編程,抓取目標(biāo)數(shù)據(jù)??梢越柚谌降臄?shù)據(jù)抓取軟件按照一定規(guī)則對(duì)目標(biāo)數(shù)據(jù)進(jìn)行抓取,也可以選擇一種熟悉的語言進(jìn)行編程開發(fā),按照事先設(shè)計(jì)好的抓取規(guī)則對(duì)目標(biāo)數(shù)據(jù)進(jìn)行抓取。
4) 使用SQL Server或Oracle數(shù)據(jù)庫對(duì)抓取到的數(shù)據(jù)進(jìn)行存儲(chǔ)。有些行業(yè)數(shù)據(jù)具有一定的研究價(jià)值,這時(shí)可能就會(huì)需要對(duì)抓取到的數(shù)據(jù)進(jìn)行本地化存儲(chǔ),以便于隨時(shí)對(duì)數(shù)據(jù)進(jìn)行分析研究。
2 互聯(lián)網(wǎng)礦產(chǎn)資源數(shù)據(jù)采集特點(diǎn)
1) 數(shù)據(jù)量大、數(shù)據(jù)類型多。礦產(chǎn)資源行情數(shù)據(jù)更新頻率高,一般需要每天重復(fù)的獲取行情數(shù)據(jù)信息。如果采用傳統(tǒng)的人工方式獲取數(shù)據(jù)會(huì)浪費(fèi)大量的時(shí)間和人力,并且準(zhǔn)確率低。endprint
2) 實(shí)時(shí)性強(qiáng)、準(zhǔn)確度高。為了確保礦產(chǎn)資源價(jià)格行情評(píng)估的準(zhǔn)確性,企業(yè)要求獲取到的礦產(chǎn)數(shù)據(jù)具有實(shí)時(shí)性強(qiáng)、準(zhǔn)確性高的特點(diǎn)。另外,礦產(chǎn)數(shù)據(jù)具有一定的時(shí)效性,可以反映近期的礦產(chǎn)行情市場變化,為企業(yè)的決策提供科學(xué)的、有效的依據(jù)。
3) 以文本和數(shù)值型數(shù)據(jù)為主。互聯(lián)網(wǎng)中礦產(chǎn)資源行情數(shù)據(jù)主要對(duì)價(jià)格、漲跌等數(shù)值或文本信息進(jìn)行獲取分析,一般不需要圖片、視頻等多媒體數(shù)據(jù)格式[4]。
4) 針對(duì)礦產(chǎn)行業(yè)權(quán)威網(wǎng)站進(jìn)行數(shù)據(jù)采集。為了保證數(shù)據(jù)抓取的可靠性、準(zhǔn)確性、及時(shí)性等特點(diǎn),需要訪問礦產(chǎn)行業(yè)內(nèi)比較權(quán)威的站點(diǎn)進(jìn)行數(shù)據(jù)采集,使獲取的礦產(chǎn)行情數(shù)據(jù)更具有說服力。
5) 獲取的目標(biāo)網(wǎng)址一般有兩種類型。①靜態(tài)網(wǎng)址,目標(biāo)網(wǎng)址是固定不變的網(wǎng)址,可根據(jù)需要自由訪問。②動(dòng)態(tài)網(wǎng)址,這一類的網(wǎng)址是在瀏覽具體頁面內(nèi)容時(shí)動(dòng)態(tài)生成的或者是加密的網(wǎng)址,這時(shí)我們就需要先找到一個(gè)固定的網(wǎng)址入口,從這一入口著手,采用廣度優(yōu)先搜索方法找到具體的內(nèi)容所在的目標(biāo)網(wǎng)址。
3 關(guān)鍵技術(shù)
在復(fù)雜的網(wǎng)絡(luò)環(huán)境下,為了及時(shí)獲取礦產(chǎn)資源行業(yè)信息,需要一種實(shí)時(shí)的、定期的采集友好網(wǎng)頁相關(guān)信息的技術(shù)服務(wù),以便于掌握礦產(chǎn)行業(yè)最新的資源行情動(dòng)態(tài)信息。該文主要采用的關(guān)鍵技術(shù)如下:
1) 信息抓取技術(shù)
在信息抓取技術(shù)的實(shí)現(xiàn)中,主要包括數(shù)據(jù)獲取和信息提取這兩個(gè)方面。而信息獲取技術(shù)的最終目的是獲得礦產(chǎn)資源行業(yè)信息。因此,在復(fù)雜的網(wǎng)絡(luò)環(huán)境及冗余的網(wǎng)頁信息中,提取并分離目標(biāo)信息是非常關(guān)鍵的內(nèi)容?;ヂ?lián)網(wǎng)中常見的網(wǎng)頁格式有html、xml、asp、php、jsp等,但不管采用哪種格式,它們都是通過HTTP協(xié)議將數(shù)據(jù)傳輸?shù)娇蛻舳藶g覽器的。在網(wǎng)頁信息獲取技術(shù)的實(shí)現(xiàn)中,需要借助數(shù)據(jù)抓取軟件或編程,依據(jù)規(guī)則抓取有用數(shù)據(jù)。按照數(shù)據(jù)塊、數(shù)據(jù)行和數(shù)據(jù)字段三個(gè)層次對(duì)數(shù)據(jù)進(jìn)行提取并解析[5]。該文通過向目標(biāo)網(wǎng)址發(fā)送HTTP請(qǐng)求,取得目標(biāo)網(wǎng)址的Html源碼, 采用關(guān)鍵詞截取的方式從Html源碼中獲取目標(biāo)數(shù)據(jù)。
2) WEB技術(shù)
Web技術(shù)是一種典型的分布式應(yīng)用結(jié)構(gòu)。Web應(yīng)用中的信息交換涉及到客戶端和服務(wù)端[6]。因此,Web開發(fā)技術(shù)主要包括客戶端技術(shù)和服務(wù)端技術(shù)。
① Web客戶端技術(shù)
Web客戶端技術(shù)主要功能是對(duì)數(shù)據(jù)庫中存儲(chǔ)的信息進(jìn)行友好展示。該文采用的主要技術(shù)有:HTML語言、JavaScript語言、CSS樣式、ExtJS、插件技術(shù)等。
② Web服務(wù)端技術(shù)
Web服務(wù)端技術(shù)主要功能是處理客戶端提交的用戶請(qǐng)求。該文采用的主要技術(shù)包括服務(wù)器技術(shù)、Asp技術(shù)、Asp.NET技術(shù)等。
4 抓取技術(shù)在礦產(chǎn)行業(yè)的應(yīng)用
1) 首先確實(shí)需要抓取的目標(biāo)網(wǎng)址,并判斷目標(biāo)數(shù)據(jù)的可靠性及抓取的可靠性、難度及抓取規(guī)則。
目標(biāo)網(wǎng)址一般是能夠提供大量礦產(chǎn)資源信息網(wǎng)站的網(wǎng)址。如果目標(biāo)網(wǎng)址是靜態(tài)的,就可以按具體網(wǎng)址訪問;但有些目標(biāo)網(wǎng)址是打開具體頁面時(shí)動(dòng)態(tài)生成的網(wǎng)址,這時(shí)候就需要提供一個(gè)靜態(tài)的網(wǎng)址入口,進(jìn)入具體內(nèi)容所在的列表頁網(wǎng)址,再通過列表頁網(wǎng)址進(jìn)入到具體的內(nèi)容頁面。由于網(wǎng)頁是半結(jié)構(gòu)化文檔,除了數(shù)據(jù)內(nèi)容之外,還會(huì)包括大量格式和其它多媒體信息[7]。所以抓取前一定要先了解目標(biāo)網(wǎng)頁數(shù)據(jù)的結(jié)構(gòu)特點(diǎn),確定目標(biāo)數(shù)據(jù)的抓取規(guī)則。抓取規(guī)則包括:頁面的目標(biāo)網(wǎng)址、關(guān)鍵詞的指定、地區(qū)參數(shù)的限定等。由于各個(gè)網(wǎng)站的規(guī)則不同,所以要根據(jù)具體網(wǎng)站具體分析。在抓取結(jié)果頁面中通常能得到以下有用信息:結(jié)果條目、結(jié)果頁數(shù)、結(jié)果網(wǎng)址(即礦產(chǎn)資源所在網(wǎng)址)。
2) 自動(dòng)身份認(rèn)證。
礦產(chǎn)資源網(wǎng)站中大部分允許外界自由訪問,但也有極少數(shù)的會(huì)員制收費(fèi)網(wǎng)站,需要會(huì)員輸入用戶名和密碼登錄后才能訪問礦產(chǎn)資源行情信息。
為了獲取這些礦產(chǎn)資源行情信息首先需要模擬登錄網(wǎng)站。實(shí)現(xiàn)方法如下:該文使用C++編程語言采用Session、Cookie技術(shù)通過HTTP協(xié)議向目標(biāo)網(wǎng)站發(fā)送驗(yàn)證請(qǐng)求,目標(biāo)網(wǎng)站根據(jù)發(fā)送的用戶名、密碼進(jìn)行驗(yàn)證,驗(yàn)證成功表示允許訪問網(wǎng)站礦產(chǎn)資源行情信息[8]。
5 結(jié)束語
通過信息抓取技術(shù)可以大幅度地提高礦產(chǎn)企業(yè)獲取行業(yè)最新信息的效率,節(jié)省行業(yè)信息收集、存儲(chǔ)、挖掘的相關(guān)費(fèi)用,也是提高企業(yè)核心競爭力的關(guān)鍵。同時(shí)也為礦產(chǎn)企業(yè)決策部門和管理層提供便捷、多途徑的企業(yè)戰(zhàn)略決策工具。提高企業(yè)整體分析研究能力、市場快速反應(yīng)能力,建立起以知識(shí)管理為核心的“行業(yè)知識(shí)庫”,提高核心競爭力。節(jié)約信息采集的人力、物力、時(shí)間,提高辦公效率。
參考文獻(xiàn):
[1] 胡立明.因特網(wǎng)信息抓取的研究與探討[J]. 黑龍江科技信息,2010(9).
[2] 蘭秋軍.互聯(lián)網(wǎng)金融數(shù)據(jù)抓取方法研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(5).
[3] 李凌飛周萍.基于農(nóng)產(chǎn)品商務(wù)網(wǎng)站的價(jià)格數(shù)據(jù)抓取及數(shù)據(jù)分析技術(shù)研究[J].甘肅科技,2011(19):21-26.
[4] 丁寶瓊.網(wǎng)絡(luò)文本信息采集分析關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D].鄭州:解放軍信息工程大學(xué),2009.
[5] 翁巖青.網(wǎng)頁抓取策略研究[D].哈爾濱:哈爾濱工程大學(xué),2010.
[6] 李盛韜,趙章界,余智華.基于主題的Web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程,2003(17).
[7] 王漢賢.網(wǎng)絡(luò)書目信息抓取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].圖書館學(xué)研究,2010(12):32-36.
[8] 唐波.網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù),2009(11).
[9] 魏麗霞,鄭家恒.基于網(wǎng)頁文本結(jié)構(gòu)的網(wǎng)頁去重[J].計(jì)算機(jī)應(yīng)用,2007(11).endprint
2) 實(shí)時(shí)性強(qiáng)、準(zhǔn)確度高。為了確保礦產(chǎn)資源價(jià)格行情評(píng)估的準(zhǔn)確性,企業(yè)要求獲取到的礦產(chǎn)數(shù)據(jù)具有實(shí)時(shí)性強(qiáng)、準(zhǔn)確性高的特點(diǎn)。另外,礦產(chǎn)數(shù)據(jù)具有一定的時(shí)效性,可以反映近期的礦產(chǎn)行情市場變化,為企業(yè)的決策提供科學(xué)的、有效的依據(jù)。
3) 以文本和數(shù)值型數(shù)據(jù)為主。互聯(lián)網(wǎng)中礦產(chǎn)資源行情數(shù)據(jù)主要對(duì)價(jià)格、漲跌等數(shù)值或文本信息進(jìn)行獲取分析,一般不需要圖片、視頻等多媒體數(shù)據(jù)格式[4]。
4) 針對(duì)礦產(chǎn)行業(yè)權(quán)威網(wǎng)站進(jìn)行數(shù)據(jù)采集。為了保證數(shù)據(jù)抓取的可靠性、準(zhǔn)確性、及時(shí)性等特點(diǎn),需要訪問礦產(chǎn)行業(yè)內(nèi)比較權(quán)威的站點(diǎn)進(jìn)行數(shù)據(jù)采集,使獲取的礦產(chǎn)行情數(shù)據(jù)更具有說服力。
5) 獲取的目標(biāo)網(wǎng)址一般有兩種類型。①靜態(tài)網(wǎng)址,目標(biāo)網(wǎng)址是固定不變的網(wǎng)址,可根據(jù)需要自由訪問。②動(dòng)態(tài)網(wǎng)址,這一類的網(wǎng)址是在瀏覽具體頁面內(nèi)容時(shí)動(dòng)態(tài)生成的或者是加密的網(wǎng)址,這時(shí)我們就需要先找到一個(gè)固定的網(wǎng)址入口,從這一入口著手,采用廣度優(yōu)先搜索方法找到具體的內(nèi)容所在的目標(biāo)網(wǎng)址。
3 關(guān)鍵技術(shù)
在復(fù)雜的網(wǎng)絡(luò)環(huán)境下,為了及時(shí)獲取礦產(chǎn)資源行業(yè)信息,需要一種實(shí)時(shí)的、定期的采集友好網(wǎng)頁相關(guān)信息的技術(shù)服務(wù),以便于掌握礦產(chǎn)行業(yè)最新的資源行情動(dòng)態(tài)信息。該文主要采用的關(guān)鍵技術(shù)如下:
1) 信息抓取技術(shù)
在信息抓取技術(shù)的實(shí)現(xiàn)中,主要包括數(shù)據(jù)獲取和信息提取這兩個(gè)方面。而信息獲取技術(shù)的最終目的是獲得礦產(chǎn)資源行業(yè)信息。因此,在復(fù)雜的網(wǎng)絡(luò)環(huán)境及冗余的網(wǎng)頁信息中,提取并分離目標(biāo)信息是非常關(guān)鍵的內(nèi)容?;ヂ?lián)網(wǎng)中常見的網(wǎng)頁格式有html、xml、asp、php、jsp等,但不管采用哪種格式,它們都是通過HTTP協(xié)議將數(shù)據(jù)傳輸?shù)娇蛻舳藶g覽器的。在網(wǎng)頁信息獲取技術(shù)的實(shí)現(xiàn)中,需要借助數(shù)據(jù)抓取軟件或編程,依據(jù)規(guī)則抓取有用數(shù)據(jù)。按照數(shù)據(jù)塊、數(shù)據(jù)行和數(shù)據(jù)字段三個(gè)層次對(duì)數(shù)據(jù)進(jìn)行提取并解析[5]。該文通過向目標(biāo)網(wǎng)址發(fā)送HTTP請(qǐng)求,取得目標(biāo)網(wǎng)址的Html源碼, 采用關(guān)鍵詞截取的方式從Html源碼中獲取目標(biāo)數(shù)據(jù)。
2) WEB技術(shù)
Web技術(shù)是一種典型的分布式應(yīng)用結(jié)構(gòu)。Web應(yīng)用中的信息交換涉及到客戶端和服務(wù)端[6]。因此,Web開發(fā)技術(shù)主要包括客戶端技術(shù)和服務(wù)端技術(shù)。
① Web客戶端技術(shù)
Web客戶端技術(shù)主要功能是對(duì)數(shù)據(jù)庫中存儲(chǔ)的信息進(jìn)行友好展示。該文采用的主要技術(shù)有:HTML語言、JavaScript語言、CSS樣式、ExtJS、插件技術(shù)等。
② Web服務(wù)端技術(shù)
Web服務(wù)端技術(shù)主要功能是處理客戶端提交的用戶請(qǐng)求。該文采用的主要技術(shù)包括服務(wù)器技術(shù)、Asp技術(shù)、Asp.NET技術(shù)等。
4 抓取技術(shù)在礦產(chǎn)行業(yè)的應(yīng)用
1) 首先確實(shí)需要抓取的目標(biāo)網(wǎng)址,并判斷目標(biāo)數(shù)據(jù)的可靠性及抓取的可靠性、難度及抓取規(guī)則。
目標(biāo)網(wǎng)址一般是能夠提供大量礦產(chǎn)資源信息網(wǎng)站的網(wǎng)址。如果目標(biāo)網(wǎng)址是靜態(tài)的,就可以按具體網(wǎng)址訪問;但有些目標(biāo)網(wǎng)址是打開具體頁面時(shí)動(dòng)態(tài)生成的網(wǎng)址,這時(shí)候就需要提供一個(gè)靜態(tài)的網(wǎng)址入口,進(jìn)入具體內(nèi)容所在的列表頁網(wǎng)址,再通過列表頁網(wǎng)址進(jìn)入到具體的內(nèi)容頁面。由于網(wǎng)頁是半結(jié)構(gòu)化文檔,除了數(shù)據(jù)內(nèi)容之外,還會(huì)包括大量格式和其它多媒體信息[7]。所以抓取前一定要先了解目標(biāo)網(wǎng)頁數(shù)據(jù)的結(jié)構(gòu)特點(diǎn),確定目標(biāo)數(shù)據(jù)的抓取規(guī)則。抓取規(guī)則包括:頁面的目標(biāo)網(wǎng)址、關(guān)鍵詞的指定、地區(qū)參數(shù)的限定等。由于各個(gè)網(wǎng)站的規(guī)則不同,所以要根據(jù)具體網(wǎng)站具體分析。在抓取結(jié)果頁面中通常能得到以下有用信息:結(jié)果條目、結(jié)果頁數(shù)、結(jié)果網(wǎng)址(即礦產(chǎn)資源所在網(wǎng)址)。
2) 自動(dòng)身份認(rèn)證。
礦產(chǎn)資源網(wǎng)站中大部分允許外界自由訪問,但也有極少數(shù)的會(huì)員制收費(fèi)網(wǎng)站,需要會(huì)員輸入用戶名和密碼登錄后才能訪問礦產(chǎn)資源行情信息。
為了獲取這些礦產(chǎn)資源行情信息首先需要模擬登錄網(wǎng)站。實(shí)現(xiàn)方法如下:該文使用C++編程語言采用Session、Cookie技術(shù)通過HTTP協(xié)議向目標(biāo)網(wǎng)站發(fā)送驗(yàn)證請(qǐng)求,目標(biāo)網(wǎng)站根據(jù)發(fā)送的用戶名、密碼進(jìn)行驗(yàn)證,驗(yàn)證成功表示允許訪問網(wǎng)站礦產(chǎn)資源行情信息[8]。
5 結(jié)束語
通過信息抓取技術(shù)可以大幅度地提高礦產(chǎn)企業(yè)獲取行業(yè)最新信息的效率,節(jié)省行業(yè)信息收集、存儲(chǔ)、挖掘的相關(guān)費(fèi)用,也是提高企業(yè)核心競爭力的關(guān)鍵。同時(shí)也為礦產(chǎn)企業(yè)決策部門和管理層提供便捷、多途徑的企業(yè)戰(zhàn)略決策工具。提高企業(yè)整體分析研究能力、市場快速反應(yīng)能力,建立起以知識(shí)管理為核心的“行業(yè)知識(shí)庫”,提高核心競爭力。節(jié)約信息采集的人力、物力、時(shí)間,提高辦公效率。
參考文獻(xiàn):
[1] 胡立明.因特網(wǎng)信息抓取的研究與探討[J]. 黑龍江科技信息,2010(9).
[2] 蘭秋軍.互聯(lián)網(wǎng)金融數(shù)據(jù)抓取方法研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(5).
[3] 李凌飛周萍.基于農(nóng)產(chǎn)品商務(wù)網(wǎng)站的價(jià)格數(shù)據(jù)抓取及數(shù)據(jù)分析技術(shù)研究[J].甘肅科技,2011(19):21-26.
[4] 丁寶瓊.網(wǎng)絡(luò)文本信息采集分析關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D].鄭州:解放軍信息工程大學(xué),2009.
[5] 翁巖青.網(wǎng)頁抓取策略研究[D].哈爾濱:哈爾濱工程大學(xué),2010.
[6] 李盛韜,趙章界,余智華.基于主題的Web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程,2003(17).
[7] 王漢賢.網(wǎng)絡(luò)書目信息抓取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].圖書館學(xué)研究,2010(12):32-36.
[8] 唐波.網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù),2009(11).
[9] 魏麗霞,鄭家恒.基于網(wǎng)頁文本結(jié)構(gòu)的網(wǎng)頁去重[J].計(jì)算機(jī)應(yīng)用,2007(11).endprint
2) 實(shí)時(shí)性強(qiáng)、準(zhǔn)確度高。為了確保礦產(chǎn)資源價(jià)格行情評(píng)估的準(zhǔn)確性,企業(yè)要求獲取到的礦產(chǎn)數(shù)據(jù)具有實(shí)時(shí)性強(qiáng)、準(zhǔn)確性高的特點(diǎn)。另外,礦產(chǎn)數(shù)據(jù)具有一定的時(shí)效性,可以反映近期的礦產(chǎn)行情市場變化,為企業(yè)的決策提供科學(xué)的、有效的依據(jù)。
3) 以文本和數(shù)值型數(shù)據(jù)為主?;ヂ?lián)網(wǎng)中礦產(chǎn)資源行情數(shù)據(jù)主要對(duì)價(jià)格、漲跌等數(shù)值或文本信息進(jìn)行獲取分析,一般不需要圖片、視頻等多媒體數(shù)據(jù)格式[4]。
4) 針對(duì)礦產(chǎn)行業(yè)權(quán)威網(wǎng)站進(jìn)行數(shù)據(jù)采集。為了保證數(shù)據(jù)抓取的可靠性、準(zhǔn)確性、及時(shí)性等特點(diǎn),需要訪問礦產(chǎn)行業(yè)內(nèi)比較權(quán)威的站點(diǎn)進(jìn)行數(shù)據(jù)采集,使獲取的礦產(chǎn)行情數(shù)據(jù)更具有說服力。
5) 獲取的目標(biāo)網(wǎng)址一般有兩種類型。①靜態(tài)網(wǎng)址,目標(biāo)網(wǎng)址是固定不變的網(wǎng)址,可根據(jù)需要自由訪問。②動(dòng)態(tài)網(wǎng)址,這一類的網(wǎng)址是在瀏覽具體頁面內(nèi)容時(shí)動(dòng)態(tài)生成的或者是加密的網(wǎng)址,這時(shí)我們就需要先找到一個(gè)固定的網(wǎng)址入口,從這一入口著手,采用廣度優(yōu)先搜索方法找到具體的內(nèi)容所在的目標(biāo)網(wǎng)址。
3 關(guān)鍵技術(shù)
在復(fù)雜的網(wǎng)絡(luò)環(huán)境下,為了及時(shí)獲取礦產(chǎn)資源行業(yè)信息,需要一種實(shí)時(shí)的、定期的采集友好網(wǎng)頁相關(guān)信息的技術(shù)服務(wù),以便于掌握礦產(chǎn)行業(yè)最新的資源行情動(dòng)態(tài)信息。該文主要采用的關(guān)鍵技術(shù)如下:
1) 信息抓取技術(shù)
在信息抓取技術(shù)的實(shí)現(xiàn)中,主要包括數(shù)據(jù)獲取和信息提取這兩個(gè)方面。而信息獲取技術(shù)的最終目的是獲得礦產(chǎn)資源行業(yè)信息。因此,在復(fù)雜的網(wǎng)絡(luò)環(huán)境及冗余的網(wǎng)頁信息中,提取并分離目標(biāo)信息是非常關(guān)鍵的內(nèi)容?;ヂ?lián)網(wǎng)中常見的網(wǎng)頁格式有html、xml、asp、php、jsp等,但不管采用哪種格式,它們都是通過HTTP協(xié)議將數(shù)據(jù)傳輸?shù)娇蛻舳藶g覽器的。在網(wǎng)頁信息獲取技術(shù)的實(shí)現(xiàn)中,需要借助數(shù)據(jù)抓取軟件或編程,依據(jù)規(guī)則抓取有用數(shù)據(jù)。按照數(shù)據(jù)塊、數(shù)據(jù)行和數(shù)據(jù)字段三個(gè)層次對(duì)數(shù)據(jù)進(jìn)行提取并解析[5]。該文通過向目標(biāo)網(wǎng)址發(fā)送HTTP請(qǐng)求,取得目標(biāo)網(wǎng)址的Html源碼, 采用關(guān)鍵詞截取的方式從Html源碼中獲取目標(biāo)數(shù)據(jù)。
2) WEB技術(shù)
Web技術(shù)是一種典型的分布式應(yīng)用結(jié)構(gòu)。Web應(yīng)用中的信息交換涉及到客戶端和服務(wù)端[6]。因此,Web開發(fā)技術(shù)主要包括客戶端技術(shù)和服務(wù)端技術(shù)。
① Web客戶端技術(shù)
Web客戶端技術(shù)主要功能是對(duì)數(shù)據(jù)庫中存儲(chǔ)的信息進(jìn)行友好展示。該文采用的主要技術(shù)有:HTML語言、JavaScript語言、CSS樣式、ExtJS、插件技術(shù)等。
② Web服務(wù)端技術(shù)
Web服務(wù)端技術(shù)主要功能是處理客戶端提交的用戶請(qǐng)求。該文采用的主要技術(shù)包括服務(wù)器技術(shù)、Asp技術(shù)、Asp.NET技術(shù)等。
4 抓取技術(shù)在礦產(chǎn)行業(yè)的應(yīng)用
1) 首先確實(shí)需要抓取的目標(biāo)網(wǎng)址,并判斷目標(biāo)數(shù)據(jù)的可靠性及抓取的可靠性、難度及抓取規(guī)則。
目標(biāo)網(wǎng)址一般是能夠提供大量礦產(chǎn)資源信息網(wǎng)站的網(wǎng)址。如果目標(biāo)網(wǎng)址是靜態(tài)的,就可以按具體網(wǎng)址訪問;但有些目標(biāo)網(wǎng)址是打開具體頁面時(shí)動(dòng)態(tài)生成的網(wǎng)址,這時(shí)候就需要提供一個(gè)靜態(tài)的網(wǎng)址入口,進(jìn)入具體內(nèi)容所在的列表頁網(wǎng)址,再通過列表頁網(wǎng)址進(jìn)入到具體的內(nèi)容頁面。由于網(wǎng)頁是半結(jié)構(gòu)化文檔,除了數(shù)據(jù)內(nèi)容之外,還會(huì)包括大量格式和其它多媒體信息[7]。所以抓取前一定要先了解目標(biāo)網(wǎng)頁數(shù)據(jù)的結(jié)構(gòu)特點(diǎn),確定目標(biāo)數(shù)據(jù)的抓取規(guī)則。抓取規(guī)則包括:頁面的目標(biāo)網(wǎng)址、關(guān)鍵詞的指定、地區(qū)參數(shù)的限定等。由于各個(gè)網(wǎng)站的規(guī)則不同,所以要根據(jù)具體網(wǎng)站具體分析。在抓取結(jié)果頁面中通常能得到以下有用信息:結(jié)果條目、結(jié)果頁數(shù)、結(jié)果網(wǎng)址(即礦產(chǎn)資源所在網(wǎng)址)。
2) 自動(dòng)身份認(rèn)證。
礦產(chǎn)資源網(wǎng)站中大部分允許外界自由訪問,但也有極少數(shù)的會(huì)員制收費(fèi)網(wǎng)站,需要會(huì)員輸入用戶名和密碼登錄后才能訪問礦產(chǎn)資源行情信息。
為了獲取這些礦產(chǎn)資源行情信息首先需要模擬登錄網(wǎng)站。實(shí)現(xiàn)方法如下:該文使用C++編程語言采用Session、Cookie技術(shù)通過HTTP協(xié)議向目標(biāo)網(wǎng)站發(fā)送驗(yàn)證請(qǐng)求,目標(biāo)網(wǎng)站根據(jù)發(fā)送的用戶名、密碼進(jìn)行驗(yàn)證,驗(yàn)證成功表示允許訪問網(wǎng)站礦產(chǎn)資源行情信息[8]。
5 結(jié)束語
通過信息抓取技術(shù)可以大幅度地提高礦產(chǎn)企業(yè)獲取行業(yè)最新信息的效率,節(jié)省行業(yè)信息收集、存儲(chǔ)、挖掘的相關(guān)費(fèi)用,也是提高企業(yè)核心競爭力的關(guān)鍵。同時(shí)也為礦產(chǎn)企業(yè)決策部門和管理層提供便捷、多途徑的企業(yè)戰(zhàn)略決策工具。提高企業(yè)整體分析研究能力、市場快速反應(yīng)能力,建立起以知識(shí)管理為核心的“行業(yè)知識(shí)庫”,提高核心競爭力。節(jié)約信息采集的人力、物力、時(shí)間,提高辦公效率。
參考文獻(xiàn):
[1] 胡立明.因特網(wǎng)信息抓取的研究與探討[J]. 黑龍江科技信息,2010(9).
[2] 蘭秋軍.互聯(lián)網(wǎng)金融數(shù)據(jù)抓取方法研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(5).
[3] 李凌飛周萍.基于農(nóng)產(chǎn)品商務(wù)網(wǎng)站的價(jià)格數(shù)據(jù)抓取及數(shù)據(jù)分析技術(shù)研究[J].甘肅科技,2011(19):21-26.
[4] 丁寶瓊.網(wǎng)絡(luò)文本信息采集分析關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D].鄭州:解放軍信息工程大學(xué),2009.
[5] 翁巖青.網(wǎng)頁抓取策略研究[D].哈爾濱:哈爾濱工程大學(xué),2010.
[6] 李盛韜,趙章界,余智華.基于主題的Web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程,2003(17).
[7] 王漢賢.網(wǎng)絡(luò)書目信息抓取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].圖書館學(xué)研究,2010(12):32-36.
[8] 唐波.網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù),2009(11).
[9] 魏麗霞,鄭家恒.基于網(wǎng)頁文本結(jié)構(gòu)的網(wǎng)頁去重[J].計(jì)算機(jī)應(yīng)用,2007(11).endprint