賀冠博+蘇宇琦+黃源
摘要
隨著技術(shù)的進步,將互聯(lián)網(wǎng)技術(shù)和設(shè)計研究結(jié)構(gòu)融合在一起,能在提升設(shè)計參數(shù)有效性的同時,提升設(shè)計框架的完整度,確保設(shè)計效果最優(yōu)化。網(wǎng)絡(luò)爬蟲爬取的網(wǎng)頁信息以固定的格式獲取到本地后,能達到一種比較合理科學(xué)性的空間膨脹比,并提升技術(shù)分析參數(shù)的完整度。因此,要想從根本上優(yōu)化技術(shù)設(shè)計框架質(zhì)量,就要結(jié)合網(wǎng)絡(luò)爬蟲技術(shù)中的不同框架要素。
【關(guān)鍵詞】網(wǎng)絡(luò)爬蟲技術(shù) 分析 網(wǎng)絡(luò)爬蟲設(shè)計
國際互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展讓人類步入了大數(shù)據(jù)、云信息時代,在這種背景下,目前全球網(wǎng)頁己經(jīng)超過20億,而且正在以每天730萬的數(shù)量不斷增加。在如此浩瀚的信息海洋中尋找信息宛如大海撈針。而搜索引擎技術(shù)的出現(xiàn)正解決了這一問題,它充分利用到了信息檢索、人工智能、計算機網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)挖掘、數(shù)據(jù)庫、數(shù)字圖書館、自然語言處理等多領(lǐng)域理論技術(shù),為互聯(lián)網(wǎng)技術(shù)發(fā)展提供了充足的參考依據(jù)。網(wǎng)絡(luò)爬蟲(Web Crawler)作為搜索引擎中的關(guān)鍵部分,它也被稱為網(wǎng)絡(luò)蜘蛛(Web Spider)、Web信息采集器,它是一個自動下載網(wǎng)頁的計算機程序(自動化腳本),能夠從一個稱之為種子集的URL集合中展開運行流程。具體來講,它會將URL集合中的所有URL全部放入到某一個有序的待爬行隊列中,按照一定順序從中提取URL以下在被指定網(wǎng)頁頁面,同時分析頁面內(nèi)容,最后提取新的URL并存入待爬行URL隊列中,如此反復(fù),直到URL隊列為空或滿足某一爬行終止條件,實現(xiàn)用戶對Web的有效瀏覽,因此它還被稱之為網(wǎng)絡(luò)爬行(Web Crawling)。
作為網(wǎng)絡(luò)機器人中的一種,它隨著當前網(wǎng)絡(luò)資源的爆炸式膨脹而不斷實現(xiàn)個性化更新,擴大自身索引規(guī)模。傳統(tǒng)通用爬蟲技術(shù)己經(jīng)不能滿足現(xiàn)有索引規(guī)模及網(wǎng)絡(luò)個性化更新速度,更不能滿足客戶現(xiàn)實需求。所以像主題爬蟲的出現(xiàn)則異于通用爬蟲,它可以采集全部網(wǎng)絡(luò)資源,從互聯(lián)網(wǎng)上采集特定主題資源網(wǎng)頁,進而大幅度提升信息資源搜索效率,逐漸成為當前研究熱點。在美國的卡內(nèi)基梅隆大學(xué),眾多信息技術(shù)研究者就設(shè)計了Context Focused Crawler聚焦爬蟲系統(tǒng),提出了網(wǎng)頁主題管理WTMS系統(tǒng),并基于計算ontology相關(guān)度設(shè)計了主題爬蟲,逐步完善其體系結(jié)構(gòu)與框架,提出了目前全新的Web資源爬行系統(tǒng)IBM Focused Crawler。而國內(nèi)南京大學(xué)的學(xué)者教授則在近年來設(shè)計了IDGS數(shù)據(jù)采集系統(tǒng),該系統(tǒng)也基于Web技術(shù)與網(wǎng)絡(luò)爬蟲技術(shù)實現(xiàn)了網(wǎng)絡(luò)資源信息自動搜集功能,己經(jīng)被社會上各行各業(yè)所廣泛應(yīng)用。
在我國的國家電網(wǎng)行業(yè),全系統(tǒng)內(nèi)外網(wǎng)隔離及外部搜索引擎己經(jīng)無法進入系統(tǒng)內(nèi)部網(wǎng)絡(luò),因此在電力企業(yè)內(nèi)部就必須通過更多網(wǎng)頁信息交流及鏈接交換功能來實現(xiàn)信息檢索和傳播。為此,電力系統(tǒng)應(yīng)該基于廣域網(wǎng)特點,充分利用網(wǎng)絡(luò)爬蟲技術(shù),對廣域網(wǎng)中的有效信息進行分類過濾和快速收集,確保信息的準確性與完整性。電力產(chǎn)業(yè)作為關(guān)系到國民經(jīng)濟的重要行業(yè),積極應(yīng)用相關(guān)技術(shù)推動其優(yōu)化發(fā)展,是產(chǎn)業(yè)發(fā)展的必然趨勢。本文將從網(wǎng)絡(luò)爬蟲技術(shù)整體結(jié)構(gòu)介紹入手,對網(wǎng)絡(luò)爬蟲技術(shù)基本框架和網(wǎng)絡(luò)爬蟲設(shè)計進行了分析設(shè)計,并著重闡釋了網(wǎng)絡(luò)爬蟲工具在信息調(diào)度值班中的應(yīng)用路徑,旨在證明網(wǎng)絡(luò)爬蟲技術(shù)在電力產(chǎn)業(yè)中的應(yīng)用作用,并為技術(shù)研究人員提供有價值的參考建議。
1網(wǎng)絡(luò)爬蟲技術(shù)整體結(jié)構(gòu)
網(wǎng)絡(luò)爬蟲技術(shù)結(jié)構(gòu)在建立過程中,要保證每個子目標都貼合系統(tǒng)的實際發(fā)展結(jié)構(gòu)和規(guī)律,確保運行參數(shù)和運行結(jié)構(gòu)的穩(wěn)定性,也能提升網(wǎng)絡(luò)爬蟲技術(shù)的實際效率。在整體結(jié)構(gòu)研究過程中,技術(shù)人員要針對靈活性、低成本以及高性能進行集中管控,確保運行參數(shù)和運行維度之間能建立有效的平衡結(jié)構(gòu)。另外,網(wǎng)絡(luò)爬蟲技術(shù)的健壯性特征也較為明顯,正是基于服務(wù)器通信結(jié)構(gòu)和服務(wù)器系統(tǒng)化反應(yīng),能在處理服務(wù)器異常舉動的過程中,確保對URL進行集中判定,從而對系統(tǒng)中PC結(jié)構(gòu)的基本結(jié)點進行辨認,特別是處理錯誤的程序較為有效。特別要注意的是,在運行網(wǎng)絡(luò)爬蟲技術(shù)的過程中,基本框架能對信息和數(shù)據(jù)運行速度實現(xiàn)有效控制,在規(guī)定范圍內(nèi)保持訪問間隔運行有效,并對服務(wù)器要進行每隔30秒的訪問。
2網(wǎng)絡(luò)爬蟲技術(shù)基本框架
2.1網(wǎng)絡(luò)艦蟲技術(shù)爬行節(jié)點結(jié)構(gòu)設(shè)計
網(wǎng)絡(luò)爬蟲技術(shù)基本框架由不同的PC端構(gòu)成,其中要對控制節(jié)點的設(shè)計結(jié)構(gòu)進行分析,在結(jié)構(gòu)設(shè)計中要對五個基本模塊進行綜合分析。
2.1.1URL分配模塊
該模塊主要是為了有效協(xié)調(diào)不同結(jié)點之間的工作項目,確保參數(shù)結(jié)構(gòu)符合實際需求,也為了將不同任務(wù)直接分配給不同的項目節(jié)點,需要技術(shù)人員對工作節(jié)點的時序性和工作具體要求進行分析,從而保證任務(wù)分配下項目在不同節(jié)點能發(fā)揮相應(yīng)的效力。特別要注意的是,不同結(jié)點要保證工作不會出現(xiàn)重復(fù),并能根據(jù)實際情況集中進行項目添加。
2.1.2結(jié)點通信模塊
技術(shù)人員能利用不同的技術(shù)參數(shù)對系統(tǒng)進行集中管控,確保管理結(jié)構(gòu)和參數(shù)之間能建立有效的平衡,在提高結(jié)點通信模塊通信效率的同時,能利用采集器對采集網(wǎng)頁上的信息進行直接處理,確保信息共享和信息交互。需要注意的是,在模塊運行過程中,本身需要具備一定的策略結(jié)構(gòu),系統(tǒng)要在對等網(wǎng)絡(luò)建立的過程中確保通信協(xié)議符合實際標準,提高通信器的實際價值。
2.1.3URL分析模塊
在模塊運行過程中,能對即將訪問的URL隊列模塊和己經(jīng)訪問的URL隊列模塊進行集中處理,并對IP和域名轉(zhuǎn)換模塊進行綜合審定。
2.2網(wǎng)絡(luò)爬蟲技術(shù)控制節(jié)點結(jié)構(gòu)設(shè)計
在對網(wǎng)絡(luò)爬蟲技術(shù)控制節(jié)點進行分析的過程中,能對數(shù)據(jù)進行集中的管控,主要是對運行狀態(tài)進行觀察,并對參數(shù)進行調(diào)整。要對刪除結(jié)點結(jié)構(gòu)和監(jiān)控項目進行綜合分析,實現(xiàn)管理效果和管理水平的集中優(yōu)化。
(1)在對運行狀態(tài)和運行參數(shù)調(diào)整的過程中,技術(shù)人員要保證對不同結(jié)點的運行維度和運行參數(shù)進行著重解構(gòu),對URL實際數(shù)目和參數(shù)結(jié)構(gòu)進行集中調(diào)整,以保證系統(tǒng)在最佳狀態(tài)運行實際工作。endprint
(2)技術(shù)人員要對系統(tǒng)添加和刪除結(jié)點進行集中控制,以保證必要操作的完整度,真正從系統(tǒng)的擴展性和容錯性出發(fā),提高系統(tǒng)整體質(zhì)量。例如,要對系統(tǒng)中的ADDnode()以及Deletenode()進行集中記錄,以保證信息同步操作的完整度,也實現(xiàn)副本更新的整體處理目標。
(3)在對結(jié)點進行有效監(jiān)控的過程中,技術(shù)人員要對系統(tǒng)中的同步模塊進行綜合管理,確保結(jié)點列表內(nèi)部的信息真實有效,也要對結(jié)點中的hash映射信息和數(shù)據(jù)進行集中處理,減少其隨意的向其他結(jié)點布置任務(wù)的情況。
3網(wǎng)絡(luò)爬蟲設(shè)計
3.1網(wǎng)絡(luò)爬蟲分布式設(shè)計策略
前文提到了任務(wù)在結(jié)點之間的分配,需要技術(shù)人員針對具體問題進行優(yōu)化管控,也要對分布式策略進行綜合分析,確保設(shè)計策略能貼合系統(tǒng)的實際需求。在分布式策略建立和運行的過程中,技術(shù)人員要針對具體問題進行優(yōu)化處理,最重要的就是要將信息劃分為分布式信息采集系統(tǒng)和廣域網(wǎng)分布式信息采集結(jié)構(gòu)。一方面,分布式信息采集系統(tǒng)要對內(nèi)連接信息進行集中總結(jié),另一方面,要保證采集器能將信息借助網(wǎng)絡(luò)遠程通信實現(xiàn)信息維度控制的有效性。技術(shù)人員要對廣域網(wǎng)模式進行集中管控,也要對廣域網(wǎng)和局域網(wǎng)之間的結(jié)合結(jié)構(gòu)進行綜合分析,確保處理機制和結(jié)點運行機制貼合實際市場發(fā)展訴求。
3.2網(wǎng)絡(luò)爬蟲多線程下載設(shè)計策略
多線程下載設(shè)計結(jié)構(gòu)最基本的優(yōu)勢就是能對多個單程進行記錄,確保不同事件能統(tǒng)一運行。例如,在一個線程運行GUI指令時,需要對數(shù)據(jù)和信息進行登記,第二個線程運行或執(zhí)行I/O操作指令的過程中,第三個線程在運行時,需要對整體系統(tǒng)參數(shù)和結(jié)構(gòu)進行計算,確保管控結(jié)構(gòu)具有時效性。多線程結(jié)構(gòu)最大的優(yōu)勢就是在程序內(nèi)部能提高計算機的實際效率,提升程序有效性的同時,建構(gòu)更加有效的內(nèi)存空間,從而共享數(shù)據(jù)信息。只有保證多線程下載設(shè)計策略優(yōu)化運行,才能真正提高整體運行結(jié)構(gòu)和效率。
3.3網(wǎng)絡(luò)爬蟲網(wǎng)頁分析設(shè)計策略
主要對HTML標記進行分析,其中包括單標記和雙標記項目,第一,標記為“單標記”需要在單獨運行過程中對信息進行完整表達,常用標記就是
。第二,標記為“雙標記”要對初始標志和結(jié)尾標記進行結(jié)構(gòu)分析,確保標記結(jié)構(gòu)符合數(shù)據(jù)要求,常用的標記形式是。
4網(wǎng)絡(luò)爬蟲工具在電力企業(yè)信息調(diào)度值班中的應(yīng)用
在技術(shù)逐步發(fā)展的進程中,將網(wǎng)絡(luò)爬蟲技術(shù)和信息調(diào)度工作融合在一起,是順應(yīng)市場發(fā)展訴求的必然趨勢,本項目主要是將網(wǎng)絡(luò)爬蟲工具應(yīng)用于電力企業(yè)調(diào)度值班工作中。
(1)要在電力企業(yè)信息調(diào)度值班中運行有效的網(wǎng)絡(luò)爬蟲工具,提升管控制度的優(yōu)化水平,借助網(wǎng)絡(luò)爬蟲技術(shù)實現(xiàn)各應(yīng)用系統(tǒng)定時自動巡檢,快速定位出現(xiàn)訪問異常的系統(tǒng),并對其具體參數(shù)進行集中分析和控制,有效記錄異常發(fā)現(xiàn)時間,在應(yīng)用巡檢工具之前,值班員通過人工巡檢各應(yīng)用系統(tǒng),檢查系統(tǒng)的正常情況,平均每隔2小時檢查1次,每次用時30分鐘,則每天只能檢查12次,需耗時6小時;在使用巡檢工具后,可以達到每隔30分鐘巡檢1次系統(tǒng),每次用時不超過5分鐘,則每天可以巡檢48次,耗時僅用4小時。
(2)值班人員也要借助網(wǎng)絡(luò)爬蟲工具強化信息值班調(diào)度的實際效果,并能及時通過短信的方式告知其他調(diào)度值班人員,以保證人力資源配置結(jié)構(gòu)的完整度,優(yōu)化技術(shù)應(yīng)用的實際效果,順利實現(xiàn)信息調(diào)度值班項目的優(yōu)化目標。
(3)電力企業(yè)在調(diào)度工作中若是發(fā)現(xiàn)任何問題,都需要值班人員確后第一時間聯(lián)系系統(tǒng)負責人,及時處理系統(tǒng)異常問題,有效的提高值班工作中發(fā)現(xiàn)系統(tǒng)異常、處理問題的效率,減輕了每天手工巡檢系統(tǒng)的效率,為值班工作帶來了切實有效的巡檢手段。
(4)電力企業(yè)要針對信息調(diào)度值班工作人員進行集中的技術(shù)培訓(xùn),提升其信息處理能力和技術(shù)操作意識,確保整體管理效果和管理層級符合企業(yè)發(fā)展的實際需求,真正落實技術(shù)優(yōu)勢,進一步提高網(wǎng)絡(luò)爬蟲技術(shù)對信息調(diào)度值班項目的優(yōu)化水平。
5結(jié)束語
總而言之,將網(wǎng)絡(luò)爬蟲技術(shù)和信息調(diào)度
項目融合在一起,能從根本上提高整體運行結(jié)構(gòu)質(zhì)量和效率,確保管理措施和管理效果更加符合市場需求,順利優(yōu)化仿真系統(tǒng)的有效性,從而保證企業(yè)的工作效率,從根本上實現(xiàn)技術(shù)工作按照標準化流程優(yōu)化運行,調(diào)度員也能在仿真系統(tǒng)中獲得有效的信息和數(shù)據(jù),為我國信息項目可持續(xù)發(fā)展奠定堅實基礎(chǔ)。
參考文獻
[1]張明杰.基于網(wǎng)絡(luò)爬蟲技術(shù)的輿情數(shù)據(jù)采集系統(tǒng)設(shè)計與實現(xiàn)[J].現(xiàn)代計算機(專業(yè)版),2015,15(12):72-75.
[2]周大.云環(huán)境下Web應(yīng)用掃描中的網(wǎng)絡(luò)爬蟲技術(shù)探究[J].信息網(wǎng)絡(luò)安全,2013,15(05):20-23.
[3]鐘锃光.經(jīng)濟學(xué)家也要學(xué)點網(wǎng)絡(luò)爬蟲技術(shù)——漫談爬蟲技術(shù)與經(jīng)濟數(shù)據(jù)收集[J].經(jīng)濟資料譯叢,2014,22(02):94-100.
[4]徐劍,柯貴明.網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[C].全國第24屆計算機技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會議論文集,2013:531-535.
[5]彭冬,蔡皖東.面向Web論壇的網(wǎng)絡(luò)信息獲取技術(shù)及系統(tǒng)實現(xiàn)[J].計算機工程與科學(xué),2014,33(01):157-160.