• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于主題網(wǎng)絡(luò)爬蟲的創(chuàng)業(yè)政策信息采集研究與實現(xiàn)

      2017-07-10 06:16鄭正趙飛周昕碭
      電腦知識與技術(shù) 2017年14期

      鄭正+趙飛+周昕碭

      摘要:為了快速地獲取創(chuàng)業(yè)政策信息的采集與定位,該文設(shè)計了一種基于主題網(wǎng)絡(luò)爬蟲的爬行策略和網(wǎng)頁相關(guān)度算法,文中詳細(xì)描述了種子URL的設(shè)計,定時更新策略,網(wǎng)頁相關(guān)性的識別分類方法,以及該網(wǎng)頁在創(chuàng)業(yè)政策信息中的重要性設(shè)計算法,并呈現(xiàn)了設(shè)計的相關(guān)流程和實現(xiàn)界面。

      關(guān)鍵詞:主題爬蟲;爬行策略;網(wǎng)頁相關(guān)度評價

      中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:1009-3044(2017)14-0049-03

      1研究背景

      由于世界經(jīng)濟復(fù)蘇乏力,中國經(jīng)濟面臨轉(zhuǎn)型,我國經(jīng)濟發(fā)展亟須尋找新型動能,隨著李克強總理在2014年夏季達(dá)沃斯論壇開幕式上提出形成“大眾創(chuàng)業(yè)”、“草根創(chuàng)業(yè)”的新局面和在兩會政府報告中加以強調(diào),“大眾創(chuàng)業(yè)、萬眾創(chuàng)業(yè)”的新浪潮開始引發(fā)公眾關(guān)注。

      國家對創(chuàng)業(yè)創(chuàng)新非常重視,頻頻出臺多項法律法規(guī)予以支持,各級政府也紛紛響應(yīng),鼓勵廣大社會人士進行創(chuàng)業(yè)。但在實際的實施中,一些政策存在交叉重復(fù)現(xiàn)象,缺乏一個能將所有相關(guān)政策整合起來的系統(tǒng),恰是由于頂層宏觀設(shè)計的缺乏,導(dǎo)致政策效果大打折扣,執(zhí)行程序繁瑣,大眾群體很難迅速準(zhǔn)確的找到自己希望得到的相關(guān)創(chuàng)業(yè)信息。

      本文旨以“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”為主題,建立一個基于主題網(wǎng)絡(luò)爬蟲數(shù)據(jù)采集系統(tǒng),將從不同層面從網(wǎng)絡(luò)中采集相關(guān)信息,通過過濾和整理形成創(chuàng)業(yè)政策信息數(shù)據(jù)庫,為所有創(chuàng)業(yè)意向的人提供方便的相關(guān)創(chuàng)業(yè)政策和法規(guī)信息的咨詢與瀏覽,讓他們能夠更快地尋找到他們所在地政府支持創(chuàng)業(yè)的相關(guān)政策。

      2網(wǎng)絡(luò)爬蟲相關(guān)研究

      網(wǎng)絡(luò)爬蟲(Web Crawler),又稱為網(wǎng)絡(luò)蜘蛛(Web Spider)或者是網(wǎng)絡(luò)機器人,是一個自動下載網(wǎng)頁的計算機程序或自動化腳本,在網(wǎng)絡(luò)搜索引擎中起著非常重要的作用。網(wǎng)絡(luò)爬蟲通常從一個已有的URL子集出發(fā),沿著網(wǎng)頁的超鏈接按照一定的順序從中取出URL,下載所指向的頁面,分析頁面內(nèi)容,提取新的URL并存入待爬行URL集合中,不斷重復(fù)上述過程,當(dāng)滿足某一終止條件(達(dá)到指定數(shù)量或者爬行隊列為空)后停止爬行。

      網(wǎng)絡(luò)爬蟲是幫助客戶從網(wǎng)絡(luò)中獲取信息的有效工具,但是隨著網(wǎng)絡(luò)普及和網(wǎng)絡(luò)社交的泛濫,網(wǎng)絡(luò)上的數(shù)據(jù)呈現(xiàn)爆炸式的增長,互聯(lián)網(wǎng)上含有超過16億的網(wǎng)站,而這些被索引的網(wǎng)站至少包含了217億的頁面。面對如此多的數(shù)據(jù),通用網(wǎng)絡(luò)爬蟲出現(xiàn)以下幾個方面的問題:單位時間內(nèi)獲取的數(shù)量不滿足用戶需求、采用并行爬行后頁面質(zhì)量下降、爬取的內(nèi)容大量重復(fù)、對通信帶寬造成巨大壓力。

      主題網(wǎng)絡(luò)爬蟲相對于通用網(wǎng)絡(luò)爬蟲有幾點的改進:1)主題網(wǎng)絡(luò)爬蟲的初始URL種子集是與主題相關(guān)度高的頁面;2)在爬蟲的爬取過程中下載與主題相關(guān)的頁面,從中取出并取URL;3)引入優(yōu)先級隊列,判斷URL是否重復(fù)出現(xiàn),按照優(yōu)先級對URL進行訪問,無關(guān)的URL將會被拋棄。這樣做的優(yōu)點是:產(chǎn)生的數(shù)據(jù)更加準(zhǔn)確和契合用戶需求、處理大量數(shù)據(jù)信息速度更快捷、節(jié)省了硬件和網(wǎng)絡(luò)資源,降低了硬件成本地投入。

      3設(shè)計與實現(xiàn)

      主題網(wǎng)絡(luò)爬蟲的設(shè)計要考慮四個方面:1)主題信息的定義與描述:主題描述主要采用關(guān)鍵詞描述、基于概念或本體的語義描述等方法;2)如何評估網(wǎng)頁的主題相關(guān)度:主要方法是基于文本的挖掘技術(shù);3)如何決定URL的訪問順序:一般采取設(shè)置主題相關(guān)度較高的URL優(yōu)先爬??;4)如何提高主題網(wǎng)絡(luò)爬蟲的覆蓋度:需要透過主題無關(guān)的網(wǎng)頁,尋找主題相關(guān)信息,提供主題資源的覆蓋度。

      3.1主題信息下的全局周期性掃描設(shè)計

      為了獲得主題信息全面和最新的相關(guān)網(wǎng)頁,本文采用基于主題的全局周期性掃描設(shè)計。定時更新掃描流程如圖1所示。具體詳細(xì)描述如下。

      首先,設(shè)置初始化URL主題子集存放在txt文本中,當(dāng)爬行開始時將一個初始化的URL放入到爬行隊列中。為了實現(xiàn)實時對URL監(jiān)控,設(shè)置了三個隊列:爬行隊列、不相關(guān)隊列和完成隊列,每個URL在某一時間點一定處于在某個隊列中。爬行隊列用于存儲要訪問的URL(初始URL子集和后續(xù)爬取到的URL);不相關(guān)隊列用于存儲無法訪問的URL和與主題不相關(guān)的URL;完成隊列用于存儲與主題相關(guān)的URL。三個隊列需要滿足先進先出的原則,URL入隊時從隊首入隊,從隊尾出隊。

      其次判斷爬行隊列是否為空,如果爬行隊列為空的話,表示沒有URL待訪問,這時候可以結(jié)束爬蟲。否則,從爬行隊列中獲得URL后,系統(tǒng)采用GET方式向http協(xié)議發(fā)出請求,根據(jù)http協(xié)議的響應(yīng)判斷網(wǎng)頁是否可以打開。如果響應(yīng)失敗,將URL放人到不相關(guān)隊列中。如果響應(yīng)成功的話,利用java中的DownLoadFile(方法下載網(wǎng)頁內(nèi)容,并且以字符串的形式用文本保存。

      最后對已爬取的網(wǎng)頁實現(xiàn)更新。通過獲取http報頭的LastModifiedtime計算網(wǎng)頁的checkpoint。使用網(wǎng)頁內(nèi)容的MD5(Message-Digest Algorithm 5(信息一摘要算法))值加上網(wǎng)頁長度作為checkpoint。MD5算法取清洗后的網(wǎng)頁的內(nèi)容計算摘要值,將網(wǎng)頁內(nèi)容變換成一個128bit的整數(shù)。如果HTTP頭中沒有返回Last Modified time,或者返回值無意義,LMT的取值為發(fā)現(xiàn)該網(wǎng)頁變化的時間,否則取值為Last Modified。如果發(fā)現(xiàn)網(wǎng)頁本次更新時間(LMT1)大于上次網(wǎng)頁訪問時間(LVT),則保存當(dāng)前網(wǎng)頁,提取網(wǎng)頁中的URL,將URL加到爬行隊列中。

      3.2評估網(wǎng)頁的相關(guān)性

      采用LibSVM分類器設(shè)計,網(wǎng)頁的相關(guān)性用相關(guān)分詞、詞頻、分詞所歸屬的行政級別作為數(shù)據(jù)集的特征屬性,以此評估網(wǎng)頁內(nèi)容的相關(guān)性。網(wǎng)頁相關(guān)性的評估流程如圖2所示。

      分類器主要分為兩個流程:訓(xùn)練分類器和測試相關(guān)性。

      第一個流程:通過樣本訓(xùn)練得到分類器。

      1)首先對網(wǎng)頁進行預(yù)處理和清洗,去除無用信息。

      2)讀取網(wǎng)頁內(nèi)容,進行分詞、選擇出名詞,建立詞袋模型。

      3)用CHI算法的卡方統(tǒng)計量,建立特征向量詞表。

      41對訓(xùn)練集中的文檔進行量化處理,使用TF-IDF度量,得到LibSVM輸入的訓(xùn)練樣本格式文件。

      5)將訓(xùn)練數(shù)據(jù)輸入,訓(xùn)練得到模型文件,使用線性核函數(shù),建立相關(guān)度的分類器。

      第二個流程:對測試網(wǎng)頁進行測試相關(guān)性。

      1)讀取待分類URL對應(yīng)的網(wǎng)頁文本,進行分詞,去停用詞,建立詞袋模型。

      2)加載特征向量,取出不在特征向量中的詞語。

      3)將待分類文本與訓(xùn)練樣本一起計算TF-IDF值,得到符合LibSVM數(shù)據(jù)輸人格式的數(shù)據(jù)文件。

      4)使用該數(shù)據(jù)文件作為輸入,利用第一步建設(shè)好的分類器評估網(wǎng)頁的相關(guān)度。

      3.3提取高相關(guān)度的網(wǎng)頁

      利用加權(quán)計算的方法得到網(wǎng)頁相關(guān)度。設(shè)網(wǎng)頁與眾創(chuàng)政策法規(guī)的相關(guān)度設(shè)置為R,網(wǎng)頁中的文字、錨文本和URL的相關(guān)度分別設(shè)置為C1、C2和C3。權(quán)重設(shè)置為W1、W2和W3。所以一個網(wǎng)頁的相關(guān)度R可按如式1:

      設(shè)計主題相關(guān)度的閾值TH,當(dāng)網(wǎng)頁相關(guān)度R的數(shù)值大于閾值時就被定義為相關(guān)網(wǎng)頁,否則定義為不相關(guān)網(wǎng)頁,將其放在不相關(guān)隊列中,放棄進一步的處理。對于相關(guān)網(wǎng)頁,將相關(guān)網(wǎng)頁的文本內(nèi)容保存到本地的txt文件中,然后將在全局掃描模塊解析得到的URL(當(dāng)前網(wǎng)頁中含有的超鏈接)送入到爬行隊列。最后,將當(dāng)前URL加入到完成隊列,從而完成了對當(dāng)前URL網(wǎng)頁的信息采集。

      因為有新的URL加入,爬行隊列得以持續(xù)的爬行。而整個網(wǎng)絡(luò)爬蟲也會重復(fù)上述的步驟不斷采集與眾創(chuàng)政策法規(guī)類信息相關(guān)的網(wǎng)頁內(nèi)容。當(dāng)爬行隊列不再有新的URL加入并且為空時,爬蟲結(jié)束。

      3.4實現(xiàn)結(jié)果

      本文設(shè)計實現(xiàn)的內(nèi)容表述如下:

      1)初始主題的URL種子集,如圖3所示。

      2)基于主題種子數(shù)據(jù)集,爬蟲爬行的URL鏈接如圖4所示。

      3)對URL爬取到許多鏈接進行LibSVM相關(guān)性測試和標(biāo)注。測試結(jié)果如圖5所示,列出了所有刪除和相關(guān)的網(wǎng)頁內(nèi)容。

      4結(jié)束語

      本文介紹了眾創(chuàng)政策法規(guī)類信息采集的主題爬蟲的爬行策略和網(wǎng)頁相關(guān)度算法,在爬行算法上應(yīng)用了初始種子URL、定時啟動爬行和更新種子策略,在網(wǎng)頁相關(guān)性上使用了分類識別模式,自動甄別相關(guān)性網(wǎng)頁,在網(wǎng)頁相關(guān)度排序算法中使用了文本關(guān)鍵詞、詞性統(tǒng)計以及詞所屬級別等評價統(tǒng)計方法,以上方法的綜合使用,大大提高了主體網(wǎng)絡(luò)爬蟲的搜索效率和準(zhǔn)確性,減少了頻繁無效的過度訪問,為用戶定位眾創(chuàng)政策法規(guī)類信息網(wǎng)址定位提供了高效自動的采集方法。

      昂仁县| 虹口区| 日照市| 鄯善县| 康马县| 五家渠市| 东山县| 卓资县| 临沧市| 滁州市| 龙南县| 黄山市| 望江县| 新沂市| 南阳市| 襄樊市| 桐城市| 调兵山市| 南京市| 水富县| 苏尼特左旗| 古浪县| 华亭县| 镇原县| 霍邱县| 长海县| 资溪县| 东乡| 奉节县| 获嘉县| 昌平区| 岢岚县| 文登市| 平邑县| 焉耆| 耿马| 阿拉善盟| 昌平区| 喀喇| 蒙阴县| 象州县|