• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)中主題網(wǎng)絡(luò)爬蟲的研究

      2015-06-24 15:25:56李月超等
      電腦知識(shí)與技術(shù) 2015年2期

      李月超等

      摘要:目前,網(wǎng)絡(luò)已成反映社會(huì)輿情的重要載體。而隨著網(wǎng)絡(luò)輿情的快速發(fā)展,其對(duì)社會(huì)的影響是巨大的,已受到各個(gè)部門的重點(diǎn)關(guān)注。現(xiàn)階段,網(wǎng)絡(luò)輿情的監(jiān)控系統(tǒng)的分析一般是通過(guò)人工方式實(shí)現(xiàn)。因?yàn)樾枰獙?shí)時(shí)跟蹤與監(jiān)控的網(wǎng)站數(shù)據(jù)量比較多,而且模式復(fù)雜,人工方式已經(jīng)難以滿足相關(guān)要求。因此,應(yīng)該加強(qiáng)網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)主題網(wǎng)絡(luò)爬蟲功能研究,從而有效滿足面向特定范圍內(nèi)的信息采集和監(jiān)測(cè)有關(guān)要求。

      關(guān)鍵詞:網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng);主題網(wǎng)絡(luò)爬蟲;信息收集

      中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)02-0046-02

      網(wǎng)絡(luò)輿情主要是利用互聯(lián)網(wǎng)傳播具備的公眾性,針對(duì)實(shí)際生活中一些熱點(diǎn)與焦點(diǎn)問(wèn)題所具備的影響力和傾向性言論以及觀點(diǎn)的等,通過(guò)社會(huì)輿論所表達(dá)的一個(gè)方式。因?yàn)榫W(wǎng)絡(luò)輿情擁有傳播速度快和影響力大等特點(diǎn),所以應(yīng)該創(chuàng)建自動(dòng)化與現(xiàn)代化網(wǎng)絡(luò)輿情的監(jiān)控系統(tǒng),從而確保網(wǎng)絡(luò)輿情相關(guān)信息的及時(shí)、有效采集和分析以及監(jiān)控等。另外,網(wǎng)絡(luò)輿情的監(jiān)控系統(tǒng)一般包含信息采集模塊和預(yù)處理模塊以及分析模塊等,其中采集模塊作為輿情分析和處理工作的前提,該核心內(nèi)容就是利用一個(gè)或是多個(gè)并行采集設(shè)備從互聯(lián)網(wǎng)中有效收集相關(guān)網(wǎng)頁(yè)數(shù)據(jù),而采集設(shè)備一般稱之為網(wǎng)絡(luò)爬蟲或是網(wǎng)絡(luò)蜘蛛。本文主要對(duì)網(wǎng)絡(luò)爬蟲與主題網(wǎng)絡(luò)爬蟲相關(guān)處理流程進(jìn)行了分析,從而針對(duì)主題網(wǎng)絡(luò)爬蟲的相應(yīng)設(shè)計(jì)模塊結(jié)構(gòu)完成優(yōu)化,實(shí)現(xiàn)更為簡(jiǎn)單與有效的主體網(wǎng)絡(luò)輿情相關(guān)信息采集系統(tǒng)的合理設(shè)計(jì),并為網(wǎng)絡(luò)輿情的采集與分析提供幫助。

      1 網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)

      現(xiàn)階段,國(guó)內(nèi)對(duì)于輿情并未形成相對(duì)統(tǒng)一的認(rèn)識(shí),有關(guān)教授針對(duì)輿情進(jìn)行了定義,也就是輿情為輿論狀況的簡(jiǎn)稱,主要是指在一定社會(huì)空間中,人們對(duì)于社會(huì)事件與社會(huì)管理人員產(chǎn)生與持有的社會(huì)政治態(tài)度。而網(wǎng)絡(luò)輿情可以有效、直接反映出社會(huì)輿情,其還是實(shí)現(xiàn)網(wǎng)上相關(guān)信息交流的主體,同時(shí)人們對(duì)于部分突發(fā)事件與社會(huì)所持有的態(tài)度以及發(fā)表的言論可能會(huì)在一定的時(shí)間內(nèi)對(duì)社會(huì)造成嚴(yán)重影響,因此一定要及時(shí)采用有效對(duì)策,針對(duì)輿情實(shí)施嚴(yán)格監(jiān)控,從而有效控制與引導(dǎo)事態(tài)良性發(fā)展。另外,輿情監(jiān)控一般是利用網(wǎng)頁(yè)自動(dòng)選擇輿情信息,然后利用文本挖掘等相關(guān)技術(shù)針對(duì)輿情信息完成有效分析與處理,并把處理過(guò)戶獲取的熱點(diǎn)信息進(jìn)行上報(bào)與跟蹤,科學(xué)、合理的輿情監(jiān)控可以實(shí)現(xiàn)輿情信息從被動(dòng)防堵過(guò)度至主動(dòng)疏導(dǎo)。

      2 普通網(wǎng)絡(luò)爬蟲與主題網(wǎng)絡(luò)爬蟲分析

      網(wǎng)絡(luò)爬蟲作為網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)中采集系統(tǒng)的核心與基礎(chǔ),其直接影響著網(wǎng)絡(luò)輿情數(shù)據(jù)采集覆蓋率與查準(zhǔn)率等。依據(jù)采集內(nèi)容和目標(biāo)的差異,網(wǎng)絡(luò)爬蟲一般分成普通網(wǎng)絡(luò)爬蟲與主題網(wǎng)絡(luò)爬蟲。其中普通網(wǎng)絡(luò)爬蟲主要目標(biāo)就是大量采集信息頁(yè)面,在采集的過(guò)程中僅僅注重網(wǎng)頁(yè)采集的數(shù)量以及質(zhì)量,從不深入考慮網(wǎng)頁(yè)采集相關(guān)順序與被采集頁(yè)面有關(guān)主題。近些年來(lái),網(wǎng)絡(luò)信息的不斷增長(zhǎng),普通網(wǎng)絡(luò)爬蟲面臨著嚴(yán)峻的網(wǎng)頁(yè)規(guī)模和更新速度以及個(gè)性化等諸多方面的挑戰(zhàn)。為了能夠有效改進(jìn)網(wǎng)絡(luò)爬蟲的工作效率,使其可以滿足相關(guān)人群深層次和面向特定領(lǐng)域的信息要求,一定要充分應(yīng)用主體網(wǎng)絡(luò)爬蟲。該目標(biāo)是在大量采集和主體有關(guān)的網(wǎng)頁(yè)基礎(chǔ)上,在進(jìn)行采集的過(guò)程中要時(shí)刻關(guān)注互聯(lián)網(wǎng)頁(yè)內(nèi)容和主體相關(guān)度。

      1)普通網(wǎng)絡(luò)爬蟲分析

      普通網(wǎng)絡(luò)爬蟲是利用網(wǎng)頁(yè)間存在的超鏈接關(guān)系有效采集網(wǎng)頁(yè),需要?jiǎng)?chuàng)建一個(gè)初始化的URL集合,其為一個(gè)有序的等待抽取的URL隊(duì)列,然后從此隊(duì)列中某一個(gè)URL開始,有效提取相應(yīng)頁(yè)面中的HTML內(nèi)容,同時(shí)分析與提取在此頁(yè)面中其他相關(guān)的全部超鏈接,把其分別加入至URL隊(duì)列里,對(duì)之前的URL隊(duì)列完成更新,然后依據(jù)圖表中廣度或是深度優(yōu)先選擇策略有效訪問(wèn)下一個(gè)URL連接,這樣依次循環(huán),不斷重復(fù)上述過(guò)程,一直到全部網(wǎng)頁(yè)都被提取完成或是依據(jù)Web爬取方案停止采集位置,該爬取流程圖如圖1所示。

      2)主題網(wǎng)絡(luò)爬蟲分析

      主題網(wǎng)絡(luò)爬蟲主要指有選擇性的收集和目標(biāo)主題存在關(guān)聯(lián)的網(wǎng)頁(yè)。應(yīng)該針對(duì)主題完成向量表示,依據(jù)內(nèi)容相關(guān)度有效計(jì)算出相應(yīng)網(wǎng)頁(yè)內(nèi)容與主題的相關(guān)度,同時(shí)針對(duì)鏈接完成相關(guān)度評(píng)價(jià),從而決定選擇哪種網(wǎng)頁(yè)。在進(jìn)行采集時(shí)并不需求采集全部的網(wǎng)頁(yè),對(duì)此主題網(wǎng)絡(luò)爬蟲所需要保存的頁(yè)面相對(duì)較少,能夠在很大程度上節(jié)約相關(guān)硬件與網(wǎng)絡(luò)資源,并且可以有效滿足特定人們對(duì)查找特定主題的相關(guān)需求。另外,主題爬蟲主要是在普通網(wǎng)絡(luò)爬蟲基礎(chǔ)上實(shí)現(xiàn)相關(guān)功能的擴(kuò)充,主要設(shè)置了針對(duì)URL與網(wǎng)頁(yè)主題相關(guān)度的評(píng)價(jià),主題網(wǎng)絡(luò)爬蟲工作流程如圖2所示。

      3 主題網(wǎng)絡(luò)爬蟲設(shè)計(jì)研究

      主題網(wǎng)絡(luò)爬蟲只針對(duì)與主題有關(guān)的網(wǎng)頁(yè)完成采集,并不是覆蓋全部網(wǎng)頁(yè)。應(yīng)該先對(duì)主題完成向量表示,依據(jù)內(nèi)容的相關(guān)度有效計(jì)算出所要訪問(wèn)的頁(yè)面內(nèi)容以及主題相關(guān)度,同時(shí)針對(duì)鏈接完成預(yù)測(cè)和分析,有效識(shí)別相關(guān)鏈接是否與主題有關(guān),最后決定選擇相應(yīng)鏈接所指向的網(wǎng)頁(yè),同時(shí)設(shè)置提取鏈接的合理順序。另外,主題網(wǎng)絡(luò)爬蟲整體運(yùn)行流程比較復(fù)雜,首先要啟動(dòng)爬蟲程序,然后輸出主題和種子站點(diǎn),完成主題的向量表示。其次獲取網(wǎng)頁(yè)的HTMT正文內(nèi)容,并把網(wǎng)頁(yè)輸入至頁(yè)面相關(guān)度的分析模塊,有效計(jì)算出此頁(yè)面和主題的相關(guān)度,并且把所提取到的相關(guān)頁(yè)面鏈接和鏈接錨文本等多種有關(guān)信息輸入至鏈接的評(píng)價(jià)模塊中,通過(guò)測(cè)算相關(guān)度超過(guò)閥值的鏈接輸入至鏈接的優(yōu)先權(quán)隊(duì)列中。然后依據(jù)鏈接選取對(duì)策,選取下一個(gè)進(jìn)行訪問(wèn)的鏈接輸入至爬行模塊。最后,反復(fù)重復(fù)上述步驟,一直到滿足相關(guān)結(jié)束條件為止。主題網(wǎng)絡(luò)爬蟲更為關(guān)注發(fā)現(xiàn)用戶需求的信息資源,怎樣更多獲取和主題存在密切關(guān)系的網(wǎng)頁(yè),怎樣在一定程度上提升采集效率都是主題網(wǎng)絡(luò)爬蟲系統(tǒng)設(shè)計(jì)的重要內(nèi)容。另外,主題網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)應(yīng)該以普通爬蟲系統(tǒng)作為基礎(chǔ),然后在此基礎(chǔ)上進(jìn)行部分功能的擴(kuò)充,依據(jù)主體網(wǎng)絡(luò)爬蟲相關(guān)功能需求與運(yùn)行流程,設(shè)計(jì)的系統(tǒng)如圖3所示。

      4 主題網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)分析

      主題爬蟲比較重視網(wǎng)頁(yè)相關(guān)度,依據(jù)相應(yīng)的網(wǎng)頁(yè)分析算法有效過(guò)濾和主題并無(wú)關(guān)聯(lián)的網(wǎng)頁(yè),并且保留和主題有關(guān)的網(wǎng)頁(yè)和鏈接,從而更多的采集和主題有關(guān)的網(wǎng)頁(yè)內(nèi)容。對(duì)此,就應(yīng)該科學(xué)、有效設(shè)計(jì)主題網(wǎng)絡(luò)爬蟲算法。

      主題向量表示和關(guān)鍵詞權(quán)值計(jì)算方式。主題一般利用一組關(guān)鍵詞進(jìn)行表示,同時(shí)主題關(guān)鍵詞通常要在種子文檔中獲取。而種子文檔主要由用戶所指定的樣例文檔和種子頁(yè)面相應(yīng)文章以及種子頁(yè)面實(shí)現(xiàn)相鄰近區(qū)域擴(kuò)展之后產(chǎn)生的文章等構(gòu)成。另外,種子文檔的產(chǎn)生過(guò)程比較復(fù)雜,增加種子頁(yè)面所指向的頁(yè)面,指向種子頁(yè)面的頁(yè)面實(shí)現(xiàn)種子頁(yè)面的有效擴(kuò)展,在擴(kuò)展至一定條件過(guò)后停止,然后將用戶輸入至樣例文檔和種子頁(yè)面文檔以及擴(kuò)展種子文檔構(gòu)成一個(gè)種子文檔集,最后利用統(tǒng)計(jì)詞頻與逆文檔頻率(TF-IDF)手段針對(duì)種子文檔集完成詞頻統(tǒng)計(jì),同時(shí)還要實(shí)現(xiàn)權(quán)值計(jì)算,將權(quán)值最高的n個(gè)值構(gòu)成主題關(guān)鍵詞集,有效表示所給定的相應(yīng)任務(wù)主題。

      5 結(jié)束語(yǔ)

      近些年來(lái),主題爬蟲技術(shù)在信息采集與數(shù)據(jù)挖掘方面的關(guān)鍵性日益突出,而且主題網(wǎng)絡(luò)爬蟲的研究和分析已經(jīng)受到人們的高度重視。通過(guò)分析與研究普通網(wǎng)絡(luò)爬蟲與主題網(wǎng)絡(luò)爬蟲技術(shù)的特點(diǎn)以及處理流程,在滿足相關(guān)功能要求的前提下,重點(diǎn)分析與研究了主題網(wǎng)絡(luò)爬蟲相關(guān)功能模塊的設(shè)計(jì)以及所有模塊的具備的作用。另外,還針對(duì)主題網(wǎng)絡(luò)爬蟲的相關(guān)度計(jì)算和主題向量表示進(jìn)行了分析。但是對(duì)于怎樣發(fā)現(xiàn)更多網(wǎng)頁(yè),怎樣獲取相關(guān)度更高的有關(guān)頁(yè)面和提升主題網(wǎng)絡(luò)爬蟲工作效率,依然需要深入研究。

      參考文獻(xiàn):

      [1] 宋海洋,劉曉然,錢海俊,等.一種新的主題網(wǎng)絡(luò)爬蟲爬行策略[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(11):264-267.

      [2] 魏晶晶,楊定達(dá),廖祥文.基于網(wǎng)頁(yè)內(nèi)容相似度改進(jìn)算法的主題網(wǎng)絡(luò)爬蟲[J].計(jì)算機(jī)與現(xiàn)代化,2011(9):1-4.

      [3] 葉昭暉,曾瓊,李強(qiáng).基于搜索引擎的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].廣西大學(xué)學(xué)報(bào):自然科學(xué)版,2011,36(10):302-307.

      [4] 謝飛,吳信東,胡學(xué)鋼,等.基于語(yǔ)義聯(lián)系的新聞網(wǎng)頁(yè)關(guān)鍵詞提取[J].廣西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2012,27(1):145-146.

      [5] 劉金紅,陸余良.主題網(wǎng)絡(luò)爬蟲研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2010,24(10):26-29.

      [6] 何佳,周長(zhǎng)勝,石顯峰.網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實(shí)現(xiàn)方法[J].鄭州大學(xué)學(xué)報(bào):理學(xué)版,2010,42(3):82-85.

      [7] 錢愛兵.基于主題的網(wǎng)絡(luò)輿情分析模型及其實(shí)現(xiàn)[J].現(xiàn)代圖書情報(bào)技術(shù),2011(4):51-52.

      平乐县| 申扎县| 稻城县| 建始县| 金秀| 道真| 安图县| 南澳县| 宿州市| 大竹县| 鹿泉市| 喀喇沁旗| 株洲市| 永丰县| 会同县| 博野县| 洪泽县| 仙游县| 开封县| 紫阳县| 北川| 屏山县| 威信县| 江源县| 宝山区| 正蓝旗| 和林格尔县| 滁州市| 北宁市| 二连浩特市| 舞钢市| 广东省| 垣曲县| 武宁县| 和顺县| 卢湾区| 静宁县| 定襄县| 二连浩特市| 丹江口市| 凉山|