曹宇逢
摘要:本文分析了網(wǎng)絡(luò)文檔內(nèi)容頁面分塊的提取方法,同時引入了一個層次化關(guān)鍵數(shù)據(jù)挖掘思想,自頂向下將網(wǎng)頁進(jìn)行劃分,這樣就可以劃分為多個物理模塊,從簡單的分塊操作中獲取一個準(zhǔn)確的分塊決策方法,進(jìn)而進(jìn)一步提高分塊數(shù)據(jù)挖掘的準(zhǔn)確度。
關(guān)鍵詞:網(wǎng)絡(luò)文檔;分塊;數(shù)據(jù)挖掘
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2018)09-0231-01
人們通常采用的方法是到街頭巷尾實(shí)地考察,或通過問卷調(diào)查獲取相關(guān)信息。然而,民間輿論風(fēng)云變幻,毫無規(guī)律可言,政府很難掌握確切的情況,尤其是在過去通訊技術(shù)落后的時期。例如某一個地區(qū)出現(xiàn)突發(fā)事件,或是嚴(yán)重干擾社會秩序的群體事件,如果政府部門不能及時獲取相關(guān)信息,掌握民情民意,就不能采取有效措施加以治理。這不能有效發(fā)揮政府的作用,也會削弱政府的威信[1]。
1 研究背景
目前,隨著移動互聯(lián)網(wǎng)、云計(jì)算的應(yīng)用和發(fā)展,網(wǎng)絡(luò)輿情信息種類迅速增多,涉及的公安、消防、文化、科研、教育和金融等領(lǐng)域也越來越多,網(wǎng)絡(luò)輿情實(shí)時傳播速度很快為了提高輿論情報的監(jiān)督效率,國外許多的政府部門聯(lián)合軟件研發(fā)企業(yè)對輿情監(jiān)控問題不斷的進(jìn)行研究,引入了許多先進(jìn)的遺傳算法技術(shù)、BP神經(jīng)網(wǎng)絡(luò)技術(shù)、支持向量機(jī)技術(shù)等進(jìn)行數(shù)據(jù)挖掘和分析,更好地提升網(wǎng)絡(luò)文檔數(shù)據(jù)的挖掘分析能力。
2 網(wǎng)頁正文提取方法
2.1 基于模板的網(wǎng)頁正文提取方法
網(wǎng)頁正文提取又被人們稱為網(wǎng)絡(luò)文檔數(shù)據(jù)提取,最早提出的理論和方法是基于模板的算法,可以針對一個特別設(shè)計(jì)的網(wǎng)頁制作一個良好的數(shù)據(jù)提取模板,比如路徑抽取模板Xpath,能夠獲取網(wǎng)絡(luò)文檔的數(shù)據(jù)資源。網(wǎng)絡(luò)文檔抽取采用模板算法最為耗費(fèi)精力的就是模板制作和分析,這個過程非常的繁瑣,因此一旦網(wǎng)絡(luò)文檔的結(jié)構(gòu)發(fā)生了相關(guān)的變化,就需要構(gòu)建一個網(wǎng)絡(luò)文檔數(shù)據(jù)分析文檔,因此需要費(fèi)較高的成本,如何構(gòu)建一個高效處理的網(wǎng)絡(luò)文檔數(shù)據(jù)提取方法是非常重要的,已經(jīng)吸引了很多人的研究[2]。
2.2 基于統(tǒng)計(jì)的網(wǎng)頁正文提取方法
基于統(tǒng)計(jì)理論的網(wǎng)絡(luò)文檔數(shù)據(jù)提取方法可以使用數(shù)學(xué)思想針對網(wǎng)絡(luò)文檔的詞語進(jìn)行統(tǒng)計(jì)和分析,包括網(wǎng)絡(luò)文檔數(shù)據(jù)的長度和密度,這些數(shù)值可以將相關(guān)的網(wǎng)絡(luò)正文文本數(shù)據(jù)信息和網(wǎng)絡(luò)噪聲數(shù)據(jù)區(qū)分開。這種方法可以有效的解決模板方法存在的問題,比如可以有效的構(gòu)造一個模板,并且能夠提高數(shù)據(jù)分析較難維護(hù)的問題,具有更加完善的可操作性和可適應(yīng)性。此外利用網(wǎng)絡(luò)文檔數(shù)據(jù)資源的標(biāo)簽密度能夠提取論文正文信息,并且能夠?qū)⑽臋n相關(guān)的標(biāo)簽密度進(jìn)行直方圖信息處理和操作,同時可將相關(guān)的網(wǎng)絡(luò)文檔數(shù)據(jù)資源擴(kuò)展成相關(guān)的模型,以區(qū)分網(wǎng)絡(luò)文檔的正文內(nèi)容和相關(guān)的非正文內(nèi)容,相關(guān)的操作方法可以更好的獲取多個類型的語言、多個類型的程序處理模式,具有非常好的通用處理性,但是需要經(jīng)過多重的繁瑣建模和聚類處理過程。
2.3 基于分塊的網(wǎng)頁正文提取算法
基于分塊的網(wǎng)絡(luò)文檔數(shù)據(jù)內(nèi)容獲取算法可以將相關(guān)的網(wǎng)絡(luò)內(nèi)容劃分為多個子塊,這些子塊之間包含了許多正文語義信息內(nèi)容,這樣就可以把相關(guān)的網(wǎng)絡(luò)內(nèi)容進(jìn)行有效的處理。與傳統(tǒng)的統(tǒng)計(jì)理論分析模型、模板模型的相關(guān)網(wǎng)絡(luò)文檔資源處理方法相比,采用分塊的網(wǎng)絡(luò)文檔處理模式更加具有通用性,并且能夠更好的滿足用戶的分塊操作模式,可以大大提升網(wǎng)絡(luò)文檔資源的處理效率,并且可以大大降低硬件實(shí)現(xiàn)的成本內(nèi)容,忽略網(wǎng)絡(luò)文檔資源處理的延遲現(xiàn)象,具有更加完美的操作效率。
2.4 層次分裂分塊算法原理
一般來說,同一個語義分塊中的內(nèi)容是緊密聯(lián)系的,在視覺上,瀏覽器渲染后的網(wǎng)頁正文集中在一塊區(qū)域,在HTML代碼結(jié)構(gòu)上,網(wǎng)頁正文代碼也集中在一起,所以在DOM樹中的分塊節(jié)點(diǎn)下的所有文本子節(jié)點(diǎn)中存在一個中心節(jié)點(diǎn),其他節(jié)點(diǎn)的DOM樹標(biāo)簽路徑與這個中心節(jié)點(diǎn)很相似,所有文本節(jié)點(diǎn)與這個中心節(jié)點(diǎn)的標(biāo)簽路徑平均相似度平方和稱為聚集度,以此來判斷節(jié)點(diǎn)是否為分塊節(jié)點(diǎn),從頂至下判斷節(jié)點(diǎn)聚集度是否大于某個閾值,如果是,則此節(jié)點(diǎn)為分塊節(jié)點(diǎn),否則繼續(xù)判斷其子節(jié)點(diǎn),直至遍布整個DOM樹。這個過程是一個按層次分裂判斷的過程,所以我們稱這種的分塊算法為層次分裂分塊算法。
3 話題檢測與追蹤
網(wǎng)絡(luò)文檔的話題追蹤和檢測功能又被許多學(xué)者稱為TDT(Topic Detection and Tracking)功能,這些資源可以更好的追蹤和檢測網(wǎng)絡(luò)文檔的話題內(nèi)容及資源內(nèi)容,并且能夠處理多種網(wǎng)絡(luò)文檔資源文本內(nèi)容,同時可以結(jié)合當(dāng)前網(wǎng)絡(luò)文檔數(shù)據(jù)資源的發(fā)展形勢,采用語音形勢報道相關(guān)的新聞內(nèi)容,可以自動化的識別、跟蹤、檢測和鎖定話題資源,可以根據(jù)用戶的處理性能實(shí)現(xiàn)多種語音的整合檢測、多樣化跟蹤服務(wù)[3]。在對網(wǎng)絡(luò)文檔數(shù)據(jù)資源的分析和構(gòu)建時,充分利用這個繼承關(guān)系將相關(guān)的知識集成在一起,開發(fā)一個廣播領(lǐng)域的相關(guān)話題跟蹤系統(tǒng),可以跟蹤相關(guān)的熱點(diǎn)話題資源,實(shí)現(xiàn)網(wǎng)絡(luò)資源的檢測和分析[4]。目前,基于TDT的網(wǎng)絡(luò)文檔數(shù)據(jù)資源處理過程包括兩種常用的機(jī)器學(xué)習(xí)算法,分別是貝葉斯理論算法和BP神經(jīng)網(wǎng)絡(luò)算法。一些學(xué)者將BP神經(jīng)網(wǎng)絡(luò)算法引入到網(wǎng)絡(luò)輿情監(jiān)控信息管理過程中,分析輿情監(jiān)控關(guān)鍵詞分類中存在的問題,研究基于支持向量機(jī)的輿情監(jiān)控關(guān)鍵詞分類方法,該方法主要是情感詞典選擇、擴(kuò)充情感特征選擇,基于支持向量機(jī)進(jìn)行分類器訓(xùn)練,測試分類器的內(nèi)容,實(shí)現(xiàn)信息的處理和分類。
4 結(jié)語
本文主要了網(wǎng)頁正文內(nèi)容抓取的方法,這些方法包括基于模板的抓取方法、基于統(tǒng)計(jì)理論的抓取方法、基于分塊的抓取方法,并且從網(wǎng)絡(luò)文檔話題檢測與追蹤、網(wǎng)絡(luò)文檔主體模型分析方面闡述了相關(guān)技術(shù)理論,同時引入了一個層次分裂和模擬退火的關(guān)鍵數(shù)據(jù)挖掘思想,自頂向下將網(wǎng)頁進(jìn)行劃分,這樣就可以劃分為多個物理模塊,網(wǎng)頁分塊完成之后,可以針對相關(guān)的中文網(wǎng)頁內(nèi)容進(jìn)行特征提取,可以從簡單的分塊操作中獲取一個準(zhǔn)確的分塊決策方法。
參考文獻(xiàn)
[1]王亨桂.電力行業(yè)輿情監(jiān)測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].信息安全與技術(shù),2013,4(5):66-67.
[2]蔡洪民,陳鏗.校園網(wǎng)輿情監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)安全,2013,(2):51-54.
[3]陳彥舟,曹金璇.基于Hadoop的微博輿情監(jiān)控系統(tǒng)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2013,22(4):18-22.
[4]吳建軍.網(wǎng)絡(luò)輿情的云計(jì)算監(jiān)測模式分析與實(shí)現(xiàn)[J].電訊技術(shù),2013,(4):476-481.
[5]方星星,魯磊紀(jì),徐洋.網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)中主題網(wǎng)絡(luò)爬蟲的研究與實(shí)現(xiàn)[J].艦船電子工程,2014,34(9):104-107.