輿情監(jiān)測系統(tǒng)設(shè)計(jì)

2015-07-28 12:42張昕孫江輝

現(xiàn)代電子技術(shù) 2015年11期

張昕　孫江輝

摘要：為了及時調(diào)控和遏制校園內(nèi)突發(fā)的不良網(wǎng)絡(luò)輿情事件的蔓延，引入最近幾年針對網(wǎng)絡(luò)輿情監(jiān)測過程中的方法及思路，以加強(qiáng)網(wǎng)絡(luò)信息的監(jiān)測管理工作為目的，結(jié)合信息采集和輿情監(jiān)測指標(biāo)研究，設(shè)計(jì)了一套校園網(wǎng)輿情監(jiān)測系統(tǒng)。該校園網(wǎng)輿情監(jiān)測系統(tǒng)實(shí)現(xiàn)了信息采集模塊功能及部分分析模塊功能，達(dá)到了采集信息的效果，對輿情完成了初步分析。

關(guān)鍵詞：校園網(wǎng)輿情；爬蟲系統(tǒng)；模塊設(shè)計(jì)；監(jiān)測系統(tǒng)

中圖分類號： TN915.08?34； TP393.07 文獻(xiàn)標(biāo)識碼： A 文章編號： 1004?373X（2015）11?0098?05

Design of public opinion monitoring system

ZHANG Xin1， SUN Jiang?hui2

（1. Information Center， Xian University of Posts and Telecommunications， Xian 710061， China；

2. School of Communication and Information Engineering， Xian University of Posts and Telecommunications， Xian 710061， China）

Abstract： To timely control and restraint the spread of the burst and adverse public opinion events in campus network， methods and ideas in recent years for aiming at the monitoring process of network public opinion are introduced to strengthen monitoring and management work of the network information. Combined with information acquisition and index research of public opinion monitoring， campus network public opinion monitoring system is designed. The functions of information acquisition module and part analysis modules were realized， the effect of information acquisition was achieved， and the preliminary analysis of public opinion was completed by campus network public opinion monitoring system.

Keywords： campus network public opinion； crawler system； module design； monitoring system

0 引言

近年來，高校網(wǎng)絡(luò)建設(shè)伴隨著網(wǎng)絡(luò)技術(shù)的發(fā)展取得了巨大進(jìn)步，同時，為了保障在校學(xué)生通過網(wǎng)絡(luò)獲取的是安全健康的信息，使得校園網(wǎng)輿情監(jiān)測越來越受到重視。學(xué)生上網(wǎng)的人數(shù)已經(jīng)超過了7 600萬，而在校大學(xué)生的比率就達(dá)到了1[∶]4，在校大學(xué)生受到了來自現(xiàn)實(shí)生活中敏感問題的最大波及，而部分學(xué)生可能會將自身生活中的負(fù)面情緒在虛擬的校園平臺上散播，導(dǎo)致校園網(wǎng)絡(luò)充斥著各種情緒[1]。

雖然在當(dāng)下我國對大型媒體網(wǎng)站輿情信息分析已有不少研究，比如北大方正集團(tuán)研究的方正智思系統(tǒng)，它可以深入分析輿情信息，并起到正確導(dǎo)向作用。但它主要針對的是政府部門的輿情信息，而針對新興媒體如校園貼吧和微博校園等現(xiàn)在大學(xué)生獲得校園知識與信息的主要媒介的輿情監(jiān)測僅僅處于初級階段，對輿情的監(jiān)督分析并不到位，因此進(jìn)行針對有關(guān)校園的輿情監(jiān)測的研究是有必要的。

1 網(wǎng)絡(luò)輿情概述及相關(guān)指標(biāo)研究

1.1 網(wǎng)絡(luò)輿情概述

輿情是指在特定的社會環(huán)境中，隨著社會發(fā)展，民眾對社會管理者產(chǎn)生的社會政治態(tài)度。它是多數(shù)群眾關(guān)于社會環(huán)境中出現(xiàn)的各種現(xiàn)象表達(dá)出的觀點(diǎn)、態(tài)度的總和。網(wǎng)絡(luò)輿情則是指網(wǎng)絡(luò)上傳播的社會輿論的一種表現(xiàn)形式，是互聯(lián)網(wǎng)上的公眾對現(xiàn)實(shí)生活中某些熱點(diǎn)、焦點(diǎn)問題所持的有較強(qiáng)影響力、傾向性的言論和觀點(diǎn)[2]。校園網(wǎng)輿情信息的主要傳播途徑是：新聞網(wǎng)站、門戶網(wǎng)站等。網(wǎng)絡(luò)輿情的形成如圖1所示。

通過有關(guān)校園的網(wǎng)絡(luò)信息傳播包含了大學(xué)生對當(dāng)今社會各個方面很多癥狀以及許多討論度高的現(xiàn)象的想法和方向。因此，網(wǎng)絡(luò)輿論能夠最有效、迅速地回應(yīng)不一樣的層次社會輿情現(xiàn)狀與發(fā)展態(tài)勢。怎樣抓住虛擬網(wǎng)絡(luò)社會的即時信息，保證校園甚至社會有關(guān)方面的茁壯發(fā)展，不僅僅要對傳統(tǒng)方式重視，更需要在網(wǎng)絡(luò)的安全方面做出努力。

1.2 相關(guān)指標(biāo)研究

輿情監(jiān)測系統(tǒng)指標(biāo)體系的建立有較強(qiáng)的研究價值和應(yīng)用需求，它恰到好處地將互聯(lián)網(wǎng)信息的研究知識和應(yīng)用需求融為一體，使得網(wǎng)絡(luò)輿情監(jiān)測手段和系統(tǒng)的架構(gòu)建設(shè)有了更廣闊的空間。因此高校等學(xué)生基數(shù)大的社會空間能夠得到更為真實(shí)可靠的信息，及時接收來自學(xué)生的聲音。并且通過辨別和抓取具有引導(dǎo)性、輿論性、熱點(diǎn)性的校園網(wǎng)絡(luò)信息，及時做出預(yù)警措施，達(dá)到對輿論信息的正確導(dǎo)向，對網(wǎng)絡(luò)安全的實(shí)時引導(dǎo)，從而在苗頭上撲滅可能出現(xiàn)的隱患。這種指標(biāo)的建立同時能夠在研究和應(yīng)用的不同層次上引導(dǎo)輿論信息的監(jiān)測，并提前發(fā)現(xiàn)傾向性的輿情信息，因此構(gòu)成高校校園網(wǎng)的輿論信息發(fā)現(xiàn)、處理、監(jiān)測以及預(yù)警。

輿情監(jiān)測系統(tǒng)相關(guān)指標(biāo)如表1所示。

2 輿情監(jiān)測系統(tǒng)設(shè)計(jì)

2.1 輿情監(jiān)測系統(tǒng)設(shè)計(jì)框架

根據(jù)信息傾向研究能夠知道信息發(fā)布者所包含的情緒、立場、想法、意愿等?，F(xiàn)在基本使用聚類手段和信息傾向研究手段，針對在校園網(wǎng)中發(fā)布的可能帶有不良傾向的信息進(jìn)行分析，分類區(qū)別并歸納學(xué)生觀點(diǎn)。這樣可以同時進(jìn)行話題的進(jìn)展追蹤，研究新出現(xiàn)的主題是否有重復(fù)的題目。其次可以及時處理突發(fā)事件，從時間，空間上進(jìn)行主題追蹤，預(yù)防出現(xiàn)大規(guī)模的影響。最終通過需求分析，確定系統(tǒng)模塊規(guī)劃，可以得出校園網(wǎng)輿情監(jiān)測系統(tǒng)的基礎(chǔ)是能夠進(jìn)行信息采集，而目的是達(dá)到輿情預(yù)警的效果并通過展示界面及時通知決策者，整個監(jiān)測模塊的設(shè)計(jì)如圖2所示。

在整個系統(tǒng)設(shè)計(jì)中，采集模塊、分析模塊、預(yù)警模塊的關(guān)系層層遞進(jìn)，采集模塊作為基礎(chǔ)模塊完成整個系統(tǒng)信息的采集工作，將信息儲存在文件中；分析模塊在采集模塊之后進(jìn)行文本分析，完成輿情的趨勢分析和熱點(diǎn)話題發(fā)現(xiàn)；最后預(yù)警展示模塊根據(jù)前兩個模塊分析的信息，依據(jù)危機(jī)度設(shè)定進(jìn)行輿情的預(yù)警并通過展示界面?zhèn)鬟_(dá)信息給最終決策者。模塊之間的關(guān)系如圖3所示。

2.2 詳細(xì)設(shè)計(jì)

2.2.1 信息采集模塊

信息采集模塊為整個輿情監(jiān)測系統(tǒng)的基礎(chǔ)模塊。本模塊的目的是實(shí)現(xiàn)對目標(biāo)空間內(nèi)的信息采集，選擇具有較多采集價值的目標(biāo)網(wǎng)站，可以減少不必要的爬行過程。采集模塊流程圖如圖4所示。

在整個模塊中，首先進(jìn)行鏈接分析，Spider主要通過各種Web協(xié)議自動采集網(wǎng)絡(luò)上的相關(guān)信息，并將Web頁面下載到本地進(jìn)行分析。信息采集的起點(diǎn)是從一個種子URL集出發(fā)，通過Web協(xié)議向所需的頁面擴(kuò)展。根據(jù)Linkage /Sibling Locality特性，需要選擇質(zhì)量較高的主題URL作為初始種子UR集；然后在頁面采集完后，對頁面進(jìn)行解析，從中獲取鏈接及其上下文數(shù)據(jù)、正文、標(biāo)題、摘要等信息；接著完成無法解析的頁面模塊的過濾，無效頁面數(shù)據(jù)的去除；只保留有效的主題詞語。最后保存有效文本數(shù)據(jù)。

通過信息采集，可以進(jìn)行網(wǎng)絡(luò)信息管理、輿情趨勢調(diào)控。而網(wǎng)絡(luò)爬蟲正是網(wǎng)絡(luò)輿情采集的核心方法。網(wǎng)絡(luò)爬蟲（Web Crawler）實(shí)質(zhì)上是一個HTML頁面爬行程序，通過HTML頁面對應(yīng)的URL地址下載HTML頁面，從此頁面（一般是網(wǎng)站的首頁）開始，下載HTML頁面的內(nèi)容，通過分析器，篩選過濾找到這個HTML頁面上的其他URL連接，這些URL地址將作為尋找下一批HTML頁面的基礎(chǔ)，直到將站內(nèi)所有的HTML頁面都遍歷完為止[1]。

網(wǎng)絡(luò)爬蟲基本上可以劃分為6個部分：URL處理器，Web信息提取器，網(wǎng)頁去重檢測器，URL提取器，標(biāo)簽信息獲取器，數(shù)據(jù)庫，各部分協(xié)作從Web上獲取信息。網(wǎng)絡(luò)爬蟲的基本結(jié)構(gòu)圖如圖5所示。

（1） URL處理器。這個部件主要給“待提取的URL”進(jìn)行排序，并根據(jù)一定的策略向Web信息提取器分派URL。URL處理器主要有三個數(shù)據(jù)來源：初始的種子URL集合；從URL提取器傳遞過來的新發(fā)現(xiàn)的URL集合，它們是從己提取頁面中分析得來的；頁面的Meta信息、主題以及摘要等信息，來自標(biāo)簽信息獲取器，它們主要用來顯示從URL提取器中傳遞過來的URL的重要性，為在隊(duì)列中進(jìn)行排序提供依據(jù)。

（2） Web信息提取器。這個部件處于系統(tǒng)的底層，主要通過各種Web協(xié)議來完成網(wǎng)絡(luò)數(shù)據(jù)的采集，如圖6所示。一般來說，協(xié)議包括HTTP、Gopher、BBS以及FTP等，也有些Web信息提取系統(tǒng)會根據(jù)實(shí)際需要獲取Web Chat、ICQ等特殊網(wǎng)絡(luò)信息。

（3）網(wǎng)頁去重檢測器。Web上存在著大量的鏡像頁面和重復(fù)的頁面內(nèi)容，不進(jìn)行網(wǎng)頁重復(fù)內(nèi)容的檢測過濾，將極大地浪費(fèi)網(wǎng)絡(luò)帶寬和系統(tǒng)的運(yùn)行效率。在進(jìn)行重復(fù)內(nèi)容檢測時，一般可以采用簡單的段落匹配方法或者相對復(fù)雜的相似度匹配方法。

（4） URL提取器。對于采集到的頁面，通過網(wǎng)頁去重檢測后，需要分析其中的鏈接，并對鏈接進(jìn)行必要的轉(zhuǎn)換以獲取真實(shí)的URL，這些任務(wù)就是由URL提取器來完成的。首先需要判別頁面類型，可在對HTTP應(yīng)答頭的分析中得出，有時也可以通過分析URL中的文件擴(kuò)展名來判別頁面類型。隨后，需要分析的HTML標(biāo)記包括，，，等。頁面鏈接中給出的URL格式可能是不一樣的，既可能是完整的絕對路徑URL，也可能是一個相對路徑。

（5）標(biāo)簽信息獲取器。這里所要獲取的信息包括已提取頁面的Meta信息、作者信息、頁面的標(biāo)題、頁面的摘要等。主要目的是在沒有對頁面內(nèi)容進(jìn)行語義信息理解的前提下，盡可能多地分析出HTML標(biāo)簽、結(jié)構(gòu)等的信息，對從頁面中提取出的URL質(zhì)量的好壞給出一個度量，然后再傳輸?shù)経RL處理器，對待提取URL隊(duì)列進(jìn)行排序。

（6）數(shù)據(jù)庫。通過網(wǎng)頁去重檢測后的頁面數(shù)據(jù)、提取出來的Meta信息、作者信息、主題和摘要等均需存入數(shù)據(jù)庫中，以備使用。例如，進(jìn)行分析建立索引等。由于Web頁面規(guī)模龐大，提取的相關(guān)數(shù)據(jù)在存入數(shù)據(jù)庫之前，一般要進(jìn)行壓縮處理。

2.2.2 輿情分析模塊

輿情分析模塊是在采集模塊的基礎(chǔ)上，對采集所獲得的內(nèi)容進(jìn)行分類和分析，對信息初步完成再處理，主要目的是將原網(wǎng)頁的數(shù)據(jù)通過處理轉(zhuǎn)化成數(shù)據(jù)形式。輿情分析模塊的主要目的是通過分析將采集到的信息進(jìn)行智能處理，最終完成輿情關(guān)鍵信息的獲取，它是整個設(shè)計(jì)的核心部分。輿情分析模塊由預(yù)處理子模塊、分詞功能子模塊、信息聚類子模塊和熱點(diǎn)發(fā)現(xiàn)子模塊組成，如圖7所示。

預(yù)處理子模塊：本模塊的目的是在抓取頁面時，去除干擾信息，保留有用信息。

分詞子模塊：本模塊通過中文分詞技術(shù)，對初步獲取的信息進(jìn)行分詞，達(dá)到電腦自動識別語句含義的效果，然后通過TF*IDF算法完成關(guān)鍵詞詞頻等信息的記錄。中文分詞指的是將一個漢字序列切分成一個個單獨(dú)的詞，它是文本挖掘的基礎(chǔ)，在本文中使用的是MMSEG分詞算法，通過這種改進(jìn)算法，可以提高系統(tǒng)的正確識別率。

信息聚類子模塊：本模塊的目的是發(fā)現(xiàn)某一主題的所有相關(guān)信息和相關(guān)的用戶群，通過文本聚類分析將經(jīng)過處理的輿情信息按照不同的性質(zhì)分類成不同的類別，然后經(jīng)過一定的計(jì)算處理判斷該主題的輿情構(gòu)成和公眾基本態(tài)度。

熱點(diǎn)發(fā)現(xiàn)子模塊：該模塊功能是通過關(guān)注度算法計(jì)算熱點(diǎn)關(guān)注度，再進(jìn)行熱點(diǎn)統(tǒng)計(jì)，判斷熱點(diǎn)信息類型，最后通過搜索功能進(jìn)行信息查找，及時進(jìn)行輿情導(dǎo)向控制。

2.2.3 輿情預(yù)警展示模塊

輿情預(yù)警展示模塊的目的是通過輿情預(yù)警，及時反饋信息給決策者。本模塊首先會對聚類后的輿情信息進(jìn)行統(tǒng)計(jì)，統(tǒng)計(jì)元素包括時間、網(wǎng)站、回復(fù)和點(diǎn)擊數(shù)等；再通過直觀的圖表方式展示到瀏覽器端頁面上。其次預(yù)設(shè)輿情信息的安全類別有5個類別，由弱至強(qiáng)分別由數(shù)字1～5代表；然后對信息關(guān)鍵字的負(fù)面詞進(jìn)行加權(quán)計(jì)算，再將計(jì)算結(jié)果與安全級別匹配，最后把結(jié)果推送給輿情工作人員，從而幫助他們及時發(fā)現(xiàn)輿情，及時響應(yīng)。

預(yù)警模塊的主要目的是判斷當(dāng)前的主題輿情的傾向性，及時進(jìn)行輿情預(yù)警。通過設(shè)定危機(jī)等級，判斷當(dāng)前信息傾向性；根據(jù)輿情相關(guān)指標(biāo)研究，可以通過科學(xué)計(jì)算設(shè)置危機(jī)度等級，當(dāng)搜索到有害信息，計(jì)算出危機(jī)度，即可以按照相應(yīng)危機(jī)度的處理方法進(jìn)行處理，一旦達(dá)到輿情危機(jī)度等級，立刻反饋給決策者，由決策者決定處理方法。

3 輿情監(jiān)測系統(tǒng)模塊實(shí)現(xiàn)

3.1 信息采集模塊實(shí)現(xiàn)

信息采集模塊為整個輿情監(jiān)測系統(tǒng)的中心模塊，本模塊實(shí)現(xiàn)了對目標(biāo)空間內(nèi)的信息采集，再將采集到的信息保存在有效文本中，為信息分析做鋪墊。信息采集模塊是整個系統(tǒng)設(shè)計(jì)的核心模塊，無論是分析模塊還是預(yù)警模塊都是在采集模塊的基礎(chǔ)上完成的；信息采集模塊主要用到的就是網(wǎng)絡(luò)爬蟲技術(shù)。其內(nèi)部工作流程圖如圖8所示。

采集模塊和分析模塊有很多交融點(diǎn)，在采集模塊建設(shè)過程中也要規(guī)劃好分析模塊的建設(shè)，在學(xué)習(xí)采集模塊所使用的技術(shù)手段時可以同時進(jìn)行下一步的設(shè)計(jì)工作。最后，校園網(wǎng)輿情監(jiān)測系統(tǒng)設(shè)計(jì)的基礎(chǔ)也是相關(guān)信息的采集。

由于Web文檔使用了文本標(biāo)記語言，利用這個特點(diǎn)，找出Web文檔中文本和標(biāo)簽匹配規(guī)律，生成其對應(yīng)的DOM樹（Document Object Model）。

InsertDOMNodes（Nodepnode，TNodetree_node）

{

if（pnode.hasCNodes（））

{

IHTMLDOMChildrenCollectionallchild=（IHTMLDOMChildrenCollectio

n）pnode.CNodes；

intlength=allchild.length；

for（intj=0；j

{

Nodechild_node=（Node）allchild.item（i）；

TNodetempnode=tree_node.Nodes.Add（child_node.nodeName）；

InsertDOMNodes（child_node，tempnode）；

}

//將 domnode 插入

eVipSBrowser_DocumentComplete（objectsender，AxSHDocVw.DWebBrow

serEvents2_DocumentCompleteEvente）

{

DOMTreeView.Nodes.Clear（）；

IHTMLDocument3HTMLDocument=（IHTMLDocument3）eVIPSBrowser.Docum

ent；

IHTMLDOMNoderootDomNode=（IHTMLDOMNode）HTMLDocument.documentEl

ement；

TNoderoot=DOMTView.Nodes.Add（"HTML"）；

InsertDOMNodes（rootDomNode，root）；

}

通過輸入一個目標(biāo)HTML頁面，如圖9所示。保存的頁面信息如圖10所示。

3.2 輿情分析模塊實(shí)現(xiàn)

輿情分析主要運(yùn)用中文分詞技術(shù)，該模塊的實(shí)現(xiàn)使用基于詞典的分詞算法MMSEG算法，以正向最大匹配為主，多種消除歧義的規(guī)則為輔。通過這種改進(jìn)算法，可以提高系統(tǒng)的正確識別率。它是中文分詞技術(shù)的一項(xiàng)改進(jìn)，中文文本在計(jì)算分析時有一個問題是缺少單詞的邊界，由于單詞是一個基本的語義單元，因此有必要識別中文文本的單詞讓進(jìn)一步的處理可以進(jìn)行。而MMSEG算法的目的是開發(fā)一個基于最大匹配算法的兩種變體的中文單詞識別系統(tǒng)，這個系統(tǒng)由一個詞典，兩種匹配算法以及四種歧義消解規(guī)則組成。在一個由1 013個單詞組成的樣本中，這個系統(tǒng)的正確識別率達(dá)到98.41%。

其次，分詞完成后，通過TF*IDF可以計(jì)算某個關(guān)鍵字在某篇文章里面的重要性，因而識別這篇文章的主要含義。TF*IDF是一種用于信息搜索和信息挖掘的常用加權(quán)技術(shù)。

TF*IDF單純使用頻率因子并不能保證系統(tǒng)的查詢性能。當(dāng)高頻特征項(xiàng)在文檔集合中經(jīng)常出現(xiàn)時，使用它進(jìn)行查詢就會得到集合中的大多數(shù)文檔，這會影響檢索系統(tǒng)的查準(zhǔn)率。因此需要引入一個與文檔集合有關(guān)的因子，加大文檔之間的區(qū)分度。如果特征項(xiàng)在集合中較少的文檔中出現(xiàn)，則相應(yīng)的文檔集因子IDF較大。在文檔總數(shù)為[N]的集合中，如果包含某特征項(xiàng)的文檔數(shù)為[n，]相應(yīng)的文檔集因子是：[IDF=log2（Nn）。]

經(jīng)典的TF*IDF賦權(quán)因子在實(shí)際應(yīng)用中取得了一定的效果，但是缺乏理論基礎(chǔ)。概率模型則考慮特征項(xiàng)之間、特征項(xiàng)與文檔之間的概率相依性，從而選擇特征項(xiàng)并修正它們的權(quán)重，這樣可以大大提高文檔內(nèi)容表達(dá)的準(zhǔn)確度。在概率模型中，特征項(xiàng)賦權(quán)因子定義為出現(xiàn)特征項(xiàng)的相關(guān)文檔個數(shù)除以不相關(guān)文檔個數(shù)，但是系統(tǒng)無法自動確定文檔與特征項(xiàng)是否相關(guān)，因此無法直接計(jì)算特征項(xiàng)的權(quán)重?？梢栽谌鄙偻暾南嚓P(guān)信息的情況下估計(jì)特征項(xiàng)的賦權(quán)因子，在特定情況下，賦權(quán)因子為[log2（N-n）n]這就是概率模型IDF，有：

[W=TF*IDF]

TF和IDF參數(shù)是在文本檢索中最常用的向量權(quán)重計(jì)算方法。它們刻畫了特征項(xiàng)表達(dá)文本內(nèi)容屬性的能力。TF詞頻指的是某一個給定的詞語在該文件中出現(xiàn)的次數(shù)。TF越大，此特征項(xiàng)在文檔集中出現(xiàn)的范圍越廣，說明它的重要程度越高；IDF反文檔頻率的主要思想是：如果包含詞條的文檔越少，IDF越大，并且此特征項(xiàng)在文檔中的的分布越集中，說明它在區(qū)分該文檔內(nèi)容屬性方面的能力越強(qiáng)，且詞條具有很好的類別區(qū)分能力。

聚類結(jié)束后，可以獲得關(guān)鍵詞的詞頻數(shù)，TF*IDF，和權(quán)重。同時獲得的詞頻數(shù)，權(quán)重等具體數(shù)據(jù)將可以用于預(yù)警模塊中具體的指標(biāo)參數(shù)計(jì)算，由圖11可知，其中“陜西”一詞，在文件中出現(xiàn)的次數(shù)是1次，權(quán)重為0，圖12為聚類結(jié)果。

4 結(jié) 語

通過對校園網(wǎng)絡(luò)輿情特點(diǎn)的分析，在一些門戶網(wǎng)站的信息收集、整理，能夠及時發(fā)現(xiàn)網(wǎng)絡(luò)輿情熱點(diǎn)。在現(xiàn)有的基礎(chǔ)上提出了一套適合校園網(wǎng)絡(luò)的輿情監(jiān)控系統(tǒng)，根據(jù)現(xiàn)存的輿情指標(biāo)，將輿論信息的發(fā)布、受眾傾向、信息擴(kuò)散度和不同區(qū)域作為4大校園網(wǎng)輿情指標(biāo)，并且實(shí)現(xiàn)了信息采集和輿情分析模，從而對網(wǎng)絡(luò)輿情進(jìn)行實(shí)時監(jiān)管。

參考文獻(xiàn)

[1] 于琨，孫新領(lǐng).基于信息挖掘的高校網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)開發(fā)[J].河南機(jī)電高等?？茖W(xué)校學(xué)報，2012（1）：24?26.

[2] 李舒晨，劉云，李勇，等.網(wǎng)絡(luò)輿情分析中網(wǎng)頁信息預(yù)處理方案的實(shí)現(xiàn)[J].電腦與電信，2008（10）：30?33.

[3] 陸瑞.水利工程輿情分析模型及指標(biāo)體系設(shè)計(jì)[D].武漢：華中科技大學(xué)，2011.

[4] 潘文富，郭友實(shí).網(wǎng)絡(luò)輿情監(jiān)測技術(shù)研究綜述[J].福建電腦，2011（8）：39?41.

[5] 謝國強(qiáng)，藍(lán)立新.基于Web的網(wǎng)絡(luò)爬蟲技術(shù)研究[J].科教文匯，2008（4）：198?199.

[6] 高承實(shí).微博輿情監(jiān)測指標(biāo)體系研究[J].情報雜志，2011（9）：66?70.

[7] 王粱.淺談突發(fā)公共事件中網(wǎng)絡(luò)輿情監(jiān)測指標(biāo)體系的應(yīng)用[J].計(jì)算機(jī)光盤軟件與應(yīng)用，2011（12）：46?47.

[8] 任德志.基于網(wǎng)絡(luò)流量的主機(jī)安全防護(hù)系統(tǒng)研究與實(shí)現(xiàn)[D].長沙：國防科學(xué)技術(shù)大學(xué)，2010.

[9] 戰(zhàn)琴.基于AJAX技術(shù)的Deep Web爬蟲實(shí)現(xiàn)方法研究[D].青島：山東科技大學(xué)，2009.

[10] 龔靜，李安民.一種改進(jìn)的k?means中文文本聚類算法[J].湖南工業(yè)大學(xué)學(xué)報，2008（2）：52?54.

[11] 錢愛兵.基于主題的網(wǎng)絡(luò)輿情分析模型及其實(shí)現(xiàn)[J].現(xiàn)代圖書情報技術(shù)，2008（4）：49?55.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

輿情監(jiān)測系統(tǒng)設(shè)計(jì)