基于Web挖掘技術(shù)的網(wǎng)絡(luò)輿情研究

2011-05-14 20:07:28李雪妍

卷宗 2011年10期

李雪妍

摘要：隨著互聯(lián)網(wǎng)的飛速發(fā)展，網(wǎng)絡(luò)輿情的預(yù)警和分析對(duì)掌控網(wǎng)絡(luò)、促進(jìn)社會(huì)和諧發(fā)展起著至關(guān)重要的作用。面對(duì)網(wǎng)絡(luò)中的海量數(shù)據(jù)，引入Web 挖掘技術(shù)可以快速有效的從互聯(lián)網(wǎng)上獲得并分析輿情信息。本文闡述了Web挖掘技術(shù)及基于Web挖掘的網(wǎng)絡(luò)輿情分析方法，最終將該方法運(yùn)用于一個(gè)校園輿情分析治理的系統(tǒng)構(gòu)架中。

關(guān)鍵詞：Web挖掘；網(wǎng)絡(luò)輿情；輿情分析

1. 引言

網(wǎng)絡(luò)輿情是由于各種事件的刺激而產(chǎn)生的通過互聯(lián)網(wǎng)傳播的人們對(duì)于該事件的所有認(rèn)知、態(tài)度、情感和行為傾向的集合。隨著因特網(wǎng)在全球范圍內(nèi)的飛速發(fā)展，廣泛的網(wǎng)絡(luò)平臺(tái)為公眾內(nèi)隱的情緒和態(tài)度的表達(dá)提供了開放、快速、交互的渠道，為社會(huì)各階層成員自由發(fā)表言論、參與公共事務(wù)討論提供了便利，對(duì)社會(huì)一些突發(fā)事件的處理起到了積極有效的作用。然而，這些變化也為一些有害信息、雜音和噪音的傳播提供了渠道。因而對(duì)輿情的管控就是要使輿情不轉(zhuǎn)化為輿論或轉(zhuǎn)化為良性輿論，為此需要加強(qiáng)對(duì)網(wǎng)絡(luò)輿情信息的分析和預(yù)警處理，從而及時(shí)發(fā)現(xiàn)輿情的熱點(diǎn)以及正確引導(dǎo)民意的走勢(shì)，這已成為成為社會(huì)管理者面臨的重大課題。

近年來，國(guó)內(nèi)外許多專家學(xué)者和研究機(jī)構(gòu)從事于網(wǎng)絡(luò)輿情分析技術(shù)的研究和探討，并取得了一定進(jìn)展。這些研究雖然在一定程度上增強(qiáng)了相關(guān)職能部門對(duì)輿情信息的監(jiān)控和引導(dǎo)能力，但仍存在一些不足。由于網(wǎng)絡(luò)的信息量十分巨大，僅僅依靠人工的方法難以應(yīng)付海量信息的收集和處理，而自動(dòng)化、智能化的輿情收集和分析處理技術(shù)的研究甚少，針對(duì)這一難題，Web挖掘作為一種新興的數(shù)據(jù)挖掘技術(shù)，可以有效地從互聯(lián)網(wǎng)上獲取并分析相關(guān)輿情，達(dá)到監(jiān)控和治理的目的，為處置網(wǎng)絡(luò)輿情提供很大幫助。

2. Web挖掘技術(shù)

Web挖掘能夠快速、準(zhǔn)確地獲得有價(jià)值的網(wǎng)絡(luò)信息、利用歷史數(shù)據(jù)預(yù)測(cè)未來的行為以及從海量數(shù)據(jù)中發(fā)現(xiàn)知識(shí)。它克服了普通數(shù)據(jù)庫(kù)管理系統(tǒng)無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則、無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì)、缺乏發(fā)現(xiàn)數(shù)據(jù)背后隱藏的知識(shí)的手段等弱點(diǎn)。它的出現(xiàn)為自動(dòng)和智能地把互聯(lián)網(wǎng)上的海量數(shù)據(jù)轉(zhuǎn)化為有用信息和知識(shí)提供了條件，在實(shí)際工作中具有重要的意義

2.1 Web挖掘的方法和過程

1. 數(shù)據(jù)源的收集

通過各種信息渠道收集互聯(lián)網(wǎng)上的信息，包括門戶網(wǎng)站、博客、微博、論壇等網(wǎng)站上的信息，通過這些網(wǎng)站的WWW服務(wù)器中提取存儲(chǔ)的用戶的訪問日志和用戶訪問的交互信息，這也是Web使用記錄挖掘的重要數(shù)據(jù)來源，對(duì)于這些數(shù)據(jù)，可以分為日志文件和用戶訪問數(shù)據(jù)。

2. 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理主要對(duì)數(shù)據(jù)源進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)規(guī)范化和數(shù)據(jù)集成等，形成事務(wù)數(shù)據(jù)庫(kù)，其目標(biāo)是，通過對(duì)用戶訪問站點(diǎn)留下的數(shù)據(jù)，整理成為便于被模式挖掘算法所使用的數(shù)據(jù)形式，以供數(shù)據(jù)挖掘階段使用。

3．模式挖掘

對(duì)數(shù)據(jù)預(yù)處理所形成的事務(wù)數(shù)據(jù)庫(kù)，利用模式挖掘的一些有效算法來發(fā)現(xiàn)隱藏的模式或者規(guī)則。常用的技術(shù)有：統(tǒng)計(jì)分析、路徑分析技術(shù)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式、分類和聚類等技術(shù)。

4．模式分析

由于用戶使用模式挖掘出來的信息還不能直接被人們所理解，需要把這些模式解釋為人們可以理解的知識(shí)，同時(shí)也要去除對(duì)人們沒有用的模式，所以對(duì)于模式分析需要借助一些工具來實(shí)現(xiàn)。

2.2 Web挖掘的分類

Web 數(shù)據(jù)挖掘可以分為Web 內(nèi)容挖掘(Web Content mining)，Web結(jié)構(gòu)挖掘(Web structure mining)，Web 使用挖掘(Web usage Mining)三類。

2.2.1 Web內(nèi)容挖掘

Web內(nèi)容挖掘從網(wǎng)頁內(nèi)容中抽取有用的信息和知識(shí)。例如：根據(jù)網(wǎng)頁的主題，我們可以進(jìn)行自動(dòng)的聚類和分類。雖然這些任務(wù)與傳統(tǒng)數(shù)據(jù)挖掘的任務(wù)相似，但是我們依然可以為了各種不同的目的從網(wǎng)頁中根據(jù)模式抽取有用的信息，例如熱點(diǎn)詞的跟蹤商品描述、論壇回帖等。而這些信息可以被用作進(jìn)一步分析來挖掘用戶態(tài)度。這些任務(wù)也不是傳統(tǒng)的數(shù)據(jù)挖掘任務(wù)。

2.2.2 Web結(jié)構(gòu)挖掘

Web結(jié)構(gòu)挖掘從表征Web結(jié)構(gòu)的超鏈接(簡(jiǎn)稱鏈接)中尋找有用的知識(shí)。例如：從這些鏈接中，我們可以找出哪些是重要的網(wǎng)頁，這是一項(xiàng)搜索引擎采用的重要技術(shù)。我們也可以發(fā)掘具有共同興趣的用戶社區(qū)。這些任務(wù)在傳統(tǒng)的數(shù)據(jù)挖掘中并不存在，因?yàn)樵陉P(guān)系型表格中并沒有鏈接結(jié)構(gòu)。挖掘頁面的結(jié)構(gòu)和Web 結(jié)構(gòu)，可以用來指導(dǎo)對(duì)頁面進(jìn)行分類和聚類，找到權(quán)威頁面、中心頁面，從而提高檢索的性能。同時(shí)還可以用來指導(dǎo)頁面采集工作，提高采集效率。

2.2.3 Web使用挖掘

Web使用挖掘從記錄每位用戶點(diǎn)擊情況的使用日志中挖掘用戶的訪問模式。這項(xiàng)任務(wù)也使用了許多數(shù)據(jù)挖掘的算法。其中一項(xiàng)重要的議題是點(diǎn)擊流數(shù)據(jù)的預(yù)處理，以便生成可以用來挖掘的合適數(shù)據(jù)。

3. 基于Web挖掘的網(wǎng)絡(luò)輿情分析方法

1. 主題詞檢索

主題詞檢索是將Web上的文檔轉(zhuǎn)化為一種類似關(guān)系型數(shù)據(jù)庫(kù)中記錄的形式，內(nèi)容較規(guī)則且能反應(yīng)文本內(nèi)容特征的中間形式，一般采用文本特征向量表示法來進(jìn)行表示、特征抽取、內(nèi)容總結(jié)，然后利用機(jī)器學(xué)習(xí)方法來提取知識(shí)模式。通過自動(dòng)主題詞檢索，可以及時(shí)掌握用戶關(guān)心的重點(diǎn)輿情問題，實(shí)時(shí)跟蹤了解情況。

2. 輿情熱點(diǎn)跟蹤

該方法首先將存放在文本文件中的Web記錄轉(zhuǎn)換成序列數(shù)據(jù)庫(kù)中的訪問記錄，然后采用某種序列模式挖掘算法對(duì)數(shù)據(jù)庫(kù)中的記錄進(jìn)行挖掘，最后分析出用戶所關(guān)心的序列模式。通過對(duì)輿情熱點(diǎn)的跟蹤，可以發(fā)現(xiàn)網(wǎng)絡(luò)輿情問題的演變情況，分析出輿情問題的發(fā)展規(guī)律，從而可以預(yù)測(cè)輿情問題的發(fā)展趨勢(shì)，為下一步的決策做準(zhǔn)備。

3. 分類分析

分類分析首先按特定標(biāo)記對(duì)記錄集合進(jìn)行分類，然后挖掘出比按特定標(biāo)記分類的記錄集合更豐富、更細(xì)致的特征描述或模式描述。分類技術(shù)要求對(duì)輿情的描述對(duì)象及其行為方式進(jìn)行歸類，然后將這些歸類進(jìn)行聯(lián)合，從而分析出具有相似描述和相似行為的對(duì)象是否可以符合。

4. 聚類分析

聚類首先采用訪問頻度閾值和頁面間距離閾值對(duì)頁面進(jìn)行初步的篩選，然后把訪問頻度大于訪問頻度閾值的頁面加到頻繁訪問頁面集合中，然后將其中距離低于頁面距離閾值的頁面聚合在一起。聚類分析的結(jié)果是一系列相近信息組成的集合，同一組中的信息相近，不同組的信息相差較大。據(jù)此可以判別當(dāng)前網(wǎng)絡(luò)輿情的熱點(diǎn)及重點(diǎn)問題。類似的輿情問題存在某種有序關(guān)系，這種有序關(guān)系反映了此類輿情的特征，通過聚類分析，可以得出各種不同的熱點(diǎn)問題集合，有益于相關(guān)部門采取進(jìn)一步的行動(dòng)。

5. 統(tǒng)計(jì)分析

統(tǒng)計(jì)分析是利用統(tǒng)計(jì)、概率的原理對(duì)關(guān)系中各屬性進(jìn)行統(tǒng)計(jì)分析，從而找出它們之間的關(guān)系和規(guī)律。統(tǒng)計(jì)分析是數(shù)據(jù)挖掘最基本的技術(shù)方法之一。常用的統(tǒng)計(jì)方法有判別分析、因子分析、相關(guān)分析、回歸分析等。通過對(duì)互聯(lián)網(wǎng)上日志訪問頻率進(jìn)行統(tǒng)計(jì)分析，可以在一定程度上發(fā)現(xiàn)用戶感興趣的問題，從而確定當(dāng)前的熱點(diǎn)網(wǎng)絡(luò)輿情話題。

4. 校園輿情分析治理系統(tǒng)架構(gòu)

依據(jù)基于Web挖掘的網(wǎng)絡(luò)輿情分析方法，結(jié)合Web挖掘的工作流程和數(shù)據(jù)庫(kù)原理，設(shè)計(jì)了一個(gè)校園輿情分析治理系統(tǒng)構(gòu)架，該系統(tǒng)主要由三個(gè)功能平臺(tái)構(gòu)成，如圖1所示。

（1）內(nèi)容管理平臺(tái)

內(nèi)容管理平臺(tái)通過詞典管理、系統(tǒng)管理和數(shù)據(jù)庫(kù)管理功能對(duì)整個(gè)輿情分析系統(tǒng)進(jìn)行全面的管理，同時(shí)該平臺(tái)的鏈接功能保證了系統(tǒng)的可擴(kuò)展和靈活性。

（2）監(jiān)控分析平臺(tái)

利用主題詞檢索、輿情熱點(diǎn)跟蹤、分類分析、聚類分析和統(tǒng)計(jì)分析等多種方法對(duì)收集來的輿情信息進(jìn)行監(jiān)控和分析，從而有效的為校園輿情治理提供必要的準(zhǔn)備。

（3）輿情發(fā)布平臺(tái)

通過輿情預(yù)警、輿情監(jiān)測(cè)、輿情導(dǎo)向等手段，為學(xué)管人員和指導(dǎo)教師提供經(jīng)過總結(jié)的有指導(dǎo)意義的輿情分析報(bào)告，進(jìn)一步采取座談交流、干預(yù)教育、對(duì)BBS論壇輿情引導(dǎo)等途徑，實(shí)現(xiàn)校園輿情的分析和治理。

參考文獻(xiàn)

[1] 梅中玲.基于WEB信息挖掘與網(wǎng)絡(luò)輿情分析技術(shù)[J].中國(guó)人民公安大學(xué)學(xué)報(bào)（自然科學(xué)版）,2007,（4）

[2] 陳文舉，夏泉.試論高校輿論引導(dǎo)與和諧校園建設(shè)[J].濟(jì)南大學(xué)學(xué)報(bào).2006.16(6):88-95

[3] 黃曉斌.網(wǎng)絡(luò)信息挖掘[M].北京：電子工業(yè)出版社.2005

[4] 費(fèi)愛國(guó)，王新輝.一種基于Web日志文件的信息挖掘方法[J].計(jì)算機(jī)應(yīng)用,2004,24(6):58