李雪妍
摘要:隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)輿情的預(yù)警和分析對(duì)掌控網(wǎng)絡(luò)、促進(jìn)社會(huì)和諧發(fā)展起著至關(guān)重要的作用。面對(duì)網(wǎng)絡(luò)中的海量數(shù)據(jù),引入Web 挖掘技術(shù)可以快速有效的從互聯(lián)網(wǎng)上獲得并分析輿情信息。本文闡述了Web挖掘技術(shù)及基于Web挖掘的網(wǎng)絡(luò)輿情分析方法,最終將該方法運(yùn)用于一個(gè)校園輿情分析治理的系統(tǒng)構(gòu)架中。
關(guān)鍵詞:Web挖掘;網(wǎng)絡(luò)輿情;輿情分析
1. 引言
網(wǎng)絡(luò)輿情是由于各種事件的刺激而產(chǎn)生的通過互聯(lián)網(wǎng)傳播的人們對(duì)于該事件的所有認(rèn)知、態(tài)度、情感和行為傾向的集合。隨著因特網(wǎng)在全球范圍內(nèi)的飛速發(fā)展,廣泛的網(wǎng)絡(luò)平臺(tái)為公眾內(nèi)隱的情緒和態(tài)度的表達(dá)提供了開放、快速、交互的渠道,為社會(huì)各階層成員自由發(fā)表言論、參與公共事務(wù)討論提供了便利,對(duì)社會(huì)一些突發(fā)事件的處理起到了積極有效的作用。然而,這些變化也為一些有害信息、雜音和噪音的傳播提供了渠道。因而對(duì)輿情的管控就是要使輿情不轉(zhuǎn)化為輿論或轉(zhuǎn)化為良性輿論,為此需要加強(qiáng)對(duì)網(wǎng)絡(luò)輿情信息的分析和預(yù)警處理,從而及時(shí)發(fā)現(xiàn)輿情的熱點(diǎn)以及正確引導(dǎo)民意的走勢(shì),這已成為成為社會(huì)管理者面臨的重大課題。
近年來,國(guó)內(nèi)外許多專家學(xué)者和研究機(jī)構(gòu)從事于網(wǎng)絡(luò)輿情分析技術(shù)的研究和探討,并取得了一定進(jìn)展。這些研究雖然在一定程度上增強(qiáng)了相關(guān)職能部門對(duì)輿情信息的監(jiān)控和引導(dǎo)能力,但仍存在一些不足。由于網(wǎng)絡(luò)的信息量十分巨大,僅僅依靠人工的方法難以應(yīng)付海量信息的收集和處理,而自動(dòng)化、智能化的輿情收集和分析處理技術(shù)的研究甚少,針對(duì)這一難題,Web挖掘作為一種新興的數(shù)據(jù)挖掘技術(shù),可以有效地從互聯(lián)網(wǎng)上獲取并分析相關(guān)輿情,達(dá)到監(jiān)控和治理的目的,為處置網(wǎng)絡(luò)輿情提供很大幫助。
2. Web挖掘技術(shù)
Web挖掘能夠快速、準(zhǔn)確地獲得有價(jià)值的網(wǎng)絡(luò)信息、利用歷史數(shù)據(jù)預(yù)測(cè)未來的行為以及從海量數(shù)據(jù)中發(fā)現(xiàn)知識(shí)。它克服了普通數(shù)據(jù)庫(kù)管理系統(tǒng)無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則、無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì)、缺乏發(fā)現(xiàn)數(shù)據(jù)背后隱藏的知識(shí)的手段等弱點(diǎn)。它的出現(xiàn)為自動(dòng)和智能地把互聯(lián)網(wǎng)上的海量數(shù)據(jù)轉(zhuǎn)化為有用信息和知識(shí)提供了條件,在實(shí)際工作中具有重要的意義
2.1 Web挖掘的方法和過程
1. 數(shù)據(jù)源的收集
通過各種信息渠道收集互聯(lián)網(wǎng)上的信息,包括門戶網(wǎng)站、博客、微博、論壇等網(wǎng)站上的信息,通過這些網(wǎng)站的WWW服務(wù)器中提取存儲(chǔ)的用戶的訪問日志和用戶訪問的交互信息,這也是Web使用記錄挖掘的重要數(shù)據(jù)來源,對(duì)于這些數(shù)據(jù),可以分為日志文件和用戶訪問數(shù)據(jù)。
2. 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理主要對(duì)數(shù)據(jù)源進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)規(guī)范化和數(shù)據(jù)集成等,形成事務(wù)數(shù)據(jù)庫(kù),其目標(biāo)是,通過對(duì)用戶訪問站點(diǎn)留下的數(shù)據(jù),整理成為便于被模式挖掘算法所使用的數(shù)據(jù)形式,以供數(shù)據(jù)挖掘階段使用。
3. 模式挖掘
對(duì)數(shù)據(jù)預(yù)處理所形成的事務(wù)數(shù)據(jù)庫(kù),利用模式挖掘的一些有效算法來發(fā)現(xiàn)隱藏的模式或者規(guī)則。常用的技術(shù)有:統(tǒng)計(jì)分析、路徑分析技術(shù)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式、分類和聚類等技術(shù)。
4. 模式分析
由于用戶使用模式挖掘出來的信息還不能直接被人們所理解,需要把這些模式解釋為人們可以理解的知識(shí),同時(shí)也要去除對(duì)人們沒有用的模式,所以對(duì)于模式分析需要借助一些工具來實(shí)現(xiàn)。
2.2 Web挖掘的分類
Web 數(shù)據(jù)挖掘可以分為Web 內(nèi)容挖掘(Web Content mining),Web結(jié)構(gòu)挖掘(Web structure mining),Web 使用挖掘(Web usage Mining)三類。
2.2.1 Web內(nèi)容挖掘
Web內(nèi)容挖掘從網(wǎng)頁內(nèi)容中抽取有用的信息和知識(shí)。例如:根據(jù)網(wǎng)頁的主題,我們可以進(jìn)行自動(dòng)的聚類和分類。雖然這些任務(wù)與傳統(tǒng)數(shù)據(jù)挖掘的任務(wù)相似,但是我們依然可以為了各種不同的目的從網(wǎng)頁中根據(jù)模式抽取有用的信息,例如熱點(diǎn)詞的跟蹤商品描述、論壇回帖等。而這些信息可以被用作進(jìn)一步分析來挖掘用戶態(tài)度。這些任務(wù)也不是傳統(tǒng)的數(shù)據(jù)挖掘任務(wù)。
2.2.2 Web結(jié)構(gòu)挖掘
Web結(jié)構(gòu)挖掘從表征Web結(jié)構(gòu)的超鏈接(簡(jiǎn)稱鏈接)中尋找有用的知識(shí)。例如:從這些鏈接中,我們可以找出哪些是重要的網(wǎng)頁,這是一項(xiàng)搜索引擎采用的重要技術(shù)。我們也可以發(fā)掘具有共同興趣的用戶社區(qū)。這些任務(wù)在傳統(tǒng)的數(shù)據(jù)挖掘中并不存在,因?yàn)樵陉P(guān)系型表格中并沒有鏈接結(jié)構(gòu)。挖掘頁面的結(jié)構(gòu)和Web 結(jié)構(gòu),可以用來指導(dǎo)對(duì)頁面進(jìn)行分類和聚類,找到權(quán)威頁面、中心頁面,從而提高檢索的性能。同時(shí)還可以用來指導(dǎo)頁面采集工作,提高采集效率。
2.2.3 Web使用挖掘
Web使用挖掘從記錄每位用戶點(diǎn)擊情況的使用日志中挖掘用戶的訪問模式。這項(xiàng)任務(wù)也使用了許多數(shù)據(jù)挖掘的算法。其中一項(xiàng)重要的議題是點(diǎn)擊流數(shù)據(jù)的預(yù)處理,以便生成可以用來挖掘的合適數(shù)據(jù)。
3. 基于Web挖掘的網(wǎng)絡(luò)輿情分析方法
1. 主題詞檢索
主題詞檢索是將Web上的文檔轉(zhuǎn)化為一種類似關(guān)系型數(shù)據(jù)庫(kù)中記錄的形式,內(nèi)容較規(guī)則且能反應(yīng)文本內(nèi)容特征的中間形式,一般采用文本特征向量表示法來進(jìn)行表示、特征抽取、內(nèi)容總結(jié),然后利用機(jī)器學(xué)習(xí)方法來提取知識(shí)模式。通過自動(dòng)主題詞檢索,可以及時(shí)掌握用戶關(guān)心的重點(diǎn)輿情問題,實(shí)時(shí)跟蹤了解情況。
2. 輿情熱點(diǎn)跟蹤
該方法首先將存放在文本文件中的Web記錄轉(zhuǎn)換成序列數(shù)據(jù)庫(kù)中的訪問記錄,然后采用某種序列模式挖掘算法對(duì)數(shù)據(jù)庫(kù)中的記錄進(jìn)行挖掘,最后分析出用戶所關(guān)心的序列模式。通過對(duì)輿情熱點(diǎn)的跟蹤,可以發(fā)現(xiàn)網(wǎng)絡(luò)輿情問題的演變情況,分析出輿情問題的發(fā)展規(guī)律,從而可以預(yù)測(cè)輿情問題的發(fā)展趨勢(shì),為下一步的決策做準(zhǔn)備。
3. 分類分析
分類分析首先按特定標(biāo)記對(duì)記錄集合進(jìn)行分類,然后挖掘出比按特定標(biāo)記分類的記錄集合更豐富、更細(xì)致的特征描述或模式描述。分類技術(shù)要求對(duì)輿情的描述對(duì)象及其行為方式進(jìn)行歸類,然后將這些歸類進(jìn)行聯(lián)合,從而分析出具有相似描述和相似行為的對(duì)象是否可以符合。
4. 聚類分析
聚類首先采用訪問頻度閾值和頁面間距離閾值對(duì)頁面進(jìn)行初步的篩選,然后把訪問頻度大于訪問頻度閾值的頁面加到頻繁訪問頁面集合中,然后將其中距離低于頁面距離閾值的頁面聚合在一起。聚類分析的結(jié)果是一系列相近信息組成的集合,同一組中的信息相近,不同組的信息相差較大。據(jù)此可以判別當(dāng)前網(wǎng)絡(luò)輿情的熱點(diǎn)及重點(diǎn)問題。類似的輿情問題存在某種有序關(guān)系,這種有序關(guān)系反映了此類輿情的特征,通過聚類分析,可以得出各種不同的熱點(diǎn)問題集合,有益于相關(guān)部門采取進(jìn)一步的行動(dòng)。
5. 統(tǒng)計(jì)分析
統(tǒng)計(jì)分析是利用統(tǒng)計(jì)、概率的原理對(duì)關(guān)系中各屬性進(jìn)行統(tǒng)計(jì)分析,從而找出它們之間的關(guān)系和規(guī)律。統(tǒng)計(jì)分析是數(shù)據(jù)挖掘最基本的技術(shù)方法之一。常用的統(tǒng)計(jì)方法有判別分析、因子分析、相關(guān)分析、回歸分析等。通過對(duì)互聯(lián)網(wǎng)上日志訪問頻率進(jìn)行統(tǒng)計(jì)分析,可以在一定程度上發(fā)現(xiàn)用戶感興趣的問題,從而確定當(dāng)前的熱點(diǎn)網(wǎng)絡(luò)輿情話題。
4. 校園輿情分析治理系統(tǒng)架構(gòu)
依據(jù)基于Web挖掘的網(wǎng)絡(luò)輿情分析方法,結(jié)合Web挖掘的工作流程和數(shù)據(jù)庫(kù)原理,設(shè)計(jì)了一個(gè)校園輿情分析治理系統(tǒng)構(gòu)架,該系統(tǒng)主要由三個(gè)功能平臺(tái)構(gòu)成,如圖1所示。
(1)內(nèi)容管理平臺(tái)
內(nèi)容管理平臺(tái)通過詞典管理、系統(tǒng)管理和數(shù)據(jù)庫(kù)管理功能對(duì)整個(gè)輿情分析系統(tǒng)進(jìn)行全面的管理,同時(shí)該平臺(tái)的鏈接功能保證了系統(tǒng)的可擴(kuò)展和靈活性。
(2)監(jiān)控分析平臺(tái)
利用主題詞檢索、輿情熱點(diǎn)跟蹤、分類分析、聚類分析和統(tǒng)計(jì)分析等多種方法對(duì)收集來的輿情信息進(jìn)行監(jiān)控和分析,從而有效的為校園輿情治理提供必要的準(zhǔn)備。
(3)輿情發(fā)布平臺(tái)
通過輿情預(yù)警、輿情監(jiān)測(cè)、輿情導(dǎo)向等手段,為學(xué)管人員和指導(dǎo)教師提供經(jīng)過總結(jié)的有指導(dǎo)意義的輿情分析報(bào)告,進(jìn)一步采取座談交流、干預(yù)教育、對(duì)BBS論壇輿情引導(dǎo)等途徑,實(shí)現(xiàn)校園輿情的分析和治理。
參考文獻(xiàn)
[1] 梅中玲.基于WEB信息挖掘與網(wǎng)絡(luò)輿情分析技術(shù)[J].中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,(4)
[2] 陳文舉,夏泉.試論高校輿論引導(dǎo)與和諧校園建設(shè)[J].濟(jì)南大學(xué)學(xué)報(bào).2006.16(6):88-95
[3] 黃曉斌.網(wǎng)絡(luò)信息挖掘[M].北京:電子工業(yè)出版社.2005
[4] 費(fèi)愛國(guó),王新輝.一種基于Web日志文件的信息挖掘方法[J].計(jì)算機(jī)應(yīng)用,2004,24(6):58