趙新輝 郭瑞
摘要:隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)改變著人們的生活和表達(dá)方式。個(gè)人觀點(diǎn)態(tài)度在網(wǎng)上的宣泄就產(chǎn)生網(wǎng)絡(luò)輿情,面對(duì)紛雜的海量信息,亟需一種機(jī)制做正確的監(jiān)測(cè)與引導(dǎo),對(duì)網(wǎng)絡(luò)輿情監(jiān)測(cè)與引導(dǎo)分析方法中引入數(shù)據(jù)挖掘技術(shù),能夠科學(xué)地分析各種潛在的有利和不利的因素,本文基于數(shù)據(jù)挖掘技術(shù)提出網(wǎng)絡(luò)輿情智能監(jiān)測(cè)與引導(dǎo)平臺(tái)的設(shè)計(jì)模型,可以有效的進(jìn)一步完善網(wǎng)絡(luò)輿情監(jiān)測(cè)與引導(dǎo)機(jī)制,從而為網(wǎng)絡(luò)營(yíng)造一個(gè)更加安全和綠色的網(wǎng)絡(luò)環(huán)境。
關(guān)鍵詞:數(shù)據(jù)挖掘;網(wǎng)絡(luò)輿情;監(jiān)測(cè)引導(dǎo);決策平臺(tái)
中圖分類(lèi)號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012)01-0001-02
互聯(lián)網(wǎng)的應(yīng)用擴(kuò)展了人們的生活空間,也改變著人們的生活和表達(dá)方式,隨著信息技術(shù)的發(fā)展,作為“第四媒體”的互聯(lián)網(wǎng)已經(jīng)成為人們發(fā)布、交換、獲取信息的重要渠道。網(wǎng)絡(luò)本身具有虛擬性、匿名性的特點(diǎn),已經(jīng)成為人們情緒表達(dá)、宣泄及交流的重要平臺(tái),其中社會(huì)政治態(tài)度的表現(xiàn)就是網(wǎng)絡(luò)輿情。網(wǎng)絡(luò)也自然而然的成為了政治問(wèn)題和社會(huì)問(wèn)題的集散地,更加為政府了解民情,政府治國(guó)理政提供了重要平臺(tái)。
在網(wǎng)絡(luò)大量輿情數(shù)據(jù)的背后隱藏了很多具有決策意義的信息,那么在飛漲的信息數(shù)據(jù)中,有效利用數(shù)據(jù)寶藏,是近年信息技術(shù)領(lǐng)域研究熱點(diǎn)之一。在數(shù)據(jù)生產(chǎn)、傳輸能力遠(yuǎn)遠(yuǎn)大于數(shù)據(jù)分析能力的今天,人們希望能夠提供更高層次的數(shù)據(jù)分析功能,自動(dòng)和智能地將待處理的數(shù)據(jù)轉(zhuǎn)化為有用的信息和知識(shí)。面對(duì)這一嚴(yán)峻挑戰(zhàn),數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)(Data Mining and Knowledge Discovery,簡(jiǎn)稱(chēng)DMKD)技術(shù)應(yīng)運(yùn)而生,并蓬勃發(fā)展起來(lái)。
1網(wǎng)絡(luò)輿情
1.1網(wǎng)絡(luò)輿情概念
網(wǎng)絡(luò)輿情是指通過(guò)互聯(lián)網(wǎng)或者其他網(wǎng)絡(luò)手段傳播出的廣大公眾對(duì)于現(xiàn)實(shí)生活中存在的某些焦點(diǎn)、熱點(diǎn)問(wèn)題所持的有較強(qiáng)影響力和傾向性的言論及觀點(diǎn)。開(kāi)通微博、建立專(zhuān)區(qū)留言板,新聞跟帖,BBS論壇,都已經(jīng)成為了群眾與組織展開(kāi)交流的重要手段,這些網(wǎng)絡(luò)手段的確起到了一定的交流作用。
網(wǎng)絡(luò)自身具有虛擬性、隱蔽性、隨意性和滲透性等特點(diǎn),廣大用戶(hù)都很樂(lè)意通過(guò)這些渠道參與到各種話(huà)題的討論中去,盡管起到了一定的積極作用,然而一旦引導(dǎo)不利,產(chǎn)生一系列的負(fù)面的網(wǎng)絡(luò)輿情就會(huì)嚴(yán)重的威脅到社會(huì)大環(huán)境的安全,甚至?xí)?duì)公共環(huán)境的發(fā)展起到消極作用。這就要求要加強(qiáng)對(duì)于網(wǎng)絡(luò)輿情的及時(shí)監(jiān)測(cè)和有效的引導(dǎo),并且及時(shí)的關(guān)注網(wǎng)絡(luò)輿情的負(fù)面危機(jī)。這對(duì)于維護(hù)社會(huì)安全發(fā)展,穩(wěn)定民情民心有著重要的作用,對(duì)于促進(jìn)國(guó)家的發(fā)展與進(jìn)步更是有著重要的現(xiàn)實(shí)意義。
1.2輿情監(jiān)測(cè)與引導(dǎo)
從當(dāng)前網(wǎng)絡(luò)輿情的傳播速度來(lái)看,爆炸性消息3小時(shí)之內(nèi)就能夠迅速被各大論壇轉(zhuǎn)載,6小時(shí)內(nèi)就有可能已經(jīng)出現(xiàn)在各大新聞網(wǎng)站的網(wǎng)頁(yè)上,那么可想而知,24小時(shí)之后,關(guān)于新聞事件的追蹤和跟帖就會(huì)使其成為熱點(diǎn)事件,并且很有可能在網(wǎng)絡(luò)上掀起輿論討論的熱潮。所以對(duì)于有關(guān)部門(mén)來(lái)說(shuō),能夠在第一時(shí)間掌握哪些是熱點(diǎn)輿情,哪些有可能在短時(shí)間內(nèi)發(fā)展成熱點(diǎn)輿論,哪些又會(huì)對(duì)社會(huì)安全造成影響是十分必要的。
輿情監(jiān)測(cè)與引導(dǎo)系統(tǒng)就是在這樣的背景下產(chǎn)生的,網(wǎng)絡(luò)輿情監(jiān)測(cè)與引導(dǎo)平臺(tái)是針對(duì)在一定的社會(huì)空間內(nèi),圍繞中介性社會(huì)事件的發(fā)生、發(fā)展和變化,民眾對(duì)社會(huì)管理者產(chǎn)生和持有的社會(huì)政治態(tài)度于網(wǎng)絡(luò)上表達(dá)出來(lái)意愿集合而進(jìn)行的計(jì)算機(jī)監(jiān)測(cè)的系統(tǒng)統(tǒng)稱(chēng)。通過(guò)這個(gè)系統(tǒng),能夠讓我們有效的對(duì)網(wǎng)絡(luò)輿情進(jìn)行預(yù)警和應(yīng)對(duì)。這個(gè)系統(tǒng)的產(chǎn)生在一定程度上解決了一些網(wǎng)絡(luò)輿情帶來(lái)的負(fù)面影響。
2數(shù)據(jù)挖掘
數(shù)據(jù)挖掘起源于從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí),它首次出現(xiàn)在1989年8月在底特律舉行的第十一屆國(guó)際聯(lián)合人工智能學(xué)術(shù)會(huì)議上。在1996年出版的總結(jié)該領(lǐng)域進(jìn)展的權(quán)威論文集《知識(shí)發(fā)現(xiàn)與數(shù)據(jù)進(jìn)展》中,F(xiàn)ayyd,Piatetsky-Shapiro and Smyth給出了知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的最新定義,將二者加以區(qū)分。
數(shù)據(jù)挖掘的定義為:數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)中通過(guò)特定的算法在可接受的計(jì)算效率限制內(nèi)生成特定模式的一個(gè)步驟。數(shù)據(jù)挖掘技術(shù)在技術(shù)上又有著這樣的定義:從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。
數(shù)據(jù)挖掘技術(shù)從一開(kāi)始就是面向應(yīng)用的。目前,在很多重要的領(lǐng)域,數(shù)據(jù)挖掘都可以發(fā)揮積極促進(jìn)的作用,尤其是在如銀行、電信、保險(xiǎn)、交通、零售(如超級(jí)市場(chǎng))等商業(yè)應(yīng)用領(lǐng)域。如果把我們所有需要的知識(shí)和想要得到的信息比作一個(gè)巨大的數(shù)據(jù)庫(kù)的話(huà),數(shù)據(jù)挖掘技術(shù)就是能讓你在龐大的數(shù)據(jù)庫(kù)中輕而易舉的搜取自己需要的信息和知識(shí)的重要技術(shù)。對(duì)于如今數(shù)據(jù)庫(kù)龐大的互聯(lián)網(wǎng)來(lái)說(shuō)產(chǎn)生的意義十分重大,對(duì)于廣大用戶(hù)來(lái)說(shuō)更是必不可少的技術(shù)。對(duì)于現(xiàn)如今的網(wǎng)絡(luò)輿情監(jiān)測(cè)來(lái)說(shuō),數(shù)據(jù)挖掘技術(shù)更是作為基礎(chǔ)作為了重要的技術(shù)支持,它對(duì)于網(wǎng)絡(luò)監(jiān)測(cè)系統(tǒng)的研制也有著千絲萬(wàn)縷的影響。
3網(wǎng)絡(luò)輿情監(jiān)測(cè)與引導(dǎo)平臺(tái)
網(wǎng)絡(luò)輿情監(jiān)測(cè)與引導(dǎo)平臺(tái)的設(shè)計(jì)可以分為五大功能模塊,具體指:網(wǎng)絡(luò)輿情采集模塊、網(wǎng)絡(luò)輿情存儲(chǔ)模塊、網(wǎng)絡(luò)輿情分析模塊、網(wǎng)絡(luò)輿情檢索模塊和網(wǎng)絡(luò)輿情發(fā)布模塊,共同組成了網(wǎng)絡(luò)輿情監(jiān)測(cè)與引導(dǎo)平臺(tái)。如圖1網(wǎng)絡(luò)輿情智能監(jiān)測(cè)與引導(dǎo)平臺(tái)設(shè)計(jì)框架所示。
輿情采集模塊是網(wǎng)絡(luò)輿情分析的重要基礎(chǔ)保障。它是指利用搜索引擎完成的在各大網(wǎng)頁(yè)網(wǎng)站中收集網(wǎng)頁(yè)信息并建立起原始網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的過(guò)程,然后將收集的信息和數(shù)據(jù)等統(tǒng)一的存儲(chǔ)到網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)。既而,網(wǎng)絡(luò)輿情分析系統(tǒng)便會(huì)對(duì)存儲(chǔ)的一些輿情進(jìn)行分類(lèi)、歸納、整理,這樣就能夠得出近一段時(shí)間內(nèi)網(wǎng)絡(luò)輿情的變化走向,之后便把分析歸納好的信息進(jìn)行存儲(chǔ)。最后,通過(guò)輿情分析系統(tǒng)分析以及檢索系統(tǒng)的一系列檢索,還有存儲(chǔ)系統(tǒng)里的信息及數(shù)據(jù)都可以通過(guò)輿情報(bào)告系統(tǒng)發(fā)送和展示給各用戶(hù)。這就是簡(jiǎn)單的輿情監(jiān)測(cè)與引導(dǎo)平臺(tái)的整個(gè)工作流程。
3.1輿情采集模塊
互聯(lián)網(wǎng)的信息量是十分龐大的,隨著信息技術(shù)的不斷發(fā)展和進(jìn)步,網(wǎng)頁(yè)的設(shè)計(jì)也開(kāi)始越來(lái)越靈活,這就使得網(wǎng)頁(yè)結(jié)構(gòu)十分的復(fù)雜化,而且網(wǎng)頁(yè)的更新速度使得內(nèi)容更加動(dòng)態(tài)化,以及一些網(wǎng)站對(duì)站內(nèi)信息限制的技術(shù)手段造成網(wǎng)頁(yè)內(nèi)容不完整性,使得傳統(tǒng)手工采集信息的方法非常低效率和高錯(cuò)誤率。針對(duì)這一問(wèn)題,輿情采集模塊主流技術(shù)是自動(dòng)采集,較為流行的采集工具可以分為六大類(lèi):Wrapper的專(zhuān)用高級(jí)語(yǔ)言、以HTML為中間件的工具、基于NLP(Natural language processing)的工具、包裝器的歸納工具、基于模型的工具、基于本體的工具。這些工具首先需要專(zhuān)家參與,人工建立某領(lǐng)域的知識(shí)庫(kù),然后工具基于知識(shí)庫(kù)去做抽取操作。
網(wǎng)絡(luò)輿情信息主要是從以下幾個(gè)方面來(lái)進(jìn)行的挖掘:①新聞?lì)愋畔⒅兴ǖ闹醒胫卮笳咭约耙幌盗懈母锎胧┑念C布、國(guó)內(nèi)外重要新聞、與廣大人民群眾利益密切相關(guān)的政策等等由此所引發(fā)的輿情,要依靠一些主流媒體、新聞網(wǎng)站和權(quán)力部門(mén)的相應(yīng)網(wǎng)站為主要挖掘渠道。②社會(huì)焦點(diǎn)事件以及突發(fā)情況,這些主要要以虛擬社區(qū)當(dāng)中的熱門(mén)版塊和BBS跟帖為主要挖掘渠道。③對(duì)于一些小道消息、謠傳以及各種議論的集中集散地,蘊(yùn)含著較強(qiáng)的傾向性、指向性的輿情信息,主要是以個(gè)人網(wǎng)頁(yè)或博客為主要挖掘渠道。
3.2輿情存儲(chǔ)模塊
提供對(duì)輿情數(shù)據(jù)的存儲(chǔ)功能。包括全文數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)、日志操作等。
3.3輿情分析模塊
網(wǎng)絡(luò)輿情分析模塊可以說(shuō)是整個(gè)網(wǎng)絡(luò)輿情監(jiān)測(cè)與引導(dǎo)平臺(tái)最為核心的功能,并且具有以下的特點(diǎn):關(guān)聯(lián)分析、熱點(diǎn)識(shí)別能力、聚類(lèi)分析、傾向性分析與統(tǒng)計(jì)、信息自動(dòng)摘要功能。這些功能對(duì)于輿情分析工作的完成有著重要意義。
熱點(diǎn)識(shí)別能力在當(dāng)今互聯(lián)網(wǎng)信息變化速度突飛猛進(jìn)的今天,熱點(diǎn)識(shí)別就已經(jīng)成為了整個(gè)分析模塊的總的前提條件,他能給出在一段時(shí)間內(nèi)以信息出處權(quán)威度、評(píng)論的數(shù)量以及和跟帖密集度等作為參數(shù),然后統(tǒng)計(jì)出一定時(shí)間段來(lái)的熱點(diǎn)和重要輿情。
在數(shù)據(jù)挖掘技術(shù)中,關(guān)聯(lián)規(guī)則算法為一種較為成熟的技術(shù)。關(guān)聯(lián)規(guī)則算法的形式化描述如下所示:
設(shè)I={i1,i2,…,in}表示為全部項(xiàng)目的集合,也稱(chēng)I為項(xiàng)目集,項(xiàng)目集的元素ip={p=1,…,n}表示為每一個(gè)單獨(dú)的項(xiàng)目,Tp={ t1,t2,…,tn }表示為全部事務(wù)的集合,即T表示成事務(wù)數(shù)據(jù)庫(kù),事物數(shù)據(jù)庫(kù)的的事務(wù)表示成元素Tp={ p=1,…,n },一些項(xiàng)目的集合組成單個(gè)事務(wù)。
采用關(guān)聯(lián)規(guī)則實(shí)施數(shù)據(jù)挖掘的通常方法是:計(jì)算出支持度比提供的最小支持度閥值大的頻繁項(xiàng)集,然后根據(jù)計(jì)算出的頻繁項(xiàng)集,生成關(guān)聯(lián)規(guī)則。對(duì)網(wǎng)絡(luò)上繁雜的海量數(shù)據(jù)分析,需要找到相關(guān)輿情信息的內(nèi)在關(guān)聯(lián)規(guī)則,這樣就能有效對(duì)輿情加以分析、檢索和存儲(chǔ)。
3.4輿情檢索模塊
檢索模塊可以將存儲(chǔ)模塊中的信息進(jìn)行關(guān)于時(shí)間、地點(diǎn)、類(lèi)型、網(wǎng)站等等有關(guān)信息進(jìn)行檢索,繼而提供給用戶(hù)。在分析模塊中所提供的熱點(diǎn)分析一般只是對(duì)已經(jīng)產(chǎn)生的熱點(diǎn),或者是將要成為熱點(diǎn)的次熱點(diǎn)。而檢索模塊還可以讓用戶(hù)自定義關(guān)鍵詞對(duì)采集到的信息進(jìn)行自定義監(jiān)控。
3.5輿情發(fā)布模塊
根據(jù)網(wǎng)絡(luò)輿情分析模塊處理后的結(jié)果或網(wǎng)絡(luò)輿情檢索模塊查詢(xún)的結(jié)果生成報(bào)告,系統(tǒng)可通過(guò)短信、電話(huà)、網(wǎng)頁(yè)瀏覽等各種手段及時(shí)告知,提供決策支持。整合以上所有系統(tǒng)的工作結(jié)果,將熱點(diǎn)度較高的輿情發(fā)布給廣大用戶(hù)和相關(guān)部門(mén)最終完成這一監(jiān)測(cè)系統(tǒng)的最終使命。
4結(jié)束語(yǔ)
通過(guò)以上分析加之現(xiàn)在的社會(huì)現(xiàn)狀,我們不難得出網(wǎng)絡(luò)輿情智能監(jiān)測(cè)與引導(dǎo)機(jī)制實(shí)施的緊迫性和必要性。智能監(jiān)測(cè)系統(tǒng)的出臺(tái)和應(yīng)用不僅僅是改善了網(wǎng)絡(luò)輿情存在的環(huán)境,更重要的是,為更多社會(huì)組織、企業(yè)、政府提供了更多可以信賴(lài)的,真正反映民情的正確的網(wǎng)絡(luò)輿情。并且為更好的解決社會(huì)問(wèn)題和社會(huì)矛盾提供了一系列的保障。為國(guó)家能夠有一個(gè)健康安全的輿論環(huán)境提供了重要的基礎(chǔ),并且真正為民眾與政府和各大社會(huì)組織提供了一個(gè)健康的溝通渠道,為我們的社會(huì)進(jìn)步也是有著重要的影響的。尤其是作為政府,作為公共管理的主要部門(mén),必須要時(shí)刻關(guān)注網(wǎng)絡(luò)輿情,對(duì)于互聯(lián)網(wǎng)中的海量信息進(jìn)行系統(tǒng)監(jiān)測(cè),及時(shí)發(fā)現(xiàn)問(wèn)題,解決問(wèn)題,防微杜漸,積極處理,防止一些不必要的事情發(fā)生。
盡管,網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)出現(xiàn)時(shí)間還比較短,基于其的算法和方法還都很不完善,然而我們相信方便、快捷、智能、通用將是今后輿情監(jiān)測(cè)系統(tǒng)發(fā)展的方向,關(guān)于網(wǎng)絡(luò)輿情智能監(jiān)測(cè)與引導(dǎo)機(jī)制的研究也將會(huì)更上一層樓。
參考文獻(xiàn):
[1]曹進(jìn)松.政府網(wǎng)絡(luò)傳播[M].南京:江蘇人民出版社,2010.
[2]葉皓百.正確應(yīng)對(duì)網(wǎng)絡(luò)事件[M].濟(jì)南:山東教育出版社,2009.
[3]郭建永.基于文本聚類(lèi)技術(shù)的主題發(fā)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2008(6).
[4]中國(guó)互聯(lián)網(wǎng)信息中心.第25次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r調(diào)查統(tǒng)計(jì)報(bào)告[R].中國(guó)互聯(lián)網(wǎng)信息中心,2010.
[5]許鑫,張嵐嵐.突發(fā)事件網(wǎng)絡(luò)輿情預(yù)警模式探索[J].圖書(shū)情報(bào)工作,2010(11).
[6]謝海光,陳中潤(rùn).互聯(lián)網(wǎng)內(nèi)容及輿情深度分析模式[J].中國(guó)青年政治學(xué)院學(xué)報(bào),2006(3).