馬國富
隨著互聯(lián)網(wǎng)的普及應(yīng)用,以BBS、博客(Blog)和微博客(MicroBlog)為代表的互聯(lián)網(wǎng)論壇類媒體,已經(jīng)成為社會民眾公開發(fā)表、交流觀點最為主要的信息平臺。2011年10月13日,國家互聯(lián)網(wǎng)信息辦公室組織召開 “積極運用微博客服務(wù)社會經(jīng)驗交流會”,一批政府機構(gòu)、大型企業(yè)的代表和有關(guān)專家學(xué)者在會上介紹了使用微博客的經(jīng)驗。會議肯定了境內(nèi)50余家微博客網(wǎng)站的積極作用,希望黨政機關(guān)和黨政領(lǐng)導(dǎo)干部“以更加開放自信的態(tài)度”開設(shè)微博客、用好微博客。2012年,微博繼續(xù)升溫,成為社會輿論的發(fā)動機。據(jù)2013年1月15日中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的第31次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》,截至2012年12月底,我國的網(wǎng)民規(guī)模已達5.64億,其中微博用戶規(guī)模為3.09億,占網(wǎng)民總數(shù)的54.7%;手機微博用戶規(guī)模為2.02億,占所有微博用戶的65.6%。我國互聯(lián)網(wǎng)普及率42.1%,低于英美日韓等國家(均在70%以上),但我國的網(wǎng)絡(luò)輿論場卻絕對是世界上規(guī)模最大的,輿論強度也是在全世界無以匹敵的[1]。
目前,我國的網(wǎng)絡(luò)反腐呈現(xiàn)專業(yè)化、常態(tài)化的趨勢,同時也有娛樂化的特點。政府公信力面臨“塔西佗陷阱”的挑戰(zhàn)?!熬W(wǎng)絡(luò)問政”正在從應(yīng)急管理向制度建設(shè)延伸。因此,對互聯(lián)網(wǎng)論壇類媒體輿情熱點實行主動發(fā)現(xiàn)策略,為政府相關(guān)部門的決策提供支持,已顯得非常重要而緊迫。
網(wǎng)絡(luò)輿情,是由于各種事件的刺激而產(chǎn)生的通過互聯(lián)網(wǎng)傳播的人們對于該事件的所有認知、態(tài)度、情感和行為傾向的集合[2]。網(wǎng)絡(luò)作為第四媒體已成為社會輿情的主要載體之一,網(wǎng)絡(luò)輿情也必然會成為政府管理的一部分。從政府管理角度而言,總是希望能夠充分了解非常規(guī)事件所涉及的各個因素之間的牽制、互動關(guān)系,從而在分析預(yù)判某一決策可能產(chǎn)生的綜合效果的基礎(chǔ)上,及時、果斷、有效地作出新的正確的決策。
美國社會心理學(xué)家奧爾波特和波斯特曼提出了一個關(guān)于謠言的公式,即:R=I×A。其中,R(Rumor)即“謠傳”;I(Important)為“重要性”;A(Ambiguous)為“含糊性”。一件事之所以引起謠言,說明它有一定的重要性和含糊性。事件本身的重要性加上初期信息的不確定性,極易讓謠言得到傳播??朔{言,最有效的辦法是通過權(quán)威的、即時的信息發(fā)布渠道及時公布真相,也就是排除“含糊性”,讓“A”值為“0”。要做到這一點,首先必須及時發(fā)現(xiàn)輿情熱點,然后綜合分析,揭示真相;或者據(jù)此作出正確的決策,引導(dǎo)輿情。
主動發(fā)現(xiàn)論壇類媒體輿情熱點的過程,包含媒體信息采集、信息熱點發(fā)現(xiàn)與熱點表達呈現(xiàn)三個環(huán)節(jié)。信息采集環(huán)節(jié)采集的輿情信息為結(jié)構(gòu)化的存儲信息,包含信息采集時間、網(wǎng)絡(luò)地址、主體發(fā)表內(nèi)容。媒體輿情熱點主動發(fā)現(xiàn)模型如圖1所示。
圖1 論壇類媒體輿情熱點主動發(fā)現(xiàn)模型
論壇類媒體數(shù)量龐大,根據(jù)訪問方式,可分為可匿名身份瀏覽和身份認證訪問兩類;根據(jù)發(fā)布形態(tài),可分為靜態(tài)發(fā)布與動態(tài)發(fā)布兩類。靜態(tài)發(fā)布頁面的主體內(nèi)容及其內(nèi)部所含超鏈接網(wǎng)絡(luò)地址,分別以文本信息和統(tǒng)一資源標識符(URL)的方式直接嵌入頁面源文件的HTML標記(Tag)中。通過使用HTML標記識別的方法[3],可以實現(xiàn)靜態(tài)頁面主體內(nèi)容與其所含超鏈接網(wǎng)絡(luò)地址的提取,完成對其發(fā)布內(nèi)容的遞歸采集工作。動態(tài)發(fā)布頁面中除了少量靜態(tài)URL,還含有大量須通過瀏覽器執(zhí)行腳本才能解析得到的超鏈接網(wǎng)絡(luò)地址和網(wǎng)頁主體內(nèi)容,因此,無法使用HTML標記識別的方法對動態(tài)發(fā)布信息實現(xiàn)遞歸獲取。針對不同類型的論壇媒體信息,需要采取不同的信息獲取方法,以實現(xiàn)對媒體發(fā)布內(nèi)容的采集(如表1所示)。
表1 不同類型論壇媒體的信息獲取方法
1.身份認證過程模擬
目前,大部分靜態(tài)網(wǎng)頁可通過匿名身份訪問,而大部分論壇類媒體需要身份認證才能訪問。為此,建立網(wǎng)絡(luò)身份認證交互過程模擬實現(xiàn)方案,以實現(xiàn)對身份認證論壇發(fā)布信息的獲取。
論壇類媒體主要是通過網(wǎng)頁上的認證表單來實現(xiàn)客戶端身份認證。因此,可以通過JSSh客戶端向內(nèi)嵌JSSh服務(wù)器的Firefox瀏覽器發(fā)送JavaScript指令[4],讓瀏覽器自動填寫網(wǎng)頁上的身份認證表單,然后進行提交請求。整個身份認證過程完全模擬用戶與論壇的要求進行。身份認證之后,JSSh客戶端利用JSSh服務(wù)器加載身份認證與論壇發(fā)布信息,通過JavaScript指令操作,提取論壇URL信息和主體內(nèi)容。
2.動態(tài)網(wǎng)頁解析
通過身份認證后,便可進行網(wǎng)頁識別了。靜態(tài)網(wǎng)頁,使用HTML語言和URL標識識別。動態(tài)網(wǎng)頁,需要瀏覽器執(zhí)行腳本才能解析超鏈接地址和網(wǎng)頁主體內(nèi)容。目前,動態(tài)網(wǎng)頁主要是利用VBScript、JavaScript、PHP等腳本語言和動態(tài)網(wǎng)頁技術(shù)(ASP.NET)來實現(xiàn)。文獻[5-7]對論壇、博客等媒體信息的獲取進行了研究,但沒有涉及腳本解析問題。采用瀏覽器模擬技術(shù)實現(xiàn)對動態(tài)網(wǎng)頁內(nèi)容獲取,主要由客戶端通過腳本指令指示內(nèi)嵌腳本服務(wù)器的網(wǎng)絡(luò)瀏覽器加載動態(tài)網(wǎng)頁主體內(nèi)容,通過腳本解析引擎進行動態(tài)腳本解析。然后,瀏覽器通過網(wǎng)頁整合引擎生成靜態(tài)網(wǎng)頁的HTML DOM樹,最后導(dǎo)出靜態(tài)網(wǎng)頁及其發(fā)布內(nèi)容。在此基礎(chǔ)上,遞歸獲取腳本片段所含超鏈接指向的網(wǎng)絡(luò)資源、提取動態(tài)頁面主體內(nèi)容(見圖2)。
圖2 動態(tài)網(wǎng)頁信息的獲取過程
互聯(lián)網(wǎng)論壇類媒體發(fā)布信息具有離散特性,形態(tài)多樣,分布不平衡,跨類別交叉,主題信息不全,甚至沒有主題信息。因此,在信息熱點發(fā)現(xiàn)環(huán)節(jié),要使用適合于高離散性信息理解與融合的詞法/句法分析方法、離散語義特征表達方法以及離散信息主題聚類方法。論壇類媒體發(fā)布信息類似于自然語言處理領(lǐng)域的對話(Dialog),不同的是后者的內(nèi)容集中于同一篇文檔中,而前者的內(nèi)容是分散的,時間、地點都有所不同;共同的難題是遠程指代與主題矛盾。由于論壇類媒體信息的離散性,在對其進行信息分析前,還需要實現(xiàn)離散語義復(fù)原。鑒于此,提出基于離散信息主題聚類的論壇類媒體輿情熱點主動發(fā)現(xiàn)方法,主要包含論壇類媒體發(fā)布信息跟蹤與語義復(fù)原,面向離散信息的自動分詞、句法分析、特征表達和主題聚類等(見圖3)。每個輿情熱點強度,由聚合所得各個類別的信息總量予以體現(xiàn)。
圖3 輿情熱點主動發(fā)現(xiàn)方法
信息熱點發(fā)現(xiàn)環(huán)節(jié)接收信息采集環(huán)節(jié)對不同論壇媒體發(fā)布信息的存儲結(jié)果,主要對其中發(fā)布信息主體內(nèi)容進行自動分詞、句法分析、離散語義特征表達以及離散信息主題聚類。
在信息熱點表達呈現(xiàn)環(huán)節(jié),針對異構(gòu)的互聯(lián)網(wǎng)媒體發(fā)布內(nèi)容,采取異構(gòu)信息歸一化存儲,同時對主題信息及內(nèi)容進行快照。歸一化存儲的信息主要包括:發(fā)帖時間、發(fā)帖作者、URL、發(fā)帖標題、發(fā)帖內(nèi)容、跟帖時間、跟帖作者、跟帖內(nèi)容等關(guān)鍵信息。通過對信息進行元數(shù)據(jù)統(tǒng)一定義,實現(xiàn)單一與組合選型“與、或”等邏輯操作,從而為深入獲取全面的熱點內(nèi)容服務(wù)。
[1]祝華新.未來十年的網(wǎng)絡(luò)輿論場[J].網(wǎng)絡(luò)傳播,2014(5).
[2]曾潤喜.網(wǎng)絡(luò)輿情信息資源共享研究[J].情報雜志,2009(8).
[3]常紅要,朱征宇,陳燁,等.基于HTML標記用途分析的網(wǎng)頁正文提取技術(shù)[J].計算機工程與設(shè)計,2010(24).
[4]李翔,李生紅,劉功申,等.信息內(nèi)容安全管理及應(yīng)用[M].北京:機械工業(yè)出版社,2010:7.
[5]潘冰,徐亮亮.中文博客搜索引擎研究[J].計算機工程與設(shè)計,2010(8).
[6]彭冬,蔡皖東.面向Web論壇的網(wǎng)絡(luò)信息獲取技術(shù)及系統(tǒng)實現(xiàn)[J].計算機工程與科學(xué),2011(1).
[7]劉佐達,張久嶺,陳茂科,等.一種面向BBS信息檢索的主題網(wǎng)絡(luò)爬蟲算法[J].鄭州大學(xué)學(xué)報(理學(xué)版),2010(2).