張 穎,林 洋
(四川省地震局,四川成都 610041)
近年來,網(wǎng)絡(luò)輿情對社會(huì)政治生活秩序和社會(huì)穩(wěn)定的影響與日俱增,一些重大的網(wǎng)絡(luò)輿情事件使人們開始認(rèn)識(shí)到網(wǎng)絡(luò)對公眾想法、社會(huì)輿論熱點(diǎn)反映起到的巨大作用。網(wǎng)絡(luò)輿情突發(fā)事件如果處理不當(dāng),極有可能誘發(fā)民眾的不良情緒,引發(fā)群眾的違規(guī)和過激行為,進(jìn)而對社會(huì)穩(wěn)定形成威脅。有感地震發(fā)生后,如何快速、全面、準(zhǔn)確地掌握網(wǎng)絡(luò)輿情動(dòng)態(tài),從海量的網(wǎng)絡(luò)輿情信息中獲取震情、災(zāi)情信息、地震相關(guān)輿論熱點(diǎn)、話題關(guān)注度變化趨勢、錯(cuò)誤輿論和謠言等信息顯得尤為重要。掌握網(wǎng)絡(luò)輿情信息,可以補(bǔ)充應(yīng)急指揮、災(zāi)情上報(bào)等技術(shù)系統(tǒng)的產(chǎn)出,為抗震救災(zāi)指揮部提供進(jìn)一步的災(zāi)情信息支撐;有針對性地發(fā)布信息,宣傳防震知識(shí),減少地震及次生災(zāi)害帶來的人身財(cái)產(chǎn)損失;對形成的錯(cuò)誤輿論給予正確的引導(dǎo),以緩解公眾的恐慌情緒;對散布的謠言信息實(shí)施監(jiān)控,及時(shí)遏止,能夠有效維持社會(huì)的正常秩序。由此可見,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)對于震后輿情控制及應(yīng)急處置起到重要的作用。
該系統(tǒng)實(shí)現(xiàn)了對主要網(wǎng)絡(luò)新聞媒體及論壇的信息采集與存儲(chǔ)。當(dāng)國內(nèi)發(fā)生4.0級(jí)以上地震,全球發(fā)生6.0級(jí)以上地震時(shí),系統(tǒng)通過EQIM的地震三要素信息,自動(dòng)生成地震專題,通過自動(dòng)分類、自動(dòng)摘要、主題詞、智能分詞、信息抽取、信息過濾、自動(dòng)重排、相似性檢索、自動(dòng)聚類等方法,進(jìn)行輿情分析并存入輿情信息庫。通過數(shù)據(jù)挖掘技術(shù)將處理過的信息進(jìn)行二次分析,從而提供信息導(dǎo)航、信息預(yù)警、熱點(diǎn)分析、傳播分析、時(shí)間趨勢分析、專題監(jiān)控、輿情簡報(bào)、信息推送、統(tǒng)計(jì)分析、信息檢索等輿情服務(wù),為抗震救災(zāi)指揮部提供網(wǎng)絡(luò)輿情信息。在抗震救災(zāi)各階段工作部署中,能夠起到良好的輔助作用。網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)功能如圖1所示。
首先,該系統(tǒng)根據(jù)需求配置好信息采集源,包括各大門戶網(wǎng)站、論壇、博客、微博、社交網(wǎng)站等數(shù)據(jù)收集點(diǎn),對各個(gè)目標(biāo)網(wǎng)站的信息進(jìn)行實(shí)時(shí)監(jiān)控,及時(shí)采集新信息到本系統(tǒng)后,進(jìn)行內(nèi)容分析和過濾等操作。得到新網(wǎng)頁的全信息集合,每個(gè)網(wǎng)頁的信息都被完整記錄下來,包括網(wǎng)頁名稱、大小、日期、標(biāo)題、文字及圖片內(nèi)容等,根據(jù)應(yīng)用的具體需求存儲(chǔ)到不同的目標(biāo)上:直接存儲(chǔ)到文件系統(tǒng)中,存儲(chǔ)到關(guān)系數(shù)據(jù)庫(如SQL Server、Oracle和MySQL)中,或是存儲(chǔ)到內(nèi)容檢索服務(wù)器中。
該系統(tǒng)將信息自動(dòng)過濾、自動(dòng)分類、自動(dòng)排重、自動(dòng)聚類、內(nèi)碼轉(zhuǎn)換等功能無縫集成在系統(tǒng)內(nèi)部,完成對采集信息的智能處理,實(shí)現(xiàn)了自動(dòng)處理的高度集成。
(1)自動(dòng)過濾。該系統(tǒng)通過自動(dòng)過濾技術(shù),利用網(wǎng)頁結(jié)構(gòu)分析,自動(dòng)分析有效用的網(wǎng)頁,自動(dòng)提取元數(shù)據(jù),自動(dòng)過濾掉不需要采集的網(wǎng)頁和媒體文件,從而有效避免垃圾信息的下載以及對帶寬的浪費(fèi)。利用自動(dòng)過濾技術(shù),濾除網(wǎng)頁中廣告、版權(quán)等無用信息,自動(dòng)識(shí)別網(wǎng)頁真正的標(biāo)題(很多網(wǎng)頁都以New Page來標(biāo)識(shí)),同時(shí)保存網(wǎng)頁中與正文相關(guān)的表格和圖片,濾掉正文中嵌入的廣告。此外,對于有條件分析出標(biāo)題、版次、日期、作者、欄目、分類等屬性的網(wǎng)頁,如存在Meta置標(biāo)或者格式特征明顯的網(wǎng)頁,還可以分析并標(biāo)注出這些信息屬性。
(2)自動(dòng)分類。該系統(tǒng)采用自動(dòng)分類,借助規(guī)則分類技術(shù)實(shí)現(xiàn)對主題詞、關(guān)鍵詞、來源等信息內(nèi)容的分類管理,也可以按統(tǒng)計(jì)或規(guī)則進(jìn)行分類。自動(dòng)分類時(shí),創(chuàng)建專有的分類模型,采用樹狀結(jié)構(gòu)以方便地進(jìn)行管理和維護(hù)。根據(jù)數(shù)據(jù)創(chuàng)建分類模型,將已完成分類的文章作為樣本,結(jié)合關(guān)鍵詞設(shè)計(jì)的多級(jí)分類樹形體系,可以適應(yīng)系統(tǒng)發(fā)展,隨時(shí)進(jìn)行更新和管理,使該模型能夠不斷完善,提升分類的準(zhǔn)確性。在該系統(tǒng)中,需要進(jìn)行數(shù)據(jù)分類,調(diào)用自動(dòng)分類功能并按模型進(jìn)行分類,以自動(dòng)分類為主以規(guī)則分類為輔完成包含特定規(guī)則的分類處理。對于分類模糊的信息,可以提示編輯進(jìn)行審核,采用人工分類方式加工和維護(hù)。
(3)自動(dòng)排重。該系統(tǒng)中,自動(dòng)排重功能通過兩項(xiàng)技術(shù)實(shí)現(xiàn),一是根據(jù)URL直接去重,二是進(jìn)行內(nèi)容去重。URL直接去重只需要分析URL串即可實(shí)現(xiàn)。內(nèi)容去重技術(shù)則需通過相似性檢索中文處理技術(shù),對標(biāo)題或內(nèi)容有重復(fù)的信息自動(dòng)歸類。內(nèi)容去重技術(shù),可設(shè)置是否存儲(chǔ)重復(fù)信息,對于標(biāo)題不同而內(nèi)容近似的內(nèi)容同樣可以進(jìn)行識(shí)別,對于已經(jīng)判定重復(fù)的信息,系統(tǒng)不會(huì)丟棄,而是在做好重復(fù)標(biāo)記后入庫,以此實(shí)現(xiàn)本地查詢相似報(bào)道稿件。
(4)自動(dòng)聚類。該系統(tǒng)通過聚類技術(shù),自動(dòng)識(shí)別網(wǎng)絡(luò)上的熱點(diǎn)新聞事件,及時(shí)掌控論壇中的交互信息,發(fā)現(xiàn)網(wǎng)民的關(guān)注焦點(diǎn)和熱點(diǎn),自動(dòng)提取用戶所關(guān)注的熱點(diǎn)領(lǐng)域,提高熱點(diǎn)發(fā)現(xiàn)的準(zhǔn)確性。
(5)內(nèi)碼轉(zhuǎn)換。該系統(tǒng)通過內(nèi)碼轉(zhuǎn)換技術(shù)實(shí)現(xiàn)統(tǒng)一存儲(chǔ)。在數(shù)據(jù)庫中網(wǎng)頁信息應(yīng)以統(tǒng)一的內(nèi)碼存儲(chǔ),因此對采集的網(wǎng)頁信息需要統(tǒng)一進(jìn)行內(nèi)碼轉(zhuǎn)換處理。信息在采集時(shí),系統(tǒng)自動(dòng)識(shí)別多種字符集編碼,包括中文、英文、中文簡體、中文繁體等,并將網(wǎng)頁統(tǒng)一存儲(chǔ)為標(biāo)準(zhǔn)統(tǒng)一的內(nèi)碼(類型包括GBK,GB18030或者Unicode等)。
(6)數(shù)據(jù)存儲(chǔ)。在輿情監(jiān)控系統(tǒng)中,由于采集的信息都是網(wǎng)頁、圖片等非結(jié)構(gòu)化信息,因此,數(shù)據(jù)存儲(chǔ)主要采用非結(jié)構(gòu)化的全文檢索數(shù)據(jù)庫。該系統(tǒng)將采集下來的信息存入輿情初始信息庫,并建立索引以提供全文檢索信息。同時(shí),對初始信息進(jìn)行分析,比如,過濾出用戶關(guān)注的行業(yè)內(nèi)容,并根據(jù)過濾的情況確定各種輿情分析庫的結(jié)構(gòu)和存儲(chǔ),生成各種應(yīng)用方向的輿情分析庫,如轉(zhuǎn)載庫、聚類主題庫等。通過數(shù)據(jù)庫中的信息可提供數(shù)據(jù)導(dǎo)出和數(shù)據(jù)導(dǎo)入功能,以實(shí)現(xiàn)與其它系統(tǒng)文件級(jí)的信息共享。
(1)自動(dòng)生成地震輿情專題。地震(國內(nèi)東部4級(jí)以上、國內(nèi)西部5級(jí)以上、國外6級(jí)以上地震)發(fā)生后,通過信息雷達(dá)從互聯(lián)網(wǎng)采集地震相關(guān)數(shù)據(jù)存入采集數(shù)據(jù)庫,系統(tǒng)從EQIM平臺(tái)獲取地震速報(bào)信息,解析速報(bào)參數(shù)并自動(dòng)觸發(fā),開始對網(wǎng)絡(luò)雷達(dá)從信息源采集的信息按照定義好的分類規(guī)則進(jìn)行智能分析、篩選,建立本次地震相關(guān)的專題,根據(jù)特殊要求,也可以手動(dòng)添加地震數(shù)據(jù)進(jìn)行手動(dòng)觸發(fā)。業(yè)務(wù)流程圖如圖2所示。
(2)產(chǎn)出輿情簡報(bào)。該系統(tǒng)采用可視化編輯器作為文檔內(nèi)容編輯器,當(dāng)采集的文檔類型為HTML頁面時(shí),用戶可以直接編輯,實(shí)現(xiàn)所見即所得的可視化文檔內(nèi)容編輯效果。也可隨意指定文檔內(nèi)容的字體、字號(hào)、字體顏色、背景顏色、段落對齊方式、項(xiàng)目符號(hào)、段落縮進(jìn)等屬性,同時(shí)可以插入超級(jí)鏈接、專用分頁符、表格、圖片、Flash、音頻、視頻、模板、特殊字符,可以任意調(diào)整圖片的位置、大小等,充分實(shí)現(xiàn)混排功能,插入的圖片、Flash等文件會(huì)自動(dòng)上傳到適當(dāng)?shù)哪夸?。整個(gè)可視化編輯功能使用方法和Word中大抵相同,符合編輯使用習(xí)慣。該功能主要用于簡報(bào)和報(bào)告的生成,從輿情系統(tǒng)中選擇多個(gè)文章,可直接生成多種格式的簡報(bào)和報(bào)告,也可輸出到Word,便于編輯打印。
網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)在蘆山地震發(fā)生后,在不同的地震應(yīng)急階段,按照后方指揮部的要求,隨時(shí)更新配置輿情監(jiān)控系統(tǒng)的關(guān)鍵詞,每四小時(shí)生成一次輿情簡報(bào),為后方指揮部提供最新的輿情動(dòng)態(tài),獲取最新的災(zāi)情、應(yīng)急救援、道路通行、次生災(zāi)害、傷亡情況等內(nèi)容,并給出各關(guān)鍵詞的關(guān)注程度及趨勢。截至2013年4月30日12時(shí),共收集到與“蘆山地震、人員傷亡、災(zāi)害損失、抗震救災(zāi)、地震局、次生災(zāi)害、災(zāi)民安置、疫情、災(zāi)后重建、救災(zāi)物資、救援隊(duì)、預(yù)警、將發(fā)生9級(jí)地震、臨沂老徐”等熱點(diǎn)關(guān)注詞匯,相關(guān)的震情、災(zāi)情、抗震救災(zāi)信息396 297條。蘆山地震發(fā)生后,公眾對蘆山地震“蘆山地震、人員傷亡、災(zāi)害損失、抗震救災(zāi)、地震局、次生災(zāi)害、災(zāi)民安置、疫情、災(zāi)后重建、救災(zāi)物資、救援隊(duì)、預(yù)警、將發(fā)生9級(jí)地震、臨沂老徐”等熱點(diǎn)詞匯關(guān)注度均迅速上升,并呈現(xiàn)出不同的變化趨勢。地震發(fā)生之后,國家及公眾對地震監(jiān)測預(yù)報(bào)、震災(zāi)預(yù)防、緊急救援三大工作體系的相關(guān)信息關(guān)注度迅速升高。近年來,隨著網(wǎng)絡(luò)媒體的蓬勃發(fā)展,上述信息在災(zāi)情發(fā)生后,通過微博等形式在網(wǎng)絡(luò)上迅速發(fā)布并擴(kuò)散。網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)適應(yīng)當(dāng)前新的趨勢與局面,進(jìn)一步增強(qiáng)對網(wǎng)絡(luò)輿情突發(fā)事件的處理和應(yīng)對能力,提高地震相關(guān)信息獲取的覆蓋率、實(shí)時(shí)性、智能分析能力、科學(xué)發(fā)布與展示水平。該系統(tǒng)實(shí)現(xiàn)了對新聞網(wǎng)頁、論壇、博客、微博、新聞評論等網(wǎng)絡(luò)信息資源的精確采集和深度解析,搭建了輿情信息檢索、輿論熱點(diǎn)的發(fā)現(xiàn)、跟蹤定位、信息轉(zhuǎn)載追蹤、敏感信息監(jiān)控、輔助決策支持、輿情實(shí)時(shí)預(yù)警、輿情監(jiān)管等功能模塊,為地震監(jiān)測預(yù)報(bào)、震害防御、應(yīng)急指揮、災(zāi)情上報(bào)、災(zāi)后救援、社會(huì)服務(wù)等提供多層次、多維度的輿情信息服務(wù)。蘆山地震個(gè)專題監(jiān)測文章總量趨勢如表1所示,表中活躍指數(shù)是指在一定的統(tǒng)計(jì)時(shí)期內(nèi)就某一關(guān)鍵字的信息對網(wǎng)民激發(fā)的活躍程度(在所有關(guān)注信息中所占百分比)。
“4.20”蘆山地震發(fā)生后,在抗震救災(zāi)的各個(gè)階段,輿情監(jiān)控系統(tǒng)通過監(jiān)測與收集數(shù)據(jù)、信息智能處理產(chǎn)出的輿情簡報(bào)信息,對地震應(yīng)急指揮系統(tǒng)、災(zāi)情上報(bào)系統(tǒng)提供了重要的信息補(bǔ)充,對抗震救災(zāi)各階段的工作重點(diǎn)選擇起到了輔助決策作用,對網(wǎng)站信息的發(fā)布及科普知識(shí)的宣傳給予了正確引導(dǎo)。
表1 專題監(jiān)測文章總量趨勢