冉朝霞
摘? 要:當(dāng)前檔案管理人員的互聯(lián)網(wǎng)輿情檔案信息收集、分類和有效處理能力都存在一些問題,應(yīng)著力提升檔案管理人員對(duì)互聯(lián)網(wǎng)輿情檔案信息的跨維度收集和分類能力,準(zhǔn)確把握互聯(lián)網(wǎng)輿情的內(nèi)在特征及其演進(jìn)過程中的潛在規(guī)律,實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)輿情檔案信息管理在技術(shù)和模式上的創(chuàng)新。
關(guān)鍵詞:突發(fā)事件;網(wǎng)絡(luò)輿情;多維信息;檔案收集;檔案分類
網(wǎng)絡(luò)輿情數(shù)據(jù)是社會(huì)組織或個(gè)人在社會(huì)實(shí)踐活動(dòng)中直接形成的文字、圖像、視頻等多媒體數(shù)字信息,是對(duì)以往社會(huì)活動(dòng)的清晰、確定的原始記錄,具有鮮明的原始記錄性,這與檔案的本質(zhì)特性是相同的,決定了網(wǎng)絡(luò)輿情數(shù)據(jù)信息的檔案屬性。
1 輿情數(shù)據(jù)檔案信息跨維度收集是檔案管理工作的技術(shù)保障
1.1 輿情數(shù)據(jù)收集是檔案信息收集的基礎(chǔ)。當(dāng)前,互聯(lián)網(wǎng)輿情數(shù)據(jù)收集系統(tǒng)主要包含三種數(shù)據(jù)收集技術(shù):人工收集、搜索引擎收集和第三方互聯(lián)網(wǎng)機(jī)構(gòu)定向收集。
人工收集是指通過人工瀏覽網(wǎng)絡(luò)平臺(tái),如門戶網(wǎng)站、博客、論壇、貼吧等,跟蹤敏感問題,通過人工監(jiān)測獲取有價(jià)值的數(shù)據(jù)和信息,經(jīng)匯總、分析后觀察社會(huì)輿論走勢。人工收集是當(dāng)前檔案管理人員較常用的輿情數(shù)據(jù)檔案信息收集方式之一。
搜索引擎收集按其工作方式主要可分為三種,分別是全文搜索引擎收集、目錄索引類搜索引擎收集和元搜索引擎收集。搜索引擎收集的代表是360搜索、谷歌搜索和百度搜索。以百度搜索為例,據(jù)CNNIC發(fā)布的《2018年中國網(wǎng)民搜索行為研究報(bào)告》顯示:百度日均搜索量超過50億人次,截至2018年12月,搜索引擎是中國網(wǎng)民的最基礎(chǔ)應(yīng)用,百度搜索滲透率為97.4%,使用率略遜于即時(shí)通信。檔案管理人員利用搜索引擎通過預(yù)先設(shè)定好的關(guān)鍵詞,可以得到相對(duì)準(zhǔn)確的輿情信息,對(duì)敏感輿情信息及時(shí)抓取,分類保存輿情數(shù)據(jù),時(shí)刻監(jiān)視輿情數(shù)據(jù)的動(dòng)態(tài)變化。
人工收集和搜索引擎收集是當(dāng)前比較常用的互聯(lián)網(wǎng)輿情收集技術(shù),但是這兩種收集方式的缺點(diǎn)是可提取關(guān)鍵信息的文本內(nèi)容都比較短,容易因?yàn)閿?shù)據(jù)稀疏導(dǎo)致在做相關(guān)運(yùn)算時(shí)出現(xiàn)準(zhǔn)確率和推薦召回率不高的狀況??朔@一技術(shù)難題的方法借助第三方互聯(lián)網(wǎng)輿情機(jī)構(gòu)定向采集,通過對(duì)核心詞的外拓實(shí)現(xiàn)了準(zhǔn)確率和推薦召回率的同步提升。
第三方互聯(lián)網(wǎng)輿情監(jiān)測機(jī)構(gòu)定向收集是指依托定向搜索和網(wǎng)絡(luò)爬蟲技術(shù)對(duì)web文本進(jìn)行核心詞抓取、主題詞過濾、敏感詞檢測等技術(shù),實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)輿情的分類匯總。網(wǎng)絡(luò)爬蟲(Web Spider)是一段代碼或者一個(gè)小程序,它可以像蜘蛛在蜘蛛網(wǎng)上爬行一樣自動(dòng)采集網(wǎng)站上的數(shù)據(jù)。Web Spider不但能為搜索引擎采集數(shù)據(jù)信息,亦可作為定向信息采集器,對(duì)某些網(wǎng)站下的特定信息進(jìn)行定向采集。第三方社會(huì)輿情監(jiān)測機(jī)構(gòu)定向收集擁有較為專業(yè)的數(shù)據(jù)監(jiān)測和分類系統(tǒng),可指定某個(gè)目標(biāo)網(wǎng)站進(jìn)行監(jiān)測,定向抽取目標(biāo)網(wǎng)站最新主題帖內(nèi)容或某個(gè)主題帖的所有回復(fù)帖的內(nèi)容;亦可不指定目標(biāo)網(wǎng)站對(duì)全部網(wǎng)站進(jìn)行監(jiān)測,既可以對(duì)國內(nèi)網(wǎng)站進(jìn)行監(jiān)測,也可以對(duì)國外網(wǎng)站BBC、Facebook、CNN和Twitter等進(jìn)行監(jiān)測。
目前,技術(shù)比較成熟的國內(nèi)第三方互聯(lián)網(wǎng)輿情專業(yè)監(jiān)測機(jī)構(gòu)有人民網(wǎng)輿情監(jiān)測室、中正輿情研究中心和中青輿情在線等。以人民網(wǎng)輿情監(jiān)測室為例,可以全天候監(jiān)測百度貼吧、強(qiáng)國論壇、西祠社區(qū)、新浪論壇、新華網(wǎng)、搜狐社區(qū)、網(wǎng)易社區(qū)、鳳凰網(wǎng)、天涯社區(qū)以及用戶指定的其他動(dòng)態(tài)網(wǎng)站,可以為檔案管理人員提供及時(shí)、準(zhǔn)確和有針對(duì)性的輿情數(shù)據(jù)檔案信息收集服務(wù)功能。
1.2 輿情數(shù)據(jù)預(yù)處理是檔案信息收集的前提。當(dāng)前,輿情檔案信息數(shù)據(jù)預(yù)處理常用的技術(shù)手段有三種:
第一,對(duì)文本進(jìn)行預(yù)處理。文本預(yù)處理是對(duì)通過輿情采集器收集的未加工的 Web網(wǎng)頁進(jìn)行初步處理,再對(duì)經(jīng)初步處理過的網(wǎng)頁文本進(jìn)行發(fā)現(xiàn)話題和數(shù)字建模,文本預(yù)處理最重要的環(huán)節(jié)是進(jìn)行特征選擇和中文分詞。中文分詞對(duì)命名實(shí)體進(jìn)行識(shí)別,采用 ICTCLAS 系統(tǒng)對(duì)所獲語料標(biāo)注詞性和進(jìn)行中文分詞,基于詞頻提煉出web模型的特征向量對(duì)中文分詞后的文本語料庫進(jìn)行向量化分析。分詞技術(shù)是針對(duì)提交查詢的關(guān)鍵詞串進(jìn)行處理,將收集到的網(wǎng)頁文本內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化向量。
第二,對(duì)話題進(jìn)行檢測。對(duì)文本經(jīng)過預(yù)處理后的文本語料庫形成了擴(kuò)展空間向量模型VSM向量集。利用 VSM 各向量間的相似度,對(duì)文本進(jìn)行話題檢測和聚類,對(duì)文本內(nèi)容分析的深度決定了聚類技術(shù)的效果,聚類技術(shù)的功能在于挖掘熱點(diǎn)話題。一般情況下,可提取關(guān)鍵信息的文本內(nèi)容都比較短,容易因?yàn)閿?shù)據(jù)稀疏導(dǎo)致在做相關(guān)運(yùn)算時(shí)出現(xiàn)準(zhǔn)確率和推薦召回率難以權(quán)衡的狀況??朔@一技術(shù)難題的方法就是引入詞擴(kuò)展技術(shù),通過對(duì)核心詞的外拓實(shí)現(xiàn)準(zhǔn)確率和推薦召回率的同步提升。詞擴(kuò)展技術(shù)是指利用特定算法對(duì)原始文本向量進(jìn)行處理,使原始數(shù)據(jù)中的鄰近對(duì)象形成核心明確、分布較為離散且粒度小的話題集合,將話題集合進(jìn)一步劃分為多個(gè)“微簇”,利用特定算法,對(duì)“微簇”進(jìn)行二次聚類,用滿足一定的閾值要求、質(zhì)量較高的核心對(duì)象代表“微簇”。
第三,利用話題綜合評(píng)價(jià)標(biāo)準(zhǔn)對(duì)話題進(jìn)行過濾。運(yùn)用語義識(shí)別技術(shù),對(duì)之前采集的數(shù)據(jù)信息進(jìn)行更深一步的過濾識(shí)別,通過對(duì)數(shù)據(jù)信息中句子的結(jié)構(gòu)、語法及部分關(guān)鍵詞的詞義進(jìn)行過濾處理,從而將信息轉(zhuǎn)化為人們常用的語言,將大量復(fù)雜的信息簡單化。從進(jìn)行過聚類、過濾處理后的文本中提取中心詞,將分析后的中心詞進(jìn)行組合,通過結(jié)構(gòu)化分析獲取中心詞組,計(jì)算中心詞組所涉及的文本數(shù)量,運(yùn)算模塊根據(jù)文本參數(shù)進(jìn)行加權(quán)計(jì)算,統(tǒng)計(jì)熱門關(guān)鍵詞組的文本數(shù)量,獲取熱門關(guān)鍵詞組的熱度值。
2 輿情數(shù)據(jù)檔案信息科學(xué)分類是檔案管理工作的重要內(nèi)容
互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息分類有兩種:一是即時(shí)分類,即時(shí)分類是在輿情的具體處理過程中,檔案管理人員根據(jù)輿情的具體內(nèi)容呈現(xiàn)以及運(yùn)行的情況,對(duì)輿情產(chǎn)生的原因和輿情產(chǎn)生的核心群體進(jìn)行分析,著重對(duì)特定輿情的演進(jìn)及應(yīng)對(duì)進(jìn)行分析預(yù)判。通過發(fā)現(xiàn)話題,捕捉受眾情緒特點(diǎn),關(guān)注話語分布時(shí)空特征,揭示輿情演變規(guī)律。二是深度分類,深度分類是在輿情處理完成后,檔案管理人員依據(jù)輿情發(fā)展的結(jié)構(gòu)性特點(diǎn),挖掘出新的、深層次的熱點(diǎn)話題,跟進(jìn)媒體報(bào)道,追蹤敏感事件,并通過IP定位發(fā)現(xiàn)受眾的空間分布及傳播路徑,建立事件識(shí)別模式,監(jiān)測熱點(diǎn)話題,發(fā)現(xiàn)突發(fā)事件特征、規(guī)律,提取、分析與公眾利益密切相關(guān)的部分,為互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息入庫提供科學(xué)的分類依據(jù)。
2.1 互聯(lián)網(wǎng)輿情檔案信息的定點(diǎn)分類。一般情況下,危及社會(huì)穩(wěn)定的輿情可能包含以下幾種形式:段子、謠言、社會(huì)思潮、理論爭鳴、示威游行或群體聚集產(chǎn)生的輿情等,輿情監(jiān)測系統(tǒng)須及時(shí)搜集這些輿情形式和信息,快速做出及時(shí)恰當(dāng)?shù)姆磻?yīng)。檔案管理人員利用智能搜索軟件在對(duì)定點(diǎn)微博、微信、論壇、貼吧和重點(diǎn)網(wǎng)站等實(shí)行24小時(shí)不間斷監(jiān)控的基礎(chǔ)上,通過預(yù)先設(shè)置好的關(guān)鍵詞,對(duì)敏感信息和少數(shù)有影響力的意見領(lǐng)袖的言論進(jìn)行定點(diǎn)抓取,并對(duì)收集到的社會(huì)輿情數(shù)據(jù)進(jìn)行分類保存,持續(xù)觀察輿情數(shù)據(jù)的動(dòng)態(tài)變化?!巴话l(fā)性群體事件中的網(wǎng)絡(luò)輿情往往開始于網(wǎng)絡(luò)中某位網(wǎng)友的爆料,抑或是媒體的報(bào)道,這些原始性信息會(huì)在公眾腦海中形成首因效應(yīng),并通過微博、博客等形式構(gòu)造信息鏈條。”[1]
2.2 互聯(lián)網(wǎng)輿情檔案信息的定向分類。檔案管理人員對(duì)互聯(lián)網(wǎng)輿論要進(jìn)行定向的有針對(duì)性的分析,判斷出哪些意見和觀點(diǎn)會(huì)自生自滅、自然消解,哪些意見和觀點(diǎn)會(huì)演進(jìn)成重大輿情危機(jī)。檔案管理人員需要根據(jù)定向分析分類的結(jié)果和網(wǎng)絡(luò)輿情的瞬時(shí)變化做出輿情走勢預(yù)判,從情緒層面走向意見層面,再從意見層面走向行動(dòng)層面?!摆厔菖c定向判斷是網(wǎng)絡(luò)輿情分析與分類的核心,是應(yīng)對(duì)與引導(dǎo)的依據(jù),根據(jù)匯總到的輿情信息,通過系統(tǒng)的分析,做出關(guān)于輿情發(fā)展趨勢與走向的基本判斷,這一判斷主要是在定量基礎(chǔ)上得出的定向判斷?!盵2]
在網(wǎng)絡(luò)輿情的定向分析分類工作中,必須時(shí)刻警惕新要素的加入,這些作為行為主體的新要素一般都具有一定的影響力,檔案管理人員通過對(duì)新要素的話語結(jié)構(gòu)和信息資源的再分配成為輿論場的行為主體,通過與公眾的互動(dòng)獲得社會(huì)資本并將其轉(zhuǎn)化為注意力資源,在事態(tài)發(fā)展的關(guān)鍵節(jié)點(diǎn)實(shí)現(xiàn)對(duì)輿論格局的影響,左右輿情走向。社會(huì)輿情的定向分類“有助于判斷突發(fā)性群體事件相關(guān)輿情的意見傾向,對(duì)網(wǎng)民意見和網(wǎng)絡(luò)輿論的形成過程進(jìn)行進(jìn)一步分析,通過梳理,整理出網(wǎng)民對(duì)輿情事件的主體態(tài)度和總體傾向”。[3]
2.3 互聯(lián)網(wǎng)輿情檔案信息的定量分類。從宏觀到微觀是一種研究事物的方法,檔案管理人員要具備用定量分析的方法對(duì)定性描述進(jìn)行度量,可以在微觀層次上展現(xiàn)互聯(lián)網(wǎng)輿情的變化,在更小的粒度上對(duì)互聯(lián)網(wǎng)輿情進(jìn)行定量評(píng)價(jià),發(fā)現(xiàn)輿情的演化規(guī)律。
檔案管理人員要從制度建設(shè)到日常運(yùn)作層面切實(shí)回應(yīng)民眾需求,在進(jìn)行互聯(lián)網(wǎng)輿情定量分類時(shí),檔案管理人員要重視微博和微信的轉(zhuǎn)載量和跟帖數(shù)量,因?yàn)橥话l(fā)性群體事件中微博和微信的轉(zhuǎn)載量和跟帖數(shù)量是互聯(lián)網(wǎng)輿情事件能否引起廣大網(wǎng)民關(guān)注的顯性指標(biāo),是網(wǎng)民意見的最直接表現(xiàn)。
2.4 互聯(lián)網(wǎng)輿情檔案信息的定性分類。突發(fā)事件發(fā)生以后,人們獲知的相關(guān)信息并不一定是事件本身的真實(shí)信息,檔案管理人員首先要對(duì)事件真?zhèn)巫龆ㄐ耘袛?,一般來講輿論具有基于事實(shí)并且相對(duì)于事實(shí)本身的獨(dú)立性,輿情在傳播過程中,信息往往會(huì)發(fā)生變異,因此對(duì)事件真?zhèn)蔚呐袛嗍沁M(jìn)行輿情定性分類的第一步?!叭藗冋J(rèn)知這一世界往往通過多樣的、情景化的、理性與感性并存的方式,在抓取這些復(fù)雜的情感、價(jià)值、信仰以及意見時(shí),大數(shù)據(jù)技術(shù)仍有其弱點(diǎn)。”[4]網(wǎng)絡(luò)輿情的定性分析與分類應(yīng)盡快尋找有力證據(jù),厘清事實(shí)和謠言邊界,杜絕輿情的外溢和偏離。
3 加強(qiáng)互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息跨維度動(dòng)態(tài)管理
3.1 構(gòu)建互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息管理跨維度互動(dòng)模式。檔案管理人員應(yīng)將互聯(lián)網(wǎng)輿情大數(shù)據(jù)檔案管理與互聯(lián)網(wǎng)內(nèi)容治理相結(jié)合,讓數(shù)據(jù)流顯現(xiàn)關(guān)聯(lián);將互聯(lián)網(wǎng)輿情大數(shù)據(jù)檔案管理與政府科學(xué)決策相結(jié)合,讓信息流暢通無阻;將互聯(lián)網(wǎng)輿情大數(shù)據(jù)檔案管理和輿情日常管理相結(jié)合,讓輿情流和諧運(yùn)轉(zhuǎn)。
3.2 構(gòu)建互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息多元管理模式。傳統(tǒng)檔案管理結(jié)構(gòu)模式中公眾的參與度比較低。大數(shù)據(jù)時(shí)代為輿論的快速形成和公眾對(duì)公共事務(wù)話語權(quán)的表達(dá)提供了討論空間,由單一主體治理變?yōu)槎嘣黧w治理,多元主體治理的基本結(jié)構(gòu)體現(xiàn)了混合的特點(diǎn),多元主體治理的邊界與范圍不是簡單的信息關(guān)聯(lián)和多元混合。互聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù)拓寬了檔案管理的內(nèi)容,改變了檔案管理人員和民眾的連接與互動(dòng)方式,因此需要尋求一種新的檔案管理模型和良性互動(dòng)的連接機(jī)制來消解傳統(tǒng)檔案管理成長的困境。
3.3 構(gòu)建互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息管理回應(yīng)指標(biāo)體系。警惕輿情動(dòng)態(tài)在復(fù)雜的演進(jìn)過程中出現(xiàn)的不和諧因素,準(zhǔn)確界定輿情等級(jí),通過級(jí)別劃分、輿情聚類、有效處置和事后評(píng)估構(gòu)建輿情回應(yīng)的指標(biāo)體系,通過行為干預(yù)及早進(jìn)行有效處置,匯編典型事件檔案庫?;ヂ?lián)網(wǎng)輿情集中反映了當(dāng)前熱點(diǎn),聚焦了矛盾和沖突,暴露了隱匿于風(fēng)暴漩渦中的濫觴,檔案管理人員應(yīng)從追問事實(shí)到反思制度,從線上輿論和線下互動(dòng)的有效對(duì)接到挖掘方法和社會(huì)洞察的有效結(jié)合,構(gòu)建互聯(lián)網(wǎng)輿情檔案管理回應(yīng)指標(biāo)體系,改進(jìn)和完善檔案管理中的制度性、結(jié)構(gòu)性問題。
參考文獻(xiàn):
[1]王玉瓊,胡娟.突發(fā)性群體性事件管理問題探討[J].管理學(xué)雜志,2017,26 (5) :42 - 44.
[2]梁雪云.網(wǎng)絡(luò)輿情的分析與分類機(jī)制研究[J].今傳媒雜志,2016,5:16-17.
[3]姜鑫.收集、判斷與溝通:突發(fā)性群體事件的網(wǎng)絡(luò)輿情研究[J].學(xué)術(shù)交流雜志2018,7:202-207.
[4]KITCHIN R.Big data and human geography: Opportunities, challenges and risks[J].Dialogues in Human Geography,2017, 3(3):262-267.
(作者單位:中共鄭州市委黨校公共管理教研部? 來稿日期:2019-07-14)