劉羽
(鄭州升達(dá)經(jīng)貿(mào)管理學(xué)院,河南 鄭州 450000)
當(dāng)前,互聯(lián)網(wǎng)輿情數(shù)據(jù)收集系統(tǒng)主要包含三種數(shù)據(jù)收集技術(shù):人工收集、搜索引擎收集和第三方互聯(lián)網(wǎng)機(jī)構(gòu)定向收集。人工收集是指通過(guò)人工瀏覽網(wǎng)絡(luò)平臺(tái),通過(guò)人工監(jiān)測(cè)獲取有價(jià)值的數(shù)據(jù)和信息,經(jīng)匯總、分析后觀察社會(huì)輿論走勢(shì)。人工收集是當(dāng)前檔案管理人員較常用的輿情數(shù)據(jù)檔案信息收集方式之一。
搜索引擎收集按其工作方式主要可分為三種,分別是全文搜索引擎收集、目錄索引類搜索引擎收集和元搜索引擎收集。搜索引擎收集的代表是360 搜索、谷歌搜索和百度搜索。以百度搜索為例,據(jù)CNNIC 發(fā)布的《2018 年中國(guó)網(wǎng)民搜索行為研究報(bào)告》顯示:百度日均搜索量超過(guò)50 億人次,截至2018 年12 月,搜索引擎是中國(guó)網(wǎng)民的最基礎(chǔ)應(yīng)用,百度搜索滲透率為97.4%,使用率略遜于即時(shí)通信。人工收集和搜索引擎收集是當(dāng)前比較常用的互聯(lián)網(wǎng)輿情收集技術(shù),但是這兩種收集方式的缺點(diǎn)是可提取關(guān)鍵信息的文本內(nèi)容都比較短,容易因?yàn)閿?shù)據(jù)稀疏導(dǎo)致在做相關(guān)運(yùn)算時(shí)出現(xiàn)準(zhǔn)確率和推薦召回率不高的狀況??朔@一技術(shù)難題的方法借助第三方互聯(lián)網(wǎng)輿情機(jī)構(gòu)定向采集,通過(guò)對(duì)核心詞的外拓實(shí)現(xiàn)了準(zhǔn)確率和推薦召回率的同步提升。
第一,對(duì)文本進(jìn)行預(yù)處理。文本預(yù)處理是對(duì)通過(guò)輿情采集器收集的未加工的Web 網(wǎng)頁(yè)進(jìn)行初步處理,再對(duì)經(jīng)初步處理過(guò)的網(wǎng)頁(yè)文本進(jìn)行發(fā)現(xiàn)話題和數(shù)字建模,文本預(yù)處理最重要的環(huán)節(jié)是進(jìn)行特征選擇和中文分詞。中文分詞對(duì)命名實(shí)體進(jìn)行識(shí)別,采用 ICTCLAS 系統(tǒng)對(duì)所獲語(yǔ)料標(biāo)注詞性和進(jìn)行中文分詞,基于詞頻提煉出web模型的特征向量對(duì)中文分詞后的文本語(yǔ)料庫(kù)進(jìn)行向量化分析。分詞技術(shù)是針對(duì)提交查詢的關(guān)鍵詞串進(jìn)行處理,將收集到的網(wǎng)頁(yè)文本內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化向量。
第二,對(duì)話題進(jìn)行檢測(cè)。對(duì)文本經(jīng)過(guò)預(yù)處理后的文本語(yǔ)料庫(kù)形成了擴(kuò)展空間向量模型VSM 向量集。利用 VSM 各向量間的相似度,對(duì)文本進(jìn)行話題檢測(cè)和聚類,對(duì)文本內(nèi)容分析的深度決定了聚類技術(shù)的效果,聚類技術(shù)的功能在于挖掘熱點(diǎn)話題。一般情況下,可提取關(guān)鍵信息的文本內(nèi)容都比較短,容易因?yàn)閿?shù)據(jù)稀疏導(dǎo)致在做相關(guān)運(yùn)算時(shí)出現(xiàn)準(zhǔn)確率和推薦召回率難以權(quán)衡的狀況??朔@一技術(shù)難題的方法就是引入詞擴(kuò)展技術(shù),通過(guò)對(duì)核心詞的外拓實(shí)現(xiàn)了準(zhǔn)確率和推薦召回率的同步提升。詞擴(kuò)展技術(shù)是指利用特定算法對(duì)原始文本向量進(jìn)行處理,使原始數(shù)據(jù)中的鄰近對(duì)象形成核心明確、分布較為離散且粒度小的話題集合,將話題集合進(jìn)一步劃分為多個(gè)“微簇”,利用特定算法,對(duì)“微簇”進(jìn)行二次聚類,用滿足一定的閾值要求、質(zhì)量較高的核心對(duì)象代表“微簇”。
第三,利用話題綜合評(píng)價(jià)標(biāo)準(zhǔn)對(duì)話題進(jìn)行過(guò)濾。運(yùn)用語(yǔ)義識(shí)別技術(shù),對(duì)之前采集的數(shù)據(jù)信息進(jìn)行更深一步的過(guò)濾識(shí)別,通過(guò)對(duì)數(shù)據(jù)信息中句子的結(jié)構(gòu)、語(yǔ)法及部分關(guān)鍵詞的詞義進(jìn)行過(guò)濾處理,從而將信息轉(zhuǎn)化為人們常用的語(yǔ)言,將大量復(fù)雜的信息簡(jiǎn)單化。從進(jìn)行過(guò)聚類、過(guò)濾處理后的文本中提取中心詞,將分析后的中心詞進(jìn)行組合,通過(guò)結(jié)構(gòu)化分析獲取中心詞組,計(jì)算中心詞組所涉及的文本數(shù)量,運(yùn)算模塊根據(jù)文本參數(shù)進(jìn)行加權(quán)計(jì)算,統(tǒng)計(jì)熱門關(guān)鍵詞組的文本數(shù)量,獲取熱門關(guān)鍵詞組的熱度值。
“趨勢(shì)與定向判斷是網(wǎng)絡(luò)輿情分析與分類的核心,是應(yīng)對(duì)與引導(dǎo)的依據(jù),根據(jù)匯總到的輿情信息,通過(guò)系統(tǒng)的分析,做出關(guān)于輿情發(fā)展趨勢(shì)與走向的基本判斷,這一判斷主要是在定量基礎(chǔ)上得出的定向判斷?!睓n案管理人員應(yīng)將互聯(lián)網(wǎng)輿情大數(shù)據(jù)檔案管理與互聯(lián)網(wǎng)內(nèi)容治理相結(jié)合,讓數(shù)據(jù)流顯現(xiàn)關(guān)聯(lián);將互聯(lián)網(wǎng)輿情大數(shù)據(jù)檔案管理與政府科學(xué)決策相結(jié)合,讓信息流暢通無(wú)阻;將互聯(lián)網(wǎng)輿情大數(shù)據(jù)檔案管理和輿情日常管理相結(jié)合,讓輿情流和諧運(yùn)轉(zhuǎn)。
傳統(tǒng)檔案管理結(jié)構(gòu)模式中公眾的參與度比較低。大數(shù)據(jù)時(shí)代為輿論的快速形成和公眾對(duì)公共事務(wù)話語(yǔ)權(quán)的表達(dá)提供了討論空間,由單一主體治理變?yōu)槎嘣黧w治理,多元主體治理的基本結(jié)構(gòu)體現(xiàn)了混合的特點(diǎn),多元主體治理的邊界與范圍不是簡(jiǎn)單的信息關(guān)聯(lián)和多元混合?;ヂ?lián)網(wǎng)和大數(shù)據(jù)技術(shù)拓寬了檔案管理的內(nèi)容,改變了檔案管理人員和民眾的連接與互動(dòng)方式,因此需要尋求一種新的檔案管理模型和良性互動(dòng)的連接機(jī)制來(lái)消解傳統(tǒng)檔案管理成長(zhǎng)的困境。
警惕輿情動(dòng)態(tài)在復(fù)雜的演進(jìn)過(guò)程中出現(xiàn)的不和諧因素,準(zhǔn)確界定輿情等級(jí),通過(guò)級(jí)別劃分、輿情聚類、有效處置和事后評(píng)估構(gòu)建輿情回應(yīng)的指標(biāo)體系,通過(guò)行為干預(yù)及早進(jìn)行有效處置,匯編典型事件檔案庫(kù)。檔案管理人員應(yīng)從追問(wèn)事實(shí)到反思制度,從線上輿論和線下互動(dòng)的有效對(duì)接到挖掘方法和社會(huì)洞察的有效結(jié)合,構(gòu)建互聯(lián)網(wǎng)輿情檔案管理回應(yīng)指標(biāo)體系,改進(jìn)和完善檔案管理中的制度性、結(jié)構(gòu)性問(wèn)題。