蘇 鵬,楊文順
(1.大理大學(xué) 數(shù)學(xué)與計(jì)算機(jī)學(xué)院,云南 大理 671003;2.云南民族大學(xué) 民族團(tuán)結(jié)進(jìn)步研究院,云南 昆明 650091)
我國是一個(gè)多民族國家。黨的十九大以來,在“提高黨建工作質(zhì)量”的基本要求和“走在時(shí)代前列”的基本目標(biāo)的指引下,民族地區(qū)黨的建設(shè)取得了令人矚目的成效。但是,隨著互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代①Viktor Mayer-Schonberger and Kenneth Cukier. Big data a revolution: that will transform how we live, work, and think. Boston: John Murray, 2013.的到來,民族地區(qū)的黨建工作面臨著新的重大機(jī)遇和挑戰(zhàn)。
據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心統(tǒng)計(jì),②中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC):《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告(2018年7月)》.http://www.cac.gov.cn/2018-08/20/c_1123296882.htm,2019.2.3截至2018年6月底,中國互聯(lián)網(wǎng)普及率高達(dá)57.7%,互聯(lián)網(wǎng)使用人數(shù)已突破8億。其中,手機(jī)網(wǎng)民規(guī)模達(dá)7.88億,約占98.3%。網(wǎng)民通過各種方式在博客、微博、論壇中發(fā)表意見,表達(dá)思想,形成了特征鮮明、影響廣泛的網(wǎng)絡(luò)輿情。
洞察網(wǎng)絡(luò)輿情并加以必要的引導(dǎo)和干預(yù)是提高我黨在民族地區(qū)的黨建工作質(zhì)量的一項(xiàng)重要而艱巨的任務(wù)。 然而,互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代下的網(wǎng)絡(luò)輿情信息有著數(shù)量巨大、結(jié)構(gòu)復(fù)雜與獲取困難等特點(diǎn),傳統(tǒng)計(jì)算方法并不能對(duì)其進(jìn)行精準(zhǔn)獲取與有效分析。近年來,隨著信息技術(shù)尤其是網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)挖掘技術(shù)的飛速發(fā)展,用于海量輿情信息獲取與分析的技術(shù)手段逐漸發(fā)展、成熟。
為此,本文提出了一個(gè)“互聯(lián)網(wǎng)大數(shù)據(jù)民族地區(qū)黨建輿情監(jiān)控系統(tǒng)”的實(shí)施框架。該框架的實(shí)施將能顯著促進(jìn)民族地區(qū)黨建工作的信息化和智能化,敏銳適應(yīng)時(shí)代的變化,進(jìn)而明顯提升民族地區(qū)黨建工作質(zhì)量。
1.聚焦爬蟲技術(shù)
聚焦爬蟲是一個(gè)自動(dòng)程序,其工作流程如下:首先,事先確定查詢目標(biāo);然后,訪問互聯(lián)網(wǎng)上的符合目標(biāo)的網(wǎng)頁與相關(guān)的鏈接;最后,自動(dòng)判斷及抓取所需要的數(shù)據(jù)及信息。
2.垂直元搜索采集技術(shù)
用戶向一般的搜索引擎(如百度)發(fā)起一個(gè)查詢,該引擎就會(huì)根據(jù)查詢內(nèi)容采集文檔,并建立索引。而元搜索引擎接到用戶發(fā)起的一個(gè)查詢后執(zhí)行如下處理流程:首先,將該查詢按照各個(gè)一般搜索引擎的查詢格式做轉(zhuǎn)換;然后,把不同格式的查詢分發(fā)給相應(yīng)的一般搜索引擎;最后,把各個(gè)一般引擎返回的搜索結(jié)果重新計(jì)算權(quán)重并排序輸出給用戶。元搜索引擎存儲(chǔ)并維護(hù)若干一般搜索引擎的參數(shù)信息用于一般引擎的選擇和協(xié)調(diào)。
1.網(wǎng)頁去噪技術(shù)
利用網(wǎng)頁自動(dòng)搜集技術(shù)從互聯(lián)網(wǎng)上抓取的輿情網(wǎng)頁中存在大量不相關(guān)的信息,如廣告、評(píng)論、導(dǎo)航條、版權(quán)信息等。這些不相關(guān)的信息稱為網(wǎng)頁噪音。網(wǎng)頁噪音導(dǎo)致同一網(wǎng)頁擁有不同主題。而這會(huì)降低以整個(gè)網(wǎng)頁為目標(biāo)的搜索結(jié)果的準(zhǔn)確度。解決這一問題的一個(gè)方法是使搜索下沉到網(wǎng)頁細(xì)節(jié),從而找到所有網(wǎng)頁主題。該方法的一個(gè)顯著不足是會(huì)導(dǎo)致大量無關(guān)信息的引入。 另一個(gè)較好的方法是網(wǎng)頁去噪,也即快速識(shí)別并去除網(wǎng)頁噪音。
2.網(wǎng)頁排重技術(shù)
不同的網(wǎng)站間經(jīng)常轉(zhuǎn)載內(nèi)容,所以,網(wǎng)頁需要按內(nèi)容做文檔排重。采用網(wǎng)頁排重技術(shù)可以顯著加強(qiáng)輿情檢索的效果,增加輿情態(tài)勢分析的準(zhǔn)確度,同時(shí)也能極大節(jié)約存儲(chǔ)空間并減少資源維護(hù)消耗。
3.文本特征提取技術(shù)
基于高維向量空間的分類模型會(huì)嚴(yán)重降低文本分類的處理速度及準(zhǔn)確度。為解決這一問題,需要減少文本向量的維度(降維),也即進(jìn)行特征屬性提取?;バ畔ⅰ⒖ǚ綑z驗(yàn)等是常見的文本特征提取方法。
1.話題追蹤技術(shù)
話題識(shí)別與跟蹤是基于事件的信息組織技術(shù),其不僅可實(shí)現(xiàn)對(duì)新聞報(bào)道信息流中已知話題的動(dòng)態(tài)跟蹤,還可實(shí)現(xiàn)新話題的自動(dòng)識(shí)別。
2.情感挖掘技術(shù)
情感挖掘的關(guān)鍵問題是如何抽取句子中的帶有情感色彩的詞(觀點(diǎn)詞),也即觀點(diǎn)抽取。 觀點(diǎn)抽取的目的就是為句子的情感分類提供標(biāo)準(zhǔn)。 傳統(tǒng)的情感分類包含3個(gè)類別:褒義、貶義和中性。
大規(guī)模數(shù)據(jù)存儲(chǔ)技術(shù)實(shí)現(xiàn)跨設(shè)備和數(shù)據(jù)中心存儲(chǔ),利用數(shù)據(jù)塊技術(shù)將數(shù)據(jù)保存在物理上互不相關(guān)的多個(gè)磁盤中。Lucene是apache軟件基金會(huì)的一個(gè)全文檢索引擎工具包及架構(gòu)?;贚ucene可以設(shè)計(jì)具有較低時(shí)間和空間復(fù)雜度的大規(guī)模數(shù)據(jù)索引方案。另外,Lucene源代碼是開放的。
采用Struts2作為系統(tǒng)整體框架,同時(shí)利用Hibernate設(shè)計(jì)數(shù)據(jù)持久化方案。為降低系統(tǒng)的耦合度,采用Spring作為管理容器整合前兩種技術(shù)。采用JavaScript/jQuery和Ajax技術(shù)提供友好的圖形化動(dòng)態(tài)Web界面,增強(qiáng)用戶體驗(yàn)。
本系統(tǒng)將實(shí)現(xiàn)對(duì)各大門戶網(wǎng)站、微博、論壇、博客等互聯(lián)網(wǎng)新媒體中的民族地區(qū)黨建動(dòng)態(tài)、黨建熱點(diǎn)、政策文件、黨風(fēng)評(píng)價(jià)、黨的形象、國際動(dòng)態(tài)等黨建數(shù)據(jù)的自動(dòng)獲取與清洗。
1.互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)的自動(dòng)獲取
本系統(tǒng)將自動(dòng)定向訪問互聯(lián)網(wǎng)上的符合既定目標(biāo)的網(wǎng)頁及相關(guān)鏈接,抓取所需的民族地區(qū)黨建輿情數(shù)據(jù)。同時(shí),本系統(tǒng)也將實(shí)現(xiàn)利用百度等主流搜索引擎搜索用戶感興趣的民族地區(qū)黨建數(shù)據(jù)。最后,本系統(tǒng)將對(duì)前述兩種渠道搜索到的數(shù)據(jù)進(jìn)行有機(jī)融合。
2.民族地區(qū)黨建輿情數(shù)據(jù)的自動(dòng)清洗
互聯(lián)網(wǎng)上抓取的民族地區(qū)黨建輿情網(wǎng)頁中存在大量的“網(wǎng)頁噪音”。 因此,本系統(tǒng)將實(shí)現(xiàn)對(duì)網(wǎng)頁噪音的快速且準(zhǔn)確的識(shí)別,以利于互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)自非結(jié)構(gòu)化至結(jié)構(gòu)化的轉(zhuǎn)換存儲(chǔ)。
互聯(lián)網(wǎng)民族地區(qū)黨建信息網(wǎng)頁中難免存在大量轉(zhuǎn)載、類似的冗余網(wǎng)頁。因此,本系統(tǒng)將實(shí)現(xiàn)對(duì)冗余網(wǎng)頁的有效排重以精化網(wǎng)頁自動(dòng)獲取結(jié)果。
隨著系統(tǒng)的實(shí)施應(yīng)用,所獲取的互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)將急劇膨脹。如何實(shí)現(xiàn)海量數(shù)據(jù)的有效存儲(chǔ)及快速查詢、分析、統(tǒng)計(jì)是本系統(tǒng)成功應(yīng)用的關(guān)鍵。
1.互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)的分布式存儲(chǔ)
分布式存儲(chǔ)系統(tǒng)實(shí)現(xiàn)了數(shù)據(jù)在若干獨(dú)立的可分擔(dān)負(fù)荷的設(shè)備上的分散存儲(chǔ)。相比集中式存儲(chǔ)系統(tǒng),其具有高可靠性、高可用性、高存取效率及高可擴(kuò)展性等顯著優(yōu)點(diǎn)。因此,本系統(tǒng)將實(shí)現(xiàn)互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)的分布式存儲(chǔ)。
2.互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)的全文檢索
本系統(tǒng)將實(shí)現(xiàn)基于Lucene的互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)的全文檢索引擎。其具有中文分詞、索引建立及優(yōu)化、查詢結(jié)果處理等功能。
本系統(tǒng)積累的海量數(shù)據(jù)中必然隱藏著很多民族地區(qū)黨建相關(guān)知識(shí)。因此,本系統(tǒng)將利用機(jī)器學(xué)習(xí)等計(jì)算技術(shù)發(fā)現(xiàn)互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)中的高價(jià)值知識(shí)。
1.民族地區(qū)黨的政策口碑分析
近年來,WEB 2.0技術(shù)獲得了快速發(fā)展,這使得互聯(lián)網(wǎng)上產(chǎn)生了大量用戶發(fā)表的評(píng)論信息。這些信息表達(dá)了人們的各種情感傾向,如“喜”“怒”“好”“惡”等。因此,對(duì)民族地區(qū)黨的政策評(píng)論進(jìn)行挖掘就能展示出其質(zhì)量信息,從而可以找出現(xiàn)有政策的不足并改進(jìn)。
2.民族地區(qū)黨建負(fù)面信息檢測及報(bào)警
給黨造成損失的風(fēng)險(xiǎn)事件和威脅黨的執(zhí)政地位的網(wǎng)絡(luò)負(fù)面信息時(shí)有發(fā)生。負(fù)面信息在互聯(lián)網(wǎng)上的傳播快速且持久。因此,本系統(tǒng)將通過實(shí)現(xiàn)對(duì)民族地區(qū)黨建互聯(lián)網(wǎng)負(fù)面信息的自動(dòng)檢測與報(bào)警,幫助民族地區(qū)黨建部門制定有效應(yīng)對(duì)措施以減少損失。
3.民族地區(qū)黨建熱點(diǎn)發(fā)現(xiàn)與跟蹤
及時(shí)發(fā)現(xiàn)民族地區(qū)黨建熱點(diǎn)新聞及話題可以使黨敏銳察覺環(huán)境的變化,并因勢利導(dǎo)的調(diào)整各項(xiàng)政策,保證黨組織的發(fā)展壯大。因此,本系統(tǒng)將實(shí)現(xiàn)民族地區(qū)黨建熱點(diǎn)的準(zhǔn)確發(fā)現(xiàn)與跟蹤。
4.互聯(lián)網(wǎng)民族地區(qū)黨建輿情知識(shí)的圖形化展示
由互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)挖掘得到的知識(shí)的最終使用者一般是黨的領(lǐng)導(dǎo)干部,若用數(shù)據(jù)方式表示知識(shí)將會(huì)非常低效。本系統(tǒng)將實(shí)現(xiàn)用雷達(dá)圖、餅圖等圖形方式把輿情知識(shí)直觀、高效地展示給用戶。
系統(tǒng)擬采用的框架如圖1所示。系統(tǒng)采用5層結(jié)構(gòu),分別是輿情采集層、網(wǎng)頁預(yù)處理層、輿情分析層、用戶交互層與系統(tǒng)集成層。
系統(tǒng)擬達(dá)到的主要技術(shù)指標(biāo)為:
◆ 信息查全率達(dá)到85%左右;
◆ 信息查準(zhǔn)率達(dá)到80%左右;
◆ 熱點(diǎn)偵測準(zhǔn)確率達(dá)到80%左右;
◆ 熱點(diǎn)偵測召回率達(dá)到90%左右;
◆ 高穩(wěn)定性:正常運(yùn)行半年以上無崩潰。
為使民族地區(qū)黨建工作敏銳適應(yīng)時(shí)代的變化以切實(shí)提高質(zhì)量,本文提出了一個(gè)“互聯(lián)網(wǎng)大數(shù)據(jù)民族地區(qū)黨建輿情監(jiān)控系統(tǒng)”的實(shí)施框架。該系統(tǒng)能有效利用互聯(lián)網(wǎng)黨建大數(shù)據(jù)促進(jìn)民族地區(qū)黨的建設(shè)工作,為新時(shí)期民族地區(qū)黨建工作提供了一種新方法。