• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      監(jiān)控互聯(lián)網(wǎng)輿情助推民族地區(qū)黨建工作智能化

      2019-12-08 17:43:13楊文順
      關(guān)鍵詞:網(wǎng)頁輿情民族

      蘇 鵬,楊文順

      (1.大理大學(xué) 數(shù)學(xué)與計(jì)算機(jī)學(xué)院,云南 大理 671003;2.云南民族大學(xué) 民族團(tuán)結(jié)進(jìn)步研究院,云南 昆明 650091)

      一、文獻(xiàn)回顧與問題提出

      我國是一個(gè)多民族國家。黨的十九大以來,在“提高黨建工作質(zhì)量”的基本要求和“走在時(shí)代前列”的基本目標(biāo)的指引下,民族地區(qū)黨的建設(shè)取得了令人矚目的成效。但是,隨著互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代①Viktor Mayer-Schonberger and Kenneth Cukier. Big data a revolution: that will transform how we live, work, and think. Boston: John Murray, 2013.的到來,民族地區(qū)的黨建工作面臨著新的重大機(jī)遇和挑戰(zhàn)。

      據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心統(tǒng)計(jì),②中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC):《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告(2018年7月)》.http://www.cac.gov.cn/2018-08/20/c_1123296882.htm,2019.2.3截至2018年6月底,中國互聯(lián)網(wǎng)普及率高達(dá)57.7%,互聯(lián)網(wǎng)使用人數(shù)已突破8億。其中,手機(jī)網(wǎng)民規(guī)模達(dá)7.88億,約占98.3%。網(wǎng)民通過各種方式在博客、微博、論壇中發(fā)表意見,表達(dá)思想,形成了特征鮮明、影響廣泛的網(wǎng)絡(luò)輿情。

      洞察網(wǎng)絡(luò)輿情并加以必要的引導(dǎo)和干預(yù)是提高我黨在民族地區(qū)的黨建工作質(zhì)量的一項(xiàng)重要而艱巨的任務(wù)。 然而,互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代下的網(wǎng)絡(luò)輿情信息有著數(shù)量巨大、結(jié)構(gòu)復(fù)雜與獲取困難等特點(diǎn),傳統(tǒng)計(jì)算方法并不能對(duì)其進(jìn)行精準(zhǔn)獲取與有效分析。近年來,隨著信息技術(shù)尤其是網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)挖掘技術(shù)的飛速發(fā)展,用于海量輿情信息獲取與分析的技術(shù)手段逐漸發(fā)展、成熟。

      為此,本文提出了一個(gè)“互聯(lián)網(wǎng)大數(shù)據(jù)民族地區(qū)黨建輿情監(jiān)控系統(tǒng)”的實(shí)施框架。該框架的實(shí)施將能顯著促進(jìn)民族地區(qū)黨建工作的信息化和智能化,敏銳適應(yīng)時(shí)代的變化,進(jìn)而明顯提升民族地區(qū)黨建工作質(zhì)量。

      二、系統(tǒng)關(guān)鍵技術(shù)

      (一)網(wǎng)頁數(shù)據(jù)搜集技術(shù)

      1.聚焦爬蟲技術(shù)

      聚焦爬蟲是一個(gè)自動(dòng)程序,其工作流程如下:首先,事先確定查詢目標(biāo);然后,訪問互聯(lián)網(wǎng)上的符合目標(biāo)的網(wǎng)頁與相關(guān)的鏈接;最后,自動(dòng)判斷及抓取所需要的數(shù)據(jù)及信息。

      2.垂直元搜索采集技術(shù)

      用戶向一般的搜索引擎(如百度)發(fā)起一個(gè)查詢,該引擎就會(huì)根據(jù)查詢內(nèi)容采集文檔,并建立索引。而元搜索引擎接到用戶發(fā)起的一個(gè)查詢后執(zhí)行如下處理流程:首先,將該查詢按照各個(gè)一般搜索引擎的查詢格式做轉(zhuǎn)換;然后,把不同格式的查詢分發(fā)給相應(yīng)的一般搜索引擎;最后,把各個(gè)一般引擎返回的搜索結(jié)果重新計(jì)算權(quán)重并排序輸出給用戶。元搜索引擎存儲(chǔ)并維護(hù)若干一般搜索引擎的參數(shù)信息用于一般引擎的選擇和協(xié)調(diào)。

      (二)網(wǎng)頁預(yù)處理技術(shù)

      1.網(wǎng)頁去噪技術(shù)

      利用網(wǎng)頁自動(dòng)搜集技術(shù)從互聯(lián)網(wǎng)上抓取的輿情網(wǎng)頁中存在大量不相關(guān)的信息,如廣告、評(píng)論、導(dǎo)航條、版權(quán)信息等。這些不相關(guān)的信息稱為網(wǎng)頁噪音。網(wǎng)頁噪音導(dǎo)致同一網(wǎng)頁擁有不同主題。而這會(huì)降低以整個(gè)網(wǎng)頁為目標(biāo)的搜索結(jié)果的準(zhǔn)確度。解決這一問題的一個(gè)方法是使搜索下沉到網(wǎng)頁細(xì)節(jié),從而找到所有網(wǎng)頁主題。該方法的一個(gè)顯著不足是會(huì)導(dǎo)致大量無關(guān)信息的引入。 另一個(gè)較好的方法是網(wǎng)頁去噪,也即快速識(shí)別并去除網(wǎng)頁噪音。

      2.網(wǎng)頁排重技術(shù)

      不同的網(wǎng)站間經(jīng)常轉(zhuǎn)載內(nèi)容,所以,網(wǎng)頁需要按內(nèi)容做文檔排重。采用網(wǎng)頁排重技術(shù)可以顯著加強(qiáng)輿情檢索的效果,增加輿情態(tài)勢分析的準(zhǔn)確度,同時(shí)也能極大節(jié)約存儲(chǔ)空間并減少資源維護(hù)消耗。

      3.文本特征提取技術(shù)

      基于高維向量空間的分類模型會(huì)嚴(yán)重降低文本分類的處理速度及準(zhǔn)確度。為解決這一問題,需要減少文本向量的維度(降維),也即進(jìn)行特征屬性提取?;バ畔ⅰ⒖ǚ綑z驗(yàn)等是常見的文本特征提取方法。

      (三)輿情分析挖掘技術(shù)

      1.話題追蹤技術(shù)

      話題識(shí)別與跟蹤是基于事件的信息組織技術(shù),其不僅可實(shí)現(xiàn)對(duì)新聞報(bào)道信息流中已知話題的動(dòng)態(tài)跟蹤,還可實(shí)現(xiàn)新話題的自動(dòng)識(shí)別。

      2.情感挖掘技術(shù)

      情感挖掘的關(guān)鍵問題是如何抽取句子中的帶有情感色彩的詞(觀點(diǎn)詞),也即觀點(diǎn)抽取。 觀點(diǎn)抽取的目的就是為句子的情感分類提供標(biāo)準(zhǔn)。 傳統(tǒng)的情感分類包含3個(gè)類別:褒義、貶義和中性。

      (四)大規(guī)模數(shù)據(jù)存儲(chǔ)技術(shù)

      大規(guī)模數(shù)據(jù)存儲(chǔ)技術(shù)實(shí)現(xiàn)跨設(shè)備和數(shù)據(jù)中心存儲(chǔ),利用數(shù)據(jù)塊技術(shù)將數(shù)據(jù)保存在物理上互不相關(guān)的多個(gè)磁盤中。Lucene是apache軟件基金會(huì)的一個(gè)全文檢索引擎工具包及架構(gòu)?;贚ucene可以設(shè)計(jì)具有較低時(shí)間和空間復(fù)雜度的大規(guī)模數(shù)據(jù)索引方案。另外,Lucene源代碼是開放的。

      (五)系統(tǒng)集成技術(shù)與圖形化用戶接口

      采用Struts2作為系統(tǒng)整體框架,同時(shí)利用Hibernate設(shè)計(jì)數(shù)據(jù)持久化方案。為降低系統(tǒng)的耦合度,采用Spring作為管理容器整合前兩種技術(shù)。采用JavaScript/jQuery和Ajax技術(shù)提供友好的圖形化動(dòng)態(tài)Web界面,增強(qiáng)用戶體驗(yàn)。

      三、系統(tǒng)主要功能

      (一)互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)的自動(dòng)獲取與清洗

      本系統(tǒng)將實(shí)現(xiàn)對(duì)各大門戶網(wǎng)站、微博、論壇、博客等互聯(lián)網(wǎng)新媒體中的民族地區(qū)黨建動(dòng)態(tài)、黨建熱點(diǎn)、政策文件、黨風(fēng)評(píng)價(jià)、黨的形象、國際動(dòng)態(tài)等黨建數(shù)據(jù)的自動(dòng)獲取與清洗。

      1.互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)的自動(dòng)獲取

      本系統(tǒng)將自動(dòng)定向訪問互聯(lián)網(wǎng)上的符合既定目標(biāo)的網(wǎng)頁及相關(guān)鏈接,抓取所需的民族地區(qū)黨建輿情數(shù)據(jù)。同時(shí),本系統(tǒng)也將實(shí)現(xiàn)利用百度等主流搜索引擎搜索用戶感興趣的民族地區(qū)黨建數(shù)據(jù)。最后,本系統(tǒng)將對(duì)前述兩種渠道搜索到的數(shù)據(jù)進(jìn)行有機(jī)融合。

      2.民族地區(qū)黨建輿情數(shù)據(jù)的自動(dòng)清洗

      互聯(lián)網(wǎng)上抓取的民族地區(qū)黨建輿情網(wǎng)頁中存在大量的“網(wǎng)頁噪音”。 因此,本系統(tǒng)將實(shí)現(xiàn)對(duì)網(wǎng)頁噪音的快速且準(zhǔn)確的識(shí)別,以利于互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)自非結(jié)構(gòu)化至結(jié)構(gòu)化的轉(zhuǎn)換存儲(chǔ)。

      互聯(lián)網(wǎng)民族地區(qū)黨建信息網(wǎng)頁中難免存在大量轉(zhuǎn)載、類似的冗余網(wǎng)頁。因此,本系統(tǒng)將實(shí)現(xiàn)對(duì)冗余網(wǎng)頁的有效排重以精化網(wǎng)頁自動(dòng)獲取結(jié)果。

      (二)互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)的存儲(chǔ)與索引

      隨著系統(tǒng)的實(shí)施應(yīng)用,所獲取的互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)將急劇膨脹。如何實(shí)現(xiàn)海量數(shù)據(jù)的有效存儲(chǔ)及快速查詢、分析、統(tǒng)計(jì)是本系統(tǒng)成功應(yīng)用的關(guān)鍵。

      1.互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)的分布式存儲(chǔ)

      分布式存儲(chǔ)系統(tǒng)實(shí)現(xiàn)了數(shù)據(jù)在若干獨(dú)立的可分擔(dān)負(fù)荷的設(shè)備上的分散存儲(chǔ)。相比集中式存儲(chǔ)系統(tǒng),其具有高可靠性、高可用性、高存取效率及高可擴(kuò)展性等顯著優(yōu)點(diǎn)。因此,本系統(tǒng)將實(shí)現(xiàn)互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)的分布式存儲(chǔ)。

      2.互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)的全文檢索

      本系統(tǒng)將實(shí)現(xiàn)基于Lucene的互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)的全文檢索引擎。其具有中文分詞、索引建立及優(yōu)化、查詢結(jié)果處理等功能。

      (三)互聯(lián)網(wǎng)民族地區(qū)黨建輿情的智能分析

      本系統(tǒng)積累的海量數(shù)據(jù)中必然隱藏著很多民族地區(qū)黨建相關(guān)知識(shí)。因此,本系統(tǒng)將利用機(jī)器學(xué)習(xí)等計(jì)算技術(shù)發(fā)現(xiàn)互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)中的高價(jià)值知識(shí)。

      1.民族地區(qū)黨的政策口碑分析

      近年來,WEB 2.0技術(shù)獲得了快速發(fā)展,這使得互聯(lián)網(wǎng)上產(chǎn)生了大量用戶發(fā)表的評(píng)論信息。這些信息表達(dá)了人們的各種情感傾向,如“喜”“怒”“好”“惡”等。因此,對(duì)民族地區(qū)黨的政策評(píng)論進(jìn)行挖掘就能展示出其質(zhì)量信息,從而可以找出現(xiàn)有政策的不足并改進(jìn)。

      2.民族地區(qū)黨建負(fù)面信息檢測及報(bào)警

      給黨造成損失的風(fēng)險(xiǎn)事件和威脅黨的執(zhí)政地位的網(wǎng)絡(luò)負(fù)面信息時(shí)有發(fā)生。負(fù)面信息在互聯(lián)網(wǎng)上的傳播快速且持久。因此,本系統(tǒng)將通過實(shí)現(xiàn)對(duì)民族地區(qū)黨建互聯(lián)網(wǎng)負(fù)面信息的自動(dòng)檢測與報(bào)警,幫助民族地區(qū)黨建部門制定有效應(yīng)對(duì)措施以減少損失。

      3.民族地區(qū)黨建熱點(diǎn)發(fā)現(xiàn)與跟蹤

      及時(shí)發(fā)現(xiàn)民族地區(qū)黨建熱點(diǎn)新聞及話題可以使黨敏銳察覺環(huán)境的變化,并因勢利導(dǎo)的調(diào)整各項(xiàng)政策,保證黨組織的發(fā)展壯大。因此,本系統(tǒng)將實(shí)現(xiàn)民族地區(qū)黨建熱點(diǎn)的準(zhǔn)確發(fā)現(xiàn)與跟蹤。

      4.互聯(lián)網(wǎng)民族地區(qū)黨建輿情知識(shí)的圖形化展示

      由互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)挖掘得到的知識(shí)的最終使用者一般是黨的領(lǐng)導(dǎo)干部,若用數(shù)據(jù)方式表示知識(shí)將會(huì)非常低效。本系統(tǒng)將實(shí)現(xiàn)用雷達(dá)圖、餅圖等圖形方式把輿情知識(shí)直觀、高效地展示給用戶。

      四、系統(tǒng)框架及技術(shù)指標(biāo)

      系統(tǒng)擬采用的框架如圖1所示。系統(tǒng)采用5層結(jié)構(gòu),分別是輿情采集層、網(wǎng)頁預(yù)處理層、輿情分析層、用戶交互層與系統(tǒng)集成層。

      系統(tǒng)擬達(dá)到的主要技術(shù)指標(biāo)為:

      ◆ 信息查全率達(dá)到85%左右;

      ◆ 信息查準(zhǔn)率達(dá)到80%左右;

      ◆ 熱點(diǎn)偵測準(zhǔn)確率達(dá)到80%左右;

      ◆ 熱點(diǎn)偵測召回率達(dá)到90%左右;

      ◆ 高穩(wěn)定性:正常運(yùn)行半年以上無崩潰。

      五、結(jié)語

      為使民族地區(qū)黨建工作敏銳適應(yīng)時(shí)代的變化以切實(shí)提高質(zhì)量,本文提出了一個(gè)“互聯(lián)網(wǎng)大數(shù)據(jù)民族地區(qū)黨建輿情監(jiān)控系統(tǒng)”的實(shí)施框架。該系統(tǒng)能有效利用互聯(lián)網(wǎng)黨建大數(shù)據(jù)促進(jìn)民族地區(qū)黨的建設(shè)工作,為新時(shí)期民族地區(qū)黨建工作提供了一種新方法。

      猜你喜歡
      網(wǎng)頁輿情民族
      我們的民族
      一個(gè)民族的水上行走
      人民交通(2019年16期)2019-12-20 07:03:44
      基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      多元民族
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      求真務(wù)實(shí) 民族之光
      文史春秋(2016年2期)2016-12-01 05:41:54
      輿情
      中國民政(2016年16期)2016-09-19 02:16:48
      輿情
      中國民政(2016年10期)2016-06-05 09:04:16
      輿情
      中國民政(2016年24期)2016-02-11 03:34:38
      網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
      電子測試(2015年18期)2016-01-14 01:22:58
      高尔夫| 阜城县| 施甸县| 洛宁县| 天气| 黄陵县| 阜城县| 柘荣县| 南川市| 兴和县| 台山市| 岳阳市| 开化县| 屏东县| 彭泽县| 济源市| 邮箱| 都江堰市| 霍山县| 吐鲁番市| 东辽县| 榆树市| 台湾省| 姜堰市| 新疆| 溧水县| 三都| 塔河县| 瑞金市| 漾濞| 清徐县| 梧州市| 东台市| 都昌县| 萨嘎县| 遵义县| 山丹县| 西藏| 保亭| 蓬安县| 自贡市|