• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Hadoop的航天網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的設(shè)計與實現(xiàn)

      2017-08-23 06:31:36齊鋼雷潘堅
      科技創(chuàng)新導(dǎo)報 2017年16期
      關(guān)鍵詞:數(shù)據(jù)挖掘航天

      齊鋼雷 潘堅

      摘 要:大數(shù)據(jù)時代,輿情監(jiān)測和分析越發(fā)重要。針對單機(jī)爬蟲效率低、可擴(kuò)展性差、存儲管理困難及信息展示不友好等問題,設(shè)計并實現(xiàn)了一套基于Hadoop的航天網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng),系統(tǒng)首先利用基于MapReduce的分布式網(wǎng)絡(luò)爬蟲進(jìn)行數(shù)據(jù)抓取,以HDFS作為底層存儲系統(tǒng),在其上構(gòu)建基于HBase的分布式數(shù)據(jù)庫對輿情信息進(jìn)行統(tǒng)一存儲管理;通過提供定制化查詢功能及相關(guān)輔助功能協(xié)助輿情分析人員實時監(jiān)測輿情。測試結(jié)果表明,系統(tǒng)可以有效地實現(xiàn)對網(wǎng)絡(luò)輿情的監(jiān)測并實現(xiàn)定制化展示,達(dá)到了設(shè)計要求。

      關(guān)鍵詞:輿情監(jiān)測 數(shù)據(jù)挖掘 航天 Hadoop

      中圖分類號:TP311.52 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2017)6(a)-0181-04

      Abstract:In the era of large data, public opinion monitoring and analysis is becoming more and more important. Aiming at solving low efficiency for stand-alone reptiles, poor scalability, poor storage management, unfriendly information display and other problems, a set of Hadoop-based space network public opinion monitoring system is designed and implemented. The system first uses the distributed web crawler based on MapReduce to carry out data crawling, and HDFS is used as the underlying storage system to build a distributed database based on HBase. Through the provision of customized query function and related auxiliary functions to assist public opinion analysts to monitor public opinion in real time. The test results showed that the system can effectively realize the monitoring of the network public opinion and realize the customized display, and meet the design requirements.

      Key Words:Public opinion monitoring;Data mining;Aerospace;Hadoop

      大數(shù)據(jù)時代,網(wǎng)絡(luò)輿情極強(qiáng)的傳播力和影響力越發(fā)受到社會各界重視。因此,及時發(fā)現(xiàn)和掌握網(wǎng)絡(luò)輿情的發(fā)展動向,有針對性地提出解決方案、消除負(fù)面影響,對政府機(jī)關(guān)和企事業(yè)單位意義重大[1-2]。

      針對以上問題,該文設(shè)計并實現(xiàn)了一個基于Hadoop的航天網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)。該系統(tǒng)采用分布并行方式對互聯(lián)網(wǎng)信息進(jìn)行采集[3-4],分析挖掘輿情信息的內(nèi)在聯(lián)系,為政府機(jī)關(guān)和企事業(yè)單位第一時間了解自身相關(guān)輿情并進(jìn)行及時預(yù)警、形成輿情分析報告并為領(lǐng)導(dǎo)決策提供智力支持。

      1 相關(guān)理論研究

      1.1 網(wǎng)絡(luò)輿情概念

      網(wǎng)絡(luò)輿情是指民眾通過互聯(lián)網(wǎng)圍繞著特定社會事件產(chǎn)生的對事件及領(lǐng)導(dǎo)者所持有的態(tài)度、情緒以及意見等的集合。網(wǎng)絡(luò)輿情特別是一些負(fù)面輿情的形成和傳播通常會十分迅速并且在極短時間內(nèi)發(fā)展到相當(dāng)大的規(guī)模。如果不能對此進(jìn)行監(jiān)測和預(yù)警,會給涉事主體帶來難以估量的損失。另外隨著大數(shù)據(jù)時代的到來,如何對海量的輿情信息進(jìn)行搜集、處理并挖掘信息成了擺在輿情分析人員面前的一個亟待解決的問題[5]。

      網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的出現(xiàn)為輿情分析人員的分析工作提高了巨大便利,它利用自然語言處理技術(shù)以及數(shù)據(jù)挖掘技術(shù)通過對互聯(lián)網(wǎng)信息的采集、預(yù)處理、分析來滿足用戶對網(wǎng)絡(luò)輿情監(jiān)測的各種需求,并可形成統(tǒng)計性圖表、報告等,使用戶能夠及時發(fā)現(xiàn)輿情突發(fā)事件,并且第一時間做出針對性反應(yīng),進(jìn)而為高層決策提供支持,是大數(shù)據(jù)技術(shù)在輿情分析領(lǐng)域的典型應(yīng)用[6]。

      1.2 Hadoop

      Hadoop可以歸類成一個完整的生態(tài)系統(tǒng),包含從數(shù)據(jù)存儲到集成、數(shù)據(jù)處理及數(shù)據(jù)分析等大量組件,可以使用戶在不了解分布式底層細(xì)節(jié)的情況下開發(fā)分布式程序。HDFS作為Hadoop生態(tài)系統(tǒng)的基礎(chǔ)組件可以將海量數(shù)據(jù)分布到計算機(jī)集群之上,實現(xiàn)一次寫入,多次讀取。Hadoop的主要執(zhí)行框架是MapReduce,它是一個用于分布式并行數(shù)據(jù)處理的編程模型。HBase是一個構(gòu)建于HDFS之上的面向列的NoSQL數(shù)據(jù)庫,提供對海量數(shù)據(jù)的快速讀寫能力,它利用Zookeeper作為自己的分布式協(xié)調(diào)工具[7]。利用Hadoop組件可以實現(xiàn)功能強(qiáng)大的大數(shù)據(jù)支撐平臺。

      2 系統(tǒng)的設(shè)計與實現(xiàn)

      2.1 總體架構(gòu)設(shè)計

      該文設(shè)計的基于Hadoop的航天網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)主要包括三個子系統(tǒng):互聯(lián)網(wǎng)信息監(jiān)控子系統(tǒng)、輿情數(shù)據(jù)分析子系統(tǒng)和輿情服務(wù)子系統(tǒng)。其中輿情數(shù)據(jù)分析子系統(tǒng)功能結(jié)構(gòu)最為復(fù)雜,該文將給出詳細(xì)設(shè)計說明。

      互聯(lián)網(wǎng)信息監(jiān)控子系統(tǒng)的主要工作是抓取互聯(lián)網(wǎng)信息,對抓取的互聯(lián)網(wǎng)信息進(jìn)行處理、存儲,為上層分析提供數(shù)據(jù)支持。系統(tǒng)采用HDFS作為底層數(shù)據(jù)存儲介質(zhì),在其之上構(gòu)建更高層次的HBase和Hive進(jìn)行數(shù)據(jù)管理[8]。輿情數(shù)據(jù)分析子系統(tǒng)采用分布式編程設(shè)計對原始網(wǎng)頁信息進(jìn)行處理,包括文本預(yù)處理、文本聚類、摘要提取和話題發(fā)現(xiàn)等。輿情服務(wù)子系統(tǒng)為用戶提供功能豐富的輿情信息展示功能,包括多種輿情信息的查看和多種統(tǒng)計輔助工具的使用?;贖adoop的航天網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)總體架構(gòu)如圖1所示。

      系統(tǒng)總體架構(gòu)分為四層,分別為展現(xiàn)層、共性服務(wù)層、存儲層和數(shù)據(jù)聚合層。

      展現(xiàn)層為用戶提供訪問系統(tǒng)途徑,考慮到輿情信息的保密相關(guān)要求,可根據(jù)實際情況只設(shè)置為輿情分析師操作用的輿情數(shù)據(jù)操作平臺和為高層領(lǐng)導(dǎo)用的手機(jī)APP軟件。該文將采用這種設(shè)計方式。

      共性服務(wù)層提供輿情信息展現(xiàn)所需要的共性服務(wù),包括標(biāo)引服務(wù)、關(guān)鍵詞服務(wù)、摘要服務(wù)、自動分類、聚類服務(wù)、自動情感分析、涉事主體識別、敏感信息識別等。

      存儲層包括輿情監(jiān)控數(shù)據(jù)緩存服務(wù)器和輿情分析數(shù)據(jù)服務(wù)器,用于數(shù)據(jù)的存儲。

      數(shù)據(jù)聚合層通過網(wǎng)絡(luò)信息獲取技術(shù)獲取輿情資源,并通過排重、去噪、提取、索引、整合等技術(shù)手段處理信息并存入數(shù)據(jù)庫。

      2.2 功能設(shè)計

      該文設(shè)計的輿情監(jiān)測系統(tǒng)是一套可提供輿情監(jiān)測、輿情分析和輿情服務(wù)的軟件系統(tǒng),系統(tǒng)通過監(jiān)控國內(nèi)互聯(lián)網(wǎng)獲取輿情數(shù)據(jù),并經(jīng)過自動處理后,提供給輿情分析師再進(jìn)行更細(xì)致的人工處理。系統(tǒng)具體功能結(jié)構(gòu)如圖2所示。

      2.3 輿情信息分析子系統(tǒng)

      輿情數(shù)據(jù)分析子系統(tǒng)運行在輿情分析數(shù)據(jù)服務(wù)器上,它包含一系列的智能化語義分析工具、輔助研判評估模型和統(tǒng)計圖表制作工具等,以提高分析人員的工作效率,加強(qiáng)輿情工作的快速反應(yīng)能力;系統(tǒng)同時提供多種情報簡報、專報的輔助制作功能和輿情數(shù)據(jù)推送管理功能。下面將對“智能化語義分析工具集”和“輿情分析平臺”做詳細(xì)設(shè)計和介紹。

      2.3.1 智能化語義分析工具集

      智能化語義分析工具集融合最新的人工智能、信息檢索、數(shù)據(jù)挖掘等研究成果,通過信息檢索、提取、處理及信息模塊拼裝技術(shù),以用戶的需求為中心,將數(shù)據(jù)處理結(jié)果結(jié)構(gòu)化的呈現(xiàn)給用戶。

      該功能模塊主要實現(xiàn)如下功能。

      標(biāo)引服務(wù):從文本中識別文章標(biāo)題、作者、來源、發(fā)布時間、正文內(nèi)容等。

      關(guān)鍵詞服務(wù):從正文里面把跟這篇文章意義最相關(guān)的一些詞抽取出來,為確保關(guān)鍵詞抽取的維數(shù)不至于太高,只選取和航天緊密相關(guān)的名詞、動詞。

      摘要服務(wù):利用中文分詞技術(shù)等自動地從原始文獻(xiàn)中提取能夠全面準(zhǔn)確地反映某一文獻(xiàn)中心內(nèi)容的簡單連貫的短文。

      聚類服務(wù):將數(shù)據(jù)集中的所有數(shù)據(jù),按照相似性劃分為多個類別,結(jié)合人工研判,得出熱點話題,達(dá)到熱點話題發(fā)現(xiàn)、實現(xiàn)輿情預(yù)警功能。

      自動分類:按照事先設(shè)定的輿情事件類型,如:貪污腐敗、生活作風(fēng)、上訪、四風(fēng)等建立自動分類模型,實現(xiàn)信息的自動分類功能,便于相關(guān)話題、事件的后續(xù)追蹤。

      自動情感分析:識別出信息中蘊含的正負(fù)面信息,對文本信息進(jìn)行情感分析,進(jìn)而判斷文本的情感正負(fù)屬性。

      涉事主體識別:按照預(yù)設(shè)的監(jiān)控體系,自動識別信息關(guān)聯(lián)的相關(guān)企業(yè)、產(chǎn)品、重大項目、人員等。

      2.3.2 輿情分析平臺

      輿情分析平臺是輿情分析師查看、分析、統(tǒng)計輿情數(shù)據(jù)的操作平臺,其利用構(gòu)建的輿情分析數(shù)學(xué)模型來輔助輿情分析師發(fā)現(xiàn)和分析輿情事件,并提供一系列功能支撐輿情分析師對輿情事件做出更準(zhǔn)確的判斷,提高工作效率。

      該功能模塊主要實現(xiàn)如下功能。

      重大事件輿情分析:針對影響力較大的已知事件、提前部署的監(jiān)控事件設(shè)定專用識別模型進(jìn)行監(jiān)控和識別分析,實時監(jiān)測相關(guān)動態(tài)。

      主要企業(yè)輿情分析:將集團(tuán)公司的多級企業(yè)與監(jiān)控的信息進(jìn)行識別和關(guān)聯(lián),選中具體企業(yè)名稱,則檢索出和該企業(yè)相關(guān)的輿情信息。

      重點產(chǎn)品輿情分析:針對主要的航天產(chǎn)品如長征火箭、遙感衛(wèi)星、北斗衛(wèi)星、彩虹無人機(jī)等,設(shè)定專用識別模型,實時監(jiān)測相關(guān)的輿情信息,達(dá)到分類跟蹤的目的。

      重大工程輿情分析:針對航天領(lǐng)域重大工程,如探月工程、載人航天工程、深空探測工程等,分別設(shè)定專用識別模型,實時監(jiān)控相關(guān)領(lǐng)域的輿情信息,達(dá)到分類跟蹤的目的。

      重點人員輿情分析:針對集團(tuán)公司及下屬各單位的重點人員(領(lǐng)導(dǎo)、總師、重要技術(shù)人員等),設(shè)定專用識別模型,實時監(jiān)控相關(guān)輿情信息,達(dá)到分類跟蹤的目的。

      數(shù)據(jù)統(tǒng)計分析:根據(jù)用戶需求建立統(tǒng)計分析模型和搭建圖表表示模型,根據(jù)用戶需求分析特定條件下的統(tǒng)計信息,為用戶提供圖表化的統(tǒng)計信息展示。

      輿情報告制作:根據(jù)相關(guān)分析數(shù)據(jù)自動生成輿情簡報摘要,輔助輿情分析人員撰寫輿情報告。

      輿情信息推送:輿情分析人員將第一時間發(fā)現(xiàn)的敏感輿情信息通過人工判研推送到手機(jī)APP,使輿情分析小組成員及時收到輿情提醒,及時參與討論。

      輿情數(shù)據(jù)分析子系統(tǒng)業(yè)務(wù)流程圖如圖3所示。

      3 系統(tǒng)測試

      考慮到系統(tǒng)信息的敏感性,系統(tǒng)設(shè)置要求只有當(dāng)用戶正確輸入用戶名和密碼及驗證碼后才能登錄系統(tǒng),否則系統(tǒng)提示相關(guān)錯誤信息。用戶成功登錄系統(tǒng)后,進(jìn)入首頁的輿情信息展示頁面。

      輿情信息展示頁面展示的是最新抓取到的符合要求的輿情信息,每條輿情信息包括抓取時間、輿情主題、輿情正負(fù)面標(biāo)識、命中的關(guān)鍵詞組和輿情信息摘要。輿情分析人員可點擊輿情主題或輿情信息摘要查看詳細(xì)信息。當(dāng)點擊“推送”后,會彈出針對本條輿情信息的推送設(shè)置信息,輿情分析師可把該條輿情信息通過手機(jī)APP推送給主管領(lǐng)導(dǎo)或輿情分析小組,達(dá)到快速商議和溝通目的。

      當(dāng)點擊“任務(wù)跟蹤”、“事件跟蹤”、“企業(yè)輿情”、“人員輿情”、“產(chǎn)品工程輿情”、“行為特征”、“統(tǒng)計分析”功能選項時,系統(tǒng)則自動從數(shù)據(jù)庫中按以上查詢條件查詢并顯示,達(dá)到按指定條件查詢并顯示的目的。

      當(dāng)點擊“簡報制作編輯”功能選項時,則進(jìn)入輿情簡報編輯頁面,輿情分析工作人員可選取系統(tǒng)提供的編輯模板來輔助編輯,編輯完畢后可保存為word文檔格式留檔存用。

      4 結(jié)語

      信息時代自媒體等網(wǎng)絡(luò)載體成了人們發(fā)表言論的“主戰(zhàn)場”,由于自媒體傳播信息有著傳播速度快、影響范圍廣等特點,及時對相關(guān)言論進(jìn)行監(jiān)測,在發(fā)生重要輿情事件時有針對性地提出解決方案、消除負(fù)面影響,對涉事主體意義重大。

      該文分析了輿情和Hadoop的基本概念,針對輿情監(jiān)測系統(tǒng)中存在的問題進(jìn)行了說明,并設(shè)計實現(xiàn)了一套基于Hadoop的航天網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)。系統(tǒng)能全天候?qū)χ付ňW(wǎng)絡(luò)資源進(jìn)行監(jiān)控,并提供了定制查詢、統(tǒng)計分析及輿情簡報輔助等功能,測試結(jié)果表明,系統(tǒng)運行穩(wěn)定,達(dá)到了設(shè)計要求。

      參考文獻(xiàn)

      [1] 張薇.網(wǎng)絡(luò)輿情對國家安全影響分析[J].信息工程大學(xué)理學(xué)院,2016,11(13):244-245.

      [2] 李振江.航天網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)框架研究[J].中國管理信息化,2015,11(13):193-195.

      [3] 張小明,李舟軍,巢文涵.基于增量型聚類的自動話題檢測研究[J].軟件學(xué)報,2012,23(6):1578-1587.

      [4] 劉霽,周亞東,高峰,等.一種基于文本語義的網(wǎng)絡(luò)敏感話題識別方法[J].深圳信息職業(yè)技術(shù)學(xué)院學(xué)報,2012,9(3):33-37.

      [5] 賀靈,蔡易超.數(shù)據(jù)挖掘中的聚類算法綜述[J].計算機(jī)應(yīng)用研究,2013,24(1):10-13.

      [6] 劉宏偉.分布式海量數(shù)據(jù)存儲檢索系統(tǒng)設(shè)計與實現(xiàn)[D].西安電子科技大學(xué),2012.

      [7] 陳彥舟,曹金璇.基于Hadoop的微博輿情監(jiān)控系統(tǒng)[J].計算機(jī)系統(tǒng)應(yīng)用,2013,22(4):18-22.

      [8] 鄒鴻程.微博話題檢測與追蹤技術(shù)研究[D].鄭州:解放軍信息工程大學(xué),2012.

      猜你喜歡
      數(shù)據(jù)挖掘航天
      我的航天夢
      兒童時代(2022年4期)2022-04-19 11:14:10
      航天夢,我的夢
      軍事文摘(2021年22期)2022-01-18 06:22:56
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      逐夢航天日
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      航天股為何遭爆炒
      太空探索(2015年4期)2015-07-12 14:16:14
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      西畴县| 崇仁县| 榆社县| 锡林郭勒盟| 仁化县| 盐边县| 武宣县| 陕西省| 白河县| 巨野县| 略阳县| 平原县| 巴塘县| 本溪| 青浦区| 得荣县| 万年县| 五家渠市| 五大连池市| 澄迈县| 七台河市| 云浮市| 五原县| 裕民县| 通化市| 嵊泗县| 象山县| 麻城市| 建水县| 阿合奇县| 尚志市| 万全县| 于田县| 临沧市| 通州区| 称多县| 河源市| 肇源县| 策勒县| 承德市| 永和县|