• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于大數(shù)據(jù)架構(gòu)的輿情數(shù)據(jù)中心分析與設(shè)計(jì)

      2020-11-18 14:00:34周奇印鑒張良均
      現(xiàn)代計(jì)算機(jī) 2020年28期
      關(guān)鍵詞:輿情架構(gòu)數(shù)據(jù)庫

      周奇,印鑒,張良均

      (1.廣東開放大學(xué)信息與工程學(xué)院,廣州510630;2.中山大學(xué)數(shù)據(jù)科學(xué)與計(jì)算機(jī)學(xué)院,廣州510630;3.廣州泰迪智能科技有限公司,廣州510630)

      1 建設(shè)背景

      自習(xí)近平主席在2013 年9 月和10 月分別提出共建“絲綢之路經(jīng)濟(jì)帶”和“21 世紀(jì)海上絲綢之路”(簡稱“一帶一路”)的重大倡議以來,絲路沿線國家及國際社會(huì)反響強(qiáng)烈。從國際輿論情況的來源看,既有來自政界、學(xué)界、商界、媒體的聲音,也有來自民間公眾的評(píng)價(jià)。從其性質(zhì)看,既有積極和充滿期待的一面,也有謹(jǐn)慎和疑慮的一面,還有反對(duì)、詆毀的雜音。從其認(rèn)知內(nèi)容看,既存在合作互信現(xiàn)象,又存在知之甚少現(xiàn)象,甚至不乏錯(cuò)誤解讀現(xiàn)象。準(zhǔn)確把握相關(guān)國家的絲路觀、了解它們的利益與訴求,有助于我們科學(xué)研判與決策,講好絲路故事,克服認(rèn)知風(fēng)險(xiǎn),營造積極的國際輿論氛圍,順利推進(jìn)與絲路經(jīng)濟(jì)帶國家的務(wù)實(shí)合作,實(shí)現(xiàn)共同發(fā)展、共同繁榮、合作共贏之目標(biāo)。

      目前“一帶一路”已經(jīng)設(shè)計(jì)包括亞洲43 國、中東歐16 國、獨(dú)聯(lián)體4 國、非洲1 國在內(nèi)的共64 國。由于域內(nèi)民族眾多,教派林立,更有眾多歷史遺留問題,了解相關(guān)國家政府、民眾對(duì)“一帶一路”的態(tài)度,解讀相關(guān)地區(qū)和國家對(duì)“一帶一路”倡議的公共話語與基本認(rèn)知,才能更加有針對(duì)性地摸索對(duì)外傳播“一帶一路”倡議的重點(diǎn),逐步降低和打消相關(guān)國家的疑慮;同時(shí)提升中國國際輿論話語權(quán),力避中國在全球輿論場(chǎng)中的失語問題。

      2016 年10 月29 日,首屆中國國際輿論學(xué)年會(huì)在廣東外語外貿(mào)大學(xué)召開,華南首個(gè)新聞大數(shù)據(jù)聯(lián)合實(shí)驗(yàn)室落戶廣外。在中國走出去融入國際社會(huì)的過程當(dāng)中,國際輿論以及通過國際輿情了解中國在國際的身份,中國怎么樣以更好的姿態(tài)更有效地走出去,如何更好地做好輿情分析的研究支持工作成為義不容辭的責(zé)任。

      2 現(xiàn)狀及需求分析

      2.1 現(xiàn)狀

      (1)信息獲取過于分散收集效率低

      互聯(lián)網(wǎng)日益發(fā)達(dá)的今天,我們獲取信息的途徑也變得越來越豐富,足不出戶就能掌握全球資訊。資源越多意味著我們要收集這些信息需要花費(fèi)的時(shí)間就越多,如“一帶一路”有來自各國政界、學(xué)界、商界、媒體的聲音,也有來自民間公眾的評(píng)價(jià),而這些信息分布在國內(nèi)外各大主流網(wǎng)站、論壇、博客、貼吧、微信,等等,要進(jìn)行這些信息的收集需要發(fā)大量的人力物力,同時(shí)信息完整度和時(shí)間得不到保證。

      (2)獲取大量相關(guān)信息后無法進(jìn)行處理和判斷

      大量的各類信息收集完成后,需要根據(jù)需求進(jìn)行信息處理,去除垃圾信息,并作出相應(yīng)判斷。面對(duì)這類重復(fù)性多且任務(wù)煩重的工作,少量人力短時(shí)間內(nèi)無法完成,同時(shí)得出來的數(shù)據(jù)偏向于個(gè)人情感。

      (3)各信息間難以歸類分析

      要準(zhǔn)確掌握資訊最新動(dòng)向,需要結(jié)合前期資訊作出歸類分析,結(jié)合經(jīng)驗(yàn)得出事件趨向,達(dá)到先知先斷的效果。而要做到信息歸類分析,需要作很多相應(yīng)工作,同樣費(fèi)時(shí)費(fèi)力。若這些工作不能按時(shí)完成,歸類出來的結(jié)果也失去了意義。

      2.2 機(jī)遇

      習(xí)近平總書記指出,互聯(lián)網(wǎng)是我們這個(gè)時(shí)代最具發(fā)展活力的領(lǐng)域?;ヂ?lián)網(wǎng)快速發(fā)展,給人類生產(chǎn)生活帶來深刻變化,也給人類社會(huì)帶來一系列新機(jī)遇新挑戰(zhàn)。新大型數(shù)據(jù)新聞節(jié)目——《數(shù)說命運(yùn)共同體》,節(jié)目挖掘超過1 億GB 的數(shù)據(jù),分析發(fā)現(xiàn)“一帶一路”沿線國家40 多億百姓休戚相關(guān)的密切聯(lián)系。讓沉默的數(shù)據(jù)說話,它們呈現(xiàn)出來的,是“一帶一路”國家間前所未見的聯(lián)系圖景。

      2017 年8 月24 日,中國電子信息產(chǎn)業(yè)發(fā)展研究院在工業(yè)和信息化部信軟司指導(dǎo)下發(fā)布了《中國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展水平評(píng)估報(bào)告(2017 年)》(以下簡稱《評(píng)估報(bào)告》)。作為《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020 年)》頒布后的第一個(gè)年度大數(shù)據(jù)產(chǎn)業(yè)評(píng)估報(bào)告,為我國大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展和相關(guān)產(chǎn)業(yè)管理工作提供了有力支撐。

      2.3 需求分析

      隨著互聯(lián)網(wǎng)的發(fā)展大數(shù)據(jù)不斷地向社會(huì)各行各業(yè)滲透,為每一個(gè)領(lǐng)域帶來變革性影響,并且正在成為各行業(yè)創(chuàng)新的原動(dòng)力和助推器?;ヂ?lián)網(wǎng)社交互動(dòng)技術(shù)的不斷發(fā)展創(chuàng)新,人們?cè)絹碓搅?xí)慣于通過微博、微信、博客、論壇等社交平臺(tái)去分享各種信息數(shù)據(jù)、表達(dá)訴求、建言獻(xiàn)策,每天傳播于這些平臺(tái)上的數(shù)據(jù)量高達(dá)幾百億甚至上千億條,這些數(shù)量巨大的社交數(shù)據(jù)構(gòu)成了大數(shù)據(jù)的一個(gè)重要部分,這些數(shù)據(jù)對(duì)于政府收集民意動(dòng)態(tài)、企業(yè)了解產(chǎn)品口碑、公司開發(fā)市場(chǎng)需求等發(fā)揮重要作用。

      輿情資訊信息涵蓋的內(nèi)容很多,對(duì)這些內(nèi)容分析需要一個(gè)專門的分析平臺(tái)做處理,以減輕人員工作量及數(shù)據(jù)準(zhǔn)確度,以極度的時(shí)間分析掌握各事件動(dòng)態(tài),及發(fā)展趨勢(shì)為進(jìn)一步推理提供數(shù)據(jù)基礎(chǔ)。

      需要一個(gè)分析平臺(tái)去把事件歸類,以應(yīng)對(duì)不同的分析場(chǎng)景,如政策、經(jīng)濟(jì)、旅游、文化等為類分析,讓結(jié)果更有針對(duì)性,方便針對(duì)性的解析問題。

      通過平臺(tái)實(shí)現(xiàn)對(duì)世界各國和地區(qū)宏觀經(jīng)濟(jì)、投融資環(huán)境、項(xiàng)目需求、項(xiàng)目進(jìn)展、風(fēng)險(xiǎn)評(píng)估等信息采集、解析和數(shù)據(jù)挖掘,直觀顯示信息變化。

      3 總體流程

      圖1 展示了平臺(tái)基本建設(shè)流程。

      圖1 平臺(tái)基本建設(shè)流程

      信息采集、解析與轉(zhuǎn)換:進(jìn)行網(wǎng)絡(luò)爬蟲,并解析網(wǎng)頁得到所需信息,通過語言轉(zhuǎn)換過程將解析后數(shù)據(jù)統(tǒng)一翻譯為中文,并存儲(chǔ)至業(yè)務(wù)庫;

      數(shù)據(jù)預(yù)處理:針對(duì)每一個(gè)文章記錄,進(jìn)行分詞、詞性標(biāo)識(shí)、實(shí)體識(shí)別等預(yù)處理過程,為后續(xù)的數(shù)據(jù)挖掘建模提供基礎(chǔ);

      挖掘建模:針對(duì)不同的應(yīng)用場(chǎng)景,建立不同的模型,如文章分析、事件識(shí)別、事件分析、網(wǎng)民分析、輿情監(jiān)控預(yù)警等;

      應(yīng)用:將模型預(yù)測(cè)的結(jié)果進(jìn)行展示,為最終用戶提供可視化,包括事件統(tǒng)計(jì)、熱點(diǎn)分析、觀點(diǎn)分析、情感分析、監(jiān)測(cè)預(yù)警。

      4 總體建設(shè)規(guī)劃

      輿情大數(shù)據(jù)分析平臺(tái)的建設(shè)規(guī)劃是基于一網(wǎng)、二化、三庫、五應(yīng)用四個(gè)方面展開的。

      (1)一網(wǎng)

      即我們的輿情大數(shù)據(jù)分析平臺(tái),利用數(shù)據(jù)采集、云計(jì)算、數(shù)據(jù)挖掘等技術(shù),構(gòu)造的一個(gè)應(yīng)用平臺(tái),它通過一個(gè)入口,用戶通過瀏覽器即可訪問有權(quán)限的數(shù)據(jù)及分析結(jié)果。

      (2)二化

      即標(biāo)準(zhǔn)化和可控化。標(biāo)準(zhǔn)化即數(shù)據(jù)格式要標(biāo)準(zhǔn)化、處理流程標(biāo)準(zhǔn)化、分析過程標(biāo)準(zhǔn)化??煽鼗雌脚_(tái)將采集的數(shù)據(jù)從不同維度、不同密度進(jìn)行分析,預(yù)測(cè)并發(fā)現(xiàn)熱點(diǎn)事件與負(fù)面輿情,對(duì)公共政策提供基于大數(shù)據(jù)的評(píng)估和建議。

      (3)三庫

      三庫即業(yè)務(wù)數(shù)據(jù)庫、媒體事件庫、主題分析庫。業(yè)務(wù)數(shù)據(jù)庫即從不同的網(wǎng)頁爬取“一帶一路”相關(guān)網(wǎng)頁信息,并通過排重、解析、翻譯等一系列過程將結(jié)果數(shù)據(jù)匯集而已。媒體事件庫即將業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理后,分解聚合為網(wǎng)民、評(píng)論數(shù)據(jù)、媒體事件等可供分析的數(shù)據(jù)庫。主題分析庫即將媒體事件庫數(shù)據(jù)從不同維度、不同密度進(jìn)行分析挖掘形成的數(shù)據(jù)庫。通過建立關(guān)聯(lián)耦合的數(shù)據(jù)庫,因虛而實(shí),形成持續(xù)數(shù)據(jù),實(shí)現(xiàn)超融合、超預(yù)期的工作支撐。

      (4)五應(yīng)用

      應(yīng)用即為展示給最終用戶的分析結(jié)果。包括事件統(tǒng)計(jì)、熱點(diǎn)分析、觀點(diǎn)分析、情感分析、監(jiān)測(cè)預(yù)警。

      5 項(xiàng)目部署網(wǎng)絡(luò)拓?fù)鋱D

      圖2 平臺(tái)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)

      6 總體應(yīng)用架構(gòu)

      輿情大數(shù)據(jù)分析平臺(tái)在充分考慮業(yè)務(wù)的平穩(wěn)運(yùn)行、滿足性能要求的前提下,從數(shù)據(jù)采集、支撐框架、大數(shù)據(jù)中心和綜合應(yīng)用等方面提供可行的應(yīng)用方案,其應(yīng)用架構(gòu)如圖3 所示。

      圖3 平臺(tái)應(yīng)用架構(gòu)

      (1)數(shù)據(jù)采集層

      整個(gè)平臺(tái)通過數(shù)據(jù)采集層實(shí)現(xiàn)從不同網(wǎng)頁、不同終端數(shù)據(jù)的抓取及匯聚,形成集中統(tǒng)一的數(shù)據(jù)資源。這些數(shù)據(jù)資源是整個(gè)平臺(tái)所有功能模塊運(yùn)行的核心基礎(chǔ),因此數(shù)據(jù)采集層也是整個(gè)平臺(tái)架構(gòu)中的基礎(chǔ)。輿情大數(shù)據(jù)分析平臺(tái)通過數(shù)據(jù)采集層和不同系統(tǒng)進(jìn)行對(duì)接,獲取上層數(shù)據(jù)處理應(yīng)用所需的各種數(shù)據(jù),如媒體報(bào)道、網(wǎng)友評(píng)論、貼文等;也能夠支持不同數(shù)據(jù)類型的獲取,如各種主流數(shù)據(jù)庫、非結(jié)構(gòu)化數(shù)據(jù)文件(如網(wǎng)頁數(shù)據(jù)等等)。

      (2)數(shù)據(jù)處理層

      在數(shù)據(jù)匯聚到融合平臺(tái)上以后,通過數(shù)據(jù)處理層實(shí)現(xiàn)對(duì)平臺(tái)數(shù)據(jù)的底層處理工作,為上層功能模塊提供有力的工具保障??梢哉f,數(shù)據(jù)處理層是整個(gè)大數(shù)據(jù)平臺(tái)的核心所在。應(yīng)該將完成業(yè)務(wù)信息庫、媒體數(shù)據(jù)庫和主題數(shù)據(jù)庫的整理,完成數(shù)據(jù)中心、綜合應(yīng)用中心、分析挖掘平臺(tái)所支撐的計(jì)算及分析處理。通過這層數(shù)據(jù)處理實(shí)現(xiàn)數(shù)據(jù)在整個(gè)生命周期內(nèi)的所有管理功能,并提供了完善的數(shù)據(jù)模型和開發(fā)接口,為上層應(yīng)用系統(tǒng)的功能模塊封裝了必要的、完善的實(shí)現(xiàn)手段。

      (3)數(shù)據(jù)應(yīng)用層

      數(shù)據(jù)應(yīng)用層是根據(jù)輿情大數(shù)據(jù)分析平臺(tái)的具體項(xiàng)目需求設(shè)計(jì)的具體功能模塊和展現(xiàn)效果,利用數(shù)據(jù)處理層提供的資源和接口,對(duì)數(shù)據(jù)采集層匯聚過來的數(shù)據(jù),按照不同的業(yè)務(wù)邏輯進(jìn)行處理和展示,是整個(gè)數(shù)據(jù)綜合平臺(tái)的核心價(jià)值所在。本項(xiàng)目的目標(biāo)在于利用大數(shù)據(jù)的手段,通過對(duì)多源數(shù)據(jù)的融合和在分析平臺(tái)上進(jìn)行配置及定制化開發(fā)。為更好的實(shí)現(xiàn)這一目標(biāo),在分析平臺(tái)上利用融合匯聚的各系統(tǒng)數(shù)據(jù),重新定義了新的業(yè)務(wù)系統(tǒng)。區(qū)別于傳統(tǒng)應(yīng)用系統(tǒng)各自獨(dú)立的設(shè)計(jì)方式,在綜合平臺(tái)中,我們將業(yè)務(wù)系統(tǒng)的上層展現(xiàn)與底層的功能模塊進(jìn)行分離,通過對(duì)不同應(yīng)用子系統(tǒng)業(yè)務(wù)邏輯的深度分析和挖掘,開發(fā)出不同類型的功能子模塊,便于各個(gè)業(yè)務(wù)系統(tǒng)根據(jù)需要選擇接入點(diǎn),應(yīng)用之間通過服務(wù)總線進(jìn)行有效交互,以適應(yīng)未來業(yè)務(wù)發(fā)展的需求,實(shí)現(xiàn)信息、資源的共享和重用,提供數(shù)據(jù)共享及服務(wù)共享能力。

      7 系統(tǒng)技術(shù)架構(gòu)

      輿情大數(shù)據(jù)分析平臺(tái)主要從軟件層面提供平臺(tái)級(jí)的應(yīng)用支撐能力,基于最底層的Linux 集群基礎(chǔ)設(shè)施,提供PaaS 層的平臺(tái)服務(wù),在其之上提供SaaS 層應(yīng)用。

      在PaaS 層提供數(shù)據(jù)采集服務(wù)、分布式文件存儲(chǔ)服務(wù)、分布式數(shù)據(jù)庫服務(wù)、數(shù)據(jù)搜索服務(wù)、分布式離線計(jì)算服務(wù)、實(shí)時(shí)計(jì)算服務(wù)、數(shù)據(jù)挖掘服務(wù)、分布式消息隊(duì)列服務(wù)、分布式協(xié)調(diào)服務(wù)、開放式監(jiān)控服務(wù)以及集群管理。

      在DaaS 層構(gòu)建數(shù)據(jù)庫群,包括業(yè)務(wù)數(shù)據(jù)庫、媒體事件庫、主題數(shù)據(jù)庫。

      在SaaS 層提供應(yīng)用級(jí)別的服務(wù):情感分析、觀點(diǎn)分析、熱點(diǎn)分析、監(jiān)測(cè)預(yù)警和事件統(tǒng)計(jì)。平臺(tái)技術(shù)架構(gòu)如圖4 所示。

      圖4 平臺(tái)技術(shù)架構(gòu)

      8 結(jié)語

      本文對(duì)輿情數(shù)據(jù)中心的基本建設(shè)流程、部署網(wǎng)絡(luò)拓?fù)鋱D、總體應(yīng)用架構(gòu)和系統(tǒng)技術(shù)架構(gòu)進(jìn)行分析與設(shè)計(jì),能對(duì)大量的輿情資訊信息進(jìn)行科學(xué)有效處理,以減輕人員工作量及數(shù)據(jù)準(zhǔn)確度,以極短的時(shí)間分析掌握各事件動(dòng)態(tài),及發(fā)展趨勢(shì)為進(jìn)一步推理提供數(shù)據(jù)基礎(chǔ)。

      通過對(duì)分析與設(shè)計(jì)平臺(tái)把事件歸類,以應(yīng)對(duì)不同的分析場(chǎng)景,如政策、經(jīng)濟(jì)、旅游、文化等歸類分析,讓結(jié)果更有針對(duì)性,方便針對(duì)性地解析問題,能對(duì)信息采集、解析和數(shù)據(jù)挖掘,直觀顯示信息變化。

      猜你喜歡
      輿情架構(gòu)數(shù)據(jù)庫
      基于FPGA的RNN硬件加速架構(gòu)
      功能架構(gòu)在電子電氣架構(gòu)開發(fā)中的應(yīng)用和實(shí)踐
      汽車工程(2021年12期)2021-03-08 02:34:30
      LSN DCI EVPN VxLAN組網(wǎng)架構(gòu)研究及實(shí)現(xiàn)
      數(shù)據(jù)庫
      輿情
      中國民政(2016年16期)2016-09-19 02:16:48
      輿情
      中國民政(2016年10期)2016-06-05 09:04:16
      數(shù)據(jù)庫
      數(shù)據(jù)庫
      數(shù)據(jù)庫
      輿情
      中國民政(2016年24期)2016-02-11 03:34:38
      霍山县| 邵东县| 赤壁市| 鹤岗市| 鄯善县| 贡觉县| 景洪市| 濉溪县| 雅安市| 汝南县| 临泉县| 梅河口市| 巴马| 仙桃市| 吉林省| 竹北市| 汉源县| 高安市| 长沙县| 黄冈市| 绥芬河市| 赣州市| 梧州市| 神农架林区| 虎林市| 于田县| 花莲市| 邵东县| 富阳市| 祥云县| 榆树市| 类乌齐县| 县级市| 万源市| 通化市| 汪清县| 陵水| 五莲县| 油尖旺区| 灌云县| 荥经县|