• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      網(wǎng)絡(luò)輿情系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

      2020-09-02 12:39:48殷美桂
      現(xiàn)代計(jì)算機(jī) 2020年21期
      關(guān)鍵詞:孟晚舟輿情網(wǎng)民

      殷美桂

      (河源職業(yè)技術(shù)學(xué)院,河源517000)

      0 引言

      中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布第45 次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,報(bào)告顯示,截止2020年3 月,我國(guó)網(wǎng)民規(guī)模突破9 億[1]。當(dāng)前,網(wǎng)絡(luò)的即興性、互動(dòng)性使網(wǎng)民有更多機(jī)會(huì)表達(dá)觀點(diǎn)和意見(jiàn),網(wǎng)絡(luò)成為一個(gè)民意的輿論場(chǎng)。目前,網(wǎng)絡(luò)輿情信息的載體呈現(xiàn)多樣性、數(shù)據(jù)量大等特征。網(wǎng)民規(guī)模及網(wǎng)絡(luò)平臺(tái)的快速增長(zhǎng)使網(wǎng)絡(luò)輿情傳播走向大眾化、網(wǎng)狀化和無(wú)序化。面對(duì)海量的網(wǎng)絡(luò)輿情信息,網(wǎng)絡(luò)輿情分析和監(jiān)控系統(tǒng)代替人工操作,幫助相關(guān)部門(mén)和機(jī)構(gòu)及時(shí)了解網(wǎng)絡(luò)輿情動(dòng)態(tài),發(fā)現(xiàn)網(wǎng)絡(luò)上熱點(diǎn)敏感問(wèn)題,并通過(guò)對(duì)持續(xù)發(fā)酵的負(fù)面輿情信息進(jìn)行預(yù)警,從而能應(yīng)對(duì)并及時(shí)糾正網(wǎng)絡(luò)上與自己有關(guān)的負(fù)面輿論影響。系統(tǒng)為相關(guān)部門(mén)進(jìn)行網(wǎng)絡(luò)危機(jī)公關(guān)或品牌形象營(yíng)銷(xiāo)提供可靠的技術(shù)支撐。

      網(wǎng)絡(luò)輿情系統(tǒng)主要是采用搜索引擎爬取數(shù)據(jù),通過(guò)對(duì)數(shù)據(jù)預(yù)處理后,運(yùn)用智能聚類(lèi)分類(lèi)、主題檢測(cè)、專(zhuān)題聚集和統(tǒng)計(jì)分析等技術(shù)實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)輿情的監(jiān)控,最終形成輿情簡(jiǎn)報(bào)、輿情專(zhuān)題、分析報(bào)告等統(tǒng)計(jì)分析結(jié)果。目前有關(guān)網(wǎng)絡(luò)輿情系統(tǒng)的研究,國(guó)內(nèi)和國(guó)內(nèi)都積累大量的研究成果。國(guó)外的輿論分析技術(shù)最早可追溯到美國(guó)TDT 項(xiàng)目中的TDT 技術(shù)(話題檢測(cè)追溯技術(shù)),TDT 技術(shù)關(guān)注一個(gè)個(gè)具體事件,可以對(duì)輿情信息進(jìn)行識(shí)別、歸類(lèi)、專(zhuān)題持續(xù)追蹤[2]。國(guó)內(nèi)的網(wǎng)絡(luò)輿情系統(tǒng)主要有“軍犬”網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)、方正智思互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)、邦富互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)、紅麥輿情監(jiān)測(cè)系統(tǒng)和谷尼互聯(lián)網(wǎng)輿網(wǎng)絡(luò)輿情系統(tǒng)情監(jiān)控系統(tǒng),另外新浪的輿情通提供熱度排行、輿情事件分析等符合客戶需求的定制報(bào)告。

      目前,為了實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)輿情的監(jiān)控,網(wǎng)絡(luò)輿情系統(tǒng)需求變大,這推動(dòng)輿情系統(tǒng)及輿情分析技術(shù)進(jìn)入成熟期,但是,并不是所有輿情系統(tǒng)都能滿足用戶需求,通用的輿情監(jiān)控模板、模式靈活性差,其中的輿情監(jiān)控范圍、功能模塊、系統(tǒng)架構(gòu)、統(tǒng)計(jì)分析結(jié)果等模塊不能定制造成輿情分析結(jié)果針對(duì)性不強(qiáng),用戶體驗(yàn)性差。新浪微博定位于社交媒體,據(jù)統(tǒng)計(jì)至2019 年3 月底微博的活躍用戶已達(dá)4.65 億。微博創(chuàng)新用戶互動(dòng)模式,在實(shí)時(shí)熱點(diǎn)問(wèn)題討論上擴(kuò)大其社會(huì)媒體的優(yōu)勢(shì)[3]。基于新浪微博構(gòu)建網(wǎng)絡(luò)輿情系統(tǒng),系統(tǒng)對(duì)熱點(diǎn)事件進(jìn)行輿情分析,運(yùn)用數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)探索網(wǎng)民對(duì)事件的關(guān)注度及情感趨勢(shì)。研究以微博熱議話題“孟晚舟未能獲釋”為例,此事件發(fā)生于北京時(shí)間28 日凌晨,加拿大法院公布孟晚舟引渡案的判決結(jié)果,孟晚舟未能獲釋。

      1 系統(tǒng)的設(shè)計(jì)

      網(wǎng)絡(luò)輿情分析系統(tǒng)在依托已有的技術(shù)和系統(tǒng),對(duì)其進(jìn)行整合和利用,設(shè)計(jì)系統(tǒng)架構(gòu)。系統(tǒng)的總體架構(gòu)主要分為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、輿情分析和挖掘、結(jié)果展示和統(tǒng)計(jì)分析報(bào)告模塊,如圖1 所示。

      圖1 系統(tǒng)的總體架構(gòu)圖

      數(shù)據(jù)采集主要是爬取網(wǎng)頁(yè)、微博、搜索引擎、論壇等互聯(lián)網(wǎng)上的文本數(shù)據(jù)為主。數(shù)據(jù)爬蟲(chóng)可選擇專(zhuān)門(mén)的網(wǎng)絡(luò)爬蟲(chóng)工具,也可以編程自定義開(kāi)發(fā)。

      數(shù)據(jù)是數(shù)據(jù)分析和數(shù)據(jù)挖掘的重要原料,機(jī)器爬取的原始數(shù)據(jù)不能直接使用,在進(jìn)行數(shù)據(jù)分析之前需對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗,數(shù)據(jù)轉(zhuǎn)換,數(shù)據(jù)描述、特征選擇、特征抽取。數(shù)據(jù)清洗主要對(duì)一些重復(fù)數(shù)據(jù)和缺失數(shù)據(jù)處理,數(shù)據(jù)轉(zhuǎn)換一般對(duì)數(shù)據(jù)類(lèi)型進(jìn)行轉(zhuǎn)換處理。

      輿情信息分析和挖掘包括對(duì)輿情信息依事件分類(lèi)[4]或者聚類(lèi)分析,對(duì)輿情文本的關(guān)鍵字進(jìn)行提取以獲取信息摘要,對(duì)輿情進(jìn)行文本的情感分析。

      結(jié)果展示和統(tǒng)計(jì)分析展示輿情信息分析結(jié)果,包含依事件分類(lèi)形成的輿情專(zhuān)題、信息摘要、文本情感分析結(jié)果展示。為了直觀展示統(tǒng)計(jì)分析的結(jié)果,系統(tǒng)生成數(shù)據(jù)統(tǒng)計(jì)分析圖。

      2 系統(tǒng)實(shí)現(xiàn)

      2.1 數(shù)據(jù)獲取

      為了加快信息采集的速度和準(zhǔn)確度,系統(tǒng)采用分布式爬蟲(chóng)系統(tǒng)架構(gòu)模式,使用目前比較成熟的框架Scrapy-Redis,基于Python 語(yǔ)言的Scrapy 爬蟲(chóng)框架,通過(guò)建立一個(gè)請(qǐng)求URL 的Redis 隊(duì)列來(lái)實(shí)現(xiàn)分布式爬蟲(chóng)[5]。Scrapy-Redis 框架是主從式(Master-Slaver)模式,在Master 端控制和管理調(diào)度器,調(diào)度器將Spiders 生成的URL 請(qǐng)求發(fā)送給Redis 隊(duì)列,Slaver 在Scheduler 控制下從隊(duì)列中(URL 列表)獲取爬取任務(wù)或者將請(qǐng)求發(fā)送給隊(duì)列[6]。從而實(shí)現(xiàn)多臺(tái)主機(jī)共享隊(duì)列,各臺(tái)主機(jī)的Scheduler 統(tǒng)一服從Master 主機(jī)的統(tǒng)一管理。為了維護(hù)一個(gè)不重復(fù)的URL 列表,Scrapy-Redis 分布式框架還提供去重的組件。系統(tǒng)為了獲取指定的數(shù)據(jù),通過(guò)提交關(guān)鍵詞的形式縮小數(shù)據(jù)采集范圍,過(guò)濾掉與我無(wú)關(guān)的數(shù)據(jù)。系統(tǒng)以“孟晚舟未能獲釋”作為關(guān)鍵詞進(jìn)行搜索,因微博有反爬限制,分時(shí)間段爬取2020 年5 月28 日至2020 年6 月1 日之間微博正文及評(píng)論數(shù)據(jù)共6 萬(wàn)條數(shù)據(jù)。

      2.2 數(shù)據(jù)預(yù)處理

      系統(tǒng)對(duì)獲取輿情的正文、評(píng)論文本等文本采用自然語(yǔ)言處理(NLP)工具進(jìn)行處理,常用的分詞處理模塊有pynlpir、jieba 等。系統(tǒng)采用jieba 分詞對(duì)文本進(jìn)行分詞,因jieba 內(nèi)置的詞典有一定的局域性,系統(tǒng)導(dǎo)入用戶自定義詞典提高分詞的準(zhǔn)確性。分詞后的還需對(duì)文本執(zhí)行去除停用詞的操作,為了后續(xù)對(duì)文本進(jìn)行分類(lèi)或者聚類(lèi)分析,運(yùn)用TF-IDF 進(jìn)行文本預(yù)處理,獲取文本的詞特征向量后進(jìn)行文本分類(lèi)或聚類(lèi)分析。系統(tǒng)的文本預(yù)處理流程如圖2 所示。

      圖2 文本預(yù)處理流程

      2.3 輿情分析和挖掘

      輿情分析和挖掘系統(tǒng)主要功能包括自動(dòng)摘要,輿情專(zhuān)題,情感分析。系統(tǒng)基于TF-IDF 對(duì)文本進(jìn)行權(quán)重計(jì)算之后,可提取關(guān)鍵詞。通過(guò)文檔中已存在的關(guān)鍵詞進(jìn)行分析,從而生成文章的自動(dòng)摘要,自動(dòng)摘要讓管理者迅速了解決正在發(fā)生的事件。

      系統(tǒng)依事件建立輿情專(zhuān)題,系統(tǒng)應(yīng)用文本聚類(lèi)技術(shù)將相似的文章進(jìn)行歸類(lèi),從而挖掘出不同類(lèi)的話題。文本聚類(lèi)常用的算法是K-means 算法,但Kmeans 算法不能有效地處理高維空間的文本聚類(lèi),因高維空間簇與簇之間的距離太小無(wú)法直接聚類(lèi)。系統(tǒng)在運(yùn)用K-means 聚類(lèi)分析之前,運(yùn)用PCA 對(duì)TF-IDF 構(gòu)建的詞向量矩陣進(jìn)行降維,PCA 稱(chēng)為主成分分析,算法的核心是通過(guò)某種線性投影,將高維的數(shù)據(jù)映射到低維的空間,并保留較多的原數(shù)據(jù)點(diǎn)的特征。

      輿情情感分析主要使用SnowNLP 類(lèi)庫(kù)處理中文文本內(nèi)容,以獲取文本的正向或負(fù)向評(píng)價(jià)。因SnowNLP 類(lèi)庫(kù)已經(jīng)訓(xùn)練好的模型主要是基于電商的商品評(píng)論數(shù)據(jù),在使用過(guò)程中,需要收集如新聞評(píng)論的正負(fù)樣本重新訓(xùn)練新的模型,SnowNLP 類(lèi)庫(kù)主要使用樸素貝葉斯原理對(duì)模型進(jìn)行訓(xùn)練,保存訓(xùn)練后的模型后即可以運(yùn)用新模型對(duì)數(shù)據(jù)進(jìn)行情感正負(fù)的預(yù)測(cè)。

      2.4 結(jié)果展示

      本次研究基于新浪微博熱議話題“孟晚舟未能獲釋”進(jìn)行分析,話題閱讀量達(dá)12.4 億,共計(jì)討論數(shù)11.6 萬(wàn)。

      (1)詞頻分析

      為了了解此次事件網(wǎng)民討論的熱點(diǎn)問(wèn)題,只選取發(fā)布的微博正文進(jìn)行分析,對(duì)內(nèi)容進(jìn)行預(yù)處理后用matplotlib 繪制詞云圖獲取詞頻統(tǒng)計(jì)的結(jié)果,詞云圖的字體大小是由詞頻決定的,詞頻越高字體越大,如圖3所示。首先從詞云圖看出,此事件牽涉美國(guó)、加拿大、中國(guó)三國(guó)之間的政治事件,加拿大最高法院判決:美國(guó)針對(duì)孟晚舟的引渡請(qǐng)求符合雙重犯罪的原則。其次,從圖上可以清晰看出“欲加之罪”、“幫兇”、“扮演”、“打壓”、“釋放”等詞匯,這表明中國(guó)對(duì)此次裁決強(qiáng)烈不滿,認(rèn)為這是“欲加之罪”,加拿大扮演了美國(guó)的“幫兇”角色,幫助美國(guó)打壓中國(guó)的高科技企業(yè),中國(guó)敦促加拿大釋放孟晚舟女士。最后,詞云圖中出現(xiàn)“愛(ài)國(guó)”、“強(qiáng)大”、“加油”、“科技”、“當(dāng)自強(qiáng)”等詞匯,這次事件激起網(wǎng)民強(qiáng)烈的愛(ài)國(guó)主義情懷,面對(duì)美國(guó)對(duì)中國(guó)科技公司的制裁,中國(guó)應(yīng)加油,中國(guó)應(yīng)當(dāng)自強(qiáng)。從“孟晚舟未能獲釋”事件的輿情分析中,可以看出新聞媒體及網(wǎng)民弘揚(yáng)了愛(ài)國(guó)主義情懷,釋放了中國(guó)當(dāng)自強(qiáng)等正能量。

      圖3 熱議話題“孟晚舟未能獲釋”的詞云圖

      (2)熱度分析

      “孟晚舟未能獲釋”是孟晚舟引渡案的判決結(jié)果,事件的第一條博文是央視新聞發(fā)布于5 月28 日凌晨2:03 分,隨后其他新聞媒體及微博用戶陸續(xù)發(fā)表博文。通過(guò)關(guān)鍵詞搜索,以獲取的博文作為樣本進(jìn)行分析,制作每日發(fā)文數(shù)量所占總量百分比,如圖4 所示。根據(jù)統(tǒng)計(jì)分析,發(fā)文數(shù)量在事件發(fā)生日最多,占發(fā)文總量的一半。這表明熱點(diǎn)話題在事件爆發(fā)日具有發(fā)文數(shù)量大,增長(zhǎng)速度快的特點(diǎn)[]。第二天發(fā)文數(shù)量減少17%,第三天開(kāi)始發(fā)文數(shù)量比前一天減少一半以上,到第四、五天發(fā)文數(shù)量已經(jīng)很少,事件熱度已經(jīng)衰退,輿情發(fā)展經(jīng)歷萌芽、爆發(fā)、衰退期。

      圖4 博文數(shù)量日均熱度

      (3)情感分析

      央視新聞發(fā)布第一條“孟晚舟未能獲釋”的博文正值凌晨2:03,隨后網(wǎng)民展開(kāi)激勵(lì)的討論,短短十分鐘評(píng)論數(shù)量達(dá)到幾十條,截止6 月1 日,博文轉(zhuǎn)發(fā)量約2.9萬(wàn),網(wǎng)民評(píng)論總數(shù)約5.6 萬(wàn)。為了了解輿情民意,采用此條博文的評(píng)論進(jìn)行情感分析。根據(jù)篩選規(guī)則選取熱門(mén)短評(píng)5 條,這些短評(píng)點(diǎn)贊過(guò)萬(wàn),因此可以認(rèn)為這些評(píng)論獲得網(wǎng)民的共鳴,并獲得更多的附和及支持,其表達(dá)的情感強(qiáng)烈。運(yùn)用SnowNLP 對(duì)熱門(mén)評(píng)論進(jìn)行情感分析,如表1 所示。SnowNLP 分析的結(jié)果介于0-1 之間,數(shù)值越大,情感越趨于正向,數(shù)量越小,情感越趨于負(fù)向。表1 顯示,對(duì)“孟晚舟未能獲釋”的判決結(jié)果網(wǎng)民情感呈兩極分化,情感主要分為兩類(lèi)。

      (1)負(fù)面情感主要是難過(guò)和強(qiáng)烈的譴責(zé)。面對(duì)孟晚舟未能獲釋?zhuān)W(wǎng)民首先展示同情心,表達(dá)心情很難過(guò),但在難過(guò)之后對(duì)加拿大和美國(guó)的行為進(jìn)行譴責(zé),認(rèn)為美國(guó)借著披著法律外衣的政治手段,打壓中國(guó)企業(yè),這是無(wú)恥行徑。

      (2)正面情感主要是自強(qiáng)、立場(chǎng)不動(dòng)搖和希望?!懊贤碇畚茨塬@釋”原本只是關(guān)乎個(gè)人自由的判決,因牽涉中美戰(zhàn)略競(jìng)爭(zhēng)背景,使個(gè)人的命運(yùn)與國(guó)家聯(lián)系在一起。從28 日央視新聞發(fā)布的第一條“孟晚舟未能獲釋”博文下的評(píng)論看出,絕大部分網(wǎng)民覺(jué)得此次事件給我們敲響警鐘,記住今夜所發(fā)生的,不要再對(duì)西方和美國(guó)抱有幻想,吾輩當(dāng)自強(qiáng),發(fā)展高科技。29 日央視新聞接連發(fā)布兩條博文,其中一條博文引用外交部發(fā)言人趙立堅(jiān)在記者會(huì)上的表態(tài),中方對(duì)此強(qiáng)烈不滿和堅(jiān)決反對(duì),美方借此打壓中國(guó)高科技企業(yè),這是嚴(yán)重的政治事件。外交部發(fā)言人表明中國(guó)立場(chǎng)之后,此條博文被轉(zhuǎn)發(fā)3800 多次,評(píng)論9000 多次。由此又掀起一個(gè)發(fā)文小高峰,網(wǎng)民評(píng)論稱(chēng)將與祖國(guó)統(tǒng)一立場(chǎng),堅(jiān)持不動(dòng)搖,從而獲贊上萬(wàn),這說(shuō)明外交部表態(tài)后喚起網(wǎng)民強(qiáng)烈的愛(ài)國(guó)主義熱情。由此可看出官方媒體引導(dǎo)輿論走向,激起網(wǎng)民強(qiáng)烈的愛(ài)國(guó)主義情懷。最后網(wǎng)民也發(fā)出希望之聲表達(dá)個(gè)人愿景,希望晚舟能無(wú)罪釋放,希望世界多點(diǎn)正義和平。

      表1 短評(píng)情感指數(shù)表

      3 結(jié)語(yǔ)

      本研究設(shè)計(jì)網(wǎng)絡(luò)輿情系統(tǒng)的架構(gòu),系統(tǒng)架構(gòu)共分為數(shù)據(jù)采集等四層,采用Python 語(yǔ)言對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行處理,利用SnowNLP 類(lèi)庫(kù)進(jìn)行文本情感分析。以“孟晚舟未能獲釋”事件為例,可視化地展示事件討論的主題、博文日均熱度和網(wǎng)民的情感指數(shù)。系統(tǒng)的應(yīng)用揭示幾個(gè)問(wèn)題:

      (1)通過(guò)詞云圖分析可知,網(wǎng)民對(duì)“孟晚舟未能獲釋”事件,認(rèn)為加拿大扮演的美國(guó)的幫兇。另外,網(wǎng)民表達(dá)中國(guó)應(yīng)大力發(fā)展,中國(guó)要加油。

      (2)網(wǎng)民對(duì)此次事件極為關(guān)注。網(wǎng)絡(luò)輿情出現(xiàn)快速爆發(fā)期,央視新聞媒體接連兩天發(fā)聲將討論推上高峰,引導(dǎo)輿論朝向積極方向,激發(fā)網(wǎng)民愛(ài)國(guó)主義熱情。

      (3)網(wǎng)民情感呈現(xiàn)兩極分化,負(fù)向的情感主要對(duì)此次裁決表達(dá)不滿和難過(guò),而大多數(shù)網(wǎng)民釋放出正能量,將與祖國(guó)統(tǒng)一立場(chǎng)不動(dòng)搖。

      猜你喜歡
      孟晚舟輿情網(wǎng)民
      孟晚舟和劉曉棕:遇見(jiàn)愛(ài)情
      華聲文萃(2022年6期)2022-07-05 22:53:37
      孟晚舟和劉曉棕:遇見(jiàn)愛(ài)情
      孟晚舟等待回家
      網(wǎng)民低齡化 “小網(wǎng)蟲(chóng)”的明天誰(shuí)來(lái)守護(hù)
      遵義(2018年20期)2018-10-19 07:15:06
      孟晚舟:從前臺(tái)打雜到華為副總裁
      海峽姐妹(2018年6期)2018-06-26 07:27:15
      有關(guān)公路,網(wǎng)民有話說(shuō)
      輿情
      輿情
      輿情
      微博的輿情控制與言論自由
      武山县| 龙岩市| 夏津县| 泸西县| 辽源市| 中江县| 朝阳县| 密云县| 洱源县| 镇赉县| 海城市| 宜章县| 普洱| 迁安市| 酒泉市| 商丘市| 剑阁县| 思茅市| 赣州市| 奉化市| 瓦房店市| 江西省| 宜黄县| 七台河市| 潼南县| 长顺县| 麦盖提县| 镇原县| 清涧县| 天台县| 安平县| 哈巴河县| 耿马| 陆河县| 尼勒克县| 平果县| 清河县| 溆浦县| 巫溪县| 东兰县| 富裕县|