• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Python的新浪微博輿情監(jiān)控系統(tǒng)設(shè)計(jì)

      2023-02-08 05:11:16張亞娟孫如浩張汝峰等
      關(guān)鍵詞:新浪微博自然語(yǔ)言處理

      張亞娟 孫如浩 張汝峰等

      關(guān)鍵詞:輿情監(jiān)控;新浪微博;爬蟲工具;Scrapy;自然語(yǔ)言處理

      中圖法分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A

      1引言

      目前,網(wǎng)絡(luò)普及率高,網(wǎng)絡(luò)信息傳播速度快,涉及人民群眾切身利益問(wèn)題,會(huì)第一時(shí)間出現(xiàn)在網(wǎng)絡(luò)上,并迅速傳播,形成網(wǎng)絡(luò)輿情。網(wǎng)絡(luò)輿情傳播成放射狀,速度快且不斷迭代,部分人在傳播時(shí)會(huì)根據(jù)自己的態(tài)度、看法和認(rèn)識(shí)進(jìn)行加工,或者在傳播過(guò)程中產(chǎn)生誤傳,在這個(gè)反復(fù)迭代的過(guò)程中,會(huì)導(dǎo)致輿情產(chǎn)生源頭到最后傳送的結(jié)果不一致情況,會(huì)出現(xiàn)誤導(dǎo)大家的情況,因此,輿情監(jiān)控和應(yīng)對(duì)處理尤為重要。網(wǎng)絡(luò)輿情表達(dá)了群眾對(duì)某一事件的想法和態(tài)度,可以理解社會(huì)各個(gè)層面的人們的感情、態(tài)度、見(jiàn)解、意見(jiàn)、行動(dòng)傾向等,對(duì)于相關(guān)管理部門制定相關(guān)應(yīng)對(duì)策略具有重要的意義。實(shí)現(xiàn)輿情監(jiān)控并有效引導(dǎo)輿論走向,對(duì)于社會(huì)良好運(yùn)轉(zhuǎn)有著積極的意義。

      對(duì)于相關(guān)部門來(lái)講,網(wǎng)絡(luò)輿情代表部分網(wǎng)民的看法和態(tài)度,根據(jù)輿情了解人民群眾的所需所想,是施政的重要參考,也是制定相關(guān)政策的重要依據(jù);對(duì)于企業(yè)來(lái)講,及時(shí)發(fā)現(xiàn)企業(yè)品牌相關(guān)網(wǎng)絡(luò)輿情,然后積極應(yīng)對(duì)、化解矛盾,對(duì)于樹立良好的企業(yè)形象和提升品牌價(jià)值具有重要的意義;對(duì)于高校來(lái)講,及時(shí)發(fā)現(xiàn)校園網(wǎng)絡(luò)輿情,關(guān)注學(xué)生思想動(dòng)態(tài),以及學(xué)生的真實(shí)需求,并針對(duì)具體問(wèn)題正確引導(dǎo)學(xué)生輿情走向,是高校開(kāi)展思政工作的重要途徑。

      綜上所述,獲取網(wǎng)絡(luò)輿情對(duì)于社會(huì)良好運(yùn)轉(zhuǎn),打造積極向上的網(wǎng)絡(luò)環(huán)境尤為重要,因此,輿情監(jiān)控具有重要的作用。

      2國(guó)內(nèi)外研究現(xiàn)狀

      輿情監(jiān)控是利用數(shù)據(jù)采集、智能分析等技術(shù),在海量的網(wǎng)絡(luò)信息中自動(dòng)抓取、文本分析、語(yǔ)義分類、自動(dòng)聚類,從而實(shí)現(xiàn)輿情監(jiān)控,得到輿論走向,掌握網(wǎng)民對(duì)于某一事件的態(tài)度。目前,輿情監(jiān)控是研究的熱點(diǎn)問(wèn)題,國(guó)內(nèi)外眾多學(xué)者關(guān)于網(wǎng)絡(luò)輿情監(jiān)控構(gòu)建及輿情應(yīng)對(duì)和處理方面提出了較多方法。

      在輿情監(jiān)控系統(tǒng)構(gòu)建方面,楊浩等提出了自組織網(wǎng)絡(luò)的方法,通過(guò)構(gòu)造控制模型和目標(biāo)函數(shù),實(shí)現(xiàn)了突發(fā)性輿情交互信息監(jiān)控:王越將聚類算法應(yīng)用在了校園網(wǎng)絡(luò)輿情監(jiān)控中,對(duì)獲取的數(shù)據(jù)進(jìn)行相似度計(jì)算,并利用K-means算法提取熱門話題,實(shí)現(xiàn)輿情監(jiān)控與預(yù)警:楊寒冰等提出利用貝葉斯網(wǎng)絡(luò)對(duì)情感傾向進(jìn)行分類,并結(jié)合堆疊降噪自編碼器,構(gòu)造了輿情分析監(jiān)控模型:郝立華針對(duì)高職院校校園輿情管理提出了基于SQL Server數(shù)據(jù)庫(kù)輿情監(jiān)控系統(tǒng),采用SVM算法提取數(shù)據(jù)特征:Hu等提出信息自動(dòng)采集、信息預(yù)處理、輿情數(shù)據(jù)庫(kù)、輿情分析與服務(wù)、輿情可視化與報(bào)告等輿情監(jiān)測(cè)系統(tǒng)的架構(gòu)。

      在輿情應(yīng)對(duì)和處理方面,梁瑛楠等提出了突發(fā)公共事件的相關(guān)部門應(yīng)對(duì)方法,研究了輿情預(yù)警機(jī)制、輿情處理機(jī)制、法律法規(guī)及問(wèn)責(zé)機(jī)制、強(qiáng)化公民認(rèn)識(shí)等問(wèn)題;何劍宇從提升輿情風(fēng)險(xiǎn)預(yù)警、加強(qiáng)監(jiān)測(cè)預(yù)警和強(qiáng)化立法與管理三個(gè)方面,研究了網(wǎng)絡(luò)輿情監(jiān)控工作的風(fēng)險(xiǎn)防范及處理:高亞飛等提出了利用多數(shù)據(jù)源信息實(shí)現(xiàn)基于大數(shù)據(jù)的新媒體輿情優(yōu)化,將多種維度因素有機(jī)結(jié)合,推進(jìn)了新媒體輿情的決策優(yōu)化:莫揚(yáng)海提出了四個(gè)層次的“信息生態(tài)型”輿情知識(shí)服務(wù)運(yùn)行結(jié)構(gòu),分析了輿情知識(shí)服務(wù)與輿情服務(wù)的差異。

      本文以新浪微博為例,利用Scrapy爬蟲獲取數(shù)據(jù),利用百度大腦的自然語(yǔ)言處理接口AipNlp庫(kù)進(jìn)行數(shù)據(jù)分析,從而構(gòu)建輿情監(jiān)控系統(tǒng)。新浪微博是新浪旗下基于用戶關(guān)系的社交媒體平臺(tái),以文字、圖像、視頻等媒體形式,實(shí)現(xiàn)信息的即時(shí)分享和傳播互動(dòng)。截至2021年底,新浪微博的月活躍用戶數(shù)為5.73億,平均日活躍用戶數(shù)為2.49億,是網(wǎng)絡(luò)信息傳播的重要平臺(tái)。

      3系統(tǒng)構(gòu)建

      基于Python的新浪微博輿情監(jiān)控系統(tǒng)架構(gòu)主要分為數(shù)據(jù)采集層、分析層和應(yīng)用層,系統(tǒng)框架圖如圖1所示。數(shù)據(jù)采集層主要是進(jìn)行數(shù)據(jù)采集,在微博上抓取相關(guān)數(shù)據(jù),并進(jìn)行存儲(chǔ)。分析層主要是對(duì)采集的數(shù)據(jù)進(jìn)行分析,首先進(jìn)行數(shù)據(jù)清洗,去除無(wú)關(guān)和冗余數(shù)據(jù),并獲取相關(guān)特征,實(shí)現(xiàn)詞頻統(tǒng)計(jì)、情感分析和趨勢(shì)分析,并將分析結(jié)果進(jìn)行儲(chǔ)存。在應(yīng)用層,主要是構(gòu)建網(wǎng)頁(yè),實(shí)現(xiàn)人機(jī)操作,并將上述分析結(jié)果進(jìn)行可視化。

      在數(shù)據(jù)采集層,利用Scrapy爬取相關(guān)網(wǎng)絡(luò)信息,并按照一定規(guī)則存儲(chǔ)到MySQL數(shù)據(jù)庫(kù)中。在分析層,利用pandas對(duì)數(shù)據(jù)進(jìn)行清洗,使數(shù)據(jù)具有統(tǒng)一的格式,WordCloud對(duì)網(wǎng)絡(luò)信息數(shù)據(jù)進(jìn)行統(tǒng)計(jì)詞頻,并按照詞頻多少生成詞云,百度大腦的自然語(yǔ)言處理接口AipNlp庫(kù)進(jìn)行情感分析,Scrapy抓取微博熱度生成趨勢(shì)圖,相關(guān)數(shù)據(jù)存儲(chǔ)到MySQL中。在應(yīng)用層,利用Django框架開(kāi)發(fā)Web網(wǎng)頁(yè),便于人機(jī)操作,并通過(guò)ECharts將分析結(jié)果和數(shù)據(jù)進(jìn)行可視化。

      3.1網(wǎng)絡(luò)爬蟲

      網(wǎng)絡(luò)爬蟲是自動(dòng)抓取網(wǎng)絡(luò)信息的程序,能夠自動(dòng)抓取需要獲取的數(shù)據(jù)。網(wǎng)絡(luò)爬蟲是輿情監(jiān)控的第一步,為保證輿情分析的準(zhǔn)確性和可靠性,需要大而全的獲取網(wǎng)絡(luò)信息。本文利用Scrapy框架開(kāi)發(fā)網(wǎng)絡(luò)信息爬蟲工具進(jìn)行網(wǎng)絡(luò)爬蟲,然后爬取的網(wǎng)絡(luò)數(shù)據(jù)利用MySQL進(jìn)行儲(chǔ)存。

      Scrapy是利用Python開(kāi)發(fā)的能夠爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架,具有引擎模塊、調(diào)度器模塊、下載器、爬蟲模塊、管道模塊、下載器中間件、爬蟲中間件等組件。Scrapy框架用途廣泛,可用于數(shù)據(jù)挖掘、數(shù)據(jù)檢測(cè)等方面,且程序開(kāi)發(fā)簡(jiǎn)單,Scrapy框架主要包括引擎、調(diào)度器、下載器、爬蟲、管道、下載中間件和Spider中間件等。至于爬蟲工具開(kāi)發(fā),主要為新建項(xiàng)目、創(chuàng)建應(yīng)用、明確字段、制作爬蟲和存儲(chǔ)內(nèi)容五步。

      Scrapy框架有數(shù)據(jù)處理和存儲(chǔ)模塊,通過(guò)PyMySQL的模塊將網(wǎng)絡(luò)數(shù)據(jù)信息數(shù)據(jù)存儲(chǔ)到MySQL數(shù)據(jù)庫(kù)。MySQL是一種關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),關(guān)系數(shù)據(jù)庫(kù)將數(shù)據(jù)保存在不同的表中,從而方便訪問(wèn)。將獲取的網(wǎng)絡(luò)數(shù)據(jù)信息儲(chǔ)存在MySQL數(shù)據(jù)庫(kù)中,便于后續(xù)信息處理。

      3.2輿情分析

      在數(shù)據(jù)爬蟲時(shí),為保證輿情監(jiān)測(cè)的準(zhǔn)確性,爬取的信息容量大且比較全面,因此,數(shù)據(jù)格式會(huì)比較混亂、噪聲信息多、干擾大。另外,存在一定冗余信息,所以需要對(duì)抓取的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗。利用Python中pandas工具進(jìn)行數(shù)據(jù)清洗,pandas是基于Numpy的一種工具,能夠?qū)Ω鞣N數(shù)據(jù)進(jìn)行清洗和加工。首先去除冗余數(shù)據(jù),然后對(duì)數(shù)據(jù)格式進(jìn)行歸一化,從而得到質(zhì)量高的網(wǎng)絡(luò)信息數(shù)據(jù)。

      利用WordCloud對(duì)網(wǎng)絡(luò)信息數(shù)據(jù)進(jìn)行統(tǒng)計(jì)詞頻,并生成詞云。詞云也稱為文字云,是將頻率出現(xiàn)高的詞匯顯示更加顯著,而頻率出現(xiàn)低的詞匯顯示弱化,甚至不顯示的一種表現(xiàn)形式,觀看者能直觀地看到要表達(dá)的主旨。WordCloud是Python的一個(gè)第三方庫(kù),以詞語(yǔ)為基本單位,對(duì)文本內(nèi)容中的詞頻進(jìn)行可視化匯總,更加直觀和美觀地展示文本詞頻。另外,詞云的形狀、尺寸和顏色可以進(jìn)行設(shè)置。

      在情感分析時(shí),利用百度大腦的自然語(yǔ)言處理接口AipNlp庫(kù)。AipNlp庫(kù)具有詞法分析、依存句法分析、詞向量表示、中文DNN語(yǔ)言模型接口、詞義相似度、短文本相似度、評(píng)論觀點(diǎn)抽取、情感傾向分析、文章分類、對(duì)話情緒識(shí)別接口等功能。AipNlp庫(kù)功能豐富,能夠?qū)?shù)十種自然語(yǔ)言實(shí)現(xiàn)處理,能夠滿足多種場(chǎng)景需求,具有標(biāo)準(zhǔn)的封裝接口,可以降低人工開(kāi)發(fā)成本,并可以通過(guò)云計(jì)算,降低硬件需求,另外支持用戶多,可以滿足千億量級(jí)用戶調(diào)用。

      3.3結(jié)果可視化

      利用Django框架開(kāi)發(fā)Web網(wǎng)頁(yè),實(shí)現(xiàn)人機(jī)交互和信息的展示,并通過(guò)ECharts對(duì)分析結(jié)果進(jìn)行可視化。

      Django是一個(gè)由Python開(kāi)發(fā)的一個(gè)開(kāi)放源代碼的Web應(yīng)用框架,采用了MVT框架,即模型(Model,數(shù)據(jù)存取層)、視圖(View,表現(xiàn)層)和模板(Template,業(yè)務(wù)邏輯層)。Django框架功能完善、要素齊全,自帶大量常用工具和框架,擁有豐富、動(dòng)態(tài)的數(shù)據(jù)庫(kù)操作接口,數(shù)據(jù)模型的設(shè)計(jì)不依賴特定的數(shù)據(jù)庫(kù),適合快速開(kāi)發(fā)各種類型的網(wǎng)站。

      最后,利用ECharts對(duì)分析結(jié)果進(jìn)行可視化,ECharts是使用JavaScript開(kāi)發(fā)的開(kāi)源可視化庫(kù),可以直觀顯示數(shù)據(jù)可視化圖表,并可以對(duì)可視化圖表形式進(jìn)行設(shè)置。ECharts可以生成的圖表種類豐富,視覺(jué)效果好。

      4新浪微博輿情監(jiān)控系統(tǒng)

      按照上述系統(tǒng)架構(gòu),通過(guò)Python及相關(guān)模塊開(kāi)發(fā),采用Web網(wǎng)頁(yè)進(jìn)行交互操作和可視化顯示,可以對(duì)網(wǎng)絡(luò)文本實(shí)現(xiàn)詞頻統(tǒng)計(jì)、情感分析和趨勢(shì)分析,并將分析結(jié)果進(jìn)行儲(chǔ)存,從而實(shí)現(xiàn)新浪微博的輿情監(jiān)控系統(tǒng)。

      以熱點(diǎn)“新冠疫情”為關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)信息抓取,然后對(duì)輿情進(jìn)行分析,并分析變化趨勢(shì)。通過(guò)詞頻分析,前10的詞匯有:疫情、防控、新冠、肺炎、核酸、工作、檢測(cè)、人員、病例、區(qū)域,然后生成詞云圖(如圖2所示)。通過(guò)詞云圖可以看出疫情防控是人們關(guān)注的重點(diǎn),其次是核酸檢測(cè),此前核酸檢測(cè)是阻斷疫情的有效手段。另外,病例、區(qū)域也是人們關(guān)注的重點(diǎn)。

      通過(guò)情感分析,生成餅狀圖(如圖3所示),消極態(tài)度占50.03%,積極態(tài)度占49.97%。人們對(duì)于疫情的態(tài)度是一半是消極的,說(shuō)明部分人們生活和工作狀態(tài)比較消極,需要相關(guān)部門進(jìn)行積極引導(dǎo)。通過(guò)爬蟲工具在新浪微博上爬取相關(guān)微博的熱度,并構(gòu)建熱度趨勢(shì)圖,24小時(shí)討論熱度圖如圖4(a)所示,7天討論熱度圖如圖4(b)所示。

      5結(jié)束語(yǔ)

      本文設(shè)計(jì)了基于Python的新浪微博輿情監(jiān)控系統(tǒng),提出了三層系統(tǒng)框架,在設(shè)計(jì)過(guò)程中使用了Django, Scrapy, MySQL,pandas,WordCloud,AipNlp等工具,該系統(tǒng)能夠通過(guò)網(wǎng)頁(yè)進(jìn)行交互操作,并通過(guò)圖表進(jìn)行可視化。最后,以“新冠疫情”為熱點(diǎn)問(wèn)題,對(duì)輿情監(jiān)控系統(tǒng)進(jìn)行測(cè)試,可以有效對(duì)輿情信息進(jìn)行監(jiān)控。未來(lái)將擴(kuò)大信息采集面,獲得更全面、更真實(shí)的輿情信息,便于有效引導(dǎo)化解矛盾,構(gòu)建和諧的網(wǎng)絡(luò)環(huán)境。

      作者簡(jiǎn)介:

      張亞娟(1988—),碩士,講師,研究方向:信號(hào)檢測(cè)與處理。

      張汝峰(1992—),碩士,講師,研究方向:計(jì)算機(jī)視覺(jué)、信息處理(通信作者)。

      猜你喜歡
      新浪微博自然語(yǔ)言處理
      新浪微博數(shù)據(jù)爬取研究
      基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
      新浪微博熱點(diǎn)事件的輿論傳播與群體心理
      新浪微博娛樂(lè)明星的社會(huì)網(wǎng)絡(luò)分析
      社交媒體平臺(tái)醫(yī)患關(guān)系報(bào)道特點(diǎn)研究
      今傳媒(2016年8期)2016-10-17 23:50:55
      微博的社會(huì)公信力現(xiàn)狀探究及其未來(lái)構(gòu)建研究
      商(2016年21期)2016-07-06 17:23:54
      社交媒體的用戶生成內(nèi)容(UGC)動(dòng)機(jī)淺析
      商(2016年18期)2016-06-20 08:09:31
      面向機(jī)器人導(dǎo)航的漢語(yǔ)路徑自然語(yǔ)言組塊分析方法研究
      詞向量的語(yǔ)義學(xué)規(guī)范化
      漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
      锡林郭勒盟| 靖宇县| 浑源县| 辽阳市| 呈贡县| 金寨县| 松溪县| 临泉县| 台江县| 镇远县| 林口县| 海盐县| 雅江县| 怀仁县| 江北区| 台江县| 登封市| 巩留县| 枣庄市| 吉林省| 安庆市| 嘉义市| 烟台市| 塔城市| 阿拉尔市| 美姑县| 浠水县| 尉氏县| 景洪市| 手游| 六枝特区| 柘荣县| 康乐县| 阜新市| 德州市| 修武县| 莒南县| 通海县| 嘉定区| 和硕县| 班玛县|