鐘瑞童
摘要:通過研究某知名演員偷稅漏稅事件的輿情走勢,給出輿情分析框架,使用Word2vec模型分析人物關(guān)系,梳理事件背景,而后使用評論影響力指標(biāo)篩選具有導(dǎo)向作用的輿論,再通過主題模型提取觀點(diǎn),分析輿情走勢,并對不同主題觀點(diǎn)下各類人群構(gòu)成做量化分析。該分析框架有助于決策者迅速精準(zhǔn)把握熱點(diǎn)事件輿情,了解公眾心理,反映社會風(fēng)氣。
關(guān)鍵詞:輿情分析;觀點(diǎn)挖掘;主題模型;word2vec模型
中圖分類號:G206.3??? 文獻(xiàn)標(biāo)識碼:A 文章編號:CN61-1487-(2019)010-0134-04
一、引言
公眾人物的一舉一動對整個(gè)社會有很大的影響,人民群眾的看法也反映了整個(gè)社會對于公眾人物的認(rèn)知和判斷。某知名演員每年的個(gè)人收入高達(dá)數(shù)億人民幣,在去年該演藝明星被曝出令人咋舌的天價(jià)片酬,并且“一陰一陽大小合同”公然偷稅漏稅等行業(yè)內(nèi)幕也隨之浮出水面。自某新聞從業(yè)人爆出該明星的陰陽合同之后,各職能部門和媒體就一直沒有中斷對于該演藝明星的調(diào)查。終于,在去年10月3日,該演藝明星偷逃稅案件的結(jié)果正式公布,引發(fā)媒體關(guān)注?!把胍暰W(wǎng)”報(bào)道稅務(wù)部門依法查處該明星“陰陽合同”等偷逃稅問題。此事一出,各類媒體爭相報(bào)道,微博、知乎、朋友圈都充斥著各種評論和看法,該演藝明星偷稅漏稅事件成為引爆社會輿論的焦點(diǎn)。
本研究應(yīng)用爬蟲技術(shù)和文本挖掘技術(shù)和自然語言處理方法,對該明星偷稅漏稅事件的社會網(wǎng)絡(luò)輿情實(shí)證分析框架進(jìn)行研究。
二、文獻(xiàn)綜述
(一)社會網(wǎng)絡(luò)輿情
從李津浩在《采寫編》2017年第2期發(fā)表的文章《從社會公眾事件看網(wǎng)絡(luò)輿情引導(dǎo)》中,可以準(zhǔn)確地總結(jié)出公眾人物的定義、特點(diǎn)及其對輿論的影響。社會公眾人物具有公眾性、典型性、商業(yè)價(jià)值、社會影響力的特點(diǎn),其中最典型的特點(diǎn)是其言行會對社會和公眾產(chǎn)生的巨大影響力。如果公眾人物的行為舉止得當(dāng),憑借他們的高知名度,會成為社會發(fā)展好的方面的代表,給公眾以積極的影響。公眾人物如果言行不當(dāng),在新媒體這種環(huán)境下,極易引發(fā)眾怒,輿論就會呈現(xiàn)一邊倒的聲討批評,產(chǎn)生網(wǎng)絡(luò)輿情。
在網(wǎng)絡(luò)輿情的研究方面比較成熟、主流的分析方法主要有網(wǎng)絡(luò)調(diào)查法、基于統(tǒng)計(jì)規(guī)則的模式識別方法、基于內(nèi)容挖掘的主題檢測方法等。以上幾種方法均存在一定的局限性,一些新的方法應(yīng)運(yùn)而生。首先,在大數(shù)據(jù)時(shí)代的背景下,數(shù)據(jù)挖掘的方法已經(jīng)在更大程度和更廣范圍應(yīng)用到網(wǎng)絡(luò)輿情的分析和研究之中。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。其次則是聚類(clustering)分析法,即根據(jù)對某種相似程度的度量,按照相似度將數(shù)據(jù)對象分組成為多個(gè)類或簇。聚類分析法已經(jīng)被廣泛應(yīng)用于很多方面的數(shù)據(jù)分析研究中。最后則是社會網(wǎng)絡(luò)分析法(SNA),即通過對個(gè)體之間的關(guān)系構(gòu)建模型并進(jìn)行描述,對這些模型中包含的結(jié)構(gòu)及其對個(gè)人和整個(gè)群體的影響進(jìn)行分析。我們可以將大數(shù)據(jù)應(yīng)用到日常的輿情管理中,加強(qiáng)對各個(gè)網(wǎng)絡(luò)平臺的監(jiān)管。大數(shù)據(jù)技術(shù)的發(fā)展為傳統(tǒng)網(wǎng)絡(luò)輿情的管理拓寬了視野,我們可以運(yùn)用大數(shù)據(jù)對網(wǎng)站、微博、微信等網(wǎng)絡(luò)平臺進(jìn)行監(jiān)控,對信息數(shù)據(jù)的傳播和動態(tài)進(jìn)行實(shí)時(shí)分析,以便從瞬息萬變的輿情信息中找準(zhǔn)重點(diǎn),合理分配有限的資源,提高輿情管理效率。
(二)潛在狄利克雷(LDA)分布主題模型
隱含狄利克雷分布簡稱LDA(Latent Dirichlet allocation),首先由Blei,David M.、吳恩達(dá)和Jordan, Michael I 于2003年 提出,目前在文本挖掘領(lǐng)域包括文本主題識別、文本分類以及文本相似度計(jì)算方面都有應(yīng)用。LDA是一種典型的詞袋模型,即它認(rèn)為一篇文檔是由一組詞構(gòu)成的一個(gè)集合,詞與詞之間沒有順序以及先后的關(guān)系。一篇文檔可以包含多個(gè)主題,文檔中每一個(gè)詞都由其中的一個(gè)主題生成。它是一種主題模型,可以將文檔集中每篇文檔的主題,按照概率分布的形式給出;它是一種無監(jiān)督學(xué)習(xí)算法,在訓(xùn)練時(shí)不需要手工標(biāo)注的訓(xùn)練集,需要的僅僅是文檔集以及指定主題的數(shù)量k即可;此外LDA的另一個(gè)優(yōu)點(diǎn)則是,對于每一個(gè)主題均可找出一些詞語來描述。本小組在文本挖掘技術(shù)層面上在文獻(xiàn)的分類篩選中選擇了LDA主題模型,LDA主題模型在國內(nèi)的研究也已經(jīng)較為成熟。苑東東、趙杰煜、葉緒倫(2018)在《結(jié)合深度學(xué)習(xí)的監(jiān)督主題模型》中,萬子瑋(2018)在《基于主題詞的微博用戶興趣模型研究》中提出結(jié)合深度學(xué)習(xí)的監(jiān)督主題模型,利用深度網(wǎng)絡(luò)強(qiáng)大的非線性擬合能力,建立文檔主題分布與標(biāo)簽之間的映射,利用變分期望最大化(EM)和深度網(wǎng)絡(luò)訓(xùn)練方法,共同完成貝葉斯框架下模型參數(shù)的更新,通過改變網(wǎng)絡(luò)結(jié)構(gòu)和激活函數(shù)的類型,用于分類和回歸任務(wù)。在前人對LDA改進(jìn)的基礎(chǔ)上,將模型應(yīng)用于微博用戶興趣的深度挖掘中,將模型的先驗(yàn)概率,更換為后驗(yàn)概率確定用戶興趣模型,提高了主題模型的計(jì)算效率,并且保證了主題興趣挖掘的準(zhǔn)確度。最后,通過召回率、查準(zhǔn)率等評價(jià)指標(biāo)對模型進(jìn)行評價(jià)分析,并分析模型應(yīng)用于個(gè)性化廣告推薦中的適用性。
三、該明星偷稅漏稅事件微博輿情分析
(一)基于Word2vec模型的社會網(wǎng)絡(luò)人物關(guān)系挖掘
1.語料準(zhǔn)備
爬取知乎上關(guān)于“該明星偷稅漏稅”問題的回答共2022條。選取知乎上關(guān)于“偷稅漏稅”事件的回答作為word2vec模型的訓(xùn)練語料的原因是,知乎上的回答大部分都是長文本,非常適合word2vec的訓(xùn)練,而且長文本可以將關(guān)于“偷稅漏稅”事件相關(guān)的過程來龍去脈闡釋清楚,便于word2vec挖掘人物之間的關(guān)聯(lián)度。得到原始文本后,去除無關(guān)的網(wǎng)頁標(biāo)簽數(shù)據(jù),過濾出原始文本。
在語料數(shù)據(jù)預(yù)處理這個(gè)過程中,先將原始文本進(jìn)行中文分詞,由于我們最終的目的是要將“偷稅漏稅”事件相關(guān)聯(lián)的公眾人物挖掘出來并分析他們之間的關(guān)聯(lián)度,所以我們注意的一點(diǎn)是對于人名的分詞的準(zhǔn)確度,構(gòu)造精確的用戶自定義字典。由于word2vec注重于上下文的關(guān)聯(lián),所以將詞頻很高的語氣詞和助詞等對上下文關(guān)聯(lián)不起作用的詞語去除,構(gòu)造精確的停用詞列表。由于原始文本中有很多的與此事件闡述無關(guān)的網(wǎng)址,不能載入word2vec進(jìn)行訓(xùn)練,所以將其剔除,最后去除所有的標(biāo)點(diǎn)符號,得到可用于word2vec訓(xùn)練的文檔。以下給出語料預(yù)處理的具體步驟:
第一步,將所有的回答載入一個(gè)文檔中。
第二步,定義該明星偷稅漏稅問題的用戶自定義字典,字典列表里包括明星的人名,其中也包含同一個(gè)人的多個(gè)稱呼(如XXX和X老師),此外,還有相關(guān)知名影視公司。
第三步定義停用詞,將詞頻較高的助詞、語氣詞等定義為停用詞,在分詞之后這些詞匯將會被過濾掉。
第四步,去除文本中所有的標(biāo)點(diǎn)符號和網(wǎng)址鏈接,最終過濾出純文本并將其分詞,準(zhǔn)備訓(xùn)練word2vec模型。
2.訓(xùn)練word2vec模型并輸出相似度矩陣
將知乎關(guān)于“該明星偷稅漏稅”問題所有的回答作為語料庫訓(xùn)練word2vec模型,并挖掘相關(guān)人物的向量相似度(即人物相關(guān)性),并得到人物關(guān)系相似度矩陣。
由于矩陣中每一個(gè)人物關(guān)系相似度都超過0.9,所以要觀察他們之間相對的相似度,要將其標(biāo)準(zhǔn)化。為了防止人物關(guān)系相似度矩陣出現(xiàn)負(fù)數(shù),用max-min方法對其進(jìn)行標(biāo)準(zhǔn)化。這種標(biāo)準(zhǔn)化的優(yōu)點(diǎn)是:標(biāo)準(zhǔn)化后所有的數(shù)值都是非負(fù)的,并且原數(shù)據(jù)中最小的數(shù)標(biāo)準(zhǔn)化后變?yōu)?,最大的數(shù)標(biāo)準(zhǔn)化后變?yōu)?,可以讓我們清晰地觀察到關(guān)系相似度最高的兩個(gè)人,還有最不相關(guān)的兩個(gè)人。將人物關(guān)系相似度矩陣進(jìn)行可視化,轉(zhuǎn)化為關(guān)系圖:
3.人物關(guān)系解讀與事件梳理
從人物關(guān)系圖中可以直觀地看出,整個(gè)事件是以該明星為中心,向外輻射出與“偷稅漏稅”事件相關(guān)的人物,輻射出相關(guān)的人物有演藝人物4、新聞從業(yè)者1、演藝人物3、演藝人物2、演藝人物1。在圖中還可看出,與該明星關(guān)聯(lián)性不大的演藝人物4,在此事件中,他和該明星是有一定的并列關(guān)系,因?yàn)樗麄兺瑫r(shí)被新聞從業(yè)者1所批判,因此演藝人物1和演藝人物4的相關(guān)性近似于0,說明在此事件中,演藝人物4和1毫不相關(guān),互相不牽連。這個(gè)模型最大的特點(diǎn)是能挖掘公眾所不熟知的人物關(guān)系,比如演藝人物2和3,公眾可能認(rèn)為他們兩個(gè)與“偷稅漏稅”事件毫不相關(guān),其實(shí)不然,他們和這個(gè)事件的核心人物都有著非常大的關(guān)聯(lián)度。這個(gè)模型可以使公眾有新的了解目標(biāo),主動地去搜尋看似不相關(guān)的人物的事件,而不是被動的接受媒體傳播的信息。
(二)基于主題模型的輿論觀點(diǎn)分析
1.引入微博評論影響力指標(biāo)過濾輿論導(dǎo)向信息
使用Python+Selenium+Chrome編寫爬蟲程序。截至目前,獲取微博話題“#該明星偷稅#”“#該明星偷稅、漏稅#”“#該明星大轟炸戲份9秒#”“#該明星偷稅漏稅調(diào)查結(jié)果#”“#該明星陷偷稅門#”5個(gè)話題下內(nèi)容無缺失的討論文本共計(jì)2119條,并爬取發(fā)布者信息,共計(jì)1703條(同一個(gè)人可能有多條討論)。數(shù)據(jù)庫變量類別分別為變量名、用戶名、發(fā)布時(shí)間、轉(zhuǎn)發(fā)量、評論量、點(diǎn)贊量、評論內(nèi)容、性別、所在地、用戶類別等。
使用轉(zhuǎn)發(fā)、評論與點(diǎn)贊量構(gòu)造微博評論影響力指標(biāo),衡量其言論所起到的輿論導(dǎo)向作用,過濾對輿論影響低的討論。指標(biāo)計(jì)算方法如下:
從詞頻圖中我們可以清晰看出,作為事件主角的該明星的姓名出現(xiàn)次數(shù)遙遙領(lǐng)先其他詞匯,總共出現(xiàn)了684次;其次是“偷稅漏稅”這一行為,總共出現(xiàn)了179次;像“罰款”“國家”“法律”“偷稅”“逃稅”這一類與國家法治制度相關(guān)的詞匯出現(xiàn)次數(shù)緊隨其后,基本都達(dá)到90次左右,這也體現(xiàn)了大多數(shù)微博用戶對于國家基本法律的重視和對該明星違反國家基本法律政策的反對;除此之外,類似“視頻”“明星”“大轟炸”“娛樂圈”這類有關(guān)娛樂圈電影明星的詞匯的出現(xiàn)次數(shù)也有很多,基本上都達(dá)到了70次左右,說明部分微博用戶認(rèn)為該明星偷稅漏稅事件與整個(gè)娛樂圈風(fēng)氣具有一定的相關(guān)聯(lián)度;最后,類似于“道歉”“補(bǔ)繳”“處罰”“依法”“刑事責(zé)任”“封殺”這類詞匯的存在表明部分微博用戶認(rèn)為該明星有責(zé)任進(jìn)行道歉以及受到處罰以正娛樂圈的風(fēng)氣。
2.輿論觀點(diǎn)挖掘與基于FREX score的模型解讀
使用LDA主題模型將1004條討論聚類,并輸出各類觀點(diǎn)下的關(guān)鍵詞,共得出了7大類關(guān)鍵詞主題。
主題1側(cè)重討論“國家”“法律”“罰款”“有錢”等關(guān)鍵詞,體現(xiàn)公眾對此次事件的直觀感受是比較震撼的,討論集中在本次涉案金額較多,相關(guān)法律和罰款數(shù)額等;主題2側(cè)重討論“轟炸”“流出”“臺詞”英文版等關(guān)鍵詞,體現(xiàn)此事件與電影《大轟炸》非常相關(guān),《大轟炸》的視頻流出事件成為討論的熱點(diǎn);主題3中出現(xiàn)“演藝人物4”和“新聞從業(yè)者1”兩位當(dāng)事人,集中在人物關(guān)系的討論上;主題4突出了“知錯(cuò)”“坐牢”等關(guān)鍵詞,體現(xiàn)民眾對懲罰力度的不滿,并扒出某演藝人因偷稅坐牢事件與此對比;主題5側(cè)重“逃稅”“娛樂圈”“藝人”等關(guān)鍵詞,體現(xiàn)此次事件引發(fā)公眾對娛樂圈逃稅普遍現(xiàn)象的熱點(diǎn)討論;主題6出現(xiàn)“國家”“沒有”“偷稅”“戲子”等關(guān)鍵詞,集中討論“戲子誤國”的相關(guān)內(nèi)容;主題7中側(cè)重“稅款”“罰款”“稅務(wù)機(jī)關(guān)”“部門”“依法”“處罰”等關(guān)鍵詞,體現(xiàn)追責(zé)問責(zé)態(tài)度。主題3與主題4具有一定相似度,其討論內(nèi)容都集中在人物關(guān)系上。其中主題3與主題6的話題影響力較高,反映公眾關(guān)注事件來龍去脈的討論與國家發(fā)展層面上“娛樂至死”“戲子誤國”的討論。
考慮到某些詞匯由于詞頻太高,導(dǎo)致在每個(gè)主題下的排名均靠前,例如“該明星”,排列第一位,但并不能突出顯示不同主題的差異,因此引入FREX score同時(shí)考慮詞語的出現(xiàn)頻率和排他性,F(xiàn)REX即“Frequency and Exclusive”,同時(shí)考慮了單個(gè)詞語在不同主題下的條件概率與在總體中的邊緣概率。其公式表達(dá)如下:
其主體思路為,為使主題模型所得結(jié)果更加趨于信息最大化,同時(shí)考慮詞語的條件概率和邊緣概率,為λ賦予不同值,目的是使不同主題體現(xiàn)出差異,且更加可被解釋。LDA模型中初始輸出的結(jié)果即為λ=1時(shí)的結(jié)果。
調(diào)整λ值以獲得各類主題下根據(jù)FREX score由高到低的排名順序,發(fā)現(xiàn)λ取0.37時(shí)各類主題差異較為可區(qū)分,且可解釋性強(qiáng),綜合對比發(fā)現(xiàn),民眾對于該明星事件的觀點(diǎn)主要呈下列幾種形式:
第一,震驚,驚嘆于國家法規(guī)的漏洞,涉案金額巨大,同時(shí)也激起人們對巨額逃稅款的概念的討論;
第二,悲哀,許多人聯(lián)想到默默無聞值守崗位的各領(lǐng)域人才,只能賺取微薄的工資,而國家發(fā)展依靠各領(lǐng)域人才而非影視明星,“戲子誤國”,還有一部分人聯(lián)想到從前影視明星因偷稅漏稅坐牢,而如今該明星不用如此,悲哀世道不復(fù)從前;
第三,憤怒,其一,該明星在《大轟炸》中僅出場9秒便賺取3000萬元薪酬,引發(fā)民眾對于目前娛樂圈影視明星收入過高的討論,其二,對該明星強(qiáng)烈譴責(zé),追查到底,絕不姑息。
3.持不同觀點(diǎn)的人群差異分析
(1)輿論主題變化趨勢
10月3日是評論量呈爆炸性增長的一天,人們紛紛在這一天在微博上發(fā)表自己對“偷稅漏稅”事件的看法,說明當(dāng)天“偷稅漏稅”事件被媒體炒得沸沸揚(yáng)揚(yáng),是觀察輿論主題所占比例最合適的時(shí)機(jī),所以我們將10月3日的評論所屬主題匯總進(jìn)行觀察。
10月3日,公眾發(fā)表了大量的言論,其中第6類主題占比最大,占到總體的21%,其次是第5類主題,占總體的19%。根據(jù)各類主題的關(guān)鍵詞,我們可以挖掘出,在評論量猛增的第一天,人們主要的輿論導(dǎo)向是該明星觸犯了法律,應(yīng)該向國家和人民道歉,并有一部分的輿論在談?wù)撛撁餍浅鲅莸碾娪啊洞筠Z炸》的上映問題。
在10月3日以后,評論量開始大幅度下降,我們觀察10月3日以后的輿論變化趨勢:從10月6日到10月18日,公眾發(fā)表了較少的言論,其中占比最大的主題由剛開始的第6主題轉(zhuǎn)變?yōu)榱说?主題,第6主題在剛開始占據(jù)輿論霸主地位,然后慢慢地淡化了。根據(jù)各類主題的關(guān)鍵詞,我們可以挖掘出,在評論的第二個(gè)階段,人們主要的輿論導(dǎo)向從該明星觸犯了法律,應(yīng)該向國家和人民道歉,變成了該明星應(yīng)該坐牢,并且該主題關(guān)鍵詞中提到了社會的正能量,說明國民開始力挺某新聞從業(yè)人的做法,并且呼吁要保護(hù)之。
評論量在10月27日大幅度地增加,而且第一主題的占比最大,所以根據(jù)關(guān)鍵詞,關(guān)鍵詞中提到了娛樂、金錢,而對應(yīng)著當(dāng)時(shí)正在頒發(fā)諾貝爾獎(jiǎng)項(xiàng),我們作出了合理的推斷,受眾在這一天提出了“娛樂至死”的輿論導(dǎo)向,并呼吁用知識和科技去復(fù)興中華,年輕人不應(yīng)該沉迷娛樂而不能自拔。
(2)不同主題下的人群屬性交叉分析
第一,在不同主題下的人群性別比例。擁有不同的輿論類別的人群中,男女比例大致相同,各占一半左右。但是在第5個(gè)類別中,女性比例明顯大于男性,根據(jù)類別的關(guān)鍵詞,可以推斷出,在讓該明星道歉的問題上和該明星出演的電影《大轟炸》的上映問題上,女性群體的反應(yīng)是大于男性群體的。
第二,在不同主題下的人群所在省份比例。在各個(gè)類別中,北京、山東、江蘇、廣東這四個(gè)地區(qū)的人民充當(dāng)了重要的角色,其中北京、山東和廣東這三個(gè)地區(qū)在七個(gè)類別中相差無幾。
其中江蘇省在第三類和第七類主題中占比比較突出,根據(jù)類別的關(guān)鍵詞,其中第三類主題的突出關(guān)鍵詞:“該明星”“演藝人物4”“納稅”,第七類主題的突出關(guān)鍵詞:“陰陽合同”,可以看出江蘇省的人民更看重事情的真正原因和來龍去脈。
其中北京和山東與當(dāng)事人的籍貫相關(guān),江蘇無錫是該明星工作室的所在地,事件爆發(fā)后,江蘇省地稅局對該明星工作室展開調(diào)查,引發(fā)討論。
第三,在不同主題下的人群影響力比較。第三類主題所屬人群的影響力遠(yuǎn)遠(yuǎn)大于其他類別,根據(jù)類別關(guān)鍵詞,可以看出看重事情的真正原因和來龍去脈的人群,普遍具有很大的影響力。
四、討論
(一)從Word2vec對知乎中關(guān)于“該明星偷稅漏稅看法”的文本梳理發(fā)現(xiàn),涉及該明星事件的公眾人物有“新聞從業(yè)者1”“演藝人物4”“演藝人物2”“演藝人物3”“演藝人物1”等人?!靶侣剰臉I(yè)者1”和該明星是本次事件的中心人物,其余“演藝人物”與該明星有并列關(guān)系,共同受到“新聞從業(yè)者1”抨擊。
(二)使用多維標(biāo)度法可確定事件內(nèi)隱含7類主題觀點(diǎn)。分別為“有關(guān)該明星涉案金額多的討論”“有關(guān)該明星電影《大轟炸》的視頻及臺詞流出的討論”“有關(guān)事件人物關(guān)系的討論”“有關(guān)某演藝人因偷稅坐牢與此事對比”“娛樂圈逃稅普遍現(xiàn)象的討論”“有關(guān)‘戲子誤國的討論”“有關(guān)稅務(wù)機(jī)關(guān)問責(zé)的討論”。其中有關(guān)事件人物關(guān)系和國家層面上“戲子誤國”的話題影響力較大。
(三)10月3日事件爆發(fā),該天公眾討論最多的話題是第五、第六主題,人們的輿論導(dǎo)向是該明星觸犯了法律應(yīng)該向國家和人民道歉,并有一部分的輿論在談?wù)撛撁餍浅鲅莸碾娪啊洞筠Z炸》的上映問題。而后事件討論量逐步降低,從10月6日起,原本占比最高的主題六轉(zhuǎn)變?yōu)橹黝}四,在公眾討論的第二個(gè)階段,人們主要的輿論導(dǎo)向從該明星觸犯了法律應(yīng)該向國家和人民道歉,變成了該明星應(yīng)該坐牢,并且該主題關(guān)鍵詞中提到了正能量。10月27日,話題熱度突然增長,主題一占比最高,國民在這一天提出了“娛樂至死”的輿論導(dǎo)向,并呼吁人民用知識和科技去復(fù)興中華,年輕人不應(yīng)該沉迷娛樂。
(四)男性微博用戶偏向討論人物關(guān)系,女性微博用戶偏向討論讓該明星道歉和電影《大轟炸》的上映問題。其他主題類別下的男女比例均衡。北京、山東、江蘇、廣東四省微博用戶討論較多,其中北京和山東與當(dāng)事人的籍貫相關(guān)。由此可見,在本話題的討論中,涉事人與涉事機(jī)構(gòu)所在地域的用戶言論對輿論影響較大。
(五)第三類主題所屬人群的影響力遠(yuǎn)遠(yuǎn)大于其他類別,根據(jù)類別關(guān)鍵詞,可以看出看重事情的真正原因和來龍去脈的人群,普遍具有很大的影響力。
參考文獻(xiàn):
[1]吳婷.淺談網(wǎng)絡(luò)輿論的社會影響[J].新聞傳播,2017(7).
[2]時(shí)郁婷.論媒介融合對新聞傳播的影響研究[J].大眾文藝, 2011(7).
[3]李津浩.從社會公眾事件看網(wǎng)絡(luò)輿情引導(dǎo)[J].采寫編, 2017(2).
[4]黃寶書,王昊寧.“新聞云系統(tǒng)”與齊魯臺的新聞制播創(chuàng)新[J].南方電視學(xué)刊,2011(2).
[5]何佳,周長勝,石顯鋒.網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實(shí)現(xiàn)方法[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2010(1).
[6]苑東東,趙杰煜,葉緒倫.結(jié)合深度學(xué)習(xí)的監(jiān)督主題模型[J].模式識別與人工智能,2018(8).
[7]萬子瑋.基于主題詞的微博用戶興趣模型研究[D].首都經(jīng)濟(jì)貿(mào)易大學(xué),2018.
[8]Sievert C,Shirley K E.LDAvis:A method for visualizing and interpreting topics[C]//The Workshop on Interactive Language Learning,2014.
[9]Chuang J,Manning C D,Heer J.Termite:visualization techniques for assessing textual topic models[C]//International Working Conference on Advanced Visual Interfaces.ACM,2012.
[10]Ramage D,Hall D,Nallapati R,et al.Labeled LDA:a supervised topic model for credit attribution in multi-labeled corpora[C]//Conference on Empirical Methods in Natural Language Processing,EMNLP 2009,6-7 August 2009,Singapore,A Meeting of Sigdat,A Special Interest Group of the ACL.DBLP,2009.