楊 單,程 鍵,姚怡琦,李曉雨
(中南民族大學(xué) 管理學(xué)院,湖北 武漢 430074)
互聯(lián)網(wǎng)給人們的生活、工作等各方面帶來(lái)了巨大變化,同時(shí)也形成了全新的輿論環(huán)境,網(wǎng)絡(luò)輿情已經(jīng)成為網(wǎng)絡(luò)管理的重要內(nèi)容。網(wǎng)絡(luò)輿情是指由某事件的刺激而產(chǎn)生的通過(guò)互聯(lián)網(wǎng)平臺(tái)傳播的人們對(duì)于該事件的所有認(rèn)知、態(tài)度、情感和行為傾向的集合[1]。
高校大學(xué)生作為網(wǎng)民的重要組成部分,能借助網(wǎng)絡(luò)平臺(tái)便捷地獲取各種信息,并可相對(duì)自由地發(fā)表與自身利益相關(guān)或?qū)Ω鞣N社會(huì)公共熱點(diǎn)事件自主表達(dá)有傾向性的態(tài)度和看法,已經(jīng)成為了網(wǎng)絡(luò)輿情的主要生成力量和影響對(duì)象。[2]高校網(wǎng)絡(luò)輿情已經(jīng)成為了網(wǎng)絡(luò)輿情的重要組成部分,近年來(lái)已經(jīng)成為提升網(wǎng)絡(luò)治理能力的重要課題,受到相關(guān)輿情管理部門(mén)及相關(guān)學(xué)者的重視和關(guān)注。根據(jù)2018 年《中國(guó)高等教育輿情報(bào)告》顯示,高校輿情熱點(diǎn)事件的首曝光以網(wǎng)絡(luò)媒體為主,所占比例已至90%,并且社交媒體也是公眾獲取信息的主要來(lái)源,據(jù)統(tǒng)計(jì),年度十大熱點(diǎn)高校輿情事件中有60%的話題來(lái)自社交媒體的爆料。[3]
社交媒體是指互聯(lián)網(wǎng)基于用戶關(guān)系的內(nèi)容生成與交換平臺(tái),主要包括社交網(wǎng)站、即時(shí)通訊平臺(tái)、論壇、博客等[4]。微信、微博、知乎等社交媒體已經(jīng)成為高校學(xué)生獲取信息、相互交流、表達(dá)訴求的主要渠道,對(duì)社交媒體的使用促使輿情傳播具有一定的圈層化和私密性[5],同時(shí)正是由于傳播空間的相對(duì)自由和匿名評(píng)論的相對(duì)隱秘,再加上高校大學(xué)生生活閱歷較淺、容易受到輿論影響,一些比較極端和激烈的表達(dá)形式會(huì)在其表達(dá)觀點(diǎn)時(shí)采用,無(wú)法以邏輯鮮明的論述方式進(jìn)行理性表達(dá),其發(fā)表的評(píng)論往往帶有強(qiáng)烈的感情色彩。因此,對(duì)社交媒體中高校輿情相關(guān)的用戶評(píng)論進(jìn)行情感分析具有重要意義。[6]
首先使用網(wǎng)絡(luò)爬蟲(chóng)采集到近期新冠疫情期間被廣泛討論的“武漢高校宿舍被征用”及“考研擴(kuò)招”兩個(gè)相關(guān)話題的用戶評(píng)論信息,對(duì)數(shù)據(jù)進(jìn)行清洗級(jí)預(yù)處理后,基于詞頻統(tǒng)計(jì)繪制詞云圖,直觀分析熱點(diǎn)關(guān)注詞匯,然后分別對(duì)兩個(gè)話題評(píng)論信息進(jìn)行了Rost 情感分析和Gooseeker 情感分析,基于Snownlp 情感判斷來(lái)判斷兩個(gè)話題的正面和負(fù)面情緒比例,并基于此有針對(duì)性的對(duì)于“考研擴(kuò)招”的用戶情感走勢(shì)進(jìn)行更具體的分析,接著對(duì)于兩個(gè)話題的用戶評(píng)論數(shù)據(jù)進(jìn)行社會(huì)網(wǎng)絡(luò)分析,最后基于研究結(jié)果對(duì)于高校網(wǎng)絡(luò)輿情管理提出有針對(duì)性的建議。
圖1 基于文本挖掘的用戶情感分析流程
新冠疫情期間,武漢高校宿舍被征用及考研擴(kuò)招這兩個(gè)與學(xué)生利益相關(guān)度非常高的話題引起了廣大高校學(xué)生的熱烈討論,選擇這兩個(gè)話題來(lái)研究高校網(wǎng)絡(luò)輿情具有一定代表性和時(shí)效性。而相對(duì)于QQ 和微信,微博和知乎由于其公共屬性特點(diǎn),已經(jīng)成為了高校學(xué)生獲取社會(huì)信息、進(jìn)行公眾話題討論、表達(dá)訴求的主要社交媒體,因此我們選擇的用戶評(píng)論數(shù)據(jù)來(lái)源是微博和知乎。我們利用自己設(shè)計(jì)編寫(xiě)的網(wǎng)絡(luò)爬蟲(chóng)程序在微博的相關(guān)話題的討論、超話和知乎相關(guān)話題的問(wèn)答中采集與武漢高校宿舍被征用、考研擴(kuò)招的相關(guān)話題討論的評(píng)論數(shù)據(jù)并進(jìn)行存儲(chǔ)。初期共采集了約30000 條用戶評(píng)論數(shù)據(jù)。
3.2.1 刪除不規(guī)范數(shù)據(jù)
爬取到的初始數(shù)據(jù)存在冗余以及格式不規(guī)范等問(wèn)題,對(duì)其進(jìn)行簡(jiǎn)單的預(yù)處理,刪除相關(guān)不規(guī)范數(shù)據(jù)后,獲得規(guī)范數(shù)據(jù)約16000 條。
3.2.2 文本預(yù)處理
文本預(yù)處理是對(duì)文本符號(hào)處理、分詞、提取關(guān)鍵詞、去除停用詞等一系列操作的統(tǒng)稱,經(jīng)過(guò)預(yù)處理操作后,能夠明顯提高文本表達(dá)的質(zhì)量。我們采用Python 語(yǔ)言對(duì)于文本進(jìn)行預(yù)處理操作。主要的流程包括以下步驟:
數(shù)據(jù)清洗:首先將通過(guò)附件形式載入附件,并將數(shù)據(jù)記錄轉(zhuǎn)換為data_frame 形式存儲(chǔ)。我們發(fā)現(xiàn)評(píng)論數(shù)據(jù)中不僅包括了中文字符,還包括了數(shù)字、英文字符、標(biāo)點(diǎn)等一些無(wú)明確意義的非常規(guī)字符,因此利用正則表達(dá)式定義了一個(gè)刪除除字母、數(shù)字、漢字以外的所有符號(hào)的函數(shù)。
jieba 分詞:分詞是中文文本分析的重要內(nèi)容,正確的分詞可以幫助更好的來(lái)構(gòu)建模型、運(yùn)用算法分析。在分詞過(guò)程過(guò)程匯總才用了jieba 庫(kù)進(jìn)行分詞。
去除停用詞:無(wú)論是中文中,還是英文中,都有用來(lái)起連接作用的連詞、虛詞、語(yǔ)氣詞等無(wú)意義的詞,這些詞沒(méi)有具體含義,只是起著銜接句子的作用。這些詞對(duì)文本分析沒(méi)有任何幫助,因此需要對(duì)分詞后的數(shù)據(jù)進(jìn)行停用詞處理。我們選用的停用詞表為中文停用詞表、哈工大停用詞表、四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫(kù)、百度停用詞表。
3.3.1 詞頻統(tǒng)計(jì)
詞頻統(tǒng)計(jì):將分詞后的詞語(yǔ)進(jìn)行詞頻統(tǒng)計(jì),并按照詞頻顯示詞語(yǔ)。
圖2 詞頻統(tǒng)計(jì)結(jié)果
通過(guò)詞頻統(tǒng)計(jì)可以看出,在武漢高校宿舍被征用話題中,高校學(xué)生比較關(guān)心在宿舍中的私人物品能否被好好保管、疫情以后宿舍是否能有效消毒、學(xué)生表示理解但希望能提前通知或者征用體育館這類地方等。在考研擴(kuò)招話題中,高校學(xué)生希望自己未來(lái)能夠考上、在研究生時(shí)期獲得更好的學(xué)習(xí)發(fā)展,提高自己的能力、并認(rèn)為考研擴(kuò)招能夠緩解就業(yè)壓力等,并且可以看出專碩、人工智能、計(jì)算機(jī)是較多人的選擇方向。
3.3.2 繪制詞云
繪制詞云:將詞頻統(tǒng)計(jì)的結(jié)果用wordcloud 庫(kù)中的WordCloud.generate_from_frequencies 方法繪制詞云,并用matplotlib.pyplot 展示并保存詞云。通過(guò)詞云繪制,可以更直觀地了解到高校學(xué)生關(guān)心的熱點(diǎn)。
圖3 武漢高校宿舍被征用詞云圖
圖4 考研擴(kuò)招詞云圖
對(duì)于“武漢高校宿舍被征用”話題,利用Rost 工具將評(píng)論數(shù)據(jù)分類為正面情緒、負(fù)面情緒和中性情緒三大類,并將結(jié)果繪制成餅狀圖。從圖5 中可以看出武漢高校宿舍被征用的事件中,負(fù)面情緒為多,占47.08%,中性情緒、正面情緒分別占23.79%、29.13%。通過(guò)觀察負(fù)面情緒的評(píng)論數(shù)據(jù),結(jié)合微博用戶歷史信息進(jìn)行分析,發(fā)現(xiàn)這些評(píng)論數(shù)據(jù)呈現(xiàn)負(fù)面情緒微博用戶大多數(shù)是被征用宿舍高校學(xué)生,在疫情初期,“我的電腦怎么辦?”、“私人物品如何處理?”、“回去以后會(huì)傳染嗎?”多數(shù)負(fù)面評(píng)論對(duì)于自己宿舍被征用后的財(cái)產(chǎn)、衛(wèi)生狀況有所擔(dān)憂,這也屬于人之常情。但是也應(yīng)該看到,正面情緒的評(píng)論也不少,尤其在看到相關(guān)報(bào)道政府和學(xué)校對(duì)于被征用宿舍的有序管理后,“支持國(guó)家做法,特殊時(shí)期,人命比學(xué)生宿舍重要”、“互相理解,和沖在一線的人員相比這也不算什么,同意被征用”,后期類似這樣的正面評(píng)論占主導(dǎo)地位,表現(xiàn)出了當(dāng)代大學(xué)生極強(qiáng)的社會(huì)責(zé)任感。
對(duì)于“考研擴(kuò)招話題”,選取的評(píng)論數(shù)據(jù)來(lái)自知乎,我們使用Gooseeker 進(jìn)行情感分析,并將結(jié)果可視化。我們發(fā)現(xiàn),在考研擴(kuò)招事件中,正面情緒最多,占48%,中性情緒占29%,負(fù)面情緒占23%?!翱蘖?,考研有希望了”、“提升整體國(guó)民素質(zhì)”、“趕上了好時(shí)候,要努力了”,在正面情緒評(píng)論中,類似這樣的評(píng)論比較多,這些評(píng)論可能更多的來(lái)自于今年或者明年要準(zhǔn)備考研的大學(xué)生,對(duì)于教育部研究生擴(kuò)招的政策非常支持,提升了他們考上研究生的希望。當(dāng)然也要注意到,評(píng)論中的負(fù)面情緒主要集中在“學(xué)歷可能會(huì)貶值吧”、“以后可能工作更難找了”類似于這樣的對(duì)于未來(lái)的擔(dān)憂之上。而暫時(shí)不考研或者已經(jīng)考過(guò)研的大學(xué)生用戶評(píng)論可能更多的會(huì)保持中立。
SnowNLP 是基于Python 中文文本的文本情感分析包,我們利用它來(lái)進(jìn)行評(píng)論數(shù)據(jù)情感判斷,將評(píng)論數(shù)據(jù)分為正面情緒和負(fù)面情緒兩大類,返回值為情緒的概率,越接近1 表示正面情緒,越接近0 表示負(fù)面情緒。具體情感判斷結(jié)果如圖7 所示:
從圖7 中可以看出,在“武漢高校宿舍被征用”話題中,用戶評(píng)論的負(fù)面情緒較多,在“考研擴(kuò)招”話題中,用戶的正面情緒較多。
考研一直是高校學(xué)生關(guān)注的一個(gè)熱點(diǎn),2020 年受疫情影響教育部為緩解就業(yè)壓力而發(fā)布的研究生擴(kuò)招信息使得這個(gè)話題更加火爆,因此我們對(duì)于“考研擴(kuò)招”話題用戶評(píng)論數(shù)據(jù)的情感分析走勢(shì)進(jìn)行了進(jìn)一步深入的分析。
我們對(duì)于獲取到的“考研擴(kuò)招”話題用戶評(píng)論數(shù)據(jù)進(jìn)行處理后,繪制成了考研擴(kuò)招情感走勢(shì)變化圖,如圖8 所示。從圖中可以看出,“考研擴(kuò)招”話題在2015 年幾乎沒(méi)什么熱度,而近幾年隨著考研人數(shù)大幅度增加,競(jìng)爭(zhēng)愈發(fā)激烈,因此關(guān)注度和話題量也逐步上升。在去年(2019)考試結(jié)束后,在今年(2020 年)1 月份開(kāi)始,復(fù)試受到疫情影響話題度開(kāi)始顯著上升,到2 月份教育部發(fā)布擴(kuò)招相關(guān)文件后,話題度暴增。而從情感分析走勢(shì)來(lái)看,正面情緒和中性情緒還是一直占主導(dǎo)地位,負(fù)面情緒占比較少,說(shuō)明高校學(xué)生還是比較理性地在看待“考研擴(kuò)招”的這個(gè)政策,積極努力的在根據(jù)政策調(diào)整心態(tài),做好考研準(zhǔn)備。
從社會(huì)網(wǎng)絡(luò)的視角看,詞語(yǔ)是網(wǎng)絡(luò)中的一個(gè)個(gè)節(jié)點(diǎn),而它們的共現(xiàn)則體現(xiàn)為節(jié)點(diǎn)之間有直接的聯(lián)系。在虛擬的詞語(yǔ)網(wǎng)絡(luò)中,由于是否共現(xiàn)和共現(xiàn)頻次的不同,每個(gè)節(jié)點(diǎn)在網(wǎng)絡(luò)中具有不同的地位,承擔(dān)不同的角色。在一定的時(shí)間范圍內(nèi),有些關(guān)鍵詞反映的是該話題的討論熱點(diǎn);有些詞之間的聯(lián)系非常緊密;有些詞會(huì)在網(wǎng)絡(luò)中顯得比較孤立。通過(guò)對(duì)詞語(yǔ)網(wǎng)絡(luò)的分析,可以發(fā)現(xiàn)隱藏在真實(shí)關(guān)系網(wǎng)背后的關(guān)系網(wǎng)絡(luò),它對(duì)于了解一個(gè)話題的討論熱點(diǎn)、討論規(guī)模等有極大的幫助。因此,我們對(duì)于“武漢高校宿舍被征用”和“考研擴(kuò)招”兩個(gè)話題進(jìn)行了社會(huì)網(wǎng)絡(luò)分析。
在“武漢高校宿舍被征用”話題的評(píng)論數(shù)據(jù)中,通過(guò)社會(huì)網(wǎng)絡(luò)分析,可以發(fā)現(xiàn)“學(xué)生”、“物品”、“宿舍”處于網(wǎng)絡(luò)圖的中心位置,幾乎與其他所有關(guān)鍵詞都發(fā)生聯(lián)系。除此外,“學(xué)?!?、“武漢”、“征用”等與其他詞的關(guān)系也很緊密,說(shuō)明很多學(xué)生也很關(guān)注這些關(guān)鍵詞,并且其他的關(guān)鍵詞也是圍繞這些關(guān)鍵詞開(kāi)展的,因此可以推斷這些關(guān)鍵詞是話題熱點(diǎn)。
圖9 “武漢高校宿舍被征用”話題用戶評(píng)論數(shù)據(jù)社會(huì)網(wǎng)絡(luò)圖
在“考研擴(kuò)招”話題的用戶評(píng)論數(shù)據(jù)中,通過(guò)社會(huì)網(wǎng)絡(luò)分析,可見(jiàn)“研究生”、“碩士”處于網(wǎng)絡(luò)圖的中心位置,幾乎與其他所有關(guān)鍵詞都發(fā)生聯(lián)系。除此之外,“就業(yè)”、“本科”、“考研”等與其他詞的關(guān)系也很緊密,說(shuō)明很多學(xué)生也很關(guān)注這些關(guān)鍵詞,并且其他的關(guān)鍵詞也是圍繞這些關(guān)鍵詞開(kāi)展的,因此可以推斷這些關(guān)鍵詞是話題熱點(diǎn)。其次,處于邊緣地帶的一些關(guān)鍵詞,如“復(fù)試”、“規(guī)劃”等,這些節(jié)點(diǎn)處于邊緣,與其他關(guān)鍵詞的聯(lián)系較少。最后,像“調(diào)劑”、“貶值”、“疫情”等處中間的關(guān)鍵詞,它們是連接中心關(guān)鍵詞和邊緣關(guān)鍵詞的橋梁。
圖10 “考研擴(kuò)招”話題用戶評(píng)論數(shù)據(jù)社會(huì)網(wǎng)絡(luò)圖
本文關(guān)注的“武漢高校宿舍被征用”、“考研擴(kuò)招”兩個(gè)話題都是在新冠疫情爆發(fā)這一特殊時(shí)期發(fā)生的影響比較大的高校網(wǎng)絡(luò)輿情事件,受到廣大高校學(xué)子的持續(xù)關(guān)注,對(duì)于研究高校輿情具有一定的典型性和代表性。在文章中,首先使用Python 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)從微博和知乎等社交媒體的這兩個(gè)話題的相關(guān)評(píng)論頁(yè)面抓取了相關(guān)評(píng)論數(shù)據(jù),對(duì)采集到的文本數(shù)據(jù)進(jìn)行清洗和中文分詞,去除數(shù)據(jù)中停用詞,然后基于詞頻統(tǒng)計(jì)繪制了詞云圖,再結(jié)合相關(guān)工具和技術(shù)對(duì)兩個(gè)話題分別進(jìn)行了情感分析,并利用Snowlp 模塊進(jìn)行了情感判斷。從分析結(jié)果來(lái)看,“武漢高校宿舍被征用”話題評(píng)論數(shù)據(jù)中前期負(fù)面情緒較多,后期逐漸轉(zhuǎn)向正面情緒,可以看出高校學(xué)生對(duì)于宿舍被征用作為防疫用途初期是有所顧慮的,更多表現(xiàn)在對(duì)于私人財(cái)產(chǎn)和公共衛(wèi)生方面的擔(dān)憂,但隨著疫情的發(fā)展,越來(lái)越多的大學(xué)生表達(dá)了對(duì)特殊時(shí)期特殊政策的支持,體現(xiàn)出了高度的社會(huì)責(zé)任感和愛(ài)國(guó)精神;在“考研擴(kuò)招”話題評(píng)論數(shù)據(jù)中正面情緒占主導(dǎo)地位,可以看出對(duì)于考研擴(kuò)招大部分大學(xué)生持樂(lè)觀情緒,覺(jué)得自己考上研究生的希望增加,雖然也有部分負(fù)面情緒集中在對(duì)于學(xué)歷貶值、工作不好找的擔(dān)憂方面,但是整體來(lái)看態(tài)度是積極的。最后采用社會(huì)網(wǎng)絡(luò)圖的形式對(duì)于兩個(gè)話題中的關(guān)鍵詞匯之間的關(guān)聯(lián)關(guān)系進(jìn)行了進(jìn)一步分析。
在當(dāng)前以社交媒體為主流的互聯(lián)網(wǎng)時(shí)代,高校網(wǎng)絡(luò)輿情已經(jīng)成為社會(huì)網(wǎng)絡(luò)輿情的一個(gè)重要組成部分。高校網(wǎng)絡(luò)輿情具有敏感事件多、傳播速度快、復(fù)雜程度高、影響范圍廣等特點(diǎn),加大了網(wǎng)絡(luò)輿情管理的難度。網(wǎng)絡(luò)輿情危機(jī)的發(fā)生和輿情主體特征有密切關(guān)聯(lián),因此要做好高校網(wǎng)絡(luò)輿情工作,就需要展開(kāi)大量基于實(shí)際熱點(diǎn)輿情問(wèn)題的調(diào)研,分析高校網(wǎng)絡(luò)輿情主體特征,把握好網(wǎng)上輿論引導(dǎo)的時(shí)度和效度,對(duì)高校網(wǎng)絡(luò)輿情導(dǎo)控提出針對(duì)性的建議和指導(dǎo)方法,從而創(chuàng)建更加和諧的高校網(wǎng)絡(luò)環(huán)境。