劉建義,夏 換,周 潔
(1.貴州財經(jīng)大學(xué)信息學(xué)院,貴州 貴陽 550025;2.貴州財經(jīng)大學(xué)電子商務(wù)大數(shù)據(jù)營銷工程研究中心)
隨著后疫情時代的來臨,我國民眾的健康信息素養(yǎng)顯著提升,居家隔離時通過各種渠道獲取健康信息知識,并且在微博、抖音等社交媒體平臺發(fā)布個人訴求、表達個人情感等,特別是伴隨著熱點事件的出現(xiàn),民眾的情感表達和現(xiàn)實訴求會集中性的出現(xiàn)。
智能終端的普及使得我國網(wǎng)民下沉現(xiàn)象明顯,研究對象不僅僅局限于青年群體,中老年群體也開始成為研究對象的一部分,一定程度上豐富研究對象的年齡屬性和群體屬性使得結(jié)論更具現(xiàn)實意義。
當(dāng)下社交媒體的便利性使得民眾表達訴求和情感的方式變得簡單。例如:一條微博抖音評論、一條政府留言板留言、一條朋友圈、一條彈幕等都可成為其表達情感和訴求的途徑。表達途徑的方便往往造成信息的冗雜,為方便政府及時了解后疫情時期民眾的切實訴求,所以采用LDA 主題模型和社會網(wǎng)絡(luò)分析對人民網(wǎng)評論數(shù)據(jù)進行歸類總結(jié),構(gòu)建主題詞圖譜;同時根據(jù)時間的推移構(gòu)建民眾訴求主題的演化趨勢。
曾子明、孫晶晶兩位學(xué)者以新冠疫情為例,從用戶注意力的角度對突發(fā)公共衛(wèi)生事件輿情情感的演化進行了相關(guān)研究,著重考慮了影響用戶情感分析的用戶特征這一影響因子,提出基于用戶注意力的情感分析模型,對輿情情感演化具有一定的可解釋性,但是其數(shù)據(jù)單一,未考慮數(shù)據(jù)的多元性。曹樹金,岳文玉就突發(fā)公共衛(wèi)生事件微博輿情主題挖掘與演化分析進行了相關(guān)研究,通過生命周期理論對突發(fā)公共衛(wèi)生事件微博轉(zhuǎn)播階段進行劃分,利用LDA 主題模型實現(xiàn)文本聚類和TF-IDF 特征權(quán)重賦值,分析2020.01-04的熱門微博和評論文本數(shù)據(jù),指出LDA 主題模型可以揭示突發(fā)公共衛(wèi)生事件微博的傳播內(nèi)容主題。王偉、高寧、徐玉婷等利用LDA 主題模型對眾籌項目在線評論主題動態(tài)演化分析進行了相關(guān)研究,得出LDA 主題模型可以很好的處理在線評論的主題動態(tài)演化。楊建梁、劉越男等就2019 年12 月1 日-2020 年5 月15 日部分地市的人民網(wǎng)地方政府留言板的民眾留言進行了數(shù)據(jù)挖掘分析,數(shù)據(jù)來源較為單一,部分民眾的訴求還是難以得到體現(xiàn),但是他考慮到了空間因素對民眾訴求的影響。顏端武、梅喜瑞等基于主題模型和詞向量融合的微博短文本主題聚類研究,利用LDA 主題模型對微博一段時間內(nèi)的的熱點進行聚類分析,發(fā)現(xiàn)對微博短文本的處理效果較好。楊奕、張毅以中美貿(mào)易爭端為案例,利用LDA 主題挖掘與社會網(wǎng)絡(luò)分析算法探究復(fù)雜公共議題下社交媒體演化趨勢,先利用LDA 主題模型提取出議題關(guān)注主題,實現(xiàn)降維分類,然后進行主題時間趨勢分析,最后利用社會網(wǎng)絡(luò)分析構(gòu)建主題詞圖譜,明確了主題議題之間的聯(lián)系。
研究數(shù)據(jù)采用2021 年5 月-11 月人民網(wǎng)地方政府留言板的新冠疫情有關(guān)留言內(nèi)容、留言標題和央視新聞2021年5月-11月與新冠疫情有關(guān)的微博評論內(nèi)容。
數(shù)據(jù)的獲取采用Python 爬蟲技術(shù)獲取,利用Python 爬蟲第三方庫selenium 即瀏覽器自動化操作框架,這里主要用到WebDriver這一個工具,接著利用element_by_xpath 或css_selector 進行數(shù)據(jù)抓取,具體處理過程為:
⑴新建.py 文件導(dǎo)入第三方庫selenium、Pandas、time、csv、requests、json、lxml、urllib.;
⑵獲取URL;
⑶設(shè)置代碼自動點擊登錄按鈕,然后選擇掃碼登錄,程序休眠5秒方便掃碼;
⑷登錄后利用by_xpath 選擇內(nèi)容搜索,keyword=新冠疫情;
⑸建立空白詞典詞典內(nèi)容包括留言時間、留言內(nèi)容內(nèi)容、留言標題;
⑹抓取數(shù)據(jù),F(xiàn)12 進入開發(fā)者選項利用by_xpath抓取所需數(shù)據(jù)的源代碼,同時設(shè)置代碼將滾動條拖到最后方便獲取全部數(shù)據(jù)。
另外因為微博評論的特殊性,使用移動端源代碼獲取評論較為簡單,需要找到爬取微博評論的URL、cookie、Referer、User-Agen;除此之外因為現(xiàn)在微博的反爬蟲機制,20 條評論后會出現(xiàn)一個隨機變化的max_id 參數(shù),設(shè)置代碼捕捉這個參數(shù)就可以實現(xiàn)翻頁爬取。
LDA主題模型(圖1)是一個“文本-主題-單詞”的三層貝葉斯產(chǎn)生式模型,即三層貝葉斯概率圖,包含文檔、主題、主題詞三層結(jié)構(gòu),該方法首先選定一個主題向量θ,確定每個主題被選擇的概率。然后在生成每個單詞的時候,從主題分布向量θ 中選擇一個主題z,按主題z的詞語概率分布生成一個詞語。
圖1 LDA主題模型邏輯圖
為了更科學(xué)的確定主題數(shù)不僅要從模型效果的角度,還要考慮所獲主題是否具有良好的解釋性。擬采用困惑度(Perplexity)指標來確定最優(yōu)主題數(shù),困惑度越低,說明聚類的效果越好。
根據(jù)困惑度確定好主題數(shù)之后,進行LDA 主題模型分析,分析結(jié)果利用pyLDAvis 包進行數(shù)據(jù)可視化,方便政府更加清晰直觀的獲取民眾訴求主題熱點。
從圖2 可以很明顯的看出,文本聚類圈之間沒有重合,說明聚類效果很好。
圖2 LDA聚類圖
利用LDA 主題聚類結(jié)果可以很清楚的了解到住房問題、工作問題、醫(yī)療問題、考試教育問題、旅游問題成為當(dāng)下民眾最關(guān)心的問題,也代表了他們當(dāng)下的切實訴求。為了方便歸類統(tǒng)計,設(shè)計了表1。
表1 主題熱詞歸類表
另外,為了更直觀地表達各個主題詞聯(lián)系的緊密程度和主題熱詞隨時間推移的演化趨勢,本次研究中采用社會網(wǎng)絡(luò)分析法來進行可視化分析。利用社區(qū)探測算法(模塊化),根據(jù)原始圖中各個關(guān)系節(jié)點相互連接的歸類。類型相同的兩個節(jié)點在模塊化處理過程中會隨之增加一個字段(數(shù)字表示)。通過計算社交網(wǎng)絡(luò)各個節(jié)點的連邊數(shù)與隨機點的連邊數(shù)之差,用于判斷該社交網(wǎng)絡(luò)的緊密程度。
將所獲數(shù)據(jù)依據(jù)時間維度來進行數(shù)據(jù)劃分,根據(jù)上述兩個網(wǎng)絡(luò)圖譜來分析,前幾個月,疫苗、防疫等主題熱詞出于中心緊密點,而隨著時間的推移,旅游、交房、供暖等主題熱詞開始由邊緣向中心移動。這表明疫情防控措施是非常有效的,公民由最開始的關(guān)心疫情物資政策逐漸變?yōu)殛P(guān)心疫情時期的教育、旅游、住房等重要的民生問題。我國民眾也由最初的恐慌性情緒轉(zhuǎn)變?yōu)橹饾u接受新冠疫情的常態(tài)化存在,特別是全民接種疫苗計劃的推進,使得民眾對新冠疫情的恐懼降到了最低,所以后疫情時期的日常生活問題就成了民眾最為關(guān)心的問題。
圖3 5-7月主題熱詞網(wǎng)絡(luò)圖
圖4 9-11月主題熱詞網(wǎng)絡(luò)圖
在研究過程中發(fā)現(xiàn),民眾的訴求主題中不僅僅包括現(xiàn)實問題,還包括對熱點事件和政府防疫政策的情感表達(主要分為消極、積極兩種態(tài)勢)。針對這一突出問題,我們在閱讀相關(guān)文獻之后,決定在后續(xù)研究中采用機器學(xué)習(xí)算法對民眾情感進行分類研究,其中為了測試那種機器學(xué)習(xí)算法精確度和適配度最高,利用獲取到的數(shù)據(jù)構(gòu)建了數(shù)據(jù)測試集,將1000條情感數(shù)據(jù)按照消極積極地情感屬性進行評分,帶入支持向量機、隨機森林、樸素貝葉斯三種機器學(xué)習(xí)算法檢驗?zāi)P瓦m配度,結(jié)果如下:
圖5 隨機森林測試集數(shù)據(jù)圖
根據(jù)表2 顯示,隨機森林算法的各項指標都是比較理想的,所以針對新冠疫情熱點事件中民眾的情感態(tài)勢的科學(xué)把控,可以采用隨機森林算法進行情感分類。根據(jù)分類結(jié)果責(zé)成權(quán)威媒體進行發(fā)聲,方便政府進行社會輿論的引導(dǎo)。
表2 測試集數(shù)據(jù)表
根據(jù)數(shù)據(jù)分析結(jié)果可以得出,住房問題、教育問題、工作問題、旅游問題成為了受關(guān)注度最高的問題,社會各界應(yīng)當(dāng)集中優(yōu)勢資源,優(yōu)先解決這些問題。
⑴住房問題的解決措施
住房問題多是何時可以交房、延期交房、供暖問題,所以針對這些問題政府應(yīng)當(dāng)敦促開發(fā)商嚴格按照合同規(guī)定交付住房、供暖等,落實追責(zé)制度;對于不可抗力原因延期交房、延期供暖的應(yīng)當(dāng)及時通過官方媒體、公眾號等渠道告知業(yè)主并且對其進行安撫,同時政府應(yīng)當(dāng)通過調(diào)配各種資源來保障這部分業(yè)主的正常生活。
⑵工作問題的解決措施
工作問題多是工資發(fā)放不及時、政府減免租金等問題。政府應(yīng)當(dāng)用盡用活各種優(yōu)惠政策,例如擴大租金減免的適用范圍、提高政府補助的額度、對符合條件的企業(yè)進行合理的稅務(wù)減免等等,給予中小企業(yè)強有力的支持,使其可以在新冠疫情的沖擊下仍能良性發(fā)展或者轉(zhuǎn)型;企業(yè)也應(yīng)當(dāng)調(diào)整發(fā)展戰(zhàn)略,適應(yīng)后疫情時代的經(jīng)濟環(huán)境,遵循政府的引導(dǎo),挖掘潛在市場,為民眾提供一定的就業(yè)崗位,維護國家經(jīng)濟穩(wěn)定。
⑶教育問題的解決措施
教育問題集中體現(xiàn)在各種證書和學(xué)歷的考試、公務(wù)員考試、幼兒園入學(xué)等。不同疫情地區(qū),在考試、開學(xué)時間,核酸檢測等方面應(yīng)作出合理調(diào)整。
⑷旅游問題的解決措施
旅游問題集中體現(xiàn)在跨省旅游核酸、隔離、旅游退費等問題。針對這些問題加強防疫政策的宣傳,可考慮將抖音、快手等作為宣傳渠道。政府和相關(guān)機構(gòu)應(yīng)當(dāng)制定出退費的標準,合理退費,從法律層面對疫情時期的退費進行規(guī)范法、法制化,不可自說其話影響自身公信力。
本文的研究主要是針對當(dāng)下民眾的熱點訴求進行分析整理,針對新冠疫情熱點事件中民眾情感態(tài)勢的分類進行了數(shù)據(jù)集測試,結(jié)果顯示,隨機森林算法處理情感文本分類是最契合的。準確把握這些訴求有助于政府有針對性的解決民生問題,增強人民的獲得感、幸福感和自豪感。