趙彥勇,周家靜,厲 海,趙洪宸
(南京審計大學 統(tǒng)計與數學學院,江蘇 南京211815)
2019 年12 月底,武漢市疾控中心經過檢測發(fā)現(xiàn)了一種原因不明的肺炎病例。2020 年1 月11 日,我國出現(xiàn)首個新冠肺炎患者死亡病例。2 月3 日,武漢市正式實施《傳染病防治法》規(guī)定的“甲類傳染病疫區(qū)封鎖”措施,各類公共交通停止運營,此時全國累計確診病例已超過2 萬人。2 月16 日,全國累計確診病例超過7 萬人。2 月20 日,武漢市新增治愈病例首次大于新增確診病例。4 月8 日,武漢正式解除離漢通道管控,逐步恢復各類交通的正常運行。6月11 日,北京市新增1 例本土病例,結束了連續(xù)五十多天無新增病例的現(xiàn)狀。6 月14 日,北京新增本土確診病例36 例。7 月8 日,北京單日治愈人數創(chuàng)新高。7 月中下旬以來,遼寧省大連市與新疆自治區(qū)烏魯木齊市相繼發(fā)生了聚集性疫情。截至7 月底,全國確診病例714 例,累計治愈出院病例78 989 例,累計報告確診病例84 337 例。新冠肺炎發(fā)生以來,疫情變動成為了每個中國人關心的話題,引起了社會各階層民眾的關注。隨著網絡的普及,網絡交流軟件成為人們了解新冠肺炎疫情、自由發(fā)表言論的平臺,“疫情”“確診”“防控”等話題屢屢被推上關注的制高點。2020 年2 月份以來,為了打贏這場“戰(zhàn)疫”,黨中央和國務院、省市各級政府均要求企業(yè)延遲復工,并采取了嚴格的交通管制措施。各省市不僅嚴格控制外來車輛的進入,而且城市內部也停止了大部分公共交通的運營。城市軌道交通作為便利、快速、安全的交通工具,具有覆蓋面廣、站點多、客流密集的特點,更容易引起疫情的傳播。為此,10 個城市采取了不同程度的交通管控措施,上海、重慶、南京等關閉部分站點。交通運輸部門采取班次停運或車次調整的措施,來控制因公共交通出行而引發(fā)的病毒交叉感染。
民眾對新冠肺炎疫情的高熱情和長時間討論,對于研究疫情輿情有重要的意義。通過對大眾情感進行分時段研究,能夠很好地了解社會心理變化,預測未來的民眾情緒,對各級政府部署防控工作具有重要的現(xiàn)實意義。國內已有許多關于輿情數據的分析,例如,陳興蜀等(2020)[1]通過抓取微博評論,研究了與“新冠肺炎數據”話題相關的輿情時空演化。孫宇婷等(2020)[2]利用網絡指數,運用空間計量、可視化與回歸分析等方法研究得出,東、西部地區(qū)民眾對疫情的關注度差異較大,人口流動、社會經濟等因素在不同程度上影響著民眾對疫情的關注度。此外,特定時間出現(xiàn)的有關疫情的新聞也會引起公眾情緒的波動,存在“情緒脈沖效應”(張放、甘浩辰,2020)[3]。本次突發(fā)性事件引起了城市交通運輸的停滯和居民出行的不便,但也推動了運輸部門遠程辦公的廣泛應用,并增加了小汽車的限購配額(王宇、許定源、石琳,2020)[4]。種鵬云和尹惠(2020)[5]通過建立系統(tǒng)動力學模型、張毅等(2020)[6]通過構建病毒易感度評估模型研究了交通運輸對疫情傳播的反饋作用。馮旭杰等(2020)[7]分別對運輸服務、企業(yè)經營和應急處置進行了定性分析,提出恢復城市軌道交通面臨的挑戰(zhàn)。其中,周艾燕等(2020)[8]指出在常態(tài)化防控下,如何提升交通運輸綜合執(zhí)法能力就是一項挑戰(zhàn)。
通過有關新冠肺炎疫情的文獻梳理可知,大多數學者在對輿情進行時空分析時很少結合當下的熱點話題,并且在對交通出行的分析中傾向于使用文獻調查的研究方法。本文綜合以往研究,在輿情分析中結合微博熱點時事,關注現(xiàn)實話題。此外,關于新冠肺炎疫情對交通出行影響的大多研究缺少定量分析,而本文不僅直觀分析了各市研究時段的出行變化情況,而且將新冠肺炎疫情期間網絡輿情與交通出行二者相結合,建立了計量模型進行研究。
本文主要使用Python 軟件抓取了2020 年1 月1 日至7 月31 日微博新冠肺炎話題下的用戶評論數據和城市軌道交通日客流量數據進行研究。首先,我們對爬取的文本進行jieba 分詞。接著,采用SnowNLP 庫進行情感分析,得出10 個城市的日平均情感得分圖,再使用數據可視化工具pyecharts,將各城市的微博評論情感得分圖與地鐵日客流量分布圖進行比對。在輿情演化分析和交通出行特征分析的基礎上,建立面板回歸模型,探討網絡輿情對交通出行的影響。網絡輿情分析得出,各城市居民在研究時段內對新冠肺炎疫情基本持積極態(tài)度,2020 年2 月民眾情緒最低迷,與“新冠肺炎”“確診病例”等相關的搜索詞獲得了較高的關注度。交通出行分析得出,2020 年1 月23 日后各城市日客流量均出現(xiàn)劇降,此后上海地鐵運營在各城市中恢復速度最快。城市日客流量的增速對民眾的平均情感得分具有顯著的積極作用,日客流量的上漲側面反映出交通出行的自由靈活,長期被“封閉”的情緒得以釋放,民眾情感得分顯著提高。
網絡爬蟲,是一個按照事先給定的規(guī)則,自動地、循環(huán)地抓取網頁數據信息的腳本或者程序。由于它們能根據限制條件自動采集所訪問頁面的信息,以供搜索引擎做進一步的處理,從而讓用戶能更方便快捷地獲得需要的信息,因此目前應用比較廣泛。許多網站的運維人員常常用它來更新網站內容,也有一些數據分析人員或者專家學者使用網絡爬蟲來進行數據的分析和挖掘。
網絡爬蟲整個工作由控制器、解析器和資源庫配合完成??刂破骺刂浦麄€爬取活動的進行,它根據從URL 棧中獲取的網頁鏈接,給各爬蟲線程分配工作任務。解析器主要用來下載網頁,并對下載后的頁面做進一步處理,承擔了爬蟲工作的主要部分。資源庫主要用來存取網絡爬蟲爬取到的數據信息,當數據量比較大時一般用數據庫來存儲,并提供生成索引的目標源。
網絡爬蟲爬取的網頁鏈接集合一般由兩部分組成:一是由人工準備的、比較重要的目標網站鏈接集;二是從第一部分的鏈接中獲取的子鏈接,因為一個網站中往往包含許多鏈接。但是,在對這部分鏈接進行篩選時需要非常嚴格,互聯(lián)網絡龐大復雜,一旦出錯將導致整個爬蟲程序失敗。有了初始的URL 集后,網絡爬蟲便可以開始數據的抓取。前面提到網頁中一般含有其他的鏈接,從現(xiàn)有的網頁便可以獲取一些新的鏈接,那么可以把這種網頁之間的結構關系看成是一個森林,每個種子鏈接URL 就是森林中相應樹的根節(jié)點。這樣,爬蟲系統(tǒng)就可以使用各種搜索算法遍歷整個網頁,通常爬蟲工作者會使用廣度優(yōu)先搜索算法來收集網頁信息。首先網絡爬蟲系統(tǒng)會把種子URL 存放在下載隊列中,然后依次從隊列首部取出一個URL 并用解析器下載該鏈接的網頁。這時候還會獲得一些新的URL,將這些新獲取的URL 加入到下載隊列中。接著再從下載隊列首部取出一個URL,進行網頁的下載和信息收集,之后取URL 再解析,如此反復進行,直到遍歷了下載隊列中所有鏈接或者滿足某種限制條件后就結束整個爬蟲過程。
微博作為網民分享簡短實時信息的重要網絡平臺,數據開放程度較高。基于此,本文決定爬取微博新冠疫情話題下的用戶評論,并對其進行情感分析。目前,微博一共有三個站點,分別是“https://weibo.cn”“https://m.weibo.com”“https://weibo.com”,三個網站的爬取難度由易到難。由于爬取新冠疫情話題下的用戶評論需要用到微博中的高級搜索功能,而“https://m.weibo.com”網站并不包含該功能,所以予以排除。“https://weibo.com”的高級搜索入口為“https://s.weibo.com”,篩選條件包括類型、用戶、時間、地區(qū),這里的時間是以小時為單位的。鑒于可得微博的數量,“https://weibo.com”在一天時間內獲得的最大微博數量為24 000 條,是“https://weibo.cn”的24 倍。此外,由于本文需要獲取不同城市用戶的微博評論,因此最終選擇對“https://weibo.com”進行爬取。
通過高級搜索功能,以“新冠疫情”為關鍵詞,并按照本文選擇的10 個主要城市對搜索結果進行劃分,分別得到了10 個城市微博用戶對新冠疫情的評論。在爬取過程中,本文對2020 年1 月1 日至7 月31 日(共計213 天)的評論按照熱度由高到低,以每一天為一段,共計213 段,進行爬取。每個城市每一天可以爬取評論1 000 條,每個城市共計爬取用戶評論213 000 條。
本文使用Python 語言的request 庫對頁面信息進行獲取,要抓取到微博的數據,首先要登陸微博,而微博檢測用戶是否登陸,就是檢查用戶這次request 請求攜帶的cookie。為此,本文通過登陸微博,獲取了cookie 并保存,在request 中加入包含微博賬號cookie 信息的headers 以實現(xiàn)模擬登陸,即可實現(xiàn)對微博頁面的爬取?;趓equest 庫所獲取的頁面信息,本文通過BeautifulSoup 庫和正則表達式相結合的方式,提取了頁面中的所有評論,并將每條評論以天為單位依次存儲在csv 文件中,經過去重,得到最終的評論信息,部分評論如表1 所示。
表1 抓取微博的部分評論
1.微博用戶綜合情感。情感分析是指利用自然語言處理方法和文本挖掘技術,對帶有情感色彩的主觀性文本進行分析、處理和抽取的過程。因特網上產生了大量對于人物、事件、產品等的評論信息,從中可以提取到用戶的情感態(tài)度,包括贊成和否定。對于微博博文的內容,本文采用Python 的SnowNLP 庫進行情感分析。SnowNLP 庫自帶了一些訓練好的字典,可以方便地處理中文文本內容。SnowNLP 的分析過程是先讀取已分好類的文本,再對文本去停用詞和分詞,計算每個詞出現(xiàn)的頻數。然后通過bayes 定理計算正面和負面的先驗概率,對要進行判斷的文本進行切分,計算每個詞的后驗概率,最后選擇概率較大的類別。由此可以對大量的微博文本進行情感分析,得到10 個城市每天的平均情感得分,再用matplotlib 進行繪制,從而更加清晰地反映民眾對于新冠肺炎疫情的態(tài)度變化。
使用SnowNLP 分析得到的結果在0~1 之間,如圖1 所示。若結果大于0.5,則表明情感偏向正面;若結果小于0.5,則表明情感偏向負面。
圖1 綜合平均情感得分折線圖
由圖1 可知,2020 年1 月1 日至7 月31 日期間,民眾對于新冠肺炎疫情整體持正面態(tài)度。從得分的走勢來看,民眾對新冠肺炎疫情的情感態(tài)度大致可以分為五個階段。第一階段為2020 年1 月1 日至2 月9 日,該時期內民眾情緒波動較大,但情感得分都在0.5 以上。1 月1 日“華南海鮮批發(fā)市場休市整治”的信息居于微博熱議話題中,前兩日的情感得分有小幅下降。隨后“不明原因肺炎未有發(fā)現(xiàn)明確人傳人證據”等信息緩和了民眾的情緒,情感得分逐步上升。1 月23 日,“武漢封城”登上微博熱搜榜首,此舉措令民眾意識到問題的嚴重性。之后農歷新年到來,“疫情拐點將出現(xiàn)”的信息再一次緩和了民眾的情緒。第二階段為2 月9 日至2 月29 日,該時期內民眾情緒略呈現(xiàn)負面,情感得分一直維持在0.5 以下。2 月初每日公布的新增感染病例逼近萬人,并且各城市陸續(xù)采取交通和外出限制,長期封閉在居所是導致民眾產生負面和恐慌情緒最主要的原因。第三階段為3 月1 日至6 月13 日,該時期內民眾情感得分在0.5 以上,波動較小。3 月國內疫情逐漸好轉,且部分地區(qū)解封的消息讓民眾情緒趨向正面。然而,5月29 日召開的兩會沒有確定GDP 增長的量化指標,這可能導致民眾對未來經濟發(fā)展缺乏信心,情感得分因而大幅下跌。第四階段為6 月13 日至6 月21 日,該時期內民眾情緒略偏向負面,情感得分在0.5 周圍波動。6 月12 日北京發(fā)生的疫情讓情感得分下降到0.5 以下,隨后在0.5 左右出現(xiàn)波動。隨著疫情迅速受到控制,情感得分也逐漸回升。第五階段為6 月21 日至7 月31 日,該時期內民眾情緒波動較大,但情感得分都在0.5 以上。7 月中旬烏魯木齊發(fā)生疫情時,我國居民對疫情已經能夠以平常心對待,因而情感得分變化不大。同時可以看出,北京作為首都,發(fā)生疫情對全國民眾的情緒影響較大,而其他地區(qū)發(fā)生疫情對全國民眾的情緒影響相對較小。總的來說,民眾對于新冠肺炎疫情的態(tài)度大致經歷了五個階段,情緒狀態(tài)大體偏向正面,可以推測未來也會持續(xù)地趨于正面。
2.各城市微博用戶的平均情感得分。本文對2020年1 月1 日至7 月31 日各城市網民的情感值取平均值,得出各城市網民的平均情感得分,具體見表2。
表2 各城市網民的平均情感得分
由表2 可知,武漢、成都、重慶等城市的情感得分均值較低,處于0.548~0.566 之間??梢钥闯觯楦械梅州^低的城市大多數處于我國的中西部地區(qū),原因可能是這些地區(qū)經濟發(fā)展程度相對較低,民眾對外交流機會少,武漢市作為中西部地區(qū)的交通樞紐,與這些城市的交通聯(lián)系更為便捷。
武漢“封城”時間為2020 年1 月23 日,僅用1月1 日至7 月31 日期間的平均情感得分不能夠準確地反映出疫情初次爆發(fā)時民眾的情緒變化。為此,本文以1 月23 日武漢“封城”的時間作為起始日期,2 月10 日全國各地開始啟動復工的日期作為結束日期,再次計算了19 天內網民的平均情感得分,相關結果見表3。
表3 武漢“封城”事件下各城市網民的平均情感得分
由表3 可知,在這段時期內,新冠肺炎疫情受到大眾的廣泛關注,其中武漢作為疫情爆發(fā)的城市,受疫情影響最為嚴重,市民的情感得分最低,為0.541 1。其他城市在該時期內的情感得分均高于全時期內的情感得分,可能是因為,該階段民眾雖然已經意識到疫情的嚴重性,但此時正處于農歷新年,過新年的快樂氛圍高于人們對疫情的擔憂,此時武漢市以外的其他市民可能仍未意識到此次疫情的威脅性和嚴重性。
3.微博用戶關注話題。為了解疫情期間熱度較高的話題,本文將2020 年1 月1 日至7 月31 日微博關于新冠肺炎疫情的評論經過分詞后得到詞頻,將詞頻位列前十的高頻關鍵詞繪制成柱狀圖進行展示,如圖2 所示。
圖2 微博評論高頻關鍵詞
如圖2 所示,出現(xiàn)頻數最高的是“肺炎”一詞,此外出現(xiàn)頻數較高的還有“新冠”“疫情”“病例”等詞匯,這些詞匯直接反映了民眾對于此次疫情發(fā)展變化的高度關注。同時,關注度排名第六位的詞為“防控”,反映了民眾對戰(zhàn)勝疫情的迫切心情。雖然目前國內的疫情得到了控制,但從國內外疫情發(fā)展來看,依然不能松懈。
圖3 微博評論詞云圖
為了更直觀地分析民眾對于新冠肺炎疫情的關注度,本文繪制了詞云圖,如圖3 所示,詞頻由字體的大小體現(xiàn)?!胺窝住薄靶鹿凇薄耙咔椤薄按_診”“病例”等詞突出,說明關于此次疫情的話題以新冠肺炎為核心,民眾非常關心每天確診了多少病例。其次,“市場供應”“人均收入”“權益”“底層”“工作崗位”等詞語得到清晰呈現(xiàn),表明市場需求不足導致供給市場中商品滯銷,企業(yè)出現(xiàn)虧損,失業(yè)現(xiàn)象加重,收入減少,引發(fā)了大眾對民生權益的關注?!懊绹薄皞惗亍焙汀胺鹆_里達州”等詞語的出現(xiàn),說明了我國居民對國外疫情的持續(xù)關注。
4.文本聚類。首先本文基于TF-IDF 對微博評論文本進行K 均值聚類。TF-IDF 的主要思想是,如果某個詞或短語在一篇文章中出現(xiàn)的頻率高,并且在其他文章中很少出現(xiàn),則認為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。
TF-IDF 實際上是TF*IDF。TF 是指詞頻(Term Frequency),表示詞條在文檔d 中出現(xiàn)的頻率。IDF是指逆向文件頻率(Inverse Document Frequency),其主要思想是,如果包含詞條t 的文檔越少,也就是n 越小,IDF 就越大,說明詞條t 具有很好的類別區(qū)分能力。
K 均值聚類是迭代動態(tài)聚類算法中的一種,其中K 表示類別數。K 均值聚類算法通過預先設定的K 值及每個類別的初始質心對相似的數據點進行劃分,并通過劃分后的均值迭代優(yōu)化獲得最優(yōu)的聚類結果。
圖4 聚類結果圖
圖4 是設定K=5 并通過聚類得到的結果,一行代表一個類別,每行中的詞是此類別的關鍵詞??梢钥吹剑旱谝活惖年P鍵詞包括“新冠病毒”“武漢”“世衛(wèi)”“美國”等,說明這個類別下的評論可能是在討論新冠肺炎病毒起源的問題;第三類的關鍵詞包括“病例”“確診”“新增”“報告”等,說明這個類別下的評論可能是在討論新冠肺炎每日新增的數量;第二、四、五類的關鍵詞包括“時間”“瀏覽器”“手機”等,這可能是微博評論中顯示的發(fā)布時間以及發(fā)布微博評論所采用的方式,包括電腦瀏覽器、手機客戶端等。
從上述結果來看,聚類的效果不是很好,因此接下來本文使用LDA 模型生成文本主題。LDA(Latent Dirichlet Allocation)是一種文檔主題生成模型,也稱為三層貝葉斯概率模型,包含詞、主題和文檔三層結構。所謂生成模型是指文章的每個詞都是通過“以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語”這樣一個過程得到的。
LDA 可以用來識別大規(guī)模文檔集或語料庫中潛藏的主題信息,它采用了詞袋(bag of words)的方法,這種方法將每一篇文檔視為一個詞頻向量,從而將文本信息轉化為易于建模的數字信息。每一篇文檔代表了一些主題所構成的一個概率分布,而每一個主題又代表了很多單詞所構成的一個概率分布。
圖5 LDA 模型圖
圖5 是使用LDA 模型生成的微博評論文本中重要性排名前十的主題,其中關鍵詞前面的系數代表此關鍵詞在該主題中的重要性程度,程度越高,系數越大??梢钥吹剑旱谝粋€主題應該是呼吁民眾在新冠肺炎疫情肆虐的情況下戴好口罩;第七個主題應該是每天有多少境外輸入的確診病例;第八個主題關注的是美國新冠肺炎的確診病例數量;第九個主題表明新冠肺炎疫情下中國在行動,即我國政府在疫情下發(fā)揮了巨大的動員能力,將國內疫情控制好并向國外提供了必要的援助;第十個主題與剛才聚類得到的第一類結果相似,可能是在討論新冠肺炎病毒起源的問題。
總體來看,我國民眾在新冠肺炎大流行時關注的話題主要有新冠肺炎起源、戴好口罩做好自身防護、我國在抗擊疫情中的表現(xiàn)、國外疫情發(fā)展。
新冠疫情爆發(fā)期間,市民的日常公共交通出行受到了嚴重影響。2020 年1 月23 日,武漢實施了“封城”措施,城市內的各類公共交通停運,客運、火車、飛機也暫時關閉了對外的通道。同一時間內,全國其他各個城市也對其下轄的公共交通部門進行了嚴格管制,城市公共汽車、出租車、網約車經營企業(yè)是城市公共交通疫情防控的第一責任單位。
在這樣的情形下,為保障必要的外出,地鐵成為了民眾快捷出行的最佳選擇?;诖?,本文決定采用地鐵客流量來反映疫情期間的公共出行狀況。受限于交通信息每日數據的可獲得性和公開性,本文最終獲取了國內10 個城市在2020 年1 月1 日至7 月31 日期間的地鐵日客流量信息(杭州市地鐵客流信息僅搜集到1 月1 日至4 月30 日的數據),信息來源于各個城市軌道交通微博賬號的每日客流量披露,包括北京、南京、重慶、西安、成都、武漢、上海、杭州、廣州、鄭州10 個城市。
為了更加直觀地反映出本文所選取的10 個城市在2020 年1 月1 日至7 月31 日的客流量變化情況,本文將此期間內各個城市的地鐵客流量繪制成折線圖,如圖6 所示。
從圖6 可以清晰地看出,在疫情爆發(fā)前的2020年1 月上旬,上海、廣州、北京作為10 個城市中人口最密集的3 個城市,地鐵開通的線路最多,地鐵客流量明顯高于其他7 個城市。1 月下旬,恰逢春節(jié)返鄉(xiāng),新冠肺炎確診病例開始大幅增加,而1 月23 日的武漢“封城”事件則是媒體與公眾對新冠肺炎疫情引發(fā)關注的重要標志。折線圖中所反映的地鐵客流變化情況也與疫情的發(fā)展狀況大致趨同,所有城市的地鐵客流同時從1 月21 日開始呈現(xiàn)墜崖式下跌,并于1 月23 日跌至谷底。
2020 年1 月23 日,武漢“封城”措施實施后,全國各地的民眾都對新冠疫情的嚴重性有了更清醒的認識。隨后不久,各省市政府下達了交通管制、出行限制的指示,城市交通幾近癱瘓,日客流量急劇下降。雖然只有武漢市的地鐵停運,但從圖6 中可以看出,所有城市的地鐵客流量都出現(xiàn)了明顯下降。3 月初到4 月底,國內疫情得到有效控制,民眾對戰(zhàn)勝新冠肺炎疫情的態(tài)度更加積極,社會復工復產,各城市的地鐵開始穩(wěn)步運營。在3 個地鐵交通最發(fā)達的城市(上海、廣州、北京)中,上海的地鐵運營恢復最快,明顯高于其他兩個城市。武漢作為重點防疫城市,雖然3 月27 日以后地鐵恢復營運,但高強度交通管制使其日客流量恢復情況在全部10 個城市中仍處于較低的位次。6 月11 日,北京市在50 多天沒有發(fā)現(xiàn)新的本地感染病例的情況下,突然確診了1 例本地感染病例。6 月17 日,北京市提升應急響應至二級,關閉多個農貿市場,同時調整公共交通限流比例。由于政府相關措施的出臺以及市民對新冠肺炎的警惕,6 月11 日以后北京市的地鐵客流量出現(xiàn)大幅下降。截至6 月底,北京每個周末的地鐵日客流量均少于200 萬人,這在圖6 中有明顯的體現(xiàn)。7 月7 日之后,北京疫情得到較好控制,再無本土病例出現(xiàn),地鐵也開始逐漸恢復至正常的運營狀態(tài),但客流量相對之前明顯減少,北京市需要時間來恢復居民的外出信心。
圖6 各城市地鐵日客流量變化折線圖
民眾情感得分與地鐵日客流量的分析顯示,二者之間存在內在的聯(lián)系。接下來我們對其進行建模實證分析,民眾情感得分和各城市的地鐵日客流量數據前文已做了詳細闡述,各城市的總人口和生產總值數據分別來自各市統(tǒng)計局公布的月度統(tǒng)計數據。
考慮到部分變量存在少量缺失值,本文以線性插值方法來填補缺失數據。該方法假設變量是線性勻速變化的。假如與x(通常為時間)相對應的y缺失,而最臨近的兩個點分別為(x0,y0)與(x1,y1),且x0<x<x1,則y對x的線性插值為由于武漢市地鐵停運期間,日客流量為零,取對數無意義,因此本文采取對所有數據加1 后再取對數的處理方法,然后使用線性插值補齊缺失值。
本文獲取的研究數據是典型n小T大(n=9,T=213)的長面板數據。在短面板模型中,一般假設{εit}獨立同分布,也就是不存在隨機擾動項的自相關。但是對于長面板模型,因為T較大,所包含的信息量較多,{εit}很可能存在異方差和自相關。記個體i的擾動項方差為,那么我們考慮{εit}的以下三種情形:(1)如果,那么{εit}存在組間異方差;(2)如果存在Cov(εit,εis)≠0(t≠s,?i),那么{εit}存在組內自相關;(3)如果存在Cov(εit,εjt)≠0(i≠j,?t),那么{εit}存在組間同期相關。因此,我們需要針對這些情況對數據進行檢驗。
1.組間異方差檢驗。Wald 檢驗原假設為“不同個體的擾動項方差均相等如果原假設成立,那么其中為σ2的一致估計量為的一致估計量,eit為εit的殘差。如果每個個體的擾動項相互獨立,那么構造如下的Wald 統(tǒng)計量:
組間異方差檢驗結果如表4 所示,可以看出,沃爾德統(tǒng)計量為110.84,P 值接近于零,因此強烈拒絕同方差的原假設,即面板模型的隨機擾動項存在組間異方差。
表4 組間異方差檢驗結果
2.組內自相關檢驗。組內自相關Wald 檢驗的原假設為“不存在組內自相關(Cov(εit,εis)=0;t≠s,?i)”。給定個體i,首先對面板回歸方程進行一階差分,如果擾動項εit不存在組內自相關,那么我們可以推導得出Δεit的方差為,自協(xié)方差為,那么自相關系數為-0.5。我們也可以說Wald 檢驗的原假設為“ρ=-0.5”。檢驗結果見表5。
表5 組內自相關檢驗結果
分析表5 的檢驗結果可知,由于P 值近似為零,在1%的水平上顯著,故拒絕原假設,認為該數據的隨機擾動項存在組內自相關。
3.組間同期相關。組間同期相關LM 檢驗的原假設為“不存在組間同期相關(Cov(εit,εjt)=0;i≠j,?t)”。根據殘差計算的不同個體擾動項的相關系數矩陣見式(1)。
如果該矩陣非主對角線元素均接近于零,我們就可以認為{εit}不存在組間同期相關。相關系數矩陣如式(2)所示,檢驗結果在表6 中給出。
表6 組間同期相關檢驗結果
分析相關系數矩陣可知,非主對角線元素的值偏離零值較遠,這說明不同個體在同期的擾動項存在顯著的相關性,并且LM 檢驗的結果也拒絕了不存在組間同期相關的原假設。
由前文對各城市居民情感得分的分析可知,2020 年2 月9 日至2 月29 日,居民的整體情感得分均值一直處于0.5 以下,2 月份民眾情感達到最低谷。同樣,前文對各城市地鐵日客流量的研究也顯示,各城市的地鐵客流量從1 月20 日開始大幅滑落,1 月24 日至2 月24 日達到最低谷,之后雖然有所上升,但增速緩慢。截至2 月末,各城市的地鐵客流量仍遠低于疫情爆發(fā)前。鑒于客流量與情感得分處于低谷的時期高度重合,本文提出假設:疫情期間,居民的出行狀況會直接影響其情緒變化。
在前文數據處理的基礎上,本文首先繪制了各城市2020 年1 月1 日至7 月31 日微博用戶的情感得分與地鐵日客流量的散點圖,結果如圖7 所示。
圖7 民眾情感得分與日客流量散點圖
由圖7 可知,隨著情感得分的提高,大部分城市的地鐵日客流量存在遞增的趨勢,因此,本文建立長面板回歸模型來研究民眾情感得分和地鐵日客流量的關系。模型中選取被解釋變量為各城市的民眾情感得分(scoreit),核心解釋變量為各城市的地鐵日客流量對數值(lnpassenit),控制變量為各城市取對數后的總人口(lnpeopleit)與生產總值(lngdpit),i表示城市,t表示時間。面板回歸模型表示為:
其中:ui為個體固定效應,體現(xiàn)各城市異質性的不可觀測項;εit是既隨時間又隨個體改變的隨機擾動項。
1.單位根檢驗。存在單位根的面板數據通常是不平穩(wěn)序列,會導致偽回歸和t 檢驗不再有效。在常用的面板單位根檢驗方法中,HT 檢驗適合短面板數據,LLC 和Breitung 檢驗要求每位個體的自回歸系數相同,但在前文的檢驗中,組間同期相關的自回歸系數并不相等。綜合考慮,本文選取IPS 檢驗和費雪式檢驗分別對各變量進行單位根檢驗,相關檢驗結果見表7。表7 的單位根檢驗結果表明,不論是IPS檢驗還是費雪式檢驗,日客流量對數和民眾情感得分均在1%的水平上為平穩(wěn)時間序列。
表7 單位根檢驗結果
2.協(xié)整檢驗。協(xié)整檢驗考察變量間是否存在長期均衡關系。本文采用Kao 檢驗、Pedroni 檢驗兩種方法分別進行協(xié)整檢驗。表8 的檢驗結果表明,無論Kao 檢驗還是Pedroni 檢驗,研究變量均通過了1%的顯著性水平檢驗,表明可以拒絕原假設,認為變量間存在長期穩(wěn)定的協(xié)整關系。
表8 協(xié)整檢驗結果
3.結果分析。由前文的檢驗可知,該模型的隨機擾動項存在組間異方差、組內自相關和組間同期相關,為此,本文使用更為全面的可行廣義最小二乘估計(Feasible Generalized Least Squares,F(xiàn)GLS)進行分析。首先對模型(3)進行最小二乘估計,然后使用殘差{eit}來估計εit的協(xié)方差矩陣,以此進行FGLS 估計,結果見表9。
表9 回歸分析結果
由表9 可以看出,地鐵日客流量每上漲1%,民眾的情感得分平均提高0.01 分,并且該結果在1%的水平上顯著。民眾對于疫情情感態(tài)度的變化最直接地體現(xiàn)在是否可以外出,能否實現(xiàn)外出自由。隔離封閉的環(huán)境與單調的工作生活均會增加民眾內心的孤獨感,甚至導致抑郁、焦慮,所以,交通出行的自由反映在日客流量的增加上,將變成情緒釋放的“閘口”。城市地鐵日客流量的增加,也側面反映了民眾“敢出門”的心理,而“敢出門”是百姓對于國家疫情防控工作的信任。通過控制變量的分析可以得出,城市生產總值每增加1%,民眾情感得分會平均提高0.03 分;城市總人口每增加1%,居民對新冠肺炎疫情的情感得分會平均降低0.04 分。GDP 反映一個地區(qū)的綜合經濟實力,隨著GDP 的增加,大眾對于應對疫情會更加積極。相反,如果城市居民過多或者說一個城市的居民數量在疫情期間不斷上升,那么人口流動的不確定性將會帶來居民的恐慌情緒,并且人口越密集的城市,感染肺炎的概率越大,情感得分越低。
本文使用爬取的民眾情感得分代表大眾面對疫情時的情感態(tài)度,使用地鐵日客流量數據反映城市交通狀況,分析發(fā)現(xiàn),在研究時段內,外出通行對公眾情感態(tài)度的變化產生了積極影響。由于疫情防控的逐漸常態(tài)化,前文的分析不易把握情感態(tài)度與交通出行間更為具體的關系,因此接下來我們將進行分時段研究。
2020 年6 月7 日,中國發(fā)布《抗擊新冠肺炎疫情的中國行動》白皮書,其中指出,中國抗擊疫情的艱辛歷程分為五個階段。第一階段:迅即應對突發(fā)疫情(2019 年12 月27 日至2020 年1 月19 日)。湖北省武漢市監(jiān)測發(fā)現(xiàn)不明原因肺炎病例,第一時間報告疫情,中國迅速采取行動,開展病因學和流行學調查。第二階段:初步遏制疫情蔓延(2020 年1 月20日至2 月20 日)。全國新增確診病例快速增加,中國采取阻斷病毒傳播的關鍵一招,堅決果斷關閉離漢離鄂通道,武漢保衛(wèi)戰(zhàn)、湖北保衛(wèi)戰(zhàn)全面打響。第三階段:本土新增病例數逐步下降至個位數(2020 年2月21 日至3 月17 日)。中共中央作出統(tǒng)籌疫情防控和經濟社會發(fā)展、有序復工復產的重大決策。第四階段:取得武漢保衛(wèi)戰(zhàn)、湖北保衛(wèi)戰(zhàn)決定性勝利(3 月18 日至4 月28 日)。以武漢市為主戰(zhàn)場的全國本土疫情傳播基本阻斷,離漢離鄂通道管控措施解除,武漢市在院新冠肺炎患者清零。第五階段:全國疫情防控進入常態(tài)化(4 月29 日以來)。境內疫情總體呈零星散發(fā)狀態(tài),局部地區(qū)出現(xiàn)散發(fā)病例引起的聚集性疫情,境外輸入病例基本得到控制。
白皮書發(fā)布的“抗擊疫情”五個階段同本文的情感得分和交通日客流量階段劃分相呼應,隨著國家抗擊疫情的舉措越來越完善,城市交通出行也在慢慢恢復,民眾情感漸趨穩(wěn)定?;诖?,本文進一步分析了五個階段內情感得分與民眾交通出行之間的關系。
將疫情爆發(fā)時間劃分為五個階段,由于各階段T值仍大于n,我們研究的各階段數據依舊是長面板數據,{εit}很可能存在異方差和自相關。因此,對各階段的數據進行組間異方差檢驗、組內自相關檢驗和組間同期相關檢驗,檢驗結果分別見表10、表11和表12。
表10 分階段組間異方差檢驗結果
表10 的檢驗結果可知,有且僅有疫情蔓延初步遏制階段的P 值大于10%,檢驗結果接受原假設,即不存在組間異方差。其他階段的P 值接近于零,均拒絕原假設。
表11 分階段組內自相關的檢驗結果
由表11 的檢驗結果可知,國家采取措施迅速應對突發(fā)疫情階段的P 值為0.3,遠大于10%的顯著性水平,因此接受隨機擾動項不存在組內自相關的原假設。其他四個階段的P 值近乎為零,拒絕原假設。由表12 的LM 檢驗結果可知,各階段卡方統(tǒng)計量對應的P 值均近似等于零,因此拒絕隨機擾動項不存在組間同期相關的原假設。
表12 分階段組間同期相關的檢驗結果
由上述檢驗結果可知,不同階段模型的隨機擾動項具有不同的特征,因此,在建模時所采用的估計方法也存在差異。當模型(3)的擾動項存在組間異方差或組間同期相關時,最小二乘估計依然是一致的,因此只要使用面板校正標準誤(Panel-Corrected Standard Error,PCSE)進行估計即可。本文的第一階段模型使用PCSE 方法進行參數估計,其他階段模型使用全面的FGLS 方法進行估計。全面的可行廣義最小二乘估計(Feasible Generalized Least Squares,F(xiàn)GLS)同時考慮了組間異方差、組內自相關和組間同期相關,結果如表13 所示。
表13 分階段回歸結果
(續(xù)表13)
表13 的回歸結果反映了不同階段地鐵日客流量與民眾平均情感得分之間的關系。分析得出,2020年1 月1 日至3 月17 日,地鐵日客流量并未對市民的情感得分產生顯著影響,這是由于第一階段為疫情爆發(fā)的初期階段,絕大多數民眾對疫情的重視程度還不夠,日常出行作為一種生活常態(tài)對情感態(tài)度的影響并不顯著。在第二階段和第三階段,各省市政府下達了交通管制、出行限制的指示,城市交通幾近癱瘓,日客流量急劇下降。在禁止出行的情形下,地鐵日客流量寥寥無幾,交通出行對居民情感態(tài)度的影響不顯著。自第四階段開始,地鐵日客流量每上漲1%,城市居民的情感得分平均增加0.01 分和0.02分。抗擊疫情的后期,我國已經積累了不少經驗,居民在應對疫情方面也更加自覺和自律。3 月中旬到4月底,國內疫情得到有效控制,社會復工復產,離漢離鄂通道管控措施解除,各城市的地鐵乘次逐漸恢復穩(wěn)步運營。封閉了近兩個月的民眾在國家復工復產的號召下,外出意愿較為強烈,并且對抗擊疫情的態(tài)度更加積極。第五階段全國疫情防控進入常態(tài)化,境內疫情總體呈零星散發(fā)狀態(tài),境外輸入病例基本得到控制。這意味著外出通行再次恢復成生活常態(tài),隨著地鐵日客流量的提升,大眾的情感也更為積極。此外,第五階段的影響程度要高于第四階段,這是因為在3、4 月份,雖然工作開始恢復,但民眾對于疫情仍有擔憂和顧慮。然而,隨著連續(xù)每日新增病例為零,防控工作進入常態(tài)化,我們對戰(zhàn)勝疫情的信心明顯增加了,外出通行對情感得分的影響程度達到最大。
本文主要探究了2020 年1 月1 日至7 月31 日全國主要10 個疫情爆發(fā)城市的民眾情感趨勢、關注話題和城市交通狀況,并探討了網絡輿情與交通出行之間的聯(lián)系,得出了四個主要結論。
第一,民眾的情感經歷了起伏,但是大部分時段仍持積極態(tài)度。第一階段為2020 年1 月1 日至2 月9 日,前期國內居民對于此次疫情了解較少,雖然情緒存在波動,但是均高于0.5,大部分人還未意識到這次疫情的嚴重性。第二階段為2 月9 日至2 月29日,隨著確診和死亡病例的劇增,各級政府實施交通管制,大部分居民被限制在固定的區(qū)域內活動,導致社會產生了更多的消極情緒。第三階段為3 月1 日至6 月13 日,該時期國內疫情好轉,各城市陸續(xù)解封。第四階段為6 月13 日至6 月27 日,北京突發(fā)確診病例,再次引起社會關注,人們因擔心疫情反彈而釋放出更多負面情緒。第五階段為6 月27 日至7 月31 日,整體情感得分大于0.5,居民對待疫情的態(tài)度更加從容。研究還得出,我國中西部省份在研究時段內的情感得分更低。從武漢“封城”到各城市啟動復工這段時期內,由于農歷新年的影響,我國居民仍持有較高的情感得分。
第二,城市地鐵日客流量與微博輿情的時段劃分相一致。武漢“封城”后不久,各省市政府下達了交通管制的指示,城市交通幾近癱瘓,日客流量急劇下降,這種情況一直持續(xù)到2020 年2 月底。3 月初到4月底,社會復工復產穩(wěn)步開展,各城市的地鐵乘次開始有序運營,其中上海的地鐵運營恢復最快。6 月11日北京市新增確診病例,隨后,北京市恢復社區(qū)封閉管理,調整公共交通限流比例,控制上座率,地鐵客流量出現(xiàn)大幅下降。
第三,研究期內,交通出行對大眾情感產生了積極影響。地鐵日客流量每上漲1%,民眾的情感得分平均提高0.01 分。日客流量的上漲側面反映出交通出行的自由靈活,長期被“封閉”的居民壓抑的情緒得以釋放。城市生產總值越多,居民情感得分越高,表明政府會花費更多的人力、財力用于疫情防控,讓居民居住在放心的環(huán)境中。城市人口越多,越容易引發(fā)民眾恐慌,表明人口密度的增加和人口流動會加大感染疫情的風險。
第四,依據《抗擊新冠肺炎疫情的中國行動》白皮書,本文將2020 年1 月1 日至7 月31 日劃分為五個階段。前三個階段(1 月1 日至3 月17 日)的地鐵日客流量對民眾情感得分的影響不顯著,可能的原因是疫情初期,交通封閉,居民外出受限。在第四階段和第五階段(3 月18 日至7 月31 日),地鐵日客流量平均每增長1%,居民情感得分平均上升0.01分和0.02 分。隨著疫情防控常態(tài)化,民眾更注重日常防范,城市交通有序恢復,居民外出也越來越放心,大眾對于戰(zhàn)勝疫情越來越有信心。越到后期,地鐵日客流量反映的交通出行情況對居民情感的影響越大。