蘇曉紅 李衛(wèi)東
[提要] 霧霾問(wèn)題自2013年受到大眾的關(guān)注后,持續(xù)對(duì)我國(guó)國(guó)民經(jīng)濟(jì)發(fā)展和人民生活健康水平造成顯著影響。本文以北京為例,基于百度指數(shù)工具,運(yùn)用公眾對(duì)霧霾等關(guān)鍵字搜索指數(shù)數(shù)據(jù),分析公眾對(duì)于霧霾的關(guān)注程度及其變化特點(diǎn),并與實(shí)際PM2.5濃度數(shù)值進(jìn)行回歸分析,證明我國(guó)人民對(duì)于霧霾的重視程度與霧霾實(shí)際發(fā)生的嚴(yán)重程度有直接關(guān)系,并存在一定的時(shí)間規(guī)律及地域規(guī)律?;诖?,政府在治理霧霾時(shí)可根據(jù)霧霾關(guān)注度劃分等級(jí),并根據(jù)等級(jí)及時(shí)推出解決策略。
關(guān)鍵詞:霧霾;百度指數(shù);北京
本文為北京市社科基金項(xiàng)目:“基于大數(shù)據(jù)的北京市霧霾形成機(jī)理與綜合對(duì)策”(項(xiàng)目編號(hào):15JGB0660)
中圖分類(lèi)號(hào):C811 文獻(xiàn)標(biāo)識(shí)碼:A
原標(biāo)題:基于百度指數(shù)的霧霾關(guān)注度與實(shí)際霧霾指數(shù)分析——以北京為例
收錄日期:2016年12月6日
一、引言
近年來(lái),我國(guó)經(jīng)濟(jì)處于高速發(fā)展?fàn)顟B(tài),由此造成的一系列環(huán)境問(wèn)題也層出不窮,最引人注目的便是霧霾問(wèn)題,它關(guān)乎我國(guó)人民的生活質(zhì)量和身體健康。而自2013年1月以來(lái),霧霾進(jìn)入我國(guó)廣大公眾的視線(xiàn),霧霾成分及危害被越來(lái)越多的人熟知,霧霾對(duì)于我國(guó)多數(shù)地區(qū)的人民生活帶來(lái)了顯著的影響。同時(shí),隨著科技進(jìn)步與時(shí)代發(fā)展,搜索引擎被越來(lái)越多的人應(yīng)用于實(shí)際生活中,人們通過(guò)網(wǎng)絡(luò)搜索來(lái)表達(dá)對(duì)一件事物的關(guān)注及重視程度。百度指數(shù)作為大數(shù)據(jù)研究的實(shí)用工具,在此前被應(yīng)用于旅游業(yè)、證券業(yè)及醫(yī)學(xué)等相關(guān)領(lǐng)域的研究,但對(duì)于霧霾相關(guān)的大數(shù)據(jù)研究,雖有學(xué)者涉足,但對(duì)于霧霾的關(guān)注度分析缺乏系統(tǒng)全面的分析。本文希望通過(guò)利用百度指數(shù)進(jìn)行大數(shù)據(jù)的挖掘與分析,發(fā)現(xiàn)其中的規(guī)律和結(jié)論,并為政府治理霧霾提出合理化建議。
二、數(shù)據(jù)來(lái)源及研究方法
百度是全球最大的中文搜索引擎,也是中國(guó)流量第一大搜索引擎網(wǎng)站,中國(guó)用戶(hù)選擇搜索引擎時(shí),首選百度的比例高達(dá)95.3%,首選百度的忠誠(chéng)用戶(hù)為3.77億,其中百度的高度忠誠(chéng)用戶(hù)為1.6億。百度指數(shù)是以百度海量網(wǎng)民行為數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)分享平臺(tái),它本身的出發(fā)點(diǎn)在于研究關(guān)鍵詞搜索趨勢(shì)、洞察網(wǎng)民興趣和需求、監(jiān)測(cè)輿情動(dòng)向、定位受眾特征,還可以從行業(yè)的角度,分析市場(chǎng)特點(diǎn)。百度指數(shù)是以百度網(wǎng)頁(yè)搜索和百度新聞搜索為基礎(chǔ)的免費(fèi)海量數(shù)據(jù)分析服務(wù),用以反映不同關(guān)鍵詞在過(guò)去一段時(shí)間里的“用戶(hù)關(guān)注度”和“媒體關(guān)注度”。其中,“用戶(hù)關(guān)注度”是以數(shù)千萬(wàn)網(wǎng)民在百度的搜索量為數(shù)據(jù)基礎(chǔ),以關(guān)鍵詞為統(tǒng)計(jì)對(duì)象,科學(xué)分析并計(jì)算出各個(gè)關(guān)鍵詞在百度網(wǎng)頁(yè)搜索中搜索頻次的加權(quán)和,并以曲線(xiàn)圖的形式展現(xiàn)。本文采用百度指數(shù)中的用戶(hù)關(guān)注度作為衡量網(wǎng)絡(luò)關(guān)注度的重要指標(biāo),以此更有效地來(lái)分析大眾對(duì)霧霾的網(wǎng)絡(luò)關(guān)注度變化的影響因素。
在研究中為防止單一搜索關(guān)鍵詞可能出現(xiàn)統(tǒng)計(jì)不完全現(xiàn)象,導(dǎo)致統(tǒng)計(jì)結(jié)果出現(xiàn)錯(cuò)誤,選取“霧霾”,“北京霧霾”、“霧霾指數(shù)”、“霧霾危害”等四個(gè)關(guān)鍵詞進(jìn)行分析。同時(shí),由于百度指數(shù)網(wǎng)站中數(shù)據(jù)以曲線(xiàn)圖的方式進(jìn)行呈現(xiàn),故用數(shù)據(jù)抓取的手段將2013~2016年關(guān)于“霧霾”的用戶(hù)關(guān)注度信息截取下來(lái),同時(shí)找出對(duì)應(yīng)時(shí)期北京地區(qū)PM2.5指數(shù)情況與之進(jìn)行比較分析。
三、數(shù)據(jù)描述統(tǒng)計(jì)
(一)時(shí)間趨勢(shì)。從百度指數(shù)給出的數(shù)據(jù)而言,公眾對(duì)霧霾的關(guān)注程度在季節(jié)上存在很大差異性,與此同時(shí)每年都存在相似的規(guī)律性。關(guān)注程度由高到低依次為冬季、春季、秋季、夏季,同時(shí)在每年冬季會(huì)出現(xiàn)該年的峰值,其關(guān)注程度遠(yuǎn)超過(guò)其他時(shí)段。究其原因,一方面是霧霾多發(fā)于冬季,因此在冬季人們對(duì)于霧霾的關(guān)注程度會(huì)上升;另一方面峰值的出現(xiàn)體現(xiàn)出霧霾指數(shù)長(zhǎng)期居高不下造成的積累效應(yīng),連續(xù)多天的霧霾會(huì)不斷加劇人們對(duì)霧霾的關(guān)注程度,進(jìn)而造成搜索高潮現(xiàn)象的出現(xiàn)。(圖1)
(二)地域趨勢(shì)。在百度指數(shù)中可以查看全國(guó)對(duì)于同一關(guān)鍵詞的搜索熱度排名,在這一排名中北京地區(qū)對(duì)于霧霾的搜索熱度要明顯高于其他地區(qū)。但對(duì)比同一時(shí)段的PM2.5指數(shù)水平,北京相比于霧霾最嚴(yán)重的新疆喀什等地區(qū),污染程度不是全國(guó)最嚴(yán)重的。北京地區(qū)人口稠密,同時(shí)科技與經(jīng)濟(jì)水平發(fā)展較快,因此具有人們利用網(wǎng)絡(luò)進(jìn)行搜素的習(xí)慣,同時(shí)經(jīng)濟(jì)發(fā)達(dá)地區(qū)人民追求健康生活的愿望也是北京地區(qū)關(guān)注霧霾的重要原因之一;相比于地廣人稀,經(jīng)濟(jì)發(fā)展相對(duì)滯后的新疆地區(qū),有相當(dāng)一部分人沒(méi)有習(xí)慣于網(wǎng)絡(luò)搜索或缺乏這種意識(shí)。
另外,在其他地區(qū)對(duì)于霧霾的關(guān)注熱度整體上與當(dāng)?shù)仂F霾的嚴(yán)重程度存在一定關(guān)聯(lián),但是也有相當(dāng)一部分地區(qū)如廣東、福建等地雖然空氣質(zhì)量較為良好,但對(duì)霧霾的關(guān)注程度依然排名前列。其原因是長(zhǎng)三角和珠三角地區(qū)的霧霾嚴(yán)重程度雖不是最嚴(yán)重,但在近半個(gè)世紀(jì)以來(lái)我國(guó)出現(xiàn)灰霾的天數(shù)顯著增加,尤其以這兩地最為明顯。同時(shí),當(dāng)?shù)厝藢?duì)于健康的關(guān)心,希望通過(guò)霧霾治理恢復(fù)良好環(huán)境的愿景,或從關(guān)注其他地區(qū)霧霾情況獲得商機(jī)的想法有關(guān),這也反映了霧霾這一問(wèn)題,不僅僅是發(fā)生地區(qū)人們關(guān)心的問(wèn)題,也是整個(gè)中國(guó)關(guān)注的焦點(diǎn)。
(三)相關(guān)問(wèn)題關(guān)注程度。圖2由綜合計(jì)算關(guān)鍵詞和相關(guān)詞的相關(guān)程度,并結(jié)合相關(guān)詞搜索熱度綜合得出,相關(guān)詞距圓心的距離代表相關(guān)程度,相關(guān)詞本身的大小代表其自身的搜索熱度。由圖2可以得出,與“霧霾”強(qiáng)相關(guān)的相關(guān)詞有六個(gè),其中大部分與霧霾的危害有關(guān),可見(jiàn)公眾在對(duì)霧霾的關(guān)注點(diǎn)主要集中在霧霾的危害上面。由于霧霾對(duì)于人身體的傷害程度以及影響持續(xù)時(shí)間尚未有明確的定論,因此公眾對(duì)于霧霾的恐慌心理應(yīng)引起相關(guān)部門(mén)的重視。(圖2)
由圖2我們可以看出,在不同時(shí)期,霧霾實(shí)際水平不同時(shí),大眾關(guān)注的問(wèn)題也是不同的,在2015年12月20日到26日,北京市霧霾狀況嚴(yán)重,PM2.5指數(shù)分別為208、229、308、254、117、463、290,均達(dá)到重度污染以上水平,此時(shí)大眾對(duì)于霧霾的關(guān)注相關(guān)問(wèn)題主要集中于霧霾對(duì)人體有何種危害,如何減輕這種危害這一類(lèi)問(wèn)題。對(duì)于霧霾這一關(guān)鍵詞的搜索原因是由于其危害到了人民的正常生活。而在2016年7月11日到17日這一段時(shí)間,北京市PM2.5指數(shù)分別為87、31、18、34、34、35、75,在全年中處于較低水平,此時(shí)大眾對(duì)于霧霾相關(guān)問(wèn)題反映在如何治理霧霾,探究如何進(jìn)行環(huán)境保護(hù)來(lái)建設(shè)一個(gè)更加文明的生態(tài)系統(tǒng),對(duì)于霧霾的搜索集中于學(xué)術(shù)探討和研究。(圖3)
四、分析過(guò)程
(一)數(shù)據(jù)觀(guān)察。選取2015年10月到2016年3月這半年來(lái)北京地區(qū)PM2.5指數(shù)的變化情況與同時(shí)間內(nèi)北京地區(qū)對(duì)于“霧霾”這一關(guān)鍵詞的搜索指數(shù)進(jìn)行對(duì)比,我們可以發(fā)現(xiàn),兩條曲線(xiàn)的變化趨勢(shì)大致相同。當(dāng)當(dāng)天的PM2.5濃度水平較高時(shí),對(duì)于“霧霾”這一關(guān)鍵詞的搜索熱度將會(huì)上升,PM2.5濃度在一段時(shí)間內(nèi)上升至一個(gè)峰值,則霧霾的搜索熱度也會(huì)出現(xiàn)到達(dá)較高水平。在2015年12月,關(guān)于霧霾的搜索熱度從之前的2,000~3,000的水平陡然上升至20,000,這與2015年10月、11月以來(lái)持續(xù)的霧霾天氣有關(guān),公眾積累了對(duì)于霧霾的關(guān)注情緒。同時(shí),在搜索指數(shù)最高的當(dāng)天,PM2.5濃度在北京地區(qū)出現(xiàn)了500以上的爆表情況,新聞媒體的報(bào)道也促進(jìn)了廣大公眾對(duì)于霧霾的關(guān)注程度。(圖4)
(二)數(shù)據(jù)來(lái)源。選取自2013年1月24日我國(guó)開(kāi)始公布PM2.5相關(guān)統(tǒng)計(jì)數(shù)據(jù)以來(lái)至2016年10月3日北京地區(qū)每天的PM2.5濃度數(shù)據(jù),并利用百度指數(shù)工具,選取北京地區(qū)的搜索指數(shù)并截取每一天對(duì)于相關(guān)關(guān)鍵詞的搜索熱度指數(shù),對(duì)兩組數(shù)據(jù)進(jìn)行回歸分析。
(三)數(shù)據(jù)分析。首先,建立回歸模型Yt=?琢+?茁Xt,其中Yt為對(duì)于特定關(guān)鍵詞的搜索熱度,Xt為北京地區(qū)實(shí)際PM2.5指數(shù)。
1、北京地區(qū)PM2.5指數(shù)與“霧霾”關(guān)鍵詞搜索熱度的顯著性檢驗(yàn)。經(jīng)回歸分析得Y=0.0088X+111.43,其中X表示當(dāng)天的PM2.5濃度指數(shù),Y表示當(dāng)天對(duì)于“霧霾”這一關(guān)鍵詞的搜索熱度?!闭f(shuō)明對(duì)于“霧霾”關(guān)鍵詞的搜索指數(shù)與PM2.5濃度呈正相關(guān)關(guān)系。
5、數(shù)據(jù)總結(jié)。通過(guò)分析發(fā)現(xiàn),PM2.5濃度與霧霾的搜索指數(shù)的調(diào)整R2僅有0.0597,從數(shù)據(jù)上表明PM2.5的濃度只能解釋霧霾搜索指數(shù)變化的6%左右,這一方面說(shuō)明統(tǒng)計(jì)結(jié)果受極端值影響較大,另一方面反映出單一搜索關(guān)鍵詞并不能很好地說(shuō)明相關(guān)關(guān)系,應(yīng)考慮多個(gè)關(guān)鍵詞綜合分析。從相關(guān)性水平來(lái)看,北京地區(qū)PM2.5濃度與“北京霧霾”搜索熱度的相關(guān)程度最大,其調(diào)整R2為0.733。綜合這四個(gè)關(guān)鍵詞與PM2.5濃度的關(guān)系,可以得出其相關(guān)程度依次為“北京霧霾”、“霧霾”、“霧霾危害”、“霧霾防治”?!办F霾危害”作為與每個(gè)人息息相關(guān)的問(wèn)題一直受到廣泛的關(guān)注,不僅僅是在霧霾天氣高發(fā)時(shí)段出現(xiàn)峰值,在PM2.5濃度處于正常狀態(tài)時(shí)對(duì)于霧霾危害的搜索程度也保持在較高水平,這表明大眾對(duì)于霧霾的關(guān)注已不僅僅停留在霧霾天氣出現(xiàn)時(shí)的簡(jiǎn)單了解,越來(lái)越多的人開(kāi)始對(duì)于霧霾問(wèn)題進(jìn)行學(xué)習(xí)和研究。對(duì)于“霧霾防治”的公眾關(guān)心度較低,2013年霧霾剛引起大眾關(guān)注時(shí),其搜索熱度很低,但隨著時(shí)間的推移和人們對(duì)霧霾的深入了解,霧霾治理這一問(wèn)題的關(guān)注度一直處于上升趨勢(shì),這也反映了公眾對(duì)于霧霾這一話(huà)題思考的深入。
五、結(jié)論
隨著我國(guó)經(jīng)濟(jì)的發(fā)展和科技的進(jìn)步,利用搜索引擎進(jìn)行話(huà)題搜索已成為當(dāng)代人的一種生活習(xí)慣,對(duì)于霧霾這一對(duì)我國(guó)人民生產(chǎn)生活造成嚴(yán)重影響的天氣現(xiàn)象,經(jīng)過(guò)數(shù)據(jù)挖掘與分析,我們可以得出公眾對(duì)于霧霾的關(guān)注與PM2.5濃度存在顯著相關(guān)關(guān)系,我國(guó)人民對(duì)于霧霾的關(guān)注程度受實(shí)際天氣情況的影響因素很大。這一現(xiàn)狀可以給政府在霧霾治理中通過(guò)公眾參與、簡(jiǎn)政放權(quán)實(shí)現(xiàn)社會(huì)協(xié)同治理提出理論依據(jù)。同時(shí),公眾對(duì)于霧霾的關(guān)注程度可以在氣象服務(wù)平臺(tái)進(jìn)行發(fā)布,以引起廣大公眾的重視,由此來(lái)進(jìn)行及時(shí)的防災(zāi)減災(zāi)措施部署,以減輕霧霾對(duì)公眾的不利影響。同時(shí),在政府治理時(shí)還要重視輿論引導(dǎo)的作用,防止網(wǎng)上傳播的過(guò)多負(fù)面信息影響了公眾的判斷。
主要參考文獻(xiàn):
[1]王春梅,葉春明.基于信息擴(kuò)散理論的霧霾天氣關(guān)注度研究[J].物理工程與管理,2016.38.6.
[2]張曉帆,謝芳,郭優(yōu).基于百度熱力指數(shù)的霧霾與旅游者出行行為關(guān)系研究[J].黑河學(xué)院學(xué)報(bào),2016.1.
[3]黃先開(kāi),張麗峰,丁于思.百度指數(shù)與旅游景區(qū)游客量的關(guān)系及預(yù)測(cè)研究[J].旅游學(xué)刊,2013.28.11.
[4]蔣大亮,孫燁,任航,陳影影,張振克.基于百度指數(shù)的長(zhǎng)江中游城市群城市網(wǎng)絡(luò)特征研究[J].長(zhǎng)江流域資源與環(huán)境,2015.24.10.
[5]熊麗芳,甄峰,王波等.基于百度指數(shù)的長(zhǎng)三角核心區(qū)城市網(wǎng)絡(luò)特征研究[J].經(jīng)濟(jì)地理,2013.33.7.
[6]張凱.基于百度指數(shù)的科技期刊影響力大數(shù)據(jù)分析[J].中國(guó)科技期刊研究,2016.27.7.