湯潔茹,董 瑤,蓋伊蕾
(1.安徽財(cái)經(jīng)大學(xué) 金融學(xué)院;2.安徽財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與應(yīng)用數(shù)學(xué)學(xué)院,安徽 蚌埠 233030)
我國(guó)城市空氣污染數(shù)據(jù)的準(zhǔn)確性判別研究
——基于我國(guó)東部三大城市群的比較分析
湯潔茹1,董 瑤2,蓋伊蕾2
(1.安徽財(cái)經(jīng)大學(xué) 金融學(xué)院;2.安徽財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與應(yīng)用數(shù)學(xué)學(xué)院,安徽 蚌埠 233030)
本文針對(duì)城市空氣污染數(shù)據(jù)的真實(shí)性判別及分析問題,以多元線性回歸、主成分分析、參數(shù)估計(jì)、相關(guān)分析為研究手段與方法,通過建立多元線性回歸模型、各城市群氣象數(shù)據(jù)真實(shí)性判定模型、雙變量相關(guān)分析等模型,得出以下結(jié)論:(1)東部三大城市群中,京津冀城市群空氣污染數(shù)據(jù)的準(zhǔn)確度低于珠三角與長(zhǎng)三角,這可能是由于京津冀極端天氣情況較多造成的后果;(2)工業(yè)產(chǎn)值與空氣質(zhì)量指標(biāo)AQI指數(shù)、PM2.5、PM10較強(qiáng)的相關(guān)性.
城市空氣污染;主成分分析;MATLAB;數(shù)據(jù)分析誤判
空氣質(zhì)量問題始終是政府、環(huán)境保護(hù)部門和全國(guó)人民關(guān)注的熱點(diǎn)問題.2016年的兩會(huì)上,全國(guó)政協(xié)常委、環(huán)境保護(hù)部副部長(zhǎng)吳曉青表示,政府工作報(bào)告中提出今后五年地級(jí)市及以上城市空氣質(zhì)量?jī)?yōu)良天數(shù)比率超過80%的目標(biāo)必須完成.然而,由于各種主客觀原因,會(huì)使所采集到的數(shù)據(jù)序列體現(xiàn)出一定的異常、造假現(xiàn)象.因此對(duì)空氣污染數(shù)據(jù)真實(shí)性的研究具有一定的現(xiàn)實(shí)意義.
京津冀、長(zhǎng)三角、珠三角城市群2013年11月1日到2015年2月28日的相關(guān)空氣污染數(shù)據(jù)以及蘇州市工業(yè)產(chǎn)值數(shù)據(jù).為了便于解決問題,提出以下假設(shè):(1)假設(shè)除了空氣污染物含量沒有其他因素影響AQI;(2)假設(shè)極端天氣對(duì)空氣污染物含量不存在影響;(3)假設(shè)若空氣污染數(shù)據(jù)真實(shí),則數(shù)據(jù)是連續(xù)的;(4)假設(shè)加入社會(huì)因素時(shí),空氣質(zhì)量?jī)H受這一社會(huì)因素影響;(5)假設(shè)查詢的有關(guān)城市群社會(huì)因素?cái)?shù)據(jù)是真實(shí)有效.
2.1 研究思路
首先我們繪制2015年1月2日到2015年2月28日這一時(shí)間段三個(gè)城市群AQI指數(shù)的變化折線圖以判斷各城市群AQI指數(shù)分布是否一致,若該城市群各指數(shù)在同一時(shí)刻差異較大則該城市群數(shù)據(jù)存在誤差(或偏誤)的現(xiàn)象可能較嚴(yán)重.再以PM10為被解釋變量其他指標(biāo)為解釋變量對(duì)三個(gè)城市群所有城市進(jìn)行多元線性回歸,最后根據(jù)線性回歸的結(jié)果選取殘差平方和較大城市.
2.2 數(shù)據(jù)處理
基于所給數(shù)據(jù)我們選取2015年1月2日到2015年2月28日這一時(shí)間段三個(gè)城市群(京津翼、長(zhǎng)三角、珠三角城市群)AQI指數(shù)的數(shù)據(jù),利用MATLAB繪制AQI指數(shù)變化折線圖,結(jié)果如圖1、圖2、圖3所示.
從圖2、圖3、圖4中可以看出京津翼城市群各城市之間AQI指數(shù)變化差異較大而長(zhǎng)三角城市群和珠三角城市群各城市在這一時(shí)段AQI指數(shù)波動(dòng)情況相似且AQI數(shù)值較為靠近.因此我們初步判斷,京津翼城市群空氣質(zhì)量數(shù)據(jù)誤判的情況相對(duì)于其他城市要嚴(yán)重.
圖1 京津翼城市群AQI指數(shù)變化折線圖
圖2 長(zhǎng)三角城市群AQI指數(shù)變化折線圖
以京津翼城市群所有城市不同日期的空氣污染數(shù)據(jù)作為隨機(jī)變量的原始數(shù)據(jù)計(jì)算相關(guān)系數(shù).設(shè)變量y、x1、x2、x3、x4、x5分別為 AQI指數(shù)、PM2.5濃度、PM10濃度、CO濃度、NO2濃度、SO2濃度,利用EVIEWS得到的相關(guān)系數(shù)矩陣,如圖4.
圖3 珠三角城市群AQI指數(shù)變化折線圖
圖4 各變量之間的相關(guān)系數(shù)矩陣
由圖4可知,x2與其余變量的相關(guān)性較高均在0.5以上,因此,個(gè)地方部門在對(duì)數(shù)據(jù)的誤判最有可能是對(duì)x2代表的PM10數(shù)值進(jìn)行了錯(cuò)誤測(cè)算(或者由于極端天氣造成數(shù)據(jù)統(tǒng)計(jì)偏誤).
以PM10濃度被解釋變量,PM2.5濃度、CO濃度、NO2濃度等指標(biāo)作為解釋變量進(jìn)行多元線性回歸并得到相應(yīng)的誤差平方和,如表1.
表1 各地回歸殘差平方和及排名表
2.3 結(jié)果分析
由表1可知北京、天津、保定、衡水等城市群殘差平方和較大分別為477196、357256.6、913871.7、851889.1,相對(duì)于其他城市群的對(duì)這些城市群進(jìn)行多元線性回歸時(shí)效果并不理想,有可能是由于地方政府獲取的PM10數(shù)據(jù)存在較大誤差使x1、x3、x4、x5對(duì)x2解釋效果變差.
3.1 研究思路
首先,通過主成分分析選取能夠涵蓋各污染物所含信息的變量,選取PM2.5,PM10作為主成分,方差累計(jì)貢獻(xiàn)率可達(dá)到91.34%;其次,計(jì)算各城市群PM2.5與PM10的相關(guān)系數(shù);然后,對(duì)這些相關(guān)系數(shù)進(jìn)行正態(tài)性檢驗(yàn),證明這些相關(guān)系數(shù)服從正態(tài)分布.則在99.73%的置信度下,計(jì)算這些相關(guān)系數(shù)的置信區(qū)間,若該城市群的主成分的相關(guān)系數(shù)不在置信區(qū)間內(nèi),則說明該城市群數(shù)據(jù)的真實(shí)性或者準(zhǔn)確性不足.
3.2 數(shù)據(jù)處理
毫無疑義,空氣的主要污染物變量之間是具有一定的相關(guān)關(guān)系的.因此,在各個(gè)變量之間相關(guān)關(guān)系研究的基礎(chǔ)上,利用主成分分析用較少的新變量代替原來較多的變量,而且使這些較少的新變量盡可能多地保留原來較多的變量所反映的信息.
對(duì)各污染物指標(biāo)變量進(jìn)行主成分分析:
表2 KMO and Bartlett's檢驗(yàn)
由表2可知,各污染物指標(biāo)變量適合做主成分分析
表3 Communalities分析
由表3、表4可知,為使累計(jì)方差貢獻(xiàn)率達(dá)到85%以上,選取PM2.5和PM10作為主成分,則累計(jì)方差率可達(dá)到91.343%.
計(jì)算各城市群的PM2.5與PM10的相關(guān)系數(shù)
則可得到各城市群PM2.5和PM10的相關(guān)系數(shù),結(jié)果見表5.
表4 各變量累計(jì)貢獻(xiàn)率表
表5 各城市群PM2.5和PM10的相關(guān)系數(shù)表
將這一列相關(guān)系數(shù)基于SPSS進(jìn)行正態(tài)性檢驗(yàn),結(jié)果見表6.
由表6可知,sig值大于0.05,則接受原假設(shè),即這列數(shù)據(jù)服從正態(tài)分布.
3.3 結(jié)果分析
這列數(shù)據(jù)服從正態(tài)分布,從而可以計(jì)算置信區(qū)間.
在置信水平為99.73%下,概率度z=3
表6 Tests of Normality
計(jì)算抽樣極限誤差Δx=zσx=3×0.00694=0.02
在99.73%的置信度下,置信區(qū)間為[0.9,0.95],則可知北京,石家莊,唐山,濰坊,邢臺(tái)城市群的空氣質(zhì)量數(shù)據(jù)存在不準(zhǔn)確的現(xiàn)象.
4.1 研究思路
首先我們從蘇州市統(tǒng)計(jì)局得到蘇州市2014年各月的工業(yè)產(chǎn)值.其次對(duì)數(shù)據(jù)進(jìn)行了篩選,由前兩問得到的結(jié)果我們發(fā)現(xiàn)許多工業(yè)發(fā)達(dá)的城市群,都存在信息造假的情況,所以我們選擇蘇州市的數(shù)據(jù)進(jìn)行分析.然后對(duì)數(shù)據(jù)進(jìn)行處理,取得蘇州市2014年各月的工業(yè)產(chǎn)值平均值和蘇州市2014年各月空氣污染指標(biāo)數(shù)據(jù)的平均值.最后運(yùn)用SPSS對(duì)變量做雙變量相關(guān)性分析.
4.2 數(shù)據(jù)處理
獲取數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行處理,得到的數(shù)據(jù)見表7.
表7 蘇州市2014年各月工業(yè)產(chǎn)值和空氣污染數(shù)據(jù)平均值表
4.3 結(jié)果分析
運(yùn)用SPSS軟件得到兩兩變量的相關(guān)系數(shù),見表8.
表8 與工業(yè)產(chǎn)值相關(guān)性分析結(jié)果表
由表8可知,AQI、PM2.5、PM10與工業(yè)產(chǎn)值的相關(guān)系數(shù)均接近1,且顯著性小于0.05,說明AQI、PM2.5、PM10與工業(yè)產(chǎn)值具有很強(qiáng)的相關(guān)性.
如前所述,研究分析得出,在東部三大城市群中,京津冀城市群空氣污染數(shù)據(jù)的準(zhǔn)確度低于珠三角與長(zhǎng)三角,這可能是由于京津冀極端天氣情況較多造成的后果;與此同時(shí),工業(yè)產(chǎn)值與空氣質(zhì)量指標(biāo)AQI指數(shù)、PM2.5、PM10較強(qiáng)的相關(guān)性.研究認(rèn)為,針對(duì)有關(guān)空氣污染數(shù)據(jù)的準(zhǔn)確性問題,綜合使用量多種模型和統(tǒng)計(jì)方法進(jìn)行研究,使問題得到更加全面分析,綜合使用EVIEWS、SPSS等軟件得出各污染數(shù)據(jù)、工業(yè)生產(chǎn)數(shù)據(jù)的相關(guān)性,很好地解決了空氣污染數(shù)據(jù)的準(zhǔn)確性判別問題.
〔1〕薛志誠(chéng),藺相如.多元統(tǒng)計(jì)分析在評(píng)估城市空氣污染中的運(yùn)用[J].電力學(xué)報(bào),2009(2):152—153.
〔2〕司守奎,孫璽菁.數(shù)學(xué)建模算法與應(yīng)用[M].北京:國(guó)防工業(yè)出版社,2015.9.
〔3〕吳禮斌,等.經(jīng)濟(jì)數(shù)學(xué)與建模(第二版)[M].北京:國(guó)防工業(yè)出版社,2013.6.
X51;O13
A
1673-260X(2017)04-0001-04
2016-12-09