蘇梅容 鄒涌濤 胡捷
摘 要:本文首先對自建點(diǎn)和國控點(diǎn)的數(shù)據(jù)進(jìn)行探索性數(shù)據(jù)分析,利用主成分分析法和因子分析法分別對國控點(diǎn)和自建點(diǎn)的數(shù)據(jù)進(jìn)行簡要的分析,得出一些初步的結(jié)論。其次對導(dǎo)致自建點(diǎn)數(shù)據(jù)與國控點(diǎn)數(shù)據(jù)造成差異的因素進(jìn)行分析。對國控點(diǎn)和自建點(diǎn)的“兩塵四氣”建立一元線性模型進(jìn)行一一對比,最后再利用多元線性回歸逐個分析每個因素的影響程度。但由于非常規(guī)氣態(tài)污染物(氣)濃度變化對傳感器會存在交叉干擾,所以我們接著用相關(guān)性分析對每個因素的交互干擾進(jìn)行分析。最后,利用國控點(diǎn)數(shù)據(jù),建立數(shù)學(xué)模型對自建點(diǎn)數(shù)據(jù)進(jìn)行校準(zhǔn)。
關(guān)鍵詞:主成分分析;因子分析;相關(guān)性分析;線性回歸;校準(zhǔn)
一、問題假設(shè)和符號說明
(1)假設(shè)忽略空氣中其他污染物對微型空氣質(zhì)量檢測儀造成的影響。
(2)假設(shè)該地區(qū)各種影響空氣質(zhì)量的軟因素(如工業(yè)發(fā)展,人口數(shù)量)保持平穩(wěn)變化。
X1~X6分別表示自建點(diǎn)的PM2.5、PM10、CO、NO2、SO2、O3;X7~X11分別表示溫度、濕度、風(fēng)速、氣壓、降水;β0、β1、…βn是多元線性方程的參數(shù)。
Y1~Y6分別表示國控點(diǎn)PM2.5、PM10、CO、NO2、SO2、O3。
二、模型建立與求解
(一)主成分分析法
主成分分析[1],是一種統(tǒng)計(jì)方法。通過正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,轉(zhuǎn)換后的這組變量叫主成分。在用統(tǒng)計(jì)分析方法研究多變量的課題時,變量個數(shù)太多就會增加課題的復(fù)雜性。主成分分析是對于原先提出的所有變量,將重復(fù)的變量(關(guān)系緊密的變量)刪去多余,建立盡可能少的新變量。如第一主成分為:“PC1=a1X1+…+akXK”對國控點(diǎn)的數(shù)據(jù)進(jìn)行主成分分析:
(1)首先判斷主成分的數(shù)目,這里使用Cattell碎石檢驗(yàn),表示了特征值與主成數(shù)目的關(guān)系。一般的原則是:要保留的主成分的個數(shù)的特征值要大于1且大于平行分析的特征值。前四個主成分的累積貢獻(xiàn)率已達(dá)到91%,另外三個主成分就可以舍去,達(dá)到降維的目的。從程序運(yùn)行結(jié)果來看:第一主成分(PC1)的貢獻(xiàn)率將達(dá)到50%,起最大的作用,其中PM25、PM10和CO的系數(shù)都在0.5左右,也就是說,PM25、PM10和CO對空氣質(zhì)量的影響較大,可用來進(jìn)行一般性評價的維度。
(2)運(yùn)用主成分分析法對自建點(diǎn)的數(shù)據(jù)進(jìn)行分析,分析結(jié)果可以發(fā)現(xiàn)前七個主成分的累積貢獻(xiàn)率已達(dá)到92%,另外四個主成分就可以舍去,達(dá)到降維的目的。從程序結(jié)果來看:第一主成分(PC1)的占比較多,起較大的作用,其中PM2.5、PM10和CO的系數(shù)都在0.5左右。而國控點(diǎn)的影響因素也包含PM2.5、PM10和CO,初步推斷兩組數(shù)據(jù)比較吻合的,且PM2.5、PM10和CO對空氣質(zhì)量的監(jiān)測中有比較大的影響。
(二)因子分析法
因子分析[2](factor analysis)是主成分分析的推廣和發(fā)展,它也是多元統(tǒng)計(jì)分析中降維的一種方法,是一種用來分析隱藏在表面現(xiàn)象背后的因子作用的一類統(tǒng)計(jì)模型.因子分析是研究相關(guān)陣或協(xié)方差陣的內(nèi)部依賴關(guān)系,它將多個變量綜合為少數(shù)幾個因子,以再現(xiàn)原始變量與因子之間的相關(guān)關(guān)系??杀磉_(dá)為:“Xi=a1f+Ei,i=1,2,…,P,”。
其中f是對所有x(=12,…,D)都起作用的公共因子(common fotor),它表示影響因素的因子,系數(shù)ai稱為因子載荷(loading),變量x特有的特殊因子這就是一個最簡單的因子模型進(jìn)一步,可把簡單因子模型推廣到多個因子的情況,用這m個不可觀測的互不相關(guān)的公共因子f1,f2,…,fm(也稱為潛因子)和一個特殊因子c1來描述原始可測的相關(guān)變量X1,X2…,X,并解釋分析影響因素它們的系數(shù)a1,a2,…,am稱為因子載荷,這就是一個因子模型。根據(jù)結(jié)論進(jìn)行分析:在國控點(diǎn)的數(shù)據(jù)中,因子分析的結(jié)果顯示在第一個公共因子中,系數(shù)絕對值較大的是PM2.5、PM10和CO,可以與主成分分析中的結(jié)論相對應(yīng)。
在自建點(diǎn)的數(shù)據(jù)中,因子分析的結(jié)果中顯示在第一公共因子中,系數(shù)絕對值較大的也是PM2.5和PM10,根據(jù)以上的模型結(jié)果,大致可以推出PM2.5和PM10對空氣質(zhì)量的監(jiān)測數(shù)據(jù)影響較大。
(三)一元線性回歸模型
在統(tǒng)計(jì)學(xué)中,線性回歸[3]是利用稱為線性回歸方程的最小平方函數(shù)對一個或多個自變量和因變量之間關(guān)系進(jìn)行建模的一種回歸分析。只有一個自變量的情況稱為簡單回歸,大于一個自變量情況的叫做多元回歸。本題運(yùn)用到一元線性回歸表示式如下:“Y=β0+β1X”中,Y代表國控點(diǎn)的PM2.5、PM10、CO、NO2、SO3、O3濃度;β0、β1代表一元線性回歸方程的參數(shù);X代表自建點(diǎn)的PM2.5、PM10、CO、NO2、SO3、O3濃度。
我們對自建點(diǎn)和國控點(diǎn)的“兩塵四氣”監(jiān)測數(shù)據(jù)做了一元線性回歸模型,根據(jù)題目的要求我們建立一元線性回歸模型,得出以下結(jié)果:
1.PM2.5(國控點(diǎn))和PM2.5(自建點(diǎn))的對比
建立一元線性回歸模型,得出兩者的函數(shù)關(guān)系式:Y1=1.27X1+3.37,從模型結(jié)果來看兩者之間的關(guān)系是顯著的,反映出國控點(diǎn)的PM2.5和自建點(diǎn)的PM2.5成線性關(guān)系,回歸系數(shù)也在置信區(qū)間內(nèi),可知該模型是成立的。
2.PM10(國控點(diǎn))和PM10(自建點(diǎn))的對比
建立一元線性回歸模型,得出兩者的函數(shù)關(guān)系式:Y2=1.16X2+30.01,從模型結(jié)果來看兩者之間的關(guān)系是顯著的,反映出國控點(diǎn)的PM10和自建點(diǎn)的PM10的線性關(guān)系?;貧w系數(shù)也在置信區(qū)間內(nèi),可知該模型是成立的。
3.CO(國控點(diǎn))和CO(自建點(diǎn))的對比
建立一元線性回歸模型,得出兩者的函數(shù)關(guān)系式:Y3=0.12X3+0.47,從模型結(jié)果來看兩者之間的關(guān)系是顯著的,反映出國控點(diǎn)的CO和CO的線性關(guān)系?;貧w系數(shù)也在置信區(qū)間內(nèi),可知該模型是成立的。
4.NO2(國控點(diǎn))和NO2(自建點(diǎn))的對比
建立一元線性回歸模型,得出兩者的函數(shù)關(guān)系式:Y4=0.42X4+44.01,從模型結(jié)果來看兩者之間的關(guān)系是顯著的,反映出國控點(diǎn)的NO2和自建點(diǎn)的NO2的線性關(guān)系?;貧w系數(shù)也在置信區(qū)間內(nèi),可知該模型是成立的。
5.SO3(國控點(diǎn))和SO3(自建點(diǎn))的對比
建立一元線性回歸模型,得出兩者的函數(shù)關(guān)系式:Y5=0.03X5+15.67,從模型結(jié)果來看兩者之間的關(guān)xi不是很顯著的,但是國控點(diǎn)的SO2和自建點(diǎn)的SO2還是線性關(guān)系?;貧w系數(shù)也在置信區(qū)間內(nèi),可知該模型是成立的。
6.O3(國控點(diǎn))和O3(自建點(diǎn))的對比
建立一元線性回歸模型,得出兩者的函數(shù)關(guān)系式:Y6=0.27X6+53.05,從模型結(jié)果來看兩者之間的關(guān)xi不是很顯著的,但是國控點(diǎn)的SO2和自建點(diǎn)的SO2還是線性關(guān)系。回歸系數(shù)也在置信區(qū)間內(nèi),可知該模型是成立的。
(四)多元線性回歸模型
在統(tǒng)計(jì)學(xué)中,線性回歸(Linear Regression)是利用稱為線性回歸方程的最小平方函數(shù)對一個或多個自變量和因變量之間關(guān)系進(jìn)行建模的一種回歸分析。這種函數(shù)是一個或多個稱為回歸系數(shù)的模型參數(shù)的線性組合。只有一個自變量的情況稱為簡單回歸,大于一個自變量情況的叫做多元回歸。(這反過來又應(yīng)當(dāng)由多個相關(guān)的因變量預(yù)測的多元線性回歸區(qū)別,而不是一個單一的標(biāo)量變量)。本題運(yùn)用到多元線性回歸[4],多元線性表示式:“Yn=β0+β1X1+β1X2+……+βnan”式中,我們以自建點(diǎn)的濕度、溫度、風(fēng)速、氣壓、降水為自變量,分別以國控點(diǎn)的“兩塵四氣”為因變量,做多元線性回歸模型(程序見附錄四),根據(jù)題目的要求我們建立多元線性回歸模型。得出結(jié)果:除了風(fēng)速對PM2.5的影響不顯著,其他結(jié)果都很顯著。從結(jié)果看:濕度、溫度、風(fēng)速、氣壓、降水對自建點(diǎn)監(jiān)測的“兩塵四氣”的數(shù)據(jù)是有影響的。但是由于非常規(guī)氣態(tài)污染物(氣)濃度變化對傳感器會存在交叉干擾,所以我們接著用相關(guān)性分析[5]對每個因素的交互干擾進(jìn)行分析。
研究結(jié)果顯示:AQI的六個指標(biāo)之間兩兩的相關(guān)性,即相關(guān)程度?,F(xiàn)對其一一解釋:
(1)PM2.5與其余的五個指標(biāo)PM10,CO,NO2,SO2,O3的相關(guān)系數(shù)分別為0.8157,0.6624,0.2590,0.2713,-0.2690,可知PM2.5與PM10,CO相關(guān)性較大,而與PM10的相關(guān)程度超過80%,說明與PM10是強(qiáng)相關(guān)的,而與O3的相關(guān)性是負(fù)相關(guān),而且值較小,所以是弱相關(guān)。
(2)PM10與其余指標(biāo)CO,NO2,SO2,O3的相關(guān)系數(shù)分別為0.5822,0.3064,0.3064,-0.1765,可知PM10與CO,NO2,SO2是正相關(guān),而與O3是負(fù)相關(guān),且相關(guān)性不強(qiáng),相關(guān)系數(shù)為-0.1765。
(3)CO與NO2,SO2,O3的相關(guān)系數(shù)分別為0.2983,03119,-0.2737,可知CO與NO2,SO2的相關(guān)程度在30%以上為正相關(guān),而與O3相關(guān)系數(shù)為-0.2737,說明為負(fù)相關(guān),說明兩者相關(guān)性不高。
(4)NO2與SO2,O3的相關(guān)性系數(shù)是-0.3440,-0.2544,都為負(fù)相關(guān),從數(shù)值上看,相關(guān)性都不是很強(qiáng)。
(5)SO2與O3的相關(guān)性系數(shù)為-0.2840,為負(fù)相關(guān),從數(shù)值上看,相關(guān)性不強(qiáng)。
三、模型推廣與評價
模型的優(yōu)點(diǎn):線性回歸模型較簡單,應(yīng)用較廣,容易操作;因子分析法能很好的涵蓋原始數(shù)據(jù)的各個項(xiàng),同時將分析過程簡化為因子項(xiàng)的分析,變量比原始的變量少了很多,起到了降維的作用,為我們處理數(shù)據(jù)降低了難度,從而更加簡便。
模型的缺點(diǎn):回歸分析中,選用何種因子和該因子采用何種表達(dá)式只是一種推測,這影響了因子的多樣性和某些因子的不可測性,使得回歸分析在某些情況下受到限制。未能完全考慮到其他各種因素。
參考文獻(xiàn):
[1]陳立萍,薛毅.統(tǒng)計(jì)建模與R軟件(下冊)[M].清華大學(xué)出版社,2006,07.
[2]Abhishek Singh,Karthik Ramasubramanian.R語言機(jī)器學(xué)習(xí)[M].機(jī)械工業(yè)出版社,2018,06.
[3]洪錦魁,蔡桂宏.R語言[M].清華大學(xué)出版社,2016,06.
[4]司守奎,孫璽菁.數(shù)學(xué)建模算法與應(yīng)用[M].國防工業(yè)出版社,2012,06.
[5]Andrie de Vries,Joris Meys.R語言可以很簡單[M].人民郵電出版社,2017,07.