申停波++曹西娟++謝祥俊
摘 要:因子分析法是從研究相關(guān)矩陣或協(xié)方差的內(nèi)部依賴關(guān)系出發(fā),把一些具有錯(cuò)綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個(gè)深層次因子,它是一種多變量統(tǒng)計(jì)方法。該文以成都市的空氣質(zhì)量為例,針對(duì)具有代表性的空氣污染指標(biāo),利用因子分析法對(duì)成都市的空氣質(zhì)量進(jìn)行綜合分析,給出了成都市各月份的空氣質(zhì)量因子綜合得分,與政府給出的環(huán)境空氣質(zhì)量綜合指數(shù)進(jìn)行卡方檢驗(yàn),結(jié)論具有一致性并與實(shí)際天氣狀況相符合。
關(guān)鍵詞:因子分析 空氣污染 綜合得分 卡方檢驗(yàn)
中圖分類號(hào):TN93 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2017)03(c)-0121-04
Study on Air Quality in Chengdu Based on Factor Analysis
Shen Tingbo Cao Xijuan Xie Xiangjun
(School of Sciences, Southwest Petroleum University, Chengdu Sichuan, 610500, China)
Abstract: Factor analysis is a kind of multivariate statistical method, which is based on the study of correlation matrix or covariance, and some of the variables with complex relations are reduced to a few deep factors First this paper based on the air quality in Chengdu city, focusing on the representative air pollution index, comprehensive analysis by using factor analysis method of air quality in Chengdu City, given the comprehensive score of air quality factor each month. The second is based on the comprehensive index score with the official air quality by the chi square test,results are consistent. It is concluded that the air quality in Chengdu is consistent with the results obtained by factor analysis.
Key Words: Factor analysis; Air pollution; Composite score; Chi square test
對(duì)空氣質(zhì)量進(jìn)行綜合評(píng)價(jià)的工作已經(jīng)成為當(dāng)今環(huán)??茖W(xué)的重要課題,而空氣質(zhì)量評(píng)價(jià)系統(tǒng)是由多種因子構(gòu)成的復(fù)雜系統(tǒng),受到多方面的影響。由于人們希望能夠盡早知道可能出現(xiàn)的大氣污染程度和空氣質(zhì)量,以便采取防護(hù)措施來減輕污染危害,各地環(huán)保機(jī)構(gòu)都已經(jīng)開始實(shí)行空氣質(zhì)量指數(shù),飲用水水質(zhì)質(zhì)量檢測(cè),地表水水質(zhì)檢測(cè)。2012年2月29日,環(huán)保部新修訂的《環(huán)境空氣質(zhì)量標(biāo)準(zhǔn)》新標(biāo)準(zhǔn)增加了PM2.5、O3、CO共3項(xiàng)考核指標(biāo),收緊了部分污染物濃度限值,將PM10的二級(jí)標(biāo)準(zhǔn)年均濃度限值由現(xiàn)行的0.100 mg/m3調(diào)整為0.070 mg/m3;NO2二級(jí)標(biāo)準(zhǔn)的年均濃度限值由現(xiàn)行的0.080 mg/m3調(diào)整為0.040 mg/m3;調(diào)整了數(shù)據(jù)統(tǒng)計(jì)的有效性規(guī)定。PM2.5和PM10同為懸浮在大氣中的顆粒物,只是粒徑大小不同。PM2.5是PM10的一部分,是指大氣中空氣動(dòng)力學(xué)直徑小于或等于2.5 μm的顆粒物,也稱為細(xì)顆粒物,它的直徑還不到人的頭發(fā)粗細(xì)的1/20。PM2.5主要對(duì)呼吸系統(tǒng)和心血管系統(tǒng)造成傷害,包括呼吸道受刺激、咳嗽、呼吸困難、降低肺功能、加重哮喘、導(dǎo)致慢性支氣管炎、心律失常、非致命性的心臟病、心肺病患者的過早死。老人、小孩以及心肺疾病患者,是PM2.5污染的敏感人群。
在我國(guó)環(huán)境預(yù)測(cè)方面,時(shí)間序列預(yù)測(cè)在20世紀(jì)70~80年代開始逐步采用和預(yù)測(cè),主要是根據(jù)歷史規(guī)律和歷史數(shù)據(jù),采用自回歸平均移動(dòng)模型等[1]。而因子分析可以很好地詮釋時(shí)間序列預(yù)測(cè)模型中的個(gè)數(shù),找出問題的主要原因,有針對(duì)性地提高和改進(jìn)。
1 基礎(chǔ)數(shù)據(jù)
根據(jù)成都市環(huán)境保護(hù)局發(fā)布2016空氣質(zhì)量指數(shù)報(bào)告,飲用水水質(zhì)質(zhì)量檢測(cè),地表水水質(zhì)檢測(cè)報(bào)告,筆者搜集了2016年12個(gè)月成都市空氣污染情況統(tǒng)計(jì)數(shù)據(jù)(表1)。
2 因子分析法基本模型及算法步驟
(1)模型的建立。
假設(shè)有P個(gè)月份,因子分析的目的是用少數(shù)幾個(gè)公共因子(設(shè)為個(gè)因子)來描述個(gè)月份的協(xié)方差結(jié)構(gòu)。以表示各空氣污染指標(biāo)的隨機(jī)向量,建立正交因子模型,即存在綜合指標(biāo),也稱為主要因子。假設(shè)隨機(jī)變量滿足以下模型():
用矩陣表示為,其中,是的主要因子,成為影響的特殊因子,且與互不相關(guān)。
(2)數(shù)據(jù)的標(biāo)準(zhǔn)化。
首先對(duì)原始數(shù)據(jù)(第個(gè)指標(biāo),第個(gè)樣本上的原始數(shù)據(jù)值)進(jìn)行標(biāo)準(zhǔn)化變換,以消除量綱以及數(shù)據(jù)上的差異。具體的方法為:
(3)確定初始主因子和初始因子的載荷矩陣。
(4)選取公共因子個(gè)數(shù),計(jì)算因子載荷矩陣。
因子分析方法的目的就是尋求少數(shù)的幾個(gè)公共因子來解釋全部的評(píng)價(jià)指標(biāo)。如果選取的因子數(shù)量過多,就會(huì)失去因子分析方法的意義;如果選取的因子個(gè)數(shù)較少,又會(huì)對(duì)原始信息產(chǎn)生浪費(fèi)。因此可以以主成分方法的特征值為標(biāo)準(zhǔn)來選取公共因子的個(gè)數(shù),該文選取碎石圖和主成分法對(duì)數(shù)據(jù)進(jìn)行分析。如果發(fā)現(xiàn)每個(gè)公共因子的含義不清楚,不便于實(shí)際背景解釋,還需要對(duì)因子載荷進(jìn)行旋轉(zhuǎn)。
(5)根據(jù)回歸算法計(jì)算出因子得分函數(shù)的系數(shù)。
因子分析的數(shù)學(xué)模型是將變量(或樣品)表示為公共因子的線性組合:
由于公共因子能反應(yīng)原始變量的關(guān)系,用公共因子代替原始變量,有時(shí)更能有利于描述研究對(duì)象的特征,因而需要將公共因子表示為變量的線性組合,即:
上式稱為因子得分函數(shù)。
(6)由得分系數(shù)陣,算出成都市各月份的環(huán)境因子得分并對(duì)結(jié)果進(jìn)行分析。
3 實(shí)例計(jì)算
對(duì)12個(gè)月成都市空氣污染情況統(tǒng)計(jì)數(shù)據(jù)采用(2)式進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,變換后的數(shù)據(jù)可以仍然記作,具體的于是得到了12×6的標(biāo)準(zhǔn)化的數(shù)據(jù)矩陣,且滿足以下條件:
令,則為待估的系數(shù)矩陣,稱為因子載荷矩陣(見表2)。
對(duì)標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行KMO(Kaiser-Meyer-Olkin)檢驗(yàn)和Bartlett球度檢驗(yàn)[3](表3),得到KMO檢測(cè)值為0.828,根據(jù)統(tǒng)計(jì)學(xué)家Ksise的建議KMO的值大于0.5,適合做因子分析;Bartlett球度檢驗(yàn)給出的相伴概率為0.00,小于顯著性0.05或者0.01,認(rèn)為此數(shù)據(jù)適合做因子分析。
選取公共因子個(gè)數(shù),計(jì)算因子載荷矩陣,運(yùn)用SPSS軟件做出因子分析碎石圖,圖1和表4中可以看出前兩個(gè)綜合指標(biāo)已經(jīng)可以反映出原始數(shù)據(jù)中的大部分信息,因此可以取因子個(gè)數(shù);由主成分法得到因子載荷矩陣:
由因子載荷矩陣可見:第一行至第四行,指標(biāo)變量在第一因子上都有比較大的載荷值,前面4個(gè)指標(biāo)在第二因子上有較大的載荷量,并且發(fā)現(xiàn)O3日8小時(shí)最大滑動(dòng)平均在第一因子為負(fù)相關(guān)。因?yàn)橐蜃拥膫€(gè)數(shù)小于變量的個(gè)數(shù),不能精確計(jì)算出因子的得分,只能對(duì)因子得分系數(shù)進(jìn)行估計(jì)。采用回歸法進(jìn)行估計(jì)得分系數(shù)矩陣(見表5)。
由得分函數(shù),算出成都市各月份的環(huán)境因子得分,如表6。
環(huán)境空氣質(zhì)量綜合指數(shù)是描述城市環(huán)境空氣質(zhì)量綜合狀況的無量綱指數(shù),綜合考慮了各項(xiàng)污染物的污染程度。環(huán)境空氣質(zhì)量綜合指數(shù)越大,表明綜合污染程度越重。對(duì)綜合排名和公布的空氣指數(shù)進(jìn)行檢驗(yàn),看這兩種結(jié)果是否具有顯著的差異。
由表7得:從卡方分布P值為0.015,小于0.05,表明市環(huán)境保護(hù)局給出的空氣質(zhì)量指數(shù)排名與用因子分析法算出的排名相關(guān),所以相關(guān)假設(shè)成立,指數(shù)排名與綜合排名具有一定的相關(guān)性。
該文根據(jù)成都市公布的空氣質(zhì)量數(shù)據(jù)進(jìn)行因子分析,得到影響空氣的主要因素為常規(guī)污染氣體和空氣中固體顆粒物兩大類。因子評(píng)價(jià)方法給出了2016年成都市空氣質(zhì)量在主要因子上的得分,根據(jù)得分越高反而空氣質(zhì)量越差進(jìn)行了排名,可以看出2月、6月和7月空氣質(zhì)量較好。而11、12月的空氣質(zhì)量較差。根據(jù)歷史記錄,7月份成都市城區(qū)環(huán)境空氣質(zhì)量6天優(yōu)、14天良、10天輕度污染、1天重度污染,而12月份成都市城區(qū)環(huán)境空氣質(zhì)量5天良、9天輕度污染、13天中度污染、4天重度污染,空氣質(zhì)量達(dá)標(biāo)天數(shù)比例16.1%,是比較差的。由此可見,運(yùn)用因子分析法得出的結(jié)論與實(shí)際天氣狀況相符合。
參考文獻(xiàn)
[1] 郭祥鵬.因子分析法在空氣質(zhì)量綜合評(píng)價(jià)中的應(yīng)用[J].淮南師范學(xué)院學(xué)報(bào),2015(3):14-16.
[2] 馬逢時(shí),吳誠(chéng)鷗,蔡霞.基于MINITAB的現(xiàn)代實(shí)用統(tǒng)計(jì)[M].中國(guó)人民大學(xué)出版社,2013.
[3] 張瓊.因子分析在學(xué)生成績(jī)綜合評(píng)價(jià)中的應(yīng)用[J].惠州學(xué)院學(xué)報(bào),2010,30(3):40-45.
[4] 朱星宇,陳勇強(qiáng).SPSS多元統(tǒng)計(jì)分析方法及應(yīng)用[J].清華大學(xué)出版社,2011.
[5] 王曉鵬.多元統(tǒng)計(jì)分析在河流污染狀況綜合評(píng)價(jià)中的應(yīng)用[J].系統(tǒng)工程理論與實(shí)踐,2001,21(9):118-123.