解蕾
(運城師范高等??茖W校,山西運城044000)
用SPSS實現對太原市PM2.5區(qū)域變化特征和影響因素的分析
解蕾
(運城師范高等??茖W校,山西運城044000)
SPSS是一個集數據整理和數據分析功能于一體的統計軟件,與EXCEL比較,SPSS能夠處理的數據量更大,數據分析和統計的功能更多,數據處理的結果更加精準。本文主要通過“用SPSS實現對太原市PM2.5區(qū)域變化特征和影響因素的分析”的具體實例,按照“統計需求——SPSS操作方法——結論分析”的模式,對實用統計功能的SPSS實現方法進行介紹,以便使讀者能夠有效在理解SPSS的各統計基本操作,掌握利用SPSS解決實際問題的方法和技能。
SPSS;PM2.5;區(qū)域變化特征;影響因素
PM2.5是指大氣中直徑小于或等于2.5微米的顆粒物,也稱為可入肺顆粒物,是空氣污染的主要指標。PM2. 5粒子小,富含大量的有毒有害物質,且在大氣中停留時間長,輸送距離遠,對人體的健康影響很大,也是霧霾天氣形成的主要原因。PM2.5的來源及化學組成均非常復雜,除了有自然與人為的一次排放之外,還包括由大氣中氣態(tài)污染物的二次化學合成,所以研究PM2.5的變化特征和探索大氣中各類氣態(tài)污染物對PM2.5的二次合成貢獻的大小,對于跟蹤污染源,以及城市的環(huán)境治理具有重要的參考價值。
近年來有許多研究對PM2.5的時空變化特征進行了分析,但因為監(jiān)測的數據量比較大,使用傳統的人工統計分析的方法容易導致研究結果的偏差。本研究數據的來源是國家環(huán)境保護部每小時的實報數據,數據詳細可靠,數據量也比較大,使用SPSS軟件進行分析更加符合大量數據分析的需求。本文采用SPSS對太原市2014年3月份PM2.5的數據進行分析,從而得出PM2.5區(qū)域變化特征,并通過SPSS提供的相關性和回歸分析研究其他大氣污染物對PM2.5的影響。
1.數據信息
本研究主要是對太原市2014年3月份PM2.5及其他污染指標的統計分析。監(jiān)測點設置在尖草坪、澗河、金勝、晉源、南寨、上蘭、桃園、塢城、小店9處。本研究的數據來源于國家環(huán)保部網站,通過silverlight編寫接口程序,通過服務器動態(tài)獲取其網站所發(fā)布的太原市9個空氣質量監(jiān)測點位的日報和時報數據,數據變量包括監(jiān)測時間、檢測點位、SO2、NO2、O3、CO、PM10、PM2.5每小時的濃度平均值,共計8個指標。
2.SPSS操作方法
通過SPSS導入EXCEL數據表,單擊數據窗口左下方的VariableView標簽,進入變量定義視圖窗口,將空氣質量等級建立值標簽,在DataView數據視圖中,執(zhí)行Data——SortCases命令,按照position進行升序排序。對于缺失和無效數據通過數據的選擇功能直接刪除。最終到的數據表如圖1。
1.分析需求
利用描述統計過程對太原市2014年3月份各污染指標的一般統計量進行計算,主要包括觀測量的數量、PM2.5最小值、PM2.5最大值、月均值和標準偏差。
2.SPSS操作方法
執(zhí)行Analyze——DescriptiveStatistic——Descriptive命令,在彈出的Descriptives對話框中選擇變量"PM2.5"到Variable[s]欄中,選擇Savestandardizedvalueasvariables選項,單擊OK按鈕。
在結果輸出窗口中,可得到如表1所示的執(zhí)行結果:
表1
從表1中可以看到,3月份PM2.5的月均值為55.57ug/m3,最大值為269ug/m3,最小值為4ug/m3。
1.分析需求:利用列形式統計報表功能對2014年3月份太原市空氣質量數據進行描述統計量計算,計算并對比各監(jiān)測地區(qū)的污染比例。
圖1
2.SPSS操作方法:現將變量quality的類型轉換為Numeric數值型數據,然后執(zhí)行Analyze——Reports——ReportSummariesinColumns命令,選擇變量“quality”到DataColumns框中,單擊Summary按鈕,設置Value的值為2,選定單選按鈕Percentageabove,單擊Continue按鈕。
從結果輸出窗口中,可得到如表2所示的執(zhí)行結果:
表2 空氣質量等級
從表2空氣質量等級列概述報告中可以看到,太原市各監(jiān)測點空氣質量等級>2(未達到優(yōu)良)的比例,從報告結果中看到小店、澗河、塢城3個區(qū)域的污染最為嚴重,2014年3月份的空氣質量等級數值,污染天氣所占比例分別為62.5%、62.0%、57.7%。
1.分析需求:對各個監(jiān)測點的PM2.5數值進行差異比較。單因素方差分析方法用于測試某一個控制變量的不同水平是否給指標變量造成了顯著差異和變動,而且單因素方差分析的控制變量只能有一個,所以適合本例。
2.SPSS操作方法:執(zhí)行Analyze——CompareMeans——OneWayANOVA命令,打開OneWayANOVA對話框;從左側變量列表中選擇“PM2.5”到DependentList框,選擇“position”到Factor框;單擊PostHoc按鈕,打開OneWayANOVA:PostHocMultipleComparisons對話框,選擇LSD顯著性檢驗法;單擊OK按鈕。
在結果輸出窗口中,可得到如表2所示的執(zhí)行結果:
表3 ANOVAPM2.5
從方差分析表(表3)中,我們能看到F檢驗值為61.618,相伴概率為0.000<0.05,所以拒絕零假設。也就是說,各個區(qū)域的PM2.5差異很顯著。
圖2監(jiān)測均值折級圖
從均值折線圖(圖2)中,也能夠看到各個地區(qū)的PM2.5值的差異比較顯著,其中南寨的PM2.5均值最高。
1.分析需求:PM2.5的來源及化學組成均非常復雜,除了有自然與人為的一次排放之外,還包括由大氣中氣態(tài)污染物的二次化學合成,通過相關性分析,預測PM2.5與CO、NO2、O3、SO2之間是否存在線性關系。
2.SPSS操作方法:執(zhí)行Analyze——Correlate——Bivariate命令;在彈出的“BivariateCorrelations”對話框中,選擇變量PM2.5、CO、NO2、O3、SO2到“Variables”框;在“CorrelationCoefficient”欄中選擇Pearson簡單相關系數;在“TestofSignificance”欄中選擇“Two-Tailed”選項;單擊OK按鈕。
從相關系數表中可以看出,PM2.5與CO的相關系數為0.829,不線性相關的概率為0.000,這說明PM2.5與CO之間有較顯著的線性相關關系。PM2.5與NO2的相關系數為0.464,不線性相關的概率為0.000,線性相關很顯著,但相關程度不高。PM2.5與O3的相關系數為-0.253,不線性相關的相伴概率為0.000,所以PM2.5與O3之間存在較顯著的負相關關系,但相關程度很微弱。PM2.5與SO2的相關系數為0.307,不線性相關的相伴概率為0.000,所以表明PM2.5與SO2之間相關程度很微弱。
1.根據相關性分析的結果,用PM2.5與CO做線性回歸得出回歸模型。并對模型的優(yōu)劣進行評價。
2.SPSS操作方法:執(zhí)行Analyze——Regression——Linear命令;在彈出的“LinearRegression”對話框中選擇變量“PM2.5”到“Dependent”框,選擇變量“CO”到“Independent”框中;單擊Statistics按鈕,打開“Linear Regression:Statistics”對話框,選擇“Estimates”和“Model fit”選項,單擊“Continue”按鈕返回主菜單;單擊OK按鈕提交系統執(zhí)行。
模型擬合概述表顯示,相關系數R=0.807,判定系數R2=0.688,修正的判定系數為0.688,這表明PM2.5與CO之間具有很強的線性相關關系。
從方差分析表中可以看到,F統計量的值為7480.242,F統計量的相伴概率Sig=0.000,回歸效果非常顯著。
從線性模擬系數表中可以看到,常數項為:16.279,自變量系數為:2.439。由此可得相應的模型為:PM2. 5=16.279+2.439CO。
經過分析得出以下結論:太原市各個監(jiān)測區(qū)域之間PM2.5的質量濃度差異顯著,其中小店、澗河、塢城3個監(jiān)測點的污染比較嚴重。PM2.5與CO具有高度的線性相關,而且線性相關很顯著,說明CO對PM2.5的大氣二次合成貢獻較大。通過回歸分析,建立兩者之間的回歸模型為PM2.5=16.279+2.439CO??梢钥闯?,用SPSS實現大數據量的數據分析,既容易操作,而且功能強大,大大提高了統計分析的效率,增加了分析結果的可靠性。
[1]和雅君.SPSS旅游統計使用教程[M].北京:旅游教育出版社,2010.
[2]何正國.北京地區(qū)PM10和PM2.5質量濃度的變化特征[J].環(huán)境科學研究,2004,17(1).
TP
A
1673-0046(2015)4-0182-03