費(fèi)妮娜,楊有龍
(1.西安理工大學(xué)高等技術(shù)學(xué)院,陜西西安 710048;2.西安電子科技大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,陜西西安 710071)
主成分回歸對(duì)腦卒中發(fā)病與環(huán)境因素間關(guān)系的解析
費(fèi)妮娜1,2,楊有龍2
(1.西安理工大學(xué)高等技術(shù)學(xué)院,陜西西安 710048;2.西安電子科技大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,陜西西安 710071)
腦卒中的誘發(fā)已經(jīng)被證實(shí)與環(huán)境因素包括氣溫和濕度之間存在密切關(guān)系.對(duì)腦卒中的發(fā)病環(huán)境因素進(jìn)行分析可以對(duì)腦卒中高危人群進(jìn)行風(fēng)險(xiǎn)評(píng)估并及時(shí)采取干預(yù)措施,而平均氣壓、最高氣壓、最低氣壓、平均溫度、最高溫度、最低溫度、平均相對(duì)濕度、最低相對(duì)濕度8個(gè)自變量之間的共線性使得用多元線性回歸方法得到的回歸方程的精度降低.運(yùn)用主成分回歸分析,對(duì)腦卒中發(fā)病人數(shù)與環(huán)境因素進(jìn)行了深入解析,結(jié)合統(tǒng)計(jì)軟件SPSS的分析結(jié)果,給出了計(jì)算主成分的正確表達(dá)式,并將主成分與發(fā)病人數(shù)進(jìn)行多元線性回歸,最終確定了腦卒中發(fā)病人數(shù)與8個(gè)環(huán)境因素間的數(shù)學(xué)模型.
腦卒中發(fā)?。画h(huán)境因素;主成分分析;數(shù)學(xué)模型
2012年全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽C題為腦卒中發(fā)病環(huán)境因素分析及干預(yù).作為指導(dǎo)教師,一直關(guān)注此賽題的研究進(jìn)展及結(jié)果,發(fā)現(xiàn)絕大多數(shù)參賽隊(duì)使用了多元線性回歸的方法,但有的忽視了氣象因素間的嚴(yán)重共線性給回歸方程帶來(lái)的影響.從2012年至今,幾乎沒(méi)有學(xué)者對(duì)克服這些現(xiàn)象再進(jìn)行深入研究.而環(huán)境因素之間的嚴(yán)重共線性使得多元線性回歸模型中偏回歸系數(shù)難以估計(jì),偏回歸系數(shù)的估計(jì)方差隨著解釋變量相關(guān)性的增大而增大,偏回歸系數(shù)的置信區(qū)間增大和偏回歸系數(shù)估計(jì)值的不穩(wěn)定性增強(qiáng),以及偏回歸系數(shù)假設(shè)檢驗(yàn)的結(jié)果不顯著等,都給回歸方程的確立帶來(lái)了嚴(yán)重的不可靠性[1].為了消除多重共線性給回歸模型帶來(lái)的不良影響,提出了一些改進(jìn)的回歸方法,其中比較有效的一種方法是主成分回歸方法[2].經(jīng)過(guò)與其他方法比較,本文在已有文獻(xiàn)的基礎(chǔ)上,利用excel表格進(jìn)行數(shù)據(jù)處理與成分計(jì)算,借助統(tǒng)計(jì)軟件SPSS17.0分析結(jié)果,正確使用主成分回歸方法對(duì)腦卒中與環(huán)境因素的關(guān)系進(jìn)行了分析,得到較為可靠的數(shù)學(xué)模型.
1.1 主成分分析的基本原理
Hotelling于1933年提出的主成分分析方法的核心思想就是通過(guò)降維,把多個(gè)指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo),盡量不改變指標(biāo)體系對(duì)因變量的解釋程度.此方法適用于變量之間存在較強(qiáng)相關(guān)性的數(shù)據(jù),如果原始數(shù)據(jù)相關(guān)性較弱,運(yùn)用主成分分析后不能起到很好的降維作用,即所得的各個(gè)主成分濃縮原始變量信息的能力差別不大.一般認(rèn)為當(dāng)原始數(shù)據(jù)大部分變量的相關(guān)系數(shù)都小于0.3時(shí),運(yùn)用主成分分析不能取得很好的效果.W.FMassy在1965年根據(jù)主成分分析的思想提出了主成分回歸方法.如今主成分回歸方法已經(jīng)被廣泛應(yīng)用,成為回歸分析中解決多重共線性比較有效的方法.
假設(shè)對(duì)某一事物的研究涉及p個(gè)指標(biāo),分別用X1,X2,…,Xp表示,這p個(gè)指標(biāo)構(gòu)成p維隨機(jī)向量為X=(X1,X2,…,Xp)′.設(shè)隨機(jī)向量X的均值為μ,協(xié)方差矩陣為Σ.
對(duì)向量X進(jìn)行線性變換,可以得到新的綜合變量,用Z表示,即就是,新的綜合變量可以由原來(lái)的變量線性表示,即滿足下式:
其中p個(gè)互不相關(guān)的新變量中可以找到l個(gè)新變量(l<p)能解釋原始數(shù)據(jù)大部分方差所包含的信息,包含的信息量是原始數(shù)據(jù)包含信息量的絕大部分.其余p-l個(gè)新變量對(duì)方差影響很?。覀兎Q這p個(gè)新變量為原始變量的主成分,每個(gè)新變量均為原始變量的線性組合.
設(shè)y=(y1,y2,…,yn),假設(shè)X設(shè)計(jì)矩陣已經(jīng)中心化,記λ1≥λ2≥…≥λp為X′X的特征根,Φ=(φ1,φ2,…,φp)為對(duì)應(yīng)的標(biāo)準(zhǔn)正交化特征向量[3].
1.2 主成分回歸的計(jì)算步驟
1)把原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,以消除結(jié)果受量綱的影響;
2)診斷自變量之間的多重共線性,檢驗(yàn)是否可以用主成分回歸進(jìn)行分析;
3)對(duì)所有標(biāo)準(zhǔn)化后的自變量,確定主成分的個(gè)數(shù)和特征值.最大的特征值對(duì)應(yīng)第一主成分,第二大特征值對(duì)應(yīng)第二主成分,以此類推.主成分個(gè)數(shù)的確定取決于主成分對(duì)因變量的解釋程度.如果前i個(gè)特征值之和與所有特征值之和的比達(dá)到一定程度比如85%時(shí),就可以認(rèn)為這些主成分能代替所有的自變量體系.同時(shí)剔除特征值對(duì)應(yīng)的比較小的那些主成分;
4)計(jì)算特征向量;
5)計(jì)算主成分的值;
6)對(duì)因變量y與主成分進(jìn)行普通最小二乘回歸,再返回到原來(lái)的參數(shù),即可得出消除多重共線性后的標(biāo)準(zhǔn)回歸方程.
由上述步驟可以看出:主成分回歸是先通過(guò)求特征值和特征向量,再降維來(lái)解決多重共線性問(wèn)題的.在降維前指標(biāo)之間的多重共線性可能是由于某個(gè)指標(biāo)或者少數(shù)指標(biāo)所包含的信息與其他指標(biāo)所包含的信息之間的相關(guān)性引起的,所以通過(guò)主成分方法的降維處理,就像是把指標(biāo)體系所包含的信息分了類,某一大類由一個(gè)主成分來(lái)表現(xiàn),這樣就消除了產(chǎn)生多重共線性問(wèn)題的根源信息的交迭[4].
本文將2007—2011年每天腦卒中發(fā)病人數(shù)看作因變量y,將平均氣壓x1、最高氣壓x2、最低氣壓x3、平均溫度x4、最高溫度x5、最低溫度x6、平均相對(duì)濕度x7、最低相對(duì)濕度x8,這8個(gè)環(huán)境因素看作自變量進(jìn)行分析.共收集了1 461組數(shù)據(jù).
2.1 數(shù)據(jù)標(biāo)準(zhǔn)化
在SPSS17.0軟件中執(zhí)行:“分析→描述統(tǒng)計(jì)→描述”,將變量y,x1,x2,…,x8選入“變量”對(duì)話框中,選定“將標(biāo)準(zhǔn)化得分另存為變量(Z)”,確定后,即將標(biāo)準(zhǔn)化后的數(shù)據(jù)作為變量保存(見(jiàn)表1).表1顯示各變量的樣本數(shù)(N)、均數(shù)和標(biāo)準(zhǔn)差、有效的N(列表狀態(tài)).以便對(duì)標(biāo)準(zhǔn)化的自變量進(jìn)行主成分回歸后還原為原始變量.
表1 描述統(tǒng)計(jì)量
2.2 共線性診斷
2.2.1 共線性診斷指標(biāo)
共線性就是對(duì)自變量觀測(cè)數(shù)據(jù)構(gòu)成的矩陣X′X進(jìn)行分析,使用各種指標(biāo)反映自變量間的相關(guān)性.進(jìn)行共線性診斷的方法有很多,目前較為常用的診斷方法有:容許度(Tolerance)、方差膨脹因子(VIF)、條件指數(shù)(Condition index)、方差比例(Variance Proportions)、特征值(Eigen values)等.
1)容許度(Tolerance)
容許度定義為T(mén)oli=1-R2i,其值介于0-1之間.其值越小,自變量xi與其它自變量xj(i≠j)之間的共線性越強(qiáng).使用容許度作為共線性度量指標(biāo)的條件比較嚴(yán)格,觀測(cè)量一定要大致近似于正態(tài)分布.
2)方差膨脹因子(VIF)
方差膨脹因子(VIF)定義為VIFi=1/(1-R2i),是容許度的倒數(shù),其值介于1-∞之間.其值越大,自變量之間存在共線性的可能性越大.
3)條件指數(shù)(Condition Index)
4)方差比例(Variance Proportions)
判斷變量之間是否存在共線性,需要觀測(cè)同一序號(hào)的特征值對(duì)應(yīng)的變量的方差比例.比例越大,其共線性的幾率越大.
5)特征值(Eigen values)
如果若干特征值較小并且接近0,表明某些變量之間存在很高的相關(guān)性.這些變量的觀測(cè)量出現(xiàn)較小的變化時(shí),都會(huì)導(dǎo)致方程系數(shù)發(fā)生較大變化.
通過(guò)單因素分析發(fā)現(xiàn),腦卒中發(fā)病與自變量的相關(guān)性非常小,且無(wú)規(guī)律可尋,需要進(jìn)行多因素分析,可以通過(guò)多元線性回歸進(jìn)行嘗試.但是,部分自變量之間又存在很強(qiáng)的相關(guān)性,如從表2(相關(guān)系數(shù)表)中可以看出關(guān)于溫度的三個(gè)指標(biāo)之間的相關(guān)系都大于0.9,相關(guān)系數(shù)很大,說(shuō)明共線性很強(qiáng),適合用主成分回歸分析討論腦卒中發(fā)病與環(huán)境因素的問(wèn)題[3].
2.2.2 共線性問(wèn)題的解決方法
執(zhí)行:“分析→降維→因子分析”,將8個(gè)自變量選入“變量”欄中,在“相關(guān)矩陣”欄中選中“系數(shù)”.從相關(guān)系數(shù)矩陣(表2)得到平均溫度和最高溫度、最低溫度之間的相關(guān)系數(shù)分都是0.984;平均氣壓和最高氣壓、最低氣壓之間的相關(guān)系數(shù)分別為:0.991和0.990,相關(guān)系數(shù)很接近于1,說(shuō)明這些變量間相關(guān)性很強(qiáng).其他結(jié)果見(jiàn)表2.
表2 相關(guān)系數(shù)表
共線性診斷也可以執(zhí)行:“分析→回歸→線性”,在自變量欄中導(dǎo)入標(biāo)準(zhǔn)化后的自變量Zx1,Zx2,…,Zx8,在“統(tǒng)計(jì)量”一欄中選擇“共線性診斷”,其他設(shè)為默認(rèn),結(jié)果見(jiàn)表3.條件指數(shù)從第5個(gè)開(kāi)始,遠(yuǎn)遠(yuǎn)大于30,說(shuō)明存在嚴(yán)重共線性.表中平均氣壓,最高氣壓,最低氣壓,平均氣溫,最高氣溫,最低氣溫的容忍度都<0.1,并且其方差膨脹因子VIF都很大,說(shuō)明這些變量之間存在嚴(yán)重的共線性.適合用主成分分析解決此問(wèn)題.
表3 共線性診斷指標(biāo)(共線性統(tǒng)計(jì)量)
圖1 特征值碎石圖
2.3 主成分分析
執(zhí)行:“分析→降維→因子分析”,選定標(biāo)準(zhǔn)化后的變量Zx1,Zx2,…,Zx8進(jìn)入“變量”欄中,在“抽取→方法→主成分”,在提取因子數(shù)后面框中填入3,提取三個(gè)主成分,在“輸出”欄中,選中“碎石圖”.在“得分”中選擇“保存為變量”;“方法”欄中選擇“回歸”.在“旋轉(zhuǎn)”欄中,選擇“無(wú)”.結(jié)果見(jiàn)圖1(特征值碎石圖)和表4(解釋的總方差).
前3個(gè)特征根之和已經(jīng)達(dá)到95.48%,所以選取3個(gè)主成分是合適的.圖1為各成分特征值的碎石圖,分析碎石圖可以看出成分1與2,成分2與3的特征值之差值比較大.而其余成分之間的特征值差值均較小.拐點(diǎn)在第3個(gè),因此提取3個(gè)因子比較合適.
前3個(gè)特征值分別為:λ1=5.668,λ2=1.588,λ3=0.387.
2.3.1 主成分分析
利用統(tǒng)計(jì)軟件SPSS17.0對(duì)標(biāo)準(zhǔn)化后的自變量執(zhí)行上述步驟,進(jìn)行主成分分析,即可得到成分矩陣和成分得分系數(shù)矩陣,結(jié)果見(jiàn)表5.根據(jù)表5的結(jié)果計(jì)算特征向量,記特征向量Φ=(φ1,φ2,φ3).
表4 解釋的總方差
表5 成分矩陣和成分得分系數(shù)矩陣
2.3.2 計(jì)算特征向量
1)計(jì)算特征向量方法1,利用成分矩陣計(jì)算:
2)計(jì)算特征向量方法2,利用成分得分系數(shù)矩陣計(jì)算:
2.3.3 計(jì)算主成分
主成分Z=Φ·Zx(Zx為標(biāo)準(zhǔn)化自變量)
在excel表格中利用矩陣乘法,計(jì)算出來(lái)Z1,Z2,Z3之后跟Zy(標(biāo)準(zhǔn)化因變量)進(jìn)行最小二乘回歸,得到回歸方程Zy=-0.052Z2,并對(duì)最終結(jié)果進(jìn)行檢驗(yàn).確定出發(fā)病人數(shù)和各個(gè)因素最終的數(shù)學(xué)模型.根據(jù)
最終確定了腦卒中發(fā)病人數(shù)與環(huán)境因素之間關(guān)系的數(shù)學(xué)模型.
主成分分析能把相關(guān)性較強(qiáng)的自變量綜合在同一個(gè)主成分中,所計(jì)算的主成分之間彼此獨(dú)立.這樣把相關(guān)自變量變換為相互無(wú)關(guān)的主成分后,再結(jié)合累計(jì)方差百分比,就能夠充分利用原有的信息,把主成分回歸方程轉(zhuǎn)換為線性回歸方程,這樣,既克服了共線性的干擾,又不損失原有信息.利用SPSS進(jìn)行主成分回歸分析是一種行之有效且快捷的方法.同時(shí)絕大部分的計(jì)算過(guò)程由計(jì)算機(jī)完成,減少人工計(jì)算的繁瑣,從而獲得高效、簡(jiǎn)潔和準(zhǔn)確的統(tǒng)計(jì)結(jié)果[6].
在查閱文獻(xiàn)的過(guò)程中,發(fā)現(xiàn)有許多文獻(xiàn)在對(duì)主成分計(jì)算、回歸和還原變量的過(guò)程中存在有概念模糊,甚至出現(xiàn)錯(cuò)誤的現(xiàn)象.因此,本文給出了計(jì)算特征向量、主成分回歸、還原原始變量過(guò)程的詳細(xì)說(shuō)明.
本文對(duì)腦卒中發(fā)病與環(huán)境因素之間的關(guān)系給出了相應(yīng)的數(shù)學(xué)模型.雖然從腦卒中疾病本身而言,高血壓,糖尿病,心臟疾病,血脂代謝紊亂、吸煙與酗酒、肥胖、等也是導(dǎo)致發(fā)病的直接原因,但不屬于2012年全國(guó)大學(xué)生數(shù)學(xué)建模賽題(腦卒中發(fā)病環(huán)境因素分析及干預(yù))的研究范圍.
[1] 薛薇.SPSS統(tǒng)計(jì)分析方法及應(yīng)用[M].北京:電子工業(yè)出版社,2001:259.
[2] 何燕.主成分回歸與偏最小二乘回歸方法比較[J].成都電子機(jī)械高等??茖W(xué)校學(xué)報(bào),2003(4):55-61.
[3] 郭呈全,陳希鎮(zhèn).主成分回歸的SPSS實(shí)現(xiàn)[J].統(tǒng)計(jì)與決策,2011(5):22-28.
[4] 周松青.解決多重共線性問(wèn)題的線性回歸方法[J].江蘇統(tǒng)計(jì),2000(11):12-16.
[5] 盧紋岱.SPSS for Windows統(tǒng)計(jì)分析[M].北京:電子工業(yè)出版社,2005:298.
[6] 劉潤(rùn)幸.利用SPSS進(jìn)行主成分回歸分析[J].中國(guó)公共衛(wèi)生,2001(8):44-50.
Principal Component Regression In?depth Analysis on Stroke Incidence and Environmental Factors
FEINi?na1,2,YANG You?long2
(1.Higher Colleges of Technology,Xi'an University of Technology,Xi'an Shanxi710082,China)(2.School of Mathematics and Statistics,Xidian University,Xi'an Shanxi710071,China)
Evoked brain stroke has been confirmed with environmental factors,including the existence of a close relationship between temperature and humidity.The incidence of environmental factors on stroke analysis to evaluate the risk of disease,can also be on stroke in high?risk groups to intervene timely.While the average pressure,maximum pressure,minimum pressure,average temperature,maximum temperature,minimum tem?perature,averageminimum relative humidity relative humidity between 8 variables,serious collinearitymakes using the regression equation ofmultiple linear regression method to get the accuracy greatly reduced.Princi?pal component regression analysis(principal component analysis and multiple linear regression combined)is an improved regression method,can eliminate the adverse effects brought by multiple correlation regression model.Using thismethod,the stroke incidence and environmental factors of in?depth analysis,combined with the statistical analysis software SPSS,the correct expression for calculating the principal component is given,to overcome themany false and misleading the principal components analysis using SPSS software,textbooks and published articles.Then the principal componentswith the incidence ofmultiple linear regression,and ul?timately determine the number ofmathematicalmodels of stroke and 8 environmental factors.
brain stroke incidence rate;environment factor;principal components regression;mathematical model
O212.4
A
1671?6876(2014)03?0200?06
[責(zé)任編輯:李春紅]
2014?05?09
國(guó)家自然科學(xué)基金資助項(xiàng)目(61075055)
費(fèi)妮娜(1979?),女,陜西西安人,講師,西安電子科技大學(xué)博士研究生,研究方向?yàn)槎嘣y(tǒng)計(jì)和因果推理. E?mail:feinina2010@126.com