楊宜平,趙培信
(1.重慶工商大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院,重慶400067;2.河池學(xué)院數(shù)學(xué)系,廣西宜州 546300)
隨著計算機(jī)的普及以及統(tǒng)計軟件的發(fā)展,在經(jīng)濟(jì)、生物、工業(yè)等諸多領(lǐng)域正在采用統(tǒng)計軟件分析數(shù)據(jù),因而單純的講授統(tǒng)計理論的教學(xué)方式已不能適應(yīng)當(dāng)今社會發(fā)展的需求,將統(tǒng)計軟件的實(shí)際應(yīng)用與理論教學(xué)相結(jié)合的教學(xué)是現(xiàn)代統(tǒng)計教學(xué)的必然趨勢。在進(jìn)行統(tǒng)計分析時,常用的統(tǒng)計軟件有R、SAS、SPSS、S-Plus等。在Tiobe公布的2011年11月編程語言排行榜上,R語言位列第27位,市場占有率是0.5%,為統(tǒng)計軟件之首。由于R統(tǒng)計軟件具有其他統(tǒng)計軟件所不具備的優(yōu)點(diǎn)[1-4],加之R軟件完全免費(fèi),因此,受到廣大統(tǒng)計研究人員和統(tǒng)計工作者的青睞。在此以回歸模型為例介紹R統(tǒng)計軟件在統(tǒng)計教學(xué)中的應(yīng)用。
在進(jìn)行統(tǒng)計分析時,回歸分析運(yùn)用十分廣泛,它是建立兩種或者兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法?,F(xiàn)主要介紹線性回歸模型和分位數(shù)回歸模型。
其中Y為n×1的向量,X為p×n的矩陣,ε是n×1隨機(jī)誤差向量,其均值為0且Cov(ε)=σ2I,則回歸系數(shù)β的最小二乘估計為
在R統(tǒng)計軟件中,擬合線性回歸模型的函數(shù)為lm(),例如建立Y與X1和X2的回歸模型,
如果想了解更多關(guān)于函數(shù)lm()的用法,可輸入:
可以查到該函數(shù)的用法。
Koenker和Bassett[5]在1978年提出了分位數(shù)回歸,其思想是建立因變量Y對自變量X的條件分位數(shù)回歸模型。X對Y的線性分位數(shù)回歸模型
其中τ是因變量Y在X條件下的分位數(shù)。XTβ是擬合Y的第τ分位數(shù)。特別地,如果τ=0.5就是中位數(shù)回歸。為了獲得回歸系數(shù)的估計,需最優(yōu)化問題:
其中 ρτ(u)=τuI[0,∞)(u)-(1 -τ)uI(-∞,0)(u)。目前對該最優(yōu)化問題有3 種算法:單純形算法、內(nèi)點(diǎn)算法和平滑算法。在文獻(xiàn)[6]中,對這3種算法進(jìn)行了詳細(xì)的論述。
Roger Koenker編寫了分位數(shù)回歸的程序包“quantreg”。先到R主頁上把包下載下來,然后安裝該程序包。如何安裝R包,文獻(xiàn)[1,2]中有詳細(xì)介紹。安裝該程序包后,擬合分位數(shù)回歸的函數(shù)為rq(),其調(diào)用格式為
當(dāng)tau值缺省時為0.5,表示中位數(shù)回歸。輸入help(rq)可以進(jìn)一步了解該函數(shù)的功能以及調(diào)用格式。
王星[2]將傳統(tǒng)的線性回歸模型與分位數(shù)回歸模型進(jìn)行了比較。傳統(tǒng)的線性回歸模型具有以下缺陷:傳統(tǒng)線性回歸模型建立的是均值回歸模型,只反映均值變化;模型誤差需滿足Gauss-Markov假設(shè)條件,假設(shè)條件太強(qiáng)。在許多實(shí)際問題研究中不滿足該假設(shè)條件,如等方差假定就很難滿足。
分位數(shù)回歸克服了線性回歸模型的一些缺陷,與線性回歸相比,分位數(shù)回歸具有以下優(yōu)點(diǎn):分位數(shù)回歸是擬合不同分位數(shù)水平下的估計值,反映更多信息;不需要對隨機(jī)誤差做具體的假定;對異常值不敏感,擬合結(jié)果比較穩(wěn)定。
為測量某種材料的保溫性能,把用其覆蓋的容器從室內(nèi)移到溫度為X的室外,3 h后記錄其內(nèi)部溫度Y。經(jīng)過11次試驗(yàn),記錄數(shù)據(jù)見表1。
表1 某種材料室外與內(nèi)部溫度記錄數(shù)據(jù) ℉
分別采用線性回歸和中位數(shù)回歸分析該數(shù)據(jù)集。對該數(shù)據(jù)集進(jìn)行分析時,參考R語言程序如下:
從圖1可以看出線性回歸和中位數(shù)回歸的差異。線性回歸受到異常點(diǎn)影響較大,中位數(shù)回歸對異常點(diǎn)不敏感,擬合結(jié)果較穩(wěn)定。
數(shù)據(jù)分析已成為很多科研人員以及行業(yè)機(jī)構(gòu)關(guān)注的熱點(diǎn)之一,而基于統(tǒng)計方法分析數(shù)據(jù)是其中關(guān)鍵技術(shù)之一,專業(yè)統(tǒng)計軟件的出現(xiàn)為人們分析數(shù)據(jù)提供了有力支撐。統(tǒng)計學(xué)是一門應(yīng)用性很強(qiáng)的學(xué)科,在教學(xué)過程中,在為學(xué)生講授專業(yè)理論知識時,應(yīng)結(jié)合實(shí)際統(tǒng)計案例,并采用統(tǒng)計軟件進(jìn)行相關(guān)數(shù)據(jù)分析,以加深學(xué)生對于統(tǒng)計思想的理解。以線性回歸模型和分位數(shù)回歸模型為例介紹了R統(tǒng)計軟件在統(tǒng)計教學(xué)中的應(yīng)用,通過案例來闡述R統(tǒng)計軟件對這兩種回歸模型的具體操作。案例和統(tǒng)計軟件輔助教學(xué)的方式,不僅加深了學(xué)生對統(tǒng)計思想和方法的理解,而且激發(fā)了學(xué)生的學(xué)習(xí)興趣,進(jìn)一步提高了學(xué)生解決實(shí)際問題的能力。
圖1 某種材料保溫性能的中位數(shù)回歸(虛線)和線性回歸(實(shí)線)
[1]薛毅,陳立萍.統(tǒng)計建模與R軟件[M].北京:清華大學(xué)出版社,2006
[2]王星.非參數(shù)統(tǒng)計[M].北京:清華大學(xué)出版社,2010
[3]王斌會.多元統(tǒng)計分析及R語言建模[M].廣州:暨南大學(xué)出版社,2010
[4]湯銀才.R語言與統(tǒng)計分析[M].北京:高等教育出版社,2005
[5]KOENKER R,BASSETT G W.Regression quantiles[J].Econometrica,1978,46(1):33-50
[6]陳建寶,丁軍軍.分位數(shù)回歸技術(shù)綜述[J].統(tǒng)計與信息論壇,2008,23(3):89-96