劉佳侖
(首都經(jīng)濟(jì)貿(mào)易大學(xué) 北京 100026)
本文以美國(guó)華盛頓特區(qū)的共享單車公司CapitalBikeshare,在2011—2012年間所記載的數(shù)據(jù)為目標(biāo)數(shù)據(jù)集,選取當(dāng)天是否為工作日、所處季節(jié)、天氣狀況、氣溫、體感溫度、濕度、風(fēng)速這七個(gè)關(guān)鍵指標(biāo)作為解釋變量,探索其與每日臨時(shí)用戶數(shù)量、注冊(cè)用戶數(shù)量、用戶總量之間的關(guān)系。對(duì)所選變量的具體說(shuō)明如表1所示。
表1 所選變量及相關(guān)信息
接下來(lái)做數(shù)據(jù)預(yù)處理。首先,將數(shù)據(jù)集中tmp、atmp、hum、windspeed的標(biāo)準(zhǔn)值還原為實(shí)際值;其次,刪除2011年3月10日的異常數(shù)據(jù),因?yàn)檫@一天的hum值顯示為0,實(shí)際生活中不可能出現(xiàn)這樣的情況;最后,為避免建模時(shí)出現(xiàn)多重共線性的情況,對(duì)含有兩個(gè)以上值的定性變量season和weathersit分別進(jìn)行獨(dú)熱編碼處理,對(duì)應(yīng)轉(zhuǎn)化為3個(gè)和2個(gè)啞變量。其中,將weathersit轉(zhuǎn)化為2個(gè)啞變量,是因?yàn)樗膶?shí)際取值中并沒(méi)有出現(xiàn)過(guò)(大雨、大雪、大霧))極端天氣。
做多元單因素方差分析時(shí)有兩個(gè)假設(shè)前提,分別為待檢驗(yàn)總體的多元正態(tài)性和方差—協(xié)方差陣的同質(zhì)性。前者可用Q-Q圖來(lái)進(jìn)行檢驗(yàn),對(duì)于后者本文采用似然比檢驗(yàn)。
1.多元正態(tài)性檢驗(yàn)
多元向量的Q-Q圖通過(guò)展示卡方分布理論值與樣本值的關(guān)系,來(lái)判別待檢驗(yàn)總體是否滿足正態(tài)性假設(shè)。如果所有點(diǎn)都落在斜率為1、截距為0的直線附近,則認(rèn)為正態(tài)性假設(shè)成立。應(yīng)用R軟件,得到響應(yīng)向量(casual,registered)針對(duì)三個(gè)因素workingday、season、weathersit的Q-Q圖如下。
圖1(casual,registered)的Q-Q圖
結(jié)果顯示,響應(yīng)向量(casual,registered)在不同因素下均服從多元正態(tài)分布。
2.協(xié)方差陣同質(zhì)性檢驗(yàn)
本小節(jié)中,響應(yīng)向量(casual,registered)將針對(duì)三個(gè)因素workingday、season、weathersit分別做三次似然比檢驗(yàn),以驗(yàn)證待檢驗(yàn)總體協(xié)方差矩陣的同質(zhì)性假設(shè)。
這里以workingday為例來(lái)說(shuō)明檢驗(yàn)流程。首先,應(yīng)用R軟件的str函數(shù)來(lái)查看workingday在不同水平下響應(yīng)向量的數(shù)據(jù)條數(shù),所得結(jié)果記為n0=231,n1=499。將組別0和組別1中響應(yīng)向量的數(shù)據(jù)矩陣分別記為Z0和Z1,在正態(tài)性假設(shè)下有Zi~Nni*q( )μi,Ini?Σi(i=0,1)。然后構(gòu)造冪等矩陣,令其中1ni為全1列向量,于是有根 據(jù) 冪 等 矩 陣 性 質(zhì) 可 得,Ui=其分布為且在U0和U1之間相互獨(dú)立。
所檢驗(yàn)的問(wèn)題為:H0:Σ0=Σ1v.s.HA:Σ0≠Σ1;似然比檢驗(yàn)統(tǒng)計(jì)量為:
表2 似然比檢驗(yàn)結(jié)果
各檢驗(yàn)統(tǒng)計(jì)值均大于相應(yīng)原假設(shè)下卡方分布上的0.05分位數(shù)。因此,在0.05的顯著性水平下拒絕原假設(shè),認(rèn)為針對(duì)上述三個(gè)因素進(jìn)行多元方差分析時(shí),協(xié)方差矩陣同質(zhì)性的檢驗(yàn)均未能通過(guò),即協(xié)方差矩陣不齊,于是后續(xù)采用穩(wěn)健多元方差分析的方法繼續(xù)進(jìn)行檢驗(yàn)。
3.穩(wěn)健多元單因素方差分析
若多元正態(tài)性或者協(xié)方差矩陣同質(zhì)性假設(shè)不滿足,又擔(dān)心多元離群點(diǎn),那么需考慮采用穩(wěn)健的MANOVA檢驗(yàn),此方法可通過(guò)R語(yǔ)言rrcov包中的Wilks.test函數(shù)來(lái)實(shí)現(xiàn)。檢驗(yàn)結(jié)果如表3。
表3穩(wěn)健單因素MANOVA
根據(jù)表3,所檢驗(yàn)的三個(gè)因素對(duì)應(yīng)的p值均小于0.05,于是在0.05的顯著性水平下拒絕原假設(shè),認(rèn)為共享單車每日臨時(shí)用戶數(shù)量與注冊(cè)用戶數(shù)量所構(gòu)成的響應(yīng)向量,在工作日與非工作日之間、在不同季節(jié)之間、在不同天氣狀況下的均值,都存在顯著性差異。
以共享單車每日用戶總數(shù)cnt作為響應(yīng)變量,以workingday、season、weathersit作為影響因素,分別做一元單因素方差分析。由于此方法的相關(guān)研究已經(jīng)非常普遍,故本文不再詳細(xì)闡述其檢驗(yàn)步驟。檢驗(yàn)正態(tài)性仍使用Q-Q圖;判斷方差齊性選用Bartlett檢驗(yàn)。值得注意的是,當(dāng)檢驗(yàn)因素各水平總體難以滿足方差分析假設(shè)條件(獨(dú)立性、正態(tài)性、方差齊性)時(shí),可采用克羅斯考爾和瓦里斯在1952年提出的Kruskal-Wallis穩(wěn)健檢驗(yàn)方法。
對(duì)假設(shè)前提進(jìn)行檢驗(yàn),cnt在各因素下基本滿足正態(tài)性假設(shè),并且除season外在其他因素下滿足方差齊性假設(shè),故對(duì)season使用Kruskal-Wallis穩(wěn)健檢驗(yàn)。方差分析檢驗(yàn)結(jié)果表明,在0.05的顯著性水平下,cnt在工作日與非工作日的均值不存在顯著性差異,在不同天氣狀況下的均值存在顯著性差異,在不同季節(jié)的均值存在顯著性差異。
構(gòu)建多元線性回歸模型,以casual和registered作為響應(yīng)向量,以workingday、season_1、season_2、season_3、weathersit_1、weathersit_2、temp、atemp、hum、windspeed作為解釋變量;構(gòu)建多重線性回歸模型,以cnt作為響應(yīng)變量,其解釋變量與多元線性回歸模型的設(shè)置相同。然后將分別對(duì)上述兩個(gè)模型進(jìn)行估計(jì)、檢驗(yàn)及修正,以達(dá)到最優(yōu)。
1.參數(shù)估計(jì)
設(shè)Y=(Y1,Y2)為casual和registered構(gòu)成的響應(yīng)向量,x=(1,x1,x2,…x10)為解釋變量,R為隨機(jī)誤差項(xiàng)。于是可構(gòu)建多元線性回歸模型:
在上述模型中,β的估計(jì)量為的估計(jì)量為其 中n=730為 總 樣本量,p=11為x的列數(shù),l=2為β的列數(shù)。根據(jù)以上表達(dá)式應(yīng)用R軟件,即可輸出β和ΣR的估計(jì)值。
2.β中行參數(shù)的Hotelling’sT2檢驗(yàn)
(1)提 出 原 假 設(shè) 與 備 擇 假 設(shè):H0∶βi=0v.s.H1∶βi≠0
(2)應(yīng)用R軟件,計(jì)算βi的F檢驗(yàn)統(tǒng)計(jì)值。
表4 行參數(shù)的F檢驗(yàn)統(tǒng)計(jì)值
3.模型修正
在原多元線性回歸模型的基礎(chǔ)上,剔除掉自變量atemp后,再做一次回歸,得到新模型中未知參數(shù)β′的估計(jì)值如表5。
表5 β′的估計(jì)值
對(duì)β′的行參數(shù)做Hotelling’sT2檢驗(yàn),得到行參數(shù)的F檢驗(yàn)統(tǒng)計(jì)值如表6。
表6 行參數(shù)的F檢驗(yàn)統(tǒng)計(jì)值
1.參數(shù)估計(jì)及t檢驗(yàn)
設(shè)Y3為共享單車每日用戶總數(shù)cnt,x同多元線性回歸模型,R為隨機(jī)誤差項(xiàng),構(gòu)建多重線性回歸模型:
應(yīng)用R軟件的lm函數(shù),得到β*的估計(jì)值及其各元素相應(yīng)的t檢驗(yàn)p值如表7。
表7 β*的估計(jì)值及t檢驗(yàn)結(jié)果
當(dāng)p<0.05時(shí),在0.05的顯著性水平下拒絕原假設(shè),即認(rèn)為相應(yīng)的當(dāng)p>0.05時(shí),在0.05的顯著性水平下不拒絕原假設(shè),即認(rèn)為相應(yīng)的通過(guò)觀察表7可知,解釋變量workingday和atemp的參數(shù)均未能通過(guò)檢驗(yàn),于是需對(duì)此模型進(jìn)行修正以達(dá)最優(yōu)。
2.逐步回歸法修正模型
R語(yǔ)言做逐步回歸分析時(shí),以赤池信息量AIC值的最小值作為確定最優(yōu)模型的準(zhǔn)則。采用逐步回歸分析方法對(duì)上述多重線性回歸模型進(jìn)行修正,依次剔除解釋變量atemp和workingday,修正后的模型為:
cnt=4125-1482season_1-581season_2-1049season_3+1700weathersit_1+1524weathersit_2+134temp-29hum-51windspeed
R語(yǔ)言運(yùn)行結(jié)果顯示:在修正模型中,每一個(gè)解釋變量對(duì)于響應(yīng)變量cnt的線性影響都是顯著的。
多元線性回歸和多重線性回歸對(duì)于沒(méi)有統(tǒng)計(jì)學(xué)背景的研究人員而言,確實(shí)是兩個(gè)非常容易被混淆的概念,通常會(huì)認(rèn)為二者是等價(jià)的,但通過(guò)上文敘述,可以很明確地看出二者之間的區(qū)別與聯(lián)系。多重線性回歸(multiplelinearregression)是簡(jiǎn)單直線回歸的推廣,研究的是一個(gè)因變量與多個(gè)自變量之間的數(shù)量依存關(guān)系。而多元線性回歸(multivariate linearregression)則是多重線性回歸的推廣,研究的是具有相關(guān)關(guān)系的多個(gè)因變量組成的響應(yīng)向量,與多個(gè)自變量之間的數(shù)量依存關(guān)系。雖說(shuō)從形式上來(lái)看,多元線性回歸模型是多重線性回歸模型的簡(jiǎn)單疊加,但實(shí)際上,它的用途和研究意義都比后者更加廣泛。一方面它能夠衡量響應(yīng)向量在不同維度之間的相關(guān)關(guān)系,另一方面它可以探究某一解釋變量對(duì)研究總體在不同維度的綜合影響。接下來(lái),對(duì)兩類模型的構(gòu)造方式和建模流程進(jìn)行詳細(xì)的分析和對(duì)比。
在多元單因素方差分析部分,響應(yīng)向量(casual,registered)針對(duì)三個(gè)因素workingday、season、weathersit均通過(guò)了顯著性檢驗(yàn),說(shuō)明這三個(gè)因素對(duì)響應(yīng)向量都具有顯著影響。于是在構(gòu)建多元線性回歸模型時(shí),應(yīng)納入上述三個(gè)因素作為解釋變量,從表5呈現(xiàn)的信息來(lái)看事實(shí)也正是如此。一元單因素方差分析檢驗(yàn)結(jié)果顯示,響應(yīng)變量cnt在workingday各水平下的均值并無(wú)顯著性差異,但對(duì)因素season和weathersit都通過(guò)了顯著性檢驗(yàn),這與構(gòu)造多重線性回歸模型時(shí),不納入workingday但納入其余兩個(gè)因素作為解釋變量的事實(shí)相符。
綜上,無(wú)論多元還是一元方差分析結(jié)果,都與各自所構(gòu)造的回歸模型相互驗(yàn)證了彼此的正確性。另外,被解釋變量的維數(shù)設(shè)置體現(xiàn)了兩類回歸模型在構(gòu)造方式上最明顯的差別,多元模型設(shè)置多維響應(yīng)向量,多重模型僅設(shè)置一維響應(yīng)變量。
在多元線性回歸部分,從表5可以看出,解釋變量workingday對(duì)臨時(shí)用戶數(shù)量具有負(fù)的線性影響,而對(duì)注冊(cè)用戶數(shù)量有正的線性影響,意味著工作日相比于非工作日,臨時(shí)用戶數(shù)量將減少,而注冊(cè)用戶數(shù)量增多。解釋變量season經(jīng)分解后形成了代表春、夏、秋季的啞變量,對(duì)比冬季,春、夏、秋季的注冊(cè)用戶數(shù)量均呈現(xiàn)出負(fù)增長(zhǎng),春季和秋季的臨時(shí)用戶數(shù)量也呈現(xiàn)出負(fù)增長(zhǎng),但夏季的臨時(shí)用戶數(shù)量呈現(xiàn)出正增長(zhǎng),這表明夏季的臨時(shí)用戶數(shù)量比冬季更多。解釋變量weathersit經(jīng)分解后形成了代表好天氣和較好天氣的啞變量,對(duì)比較差天氣,好天氣和較好天氣下的臨時(shí)用戶數(shù)量和注冊(cè)用戶數(shù)量均呈現(xiàn)出正增長(zhǎng)趨勢(shì)。此外,在所設(shè)定的氣溫范圍內(nèi),溫度越高,臨時(shí)用戶數(shù)量和注冊(cè)用戶數(shù)量越多;在所設(shè)定的濕度和風(fēng)速范圍內(nèi),濕度和風(fēng)速水平越高,臨時(shí)用戶數(shù)量和注冊(cè)用戶數(shù)量越少。上述分析結(jié)果基本符合實(shí)際情況。
在多重線性回歸分析中,對(duì)比冬季,春、夏、秋這三個(gè)季節(jié)對(duì)每日用戶總數(shù)均呈現(xiàn)出負(fù)的線性影響,意味著春、夏、秋三個(gè)季節(jié)的每日用戶總數(shù)少于冬季。對(duì)比較差天氣,好天氣和較好天氣對(duì)每日用戶總數(shù)具有正的線性影響,意味著天氣越好每日用戶總數(shù)越多。此外,在定量解釋變量的研究范圍內(nèi),溫度越高,每日用戶總數(shù)越多;濕度、風(fēng)速越高,每日用戶總數(shù)越少。以上內(nèi)容基本與多元線性回歸的分析結(jié)果保持一致,但獲得的信息明顯少于多元模型。