山西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院(030001) 趙俊康 梁洪川 王 彤
半相依回歸(seemingly unrelated regression,SUR)也稱為相依回歸或似乎不相關(guān)回歸,可視為多個(gè)因變量情形下多元回歸(multivariate regression)的特例,由于它允許方程組中多個(gè)方程存在不同的自變量,這就為統(tǒng)計(jì)建模帶來了較大的靈活性。同時(shí),SUR在參數(shù)估計(jì)過程中考慮了方程間的相關(guān)信息,使參數(shù)估計(jì)效率在滿足某些適當(dāng)條件下較之對每個(gè)方程分別作最小二乘估計(jì)的傳統(tǒng)方法得到改進(jìn)〔1〕。
該方法最早源于計(jì)量經(jīng)濟(jì)學(xué)實(shí)踐,回歸方程組被用于解釋不同的經(jīng)濟(jì)實(shí)體或同一經(jīng)濟(jì)實(shí)體不同時(shí)期經(jīng)濟(jì)活動(dòng)中各要素的相互作用規(guī)律,作為多元線性回歸模型的自然擴(kuò)展,Zellner首次提出此模型用來解釋通用電氣和西武公司固定資產(chǎn)投資總額與其已發(fā)行股數(shù)額和現(xiàn)實(shí)資本額的關(guān)系,使用了半相依回歸這個(gè)名稱,并提出了兩步估計(jì)法(two-stage estimator)。自Zellner的建設(shè)性工作后,SUR“在現(xiàn)代計(jì)量經(jīng)濟(jì)學(xué)中扮演了中心角色”〔2〕,并且在經(jīng)濟(jì)、工業(yè)、地質(zhì)和社會科學(xué)等領(lǐng)域得到廣泛應(yīng)用,在醫(yī)學(xué)領(lǐng)域也有很大的應(yīng)用前景。我國學(xué)者有王松桂、陳桂景等提出協(xié)方差改進(jìn)估計(jì)用于該模型〔3-4〕。
醫(yī)學(xué)研究中很多現(xiàn)象是屬于非線性的,如血藥濃度與時(shí)間變量的關(guān)系等。模型的非線性有兩種可能的情況,一種是因變量與自變量的非線性,此類模型大多可通過合適的變換化為線性模型,只要變換后誤差仍為可加,則線性模型的估計(jì)理論和方法都適用。另一種是因變量與參數(shù)的非線性,這種情況下非線性是內(nèi)在的,無法變換為線性模型,此時(shí)必須采用新的參數(shù)估計(jì)方法。
1.模型結(jié)構(gòu)
非線性半相依回歸模型可寫為
xti是(ki×1)向量,代表第i個(gè)方程、第t個(gè)觀測中的自變量值;θi是參數(shù)空間中第i個(gè)方程的未知參數(shù)向量;fi(·;·)為第i個(gè)方程的非線性函數(shù);e=(et1,et2,…,etm)'被假定為相互獨(dú)立同分布,均值為零,方差-協(xié)方差為∑的誤差向量〔5〕。
2.參數(shù)估計(jì)
非線性半相依回歸模型的參數(shù)估計(jì)思想與線性模型類似〔6〕。
首先,不考慮方程間相關(guān)信息,我們對每一非線性方程極小化目標(biāo)函數(shù)
得到各方程的非線性普通最小二乘估計(jì),如果誤差向量為正態(tài)分布,則此估計(jì)還是極大似然估計(jì)。
然后,誤差向量的方差-協(xié)方差矩陣可估計(jì)為以
為元素的矩陣s=((sij)),得到∑的一致估計(jì)∑∧。
最后,考慮方程間的相關(guān)信息,在參數(shù)空間Θ上極小化目標(biāo)函數(shù)
從而得到非線性半相依回歸參數(shù)^θ的FGLS估計(jì)。
極小化目標(biāo)函數(shù)的方法可采用 Gauss-Newton、Newton-Raphson和極大似然估計(jì)等非線性模型的估計(jì)方法。Gallant提出了一種將多元問題轉(zhuǎn)換為一元問題的解決方案。Gallant建議將作Cholesky分解,即令=H'H,然后令 Z=YH',d(θ)=f(θ)H',則目標(biāo)函數(shù)變?yōu)?/p>
Gallant的方法使得原有得一元非線性程序只需稍微改動(dòng)即可應(yīng)用于多元模型。
Gallant證明,如果方程間確實(shí)有相關(guān)關(guān)系,且各方程的自變量xti不均相同,并且每一方程的非線性函數(shù)fi(xti;θi)形式不同,則非線性半相依回歸優(yōu)于非線性普通最小二乘回歸。反之,如果模型中每一個(gè)方程的自變量xti都相同,并且每一方程的非線性函數(shù)fi(xti;θi)有相同的形式,則非線性半相依回歸與非線性普通最小二乘參數(shù)估計(jì)結(jié)果相同,即^θ(I)與^θ(∑)有相同的漸近分布。
3.假設(shè)檢驗(yàn)
由于非線性模型參數(shù)無顯解式,其估計(jì)的小樣本分布很難導(dǎo)出,但Gallant,Willlam得到了一些大樣本性質(zhì)〔7〕。Gallant證明當(dāng)∑∧為∑的一致估計(jì)時(shí),非線性半相依回歸參數(shù)^θ的FGLS估計(jì)服從漸近正態(tài)分布
其漸近方差-協(xié)方差陣為
其中
如誤差向量為正態(tài)分布,則FGLS還是極大似然估計(jì)。
由于以上的結(jié)果,線性模型的參數(shù)檢驗(yàn)方法可在漸近理論的框架內(nèi)移植。如Wald檢驗(yàn)
4.S型劑量—反應(yīng)關(guān)系曲線的非線性生長曲線分析模型
藥物的劑量—反應(yīng)關(guān)系分析是藥理及毒理學(xué)試驗(yàn)的重要內(nèi)容,其中重復(fù)測量設(shè)計(jì)是常用的試驗(yàn)設(shè)計(jì)方法。采用重復(fù)測量設(shè)計(jì)我們除了可以探討不同試驗(yàn)條件對反應(yīng)量的影響,還可同時(shí)了解反應(yīng)量隨時(shí)間變化特點(diǎn)和規(guī)律。在重復(fù)測量分析中,有時(shí)我們可以建立一個(gè)數(shù)學(xué)模型,用時(shí)間的函數(shù)來預(yù)測反應(yīng)變量隨時(shí)間變化趨勢,這種分析方法稱為生長曲線分析(growth curve analysis)。生長曲線分析可以采用多項(xiàng)式回歸模型分析(polynomial regression model)、Rao-Khatri降維分析等線性模型方法。但線性模型只是生長曲線族中的特例,更多的是曲線生長的形式,如S型曲線等。這種情況下,使用線性模型方法可能無法很好的擬合資料。此時(shí),應(yīng)該用非線性方法擬合模型。
V?lund〔8〕提出了一種擬合 S型劑量—反應(yīng)關(guān)系曲線的非線性模型,其形式為
Yij=1/[1+exp( - (A'iθXj))]+ δij(10)其中,i=1,2,…,n;j=1,2,…,m,Yij為第 j時(shí)點(diǎn)第 i個(gè)體的反應(yīng)變量觀測值,通常以百分率表示,反映某反應(yīng)量占總反應(yīng)量的百分比;Aj為第j時(shí)點(diǎn)的設(shè)計(jì)矩陣;θ為未知參數(shù)矩陣,我們一般假定參數(shù)向量不隨時(shí)間改變,即各時(shí)點(diǎn)對應(yīng)的參數(shù)向量相同。為此,我們可以對各時(shí)點(diǎn)方程的參數(shù)實(shí)施限制,使得各方程對應(yīng)參數(shù)相等;Xj=(1,t'j)',tj為第j時(shí)點(diǎn)。從模型的形式上看,由于每一方程j的自變量代表各自重復(fù)測量時(shí)點(diǎn),即各方程自變量不相同,并且,各重復(fù)測量值之間大多存在相關(guān)性,所以該模型為非線性半相依回歸模型,我們可在半相依回歸的框架下,運(yùn)用模型誤差向量的方差-協(xié)方差矩陣信息,以提高模型參數(shù)的估計(jì)效率〔2〕。
一項(xiàng)毒理學(xué)試驗(yàn)研究四氯化碳CCl4肝細(xì)胞毒性的劑量-反應(yīng)關(guān)系及其與時(shí)間的關(guān)系。取64份肝細(xì)胞懸濁液,隨機(jī)分為4組,分別加入劑量為0、1.0、2.5和5.0mM 的 CCl4,在加入后第 0、0.01、0.25、0.5、1、2、3小時(shí)測量乳酸脫氫酶滲出百分比。
圖1 不同CCl4濃度在各時(shí)間點(diǎn)的平均乳酸脫氫酶滲出率曲線
以時(shí)間為X軸,乳酸脫氫酶滲出率為Y軸,繪出不同CCl4濃度在各時(shí)間點(diǎn)的平均乳酸脫氫酶滲出率曲線(見圖1),可見乳酸脫氫酶滲出率隨時(shí)間變化呈非線性關(guān)系,可用非線性模型擬合數(shù)據(jù)。
將非線性回歸方程寫成通常的形式
其中β0代表平均效應(yīng)參數(shù),β1表示CCl4的效應(yīng)參數(shù),β2表示時(shí)間的效應(yīng)參數(shù),β3表示CCl4與時(shí)間交互效應(yīng)參數(shù)。
對此例擬合上述非線性半相依回歸模型的參數(shù)估計(jì)結(jié)果見表1。
表1 非線性半相依回歸擬合參數(shù)估計(jì)值及假設(shè)檢驗(yàn)結(jié)果
可見,各估計(jì)參數(shù)的P值均小于0.05,說明CCl4及時(shí)間對乳脫酸氫酶滲出率的影響有統(tǒng)計(jì)學(xué)意義,CCl4與時(shí)間之間存在交互作用。最終模型可寫為:
運(yùn)用該模型,可以預(yù)測不同CCl4濃度在各時(shí)間點(diǎn)乳酸脫氫酶滲出率。
在本例中,由于我們需要對各個(gè)非線性方程對應(yīng)的參數(shù)進(jìn)行限制,令其不隨時(shí)間改變而改變,所以無法對各個(gè)方程分別采用非線性普通最小二乘估計(jì)而獲得統(tǒng)一的估計(jì)參數(shù),我們必須在方程組框架下,才能對參數(shù)實(shí)施限制。這充分說明了半相依回歸模型在建模上的特點(diǎn)。
本文介紹了非線性半相依回歸模型的參數(shù)估計(jì)方法及其大樣本性質(zhì),指出方程間確實(shí)有相關(guān)關(guān)系,且各方程的自變量xti不均相同,每一方程的非線性函數(shù)fi(xti;θi)形式不同的情況下,非線性半相依回歸優(yōu)于普通非線性最小二乘回歸。在醫(yī)學(xué)研究中的生長曲線問題通常為重復(fù)測量設(shè)計(jì),各重復(fù)測量值之間大多存在相關(guān)性,且在方程組形式中,若每一方程自變量Xj代表各自重復(fù)測量時(shí)點(diǎn),即各方程自變量不相同,這些特點(diǎn)非常符合半相依回歸系統(tǒng)的框架。故而此時(shí)運(yùn)用模型誤差向量的方差-協(xié)方差矩陣信息可提高參數(shù)的估計(jì)效率。同時(shí),在通常的統(tǒng)計(jì)軟件如SAS中,對重復(fù)測量的時(shí)間點(diǎn)之間建模僅提供多次項(xiàng)擬合,并不能滿足更復(fù)雜靈活的非線性模型形式,而在非線性半相依回歸框架下可以針對專業(yè)特點(diǎn)自行定義更利于專業(yè)解釋的各種非線性函數(shù)來建模,較之于一般的重復(fù)測量方差分析具有不可比擬的靈活性。如藥理和毒理學(xué)研究中各種劑量-反應(yīng)關(guān)系通常是一個(gè)S型曲線,此時(shí)即可進(jìn)行非線性半相依回歸建模。
需注意的是,本文介紹的參數(shù)估計(jì)方法在因變量為多元離散分布或模型中包含更復(fù)雜的非參數(shù)項(xiàng)時(shí),此方法將不再適用。關(guān)于廣義線性模型或廣義可加模型(generalized additive model)與半相依回歸的結(jié)合,將另文介紹。
1.梁洪川,韓宏,郎素萍,等.似乎不相關(guān)回歸模型及其在老年認(rèn)知問題中的應(yīng)用.中國衛(wèi)生統(tǒng)計(jì),2005,22(6):362-364.
2.Arthur Stanley Goldberger.A course in econometrics.Cambridge,MA:Harvard University Press,1991:323.
3.馬鐵豐,王松桂.兩個(gè)半相依模型回歸系數(shù)的改進(jìn)估計(jì).應(yīng)用概率統(tǒng)計(jì),2009,25(6):619-631.
4.王立春,汪惠民,陳桂景.一般半相依回歸系統(tǒng)的協(xié)方差改進(jìn)估計(jì).應(yīng)用概率統(tǒng)計(jì),2001,17(2):156-162.
5.Judge,Hill,Griffiths,et al.Introduction to the theory and practice of econometrics.2nd ed.New York:John Wiley & Sons,Inc,1988.
6.Gallant AR.Seemingly unrelated nonlinear regressions.Journal of Econometrics,1975,3:35-50.
7.Barnett WA.Maximum Likelihood and Iterated Aitken Estimation of Nonlinear Systems of Equations.Journal of the American Statistical Association,1976,71:354-360.
8.Aage Vφlund.Application of the four-parameter logistic model to bioassay:comparison with slope ratio and parallel line models.Biometrics,1978,34(3):357-365.