褚云通
基于Cholesky分解的協(xié)方差矩陣估計
褚云通
(遼寧師范大學(xué) 數(shù)學(xué)學(xué)院,遼寧 大連 116029)
重復(fù)測量數(shù)據(jù)經(jīng)常在心理學(xué)、社會科學(xué)、經(jīng)濟(jì)學(xué)和醫(yī)學(xué)研究等領(lǐng)域出現(xiàn).對于重復(fù)測量數(shù)據(jù),高維(HD)和正定(PD)約束是協(xié)方差和相關(guān)矩陣建模的2個主要障礙.基于Cholesky型分解的方法在處理HD和PD問題上是有效的.基于修正的Cholesky分解(MCD)、替代Cholesky分解(ACD)和Cholesky因子參數(shù)化(HPC)3種方法,對遵循高斯分布的重復(fù)測量數(shù)據(jù)擬合聯(lián)合均值和方差模型,然后對參數(shù)估計的協(xié)方差矩陣進(jìn)行了比較.
Cholesky分解;協(xié)方差矩陣估計;重復(fù)測量數(shù)據(jù)
由于在同一研究對象內(nèi)收集的測量數(shù)據(jù)的組成部分不是獨立的,所以協(xié)方差矩陣在分析縱向研究數(shù)據(jù)中起著重要的作用.一個好的協(xié)方差建模方法可以改進(jìn)對均值的統(tǒng)計推斷,并且協(xié)方差結(jié)構(gòu)本身在某些情況下也具有科學(xué)意義[1].然而,由于協(xié)方差矩陣的估計通常是正定的,并且協(xié)方差矩陣中有許多參數(shù),因此對協(xié)方差結(jié)構(gòu)的建模具有挑戰(zhàn)性.為了克服這個障礙,Pourahmadi[2]提出了一種基于修正的協(xié)方差矩陣Cholesky分解(MCD)的數(shù)據(jù)驅(qū)動聯(lián)合均值協(xié)方差建模方法.雖然分解會導(dǎo)致重新參數(shù)化,但是其中的元素可以根據(jù)重新參數(shù)化后的方差和自回歸系數(shù)進(jìn)行解釋[3].文獻(xiàn)[4]提出了一種替代Cholesky分解(ACD),可以理解為對某些參數(shù)化后的方差和平均參數(shù)進(jìn)行建模,并與文獻(xiàn)[5]提出的MCD進(jìn)行了詳細(xì)的比較.這2種Cholesky類型的方法顯示了簡潔有效的特點,但它們相應(yīng)的方差不能直接解釋為重復(fù)觀測的方差.文獻(xiàn)[6]考慮了基于相關(guān)矩陣的標(biāo)準(zhǔn)Cholesky分解和其Cholesky因子的參數(shù)化(HPC)回歸方法,其中參數(shù)可直接解釋方差和相關(guān)性.基于修正的Cholesky分解(MCD)、替代Cholesky分解(ACD)和Cholesky因子參數(shù)化(HPC)3種方法,對遵循高斯分布的重復(fù)測量數(shù)據(jù)擬合聯(lián)合均值和方差模型,然后對參數(shù)估計的協(xié)方差矩陣進(jìn)行了比較.
高維性(HD)和正定性(PD)是對協(xié)方差矩陣建模的主要障礙.引入回歸技術(shù)可以減少HD問題,在協(xié)方差結(jié)構(gòu)建模中使用Cholesky分解可以潛在地消除PD約束.
設(shè)正定協(xié)方差矩陣的標(biāo)準(zhǔn)Cholesky分解形式為
或者另一種更常用的形式
可以證明
在式(17)中的模型下,得出除了常數(shù)外對數(shù)似然函數(shù)的-2倍為
盡管修正的Cholesky分解和替代的Cholesky分解對于協(xié)方差矩陣具有簡潔、無約束的優(yōu)點,但是參數(shù)化后的方差不等同于被觀察者重復(fù)測量的邊際方差.
方差相關(guān)分解的一般形式為
利用牛體質(zhì)量增長數(shù)據(jù)[10]進(jìn)行實例分析.牛被隨機(jī)分配到A和B2個實驗,并記錄它們的體質(zhì)量.30只動物接受處理A,另外30只接受處理B.每只動物的前10次測量間隔為2周,最后一次測量間隔為1周.由于沒有觀測數(shù)據(jù)丟失,因此它是一個平衡的縱向數(shù)據(jù)集.為解決過擬合問題,根據(jù)貝葉斯信息準(zhǔn)則(BIC)得出
圖1 MCD方法的擬合效果
由圖1a可以看出,擬合的多項式函數(shù)曲線很好地揭示了曲率模式;由圖1b可以看出,自回歸系數(shù)的擬合良好.
圖2 ACD方法的擬合效果
由圖2a可以看出,擬合的多項式函數(shù)曲線很好地捕捉到了曲率模式;由圖2b可以看出,自回歸系數(shù)的擬合良好.
圖3 HPC方法的擬合效果
由圖3a可以看出,擬合的多項式函數(shù)曲線很好地捕捉到了曲率模式;由圖3b可以看出,自回歸系數(shù)的擬合良好.
比較基于MCD,ACD,HPC方法的牛體質(zhì)量數(shù)據(jù)聯(lián)合均值協(xié)方差模型,對擬合模型測量了不同的三元組選擇和執(zhí)行時間(/s),結(jié)果見表1.
表1 MCD,ACD,HPC方法的執(zhí)行時間及相關(guān)結(jié)果比較
由表1可以看出,MCD方法和ACD方法在似然值和BIC值方面會產(chǎn)生非常接近的結(jié)果,而基于MCD的模型是這3種方法中時間效率最高的.與MCD方法和ACD方法相比,HPC方法在大多數(shù)情況下具有更大的對數(shù)似然性和更小的BIC值,但代價是執(zhí)行時間更長.
對于協(xié)方差和相關(guān)結(jié)構(gòu)的建模,3種基于Cholesky型分解的方法是有效的,因為估計的協(xié)方差和相關(guān)矩陣是(半)正定的,并且通過回歸技術(shù)大大減少了參數(shù)的數(shù)量.顯然,MCD方法和ACD方法都是通過Cholesky因子標(biāo)準(zhǔn)化以相似的方式構(gòu)造的,所以它們之間的關(guān)系更為密切.這2種方法的主要缺點是很難找到合理的統(tǒng)計解釋,在實踐中需要額外的工作來解釋相應(yīng)的方差和相關(guān)函數(shù).HPC的參數(shù)化由于得到的參數(shù)是無約束的,并且可以直接解釋方差和相關(guān)性,而且相關(guān)矩陣的Cholesky因子中的角度與相關(guān)性有幾何關(guān)系,所以它有效解決了協(xié)方差矩陣計算中存在的問題.但是,因為估計Cholesky因子的問題被轉(zhuǎn)化為估計由角度組成的矩陣問題,所以使用HPC方法對協(xié)方差和相關(guān)性進(jìn)行建模在計算上存在較大困難.
[1] Diggle P J,Verbyla A P.Nonparametric Estimation of Covariance Structure in Lon-gitudinal Data[J].Biometrics,1998,52(2):
401-415
[2] Pourahmadi M.Joint Mean-Covariance Models with Applications to Longitudinal Data: Unconstrained Parameterisation[J].Bio-
metrika,1999,86(3):677-690
[3] Pan J,Mackenzie G.On Modelling Mean-Covariance Structures in Longitudinal Studies[J].Biometrika,2003,90(1):239-244
[4] Chen Z,Dunson DB.Random Effects Selection in Linear Mixed Models[J].Biometrics,2003,59(4):762-769
[5] Pourahmadi M.Cholesky Decompositions and Estimation of a Covariance Matrix:Orthogonality of Variance-Correlation Parameters[J].Biometrika,2007,94(4):1006-1013
[6] Zhang W,Leng C,Tang C Y.A Joint Modelling Approach for Longitudinal Studies[J].Journal of the Royal Statistical Society B,2015,77(1):219-238
[7] Zhang W,Leng C.A Moving Average Cholesky Factor Model in Covariance Modelling for Longitudinal Data[J].Biometrika,2012,99(1):141-150
[8] Maadooliat M,Pourahmadi M,Huang J Z.Robust Estimation of the Correlation Matrix of Longitudinal Data[J].Statistics and Computing,2013,23(1):17-28
[9] Rapisarda F,Brigo D,Mercurio F.Parameterizing Correlations:A Geometric Interpretation[J].IMA Journal of Management Mathematics,2007,18(1):55-73
[10] Kenward M G.A Method for Comparing Profiles of Repeated Measurements[J].Journal of the Royal Statistical Society C,1987,36(3):296-308
Covariance matrix estimation based on Cholesky decomposition
CHU Yuntong
(School of Mathematics,Liaoning Normal University,Dalian 116029,China)
Longitudinal data are often used in fields such as psychology,social science,economics and medical research,etc.For longitudinal data,high dimensional(HD) and positive definite(PD) constraints are two major obstacles to covariance and correlation matrix modeling.It is evident that Cholesky-type decomposition based methods are effective in dealing with HD and PD problems.Based on the modified Cholesky decomposition (MCD), alternating Cholesky decomposition (ACD) and hyperspherical parameterization of Cholesky factor (HPC) methods.The joint mean and variance models was fitted to the repeated measurement data following Gaussian distribution,and then the covariance matrices of parameter estimation was compared.
Cholesky decomposition;covariance matrix estimator;longitudinal data
O212
A
10.3969/j.issn.1007-9831.2020.09.004
1007-9831(2020)09-0011-06
2020-06-03
褚云通(1996—),男,遼寧沈陽人,在讀碩士研究生,從事應(yīng)用統(tǒng)計研究.E-mail:1731796876@qq.com