高維非正態(tài)總體協(xié)方差陣檢驗的檢驗統(tǒng)計量

2018-03-05 00:41:37閆梓心劉忠穎張兆元

長春師范大學(xué)學(xué)報 2018年2期

閆梓心，劉忠穎，王嬌，張兆元

(1.長春師范大學(xué)數(shù)學(xué)學(xué)院，吉林長春 130032；2.長春師范大學(xué)工程學(xué)院，吉林長春 130032)

我們考慮單樣本問題，即令X1,X2,…,XN是獨(dú)立的p維隨機(jī)向量，每個Xi能被表示為

(1)

其中，μ是p維常數(shù)向量，∑為p×p的正定陣．并且隨機(jī)向量Zi=(Zi1,Zi2,…,Zip)′的均值向量為0p×1，協(xié)方差陣為p階單位陣I，i=1,2,…,N.在對大維數(shù)據(jù)進(jìn)行統(tǒng)計檢驗時，檢驗假設(shè)

H0:∑=Iv.s.H1:∑≠I.

被很多研究者關(guān)注[1-6]．文獻(xiàn)[1,4-6]在建立檢驗統(tǒng)計量時對tr(∑-I)2進(jìn)行了估計．本文給出tr(∑-I)2的一個無偏估計量，證明它是相合的，并借助模擬實(shí)驗說明我們提出的估計量的優(yōu)良性.

1 tr(∑-I)2的估計量

在對tr(∑-I)2進(jìn)行估計時，因為tr(∑-I)2=tr(∑2)-2tr(∑)+p，需要給出tr(∑2)和tr(∑)的估計量.眾所周知，協(xié)方差陣的一個優(yōu)良的估計量是樣本方差陣

[指導(dǎo)教師]劉忠穎(1977- )，女，講師，碩士，從事多元統(tǒng)計分析研究。

定理1 對于模型(1)，tr(∑-I)2的無偏估計量為

為了說明相合性，我們沿用文獻(xiàn)[8]提出的漸近框架和假設(shè)：

當(dāng)N、P→時，

A1:N/p→c∈(0,)，

A2:tr(∑2)/p→a∈(0,)，

A4:‖∑°∑‖<,‖∑‖<，

證明由文獻(xiàn)[8]中定理2，可以得到，在假設(shè)A1、A2和A3成立下，

記Zi=(Zi1,Zi2,…,Zip)′，∑=(σij)p×p.則

在下面的推導(dǎo)中將一直采用樣本方差的這種表示方式.顯然可以得到

則

其中，

同理，可以得到

則

及

在假設(shè)A2、A4和A5下，當(dāng)N,p→時，D(trS/p)→0.由切比雪夫不等式，可得到

定理1和定理2說明了統(tǒng)計量T1是無偏的、相合的.

2 模擬與應(yīng)用

利用Monte Carlo模擬說明我們提出的估計量的功效.

在模擬中，給出均值向量是零向量以及協(xié)方差矩陣∑=(0.2|i-j|).取樣本量和隨機(jī)向量維數(shù)為N,p=50,100,150,200，循環(huán)次數(shù)為5000.關(guān)于分布，取以下三種情況：

①Zi=(Zi1,Zi2,…,Zip)′中的Zi1,Zi2,…,Zip是獨(dú)立同分布的，都服從標(biāo)準(zhǔn)正態(tài)分布N(0,1).

③令Zij=(ωij-8)/4，其中ωi1,ωi2,…,ωip是獨(dú)立同分布的，都服從自由度是8的χ2分布.

在每一種情形下，計算f(∑)=tr(∑-I)2/p、T1/p、f(∑)與T1/p的標(biāo)準(zhǔn)誤e1.一般容易想到的tr(∑-I)2的估計量是T2=tr(S-I)2，為了比較，我們還計算了T2/p、f(∑)與T2/p的標(biāo)準(zhǔn)誤e2.

表1 基于①計算f(∑)、T1/p、f(∑)與T1/p的標(biāo)準(zhǔn)誤e1、T2/p、f(∑)與T2/p的標(biāo)準(zhǔn)誤e2

表2 基于②計算f(∑)、T1/p、f(∑)與T1/p的標(biāo)準(zhǔn)誤e1、T2/p、f(∑)與T2/p的標(biāo)準(zhǔn)誤e2

表3 基于③計算f(∑)、T1/p、f(∑)與T1/p的標(biāo)準(zhǔn)誤e1、T2/p、f(∑)與T2/p的標(biāo)準(zhǔn)誤e2

表1中數(shù)據(jù)是來自①的分布，表2中數(shù)據(jù)是來自②的分布，表3中數(shù)據(jù)是來自③的分布.從表1、表2、表3中的數(shù)據(jù)可以看出：無論是樣本量和維數(shù)的大小關(guān)系如何(只要它們的比值收斂)，T1/p的值都十分接近tr(∑-I)2/p的值，標(biāo)準(zhǔn)誤非常小，而T2/p的值和標(biāo)準(zhǔn)誤都不好，這充分地說明我們提出的估計量比T2要好.

我們收集了20個在校大學(xué)生的通話數(shù)據(jù)如表4所示.

表4 在校大學(xué)生的通話數(shù)據(jù)

將表4中數(shù)據(jù)都取了常用對數(shù)，然后利用MATLAB軟件編程計算了這組數(shù)據(jù)的總體協(xié)方差矩陣與單位陣間的tr(∑-I)2/p的估計值為0.7910.因為我們提出的估計量的良好性質(zhì)，可以認(rèn)為這個數(shù)字是很接近真值的.

3 結(jié)語

本文給出了tr(∑-I)2的一個無偏及相合估計量，這個估計量不受樣本量和維數(shù)的大小關(guān)系的限制(只要它們的比值收斂)，同時對總體分布也沒有限制，故它可以被用在多種多元分布中.而且利用Monte Carlo模擬給出三個表格，這幾個表格中的數(shù)據(jù)說明了本文提出的估計量的值很接近真值.運(yùn)用此估計量，對所收集的在校大學(xué)生通話數(shù)據(jù)的總體協(xié)方差陣函數(shù)進(jìn)行了估計.

[1]Wang Cheng.Asymptotic power of likelihood ratio tests for high dimensional data[J].Statistics and Probability Letters,2014,88(2):184-189.

[2]Jiang Tiefeng,Yang Fan.Central limit theorems for classical likelihood ratio tests for high-dimensional normal distributions[J].The Annals of Statistics,2013(41):2029-2074.

[3]Chen Binbin,Pan Guangming.CLT for linear spectral statistics of normalized sample covariance matrices with the dimension much larger than the sample size[J].Bernoulli,2015(21):1089-1133.

[4]Ery Arias-Castro,Sebastien Bubeck,Gabor Lugosi.Detecting positive correlations in a multivariate sample[J]. Bernoulli,2015(21):209-241.

[5]Wang Cheng,Yang Jing,Miao Baiqi,et al.Identity tests for high dimensional data using RMT[J].Journal of Multivariate Analysis,2013(118):128-137.

[6]Wang Qinwen,Yao Jianfeng.On the sphericity test with large-dimensional observations[J].Electronic Journal of Statistics,2013(7):2164-2192.

[7]Thomas J Fisher.On testing for an identity covariance matrix when the dimensionality equals or exceeds the sample size[J].Journal of Statistical Planning and Inference,2012(142):312-326.

[8]Tetsuto Himenoa,Takayuki Yamada.Estimations for some functions of covariance matrix in high dimension under non-normality and its applications[J].Journal of Multivariate Analysis,2014(130):27-44.

[9]Cai Tony,Ma Zongming.Optimal hypothesis testing for high dimensional covariance matrices[J].Bernoulli, 2013(19):2359-2388.

[10]Chen Songxi,Zhang Lixin,Zhong Pingshou.Testing for high dimensional covariance matrices[J].Journal of the American Statistical Association,2010(105):810-819.