張建軍,呂海燕,喬松珊
(1.河南農(nóng)業(yè)大學(xué) 信息與管理科學(xué)學(xué)院,河南 鄭州 450002;2.中原工學(xué)院 信息商務(wù)學(xué)院,河南 鄭州 450007)
總體參數(shù)估計是統(tǒng)計推斷中的一個常見問題,涉及農(nóng)業(yè)、經(jīng)濟(jì)、醫(yī)藥以及人口等諸多方面,基本方法是利用獲取到的樣本觀測數(shù)據(jù)估計總體未知參數(shù),一般而言觀測數(shù)據(jù)越多估計效果越好.然而,由于實驗時間和經(jīng)費等因素制約,人們不可能從大量樣本中獲取所需觀測數(shù)據(jù),這就對樣本的代表性提出了更高要求.1952年,McIntyre[1]在估計總體均值時首次引入一種更高效的抽樣方法——排序集抽樣,隨后,一些學(xué)者在理論上進(jìn)行了補(bǔ)充,證明了該抽樣方法下樣本均值仍然是總體均值的無偏估計量,并且估計的均方誤差要比簡單隨機(jī)抽樣更小[2].基于排序集樣本的統(tǒng)計推斷已經(jīng)有不少結(jié)果,內(nèi)容涉及參數(shù)估計[3]、非參數(shù)檢驗[4],以及在多個領(lǐng)域的應(yīng)用[5-7].
輔助信息在提高總體參數(shù)估計精度方面具有十分重要的作用,對于只有一個輔助變量的情形,已經(jīng)有一些學(xué)者提出了總體均值的比率、乘積和回歸估計方法[8-10]以及一些改進(jìn)形式[11].在實際抽樣調(diào)查中,往往會存在與研究變量相關(guān)的兩個甚至多個輔助變量,這些輔助變量有些和研究變量是正相關(guān),有些是負(fù)相關(guān),充分利用這些輔助信息,可以建立多種均值估計形式[12].我們注意到,現(xiàn)有文獻(xiàn)的抽樣基礎(chǔ)都是簡單隨機(jī)抽樣,并沒有在抽樣設(shè)計階段考慮估計量的優(yōu)化問題.文中以排序集抽樣代替隨機(jī)抽樣,基于雙輔助變量建立總體均值比率估計量,并進(jìn)一步對估計量進(jìn)行優(yōu)化;通過計算估計量的估計偏差和均方誤差,從理論上比較了兩種抽樣方法下比率估計的均方誤差.結(jié)果表明,在一定條件下,基于排序集樣本和雙輔助變量的比率估計可以較好地提高估計量的精度;最后借助數(shù)值計算,比較了幾種不同估計量的估計效果.
為了提高估計精度,文獻(xiàn)[12]通過選擇適當(dāng)?shù)臋?quán)重,提出了基于雙輔助變量的比率估計方法:
其中w1+w2=1.估計量的均方誤差為
下面利用排序集樣本代替隨機(jī)抽樣,研究采用雙輔助變量的均值比率估計方法.排序集抽樣過程可按照如下方式進(jìn)行:首先,從三維總體(Y,X,Z)中一次抽出m2個體,隨機(jī)劃分為m組;接著依據(jù)輔助變量X對每組個體進(jìn)行排序,從第i組抽取秩為i的個體作為觀測樣本,記為(y[i],x(i),z[i]),i=1,2,…,m,其中圓括號表示完美排序,方括號代表有偏差排序.類似過程重復(fù)r次,得到容量為mr的三元排序集樣本,記為
(y[i]j,x(i)j,z[i]j),i=1,2,…,m;j=1,2,…,r.
類似地,當(dāng)兩個輔助變量的總體均值已知時,排序集抽樣下變量Y的均值比率估計量為[8]
其中
分別為排序集抽樣下的樣本均值.
類似文獻(xiàn)[12]的構(gòu)造方法,同時利用兩個輔助變量,基于排序集樣本也可以建立雙輔助變量的比率估計:
另外,輔助變量的變異系數(shù)、相關(guān)系數(shù)和中位數(shù)對估計精度有一定影響[13-16],故當(dāng)輔助變量的這些參數(shù)已知時,得到如下估計量的改進(jìn)形式:
估計量的精度依賴參數(shù)的選取,參數(shù)的不同取值對應(yīng)不同估計形式,為了比較這些估計形式的效率,分4種情況討論:
情形1.a1=a2=1,b1=ρxy,b2=ρzy,其中ρxy,ρzy為相關(guān)系數(shù),即
情形2.a1=a2=1,b1=mx,b2=mz,其中mx,mz為輔助變量中位數(shù),即
情形3.a1=cx,a2=cz,b1=ρxy,b2=ρzy,其中cx,cz為輔助變量變異系數(shù),ρxy,ρzy為相關(guān)系數(shù),即
情形4.a1=cx,a2=cz,b1=mx,b2=mz,其中cx,cz為輔助變量變異系數(shù),mx,mz為輔助變量中位數(shù),即
特別地,當(dāng)a1=a2=1,b1=b2=0時,估計量ymbr,rss=ybr,rss,故下文僅討論估計量ymbr,rss的估計偏差和均方誤差,其他估計量類似可得.
估計的偏差和均方誤差是衡量估計量精度的重要指標(biāo),為此首先分析估計量的估計偏差和均方誤差計算方法.
利用文獻(xiàn)[8]中的計算結(jié)果,排序集抽樣下樣本均值的方差計算公式如下:
其中σx,σy,σz分別為變量的總體方差.協(xié)方差公式為:
定義如下誤差項:
根據(jù)樣本均值的無偏性[17],得到E(e0)=E(e1)=E(e2)=0,利用樣本均值的方差和協(xié)方差公式容易得到
式中
注意到
其中
所以
假定|λ1e1|<1,|λ2e2|<1,則
在一階泰勒近似下,有
估計量的偏差為
注意到E(ep)=0,p=0,1,2,代入誤差項可得
根據(jù)定理1的結(jié)論容易看出,選擇適當(dāng)參數(shù)α,估計量ymbr仍為近似無偏估計.特別地,當(dāng)α=1,a1=1,b1=0時,此時λ1=1,得到單輔助變量比率估計量yr1,rss的偏差計算公式為
同理,當(dāng)α=0,a2=1,b2=0時,此時λ2=1,得到比率估計量yr2,rss的偏差計算公式為
定理2當(dāng)|λ1e1|<1,|λ2e2|<1時,在一階泰勒近似下,估計量ymbr的近似均方誤差為
證明根據(jù)定理1,在一階泰勒近似下,有
定理2的計算結(jié)果說明,估計量的精度與參數(shù)α的選取密切相關(guān),不同取值得到的偏差和估計誤差都不相同.為了確定最優(yōu)的參數(shù)值,將估計量均方誤差表達(dá)式視為參數(shù)α的函數(shù),根據(jù)公式
得到
此時估計量的均方誤差達(dá)到最小.
一般而言,在相同樣本容量下,估計量的均方誤差越小,效率越高.以下比較排序集抽樣和簡單隨機(jī)抽樣下利用雙輔助變量比率估計的均方誤差.
證明在MSE(ybr)計算結(jié)果中,取w1=α,w2=1-α,cxy=ρxycxcy,czy=ρzyczcy,cxz=ρxzcxcz得到
由于a1=a2=1,b1=b2=0時,估計量ybr,rss=ymbr,rss,此時λ1=λ2=1,根據(jù)定理1的計算結(jié)果,代入υ00,υ11,υ22,υ01,υ02,υ12的具體表達(dá)式,當(dāng)兩種抽樣樣本容量相同,即n=mr時,容易看出
由于
選取三維正態(tài)分布為研究總體,相關(guān)系數(shù)分別為ρxy=0.90,ρyz=0.80,ρxz=0.70,不妨取μX=2,μY=4,μZ=6,σX=σY=σZ=1.首先基于R軟件生成5 000個三維隨機(jī)數(shù),設(shè)定隨機(jī)數(shù)種子后,采用隨機(jī)抽樣和排序集抽樣兩種抽樣方法進(jìn)行比較,利用R軟件進(jìn)行100次的統(tǒng)計模擬.令m=3,4,循環(huán)次數(shù)r=10,15,20,樣本量n=mr,分別計算估計量的估計值和均方誤差,誤差計算公式為
表1 排序集抽樣和隨機(jī)抽樣下比率估計比較
表2 排序集抽樣下改進(jìn)估計量比較
表3 單輔助變量和雙輔助變量的比率估計比較
表4 不同比率估計的相對效率
計算結(jié)果說明,不論隨機(jī)抽樣還是排序集抽樣,采用雙輔助變量的比率估計的估計效果整體高于單輔助變量;從單輔助變量估計結(jié)果看出,比率估計精度和輔助變量與研究變量相關(guān)系數(shù)成正比;基于排序集樣本的改進(jìn)比率估計量估計效率明顯優(yōu)于簡單隨機(jī)抽樣下的雙輔助變量比率估計,說明在抽樣設(shè)計階段采用新的抽樣方法可以有效提高比率估計精度.
在排序集抽樣下利用雙輔助變量構(gòu)造了總體均值的比率估計方法,比較了兩種抽樣方法下估計量的均方誤差,最后,利用隨機(jī)模擬和實際例子進(jìn)行數(shù)值分析.計算結(jié)果表明,排序集抽樣下利用雙輔助變量的比率估計在精度上高于隨機(jī)抽樣或者單輔助變量.另外,對于兩個輔助變量相關(guān)系數(shù)有正有負(fù)的情形,讀者可做進(jìn)一步研究.