王晶,劉彭
(山東農(nóng)業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,山東 泰安 271018)
參數(shù)估計(jì)方法是基礎(chǔ)的統(tǒng)計(jì)推斷方法之一,此類方法在自然科學(xué)和社會(huì)科學(xué)各領(lǐng)域涉及到數(shù)據(jù)分析的問(wèn)題中被大量使用.在實(shí)際問(wèn)題中,人們感興趣的問(wèn)題往往與分布族中的未知參數(shù)有關(guān).參數(shù)估計(jì)方法是在總體分布形式已知時(shí),利用樣本值對(duì)分布中某一個(gè)或某幾個(gè)未知參數(shù)值進(jìn)行統(tǒng)計(jì)推斷的方法,一般分為點(diǎn)估計(jì)和區(qū)間估計(jì)問(wèn)題.
在總體分布形式已知時(shí),對(duì)于其分布中的未知參數(shù)θ,除了求出其點(diǎn)估計(jì)外,還希望估計(jì)出一個(gè)范圍,使其以較大可信度包含參數(shù)θ的真值.這樣的范圍通常以區(qū)間形式給出,同時(shí)還給出其包含參數(shù)θ真值的可信程度,這種形式的估計(jì)稱為參數(shù)的區(qū)間估計(jì),而這樣的區(qū)間稱為參數(shù)θ的置信區(qū)間[1].
定義1[2]設(shè)總體X的分布中含有未知參數(shù)θ,若有來(lái)自總體X的一組樣本(X1,X2,…,Xn)確定的2個(gè)統(tǒng)計(jì)量,使得對(duì)于給定的α(0<α<1),有,則稱隨機(jī)區(qū)間是參數(shù)θ置信度為1-α的置信區(qū)間,分別稱為置信下限和置信上限,1-α稱為置信度.
在經(jīng)典統(tǒng)計(jì)學(xué)中,構(gòu)造參數(shù)θ的置信區(qū)間最常用的方法是樞軸量法,其基本步驟可概括為:
Step1選取樣本(X1,X2,…,Xn)的一個(gè)函數(shù)G(X1,X2,…,Xn;θ),其中只含所求置信區(qū)間的未知參數(shù)θ,且分布已知;
Step2對(duì)于給出的置信水平1-α,確定Step1 中分布的雙側(cè)分位點(diǎn)λ1,λ2,則有
Step3利用不等式變形得到未知參數(shù)θ的置信區(qū)間.
構(gòu)造置信區(qū)間的方法關(guān)鍵在于Step1 中所選取的函數(shù)G(X1,X2,…,Xn;θ)為樞軸量.關(guān)于樞軸量,在大部分概率統(tǒng)計(jì)教材中對(duì)其是這樣描述的:選取合適的統(tǒng)計(jì)量,要求包括待檢驗(yàn)的參數(shù),不含其它任何未知參數(shù),且統(tǒng)計(jì)量的分布已知[3],滿足這種要求的統(tǒng)計(jì)量即為在區(qū)間估計(jì)中所謂的樞軸量[4-5].而在參數(shù)的區(qū)間估計(jì)問(wèn)題中,即使是對(duì)同一個(gè)未知參數(shù)求置信區(qū)間,滿足以上條件的統(tǒng)計(jì)量也往往不是唯一的,此時(shí)就面臨著如何選取樞軸量的問(wèn)題.針對(duì)選擇不同的樞軸量得到的置信區(qū)間其性質(zhì)是否有差別,不同樞軸量下得到的同一參數(shù)的置信區(qū)間之間是否有優(yōu)劣之分問(wèn)題,本文以單個(gè)正態(tài)分布總體中方差σ2這一參數(shù)的區(qū)間估計(jì)問(wèn)題為例進(jìn)行討論.
設(shè)總體X~N(μ,σ2),其中總體均值μ已知,(X1,X2,…,Xn)為來(lái)自總體容量為n的簡(jiǎn)單隨機(jī)樣本,則有
式中:X為樣本均值.
2 種區(qū)間(3)(4)是基于不同樞軸量對(duì)單個(gè)正態(tài)總體方差σ2進(jìn)行區(qū)間估計(jì)的結(jié)果,若要對(duì)其優(yōu)劣進(jìn)行比較主要基于可靠度和精度2個(gè)指標(biāo).在區(qū)間估計(jì)中,置信度1-α反映的是估計(jì)的可靠性程度,置信度越大,估計(jì)的可靠性程度也就越大;置信區(qū)間的長(zhǎng)度反映的是估計(jì)的精度,置信區(qū)間長(zhǎng)度越短,估計(jì)的精度也就越高.在樣本容量n一定的情況下,這2個(gè)要求往往是互相矛盾的[6].在實(shí)際應(yīng)用中,置信度一般按照應(yīng)用需求直接給定,可靠性已經(jīng)確定,此時(shí)可認(rèn)為平均長(zhǎng)度較小的置信區(qū)間精度較高,估計(jì)結(jié)果更好.
對(duì)于置信區(qū)間(3),其平均長(zhǎng)度為
對(duì)于置信區(qū)間(4),其平均長(zhǎng)度為
因此可構(gòu)造兩者比值,其為樣本容量n的函數(shù),記為
顯然n=1 時(shí),,此時(shí)L1=L2.當(dāng)n> 1時(shí),g(n)的部分結(jié)果見表1(α=0.05).由表1可見,隨著n的增大,置信區(qū)間對(duì)應(yīng)g(n) 的差值逐漸減小,即隨著樣本容量增大,2種置信區(qū)間平均長(zhǎng)度比逐漸趨于穩(wěn)定.
表1 不同樣本容量下2 種置信區(qū)間的平均長(zhǎng)度比
在SPSS22.0[7-8]中得到樣本容量n∈[1,20]及n∈[1,100]時(shí)函數(shù)g(n)變化趨勢(shì)(見圖1).
圖1 置信區(qū)間長(zhǎng)度比變化趨勢(shì)
由表1 和圖1可以看出,當(dāng)n> 1時(shí),g(n)的值隨著n的增大持續(xù)變小,n> 5時(shí)變化趨于平緩,因此對(duì)任意樣本容量n,總有g(shù)(n) ≤ 1,即L1≤L2,在相同的置信度下,置信區(qū)間(3)的精度優(yōu)于置信區(qū)間(4).在總體均值已知情形下,用樞軸量(3)對(duì)單個(gè)正態(tài)總體的方差σ2進(jìn)行區(qū)間估計(jì)效果更好.
為了進(jìn)一步對(duì)結(jié)論進(jìn)行驗(yàn)證,可從特定正態(tài)總體中抽樣隨機(jī)模擬獲得直觀比較結(jié)果.設(shè)總體X~N(0,1),即參數(shù)σ2的真值為1.運(yùn)用R 軟件[9],從此分布總體中隨機(jī)抽取100 組容量為n的樣本,根據(jù)式(3)~(4),由隨機(jī)抽樣結(jié)果分別計(jì)算σ2置信度為95%的100 個(gè)置信區(qū)間.n=10,n=100時(shí)100個(gè)置信區(qū)間的模擬結(jié)果分別見圖2~3.
圖2 樣本容量為10 時(shí)的100 個(gè)置信區(qū)間
圖3 樣本容量為100 時(shí)的100 個(gè)置信區(qū)間
由圖2~3 可以看出,2種情形下均有置信區(qū)間(3)的平均長(zhǎng)度遠(yuǎn)小于置信區(qū)間(4)的平均長(zhǎng)度.相比較下,用樞軸量對(duì)單個(gè)正態(tài)總體的方差σ2進(jìn)行區(qū)間估計(jì),置信區(qū)間精度較高,結(jié)果更好.
利用2種方法在總體均值已知情況下,對(duì)正態(tài)總體方差σ2進(jìn)行區(qū)間估計(jì),通過(guò)具體實(shí)驗(yàn)結(jié)果的計(jì)算比較,也能看到置信區(qū)間(3)的精度較高.
例[10]發(fā)芽期隨機(jī)抽取某種作物16 株,對(duì)株高進(jìn)行測(cè)量,測(cè)得株高(單位:cm)數(shù)據(jù)分別為2.15,2.10,2.12,2.10,2.14,2.11,2.15,2.13,2.13,2.11,2.14,2.13,2.12,2.13,2.10,2.14.求株高標(biāo)準(zhǔn)差σ的95%置信區(qū)間(設(shè)總體X~N(2,σ2)).
解由實(shí)際測(cè)量數(shù)據(jù),根據(jù)式(3)~(4)分別可計(jì)算得到株高方差σ2和標(biāo)準(zhǔn)差σ的95%置信區(qū)間,結(jié)果見表2.
表2 2種不同方法下株高方差和標(biāo)準(zhǔn)差的置信區(qū)間
對(duì)于該例題,在2種區(qū)間估計(jì)方法下,具體算得的置信區(qū)間差別比較大,顯然此例中置信區(qū)間(3)的長(zhǎng)度遠(yuǎn)遠(yuǎn)小于置信區(qū)間(4),說(shuō)明其精度較高.在實(shí)際應(yīng)用中,在可靠度一定的情況下,精度高的置信區(qū)間是應(yīng)該優(yōu)先選擇的,而在經(jīng)典教科書中對(duì)于此類均值已知情形下正態(tài)總體方差的區(qū)間估計(jì)均選用樞軸量進(jìn)行構(gòu)造,是有其深刻意義的.可見,樞軸量的選擇是有其標(biāo)準(zhǔn)可言的.
通過(guò)總體均值已知時(shí)單個(gè)正態(tài)分布總體方差σ2參數(shù)的區(qū)間估計(jì)問(wèn)題,初步闡述了樞軸量的選取標(biāo)準(zhǔn)及其對(duì)置信區(qū)間結(jié)果的影響.在進(jìn)行置信區(qū)間的評(píng)價(jià)時(shí),可靠性和精度是2個(gè)基本標(biāo)準(zhǔn),而它們也與樣本容量n的大小有直接關(guān)系,在此不再深入探討.需要注意的是當(dāng)考慮置信區(qū)間精度這一標(biāo)準(zhǔn)時(shí),應(yīng)盡量選擇區(qū)間平均長(zhǎng)度小的置信區(qū)間.在討論2種情況下置信區(qū)間的平均長(zhǎng)度大小關(guān)系時(shí),對(duì)不同樣本容量n的進(jìn)行了直觀模擬.由于比值函數(shù)中包含χ2分布分位點(diǎn),其值為χ2分布的分布函數(shù)的反函數(shù)值,其取值范圍的嚴(yán)格證明仍需要進(jìn)行更深層次的思考.