游晟東
【摘要】我們通常需要對(duì)抽樣得來(lái)的樣本進(jìn)行統(tǒng)計(jì)推斷,而參數(shù)估計(jì)則是其中比較重要的課題。本文以兩點(diǎn)分布和均勻分布為例,介紹參數(shù)估計(jì)的矩估計(jì)和極大似然估計(jì)方法,并用R語(yǔ)言模擬數(shù)據(jù),進(jìn)而通過(guò)編程實(shí)現(xiàn)上述兩種方法。
【關(guān)鍵詞】參數(shù)估計(jì) 兩點(diǎn)分布 均勻分布 R語(yǔ)言
【中圖分類號(hào)】G42 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】2095-3089(2019)03-0151-02
1.前言
隨著科學(xué)技術(shù)的飛速發(fā)展,我們能夠獲取、存儲(chǔ)和利用的數(shù)據(jù)越來(lái)越多。那么如何從大量的數(shù)據(jù)中提取出我們需要的信息,并對(duì)我們社會(huì)生活進(jìn)行決策提供指導(dǎo),才是我們真正關(guān)心的問(wèn)題。舉一個(gè)生活中的例子,假設(shè)我們從某燈泡生產(chǎn)商獲取了200個(gè)小燈泡,現(xiàn)在對(duì)這200個(gè)燈泡進(jìn)行持續(xù)照明試驗(yàn),如果某燈泡持續(xù)照明時(shí)間超過(guò)1000小時(shí),則認(rèn)為其合格,否則不合格。于是我們可以得到這200個(gè)燈泡合格情況的數(shù)據(jù),但我們所關(guān)心的是這批燈泡的合格率問(wèn)題,因?yàn)檫@會(huì)影響這家廠商生產(chǎn)的燈泡能不能投放市場(chǎng)。而如何根據(jù)照明數(shù)據(jù)得到合格率的信息則是我們統(tǒng)計(jì)學(xué)中的問(wèn)題,于是本文利用統(tǒng)計(jì)學(xué)中的參數(shù)估計(jì)方法,并結(jié)合R語(yǔ)言數(shù)值試驗(yàn),分別得到了兩點(diǎn)分布和均勻分布參數(shù)估計(jì)的結(jié)果。
2.兩點(diǎn)分布與燈泡試驗(yàn)
2.1 模型建立
為了建立兩點(diǎn)分布,我們首先考慮燈泡試驗(yàn)的概率空間,包括樣本空間,事件域和概率測(cè)度。
若某燈泡持續(xù)照明時(shí)間超過(guò)1000個(gè)小時(shí),我們稱此燈泡合格,也稱試驗(yàn)成功了。于是此燈泡試驗(yàn)的樣本空間,即所有可能出現(xiàn)的基本結(jié)果的集合為
Ω=ω|其中ω代表小燈泡合格或者不合格
隨機(jī)變量X=1,若燈泡合格0,若燈泡i不合格,即X只取0和1兩個(gè)數(shù)。取此試驗(yàn)的事件域F為由隨機(jī)變量X生成的σ-代數(shù)。對(duì)于樣本空間里的每一個(gè)樣本點(diǎn)ω,定義如下概率,若ω代表燈泡合格,則其概率為p,否則概率為1-p,其中p∈(0,1)。此時(shí)我們稱隨機(jī)變量X服從成功概率為p的兩點(diǎn)分布。若我們對(duì)n個(gè)燈泡進(jìn)行獨(dú)立重復(fù)的照明試驗(yàn),則X1+X2+…+Xn就代表n個(gè)燈泡中合格的個(gè)數(shù),服從所謂的二項(xiàng)分布,所以兩點(diǎn)分布也是一種特殊的二項(xiàng)分布。
2.2 矩參數(shù)估計(jì)
假設(shè)我們有了n個(gè)燈泡的試驗(yàn)數(shù)據(jù),分別是X1,X2,…,Xn。矩估計(jì)方法就是用樣本的矩去估計(jì)總體的矩??傮w的一階矩,即總體的數(shù)學(xué)期望為p,而樣本的一階矩就是樣本的平均數(shù) ,于是總體參數(shù)p的估計(jì)值為 = 。
現(xiàn)在用R語(yǔ)言依次生成10,100,1000,10000個(gè)服從成功概率為0.6的兩點(diǎn)分布的隨機(jī)數(shù)。這里的0.6可以看作是燈泡在理論上的合格率。得到的結(jié)果如下:
可以看出隨著數(shù)據(jù)量的增大,我們的估計(jì)值和理論值越來(lái)越接近。而當(dāng)n=10時(shí),得到的估計(jì)指0.7與理論值0.6有較大差距,這是由于樣本量較小導(dǎo)致的。
2.3 極大似然估計(jì)
極大似然估計(jì)的想法現(xiàn)在已經(jīng)得到了樣本,這是已經(jīng)發(fā)生了的事實(shí),我們就是要尋找那個(gè)使得最有可能導(dǎo)致現(xiàn)實(shí)結(jié)果的參數(shù)p。這里我們沿用2.2節(jié)的設(shè)定,則出現(xiàn)樣本X1,X2,…,Xn的概率為L(zhǎng)=p (1-p) ,稱為似然函數(shù)。為了找出此函數(shù)在(0,1)上的最大值點(diǎn),我們首先對(duì)L取對(duì)數(shù),得到
lnL= xiln(p)+n- xiln(1-p)
然后,對(duì)p求導(dǎo)可得到L取得最大值的點(diǎn)為 ,和矩估計(jì)方法的形式相同。我們也可以直接利用R語(yǔ)言的optimize函數(shù)近似求解L在(0,1)上的最大值點(diǎn),而不必借助于函數(shù)求導(dǎo),當(dāng)然也就意味著犧牲一些準(zhǔn)確性。
3.均勻分布的參數(shù)估計(jì)
3.1 均勻分布簡(jiǎn)介
若隨機(jī)變量的X的概率密度函數(shù)為:
p(x)= ,a≤x≤b0,otherwise
則稱X服從區(qū)間[a,b]上的均勻分布,記作X~U(a,b)。這里的均勻分布和離散的隨機(jī)變量不同,它取[a,b]上每一點(diǎn)的概率都為0,所以不可能寫成概率分布列的形式,于是我們引出了概率密度函數(shù)的概念。為了進(jìn)行矩參數(shù)估計(jì),我們計(jì)算出均勻分布的一階矩和二階矩分別為:
E(X)=
E(X2)= +
3.2 矩估計(jì)
假設(shè)我們有來(lái)自[a,b]上均勻分布的樣本X1,X2,…,Xn,令A(yù)1 代表樣本的一階矩,A2?勖 Xi2代表樣本的二階矩。于是矩估計(jì)的等式為:
=A1
+ =A2
解上述方程可得, =A1+ =A1-
下面我們利用R語(yǔ)言的runif函數(shù)依次生成服從[2,6]上的均勻分布的10,100,1000個(gè)隨機(jī)數(shù)。然后利用上述矩估計(jì)公式得到結(jié)果如下表所示:
容易發(fā)現(xiàn),和兩點(diǎn)分布時(shí)情形基本類似,隨著樣本量的不斷增大,我們的估計(jì)值會(huì)越來(lái)越接近理論值。
3.3 極大似然估計(jì)
樣本x1,x2,…,xn對(duì)應(yīng)的似然函數(shù)為L(zhǎng)= 1[a,b] (xi)這里1是示性函數(shù)。則當(dāng)a≤ xi且 xi≤b時(shí),L= ,其他情形為0。于是,要使得L達(dá)到最大值,a,b的估計(jì)值為 = xi, = xi。沿用3.2的數(shù)據(jù),我們只給出n=100時(shí)的估計(jì)值為 =2.026589, =5.966075。
4.總結(jié)
我們利用矩估計(jì)和極大似然估計(jì)方法得到了兩點(diǎn)分布和均勻分布的參數(shù)估計(jì),從數(shù)值上來(lái)看,兩種方法估計(jì)的都較為準(zhǔn)確,且隨著樣本量的增大,估計(jì)得誤差也在慢慢地降低。從試驗(yàn)中還可以發(fā)現(xiàn),R語(yǔ)言對(duì)于解決統(tǒng)計(jì)問(wèn)題非常方便,語(yǔ)法簡(jiǎn)潔,易于編程。
參考文獻(xiàn):
[1]茆詩(shī)松. 概率論與數(shù)理統(tǒng)計(jì)簡(jiǎn)明教程[M].高等教育出版社,2012.
[2]Matloff N. R語(yǔ)言編程藝術(shù)[M].機(jī)械工業(yè)出版社,2013.