鄭昌紅
摘 要 本文先從一個實際問題出發(fā),引出離散型均勻分布的參數(shù)估計的合理性,進而討論連續(xù)性均勻分布的參數(shù)估計的合理性,從而推出更一般的情況。
關(guān)鍵詞 參數(shù)估計 矩估計 均勻分布 無偏估計
中圖分類號:O212.1 文獻標(biāo)識碼:A
在二戰(zhàn)期間,德國坦克戰(zhàn)斗力優(yōu)于盟軍。為了知己知彼,了解德軍坦克數(shù)顯然可以幫助盟軍評估獲勝幾率和調(diào)整武器裝備。因此盟軍開始尋找方法進行推算,他們最后找到了重要線索。盟軍發(fā)現(xiàn)德軍墨守成規(guī),每輛坦克都有一個獨特的序列號,序列號有一個模式,代表了坦克生產(chǎn)訂單,而且每個號碼不會重復(fù)。那么怎么樣根據(jù)繳獲的德軍坦克的編號來估計德軍坦克數(shù)量呢?
觀察整個問題,最終需要估計德軍坦克的數(shù)量,這個數(shù)量是一個未知參數(shù),其估計值要通過繳獲的坦克編號得到。
設(shè)總體表示繳獲的坦克的編號,德軍坦克數(shù)為。顯然繳獲每一輛坦克都是等可能的,則的分布律為:( = ) = ,( = 1,2,…,)其中分布律中德軍坦克數(shù)為未知參數(shù)。
這種分布不如可以理解成離散型的隨機變量的均勻分布,即取得每個可能取值的可能性是一樣的。
這里我們先給出第一種常規(guī)方法求出未知參數(shù)的矩估計。
根據(jù)總體的分布律,只有一個未知參數(shù),所以只需求出其數(shù)學(xué)期望:
由于隨機變量的可能取值為1,2,…,,顯然這個估計量不能保證估計出來的坦克數(shù)比繳獲的坦克編號中最大的大,所以用這個來估計坦克數(shù)不合理。合理的估計值一定要大于等于繳獲的坦克編號中最大的,也就是說我們關(guān)心的其實是取得的最大編號。為了滿足這個合理條件,我們通過編號最大值的分布來估計參數(shù)。
設(shè)總體表示繳獲坦克的編號的最大值,德軍坦克數(shù)為,繳獲的坦克數(shù)為,則的分布律為:
那么如何求呢?這要用到二項式系數(shù)的相關(guān)方法 。
顯然代數(shù)式 + + … + 中的系數(shù)為,經(jīng)過求和有 + + … + = ,所以其的系數(shù)即為分子的的系數(shù),也就是說 = 。
進一步可以得到: = = = ,從而 = ,所以矩估計為:。
首先一定滿足估計值大于等于繳獲坦克編號的條件。其次這個結(jié)果可以理解成估計值等于最大編號加上平均遺失的編號。
二戰(zhàn)結(jié)束后,盟軍通過德軍遺留下來的資料發(fā)現(xiàn),德國在1940年夏天到1942年秋天期間,每月生產(chǎn)坦克255輛。根據(jù)戰(zhàn)后獲得的德國內(nèi)部統(tǒng)計數(shù)字,坦克的真實生產(chǎn)速度是每月256輛,僅僅差了一輛,用統(tǒng)計方法估計出來的坦克數(shù)量與實際坦克數(shù)量如此驚人的相似。這個結(jié)果比剛開始動用傳統(tǒng)的情報收集方法:間諜活動、攔截和破譯軸心國通訊,審訊俘虜這些手段估計出來的結(jié)果要準(zhǔn)確得多。
這實際上是一個離散均勻分布的參數(shù)估計問題。自然我們想到連續(xù)性均勻分布的參數(shù)估計問題。
設(shè)隨機變量~(),其中為未知參數(shù)。很容易求出的極大似然估計為:,即用樣本的最小值和最大值分別來估計。但是顯然估計偏大, 估計偏小。
下面我們用一般的矩估計的方法求的估計量。
的概率密度函數(shù)為:
則,解得:
所以的矩估計量為:
此估計量與上面的例子類似的存在缺點:對樣本(,,…,),記 = (,,…,), = (,,…,),顯然對任意樣本觀察值都有≤≤≤,所以上述矩估計不能保證的估計值小于最小的,的估計值大于最大的這個條件,也就是說這個估計量是不合理的。為了滿足合理性,我們更應(yīng)該關(guān)心樣本中的最大和最小值的情況。即,的情況。
由于,,…,相互獨立且同分布,設(shè)其分布函數(shù)為(),則
是,的線性組合,其估計的結(jié)果可以理解成:表示樣本的最小值減去樣本的平均距離,表示樣本的最大值加上樣本的平均距離,這個結(jié)果比起極大似然估計和一般的矩估計顯然更合理。
很容易證明分別是的無偏估計量,由文獻[3]還可以知道還是的一致最小方差無偏估計量。
由上面的討論,我們可以把這個問題推廣到更一般的情況。若隨機變量的可能取值范圍受未知參數(shù)的控制,那么我們用常規(guī)的點估計的方法估計出來的結(jié)果可能不合理,這時我們可以用類似于上述的方法對估計方法進行調(diào)整,使得估計量具有合理性。