王燕飛
(吉林化工學(xué)院理學(xué)院,吉林 吉林132022)
貝葉斯統(tǒng)計(jì)是統(tǒng)計(jì)學(xué)專(zhuān)業(yè)中唯一一門(mén)非經(jīng)典統(tǒng)計(jì)學(xué)的學(xué)科。英國(guó)學(xué)者貝葉斯的遺作《論有關(guān)機(jī)遇問(wèn)題的求解》,提出了著名的貝葉斯公式和一種歸納推理方法,成為了貝葉斯學(xué)派的奠基石。之后,在Jeffreys、Good、Savage、Berger等學(xué)者的不斷努力下,把貝葉斯方法在觀點(diǎn)和理論上不斷完善,并在工業(yè)、經(jīng)濟(jì)、管理等領(lǐng)域獲得了成功的應(yīng)用[1]。目前,貝葉斯學(xué)派已發(fā)展成為一個(gè)有影響的統(tǒng)計(jì)學(xué)派,打破了經(jīng)典統(tǒng)計(jì)學(xué)一統(tǒng)天下的局面,占據(jù)了統(tǒng)計(jì)學(xué)的半壁江山。
貝葉斯統(tǒng)計(jì)是在與經(jīng)典統(tǒng)計(jì)的爭(zhēng)論中逐漸發(fā)展起來(lái)的。其基本思想和觀點(diǎn)是:總體分布中的未知參數(shù)可以看作隨機(jī)變量;事件的概率除了用頻率解釋外,還可用個(gè)人經(jīng)驗(yàn)和歷史資料來(lái)獲得,即承認(rèn)主觀概率;在經(jīng)典統(tǒng)計(jì)所用的總體信息和樣本信息外,還充分利用了抽樣之前的信息—先驗(yàn)信息,并可根據(jù)先驗(yàn)信息獲得先驗(yàn)分布。而這些觀點(diǎn)在經(jīng)典統(tǒng)計(jì)學(xué)看來(lái)都是不合理的。實(shí)際上,人們?cè)谏钪卸荚诓恢挥X(jué)的運(yùn)用貝葉斯的思想解決問(wèn)題。比如,醫(yī)生在做手術(shù)之前會(huì)根據(jù)病人的病情和自己的經(jīng)驗(yàn)估計(jì)手術(shù)成功的概率;免檢產(chǎn)品的鑒定需要利用該產(chǎn)品以往的不合格品率的歷史資料,若多次在零附近,且每隔一段時(shí)間抽查,仍保持該結(jié)果,則認(rèn)定該產(chǎn)品為免檢產(chǎn)品。這些實(shí)例都是在運(yùn)用了先驗(yàn)信息后才得到了更好的解決,因此,若能充分利用先驗(yàn)信息,對(duì)于解決很多統(tǒng)計(jì)問(wèn)題,無(wú)疑是非常有利且有效的。
然而正是由于貝葉斯統(tǒng)計(jì)獨(dú)有的思想和方法,學(xué)生在習(xí)慣于以往所學(xué)的經(jīng)典統(tǒng)計(jì)的課程思路情況下,接受起來(lái)有一定的困難。因此,教師在教授過(guò)程中一定要深入淺出,運(yùn)用實(shí)例,易于學(xué)生理解。將貝葉斯統(tǒng)計(jì)與經(jīng)典統(tǒng)計(jì)比較講授相關(guān)內(nèi)容,讓學(xué)生從熟悉的知識(shí)進(jìn)入,循序漸進(jìn)逐步認(rèn)識(shí)貝葉斯方法和理論。
后驗(yàn)分布的定義是貝葉斯統(tǒng)計(jì)中第一章課程的內(nèi)容,學(xué)生剛剛接觸,理解起來(lái)有一定的難度??捎山?jīng)典統(tǒng)計(jì)中所熟悉的貝葉斯公式引入講解,比較容易接受。另外通過(guò)實(shí)用案例,激發(fā)學(xué)生的學(xué)習(xí)興趣,并能更好理解定義。
設(shè)A1,A2,…,An是樣本空間Ω的一個(gè)劃分或完備事件組,即滿(mǎn)足:。則對(duì)Ω中任一事件B,有:
這就是概率統(tǒng)計(jì)中著名的貝葉斯公式,也叫逆概率公式[2]。我們可將事件B看作是試驗(yàn)結(jié)果,A1,A2,…,An看作是導(dǎo)致結(jié)果B的原因。則該公式表明了結(jié)果B發(fā)生條件下由第i個(gè)原因?qū)е碌母怕?。即?zhí)果索因[3]。
案例1
已知5%的男人和0.25%的女人是色盲,現(xiàn)隨機(jī)挑選一人,檢驗(yàn)為色盲,若男人和女人各占人數(shù)的一半,問(wèn)此人是男人的概率。
即抽取此人是色盲時(shí),為男人的概率為0.952。
在貝葉斯公式中,結(jié)果B可認(rèn)為是已經(jīng)出現(xiàn)的樣本數(shù)據(jù)x,發(fā)生結(jié)果的原因Ai可認(rèn)為是未知的隨機(jī)變量θ的取值。于是將貝葉斯公式推廣可得到后驗(yàn)分布的離散形式定義。
設(shè)總體x服從分布密度p(x|θ),其中θ為離散型隨機(jī)變量,取值為有限個(gè)或可列個(gè)。即θ=θi,i=1,2,…。θ的先驗(yàn)分布為π(θi)=P(θ=θi),i=1,2,…。樣本的觀察值為x=(x1,x2,…,xn),樣本聯(lián)合分布密度為,則θ的后驗(yàn)分布為:
將離散形式推廣得到連續(xù)形式的后驗(yàn)分布定義。
設(shè)總體x服從分布密度p(x|θ),其中θ為連續(xù)型隨機(jī)變量,取值為參數(shù)空間Θ。θ的先驗(yàn)分布為π(θ)。樣本的觀察值為x=(x1,x2,…,xn),樣本聯(lián)合分布密度為,則θ的后驗(yàn)分布為:
注:1.分母與未知參數(shù)θ無(wú)關(guān),不含有θ的任何信息,稱(chēng)為樣本x的邊緣分布。
記作:
2.若總體x為離散型隨機(jī)變量,則總體分布密度p(x|θ)改為分布列P(X=x|θ),后驗(yàn)分布的離散形式和連續(xù)形式就不難寫(xiě)出來(lái)了。
先驗(yàn)分布π(θ)反映了人們?cè)诔闃忧皩?duì)參數(shù)θ的認(rèn)識(shí),而后驗(yàn)分布π(θ|x)則是在獲得了樣本后,對(duì)參數(shù)θ的認(rèn)識(shí),是人們利用總體信息、樣本信息(統(tǒng)稱(chēng)為抽樣信息)對(duì)先驗(yàn)分布π(θ)的認(rèn)識(shí)作調(diào)整的結(jié)果。
案例2
英國(guó)統(tǒng)計(jì)學(xué)家Savage(1961年)考察一個(gè)統(tǒng)計(jì)實(shí)驗(yàn):一位常飲牛奶加茶的婦女聲稱(chēng),她能辨別先倒進(jìn)杯子里的是茶還是牛奶。對(duì)此作了10次試驗(yàn),結(jié)果她都說(shuō)對(duì)了。
若不考慮該婦女的經(jīng)驗(yàn),則應(yīng)認(rèn)為每次她猜對(duì)的概率為0.5,則10次猜對(duì)的概率為0.510=0.0009766非常小,顯然與實(shí)際不符,不合理。因此應(yīng)該充分利用經(jīng)驗(yàn),即先驗(yàn)信息。對(duì)該婦女的了解,認(rèn)為有可能她每次猜對(duì)的概率為0.95。設(shè)θ為她每次猜對(duì)的概率,則取值為0.95或者0.5。
保守起見(jiàn),認(rèn)為π(0.95)=0.6,π(0.5)=0.4。x為10次試驗(yàn)中婦女猜對(duì)的次數(shù),則x服從二項(xiàng)分布b(10,θ)。即x=0,1,…,10,試驗(yàn)結(jié)果表明x=10。則P(X=10|θ=0.95)=0.9510,P(X=10|θ=0.5)=0.510。故θ的后驗(yàn)分布為:
后驗(yàn)分布是基于總體信息、樣本信息和先驗(yàn)信息三種信息的綜合結(jié)果,是一個(gè)非常重要的定義,在整個(gè)貝葉斯統(tǒng)計(jì)學(xué)中起著基石一樣的作用。貝葉斯統(tǒng)計(jì)的點(diǎn)估計(jì)、區(qū)間估計(jì)、假設(shè)檢驗(yàn)及預(yù)測(cè)等統(tǒng)計(jì)推斷問(wèn)題都是建立在后驗(yàn)分布基礎(chǔ)之上進(jìn)行的。而在后驗(yàn)分布引入損失函數(shù)之后,便構(gòu)成了貝葉斯決策理論的基本框架。顯然,后驗(yàn)分布在貝葉斯統(tǒng)計(jì)中占有舉足輕重的地位,可以說(shuō)任何貝葉斯統(tǒng)計(jì)問(wèn)題都離不開(kāi)后驗(yàn)分布。因此,在學(xué)習(xí)該定義之初應(yīng)使學(xué)生能夠理解好,并靈活運(yùn)用定義。在后續(xù)其他貝葉斯理論的講授中應(yīng)逐步加深對(duì)該定義的認(rèn)識(shí)和應(yīng)用。
貝葉斯統(tǒng)計(jì)課程是在統(tǒng)計(jì)學(xué)花海中的一支獨(dú)秀。通過(guò)對(duì)后驗(yàn)分布定義的教學(xué)研究探索,我們可以將其方法推而廣之,運(yùn)用到貝葉斯統(tǒng)計(jì)中的其他理論知識(shí)的講授中。在教師教學(xué)和學(xué)生學(xué)習(xí)的過(guò)程中,貝葉斯方法和思維方式都是與其他統(tǒng)計(jì)學(xué)科非常不同的。因此,可以在與熟知的經(jīng)典統(tǒng)計(jì)學(xué)的對(duì)照中比較學(xué)習(xí),深入淺出,列舉實(shí)際案例,易于理解。通過(guò)案列的講解還能激發(fā)學(xué)生的學(xué)習(xí)興趣,提高主動(dòng)思考和解決實(shí)際問(wèn)題的能力,培養(yǎng)學(xué)生的創(chuàng)新意識(shí)和應(yīng)用能力。當(dāng)學(xué)生遇到某個(gè)問(wèn)題時(shí),若能不僅局限于經(jīng)典統(tǒng)計(jì)方法,還能考慮到使用貝葉斯方法結(jié)合解決,也就具備了貝葉斯思想,那么該課程的開(kāi)設(shè)便達(dá)到了目的。若能有部分同學(xué)有興趣進(jìn)一步拓寬貝葉斯方法的應(yīng)用領(lǐng)域,深入研究學(xué)習(xí),那么我國(guó)的貝葉斯統(tǒng)計(jì)研究就后繼有人了。
[1]茆詩(shī)松,湯銀才.貝葉斯統(tǒng)計(jì)[M].北京:中國(guó)統(tǒng)計(jì)出版社,2012:5-6.
[2]李自勇.基于貝葉斯公式及應(yīng)用數(shù)學(xué)的認(rèn)識(shí)與實(shí)踐[J].數(shù)學(xué)教學(xué)研究,2014(3):63-65.
[3]李春娥,王景艷.貝葉斯公式及其應(yīng)用的教學(xué)研究[J].大學(xué)數(shù)學(xué),2015:119-121.