王燕飛
(吉林化工學院 理學院,吉林 吉林 132022)
貝葉斯統(tǒng)計與經(jīng)典統(tǒng)計猶如一枚硬幣的兩面,各有千秋。相對于后者的深入人心和悠久歷史,前者的理論方法是更加靈活且注重實用效果的,這也是它得以廣泛應用且迅速開枝散葉發(fā)展壯大的重要原因。貝葉斯方法獲得越來越多專家學者的認同。以貝葉斯思想衍生的一系列方法和理論都以其命名,比如:貝葉斯網(wǎng)絡、貝葉斯決策、貝葉斯分類算法、貝葉斯判別分析等等層出不窮。貝葉斯統(tǒng)計表現(xiàn)出了勃勃生機和欣欣向榮的景象,在統(tǒng)計學領域牢牢地站穩(wěn)了一席之地,是現(xiàn)代統(tǒng)計學的重要分支。
貝葉斯統(tǒng)計起源于英國學者貝葉斯的遺作《論有關機遇問題的求解》[1],其中提出了著名的貝葉斯公式和一種歸納推理方法,被譽為貝葉斯統(tǒng)計學的奠基石[2]。而實際上貝葉斯公式的一般形式正是后驗分布。它集合了總體信息、樣本信息以及貝葉斯學派所青睞的先驗信息[3]。而在解決統(tǒng)計問題時“是否使用先驗信息”是貝葉斯統(tǒng)計與經(jīng)典統(tǒng)計兩種方法爭論的焦點問題之一。區(qū)別于抽樣之前所獲得的總體參數(shù)的概率分布(先驗分布),后驗分布是在獲得樣本之后總體參數(shù)的概率分布,它反映了樣本數(shù)據(jù)對參數(shù)分布的調(diào)整[4]。在貝葉斯統(tǒng)計中的統(tǒng)計推斷預測[5]、參數(shù)估計[6]、假設檢驗[7]以及決策理論[8]等都是基于后驗分布進行的,它猶如金字塔的塔基一樣至關重要。因此,想要徹底地掌握貝葉斯統(tǒng)計理論的思想方法,不可避免地需要理解好后驗分布這一概念。為此,本文從融入課程思政元素的角度,對“后驗分布”知識點進行精心地教學設計,希望給學生帶來問題背后的思考,深刻理解貝葉斯方法的思想,培養(yǎng)運用知識解決問題的能力,勇于探索真知和科學研究的精神。同時為教師講解提供嶄新的思路和啟發(fā)。
深刻理解后驗分布的產(chǎn)生背景和意義,明確貝葉斯公式(后驗分布的事件形式)與后驗分布公式之間的關系。掌握后驗分布的離散形式和連續(xù)形式,熟練運用后驗分布求解計算。培養(yǎng)學生從貝葉斯統(tǒng)計的角度分析實際問題,并利用后驗分布公式解決問題的能力。
學生已經(jīng)在概率論與數(shù)理統(tǒng)計課程中學習了貝葉斯公式。具備一定的歸納、抽象能力。但不足點是:對于分析和解決實際背景問題的能力相對薄弱,貝葉斯思想還沒有建立起來。
1.教學重點:后驗分布公式的兩種形式、利用后驗分布求解實際問題。
2.教學難點:先驗分布類型的判斷、后驗分布公式的理解與運用。
首先,由伊索寓言故事“狼來了”引出學生所熟知的貝葉斯公式,引發(fā)學生思考,調(diào)動積極性進入“后驗分布”的學習。通過解決故事中小孩可信度下降的問題,分析其中所隱含的貝葉斯思想。由此推廣得到后驗分布公式的離散形式和連續(xù)形式。其次,在經(jīng)典案例“巴黎人口比例”的問題中,通過分析求解,使學生明確運用貝葉斯公式的技巧和方法。整個課程的2個案例,生動有趣,貼近生活,激發(fā)學生的學習興趣。最后,通過“人物介紹”“知識延展”“問題拓展”等環(huán)節(jié)開闊學生眼界,擴展思路。
小時候都聽過著名的伊索寓言“狼來了”,或許從那時起懂得了做人要誠實守信,不能信口雌黃的重要性。而這個故事背后所蘊含的統(tǒng)計意義卻更加吸引人。下面利用經(jīng)典統(tǒng)計學中的貝葉斯公式,分析一下為何不斷說謊的小孩最終失去了村民的信任而自食其果的,換句話說小孩可信度是怎樣逐漸降低的。
(1)
這就是經(jīng)典統(tǒng)計學中著名的貝葉斯公式[9]??蓪⑹录﨎看作是試驗結(jié)果,A1,A2,…,An看作是導致結(jié)果B的原因。則該公式表明了結(jié)果B發(fā)生條件下由第i個原因?qū)е碌母怕省R虼嗽摴揭步袌?zhí)果索因公式[10]。在具體的問題中,要弄清楚哪個是“果”,哪些是“因”。這是利用貝葉斯公式解決問題的難點。實際上,“果”顧名思義是發(fā)生的結(jié)果、事實或者數(shù)據(jù),也就是說能夠看得見的資料,在統(tǒng)計中其實指的就是樣本數(shù)據(jù)。“因”自然是產(chǎn)生結(jié)果背后的原因或情況,是看不到的,而它有一個重要的特點是所有可能的“因”都要考慮到,即“因”構(gòu)成完備事件組。在貝葉斯統(tǒng)計中,“因”的概率分布就是先驗分布。
在山上放羊的小孩覺得無聊,想愚弄一下淳樸的村民,于是就向山下大喊“狼來了”。引得村民們拿著工具上山打狼,結(jié)果卻看到小孩開心地哈哈大笑,氣憤而歸。第二天,小孩故伎重演,村民們半信半疑,但仍有一部分善良的人們上山營救。第三天,狼真的來了,這時候小孩無論怎樣大喊都無濟于事,村民們沒有相信的了。最終狼把羊都吃了,小孩后悔莫及。
1.問題的分析及求解
利用貝葉斯公式,第一次“小孩說謊”這一結(jié)果發(fā)生之后“小孩可信”的概率為:
此時“小孩可信”的概率降低為0.44。顯然,小孩的可信度由0.8降低為0.44,這正是從統(tǒng)計的角度量化了人們對小孩信任程度的降低情況。這也恰恰解釋了為何再次上山營救的人們減少的原因。
同理再次使用貝葉斯公式,當?shù)诙巍靶『⒄f謊”這一結(jié)果發(fā)生之后“小孩可信”的概率為:
于是,得到此時的“后驗分布”概率值變成了0.14。即小孩的可信度再次下跌至0.14,此時人們對小孩已經(jīng)基本不信任了。因此,當?shù)谌煨『⒑艟葧r沒有人再上山營救了。
2.小結(jié)
在這個案例中,要明確樣本信息與先驗信息,先驗分布與后驗分布的內(nèi)涵。注意“樣本信息”就是看得見的結(jié)果和事實。“先驗信息”就是在樣本信息出現(xiàn)之前的信息,構(gòu)成的概率分布就是“先驗分布”。而“后驗分布”就是在樣本信息出現(xiàn)之后的概率分布。“先”與“后”是相對而言的,當有新的樣本信息出現(xiàn)之后,原來的“后驗分布”又可以看成是“先驗分布”,再次更新結(jié)果。于是,可以不斷加入新的樣本信息而不斷更新結(jié)果。從這個角度來看,貝葉斯公式是一個尊重樣本事實的理論結(jié)果。
3.問題拓展
請同學們思考:試想一下,在“狼來了”這個故事中,如果小孩從此痛改前非,不斷做出一些待人誠懇的事情,那么,再加入這些樣本信息之后,利用貝葉斯公式計算會如何呢?小孩的可信度會慢慢提高嗎?直覺告訴答案是肯定的。同學們可以嘗試驗證一下。
4.課程思政
正所謂“浪子回頭金不換”,每個人都應該以辯證的態(tài)度看待他人,不應該一成不變,同樣也要不斷努力改進自身,寬厚待人,嚴于律己?,F(xiàn)代社會中,每個人的信譽度是非常重要的。金融信貸領域,人們使用信用卡,如果到期沒還,則會被銀行計入不良信用記錄。如果信用卡逾期還款不超過3次,可申請信用卡但額度很小,也可以貸款但利率很高。逾期6次以上且有一次逾期不還就會被人民銀行個人征信系統(tǒng)列入黑名單,就很難辦理貸款了。在國外,信譽度的影響更大,甚至坐地鐵不買票,也會記入到身份證上,無論做什么,比如說買房子、租房子、貸款找工作等等就都成問題,不良記錄會讓人寸步難行。希望同學們做人都能誠實守信,正如魯迅先生所說,誠信是做人之根本。這也是貝葉斯公式帶給的思考。
1.后驗分布的離散形式
(2)
當參數(shù)θ的取值密集為連續(xù)情況時,即隨機變量θ的類型為連續(xù)型隨機變量,則可將先驗分布π(θi)替換為概率密度函數(shù)π(θ),從而得到連續(xù)形式的后驗分布定義。
2.后驗分布的連續(xù)形式
(3)
記作
(4)
1786年有法國數(shù)學家拉普拉斯試圖利用統(tǒng)計方法判斷巴黎新生人口比例是否失衡。為此,他提出考察“新生男嬰的比例大于0.5”的概率有多大?
1.問題分析及模型建立
可以將“新生男嬰人數(shù)”看作是總體X,而“新生男嬰的比例”為隨機變量θ,則容易得出X服從二項分布,即X~b(n,θ),即總體X的分布律:
(5)
其中n為新生嬰兒總數(shù)。那么問題就轉(zhuǎn)化為求得P(θ>0.5),這需要獲得參數(shù)θ的概率分布。
如果對于新生男嬰的比例θ一無所知,但至少知道θ的取值范圍是Θ={θ|0<θ<1},屬于連續(xù)型隨機變量,而θ在區(qū)間(0,1)范圍內(nèi)取何值是等可能的。顯然,從概率模型角度來看,這符合幾何概型,且θ服從均勻分布,即θ~U(0,1),此時θ的先驗分布為
假設通過人口調(diào)查獲得新生男嬰人數(shù)x,這就是樣本數(shù)據(jù)。那么在抽樣之后θ的分布就是后驗分布。
根據(jù)后驗分布的連續(xù)形式公式,可以先計算x的邊緣分布
(1-θ)n-xdθ。
由于
故
(其中Γ(n+1)=n!)。
所以
代入公式得后驗分布為
這就是后驗分布的結(jié)果。事實上,它是參數(shù)為x+1和n-x+1的貝塔分布。記作Be(x+1,
n-x+1)。
(2)從后驗分布的圖像可以看出,在有了樣本數(shù)據(jù)x之后,隨著x的取值情況不同,θ的概率分布由直線調(diào)整成不同情況的曲線。這就是加入樣本信息之后,參數(shù)θ的概率分布的變化。通俗地說,當對新生男嬰人數(shù)有了一定的了解之后,做出的判斷就會更加接近真實情況;
(3)這個問題可以抽象為更一般的模型,即當總體服從X~b(n,θ),θ~U(0,1)時,θ的后驗分布為Be(x+1,n-x+1)。
2.模型求解
拉普拉斯收集了1745-1770年巴黎誕生的嬰兒數(shù)據(jù)。得到男嬰為251 527個,女嬰241 945個。根據(jù)這個模型,代入即x=251527,n=251 527+241 945=493 472。從而求得
這個積分現(xiàn)在可以用Matlab計算得到結(jié)果,同學們不妨一試。但當時顯然沒有這樣的數(shù)學軟件,拉普拉斯是用泰勒展開完成的近似計算。最終得到結(jié)果近似為1.15×10-42微乎其微的概率值。所以認為它的對立事件的概率接近1。即巴黎“新生男嬰的比例大于0.5”這一事件幾乎必然發(fā)生。
這個結(jié)論在當時轟動一時。拉普拉斯利用貝葉斯統(tǒng)計方法,通過后驗分布研究了巴黎新生嬰兒人口比例問題。從概率的角度分析,并尊重樣本數(shù)據(jù)的使用,這樣的方法產(chǎn)生的結(jié)論比單純用一個男女比例的樣本估計值更具有科學性和說服力。
3.人物簡介
拉普拉斯(1749-1827年),法國數(shù)學家、天文學家、物理學家。他是天體力學的主要奠基人、天體演化學的創(chuàng)立者之一,他還是分析概率論的創(chuàng)始人,因此可以說他是應用數(shù)學的先驅(qū)。他從青年時期就顯示出卓越的數(shù)學才能,18歲時離家赴巴黎,決定從事數(shù)學工作。1785年他被選為科學院院士。1799-1825年出版《天體力學》,堪稱天體力學的不朽巨著。因此他被譽為“法國的牛頓”和天體力學之父。1812年發(fā)表了重要的《概率分析理論》一書,總結(jié)了當時整個概率論的研究,包括熟知的古典概型、中心極限定理及拉普拉斯變換等。它被譽為概率論歷史上里程碑式的著作。拉普拉斯曾任拿破侖的老師,和拿破侖結(jié)下不解之緣。
4.知識延展
幾乎沒有用到先驗信息而只使用了參數(shù)的取值范圍,這樣獲得的先驗分布稱為無信息先驗。這使得先驗分布的確定更加客觀,避免了由于利用先驗信息確定先驗分布時可能產(chǎn)生的主觀因素。而這一主觀因素也是經(jīng)典統(tǒng)計學者攻擊貝葉斯統(tǒng)計學方法的焦點之一,無信息先驗的使用讓其無話可說。因此,在實際問題中,當先驗信息嚴重不足時,無信息先驗是一個不錯的選擇。另一方面,如果有先驗信息可以利用,那么還是使用它更加客觀,對于先驗分布的確定方法及無信息先驗的系統(tǒng)學習會在后面的章節(jié)中繼續(xù)深入學習。
5.問題拓展
(1)將問題中所得到的后驗分布作為先驗分布,搜集新的樣本數(shù)據(jù),利用后驗分布公式繼續(xù)求解,研究這一問題結(jié)果是否有所變化?
(2)利用相同方法,搜集樣本數(shù)據(jù),研究一下我國男嬰出生率是否大于0.5?
后驗分布公式共有三種形式:隨機事件形式(貝葉斯公式)、離散形式和連續(xù)形式。其中“離散”和“連續(xù)”指的是總體分布中的未知參數(shù)θ的隨機變量類型,而總體X的概率分布p(x|θ)會因“離散”和“連續(xù)”型隨機變量而分別細化為分布律和概率密度。在具體問題的求解過程中要從貝葉斯思想出發(fā),分析對應總體及其分布、先驗分布及后驗分布公式類型。
本文針對“后驗分布”這一知識點,對教學過程進行設計。主要創(chuàng)新點包括:
1.通過案例“狼來了”和“巴黎人口比例”,分別起到引入課程和理解后驗分布公式的作用。案例生動有趣,學生代入感比較強;
2.利用Matlab數(shù)學軟件計算事件概率,通過數(shù)學軟件的操作,使得學生對于知識的理解更加深刻;
4.對于數(shù)學家拉普拉斯的介紹,開闊了學生視野,培養(yǎng)學術研究素養(yǎng);
5.恰當融入“思政元素”,引領學生樹立正確的人生觀和價值觀。
通過求解“狼來了”和“巴黎人口比例”問題,使得學生深入理解“后驗分布公式”的三種形式。利用數(shù)學軟件操作,啟發(fā)思考問題和思政引領等方式,學生表現(xiàn)出較高的積極性和較大的情感投入,通過提問和互動表明學生已經(jīng)獲得良好的學習效果,達到了本節(jié)的教學目標。