王衛(wèi)華
(湖北大學數(shù)學與統(tǒng)計學院應用數(shù)學湖北省重點實驗室 湖北·武漢 430062)
概率論與數(shù)理統(tǒng)計里面常見的有這幾種數(shù)字特征:數(shù)學期望,極差,方差,均方差,變異系數(shù),分位數(shù),中位數(shù),偏度系數(shù),峰度系數(shù),協(xié)方差,相關系數(shù)。這些數(shù)字特征各從一個側面描述隨機變量某些方面的特征,在理論上和實踐上具有重要意義,它們能更直接,更簡單,更清晰,更實用的反映出隨機變量的本質。經(jīng)常性地,在許多實際問題中,人們并不需要考察一個隨機變量的分布函數(shù),概率密度,而只需要知道它的某幾個數(shù)字特征即可。
首先介紹一下最常用最重要的數(shù)字特征——數(shù)學期望,也稱為平均值,期望值,并不是所有的隨機變量都存在期望值,數(shù)學期望的物理解釋是重心,中心,質量分布的重心,或者線段,平面等的中心位置。數(shù)學期望的理論意義深刻,它是一個實數(shù),消除了隨機變量的隨機性。數(shù)學期望的應用廣泛,如評價各產(chǎn)糧區(qū)糧食產(chǎn)量水平時,只需要比較各地區(qū)糧食的評價產(chǎn)量,比較各班某學科成績時,可比較整個班某學科的平均成績和方差。
有了對數(shù)學期望,平均值的理解,我們可以解決,理解生活中的許多問題。如,據(jù)報道,某人在一平均深度為2尺的河水中溺亡,這可能嗎?2尺不能淹死人???注意,平均值為2尺,但某人是陷在一個10尺深的坑中沉下去的。又如,由帕萊托定律可知,百分之十的人擁有百分之九十的社會財富,這就是為什么大部分人都會覺得自己的收入低于國民的平均收入,拉了全國人民的后腿。有了數(shù)學期望這個有力的武器,我們就不會為很多商業(yè)促銷所打動。商業(yè)促銷無處不在,現(xiàn)在我們來看一個簡單的例子,某商場促銷,購物滿88元可抽獎一次,10000張獎票中,一等獎一個,是500元購物卡,二等獎十個,是100元購物卡,三等獎一百個,是10元購物卡,四等獎一千個,是2元購物卡,某人已購物500余元,可抽獎5次,可是排隊抽獎的人比較多,是否值得花時間排隊抽獎呢?我們來計算他抽獎所得的期望值,平均值。我們先求出來抽獎一次的期望得獎值是0.45元,那么由數(shù)學期望的性質,抽獎5次是2.25元,從結果看,期望值很小,不值得排隊。
數(shù)學期望也有它的不足,如,當二個班平均成績不相上下時,如何再進一步比較呢,比較簡單的度量數(shù)據(jù)離散程度的方法是用極差,極差雖然能在一定程度是刻畫數(shù)據(jù)的離散程度,但因為極差只使用了數(shù)據(jù)中最大及最小兩個信息,對其他數(shù)據(jù)的取值沒有涉及,所以極差所含的信息量很少,這時候,方差出場了,它用來比較成績的波動程度,方差越大,則成績越不穩(wěn)定,但方差又有它的缺點,方差是離差的平方的數(shù)學期望,即它是隨機變量與它自己中心的差的平方的平均值,平方之后,方差放大或縮小了隨機變量的波動程度。并不是所有的隨機變量都有方差。于是,又有了均方差,均方差是方差的算術平方根,能更準確地比較兩個隨機變量的波動程度。
數(shù)學期望和方差聯(lián)手,可以解決很多實際問題,比如說,我們知道了某地區(qū)成年男子的平均身高h以及身高的均方差s,那么我們可以根據(jù)這兩個數(shù)據(jù)確定此地區(qū)地鐵車門的高度,因為成年男子百分之九十五的身高都在(h-2s,h+2s)這個區(qū)域,車門高度略高于h+2s即可。概率統(tǒng)計中常用的分布,二項分布,泊松分布,指數(shù)分布,正態(tài)分布,均勻分布都可以由期望和方差這兩個常數(shù)確定,有了期望和方差,我們就能寫出這些分布的分布列或概率密度函數(shù),多么神奇??!很多隨機變量的比較,我們不需要去進行大量的計算,只去比較一下數(shù)字特征就可以。比如,兩種不同型號的手機,要比較它們的使用壽命,使用壽命都服從指數(shù)分布,知道了兩個指數(shù)分布的兩個參數(shù),就可以比較,參數(shù)的倒數(shù)是數(shù)學期望,是平均壽命,所以,參數(shù)大的,使用壽命短。
方差、均方差反映了隨機變量取值波動程度,但在比較兩個隨機變量的波動大小時,只看方差或均方差有時候是不合理的。因為首先隨機變量的取值有量綱,其次取值的大小有一個相對性問題,取值較大的隨機變量的方差或均方差允許大一些。為了避免這些因素的影響,引入變異系數(shù)(均方差除以數(shù)學期望得到的數(shù),稱為變異系數(shù))。均方差與數(shù)學期望的量綱相同,所以變異函數(shù)沒有量綱了,消除了量綱對波動的影響。舉個例子,用X表示某種同齡樹的高度,用Y表示某年齡段兒童的身高,量綱都是米,樹的平均高度為10米,兒童的平均身高為1米,樹的取值較大,樹的均方差是1米,兒童的均方差是0.04米,表面上看樹的均方差大于兒童的均方差,但是比較它們的變異系數(shù),樹的變異系數(shù)是0.1,兒童身高的變異系數(shù)是0.2,說明兒童身高的波動比樹高的波動大。
我們知道,密度函數(shù)與X軸所夾面積為1,分位數(shù)是X軸上的一個點,這個點,把面積分成了兩部分,左側面積為p,右側面積為1-p?;蛘哒f,分布函數(shù)在分位數(shù)處的函數(shù)值是p,即比如,某場考試要根據(jù)考試成績錄取總人數(shù)的前10%,那就是求成績這個隨機變量的0.9分位數(shù)。再比如一個工廠車間的工人生產(chǎn)產(chǎn)品,根據(jù)每個人的產(chǎn)量制定懲罰措施,后5%要扣獎金,那就是求產(chǎn)量這個隨機變量的0.05分位數(shù)。當p取特殊值0.5時,0.5分位數(shù)稱為中位數(shù),也就是說有一半的隨機變量落在中位數(shù)的左邊,另一半的隨機變量落在中位數(shù)的右邊,或者說,分布函數(shù)在中位數(shù)這一點的函數(shù)值是0.5分位數(shù)和中位數(shù)一般是指連續(xù)型隨機變量的分位數(shù)和中位數(shù)。對離散分布雖然可以引入分位數(shù)和中位數(shù)的概念,但分位數(shù)和中位數(shù)有可能不存在或不唯一。所以,在離散分布里面很少使用分位數(shù)。中位數(shù)和平均值一樣都是隨機變量的特征數(shù),它兩各有優(yōu)勢,在某些情況下,中位數(shù)更能說明問題。比如A國人年齡的中位數(shù)是40歲,說明有一半人的年齡超過40歲,B國人年齡的中位數(shù)是50歲,說明有一半人的年齡超過50歲,B國人比A國人老齡化更嚴重。與中位數(shù)相比,平均值也有自己的優(yōu)點,比如,一組數(shù)據(jù),如果或數(shù)值發(fā)生變化,那么平均值會跟著發(fā)生變化,但中位數(shù)卻沒有變化,因為平均值與每一個數(shù)據(jù)都有關,但中位數(shù)只利用了數(shù)據(jù)中間位置的一個或者兩個值,而沒有利用其他數(shù)據(jù),因此與中位數(shù)相比較,平均值反映了數(shù)據(jù)的更多信息,對樣本中的極端值更敏感。但有些特殊分布,當這些分布是關于Y=C對稱時,這些分布的中位數(shù)與均值相等,均為點C。例如正態(tài)分布,均勻分布。在實際應用中,除了經(jīng)常用到中位數(shù),還有0.25分位數(shù),0.75分位數(shù),這三個分位數(shù)把數(shù)據(jù)分成了四等份,因此也稱為四分位數(shù)。四分位數(shù)在數(shù)據(jù)分析中起著重要作用。
接著來說一下偏度系數(shù)和峰度系數(shù)。偏度系數(shù)是用來描述分布偏離對稱性程度的一個特征數(shù),當密度函數(shù)是對稱圖形時,偏度系數(shù)為0,任何正態(tài)分布,以及一維均勻分布偏度均為0。偏度系數(shù)不為0時,分為左偏和右偏,當密度函數(shù)最大值左邊的變量多于右邊的變量時,密度函數(shù)圖形在左邊有長尾巴,稱為左偏,反之成為右偏。偏度系數(shù)為0時,平均值與中位數(shù)相等;左偏時,平均值在尾巴那邊,平均值小于中位數(shù);右偏時,平均值在尾巴那邊,平均數(shù)大于中位數(shù)。峰度函數(shù)是描述分布尖峭程度和尾部粗細的一個特征數(shù),峰度是相對正態(tài)分布而言的超出量,以標準正態(tài)分布為基準確定其大小。若標準化后的分布比標準正態(tài)分布更尖峭,則峰度系數(shù)大于0,若標準化后的分布比標準正態(tài)分布更平坦,則峰度系數(shù)小于0。偏度與峰度都是描述分布形狀的特征數(shù),它們的設置均以標準正態(tài)分布為基準,正態(tài)分布的偏度和峰度均為0。
前面介紹的都是一維隨機變量的數(shù)字特征,經(jīng)常地,我們會用多個隨機變量從不同的方向去描述同一樣本點,那么這多個隨機變量之間有時候有一定的依賴關系。比如,一個成年人去體檢,測身高、體重和量血壓,體重與身高有一定的關系,血壓與體重又有一定關系。協(xié)方差就是反映隨機變量之間依賴關系的一個數(shù)字特征,它是對兩個隨機變量的協(xié)同變化的度量。協(xié)方差是兩個隨機變量的各自的離差的乘積的數(shù)學期望。協(xié)方差大于0時,稱兩個隨機變量正相關,即兩個隨機變量有同時增加或同時減少的傾向;協(xié)方差小于0時,稱兩個隨機變量負相關,這時有X增加而Y減少的傾向,或反之;協(xié)方差等于0時,稱X與Y不相關,這時候可能是兩種情況,其一是X與Y的取值毫無關系,其二是X與Y之間有關聯(lián),但不是線性關系。協(xié)方差的引入完善了方差的計算,在X與Y相關的情況,和的方差并不等于方差的和,X與Y的正相關會增加X與Y的和的方差,負相關會減少和的方差,而在X與Y不相關時,和的方差等于方差的和。
協(xié)方差也有缺點,它是兩個變量的積的數(shù)學期望,當兩個變量的量綱不同時,協(xié)方差的量綱無意義,而且,kX和kY之間的統(tǒng)計關系與X和Y之間的統(tǒng)計關系應該是一樣的,但其協(xié)方差卻擴大了k的平方倍,為了消除量綱的影響,用協(xié)方差去除它們各自的均方差,得到一個新的數(shù)字特征—相關系數(shù),相關系數(shù)實際上是普通隨機變量標準化之后的協(xié)方差,相關系數(shù)描述了兩個變量之間的線性關系的強弱,也稱為線性相關系數(shù),相關系數(shù)取值在-1到1之間,其絕對值越接近于0,則線性相關程度越低。相關系數(shù)為0時,稱兩個隨機變量不相關,其絕對值越接近1,則線性相關程度越高。相關系數(shù)為1時,稱X與Y完全正相關。相關系數(shù)為-1時,稱X與Y完全負相關。相關系數(shù)與協(xié)方差是同符號的,即同為正,或同為負,或同為零。我們經(jīng)常利用相關系數(shù)的性質求解,考研有一個經(jīng)典題型是,一根木棍長為m,分成兩部分,一部分長為x,另一部分長為y,求兩個隨機變量x與y的相關系數(shù)。因為x+y=m,x與y是線性關系,x越大,y越小,負相關,所以這個題目不需要計算,直接回答,相關系數(shù)是-1。
以上總結了概率統(tǒng)計里面常用的特征數(shù),特征數(shù)包含著很多信息,它們在學習生活生產(chǎn)實踐中發(fā)揮著重要作用。我們要了解它們,掌握它們,應用它們。
隨著社會的不斷進步和科學技術水平的提高,概率統(tǒng)計將發(fā)揮它的最大作用,使之最大限度地為人類服務。