• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      樣本數(shù)據(jù)概率分布的可視化方法

      2012-09-26 09:11:10盧亞麗
      統(tǒng)計(jì)與決策 2012年12期
      關(guān)鍵詞:概率密度概率分布直方圖

      盧亞麗

      0 引言

      在理論教學(xué)中,知道了隨機(jī)變量的概率密度函數(shù)就能獲知該隨機(jī)變量的全部概率分布特性和數(shù)字特征,如常見的正態(tài)分布、指數(shù)分布、均勻分布、二項(xiàng)分布、泊松分布等等。然而,對于在實(shí)際學(xué)習(xí)、工作、以及科學(xué)研究中所獲得的統(tǒng)計(jì)數(shù)據(jù)序列,我們事先并不知道它們服從什么概率分布。那么這些統(tǒng)計(jì)數(shù)據(jù)序列的概率分布是什么?它們有什么樣的統(tǒng)計(jì)規(guī)律性?如何繪制其概率密度曲線?這常常是人們對統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分析時(shí)所感興趣的問題[1-2]。由樣本數(shù)據(jù)序列估計(jì)其概率分布是統(tǒng)計(jì)學(xué)及其相關(guān)專業(yè)的大學(xué)生以及經(jīng)常需要對統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分析的研究人員所必須掌握的知識。在計(jì)算機(jī)越來越普及的今天,借助于計(jì)算機(jī)的快速計(jì)算能力,以前估計(jì)樣本數(shù)據(jù)概率分布需要花很長時(shí)間才能做完的繁瑣的計(jì)算工作現(xiàn)在可以在計(jì)算機(jī)上瞬間完成。通過計(jì)算機(jī)繪圖,估計(jì)出的樣本數(shù)據(jù)的概率密度函數(shù)的圖像也可以直接在計(jì)算機(jī)上顯示出來(即計(jì)算結(jié)果的可視化),從而使我們可以以圖像的方式直觀的觀察樣本數(shù)據(jù)的概率分布規(guī)律。這為分析來自理論分布獲知困難的樣本數(shù)據(jù)序列的概率分布規(guī)律提供了簡便、快捷的近似方法。目前,樣本數(shù)據(jù)概率分布的可視化研究,重點(diǎn)在于理解其理論基礎(chǔ)、優(yōu)化其算法設(shè)計(jì)、清晰化代碼編寫。本文擬通過理論基礎(chǔ)分析,給出樣本數(shù)據(jù)概率分布直方圖和概率密度曲線的繪制算法,并用MATLAB 7.0編寫程序代碼實(shí)施計(jì)算結(jié)果的可視化。

      1 方法與程序

      1.1 理論基礎(chǔ)

      樣本數(shù)據(jù)概率分布的估計(jì)以大數(shù)定律為基礎(chǔ),用頻率的穩(wěn)定值來度量概率。由概率論中貝努力概型知識可知,將一成功(事件A發(fā)生)概率為 p的實(shí)驗(yàn)獨(dú)立重復(fù)n次,其中成功μn次,則μn為服從二項(xiàng)分布的隨機(jī)變量,其數(shù)學(xué)期望和方差分別為:E(μn)=np,D(μn)=np(1-p)。因此,成功的頻率μnn也是隨機(jī)變量,其數(shù)學(xué)期望和方差分別為:E(μnn)=p。這表明隨機(jī)變量 μnn的期望為 p,與n無關(guān),且其方差在n→∞時(shí)趨于0.由概率論知識知,方差為0的隨機(jī)變量恒等于它的數(shù)學(xué)期望.因此,在n→∞時(shí)頻率μnn應(yīng)以概率p為極限[3]。從而,“頻率以概率為其穩(wěn)定值”的嚴(yán)格數(shù)學(xué)刻畫可由下面的定理1表示。

      定理1設(shè)μn為n重貝努力實(shí)驗(yàn)中成功的次數(shù),則當(dāng)與f(x)?d x=1 。 記 ξ(k=1,2,…,n)落 入 區(qū) 間k[xi-1,?xi)的頻數(shù)為 μi,頻率為 μin。從而,由定理1可知,隨機(jī)點(diǎn)ξk落入?yún)^(qū)間[xi-1,?xi)的概率 pi(即圖1中曲邊梯形ABCE的面積)可表示為。由積

      設(shè)獨(dú)立同分布隨機(jī)變量ξk(k=1,2,…,n)的概率密度函數(shù)為 f(x),其示意圖見圖1。顯然,f(x)滿足:f(x)>0分計(jì)算的微元法,也即在區(qū)間[xi-1,?xi)的寬度很小時(shí),圖1中曲邊梯形ABCE的面積可以用矩形ABCD的面積近似表示。從而,由定積分計(jì)算的右矩形公式可知,概率密度函數(shù) f(x)在 xi點(diǎn)處的函數(shù)值可近似表示為

      圖1 概率密度函數(shù) f(x)曲線

      1.2 計(jì)算步驟

      設(shè){yk},k=1,2,…,m為來自某一實(shí)際問題或理論問題的容量為m的樣本數(shù)據(jù)序列,其概率密度的估計(jì)可按照以下步驟進(jìn)行:

      ① 記 a=min{yk}-ε,b=max{yk}+ε,這里 ε為一很小的正數(shù)。

      ②記a=x0,b=xn,在 x0和 xn之間等距插入n-1個(gè)點(diǎn) xi,i=1,2,…,n-1,把區(qū)間[a,b]分割為n個(gè)長度相同的小區(qū)間[xi-1,?xi),i=1,2,…,n。

      ③統(tǒng)計(jì)樣本點(diǎn){yk},k=1,2,…,m落入?yún)^(qū)間[xi-1,?xi)內(nèi)的個(gè)數(shù),記為mi,i=1,2,…,n。從而,樣本點(diǎn)落入?yún)^(qū)間[xi-1,?xi)的概率可近似表示為Pi≈mi/m,i=1,2,…,n。

      ④ 計(jì)算 fi=Pi?Δxi,這里 Δxi=xi-xi-1。

      ⑤在平面直角坐標(biāo)系中,以[xi-1,?xi)為底,以 fi為高(i=1,2,…,n),即可做出樣本數(shù)據(jù)序列{yk},k=1,2,…,m的概率分布直方圖.把坐標(biāo)平面上的點(diǎn)(xi,?fi),i=1,2,…,n依次用光滑的曲線連接起來就得到樣本數(shù)據(jù)序列{yk},k=1,2,…,m的概率密度曲線。

      1.3 程序設(shè)計(jì)

      樣本數(shù)據(jù)序列的概率密度曲線能夠直觀地顯示出樣本數(shù)據(jù)的概率分布特征。下文用MATLAB 7.0編寫程序計(jì)算樣本數(shù)據(jù)的概率分布并繪制出樣本數(shù)據(jù)的概率密度曲線。設(shè)y為保存樣本數(shù)據(jù)序列的一維數(shù)組,n為設(shè)定的需要分割的小區(qū)間的個(gè)數(shù)。用MATLAB 7.0編寫繪制樣本數(shù)據(jù)序列概率分布直方圖與概率密度曲線的函數(shù)文件midu.m的代碼(略)。

      2 算例

      樣本數(shù)據(jù)序列有的來自工作與生活中的數(shù)據(jù)記錄,如學(xué)生的考試成績,也有的來自科學(xué)實(shí)驗(yàn)與理論研究。下文以學(xué)生成績的概率分布和Logistic映射軌道點(diǎn)的概率分布為例,用2.3節(jié)的程序midu.m繪制其概率密度直方圖和概率密度曲線。

      例1.某班98個(gè)學(xué)生參加期末《統(tǒng)計(jì)學(xué)》考試的成績見表1。把2.2節(jié)的midu.m文件拷貝到MATLAB的工作目錄下,然后,在MATLAB命令提示符后依次輸入命令:

      繪制的學(xué)生成績的概率分布直方圖和概率密度曲線見圖2,計(jì)算得到的學(xué)生的平均成績?yōu)?2.11,標(biāo)準(zhǔn)差為8.38.在圖2中,學(xué)生成績被分為5組進(jìn)行統(tǒng)計(jì)。若把學(xué)生的成績分為6組進(jìn)行統(tǒng)計(jì),只須把上述命令中的midu(y,5)改為midu(y,6)即可,此時(shí),繪制的學(xué)生成績的概率分布直方圖和概率密度曲線見圖3。比較圖2和圖3可以看出,對于同一組學(xué)生成績數(shù)據(jù),當(dāng)分組數(shù)n不同時(shí),繪制的概率密度曲線的形狀也有差異。由圖2與圖3中繪制的學(xué)生成績分布的概率密度曲線可以看出,該班學(xué)生的《統(tǒng)計(jì)學(xué)》考試成績分布接近于正態(tài)分布。

      表1 98個(gè)學(xué)生的《統(tǒng)計(jì)學(xué)》成績表

      圖2 學(xué)生成績概率分布直方圖與概率密度曲線(n=5)

      圖3 學(xué)生成績概率分布直方圖與概率密度曲線(n=6)

      例2在生態(tài)學(xué)中,描述昆蟲數(shù)目演化規(guī)律的Logistic模型可標(biāo)準(zhǔn)化為[4]:

      這里g(y)為區(qū)間[-1,?1]上的滿映射。為研究映射(1)軌道點(diǎn)的概率分布,任取初值 y1=0.1,把映射(1)迭代10000次,取 n=200,映射(1)軌道點(diǎn) {yk},k=1,2,…,10000的概率分布直方圖和概率密度曲線可用附錄中的程序Logistic.m繪制,結(jié)果見圖4。由文[4]知,Logistic映射(1)的軌道點(diǎn)的理論分布概率密度函數(shù)為:

      其圖像見圖5。比較圖5與圖4可知,圖4中由軌道點(diǎn)樣本數(shù)據(jù)繪制的概率密度曲線不太光滑,但圖4中由樣本數(shù)據(jù)繪制出的概率密度曲線的形狀與圖5中的理論概率密度曲線形狀基本吻合。

      圖4 Logistic映射軌道點(diǎn)分布直方圖與概率密度曲線

      圖5 Logistic映射軌道點(diǎn)分布的理論概率密度曲線

      3 結(jié)論與討論

      本文基于概率論大數(shù)定理與微積分微元法,研究了樣本數(shù)據(jù)序列概率分布直方圖和概率密度曲線的繪制方法,并給出了相應(yīng)的MATLAB程序代碼。以98個(gè)學(xué)生成績的概率分布的計(jì)算與Logistic映射軌道演化點(diǎn)分布概率密度的計(jì)算為例,用文中給出的MATLAB程序代碼進(jìn)行了仿真實(shí)驗(yàn).由Logistic映射10000個(gè)軌道演化點(diǎn)計(jì)算出的概率密度曲線與Logistic映射的理論概率密度曲線基本吻合.這證實(shí)了本文給出的由本數(shù)據(jù)繪制概率分布直方圖和概率密度曲線的算法和程序的正確性.不足之處是,本文由樣本數(shù)據(jù)序列數(shù)據(jù)繪制出的概率密度曲線不是很光滑,進(jìn)一步解決的辦法是:一方面可以通過增大樣本數(shù)據(jù)的數(shù)量并適當(dāng)增大分割小區(qū)間的個(gè)數(shù)提高繪制的概率密度曲線光滑度。另一方面,可以引入插值算法進(jìn)一步提高繪制的概率密度曲線的光滑度。本文給出的由樣本數(shù)據(jù)序列繪制其概率分布直方圖和概率密度曲線的程序簡單實(shí)用,在樣本數(shù)據(jù)量較大時(shí)能逼近其真實(shí)概率分布。由于許多實(shí)際工作與研究中的問題的復(fù)雜性,樣本數(shù)據(jù)序列的理論概率分布有時(shí)很復(fù)雜,或者說根本無法獲知,或者獲知的成本太大,那么,用本文的方法與程序通過采樣數(shù)據(jù)估計(jì)出其近似的概率分布就成為一種很好的研究手段。

      [1]張智廣.一種利用統(tǒng)計(jì)直方圖擬合密度曲線的方法[J].內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版),2008,37(5).

      [2]袁衛(wèi),龐皓,曾五一,賈俊平.統(tǒng)計(jì)學(xué)[M].北京:高等教育出版社,2009.

      [3]楊振明.概率論[M].北京:科學(xué)出版社,1999.

      [4]郝柏林.從拋物線談起:混沌動(dòng)力學(xué)引論[M].上海:上??萍冀逃霭嫔?1993.

      猜你喜歡
      概率密度概率分布直方圖
      統(tǒng)計(jì)頻率分布直方圖的備考全攻略
      符合差分隱私的流數(shù)據(jù)統(tǒng)計(jì)直方圖發(fā)布
      離散型概率分布的ORB圖像特征點(diǎn)誤匹配剔除算法
      連續(xù)型隨機(jī)變量函數(shù)的概率密度公式
      用直方圖控制畫面影調(diào)
      關(guān)于概率分布函數(shù)定義的辨析
      科技視界(2016年19期)2017-05-18 10:18:46
      基于概率分布的PPP項(xiàng)目風(fēng)險(xiǎn)承擔(dān)支出測算
      Hunt過程在Girsanov變換下的轉(zhuǎn)移概率密度的表示公式
      基于直方圖平移和互補(bǔ)嵌入的可逆水印方案
      隨機(jī)變量線性組合的分布的一個(gè)算法
      衡阳市| 渭南市| 阿图什市| 柳林县| 蕉岭县| 南漳县| 长乐市| 黔南| 北辰区| 贺州市| 大姚县| 辽源市| 若羌县| 阿勒泰市| 岑巩县| 海口市| 延津县| 垣曲县| 杂多县| 陕西省| 杭锦后旗| 察雅县| 密山市| 灯塔市| 永兴县| 区。| 祁东县| 泰州市| 澜沧| 格尔木市| 高淳县| 广宗县| 金平| 清涧县| 资兴市| 杭锦旗| 临清市| 长宁区| 蓝山县| 高安市| 马边|