賈振聲
(重慶三峽學(xué)院經(jīng)管學(xué)院,重慶萬(wàn)州404000)
關(guān)于正態(tài)分布,偏態(tài)分布的等距分組
賈振聲
(重慶三峽學(xué)院經(jīng)管學(xué)院,重慶萬(wàn)州404000)
一組數(shù)據(jù)進(jìn)行等距分組,到底分多少組?為此我們對(duì)正態(tài)分布進(jìn)行研究,通過公式得出了計(jì)算分組的算法.
均值 方差 擬合函數(shù) 全距 四分之一距
各種統(tǒng)計(jì)方面的書,在討論等距分組的時(shí)候,對(duì)經(jīng)驗(yàn)公式或者只把它當(dāng)作參考,或者干脆不用.原因是經(jīng)驗(yàn)公式,組距只與數(shù)據(jù)個(gè)數(shù)有關(guān),而與數(shù)據(jù)擬合的函數(shù)形狀無(wú)關(guān).
對(duì)服從正態(tài)分布的數(shù)列,我們進(jìn)行了研究,得出求組距的方法,這個(gè)方法簡(jiǎn)單適用.其次,推出的公式對(duì)偏態(tài)分布也適用.
(1)觀測(cè)量x1,x2,…,xN;找出其最小值x*1和最大值
R為全距.一般的l≥2,即分組,分5個(gè)組或5個(gè)組以上.d-c記為
我們把R*叫做閉全距.
分布數(shù)列呈鐘形分布,表現(xiàn)對(duì)稱分布.設(shè)對(duì)稱軸x=μ,它擬合的密度函數(shù)為
根據(jù)樣本值的情況,將其分為2i+1組,各組的范圍為
并記mi為區(qū)間
內(nèi)的樣本數(shù),i=0,1,…,l
作表
此表稱為樣本分組頻數(shù)分布表.顯然
得到的直方圖見圖1.
圖1 直方圖
且有
取對(duì)數(shù):
得
由此等式
這里a取極大值,應(yīng)滿足的條件:
a取一般值可寫為:
(1)兩邊同乘以2得:
又
進(jìn)而有
即
當(dāng)然有
定理1一組數(shù)據(jù)呈正態(tài)分布,它擬合得密度為單調(diào)遞減的函數(shù).l固定,S有極大值,而沒有極小值對(duì)a求偏導(dǎo):
已知閉全距為R*,等距分類,組距極大值滿足(1).
由直方圖,共2l+1個(gè);Si(0,1,…,2l)中,所有數(shù)據(jù)分布在內(nèi),99.7%分布在(μ-3σ,μ+3σ)內(nèi).所以有
因?yàn)閘≥2,故
進(jìn)一步
又因?yàn)椋?),又有
當(dāng)l≥3時(shí),有
當(dāng)l≥4時(shí),有
定義3N個(gè)數(shù)據(jù)分布R*上表示每個(gè)數(shù)據(jù)所占平均距離.
E.貝肯巴赫所著《不等式入門》,有些不等式我們常用,故作為一個(gè)引理.
引理2N個(gè)數(shù)據(jù)依正態(tài)分布,R*是閉全距,每個(gè)數(shù)據(jù)所占的平均距離為.則有i,使得
定理1一列正態(tài)分布的數(shù)列,則至少有2個(gè)相似區(qū)間.
證明依引理2,有
定理2正態(tài)分布的樹立在中存在一個(gè)相似區(qū)間,這里a表示組距.
所以M內(nèi)有一個(gè)相似區(qū)間.由于對(duì)稱性還有一個(gè)相似區(qū)間.
1)把資料從小到大排列.并計(jì)算資料組的平均數(shù)μ,方差σ.
2)求出閉的全距R*并計(jì)算
3)s1…sn個(gè)數(shù)分別為.不妨設(shè)滿足
5)一份資料分組的時(shí)候,應(yīng)注意組與組的銜接.銜接好了,體現(xiàn)整體的趨勢(shì).設(shè)數(shù)據(jù)鏈為:b0≤b1≤…≤bn≤bn+1…其中一組包括了b1,b2,bn,如何截取才能使這一段嵌入數(shù)據(jù)鏈中去呢?我們規(guī)定:這一組應(yīng)包括在(a,c)內(nèi),其中:
6)若遇到偏態(tài)分布,也用上面的方法處理,也不過作兩次,可參看下列例子.
對(duì)城市居民的家庭生活情況抽樣調(diào)查,得到54戶家庭人均月收入的資料.
1) 已排列的54戶家庭人均月收入資料
本組資料最小值為810,最大值為2380.本組資料均值
c=800,d=2400,閉全距為
2)因?yàn)樗皇峭耆珜?duì)稱,分成兩個(gè)步驟.從800到1497.2共有27個(gè)數(shù)據(jù),27個(gè)數(shù)據(jù)之間的平均距離
這13個(gè)點(diǎn)每個(gè)點(diǎn)所占平均距離,應(yīng)考慮區(qū)間為
說明選相似區(qū)間時(shí),向右傾斜.所以在下面的討論中刪去990.
等價(jià)于:
進(jìn)一步我們可以確定:1148.6右邊的點(diǎn)至多是2個(gè)點(diǎn).即1160,1200
若不然,右邊有3個(gè)點(diǎn),那么左邊的點(diǎn)必須有3×2.45=7.35個(gè)點(diǎn)才能平衡,而這是不能的.
因?yàn)樽筮叺狞c(diǎn)共有6個(gè)點(diǎn):1050,1070,1080, 1100,1120,1120
不難發(fā)現(xiàn)在(1020,1220)內(nèi)共有8個(gè)數(shù)據(jù),它們是:1050,1070,1080,1100,1120,1120,1160 1200.
故(1020,1220)為相似區(qū)間.S=8,a可選200.
5)令y=x-μ從1497.2到2400,共有27個(gè)數(shù)據(jù),27個(gè)數(shù)據(jù)之間平均距離:
半全距
而這個(gè)點(diǎn)在資料數(shù)據(jù)中沒有,所以叫做虛坐標(biāo),它位于1940與1970之間.
不難看出在1800~2000之間共有六個(gè)數(shù)據(jù),1840,1860,1870,1880,1940,1970,
它與F2=33.4相似(F′2≈F2).
故1800~2000之間的六個(gè)數(shù)據(jù)組成相似區(qū)間.S=6.相似區(qū)間應(yīng)選(1805~2015),可結(jié)合取整的方式進(jìn)行可選(1800~2000).此種方法已被多數(shù)人認(rèn)可.
7)設(shè)a′為組距,那么6×33.4=200.4,為a′的估值.而a′的上界為
a′取值為200.
總之:由上面的結(jié)論.取200.通過進(jìn)一步整理,得到分布數(shù)列:
表1 某市居民家庭人均月生活費(fèi)收入次數(shù)分布表
[1]E.貝肯巴赫,R.貝爾曼.不等式入門[M].北京:北京大學(xué)出版社,1985:23.
[2]謝啟南,韓兆洲.統(tǒng)計(jì)學(xué)原理[M].6版.廣州:暨南大學(xué)出版社,1991:53-64.
[3]吳傳生.概率論與數(shù)理統(tǒng)計(jì)[M].北京:高等教育出版社,2004:128-144.
Abstract:Because of thinking only the number of data but not fitting function,we would be adequate to take a farther afield when calculating group data with empirical formula.We have proved the three theorems based on studying the normal distribution,and then reach the conclusion there is a better method to do the same work.The method is simpler and more practical than empirical method and also work well with any skewed distribution.
key words:mean value;variance;fitting fuction;vange;quarter range
〔編輯 高?!?/p>
The Isometric Group about Normal and the Skewed Distribution
JIA Zhen-sheng
(School of Economical Trade,Chongqing Three Gorges University,Chongqing,404000)
O213
A
1674-0874(2010)05-0005-05
2010-01-25
賈振聲(1952-),男,河北徐水人,教授,碩士生導(dǎo)師,研究方向:數(shù)理統(tǒng)計(jì).