(廣東財(cái)經(jīng)大學(xué) 廣東 廣州 510320)
以往的所有課程中,對(duì)于參數(shù)統(tǒng)計(jì)我們有著詳細(xì)的方法去估計(jì),參數(shù)估計(jì),假設(shè)檢驗(yàn),大樣本正態(tài)分布,計(jì)算它的一系列樣本參數(shù)來推斷信息。例如,我們首先假設(shè)收入是服從正態(tài)分布的,于是我們就去計(jì)算樣本的期望、方差、峰度等來以此此來刻畫這一數(shù)據(jù),再通過這些收集到的數(shù)據(jù)去做推斷。但是現(xiàn)實(shí)中的統(tǒng)計(jì)工作我們是不知道怎么分布情況的,不是t檢驗(yàn),方差分析也做不了,線性回歸也不行,時(shí)間序列分析等等都不行,簡(jiǎn)單來說,我們對(duì)于分布一無所知,甚至數(shù)據(jù)是殘缺的,不完整的,這時(shí)候我們就只能用非參數(shù)統(tǒng)計(jì)方法去處理這些處理不了的問題。常用的非參數(shù)統(tǒng)計(jì)方法有:符號(hào)檢驗(yàn),Wilcoxon秩和檢驗(yàn)。
(一)符號(hào)檢驗(yàn)
符號(hào)檢驗(yàn)是最基本的非參數(shù)統(tǒng)計(jì)方法,獲取到樣本X1,…Xn之后,不知道這是不是正態(tài)分布,因而就用不了t檢驗(yàn)。在非參數(shù)檢驗(yàn)里,用符號(hào)檢驗(yàn)要熟知分位點(diǎn)以及廣義的分位點(diǎn)性質(zhì)意義。簡(jiǎn)單的二項(xiàng)分布,與分位點(diǎn)結(jié)合就形成了符號(hào)檢驗(yàn)。對(duì)于符號(hào)二字的理解呢,則是這樣定義的:
檢驗(yàn)原假設(shè)是H0:Qπ=q0(Qπ是針對(duì)連續(xù)變量的π分位點(diǎn))
備擇假設(shè)則可以是大于也可以是小于,或者是不等,隨統(tǒng)計(jì)問題的具體而定。
假設(shè)都已經(jīng)做好的,樣本收集過來,記大于樣本的點(diǎn)數(shù)為N+,小于的則記為N-,用小寫的n+和n-代表對(duì)應(yīng)的實(shí)現(xiàn)值。n=n++ n-。如果此時(shí)零假設(shè)是成立的,則應(yīng)該有n-與n之比約為π,或者說n-是大約nπ。于是這樣就得到了,在零假設(shè)成立的情況下,N-是服從二項(xiàng)分布Bin(n,π)的(要么是大于,要么是小于,于是是二項(xiàng)分布)。這里的符號(hào)意思N+就是樣本中所有減去q0之后的,這個(gè)差值還是為正的個(gè)數(shù),同理,負(fù)號(hào)就是差值為負(fù)值的個(gè)數(shù)。更加深入一點(diǎn)可以構(gòu)建卡方統(tǒng)計(jì)量:(|n_+-n_- |-1)2/(n++n-) 。這就是符號(hào)檢驗(yàn),不需要知道分布,只需要計(jì)算所謂的“符號(hào)”即可了,是非參數(shù)統(tǒng)計(jì)中最基本的一個(gè)方法。
(二)Wilcoxon秩和檢驗(yàn)
用于多組數(shù)據(jù)的比較,對(duì)樣本數(shù)據(jù)進(jìn)行統(tǒng)一的編秩,求出備組秩和,再以各組秩和的平方與例子推算的比值求得的總和來計(jì)算z值,類似的,在符號(hào)檢驗(yàn)基礎(chǔ)上更加利用信息,減去要檢驗(yàn)的數(shù)值,得到差值,再對(duì)其取絕對(duì)值,再排序,求秩(相同的取一樣的秩),令W+為差值為正的秩和,W-為差值為負(fù)的秩和。再去計(jì)算p值或者查詢臨界值。比符號(hào)檢驗(yàn)更加高明的是利用到了差值多少的信息,符號(hào)檢驗(yàn)只區(qū)分了正負(fù),秩和檢驗(yàn)可以理解為對(duì)不同距離的差值賦予了不同的權(quán)數(shù)。
1.減少模型誤差是必然的,用到了更多樣本中的信息,傳統(tǒng)的參數(shù)發(fā)放就是基于分布的假定上,然而實(shí)際統(tǒng)計(jì)工作往往是滿足不了這些分布形式的,導(dǎo)致傳統(tǒng)模型與現(xiàn)實(shí)相背離產(chǎn)生模型上的偏差。而非參數(shù)估計(jì)的則是完全更多的,盡可能的去利用樣本數(shù)據(jù)的信息,不需要總體分布強(qiáng)加條件。可以去選擇與數(shù)據(jù)匹配的模型,而不是摁死了模型去讓數(shù)據(jù)削足適履,具有較好的穩(wěn)健性。
2.適用范圍廣。從數(shù)據(jù)的角度來看的話,可以處理定距、定比數(shù)據(jù),也可以處理定類、定序數(shù)據(jù)。而實(shí)際上呢,定類和定序則是大量存在社會(huì)科學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域的,應(yīng)用范圍更加廣。從模型角度來看,假定條件沒有那么苛刻,適用范圍更加廣闊。
3.簡(jiǎn)單易操作。秩在非參數(shù)統(tǒng)計(jì)來說是最關(guān)鍵的一個(gè)東西,我們?cè)诓恢罉颖痉植记闆r下,秩就是唯一我們能夠依靠從樣本里面提取出來的信息,從小到大排列,也非常易于理解。
十二大國(guó)家制定的控制人口目標(biāo)是本實(shí)際末人口總量不超過12個(gè)億,雖然已經(jīng)在很早的計(jì)劃生育國(guó)策下,人口還是增長(zhǎng),為此,我們需要做出預(yù)測(cè)趨勢(shì)是否會(huì)達(dá)到人口目標(biāo)。其《綱要》指出人口的自然增長(zhǎng)率控制在12.5%以內(nèi),可以用Wilcoxon秩和檢驗(yàn)。
注:數(shù)據(jù)來源國(guó)家統(tǒng)計(jì)局(人口資料).中國(guó)統(tǒng)計(jì)年鑒.
基于兩個(gè)假設(shè):1)總體分布連續(xù) 2)總體是對(duì)其中位數(shù)是對(duì)稱的
zi=|xi-q0|,自然的,q0是目標(biāo)值,對(duì)z做秩和檢驗(yàn)。在這里以正秩和檢驗(yàn)統(tǒng)計(jì)量。
H0:人口自然增長(zhǎng)率為12.5% H1:人口自然增長(zhǎng)率小于12.5%
檢驗(yàn)結(jié)果,這是1978年到1989年的
差值-0.5-0.89-0.632.051.99-0.96絕對(duì)值0.50.890.632.051.990.96符號(hào)秩-1-3-21211-4差值-1.69-1.271.581.891.71.83絕對(duì)值1.691.271.581.891.71.83符號(hào)秩-7-561089
正秩和為56,當(dāng)n12時(shí)候,取顯著性水平為0.005時(shí)候,查表得知道臨界值為17,故拒絕原假設(shè)。不認(rèn)為由足夠的證據(jù)證明可以控制人口自然增長(zhǎng)率可以控制在12.5%之內(nèi),人口目標(biāo)需要重新調(diào)整,人口政策需要重新規(guī)劃。
非參數(shù)統(tǒng)計(jì)方法與參數(shù)統(tǒng)計(jì)很大不同就是假定的基礎(chǔ)不一樣,或者說條件更加的寬松,參數(shù)化更加的書本化,非參數(shù)統(tǒng)計(jì)在實(shí)際統(tǒng)計(jì)工作往往用的比參數(shù)統(tǒng)計(jì)多太多了。但是兩者的核心思想是一樣的,做出檢驗(yàn)統(tǒng)計(jì)量去進(jìn)行檢驗(yàn)。這是至關(guān)重要的,兩者的長(zhǎng)短處不同,應(yīng)用范圍也是不同的。在解決不知道總體分布情況下,對(duì)總體信息知道的不是非常明確條件下,非參數(shù)統(tǒng)計(jì)無疑是好過參數(shù)統(tǒng)計(jì)的。