99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

?

基于數(shù)據(jù)統(tǒng)計(jì)診斷的截面數(shù)據(jù)診斷方法

2012-07-25 08:35:52杜聰慧崔永偉李子奈

統(tǒng)計(jì)與決策 2012年10期

關(guān)鍵詞：比法極差總體

杜聰慧，崔永偉，李子奈

0 引言

由于計(jì)量經(jīng)濟(jì)學(xué)是利用樣本建立、估計(jì)、檢驗(yàn)?zāi)Ｐ偷?，樣本?shù)據(jù)質(zhì)量好壞是決定模型質(zhì)量的關(guān)鍵因素，所以，拿到數(shù)據(jù)后，首先要檢查數(shù)據(jù)質(zhì)量。針對(duì)時(shí)間序列數(shù)據(jù)的診斷很多學(xué)者對(duì)此已做了研究，并找到了好的方法進(jìn)行鑒別，而對(duì)截面數(shù)據(jù)的診斷研究甚少，因?yàn)橐慌l(fā)生在同一時(shí)間截面上的截面數(shù)據(jù)大多是通過(guò)調(diào)查而得到的，能夠得到數(shù)據(jù)已經(jīng)不易，很少有人對(duì)數(shù)據(jù)的質(zhì)量進(jìn)行診斷。而在利用截面數(shù)據(jù)進(jìn)行計(jì)量分析中，只有當(dāng)數(shù)據(jù)是在截面總體中由隨機(jī)抽樣得到的樣本觀測(cè)值，并且被解釋變量具有連續(xù)的隨機(jī)分布時(shí)，才能夠?qū)⒛Ｐ皖愋驮O(shè)定為經(jīng)典的計(jì)量經(jīng)濟(jì)學(xué)模型，由此可見(jiàn)，經(jīng)典計(jì)量經(jīng)濟(jì)學(xué)模型對(duì)截面數(shù)據(jù)存在著很強(qiáng)的依賴性。根據(jù)近代回歸分析中的數(shù)據(jù)診斷理論，探索對(duì)統(tǒng)計(jì)推斷（如參數(shù)估計(jì)、預(yù)測(cè)）有較大影響的觀測(cè)數(shù)據(jù)稱為是數(shù)據(jù)統(tǒng)計(jì)診斷[1]?；诖?，本文擬從數(shù)據(jù)統(tǒng)計(jì)診斷角度嘗試探討診斷截面數(shù)據(jù)的方法，以期將混擬在其中的異常數(shù)據(jù)尋找出來(lái)，從而增加計(jì)量經(jīng)濟(jì)分析結(jié)果的可靠性。

1 反常結(jié)果判別法

反常結(jié)果是數(shù)理統(tǒng)計(jì)學(xué)中的概念。它是指某一變量的觀測(cè)數(shù)據(jù)中有時(shí)出現(xiàn)個(gè)別相對(duì)特別大或特別小的數(shù)據(jù)，這些數(shù)據(jù)稱為反常結(jié)果。一個(gè)反常結(jié)果可能只是數(shù)據(jù)中內(nèi)在的隨機(jī)變異性的一個(gè)極端表現(xiàn)，也可能是因?yàn)橛^測(cè)錯(cuò)誤、記錄錯(cuò)誤等非隨機(jī)因素造成的。如果是前一種情況，它就必須保留下來(lái)與其它數(shù)據(jù)接受同樣的處理；如果是后一種情況，在分析問(wèn)題時(shí)就必須舍棄這些數(shù)據(jù)。保留或舍棄一個(gè)反常數(shù)據(jù)都需要經(jīng)過(guò)檢驗(yàn)來(lái)決定。其檢驗(yàn)方法稱為反常結(jié)果判斷法。

反常結(jié)果判斷法包括方差比法、極值偏差法和極差比法(即Dixon準(zhǔn)則)等三種基本方法。通常的數(shù)據(jù)統(tǒng)計(jì)整理方法往往都對(duì)樣本數(shù)據(jù)有一個(gè)前提假設(shè)，即樣本數(shù)據(jù)來(lái)自同一個(gè)總體。這里假設(shè)總體分布為正態(tài)分布N(μ,σ2)，樣本容量大小為n，先將數(shù)據(jù)按從小到大的次序排序，記成

1.1 方差比法[2]

1.2 極值偏差法[2]

首先構(gòu)造統(tǒng)計(jì)量

其中En（或E1）是n個(gè)數(shù)據(jù)結(jié)果中，剔除可疑數(shù)據(jù)x(n)（或x(1)）后所得的總體中間誤差E的估計(jì)，即

對(duì)于n個(gè)數(shù)據(jù)結(jié)果，給定顯著水平α，由Q分布臨界表中查出Qα，若Q＞Qα，則可認(rèn)為 x(n)（或 x(1)）為異常值。

1.3 極差比法[3]

（1）半極差型

如果x(n)（或x(1)）是異常數(shù)據(jù)，則它們應(yīng)遠(yuǎn)離其均值，于是利用統(tǒng)計(jì)量或，其中，這兩種情形下的統(tǒng)計(jì)量均為單側(cè)檢驗(yàn)統(tǒng)計(jì)量，若不知異常數(shù)據(jù)在上側(cè)還是在下側(cè)，則需進(jìn)行雙側(cè)檢驗(yàn)，其統(tǒng)計(jì)量為

（2）極差型

如果樣本數(shù)據(jù)存在異常數(shù)據(jù)，則極差x(n)-x(1)比起σ或S來(lái)，會(huì)過(guò)分的偏大，于是可用統(tǒng)計(jì)量來(lái)檢驗(yàn)數(shù)據(jù)中是否存在異常數(shù)據(jù)。但這種方法的缺點(diǎn)在于當(dāng)判斷出樣本中存在異常數(shù)據(jù)時(shí)，卻沒(méi)能判別出x(1)和x(n)中到底是哪一個(gè)為異常數(shù)據(jù)。

（3）鄰差型（狄克遜準(zhǔn)則）

在樣本中，若x(n)是異常數(shù)據(jù)，那么以其標(biāo)準(zhǔn)差σ（當(dāng)σ未知時(shí)以σ的估計(jì)S）為刻度，它應(yīng)離鄰近的數(shù)據(jù)x(n-1)較

由于當(dāng)樣本數(shù)n較大時(shí)，極差x(n)-x(1)中包含的σ的信息較少，使得檢驗(yàn)功效降低，于是可用擬極差x(n)-x(2)，x(n)-x(3)來(lái)代替。一般認(rèn)為當(dāng)3≤n≤7時(shí)，以，當(dāng) σ未為佳；當(dāng)8≤n≤10時(shí)，以為佳；當(dāng)11≤n≤13時(shí)，以為佳；當(dāng)14≤n≤30時(shí)，以為佳。

具體檢驗(yàn)時(shí)，當(dāng)Tn大于某個(gè)常數(shù)C2n時(shí)，就判斷x(n)是異常數(shù)據(jù)，其中C2n滿足P{Tn＞C2n}=α，當(dāng)概率值小于給定的α?xí)r，就認(rèn)為x(n)是異常數(shù)據(jù)；否則認(rèn)為不是。

在實(shí)際應(yīng)用中，半極差模型和鄰差模型檢驗(yàn)法用的較多，鄰差模型檢驗(yàn)法是一種較好的方法。

2 利用跳躍度來(lái)檢驗(yàn)異常值

先引入跳躍度的概念。設(shè)X(1),X(2),…,X(n)為來(lái)自總體分布F(X;θ)的樣本容量為n的次序統(tǒng)計(jì)量，為僅依賴于X(1),X(2),…,X(k)的期望μ的點(diǎn)估計(jì)，則稱為在點(diǎn)k的跳躍度（簡(jiǎn)稱k點(diǎn)的跳躍度）[4]。

任何一組n個(gè)數(shù)據(jù)都可以看作是來(lái)自某一總體樣本容量為n的樣本觀察值，將它們進(jìn)行由小到大的排序后異常值必居于數(shù)據(jù)所組成的數(shù)列兩端。且異常值的存在必使期望的點(diǎn)估計(jì)產(chǎn)生跳躍，因而期望點(diǎn)估計(jì)的最大跳躍點(diǎn)(跳躍度最大的點(diǎn))最有可能是異常數(shù)據(jù)的起始點(diǎn)。具體做法如下：

（1）將各數(shù)據(jù)按由小到大的次序進(jìn)行排列，并計(jì)算出各點(diǎn)的跳躍度；

（2）找出兩端跳躍度的最大值點(diǎn)；

（3）進(jìn)行比較分析，若跳躍度的最大值與相鄰跳躍度確有明顯差異，那以左側(cè)對(duì)應(yīng)的統(tǒng)計(jì)數(shù)據(jù)為最大的異常小值，右側(cè)對(duì)應(yīng)的統(tǒng)計(jì)數(shù)據(jù)為最小的異常大值。這樣，就可較方便地把混雜在數(shù)據(jù)中的異常值剔去。

利用跳躍度來(lái)檢驗(yàn)出異常值后，即可利用剩余下的正常數(shù)據(jù)由經(jīng)典統(tǒng)計(jì)的方法進(jìn)行統(tǒng)計(jì)分析，但值得注意的是，在理論上被剔除的異常值是相對(duì)于一定的精度而言的，畢竟這些異常數(shù)據(jù)和其它數(shù)據(jù)一樣也來(lái)自于同一總體，因此或多或少的會(huì)帶來(lái)一些總體的信息。為提高統(tǒng)計(jì)分析的可靠性，如果有先驗(yàn)信息可用的話，在進(jìn)行統(tǒng)計(jì)分析時(shí)用貝葉斯方法效果會(huì)更好些。

3 預(yù)測(cè)區(qū)間判斷法與羅曼諾夫斯基準(zhǔn)則

3.1 預(yù)測(cè)區(qū)間判斷法[5]

對(duì)同一變量對(duì)不同的對(duì)象進(jìn)行測(cè)量，測(cè)量數(shù)據(jù)一般符合正態(tài)分布，設(shè)x1,x2,…,xn是來(lái)自X的一個(gè)樣本值，并且它們獨(dú)立同分布，且X～N(μ,σ2)，根據(jù)期望與方差的點(diǎn)估計(jì)理論，構(gòu)造統(tǒng)計(jì)量，對(duì)于給定的α，查t分布表，的的值，得 μ的置信度是1-α的置信區(qū)間，而μ落在該區(qū)間之外的概率很小，屬于小概率事件，在正常的測(cè)量過(guò)程中不會(huì)發(fā)生。因此取為臨界值，若 xi(i=1,2,…n)滿足，則xi可判斷為是異常數(shù)據(jù)。

3.2 羅曼諾夫斯基準(zhǔn)則

一般處理數(shù)據(jù)前，認(rèn)為數(shù)據(jù)服從正態(tài)分布，但是數(shù)理統(tǒng)計(jì)學(xué)可以證明，在測(cè)量次數(shù)較少的情況下，t分布更符合實(shí)際分布，在吳天鵬（1995）提出了一個(gè)新的準(zhǔn)則，該準(zhǔn)則就是以t分布為依據(jù)建立的，在一定測(cè)量次數(shù)n下，設(shè)獨(dú)立測(cè)得的一組x1,x2,…,xn，若對(duì)某一數(shù)據(jù)xk有懷疑，可按照以下步驟判別[11]：

（1）先將懷疑數(shù)據(jù)xk去掉，計(jì)算出不包含xk的數(shù)據(jù)的算術(shù)平均值

（2）計(jì)算出不包含xk的殘差在內(nèi)的標(biāo)準(zhǔn)差

（3）根據(jù)選定的顯著性水平α和數(shù)據(jù)的個(gè)數(shù)n，在t分布表中查出檢驗(yàn)系數(shù) K(α,n)，δ=K(α,n)s′；

文獻(xiàn)[11]將預(yù)測(cè)區(qū)間判斷法與羅曼諾夫斯基準(zhǔn)則剔除異常數(shù)據(jù)做了比較，發(fā)現(xiàn)預(yù)測(cè)區(qū)間判別法診斷出的異常數(shù)據(jù)多于羅曼諾夫斯基準(zhǔn)則。羅曼諾夫斯基準(zhǔn)則是比較成熟的判斷準(zhǔn)則，它建立的基礎(chǔ)符合數(shù)理統(tǒng)計(jì)理論的有關(guān)的結(jié)論，剔除異常數(shù)據(jù)時(shí)比較謹(jǐn)慎，在測(cè)量次數(shù)較少（n≤10）時(shí)，使用此準(zhǔn)則比較可靠。

4 結(jié)束語(yǔ)

基于數(shù)據(jù)統(tǒng)計(jì)的診斷方法是對(duì)給定的數(shù)據(jù)集合假設(shè)一個(gè)分布或概率模型（例如一個(gè)正態(tài)分布），然后根據(jù)模型采用不一致檢驗(yàn)來(lái)確定異常。而在大多數(shù)情況下，數(shù)據(jù)集合參數(shù)分布可能是未知的，所以，當(dāng)沒(méi)有特定的檢驗(yàn)時(shí)，基于統(tǒng)計(jì)的這些檢驗(yàn)方法不能確保發(fā)現(xiàn)所有的異常，或者觀測(cè)到的分布不能恰當(dāng)?shù)乇蝗魏螛?biāo)準(zhǔn)的分布來(lái)模擬。

在診斷出異常點(diǎn)以后，不要簡(jiǎn)單地將異常數(shù)據(jù)刪除，因?yàn)檫@樣做可能將異常點(diǎn)攜帶的一些有用的信息丟失，如在經(jīng)濟(jì)領(lǐng)域，異常值的出現(xiàn)可能是某種預(yù)警信息的表現(xiàn)等，所以應(yīng)該對(duì)不同情況的異常點(diǎn)給予不同處理。如果證實(shí)是數(shù)據(jù)錄入錯(cuò)誤，可以刪除。保留或舍棄刪除一個(gè)異常數(shù)據(jù)都需要經(jīng)過(guò)檢驗(yàn)來(lái)決定。

[1] 石磊.多水平模型及其統(tǒng)計(jì)診斷[M].北京：科學(xué)出版社，2008.

[2] 趙崮巍.異常數(shù)據(jù)的判定方法及結(jié)果處理[J].現(xiàn)代商檢科技，1993，（3）.

[3] 杭愛(ài)明.如何處理統(tǒng)計(jì)數(shù)據(jù)中的異常值問(wèn)題[J].上海統(tǒng)計(jì)，1994.

[4] 張德然.統(tǒng)計(jì)數(shù)據(jù)中異常值的檢驗(yàn)方法[J].統(tǒng)計(jì)研究，2003,(5).

[5] 邵婷婷等.兩種剔除異常數(shù)據(jù)的方法比較[J].現(xiàn)代電子技術(shù)，2008,(24).

猜你喜歡

比法極差總體

化虛為實(shí) 觸摸物理——物理方法之類比法

中學(xué)生數(shù)理化·八年級(jí)物理人教版(2022年9期)2022-10-24 07:03:42

加權(quán)譜比法Q值估計(jì)

石油地球物理勘探(2022年3期)2022-06-11 01:24:18

物理方法之類比法

中學(xué)生數(shù)理化·八年級(jí)物理人教版(2021年9期)2021-11-20 06:00:28

用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥

中學(xué)生數(shù)理化·高一版(2021年2期)2021-03-19 08:32:00

2020年秋糧收購(gòu)總體進(jìn)度快于上年

今日農(nóng)業(yè)(2020年23期)2020-12-15 03:48:26

最好的比較

文萃報(bào)·周二版(2020年17期)2020-05-09 13:45:20

外匯市場(chǎng)運(yùn)行有望延續(xù)總體平穩(wěn)發(fā)展趨勢(shì)

中國(guó)外匯(2019年6期)2019-07-13 05:44:06

二次函數(shù)極差的規(guī)律與應(yīng)用

中學(xué)數(shù)學(xué)研究(江西)(2019年5期)2019-06-11 12:47:28

直擊高考中的用樣本估計(jì)總體

中學(xué)生數(shù)理化·高一版(2017年2期)2017-04-25 13:22:36

在分位數(shù)回歸中結(jié)構(gòu)突變的經(jīng)驗(yàn)極差檢驗(yàn)

衡陽(yáng)師范學(xué)院學(xué)報(bào)(2016年3期)2016-07-10 07:16:27

統(tǒng)計(jì)與決策2012年10期

統(tǒng)計(jì)與決策的其它文章: 單調(diào)遞減序列的離散變換及其灰色建模; 基于生命周期理論的鄉(xiāng)村特色旅游度假區(qū)低碳發(fā)展研究; 對(duì)高新技術(shù)企業(yè)員工工作績(jī)效、工作滿意與工作倦怠的實(shí)證研究; 價(jià)值鏈視角的集群企業(yè)共生密度增容; 博弈論視角的供應(yīng)鏈信息共享機(jī)制分析; 我國(guó)商業(yè)銀行貸款定價(jià)影響因素的實(shí)證檢驗(yàn)

繁峙县| 周口市| 乡宁县| 杂多县| 五常市| 宁武县| 乌拉特后旗| 安西县| 五常市| 平湖市| 新田县| 容城县| 宿州市| 宁乡县| 怀来县| 舟山市| 贵溪市| 长汀县| 阳山县| 灵寿县| 柏乡县| 彭水| 永川市| 微博| 昌吉市| 泾源县| 万年县| 永丰县| 贵阳市| 普安县| 内黄县| 金秀| 海安县| 天津市| 犍为县| 闸北区| 江孜县| 闵行区| 上杭县| 台湾省| 泗水县|

<sup id="e0eee"></sup>

<noscript id="e0eee"><dd id="e0eee"></dd></noscript>