尚 華,馮 牧,張貝貝
(1. 首都經(jīng)濟貿(mào)易大學 統(tǒng)計學院 北京 100070; 2. 中國科學技術大學 管理學院,安徽 合肥 230000)
?
基于Bayesian方法的參數(shù)估計和異常值檢測
尚華1,馮牧2,張貝貝1
(1. 首都經(jīng)濟貿(mào)易大學 統(tǒng)計學院 北京 100070; 2. 中國科學技術大學 管理學院,安徽 合肥 230000)
摘要:異常值檢測是當前數(shù)據(jù)分析研究中的一個重要研究領域。模型中的異常值會直接影響建模、參數(shù)的估計、預測等問題。基于模型的異常值檢測,傳統(tǒng)的做法是先對模型參數(shù)進行估計,再進行異常值檢測。而異常值的存在會影響參數(shù)估計,從而導致下一步異常值檢測的不可靠;反之異常值檢測也會影響參數(shù)估計。針對這些不足之處,提出了基于Bayesian方法的參數(shù)估計和異常值檢測,此方法可以將參數(shù)估計和異常值檢測同時實現(xiàn),具體做法是在線性回歸模型中引入識別變量,基于Gibbs抽樣算法,給出識別變量后驗概率的計算方法,通過比較這些識別變量的后驗概率進行異常值定位,同時給出參數(shù)的估算方法。通過大量的模擬實驗,結果表明,與傳統(tǒng)方法相比,提出的方法對異常值更靈敏。
關鍵詞:線性回歸;識別變量;參數(shù)估計;異常值;Bayesian方法;Gibbs抽樣
0引言
對現(xiàn)代統(tǒng)計數(shù)據(jù)分析來說,異常值是一個普遍存在的問題。一般來說,異常值是指那些不同于數(shù)據(jù)中大部分數(shù)據(jù)的一個或多個觀察值。在線性回歸中,把偏離線性模式的觀測值定義為異常值。Hampel等[1]認為,數(shù)據(jù)中包含10% 的異常值是很正常的。Hubert[2]和McCann-Welsh[3]認為數(shù)據(jù)中包含0.25n(n為數(shù)據(jù)量)個異常值是一個污染上界。
在應用背景下,回歸分析是一個重要的統(tǒng)計工具。在回歸技術中,一般采用最小二乘估計(ordinary least squares,OLS),這是因為它的傳統(tǒng)性和易計算性。然而由于異常值的出現(xiàn),會使得用最小二乘估計的參數(shù)出現(xiàn)很大的偏差甚至錯誤,若再用于預測,可能會產(chǎn)生誤導性的結論。另外,在很多實際情況下,可能對異常值本身感興趣,例如銀行詐騙、腫瘤監(jiān)測以及報警系統(tǒng)等。不僅響應變量可能是異常值,解釋變量也可能是異常值(杠桿點)。這2類異常值都會使得傳統(tǒng)的最小二乘估計不可信。這里我們只討論響應變量是異常值的情況。
基于模型的異常值檢測一般分為2步:第1步對模型中的參數(shù)進行估計;第2步對殘差進行評價,過大殘差對應的觀測值為異常值。為減小異常值對參數(shù)估計的影響,有很多穩(wěn)健估計方法,例如最小截斷二乘法的估計[4](least trimmed squares,LTS)、M-估計(minimum)[5]和S-估計(solution)[6]等。但是,參數(shù)估計與異常值檢測之間相互影響[7-8]。若第1步參數(shù)估計得不穩(wěn)健,會使得第2步異常值檢測的正確率降低;反之,異常值檢測的精度也能影響參數(shù)估計的穩(wěn)健性。
本文要探討的是用Bayesian方法來同時進行參數(shù)估計和異常值檢測。在本文中,用Bayesian的思想和原理[9-11],并引入Gibbs抽樣算法[12],可以把參數(shù)估計和異常值檢測同時實現(xiàn)。而不是先估計參數(shù),再檢測異常值,避免了參數(shù)估計和異常值檢測相互影響的問題。為了驗證該方法的正確性,本文進行了大量的模擬實驗,驗證了該方法的可行性和有效性。
1基于Bayesian方法的參數(shù)估計和異常值檢測
多元線性回歸模型一般形式為
其中,p(給定)為解釋變量的數(shù)目;βj(j=0,1,…,p)為回歸系數(shù);εi~N(0,σ2),i.i.d.i=1,2,…,n;β=(β0,β1,…,βp)T;σ2為未知參數(shù)。
對每個觀測值,引入異常值識別變量
記δi為第i個異常程度的大小。并且假設:每個觀測值受到異常擾動的先驗概率都為α,即p(δi=1)=α。
1)根據(jù)共軛先驗分布的選取準則和實際應用需要,取參數(shù)的先驗分布分別為
其中,μ,ξ,α,β*,V,ν和λ為超參數(shù)。
根據(jù)以上假設,加入了異常值的多元線性模型為均值轉(zhuǎn)移模型(mean-shift)。
為判定觀測值中是否含有異常值以及確定它們的閾值,構造如下Bayesian假設檢驗問題。
根據(jù)Bayesian假設檢驗的原理,當H1對應的后驗概率p(γi=1|Y),Y=(y1,y2,…,yn)T大于H0對應的后驗概率p(γi=0|Y)即p(γi=1|Y)>0.5時,認為H1成立,從而認為第i個觀測值為異常值;否則,認為第i個觀測值為正常值。這樣,問題就歸結為計算每個觀測值為異常值的后驗概率p(γi=1|Y)。
2基于Gibbs抽樣的后驗概率值的計算和參數(shù)的估計
2.1參數(shù)的全條件分布
由于后驗概率p(γi=1|Y)涉及的分布比較復雜,下面引入Gibbs抽樣算法來解決這些后驗概率值的計算問題。為此,根據(jù)Bayesian定理可得下列全條件分布。
Y的聯(lián)合概率密度函數(shù)為
(1)
(1)式中:β=(β0,β1,…,βp)T;δ=(δ1,δ2,…,δn)T;γ=(γ1,γ2,…,γn)T。
1)由Bayesian定理,在Y,σ2,δ,γ給定時,β的全條件分布為
(2)
這里Xi=(1,x1i,…,xpi)T。
2)在Y,β,δ,γ給定時,σ2的全條件分布為
(3)
(3)式中:v1=n+v,
3)在Y,β,σ2,δ,γ(-j)給定時,γj的全條件分布為
(4)
(4)式中:
4)在Y,β,σ2,δ(-j),γ給定時,δj的全條件分布為
(5)
2.2識別變量后驗概率值的計算
設β(r),(σ2)(r),δ(r),γ(r),r=1,2,…,R為用Gibbs抽樣算法從上述全條件分布中抽取的樣本,則異常值的識別變量后驗概率值的公式為
(6)
2.3參數(shù)β的估計
同理,參數(shù)β的估計值為
(7)
3線性模型異常值檢測的Bayesian方法的實施具體步驟
第1步確定先驗分布中的超參數(shù)。例在本文中給出這些超參數(shù)的一組具體取值如下
第2步由Bayesian估計方法和超參數(shù)的取值,確定Gibbs抽樣的初值。
向量的上角標(i,k)的含義為:該向量的第1個分量到第k-1個分量是第i+1次抽樣的樣本,第k個分量到最后一個分量為第i次抽樣抽取的樣本。例:(γ)(s-1,j)=((γ1)(s),…(γj-1)(s),(γj)(s-1),…,(γn)(s-1))T。
重復上述抽樣過程直到Markov鏈達到穩(wěn)定,取穩(wěn)定之后的R個Gibbs樣本
第4步按照(1)—(3)式計算識別變量的后驗概率值,并按判定規(guī)則對異常值判定。
第5步按照(4)式估計參數(shù)β的大小。
4算例與分析
4.1算例
從三元正態(tài)分布β~N(β*,V-1)中隨機抽取一個向量為(-0.018,2.029,-1.028)T。
將上述向量只取整數(shù)為(0,2,-1)T。
故考慮模型
經(jīng)模擬產(chǎn)生100個數(shù)據(jù)。其中,(x1i,x2i)T,i=1,2,…,100來自于二元標準正態(tài)分布。
下面用3種方案進行模擬和實驗。
方案1在第19個觀測值上加上一個大小為-5的異常擾動。
方案2在第20和79個觀測值上分別加上大小為的2.5,-4的異常擾動。
方案3在第19至23個觀測值上分別加上大小為-6,4,9,-7,8的異常擾動。
4.2異常值檢測
用Bayesian方法異常值識別變量的后驗概率值如圖1所示。由圖1a可以看出,第19個觀測值為異常值的后驗概率大于0.5,判定為異常值;由圖1b可以看出,第20個和第79個觀測值為異常值;由圖1c看出,從第19到23個觀測值均被檢測出為異常值。
圖1 基于方案1-3的識別變量后驗概率值Fig.1 Posterior probabilities of these classification variables based on the schemes of 1-3
下面分別用3種穩(wěn)健的估計方法:LTS估計、M-估計和S-估計先估計參數(shù),再進行異常值判斷(用3sigma準則)。對方案1,3種方法與Bayesian估計同樣都能檢測出第19個觀測值為異常值。對方案2,3種方法都能檢測出第79個觀測值為異常值,但是無法檢測出第20個觀測值為異常值。由此說明,Bayesian方法對異常值更加敏感。對方案3,由于遮蔽現(xiàn)象,3種方法都能檢測出第19,21,22,23個觀測值為異常值,但都無法檢測出第20個觀測值為異常值。說明Bayesian對異常值的遮蔽現(xiàn)象有一定作用,能有效地檢測出連續(xù)幾個在一起的異常值。
4.3參數(shù)估計
模型中參數(shù)β的真實值為(0,2,-1)T。3種方案參數(shù)估計的結果分別對應于表1-3。從3個表中的數(shù)據(jù)可以看出,Bayesian方法估計出的參數(shù)值準確度相對較高。
表1 基于方案1的4種方法的參數(shù)估計值
故用Bayesian方法來同時進行參數(shù)估計和異常值檢測是行之有效的。
表2 基于方案2的4種方法的參數(shù)估計值
表3 基于方案3的4種方法的參數(shù)估計值
5結束語
異常值檢測是當前數(shù)據(jù)分析研究中的一個熱點問題。本文是在線性模型的基礎上,引入識別變量,基于Bayesian方法并結合Gibbs抽樣算法,給出識別變量的后驗概率值的計算方法和參數(shù)的估算方法;同時估計模型參數(shù)和進行異常值檢測。進行了大量的模擬實驗,結果表明,該方法對于解決線性模型數(shù)據(jù)中異常值檢測和參數(shù)估計是可行和有效的。
參考文獻:
[1]HAMPEL F R, RONCHETTI E M, ROUSSEEUW P J, et al. The Approach based on Influence Functions.[M]New York: John Wiley and Sons, 1986.
[2]HUBERT M, ROUSSEEUW P, VAN A S. High-breakdown robust multivariate methods[J]. Statistical science, 2008,23(1),92-119.
[3]MCCANN L, WELSCH R E. Robust Variable Selection Using Least Angle Regression and Elemental Set Sampling[J].Computational Statistics & Data Analysis, 2007, 52(1),249-257.
[4]ROUSSEEUW P J, VAN D K. Computing LTS regression for large data sets [J]. Data Mining and Knowledge Discovery, 2006,(12),29-45.
[5]HUBER P J.Robust Statistics[M].New York:Wiley,1981.
[6]DAVIES P L. Asymptotic behavior of S-estimates of multivariate location parameters and dispersion matrices[J]. Ann, Statist, 1987,(15),1269-1292.
[7]MARONNA R A, MARTIN D R, YOHAI V J. Robust Statistics:Theory and Methods,Chichester[M]: New York:Wiley, 2006.
[8]SHE Y, OWEN A B. Outlier detection using nonconver
penalized regression[J].Journal of the American Statistical Association, 2011,106(494),626-639.
[9]BERGER J O. Statistical decision theory and Bayesian analysis[M]. New York:Wiley,1985.
[10] 茆詩松.貝葉斯統(tǒng)計學[M].北京:中國統(tǒng)計出版社,1999.
MAO Shisong. Bayesian statistics[M]. Beijing: Statistics Press of China, 1999.
[11] 吳喜之.現(xiàn)代貝葉斯統(tǒng)計學[M].北京:中國統(tǒng)計出版社,2000.
WU Xizhi, Modern Bayesian statistics [M]. Beijing: Statistics Press of China, 2000.
[12] CHRISTIAN P R. Monte carlo statistical methods [M]. Berlin:Springer, 2004.
Parameter estimation and outliers detection based on Bayesian method
SHANG Hua1, FENG Mu2, ZHANG Beibei1
(1. College of Statistics, Capital University of Economics and Business, Beijing, 100070, P.R. China;2. College of Management, University of Science and Technology of China, Hefei, 230000, P.R. China)
Abstract:Outliers detection is an important research field in the current data analysis. Outliers in the data will affect the modeling, estimating parameters, forecasting and other issues directly. The conventional methods of outliers detection based on the model are to estimate the model parameters firstly, and then detect the abnormal value. The presence of outliers affects the parameter estimation, which results the in unreliability of outlier detection consequently; On the contrary, the presence of outliers will affect the parameter estimation. In this paper, we propose a new outliers detecting method based on Bayesian method, which can estimate parameters and detect outliers simultaneously. This method is introducing classification variables into linear regression model. Using Gibbs sampling a procedure for computing the posterior probabilities of classification variables and obtaining the estimation of parameters is designed. The outliers can be detected by comparing the posterior probabilities of these classification variables. A large number of simulation experiments illustrate that the proposed method is more sensitive to outliers compared with traditional methods.
Keywords:linear regression; classification variables;parameter estimation; outlier; Bayesian method; Gibbs sampling
DOI:10.3979/j.issn.1673-825X.2016.01.021
收稿日期:2015-03-12
修訂日期:2015-10-12通訊作者:尚華hnshanghua@tom.com
基金項目:國家自然科學基金(11426159);首都經(jīng)濟貿(mào)易大學研究生科技創(chuàng)新項目(12013120061)
Foundation Items:The National Natural Science Foundation of China(11426159); The Postgraduate Technology Innovation Project of Capital University of Economics and Business (12013120061)
中圖分類號:TP391
文獻標志碼:A
文章編號:1673-825X(2016)01-0138-05
作者簡介:
尚華(1981-),女,河南新鄉(xiāng)人,講師,在讀博士,研究方向為數(shù)理統(tǒng)計,數(shù)據(jù)挖掘。E-mail:hnshanghua@tom.com。
馮牧(1989-),女,湖南岳陽人,在讀博士,研究方向為時間序列,數(shù)據(jù)挖掘。
張貝貝(1983-),女,河南濟源人,講師,博士,研究方向為時間序列,數(shù)據(jù)挖掘。
(編輯:張誠)