李熠玲,任凱亮,王志堅(jiān)*
(1.廣東財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,廣東 廣州 510320;2.康涅狄格大學(xué)文理學(xué)院,美國(guó) 康涅狄格州 06268)
統(tǒng)計(jì)過(guò)程控制是一項(xiàng)建立在數(shù)理統(tǒng)計(jì)學(xué)原理基礎(chǔ)之上的過(guò)程質(zhì)量管理技術(shù)。從誕生至今,經(jīng)過(guò)近100年的發(fā)展與完善,統(tǒng)計(jì)過(guò)程控制技術(shù)已經(jīng)被廣泛應(yīng)用于社會(huì)經(jīng)濟(jì)發(fā)展的各個(gè)領(lǐng)域,包括物流、數(shù)字經(jīng)濟(jì)、服務(wù)業(yè)等,取得了良好的社會(huì)和經(jīng)濟(jì)效益,其監(jiān)控的過(guò)程也從傳統(tǒng)單變量過(guò)程拓展到各種多變量場(chǎng)景。而在實(shí)際工作中,控制圖則是常被用來(lái)對(duì)受控過(guò)程進(jìn)行質(zhì)量管理的工具之一,通過(guò)使用控制圖,能夠?qū)^(guò)程績(jī)效及其波動(dòng)原因進(jìn)行直觀而實(shí)時(shí)的監(jiān)控和分析,幫助人們及早地發(fā)現(xiàn)和識(shí)別異?,F(xiàn)象并找出異常原因,從而提高產(chǎn)品或服務(wù)質(zhì)量。
質(zhì)量控制圖的基本原理主要包含以下四個(gè)方面:受控過(guò)程服從正態(tài)分布的假定;控制限的準(zhǔn)則;在一次試驗(yàn)中小概率事件不發(fā)生的原理;數(shù)理統(tǒng)計(jì)學(xué)中的統(tǒng)計(jì)推斷基本思想。
受控過(guò)程的正態(tài)性假定是指受控過(guò)程在正常狀態(tài)下,其相關(guān)的特性指標(biāo)數(shù)據(jù)服從正態(tài)分布假定??刂葡薜臏?zhǔn)則是指當(dāng)某個(gè)過(guò)程特性數(shù)據(jù)服從正態(tài)分布N(μ,σ2)時(shí),可以利用正態(tài)分布的3σ準(zhǔn)則得出控制圖的設(shè)計(jì)原理即控制上限UCL=,控制中心線CL=^μ,控制下限LCL=。小概率事件不發(fā)生原理是指在一次觀測(cè)試驗(yàn)中,正常情況下小概率事件通常認(rèn)為不發(fā)生。統(tǒng)計(jì)推斷的基本思想認(rèn)為,若在過(guò)程控制中一旦出現(xiàn)了“小概率事件發(fā)生”的現(xiàn)象,則可以認(rèn)為受控過(guò)程出現(xiàn)異常。
同時(shí),應(yīng)注意到,一方面,統(tǒng)計(jì)過(guò)程控制技術(shù)的理論基礎(chǔ)之一,控制限的準(zhǔn)則即為常規(guī)控制圖的控制設(shè)計(jì)原理,其中控制上限UCL=、控制中心線CL=、控制下限LCL=所采用的統(tǒng)計(jì)量,均值與標(biāo)準(zhǔn)差σ^對(duì)離群值敏感,缺乏穩(wěn)健性;另一方面,在離群值存在時(shí),過(guò)程質(zhì)量特性數(shù)據(jù)很難滿足正態(tài)分布假定。因此,常規(guī)控制圖在對(duì)過(guò)程異常情況識(shí)別時(shí),易受離群值干擾,常出現(xiàn)“遮蔽效應(yīng)”或“漏報(bào)警”現(xiàn)象,從而極大地降低了控制圖監(jiān)測(cè)性能,如何解決此類問(wèn)題即是本研究的出發(fā)點(diǎn)。
近20年,穩(wěn)健統(tǒng)計(jì)技術(shù)在各領(lǐng)域的過(guò)程控制中應(yīng)用越來(lái)越多,包括經(jīng)濟(jì)、金融、工業(yè)制造、服務(wù)業(yè)等。剛開(kāi)始多是對(duì)單變量控制圖采用不同的穩(wěn)健方法進(jìn)行設(shè)計(jì),如均值Xbar控制圖。維賈雅(Vijaya)和墨蒂(Murty)[1]討論了采用基于風(fēng)險(xiǎn)的方法來(lái)找到Xbar控制圖的最佳參數(shù)對(duì)Xbar控制圖進(jìn)行穩(wěn)健經(jīng)濟(jì)設(shè)計(jì)。周純光等[2]提出了一種基于小波的預(yù)分析穩(wěn)健控制圖,用于監(jiān)測(cè)第一階段過(guò)程控制中的均值漂移。吳純杰和王兆軍[3]分析了休哈特Xbar控制圖的不穩(wěn)健性,并對(duì)其進(jìn)行了穩(wěn)健修正。阿卜秋勒(Abdul)等[4]研究了利用考慮不確定參數(shù)區(qū)間估計(jì)的穩(wěn)健優(yōu)化方法進(jìn)行Xbar控制圖的經(jīng)濟(jì)統(tǒng)計(jì)設(shè)計(jì)(ESD),開(kāi)發(fā)了一種啟發(fā)式算法來(lái)獲得控制圖的穩(wěn)健方案,效果優(yōu)于傳統(tǒng)ESD。薩利赫(Salih)等[5]對(duì)因素選擇控制圖的最優(yōu)穩(wěn)健設(shè)計(jì)進(jìn)行了研究。
隨后,越來(lái)越多的學(xué)者開(kāi)始關(guān)注多變量控制圖的穩(wěn)健性。哈布沙(Habshah)和阿什坎(Ashkan)[6]提出了穩(wěn)健多元CUSUM 圖和多元EWMA圖,以解決散點(diǎn)異常值變化小的問(wèn)題。范(Fan)等[7]基于分層聚類樹原理開(kāi)發(fā)了一種新的穩(wěn)健多變量控制圖,該圖可以有效地檢測(cè)多維數(shù)據(jù)中的潛在異常值,同時(shí)控制遮蔽和淹沒(méi)效應(yīng)。阿索坎(Asokan)和賈亞尚卡爾(Jayasankar)[8]提出了監(jiān)測(cè)第一階段多變量個(gè)體觀測(cè)過(guò)程均值的穩(wěn)健控制圖。張(Zhang)等[9]提出了一種無(wú)分布的多變量統(tǒng)計(jì)過(guò)程控制圖(MSPC),以檢測(cè)多變量過(guò)程變量的一般分布變化。安杰尼絲(Angellys)等[10]將截尾均值應(yīng)用于穩(wěn)健多變量控制圖的異常值診斷。拉吉(Raji)等[11]基于Stahel Donoho穩(wěn)健估計(jì)量(SDRE)構(gòu)建了一種穩(wěn)健多變量控制圖,同時(shí)從第一階段估計(jì)過(guò)程參數(shù)??惣{(Cabana)和利洛(Lillo)[12]基于穩(wěn)健重加權(quán)收縮估計(jì),提出了一種用于個(gè)體觀測(cè)的穩(wěn)健多變量質(zhì)量控制技術(shù)。薩巴諾(Sabahno)和塞拉諾(Celano)[13]用可變參數(shù)控制圖監(jiān)測(cè)存在自相關(guān)的多變量變異系數(shù)。
近年來(lái),也有學(xué)者研究自相關(guān)過(guò)程殘差控制圖的穩(wěn)健性。王志堅(jiān)[14]通過(guò)權(quán)重函數(shù)對(duì)ARMA 模型與GARCH 模型進(jìn)行穩(wěn)健建模,最后構(gòu)建穩(wěn)健殘差控制圖。王志堅(jiān)等[15-16]通過(guò)構(gòu)建穩(wěn)健AR 模型,為自相關(guān)過(guò)程殘差控制圖的設(shè)計(jì)提供了理論依據(jù)。薩里阿提(Shariati)[17]提出了一種適用于自相關(guān)序列的穩(wěn)健控制圖新方法,該圖對(duì)污染數(shù)據(jù)的影響具有穩(wěn)健性。薩拉赫(Salah)等[18]研究了伽馬回歸模型下殘差控制圖的剖面監(jiān)測(cè)。
通過(guò)梳理文獻(xiàn)發(fā)現(xiàn),不少學(xué)者從控制圖控制限的位置參數(shù)、尺度參數(shù)角度采用穩(wěn)健估計(jì)量來(lái)構(gòu)建穩(wěn)健控制圖。哈菲茲(Hafiz)等[19]建立了穩(wěn)健Shewhart位置參數(shù)控制特征的逐步篩選方法。納迪婭(Nadia)和沙希德(Shahid)[20]比較了文獻(xiàn)中的六種不同穩(wěn)健尺度估計(jì)下的EWMA 控制圖性能,模擬研究結(jié)果表明,基于估計(jì)量Q_n的控制圖在非正常過(guò)程中表現(xiàn)相對(duì)較好。吳純杰等[21]、莊芳等[22]分別分析了穩(wěn)健似然比累積和控制圖及EWMA 方差控制圖的不穩(wěn)健性,并給出了穩(wěn)健改進(jìn)的方法。王志堅(jiān)、蘇擁英等[23-24]對(duì)常規(guī)過(guò)程控制圖的敏感性進(jìn)行了分析并給出了穩(wěn)健化方法??▕W(Kao)[25]認(rèn)為,當(dāng)存在污染數(shù)據(jù)時(shí),標(biāo)準(zhǔn)偏差的估計(jì)會(huì)由于其高偏差性而降低控制圖的檢測(cè)能力,于是提出了基于不同篩選的平方A 估計(jì)量,該估計(jì)量在抗干擾方面表現(xiàn)相對(duì)最好。
與前人不同的是,本研究嘗試采用估計(jì)量Hodges-Lehmann(簡(jiǎn)寫HL)與中位絕對(duì)離差(MAD)相結(jié)合的方式對(duì)常規(guī)控制圖控制中心及控制限進(jìn)行穩(wěn)健改進(jìn),并通過(guò)改進(jìn)前后對(duì)比的研究方法驗(yàn)證穩(wěn)健控制圖的可行性和有效性。
常規(guī)休哈特控制圖設(shè)計(jì)原理,主要包括控制中心、上下控制限,相應(yīng)表達(dá)式如(1)式所示:
(1)式中的k通常取3,顯然UCL、CL、LCL 所采用的統(tǒng)計(jì)量缺乏穩(wěn)健性,導(dǎo)致整個(gè)控制圖對(duì)離群值過(guò)于敏感,當(dāng)受控過(guò)程出現(xiàn)異常情況時(shí)會(huì)使得控制中心、控制限的值不能反映大多數(shù)樣本數(shù)據(jù)的特征,因此控制圖常會(huì)出現(xiàn)“漏報(bào)警”現(xiàn)象。
接下來(lái)通過(guò)舉例論證在對(duì)異?,F(xiàn)象監(jiān)控時(shí)常規(guī)控制圖如何“失控”。先采用R 軟件生成20個(gè)服從N(0,1)分布的隨機(jī)數(shù)作為過(guò)程的特性指標(biāo)數(shù)據(jù),再通過(guò)隨機(jī)抽樣技術(shù)在20個(gè)隨機(jī)數(shù)里面隨機(jī)抽取一個(gè)數(shù)用4.5去代替之,我們將4.5作為20個(gè)隨機(jī)數(shù)里面的異常值。接下來(lái)基于不含異常值及含1個(gè)異常值的序列構(gòu)建兩個(gè)常規(guī)控制圖,第一個(gè)是不含異常值常規(guī)控制圖,第二個(gè)是含1個(gè)異常值常規(guī)控制圖,兩個(gè)控制圖的監(jiān)測(cè)結(jié)果如圖1所示。
圖1 不含異常值的常規(guī)控制圖(左)與含1個(gè)異常值的常規(guī)控制圖(右)
從圖1可以看出,兩個(gè)控制圖的中間實(shí)線為控制中心線,上下兩條虛線為控制上下限。由于圖1左圖中的受控過(guò)程不含異常值,所有的點(diǎn)均在上下控制限以內(nèi),沒(méi)有出現(xiàn)“虛假報(bào)警”或者“漏報(bào)警”現(xiàn)象,監(jiān)控成功。而圖1右圖中的受控過(guò)程含有一個(gè)異常值,但從圖1右圖中可以看出,異常值在上下控制限內(nèi),控制圖并沒(méi)有對(duì)異常值進(jìn)行報(bào)警,而是將異常值誤判正常值,監(jiān)控失敗。顯然,監(jiān)控失敗的原因是由于控制限對(duì)異常值敏感,異常值的存在導(dǎo)致控制上下限間距拉大所致。因此,對(duì)常規(guī)控制圖的控制中心及控制限進(jìn)行穩(wěn)健改進(jìn)具有重要意義。
尋找均值、標(biāo)準(zhǔn)差的穩(wěn)健組合估計(jì)量來(lái)改進(jìn)控制中心及控制限,對(duì)構(gòu)造穩(wěn)健控制圖具有重要作用。研究表明構(gòu)建穩(wěn)健控制圖是一個(gè)較為復(fù)雜的系統(tǒng)工作,并不是僅僅尋找均值與標(biāo)準(zhǔn)差的穩(wěn)健估計(jì)量。由于均值與標(biāo)準(zhǔn)差在控制圖中是有機(jī)整體,若將兩者分開(kāi)研究有可能會(huì)導(dǎo)致控制圖過(guò)于穩(wěn)健或者缺乏穩(wěn)健,其后果是:過(guò)于穩(wěn)健會(huì)出現(xiàn)虛假報(bào)警,缺乏穩(wěn)健會(huì)出現(xiàn)漏報(bào)警現(xiàn)象。常用的均值穩(wěn)健估計(jì)量有:中位數(shù)(Median)、切尾均值(Trimmed Mean)、縮尾均值(Winsorized Mean)、三均值(Triple Mean)以及Hodges-Lehmann(HL1、HL2、HL3)等。常用的標(biāo)準(zhǔn)差穩(wěn)健估計(jì)量有:縮尾標(biāo)準(zhǔn)差(WSD)、中位絕對(duì)離差(Median absolute deviation)、平均絕對(duì)離差(Mean absolute deviation)、四分位數(shù)間距(IQR)以及Shamos估計(jì)量等。
本研究經(jīng)過(guò)反復(fù)模擬實(shí)驗(yàn)比較后,采用昌世凱(Chanseok)等[26]提出的Hodges-Lehmann估計(jì)量作為均值穩(wěn)健估計(jì)量,選取中位絕對(duì)離差(MAD)作為標(biāo)準(zhǔn)差穩(wěn)健估計(jì)量,該兩個(gè)估計(jì)量組合在一起,稱為HLMAD 組合估計(jì)量。研究表明,采用該組合估計(jì)量來(lái)穩(wěn)健改進(jìn)常規(guī)控制圖能得到相對(duì)最優(yōu)的穩(wěn)健監(jiān)測(cè)效果。Hodges-Lehmann估計(jì)量具有3種形式,可分別簡(jiǎn)寫為HL1、HL2及HL3,其表達(dá)式分別為:
在此,經(jīng)比較后選HL1,其中位絕對(duì)離差(MAD)表達(dá)式為:
將該兩個(gè)估計(jì)量作為控制圖的穩(wěn)健組合估計(jì)量來(lái)改進(jìn)控制中心與控制限,可得到如下穩(wěn)健控制圖(圖2):
圖2 基于HL-MAD 組合估計(jì)量的穩(wěn)健常規(guī)控制圖構(gòu)建原理
下面通過(guò)數(shù)值模擬仿真研究來(lái)說(shuō)明穩(wěn)健改進(jìn)的可行性和有效性。分別模擬隨機(jī)產(chǎn)生樣本量為20、100、200的標(biāo)準(zhǔn)正態(tài)分布N(0,1)隨機(jī)數(shù),目的是從小樣本、中樣本和大樣本三種情形來(lái)觀測(cè)改進(jìn)效果。三種情形的污染率分別為2%、10%、20%,即分別覆蓋輕污染、中污染、重污染。需要說(shuō)明的是,在小樣本20的情形下,當(dāng)污染率為2%時(shí),異常值不足1個(gè),為保證各樣本量、各污染率下至少有1個(gè)異常值,本研究將小樣本20的輕污染率由原來(lái)的2%增加到5%,其他情形不變。污染分布選擇均勻分布,污染分布構(gòu)造過(guò)程如(2)式所示:
其中ε為污染率,N(n1;0,1)表示標(biāo)準(zhǔn)正態(tài)分布,Unif(n2;4,5)表示最小值為4、最大值為5的均勻分布。根據(jù)研究需要,有時(shí)要產(chǎn)生負(fù)異常值,這時(shí)可將污染分布(2)式變形為(3)式:
基于(2)式和(3)式產(chǎn)生的隨機(jī)數(shù),得到各樣本量、各污染率下的監(jiān)控效果如表1所示。
表1 不同樣本量不同污染率下的常規(guī)與穩(wěn)健控制圖監(jiān)控效果對(duì)比表
從表1可以看出,當(dāng)樣本量為20時(shí),常規(guī)控制圖在各污染率下的監(jiān)控正確率全部為0,穩(wěn)健控制圖為100%。當(dāng)樣本量為100與200時(shí),常規(guī)控制圖與穩(wěn)健控制圖的報(bào)警正確率均隨著污染率的增加而減少,但穩(wěn)健控制圖報(bào)警正確率一直顯著高于常規(guī)控制圖且數(shù)值相對(duì)穩(wěn)定。
為進(jìn)一步檢驗(yàn)本研究所提出的基于HL1-MAD 組合估計(jì)量所改進(jìn)的穩(wěn)健控制圖對(duì)含異常值序列的監(jiān)控效果,本文選取2019年8月22日-2020年6月19日泰山石油(代碼:000554.SZ)收益率作為受控對(duì)象。數(shù)據(jù)來(lái)源于英為財(cái)情網(wǎng)站(https://cn.investing.com),有效樣本量為200。泰山石油數(shù)據(jù)的探索性分析結(jié)果如圖3所示。
圖3 泰山石油股票收盤價(jià)圖(左)與收益率圖(右)
圖3顯示:第一,泰山石油的收盤價(jià)圖波動(dòng)幅度很大;第二,泰山石油的收益率圖呈現(xiàn)異方差性且存在多個(gè)絕對(duì)值較大的數(shù),這一特征與本研究目標(biāo)相吻合。至于絕對(duì)值較大的數(shù)是否為異常值,則需要通過(guò)統(tǒng)計(jì)檢驗(yàn)進(jìn)行識(shí)別。
采用王志堅(jiān)、汪志紅和王斌會(huì)等提出的時(shí)間序列異常值穩(wěn)健檢測(cè)法[27-30]對(duì)泰山石油樣本數(shù)據(jù)進(jìn)行異常值檢測(cè),結(jié)果為表2所示。
表2 泰山石油收益率異常值檢測(cè)結(jié)果表
從表2可以看出,穩(wěn)健檢測(cè)法檢測(cè)到異常值共10個(gè),其中,6個(gè)為IO 型,4個(gè)為AO 型。而泰山石油收益率的正態(tài)性檢驗(yàn)結(jié)果顯示為:W=0.91653,p value=3.264e-09,即拒絕服從正態(tài)分布的原假設(shè)??梢?jiàn),異常值的存在導(dǎo)致序列違背了受控過(guò)程滿足正態(tài)分布假定。
接下來(lái),采用常規(guī)控制圖與穩(wěn)健改進(jìn)控制圖分別對(duì)收益率序列進(jìn)行監(jiān)控,試圖通過(guò)監(jiān)控將序列中異常值“報(bào)警”出來(lái),監(jiān)控結(jié)果見(jiàn)圖4。
圖4 常規(guī)控制圖(左)與穩(wěn)健控制圖(右)監(jiān)控結(jié)果圖
從圖4可以看出,常規(guī)控制圖出現(xiàn)6個(gè)異常值報(bào)警,序號(hào)分別是:91、105、148、150、153、187。穩(wěn)健控制圖出現(xiàn)10個(gè)異常值報(bào)警,序號(hào)分別是:91、93、94、105、148、150、153、163、180、187。常規(guī)控制圖漏報(bào)警4個(gè)異常值,報(bào)警正確率60%,穩(wěn)健控制圖所報(bào)警異常值個(gè)數(shù)與穩(wěn)健檢測(cè)法檢測(cè)到異常點(diǎn)個(gè)數(shù)一致,報(bào)警正確率100%。泰山石油收益率的實(shí)證結(jié)果進(jìn)一步驗(yàn)證了穩(wěn)健控制圖的可行性與有效性。
一個(gè)估計(jì)量的有效性,通常用相對(duì)效率來(lái)進(jìn)行評(píng)價(jià),相對(duì)效率的概念在各種估計(jì)量進(jìn)行評(píng)估比較時(shí)非常有用。關(guān)于的相對(duì)效定義為:
(4)式中分子為估計(jì)量的最小方差,分母為實(shí)際方差,通常當(dāng)該比值為1或者接近1時(shí),才認(rèn)為該估計(jì)量是有效的,或者稱為相對(duì)最優(yōu)。
泰山石油樣本量為200,據(jù)此算出泰山石油收益率常用的位置參數(shù)與尺度參數(shù)估計(jì)量的相對(duì)效,結(jié)果如表3所示。
表3 各估計(jì)量的相對(duì)效比較
從表3可以看出,位置估計(jì)量相對(duì)效最小的是中位數(shù)median,尺度估計(jì)量相對(duì)效最小的是極差range。顯然中位數(shù)是位置估計(jì)量的一個(gè)很好的穩(wěn)健估計(jì),而極差并不是尺度估計(jì)量的一個(gè)好的估計(jì)量,但表3顯示,極差相對(duì)效最小。本文通過(guò)對(duì)比研究發(fā)現(xiàn),由于控制圖的構(gòu)建涉及到樣本均值與標(biāo)準(zhǔn)差兩個(gè)統(tǒng)計(jì)量,僅僅考慮單個(gè)統(tǒng)計(jì)量的相對(duì)效難以構(gòu)建一個(gè)監(jiān)控效果滿意的控制圖。因此,需要將位置與尺度統(tǒng)計(jì)量?jī)烧呓Y(jié)合起來(lái)構(gòu)建組合估計(jì)量才能得到一個(gè)相對(duì)最優(yōu)的穩(wěn)健控制圖。因此,在控制圖的穩(wěn)健估計(jì)量的選擇問(wèn)題上,研究者不能僅僅用單個(gè)估計(jì)量的相對(duì)效比較來(lái)作為穩(wěn)健估計(jì)量的唯一選取標(biāo)準(zhǔn),從某種意義上講,此發(fā)現(xiàn)亦是本研究的學(xué)術(shù)貢獻(xiàn)之一。
本研究通過(guò)比較并選取均值的穩(wěn)健估計(jì)量HL1與標(biāo)準(zhǔn)差的穩(wěn)健估計(jì)量MAD 作為穩(wěn)健組合估計(jì)量構(gòu)建了穩(wěn)健常規(guī)控制圖,模擬與實(shí)證分析均表明本研究構(gòu)建的穩(wěn)健控制圖能有效地對(duì)異常值進(jìn)行監(jiān)控。另外,本研究發(fā)現(xiàn),在穩(wěn)健控制圖構(gòu)建過(guò)程中,均值與標(biāo)準(zhǔn)差的穩(wěn)健估計(jì)量不應(yīng)該分開(kāi)選取,而要作為一個(gè)整體來(lái)考慮才能達(dá)到更好的效果,這一點(diǎn)在相對(duì)效的比較研究中得到了進(jìn)一步論證。