黃水仁 劉玉記 胡杰
(廣東財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,廣州,510320)
在統(tǒng)計(jì)過(guò)程控制中,傳統(tǒng)控制圖的基本假設(shè)是要求數(shù)據(jù)服從獨(dú)立同分布.但是在大數(shù)據(jù)時(shí)代背景下,數(shù)據(jù)的性質(zhì)和分布變得更加復(fù)雜,導(dǎo)致受控過(guò)程違背了獨(dú)立同分布的基本假設(shè).特別是金融數(shù)據(jù),它們的自相關(guān)性以及異方差性會(huì)表現(xiàn)得更加明顯.數(shù)據(jù)的這些特征會(huì)導(dǎo)致常規(guī)控制圖監(jiān)控失效,使得監(jiān)控結(jié)果與實(shí)際情況存在偏差,導(dǎo)致控制圖出現(xiàn)錯(cuò)報(bào)和漏報(bào)的概率增大.
國(guó)內(nèi)外有不少專家學(xué)者對(duì)這一問(wèn)題進(jìn)行深入探討.對(duì)于存在自相關(guān)性的數(shù)據(jù)目前比較流行的是Alwan[1]提出的殘差控制圖方法,國(guó)內(nèi)學(xué)者孫靜[2]、張志雷[3]、范翔[4]和肖艷[5]等也對(duì)這一問(wèn)題進(jìn)行了研究,他們將呈現(xiàn)自相關(guān)過(guò)程的監(jiān)控問(wèn)題轉(zhuǎn)化為相應(yīng)的殘差的監(jiān)控,從而用自回歸移動(dòng)平均(Auto-Regressive Moving Average,ARMA)模型來(lái)擬合自相關(guān)過(guò)程,得到相應(yīng)的殘差序列?對(duì)于具有異方差性的數(shù)據(jù),目前最流行的是Severin 和Schmid[6]、夏遠(yuǎn)強(qiáng)[7]、Sermad 和Roland[8]等學(xué)者提出的用波動(dòng)的上、下控制限替代固定的上、下控制限來(lái)構(gòu)建控制圖的方法? 對(duì)于自相關(guān)性和異方差性并存的數(shù)據(jù),王志堅(jiān)[9]、李雄英[10]等分別提出用ARMA-GARCH 型殘差控制圖和ARMA-TGARCH 型殘差控制圖對(duì)受控過(guò)程進(jìn)行監(jiān)控.但是在金融市場(chǎng)上,由于數(shù)據(jù)量龐大,離群值通常會(huì)很多,若采用迭代的自適應(yīng)微調(diào)法,先識(shí)別超出均值控制限的點(diǎn),再對(duì)它們進(jìn)行刪除處理會(huì)存在一定的困難,特別是傳統(tǒng)殘差控制圖對(duì)離群值非常敏感.因此當(dāng)使用ARMA 殘差控制圖對(duì)數(shù)據(jù)進(jìn)行分析時(shí)需要一個(gè)新算法,這個(gè)算法既要考慮到如何消除或者降低離群值的影響,又要盡可能提供避免逐一識(shí)別離群值的這個(gè)功能.這就需要一種穩(wěn)健、高抗差性的方法來(lái)檢測(cè)樣本中的離群值,使其結(jié)果比較合理地反映事實(shí).
比較成熟的穩(wěn)健統(tǒng)計(jì)的估計(jì)量是由Huber 提出的,它能在滿足經(jīng)典假設(shè)的條件下獲得優(yōu)良的結(jié)果,甚至在某些假設(shè)條件不能滿足的情況下,也只是受到輕微的影響.Huber[11-13],Maronna[14]以及Roussrruw[15]等學(xué)者把穩(wěn)健估計(jì)量擴(kuò)展為除了能反映大多數(shù)樣本數(shù)據(jù)的特征不受離群值干擾之外,還能把樣本中的離群值檢測(cè)出來(lái).國(guó)內(nèi)外也有專家學(xué)者使用穩(wěn)健統(tǒng)計(jì)的思想對(duì)傳統(tǒng)方法進(jìn)行改進(jìn).Yang 和Su[16]、仲建蘭[17]、王斌會(huì)[18]、劉曉華[19]以及宋鵬[20]等分別使用可變抽樣區(qū)間、Fast-MCD、異方差和中心正則化等穩(wěn)健統(tǒng)計(jì)量對(duì)傳統(tǒng)馬爾可夫鏈、傳統(tǒng)因子分析方法、傳統(tǒng)ARCH 模型和傳統(tǒng)樣本協(xié)方差矩陣估計(jì)等方法進(jìn)行穩(wěn)健性改進(jìn),并且構(gòu)建出穩(wěn)健模型分析算法.研究結(jié)果均表明當(dāng)數(shù)據(jù)中存在離群值時(shí),穩(wěn)健估計(jì)算法比傳統(tǒng)方法具有更高的抗差性和抗干擾性,這些研究為本文的方法構(gòu)建提供了有益的基礎(chǔ)和借鑒.
設(shè)受控的ARMA(p,q)過(guò)程為:
其中,γ(0)為受控過(guò)程Xt的方差,ρ(k)∈(-1,1).
定義統(tǒng)計(jì)量Zt如下:
其中φ表示回歸系數(shù),θ表示平均偏移系數(shù),且α=1-φ+θ.經(jīng)過(guò)迭代后,有
其中,β=φα-θ.Zt的協(xié)方差為:
當(dāng)k=0 時(shí),得到Zt的方差
由Zt的均值和標(biāo)準(zhǔn)差可得到傳統(tǒng)ARMA 控制圖的上控制限(UCL)、中心線(CL)以及下控制限(LCL):
在傳統(tǒng)ARMA 模型中,受控過(guò)程的自相關(guān)函數(shù)和偏自相關(guān)函數(shù)是由其樣本自協(xié)方差函數(shù)得到的,而這兩個(gè)統(tǒng)計(jì)量都對(duì)離群值比較敏感,有時(shí)僅僅一個(gè)離群值就可能使得計(jì)算結(jié)果與實(shí)際情況偏離較遠(yuǎn).為了說(shuō)明離群值的存在可能會(huì)影響傳統(tǒng)ARMA 控制圖的計(jì)算結(jié)果,本文使用R 軟件模擬出一組樣本量為50 且服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)數(shù)(稱為數(shù)據(jù)組1),構(gòu)造兩個(gè)離群值-3.50 和3.50,分別代替數(shù)據(jù)組1 中的第24 號(hào)和26 號(hào)樣本值,得到的新數(shù)據(jù)組稱為數(shù)據(jù)組2,詳見(jiàn)表1.
表1 數(shù)據(jù)組1 和數(shù)據(jù)組2
根據(jù)表1 的兩組數(shù)據(jù),利用傳統(tǒng)ARMA 方法繪制出各自的控制圖,結(jié)果見(jiàn)圖1,其中“虛線”表示不存在離群值時(shí)傳統(tǒng)ARMA 控制圖的控制限,“實(shí)線”表示存在離群值時(shí)傳統(tǒng)ARMA 控制圖的控制限?“實(shí)心點(diǎn)”代表正常值,“空心點(diǎn)”代表離群值.
圖1 不存在離群值和存在離群值的傳統(tǒng)ARMA 控制圖
由圖1 可知,當(dāng)數(shù)據(jù)中不存在離群值時(shí),傳統(tǒng)ARMA 控制圖的上、下控制限分別為-3.15 和3.16?當(dāng)數(shù)據(jù)中存在少量離群值時(shí),傳統(tǒng)ARMA 控制圖的上、下控制限發(fā)生了變化,變?yōu)?3.64 和3.67,此時(shí)傳統(tǒng)ARMA 控制圖并不能識(shí)別出第24 和26 號(hào)離群值,即出現(xiàn)了漏發(fā)報(bào)警的現(xiàn)象.這是因?yàn)楫?dāng)數(shù)據(jù)中存在離群值時(shí),傳統(tǒng)ARMA 控制圖的控制限被拉大,導(dǎo)致離群值沒(méi)有被檢測(cè)到,以至于出現(xiàn)了漏發(fā)報(bào)警的現(xiàn)象.這說(shuō)明統(tǒng)計(jì)量的不穩(wěn)健性會(huì)直接導(dǎo)致傳統(tǒng)ARMA 控制圖的監(jiān)控結(jié)果與實(shí)際情況產(chǎn)生偏差,因此,在相關(guān)的模型中需要運(yùn)用穩(wěn)健統(tǒng)計(jì)方法來(lái)對(duì)其進(jìn)行改進(jìn).
本文通過(guò)借鑒Huber 的M 估計(jì)基本理論,采用Hampel 權(quán)函數(shù)對(duì)原序列進(jìn)行變換,再對(duì)變換后得到的新序列進(jìn)行建模,得到穩(wěn)健的ARMA 控制圖模型.
Hampel 權(quán)函數(shù)的表達(dá)式如下:
其中,a,b,c的值可以取任意大于0 的實(shí)數(shù),這里參考文獻(xiàn)[9],分別取值1.5,3.0,4.5.當(dāng)殘差絕對(duì)值小于aσ時(shí),權(quán)重賦值為1,觀測(cè)的序列取原序列?當(dāng)殘差絕對(duì)值大于或等于aσ而小于bσ時(shí),權(quán)重賦值為aσ/|εi|?當(dāng)殘差絕對(duì)值大于或等于bσ而小于cσ時(shí),權(quán)重賦值為(a/|εi|)(cσ-|εi|)/(c-b),由此可知,權(quán)重隨著殘差絕對(duì)值的增大而逐漸減小?當(dāng)殘差絕對(duì)值大于或等于cσ時(shí),權(quán)重賦值為0,即該部分的觀測(cè)值不予采用.
穩(wěn)健的樣本自協(xié)方差可表示為:
其中,ω為Hampel 權(quán)函數(shù),εt為序列Xt的殘差.通過(guò)Hampel 權(quán)函數(shù)對(duì)原序列有差異性地賦予權(quán)重,有效地減輕了離群值帶來(lái)的影響,較大地提高了監(jiān)測(cè)的準(zhǔn)確性.
本文根據(jù)加權(quán)后的穩(wěn)健樣本自相關(guān)函數(shù)和偏自相關(guān)函數(shù)的特點(diǎn)來(lái)選擇ARMA 模型的類型,確定模型的階數(shù),從而構(gòu)建出穩(wěn)健的ARMA 控制圖,其上控制限(UCL)、中心線(CL)和下控制限(LCL)分別為:
由于殘差控制圖的中心線和上、下控制限均是波動(dòng)的,經(jīng)過(guò)對(duì)樣本自協(xié)方差、均值和標(biāo)準(zhǔn)差的穩(wěn)健改進(jìn),得到穩(wěn)健樣本自協(xié)方差?γ(k)、穩(wěn)健均值?μ和穩(wěn)健標(biāo)準(zhǔn)差?σ,從而增強(qiáng)ARMA 殘差控制圖對(duì)離群值的識(shí)別能力,降低其漏報(bào)或者虛報(bào)的概率.
為了比較傳統(tǒng)ARMA 殘差控制圖和穩(wěn)健ARMA 殘差控制圖對(duì)離群值的識(shí)別能力,本文對(duì)服從ARMA(1,1)模型的受控過(guò)程抽取容量為300 的樣本,并由此分別構(gòu)造離群率為ε=0,ε=5%,ε=10%和ε=15%的序列.離群率ε=0(即序列中不含離群值)的序列即為原序列? 當(dāng)離群率ε=5%時(shí),數(shù)據(jù)序列中含有15 個(gè)離群值,依此類推.
下面分別是離群率ε=0,5%,10%和15%的序列圖(見(jiàn)圖2 和圖3).
圖2 不含離群值和含5%離群值的序列圖
圖3 含10%離群值和15%離群值的序列圖
對(duì)含有不同比例離群值的序列分別建立傳統(tǒng)的和穩(wěn)健的時(shí)間序列ARMA 模型,結(jié)果見(jiàn)表2.
表2 含不同比例離群值時(shí)傳統(tǒng)和穩(wěn)健ARMA 模型系數(shù)的比較
從表2 可知,當(dāng)數(shù)據(jù)中含不同比例的離群值時(shí),傳統(tǒng)ARMA 模型的系數(shù)變化較穩(wěn)健ARMA 模型的系數(shù)變化偏大,說(shuō)明傳統(tǒng)ARMA 模型容易受到離群值的影響,而穩(wěn)健ARMA 模型較穩(wěn)定,受離群值的影響程度較小.因此,穩(wěn)健ARMA 模型對(duì)離群值具有一定的抗差性和抗干擾性.
為了進(jìn)一步考察穩(wěn)健ARMA 模型在含有不同比例離群值的序列上的表現(xiàn),下面分別根據(jù)傳統(tǒng)與穩(wěn)健ARMA 模型所得到的自相關(guān)序列構(gòu)建殘差控制圖,比較其對(duì)離群值的檢測(cè)效果.
對(duì)不含離群值的序列,比較結(jié)果如圖4 所示(“虛線”表示傳統(tǒng)ARMA 殘差控制圖的上、下控制限,“實(shí)線”表示穩(wěn)健ARMA 殘差控制圖的上、下控制限,下同).由圖4 可知,當(dāng)數(shù)據(jù)中不存在離群值時(shí),傳統(tǒng)ARMA 殘差控制圖的上、下控制限分別是-3.0007 和3.217?穩(wěn)健ARMA 殘差控制圖的上、下控制限分別是-2.874 和3.13,兩者的控制限幾乎重合.
當(dāng)數(shù)據(jù)中含有10%,即30 個(gè)離群值時(shí),圖5 顯示,傳統(tǒng)ARMA 殘差控制圖識(shí)別出了22 個(gè)離群值,正確報(bào)警率約為73.3%,漏報(bào)警率約為26.7%?而穩(wěn)健ARMA 殘差控制圖識(shí)別出了29 個(gè)離群值,正確報(bào)警率達(dá)到了96.7%,穩(wěn)健效果達(dá)到了較佳的狀態(tài).
當(dāng)數(shù)據(jù)中含有15%,即45 個(gè)離群值時(shí),圖6 顯示,傳統(tǒng)ARMA 殘差控制圖識(shí)別出了16 個(gè)離群值,正確報(bào)警率約為35.6%,漏報(bào)警率約為64.4%?而穩(wěn)健ARMA 殘差控制圖識(shí)別出了43 個(gè)離群值,正確報(bào)警率達(dá)到了95.6%,且傳統(tǒng)ARMA 殘差控制圖能識(shí)別出來(lái)的離群值,穩(wěn)健ARMA 殘差控制圖均能識(shí)別出來(lái),說(shuō)明相對(duì)傳統(tǒng)ARMA 殘差控制圖,穩(wěn)健ARMA 殘差控制圖受離群值的影響程度較小,對(duì)離群值具有一定的抗干擾能力.
綜上,隨著數(shù)據(jù)中所含離群值數(shù)量的不斷增加,傳統(tǒng)ARMA 殘差控制圖受離群值的影響程度越來(lái)越明顯,漏發(fā)報(bào)警率越來(lái)越高?而穩(wěn)健ARMA 殘差控制圖比較穩(wěn)定,受離群值的影響不明顯,對(duì)離群值的識(shí)別程度還是很高,且傳統(tǒng)ARMA 殘差控制圖能識(shí)別出來(lái)的離群值,穩(wěn)健ARMA 殘差控制圖均能識(shí)別出來(lái).相反地,穩(wěn)健ARMA 殘差控制圖能識(shí)別出來(lái)的離群值,傳統(tǒng)ARMA 殘差控制圖不一定能識(shí)別出來(lái),這說(shuō)明穩(wěn)健ARMA 殘差控制圖對(duì)離群值的抗干擾性較強(qiáng).
圖4 不含離群值時(shí)傳統(tǒng)與穩(wěn)健ARMA 模型的殘差控制圖
圖5 含10%離群值的傳統(tǒng)與穩(wěn)健ARMA 殘差控制圖
圖6 含15%離群值的傳統(tǒng)與穩(wěn)健ARMA 殘差控制圖
為了比較穩(wěn)健ARMA 殘差控制圖與傳統(tǒng)ARMA 殘差控制圖在實(shí)際應(yīng)用中對(duì)離群值的監(jiān)控效果,本節(jié)選取搜狐(SOHU)公司2018 年7 月2 日至2020 年6 月30 日的502 個(gè)股票收盤價(jià)為樣本數(shù)據(jù)(數(shù)據(jù)來(lái)源于雅虎財(cái)經(jīng)).由于2018 年7 月4 日美國(guó)金融市場(chǎng)休市,7 月30 日受美股漲跌影響,搜狐股價(jià)大跌超20%,而2020 年中國(guó)受新冠疫情影響,搜狐的股價(jià)又出現(xiàn)大跌,所以該股票數(shù)據(jù)中存在一定數(shù)量的離群值,這與本文的研究目標(biāo)相吻合.
我們采用差分法將搜狐股票的收盤價(jià)數(shù)據(jù)轉(zhuǎn)化為對(duì)數(shù)收益率數(shù)據(jù)rt,分別作出該樣本數(shù)據(jù)的對(duì)數(shù)收益率圖和直方圖,見(jiàn)圖7.
從圖7 可初步判斷數(shù)據(jù)中可能存在離群值.為了進(jìn)一步判斷離群值的存在是否會(huì)導(dǎo)致數(shù)據(jù)偏離正態(tài)分布,我們對(duì)rt進(jìn)行Jarque Bera 檢驗(yàn).檢驗(yàn)結(jié)果顯示P-value<2.2e-16,說(shuō)明搜狐的收益率序列不服從正態(tài)分布,即收益率序列中含有離群值.
然后對(duì)搜狐的對(duì)數(shù)收益率序列進(jìn)行ADF 檢驗(yàn),結(jié)果顯示P-value 是0.01,說(shuō)明有99%的把握拒絕收益率序列中存在單位根,這表明搜狐的收益率序列是平穩(wěn)的.對(duì)收益率序列構(gòu)建ACF 和PACF圖(見(jiàn)圖8 和9),經(jīng)過(guò)多次試驗(yàn)比較,最終確定傳統(tǒng)ARMA(p,q)模型中的p=1,q=1 時(shí)為最優(yōu).
圖7 搜狐樣本數(shù)據(jù)的對(duì)數(shù)收益率圖(左)和直方圖(右)
圖8 搜狐收益率序列ACF 圖
接著對(duì)傳統(tǒng)ARMA(1,1)模型的參數(shù)進(jìn)行估計(jì),結(jié)果如表3 所示:
表3 傳統(tǒng)ARMA(1,1)模型的參數(shù)估計(jì)結(jié)果
由表3 顯示的結(jié)果可得到如下的傳統(tǒng)ARMA(1,1)模型:
根據(jù)此模型可得到對(duì)數(shù)收益率的殘差序列,然后計(jì)算殘差序列的均值和標(biāo)準(zhǔn)差,即可構(gòu)建出傳統(tǒng)ARMA 模型的殘差控制圖,如圖10 所示.
由圖10 可知,傳統(tǒng)ARMA 殘差控制圖的上、下控制限分別為-0.13 和0.13.傳統(tǒng)方法識(shí)別出了6 個(gè)離群值,分別是第18,205,273,427,429 和450 號(hào)樣本.
接下來(lái)使用穩(wěn)健統(tǒng)計(jì)方法將對(duì)數(shù)收益率的殘差序列進(jìn)行穩(wěn)健處理.根據(jù)AIC 原則,可建立穩(wěn)健ARMA(2,2)模型,其參數(shù)估計(jì)結(jié)果如表4 所示.
表4 穩(wěn)健ARMA(2,2)模型的參數(shù)估計(jì)結(jié)果
由表4 的結(jié)果可得到如下的穩(wěn)健ARMA(2,2)模型:
利用此模型構(gòu)建出穩(wěn)健ARMA 殘差控制圖,并將其與傳統(tǒng)ARMA 殘差控制圖進(jìn)行比較,結(jié)果如圖11 所示(圖中,虛線表示傳統(tǒng)ARMA 殘差控制圖的上、下控制限,實(shí)線表示穩(wěn)健ARMA 殘差控制圖的上、下控制限).
由圖10 可知,由傳統(tǒng)ARMA 模型構(gòu)建的殘差控制圖只能識(shí)別出6 個(gè)離群值.這是由于離群值的存在,使得傳統(tǒng)ARMA 殘差控制圖的控制限被拉高了,才導(dǎo)致某些離群值沒(méi)有被檢測(cè)出來(lái)?而穩(wěn)健ARMA 殘差控制圖的上、下控制限分別約為-0.0882 和0.0876,穩(wěn)健ARMA 殘差控制圖能識(shí)別出18 個(gè)離群值(見(jiàn)表5).
表5 識(shí)別的離群值序號(hào)
由表5 可知,傳統(tǒng)ARMA 殘差控制圖能識(shí)別出來(lái)的離群值,穩(wěn)健ARMA 殘差控制圖也能識(shí)別出來(lái),而穩(wěn)健ARMA 殘差控制圖能識(shí)別出來(lái)的離群值,傳統(tǒng)ARMA 殘差控制圖不一定能識(shí)別出來(lái).可見(jiàn),穩(wěn)健ARMA 模型的殘差控制圖對(duì)離群值有著較好的抗御能力.
綜合上節(jié)模擬實(shí)驗(yàn)和本節(jié)實(shí)證研究得到的結(jié)果可知,傳統(tǒng)ARMA 殘差控制圖易受離群值的影響,導(dǎo)致控制限被拉高,從而出現(xiàn)漏發(fā)報(bào)警的缺點(diǎn)?而本文構(gòu)建的穩(wěn)健ARMA 殘差控制圖不僅對(duì)離群值具有較好的抗干擾性,而且其控制限和控制中心不易受離群值的影響,能夠較好地監(jiān)測(cè)到離群值的位置,并正確地發(fā)出警報(bào).特別是,穩(wěn)健ARMA 殘差控制圖能較好地處理金融市場(chǎng)中呈自相關(guān)的股票數(shù)據(jù)的監(jiān)控問(wèn)題,能給投資者提供有益的決策信息,有較好的實(shí)際意義.
圖9 搜狐收益率序列PACF 圖
圖10 搜狐股價(jià)對(duì)數(shù)收益率的傳統(tǒng)ARMA 殘差控制圖
圖11 傳統(tǒng)和穩(wěn)健ARMA 殘差控制圖