郭衛(wèi)娟
(湖北第二師范學(xué)院 數(shù)學(xué)與經(jīng)濟(jì)學(xué)院;大數(shù)據(jù)建模與智能計(jì)算研究所,武漢 430205)
(1)
若通常稱為多未知變點(diǎn)模型,對于多個未知變點(diǎn)模型,我們要解決的問題主要有兩個,第一是確定變點(diǎn)的個數(shù);第二是確定變點(diǎn)的具體位置,實(shí)際上變點(diǎn)的數(shù)目完全由變點(diǎn)的位置所決定,通常我們采用二分法來確定,其基本想法是首先我們只考慮僅有一個變點(diǎn)的模型,利用某種方法確定這個變點(diǎn)的具體位置,然后以此位置作為分界點(diǎn),將全部數(shù)據(jù)集分成兩個不相交的子集,對于每個子集,按照前面的方法重新判斷,看看每個子集中是否存在變點(diǎn),該過程一直進(jìn)行到不再有變點(diǎn)為止。利用該方法,我們可以將原來模型簡化為沒有變點(diǎn)和僅僅只有一個變點(diǎn)的模型,下面我們按照貝葉斯統(tǒng)計(jì)學(xué)方法給出一個數(shù)據(jù)集有無變點(diǎn)和僅有一個變點(diǎn)時確定其位置的方法。
(2)
(3)
而AIC和SIC的區(qū)別在于常數(shù)項(xiàng)懲罰項(xiàng)上,實(shí)際上,BIC給出了真實(shí)模型的漸近一致估計(jì),因此在實(shí)際上應(yīng)用較AIC更為廣泛。利用信息準(zhǔn)則來估計(jì)變點(diǎn)的有無和位置較為實(shí)用和簡單。考慮到本文主要用貝葉斯方法來研究變點(diǎn)問題,而所有的貝葉斯統(tǒng)計(jì)推斷都是基于參數(shù)的后驗(yàn)分布進(jìn)行的,因此可以將似然函數(shù)即經(jīng)典統(tǒng)計(jì)中的樣本聯(lián)合概率密度函數(shù)修正為貝葉斯后驗(yàn)概率密度似然函數(shù),因此得到變點(diǎn)的貝葉斯信息準(zhǔn)則為BSIC(n)(y表示可以觀察到的樣本數(shù)據(jù),通常用向量表示):
(4)
令H0表示無變點(diǎn),令H1表示有唯一的變點(diǎn),下面分布計(jì)算這兩種情況的貝葉斯信息準(zhǔn)則,
(5)
(6)
此時模型(1)被簡化為:
顯然該模型中含有三個未知參數(shù)u1,u2,k,其中我們感興趣的參變點(diǎn)的位置數(shù)k,而u1,u2是我們不感興趣的參數(shù),在貝葉斯統(tǒng)計(jì)中一切未知參數(shù)都是當(dāng)作隨機(jī)變量,稱為多余參數(shù)或者叫討厭參數(shù),為了去掉多余參數(shù)的影響,我們必須對它加合適的先驗(yàn)分布以便積掉。為此假設(shè)
(7)
又因?yàn)楦鶕?jù)已知信息,只有唯一的變點(diǎn),其可能位置為1,2,…,n-1,因?yàn)闆]有任何先驗(yàn)信息,利用同等無知原理,應(yīng)假設(shè)唯一的變點(diǎn)在1,2,…,n-1上服從均勻分布,由此得到變點(diǎn)的位置的先驗(yàn)為:
(8)
此時利用正態(tài)分布密度的正則性,不難計(jì)算出完整的后驗(yàn)概率密度為:
(9)
(10)
(11)
按照貝葉斯理論任何統(tǒng)計(jì)推斷都因該基于后驗(yàn)分布進(jìn)行,為此計(jì)算以上先驗(yàn)下三個參數(shù)u1,u2,k的后驗(yàn)分布。(9)式可以看成是在y1,y2,…,yn給定的條件下參數(shù)u1,u2,k的聯(lián)合后驗(yàn)分布,利用邊緣分布和聯(lián)合分布的關(guān)系,可以計(jì)算出:
(12)
同時利用11式,可以計(jì)算出其他兩個參數(shù)u1,u2的后驗(yàn)期望為:
這說明參數(shù)u1,u2的后驗(yàn)期望估計(jì)和前面求出的參數(shù)的極大似然估計(jì)也一致。
最后我們來看看數(shù)據(jù)擬合結(jié)果:
也就是用R軟件生成方差已知均值不同分布的正態(tài)分布的隨機(jī)數(shù),然后利用上面的算法識別有無變點(diǎn),在有變點(diǎn)的情況下,估計(jì)變點(diǎn)的具體位置;
下面以3個變點(diǎn)為例,也就是模擬樣本的真實(shí)變點(diǎn)在100、200的第300個位置上,總共抽取400個樣本。說明本次隨機(jī)模擬的結(jié)果:
為方便起見,本題中各個部分均值的差別越大,這樣做的目的是為了區(qū)分各個變點(diǎn)的顯著性,易知,在上面理論假設(shè)之下,識別的變點(diǎn)依次為300,200,100,這和實(shí)際情況完全吻合。因?yàn)橐陨峡傮w方差都相等,這說明各組數(shù)據(jù)波動性相差不大,而在300這個位置上,前后均值差為4,是各部分差最大的,因此最先識別出來。因此本方法還是比較有效,尤其是在區(qū)別差異大的不同總體上。當(dāng)然,缺點(diǎn)也是明顯的,就是計(jì)算量比較大,這也是任何貝葉斯方法的共性缺點(diǎn)??偟膩碚f,貝葉斯方法對很多統(tǒng)計(jì)問題提出了一個粗略的近似解,所以該方法隨計(jì)算機(jī)計(jì)算能力的日益發(fā)展而展現(xiàn)出更多的用處。