獨立二項分布序列變點的識別方法

2020-03-28 05:43:42趙江南樊森德

安徽師范大學(xué)學(xué)報(自然科學(xué)版) 2020年1期

趙江南，龐冬，樊森德

(新疆農(nóng)業(yè)大學(xué) 數(shù)理學(xué)院，新疆烏魯木齊 830052)

引言

由于變點問題涉及經(jīng)濟、醫(yī)學(xué)、金融、工程等很多領(lǐng)域，所以估計一個隨機序列中變點的位置是近年來統(tǒng)計學(xué)的熱點研究問題之一。研究變點問題的方法有很多種，文獻[1-2]用MCMC方法研究了IIRCT情況下二項分布、威布爾分布的多變點問題，文獻[3]用IBF算法研究了正態(tài)分布均值單變點的識別問題等等。但對獨立二項分布序列變點的研究的還比較少。本文運用IBF算法研究二項分布的變點問題，給出了識別變點個數(shù)和通過IBF算法識別變點具體位置的步驟，隨機模擬的結(jié)果表明估計值較為精確。

1 獨立二項分布序列變點模型

考慮如下具有獨立二項分布序列變點模型，假設(shè)各yi相互獨立

假設(shè)ti已知，當(dāng)θ1≠θ2≠.....≠θk+1(未知)時，我們稱此模型為一個具有k個變點且變點位置為ri,(i=1,2,..,k)的獨立二項分布序列變點模型。那么，我們的問題是如何判斷序列{yi}(i=1,2,..,n)中的變點個數(shù)k，以及確定變點的位置ri,(i=1,2,..,k)。

下面通過IBF方法估計變點的位置ri,(i=1,2,..,k)

2 IBF方法

在應(yīng)用IBF算法估計變點的位置ri,(i=1,2,..,k)之前，首先介紹IBF算法。Tian通過一種非迭代Bayes抽樣方法，簡稱IBF方法，來從一組觀測數(shù)據(jù)中推導(dǎo)出缺失數(shù)據(jù)的條件分布，然后從完整數(shù)據(jù)的后驗分布中提取樣本，進而判決缺失數(shù)據(jù)的統(tǒng)計分布。

(1)

3 通過IBF方法識別變點位置ri,(i=1,2,..,k)

(2)

(3)

又因為r0=0，rk+1=n，所以

(4)

將變點r看做(1)式中的缺失數(shù)據(jù)，那么由(1)式得

(5)

基于(5)式，我們就得到了變點的位置的后驗分布，可以依照此式對變點位置做精確的統(tǒng)計推斷。下面我們通過Bayes因子討論如何確定序列中變點的個數(shù)。

4 通過Bayes因子確定變點個數(shù)k

根據(jù)文獻[12]，Bayes因子定義如下：

Jeffreys在1961年的附錄B中給出了用Bayes因子進行模型選擇的一般準(zhǔn)則，他指出當(dāng)BFs+1,s落在(1,3.2),(3.2,10),(10,100),(100,+)這四個區(qū)間時分別代表s與s+1間的差別不值一提、較為肯定支持s+1、強烈的支持s+1、以及較為強烈的支持s+1。

5 隨機模擬

經(jīng)計算得L(Y|M1)=3.334×10(-75)，L(Y|M0)=9.750×10-88，所以BF1,0=3.420×1012，因此，我們判斷模型為具有一個變點的獨立二項分布序列。再由(1)～(5)得變點在各處的概率分布見表2(精確到小數(shù)點后三位)。

表1 模型一隨機變量序列

表2 變點r的分布律

表中帶*為概率最大的變點位置，即判斷出變點位置r=10。

第二個變點模型為

表3 模型二隨機變量序列

表4 變點聯(lián)合分布律

續(xù)表4

r2r1123456789101112131415161718170.0000.0000.0000.0000.0080.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.000——180.0000.0000.0000.0010.0750.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.000—190.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.000

表中帶*為概率最大的變點位置，即判斷出變點位置 r1=5,r2=15。

6 實證分析

6.1引用[7]中Hanify在1981年分析的數(shù)據(jù)：1960年到1976年新西蘭北部某地區(qū)懷孕第一個月出現(xiàn)畸形足的人數(shù)xi及當(dāng)年新生兒總數(shù)ni(見表5)。

表5 1960年到1976年某地區(qū)懷孕第1個月出現(xiàn)畸形足的人數(shù)及新生兒總數(shù)

接下來通過IBF方法，為了簡化計算量，首先將數(shù)據(jù)xi及ni取常用對數(shù)，得到BF10=562.621，所以選擇單變點二項序列模型。然后由(1)～(5)得后驗概率最大的點為x6，即1965年，后驗概率為0.193，結(jié)合Worsley在1983年分別用似然比法和CUSUM檢驗法得到的變點位置在第6個，結(jié)果基本一致。事實上，在第6個觀測數(shù)據(jù)即1965年也是在該地區(qū)首次發(fā)現(xiàn)使用2,4,5-T除草劑的年份，此后出現(xiàn)畸形足新生兒比率明顯升高。由此可以推斷，該種除草劑與出現(xiàn)畸形足患兒有很大相關(guān)性。

6.2引用Smith[12]在1982年分析的數(shù)據(jù)，在13個按時間順序排列的中世紀(jì)手稿中觀察到的兩種代詞詞尾的出現(xiàn)次數(shù)。一套手稿中的13個文件被認(rèn)為是多個作者的工作，因為每個文件中每個結(jié)束的比例似乎在順序上有所不同。因此，假設(shè)這些文檔可以分為時間上連續(xù)的階段，每個階段都有一個獨特的結(jié)尾比例，例如，對應(yīng)于不同的抄寫員，一個離散多變點模型適用于這些數(shù)據(jù)，y1i,y2i,ni分別代表第i個文件里兩種代詞詞尾的出現(xiàn)次數(shù)以及總數(shù)數(shù)據(jù)如表6。

表6 中世紀(jì)手稿中觀察到的兩種代詞詞尾的出現(xiàn)次數(shù)

i1234567yi12263124283439y2i91013624119ni21364430524548i8910111213y1i464119171716y2i1173344ni574822202120

首先考慮三個模型分別是沒有變點的獨立二項序列模型；含有一個變點的獨立二項序列模型以及含有兩個變點的獨立二項序列模型。其中BF1,0=212.064；BF2,0=673.952；BF2,1=3.178，再綜合前人結(jié)論，因此我們選擇含兩個變點的獨立二項序列模型。然后由(1)～(5)得到概率最大的變點位r1=4，r2=5，最大概率為0.328。這與Smith[12]以及D.A.Stephens[9]所得結(jié)果一致，因此可以判斷此部手稿為三名抄寫員抄寫。

7 結(jié)語

本文通過Bayes因子以及IBF方法實現(xiàn)了對獨立二項分布序列變點模型的變點個數(shù)和變點位置的估計。給出了推導(dǎo)的詳細步驟，并通過隨機模擬驗證了估計的準(zhǔn)確性，再結(jié)合實例，將分析應(yīng)用到了現(xiàn)實生活，實現(xiàn)了對兩個現(xiàn)實中存在的獨立二項分布序列變點模型的估計。結(jié)果顯示，估計精確，得到的結(jié)果與前人一致。