陳婷 長(zhǎng)春工業(yè)大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院
高斯圖模型是一種基于高斯分布假設(shè)的無向循環(huán)圖,也被稱為協(xié)方差模型選擇。Meinshausen and Bühlmann[1]使用Lasso的方法對(duì)高維稀疏圖進(jìn)行協(xié)方差選擇。Yuan[2]將多元線性回歸和協(xié)方差逆陣中的元素聯(lián)系在一起,通過線性規(guī)劃的方式有效地求解高維協(xié)方差逆陣的估計(jì)。Dempster[3]提出了EM算法,Jiang[4]等提出了E-MS算法,并證明了其收斂性和相合性。
本文主要給出了含有缺失數(shù)據(jù)的情況下基于E-MS算法的高斯圖模型選擇的具體步驟即相應(yīng)的理論推導(dǎo)。第二部分為符號(hào)說明;第三部分為理論推導(dǎo);第四部分為模擬實(shí)驗(yàn);第五部分為結(jié)果分析。
則領(lǐng)域選擇問題就轉(zhuǎn)化為求如下的Lasso回歸模型:
E-MS的領(lǐng)域選擇算法原理:
為了把上式最小化,采用坐標(biāo)軸下降法。
當(dāng)含有缺失數(shù)據(jù)時(shí),采用E-MS算法,需要進(jìn)行E步和MS步,在E步中,給出單調(diào)下降序列,然后利用BIC準(zhǔn)則選最優(yōu)的。
MS步要進(jìn)行模型選擇最小化上式,用坐標(biāo)軸下降法,易知期望中包含的項(xiàng)為:
算法步驟如下:
輸入:觀測(cè)數(shù)據(jù)矩陣X
1.觀測(cè)樣本的分布,按一定的缺失率進(jìn)行隨機(jī)缺失;
3.進(jìn)行如下循環(huán),直至收斂;
4.利用坐標(biāo)軸下降法得到 的領(lǐng)域,根據(jù)完全數(shù)據(jù)陣Ex求一個(gè)圖結(jié)構(gòu)G;
5.利用IPS算法求出圖結(jié)構(gòu)的極大似然估計(jì)。
p表示頂點(diǎn)個(gè)數(shù),表示樣本容量,prec表示正確發(fā)現(xiàn)率,mcc表示馬修斯系數(shù),tpr表示特效度,tnr表示靈敏度,acc表示真值。在不同樣本下進(jìn)行分析,運(yùn)用R軟件,使用的軟件包是:mvtnorm包、MASS包、Matrix包。
表4 .1 缺失率在10%時(shí)進(jìn)行模擬的結(jié)果
在表4.1中可以看出,當(dāng)p=10時(shí),隨著n的個(gè)數(shù)的增大,prec的值在增大,說明正確發(fā)現(xiàn)率在提高,即估計(jì)出協(xié)方差中正確劃分有邊的個(gè)數(shù)與正確劃分邊的個(gè)數(shù)的比值在提升;tpr的值有所增大,即估計(jì)出的協(xié)方差中正確劃分有邊的個(gè)數(shù)同正確劃分有邊的個(gè)數(shù)與錯(cuò)誤劃分無邊的個(gè)數(shù)的和的比值在提升;tnr的值有所增大,說明靈敏度在提高,即估計(jì)出的協(xié)方差中正確劃分無邊的個(gè)數(shù)同正確劃分無邊的個(gè)數(shù)與錯(cuò)誤劃分無邊的個(gè)數(shù)的和的比值在提升;acc的值在增大,說明估計(jì)出的協(xié)方差中正確邊的個(gè)數(shù)也在逐漸變多。當(dāng)p=15時(shí),隨著n的個(gè)數(shù)的增大,prec、tpr、acc的值同p=10的情況一樣,但靈敏度的值在減小,這是在今后的研究中需要改進(jìn)的地方。