范曉東,崔 瑩,張慶春
(1.吉林化工學(xué)院 理學(xué)院,吉林 吉林 132022;2.遼寧師范大學(xué) 數(shù)學(xué)學(xué)院,遼寧 大連 116029)
近年來,有限混合模型[1]得到了學(xué)者廣泛關(guān)注,已知樣本觀測數(shù)據(jù)來自于一些不同的類,但是每個類的比例是缺失的,有限混合模型經(jīng)常被用來對這類數(shù)據(jù)進行建模.EM算法[2]作為一種迭代算法,是處理有限混合模型的一個重要算法.本文用EM算法來求解帶有刪失數(shù)據(jù)[3-4]的混合線性回歸問題,建立了混合線性回歸模型[5]的參數(shù)估計程序并對國民生產(chǎn)總值數(shù)據(jù)集進行了分析.
(1)
(2)
(3)
(4)
和
(5)
1.E步驟
計算Q(θ|θ(t)),也就是計算組分包含的“后驗”概率(以數(shù)據(jù)和θ(t)為條件),則對于i=1,2,…,n,j=1,2,…,m,
(6)
2.M步驟:
(1)對于參數(shù)λ,設(shè)
(7)
重復(fù)上面的步驟1、2直至收斂.
收集了2019年46個國家的人均國民生產(chǎn)總值和人均二氧化碳排放量的數(shù)據(jù)建立數(shù)據(jù)集,該數(shù)據(jù)集包括2019年人均國民生產(chǎn)總值(GNP)和2019年人均二氧化碳(CO2)排放量,主要討論兩者之間的關(guān)系.使用模型(1)來建立人均國民生產(chǎn)總值關(guān)于人均二氧化碳排放量的混合線性回歸模型,對于模型(1)采用分兩類的情況,使用第二節(jié)中的程序得到混合線性回歸模型為:
(8)
圖1展示了回歸曲線及其99%的置信帶.圖1表明使用兩個組分的混合回歸來擬合數(shù)據(jù)集是合理的,而且對于GNP較低的國家來說,如果將來他們想增加GNP有(8)式中的兩種方案可供選擇.
Predictor圖1 回歸曲線
研究了帶有刪失數(shù)據(jù)的混合線性回歸模型的參數(shù)估計問題,并且利用EM算法建立了混合線性回歸模型的估計程序.收集2019年46個國家的人均國民生產(chǎn)總值和人均二氧化碳排放量的數(shù)據(jù)建立數(shù)據(jù)集,利用混合線性回歸模型來分析這個數(shù)據(jù)集,得出使用兩個組分的混合回歸來擬合數(shù)據(jù)集是合理的,并且得到了回歸方程,為低GNP國家增加GNP提供了兩種選擇方案.