何文然,黃振生
南京理工大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,南京 210094
過去幾十年來,高維數(shù)據(jù)處理一般采用單指標(biāo)模型進(jìn)行降維,一方面可以避免維數(shù)災(zāi)難問題,另一方面能夠保持多元回歸中非參數(shù)方法的優(yōu)勢。該模型在生物醫(yī)學(xué)、自然科學(xué)和經(jīng)濟(jì)金融諸多領(lǐng)域已體現(xiàn)出巨大的研究價值和廣泛的實際應(yīng)用前景。伴隨著函數(shù)型數(shù)據(jù)分析的熱潮,統(tǒng)計學(xué)者考慮將單指標(biāo)模型降維的半?yún)?shù)優(yōu)點和函數(shù)型數(shù)據(jù)結(jié)合,引入了函數(shù)型單指標(biāo)回歸模型[1]:
Y=r(〈θ,X〉)+ε
(1)
其中,函數(shù)r(·)是未知連接函數(shù),r:R→R;θ是未知函數(shù)型單指標(biāo)參數(shù),取值于可分的Hilbert空間H;ε是隨機(jī)誤差項,滿足E(ε|X)=0;Y是標(biāo)量響應(yīng)變量;X是函數(shù)型協(xié)變量,取值于可分的Hilbert空間H。
Ferraty等[1]首先研究函數(shù)型單指標(biāo)模型式(1),給出模型的核估計,并討論了估計量的漸進(jìn)性質(zhì),但并沒有給出單指標(biāo)函數(shù)的估計;隨后,Ait-Sa?di等[2]提出采用交叉驗證方法估計未知的單指標(biāo)參數(shù),基于固定帶寬,采用核估計得到未知的連接函數(shù),并給出了估計量的漸近一致收斂速度;Attaoui等[3]利用核方法研究函數(shù)型單指標(biāo)模型的條件密度估計,給出估計量的逐點和一致幾乎完全收斂速度,特別地,他們利用擬極大似然估計研究了單指標(biāo)參數(shù);Ferraty等[4]基于泛函導(dǎo)數(shù)估計提出一種新的估計方法;Said等[5]在強(qiáng)混合時間序列情況下,得到基于固定帶寬的條件密度核估計量在一般條件下的均勻幾乎完全收斂速度和漸近正態(tài)性,同時給出了估計量的置信區(qū)間;此外,Ding等[6]研究一類函數(shù)型部分線性單指標(biāo)模型并提出一種結(jié)合局部常數(shù)平滑的剖面最小二乘法來估計斜率函數(shù)和連接函數(shù)。近年來,Novo等[7]第一次在獨立條件下,在函數(shù)型半?yún)?shù)模型采用k近鄰來估計未知連接函數(shù),并討論單指標(biāo)已知與未知時估計量的漸近一致收斂速度,同時采用交叉驗證來估計未知的單指標(biāo)參數(shù)。但是,他們是在獨立樣本的條件下研究的,沒有考慮相依情況下的函數(shù)型數(shù)據(jù)。
上述所有涉及的貢獻(xiàn)都是在完全觀測樣本下發(fā)生的。然而,許多實際工作中,如市場調(diào)查、醫(yī)學(xué)研究、信度檢驗等,一些觀察結(jié)果可能不完整,通常被稱為缺失數(shù)據(jù),其統(tǒng)計分析因為內(nèi)容很少或者缺失,變得非常困難和具有挑戰(zhàn)性。隨機(jī)缺失是最基本的,也是應(yīng)用最廣泛的關(guān)于缺失機(jī)理的假設(shè)。在解釋變量為有限維時,可以在統(tǒng)計文獻(xiàn)中找到許多這種情況的例子及其回歸模型的統(tǒng)計推斷。當(dāng)解釋變量為無限的情況或有函數(shù)型特征時,有很少的文獻(xiàn)研究缺失數(shù)據(jù)的模型,僅有Ferraty等[8]基于獨立同分布樣本研究了響應(yīng)變量隨機(jī)缺失的函數(shù)型非參數(shù)回歸模型;Ling等[9]同樣基于函數(shù)型非參數(shù)模型,利用函數(shù)型平穩(wěn)遍歷數(shù)據(jù)研究了未知估計量的漸近性質(zhì)。近年來,Febrero-Bande等[10]基于函數(shù)型線性回歸模型,對于獨立同分布樣本下的標(biāo)量響應(yīng)隨機(jī)缺失的函數(shù)型數(shù)據(jù),提出一種效率更高的新模型估計方法;Ling等[11]則對于響應(yīng)變量隨機(jī)缺失的強(qiáng)混合時間序列數(shù)據(jù),研究了函數(shù)型單指數(shù)回歸模型的未知參數(shù)和未知函數(shù)的估計,同時在一些正則條件下,得到了估計量的一致幾乎完全收斂速度以及漸近正態(tài)性。
綜上所述,函數(shù)型數(shù)據(jù)分析方法大多是在獨立同分布的情形下研究的,與之相比,具有強(qiáng)混合時間序列的數(shù)據(jù)分析并沒有受到廣大學(xué)者的足夠重視。函數(shù)型單指標(biāo)模型作為一種半?yún)?shù)模型,同時具有參數(shù)模型和非參模型的優(yōu)勢,通常的估計方法一般為經(jīng)典核方法,具有更強(qiáng)數(shù)據(jù)適用性的k近鄰方法并沒有被普及,且同時對于響應(yīng)變量隨機(jī)缺失的情形,參考文獻(xiàn)至今未被研究。但是響應(yīng)變量隨機(jī)缺失的缺失數(shù)據(jù),以及具有強(qiáng)混合結(jié)構(gòu)的函數(shù)型時間序列數(shù)據(jù)是一類重要的亟待處理的問題。
受以上論文的啟發(fā),本文在強(qiáng)混合函數(shù)型時間序列數(shù)據(jù)和響應(yīng)變量隨機(jī)缺失下研究模型式(1)。利用具有局部窗寬的k近鄰方法估計給出未知連接函數(shù)的估計量,改進(jìn)了具有全局窗寬的函數(shù)型經(jīng)典核方法。k近鄰方法可以自適應(yīng)調(diào)整窗寬,對數(shù)據(jù)具有更好的適用性,利用模擬研究對比k近鄰方法和函數(shù)型經(jīng)典核方法的估計精度,驗證所提模型和方法的有效性。同時,用兩種估計方法對同一個實際例子進(jìn)行分析擬合,通過實際數(shù)據(jù)擬合的好壞進(jìn)一步說明k近鄰估計方法的優(yōu)越性。
文章的剩余部分如下:第一章給出了模型的估計方法,第二章進(jìn)行了數(shù)值模擬,第三章給進(jìn)行了實例分析,在第四章給出了結(jié)論。
考慮以下函數(shù)型單指標(biāo)模型:
Y=r(〈Xi,θ〉)+εi,i=1,2,…,n
(2)
假設(shè){(Xi,δi,Yi),1≤i≤n} 是一列來自總體 (X,δ,Y) 的函數(shù)型數(shù)據(jù)樣本,Yi∈R;Xi∈H;θ∈θ(t),取值于可分的 Hilbert 空間H,t∈R;d(·,·) 為空間H上的半度量,dθ(x1,x2)=|〈x1-x2,θ〉|;εi要滿足E(εi|Xi)=0;同時當(dāng)Yi缺失時,δi=0, 否則δi=1; 假設(shè)P(δi=1|Yi,xi)=P(δi=1|xi)=p(xi),i=1,2,…,n。
類似于Ling等[11],r(〈θ,x〉) 的k近鄰估計量構(gòu)造如下:
其中,
上式中包含的K(·) 為核函數(shù), 而Hn,k,θ(x) 為隨機(jī)窗寬,定義如下:
其中,Bθ(x,h) 為以x為中心,h(h>0) 為半徑的小球 ,IBθ(x,h)(·) 為集合的示性函數(shù)。若Hn,k,θ(x)=hn(x), 其中hn(x) 為一列非負(fù)隨機(jī)正序列, 且隨著n→∞,hn(x)→0,則類似于Kudrasz等[11]提出的經(jīng)典核估計, 窗寬依賴于固定點, 表達(dá)式如下:
實際操作中,函數(shù)型單指標(biāo)θ無法通過先驗知識知曉, 為此需要一個估計它的方法。 這里和Ling等[11]一致, 借用Ding等[7]的一個想法, 采用剖面最小二乘法結(jié)合局部平滑常數(shù)技術(shù)來估計θ。
下面給出估計流程。
步驟1 構(gòu)建含參數(shù)(θ)的目標(biāo)損失函數(shù):
步驟2 基于剖面最小二乘法,結(jié)合局部平滑常數(shù)技術(shù)來估計θ。將θ分解為協(xié)方差函數(shù)主成分分解得到的基函數(shù)的累加和形式,同時確定主成分基函數(shù)的數(shù)目,最后將估計函數(shù)的問題變?yōu)楣烙嫽瘮?shù)前系數(shù)的問題。
步驟3 步驟1的含參(θ)目標(biāo)函數(shù),變?yōu)榱宋粗康幕瘮?shù)前系數(shù),對損失函數(shù)求解最小值得到系數(shù)。
本節(jié)的目的是通過模擬對比k近鄰方法(kNN)與經(jīng)典核方法(NW), 以驗證本文所提方法的有效性。基于模型式(2), 函數(shù)型解釋變量Xi=Xi(t)由以下函數(shù)生成:
圖1 曲線xi=1,…,200(tj),tj=1,…,100∈[0,π/3]Fig.1 Curve xi=1,…,200(tj),tj=1,…,100∈[0,π/3]
函數(shù)型單指標(biāo)參數(shù)構(gòu)造如下:
本文的θ(t) 估計方法同Ling 等[11]一致,用積分平方誤差FRISE作為評價指標(biāo)來評價θ(t)估計的好壞。
本文的缺失機(jī)制,參考Ling等[11],缺失機(jī)制滿足:
其中,p(x)=P(δ=1|X=x),對任意w∈R,有exgit(w)=ew/(1+ew)。這里參數(shù)α控制缺失率,當(dāng)α增加時,缺失率下降,這里選取α=2。
如表1所示,模擬研究了單指標(biāo)θ已知、未知情形下,k近鄰方法與經(jīng)典核方法預(yù)測效果的好壞,評價指標(biāo)為平均均方誤差;同時也考慮k近鄰方法與經(jīng)典核方法對未知參數(shù)θ的估計優(yōu)劣。模擬時,將樣本分為訓(xùn)練集與預(yù)測集,用訓(xùn)練集來訓(xùn)練帶寬,其中經(jīng)典核方法為全局最優(yōu)帶寬,k近鄰方法為自適應(yīng)窗寬,它可以基于樣本得到一個個局部窗寬,對樣本的適應(yīng)性更優(yōu)。為了方便,預(yù)測集樣本量統(tǒng)一設(shè)置為100。表1中的n為訓(xùn)練集樣本量,同時對每個樣本重復(fù)200次。
表1 兩種方法在不同樣本量下的積分平方誤差和 平均均方誤差Table 1 The integral square error and mean square error of the two methods under different sample sizes
從表1可以看出:在單指標(biāo)θ未知情況下,預(yù)測集中,k近鄰方法的估計精度要優(yōu)于經(jīng)典核方法。在訓(xùn)練樣本量為100時,相比于經(jīng)典核方法,k近鄰方法對應(yīng)的平均均方誤差下降了47%,在訓(xùn)練樣本量為300時,下降了60%。這說明隨著樣本量增加,k近鄰方法比經(jīng)典核方法估計效果更優(yōu)。
在單指標(biāo)θ已知情況下,同樣在預(yù)測集中,k近鄰方法的估計精度也要優(yōu)于經(jīng)典核方法,同樣地,隨著樣本量的增加,k近鄰方法的改進(jìn)幅度要大于經(jīng)典核方法。在訓(xùn)練樣本量為100時,相比于經(jīng)典核方法,k近鄰方法對應(yīng)的平均均方誤差下降了45%,在訓(xùn)練樣本量為300時,下降了60%,且相比于θ未知的時候,k近鄰方法與經(jīng)典核方法估計精度都得到了提高。因此,對θ估計效果的好壞也是影響最終估計效果的一個重要因素。
從表1可以看出:在估計θ時,k近鄰方法的表現(xiàn)也要優(yōu)于經(jīng)典核方法,同時隨著樣本量的增大,k近鄰方法對θ估計效果的提升也要高于經(jīng)典核方法。在訓(xùn)練樣本量為100時,相比經(jīng)典核方法,k近鄰對應(yīng)的平均均方誤差下降了37%,在訓(xùn)練樣本量為300時,下降了39%。
在訓(xùn)練集中,k近鄰方法的表現(xiàn)也同樣優(yōu)于經(jīng)典核方法。
在訓(xùn)練集中,當(dāng)θ未知時,可以看到k近鄰方法的估計精度要優(yōu)于經(jīng)典核方法。隨著樣本量的增加,k近鄰方法的改進(jìn)幅度要大于經(jīng)典核方法。在訓(xùn)練樣本量為100時,相比于經(jīng)典核方法,k近鄰方法對應(yīng)的平均均方誤差下降了46%,在訓(xùn)練樣本量為300時,下降了69%。
在訓(xùn)練集中,當(dāng)θ已知時,可以看到k近鄰方法的估計精度同樣也要優(yōu)于經(jīng)典核方法。隨著樣本量的增加,k近鄰方法的改進(jìn)幅度要大于經(jīng)典核方法。在訓(xùn)練樣本量為100時,相比于經(jīng)典核方法,k近鄰方法對應(yīng)的平均均方誤差下降了47%,在訓(xùn)練樣本量為300時,下降了70%。
綜上可以看出:k近鄰方法基于樣本本身自適應(yīng)調(diào)整帶寬,其表現(xiàn)要優(yōu)于經(jīng)典核方法,因為核方法的帶寬是全局固定帶寬,并不會針對樣本本身進(jìn)行自適應(yīng)調(diào)整;同時k近鄰方法的表現(xiàn)隨著樣本量的增加,估計效果相較于經(jīng)典核方法提升明顯。基于樣本自適應(yīng)調(diào)整帶寬的k近鄰方法依賴于樣本本身,隨著樣本量的增加,其效果更優(yōu)。
圖2為k近鄰方法與經(jīng)典核方法在預(yù)測集的平均均方誤差箱線圖,考慮訓(xùn)練集樣本量為200的情形,進(jìn)行了200次獨立重復(fù)實驗。
圖2 kNN與NW預(yù)測集平均均方誤差Fig.2 Mean square error of kNN and NW prediction sets
圖2中,4個箱線圖從左到右依次是θ未知時k近鄰方法對應(yīng)的平均均方誤差,θ未知時經(jīng)典核方法對應(yīng)的平均均方誤差,θ已知時k近鄰方法對應(yīng)的平均均方誤差,θ已知時經(jīng)典核方法對應(yīng)的平均均方誤差。
從圖2左邊兩個圖,可以明顯看出:無論是θ未知還是已知,k近鄰方法對應(yīng)的平均均方誤差均明顯優(yōu)于經(jīng)典核方法,k近鄰方法對應(yīng)的平均均方誤差要更集中且整體數(shù)值也要小;同時,在θ已知時,k近鄰方法以及經(jīng)典核方法對應(yīng)的平均均方誤差相較于θ未知時都得到了一定改善;無論θ已知還是未知,相比于k近鄰方法,經(jīng)典核方法對應(yīng)的平均均方誤差的離群值要多一些。
綜上,在預(yù)測集上,從k近鄰方法與經(jīng)典核方法對應(yīng)的平均均方誤差的箱線圖中,可以得到k近鄰方法要優(yōu)于經(jīng)典核方法的結(jié)論。
圖3為k近鄰與經(jīng)典核方法在訓(xùn)練集的平均均方誤差箱線圖,同樣考慮是樣本量為200的情形,進(jìn)行了200次獨立重復(fù)實驗。
圖3 kNN與NW訓(xùn)練集平均均方誤差Fig.3 Mean square error of kNN and NW training sets
圖3中,4個箱線圖從左到右依次是θ未知時k近鄰方法對應(yīng)的平均均方誤差,θ未知時經(jīng)典核方法對應(yīng)的平均均方誤差,θ已知時k近鄰方法對應(yīng)的平均均方誤差,θ已知時經(jīng)典核方法對應(yīng)的平均均方誤差。
從圖3可以看出:在訓(xùn)練集中,無論θ未知還是已知,k近鄰方法對應(yīng)的平均均方誤差同樣是優(yōu)于經(jīng)典核方法,k近鄰方法對應(yīng)的平均均方誤差的集中性以及在數(shù)值大小上的表現(xiàn)與在預(yù)測集上一樣優(yōu)于經(jīng)典核方法;無論θ是已知還是未知,k近鄰方法的離群值要少于經(jīng)典核方法。
綜上,在訓(xùn)練集上,從k近鄰方法與經(jīng)典核方法對應(yīng)的平均均方誤差的箱線圖中,可以得到k近鄰方法優(yōu)于經(jīng)典核方法的結(jié)論。
圖4為k近鄰方法與經(jīng)典核方法在訓(xùn)練集中估計效果的對比圖,橫坐標(biāo)為真值,縱坐標(biāo)為估計值,其中藍(lán)色點為k近鄰方法,黑色點為經(jīng)典核方法,這里θ是未知的。從圖中可以明顯看出:k近鄰方法估計效果要優(yōu)于經(jīng)典核方法,其對應(yīng)點明顯靠近y=x直線,即圖4中紅色的直線。
圖4 kNN與NW 在訓(xùn)練集中比較Fig.4 Comparison between kNN and NW
這部分進(jìn)行實例分析,分析EL Nino地域(0~100 s,800~900 w),時間跨度為1982-01—2016-12的海平面月溫度數(shù)據(jù)。數(shù)據(jù)來源:http://www.cpc.ncep.noaa.gov/data/indices/。本節(jié)的目的是利用真實數(shù)據(jù)比較k近鄰與經(jīng)典核估計的優(yōu)劣,比較k近鄰方法與經(jīng)典核方法對真實數(shù)據(jù)的預(yù)測效果,同時采用與上一節(jié)模擬相同的隨機(jī)缺失機(jī)制,對數(shù)據(jù)的處理方式參考Ling等[15]。
首先,將816個月的海平面月溫度數(shù)據(jù){zi,i=1,2,…,816}轉(zhuǎn)化為函數(shù)型數(shù)據(jù):將816個月的溫度離散化數(shù)據(jù)分割成68a的溫度曲線數(shù)據(jù),將其表示為xi={vj(t),12(j-1)+4 圖5 溫度曲線Fig.5 Curves of temperature 響應(yīng)實變量可以表示為Yi(s)={v12(j+s),s=1,2,…,12;j=1,2,…,67}?,F(xiàn)在可以建立樣本量為67的相依樣本(xi,Yi(s))i=1,2,…,67,其中xi為函數(shù)型數(shù)據(jù),Yi(s)為實值。 將67個樣本觀測值(xi,Yi(s))i=1,2,…,67分成兩個部分,一部分是學(xué)習(xí)樣本(xi,Yi(s))i=1,2,…,66用于建立模型,另一部分是檢驗樣本(x67,Y67(s))。建模過程核函數(shù)的選取與數(shù)值模擬的核函數(shù)一致。 最后用k近鄰方法和經(jīng)典核方法預(yù)測第68個數(shù)據(jù),結(jié)果如圖6所示:紅色折線為k近鄰方法的預(yù)測值,藍(lán)色折線為經(jīng)典核方法的預(yù)測值,黑色折線為數(shù)據(jù)真值。 圖6 kNN與NW預(yù)測比較Fig.6 Comparison between kNN and NW prediction 可以看到利用k近鄰方法得到的均方誤差(0.437 55)要小于經(jīng)典核方法(0.997 43),在真實數(shù)據(jù)中,k近鄰方法的表現(xiàn)同樣保持優(yōu)異。同時從曲線貼合度來看,k近鄰方法優(yōu)于經(jīng)典核方法,即k近鄰方法估計的預(yù)測值更接近于真實值。 從曲線的變化趨勢上來看,k近鄰方法也要優(yōu)于經(jīng)典核方法。氣溫在12月進(jìn)入拐點,在這之后到3月氣溫保持相對平穩(wěn)不變,雖然在11月和12月,k近鄰方法和經(jīng)典核方法預(yù)測的氣溫走勢都與真實氣溫數(shù)據(jù)走勢相反,但是在12月到1月以及2月到3月,經(jīng)典核方法預(yù)測的氣溫走勢與真實數(shù)據(jù)是相反的,此時k近鄰方法預(yù)測的氣溫走勢與真實氣溫數(shù)據(jù)一致,更能說明真實氣溫的走勢情況。由此可以看出:k近鄰方法預(yù)測的氣溫走勢相比于經(jīng)典核方法,更接近于真實數(shù)據(jù)。 在每個月份的估計效果上,k近鄰方法都優(yōu)于經(jīng)典核方法,其中5月、6月、7月、8月優(yōu)越性表現(xiàn)更為明顯。 這說明k近鄰方法用數(shù)據(jù)本身自適應(yīng)調(diào)整帶寬能夠很好地改進(jìn)估計效果及精度,相比于全局固定帶寬的經(jīng)典核方法表現(xiàn)要好很多。 經(jīng)過上述分析可以看出:數(shù)值模擬中無論是訓(xùn)練集還是預(yù)測集,相對于經(jīng)典核方法,采用k近鄰方法可以明顯改進(jìn)估計效果,同時對于單指標(biāo)θ的估計,k近鄰方法比經(jīng)典核方法要好,且隨著樣本量的增加,k近鄰的提升效果要明顯優(yōu)于經(jīng)典核方法。 從實例分析來看:k近鄰方法在精確度以及穩(wěn)定性上也都優(yōu)于經(jīng)典核方法,這說明采用k近鄰對時間數(shù)據(jù)進(jìn)行估計,其表現(xiàn)更加優(yōu)異。這是因為核估計好壞主要受帶寬的選取影響,k近鄰方法基于數(shù)據(jù)本身,自適應(yīng)調(diào)整帶寬,可以更好地改進(jìn)估計效果,而經(jīng)典核方法采用的帶寬為全局最優(yōu)帶寬,無法依托于數(shù)據(jù)本身進(jìn)行自適應(yīng)調(diào)整,對數(shù)據(jù)的適應(yīng)性較差。從模擬和實例分析的結(jié)果來看:自適應(yīng)調(diào)整帶寬的k近鄰方法的估計效果比經(jīng)典核方法的估計效果要好。 綜上可以得到:k近鄰方法在響應(yīng)變量隨機(jī)缺失的時間序列單指標(biāo)模型中表現(xiàn)優(yōu)異,無論是模擬還是實例分析,其估計效果都明顯優(yōu)于經(jīng)典核方法。5 結(jié) 論