• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      模型平均輔助抽樣估計方法研究

      2023-07-13 10:32:00陳茜儒賀建風
      統(tǒng)計與決策 2023年9期
      關(guān)鍵詞:估計量總體準則

      陳茜儒,賀建風

      (1.廣東金融學院 金融數(shù)學與統(tǒng)計學院,廣州 510630;2.華南理工大學 經(jīng)濟與金融學院,廣州 510006)

      0 引言

      隨著現(xiàn)代信息技術(shù)的飛速發(fā)展,各行各業(yè)的平臺系統(tǒng)規(guī)模迅速擴大,所產(chǎn)生的數(shù)據(jù)量呈現(xiàn)指數(shù)級增長,大數(shù)據(jù)已經(jīng)成為經(jīng)濟社會的資源寶庫。與此同時,大數(shù)據(jù)時代的到來也為抽樣調(diào)查提供了更多可利用的輔助信息,這有助于提高估計精度。為了在抽樣估計環(huán)節(jié)中利用輔助信息,傳統(tǒng)的做法是建立研究變量和輔助變量之間的超總體回歸模型,以此來調(diào)整和改進基于設(shè)計的隨機化估計結(jié)果,這種方法被稱為模型輔助抽樣估計方法。其中,模型的構(gòu)建及模型的擬合效果是決定這種方法能否改進隨機化估計的關(guān)鍵之所在。因此,為推動大數(shù)據(jù)與抽樣估計方法的融合發(fā)展,必須要考慮如何根據(jù)大數(shù)據(jù)下的輔助信息特征來構(gòu)建合適的模型以進行輔助估計。

      大數(shù)據(jù)背景下,輔助變量的一個重要特征就是數(shù)據(jù)維度過高,這導致在超總體建模過程中通常存在變量選擇或模型選擇的不確定性問題,進而影響模型輔助抽樣的估計效果。在此特征下,如何利用多維甚至高維輔助變量進行抽樣估計,是推動模型輔助抽樣估計方法進一步發(fā)展亟須解決的技術(shù)難題。因此,需要綜合考察模型擬合效果和模型簡潔性以得到最優(yōu)估計結(jié)果,同時應盡可能利用更多輔助信息提高模型輔助抽樣估計效率。對于這類問題,一般有模型選擇和模型平均兩種方法,前者通常依賴數(shù)據(jù)驅(qū)動或者人為經(jīng)驗選擇單一模型,后者則通過組合多個模型并對模型估計結(jié)果進行加權(quán)平均。模型平均方法一般不會把某個選定的模型當作真實的數(shù)據(jù)產(chǎn)生過程,而是通過合理的權(quán)重將所有模型考慮在內(nèi),這為模型估計提供了一種保障機制,有效規(guī)避了模型選擇偏誤[1]。因此,在面臨多個輔助變量時,采用模型平均方法對超總體模型進行估計通常能夠得到更貼近真實值的結(jié)果,這有助于綜合多個模型的輔助效果,穩(wěn)健且有效地提升抽樣估計精度。

      由于模型輔助估計方法結(jié)合了樣本概率特征和模型信息,計算簡單,且性質(zhì)良好,長期以來受到學者們的廣泛關(guān)注,并取得較為豐富的研究成果。就現(xiàn)有研究而言,主要可分為基于模型設(shè)置的研究[2—8]和結(jié)合具體問題的拓展研究[9—11]兩個方面。雖然現(xiàn)有研究已關(guān)注了模型輔助抽樣估計中模型形式的設(shè)置問題,并根據(jù)輔助變量類型及其與研究變量之間的關(guān)系特征,設(shè)定了不同的超總體模型用于輔助估計。但已有研究主要聚焦于如何構(gòu)建合適的模型,而對于應該如何選擇輔助變量的問題則關(guān)注較少。對這類問題的解決,最具代表性的就是模型平均方法。該方法主要通過設(shè)置合理的模型權(quán)重對多個可能的模型進行加權(quán)平均,能有效避免單一模型的選擇偏差,最大限度地利用多個模型信息。

      鑒于模型平均方法的估計優(yōu)勢及其理論日趨成熟,本文將在模型輔助抽樣估計的框架下,引入模型平均方法,采用該方法對線性超總體模型進行估計,并以此修正基于設(shè)計的估計,試圖提升模型輔助抽樣估計的推斷效率。同時,也將采用仿真模擬分析方法考察本文所提出的估計量的表現(xiàn),并通過實際數(shù)據(jù)驗證模型平均輔助抽樣估計方法的估計效果。

      1 模型輔助抽樣估計及模型平均方法介紹

      1.1 模型輔助抽樣估計方法

      模型輔助估計是指借助研究變量與輔助信息之間的相關(guān)關(guān)系構(gòu)建相應的超總體模型,并以此作為輔助工具改進基于設(shè)計的估計方法。本文以模型輔助抽樣估計方法中較為經(jīng)典的GREG估計量為例進行介紹。

      可以證明β?是總體參數(shù)β的漸近設(shè)計無偏估計量,從而得到擬合值m?(xi)=x'i β?。那么可根據(jù)廣義差分估計方法建立起HT估計量與輔助信息之間的聯(lián)系,得到廣義回歸估計量:

      1.2 模型平均方法

      模型平均方法的思想是通過對多個模型的估計結(jié)果進行加權(quán)平均,進而得到平均估計或平均預測結(jié)果,其中模型權(quán)重的選擇是決定模型平均估計或預測結(jié)果效果的重要因素。本文將介紹基于Mallows準則和信息準則兩種權(quán)重選擇方法的模型平均方法。

      從以上過程可以看出,權(quán)重wr的選擇是采用模型平均方法進行估計的核心問題。為此,Hansen(2007)[12]將Mallows 準則引入模型平均方法的研究中,提出用于模型平均的Mallows準則:

      此外,基于AIC和BIC信息準則,Buckland等(1997)[13]提出了光滑AIC模型平均方法(S-AIC)和光滑BIC模型平均方法(S-BIC),具體的模型權(quán)重為:

      其中,xICr=-2 log(Lr)+qr,Lr表示模型的似然函數(shù),qr表示關(guān)于模型變量維度的懲罰項。當qr=2k時,該公式為AIC 表達式;當qr=klog(n)時,該公式為BIC 表達式。其中,k表示變量維度,n為樣本個數(shù)。通過式(8)計算模型權(quán)重的模型平均方法稱為S-AIC 和S-BIC 模型平均方法。

      2 模型平均輔助抽樣估計量構(gòu)建及其統(tǒng)計性質(zhì)

      2.1 模型平均輔助抽樣估計量構(gòu)建

      考慮多維輔助變量xi=(1 ,xi1,…,xiK)',i∈U,這里可以沿用式(1)建立研究變量和全部輔助變量之間的線性超總體模型,并運用模型平均法對式(1)進行估計。類似地,從K個潛在變量中任選k個輔助變量構(gòu)成若干子模型,同樣設(shè)置單一超總體模型為正態(tài)線性模型:

      在運用模型平均輔助抽樣估計時,需要事先確定式(10)中的模型權(quán)重wr的選擇方法,這里主要采用基于Mallows 準則和基于信息準則的模型權(quán)重選擇方法。其中,基于信息準則的權(quán)重計算方法與前文介紹較為一致,這里不再贅述。但基于Mallows準則的權(quán)重計算方法涉及基于總體數(shù)據(jù)的最小二乘估計,這里可以采用與式(2)類似的做法,根據(jù)HT估計進行加權(quán)最小二乘估計,進而得到基于樣本數(shù)據(jù)的Mallows準則。

      2.2 模型平均輔助抽樣估計量的統(tǒng)計性質(zhì)

      考慮規(guī)模為N的有限總體遞增序列UN,其中,U1?U2?…?UN?…。對于每個有限總體UN,可以按照抽樣設(shè)計PN(sN)抽取一個大小為nN的樣本sN,該樣本的一階包含概率和二階包含概率分別為πi和πij。本文漸近性質(zhì)的框架假定N是趨于無窮的,在此框架下,樣本規(guī)模nN也是趨于無窮的。為了得到具備漸近設(shè)計無偏性和設(shè)計一致性的MA輔助估計量①在不同的模型權(quán)重計算方法下,MA輔助估計量可分為由Mallows準則計算權(quán)重的MMA估計量,以及由信息準則計算權(quán)重的S-AIC和S-BIC估計量,不失一般性,本文以MMA估計量為代表給出MA輔助估計量的漸近性質(zhì)及相關(guān)證明。,這里給出如下假設(shè):

      其 中,假 設(shè)1 至 假 設(shè)5 是 借 鑒Robinson 和S?rndal(1983)[5]關(guān)于GREG估計量性質(zhì)研究的相關(guān)假定,類似假定也被用于非參數(shù)回歸估計量的設(shè)定;假設(shè)6和假設(shè)7則是滿足Mallows準則下的MA輔助估計漸近最優(yōu)性的基本條件。

      定理1:在假設(shè)1 至假設(shè)7 下,MA 輔助估計量滿足漸近設(shè)計無偏性和設(shè)計一致性②由于篇幅限制,定理1及定理2的相關(guān)證明未在文中展示。。

      性質(zhì)1:漸近設(shè)計無偏性。

      性質(zhì)2:設(shè)計一致性。

      定理2:給定假設(shè)1至假設(shè)7,有:

      定理2說明MA輔助估計量的漸近均方誤差和其方差具有漸近等價性,這表明MA輔助估計量的估計誤差主要受抽樣機制影響,而非模型擬合。

      定理3:在假設(shè)1至假設(shè)7下,有:

      3 數(shù)值模擬

      3.1 模擬設(shè)計

      本文的研究是建立在模型輔助抽樣估計方法的基礎(chǔ)上的,目的是解決在面臨輔助變量選擇時,怎樣充分有效地利用輔助信息改進傳統(tǒng)的GREG估計量。因此,接下來的模擬過程將以GREG估計量為基準估計量,對MA輔助抽樣估計量展開對比分析。具體考察的估計量如表1所示。

      表1 所考察的抽樣估計量

      由于本文主要考察存在多個待選輔助變量時,如何進行輔助抽樣估計的問題,這里構(gòu)造一組包含多個輔助變量信息的總體,具體而言,將生成一組包含10個輔助變量和7個目標變量的研究總體[14],其中輔助變量服從以下分布:X1~U[0,1],X2~N(0,1),X3~Beta(3,1),X4~2×Gamma(3,2),X5~Bernoulli(0.7),其余5個輔助變量V1,V2,…,V5都服從均勻分布U[-1,1]。為了反映輔助變量對研究變量影響的差異,不妨設(shè)定G(X)=2X1+1.5X2+X3+0.5X4+0.005X5,表明X1至X5對研究變量的影響是依次遞減的,且其他輔助變量與研究變量無關(guān)。進一步根據(jù)以下超總體回歸模型生成模擬中用到的總體目標函數(shù):

      本文關(guān)于模型平均輔助估計量的研究是在超總體模型為線性模型的假定下展開的,因此在具有不同線性程度的總體下比較各估計量的估計效果很有必要。以上設(shè)置的7個回歸函數(shù)分別反映了不同的線性程度,總體上可以認為從Y1至Y7回歸函數(shù)具有的線性程度越來越低。

      另外,以上7個總體目標函數(shù)的生成均基于G(X),表明所生成的研究變量僅和輔助變量X1,X2,…,X5存在相關(guān)關(guān)系,且這5 個變量的系數(shù)值依次遞減,即和研究變量的相關(guān)性依次減弱。為分析模型平均輔助抽樣估計方法在給定不同輔助變量時的估計效果,以下數(shù)值模擬過程將分別引入表2中的四組輔助變量進行分析。由表2可知,所引入的四組輔助變量分別表示變量選擇完全正確、變量選擇正確但不完全、變量包含全部正確信息及一些無效信息、變量選擇均為無效信息。

      表2 輔助變量選擇

      ①設(shè)置不同樣本數(shù)僅用于驗證估計量的漸近性質(zhì),樣本數(shù)本身不具有參考價值,實際抽樣環(huán)節(jié)可根據(jù)具體情形而定。以下的各項模擬和實際數(shù)據(jù)驗證環(huán)節(jié)亦是如此。

      其中,ty為模擬中研究變量的總體總值,sb是指第b次抽樣的樣本,MSE(t?y,greg)是GREG 估計量的均方誤差,MSE(t?y,*)是所要研究對比的估計量的均方誤差。因此相對偏差和相對效率越小表示估計量的估計效果越優(yōu),一般而言,相對效率值小于1則表明該估計量的估計誤差低于GREG估計量。

      3.2 模擬結(jié)果分析

      3.2.1 相對偏差分析

      在給定不同樣本容量、不同輔助變量及不同抽樣方式下,本文對各個估計量的相對偏差值進行了模擬分析①由于篇幅有限,這里并未展示RB值的具體估計結(jié)果。。為了直觀展示各個估計量的相對偏差表現(xiàn),表3給出了不同樣本量下RB 值的相關(guān)統(tǒng)計量。由表3 的結(jié)果可知,給定樣本量n=50,MMA估計量RB值的均值為3.7523,在所有估計量中最小,然后為S_AIC 和S_BIC 估計量;MMA 估計量RB 值的標準差為5.8077,在所有估計量中最??;MMA 估計量RB 值的最大值和最小值也在所有估計量中最小。在樣本量為100和300時,以上結(jié)論仍然成立,并且隨著樣本量的增加,多數(shù)估計量RB值的相關(guān)統(tǒng)計量均有所減小,這表明當樣本量增加時,各估計量的估計偏差將會降低,這與預期一致。以上結(jié)果說明本文提出的模型平均輔助抽樣估計量整體偏差最低,其中,MMA 估計量最優(yōu),且相較于選擇單一最優(yōu)模型進行輔助估計的方法而言,模型平均方法的穩(wěn)定性更高。

      3.2.2 相對效率分析

      本文進一步在不同情形下對比分析了各估計量的RE值。由簡單隨機抽樣下的估計結(jié)果②由于篇幅有限,這里并未展示RE值的具體估計結(jié)果。可知:(1)與GREG估計量相比,引進模型平均方法的MA輔助估計量優(yōu)勢明顯且穩(wěn)健,其中,以MMA估計量的優(yōu)勢最為突出。由模擬結(jié)果可知,各類情形下的估計結(jié)果均表明MA輔助抽樣估計量在多數(shù)情形下優(yōu)于傳統(tǒng)的GREG估計量,少數(shù)情形下也至少和GREG估計量一樣好(0.95 ≤RE ≤1.05)。(2)即使事前通過信息準則選擇最優(yōu)模型進行輔助估計(AIC 和BIC 估計),其估計誤差也大于基于模型平均的估計量。(3)對比不同輔助變量選擇下的抽樣估計結(jié)果,當選擇全部輔助變量(all)和無效輔助變量(uncorr)兩種情形時,MA輔助估計方法的估計效率明顯優(yōu)于選擇部分相關(guān)變量(part)和全部相關(guān)變量(corr),其中,MMA輔助估計量的估計效率最高。這說明在輔助信息選擇有誤時,模型平均輔助抽樣估計方法相較于傳統(tǒng)的廣義回歸估計量具有明顯優(yōu)勢。(4)在目標函數(shù)為線性函數(shù)的情形下,MA輔助估計量相對GREG估計量的優(yōu)勢不明顯;在目標函數(shù)為非線性時,MA輔助估計量的估計優(yōu)勢略有提高,尤其是在選擇全部輔助變量(all)和無效輔助變量(uncorr)時,RE 值更低。此外,通過對比不同樣本量下的估計結(jié)果可知,隨著樣本量的增大(固定抽樣方式、輔助變量選擇和目標變量等不變),模型平均輔助抽樣估計量相對于廣義回歸估計量的優(yōu)勢有所降低,這一結(jié)果與漸近理論吻合。

      為了更加直觀地比較與分析,本文對各個估計量的RE 值進行整合,給出了各個估計量RE 值的相關(guān)統(tǒng)計量,具體結(jié)果見表4。

      表4 RE值的相關(guān)統(tǒng)計量

      由表4中的結(jié)果可知:(1)三個MA輔助抽樣估計量的RE 值均值均小于1,表明在平均水平下MMA、S_AIC 和S_BIC三個估計量的估計誤差小于GREG估計量。(2)三個MA 輔助估計量中,MMA 估計量的RE 均值低于其他兩個估計量,表明其估計效果更優(yōu)。(3)對比AIC估計量和BIC估計量可以發(fā)現(xiàn),MMA 估計量的RE 均值更低,且標準差更小,說明MMA 估計量整體估計效率高于單一模型輔助估計量,且在抽樣估計中表現(xiàn)得更加穩(wěn)定。(4)隨著樣本量增加,各類估計量RE值的均值都有所增加,但RE值的標準差卻有所下降,表明隨著樣本量增加,各類估計量的估計優(yōu)勢逐漸趨同且估計效果也更加穩(wěn)定。這一結(jié)論說明在利用小樣本對總體進行估計時,模型平均輔助估計量具有較大優(yōu)勢。

      4 實際數(shù)據(jù)驗證

      4.1 數(shù)據(jù)來源及預處理

      為進一步驗證估計量t?y,fma在實際應用中的效果,本文采用2018年中國家庭追蹤調(diào)查(CFPS)家庭庫中的部分數(shù)據(jù),對模型平均輔助抽樣估計量和廣義回歸估計量的估計效果進行對比分析。選取CFPS家庭庫中的城鎮(zhèn)調(diào)查對象作為研究總體,研究變量為調(diào)查對象的家庭總收入,并選擇了食品支出、家庭藏書量等10 個變量作為輔助變量①所選輔助變量僅用于驗證各估計量的估計效果差異,本文并不討論其理論意義,在實際抽樣估計中可根據(jù)具體問題和數(shù)據(jù)可得性來獲取系列輔助變量。。在剔除缺失值和無效回答后得到5237個觀測對象,將其作為實證分析的研究總體,通過不放回簡單隨機抽樣(SI)和不放回分層隨機抽樣(STSI)兩種方式來抽取樣本,進行1000次重復抽樣,每個樣本的數(shù)量為500。為了更好地體現(xiàn)總體單位之間的差異性,分層抽樣使用10個分層,其中,層與層之間的邊界值由總體單元的輔助變量界定,本文采用輔助變量轉(zhuǎn)移性支出的等間距十分位數(shù)確定。與前文的數(shù)值模型類似,下文的實證分析也將根據(jù)相關(guān)系數(shù)和相關(guān)性檢驗結(jié)果設(shè)置四組輔助變量選擇情形。

      4.2 結(jié)果分析

      表5給出了各類估計量在實際應用中的效果對比。

      表5 基于CFPS城鎮(zhèn)數(shù)據(jù)的估計結(jié)果

      由表5 可知:(1)采用模型平均輔助抽樣估計方法的估計結(jié)果明顯優(yōu)于廣義回歸估計方法,其中,MMA輔助估計量的估計結(jié)果最優(yōu)。在各種情形下,MMA 輔助估計量以及S-AIC、S-BIC輔助估計量的相對效率值都明顯小于1,這說明模型平均輔助抽樣估計方法在實際應用中也優(yōu)于廣義回歸估計量。(2)AIC、BIC 估計量表示采用AIC、BIC等信息準則對輔助變量進行篩選后再利用廣義回歸估計量進行估計的估計結(jié)果。表5結(jié)果顯示,AIC、BIC 估計量明顯不如模型平均輔助抽樣估計量的估計效果,這說明即使事先對模型進行選擇,僅采用最優(yōu)模型輔助估計也不如模型平均輔助估計的效果,因為選擇單一模型可能會導致模型選擇偏差或有用輔助信息遺失,最終致使估計精度提高有限。(3)在不同變量組合下,當所選變量中包含無效信息時,模型平均方法下的抽樣估計量對于廣義回歸估計量的相對優(yōu)勢更加明顯,這證實了在模型不確定情形下采用模型平均輔助抽樣估計量的必要性。

      5 結(jié)束語

      本文在傳統(tǒng)模型輔助估計方法框架下,針對模型選擇的不確定性問題,將模型平均思想引入廣義回歸估計的框架中,構(gòu)造了一類模型平均輔助抽樣估計量,并進一步通過數(shù)值模擬和實證分析驗證了所提出的估計量的估計效果。結(jié)果表明,采用MA輔助估計量進行估計的結(jié)果明顯優(yōu)于傳統(tǒng)的模型輔助估計方法,能夠避免模型選擇偏差,充分利用獲得的輔助信息,顯著且穩(wěn)健地提高抽樣估計效率。模型平均輔助估計突破了傳統(tǒng)單一模型輔助估計的限制,可以在一項抽樣估計中引入多樣化的輔助信息和模型結(jié)構(gòu),未來仍具有較為廣闊的研究空間。

      猜你喜歡
      估計量總體準則
      用樣本估計總體復習點撥
      2020年秋糧收購總體進度快于上年
      具非線性中立項的二階延遲微分方程的Philos型準則
      外匯市場運行有望延續(xù)總體平穩(wěn)發(fā)展趨勢
      中國外匯(2019年6期)2019-07-13 05:44:06
      直擊高考中的用樣本估計總體
      淺談估計量的優(yōu)良性標準
      基于Canny振蕩抑制準則的改進匹配濾波器
      一圖讀懂《中國共產(chǎn)黨廉潔自律準則》
      基于配網(wǎng)先驗信息的諧波狀態(tài)估計量測點最優(yōu)配置
      電測與儀表(2015年6期)2015-04-09 12:00:50
      負極值指標估計量的漸近性質(zhì)
      永德县| 沙坪坝区| 梓潼县| 建宁县| 舟曲县| 永定县| 台江县| 菏泽市| 大冶市| 青铜峡市| 甘泉县| 新郑市| 韶关市| 富阳市| 密云县| 兰溪市| 浠水县| 清水县| 甘德县| 慈溪市| 南昌市| 拜泉县| 区。| 高州市| 嘉义市| 那曲县| 通江县| 新田县| 枝江市| 荔波县| 开封县| 清苑县| 高州市| 英超| 龙州县| 长白| 谢通门县| 宣汉县| 盘锦市| 黄浦区| 宁陕县|