楊貴軍,吳潔瓊
(天津財經(jīng)大學 a.統(tǒng)計學院;b.中國經(jīng)濟統(tǒng)計研究中心,天津 300222)
廣義回歸估計量(Generalized Regression Estimator,GREG估計量)是在社會、經(jīng)濟和人口等領域的抽樣調(diào)查中經(jīng)常使用的一類估計量[1]。加拿大、英國等諸多國家的政府統(tǒng)計部門已廣泛運用GREG估計量構建抽樣調(diào)查估計體系,如加拿大勞動力調(diào)查(LFS)。關于GREG估計量的研究很多,但很少有文獻在系統(tǒng)性應用GREG估計量時,考慮GREG估計量的假設條件。傳統(tǒng)的GREG估計量假設域與域之間是相互獨立的,忽略了域值間聯(lián)系,如域總值、域均值等域特征值間的相關關系。更多的實際情況下,域值與域值間并非是獨立的,調(diào)查變量的域值互為約束,隨著域的變化呈特定的變化趨勢。如全國工資統(tǒng)計抽樣調(diào)查中分行業(yè)人均工資的估計,由一產(chǎn)農(nóng)林牧漁業(yè),到二產(chǎn)制造業(yè)、三產(chǎn)信息傳輸、計算及服務和軟件業(yè)、金融業(yè),行業(yè)內(nèi)學歷為本科及以上的人員占比、行業(yè)平均工資等變量隨之呈遞增趨勢。在利用樣本對總體估計時,忽視目標變量域值具有的特定趨勢,將增大估計量方差,降低估計精度。Oliva等使用形狀約束下的HT估計量估計美國高校畢業(yè)生的年平均收入,結(jié)果表明,較傳統(tǒng)的HT估計量,形狀約束下的HT估計量置信區(qū)間更小,精度更高[2]。
GREG估計量的研究主要圍繞擴展GREG估計量應用場景和提高GREG估計量估計精度兩個方面。Cassel等提出GREG估計量,并證明在輔助變量與目標變量線性回歸方程過原點情況下,GREG估計量在所有設計線性無偏估計量中估計精度最高[3]。GREG估計量精度高、易構建,應用領域不斷拓展。Estevao等歸納加拿大統(tǒng)計局的廣義估計系統(tǒng),提出應用于單階段整群抽樣、多階段輔助抽樣的GREG估計量[4]。陳光慧在總結(jié)加拿大等國家成功經(jīng)驗的基礎上,嘗試引進廣義回歸估計系統(tǒng),并應用到中國連續(xù)多階段抽樣中[5]。然而對于GREG估計量,超總體模型設定不準確將降低GREG估計量的估計精度[6]。對此,眾多學者嘗試利用非參數(shù)回歸模型建立目標變量和輔助變量間的關系模型,不需要對超總體模型設定。Breidt等分別基于局部多項式回歸、樣條回歸、廣義相加模型回歸等構建超總體模型[7-9]。陳光慧和吳默妮通過借鑒局部多項式,對原始輔助變量信息進行擴展,得到原始輔助變量多次方形式的新輔助變量,基于新輔助變量提出廣義最優(yōu)回歸估計量[10]。然而這些提高精度的方法都需要額外的調(diào)查信息,增大調(diào)查成本,部分信息甚至難以全部獲取,使得估計方法很難廣泛使用。本文擬借助輔助變量域值的排序信息構建含約束的GREG估計量,在既有的輔助信息域值已知的條件下提高估計量精度。
含單調(diào)約束的GREG估計量所借助的輔助變量需要滿足其域值的變化趨勢同目標變量域值的變化趨勢一致的條件。該條件在農(nóng)業(yè)調(diào)查、環(huán)境調(diào)查等大部分調(diào)查中都是易于滿足的。一方面,在調(diào)查中輔助變量選取階段,輔助變量同目標變量的相關關系是選取輔助變量的重要標準之一,輔助變量的增長速度和目標變量增長速度越一致,估計量的精度越高。因此,大多數(shù)抽樣調(diào)查中,輔助變量的域特征值同目標變量的域特征值的變化趨勢是一致的,如農(nóng)業(yè)調(diào)查中利用養(yǎng)殖場(戶)輔助估計牛羊禽的存欄量,隨著養(yǎng)殖場(戶)的增加,牛羊禽的存欄量增長。另一方面,隨著大數(shù)據(jù)技術發(fā)展,輔助信息的來源愈加豐富,行政記錄、互聯(lián)網(wǎng)數(shù)據(jù)等各種類型的信息作為輔助信息被引入到抽樣調(diào)查中。這為探尋到同目標變量域值變化趨勢更加一致的輔助變量提供了現(xiàn)實基礎,使得含單調(diào)約束的GREG估計量的應用前景更加廣闊。
本文首先通過總結(jié)GREG估計量特點,在目標變量域值和輔助變量域值變化趨勢一致情況下,利用GREG估計量的保序回歸構建含單調(diào)約束的GREG估計量,并從理論上證明其優(yōu)良性。其次,通過數(shù)值模擬的方法,在輔助變量域均值增長模型和超總體模型的各種組合下,分析比較含單調(diào)約束的GREG估計量和傳統(tǒng)GREG估計量的估計效果,驗證含單調(diào)約束的GREG估計量的應用優(yōu)勢。最后,使用中國健康與營養(yǎng)調(diào)查數(shù)據(jù),演示含單調(diào)約束的GREG估計量的應用效果。
(1)
(2)
(3)
(4)
與經(jīng)典的HT估計量相比,GREG估計量借助輔助信息對目標變量的估計量進行校準,估計精度更高。然而,GREG估計量忽略了域和域之間的相互聯(lián)系,在域總值呈特定趨勢情況下,估計結(jié)果存在背離目標變量趨勢的可能,特別是在小樣本下,估計量精度低。含單調(diào)約束的GREG估計量是在GREG估計量的保序回歸基礎上構建而成,能夠在不增加調(diào)查信息的情況下,借助輔助域值排序信息,提高GREG估計量精度。結(jié)合GREG估計量的特點,在構建含單調(diào)約束的GREG估計量時需注意三點,一是含單調(diào)約束的GREG估計量所借助的輔助變量,其域值變化趨勢同目標變量的域值變化趨勢需一致。輔助變量和目標變量域值變化趨勢的相關關系既可以由前期數(shù)據(jù)歸納得出,也可以由理論推導得出。同時,行政記錄、互聯(lián)網(wǎng)數(shù)據(jù)等資源的引入極大地豐富了輔助變量的來源,為獲取域值變化趨勢同目標變量一致的輔助變量提供了現(xiàn)實基礎。二是含單調(diào)約束的GREG估計量所需的輔助變量信息同GREG估計量所需的輔助變量信息相同,均為樣本單元的輔助變量信息和輔助變量的域特征值。含單調(diào)約束的GREG估計量借助輔助變量域值的排序信息作為約束條件,提高GREG估計量精度,無需額外調(diào)查信息。三是GREG估計量的估計精度與目標變量和輔助變量之間的相關性密切相關。應用含單調(diào)約束的GREG估計量,需要考慮目標變量與輔助變量的相關關系對估計量的影響。
本節(jié)擬在目標變量域值同輔助變量域值變化趨勢一致情況下,通過借助輔助變量域值的變化趨勢,構建含單調(diào)約束的GREG估計量,約束目標變量域值估計量的變化趨勢。
(5)
其中,域i的順序不高于域t,域j的順序不低于域t,si:j是域i到域j中所有的樣本單元。
(6)
(7)
(8)
(9)
借鑒史寧中和Wu對保序回歸的研究方法,研究含單調(diào)約束的GREG估計量的性質(zhì)[12-13]。首先需要以下的假設條件:
假設1:當N→∞時,Nt/N在[0,1]內(nèi),t=1,2,…,T;
假設3:GREG估計量協(xié)方差的極限滿足0
(10)
(11)
其中Σ是T×T維可逆矩陣,矩陣元素為Σtm。
假設1和假設2是總體中域數(shù)量和域均值的有界性假設。在大部分抽樣中,例如中國農(nóng)業(yè)抽樣調(diào)查、全國人口調(diào)查等,假設1和假設2均成立。假設3、假設4和假設5是為確保估計量具有漸進無偏性的假設,在Fuller的研究中有類似的假設,對于HT估計量、GREG估計量等都成立[14]。根據(jù)以上幾點假設,可以得出含單調(diào)約束的GREG估計量的以下性質(zhì):
(12)
(13)
(14)
由此,有:
(15)
(16)
(17)
第一步,依據(jù)外部信息,選擇和目標變量域值變動趨勢一致的輔助變量。獲取輔助變量的域特征值以及樣本單元的目標變量和輔助變量觀察值。
第二步,針對總體內(nèi)的每個域,利用樣本單元觀察值構建GREG估計量。第t個域第k個總體單元的目標變量觀察值為ytk,輔助變量的觀察值為xtk,則第t個域目標變量總值的GREG估計量為:
(18)
第四步,計算含單調(diào)約束的GREG估計量的方差估計量。利用樣本殘差,得到含單調(diào)約束的GREG估計量的方差估計為:
(19)
為驗證含單調(diào)約束的GREG估計量的估計效果,采用模擬仿真的方法對GREG估計量和含單調(diào)約束的GREG估計量進行比較分析。
表1 輔助變量域均值的增長模型
表2 目標變量和輔助變量的回歸關系模型
最后,分別計算不同域中GREG估計量和含單調(diào)約束的GREG估計量的評價指標:均方誤差(MSE)、平均百分比絕對誤差(MAPE)。MSE的計算公式為:
(20)
(21)
為評價方差估計量的有效性,分別計算GREG估計量和含單調(diào)約束的GREG估計量的方差估計量的均值(MV)及平均誤差(ME)。MV的計算公式為:
(22)
(23)
其中MSEt是第t個域的均方誤差。
表3 輔助變量域值和目標變量域值呈線性變化時和的比較
表4 輔助變量域值和目標變量域值的變化趨勢呈二次函數(shù)時和的比較
表5 輔助變量域值和目標變量域值的變化趨勢呈S型時和的比較
4.目標變量域值和輔助變量域值的變化趨勢為COS型函數(shù)情況下的模擬結(jié)果。當目標變量域值和輔助變量域值的變化趨勢為COS型函數(shù)時,目標變量域值隨輔助變量域值先降低后增加,模擬結(jié)果由表6給出,表6的結(jié)構同表3。表6顯示,含單調(diào)約束的GREG估計量在各類超總體模型下均優(yōu)于GREG估計量。對于線性函數(shù)的超總體模型,含單調(diào)約束的GREG估計量和GREG估計量估計精度高,估計效果好。對于二次函數(shù)和三次函數(shù)的超總體模型設定出現(xiàn)偏誤,GREG估計量和含單調(diào)約束的GREG估計量的精度降低,但含單調(diào)約束的GREG估計量精度降低得更慢。
表6 輔助變量域值和目標變量域值的變化趨勢為COS型時和的比較
通過上述數(shù)值模擬分析,可以得出以下四點結(jié)論。在目標變量域值和輔助變量域值變動趨勢一致的情況下,首先,含單調(diào)約束的GREG估計量在多種變動趨勢下的估計精度均優(yōu)于GREG估計量。該性質(zhì)使其在農(nóng)業(yè)調(diào)查、住戶調(diào)查等使用GREG估計量的調(diào)查中具有廣闊的應用空間。特別是隨著大數(shù)據(jù)技術發(fā)展,行政記錄、網(wǎng)絡搜索記錄等為估計量的構建提供了相關程度更高、更豐富的輔助信息來源,為含單調(diào)約束的GREG估計量的廣泛應用提供了數(shù)據(jù)基礎。其次,當超總體模型為線性函數(shù)時,含單調(diào)約束的GREG估計量和GREG估計量的估計效果趨于一致。再次,當超總體模型為非線性模型時,模型設定偏誤將降低估計量精度,含單調(diào)約束的GREG估計量較GREG估計量精度更高,優(yōu)勢明顯。但是,隨著模型設定偏誤的增加,含單調(diào)約束的GREG估計量的方差估計量精度有所降低,存在進一步的改進空間。最后,每個域中,含單調(diào)約束的GREG估計量的MSE降低的程度不同,當目標變量域值和輔助變量域值的變化趨勢為一次函數(shù),且超總體模型設定為三次函數(shù)時,含單調(diào)約束的GREG估計量在每個域的MSE降低的程度相近,且降低程度較多。在輔助變量域值的變化趨勢為一次函數(shù),超總體模型設定為三次函數(shù)情況下,含單調(diào)約束的GREG估計量最適用。
本文使用2009年度中國健康與營養(yǎng)調(diào)查(CHNS)來驗證含單調(diào)約束的GREG估計量的統(tǒng)計性質(zhì)。CHNS由國家營養(yǎng)與健康研究所和北卡羅萊納大學的卡羅萊納人口中心合作開展,旨在對中國社會經(jīng)濟狀況、衛(wèi)生服務、居民膳食結(jié)構和營養(yǎng)狀況等內(nèi)容進行觀察和研究。本文選取總膽固醇水平作為目標變量,擬估計每個年齡階段的平均膽固醇水平。由膽固醇相關研究可知,腰圍異常和血脂異常的發(fā)生密切相關,腰圍較同年齡腰圍均值的偏離程度越大,高膽固醇血癥患病的風險越大。腰圍同膽固醇的變化趨勢相近,因此可以借助腰圍作為輔助變量估計膽固醇水平。目標變量和輔助變量的具體情況見表7。表7顯示,隨著年齡的增長,腰圍均值和總膽固醇均值呈S型變化,同研究結(jié)論一致。
表7 各年齡段總體數(shù)據(jù)概況
以簡單隨機抽樣方式從每個年齡階段構成的域中抽取1%的樣本,基于樣本單元的膽固醇水平和腰圍數(shù)據(jù),以及各年齡階段的平均腰圍,分別計算每個年齡階段的平均膽固醇水平的GREG估計量和含單調(diào)約束的GREG估計量,該過程重復1 000次。估計量的評價指標為均方誤差MSE和平均百分比絕對誤差MAPE。
表8給出GREG估計量及含單調(diào)約束的GREG估計量的估計效果。表8中第2列、第3列為GREG估計量的MSE和MAPE;第4列、第5列為含單調(diào)約束的GREG估計量的MSE和MAPE。表8顯示,在估計偏差方面,含單調(diào)約束的GREG估計量的MAPE均小于GREG估計量的MAPE,含單調(diào)約束的GREG估計量相對偏差更小。在估計精度方面,含單調(diào)約束的GREG估計量的MSE均低于GREG估計量,含單調(diào)約束的GREG估計量的估計精度要優(yōu)于GREG估計量??傊?盡管目標變量域均值的變動趨勢和輔助變量域均值的變動趨勢并不完全一致,含單調(diào)約束的GREG估計量仍較GREG估計量的估計精度更高。
表8 平均總膽固醇估計結(jié)果
傳統(tǒng)的GREG估計量對域值估計時要求域與域之間相互獨立。忽視域與域之間的趨勢,會出現(xiàn)估計值違背各域真實值趨勢的情況,估計量精度低。對此,本文在目標變量域值和輔助變量域值變動趨勢一致情況下,基于輔助變量域值,利用GREG估計量的保序回歸,構建了含單調(diào)約束的GREG估計量。在目標變量域值和輔助變量域值的變化趨勢近似情況下,含單調(diào)約束的GREG估計量的估計精度高于GREG估計量,偏差小于GREG估計量。
一方面,含單調(diào)約束的GREG估計量能夠利用輔助變量域值順序提高估計量精度,不需要獲取額外的信息,估計精度高,調(diào)查成本低。特別是在超總體模型設定存在偏誤的情況下,含單調(diào)約束的GREG估計量能夠有效降低模型偏誤對估計量造成的精度損失。另一方面,隨著大數(shù)據(jù)技術發(fā)展,輔助信息的來源愈加豐富,比如覆蓋范圍廣、數(shù)據(jù)準確度高的普查數(shù)據(jù),高頻率的行政記錄,及時性更高的互聯(lián)網(wǎng)搜索數(shù)據(jù)。豐富的輔助數(shù)據(jù)來源使得尋求同目標變量趨勢一致的輔助變量更加便捷,也為含單調(diào)約束的GREG估計量的應用提供了現(xiàn)實基礎,有利于社會、經(jīng)濟等領域抽樣調(diào)查數(shù)據(jù)質(zhì)量提高和成本降低。