周楷賀 李莉莉
摘要:現(xiàn)有大數(shù)據(jù)的不等概率抽樣方法大多基于數(shù)據(jù)分布,泛化能力較差。為此,利用多層感知機、XGBoost和Kriging模型估計總體單元間的相對距離,提出針對海量數(shù)據(jù)的不等概率抽樣算法。此類算法既不需要考慮總體的分布,又能夠保證樣本的代表性。實證分析結(jié)果表明,基于此算法抽取樣本構(gòu)建的模型與簡單隨機抽樣方法相比,模型參數(shù)估計的均方誤差更低,效果更穩(wěn)定。
關鍵詞:不等概率抽樣;代理模型;樣本代表性
中圖分類號:O212.2
文獻標志碼:A
文章編號:1006-1037(2023)02-0005-06
doi:10.3969/j.issn.1006-1037.2023.02.02
基金項目:
國家社會科學基金(批準號:2019BTJ028)資助;山東省金融應用重點研究項目(批準號:2020-JRZZ-03)資助。
通信作者:
李莉莉,女,博士,教授,主要研究方向為金融統(tǒng)計、統(tǒng)計調(diào)查與預測。
大數(shù)據(jù)抽樣分為概率抽樣和非概率抽樣,前者包括等概率抽樣和不等概率抽樣。不等概率抽樣最早以漢森—赫維茨估計量為基礎[1],最新研究通過奇異值分解(Singular Value Decomposition, SVD) [2]獲取信息矩陣中杠桿分數(shù)作為總體單元的入樣概率,利用估計量的均方誤差衡量估計量的精度。兩步子抽樣算法[3]基于SVD分解、試驗設計中A-最優(yōu)和L-最優(yōu)提出的大數(shù)據(jù)子抽樣算法,理論證明基于兩步子抽樣算法的模型參數(shù)估計具有無偏性和一致性;模擬和實證分析結(jié)果表明兩步子抽樣相比于簡單隨機抽樣在模型參數(shù)估計的均方誤差上有顯著優(yōu)勢。兩步子抽樣算法可由二分類Logistic回歸擴展至多分類SoftMax模型[4]、線性回歸模型[5]、廣義線性模型[6]。替代模型中Kriging模型、XGBoost、多層感知機(Multi-Layer Perceptron, MLP)可用于處理確定性函數(shù)。Kriging模型及其最佳線性無偏預測(Best Linear Unbiased Prediction, BLUP)的性質(zhì)經(jīng)系統(tǒng)論證后[7],大量模擬表明該模型仍可精確預測復雜曲面。XGBoost旨在實現(xiàn)高效,靈活和便攜的數(shù)據(jù)分析和預測,同時梯度增強框架下實現(xiàn)并行樹提升,能快速準確地解決諸多數(shù)據(jù)科學問題[8],廣泛應用于金融[9]、基建工程[10]領域。多層感知機[11]基于梯度下降和反向傳播算法學習大量未知參數(shù),具有強大的擬合能力。本文利用上述三種模型,提出基于單元間距離估計的不等概率抽樣算法,針對不同樣本構(gòu)建模型,根據(jù)計算結(jié)果研究分析樣本的代表性。
1 模型及算法闡述
本文所提不等概率抽樣算法步驟:首先抽取樣本,構(gòu)建定義單元的入樣概率模型。通過隨機簡單抽樣獲取隨機子樣本,模型的響應值為該單元至最近的nc個樣本單元之間平均歐式距離的倒數(shù),非線性變換旨在解決樣本過分集中導致樣本粘連和樣本代表性下降。針對不同的子樣本和對應的響應值,分別構(gòu)建基于Kriging模型、XGBoost模型、MLP的不等概率抽樣算法。最后通過已構(gòu)建模型定義各單元的入樣概率,實施不等概率抽樣。該算法可計算每個單元的入樣概率,并依入樣概率抽取不等概率抽樣樣本。
基于XGBoost(XGB)模型和基于MLP模型的不等概率抽樣算法具體步驟除(3)以外均相同。
2 實證分析
2.1 數(shù)據(jù)預處理
通過2021年秋季Raifhack房地產(chǎn)數(shù)據(jù),研究基于概率密度的抽樣算法在一般線性回歸中參數(shù)估計的性質(zhì)。數(shù)據(jù)來源于Kaggle數(shù)據(jù)庫中Raifhack房產(chǎn)價格預測項目[12]。原始數(shù)據(jù)集中自變量77個,目標變量為房產(chǎn)價格,觀測值共計279 792條。經(jīng)自變量篩選和剔除缺失觀測值30 211條后,保留的20個自變量需標準化處理以消除不同自變量之間量綱影響[13]。經(jīng)全樣本構(gòu)建線性模型驗證,自變量模型參數(shù)均在P=0.05上顯著(表1)。
2.2 距離估計算法構(gòu)建線性回歸模型的均方誤差分析
設定基于單元間距離估計的不等概率抽樣算法的一階樣本量為700。為驗證該算法在一般線性回歸中的有效性,通過三種基于單元間距離估計的不等概率抽樣算法獲得249 851個觀測值的入樣概率?;谌N提出的不等概率抽樣算法獲得的樣本和使用簡單隨機抽樣獲得相同數(shù)量的樣本構(gòu)建回歸模型,為便于比較,構(gòu)建mseKrin=MSEKrinMSErandomn、mseXGBn=MSEXGBnMSErandomn和mseMLPn=MSEMLPnMSErandomn。MSEKrin、MSEXGBn和MSEMLPn分別表示基于Kriging模型、XGBoost模型、MLP模型的不等概率抽樣抽取的n個樣本構(gòu)建模型參數(shù)1 000次均方誤差的均值;MSErandomn代表利用簡單隨機抽樣抽取的n個樣本構(gòu)建模型參數(shù)1 000次均方誤差的均值。根據(jù)不同樣本n=100,300,500時mseKrin、mseXGBn和mseMLPn可知,相比基于XGBoost和MLP模型的不等概率抽樣,基于Kriging模型的不等概率抽樣構(gòu)建模型的參數(shù)均方誤差較大,但仍整體上小于簡單隨機抽樣構(gòu)建模型的模型參數(shù)均方誤差(表2),這表明所提出的三種不等概率抽樣算法相較于簡單隨機抽樣具有不同程度的樣本代表性優(yōu)勢。
2.3 距離估計算法對總體特征估計分析
樣本代表性亦可通過樣本對總體矩的估計精度表示。三種不等概率抽樣的樣本矩和簡單隨機抽樣的樣本矩分別與總體矩之間的曼哈頓距離比值作為指標,其中分子為不等概率抽樣獲得的樣本矩與總體矩之間距離的1 000次試驗均值,分母為簡單隨機抽樣獲得的樣本矩與總體矩之間距離的1 000次試驗均值?;诓煌瑯颖玖縩=100,200,300,400,500三種不等概率抽樣算法在一階矩和二階矩的估計結(jié)果如圖1~3所示。
可知,基于Kriging模型的不等概率抽樣相較于簡單隨機抽樣對總體矩的估計精度差異較小?;赬GB模型和基于MLP模型的不等概率抽樣隨著樣本量增加,對總體一階矩和二階矩的估計精度不斷提高,證明基于XGB模型和基于MLP模型的不等概率抽樣樣本相較于基于Kriging模型的不等概率抽樣樣本和簡單隨機樣本對總體具有更好的代表性。為分析上述方法穩(wěn)定性,需計算基于三種不等概率抽樣樣本對總體矩估計的標準差與簡單隨機抽樣的標準差比值(表3)。與簡單隨機抽樣相比,三種不等概率抽樣算法均提高總體的一階矩和二階矩估計量的穩(wěn)定性,三種不等概率樣本對總體一階矩的估計精度更穩(wěn)定。樣本量相同的條件下基于MLP和XGB的抽樣方法相較于Kriging模型的抽樣方法能更加精確的估計總體一階矩和二階矩。
3 結(jié)論
本文從估計單元間距離出發(fā),結(jié)合Kriging模型、XGBoost模型和MLP模型提出了三種不等概率抽樣算法。相較于簡單隨機抽樣,文中所提三種不等概率抽樣算法獲取的樣本在估計一般線性回歸模型時,模型參數(shù)的均方誤差更小?;谌N不等概率抽樣所得樣本能夠更加精確和穩(wěn)定地估計總體一階矩和二階矩,說明通過所構(gòu)建不等概率模型抽取的樣本更能反映真實情況。今后構(gòu)建MLP和XGB模型時應充分考慮數(shù)據(jù)特異性,確定適合模型的超參數(shù)以提升模型性能。
參考文獻
[1]馮士雍,倪加勛,鄒國華. 抽樣調(diào)查理論與方法:第2版[M]. 北京:高等教育出版社,2012: 139-156.
[2]MA P, MAHONEY M W, YU B. A statistical perspective on algorithmic leveraging[J]. The Journal of Machine Learning Research, 2015, 16(1):861-911.
[3]WANG H Y, ZHU R, MA P. Optimal subsampling for large sample logistic regression[J]. Journal of the American Statistical Association, 2018, 113(522):829-844.
[4]YAO Y Q, WANG H Y. Optimal subsampling for SoftMax regression[J]. Statistical Papers, 2018, 60:585-599.
[5]CHEN Q S, WANG H Y, YANG M. Information-based optimal subdata selection for big data logistic regression[J]. Journal of Statistical Planning and Inference, 2020, 209:112-122.
[6]AI M Y, YU J, ZHANG H M, et al. Optimal subsampling algorithms for big data regressions[J]. Statist Sinica, 2021, 31(2):749-772.
[7]SANTNER T J, WILLIAMS B J, NOTZ W I. The design and analysis of computer experiments[M]. New York: Springer, 2003, 46-86.
[8]CHEN T Q, GUESTRIN C. XGBoost: A Scalable Tree Boosting System [C]// Association for Computing Machinery 2016. San Francisco, 2016:785-794.
[9]陳秋華,楊慧榮,崔恒建.變量篩選后的個人信貸評分模型與統(tǒng)計學習[J]. 數(shù)理統(tǒng)計與管理, 2020, 39(2):368-380.
[10] 劉鑫蕊,常鵬,孫秋野.基于XGBoost和無跡卡爾曼濾波自適應混合預測的電網(wǎng)虛假數(shù)據(jù)注入攻擊檢測[J].中國電機工程學報, 2021, 41(16):5462-5476.
[11] PARK H. MLP modeling for search advertising price prediction[J]. Journal of Ambient Intelligence and Humanized Computing, 2019, 11:411-417.
[12] VLADISLAV K. Raifhack-DS-2021-Fall[DB/OL].[2022-03-22]. https://www.kaggle.com/lildatascientist/raifhackds2021fall.
[13] 宋錦波, 徐海芹, 宮曉慧, 等. 基于雙簇頭及數(shù)據(jù)融合的改進LEACH算法的網(wǎng)絡拓撲控制研究[J]. 青島大學學報(自然科學版), 2021, 34(3):22-27.