非概率抽樣包括目標抽樣、時間地點抽樣、滾雪球抽樣、馬爾科夫過程抽樣、同班驅(qū)動抽樣等。在計算、存儲能力的限制下,全數(shù)據(jù)的獲取還難以實現(xiàn),抽樣調(diào)查仍然將在一段時間內(nèi)成為我們獲取數(shù)據(jù)的重要方式,因此如何改進已有的抽樣調(diào)查方法來適應大數(shù)據(jù)特點,就成為了我們必須解決的問題,而非概率抽樣方法作為重要的抽樣方法,在這個背景下就被廣泛的使用。其中滾雪球抽樣的應用最為廣泛。
滾雪球抽樣被廣泛地應用于定性的社會學研究中。而就目前來看,國內(nèi)學者利用滾雪球抽樣進行的研究少之又少,而國外學者已經(jīng)對滾雪球抽樣進行了十分細致的研究。因此本文從國內(nèi)和國外兩個方面對滾雪球抽樣的研究進行闡述。滾雪球抽樣是一種可以獲得有效估計量的抽樣設計方法,該方法不僅允許個體提供有關自己的信息,而且提供其他相關個體的信息。傳統(tǒng)方法是基于漸進理論對模型進行推論的,但在小樣本的情況下,置信度的準確性是令人質(zhì)疑的。
我國關于滾雪球抽樣的應用并不多見,文獻主要集中在米子川老師及他的學生所做的成果。米子川[14](2015)首次提出在滾雪球抽樣中使用捕獲再捕獲抽樣估計的方法來推斷某些特定群體規(guī)模的方法,基于此方法對太原市某社區(qū)心腦血管病人的規(guī)模和用藥情況進行估計,結(jié)果表明,滾雪球抽樣通過捕獲再捕獲方法的模擬和估計,得到了更精確的推斷結(jié)論。此方法對非概率抽樣的滾雪球抽樣進行進一步發(fā)展和推廣。米子川、金勇進和程開明等學者對大數(shù)據(jù)時代下的非概率抽樣方法進行了深入探究。米子川和聶瑞華[15](2016)將包含滾雪球抽樣的多種非概率抽樣方法與互聯(lián)網(wǎng)數(shù)據(jù)產(chǎn)生的特點相結(jié)合,提出在互聯(lián)網(wǎng)大數(shù)據(jù)背景下繼續(xù)使用非概率抽樣的思想,例如可以基于微博等社交網(wǎng)絡產(chǎn)生的大量數(shù)據(jù),將滾雪球抽樣拓展到針對社會網(wǎng)絡群體的數(shù)據(jù)搜集工作上。在此基礎上,米子川和聶瑞華[16](2016)詳細介紹了利用非概率抽樣方法對社會網(wǎng)絡人群抽樣的研究現(xiàn)狀,并將滾雪球抽樣與其他非概率抽樣進行了比較,在此基礎上給出了作者的認知和應用的思考。作者認為,當需要在線上發(fā)起一項調(diào)查時,同伴驅(qū)動抽樣可能將是一種較好的調(diào)查方式,因為它加入了二次激勵的機制,而如果想要對社交網(wǎng)絡中某一群體的特征做研究,考慮到網(wǎng)友之間的推薦關系可由已存在的“好友”關系所替代,借助網(wǎng)絡技術就能達到搜集數(shù)據(jù)的目的,滾雪球抽樣和同伴驅(qū)動抽樣的效果是基本相同的。金勇進[17](2016)認為利用大數(shù)據(jù)進行抽樣,很多情況下由于抽樣框的構(gòu)造比較困難,使得抽取的樣本屬于非概率樣本,傳統(tǒng)的抽樣推斷理論難以應用到非概率樣本中,他因此提出了解決非概率抽樣統(tǒng)計推斷問題的基本思路:一是抽樣方法的改進,可以考慮基于樣本匹配的樣本選擇、鏈接跟蹤抽樣方法等,使得到的非概率樣本近似于概率樣本,從而可采用概率樣本的統(tǒng)計推斷理論;二是權(quán)數(shù)的構(gòu)造與調(diào)整,可以考慮基于偽設計、模型和傾向得分等方法得到類似于概率樣本的基礎權(quán)數(shù);三是估計方法的選擇,可以考慮基于偽設計、模型和貝葉斯的混合概率估計。程開明[18](2017)等學者對大數(shù)據(jù)背景下還需要抽樣的定論進行了辯證分析,他認為大數(shù)據(jù)與抽樣的關系是互補的而非排斥的,在大數(shù)據(jù)背景下合理利用抽樣技術能夠更有效地開展數(shù)據(jù)搜集和分析,更好地釋放大數(shù)據(jù)的能量,挖掘大數(shù)據(jù)的價值。還有學者Frank和Snijders(1994)從頻率的角度,使用基于設計和模型的方法來估計隱藏人口的大小。 在本文中,我們考慮他們的圖形模型,并從貝葉斯觀點來解釋估計隱藏人口大小的方法。通常,有關要估計的參數(shù)的先前信息是可用。 通過貝葉斯方法有效地使用這些信息可能會改進的估計量。 初始樣品是在本文考慮的設計下進行選擇的。
滾雪球抽樣雖然應用廣泛,它也存在一些缺點。比如,初始樣本的選擇往往不是隨機的,隨著抽樣過程的進行,無法得到無偏估計;抽樣過程傾向于一些愿意合作的對象,較為排斥的對象自然參與度較低;一些敏感度較高的問題,也會導致抽樣過程難以進行下去。滾雪球抽樣方法還需要不斷的探索與推廣。
參考文獻:
[1]米子川.并發(fā)多樣本滾雪球抽樣的捕獲再捕獲估計[J].統(tǒng)計決策,2015(6):32-39.
[2]米子川,聶瑞華.大數(shù)據(jù)下非概率抽樣方法的應用思考[J].統(tǒng)計與管理,2016(04):11-12.
[3]米子川,聶瑞華,衛(wèi)軍. 大數(shù)據(jù)下社交網(wǎng)絡人群抽樣方法文獻綜述[J].經(jīng)濟師,2016(3).
[4]金勇進,劉展.大數(shù)據(jù)背景下非概率抽樣的統(tǒng)計推斷問題[J].統(tǒng)計研究,2016,33(03):11-17.
[5]程開明,宋藝旋.大數(shù)據(jù)還需要抽樣嗎[J].中國統(tǒng)計,2017(11):10-13.
[6]李金昌.大數(shù)據(jù)與統(tǒng)計新思維[J].統(tǒng)計研究,2014,31(01):10-17.
[7]趙國棟,黃永中.網(wǎng)絡調(diào)查方法概論[M].北京:北京大學出版社,2008.
作者簡介:
寧勐(1993—),女,山西臨汾人,山西財經(jīng)大學2016屆(統(tǒng)計學院)統(tǒng)計學.