饒賢清
一、敏感性問題抽樣調(diào)查的發(fā)展
敏感性問題是指機構(gòu)、組織或個人由于經(jīng)濟、安全、形象等原因不宜或拒絕讓外部知曉的問題,如政府機密、企業(yè)商務(wù)秘密、個人隱私等。敏感性問題一般具有隱秘性和可變性的特點,用一般的調(diào)查技術(shù)難以獲得有效的數(shù)據(jù)資料,若采用直接調(diào)查的方法,調(diào)查者將得不到可靠的樣本數(shù)據(jù),無法作出可靠的推斷,就會產(chǎn)生無法控制的非抽樣誤差。因此研究敏感性問題的抽樣調(diào)查方法是很有必要的,而如何獲得可靠的樣本信息是研究敏感性問題抽樣調(diào)查方法的關(guān)鍵,處理敏感性問題的核心不在于設(shè)計過于復雜的模型,而在于運用有效的方法消除被調(diào)查者的擔憂與顧慮,達到提高調(diào)查數(shù)據(jù)可靠性的目的。
1965年Warner提出了敏感性問題的隨機化回答調(diào)查方法。隨機化回答是指在調(diào)查中使用特定的隨機化裝置,使得被調(diào)查者以預(yù)定的概率p來回答敏感性問題,宗旨是最大限度地為被調(diào)查者保守秘密,從而取得被調(diào)查者的信任,該方法是設(shè)置一隨機化裝置,讓被調(diào)查者根據(jù)隨機化結(jié)果回答其中的一個問題。如調(diào)查某校學生的作弊率,向被調(diào)查者提出兩個問題:
問題1:你在考試中作過弊嗎?
問題2:你從未在考試中作過弊嗎?
被調(diào)查者隨機抽取一個問題回答,調(diào)查員不知道每個人具體回答的是哪個問題,但回答問題1的人占的比例p是事先確定的。當被調(diào)查者抽到的問題與自己的情況一致時,回答“是”;相反時回答“否”,調(diào)查者只知道最后的回答結(jié)果,從而起到了為被調(diào)查者保密的效果。
由于在Warner的方法中所提的兩個問題都具有敏感性特征,被調(diào)查者可能仍存戒心。不予配合,而且回答問題的被調(diào)查者占的比例不能為1/2。因此,統(tǒng)計學家在Warner模型的基礎(chǔ)上提出了許多隨機化回答調(diào)查方法,1967年Simmons提出了用無關(guān)問題y去替代Warner模型中的對立問題,使被調(diào)查者的合作態(tài)度有了明顯改善。但是無關(guān)問題發(fā)生的概率是待定的。估計量的估計偏誤會引起敏感性問題所占的比例的估計量的估計偏誤,導致總的誤差增大;1969年Greenberg提出了數(shù)量特征敏感性問題的無關(guān)問題隨機化回答方法;1971年Moors針對具有兩項選擇的敏感性問題提出了雙樣本隨機化回答模型,從總體中抽取兩個相互獨立的樣本,第一個樣本使用隨機化回答,第二個樣本直接回答無關(guān)問題,該模型進一步消除被調(diào)查者的顧慮;1973年Greenberg針對Simmons模型中無關(guān)問題的概率未知的情況下,提出了雙無關(guān)問題的雙樣本隨機化回答模型,在該模型的隨機化調(diào)查中,每一樣本的被調(diào)查者均需回答兩個問題,一個是被調(diào)查者使用隨機化裝置選擇的問題;一個是調(diào)查者直接詢問的無關(guān)的非敏感性問題;1977年K·Jakhasi和H·Sahasegawa提出了隱含的隨機化回答模型,這一模型操作簡單,不需使用任何隨機化實驗裝置,又不失隨機的特性;2000年Sargin-der等人對Moors模型作了改進。提出了相關(guān)樣本下的隨機化回答方法;2000年P(guān)admawar等人提出數(shù)量特征敏感性問題的隨機變量和模型;2004年Kim等人提出了多樣本下的Wamer模型。
二、敏感性問題抽樣調(diào)查的模型設(shè)計
根據(jù)抽樣調(diào)查的理論,隨機化回答模型一般應(yīng)符合以下的條件:
首先能最大限度地保護被調(diào)查者的隱私,對被調(diào)查者的隱私保護程度越高,被調(diào)查者的合作程度就越高,取得的調(diào)查數(shù)據(jù)就越真實;否則,被調(diào)查者就會拒絕回答或作出錯誤的回答,從而增大由錯誤信息引起的誤差。在新建立的隨機化回答模型中,應(yīng)盡量使被調(diào)查者對所提問題回答“是”或“否”的概率基本相同。以使被調(diào)查者認為調(diào)查者從被調(diào)查者的回答中推測被調(diào)查者具有或不具有某種敏感性特征的概率接近于1/2,從而,消除了被調(diào)查者的顧慮。
其次,估計量應(yīng)具有較小的誤差。對于隨機化回答模型,抽樣誤差是不可避免的,但對于同一個目標量,在樣本容量相同的條件下,使用不同的模型會產(chǎn)生不同的抽樣誤差,抽樣誤差越少,估計的精度也就越高,調(diào)查才有實際意義。
最后,建立的隨機化回答模型要簡便易行,模型越簡單,實施越方便,工作量就越少,調(diào)查的費用就越少,同時,也易于取得被調(diào)查者的合作,避免回答差錯。在建立隨機化回答模型時,我們應(yīng)首先考慮保護被調(diào)查者的隱私。消除被調(diào)查者的顧慮,有時甚至寧愿犧牲某些精度來換取被調(diào)查者的配合,只有這樣。被調(diào)查者才會作出真實的回答,調(diào)查者取得的數(shù)據(jù)才可靠。敏感性問題的隨機化回答技術(shù)的宗旨是盡可能地消除被調(diào)查者的疑慮,并使估計量的方差盡可能地小,建立的模型必須首先考慮是否能消除被調(diào)查者的擔憂,在此基礎(chǔ)上,使得調(diào)查的誤差盡可能的少。
三、敏感性問題的抽樣調(diào)查方法的展望
由于敏感性問題具有復雜性、多樣性和可變性的特點,在進行敏感性問題的隨機化調(diào)查時,往往要對調(diào)查人員進行培訓,每一個調(diào)查人員必須準確掌握隨機化回答模型的原理,同時,要讓被調(diào)查者對隨機化裝置進行確認,使每一個被調(diào)查者確信調(diào)查人員無法從其回答中推斷自己對敏感性問題的真實回答。隨機化回答抽樣調(diào)查的時間過長,費用增大,不利于在實踐中推廣,有時被查者并未理解或不相信這種方法。使得敏感性問題的隨機化回答調(diào)查法在應(yīng)用中有一定的局限性。
對敏感性問題的抽樣調(diào)查,Warner首先提出了隨機化回答技術(shù),此后,國內(nèi)外學者先后提出了一些其他的抽樣調(diào)查方法。方法一是Simith等人1974年提出的“區(qū)組化總計回答技術(shù)”,它不是讓被調(diào)查者根據(jù)隨機化裝置來決定回答哪個問題,而是將問題進行隨機化,最簡單的二元回答的情況下,把問題分為二類,一類包含敏感性問題和幾個非敏感性問題;第二類僅有敏感性問題,在調(diào)查中只要求被調(diào)查者提供問卷中所答問題的答案之和,這樣既可以對敏感性問題的答案保密,又可以根據(jù)兩類問卷中平均總量的差異進行估計。方法二是Oh和Scheuren 1983年提出的“擬隨機化回答技術(shù)”,它建立在被調(diào)查的總體可以分為回答層和無回答層的假設(shè)上,對回答層的每個個體來說,所調(diào)查的問題并不存在敏感性,被調(diào)查者以概率1真實回答敏感性問題;無回答層的個體以概率p隨機化回答敏感性問題,由二層的估計量對總體敏感性問題進行估計。方法三是涂光華和馬嵐提出的“分層弱化模型”,它根據(jù)敏感性調(diào)查的不同目的,研究造成該調(diào)查問題為敏感性問題的原因,由此選擇與之相關(guān)的非敏感分層標志以劃分不同的調(diào)查層,再根據(jù)每層被調(diào)查者的不同心理特點或性格特征相應(yīng)設(shè)計分層弱化或非弱化的敏感性問題,達到降低敏感性問題的敏感度爭取被調(diào)查者合作的目的。
上述三種敏感性問題的抽樣調(diào)查法都存在一定的局限性,方法一同隨機化回答調(diào)查一樣誤差比直接調(diào)查大,在小樣本的情況下,誤差可能為負值;方法二是建立在假設(shè)的基礎(chǔ)上,缺乏一定的可靠性;方法三分層弱化的效果如何衡量以及敏感性問題如何估計都有待進一步的研究。抽樣調(diào)查的目標是設(shè)計最優(yōu)的調(diào)查方案,找到參數(shù)的無偏佔計,并使抽樣調(diào)查的誤差盡可能地小。事實上,在抽樣調(diào)查中完全消除估計址的偏倚是不可能的,因此,在對敏感性問題進行調(diào)查時,可以考慮一個具有較小方差的有偏估計。