李 勇
基于網(wǎng)上調(diào)查的科研成果可信嗎?
李 勇
本文以2016年美國總統(tǒng)大選網(wǎng)上調(diào)查和專業(yè)調(diào)查機構(gòu)的調(diào)查結(jié)果大相徑庭為例,說明網(wǎng)上調(diào)查可能存在的一些局限性,并初步分析了產(chǎn)生這些局限性的統(tǒng)計邏輯。進而認為基于網(wǎng)上調(diào)查取得的信息用于科學(xué)研究需慎之又慎,其運用必須滿足統(tǒng)計的基本原則。
網(wǎng)上調(diào)查 科研成果 統(tǒng)計原則
網(wǎng)絡(luò)的匿名性與虛擬性導(dǎo)致的信任缺失問題及調(diào)查的參與率低等缺陷始終阻礙其普遍應(yīng)用。而很多社交網(wǎng)站(SNS, Social Network Sites)的實名制特性能夠增強被調(diào)查者的受信水平,使其更用心地作答。朱文龍等(2014)以人人網(wǎng)、騰訊QQ為例,研究了匿名調(diào)查與非匿名調(diào)查獲取科研數(shù)據(jù)的一致性問題,得出在非敏感性量表下,兩類調(diào)查具備完全一致性,而對于敏感性量表,兩類調(diào)查數(shù)據(jù)不完全一致。類似的相關(guān)研究,國內(nèi)外已有不少文獻。2016年10月16日,《新周刊》總主筆閆肖鋒在2016年美國總統(tǒng)大選全國選民投票還未開始前,大膽預(yù)測民主黨候選人希拉里勝券在握。其主要依據(jù)為,專業(yè)調(diào)查機構(gòu)的調(diào)查比網(wǎng)上調(diào)查的樣本更具總體代表性。這引起了筆者的深思,當下,很多科研工作者通過發(fā)放網(wǎng)絡(luò)問卷,網(wǎng)絡(luò)在線問答,運用網(wǎng)絡(luò)技術(shù)收集網(wǎng)絡(luò)輿情等方法收集相關(guān)信息,然后對所獲得的信息進行分析進而得出結(jié)論。那基于這些網(wǎng)絡(luò)調(diào)查的科研成果真的能反映真實的狀況嗎?筆者的答案很明確,不一定。下面從此次美國總統(tǒng)大選說起。
美國總統(tǒng)大選的全國選民投票時間為選舉年11月第1個星期一后的第1個星期二,今年則為11月8日。由于美國總統(tǒng)選舉實行選舉人團制度, 11月8日選民投票時,不僅要選舉總統(tǒng),還要選出代表50個州和首都華盛頓哥倫比亞特區(qū)的538名選舉人。美國除了緬因州和內(nèi)布拉斯加州,其他州和首都實行“勝者全得”的制度,即獲得選民票數(shù)最多者獲得該州或首都所有選舉人票。贏得270張及以上選舉人票的總統(tǒng)候選人即獲得選舉勝利。在選舉年的12月第2個星期三之后的第1個星期一,選舉人按照選民投票結(jié)果選出總統(tǒng),今年為12月19日。新當選美國總統(tǒng)將于次年1月20日宣誓就職。2016年總統(tǒng)大選第一場辯論結(jié)束后,總統(tǒng)候選人希拉里和特朗普均自信滿滿地對外聲稱自己勝出。CNN發(fā)布的輿論研究公司所作的調(diào)查結(jié)果為,希拉里以約62%比27%,大勝特朗普。而各種網(wǎng)絡(luò)投票結(jié)果恰恰相反,例如Twitter上的網(wǎng)民投票結(jié)果顯示,特朗普將以62%比29%大勝。為什么會產(chǎn)生如此大的差異?專業(yè)調(diào)查公司對線下的登記選民作調(diào)查,通常是通過發(fā)放問卷或電話調(diào)查。根據(jù)以往統(tǒng)計,線下調(diào)查的結(jié)果,只有4.5%左右的誤差,且被調(diào)查樣本人數(shù)有時甚至少至521個。很多人質(zhì)疑,這樣的調(diào)查結(jié)果之準確性怎能和網(wǎng)站幾十萬的擬投票選民樣本的調(diào)查結(jié)果之準確性相提并論?
從統(tǒng)計學(xué)來說,樣本不一定需要很大,但一定要保持樣本抽樣的隨機性,這才能保證樣本能較好地代表總體的特征。而專業(yè)調(diào)查公司有相對科學(xué)的抽樣調(diào)查和統(tǒng)計分析方法。例如,蓋洛普民意測驗所(Gallup Poll)是美國最大的民意測驗機構(gòu)。它在美國總統(tǒng)大選民調(diào)中,根據(jù)性別、年齡、受教育程度、職業(yè)、收入、信仰等標準,在美國各州和首都按比例選擇調(diào)查對象,然后對調(diào)查結(jié)果加以分析并得出結(jié)論。這樣做的好處可以保證選取的樣本有較好的總體代表性。其實,一個統(tǒng)計學(xué)運用于實際民調(diào)的非常有名的案例,為1936年的美國總統(tǒng)大選。當時,競選下一任美國總統(tǒng)的是民主黨候選人在位總統(tǒng)羅斯福和共和黨候選人蘭登。當時,美國權(quán)威雜志《文學(xué)摘要》(The Literary Digest)根據(jù)電話簿和俱樂部成員名單上記載的地址發(fā)出1000萬封調(diào)查信,收到回信200萬封,這么大的樣本容量在調(diào)查史上也是罕見的,雜志社因此花費了大量的人力、物力。得出的調(diào)查結(jié)果是蘭登將以57%對43%的比例在總統(tǒng)大選中獲勝。而最終的選舉結(jié)果卻是羅斯福以62%對38%的顯著優(yōu)勢連任總統(tǒng)。這使《文學(xué)摘要》名譽掃地,不久后即停刊。究其原因是《文學(xué)摘要》抽取的樣本不是從總體(全體美國選民)中隨機抽取的。因為在1936年,美國擁有電話和參加俱樂部的家庭都是比較富裕的家庭。1929年到1933年的世界經(jīng)濟危機,使美國經(jīng)濟遭受重創(chuàng),“羅斯福新政”動用行政手段干預(yù)市場經(jīng)濟,損害了部分富人的利益,但廣大的美國非富人群體卻從中得到了好處。由于富人群體在全體美國選民中只占少數(shù),所以,基于調(diào)查樣本幾乎都是富人而得出的民調(diào)結(jié)果實際上已經(jīng)嚴重偏離了大多數(shù)美國人的真實選舉意愿。
社會學(xué)中有一個“二級傳播理論”,是由美國著名社會學(xué)家拉扎斯菲爾德1944年出版的調(diào)查報告《人民的選擇》中提出的。該理論的核心思想在眼下的語境中可理解為理念總是先從網(wǎng)絡(luò)、報刊、電視、廣播等媒介傳播到關(guān)鍵意見領(lǐng)袖(Key Opinion Leader,簡稱KOL),然后再由這些關(guān)鍵意見領(lǐng)袖傳播到那些 “沉默的大多數(shù)”。而關(guān)鍵意見領(lǐng)袖這個概念源自營銷學(xué),通常被定義為:擁有更多、更準確的產(chǎn)品信息,且為群體所接受或信任,并對該群體的購買行為有較大影響力的人。例如,某人購買某款產(chǎn)品,并不決定于其先前看到過的該產(chǎn)品的媒體廣告,而真正促使其購買的,有時僅僅可能是其周圍某個關(guān)鍵意見領(lǐng)袖的一句話。所以網(wǎng)民在網(wǎng)上表達出來的觀點,并不一定是左右大多數(shù)人行為選擇的觀點,很多時候還依賴于關(guān)鍵意見領(lǐng)袖的中介作用。
最后引用肖鋒文章中作家余華說過的話:一上網(wǎng),感覺中國人明天就要鬧事;一上街,感覺中國人一百年都不會鬧事。
[1]肖鋒."網(wǎng)紅"特朗普為什么突然不行了[OL].功夫財經(jīng),2016-10-16.http://news.hexun.com/2016-10-16/186436727.html.
[2]朱文龍,邵培基,方佳明.社交網(wǎng)站調(diào)查的科研數(shù)據(jù)一致性研究[J].科研管理,2014(02).
(作者單位:河南大學(xué)商學(xué)院)