文/張 旭 唐魁玉
?
大數據及其“社會學后果”
文/張 旭 唐魁玉
摘要:隨著“大數據”一詞逐漸被人們所熟知,各學科的研究者們也開始應用大數據進行研究。社會學者已將大數據納入社會研究的范圍,而且有逐漸擴大或蔓延的趨勢。大數據對社會學的影響,既體現(xiàn)為正面后果又體現(xiàn)為負面后果。即大數據思維的運用,對社會學研究來說既具有方法論的意義,可以激發(fā)社會科學研究的認識論變革,同時也存在著因大數據觀念的引入而產生的社會學方法論的局限性。大數據為社會學研究打開了一扇新的大門,但是這些研究方法只能作為傳統(tǒng)社會學研究的補充,而不能完全替代傳統(tǒng)的小數據研究方法。
關鍵詞:大數據;社會學后果;社會學研究方法;方法論創(chuàng)新
近幾年來,隨著計算機科技的進步,“大數據”一詞也逐漸被人們所熟知。這種大數據的變革為社會學研究帶來了改變的機遇以及對傳統(tǒng)社會學研究方法論的挑戰(zhàn)。一直以來,有限的樣本量是社會學研究的瓶頸。即使可以收集到大量數據,對這些數據的記錄、儲存和分析也被當時的技術所限制。在預算范圍內,研究者們追求著合理抽樣方法和樣本量的完美組合。而在大數據時代,云儲存和云計算使得對大量數據的記錄、儲存和分析成為了可能。社會學家們也與時俱進,將大數據納入到社會學研究中;但是,要想將大數據應用于社會學研究中,無論是研究者的思維還是研究方法,都需要進行一些轉變。
20世紀后半葉是實證社會學的黃金年代。20世紀50年代到90年代間,實證社會學通過抽樣調查和訪談將其他學科遠遠地拋在了后面。但是近十年來這種優(yōu)勢正在逐漸消失。抽樣調查和訪談等傳統(tǒng)社會學研究方法已經無法使社會學繼續(xù)佇立在人文科學的塔尖。
薩維奇(Savage)和布羅斯(Burrows)早在2007年就發(fā)表了一篇論文用以提醒社會學家們注意這種危機并采取相應措施應對危機。[1]這篇論文在全球社會學界獲得了較大的關注并且得到了廣泛引用。薩維奇和布羅斯也是在實際的研究過程中發(fā)現(xiàn)了實證社會學的危機。薩維奇在2004年參加了由ESRC提供基金的關于社交網絡研究方法的項目。研究者們通過對來自三個機構的成員進行問卷調查,研究三個機構成員之間的私人聯(lián)系。研究者們耗費了大量的時間來分析問卷數據并對部分受訪者進行訪談以了解更多的細節(jié)。而項目中的一名非正式研究者則通過非常簡單的分析就獲得了研究結果,只因為他是一家知名電信公司的員工,并且該公司擁有這些受訪者多年來的通話記錄。一名社會學外行人僅僅通過大量數據和簡單的統(tǒng)計分析就完成了與社會學家們耗費大量時間和資源所完成的同等的研究,甚至獲得了比社會學家們更精確的結果,僅僅是因為他擁有大量的數據。布羅斯也是在研究中意識到了實證社會學潛在的危機。2005年,布羅斯也在一次實地的研究中發(fā)現(xiàn)將已經存在的公共數據資源(如人口普查等數據)集中在一起,可以迅速地繪制出某一區(qū)域的精密的社會—空間地圖。如果忽略隱私等道德問題對研究者們的限制,這種社會—空間地圖可以呈現(xiàn)一定等級內的細節(jié)信息,并在間隔尺寸一定的情況下將地圖的范圍進一步擴大。
對于定性研究方法,如深度訪談,最初并不為社會學家所應用,更多的則是被社工和心理學家們所應用。直到后來,實證社會學興起,社會學家們發(fā)現(xiàn)一些有影響力的人可以代表一個廣大群體的看法,而對他們進行訪談則可以有效率地得知這部分群眾的看法。毫無疑問,這種方法在技術不發(fā)達的年代,可以有效率地收集數據。并且,通過更大覆蓋面的問題,可以獲得一些小范圍的特質概括用以作為將來大范圍定量研究的假設。但是在現(xiàn)在,每天產生的大量基于網絡平臺的交互性數據完全可以收集到比訪談更加豐富的數據,只要技術手段可以達到,對這些數據的定性分析完全可以達到數倍于訪談的效果。[2]而對于各種人文類學科一直以來都在應用的史料分析方法,應用計算機技術等手段,無疑可以一次分析更大規(guī)模的資料。而且,一些大公司(如Google)這些年致力于將紙質資料數字化,更為這種大規(guī)模的史料分析奠定了基礎。
涂子沛在其風靡全國的專著《大數據》的封面上寫到:“除了上帝,任何人都必須用數據說話。”[3]在數據如此豐富的現(xiàn)在,除了一些堅持傳統(tǒng)社會學研究方法的小部分社會學家,大部分社會學家已經開始將大數據納入到研究范圍中,并開始嘗試一些革新的研究方法以適應新的數據。同時,這些變革也正在為社會學重新回歸“社會事實”奠定方法論基礎,而這也是社會學重新回到領先地位的絕好機會。
大數據現(xiàn)在被引申為關于某個特殊平臺或某個特殊領域的全部數據。對于社會學研究來說,一些特殊的平臺,例如Facebook和Twitter,以及和他們具有相似功能的我國的人人網和微博,具有極大的意義。這些數據是動態(tài)的,體現(xiàn)著實時的社會活動,并且這些數據記錄了人們在自然環(huán)境下所說的話和所做的事,而不是像常規(guī)問卷調查和訪談中獲得的那些僵化了的信息。[4]同時,這些實時性的信息可以提供有關網絡信息傳播的速度以及方式和方向。區(qū)別于這種來自于某個特殊平臺的數據,來自于一些特殊領域的數據則包括更大范圍的信息,例如Google曾經應用往年搜索結果建立數學模型用來預測流感疫情,以及奧倫·艾奇奧尼(Oren Etzioni)應用以往的機票價格預計機票價格的漲跌。大數據的興起使社會學研究向更廣泛的方向發(fā)展,大量的網絡數據也隨之被應用。據統(tǒng)計,1995至2008年間,隨著互聯(lián)網的廣泛傳播,基于文字的網頁增長了6600萬,并且還在持續(xù)增長,最近已經增長了超過1萬億。[5]這些網頁內的信息無疑可以作為社會學研究的數據,但是社會學研究并不僅僅只能應用這類數據。陳云松應用Google圖書的最新語料庫進行關鍵詞的詞頻統(tǒng)計,用以闡釋19世紀中期以來社會學各方面的發(fā)展。[6]龍瀛及同事使用北京1周間產生的855萬個公交IC卡的數據結合市民出行情況及城市地圖及土地利用信息,分析了市民的職住關系和通勤行為。[7]這類已經被收集完成的資料可以成為社會學家們的研究對象并進行分析和再利用,同時,另一部分研究者們選擇親自收集資料用于研究和分析。
(一)收集數據
區(qū)別于以往社會學研究中的抽樣方法,在大數據背景下的數據收集需要有所變革才能應對收集全部數據的要求。針對來自網絡社交平臺這類特殊平臺的數據,可以根據他們本身提供的功能進行收集,同時,一些平臺提供專用軟件用來收集數據。以Twitter為例,它向用戶提供“發(fā)表”“轉發(fā)”“回復”這些針對微博客的功能,“關注”“取消關注”“提起”這種針對用戶的功能,以及有助用戶發(fā)表相關話題的“標簽”功能。由于Twitter的完全開放性,研究者們可以獲得某一用戶發(fā)布的所有微博客,[8]在相關話題標簽下的全部微博客,[9]以及通過搜索功能搜集所有包含關鍵字的微博客。[10]研究者們也可以通過應用程序接口(Application Programming Interface,簡稱API)進行數據收集。API可以實現(xiàn)幾個方面的功能:(1)通過搜索關鍵詞和話題標簽的微博客收集;(2)在所有微博客中抽取10%作為隨機樣本;(3)收集所有已發(fā)布的微博客。自2008年,Twitter獲得了研究者們的廣泛關注,也有很多論文發(fā)表,但是只有極少數發(fā)表在了主流期刊上。[11]我國的微博(新浪微博、騰訊微博等)也具有極其相似的功能,唯一與之區(qū)別的是在應用程序的接口上并未完全開放,可能無法達到以上描述的全部功能。
即使在大數據時代,研究者們主張收集全部數據,而不再完全依靠隨機樣本,收集所有數據再篩選出需要的信息也是極大的工程,因此,即使是收集全部信息也需要一些相應的方法。例如有研究者將滾雪球抽樣方法與計算機技術結合形成了一種適用于大數據時代的數據收集方法。[12]研究者首先輸入一個起始網頁,并規(guī)定關鍵字或者對搜索目標更細節(jié)的描述,而后該程序將訪問每一個與起始網頁相關的網頁,如遇到與關鍵字相關的網頁將提取出文字資料,并在當前網頁重復之前過程。如果程序一直運行下去,將得到一種類似蜘蛛網的擴散結構。但是由于計算機的硬件限制,這種過程無法一直持續(xù)下去。而且由于網頁的互相關聯(lián)性,在幾輪之后,可能出現(xiàn)相關網頁在之前已經被搜索過的情況。因此,用戶可以通過規(guī)定多個關鍵詞以及限定搜索的輪數,得到一個接近于整體的樣本。
(二)整理數據
由于在大數據時代,數據量極大,收集到的數據無法保證一致性。而我們如果追求大量的數據,就必須接受隨之而來的數據的駁雜性。在分析數據之前,研究者們不可避免地需要整理這些數據,減少駁雜性,使它們具有可分析性。因為通過互聯(lián)網收集的數據大多是文字性的,無論是定性還是定量的研究,都需要將這些信息加以整理。如果是定量的研究,數字性的信息可以結合某些計算機技術手段篩選后使用,而文字信息則可以通過對信息進行量化使用。陳云松關于社會學發(fā)展的研究,就是通過統(tǒng)計Google最新語料庫中的某些社會學關鍵字的詞頻來闡述社會學自19世紀中期以來的發(fā)展。[13]
由于計算機科學與社會學的學科合作并沒有非常深入,所以現(xiàn)在大部分的對于文字信息進行定量研究都只是簡單的統(tǒng)計頻率。如果社會學科可以和計算機學科進一步合作,研究者們可以獲得更加豐富的數據,并在一定程度上取代一些樣本量較大的問卷調查。如美國的綜合社會調查(General Social Survey,簡稱GSS),通過在全部成年美國公民內抽取3000人左右的樣本,進行登門問卷調查。自互聯(lián)網興起之后,一些研究者們也在網絡上發(fā)布問卷調查,但是由于網民群體并不是特別具有代表性的公民樣本,因此結果也無法具有特別高的代表性。如果研究者們收集來自社交平臺的數據,篩選出關于某些話題的信息,再應用計算機技術分析情緒并將之量化,可以得到民眾關于某些話題的看法。但同時,這種方法也被樣本代表性限制著,只是由于數據量較大,且這些社交平臺的用戶數量在持續(xù)增長,可以彌補部分代表性的缺點。
如果是定性的研究,則需要先根據關鍵字對信息進行分類。對于這種極大量的數據,全部依靠人工分類顯然不可能。依靠計算機手段也有諸多的缺陷。比如有些詞有許多同義詞或者類似含義的表述,而研究者們很難將這些表述收集完全,因此在未閱讀這些信息前,研究者們很難選出可以足夠合適并完全的關鍵字,并且由于這種方式忽略了句子中的大部分成分,很容易造成語義理解錯誤?;谶@種困境,研究者們采取了一種新的方式,通過“機器學習”進行主題建模。這種方式產生于社會學家、語言學家以及計算機學家的合作。這種方式通過對主題的描述尋找?guī)讉€詞匯同時出現(xiàn)的概率,進而進行分類。[14]即使這樣,對信息進行分類依然會產生錯誤。比如,這種方法假設順序無關緊要,包括詞匯的順序和在極大樣本中文字篇章的順序。而且,這種方法對分類完全采取單一結果的方式,一段文字信息只能對應一個關鍵字,而忽略了一些關鍵字之間的聯(lián)系。為了克服這些限制,有研究者提出了在“人工前導”下的主題建模。研究者們先從廣泛的數據中隨機抽選出一些篇章進行人工分類,并將結果作為機器學習的訓練樣本?;羝战鹚梗℉opkins)和金(King)采用了這種方法進行了研究。他們通過在2008年美國總統(tǒng)選舉期間的幾千篇相關博客分析群眾們對候選人的看法。經過學習了一些訓練樣本后,計算機的分類結果比人工分類更加精準。[15]但是對于這種觀點,并沒有更進一步的驗證。
(三)分析數據
在數據被整理之后,研究者們將使用這些數據進行分析。對于定量研究來說,整理后的數據已經可以通過相應統(tǒng)計軟件進行直接使用,對于定性研究來說,數據依然需要繼續(xù)處理。“主題建?!钡确绞揭廊豢梢岳^續(xù)使用,用于將信息進一步細化并摘取出有意義的片段。比如在霍普金斯和金的研究中,在將博客按候選人進行分類后,還要對人們對候選人的態(tài)度進行分析,并摘錄出關鍵語句。[16]現(xiàn)在的社會學,計算機學和語言學的合作還只能將這些有關于態(tài)度的內容進行簡單分類,而對于更深層次的應用則需要各學科之間更加深入的合作。而對于定量研究來說,分析數據也包括將現(xiàn)有數據制作成圖表,以便于更加方便地闡述研究結果。比如緹娜提(Tinati)及同事通過統(tǒng)計在學費抗議期間Twitter上面微博客轉發(fā)數分析網絡數據的傳播規(guī)律。在數據整理之后通過軟件生成了散射狀的信息流動圖,[17]這種通過統(tǒng)計極大數據而生成的圖表,如果不使用相關軟件基本無法實現(xiàn)。
對于大數據的研究雖然將社會學推上了一個新的高度,但是卻依然有其局限性,并不能完全取代傳統(tǒng)的實證社會學研究方法。
首先,以定量分析方法抽樣調查為例,在一些案例中,抽樣調查更加適用于那些有“遺失”的數據和代表性的樣本。比如,一些沒有被警察發(fā)現(xiàn)的犯罪記錄。為了保護自己,人們一般不會在社交網絡平臺上袒露自己的犯罪記錄,尤其是那些警方沒有掌握證據的犯罪記錄。這些記錄就是數據庫中大量缺失的數據。而且,如果真的有人存在犯罪未被發(fā)現(xiàn)的情況,他們一般傾向于不在公共場合和平臺上坦白自己。在這種情況下,社會學家們可以通過統(tǒng)計方法估計這部分缺失的數據,從而預測整體的行為特點,而并非依賴于對全部所收集到的數據進行分析。另外,社會學家們傾向于使用來自社交平臺的大數據,然而由于不同社交網絡平臺的用戶群體在族群背景、教育、收入等方面都有所差異,在某一平臺收集的數據并非如眾多社會學家所想象的那樣,可以代表某一概念下的整體。[18]
其次,雖然當前的技術水平已經足夠研究人員們儲存和分析如此大量的數據,但是對于普通的研究者來講,如此大規(guī)模的運算還是比較困難的。大數據的收集是一個費時費力的工作,需要大量的資金支持。除了谷歌和微軟這樣的大型IT公司,只有那些像沃爾瑪這樣的大型商業(yè)公司才有這樣的實力。也曾經有社會學家收集過一些來自于社交網絡平臺的數據,但是由于技術和資金限制,這些數據的規(guī)模無論是縱向還是橫向都遠遠無法和那些大公司的數據庫相比。[19]社會學家也可以應用政府、機構、和企業(yè)已經收集整理好的數據庫。但是,除了政府的開放數據和一些機構的免費數據,大部分數據都需要研究者們向數據的所有者購買。對于研究經費有限的社會學家們,這可能是一筆不菲的支出。而且,通信領域和社會媒體領域的企業(yè)通常拒絕或者限制向研究者們分享數據。[20]即使企業(yè)統(tǒng)一分享數據,由于機構和企業(yè)收集數據時并沒有針對社會學研究的需要,所以一些數據庫可能并不能完全適用于社會學研究。因此,社會學家研究大數據的最理想選擇還是自己收集數據或者使用其他社會學家或者社會學研究機構已經收集好的數據。這無疑需要與其他學科,尤其是計算機學科更大程度的合作與交流。而對于整理和分析這些數據,對傳統(tǒng)的社會學方法也具有很大的挑戰(zhàn)。因為數據的巨大規(guī)模和駁雜性,用人工去整理和分析這些數據幾乎是不可能的事情。于是社會學家們同樣也需要更加先進的方法去處理這些數據。
第三,在大數據時代,道德也成為大數據社會學研究的限制。在傳統(tǒng)社會學研究中,研究者必須先得到受訪者的“知情同意”后才能進行數據的收集,即數據收集者必須告訴受訪者,有哪些數據將要被收集,這些數據將用來做什么,在受訪者對研究過程充分了解的基礎上方可進行。雖然這并非是數據收集的唯一方式,但已經成為了基于隱私政策的共識性基礎。然而在大數據時代,許多數據在收集的時候并無意用作其他用途,而最終卻產生了許多創(chuàng)新性的用途。許多研究也驗證了,大數據的價值不再單純地來自于其基本用途,更多源于對它的二次甚至于多次利用。經常被作為數據收集對象的各種網絡社交平臺,雖然在用戶開始使用服務之前通過一些使用許可,但這些簡陋的許可并沒有規(guī)定這些數據的具體用途,同時由于冗長的篇幅,很少有用戶將這些許可全部閱讀。這些都造成了大數據時代的社會學研究缺乏對受訪者隱私的嚴格保護。而由于IP地址的唯一性,用戶很容易通過IP地址被追溯,而這顯然不利于研究者們對受訪者的保護。另外,收集好的數據集可以作為資源出售,這也使得某些平臺在利益的驅動下非法獲得用戶的隱私信息并用以進行商業(yè)銷售,而購買者對這些數據的應用并不被出售者和數據相關者所掌控,從而對用戶的正常生活產生不良的影響。[21]
第四,使用大數據之后也存在著對公平性的影響。以行車保險業(yè)為例,很多保險公司在用戶的車輛中裝載行車記錄設備,這些設備記錄了用戶的行車路線、駕駛習慣等等。保險公司將這些記錄與用戶的違章記錄合并,對用戶的交通事故概率進行預測,并以此確定用戶應當繳納的保險費用。交通事故概率的預測值越高,則用戶需要繳納的保險費用就更高。乍看之下,這并沒有什么問題,但是,在這其中,弱勢群體的劣勢被進一步累計。具有更高經濟等級的人可以選擇在工作地點附近居住,或者選擇在更好交通條件的地點居住,他們的上下班時間也更加方便他們的駕駛,從而他們擁有更高的駕駛安全系數。而那些低經濟等級的人,可能住在距離上班地點比較遠的地方,所行駛的道路和上下班的時間也不利于安全駕駛,因而只有較低的駕駛安全系數。由此,低經濟等級的民眾需要繳納更高的保險費用,而高經濟等級的人反而需要繳納較少的費用。這從另一個方面進一步拉大了貧富差距,導致了更加嚴重的社會不公平。
不僅如此,大數據研究的強大預測性也可能導致更加嚴重的問題。如果警察應用大數據的預測來預防犯罪,一些素行不良的人可能會因為尚未發(fā)生的犯罪得到懲罰,這無疑是不公平的。而社會學研究所應用的大規(guī)模交互性數據可能會包含某些人有犯罪意圖的信息,是否將這些信息提交給警方也將是社會學研究道德的一部分??傊?,大數據為社會學研究建立了一個全新的國度,而這個國度的道德規(guī)范還沒有建立完全。
大數據對社會學的影響,體現(xiàn)為兩種社會學后果:正面后果和負面后果。它改變了社會學研究方式,開創(chuàng)了社會學研究的新時代,但是這并不代表以抽樣調查和訪談作為根本的傳統(tǒng)社會學研究方式從此退出了歷史舞臺。由于研究基金和技術等方面的限制,在很長一段時間內,大部分社會學家們還將繼續(xù)使用傳統(tǒng)社會學研究方法。也許今后計算機科學技術不斷發(fā)展,同時社會學與計算機學科和語言學進一步合作,基于大數據的社會學研究可以進一步增大范圍。但是由于社會學以社會為研究對象,即使在研究基金充足、技術也達到標準的情況下,依然有研究要依賴傳統(tǒng)的抽樣調查與訪談的方法。因而,大數據社會研究方法并非是傳統(tǒng)社會學研究方法的替代,而是補充。
注釋:
[1]M.Savage, R.Burrows, “The Coming Crisis of Empirical Sociology”, Sociology, vol.41 (October 2007), pp.885-899.
[2]R.J.Smith, “Missed Miracles and Mystical Connections: Qualitative Research, Digital Social Science and Big Data”, Studies in Qualitative Methodology,vol.13(2014), pp.181-204.
[3]涂子沛:《大數據:正在到來的數據革命,以及它如何改變政府、商業(yè)與我們的生活》,桂林:廣西師范大學出版社,2015年,第4-12頁。
[4]R.Inati, S.Halford,L.Carr,C.Pope, “Big Data: Methodological Challenges and Approaches for Sociological Analysis”, Sociology, vol.48(2014),pp. 663-681.
[5]C.Bail, “The Cultural Environment: Measuring Culture with Big Data”, Theory & Society, vol. 43, no.3/4(2014), pp.465-482.
[6]陳云松:《大數據中的百年社會學》,《社會學研究》2015年第1期。
[7]龍瀛、張宇、崔承?。骸独霉凰⒖〝祿治霰本┞氉£P系和通勤出行》,《地理學報》2012年第4期。
[8]R.Waters, J.Williams, “Squawking, Tweeting,Cooing, and Hooting: Analyzing the Communication Patterns of Government Agencies”, Journal of Public Affairs, vol.124, no.4(2011),pp.353-363.
[9]N.Jackson, D.Lilleker, “Microblogging,Constituency Service and Impression Management: UK MPs and Their Use of Twitter”, Journal of Legislative Studies, vol.17, no.1(2011), pp.86-105.
[10]A.Larsson, H.Moe, “Studying Political Micro-Blogging: Twitter Users in the 2012 Swedish Election Campaign”, New Media and Society, vol.14 (2011), pp.729-747.
[11]D.Murthy, “Towards a Sociological Understanding of Social Media: Theorizing Twitter”,Sociology, vol.46 (2012), pp.1059-1073.
[12]A.Gong, “An Automated Snowball Census of the Political Web”,http://papers.ssrn.com/sol3/ paper.cfm?abstract_id=1932024. SSRN eLibrary,2011.
[13]陳云松:《大數據中的百年社會學》,《社會學研究》2015年第1期。
[14]K.M.Quinn, B.L.Monroe, M.Colaresi,M.H.Crespin, D.R.Radev, “How to Analyze Political Attention with Minimal Assumptions and Costs”,American Journal of Political Science, vol. 54 (2010),pp.209-228.
[15]D.Hopkins, G.King, “A Method of Automated Nonparametric Content Analysis for Social Science”, American Journal of Political Science, vol.54 (2010), pp.229-247.
[16]D.Hopkins, G.King, “A Method of Automated Nonparametric Content Analysis for Social Science”, American Journal of Political Science, vol.54 (2010), pp.229-247.
[17]R.Tinati, S.Halford, L.Carr, C.Pope,“Big Data: Methodological Challenges and Approaches for Sociological Analysis”, Sociology, vol.48(2014),pp. 663-681.
[18]“國內外新聞與傳播前沿問題跟蹤研究”課題組:《大數據時間與研究:批判性反思與研究推動》,《新聞與傳播研究》2015年第8期。
[19]A.Edwards, W.Housley, M.Willianms,L.Sloan,“Digital Social Research, Social Media and the Sociological Zmagination: Surrogacy, Augmentation and Re-orientation”, International Journal of Social Research Methodololgy, Vol.16 (2013), pp.254-260.
[20]孟小峰、李勇、祝建華:《社會計算:大數據時代的機遇與挑戰(zhàn)》,《計算機研究與發(fā)展》2013年第12期。
[21]沈浩、黃曉蘭:《大數據助力社會科學研究:挑戰(zhàn)與創(chuàng)新》,《現(xiàn)代傳播》2013年第8期。
責任編輯 劉秀秀
作者簡介:張旭,哈爾濱工業(yè)大學社會學系博士研究生,哈爾濱市,150001;唐魁玉,哈爾濱工業(yè)大學社會學系教授、博士生導師,中國網絡社會學會副會長,《哈爾濱工業(yè)大學學報》(社會科學版)副主編,哈爾濱市,150001。
中圖分類號:C91-03
文獻標識碼:A
文章編號:1006-0138(2016)03-0042-06