• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      “計算”的邊界:互聯(lián)網(wǎng)大數(shù)據(jù)與社會研究

      2018-06-21 10:54:56
      關(guān)鍵詞:計算群體信息

      (武漢大學(xué)社會學(xué)系,湖北武漢,430072)

      社會學(xué)的量化研究以數(shù)據(jù)資料為基礎(chǔ),大數(shù)據(jù)時代的到來,使運用海量數(shù)據(jù)和新的數(shù)據(jù)處理技術(shù),對人類行為、群體互動乃至社會復(fù)雜適應(yīng)系統(tǒng)進(jìn)行研究成為可能??捎糜谏鐣芯康拇髷?shù)據(jù),依其生成方式大體可分為三類:第一類是基于人機(jī)互動在互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)平臺上生成采集的互聯(lián)網(wǎng)大數(shù)據(jù)①,包括社交關(guān)系數(shù)據(jù)、網(wǎng)絡(luò)文本數(shù)據(jù)、電子蹤跡數(shù)據(jù)等;第二類是通過各種傳感器采集而來的物聯(lián)網(wǎng)大數(shù)據(jù),手機(jī)位置信息是其典型類型;第三類則是通過數(shù)字化與數(shù)據(jù)化手段由既有信息資料轉(zhuǎn)制而成的大數(shù)據(jù),例如谷歌圖書語料庫(Google Books Corpus)[1]。在三類數(shù)據(jù)中,互聯(lián)網(wǎng)大數(shù)據(jù)由于承載著大規(guī)模、長時段、連續(xù)關(guān)系性和意義性信息,被認(rèn)為將賦予社會學(xué)“改變我們對生活、組織和社會的理解”的潛力[2]。

      單從名稱上看,“大數(shù)據(jù)”好像是在強(qiáng)調(diào)與傳統(tǒng)量化數(shù)據(jù)相比所具有的更大個案數(shù)量或信息規(guī)模。然而實際上,兩種數(shù)據(jù)無論是在數(shù)據(jù)性質(zhì)還是生產(chǎn)邏輯上都存在著質(zhì)的差異:傳統(tǒng)計量方法分析的是數(shù)值型數(shù)據(jù)(numerical data),這些數(shù)據(jù)是出于特定研究目的而運用實驗、問卷調(diào)查等方法有計劃地觀測的結(jié)果,即數(shù)據(jù)生產(chǎn)本身就構(gòu)成了研究的一項重要組成部分。新型計算方法所處理的則是計算機(jī)代碼型數(shù)據(jù)(code data) ——“作為數(shù)據(jù)的可解釋代碼和作為代碼的數(shù)據(jù)”[3],這些數(shù)據(jù)獨立于社會研究之外。數(shù)據(jù)生產(chǎn)的獨立性,也決定了其在社會研究中的邊界。在計算范式下,數(shù)據(jù)分析的焦點不再是能測量到什么,而是“已經(jīng)生產(chǎn)出什么”;不再是“能否有效且穩(wěn)定地測量”,而是“是否真實且準(zhǔn)確地生產(chǎn)”。[4]在由“可觀測性”議題轉(zhuǎn)向“可獲得性”議題的過程中,圍繞著大數(shù)據(jù)計算形成了一系列認(rèn)識假定,其中對社會研究最為重要的有“總體性”“真實?自然性”“客觀性”三大假定?!翱傮w性”假定指大數(shù)據(jù)時代的到來,開啟了“樣本=總體”的全數(shù)據(jù)模式,數(shù)據(jù)代表性問題將不復(fù)存在;“真實?自然性”假定指互聯(lián)網(wǎng)上記錄的是人們行為互動的真實蹤跡和“自然狀態(tài)”下的表達(dá);“客觀性”假定指基于大數(shù)據(jù)的研究可以避免研究者個人因素的影響,能夠獲得傳統(tǒng)研究方法無法企及的、帶有真理性、客觀性和準(zhǔn)確性的見解。然而,將大數(shù)據(jù)運用于社會研究,就會發(fā)現(xiàn)實際情況并沒有預(yù)想的那么樂觀。

      一、缺失與分隔:互聯(lián)網(wǎng)大數(shù)據(jù)的代表性邊界

      “總體性”假定來自于邁爾-舍恩伯格和庫克耶的《大數(shù)據(jù)時代:生活、工作與思維的大變革》,他們將大數(shù)據(jù)理解為不同于抽樣數(shù)據(jù)的全體數(shù)據(jù),稱大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法”[5](56);并且認(rèn)為“社會科學(xué)是被‘樣本=總體’撼動得最厲害的學(xué)科”[5](41)。這樣籠統(tǒng)地宣稱“采用所有數(shù)據(jù)”的潛臺詞似乎是——在大數(shù)據(jù)時代,一切社會科學(xué)研究都能夠用總體數(shù)據(jù)來分析。這一觀點對傳統(tǒng)定量研究者而言無疑有著巨大的吸引力,因為如果真的可以獲得“全樣本”,就意味著不存在數(shù)據(jù)代表性問題,社會研究結(jié)論的準(zhǔn)確性和適用范圍將得到顯著提升。國內(nèi)有些學(xué)者直接接受了“總體性”假定,認(rèn)為“抽樣誤差曾經(jīng)是長期困擾社會科學(xué)研究的重要難題,而全樣本作為大數(shù)據(jù)最重要的特征,甚至可以將抽樣誤差降為零”[6]。然而,“總體性”假定在表述上是含混不清的,在社會科學(xué)研究中,“總體”是相對于研究對象和研究問題而言的,在沒有明確研究對象的情況下談?wù)摽傮w,其實是毫無意義的。舍恩伯格等研究者未能對數(shù)據(jù)的“可計算性”和“可獲得性”之間的差異作出清晰的分辨,他認(rèn)為隨著計算能力的日益強(qiáng)大和數(shù)據(jù)處理技術(shù)的日益進(jìn)步,對獲取到的所有數(shù)據(jù)已有能力進(jìn)行有效的分析,無需再因計算條件(能力、成本、時效等)的限制而采取隨機(jī)抽樣方法壓縮數(shù)據(jù)體量。然而,在數(shù)據(jù)生產(chǎn)與科學(xué)研究相分離的背景下,可獲得的所有數(shù)據(jù)不一定等同于研究對象的所有數(shù)據(jù)。這是不能脫離具體研究問題來下結(jié)論的。正因如此,國內(nèi)有些學(xué)者對此問題的論述陷入自相矛盾,他們一方面沿襲舍恩伯格的觀點,強(qiáng)調(diào)大數(shù)據(jù)的全樣本特性,另一方面又承認(rèn)很多時候并不能獲得總體數(shù)據(jù)[7?8]。鑒于此,有必要對“總體性”假定進(jìn)行細(xì)致的分析,以矯正相關(guān)認(rèn)知偏差。

      (一) 數(shù)據(jù)缺失:“數(shù)字鴻溝”下的年齡與階層邊界

      在現(xiàn)實生活中,計算設(shè)備的獲得和使用會直接受到支付成本、技能學(xué)習(xí)、生活需求等社會因素的影響,從而使互聯(lián)網(wǎng)大數(shù)據(jù)生產(chǎn)過程本身具有明顯的社會屬性[9]。對這種社會屬性最直接的考察,便是檢視網(wǎng)民群體結(jié)構(gòu)與總體人口結(jié)構(gòu)的對應(yīng)程度。

      據(jù)第 41次“中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告”顯示,2017年中國網(wǎng)民規(guī)模達(dá)到7.72億,而按照當(dāng)年總?cè)丝跀?shù)計算,中國互聯(lián)網(wǎng)普及率只有 55.8%,仍有近一半的中國人口未能成為互聯(lián)網(wǎng)大數(shù)據(jù)的生產(chǎn)主體。當(dāng)然,如果這種缺失只是群體比例上的隨機(jī)缺失,可以通過統(tǒng)計手段加以修正[10](186?187)。但現(xiàn)實情況卻不盡然,僅從年齡結(jié)構(gòu)來看,2017年,中國網(wǎng)民群體以40歲以下人口為主,40歲以上網(wǎng)民只占總網(wǎng)民數(shù)的23.6%,不到1.82億人;而同年齡段的實際人口,占總?cè)丝跀?shù)的比例卻接近五成[11?12]。以往的研究表明,中國互聯(lián)網(wǎng)的使用不僅會受到使用者年齡因素的影響,更與其收入、受教育程度和城鄉(xiāng)差異等因素緊密相關(guān)[13?14]。即便只是對使用者的年齡、收入、受教育程度與城鄉(xiāng)結(jié)構(gòu)四個因素的交叉列聯(lián)也會發(fā)現(xiàn),僅憑 40歲以上的網(wǎng)民群體規(guī)模是無法實現(xiàn)對同年齡段總?cè)丝谧儺愋缘恼w覆蓋,尤其是覆蓋那些年齡較大、收入較低、學(xué)歷不高、居住在農(nóng)村的群體,其中大部分人的日常行為和態(tài)度意見都沒有被記錄在互聯(lián)網(wǎng)大數(shù)據(jù)之中。例如,新浪微博發(fā)布的“2016微博用戶發(fā)展報告”顯示,82%的微博用戶年齡在30歲以下,40歲以上用戶不足7%;77.8%的用戶受教育程度為大學(xué)及以上層次,初中及以下層次用戶同樣不足7%[15]。

      “數(shù)字鴻溝”(Digital Divided)的一系列研究對數(shù)據(jù)缺失背后所隱含的社會意義有所揭示。數(shù)字鴻溝概念,最初被用于描述因網(wǎng)絡(luò)設(shè)備接入的不均衡所引發(fā)的信息分配的不平等現(xiàn)象[16]。對互聯(lián)網(wǎng)大數(shù)據(jù)而言,“數(shù)字鴻溝”現(xiàn)象的存在意味著部分社會成員作為數(shù)據(jù)生產(chǎn)主體的缺場,其態(tài)度與行為信息無法在網(wǎng)絡(luò)中獲取?!皵?shù)字鴻溝”不僅出現(xiàn)在網(wǎng)民與非網(wǎng)民群體之間,同樣也出現(xiàn)在網(wǎng)民群體內(nèi)部。隨著研究的不斷深入,社會學(xué)家們普遍意識到,由互聯(lián)網(wǎng)的接入與否所引發(fā)的區(qū)隔問題,不過是“數(shù)字鴻溝”的表現(xiàn)形式之一。社會的結(jié)構(gòu)性不平等因素,同樣會在網(wǎng)民群體之間制造出使用頻率、需求程度、技能水平和信息素養(yǎng)等方面的顯著差異,由此引發(fā)數(shù)據(jù)生產(chǎn)上的“次級數(shù)字鴻溝”問題[17]。

      “數(shù)字鴻溝”理論表明,受個人技術(shù)能力、經(jīng)濟(jì)條件和社會需要等因素的限制,社會大齡群體和底層群體在成為互聯(lián)網(wǎng)大數(shù)據(jù)生產(chǎn)主體問題上普遍面臨著更多的障礙。這些群體中只有少數(shù)成員成為了網(wǎng)民,他們無論是在行為方式還是態(tài)度意見方面都不足以代表全部成員,其所生產(chǎn)出的數(shù)據(jù)信息也無法涵蓋群體內(nèi)的所有變異性特征[18]。可以說,“數(shù)字鴻溝”現(xiàn)象的存在,使互聯(lián)網(wǎng)大數(shù)據(jù)不可避免地存在數(shù)據(jù)缺失問題。在以往量化研究方法中,數(shù)據(jù)缺失是指所要觀測的變量取值未能被測量到,或測量結(jié)果的信度太低而無法使用。然而在大數(shù)據(jù)研究領(lǐng)域,“缺失”的內(nèi)涵發(fā)生了變化,用以描述受成本支付和主體偏好等因素的影響,社會研究所需要的數(shù)據(jù)未能在互聯(lián)網(wǎng)絡(luò)中生產(chǎn)或儲存下來,因而研究者無法獲取關(guān)于特定社會群體或研究主題的全部必要信息。由此類數(shù)據(jù)的絕對缺失所帶來的信息恒定缺損,以至難以甚至無法以統(tǒng)計學(xué)方式來加以彌補或矯正。

      (二) 數(shù)據(jù)分隔:差異化生產(chǎn)下的群體與主題邊界

      在網(wǎng)絡(luò)經(jīng)濟(jì)時代,作為純粹人工制品的互聯(lián)網(wǎng)服務(wù),多數(shù)情況下都是以一種商品化的形象呈現(xiàn)在世人面前。由這些服務(wù)平臺所生成的各類互聯(lián)網(wǎng)大數(shù)據(jù),也就變相成為對互聯(lián)網(wǎng)商品/服務(wù)消費過程或消費結(jié)果的一系列記錄資料的集合。因此,在互聯(lián)網(wǎng)大數(shù)據(jù)所蘊含的全部意義中,最首要也最基本的便是數(shù)字化媒介的消費意涵。各種信息商品,在具備使用價值的同時,被賦予了遠(yuǎn)比以往更為豐富的符號屬性,指向著“通過區(qū)別符號來生產(chǎn)價值社會編碼的目標(biāo)”[19](69)。隱含在數(shù)字消費背后的種種“社會性功能”,會在互聯(lián)網(wǎng)大數(shù)據(jù)的生產(chǎn)過程中畫出一條不甚清晰的群體與主題邊界,進(jìn)而制造出一種“數(shù)據(jù)分隔”現(xiàn)象,即不同數(shù)據(jù)源所承載的信息在生成主體、內(nèi)容主題等方面存在明顯的差異[20]。

      互聯(lián)網(wǎng)絡(luò)數(shù)據(jù)分隔現(xiàn)象的出現(xiàn)主要有兩大動力,一是發(fā)生在不同專業(yè)領(lǐng)域之間的專門化過程,二是發(fā)生在同一領(lǐng)域或服務(wù)類型內(nèi)部的差異化過程。伴隨著現(xiàn)實社會中的領(lǐng)域分化與職能分工,互聯(lián)網(wǎng)中出現(xiàn)了諸多面向特定領(lǐng)域的專門化網(wǎng)絡(luò)服務(wù)平臺(例如評論股市行情的炒股論壇、探討病情的病友貼吧、分享技術(shù)知識的科技論壇)。與綜合性信息網(wǎng)站相比,這些專門化網(wǎng)站通常具有專業(yè)信息覆蓋面寬、信息內(nèi)容規(guī)范且體系完整、原創(chuàng)信息豐富和信息增長率快等優(yōu)勢,并由此成為相關(guān)專業(yè)群體獲取信息與溝通交流的重要平臺。由此,專業(yè)/領(lǐng)域邊界便轉(zhuǎn)化為數(shù)據(jù)信息中的群體與主題邊界。另外,在自由競爭的互聯(lián)網(wǎng)市場中,盡管的確存在著一些占優(yōu)勢甚至主導(dǎo)地位的平臺或服務(wù),但多個服務(wù)商競相滿足同一需求的狀況仍是市場中的主流?,F(xiàn)代消費社會的一大特征是,商品的消費取代生產(chǎn)成為經(jīng)濟(jì)活動組織的主導(dǎo)形式。網(wǎng)絡(luò)服務(wù)商們普遍有針對性地依據(jù)各種必要的或建構(gòu)的細(xì)分市場需求來組織商品的生產(chǎn)與營銷,從而帶來同一類型互聯(lián)網(wǎng)服務(wù)之間的差異化。這種差異化又會因消費者的選擇偏好——既有統(tǒng)計意義上的個體偏好,亦有數(shù)字認(rèn)同(涉及數(shù)字媒介中對不同象征符號的組織、串聯(lián)、賦值與解讀)作用下的群體偏好[21]——而持續(xù)得以鞏固,并由此引發(fā)用戶群體的進(jìn)一步分化。

      由中國互聯(lián)網(wǎng)信息中心(CNNIC)開發(fā)的中國互聯(lián)網(wǎng)數(shù)據(jù)平臺,提供了各種類型的網(wǎng)絡(luò)站點與軟件客戶端總覆蓋人數(shù)及其比例的重合分析計算功能。從新聞、購物、瀏覽器與視頻客戶端四種網(wǎng)站與軟件類型中各選取三個代表性服務(wù)商,對覆蓋人數(shù)的重合比例(見表1)進(jìn)行分析后發(fā)現(xiàn),數(shù)據(jù)分隔現(xiàn)象的確存在。表1顯示,各網(wǎng)站或軟件盡管存在著覆蓋人數(shù)比例上的差異,但均擁有多則千萬少則百萬的獨占用戶規(guī)模(即只訪問或使用特定網(wǎng)站或軟件的用戶)。當(dāng)這些獨占用戶不具備獨特的群體屬性時,其存在并不會對社會學(xué)互聯(lián)網(wǎng)大數(shù)據(jù)計算造成嚴(yán)重影響。然而,通過對用戶群體的基本屬性分析,可以發(fā)現(xiàn)不同類型網(wǎng)站或軟件的獨占用戶之間存在著明顯的群體特征差異(見表2)。例如,由表2可知,在三種視頻客戶端平臺的獨占用戶中,(1)愛奇藝與搜狐的男性用戶多于女性,后者的男性用戶占比甚至超過七成,而優(yōu)酷的女性用戶則要遠(yuǎn)高于男性用戶;(2)四成以上的愛奇藝獨占用戶年齡在20~29歲之間,近五成的搜狐用戶為30~49歲群體,優(yōu)酷用戶中19歲以下年齡段群體占比則接近四成;(3)愛奇藝獨占用戶集中于華東與中南地區(qū),搜狐用戶集中在華北和西南地區(qū),而優(yōu)酷用戶則集中在華東和西南地區(qū),其中西南地區(qū)比例占比超過四成;(4)愛奇藝和搜狐均有七成左右的獨占用戶分布在二、三級城市之中,后者有著更高的四級城市用戶比例,而優(yōu)酷則有七成以上的用戶居住在一、二級城市之中。獨占用戶之間的類似群體差異,同樣出現(xiàn)在生成購物大數(shù)據(jù)的電商網(wǎng)站平臺和生成電子蹤跡數(shù)據(jù)的瀏覽器與視頻客戶端軟件平臺之上。

      表1 2017年第1季度四種類型網(wǎng)站與軟件覆蓋人數(shù)的重合比例分析(%)

      表2 四類網(wǎng)站與軟件代表性服務(wù)商獨占用戶群體特征的比例分布(%)

      性別、年齡、地域分布與城市分布等變量對亞文化群體的形成具有直接影響,這幾乎是社會學(xué)、人類學(xué)等學(xué)科的基本共識。由此可知,在專業(yè)化與差異化過程的雙重作用下,數(shù)據(jù)信息中不同專業(yè)群體之間、不同社會階層之間、不同主題內(nèi)容之間的邊界會被隱秘地樹立起來。數(shù)據(jù)分隔現(xiàn)象的存在意味著社會研究難以藉由單一或少數(shù)幾個數(shù)據(jù)源獲取關(guān)于研究對象的全部可用數(shù)據(jù),不同的數(shù)據(jù)源同研究主題操作化定義的匹配程度(即數(shù)據(jù)效度)也會有明顯的差異。因此,在社會學(xué)互聯(lián)網(wǎng)大數(shù)據(jù)研究,特別是那些與專業(yè)化議題或特殊群體緊密相關(guān)的研究中,預(yù)先明確數(shù)據(jù)源的群體屬性與核心主題范圍,就成為考察數(shù)據(jù)代表性與數(shù)據(jù)效度的重要指標(biāo)。

      二、虛假與偏態(tài):互聯(lián)網(wǎng)大數(shù)據(jù)的準(zhǔn)確性邊界

      互聯(lián)網(wǎng)大數(shù)據(jù)的“真實?自然性”假定指向兩個問題,一是數(shù)據(jù)信息本身的真?zhèn)危菙?shù)據(jù)生成過程的“自然”與否。在IBM公司早期的5Vs模型中,真實性(veracity)曾一度被視為大數(shù)據(jù)的基本特征之一[22]。這種認(rèn)識的建立,主要基于以下理由:一方面,“機(jī)器不會說謊”,人們在互聯(lián)網(wǎng)上所呈現(xiàn)的任何心態(tài)與行為信息都會被計算機(jī)直接保留下來,不存在對信息的選擇性記錄與存儲;另一方面,他們也相信擺脫了調(diào)查/實驗情境和研究者面對面的影響,大眾將普遍缺乏造假或說謊的直接動機(jī)而會表露出自身的真實意圖。有學(xué)者在同傳統(tǒng)測量方法比較后提出,“許多大數(shù)據(jù)是人們活動行為的實時和真實的記錄,鮮受人類記憶、偏好和情感的干擾,這將會在很大程度上排除人們因主觀性以及對概念的誤解等因素對調(diào)查內(nèi)容的誤填和爛填”[23]。然而面對各種謠言、刷單等網(wǎng)絡(luò)虛假信息層出不窮的現(xiàn)實,這一特征已開始受到越來越多的質(zhì)疑。與對“真實性”的廣泛存疑不同,“自然發(fā)生性”(naturally occurring)仍被許多研究者視為互聯(lián)網(wǎng)大數(shù)據(jù)的基本屬性之一[24]。他們相信,人們更多是根據(jù)個人興趣與需要來有選擇地獲取與篩選不同主題的信息,并基于自身知識與態(tài)度對信息做出判斷和反饋;其中,信息的發(fā)布、搜索、閱讀、轉(zhuǎn)發(fā)與評論,作為大眾個體意識的自然表達(dá)或“平常狀態(tài)”[5](42)被記錄在互聯(lián)網(wǎng)大數(shù)據(jù)之中,成為“描繪復(fù)雜的人類感官世界,展現(xiàn)個體真實的內(nèi)心世界,體察驛動的心理動態(tài),挖掘豐富的人際交互,探索人類社會總體價值走向”[25]的可靠資料。對于上述假設(shè),產(chǎn)生如下疑問:互聯(lián)網(wǎng)大數(shù)據(jù)都是真實可靠的嗎?數(shù)據(jù)生產(chǎn)果真都是自然發(fā)生的嗎?數(shù)據(jù)所承載的信息是否會存在著某種形式的缺損?

      (一) 數(shù)據(jù)操縱:互聯(lián)網(wǎng)大數(shù)據(jù)生產(chǎn)中的“非真實”

      如前所述,絕大多數(shù)互聯(lián)網(wǎng)服務(wù)平臺都帶有濃厚的商業(yè)色彩,互聯(lián)網(wǎng)大數(shù)據(jù)的生成在一定意義上可以被理解為銷售行為與消費行為交互作用的結(jié)果。在市場邏輯之下,圍繞著信息的生產(chǎn)、分配與交換形成了一種“數(shù)據(jù)商業(yè)”。所謂“數(shù)據(jù)商業(yè)”,在此指的不是某種純粹的數(shù)據(jù)或信息買賣業(yè)務(wù),而是一種數(shù)據(jù)生產(chǎn)的基本邏輯:商業(yè)化的盈利導(dǎo)向為互聯(lián)網(wǎng)大數(shù)據(jù)的生成提供了一種“例行程序”,一方面,指導(dǎo)和限定著數(shù)據(jù)的整體生成框架;另一方面,“還要盡力掩蓋滲透其中的經(jīng)濟(jì)邏輯”[26](129)。正是這種商業(yè)化邏輯的存在,將大量人為操縱因素注入到互聯(lián)網(wǎng)大數(shù)據(jù)中。例如在網(wǎng)絡(luò)購物數(shù)據(jù)中,考慮到銷售量和既有評價是潛在消費者購物的評判依據(jù),部分網(wǎng)絡(luò)銷售商便采用惡意刷單、雇傭“水軍”等方式人為篡改銷售數(shù)量和好評度,甚至出現(xiàn)了許多專業(yè)“刷單”公司和“水軍”公司;部分消費者也可能出于獲取返利等目的刻意編造好評,將大量虛假信息注入互聯(lián)網(wǎng)大數(shù)據(jù)之中。網(wǎng)絡(luò)打車平臺上,也曾出現(xiàn)過大量為騙取平臺補貼的“惡意刷單”現(xiàn)象。再如,網(wǎng)絡(luò)搜索引擎服務(wù)商作為“信息把關(guān)人”,在數(shù)據(jù)商業(yè)邏輯的影響和缺乏外部監(jiān)管的情況下,難免會進(jìn)行“權(quán)力尋租”——由于搜索結(jié)果的排名先后會直接影響其點擊率,搜索服務(wù)商出于增加廣告營利目的,普遍對搜索結(jié)果中的優(yōu)先位置進(jìn)行計價銷售。2008年的“屏蔽百度抓取”事件[27]和 2016年的“魏則西”事件[28],便充分暴露出百度搜索引擎通過競價排名對搜索結(jié)果排序的人為操縱以及由此所產(chǎn)生的社會后果。

      除了商業(yè)利益驅(qū)使外,政治利益也是數(shù)據(jù)造假的重要動機(jī)。大數(shù)據(jù)時代帶來的政治?文化后果便是“大數(shù)據(jù)政治”,即一種技術(shù)“殖民”社會的權(quán)力結(jié)構(gòu)體系。隨著互聯(lián)網(wǎng)對政治活動影響的不斷加深,以往身體化的參與行為日漸讓位于虛擬的鼠標(biāo)點擊行動(clicktivism),支持或反對的程度被認(rèn)為可以通過點擊、閱讀和轉(zhuǎn)發(fā)的數(shù)量來衡量[29]。由此,大數(shù)據(jù)使政府與企業(yè)決策過程中的公眾角色不斷弱化,取而代之的則是數(shù)據(jù)化的“幻影公眾”[30],此后果不僅使數(shù)據(jù)生產(chǎn)者的主體性受到侵蝕——這正是哈貝馬斯對“技術(shù)官僚統(tǒng)治”的憂慮所在[31],而且也使數(shù)據(jù)信息本身的真實性遭遇嚴(yán)峻的考驗。例如,英美等國媒體就曾曝光過美國政府通過開發(fā)網(wǎng)絡(luò)機(jī)器人和注冊虛假社交媒體賬號等方式偽造民意的新聞[32]。對于互聯(lián)網(wǎng)大數(shù)據(jù)研究而言,這些人為操縱之下形成的虛假數(shù)據(jù),如果不能被有效甄別與剔除,就意味著數(shù)據(jù)可能存在巨大的系統(tǒng)性偏差,勢必導(dǎo)致研究結(jié)果出現(xiàn)嚴(yán)重錯誤。然而,虛假數(shù)據(jù)的甄別與剔除,目前仍是有待深入解決的技術(shù)難題和社會難題。

      (二) 數(shù)據(jù)偏態(tài):互聯(lián)網(wǎng)大數(shù)據(jù)生產(chǎn)中的“非自然”

      有學(xué)者認(rèn)為,無論社交媒體中的聊天信息、電子郵件,還是各類服務(wù)平臺上的購物記錄和電子蹤跡等,都是在未受研究者干預(yù)條件下自然發(fā)生的,反映著行動者的客觀真實狀態(tài)。該觀點的缺陷在于,過分關(guān)注互聯(lián)網(wǎng)大數(shù)據(jù)生成過程的技術(shù)維度而忽略其社會維度。一方面,互聯(lián)網(wǎng)大數(shù)據(jù)的生成平臺能夠通過程序設(shè)計與議程設(shè)置等方式,對數(shù)據(jù)生成過程產(chǎn)生直接引導(dǎo)作用,影響著所能生成的數(shù)據(jù)形式與信息內(nèi)容。另一方面,社會大眾的數(shù)據(jù)生產(chǎn)過程實質(zhì)上就是其在互聯(lián)網(wǎng)空間開展社會行動與互動的過程,這一過程除了受到群體環(huán)境的影響,其本身會帶有明顯的現(xiàn)實情境特征。正因如此,即使能擺脫研究者與研究本身的影響,也改變不了互聯(lián)網(wǎng)大數(shù)據(jù)中存在著諸多其他社會因素影響的現(xiàn)實。

      1.數(shù)據(jù)引導(dǎo)

      數(shù)據(jù)引導(dǎo),即通過人為設(shè)計與限制等方式影響信息生產(chǎn)過程與結(jié)果的行為。除了權(quán)力監(jiān)管(如網(wǎng)絡(luò)刪帖、敏感詞屏蔽)這種顯性形式之外,數(shù)據(jù)引導(dǎo)還會以“數(shù)據(jù)算法”的隱蔽形式潛藏在互聯(lián)網(wǎng)大數(shù)據(jù)的生成過程。有學(xué)者指出,那些看似“自然”的互聯(lián)網(wǎng)大數(shù)據(jù),其實在生成過程中就已經(jīng)摻雜進(jìn)了大量人為的設(shè)計因素。Facebook和Twitter等社交網(wǎng)站通過不停地調(diào)試,將友誼、受歡迎程度等轉(zhuǎn)換成某種算法,同時把這種算法宣稱為某種“社會共享”的價值觀念。點“贊”和“熱門話題”這樣的網(wǎng)站按鈕雖然可能被認(rèn)為是自然的在線社交活動,但并不能掩蓋構(gòu)成這些按鈕的算法,本質(zhì)上是被精心調(diào)制出來用于引導(dǎo)人們點擊響應(yīng)的[33]。

      除了基于算法設(shè)計的技術(shù)引導(dǎo),數(shù)據(jù)引導(dǎo)還可以通過直接的人為干預(yù)方式發(fā)生。社會注意力研究也證明,網(wǎng)絡(luò)時代的大眾媒介和部分精英群體同樣也能夠通過議程設(shè)置和框架建構(gòu),對受眾的注意力分配發(fā)揮明顯的引導(dǎo)與形塑作用。與心理學(xué)關(guān)注神經(jīng)性活動不同,社會學(xué)和經(jīng)濟(jì)學(xué)將“注意力”視為特定結(jié)構(gòu)與情境條件下,與信息處理相關(guān)聯(lián)的可組織配置的一種社會性資源[34]。在信息爆炸與信息過載的網(wǎng)絡(luò)時代,“注意力”開始取代信息成為社會中的稀缺資源②,其分配——注意力資源在不同信息對象之間的配置結(jié)構(gòu)——會對信息獲取的方向、主題及其處理方式與效率產(chǎn)生重要影響[35]。傳播學(xué)認(rèn)為,大眾媒介對信息受眾的注意力分配發(fā)揮著引導(dǎo)與建構(gòu)作用。議程設(shè)置與框架理論指出,在以往信息與信源匱乏的時代,人們?yōu)楂@取信息必須緊緊依附于有限的大眾媒介,并在媒介的影響下配置自身的注意力?!半S著時間的推移,媒介議程中報道對象的顯著性會轉(zhuǎn)移到公眾議程上,媒介不僅能成功地告訴我們?nèi)ハ胧裁?,而且能成功地告訴我們?nèi)绾稳ハ搿盵36]。進(jìn)入網(wǎng)絡(luò)時代之后,這種議程設(shè)置現(xiàn)象并未隨著信源數(shù)量的迅猛增長和信息議題的多元化而消失。表3呈現(xiàn)了由2017年3月26日至5月20日8周時間內(nèi),中國傳統(tǒng)新聞媒介在新浪微博中每周影響力的排名。由表中數(shù)據(jù)可知,盡管存在著許多網(wǎng)絡(luò)意見領(lǐng)袖(微博 VIP會員)和自媒體賬號,但微博中傳統(tǒng)新聞媒介依然擁有巨大的輿論影響力;與印刷形式上的多樣性相比,大量受眾的注意力逐漸集中到少數(shù)傳統(tǒng)新聞媒介上[37]。議程設(shè)置現(xiàn)象的存在,將會造成網(wǎng)絡(luò)輿情大數(shù)據(jù)在主題分布上的極度不均衡,那些未被納入議程的主題很可能面臨數(shù)據(jù)量過小或樣本代表性不足等潛在問題。此外,各類自媒體的出現(xiàn),很多情況下也不過是將議程設(shè)置的主體由大眾媒介拓展至部分網(wǎng)絡(luò)精英群體[38?39]。“2016微博用戶發(fā)展報告”就指出,新浪微博的VIP會員的發(fā)文量超過普通用戶近四倍[15]。一項關(guān)于Twitter網(wǎng)中信息生產(chǎn)主體的研究也顯示,精英用戶群體盡管只占全部用戶的極少部分,卻生產(chǎn)出該平臺近50%的信息[40]。自媒體的精英屬性,也使議程的選擇難免帶有偏見與人為謀劃色彩。

      表3 部分傳統(tǒng)新聞媒體微博賬號影響力每周排名(2017.3.26—2017.5.20)

      2.環(huán)境塑造

      在社會學(xué)互聯(lián)網(wǎng)大數(shù)據(jù)的生產(chǎn)主體中,政府、媒介與商業(yè)公司等專業(yè)內(nèi)容生產(chǎn)者只構(gòu)成了其中的一小部分,絕大多數(shù)是那些普通的互聯(lián)網(wǎng)用戶。這些用戶被認(rèn)為會以“主動自我報告”或“自我曝光”形式在互聯(lián)網(wǎng)上持續(xù)生產(chǎn)各種類型的心態(tài)與行為信息,將自己的真實面記錄在數(shù)據(jù)之中。由此,可以引申出如下問題,即在互聯(lián)網(wǎng)上大眾是否真的所言/行如所想?關(guān)于網(wǎng)絡(luò)輿論中從眾行為、傳染行為與“沉默的螺旋”現(xiàn)象的研究均顯示,許多情況下人們并非會按照自己所想的那樣去行事。首先,互聯(lián)網(wǎng)中的數(shù)字認(rèn)同與社交互動中的同質(zhì)性偏好,造成了網(wǎng)絡(luò)結(jié)構(gòu)上的不均勻,信息受眾普遍分散在內(nèi)部關(guān)系緊密而外部關(guān)系稀疏的各個子網(wǎng)絡(luò)之中。受子網(wǎng)絡(luò)群體的影響和壓力,網(wǎng)絡(luò)成員有可能傾向于隱匿自身的想法而試圖與其他群體成員保持一致[41?42]。其次,由從眾行為衍生而來的社會傳染研究,更進(jìn)一步揭示出網(wǎng)絡(luò)中特定成員會將關(guān)系鄰接者的行為作為現(xiàn)實的情境因素加以解讀,并可能受其傳染而出現(xiàn)行為上的主動趨同化[43?44]。最后,在被動從眾與主動趨同之外,還存在著一種受眾保持“沉默”的可能?!俺聊穆菪崩碚撜J(rèn)為,人們會出于害怕孤立的心理,預(yù)先評估特定議題下的意見分布狀況,并判斷不同意見之間的優(yōu)劣地位。當(dāng)他們估計優(yōu)勢意見與其個人意見相去甚遠(yuǎn),且不愿改變自身立場時,便傾向于保持沉默[45]。沉默的直接后果是使優(yōu)勢意見的強(qiáng)者地位得到進(jìn)一步強(qiáng)化,劣勢意見則更趨于沉默,這種循環(huán)往復(fù)的作用會嚴(yán)重?fù)p害網(wǎng)絡(luò)輿情大數(shù)據(jù)中的態(tài)度多樣性信息[46]。

      實際上,除了群體壓力以外,權(quán)力監(jiān)控下的自我隱私保護(hù)同樣會帶來互聯(lián)網(wǎng)用戶的主動沉默。福柯曾指出現(xiàn)代權(quán)力體系的兩大特征,即從統(tǒng)治權(quán)向生命權(quán)力的拓展以及與之相配合的“全景敞視主義”。當(dāng)數(shù)字化技術(shù)成為人們身體的延伸,大數(shù)據(jù)計算在一定意義上便成為強(qiáng)化生命權(quán)力的工具;而時時刻刻的“數(shù)據(jù)監(jiān)測”,則進(jìn)一步提升了對社會的“全景監(jiān)控”能力。在部分學(xué)者看來,數(shù)據(jù)規(guī)模愈大,數(shù)據(jù)生成主體就會變得愈加“透明”,這與現(xiàn)代社會所強(qiáng)調(diào)的隱私權(quán)利保護(hù)背道而馳[47]。盡管存在著各種數(shù)據(jù)的匿名與脫敏技術(shù),但對性別、年齡、族群或亞文化群體信息的披露,仍會涉及到對群體隱私權(quán)的侵犯[48]。所謂群體隱私,是一個群體以其整體的名義而非群體內(nèi)各成員的個人名義所享有的社會權(quán)利[49]。以往關(guān)于“群體污名”的研究已經(jīng)表明,在一個不平等社會中,任何群體間的明顯差異都有可能成為建構(gòu)群體污名甚至社會區(qū)隔的意義基礎(chǔ)。這種對個人/群體隱私的潛在侵?jǐn)_,勢必會給數(shù)據(jù)生產(chǎn)制造障礙,對個體或群體隱私保護(hù)意識的強(qiáng)化,會窒息數(shù)據(jù)生產(chǎn)主體的創(chuàng)造意愿,使其對重要信息進(jìn)行刻意隱瞞甚至主動篡改,并由此對數(shù)據(jù)質(zhì)量帶來嚴(yán)重?fù)p害[50]。

      三、價值有涉:互聯(lián)網(wǎng)大數(shù)據(jù)的客觀性邊界

      自從孔德創(chuàng)立“社會物理學(xué)”并將其視為“標(biāo)志著實證主義的最終勝利”開始[51],實證主義方法論就在社會研究中劃分出一條科學(xué)與非科學(xué)的邊界。它在“將社會科學(xué)放置到了低于自然科學(xué)的位置上”的同時,也“將人文學(xué)科貶低到了一個虛幻的主觀性領(lǐng)域”[52]。然而長久以來,無論是質(zhì)性研究中“薩摩亞”之爭和“墨西哥特波茨蘭村”之爭背后隱含的研究者主觀價值分歧[53],還是量化資料收集過程中調(diào)查者對被調(diào)查者的外在干擾[54],都持續(xù)證明著絕對“價值中立”與完全“客觀”在社會研究中的難以企及[55],甚至引發(fā)出一場關(guān)于社會學(xué)方法論危機(jī)的討論[56?57]。

      大數(shù)據(jù)時代的到來,將社會學(xué)的實證主義情結(jié)再次喚醒。二進(jìn)制的計算機(jī)代碼將大數(shù)據(jù)時代描繪成一個擺脫人為干涉的純數(shù)字時代,“客觀性”被視為互聯(lián)網(wǎng)大數(shù)據(jù)的基本特征之一。由于數(shù)據(jù)生成與社會研究相分離,加之可用數(shù)據(jù)集中信息的極度豐富及其多維屬性,研究者個人因素所造成的“觀念先行”“材料拼湊”和“以偏概全”等問題被認(rèn)為可以有效避免。在此基礎(chǔ)上,一種稱為“大數(shù)據(jù)神話”的觀點被提出,它認(rèn)為“大數(shù)據(jù)集提供了一種智力和知識的更高級形式,可以生產(chǎn)出以往無法企及的、帶有真理性、客觀性和準(zhǔn)確性的見解”[58];“從海量的客觀數(shù)據(jù)中得出的結(jié)論要比傳統(tǒng)抽樣統(tǒng)計分析得出的結(jié)論更為可靠”[59]。然而也有學(xué)者提醒我們,大數(shù)據(jù)其實“并沒有看起來的那么簡單”[60]。事實上,數(shù)據(jù)生產(chǎn)與社會研究的相互獨立,不但未能將人為干擾從互聯(lián)網(wǎng)大數(shù)據(jù)中排除出去,反而會招致比傳統(tǒng)研究方法更多的干擾因素。各種或顯性或隱性的人為干擾,潛藏在由數(shù)據(jù)生成到數(shù)據(jù)挖掘再到數(shù)據(jù)分析的整個處理鏈條之中,持續(xù)威脅著計算結(jié)果的客觀中立性。

      首先,數(shù)據(jù)生成環(huán)節(jié)上的算法設(shè)計及其變更,構(gòu)成了互聯(lián)網(wǎng)大數(shù)據(jù)研究的第一層人為干擾。網(wǎng)絡(luò)數(shù)據(jù)的生產(chǎn)通常都需要依靠特定的程序設(shè)計才能得以實現(xiàn),但這些程序作為一種人工制品本身遠(yuǎn)非盡善盡美,需要經(jīng)過不斷的調(diào)試、更新與升級。在此過程中,程序本身的明顯調(diào)整(如搜索推薦算法變更),會在基于該程序所生成的數(shù)據(jù)中制造出某種不甚清晰的斷裂。拉澤爾等就曾指出,谷歌出于商業(yè)目的對網(wǎng)絡(luò)搜索推薦算法的變更,是造成谷歌疾病預(yù)測走向失敗的一個重要原因[61]。與此同時,不同平臺間算法設(shè)計上的差異,也為數(shù)據(jù)的匹配和關(guān)聯(lián)制造了障礙。一個典型的例子是,中國幾大主要門戶網(wǎng)站(如網(wǎng)易、搜狐)在互聯(lián)網(wǎng)平臺和移動互聯(lián)網(wǎng)平臺上普遍采用了兩種不同的推薦算法——前者以人工審核和操作為主,后者則使用著基于機(jī)器學(xué)習(xí)的智能推薦算法,其結(jié)果將造成無法對兩大平臺的數(shù)據(jù)直接關(guān)聯(lián)或相加。

      其次,即便數(shù)據(jù)生成本身足以客觀中立,但對數(shù)據(jù)的選擇與獲取仍無法逃脫人為因素的干擾。一方面,作為有價值的商品和有意義的信息,數(shù)據(jù)公布或隱藏背后普遍隱含著商業(yè)利益或權(quán)力斗爭方面的考量;另一方面,數(shù)據(jù)采集同樣是一個主觀操作的過程,無論是主題的選擇還是信息的取舍,背后都難免涉及各種差異性甚至矛盾性的價值取向。有學(xué)者提出大數(shù)據(jù)作為一個龐大的原始信息集合,本身并不是不言自明的,對數(shù)據(jù)的解釋必然要向各種哲學(xué)辯論開放[62]13。換句話說,存在著社會學(xué)互聯(lián)網(wǎng)大數(shù)據(jù)研究的價值邊界,這要求研究者應(yīng)當(dāng)始終持有一種反思意識,即“基于誰的利益,出于什么目的”進(jìn)行數(shù)據(jù)的收集與計算[33]。

      最后,人為干擾因素同樣充斥在數(shù)據(jù)分析階段。由于數(shù)據(jù)與其生產(chǎn)者之間的關(guān)系并非是不證自明的,對任何數(shù)據(jù)的分析都難免摻雜進(jìn)分析者的個人解讀。人們絕不僅僅是制度規(guī)范的機(jī)械執(zhí)行者,社會行為及其意義必須被置于其所發(fā)生的特定情境中才能被更好地理解。然而,現(xiàn)實情況是許多情境因素都未能被記錄在大數(shù)據(jù)之中;即使那些被記錄下來的情境因素,一部分也難免會在數(shù)據(jù)清洗與抽取過程中被排除出去。脫離了具體情境下的意義結(jié)構(gòu),我們即使能夠發(fā)現(xiàn)人們在“抽動眼皮”,卻永遠(yuǎn)也難以直接明確分辨出這一行為的意義所在[63](7?8);而對于那些被解讀出來的意義,也應(yīng)當(dāng)不斷反問,這是數(shù)據(jù)本身的意義,還是分析者個人所賦予其的意義?清醒認(rèn)識到這一點,有助于在社會研究中避免對數(shù)據(jù)意義的過度解讀。

      四、結(jié)語:互聯(lián)網(wǎng)大數(shù)據(jù)的社會研究邊界

      當(dāng)下熱門的“大數(shù)據(jù)”一詞,最早是由著名計算機(jī)企業(yè)的專業(yè)技術(shù)人員提出的。由于這一概念很快就夾雜了大量商業(yè)宣傳的聲音,許多有市場炒作之嫌的觀點也逐漸大行其道[64]。部分社會學(xué)研究者囿于自身的知識結(jié)構(gòu),一時難以對以計算機(jī)科學(xué)為基礎(chǔ)的各種大數(shù)據(jù)觀點進(jìn)行準(zhǔn)確的判斷,故而出現(xiàn)了一些誤解或認(rèn)知偏差。對于社會研究來說,大數(shù)據(jù)的總體性、真實?自然性、客觀性假設(shè),在很多數(shù)情況下其實并不成立。首先,無論是由“數(shù)字鴻溝”現(xiàn)象劃分出的年齡與階層邊界,還是由“數(shù)據(jù)分隔”現(xiàn)象所筑起的主題與群體邊界,都說明大數(shù)據(jù)盡管體量龐大、類型多樣,但只能完成對現(xiàn)實社會信息的部分記錄,在大多數(shù)情況下并非什么“總體性”數(shù)據(jù),故而對數(shù)據(jù)中可能存在的信息缺失必須加以考量,數(shù)據(jù)代表性問題依然需要檢視。其次,在那些已經(jīng)被生產(chǎn)出來的互聯(lián)網(wǎng)大數(shù)據(jù)中,還或多或少存在著信息造假與數(shù)據(jù)偏態(tài)的問題,有些數(shù)據(jù)的真實性和準(zhǔn)確性值得懷疑。最后,在互聯(lián)網(wǎng)大數(shù)據(jù)的生成與計算過程中,還暗含著大量顯性或隱性的人為干擾因素。從源數(shù)據(jù)生成階段的信息造假與意義建構(gòu),到數(shù)據(jù)處理階段的算法設(shè)計和變量選取,再到數(shù)據(jù)分析階段的意義解讀,大數(shù)據(jù)的生成、采集和計算中很可能存在著比傳統(tǒng)研究方法更多的人為操縱和干擾因素。

      受線上/線下諸多因素的影響,大數(shù)據(jù)中普遍存在數(shù)據(jù)缺失、數(shù)據(jù)偏態(tài)與人為干擾等問題,這決定了將其運用于社會研究會存在一定的范圍限制。這些限制部分源于當(dāng)前信息社會發(fā)展的不成熟,隨著互聯(lián)網(wǎng)與移動互聯(lián)網(wǎng)的持續(xù)普及,越來越多的社會成員將有機(jī)會成為數(shù)據(jù)生產(chǎn)的主體,從而使大數(shù)據(jù)的代表性問題得到不斷優(yōu)化;另一些導(dǎo)源于互聯(lián)網(wǎng)大數(shù)據(jù)結(jié)構(gòu)性問題——如專業(yè)化和偏好因素作用下的數(shù)據(jù)分隔現(xiàn)象、經(jīng)濟(jì)利益驅(qū)使下的數(shù)據(jù)造假現(xiàn)象、個體性格與社會心態(tài)影響下的信息偏態(tài)現(xiàn)象、變量操作化與挖掘分析中的價值有涉現(xiàn)象——的限制將會始終存在。

      本文反思三大假定的目的,在于認(rèn)清當(dāng)前互聯(lián)網(wǎng)大數(shù)據(jù)的研究邊界,這對運用大量新型數(shù)據(jù)和新興工具與方法開展計算范式下的社會研究而言至關(guān)重要。因為,對于市場營銷而言,大數(shù)據(jù)獲取與計算的及時性、高效性和低成本,能夠服務(wù)于企業(yè)的快速決策和市場細(xì)分,對數(shù)據(jù)的代表性、真實性和客觀性的要求有時并不嚴(yán)格[65]。但對于學(xué)術(shù)研究而言,上述三大假定的成立與否,直接決定著計算結(jié)果是否真正具有學(xué)術(shù)價值。尤其是在將研究結(jié)果應(yīng)用于社會治理時,更應(yīng)注意數(shù)據(jù)中潛藏的不平等、刻意隱瞞與人為操縱等現(xiàn)象,防止缺失、偏態(tài)與強(qiáng)加意義的數(shù)據(jù)分析結(jié)果成為政策制定的錯誤依據(jù)。

      對研究邊界的討論,一定程度上也是在回答有關(guān)大數(shù)據(jù)計算與傳統(tǒng)研究方法之間關(guān)系的問題。部分純數(shù)據(jù)驅(qū)動型學(xué)者認(rèn)為,傳統(tǒng)的研究方法、研究邏輯和認(rèn)識路徑(理論假設(shè)——數(shù)學(xué)模型——統(tǒng)計檢驗)基本上已經(jīng)過時,借助于豐富的海量數(shù)據(jù)和強(qiáng)大的復(fù)雜算法,可以在不需要理論的前提下做出準(zhǔn)確理解和精確預(yù)測[66]。在拉澤爾等人看來,以為大數(shù)據(jù)計算可以取代傳統(tǒng)方法的觀點是一種“大數(shù)據(jù)狂妄”(Big Data Hubris)[61]。如今,互聯(lián)網(wǎng)早已不再是與現(xiàn)實社會相平行的“虛擬社會”,其本身已成為現(xiàn)實社會的一部分。大數(shù)據(jù)計算盡管首先表現(xiàn)為一種技術(shù)和方法層面上的意義,但同時也越來越帶有著濃厚的社會屬性。因而基于大數(shù)據(jù)計算所得出的結(jié)論并不一定是絕對客觀的真理,可能還需要通過傳統(tǒng)研究方法加以補充和驗證。

      當(dāng)然,邊界的存在決不意味著沒有價值。在研究邊界內(nèi),大數(shù)據(jù)計算能夠從遠(yuǎn)比以往更為豐富的數(shù)據(jù)資料(其中大部分過去并不存在)中挖掘出有價值的信息,可能會幫助研究者發(fā)現(xiàn)一些以往未被認(rèn)識或未能深入了解的社會規(guī)律[67]。尤其是在轉(zhuǎn)向復(fù)雜自適應(yīng)系統(tǒng)理論的過程中,大數(shù)據(jù)計算對社會復(fù)雜性、社會適應(yīng)性、微觀行為的宏觀涌現(xiàn)性等問題的處理要比傳統(tǒng)方法更具優(yōu)勢[68]。此外,大數(shù)據(jù)計算的相關(guān)技術(shù),也為傳統(tǒng)質(zhì)性與量化資料的處理提供了新型的、更高效的分析方法和手段。當(dāng)前,基于大數(shù)據(jù)的社會研究尚處在方興未艾的時期,關(guān)于其基本概念、理論、方法和技術(shù)的研究仍有待進(jìn)一步深入。將傳統(tǒng)質(zhì)性與量化研究方法同大數(shù)據(jù)計算,特別是人工智能技術(shù)相結(jié)合,將會為社會研究的未來發(fā)展助益良多。

      注釋:

      ① 根據(jù)生產(chǎn)主體的不同,互聯(lián)網(wǎng)大數(shù)據(jù)可以細(xì)分為兩種類型,即專業(yè)生成內(nèi)容(professional generated content,PGC)和用戶生成內(nèi)容(user generated content,UGC)。本文討論的互聯(lián)網(wǎng)大數(shù)據(jù)主要著眼于后一類型,即非專業(yè)機(jī)構(gòu)用戶在互聯(lián)網(wǎng)上生產(chǎn)和累積的各類數(shù)據(jù)化信息。

      ② 受人腦智力條件和社會時間資源等因素的限制,人類被認(rèn)為只具備獲取與處理信息的有限能力。盡管各類先進(jìn)的數(shù)字化設(shè)備與技術(shù)極大地拓展了這一能力,但其本質(zhì)上仍存在著一定的上限。

      [1]郝龍, 李鳳翔.社會科學(xué)大數(shù)據(jù)計算——大數(shù)據(jù)時代計算社會科學(xué)的核心議題[J].圖書館學(xué)研究, 2017(22): 20?29.

      [2]Lazer D, Pentland A, Adamic L, et al.Social science.computational social science[J].Science, 2009, 323(5915):721?723.

      [3]Wing J M.Computational thinking[J].Visual Languages and Human-Centric Computing, 2006, 49: 33?35.

      [4]段偉文.大數(shù)據(jù)知識發(fā)現(xiàn)的本體論追問[J].哲學(xué)研究,2015(11): 114?119.

      [5]邁爾-舍恩伯格,庫克耶.大數(shù)據(jù)時代: 生活、工作與思維的大變革[M].盛楊燕, 周濤, 譯.杭州: 浙江人民出版社, 2014.

      [6]唐皇鳳, 謝德勝.大數(shù)據(jù)時代中國政治學(xué)的機(jī)遇與挑戰(zhàn)[J].新疆師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版), 2016(1): 95?104.

      [7]唐文方.大數(shù)據(jù)與小數(shù)據(jù): 社會科學(xué)研究方法的探討[J].中山大學(xué)學(xué)報(社會科學(xué)版), 2015(6): 141?146.

      [8]劉濤雄, 尹德才.大數(shù)據(jù)時代與社會科學(xué)研究范式變革[J].理論探索, 2017(6): 27?32.

      [9]何其聰, 喻國明.我國城市互聯(lián)網(wǎng)用戶使用社會化媒體的現(xiàn)況考察——使用時長、類型偏好、認(rèn)知-使用率及在線社交活動的若干特征[J].當(dāng)代傳播(漢文版), 2015(3): 29?32.

      [10]阿利森.缺失數(shù)據(jù)[M].林毓玲, 譯.上海: 上海格致出版社,2012.

      [11]中國互聯(lián)網(wǎng)信息中心.第41次“中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告”[EB/OL].(2018-01-31) [2018-02-23].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201801/P020180131509544165 973.pdf.

      [12]中華人民共和國國家統(tǒng)計局.中國統(tǒng)計年鑒 2017[EB/OL].(2017-06-26) [2018-02-23].http://www.stats.gov.cn/tjsj/ndsj/2017/ indexch.htm.

      [13]李冠強(qiáng), 陳雅, 李強(qiáng).中國互聯(lián)網(wǎng)用戶網(wǎng)絡(luò)使用行為分析[J].中國圖書館學(xué)報, 2004, 30(5): 43—46.

      [14]汪明峰.互聯(lián)網(wǎng)使用與中國城市化——“數(shù)字鴻溝”的空間層面[J].社會學(xué)研究, 2005(6): 112?135.

      [15]新浪微博數(shù)據(jù)中心.2016微博用戶發(fā)展報告[EB/OL].(2017-01-11) [2018-02-23].http://data.weibo.com/report/report Detail?id=346.

      [16]曹榮湘.數(shù)字鴻溝引論: 信息不平等與數(shù)字機(jī)遇[J].馬克思主義與現(xiàn)實, 2001(6): 20?25.

      [17]Van Dijk, J.Digital divide research, achievements and shortcomings[J].Poetics, 2006, 34(4): 221?235.

      [18]羅俊, 羅教講.數(shù)據(jù)密集型知識發(fā)現(xiàn)的邊界與陷阱——以美國大選預(yù)測為例[J].學(xué)術(shù)論壇, 2017, 40(3): 1?7.

      [19]布希亞.消費社會[M].劉成富, 全志剛, 譯.南京: 南京大學(xué)出版社, 2001.

      [20]Liu J, Li J, Li W, et al.Rethinking big data: A review on the data quality and usage issues[J].Isprs Journal of Photogrammetry &Remote Sensing, 2016, 115: 134?142.

      [21]Akerlof G A, Kranton R E.Economics and identity[J].Quarterly Journal of Economics, 2000, 115(3): 715?753.

      [22]Bendler J, Wagner S, Brandt T, et al.Taming uncertainty in big data: Evidence from social media in urban areas[J].Business &Information Systems Engineering, 2014, 6(5): 279?288.

      [23]丁小浩.大數(shù)據(jù)時代的教育研究[J].清華大學(xué)教育研究, 2017,38(5): 8?14.

      [24]Shah D V, Cappella J N, Neuman W R.Big data, digital media,and computational social science: Possibilities and perils[J].Annals of the American Academy of Political & Social Science,2015, 659(1): 6?13.

      [25]陳潭, 劉成.大數(shù)據(jù)驅(qū)動社會科學(xué)研究的實踐向度[J].學(xué)術(shù)界, 2017(7): 130?140.

      [26]麥克馬那斯.市場新聞業(yè): 公民自行小心?[M].張磊, 譯.北京: 新華出版社, 2004.

      [27]杜駿飛.百度“屏蔽門”事件: 網(wǎng)絡(luò)社會的敵人[J].傳媒,2008(10): 14?17.

      [28]凌永輝, 張月友.市場結(jié)構(gòu)、搜索引擎與競價排名: 以魏則西事件為例[J].廣東財經(jīng)大學(xué)學(xué)報, 2017 (2): 109?116.

      [29]Halupka M.Clicktivism: A systematic heuristic[J].Policy &Internet, 2014, 6(2): 115?132.

      [30]袁光鋒.政治算法、“幻影公眾”與大數(shù)據(jù)的政治邏輯[J].學(xué)海, 2015(4): 49?54.

      [31]曹衛(wèi)東.開放社會及其數(shù)據(jù)敵人[J].讀書, 2014(11): 73?78.

      [32]Fielding, N & Cobain, I.Revealed: US spy operation that manipulates social media [EB/OL].(2011-3-11) [2018-02-23].https://www.theguardian.com/technology/2011/mar/17/us-spyoperation-social-networks.

      [33]Van Dijck, J.Datafication, dataism and dataveillance: Big Data between scientific paradigm and ideology[J].Surveillance &Society, 2014, 12(2): 197.

      [34]練宏.注意力分配——基于跨學(xué)科視角的理論述評[J].社會學(xué)研究, 2015(4): 215?241.

      [35]汪丁丁.“注意力”的經(jīng)濟(jì)學(xué)描述[J].經(jīng)濟(jì)研究, 2000(10):67?72.

      [36]麥克斯韋爾-麥考姆斯.議程設(shè)置理論概論: 過去、現(xiàn)在與未來[J].郭鎮(zhèn)之, 鄧?yán)锓? 譯.新聞大學(xué), 2007, 93(3): 55?67.

      [37]Hamilton J.All the news that's fit to sell: How the market transforms information into news[M].Princeton: Princeton University Press, 2004: 197.

      [38]王平, 謝耘耕.突發(fā)公共事件中微博意見領(lǐng)袖的實證研究——以“溫州動車事故”為例[J].現(xiàn)代傳播-中國傳媒大學(xué)學(xué)報, 2012, 34(3): 82?88.

      [39]禹建強(qiáng), 李艷芳.對微博信息流中意見領(lǐng)袖的實證分析: 以“廈門BRT公交爆炸案”為個案[J].國際新聞界, 2014, 36(3):23?36.

      [40]Wu S, Hofman J M, Mason W.A., et al.Who says what to whom on twitter[C].In Proceedings of the 20th international conference on World Wide Web, 2011: 705?714.

      [41]朱琳, 汪蕾, 陳長, 等.網(wǎng)絡(luò)信息傳播的從眾行為研究——以微博為例[J].現(xiàn)代情報, 2014, 34(12): 17?22.

      [42]劉錦德, 王國平.網(wǎng)絡(luò)輿情傳播的從眾效應(yīng)[J].江西社會科學(xué), 2015(5): 234?239.

      [43]王世龍, 謝光明.社會網(wǎng)絡(luò)中的行為傳染研究述評[J].人民論壇, 2016(8): 164?166.

      [44]Cheng J, Danescu-Niculescu-Mizil C, et al.Anyone can become a troll[J].American Scientist, 2017, 105(3): 152.

      [45]Noelle-Neumann E.The spiral of silence: A theory of public opinion[J].Journal of Communication, 1974, 24(2): 43?51.

      [46]羅俊, 羅教講.互聯(lián)網(wǎng)輿情偏態(tài)傳播與引導(dǎo)[J].人民論壇,2015(36): 25?27.

      [47]Rubinstein I S.Big data: The end of privacy or a new beginning?[J].Social Science Electronic Publishing, 2013, 3(2):74?87.

      [48]Zwitter A.Big data ethics[J].Big Data & Society, 2014, 1(2):1?6.

      [49]Floridi L.Open data, data protection, and group privacy[J].Philosophy & Technology, 2014, 27(1): 1?3.

      [50]Tene O, Polonetsky J.Privacy in the age of big data: A time for big decisions[J].Stanford Law Review Online, 2012, 64(63):63?69.

      [51]Giddens A.Positivism and its critics[C]// In Bottomore, T.,Nisbet, R.eds.A History of Sociological Analysis.New York:Basic Books, 1978: 237?286.

      [52]約翰·扎米托.科學(xué)哲學(xué): 從實證主義到后實證主義[J].劉鵬譯, 淮陰師范學(xué)院學(xué)報(哲學(xué)社會科學(xué)版), 2013(1): 28?35.

      [53]朱炳祥.反思與重構(gòu): 論“主體民族志”[J].民族研究,2011(3): 12?24.

      [54]郭淑華.現(xiàn)代社會調(diào)查真實性所面臨的挑戰(zhàn)[J].社會,2003(5): 22?24.

      [55]蘇國勛.社會學(xué)與社會建構(gòu)論[J].國外社會科學(xué), 2002(1):4?13.

      [56]張小山.實證主義社會學(xué)面臨挑戰(zhàn)[J].社會學(xué)研究, 1991(5):114?126.

      [57]吳小英.社會學(xué)危機(jī)的涵義[J].社會學(xué)研究, 1999(1): 52?58.

      [58]Boyd D, Crawford K.Critical questions for big data:Provocations for a cultural, technological, and scholarly phenomenon[J].Information, Communication & Society, 2012,15(5): 662?679.

      [59]羅小燕, 黃欣榮.社會科學(xué)研究的大數(shù)據(jù)方法[J].系統(tǒng)科學(xué)學(xué)報, 2017(4): 9?12.

      [60]Goldston D.Data wrangling[J].Nature, 2008, 455(7209): 15.

      [61]Lazer D, Kennedy R, King G, et al.The parable of Google Flu:Traps in big data analysis[J].Science, 2014, 343(6176):1203?1205.

      [62]Bollier D.The promise and peril of big data.Washington[R].Washington DC: Aspen Institute, Communications and Society Program , 2010.

      [63]格爾茨.文化的解釋[M].韓莉, 譯.南京: 譯林出版社, 1999.

      [64]Gandomi A, Haider M.Beyond the hype: Big data concepts,methods, and analytics[J].International Journal of Information Management, 2015, 35(2): 137?144.

      [65]馮仕政.大數(shù)據(jù)時代的社會治理與社會研究: 現(xiàn)狀、問題與前景[J].大數(shù)據(jù), 2016, 2(2): 3?16.

      [66]Anderson C.The end of theory: The data deluge makes the scien tific method obsolete [EB/OL].(2008-06-23) [2018-02-23]https://www.wired.com/2008/06/pb-theory.

      [67]Watts D.Computational social science: Exciting progress and future challenges[J].The Bridge, 2013(4): 5?10.

      [68]Conte R, Gilbert N, Bonelli G, et al.Manifesto of computational social science[J].European Physical Journal Special Topics,2012, 214(1): 325?346..

      猜你喜歡
      計算群體信息
      通過自然感染獲得群體免疫有多可怕
      “群體失語”需要警惕——“為官不言”也是腐敗
      訂閱信息
      中華手工(2017年2期)2017-06-06 23:00:31
      在Android中設(shè)計和實現(xiàn)簡單的計算能力測試系統(tǒng)
      項目成本計算方法的改進(jìn)研究
      經(jīng)濟(jì)增加值EVA——企業(yè)業(yè)績評價新指標(biāo)
      時代金融(2016年23期)2016-10-31 11:54:02
      大型設(shè)備吊裝的承載計算及平衡梁校核
      展會信息
      中外會展(2014年4期)2014-11-27 07:46:46
      關(guān)愛特殊群體不畏難
      中國火炬(2012年8期)2012-07-25 09:29:50
      特殊群體要給予特殊的關(guān)愛
      中國火炬(2011年11期)2011-07-25 10:35:07
      湟中县| 泾源县| 宜州市| 石楼县| 巩义市| 抚州市| 乐都县| 延长县| 青田县| 旬邑县| 武义县| 大邑县| 德令哈市| 临潭县| 开鲁县| 泗水县| 临清市| 英山县| 英德市| 津市市| 田东县| 边坝县| 榆林市| 比如县| 荔波县| 平昌县| 红河县| 凤山县| 黄骅市| 延庆县| 道真| 瑞丽市| 鹤山市| 五莲县| 林甸县| 兖州市| 伊金霍洛旗| 正蓝旗| 苍南县| 永靖县| 衡东县|