• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      喧囂之后的沉思

      2018-05-14 17:42賀光燁
      關鍵詞:假設檢驗

      [摘要]大數據的出現和發(fā)展顛覆了傳統(tǒng)社會科學研究的思維方式,也引發(fā)了一系列哲學層次的討論。大數據樂觀主義者認為,海量數據總是可以產生準確且具實踐性的知識,而理論可有可無。為揭示隱匿在大數據分析過程中的問題及其可能產生的后果,筆者將其與傳統(tǒng)的社會科學研究方法對比,從數據產生和分析方法兩個方面對大數據的認識論和方法論進行探討。本文認為,數據本身只是一個信息的載體,分析其中潛在的問題與數據的“大”小無關,而是與科學哲學的思維有關。通過大數據分析得出真實而有效的社會知識,需要將知識生產過程建立在適當的科學哲學基礎之上,既不可完全依賴理論,亦不可完全拋棄理論。

      [關 鍵 詞]大數據 認識論 方法論 假設檢驗 機器學習

      [作者簡介]賀光燁(1985-),女,江蘇南京人,南京大學社會學院助理研究員,博士, 研究方向為社會分層與流動、定量研究方法。

      [中圖分類號]C3 [文獻標識碼]A [文章編號]1008-7672(2018)02-0001-09

      近年來,大數據之風席卷全球。大量研究顯示,有關大數據經驗主義和數據科學的認識論正在改變著生命科學、物理和工程學等領域的研究方法,也在不斷促進社會科學領域理論范式和研究方法的重構。根據基欽的定義,“大數據”通常是指數據量達TB級甚至PB級的數據群。相比于以結構化數據為主的傳統(tǒng)數據(即可用Excel、SPSS和STATA等統(tǒng)計軟件處理的數據),大數據中圖片、聲音、視頻等非結構化數據占相當比重,且其總體數據容量增長速度之迅猛,遠超硬件技術的發(fā)展速度。面對如此龐大、復雜的數據集,傳統(tǒng)分析方法已不足以應對,基于新計算機應用程序的大數據分析方法應運而生。安德森表示,數據洪流會令科學方法過時。通過大數據技術,我們可以在不受理論預設限制的情況下發(fā)現更多大數據中隱含的模式和關系。2012年,《紐約時報》的科學版記者史蒂芬洛爾撰文聲稱,“大數據”時代已經降臨,科學、商業(yè)、經濟等各領域的決策從此將不再依賴于傳統(tǒng)的經驗和直覺,而是日益基于數據和分析。大數據的產生和發(fā)展無疑帶來了思維方式與科學方法論的變革。不僅如此,另有學者認為,這種基于計算機算法、程式的數據密集型分析工具開辟了繼實驗、理論、模擬之后科學研究的第四種范式,這種范式使我們能夠從堆積如山的數據金礦中挖掘出知識。

      大數據的出現和發(fā)展顛覆了傳統(tǒng)社會科學研究的思維方式,也引發(fā)了一系列多科學研究的認識論的進一步討論。相比傳統(tǒng)社會科學研究的思維方式(即以一般理論為前提,進而推導可以驗證的系列假設),大數據分析的思維則是讓數據本身說話,不需預先決定對于某個問題哪些變量更加重要,而主要通過機器學習(人工智能中最能體現智能的一個分支)讓數據自行學習,辨別關鍵變量,習得其中的關聯(lián)規(guī)律,進而歸納出數據背后隱藏的模式。然而,從數據出發(fā)并不意味著數據挖掘憑空而來。大數據的捕捉和分析不僅需要依賴計算機硬件、軟件系統(tǒng)的支撐,更需要由人來設定規(guī)則。物理學家馬克思·玻恩曾說,科學在每個時期都和當時的哲學體系相互影響,它向哲學體系提供觀測事實,同時從它們那里得到思想方法。對于大數據分析,大數據技術與平臺,數據本體與監(jiān)管環(huán)境對分析過程中的每一步均會產生影響。若忽略在數據獲取和分析過程中研究者施加的影響,就會無形中扭曲數字痕跡,從而掩蓋了現象背后的本質。

      一個著名的案例就是谷歌流感預測。2009年谷歌幾名工程師在《自然》發(fā)文——“用搜索引擎預測流感”,闡述了他們設計的谷歌流感預測系統(tǒng)。該系統(tǒng)的工作原理是使用匯總的谷歌搜索來預測流感疫情,并將預測結果與美國疾控中心的監(jiān)測報告進行比對。這一系統(tǒng)一度被視為大數據分析優(yōu)勢的明證。然而不久巴特勒發(fā)現,通過谷歌流感預測系統(tǒng)預測的流感門診病歷數是疾控中心監(jiān)測報告的兩倍多。分析結果顯示,造成這一失誤的主要原因是谷歌流感預測系統(tǒng)中的關鍵詞搜索系統(tǒng)混淆了大眾的流感意識與真正的流感信號。這個問題從表面上看似乎是個技術性問題,實際是因為忽視了數據之外的社會情境及其與流感傳播相關的思維邏輯。

      其實,谷歌流感預測的案例在很大程度上反映了主流文獻對大數據認識論的誤解。他們將數據量大與數據代表性強混淆在一起,認為通過大數據可以極大程度地表達或者近似總體,因此基于大數據發(fā)現的任何模式均真實可信,無需理論指引。這引發(fā)了關于“大數據的誕生是否意味著理論的終結”的討論。需要注意的是,脫離了科學哲學體系的大數據就如同失去靈魂游走的個體。數據生產過程中所留下的數字痕跡很可能具有誤導性。就谷歌流感預測而言,其誤導性表現在,當流感預測系統(tǒng)提到疫情,媒體就會進行報道,從而引發(fā)大眾關于流感預防和治療的大量搜索。由于這些搜索關鍵字涉及流感,從而又會加強系統(tǒng)對流感趨勢的判定,形成了對流感疫情傳播事件的過度擬合問題。因此,要挖掘出大數據背后真正的模式、生產出有效的知識,需要將其置于科學哲學體系之中,充分了解從數據產生到數據分析的各個環(huán)節(jié)。

      為了揭示隱匿在大數據分析過程中的問題以及這些問題可能產生的后果,在以下部分,筆者從數據產生和數據分析兩個方面對大數據的認識論和方法論進行闡述。前者從大數據產生方式、記錄方式入手,舉例介紹了數據挖掘過程中可能的誤差來源。后者則基于大數據的特征,進一步討論用傳統(tǒng)統(tǒng)計方法分析大數據可能帶來的問題。

      一、 數據的產生

      大數據分析的關鍵問題是在于大數據是否可以表達真正的社會現實。對于大數據分析,由于數據的獲得和分析基本都是由計算機程序完成,理解大數據技術是如何生產出可供計算機和人類分析的數據尤為必要。瓦格納·帕斯菲絲等學者也曾表示,在用大數據進行人文社科研究時,我們首先應該了解大數據是如何產生的。

      (一) 誰參與了數據信息的編輯?

      維基百科是大數據一個資料庫。自成立以來,維基百科宗旨就是為了編譯全人類可以自由使用的網絡百科全書。維基百科其中大部分頁面可以由任何人瀏覽和修改。與大多出版社不同,其內容編輯采用眾包形式,沒有特定的編輯。眾包形式不設定參與編譯人員的特征門檻,目的是鼓勵更多自愿者的參與。且對于所編譯內容,維基百科內容的更改與修正也是依靠眾人的協(xié)作不斷改進。從理論上講,來自不同國別、種族、教育程度、性別、年齡段的個體都可以參與網頁內容編輯。然而,即便維基百科對參與者不加以任何限制,全球范圍內每個人參與的概率也不盡相同。區(qū)別于軟件工程,維基百科缺乏類似內置質量監(jiān)控的系統(tǒng),內容的客觀完整性和準確性也有待考證。在這種情況下,如若具有某些特征的人群(比如,特定的偏好和品味)參與編輯的概率更大,那么在條目生產和內容編輯上就有可能產生系統(tǒng)性的偏差。

      亞當斯和布魯克爾指出,在維基百科核心運作的社會系統(tǒng)會通過某些方式對社會世界形象產生系統(tǒng)性的扭曲,使得數據生產過程產生偏差。即便眾包模式不需要太多的理論,但由于參與維基百科編輯者需要特定的技術手段,對特定的術語和網絡社區(qū)行為規(guī)則的了解等為參與網絡內容編輯者設置了隱形的門檻。正是這些隱形的門檻導致了維基百科在知識生產上的偏差。比如說,在維基百科有關美國社會學家目錄中,女性學者代表性相對不足的一個重要原因就在于內容條目的主要貢獻者通常是來自美國或歐洲的年輕白人男性計算機專家,他們在生產和編輯內容條目時可能產生有別于一般公眾的偏好和品味。

      (二) 誰貢獻了數據信息?

      近年來微博和推特數據也受到了越來越多媒體研究學者的關注,它們在社會科學中被廣泛運用于對事件參與、政治運動等研究中 。這類數據通常被標記為“大”數據,因為通過計算機軟件系統(tǒng)我們可以捕捉到用戶在相關網站上查看、點擊、下載、上傳等數百萬條行為的記錄。然而多數情況下,微博和推特數據反映的是特定時刻活躍用戶的一個片段。根據Twopchart——一個監(jiān)控推特活動的公司發(fā)布的推特數據結果,截至2014年4月,在5.5億個推特賬戶中有43%至少一年沒有創(chuàng)建過一條記錄。50%的推特記錄僅由0.05%的推特用戶創(chuàng)建。這種由活躍用戶所致的偏斜分布數據難以對那些無法觀測到的用戶特征進行推斷。正因為數據信息主要由活躍用戶動態(tài)構成,使得推特信息的創(chuàng)建和分析產生了系統(tǒng)性的偏差。

      大數據研究通?;谔囟ǖ募僭O。通過計算機軟件系統(tǒng)產生的數據與我們通常使用的數據并無顯著差異。數據量的大小只有在所產生數據樣本可以充分代表總體時才有意義。無偏的數據是準確分析的前提,也是大數據能夠為自己說話的基礎。如微博、推特這類數據,盡管數據量大,但是由于其數據的生成并非基于嚴格的統(tǒng)計設計,所產生的數據分布有偏差,總體代表性確實令人質疑。更多、更大的數據并不會使其由非正態(tài)分布轉變成正態(tài)分布。然而依照統(tǒng)計常規(guī),大數據正因為其龐大的數據量使得幾乎所有的發(fā)現在統(tǒng)計學的意義上都顯著,這就形成了麥克法蘭所提到的有關大數據“精確的不準確”問題。即便數據本身存在問題,如果分析結果的判斷基于統(tǒng)計假設檢驗,大數據所呈現的顯著結果使我們總是拒絕原假設,而得出錯誤的統(tǒng)計推斷。

      信息技術的快速發(fā)展(如大量的計算和網絡工作、新數據庫設計和數據存貯方式)不僅改變了數據產生方式,也對當今的統(tǒng)計學方法提出了極大的挑戰(zhàn)。對于微博、推特數據的分析,統(tǒng)計假設檢驗為什么會無效?運用傳統(tǒng)的統(tǒng)計方法進行大數據分析還會產生哪些問題?大數據在社會科學研究需要對這些問題特別關注。

      二、 數據分析

      如果要挖掘出數據中所蘊藏的真正的社會發(fā)展規(guī)律,我們不僅需要大量豐富可信的數據,還要有合適的分析方法。對于微博、推特數據分析,假設檢驗的失利并非偶然。將傳統(tǒng)統(tǒng)計分析方法用于大數據分析會存在什么問題?如今的大數據分析技術又在多大程度上可信?回答這一問題需要我們弄清傳統(tǒng)的統(tǒng)計方法和大數據分析方法在思維邏輯和方法執(zhí)行上的差異。

      (一) 大數據技術與傳統(tǒng)數據分析方法的比較

      傳統(tǒng)數據分析方法通常是基于具體的問題,從少量、靜態(tài)、結構清晰且低相關的數據集中提取信息,這些數據的產生來自科學抽樣,分析方法嚴格基于統(tǒng)計假設。由于假設檢驗需要事先假定可能的變化維度,在很大程度上排除了研究者看不到或者想不到的因素,這就是所謂的“分類近視”(Categorical Myopia),即我們看不到超出我們視野的東西,這也是困擾傳統(tǒng)調查數據分析和研究的最大問題。在大數據分析中,我們跳過事先的假定,直接通過數據挖掘技術分析繁復冗長、豐富多樣、動態(tài)及時的具有高度不確定性、高相關性的數據集來探尋數據背后的模式和相互關聯(lián)。面對如此高難度的挑戰(zhàn),大數據分析開始采用那些植根于人工智能和專家系統(tǒng)的新計算技術,通過機器學習自動挖掘和檢驗數據模式建立預測模型、優(yōu)化結果。對于實證主義社會科學研究者來說,大數據使得用以科學研究的數據從稀缺走向豐富,從靜態(tài)走向動態(tài),從粗略的聚合數據轉向更加精細、多維度高分辨率的數據。在分析上,大數據使得用以科學研究的方法從簡單統(tǒng)計模型轉向更加復雜精細的模擬研究??梢哉f,大數據分析提供了一種全新的認識論來觀察和理解世界。有學者認為大數據分析很可能會為知識生產提供一種跨學科的新研究范式。然而,由于思維方式的差異,這種新的研究范式對傳統(tǒng)統(tǒng)計方法同時提出了挑戰(zhàn)。

      傳統(tǒng)統(tǒng)計方法是否真的不適用大數據分析呢?一般說來,統(tǒng)計學是基于已有的數據進行假設檢驗。由于檢驗時事情已經發(fā)生,因此屬于事后檢驗。正是這種方式為科學統(tǒng)計和假設檢驗帶來了特定的困難。菲德曼曾說, 基于一個數據集的結果復制和預測相比于基于一個數據集的多模型統(tǒng)計檢驗需要更加嚴格的驗證體系,其所需的假設更少,從而使得偽相關關系出現的機會更小,可探索的模式更多,排除替代性解釋的概率也更高。如果用一個樣本來構建模型或者生成一個待檢驗的假設,為了得到穩(wěn)健有效的結果,則不能用同一樣本再進行假設檢驗。在現有研究中這一問題卻被系統(tǒng)性地忽略。而數據驅動的大數據研究通常將所使用的數據拆分成一個個單獨的數據集,其中一些用于估計模型參數,剩下的用于驗證預測新發(fā)現的數據模式。表面上看,大數據分析似乎更符合科學分析的邏輯,然而伴隨其中的問題卻可能產生更加嚴重的后果。

      (二) 無力的假設檢驗

      假設檢驗是傳統(tǒng)數據分析中一種基本的統(tǒng)計推斷形式。在統(tǒng)計學中,其為根據一定假設條件由已知樣本推斷未知總體的方法,其思想源于統(tǒng)計大師費舍(Fisher)和皮爾遜(Pearson)。具體地講,當總體分布未知時,為了推斷總體的某些特性,提出某些有關總體的假設,然后基于樣本對所提出的假設進行檢驗,決定是否拒絕零假設而接受備擇假設。通常判定零假設是否被拒絕的顯著性水平為α =0.05,如果假設檢驗所得p值小于α則拒絕零假設。雖然假設檢驗在社會科學和行為科學中被廣泛運用,但是有關假設檢驗的思想其實一直存有爭議。首先,在現實生活中,任何事物都存在一定程度上的相關,那種完全不相關的狀態(tài)幾乎不存在。因此,任何零假設都屬于“準假”(quasi-false)。假設檢驗的另一個問題就在于p值。從統(tǒng)計上講,p值會隨著樣本量的增加而減小的。對于大數據,其龐大的數據量和爆炸式增長速度令大多數任意生成的假設在0.05水平上均顯著。如果數據本身在數據量和總體代表性上不存在任何問題,那么當基于大數據生成的零假設總是被拒絕時主要存在三種可能性:第一種表明任何事物都可能相互關聯(lián),那么基于假設檢驗所得結論對挖掘大數據背后的真正模式毫無意義;第二種則意味著假設檢驗有誤,那么我們則不能將其用于大數據分析;第三種是假設檢驗沒有問題,而通過假設檢驗進行統(tǒng)計推斷時存在問題。

      基于第三種可能性,弗里克在他的“大數據與認識論中”提到,基于一個設定,多樣本比較可能與數據間的相關性及假設檢驗的第一種類型錯誤(Type I Error)有關 。例如,我們從足夠大的數據中觀察到A與B存在著相關關系,基于此,我們提出備擇假設H,即A與B相關。對于A和B的相關關系存在兩種可能性,一種情況是A確實與B相關,另一種情況是A與B的相關純屬偶然。如果后者為真,那么接受假設H則犯了第一類型的錯誤。根據假設檢驗規(guī)則,是否接受備擇假設H在于p值的大小。如果統(tǒng)計檢驗顯示p值小于0.05,則接受假設H。細究顯著性水平0.05的意義,該數字表明,如果A與B確實無關(或者A與B的相關屬于偶然),那么從同一總體中抽取大量樣本,這些樣本中會有5%會落入檢驗的拒絕區(qū)間,使我們錯誤地接受A與B的相關關系。需要提及的是,第一種類型錯誤基于零假設為真或者備擇假設為假(即,假設H不成立),其不可能通過零假設被拒絕的次數,或者備擇假設(假設H)成立的次數來估計。即便在100獨立的檢驗中,零假設被拒絕了100次,可能表示沒發(fā)生過一次第一種類型錯誤也可能表示發(fā)生了100次錯誤,或者介于沒有發(fā)生和發(fā)生了100次錯誤中間的某種情形。這一問題其實一直是統(tǒng)計學上的一般問題,但是當面對依賴數據驅動的大數據分析時,這個問題愈發(fā)突出。首先,數據驅動的科學分析強調讓數據自己說話,而忽視了現有研究理論和分析的語境,這使我們對數據背后可能模式的把控能力減小,增加了虛假相關的概率。其次,由于這一方法主要依靠計算機技術來抓取和分析數據,在大多數情況下,數據研究者也不清楚計算機算法具體是如何生成數據信息以及如何對數據進行處理的。這兩者使得所生成的用來驗證數據模式的“新”數據可能存在計算機算法方面的系統(tǒng)性偏差。弗里克表示, 任何分析,包括基于數據驅動的分析研究最好要有先驗指引,否則即便新發(fā)現的數據模式被反復驗證,基于算法所生成的驗證數據也無法排除偽相關的嫌疑。通俗地說,新數據模式之所以被復制和反復驗證并不是因為該模式真實存在,而可能因為基于某些算法獲得的數據更容易具有該數據模式。

      (三) 大數據分析與計算社會科學

      數據科學時代正在重塑著政治學、心理學、社會學、公共健康學、通信科學等領域。以大規(guī)模數據和社交媒體為中心的計算社會科學正在重塑學者們的思維與視角,也推動著研究人員培訓方式的轉變。與傳統(tǒng)上通過社會調查獲得的基于受訪者回答或者基于儀器評估(比如,腦電波等)的結構化數據非常不同,如今的科學研究人員開始通過海量數據庫中所發(fā)現的文字、物體或現象的圖片等非結構化信息探索數據模式。

      這些文字、圖片等數據常常需要通過自然語言處理來獲取和縮減數據內容。在進行可靠且有效的數據分析時,學者們將需要在很多方面達成新的協(xié)議,比如,用何種工具收集和處理數據,所捕捉的數據該如何分類等等。對數據的復雜性也有了新的認識。通過傳統(tǒng)方法獲得的數據,通常需要清理、分類、建模進而發(fā)掘其中的模式來解決問題,其自始至終不接受數據的復雜性。而數據科學時代,復雜性已經成為數據的固有特征,此外,其更多得關注數據的動態(tài)性、異構性和跨域復雜性。這些變化為數據時代的學術研究打開了新的圖景,重新定位和改變學科的發(fā)展方向。

      1. 機器學習的矛盾與掙扎

      機器學習是順應大數據的特征所產生的大數據分析方法,其指用某些算法指導計算機利用已知數據得出適當的模型,并通過所得模型對新的情境給出判斷的過程。然而從數據抓取、特征提取到模型選取,機器學習能發(fā)掘真正的社會現象間關系模式的前提在于,機器可以準確地將現實生活中的問題提煉成一個可以進行機器學習的問題。這其中的關鍵不僅在于計算機編程和運行過程,更加在于研究人員對所要研究的問題的深入理解。瓦格納·帕斯菲絲等曾用“思維與機器”這一對比來說明大數據話題模型(Topic Model)的利與弊。

      話題模型是一種應用非常廣泛的產生式模型,也是目前利用大數據做人文社會科學研究最常用的文本挖掘方法。其建模方法通常是利用文檔內與文檔間的詞共現的信息在跨文本語料庫中生成各種話題集合。這些集合都被假設成跨文本語料庫中的共同話題。與其他基于“詞袋”技術的文本分析一樣,話題模型尤其是無監(jiān)督學習的話題模型從對語言完全無感的讀者角度出發(fā)。基于這一特征,不同學者顯示了不同的偏好。比如,雷切爾·布瑪認為,通過這種沒有指向性的非常規(guī)文本分析的視角可以發(fā)掘出一般讀者所無法辨識的文本屬性,進而激發(fā)和改變人類的思考寬度和廣度。其他一些學者認為,這些計算模型往往對語境、語法、語義、語氣等一無所知,可能很難捕捉到在文字內容背后的真正情感與意義,進而影響到分析結果。因此,泰德·安德伍德在“高維空間的文學使用”中將這些模型稱為“遲鈍的解釋學工具?!?艾倫·劉也將它們描述為 “空洞的文字解讀?!?另外,由于這些模型并不受理論和經驗限制,在探索數據模式上可能存在優(yōu)勢。然而,因為學習過程中缺乏可靠的訓練樣本,基于這些歧義較高的樣本所產生模型的不確定性也隨之增加。

      2. 軟件密集型系統(tǒng)的困境

      不論是數據產生,還是數據分析,大數據分析在根本上依賴于計算機軟件,屬于軟件密集型系統(tǒng)。沒有計算機的輔助,研究者的想法就如同空中樓閣。計算機的使用為研究者想法的實現提供了必要硬件條件。但由于受限于軟件技術的發(fā)展,數據分析過程中仍舊有很多問題難以避免,比如,之前提及的有關數據驅動科學中常出現的基于算法的系統(tǒng)偏差。數據分析過程中還可能出現更加復雜的情況,這在處理復雜系統(tǒng)(Complex System)時尤為突出。復雜系統(tǒng)是由大量組分組成的網絡,不存在中央控制,通過簡單運作規(guī)則產生出復雜的集體行為和復雜的信息處理,并通過學習和進化產生適應性。 該系統(tǒng)活動呈現非線性,往往形成無數層級,且活動包含眾多未知因素。因此,分析復雜系統(tǒng)對于軟件要求上除傳統(tǒng)的計算能力外,還需要將計算機模擬整合到普通科學實踐的工具箱里來探尋其中的動力機制。對于前者,充分理解各種算法的局限性和風險,明白這些算法會如何引致以及引致什么樣的誤差,研究者就可以決定到底多大程度可以對這些算法施以信任、加以限制。而對于后者,情況則復雜許多,由于模擬本身涉及動態(tài)過程,并不是接受某一分析解決方案就能解決,其需涉及大數據集群的部署,而部署架構的過程大數據無法自動實現,這些問題在分析中很棘手,大數據分析遭遇瓶頸。

      這些問題的產生往往與大數據的認知模糊相關。漢弗萊斯提出,對于某一過程,當認知主體x在時間t對其中所有與認知相關的元素沒有全面了解時,我們則認為該過程存在認知模糊。在一定程度上,認知模糊既不屬于科學質詢(scientific inquiry)的某個新特征,也并不僅僅局限于計算方法中。對于軟件密集型科學(SIS),這種認知模糊出現在不同時期的程序代碼中(尤其是對“古董代碼”錯誤或模糊的認知),以及不斷發(fā)展的計算方法中(用傳統(tǒng)統(tǒng)計方法進行大數據分析所呈現的問題),并經由軟件誤差不斷升級(盡管在標準統(tǒng)計分析中我們常假設誤差隨機分布,但這一假設在軟件系統(tǒng)中并不成立,根本原因在于我們無法事先排除所有的非隨機因素)。又由于認知模糊的路徑復雜性,這種誤差已經越來越難以通過統(tǒng)計方法所探知。要改善大數據認識論的缺陷,就必須正視誤差的影響。有學者提出,軟件系統(tǒng)的模塊化在一定程度上可以減少軟件誤差,令系統(tǒng)更加易于管理,然而隨著時間的動態(tài)變化軟件模塊很快會演化為一個復雜系統(tǒng)而產生新的問題,這成為軟件設計和開發(fā)中時刻需要引起重視和不斷思考的問題。

      由此可見,大數據的認知模糊成為了大數據技術矛盾與掙扎的核心。從本質上講,這些局限性反映了大數據技術背后的理論缺失, 體現了大型軟件系統(tǒng)的常規(guī)誤差監(jiān)測、修正與評估對內在認識論的挑戰(zhàn)。②

      三、 結語

      在當代計算機技術的輔佐下,今天的社會科學研究者有相當的能力通過大數據分析技術獲得傳統(tǒng)調查研究以外的更豐富、更深層的信息。通過對知識結構、研究過程、信息內容以及現實的本質等重要問題的重新解讀,讓人們的思維方式產生了根本性的轉變。大數據在豐富人們認知的同時,對研究的本體論、價值觀也產生了一定程度的挑戰(zhàn)。通過對比傳統(tǒng)數據分析方法,本文從數據生產和數據分析兩個方面討論了大數據分析可能存在的問題。

      大數據的布道者認為大數據的數據量龐大,基于大數據發(fā)現的數據模式和相關關系非??煽?。其所有的“理所當然”都是基于這樣一個假設,即通過算法產生的大數據確實反映的是真實的全數據。然而,此假設令人存疑。首先,從數據的產生過程來看,如果通過某些方式產生的大數據與真實總體存在偏差,那么基于這樣的數據所得論斷并不可靠。再次,從數據分析的角度來講,即便所產生的數據沒有問題,不論是基于傳統(tǒng)的假設檢驗還是通過機器學習尤其是無監(jiān)督學習,所發(fā)現的數據模式仍有可能存在很大的爭議。如大衛(wèi)·雷澤爾等學者在《科學》上就大數據分析陷阱的闡述,數據量大并不意味著我們可以忽略有關數據的根本問題,比如測量、建構效度與信度及數據間的相關性等。大數據本身只是一個知識和信息的載體,大數據分析的潛在問題與“大”數據的大小無關,而與大數據的模糊認知有關。造成這一模糊認知的本質在于大數據的產生和分析在一定程度上脫離了現有的科學哲學體系。如何讓大數據像人一樣思考,讓大數據生產出真實有效的知識,就需要將知識生產建立在科學哲學體系當中,既不完全依賴理論,亦不可完全拋棄理論。

      近年來,越來越多的國內學者也開始基于百度搜索、本土的社交媒體等進行大數據分析。然而,在全世界范圍內,大數據在社會科學中的應用尚屬起步階段。不論是在國內還是在國外,由于網站和媒體平臺生成方式、數據記錄方式等相似,導致他們在數據產生和分析過程中往往存在共通的問題,面臨類似的關乎認識論和方法論的挑戰(zhàn)。這些問題多隱匿在計算科學的理論和實踐中,需要引起我們關注并加以辨別。如何將大數據應用于實證研究問題是當今計算科學家以及社會科學家所面臨的重要挑戰(zhàn)和機遇。本文所涉及內容實乃大數據分析中的“冰山一角”。這里,筆者提出自己的管窺之見,以起拋磚引玉之作用,見教于大方之家。

      (責任編輯:亞立)

      猜你喜歡
      假設檢驗
      假設檢驗結果的對立性分析
      微信搶紅包最高金額與其影響因素的回歸分析
      假設檢驗在審計抽樣工作中的應用
      MATLAB在數理統(tǒng)計假設檢驗中的應用
      假設檢驗教學中的案例設計
      中國國際獲獎電影(2010—2015)情感傾向研究
      統(tǒng)計推斷的研究
      沈陽市民使用理財APP的調查研究報告
      鳳爪重量質量管理報告
      通俗簡單地解釋數理統(tǒng)計的思想方法
      成都市| 区。| 原平市| 阳春市| 二连浩特市| 隆德县| 玉山县| 巩留县| 庆安县| 扶绥县| 平罗县| 密云县| 莱阳市| 百色市| 扶风县| 盐山县| 静安区| 湖州市| 怀化市| 望谟县| 独山县| 宝山区| 新营市| 香港 | 张家港市| 广南县| 祥云县| 高淳县| 榆林市| 织金县| 惠东县| 胶南市| 邯郸市| 镇巴县| 剑川县| 阿尔山市| 土默特左旗| 四子王旗| 耿马| 老河口市| 侯马市|