柳 竹
(南京政治學(xué)院,江蘇 南京 210000)
恩格斯說:“在科學(xué)上,一切定義都只有微小的價值。”目前,學(xué)界和業(yè)界對于大數(shù)據(jù)的概念并未形成共識。我們不妨轉(zhuǎn)變思路,從大數(shù)據(jù)的各個側(cè)面,以期窺其全豹。
舍恩·維克托·邁爾伯格所著的《大數(shù)據(jù)時代》被認為是當前研究大數(shù)據(jù)的集大成之作。國內(nèi)學(xué)者多引用來自該書的大數(shù)據(jù)定義,即,需要處理的信息量過大,已經(jīng)超出了一般電腦在處理數(shù)據(jù)時使用的內(nèi)存量。[1]該定義突出強調(diào)了大數(shù)據(jù)的“數(shù)據(jù)規(guī)模大”這一特點。國內(nèi)學(xué)者對該定義進行了豐富和發(fā)展,如彭蘭教授認為大數(shù)據(jù)的概念,首先是指信息量或者數(shù)據(jù)量的巨大。數(shù)據(jù)的計量單位,已經(jīng)從傳統(tǒng)的G、T,發(fā)展到P、E、Z、Y。[2]欒軼玫教授進一步指出,大數(shù)據(jù)除了量的巨大之外,還是存在關(guān)聯(lián)的數(shù)據(jù)。[3]
(1)大數(shù)據(jù)的特征。根據(jù)IBM 的解釋,大數(shù)據(jù)的特點可以由“4V”來概括,即Volume,Velocity,Variety,Veracity(一說value)。具體而言,volume 指數(shù)據(jù)體積龐大,一般指在10TB(1TB =1024GB)或躍升到PB 級別的規(guī)模;Velocity 指數(shù)據(jù)處理速度快,基本能夠做到對數(shù)據(jù)的實時處理,有“1秒定律”之稱;[4]variety 指數(shù)據(jù)類型多樣,改變了以文本為為主的單一存儲形式,代之以圖像、動畫、音視頻、地理位置信息等多類型數(shù)據(jù)。這種形態(tài)的數(shù)據(jù)通常被稱為半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。[5]Veracity(一說value)指數(shù)據(jù)價值密度低,大數(shù)據(jù)的數(shù)據(jù)規(guī)模龐大,但并非所有數(shù)據(jù)都對我們有用。
(2)大數(shù)據(jù)的數(shù)據(jù)來源?!洞髷?shù)據(jù)時代》一書認為,大數(shù)據(jù)的龐大數(shù)據(jù)主要由三個部分組成:以政府企業(yè)為主的海量交易數(shù)據(jù)、以社交媒體為主的海量交互數(shù)據(jù)、和以大數(shù)據(jù)挖掘與應(yīng)用技術(shù)為主的海量數(shù)據(jù)處理。例如,淘寶網(wǎng)服務(wù)器基于用戶購買行為的統(tǒng)計數(shù)據(jù)。
(3)大數(shù)據(jù)處理的三個特點(大數(shù)據(jù)思維)。面對如此龐雜的大數(shù)據(jù),需要與之相適應(yīng)的數(shù)據(jù)處理思維?!洞髷?shù)據(jù)時代》一書的作者認為大數(shù)據(jù)處理的三個特點即大數(shù)據(jù)思維,包含三個方面:總體樣本取代隨機樣本;對不精確的容忍度增加;相關(guān)關(guān)系取代因果關(guān)系。
正如“羅馬不是一日建成的”,大數(shù)據(jù)新聞也不是一夜就有的。大數(shù)據(jù)新聞既是新聞報道追求新聞客觀性的必然趨勢,又是在大數(shù)據(jù)背景之下數(shù)據(jù)新聞的進一步完善。這兩部分共同構(gòu)成了大數(shù)據(jù)新聞的源起。筆者主要從歷史的角度加以梳理。
(1)澄清兩組相關(guān)概念——大數(shù)據(jù)新聞與數(shù)據(jù)新聞。一部分學(xué)者將大數(shù)據(jù)時代興起的新的新聞生產(chǎn)方式稱為大數(shù)據(jù)新聞;另有一部分學(xué)者將其稱之為數(shù)據(jù)新聞。澄清這兩組概念是我們研究大數(shù)據(jù)新聞源起的基礎(chǔ)。數(shù)據(jù)新聞(Data Journalism),也稱數(shù)據(jù)驅(qū)動新聞(Data-driven Journalism),是“基于數(shù)據(jù)的抓取、挖掘、統(tǒng)計、分析和可視化呈現(xiàn)的新型新聞報道方式?!保?]大數(shù)據(jù)新聞大數(shù)據(jù)新聞是基于大數(shù)據(jù)分析思維的新聞報道,是數(shù)據(jù)驅(qū)動新聞更高一級的形態(tài),代表了未來新聞發(fā)展的一種趨勢。目前的大數(shù)據(jù)新聞更多是停留在實驗性階段,預(yù)計在 2020 年以后或者更晚一些時間,大數(shù)據(jù)新聞的規(guī)?;a(chǎn)會逐步到來。[7]從這個語境來看,學(xué)者們所指的大數(shù)據(jù)新聞和數(shù)據(jù)新聞其實是同義反復(fù)。從狹義上來看,數(shù)據(jù)新聞是指數(shù)據(jù)驅(qū)動的新聞,從廣義上來看,數(shù)據(jù)新聞是指將大數(shù)據(jù)運用于新聞實踐的重要表現(xiàn)形式,是新聞學(xué)形成和發(fā)展的新領(lǐng)域。因此,學(xué)者們將數(shù)據(jù)新聞的外延有所延伸。當人們提及大數(shù)據(jù)時代下的數(shù)據(jù)新聞時,約定俗成地將它賦予了大數(shù)據(jù)新聞的含義。
(2)數(shù)據(jù)新聞(狹義)是新聞報道追求新聞客觀性的必然趨勢。數(shù)據(jù)新聞(狹義)是新聞客觀性原則一度被顛覆、糾正之后形成的。20世紀30年代,解釋性報道方式在新聞業(yè)界興起。這一報道形式強調(diào)運用動相關(guān)背景資料對新聞事件的來龍去脈進行闡述,因而不可避免地融入了報道者的主觀性,動搖了新聞的客觀性原則。20世紀60年代,新新聞主義和調(diào)查性報道的新聞報道方式幾乎同時興起。新新聞主義以文學(xué)創(chuàng)作的手法報道新聞,徹底顛覆了新聞的客觀性原則,最終受到媒體人和受眾的嚴厲批判。而調(diào)查性報道興起于越南戰(zhàn)爭,水門事件是其巔峰。調(diào)查性報道徹底拋棄了新聞客觀性的原則,而向故意與當局挑戰(zhàn)的態(tài)度發(fā)展。這樣,新聞業(yè)在經(jīng)過半個多世紀的試錯和糾正之后認識到,新聞的客觀性對于新聞報道滿足受眾“知”的需求至關(guān)重要。數(shù)據(jù)新聞的雛形——精確新聞報道應(yīng)運而生,新聞報道繼而朝著一個更加客觀、公正、全面的方向邁進。
(3)大數(shù)據(jù)新聞是數(shù)據(jù)新聞(狹義)在大數(shù)據(jù)背景下的進一步完善。數(shù)據(jù)新聞的發(fā)展主要經(jīng)歷了三個發(fā)展階段,[8]包括尚未成熟的大數(shù)據(jù)新聞在內(nèi)歷經(jīng)五種新聞報道形式。從中我們可以看著數(shù)據(jù)新聞的發(fā)展是伴隨著相關(guān)數(shù)據(jù)處理技術(shù)的進步而發(fā)展的,因而,大數(shù)據(jù)時代,數(shù)據(jù)驅(qū)動新聞向大數(shù)據(jù)新聞的跨越也就變得不言而喻了。第一階段,20世紀60年代到70年代,隨著抽樣技術(shù)和計算機技術(shù)在新聞報道領(lǐng)域的廣泛應(yīng)用,精確新聞報道方式興起,為新聞報道提供了更高的精確度。有助于新聞客觀性被忽視和扭曲后的重塑。第二階段,20世紀80年代到21世紀初,出現(xiàn)了三種類型的數(shù)據(jù)報道形式,即20世紀80年代的電腦輔助報道,20世紀90年代的數(shù)據(jù)庫新聞,21世紀初期的數(shù)據(jù)驅(qū)動新聞。這三種類型的新聞報道方式均得益于計算機強大的數(shù)據(jù)處理功能。第三階段,即大數(shù)據(jù)新聞,主要是基于互聯(lián)網(wǎng)及其衍生技術(shù)平臺實現(xiàn)的以大量數(shù)據(jù)搜集與分析為主要工具而生產(chǎn)出來的新聞,將大數(shù)據(jù)思維內(nèi)化到傳統(tǒng)數(shù)據(jù)新聞生產(chǎn)、實踐當中,是數(shù)據(jù)新聞在大數(shù)據(jù)背景下的進一步完善。
新聞的客觀性原則可以分為兩個層面:一個是理念層面,一個是操作層面。單就操作層面而言,新聞的客觀性原則主要表現(xiàn)為:將事實與意見(包括價值判斷)分開、以超脫情感的中立觀點表述事實、努力做到公正和平衡,為涉及的各方提供應(yīng)答機會。[9]大數(shù)據(jù)時代的到來果真能像大數(shù)據(jù)迷思的擁護者所期望的那樣,促進新聞的客觀性么?筆者必須以審慎的態(tài)度回答這個問題。
(1)大數(shù)據(jù)相關(guān)技術(shù)手段仍不成熟。大數(shù)據(jù)屬于舶來品,在國內(nèi)新聞領(lǐng)域尚處于試水階段,有一系列的技術(shù)問題有待攻克。主要涉及數(shù)據(jù)的存儲、提取和統(tǒng)計技術(shù)。例如,大數(shù)據(jù)龐大的數(shù)據(jù)量大大超過了硬件技術(shù)的發(fā)展速度,引發(fā)了數(shù)據(jù)存儲的危機。再如,大數(shù)據(jù)新聞的立足點和歸宿在于通過記者對于龐大數(shù)據(jù)的分析、處理以達到受眾的輕量和簡化閱讀,關(guān)鍵在于記者運用計算機信息處理技術(shù)并結(jié)合數(shù)學(xué)、統(tǒng)計學(xué)等知識提取、分析數(shù)據(jù)。但現(xiàn)階段記者還不具備這種大數(shù)據(jù)分析能力??傊瑳]有成熟的技術(shù)依托,大數(shù)據(jù)對新聞領(lǐng)域的作用甚微,對新聞客觀性的促進作用甚微。
(2)大數(shù)據(jù)時代“把關(guān)人”機制仍然存在。大數(shù)據(jù)迷思的擁護者認為,大數(shù)據(jù)時代,記者報道新聞的第一手資料是數(shù)據(jù),而不是對于“人”的采訪。因而從新聞制作的源頭上即保證了新聞的客觀性。但大數(shù)據(jù)強調(diào)對全體樣本的分析,單個數(shù)據(jù)的信息密度較低,導(dǎo)致了大數(shù)據(jù)新聞在題材選擇上受限,主要以統(tǒng)計類的新聞題材為主。因此,在其他題材新聞報道中,新聞生產(chǎn)仍遵循就有的生產(chǎn)模式。記者、編輯充當了信息“把關(guān)人”的角色,對每日發(fā)生的可能具有新聞價值的信息進行篩選、報道、整合。在此過程中,報道者的立場、傾向、態(tài)度將有意無意地滲透在新聞報道文本中,新聞的客觀性仍然難以保證
(3)大數(shù)據(jù)難以規(guī)避虛假信息,有損新聞的客觀性。在大數(shù)據(jù)時代,信息成爆炸性增長,信息公開與資源共享使得信息獲取成本不斷降低趨于零。大數(shù)據(jù)的數(shù)據(jù)來源有一部分來自散步在互聯(lián)網(wǎng)信息?;ヂ?lián)網(wǎng)的匿名性導(dǎo)致網(wǎng)絡(luò)有時成為不理性民意的宣泄口,不實信息、虛假信息與真實信息混雜,給大數(shù)據(jù)提取、分析、統(tǒng)計工作帶來一定難度。一旦虛假信息未經(jīng)甄別地納入全體樣本的范疇,數(shù)據(jù)分析結(jié)果就會發(fā)生偏差,對新聞的真實、客觀性造成程度不同的沖擊。
[1] 維克托·邁爾·舍恩伯格(英),肯尼思·庫克耶.大數(shù)據(jù)時代生活、工作與思維的大變革[M].浙江人民出版社,2013.
[2] 彭蘭.“大數(shù)據(jù)”時代:新聞業(yè)面臨的新震蕩[J].編輯之友,2013(1):6-10.
[3] 欒軼玫.大數(shù)據(jù)重塑媒介生態(tài)[J].視聽界,2013(4):23-27.
[4] 倪寧.大數(shù)據(jù)時代的傳播觀念變革[J].西北大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2014,44(1):139.
[5] 朱金莉.大數(shù)據(jù)時代對傳統(tǒng)新聞媒體的顛覆與嬗變[J].學(xué)術(shù)論壇,2015(1):153.
[6] 方潔,顏冬.全球視野下的“數(shù)據(jù)新聞”:理念與實踐[J].國際新聞界,2013(6):76.
[7] 喻國明.從精確新聞到大數(shù)據(jù)新聞——關(guān)于大數(shù)據(jù)新聞的前世今生從精確新聞到大數(shù)據(jù)新聞[J].青年記者(下),2014(12).
[8] 祝建華.從大數(shù)據(jù)到數(shù)據(jù)新聞.新媒體與社會.第四屆新媒體與社會發(fā)展全球論壇暨中美新媒體與社會發(fā)展雙邊研討會[Z].
[9] 陳力丹.新聞理論十講[M].上海:復(fù)旦大學(xué)出版社,2008:112.