文 周栩睿
隨著計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)在新聞行業(yè)的使用程度逐漸加深,出現(xiàn)了數(shù)據(jù)新聞報(bào)道這樣的新型報(bào)道方式。數(shù)據(jù)新聞?dòng)址Q“數(shù)據(jù)驅(qū)動(dòng)型新聞”,即通過反復(fù)抓取、篩選和重組來深度挖掘數(shù)據(jù),聚焦專門信息以過濾數(shù)據(jù),可視化地呈現(xiàn)數(shù)據(jù)并合成新聞故事。與傳統(tǒng)新聞不同,數(shù)據(jù)新聞的數(shù)據(jù)采集和數(shù)據(jù)分析量級(jí)已經(jīng)遠(yuǎn)遠(yuǎn)超過傳統(tǒng)新聞實(shí)踐中的數(shù)據(jù)圖表,網(wǎng)絡(luò)數(shù)字媒體的出現(xiàn)又為數(shù)據(jù)交互可視化提供可能。所以,如何找到好數(shù)據(jù)、使用好數(shù)據(jù)越來越成為現(xiàn)在新聞行業(yè)發(fā)展需要思考的問題。
澎湃“美術(shù)課”作為我國數(shù)據(jù)新聞行業(yè)較為知名的新聞媒體欄目,在2014年7月上線以來,秉持著“數(shù)字是骨骼,設(shè)計(jì)是靈魂;與新聞相關(guān),又與新聞無關(guān)”的理念,在數(shù)據(jù)的采集、分析和可視化方面為數(shù)據(jù)新聞的學(xué)習(xí)和制作提供了較多的經(jīng)驗(yàn)分享和作品參考。據(jù)統(tǒng)計(jì),在過去的2021年,澎湃“美術(shù)課”共發(fā)表數(shù)據(jù)新聞191篇,下面本文將從數(shù)據(jù)采集、數(shù)據(jù)分析和數(shù)據(jù)可視化三個(gè)方面,結(jié)合澎湃“美術(shù)課”在2021年發(fā)表的數(shù)據(jù)新聞,對(duì)數(shù)據(jù)新聞的數(shù)據(jù)獲取和數(shù)據(jù)使用進(jìn)行分析總結(jié)。
新聞消息的信源十分重要,所以數(shù)據(jù)來源的重要性也就不言而喻。有效的數(shù)據(jù)可以讓新聞敘事更加完整緊密,可以讓可視化順利進(jìn)行。首先,數(shù)據(jù)來源應(yīng)當(dāng)具有權(quán)威性,并且來源廣泛,使得后面的數(shù)據(jù)分析步驟可以對(duì)數(shù)據(jù)進(jìn)行交叉驗(yàn)證,以增加數(shù)據(jù)的完整性、準(zhǔn)確度和可信度;其次,采集數(shù)據(jù)的手段可以多種多樣,其中涉及對(duì)技術(shù)的不同程度的要求;最后,收集到的數(shù)據(jù)不僅僅只局限于“數(shù)字”型的數(shù)據(jù),而是包括文本、音樂等其他形式的廣義上的數(shù)據(jù)。
據(jù)統(tǒng)計(jì),2021年澎湃“美術(shù)課”發(fā)布的全部新聞中的數(shù)據(jù)來源,在去年澎湃“美術(shù)課”發(fā)布的191篇數(shù)據(jù)新聞中,形式有圖文、視頻(或動(dòng)畫)和H5三種,使用的數(shù)據(jù)來源總共近400個(gè)。通過對(duì)這些數(shù)據(jù)來源進(jìn)行歸納整理,可以發(fā)現(xiàn)澎湃“美術(shù)課”在數(shù)據(jù)采集方面主要具有以下幾個(gè)特點(diǎn):
圖1 常見的公開信息來源
在澎湃美術(shù)課發(fā)布的所有作品中來看,其數(shù)據(jù)來源大多來自公開數(shù)據(jù)源,公開數(shù)據(jù)源的數(shù)據(jù)具有一定的準(zhǔn)確度、可信度和完整性,大概可以分類為一般性信息源、專業(yè)性信息源、司法和商業(yè)機(jī)構(gòu)信息和以眾包方式創(chuàng)建的數(shù)據(jù)。其中一般性信息源作為數(shù)據(jù)主要來源涵蓋的范圍和領(lǐng)域廣泛,比如世界各國各級(jí)政府和各職能部門的公開數(shù)據(jù)和工作報(bào)告,WHO、奧組委等非營利組織數(shù)據(jù),天眼查、淘寶等商業(yè)機(jī)構(gòu)數(shù)據(jù),央視等媒體公開數(shù)據(jù)等。另外,由于疫情期間澎湃“美術(shù)課”生產(chǎn)了大量與醫(yī)療和健康相關(guān)的新聞數(shù)據(jù),故在過去一年大量數(shù)據(jù)來自專家觀點(diǎn)和醫(yī)學(xué)論文。數(shù)據(jù)的可溯源和來源的權(quán)威性可以保證數(shù)據(jù)的可信度,從而保證新聞的真實(shí)性。(如圖1)
另外,在許多數(shù)據(jù)的呈現(xiàn)中,作品匯集了多方數(shù)據(jù)來源。通過將不同來源的數(shù)據(jù)進(jìn)行匯總比照,可以達(dá)到數(shù)據(jù)的交叉驗(yàn)證,進(jìn)一步增加數(shù)據(jù)的真實(shí)性和可靠性。
除了一般的在公開信息來源進(jìn)行數(shù)據(jù)檢索收集的方式,澎湃“美術(shù)課”還采用了一些具有一定技術(shù)難度的數(shù)據(jù)收集方法,通過這些方式獲得的數(shù)據(jù)屬于一手?jǐn)?shù)據(jù),具有獨(dú)創(chuàng)性。其中最常見的就是網(wǎng)絡(luò)爬蟲,在作品《網(wǎng)絡(luò)求助可視化:善意就像火花,一個(gè)點(diǎn)燃另一個(gè)》中,作品便是以微博相關(guān)話題下爬取到的微博作為數(shù)據(jù)。這樣的收集方法可以做到根據(jù)選題對(duì)時(shí)間范圍、平臺(tái)、數(shù)據(jù)類型等進(jìn)行“定制”,使收集到的數(shù)據(jù)貼合選題。同時(shí),相比從公開數(shù)據(jù)源收集已經(jīng)被整理好的數(shù)據(jù),這種方式可以更加靈活地獲取更詳細(xì)的數(shù)據(jù),可以為之后的可視化提供更多可選素材。
另外,澎湃“美術(shù)課”也會(huì)通過互動(dòng)和發(fā)起問卷調(diào)查來收集讀者和用戶的數(shù)據(jù),在《H5|測(cè)一測(cè)你是哪種減碳星人》這一作品中,便是通過H5的交互形式讓用戶自己點(diǎn)擊作品中的元素生成自己的數(shù)據(jù);在2021年,澎湃“美術(shù)課”還通過投票和問卷形式收集了參與者數(shù)據(jù)。這樣的收集方式基于一定的媒體影響力,通過互動(dòng)的方式讓用戶更有參與感,也讓他們成為了新聞的參與者和生產(chǎn)者。
數(shù)據(jù)既是對(duì)事實(shí)觀察和記錄的結(jié)果,也是信息的表現(xiàn)形式和內(nèi)容主題,它可以是符號(hào)、文字、數(shù)字、聲音、圖形圖像、視頻等形態(tài)。進(jìn)入大數(shù)據(jù)時(shí)代,數(shù)據(jù)類型的范圍變得更加廣泛,通過先進(jìn)的信息技術(shù),我們可以收集到大量的信息,比如互聯(lián)網(wǎng)行為及大量的文本、聲音,并將它們轉(zhuǎn)化為可以利用的數(shù)據(jù),技術(shù)的進(jìn)步讓一切皆可變成數(shù)據(jù)。
比如,澎湃“美術(shù)課”作品《H5|爆款新出歌曲調(diào)配指南》,將12首新春歌曲從節(jié)奏、強(qiáng)弱、樂器等多方面變?yōu)閿?shù)據(jù),從而為之后的聲音可視化提供素材。另外,數(shù)據(jù)新聞《10000條兒童精神科問診數(shù)據(jù):家長懂孩子心里的苦嗎?》中的數(shù)據(jù)來源為醫(yī)生的問診記錄,文本中的關(guān)鍵字詞也成為了數(shù)據(jù)新聞中可以進(jìn)一步利用的數(shù)據(jù)。
圖2 《10000條兒童精神科問診數(shù)據(jù):家長懂孩子心里的苦嗎?》中的數(shù)據(jù)分析
由于數(shù)據(jù)新聞在進(jìn)行制作時(shí)按照數(shù)據(jù)分析在先、文字在后的順序,因此數(shù)據(jù)分析這一步驟是獲取數(shù)據(jù)相關(guān)性,從而挖掘數(shù)據(jù)價(jià)值,發(fā)現(xiàn)數(shù)據(jù)新聞敘事邏輯的重要步驟。由于數(shù)據(jù)量較大,且部分可能存在不準(zhǔn)確或缺失等情況。因此在數(shù)據(jù)分析之前,應(yīng)當(dāng)對(duì)數(shù)據(jù)進(jìn)行整理,并進(jìn)一步對(duì)其有用性進(jìn)行判斷,即通過核驗(yàn)對(duì)重復(fù)的、缺失的或者錯(cuò)誤的數(shù)據(jù)進(jìn)行刪除、補(bǔ)全或糾正的操作。
進(jìn)入數(shù)據(jù)分析階段,數(shù)據(jù)一方面可以通過計(jì)算平均值、百分比、眾數(shù)等對(duì)數(shù)據(jù)的整體情況進(jìn)行宏觀描述,作為文案中的重要支撐數(shù)據(jù),另一方面也可以通過對(duì)同一類型的數(shù)據(jù)進(jìn)行分組對(duì)比、在某一維度對(duì)數(shù)據(jù)進(jìn)行觀察、驗(yàn)證不同維度數(shù)據(jù)之間的相關(guān)關(guān)系等方式發(fā)現(xiàn)數(shù)據(jù)的差異、變化和相關(guān)性。比如數(shù)據(jù)新聞《10000條兒童精神科問診數(shù)據(jù):家長懂孩子心里的苦嗎?》中,將問診記錄中的關(guān)鍵詞進(jìn)行詞頻分析,通過將關(guān)鍵詞進(jìn)行篩選和分組對(duì)比后就能看出當(dāng)孩子出現(xiàn)什么情況時(shí),家長更愿意帶孩子看醫(yī)生。(如圖2)
目前數(shù)據(jù)可視化在新聞?lì)I(lǐng)域的探索主要集中在靜態(tài)信息圖、交互可視化、視頻/動(dòng)畫、VR/AR新聞這幾個(gè)層面,其中澎湃“美術(shù)課”的數(shù)據(jù)新聞作品的可視化形式主要有靜態(tài)信息圖、交互可視化和視頻/動(dòng)畫這三個(gè)形式。在過去一年,澎湃“美術(shù)課”發(fā)表圖文形式的數(shù)據(jù)新聞113篇、H5作品5篇、視頻或動(dòng)畫73篇。
靜態(tài)信息圖主要由條形圖、折線圖、氣泡圖等基礎(chǔ)圖形進(jìn)行組合、美化而成,通過大小、形狀、顏色、位置等可視化變量來表示數(shù)據(jù)的類別、變化或差異。比如數(shù)據(jù)新聞《給虛擬偶像一個(gè)月砸了13萬,為啥?》中的靜態(tài)信息圖,將氣泡圖和條形圖組合起來,通過氣泡大小來呈現(xiàn)消費(fèi)的高低,在右邊通過條帶的長度表示一個(gè)月消費(fèi)區(qū)間的人數(shù),同時(shí)用不同的顏色來區(qū)分不同的月消費(fèi)區(qū)間。
澎湃“美術(shù)課”的交互可視化主要是H5作品,比如《H5|爆款新春歌曲調(diào)配指南》,用戶可以通過滑動(dòng)、點(diǎn)擊查看12首新春歌曲在旋律、副歌主題句、樂器、節(jié)奏、強(qiáng)弱方面的信息,同時(shí)在最后還可以通過選擇旋律風(fēng)格、速度和樂器制作屬于自己的新春歌曲。而在視頻和動(dòng)畫的制作上,主要是將靜態(tài)和動(dòng)態(tài)信息圖與視頻資料拼接起來。
隨著移動(dòng)端互聯(lián)網(wǎng)的發(fā)展,澎湃“美術(shù)課”的數(shù)據(jù)新聞更多傾向于在移動(dòng)端呈現(xiàn)。而因?yàn)镻C端和移動(dòng)端的屏幕寬度不一樣,所以在數(shù)據(jù)可視化方面有不同的特點(diǎn)。
首先,因?yàn)槠聊蛔兊酶孕畔D的寬度也要變窄,另外文字和圖形也要進(jìn)行一定程度的放大,突出重點(diǎn),以保證在手機(jī)這樣的小屏幕上可以看清。信息圖寬度變窄的同時(shí),還要盡可能保證一張圖可以在一屏中出現(xiàn),這樣可以防止用戶需要來回滑動(dòng)屏幕才能閱讀完圖中的信息。如果出現(xiàn)信息圖較長的情況,就應(yīng)該通過簡化數(shù)據(jù)、分成多個(gè)圖、做成動(dòng)態(tài)圖或H5等方式來對(duì)數(shù)據(jù)的可視化做進(jìn)一步處理。
另外對(duì)于信息量較大的圖,比如地圖、較長的時(shí)間軸、同一坐標(biāo)軸下有大量數(shù)據(jù)等,可以通過制作H5、視頻或動(dòng)畫的形式進(jìn)行呈現(xiàn),不過這三種形式如果想要回看前面的內(nèi)容會(huì)比較麻煩,所以頁面與頁面之間、畫面與畫面之間的邏輯性需要更強(qiáng),才能加深用戶的印象。
圖3 數(shù)據(jù)新聞《給虛擬偶像一個(gè)月砸了13萬,為啥?》中的靜態(tài)信息圖
圖4 澎湃美術(shù)課的可視化設(shè)計(jì)風(fēng)格
澎湃“美術(shù)課”作為一個(gè)數(shù)據(jù)新聞欄目,同時(shí)也作為一個(gè)品牌,在可視化設(shè)計(jì)方面擁有較為獨(dú)特的風(fēng)格。
在信息圖的可視化設(shè)計(jì)方面,圖形被黑色邊框包圍,信息圖主體框架用黑、白、灰三種顏色搭建起來,同時(shí)圖中一般會(huì)選擇使用2~3個(gè)彩色用來填充圖形或者標(biāo)注重點(diǎn)文字。另外,數(shù)據(jù)來源、數(shù)據(jù)標(biāo)注、標(biāo)題和澎湃“美術(shù)課”的標(biāo)志在同一篇數(shù)據(jù)新聞的不同信息圖中,其位置基本一致。(如圖4)
有一定風(fēng)格的可視化設(shè)計(jì)不僅有利于形成媒體獨(dú)特的風(fēng)格,也有助于用戶和讀者對(duì)媒體數(shù)據(jù)可視化呈現(xiàn)風(fēng)格的熟悉,從而方便用戶和讀者更加順利地讀懂信息圖。
現(xiàn)在,人們正處于一個(gè)信息冗雜的時(shí)代,注意力的分散讓人們難以捕捉真正有價(jià)值的信息。數(shù)據(jù)新聞可以依靠對(duì)數(shù)據(jù)的采集、分析和可視化,為受眾提供可靠的、準(zhǔn)確的、可讀性高的有時(shí)甚至是有趣的信息,讓人們對(duì)新聞事件的理解不只停留在宏觀的數(shù)據(jù)和微觀的個(gè)人故事,對(duì)新聞內(nèi)容產(chǎn)生更深層的理解。而這些都需要新聞媒體擴(kuò)大自己獲取數(shù)據(jù)的途徑,提高自身的數(shù)據(jù)使用素養(yǎng)。