成竹雅 樓旭東
摘 要 數(shù)據(jù)是數(shù)據(jù)新聞的生命之源,數(shù)據(jù)的采集和挖掘直接影響數(shù)據(jù)新聞的內(nèi)容價(jià)值體現(xiàn),而新聞媒體在數(shù)據(jù)挖掘方面尚處于嘗試探索階段。文章從“數(shù)據(jù)源”著手,探尋制約數(shù)據(jù)新聞發(fā)展的因素,從數(shù)據(jù)外包、數(shù)據(jù)庫(kù)、數(shù)據(jù)眾籌三個(gè)方面探索數(shù)據(jù)新聞發(fā)展的解困之道。
關(guān)鍵詞 數(shù)據(jù)新聞;數(shù)據(jù)源;外包;數(shù)據(jù)庫(kù);眾籌
中圖分類號(hào) G2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2096-0360(2018)03-0046-02
數(shù)據(jù)新聞基于大數(shù)據(jù)而發(fā)展,目前尚未成熟。數(shù)據(jù)新聞以數(shù)據(jù)為核心,以數(shù)據(jù)挖掘、處理和可視化表現(xiàn)為手段,以將受眾關(guān)注和需要的新聞信息用恰當(dāng)?shù)墓适滦问匠尸F(xiàn)為落腳點(diǎn),滿足受眾“窮盡數(shù)據(jù)”和“一目了然”的閱讀需求,進(jìn)而引發(fā)受眾的自主理解和思考。
“數(shù)據(jù)源”即數(shù)據(jù)新聞的信息來源,是數(shù)據(jù)挖掘的基礎(chǔ),更是數(shù)據(jù)新聞生產(chǎn)過程的源頭?!?017中國(guó)媒體人數(shù)據(jù)使用報(bào)告》顯示,95%以上的媒體人/自媒體人認(rèn)為數(shù)據(jù)對(duì)于新聞創(chuàng)作重要,他們認(rèn)為數(shù)據(jù)能夠使媒體通過掌握讀者信息實(shí)現(xiàn)精準(zhǔn)選題和傳播,能夠豐富新聞內(nèi)容并有效提升新聞內(nèi)容
質(zhì)量。
由此可見,數(shù)據(jù)信息是數(shù)據(jù)新聞的生命之源,制約數(shù)據(jù)新聞發(fā)展的源頭因素便是數(shù)據(jù)信息缺乏。目前數(shù)據(jù)新聞的“數(shù)據(jù)源”主要有政府相關(guān)部門、企業(yè)/公司發(fā)布信息,專業(yè)信息資訊平臺(tái)、網(wǎng)絡(luò)公開信息、學(xué)術(shù)科研機(jī)構(gòu)提供的研究報(bào)告所占比例相對(duì)較少,對(duì)數(shù)據(jù)的收集也更多沿襲傳統(tǒng)方式。然而,有限的數(shù)據(jù)資源和傳統(tǒng)的數(shù)據(jù)挖掘并不足以滿足數(shù)據(jù)內(nèi)容至上的數(shù)據(jù)新聞創(chuàng)作。
1 把握“數(shù)據(jù)源”存在的四大問題
第一,“數(shù)據(jù)源”較為單一,覆蓋范圍有限。英國(guó)的數(shù)據(jù)開放程度在全世界屈指可數(shù),從公共交通信息到國(guó)家人文地理,從立法信息到政府預(yù)算、環(huán)境污染,各類信息只要能夠公開的盡量毫無保留的向公眾開放,甚至制定相關(guān)法規(guī)對(duì)信息開放加以保護(hù),設(shè)立開放數(shù)據(jù)研究院(ODI),為更多有需要的人提供開發(fā)數(shù)據(jù)的基礎(chǔ)和便利。除此之外,英國(guó)的媒體內(nèi)部會(huì)形成一個(gè)系統(tǒng)的數(shù)據(jù)庫(kù),并與相關(guān)的科研機(jī)構(gòu)、金融機(jī)構(gòu)建立信息合作關(guān)系,確保新聞數(shù)據(jù)的完整和可靠,這也促進(jìn)了媒體對(duì)數(shù)據(jù)的進(jìn)一步深挖和報(bào)道。
我國(guó)信息公開和信息保密之間長(zhǎng)期存在難以調(diào)和的矛盾,信息的開放性和完整度相比于發(fā)達(dá)國(guó)家都比較低,尤其是與政府相關(guān)的信息更為缺失。隨著互聯(lián)網(wǎng)信息產(chǎn)業(yè)的發(fā)展,近兩年我國(guó)國(guó)家統(tǒng)計(jì)局正在嘗試開放政府?dāng)?shù)據(jù),各地政府網(wǎng)站也開設(shè)相關(guān)政務(wù)信息公開頁(yè)面,但公開的數(shù)據(jù)是經(jīng)過篩選和整理發(fā)布,數(shù)據(jù)開放的深度和廣度有待拓展,層層限制制約著新聞報(bào)道的深度和廣度,影響政經(jīng)類數(shù)據(jù)新聞的生產(chǎn)和傳播效果。國(guó)內(nèi)數(shù)據(jù)新聞來源多來自媒體間素材引用、第三方信息服務(wù)商、公司企業(yè)所提供的數(shù)據(jù),這類數(shù)據(jù)均為收集簡(jiǎn)單方便、不需要深入發(fā)掘、成本較低的二手?jǐn)?shù)據(jù),但時(shí)效性差,數(shù)據(jù)的準(zhǔn)確性和客觀性無法保證。
由此來看,國(guó)內(nèi)的數(shù)據(jù)新聞發(fā)展仍受限于數(shù)據(jù)信息制度上的缺失和對(duì)原始數(shù)據(jù)的自我開發(fā),數(shù)據(jù)新聞的數(shù)據(jù)也絕不能稱之為海量,所呈現(xiàn)處的數(shù)據(jù)新聞的廣度和深度也有待提升。
第二,數(shù)據(jù)收集自主能力不足。Excel是目前媒體人最普遍使用的數(shù)據(jù)工具,對(duì)于SQL、SPSS/SAS、Python和R語言等專業(yè)數(shù)據(jù)工具的使用普遍較少。即使面對(duì)大規(guī)模、大體量的數(shù)據(jù)信息,傳統(tǒng)的數(shù)據(jù)技能也不足以實(shí)現(xiàn)充分挖掘和分析處理。
目前中央電視臺(tái)、新華網(wǎng)、財(cái)新等不少媒體都在嘗試數(shù)據(jù)新聞,但是建立專門的數(shù)據(jù)新聞團(tuán)隊(duì)從事數(shù)據(jù)新聞生產(chǎn)的媒體卻寥寥無幾。事實(shí)上在數(shù)據(jù)新聞團(tuán)隊(duì)中,相比于傳統(tǒng)的記者、編輯,程序員的作用更加不容忽視。當(dāng)前我國(guó)數(shù)據(jù)新聞從業(yè)者多為設(shè)計(jì)專業(yè)出身,對(duì)于數(shù)據(jù)的敏感度、數(shù)據(jù)中新聞的挖掘及運(yùn)用數(shù)據(jù)驅(qū)動(dòng)講故事的能力相對(duì)較弱,直接制約數(shù)據(jù)新聞的發(fā)展。
第三,與專業(yè)數(shù)據(jù)挖掘團(tuán)隊(duì)的合作較弱。專業(yè)的數(shù)據(jù)挖掘公司與媒體間的合作較少,大多數(shù)的媒體基于內(nèi)部的數(shù)據(jù)收集中心獲取相關(guān)信息和數(shù)據(jù)的收集,多以團(tuán)隊(duì)分工形式完成,發(fā)展較大的媒體會(huì)設(shè)置專門信息搜集部門,但總體來說數(shù)據(jù)量少、數(shù)據(jù)來源有限,對(duì)數(shù)據(jù)的挖掘和分析深度欠缺,對(duì)國(guó)外相關(guān)數(shù)據(jù)獲取能力低。目前國(guó)內(nèi)大數(shù)據(jù)公司層出不窮,在數(shù)據(jù)挖掘和人工智能方面也有了長(zhǎng)足發(fā)展,針對(duì)不同行業(yè)、不同用戶可以提供定制化的數(shù)據(jù)解決方案,其主要客戶集中于企業(yè)、政府、金融投資等全球行業(yè)用戶。而與新聞媒體的合作尚處于嘗試階段,由于沒有成熟可行的合作模式,再加媒體對(duì)于信息數(shù)據(jù)需求不明確、不精準(zhǔn),導(dǎo)致企業(yè)面對(duì)龐大的數(shù)據(jù)庫(kù)無法有效篩選和提供服務(wù)。
第四,缺乏與社會(huì)化媒體的融合。在當(dāng)前的傳播格局中,社會(huì)化媒體異軍突起,相對(duì)于電視、報(bào)紙等傳統(tǒng)媒體,社會(huì)化媒體的受歡迎程度屢創(chuàng)新高,受眾作為新生力量借社會(huì)化媒體平臺(tái)涌入傳播大潮,在很大程度上監(jiān)督、制約媒體的新聞活動(dòng)。財(cái)新網(wǎng)和FT中文網(wǎng)利用新浪微博等社交媒體發(fā)起數(shù)據(jù)新聞話題討論,以話題的形式擴(kuò)大數(shù)據(jù)新聞的傳播影響范圍,但是這樣的融合僅僅停留在低層次的“合作、流動(dòng)”的層面上,沒有充分利用受眾的信息資源,未形成社會(huì)化媒體融合時(shí)代的新型商業(yè)模式,仍以原有的新聞模式生產(chǎn)新形態(tài)新聞報(bào)道。
事實(shí)上數(shù)據(jù)新聞本身兼具經(jīng)濟(jì)價(jià)值和社會(huì)價(jià)值,從數(shù)據(jù)的收集整理、加工到可視化呈現(xiàn)、故事闡述等一系列的復(fù)雜、有深度的生產(chǎn)活動(dòng)都可借鑒國(guó)外有償新聞的高水平的新聞制作和數(shù)據(jù)處理服務(wù)模式,結(jié)合我國(guó)現(xiàn)有的經(jīng)濟(jì)體制和媒體環(huán)境,創(chuàng)新數(shù)據(jù)新聞發(fā)展商業(yè)模式,推動(dòng)數(shù)據(jù)新聞在社會(huì)化媒體時(shí)代的精準(zhǔn)營(yíng)銷和推廣,為受眾提供更多的信息服務(wù),實(shí)現(xiàn)媒體與受眾的信息雙贏。
2 從“源”探索解困之道
開放、系統(tǒng)、完整的數(shù)據(jù)平臺(tái)對(duì)數(shù)據(jù)新聞的發(fā)展至關(guān)重要,但完整的數(shù)據(jù)庫(kù)建設(shè)并非一朝一夕就能實(shí)現(xiàn),因此可以通過以下3個(gè)方面逐步形成。
第一,嘗試“數(shù)據(jù)”眾籌?;ヂ?lián)網(wǎng)和移動(dòng)終端技術(shù)的繁榮為社交網(wǎng)絡(luò)媒體的發(fā)展提供了物質(zhì)基礎(chǔ),微博、微信、微視頻、論壇等憑借愈發(fā)強(qiáng)大的影響力和傳播力聚集受眾,社會(huì)化網(wǎng)絡(luò)信息傳播的自發(fā)性和互動(dòng)性優(yōu)勢(shì)凸顯,在滿足網(wǎng)民信息需求的同時(shí)賦予網(wǎng)民更大的自主權(quán),進(jìn)而網(wǎng)羅大量一手?jǐn)?shù)據(jù)信息,也可以說社交網(wǎng)絡(luò)媒體產(chǎn)生的數(shù)據(jù)信息完成了“從群眾中來”這一環(huán)節(jié),對(duì)這些數(shù)據(jù)加以應(yīng)用即是“到群眾中去”。國(guó)內(nèi)數(shù)據(jù)新聞媒體在這一方面的認(rèn)識(shí)和實(shí)踐明顯滯后。
西蒙·羅杰斯曾言,Twitter已然成為新聞工作者的“理想工具”。目前數(shù)據(jù)挖掘技術(shù)的發(fā)展已經(jīng)使社交網(wǎng)絡(luò)產(chǎn)生的海量無序數(shù)據(jù)信息為媒體所用成為可能,并通過對(duì)分析數(shù)據(jù)發(fā)現(xiàn)新聞價(jià)值。2016年美國(guó)大選期間,《衛(wèi)報(bào)》《金融時(shí)報(bào)》等多家媒體通過抓取和分析Twiiter上的信息預(yù)測(cè)大選結(jié)果,通過分析特朗普個(gè)人Twitter研究其政治傾向和態(tài)度,觀察其與中國(guó)外交的觀點(diǎn)和立場(chǎng)。榮獲首屆數(shù)據(jù)新聞獎(jiǎng)的“騷亂中的謠言”基于對(duì)260萬條Twitter信息的分析,以熱力圖的形式清晰展示謠言的傳播路徑,并揭示經(jīng)濟(jì)因素是引發(fā)社會(huì)騷動(dòng)的真正原因。由此可見,社交網(wǎng)絡(luò)所產(chǎn)生的龐大數(shù)據(jù)是目前可為新聞媒體利用的最直接可行的信息寶藏,充分挖掘和利用將有助于推動(dòng)我國(guó)數(shù)據(jù)新聞的發(fā)展。
第二,創(chuàng)新數(shù)據(jù)新聞外包鏈模式。從國(guó)內(nèi)媒體數(shù)據(jù)新聞來源來看,盡管數(shù)據(jù)來源渠道多、范圍廣,實(shí)際數(shù)據(jù)來源類型相對(duì)集中,多為他方提供的現(xiàn)有數(shù)據(jù),網(wǎng)絡(luò)用戶數(shù)據(jù)占比較低,數(shù)據(jù)信息有限。事實(shí)上,中譯語通、Palantir等國(guó)內(nèi)外專業(yè)的數(shù)據(jù)挖掘公司擁有相對(duì)完整的數(shù)據(jù)生態(tài)系統(tǒng),其掌握的數(shù)據(jù)體量龐大,可針對(duì)不同用戶定制信息服務(wù),若嘗試將數(shù)據(jù)信息搜集、處理等工作外包給專業(yè)團(tuán)隊(duì),形成合理的合作模式,將會(huì)推動(dòng)數(shù)據(jù)新聞的發(fā)展。
第三,逐步建成數(shù)據(jù)庫(kù)網(wǎng)絡(luò)。大數(shù)據(jù)產(chǎn)業(yè)的快速發(fā)展將全球開放的數(shù)據(jù)聚合形成豐富的數(shù)據(jù)信息資源,這對(duì)于數(shù)據(jù)新聞的發(fā)展是一個(gè)重要的契機(jī)。從目前國(guó)內(nèi)數(shù)據(jù)新聞報(bào)道所涉及的數(shù)據(jù)規(guī)模和體量來看,絕大多數(shù)都是低量級(jí)的結(jié)構(gòu)化數(shù)據(jù),將第三方結(jié)構(gòu)化數(shù)據(jù)以可視化的形式呈現(xiàn)[1]。也就是說目前國(guó)內(nèi)數(shù)據(jù)新聞并沒有實(shí)現(xiàn)基于海量數(shù)據(jù)挖掘之上的信息處理,可視化呈現(xiàn)方面僅僅是將結(jié)構(gòu)化數(shù)據(jù)進(jìn)行簡(jiǎn)單的信息圖式的處理,尚處于數(shù)據(jù)新聞生產(chǎn)的起步階段。由此可見數(shù)據(jù)新聞的基礎(chǔ)在于獲取數(shù)據(jù),因此數(shù)據(jù)庫(kù)的建立尤為重要。從數(shù)據(jù)新聞在國(guó)內(nèi)興起到現(xiàn)在已有5年左右,各家媒體的新聞報(bào)道所呈現(xiàn)的數(shù)據(jù)都是有價(jià)值的資源,因此對(duì)現(xiàn)有新聞數(shù)據(jù)進(jìn)行系統(tǒng)的整理和編制將會(huì)形成媒體內(nèi)部的小型數(shù)據(jù)庫(kù),鏈接常用的數(shù)據(jù)來源,形成流動(dòng)的數(shù)據(jù)信息平臺(tái),再以通過建立媒體之間的數(shù)據(jù)共享和流動(dòng),初步建立數(shù)據(jù)庫(kù)網(wǎng)絡(luò),實(shí)現(xiàn)數(shù)據(jù)信息的共享,有利于媒體間的共贏發(fā)展。
3 結(jié)束語
隨著數(shù)據(jù)技術(shù)的迅猛發(fā)展,數(shù)據(jù)新聞生產(chǎn)也需要在新的發(fā)展環(huán)境下尋求技術(shù)的支撐,尤其是從“新聞源”來拓寬數(shù)據(jù)新聞的信息覆蓋范圍,提升數(shù)據(jù)信息挖掘和處理的水平,有利于豐富數(shù)據(jù)新聞內(nèi)容,拓寬數(shù)據(jù)新聞發(fā)展的道路。
參考文獻(xiàn)
[1]沈甜.“數(shù)據(jù)新聞”在我國(guó)新媒體平臺(tái)的實(shí)踐與發(fā)展現(xiàn)狀探究[D].蘭州:蘭州大學(xué),2016.