• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      從去專業(yè)化到再專業(yè)化:數(shù)據(jù)新聞對(duì)數(shù)據(jù)科學(xué)的應(yīng)用與趨勢(shì)*

      2019-05-24 09:25:40閃雪萌
      中國(guó)出版 2019年9期
      關(guān)鍵詞:新聞業(yè)結(jié)構(gòu)化樣本

      □文│張 超 閃雪萌 劉 娟

      長(zhǎng)久以來(lái)新聞業(yè)不被視為理想類型的專業(yè),因?yàn)橛浾呒寄艿膶I(yè)化程度有所欠缺。但由于新聞業(yè)對(duì)公共服務(wù)的承諾和對(duì)自主性的要求,又被認(rèn)為是一個(gè)專業(yè)。[1]新媒體時(shí)代專業(yè)新聞生產(chǎn)者的內(nèi)容生產(chǎn)特權(quán)被打破,采編技能被大規(guī)?!皹I(yè)余化”了,[2]新聞業(yè)面臨“去專業(yè)化”的危機(jī),直接蠶食自身合法性。今天公眾對(duì)媒體專業(yè)性的要求并未降低,而在提高。[3]數(shù)據(jù)新聞的誕生為提升新聞專業(yè)性提供了契機(jī)。

      數(shù)據(jù)新聞以數(shù)據(jù)作為認(rèn)識(shí)現(xiàn)實(shí)的“原材料”、以數(shù)據(jù)科學(xué)作為求真的方法論、以數(shù)據(jù)可視化作為表征現(xiàn)實(shí)的手段。數(shù)據(jù)科學(xué)方法論將數(shù)據(jù)新聞與計(jì)算機(jī)輔助報(bào)道、精確新聞、圖解新聞區(qū)分開(kāi)來(lái)。數(shù)據(jù)科學(xué)是在大數(shù)據(jù)背景下誕生的新興學(xué)科,是計(jì)算機(jī)科學(xué)、數(shù)學(xué)和統(tǒng)計(jì)學(xué)以及專業(yè)知識(shí)的交集。[4]

      數(shù)據(jù)新聞?wù)诮?gòu)自身專業(yè)話語(yǔ),還未完成專業(yè)塑造,如何評(píng)價(jià)數(shù)據(jù)新聞的專業(yè)性成為新問(wèn)題。全球數(shù)據(jù)新聞獎(jiǎng)自2012年設(shè)立以來(lái)代表全球數(shù)據(jù)新聞實(shí)踐的最高水平,國(guó)內(nèi)外對(duì)該獎(jiǎng)項(xiàng)作品的研究還未深入觸及數(shù)據(jù)科學(xué)方法論。本研究以2013~2018年的獲獎(jiǎng)作品為研究對(duì)象,管窺當(dāng)前數(shù)據(jù)新聞在數(shù)據(jù)科學(xué)上的專業(yè)水準(zhǔn)和發(fā)展趨勢(shì)。

      一、全球數(shù)據(jù)新聞獎(jiǎng)作品對(duì)數(shù)據(jù)科學(xué)的應(yīng)用

      如何從數(shù)據(jù)科學(xué)角度評(píng)價(jià)全球數(shù)據(jù)新聞獎(jiǎng)作品?本文從數(shù)據(jù)采集方式、數(shù)據(jù)體量、數(shù)據(jù)類型、數(shù)據(jù)分析方法和數(shù)據(jù)處理難度五個(gè)維度進(jìn)行分析。[5]

      1.數(shù)據(jù)采集

      作為專業(yè)的職業(yè)應(yīng)擁有充分的自主性,保證其實(shí)現(xiàn)公共利益,形成特定的聲譽(yù)。[6]記者在數(shù)據(jù)采集時(shí)對(duì)數(shù)據(jù)科學(xué)方法的使用,讓一些重要數(shù)據(jù)采集的控制權(quán)轉(zhuǎn)移到記者手中,一定程度上提升了新聞生產(chǎn)的專業(yè)性和自主性,但這種提升有限。

      在可識(shí)別的樣本(n=36)中,利用數(shù)據(jù)科學(xué)方法采集數(shù)據(jù)的樣本有6個(gè),僅占16.7%。如“醫(yī)藥幻覺(jué)”網(wǎng)站(Medicamentalia.org)用編程語(yǔ)言抓取發(fā)展中國(guó)家藥品價(jià)格數(shù)據(jù)庫(kù)中的數(shù)據(jù);美國(guó)國(guó)家公共電臺(tái)的《特朗普和克林頓第一次辯論的事實(shí)核查》(Fact Check: Trump and Clinton Debate for the First Time)利用語(yǔ)音實(shí)時(shí)轉(zhuǎn)錄文字的技術(shù),用編程方法獲得辯論的原始數(shù)據(jù)。記者利用數(shù)據(jù)科學(xué)方法獨(dú)立采集數(shù)據(jù)的比例較低,一方面因?yàn)榇罅繑?shù)據(jù)掌握在政府和企業(yè)手中,記者可通過(guò)多種途徑獲取到;另一方面,一些媒體并未掌握專業(yè)的數(shù)據(jù)采集方法,只能依賴現(xiàn)成數(shù)據(jù)集。

      2.數(shù)據(jù)體量

      大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨,對(duì)數(shù)據(jù)新聞而言,多大體量的數(shù)據(jù)才能稱得上“大數(shù)據(jù)”?路透新聞研究所《媒體大數(shù)據(jù)》(Big Data for Media)報(bào)告認(rèn)為,大數(shù)據(jù)是用太字節(jié)(TB)及以上的單位衡量的。國(guó)際調(diào)查記者聯(lián)盟的《巴拿馬文件》(The Panama Papers)包含2.6太字節(jié)數(shù)據(jù)、1150萬(wàn)份資料,可以稱得上大數(shù)據(jù)新聞。

      更多的樣本未提供數(shù)據(jù)體量的說(shuō)明,本文借用記錄數(shù)評(píng)價(jià)這一指標(biāo)。記錄數(shù)是一個(gè)數(shù)據(jù)集的行數(shù),達(dá)到“萬(wàn)級(jí)”可評(píng)價(jià)為數(shù)據(jù)體量較大,達(dá)到“百萬(wàn)級(jí)”的可歸為大數(shù)據(jù)。在可識(shí)別的樣本(n=30)中,記錄數(shù)達(dá)到“千級(jí)”的有14個(gè)樣本,“萬(wàn)級(jí)”的有8個(gè),“百萬(wàn)級(jí)”的有3個(gè)。

      如果將記錄數(shù)轉(zhuǎn)換成數(shù)據(jù)體量,大部分樣本是小數(shù)據(jù)。置身大數(shù)據(jù)時(shí)代,為何小數(shù)據(jù)是“主角”?一方面是數(shù)據(jù)新聞制作周期的制約。基于大數(shù)據(jù)的數(shù)據(jù)新聞生產(chǎn)勢(shì)必占用更多的新聞采編資源和更長(zhǎng)的生產(chǎn)周期,是否值得為大數(shù)據(jù)新聞投入更多資源需要媒體權(quán)衡。另一方面是處理大數(shù)據(jù)的能力問(wèn)題。一些媒體“有心”,卻“無(wú)力”處理大數(shù)據(jù)。

      3.數(shù)據(jù)類型

      數(shù)據(jù)類型可分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)是存儲(chǔ)在數(shù)據(jù)庫(kù)中具有一定邏輯結(jié)構(gòu)和物理結(jié)構(gòu)的數(shù)據(jù),日常新聞處理的數(shù)據(jù)基本上是結(jié)構(gòu)化數(shù)據(jù);非結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)以外的數(shù)據(jù),它不存儲(chǔ)在數(shù)據(jù)庫(kù)中,而是以各種類型的文本形式存放,[7]如文本、視頻、音頻、網(wǎng)絡(luò)日志等數(shù)據(jù)。

      在可識(shí)別的樣本(n=33)中,完全使用結(jié)構(gòu)化數(shù)據(jù)的樣本有16個(gè),完全使用非結(jié)構(gòu)化數(shù)據(jù)的有9個(gè),結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)結(jié)合的樣本有8個(gè)(見(jiàn)表1)。

      表1 2013~2018年全球數(shù)據(jù)新聞獎(jiǎng)作品數(shù)據(jù)類型統(tǒng)計(jì)

      17個(gè)樣本包含了非結(jié)構(gòu)化數(shù)據(jù),說(shuō)明數(shù)據(jù)新聞在處理數(shù)據(jù)類型上有了很大進(jìn)步,這是數(shù)據(jù)新聞業(yè)者在數(shù)據(jù)科學(xué)專業(yè)技能上的關(guān)鍵突破。

      4.數(shù)據(jù)分析方法

      數(shù)據(jù)分析方法有很多種,數(shù)據(jù)新聞常用的數(shù)據(jù)分析方法有描述性數(shù)據(jù)分析、探索性數(shù)據(jù)分析、數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)、機(jī)器學(xué)習(xí)和信息檢索等。

      在可識(shí)別的樣本(n=31)中,20個(gè)樣本包含描述性和探索性數(shù)據(jù)分析,9個(gè)樣本僅有描述性數(shù)據(jù)分析。個(gè)別樣本結(jié)合了數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)(3個(gè))、機(jī)器學(xué)習(xí)(2個(gè))等數(shù)據(jù)分析方法(見(jiàn)表2)。

      表2 2013~2018年全球數(shù)據(jù)新聞獎(jiǎng)作品數(shù)據(jù)分析方法統(tǒng)計(jì)

      現(xiàn)實(shí)是復(fù)雜的,映射現(xiàn)實(shí)的數(shù)據(jù)也是復(fù)雜的,這要求記者在解釋復(fù)雜問(wèn)題時(shí)運(yùn)用多種數(shù)據(jù)分析方法。加拿大《環(huán)球郵報(bào)》的《無(wú)據(jù)可依》(Unfounded)運(yùn)用“無(wú)根據(jù)”結(jié)案率的均值、極值、分布情況進(jìn)行了描述性數(shù)據(jù)分析,還利用相關(guān)性檢驗(yàn)探索了女性警察和“無(wú)根據(jù)”結(jié)案率的相關(guān)性。

      國(guó)際調(diào)查記者聯(lián)盟的《瑞士泄密》(Swiss Leaks)的原始文件十分龐大,賬戶信息散布在看似毫無(wú)關(guān)聯(lián)的數(shù)萬(wàn)個(gè)文件中,傳統(tǒng)的人工挖掘方式已無(wú)法分析這些龐雜的非結(jié)構(gòu)化數(shù)據(jù),作品用圖形數(shù)據(jù)庫(kù)(Neo4j)處理高度聯(lián)系的數(shù)據(jù)和復(fù)雜的問(wèn)詢,并將這種聯(lián)系轉(zhuǎn)化為圖形節(jié)點(diǎn),探索節(jié)點(diǎn)之間的聯(lián)系,這是將數(shù)據(jù)庫(kù)與信息檢索相結(jié)合的技術(shù)。

      5.數(shù)據(jù)處理難度

      本文將數(shù)據(jù)處理難度分為低、中、較高、高四個(gè)等級(jí):①直接呈現(xiàn)原數(shù)據(jù)的評(píng)定為“低”;②描述了一維數(shù)據(jù)的數(shù)字特征和分布特征,如均值、中位數(shù)、眾數(shù)、方差、分布函數(shù)等,評(píng)定為“中”;③描述了數(shù)據(jù)的特征,還運(yùn)用了多元統(tǒng)計(jì)分析的研究方法,如相關(guān)分析、回歸分析、降維分析、聚類分析或簡(jiǎn)單編程,評(píng)定為“較高”;④建立了數(shù)學(xué)模型,進(jìn)行大數(shù)據(jù)挖掘或算法創(chuàng)新與改進(jìn),評(píng)定為“高”。后三個(gè)等級(jí)可評(píng)價(jià)為“專業(yè)”。

      在可識(shí)別的樣本(n=34)中,在數(shù)據(jù)處理方面評(píng)價(jià)為“低”和達(dá)到“專業(yè)”水平的各有17個(gè)樣本(見(jiàn)表3)。一半多的作品直接呈現(xiàn)了原始數(shù)據(jù),進(jìn)行了簡(jiǎn)單的數(shù)量、百分比統(tǒng)計(jì)。

      表3 2013~2018年全球數(shù)據(jù)新聞獎(jiǎng)作品數(shù)據(jù)處理難度統(tǒng)計(jì)

      也有一些作品在數(shù)據(jù)處理難度上體現(xiàn)了較高的水準(zhǔn)。“嗡嗡喂”(BuzzFeed)的《隱藏的空中偵察機(jī)》(Hidden Spyplanes)利用飛行網(wǎng)站的大量飛行跟蹤數(shù)據(jù),通過(guò)機(jī)器學(xué)習(xí)算法找出疑似聯(lián)邦調(diào)查局或國(guó)土安全部飛機(jī)的飛行軌跡。算法先定義了一些飛行特征指標(biāo),如轉(zhuǎn)彎速度、飛行高度和速度等,然后訓(xùn)練隨機(jī)森林算法區(qū)分、標(biāo)記好的普通飛機(jī)和偵察機(jī)數(shù)據(jù),算法自己決定區(qū)分指標(biāo),用訓(xùn)練好的隨機(jī)森林算法來(lái)區(qū)分未標(biāo)記的飛行數(shù)據(jù)。

      《環(huán)球郵報(bào)》的《快錢》(Easy Money)定義了一個(gè)全新的統(tǒng)計(jì)指標(biāo):國(guó)家證券犯罪累犯率。記者通過(guò)反復(fù)計(jì)算、實(shí)地調(diào)研驗(yàn)證了該指標(biāo)的準(zhǔn)確性,揭示了該國(guó)治理金融市場(chǎng)的問(wèn)題。

      如果給每個(gè)等級(jí)賦分,評(píng)定為“低”得0分,評(píng)定為“中”得1分,評(píng)定為“較高”得2分,評(píng)定為“高”得3分,樣本平均得分僅為0.94分。可見(jiàn)即便是全球數(shù)據(jù)新聞獎(jiǎng),相當(dāng)比例的作品在數(shù)據(jù)處理難度上很低,許多作品的主要精力仍放在了數(shù)據(jù)結(jié)果的呈現(xiàn)上。

      二、數(shù)據(jù)新聞在數(shù)據(jù)科學(xué)領(lǐng)域的應(yīng)用趨勢(shì)

      在樣本中,數(shù)據(jù)新聞作品在數(shù)據(jù)科學(xué)專業(yè)性的各個(gè)指標(biāo)上高低不均,總體上看,相當(dāng)多的作品在數(shù)據(jù)科學(xué)上還有很大的提升空間。隨著智媒時(shí)代的到來(lái),數(shù)據(jù)新聞在數(shù)據(jù)科學(xué)應(yīng)用方面將呈現(xiàn)以下趨勢(shì)。

      1.自建數(shù)據(jù)庫(kù):提供個(gè)性化服務(wù),創(chuàng)新盈利模式

      在開(kāi)放數(shù)據(jù)運(yùn)動(dòng)的推動(dòng)下,記者接觸的免費(fèi)數(shù)據(jù)集越來(lái)越多,一些媒體具備了自行采集各類數(shù)據(jù)的能力。無(wú)論是作為一種產(chǎn)品形態(tài),還是一種數(shù)據(jù)科學(xué)分析方法,數(shù)據(jù)庫(kù)日益受到媒體重視。全球數(shù)據(jù)新聞獎(jiǎng)也設(shè)置了“開(kāi)放數(shù)據(jù)獎(jiǎng)”鼓勵(lì)媒體公開(kāi)與公共利益密切相關(guān)的數(shù)據(jù)庫(kù)。自建數(shù)據(jù)庫(kù)主要有以下兩種方式。

      現(xiàn)有數(shù)據(jù)集的質(zhì)量提升。媒體將開(kāi)放數(shù)據(jù)集整理、清洗后變成數(shù)據(jù)質(zhì)量更高的開(kāi)放數(shù)據(jù)庫(kù)。在各國(guó)政府的開(kāi)放數(shù)據(jù)集中,很多存在數(shù)據(jù)質(zhì)量和格式問(wèn)題,公眾想獲得高質(zhì)量的數(shù)據(jù)并不容易。媒體借助既有的開(kāi)放數(shù)據(jù)集進(jìn)行二次加工,不需要額外付費(fèi),既可以節(jié)省成本,又有助于提升數(shù)據(jù)庫(kù)的利用率,樹立媒體為公眾服務(wù)的品牌形象。

      創(chuàng)建“利基”數(shù)據(jù)庫(kù),即面向特定細(xì)分市場(chǎng)的數(shù)據(jù)庫(kù)。媒體依據(jù)調(diào)查研究的問(wèn)題,將開(kāi)放數(shù)據(jù)、信息公開(kāi)數(shù)據(jù)、“泄露”數(shù)據(jù)、自行采集的數(shù)據(jù)進(jìn)行系統(tǒng)整合,創(chuàng)建更具個(gè)性特點(diǎn)和用戶體驗(yàn)的數(shù)據(jù)庫(kù),可瞄準(zhǔn)利基市場(chǎng),為特定用戶開(kāi)展深度服務(wù)。自建數(shù)據(jù)庫(kù)還有助于媒體積累數(shù)據(jù)資源,提升數(shù)據(jù)新聞生產(chǎn)效率。2016年半島電視臺(tái)獲“年度最佳突發(fā)新聞數(shù)據(jù)使用獎(jiǎng)”的作品《脫軌美鐵列車:死亡曲線上的飛馳》(Derailed Amtrak Train Sped into Deadly Crash Curve)之所以能在短時(shí)間內(nèi)完成,在于記者一年前就積累了相關(guān)數(shù)據(jù)。

      自建數(shù)據(jù)庫(kù)通過(guò)交互設(shè)計(jì)、權(quán)威數(shù)據(jù)、與公共利益相關(guān),建立起與用戶的“強(qiáng)關(guān)系”,實(shí)現(xiàn)社會(huì)效益和經(jīng)濟(jì)效益的雙贏。作為數(shù)據(jù)產(chǎn)品,數(shù)據(jù)庫(kù)有多種盈利模式:①利用數(shù)據(jù)庫(kù)帶來(lái)的流量,進(jìn)行廣告的二次售賣。②提供數(shù)據(jù)集下載收費(fèi)服務(wù)。③基于數(shù)據(jù)庫(kù)提供面向用戶的針對(duì)性服務(wù)。

      2.擁抱非結(jié)構(gòu)化數(shù)據(jù):展現(xiàn)更廣闊的社會(huì)現(xiàn)實(shí)

      全世界數(shù)據(jù)中80%是非結(jié)構(gòu)化數(shù)據(jù),擁抱非結(jié)構(gòu)化數(shù)據(jù)是大數(shù)據(jù)時(shí)代新聞生產(chǎn)的必然選擇。樣本中包含非結(jié)構(gòu)化數(shù)據(jù)的作品占50%,未來(lái)非結(jié)構(gòu)數(shù)據(jù)在數(shù)據(jù)新聞生產(chǎn)中的比重將進(jìn)一步加大。

      數(shù)據(jù)新聞對(duì)非結(jié)構(gòu)化數(shù)據(jù)的接納有以下原因。

      開(kāi)放數(shù)據(jù)的局限阻礙數(shù)據(jù)新聞生產(chǎn)。2016年萬(wàn)維網(wǎng)基金會(huì)發(fā)布的《開(kāi)放數(shù)據(jù)晴雨表》顯示,在抽查的政府?dāng)?shù)據(jù)集中,只有10%是完全開(kāi)放的,很多數(shù)據(jù)集還存在質(zhì)量問(wèn)題。非結(jié)構(gòu)化數(shù)據(jù)比結(jié)構(gòu)化數(shù)據(jù)更遍在、易得,能為媒體提供更多的數(shù)據(jù)題材,更好地實(shí)現(xiàn)監(jiān)測(cè)社會(huì)的功能。

      非結(jié)構(gòu)化數(shù)據(jù)比結(jié)構(gòu)化數(shù)據(jù)更“誠(chéng)實(shí)”。結(jié)構(gòu)化數(shù)據(jù)的處理依賴統(tǒng)計(jì)學(xué)方法,統(tǒng)計(jì)學(xué)方法注重假設(shè)、抽樣,不追求全樣本,在現(xiàn)實(shí)表征中存在一定程度的偏差。非結(jié)構(gòu)化數(shù)據(jù)則包含完整、連續(xù)的信息和關(guān)鍵細(xì)節(jié),在現(xiàn)實(shí)表征中更可靠、可信。

      媒體數(shù)據(jù)科學(xué)應(yīng)用能力的提升。現(xiàn)在國(guó)內(nèi)外一些主流媒體或雇傭程序員、或通過(guò)合作方式,提升自身對(duì)非結(jié)構(gòu)化數(shù)據(jù)的處理能力。非結(jié)構(gòu)化數(shù)據(jù)挖掘與處理能力將是未來(lái)衡量媒體數(shù)據(jù)新聞生產(chǎn)能力的重要標(biāo)準(zhǔn),帶來(lái)的是數(shù)據(jù)新聞生產(chǎn)的“破壞式創(chuàng)新”。誰(shuí)有能力處理非結(jié)構(gòu)化數(shù)據(jù),誰(shuí)就能夠在大數(shù)據(jù)時(shí)代占據(jù)主動(dòng)權(quán)。

      3.配置機(jī)器學(xué)習(xí):提升大數(shù)據(jù)處理與洞察能力

      數(shù)據(jù)新聞生產(chǎn)智能化也是未來(lái)重要的發(fā)展趨勢(shì),機(jī)器學(xué)習(xí)有望在未來(lái)幾年內(nèi)成為記者處理大規(guī)模數(shù)據(jù)集的“標(biāo)配”技術(shù)。

      機(jī)器學(xué)習(xí)主要有三類:監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。監(jiān)督學(xué)習(xí)又稱有導(dǎo)師學(xué)習(xí),指在訓(xùn)練期間有一個(gè)外部“老師”告訴網(wǎng)絡(luò)每個(gè)輸入向量的正確的輸出向量,讓程序“照章辦事”。無(wú)監(jiān)督學(xué)習(xí)又稱無(wú)導(dǎo)師學(xué)習(xí),指網(wǎng)絡(luò)只面向外界,在沒(méi)有任何指導(dǎo)的情形下構(gòu)建其內(nèi)部表征,[8]讓程序“自我發(fā)現(xiàn)”,如尋找聚類和異常檢測(cè)。強(qiáng)化學(xué)習(xí)是以環(huán)境反饋(獎(jiǎng)/懲信號(hào))作為輸入,以統(tǒng)計(jì)和動(dòng)態(tài)規(guī)劃(Dynamic Programming)技術(shù)為指導(dǎo)的一種學(xué)習(xí)方法。[9]通俗地說(shuō)就是基于環(huán)境采取何種行動(dòng)以獲取最大預(yù)期收益。

      基于以上分類,機(jī)器學(xué)習(xí)在數(shù)據(jù)新聞的應(yīng)用有三個(gè)方面。

      分類和預(yù)測(cè)。監(jiān)督學(xué)習(xí)能幫助記者快速識(shí)別和獲取所需的數(shù)據(jù)。這種方法特別適用于處理批量、有規(guī)律的數(shù)據(jù)。記者還可利用監(jiān)督學(xué)習(xí)中的回歸分析對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)。《亞特蘭大憲法報(bào)》的《醫(yī)生與性侵》(Doctors & Sex Abuse)在數(shù)據(jù)采集環(huán)節(jié)先由記者用50個(gè)爬蟲程序從美國(guó)醫(yī)療系統(tǒng)中爬取10萬(wàn)多份醫(yī)生紀(jì)律處分文件,用機(jī)器學(xué)習(xí)清理分析文件,檢索涉及性侵行為的關(guān)鍵詞。[10]監(jiān)督學(xué)習(xí)的優(yōu)劣很大程度上取決于算法設(shè)計(jì)和“訓(xùn)練”數(shù)據(jù)的可靠性,否則數(shù)據(jù)結(jié)果會(huì)出錯(cuò)。

      洞察。面對(duì)海量數(shù)據(jù),記者的認(rèn)知和經(jīng)驗(yàn)是有限的,單純依靠記者設(shè)計(jì)的監(jiān)督學(xué)習(xí)算法可能會(huì)“撿了芝麻丟了西瓜”。無(wú)監(jiān)督學(xué)習(xí)能自主尋找海量數(shù)據(jù)間的關(guān)聯(lián),識(shí)別數(shù)據(jù)中“隱藏的結(jié)構(gòu)”。美聯(lián)社記者運(yùn)用無(wú)監(jiān)督學(xué)習(xí)從14萬(wàn)條人工輸入的案件記錄中找到槍支濫用的典型案件,推算出如果案件涉及孩子或警察,犯罪嫌疑人故意開(kāi)槍的概率等。[11]

      決策。強(qiáng)化學(xué)習(xí)可幫助記者在具體環(huán)境下決策,這一學(xué)習(xí)方法在新聞生產(chǎn)中還較為少見(jiàn)。著名的“阿爾法狗”使用的就是強(qiáng)化學(xué)習(xí)?!都~約時(shí)報(bào)》推出的“石頭、剪刀、布”(Rock-Paper-Scissors)互動(dòng)頁(yè)面,系統(tǒng)利用一個(gè)人出手勢(shì)的傾向和模式來(lái)獲得優(yōu)于對(duì)手的優(yōu)勢(shì)。[12]在新聞推送中,一些媒體會(huì)利用強(qiáng)化學(xué)習(xí)確定最有效的頭條新聞和內(nèi)容推送方案。

      三、結(jié)語(yǔ)

      在大數(shù)據(jù)遍在、人工智能高速發(fā)展的當(dāng)下,數(shù)據(jù)新聞業(yè)需要繼續(xù)提升數(shù)據(jù)科學(xué)專業(yè)水準(zhǔn),增強(qiáng)自身的專業(yè)性和不可替代性,才能實(shí)現(xiàn)專業(yè)塑造,鞏固新聞業(yè)的合法地位,滿足公眾對(duì)新聞業(yè)的期待。

      注釋:

      [1][6]李艷紅.重塑專業(yè)還是遠(yuǎn)離專業(yè)?——從認(rèn)知維度解析網(wǎng)絡(luò)新聞業(yè)的職業(yè)模式[J].新聞?dòng)浾撸?012(12)

      [2]周紅豐,吳曉平.重思新聞業(yè)危機(jī):文化的力量——杰弗里·亞歷山大教授的文化社會(huì)學(xué)反思[J].新聞?dòng)浾撸?015(3)

      [3]彭蘭.更好的新聞業(yè),還是更壞的新聞業(yè)?——人工智能時(shí)代傳媒業(yè)的新挑戰(zhàn)[J].中國(guó)出版,2017(24)

      [4]葉鷹,馬費(fèi)成.數(shù)據(jù)科學(xué)興起及其與信息科學(xué)的關(guān)聯(lián)[J].情報(bào)學(xué)報(bào),2015(6)

      [5]本研究對(duì)樣本的選取方式是在剔除鏈接失效的獲獎(jiǎng)作品后,依據(jù)前期設(shè)計(jì)的分析類目辨識(shí)剩余樣本。由于不是所有的樣本提供原始數(shù)據(jù)下載或制作方法介紹,有些類目無(wú)法辨識(shí),所以不同類目的可識(shí)別樣本數(shù)不同。

      [7]張枝令.結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)的分類方法[J].寧德師專學(xué)報(bào)(自然科學(xué)版),2017(4)

      [8]楊盛春,賈林祥.神經(jīng)網(wǎng)絡(luò)內(nèi)監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)之比較[J].徐州建筑職業(yè)技術(shù)學(xué)院學(xué)報(bào),2006(3)

      [9]王雪松,程玉虎.機(jī)器學(xué)習(xí)理論、方法及應(yīng)用[M].北京:科學(xué)出版社,2009:5

      [10]調(diào)查記者編輯協(xié)會(huì).2016美國(guó)數(shù)據(jù)新聞獎(jiǎng)揭曉,深度報(bào)道再添范例[EB/OL].https://cn.gijn.org/2017/01/25/2016

      [11]余婷,陳實(shí).人工智能在美國(guó)新聞業(yè)的應(yīng)用及影響[J].新聞?dòng)浾撸?018(4)

      [12]Bradshaw.Data journalism’s AI opportunity:the 3 different types of machine learning & how they have already been used[EB/OL].https://onlinejournalismblog.com/2017/12/14/data-journalisms-ai-opportunity-the-3-different-types-of-machine-learning-how-they-havealready-been-used

      猜你喜歡
      新聞業(yè)結(jié)構(gòu)化樣本
      促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
      互聯(lián)網(wǎng)為新聞業(yè)帶來(lái)了什么?
      新聞傳播(2018年7期)2018-12-06 08:57:58
      推動(dòng)醫(yī)改的“直銷樣本”
      大數(shù)據(jù)時(shí)代:新聞業(yè)面臨的新震蕩
      新聞傳播(2018年9期)2018-08-01 06:37:20
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      從IPSO看英國(guó)新聞業(yè)的自律與他律
      村企共贏的樣本
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      依安县| 崇州市| 灵台县| 丽江市| 吉林市| 苏尼特左旗| 新兴县| 赤城县| 苏州市| 阿拉善左旗| 高台县| 加查县| 鹤岗市| 邓州市| 扶风县| 浑源县| 蒲江县| 工布江达县| 辉县市| 信阳市| 遂溪县| 黄冈市| 常德市| 临桂县| 全椒县| 丰镇市| 承德县| 裕民县| 马关县| 全州县| 永城市| 穆棱市| 汨罗市| 内乡县| 安丘市| 托克逊县| 安化县| 武安市| 阜宁县| 福鼎市| 剑川县|