大數(shù)據(jù)時代的新聞生產(chǎn)
——以“今日頭條”為例研究分析個性化新聞推送

2018-02-22 05:51:13韓璐媛

新聞研究導(dǎo)刊 2018年1期

韓璐媛

（遼寧大學(xué) 新聞與傳播學(xué)院，遼寧沈陽 110036）

一、大數(shù)據(jù)時代催生個性化新聞推送

（一）大數(shù)據(jù)

在維克托·邁爾·舍恩伯格的《大數(shù)據(jù)時代》一書中提到，“大數(shù)據(jù)”這一概念最初是指需要處理的信息量過大，已超出一般電腦處理數(shù)據(jù)時使用的內(nèi)存量，因此需要改進(jìn)處理數(shù)據(jù)的工具。這里說的“大數(shù)據(jù)”著重體現(xiàn)了數(shù)據(jù)的海量性，即巨大的數(shù)據(jù)量。

中國人民大學(xué)喻國明教授認(rèn)為：“大數(shù)據(jù)的真正價值不在于它的大，而在于它的全——空間維度上的多角度、多層次信息的交叉復(fù)現(xiàn)，時間維度上的與人或社會有機體的活動相關(guān)聯(lián)的信息的持續(xù)呈現(xiàn)?！币虼耍诖髷?shù)據(jù)時代，怎樣有效地運用大數(shù)據(jù)使其發(fā)揮出最大價值，將是各個領(lǐng)域尤其是新聞傳播領(lǐng)域值得關(guān)注的問題。

（二）大數(shù)據(jù)催生個性化新聞推送

大數(shù)據(jù)時代的到來及移動互聯(lián)網(wǎng)的迅速發(fā)展，為移動新聞客戶端的誕生以及新聞客戶端實現(xiàn)個性化新聞推送提供了可能。例如，今日頭條、一點資訊這一類由技術(shù)公司為運營主體的移動新聞客戶端，其主要不是生產(chǎn)新聞，而是聚合其他媒體的新聞資訊，以實現(xiàn)新聞資源的有效整合。這些移動新聞客戶端都在不同程度上通過搜集用戶的行為記錄，實現(xiàn)有針對性的個性化新聞推送。

在數(shù)據(jù)海量的背景下，用戶的注意力便成了各商業(yè)機構(gòu)及各家媒體爭相搶奪的資源。對于用戶而言，迫切需要過濾無關(guān)冗雜的信息，在眾多信息中獲得有價值和自己喜歡的信息。對于信息生產(chǎn)者和傳播者而言，怎樣才能讓自己的信息具有吸引力，進(jìn)而將用戶的注意力進(jìn)行二次售賣實現(xiàn)經(jīng)濟(jì)獲利，這些都變得越發(fā)重要。

2012年3月，今日頭條誕生，其創(chuàng)辦宗旨是“你關(guān)心的，才是頭條”。今日頭條以微博、微信、網(wǎng)易等賬號實現(xiàn)一鍵登錄，來獲取用戶的行為記錄。為用戶私人定制新聞信息，幫助用戶在海量的新聞信息中獲取自己感興趣的話題和信息，增強用戶黏性，提升用戶的使用體驗。今日頭條構(gòu)建了一個用戶主導(dǎo)的閱讀環(huán)境，而用戶接收到的新聞內(nèi)容推薦是基于剖析用戶行為二產(chǎn)生的。

二、今日頭條個性化新聞推送分析

（一）整合抓取新聞資訊

實現(xiàn)個性化新聞推送的前提是有足夠的新聞資訊可供選擇，這樣才可以通過算法推薦將不同的信息推送給不同的用戶，以滿足用戶的不同喜好需求。

今日頭條實際上是一所具備媒體屬性的科技公司，本身不生產(chǎn)新聞內(nèi)容，如何做到新聞內(nèi)容的抓取聚合便是其最重要的問題。通過資料查詢，今日頭條的新聞來源主要來自兩個方面：一方面是通過網(wǎng)絡(luò)爬蟲技術(shù)從各大新聞媒體門戶網(wǎng)站中抓取新聞；另一方面則是今日頭條為各大新聞媒體、國家機構(gòu)，包括自媒體在內(nèi)提供的新聞發(fā)布平臺——“頭條號”。

今日頭條的網(wǎng)絡(luò)爬蟲技術(shù)以互聯(lián)網(wǎng)中的超鏈接網(wǎng)絡(luò)為運用基礎(chǔ)，在互聯(lián)網(wǎng)網(wǎng)頁中存在超多的超鏈接，而互聯(lián)網(wǎng)中的巨大超鏈接網(wǎng)絡(luò)正是由這些超鏈接將各網(wǎng)頁鏈接在一起之后形成的。網(wǎng)絡(luò)爬蟲就是從某一網(wǎng)頁開始，找到存在于網(wǎng)頁中的超鏈接，然后進(jìn)行訪問，如此循環(huán)往復(fù)。通過不斷點擊超鏈接來為今日頭條抓取海量的新聞信息內(nèi)容，為用戶制定個性化的信息推送打下數(shù)據(jù)基礎(chǔ)。而另一類新聞來源就顯得更為簡單直觀，作為今日頭條原創(chuàng)內(nèi)容的生產(chǎn)源——“頭條號”成為今日頭條繼網(wǎng)絡(luò)爬蟲技術(shù)之后的又一重要內(nèi)容整合工具。

（二）定位用戶喜好實現(xiàn)個性化推送

網(wǎng)絡(luò)爬蟲技術(shù)和頭條號為今日頭條獲取大量新聞資訊，如何定位用戶個人的喜好將信息推送出去便是另一個關(guān)鍵問題，也是今日頭條能夠在眾多新聞聚合分發(fā)平臺中脫穎而出并且持久發(fā)力的關(guān)鍵之處。

今日頭條的用戶用已有的如微信、QQ等社交賬號進(jìn)行一鍵登錄，方便后臺機器人分析用戶的社交數(shù)據(jù)、行為記錄，對用戶進(jìn)行前期的信息推送。這種第三方賬號登錄的注冊方式，避免了產(chǎn)品前期因用戶數(shù)據(jù)太少不能準(zhǔn)確推送信息而導(dǎo)致用戶流失的問題。但用戶的興趣圖譜并不是一成不變的，且圖譜的建立需要一個長時間的持續(xù)探索，需要今日頭條通過不斷記憶與分析用戶的操作行為，才能做到對用戶的精準(zhǔn)推送。

判斷用戶對于一條新聞資訊是否喜愛，今日頭條的后臺機器人可以通過分析用戶的閱讀記錄以及對資訊的點擊評論、收藏等操作行為來實現(xiàn)。比如，用戶較長時間地瀏覽一條資訊，且持續(xù)下拉到了資訊的底部，則一般表明用戶對此類資訊感興趣，那么在下一次推送中可能就會盡可能推送此類的信息。而且這種類似新聞資訊的推送并不是延遲性的，而是實時性的。比如，筆者在使用今日頭條時，點擊并收藏了有關(guān)考研的內(nèi)容，在經(jīng)過幾分鐘的閱讀之后，再次刷新推薦頁面，就多了幾條考研方面的內(nèi)容。

三、今日頭條個性化新聞推送的問題所在

（一）“我們不生產(chǎn)新聞，我們是新聞的搬運工”——陷入版權(quán)糾紛

雖然今日頭條和部分新聞網(wǎng)站簽訂爬蟲協(xié)議合法抓取新聞資訊內(nèi)容，但由于互聯(lián)網(wǎng)強大的超鏈接網(wǎng)絡(luò)，網(wǎng)絡(luò)爬蟲在不斷訪問各個網(wǎng)頁的超鏈接時，勢必會抓取到那些未簽訂爬蟲協(xié)議的網(wǎng)站內(nèi)容，并由此構(gòu)成對其他媒體的侵權(quán)。自2014年以來，廣州日報等多家媒體都曾經(jīng)聲稱今日頭條侵犯版權(quán)。2017年5月2日，南方日報也發(fā)表公告稱今日頭條竊取自家新聞2000多條。朱巍認(rèn)為：“‘今日頭條’所提供的新聞并非是用戶直接通過搜索引擎得來，而是‘今日頭條’事先通過爬蟲技術(shù)對新聞進(jìn)行整理、歸類排行和大數(shù)據(jù)算法之后，對新聞的二次加工，這種二次加工的新聞如果未經(jīng)作者授權(quán)而轉(zhuǎn)載是構(gòu)成侵權(quán)的?！?/p>

（二）算法推送有待優(yōu)化

基于大數(shù)據(jù)的算法推送關(guān)注的并不是行為之間的因果關(guān)系，而更多的是相關(guān)關(guān)系。這種對相關(guān)關(guān)系的關(guān)注勢必會導(dǎo)致對受眾興趣的錯誤解讀。這也是人工智能不及人工推送之處。筆者對今日頭條進(jìn)行了使用體驗，對其推薦的內(nèi)容進(jìn)行點擊閱讀和點贊收藏。在點擊閱讀并收藏文章《異性之間，做了這4件事，關(guān)系肯定“不一般”》之后，又點擊閱讀了《女人愿意送你這4樣?xùn)|西，說明她今生只愛你一個人》，之后刷新了頭條首頁，首頁便出現(xiàn)了約60%的有關(guān)女性的話題，其內(nèi)容中含有大量“性暗示”的內(nèi)容。這種由于一時興起而得到的點擊量，算法是否能真正了解用戶的真實喜好，還有待考究。

（三）“你關(guān)心的，才是頭條”——形成“信息繭房”

今日頭條的算法推薦雖然能夠幫助用戶篩選出自己喜愛的新聞信息，但同時也會將人們的某些愛好偏差無限放大，進(jìn)而不斷強調(diào)這種偏差，用戶“信息繭房”的產(chǎn)生成為必然。而且強調(diào)某些偏差的同時，也極易出現(xiàn)與社會主義主流價值觀相悖的新聞推薦。2017年以來，北京市網(wǎng)信辦先后兩次就今日頭條涉嫌違規(guī)提供涉黃內(nèi)容問題進(jìn)行約談。人民網(wǎng)在2017年下半年也曾連發(fā)《不能讓算法決定內(nèi)容》《別被算法困在“信息繭房”》《警惕算法走向創(chuàng)新的反面》3篇文章，矛頭直指今日頭條的算法推薦問題。文章稱，客戶端僅依靠揣摩人們的瀏覽點擊，不斷地推薦低質(zhì)量內(nèi)容，只能讓人生厭，算法和技術(shù)不應(yīng)該成為限制媒體的工具。

[1]喻國明.大數(shù)據(jù)方法與新聞傳播創(chuàng)新：從理論定義到操作路線[J].江淮論壇，2014（4）：5-7.

[2]林楚方.今日頭條如何玩轉(zhuǎn)大數(shù)據(jù)[J].新聞與寫作，2015（11）：19-21.

[3]朱巍.網(wǎng)絡(luò)版權(quán)侵權(quán)認(rèn)定與法律適從——以“今日頭條”版權(quán)糾紛說起[J].青年記者，2014（22）：17-19.

大數(shù)據(jù)時代的新聞生產(chǎn)——以“今日頭條”為例研究分析個性化新聞推送

一、大數(shù)據(jù)時代催生個性化新聞推送