陳泰偉 蘇國(guó)偉 程策
摘 要:網(wǎng)站新聞是網(wǎng)絡(luò)新聞傳播的重要數(shù)據(jù)源,統(tǒng)計(jì)網(wǎng)站新聞在經(jīng)過網(wǎng)絡(luò)多次傳播后的全網(wǎng)閱讀量具有重要意義。然而,目前尚未有成熟的全網(wǎng)閱讀量統(tǒng)計(jì)方法。本文對(duì)網(wǎng)站新聞全網(wǎng)閱讀量統(tǒng)計(jì)方法展開研究,在分析統(tǒng)計(jì)網(wǎng)站新聞全網(wǎng)閱讀量面臨的各種復(fù)雜度的基礎(chǔ)上,提出了一個(gè)統(tǒng)計(jì)算法模型,并分析了該模型的優(yōu)缺點(diǎn)。
關(guān)鍵詞:網(wǎng)站新聞;全網(wǎng)閱讀量;統(tǒng)計(jì)算法
中圖分類號(hào):G203 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1671-0134(2018)08-117-03 DOI:10.19483/j.cnki.11-4653/n.2018.08.048
1.統(tǒng)計(jì)網(wǎng)站新聞全網(wǎng)閱讀量的意義
在網(wǎng)絡(luò)媒體、自媒體、移動(dòng)媒體不斷壯大的今天,網(wǎng)站已經(jīng)在一定程度上成為了傳統(tǒng)媒體平臺(tái)。雖然直接從網(wǎng)站獲取新聞的網(wǎng)民在不斷減少,但網(wǎng)站新聞一直是各平臺(tái)網(wǎng)絡(luò)新聞轉(zhuǎn)發(fā)分享的重要數(shù)據(jù)來源,而且網(wǎng)站新聞在權(quán)威性、真實(shí)性上相對(duì)其他媒體平臺(tái)具有明顯優(yōu)勢(shì)。
統(tǒng)計(jì)網(wǎng)站新聞傳播獲得的全網(wǎng)閱讀量具有重要意義。從國(guó)家層面看,新聞宣傳主管機(jī)構(gòu)需要掌握重要政策、權(quán)威信息、宣傳內(nèi)容的落地情況;從傳媒行業(yè)層面看,各新聞媒體單位需要了解自身媒體的影響力,整個(gè)行業(yè)也需要給出影響力排行;從新聞策劃層面看,新時(shí)代的策劃者已經(jīng)不能再只憑自身經(jīng)驗(yàn)和新聞敏感度做出決定,決策必須要有數(shù)據(jù)參考。以往,各媒體單位更多是依靠自身的網(wǎng)站訪問量統(tǒng)計(jì)系統(tǒng)獲取網(wǎng)站新聞的傳播數(shù)據(jù),該數(shù)據(jù)只能代表網(wǎng)站新聞在單個(gè)媒體平臺(tái)的閱讀情況,不能反映全網(wǎng)閱讀情況。本文提出的全網(wǎng)閱讀量,為單個(gè)新聞的全網(wǎng)傳播效果給出了一個(gè)量化指標(biāo),進(jìn)而更能滿足各層面對(duì)傳播效果的統(tǒng)計(jì)需求。
另一方面,隨著科技的進(jìn)步,文本相似度計(jì)算在信息檢索的效率提高方面起到了很大的作用。[1]再加上目前大數(shù)據(jù)分析技術(shù)的日臻成熟,在對(duì)全網(wǎng)進(jìn)行數(shù)據(jù)挖掘的基礎(chǔ)上,能夠通過文本相似度算法跟蹤一篇稿件在全網(wǎng)的傳播情況,這為統(tǒng)計(jì)網(wǎng)站新聞全網(wǎng)閱讀量提供了技術(shù)可能。
2.統(tǒng)計(jì)網(wǎng)站新聞全網(wǎng)閱讀量的復(fù)雜度
與統(tǒng)計(jì)單個(gè)網(wǎng)站的網(wǎng)站新聞閱讀量不同,要統(tǒng)計(jì)一篇網(wǎng)站新聞稿的全網(wǎng)閱讀量,會(huì)受到網(wǎng)站新聞稿所在的空間、時(shí)間、傳播過程以及統(tǒng)計(jì)過程等多方面因素的影響,接下來本文從這四個(gè)維度加以分析。
2.1空間復(fù)雜度
網(wǎng)站新聞被不斷轉(zhuǎn)發(fā)后,會(huì)出現(xiàn)在網(wǎng)絡(luò)空間多個(gè)位置上。首先,稿件會(huì)出現(xiàn)在多個(gè)網(wǎng)站上,不同的稿件被轉(zhuǎn)發(fā)的網(wǎng)站數(shù)量各不相同;其次,稿件可能出現(xiàn)在同一網(wǎng)站的多個(gè)位置上,例如在網(wǎng)站首頁(yè)、網(wǎng)站相關(guān)頻道首頁(yè)、網(wǎng)站專題頁(yè)、網(wǎng)站子欄目頁(yè)等;再次,稿件還可能在社交網(wǎng)絡(luò)上有更復(fù)雜的存在形式,比如,論壇、貼吧、微博、微信等(關(guān)于稿件在社交網(wǎng)絡(luò)上的閱讀數(shù),多可從各平臺(tái)直接獲取,本文統(tǒng)計(jì)算法中暫不考慮)。
2.2時(shí)間復(fù)雜度
不同時(shí)間點(diǎn)稿件的傳播情況不同。隨著時(shí)間變化,稿件逐漸出現(xiàn)在多個(gè)網(wǎng)絡(luò)空間位置上,統(tǒng)計(jì)時(shí)間點(diǎn)不同,稿件的空間位置數(shù)量也不同,統(tǒng)計(jì)得到的閱讀量也就不同。
不同時(shí)間點(diǎn)稿件的熱度也不同。諸如熱度衰減、再次發(fā)酵、舊聞新炒等,導(dǎo)致統(tǒng)計(jì)的閱讀量也不同。如圖1是一條真實(shí)新聞稿件閱讀量隨時(shí)間變化的曲線圖,該圖展示了該條稿件從變熱到衰減最后到消亡的過程。該新聞稿件從4月30日凌晨發(fā)稿后,在當(dāng)日15點(diǎn)到19點(diǎn)較短時(shí)間內(nèi)閱讀量達(dá)到最大,然后稿件熱度衰減,閱讀數(shù)也隨之逐漸下降。在次日的3點(diǎn)處于衰減期的該稿件由于某種外界因素被重新激活,稿件閱讀量重新上升,然后又開始衰減,最后消亡。
2.3傳播復(fù)雜度
稿件在傳播過程中會(huì)面臨許多復(fù)雜的情況。第一,轉(zhuǎn)載媒體可能會(huì)對(duì)被轉(zhuǎn)載稿件的標(biāo)題進(jìn)行修改,甚至對(duì)內(nèi)容進(jìn)行增刪處理;第二,有的轉(zhuǎn)載媒體并不標(biāo)注轉(zhuǎn)載來源,造成在溯源統(tǒng)計(jì)中稿件傳播鏈的斷裂;第三,同一個(gè)轉(zhuǎn)載媒體會(huì)將同一篇稿件轉(zhuǎn)發(fā)到同一網(wǎng)站的多個(gè)位置,形成多個(gè)傳播鏈分支;第四,稿件被轉(zhuǎn)發(fā)后在各個(gè)空間位置的停留時(shí)長(zhǎng)不同,例如稿件在一段時(shí)間內(nèi)出現(xiàn)在某網(wǎng)站的首頁(yè)大標(biāo)題上,不久后該稿件從首頁(yè)大標(biāo)題上撤下,也就不再具備該網(wǎng)站位置的曝光率和閱讀量。
2.4統(tǒng)計(jì)復(fù)雜度
在實(shí)際統(tǒng)計(jì)過程中會(huì)面臨許多復(fù)雜的情況,也會(huì)增大全網(wǎng)閱讀量統(tǒng)計(jì)的難度,大致包含以下一些情況:首先,不是所有網(wǎng)站對(duì)自己稿件的閱讀量都有統(tǒng)計(jì);其次,即使有的網(wǎng)站對(duì)閱讀量有統(tǒng)計(jì),各網(wǎng)站的統(tǒng)計(jì)方法和標(biāo)準(zhǔn)也不盡相同;再次,一般來講,大部分網(wǎng)站不會(huì)對(duì)外公布自己的真實(shí)統(tǒng)計(jì)數(shù)據(jù);還有,就算各網(wǎng)站都公布了自己的統(tǒng)計(jì)數(shù)據(jù),對(duì)全網(wǎng)各統(tǒng)計(jì)數(shù)據(jù)進(jìn)行收集整理的難度也非常大,幾乎很難實(shí)現(xiàn);最后,由于很可能不能及時(shí)完整地獲取各網(wǎng)站統(tǒng)計(jì)數(shù)據(jù),各網(wǎng)站統(tǒng)計(jì)數(shù)據(jù)又都在不斷隨時(shí)間變化,使得統(tǒng)計(jì)周期長(zhǎng),統(tǒng)計(jì)時(shí)間點(diǎn)很難把握,最后得到統(tǒng)計(jì)結(jié)果的時(shí)效性和真實(shí)性都不大。
3.統(tǒng)計(jì)網(wǎng)站新聞全網(wǎng)閱讀量的算法實(shí)現(xiàn)
基于以上復(fù)雜度分析,要想獲取精確的網(wǎng)站新聞全網(wǎng)閱讀量幾乎是不可能的。但是我們可以通過一定的算法模型估算稿件的閱讀量,使計(jì)算出的全網(wǎng)閱讀量能在數(shù)量級(jí)上提供參考價(jià)值,從而一定程度上解決這個(gè)難題。
3.1統(tǒng)計(jì)網(wǎng)站新聞全網(wǎng)閱讀量的前置條件
條件一,明確對(duì)網(wǎng)站新聞閱讀量的定義。本文所指的網(wǎng)站新聞閱讀量,指用戶通過瀏覽器打開稿件正文頁(yè)一次,即算貢獻(xiàn)一個(gè)閱讀量,即頁(yè)面瀏覽數(shù)(PageView,PV)。
條件二,能夠獲得被統(tǒng)計(jì)稿件在首發(fā)網(wǎng)站的閱讀量。本算法使用者一般是某個(gè)網(wǎng)站媒體,依據(jù)本算法計(jì)算本網(wǎng)首發(fā)稿件的全網(wǎng)閱讀量。首發(fā)網(wǎng)站通常能夠獲取自身網(wǎng)站的稿件閱讀量,如果不能則可通過在網(wǎng)站后臺(tái)部署一套訪問量統(tǒng)計(jì)系統(tǒng)即可實(shí)現(xiàn)。本算法將以此作為計(jì)算基礎(chǔ),力爭(zhēng)提高計(jì)算結(jié)果的可信度。
條件三,我們假設(shè)通過大數(shù)據(jù)分析,能夠獲取到稿件被轉(zhuǎn)載的媒體以及該稿件在該轉(zhuǎn)載媒體上所屬的欄目?,F(xiàn)在大數(shù)據(jù)技術(shù)和網(wǎng)絡(luò)爬蟲技術(shù)都趨于成熟,爬取新聞網(wǎng)站的稿件,然后通過相似性算法對(duì)比新聞稿件的內(nèi)容實(shí)現(xiàn)對(duì)原創(chuàng)新聞稿件的跟蹤,從而獲取原創(chuàng)稿件被轉(zhuǎn)載的媒體和所屬被轉(zhuǎn)載媒體的欄目。
3.2統(tǒng)計(jì)網(wǎng)站新聞全網(wǎng)閱讀量的算法描述
為了便于說明,本文以中國(guó)軍網(wǎng)(以下簡(jiǎn)稱“軍網(wǎng)”)的首發(fā)新聞稿件為例,對(duì)網(wǎng)站新聞全網(wǎng)閱讀量統(tǒng)計(jì)算法展開分析。
3.4算法優(yōu)缺點(diǎn)分析
算法優(yōu)點(diǎn):一是本算法充分考慮了網(wǎng)站新聞閱讀量統(tǒng)計(jì)的時(shí)間復(fù)雜性、空間復(fù)雜性、傳播復(fù)雜性和統(tǒng)計(jì)復(fù)雜性,歸納出了可操作的計(jì)算全網(wǎng)閱讀量的方法;二是本算法以被統(tǒng)計(jì)稿件在某個(gè)網(wǎng)站的真實(shí)閱讀量為基礎(chǔ)進(jìn)行估算其他網(wǎng)站的閱讀量,使得計(jì)算結(jié)果更加真實(shí);三是本算法除了對(duì)網(wǎng)站本身、網(wǎng)站日均訪問量這些因素進(jìn)行評(píng)估,還考慮了首發(fā)網(wǎng)站不同欄目對(duì)稿件閱讀量的影響;四是使用者可以自己對(duì)首發(fā)網(wǎng)站不同的欄目設(shè)置相應(yīng)的權(quán)值,具有一定的靈活性。
算法不足:一是本算法不能準(zhǔn)確的算出一篇新聞稿在全網(wǎng)的閱讀量,只是在數(shù)量級(jí)上提供參考;二是對(duì)首發(fā)網(wǎng)站不同欄目的權(quán)值設(shè)置沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn),而是由使用者自己設(shè)置,既是優(yōu)點(diǎn)也是缺點(diǎn)。
結(jié)語(yǔ)
一篇網(wǎng)站新聞稿的全網(wǎng)閱讀量比在單一網(wǎng)站的閱讀量能更好地反映其宣傳效果,同時(shí)也更適合作為影響力評(píng)估、新聞策劃的參考依據(jù)。本文通過仔細(xì)考慮影響全網(wǎng)閱讀量的各種因素,歸納出了可操作的全網(wǎng)閱讀量算法公式,初步實(shí)現(xiàn)了在全網(wǎng)范圍內(nèi)跟蹤統(tǒng)計(jì)一篇稿件的閱讀量,為進(jìn)一步展開網(wǎng)站新聞傳播大數(shù)據(jù)分析打下了基礎(chǔ)。
參考文獻(xiàn)
[1]王格,吳釗,李向.基于全文檢索的文本相似度算法應(yīng)用研究[J].計(jì)算機(jī)與數(shù)字工程,2016,44(4):567-571.
[2]焦金濤.基于PageRank的Web挖掘改進(jìn)算法[J].計(jì)算機(jī)工程,2009,35(15):284-285.
[3]李秦,鄭宏.從Alexa排名的相關(guān)參數(shù)比較國(guó)內(nèi)3種電子期刊網(wǎng)站[J].情報(bào)探索,2009(2):67-70.