張劍 何彤宇
摘要:眾所周知,互聯(lián)網(wǎng)時代媒體競爭日趨激烈,受眾對媒體新聞報道的深度和廣度提出了更高的要求。本文以《聯(lián)合早報》的華為公司相關(guān)報道為案例,對如何應(yīng)用共詞分析技術(shù)深度挖掘新聞報道熱點進(jìn)行了分析和介紹。結(jié)論發(fā)現(xiàn),通過收集海量信息,運(yùn)用聚類或社會網(wǎng)等技術(shù)可以有效提煉和挖掘相關(guān)報道熱點,從而滿足媒體深度報道,挖掘熱點話題報道后的真相,以及提升媒體競爭力的需求。
關(guān)鍵詞:熱點話題;深度報道;共詞分析;華為
互聯(lián)網(wǎng)時代的到來使得網(wǎng)絡(luò)新聞呈現(xiàn)爆炸式增長,媒體之間圍繞新聞報道的質(zhì)量、速度展開激烈的競爭,對媒體從業(yè)人員的專業(yè)能力提出了更高的要求。在此背景下,作為媒體從業(yè)人員,不僅要有新聞報道的敏感性,同時要有深度挖掘新聞報道事件背后相關(guān)的內(nèi)容,策劃熱點話題,從而滿足不同層次受眾需求。而如何運(yùn)用現(xiàn)代信息技術(shù)挖掘新聞熱點,加強(qiáng)深度報道,提升媒體競爭能力,是媒體從業(yè)人員所關(guān)注的。
根據(jù)共詞分析原理,本文擬將熱點分析和構(gòu)建過程分為“主題詞或關(guān)鍵詞抽取一構(gòu)造共詞矩陣一數(shù)據(jù)分析”的三個步驟展開研究。具體方法就是通過對相關(guān)報道的高頻關(guān)鍵詞進(jìn)行統(tǒng)計,然后得出共詞矩陣,進(jìn)行中心性分析及Ego網(wǎng)絡(luò)繪制,用各節(jié)點之間的距離來反映媒體報道中與華為相關(guān)的主題內(nèi)容的親疏關(guān)系,識別重要節(jié)點網(wǎng)絡(luò)關(guān)聯(lián),進(jìn)而通過多維尺度分析繪制坐標(biāo)圖,最后運(yùn)用聚類分析進(jìn)行相關(guān)主題聚合,探究和揭示相關(guān)熱點話題,以供進(jìn)一步研究。
一、數(shù)據(jù)來源和處理
本文以新加坡《聯(lián)合早報》網(wǎng)作為數(shù)據(jù)來源,使用《早報》網(wǎng)的熱詞搜索功能,將“華為”作為熱詞進(jìn)行搜索。經(jīng)過檢索,發(fā)現(xiàn)在《早報》網(wǎng)收錄了最早自2009年4月至2019年3月十年期間700余條數(shù)據(jù)。在此基礎(chǔ)上,刪除一些重復(fù)或者與本研究主題無關(guān)的新聞報道,共獲得526條新聞報道和評論數(shù)據(jù)。
二、數(shù)據(jù)的統(tǒng)計和描述
(一)關(guān)鍵詞詞頻統(tǒng)計和共詞分析
在共詞分析中,詞匯篩選是首要工作。但是將所有的詞匯用于分析,不僅導(dǎo)致工作量巨大,計算結(jié)果的準(zhǔn)確性也無法得到保證,因此共詞分析選擇高頻主題詞為分析的對象。在高頻關(guān)鍵詞計算方法選擇上,本研究采用前N位選取法,共提取504個關(guān)鍵詞,選取詞頻大于9的19個關(guān)鍵詞為主要關(guān)鍵詞,累積百分比為58%。該比例兼顧了高頻關(guān)鍵詞的同時,也兼顧了中頻關(guān)鍵詞,有助于觀測一些隱含主題或前瞻主題的外現(xiàn),基本反映自2009年以來《早報》網(wǎng)“華為”話題的熱點。除去核心關(guān)鍵詞華為以外,排名前9的關(guān)鍵詞分別為:孟晚舟、美國、5G、智能手機(jī)、禁令、加拿大、中興、網(wǎng)絡(luò)安全、德國。
(二)共現(xiàn)矩陣和相似矩陣的構(gòu)建
雖然高頻關(guān)鍵詞在一定程度上反映了與華為相關(guān)的熱點話題,但深入挖掘話題之間的內(nèi)在聯(lián)系,需借助共現(xiàn)矩陣(表1),然后利用社會網(wǎng)絡(luò)等方法進(jìn)行多元分析,勾勒出該領(lǐng)域的發(fā)展現(xiàn)狀、研究熱點和趨勢。
同時,為了消除共現(xiàn)頻次差異較大對數(shù)據(jù)分析造成的誤差,借助UCINET軟件生成相似矩陣(表2),并在此基礎(chǔ)上減1,構(gòu)建相異矩陣,以滿足后續(xù)進(jìn)行多維尺度分析的要求。
矩陣中數(shù)字的大小表明了相應(yīng)兩個關(guān)鍵詞之間的距離遠(yuǎn)近,反映了它們之間的相似程度。由表2可以看出,與華為距離由近及遠(yuǎn)的關(guān)鍵詞包括:智能手機(jī)、5G、網(wǎng)絡(luò)安全、禁令、美國。而聽證會、特朗普這些關(guān)鍵詞之間的相似性值雖然都相對較小,但也說明這些高頻關(guān)鍵詞之間存在一定聯(lián)系,值得重視。
三、基于網(wǎng)絡(luò)關(guān)系的共詞網(wǎng)絡(luò)知識圖譜構(gòu)建與分析
(一)基于重要主題的社會網(wǎng)構(gòu)建
社會網(wǎng)絡(luò)分析是基于關(guān)系視角根據(jù)共詞矩陣對各節(jié)點的權(quán)利(power)進(jìn)行定量研究,從而給出多種量化指標(biāo)。根據(jù)中心度Degree的計算,得到排名靠前的華為(100)、5G(83)、美國(77)、禁令(72)、孟晚舟(55)、智能手機(jī)(55)等重要關(guān)鍵詞,在此基礎(chǔ)上,運(yùn)用UCINET繪制出社會網(wǎng)絡(luò)圖譜(圖1)。從節(jié)點大小來看,除了檢索詞“華為”之外,“禁令”和“美國”在整體網(wǎng)絡(luò)中居于重要地位,是媒體關(guān)注的兩大話題。以這兩個關(guān)鍵詞為核心向外輻射形成緊密的圈層,構(gòu)成了網(wǎng)絡(luò)圖譜的主體結(jié)構(gòu)。從節(jié)點間距離來看,“網(wǎng)絡(luò)安全”“5G”也與上述主題距離較近,關(guān)系較為密切,在網(wǎng)絡(luò)中與其他節(jié)點的交互次數(shù)也較多,扮演著重要角色。同時借助Ego圖,可以清楚的發(fā)現(xiàn)特朗普、美國與中興、華為、網(wǎng)絡(luò)安全、貿(mào)易戰(zhàn)等話題的關(guān)聯(lián)性,不難發(fā)現(xiàn)特朗普在其中所起的作用(圖2)。
(二)高頻關(guān)鍵詞聚類分析
借助聚類分析描述關(guān)鍵詞之間的親疏關(guān)系,判別詞間類團(tuán),與網(wǎng)絡(luò)圖譜結(jié)合起來可以共同查找研究熱點?;驹硎?,以兩兩關(guān)鍵詞在同一篇文章中出現(xiàn)的頻次也就是共詞為分析對象,利用聚類的統(tǒng)計學(xué)方法,把關(guān)聯(lián)密切的關(guān)鍵詞聚集在一起形成類團(tuán)。分析時,先以最有影響的關(guān)鍵詞生成聚類(種子關(guān)鍵詞);再次,由聚類中的種子關(guān)鍵詞及相鄰的關(guān)鍵詞再形成+新的聚類。關(guān)鍵詞距離越近它們的關(guān)鍵詞越相似。具體方法是利用Bicomb生成詞篇矩陣;進(jìn)行系統(tǒng)聚類分析,得到的聚類結(jié)果如圖3所示。
高頻關(guān)鍵詞名稱及其對應(yīng)出現(xiàn)頻次高低排名,標(biāo)注在樹狀圖縱軸,標(biāo)注在橫軸的數(shù)字0-25代表高頻關(guān)鍵詞之間的密切度。高頻關(guān)鍵詞之間的縱向連線對應(yīng)之橫軸數(shù)字,展現(xiàn)了高頻關(guān)鍵詞間關(guān)系遠(yuǎn)近。距離較近的主題詞聚集起來,形成概念相對獨(dú)立的類團(tuán),使類團(tuán)內(nèi)屬性相似性最大,類團(tuán)間屬性相似性最小,聚類分析反應(yīng)了關(guān)鍵詞間的親疏關(guān)系,可以進(jìn)一步反映當(dāng)前的“華為”熱點話題,同時為后面的戰(zhàn)略坐標(biāo)圖的分析提供了基礎(chǔ)。
(三)基于距離空間的關(guān)鍵詞多維尺度分析
為了更直觀的對研究熱點進(jìn)行觀察和分析,在聚類分析的基礎(chǔ)上,通過多維尺度分析(MDS)繪制出戰(zhàn)略坐標(biāo)圖(圖4)。圖中坐標(biāo)x軸為向心度(Centrality),表示領(lǐng)域間相互影響的強(qiáng)度;Y軸為密度(Density),表示某一領(lǐng)域內(nèi)部聯(lián)系強(qiáng)度。影響力最大的關(guān)鍵詞,其所表示的圓圈距離戰(zhàn)略坐標(biāo)的中心點越近。而圓圈間距離越近,表明它們之間的關(guān)系緊密程度。
采用多維尺度分析時,要匯報其壓力系數(shù)Stress和模型距離解釋的百分比RSQ值,它們分別為多維尺度分析中的信度和效度估計值。其中Stress是擬合度量值,Stress越小,表明分析結(jié)果與觀察數(shù)據(jù)擬合越好;RSQ值越大,說明所得到的構(gòu)形上各點之距離與實際輸入之距離越適合。本戰(zhàn)略坐標(biāo)圖Stress和RSQ計算結(jié)果分別為0.18245和0.84387,數(shù)據(jù)擬合度可以滿足要求。
四、熱點話題分析
結(jié)合上述圖表,我們繪制出圍繞“華為”話題媒體報道的知識圖譜,可視化地展示了相關(guān)熱點話題分布情況,據(jù)此我們總結(jié)歸納出四個主要熱點話題(類團(tuán)):
(一)網(wǎng)絡(luò)安全、5G、中興和禁令等關(guān)鍵詞位于第一象限。這一領(lǐng)域各關(guān)鍵詞聯(lián)系緊密并處于研究網(wǎng)絡(luò)的中心,是媒體報道熱點。反映了以美國為代表的西方國家炒作網(wǎng)絡(luò)安全話題,對華為、中興等中國企業(yè)進(jìn)行打壓,試圖將中國企業(yè)排斥在5G市場之外,占據(jù)5G技術(shù)制高點。
(二)以智能手機(jī)產(chǎn)品為代表的中國高新技術(shù)產(chǎn)品在國際市場上得到廣泛的認(rèn)可,市場占有率節(jié)節(jié)攀升,對包括蘋果、三星等國外知名品牌構(gòu)成巨大的挑戰(zhàn),體現(xiàn)了華為、中興、小米等中國公司不斷科技創(chuàng)新取得的巨大進(jìn)步。
(三)第三象限包括了貿(mào)易戰(zhàn)、特朗普、孟晚舟等關(guān)鍵詞。主要反映了孟晚舟事件中美國和加拿大分別扮演的角色和所起的作用。
(四)第四象限主要是關(guān)于華為公司創(chuàng)始人、總裁任正非的相關(guān)報道。在采集到的21條相關(guān)報道中,2019年前三個月就有19條,這也說明,“任正非”一詞處于坐標(biāo)圖中第四象限的原因。總體而言,任正非作為一家世界知名公司的掌門人,其言行成為世界各國媒體關(guān)注的焦點。
五、結(jié)語
利用共詞分析技術(shù),通過對網(wǎng)頁信息采集、文本特征項抽取、文本向量化、相似度計算、聚類、中心度計算等幾個步驟,不僅可以對媒體報道的“華為”這一熱點話題產(chǎn)生的來龍去脈,前因后果、演變過程進(jìn)行梳理,也有利于對新聞報道中的對象未來發(fā)展趨勢進(jìn)行分析和預(yù)測。
總體而言,知識圖譜分析技術(shù)對觀察媒體的熱點話題提供了一定的思考和借鑒,可以滿足受眾對媒體報道客觀、真實、深度的需求,實現(xiàn)媒體以“內(nèi)容為王”的目的。但是鑒于當(dāng)前關(guān)于高頻關(guān)鍵詞的詞閥的計算與運(yùn)用,學(xué)界依然存在不同看法,這在日常工作或研究中需要加以注意。