楊振宇
(河南工業(yè)和信息化職業(yè)學院,河南 焦作 454000)
隨著互聯(lián)網(wǎng)技術的發(fā)展,人們獲取新聞信息的途徑逐漸由傳統(tǒng)的紙媒變?yōu)榫W(wǎng)絡媒體。在網(wǎng)絡技術的支撐下,互聯(lián)網(wǎng)相繼出現(xiàn)論壇、微博、知乎等各類社交群體,既拓展了新聞傳播范圍,加快了新聞傳播速度,也為受眾提供了對事件發(fā)表看法的服務平臺。而受眾的態(tài)度等信息反映了其對熱點話題及事件的關注度,為新聞廣播領域的選題及輿論引導提供了參考。然而,融媒體背景下,新聞廣播形式單一、內容空洞、與受眾的互動不足,制約了新聞廣播的選題。面對網(wǎng)絡中重要的受眾觀點,基于大數(shù)據(jù)分析技術構建輿情監(jiān)測分析體系,并使其服務于新聞內容的選擇與發(fā)布,是新聞廣播領域需重點探索的問題。因此,本文提出一種面向新聞廣播的熱點發(fā)現(xiàn)和輿情監(jiān)測分析系統(tǒng),實現(xiàn)熱點及輿情分析結果可視化,進而為新聞廣播媒體選題奠定基礎。
近年來,各種社交平臺相繼出現(xiàn),數(shù)據(jù)信息快速增長和積累,隨著云計算、物聯(lián)網(wǎng)技術的興起,大數(shù)據(jù)時代已經(jīng)到來。大數(shù)據(jù)是一個抽象化概念,表示規(guī)模數(shù)量極大的數(shù)據(jù),不僅存在于互聯(lián)網(wǎng)發(fā)布的信息中,還存在于各類工業(yè)、科學研究等領域,與個人生活聯(lián)系更加密切。對于大數(shù)據(jù),學術界尚未給出一個統(tǒng)一的定義。徐子沛在其著作《大數(shù)據(jù)》中提出,“大數(shù)據(jù)”不僅指“容量大”,更重要的是能通過對大量數(shù)據(jù)進行交換、整合和分析,發(fā)現(xiàn)新的知識,創(chuàng)造出新的價值,為人們帶來“大知識”“大科技”以及“大發(fā)展”[1]。但根據(jù)各學者的研究,大數(shù)據(jù)一般需要滿足3“V”特征,即規(guī)模性(Volume)、多樣性(Variety)以及高速性(Velocity)。此外,對于第4 個“V”,國際數(shù)據(jù)公司提出,大數(shù)據(jù)應當具備較高的價值性(Value),而IBM 公司則認為大數(shù)據(jù)應具備真實性(Veracity)[2]。
真正的大數(shù)據(jù)爆發(fā)主要有兩次。第一次是Web2.0 時代,這一時期在互聯(lián)網(wǎng)與移動智能終端設備的支持下,互聯(lián)網(wǎng)產(chǎn)生大量用戶原創(chuàng)內容,進而出現(xiàn)大量人類社會數(shù)據(jù)。第二次是感知式系統(tǒng)的廣泛應用,人們將帶有處理功能的微小傳感器廣泛布置于社會各個角落,對社會的運轉進行監(jiān)控,從而產(chǎn)生大量數(shù)據(jù)。大數(shù)據(jù)技術主要是針對海量數(shù)據(jù)進行數(shù)據(jù)收集、篩選與集成,并對數(shù)據(jù)進行分析,從中提取出有用的信息,并將其應用到其他領域,為其他領域的研究發(fā)展提供數(shù)據(jù)參考。如圖1所示,大數(shù)據(jù)處理技術流程包括數(shù)據(jù)采集、數(shù)據(jù)處理與集成、數(shù)據(jù)分析以及數(shù)據(jù)解釋幾個環(huán)節(jié)。大數(shù)據(jù)技術的應用有效提高了提取數(shù)據(jù)的效率,并依托可視化技術,滿足各類用戶需求。
圖1 大數(shù)據(jù)處理流程
傳統(tǒng)的新聞廣播與聽眾互動較少,聽眾對廣播內容的選擇缺乏自主性和主動性。隨著網(wǎng)絡的普及,若是廣播的內容與受眾群體的興趣不符,則會造成聽眾流失[3]?;诖?,要想保證收聽率,就需要從新聞廣播內容切入,既抓住熱點話題,迎合聽眾,又能對輿情進行監(jiān)督,引導輿論走向。
選題是新聞廣播的重要環(huán)節(jié)。隨著社交媒體的快速發(fā)展,新聞廣播對于選題線索的挖掘不局限于傳統(tǒng)的官方信息披露,可以依托大數(shù)據(jù)分析技術,對社交媒體產(chǎn)生的信息進行采集和分析,深入挖掘當前互聯(lián)網(wǎng)熱點信息以及受眾感興趣的話題,為新聞廣播媒體的編導等工作人員選題決策提供信息支撐,有效解決傳統(tǒng)的新聞廣播選題低效、滯后、盲目等問題,激發(fā)聽眾興趣。
隨著社交媒體與移動智能設備的普及,人們發(fā)表觀點的渠道更廣,信息的傳播速度也更快。一些不良信息或觀點也會快速傳播,可能激化社會矛盾,影響大眾思想。全面了解社會輿論發(fā)展,加強對輿情的監(jiān)控,了解負面信息的傳播,提前做好輿論導向,也是新聞工作者維護社會安定、維護國家長治久安的重要工作。輿情監(jiān)管可以利用大數(shù)據(jù)分析技術對輿情熱度趨勢、口碑、用戶觀點、負面言論等方面的數(shù)據(jù)信息進行分析,為新聞廣播引導輿情走向提供信息參考。
大數(shù)據(jù)技術的核心與關鍵在于對數(shù)據(jù)的挖掘與分析,通過對大量數(shù)據(jù)信息收集、處理、儲存、分析,對不同的用戶采用可視化精準推送,推動新聞廣播發(fā)展和轉型。基于此,新聞廣播中可以依托大數(shù)據(jù)技術構建大數(shù)據(jù)平臺,利用計算機架構,搭建新聞廣播熱點輿情分析系統(tǒng)。通過探針、爬蟲等技術手段,收集新聞網(wǎng)站、微博、移動客戶端等各類媒體的數(shù)據(jù)信息,對數(shù)據(jù)進行分析,挖掘數(shù)據(jù)背后隱藏的熱點新聞,及時對輿情進行引導管控[4]。
首先,作為新聞廣播熱點輿情分析系統(tǒng),對于數(shù)據(jù)的獲取要及時。網(wǎng)絡數(shù)據(jù)信息量大,更新速度較快,數(shù)據(jù)的收集獲取作為系統(tǒng)的基礎部分,及時獲取熱點也能保證話題的時效性。其次,數(shù)據(jù)的處理要快速高效。時效性是衡量新聞廣播質量的重要因素,因此,面對海量新聞,須不斷提高數(shù)據(jù)處理速度,保證熱點話題的時效性。最后,數(shù)據(jù)處理結果要具有準確性。數(shù)據(jù)處理結果的準確性包括發(fā)現(xiàn)熱點話題的準確性和對輿情分析的準確性兩方面[5]。
根據(jù)新聞廣播對大數(shù)據(jù)技術的需求,可以將新聞廣播熱點輿情分析系統(tǒng)結構分為熱點追蹤和輿情監(jiān)管兩大部分,總體結構如圖2 所示。熱點追蹤系統(tǒng)的主要服務對象是新聞選題與寫作,包括4 大功能,分別是全網(wǎng)熱點發(fā)現(xiàn)、輿情分析、熱點定制以及素材檢索。首先,系統(tǒng)可以全網(wǎng)搜索熱點事件,為新聞媒體的選題與寫作提供熱點話題和素材,滿足聽眾對熱點事件及話題的關注。其次,通過輿情分析,新聞工作者能更加了解用戶對待熱點事件的態(tài)度。熱點定制功能則可以持續(xù)追蹤用戶的關注,進一步了解輿情的發(fā)展。素材檢索則為新聞內容提供了素材支撐,有效提高新聞生產(chǎn)效率。輿情監(jiān)管系統(tǒng)包括對全網(wǎng)行業(yè)輿情監(jiān)管、特定行業(yè)輿情監(jiān)管、輿情檢索、分析、定制以及賬戶管理等功能。對全網(wǎng)以及特定行業(yè)輿情進行分析,有助于廣播新聞媒體及時發(fā)現(xiàn)并引導輿論走向。
圖2 系統(tǒng)總體功能結構圖
基于大數(shù)據(jù)分析系統(tǒng),可以將新聞廣播熱點輿情分析系統(tǒng)功能分為數(shù)據(jù)采集、數(shù)據(jù)分析以及數(shù)據(jù)預處理和數(shù)據(jù)分析三大功能模板。
4.2.1 數(shù)據(jù)采集
數(shù)據(jù)采集功能主要是針對海量數(shù)據(jù)信息進行采集、下載,包括媒體數(shù)據(jù)、社交數(shù)據(jù)、評論數(shù)據(jù)以及用戶畫像數(shù)據(jù)等各類信息。面對大量的數(shù)據(jù)信息,數(shù)據(jù)采集需要對其進行篩選。以新聞媒體評論數(shù)據(jù)的收集為例,媒體評論數(shù)據(jù)是分析用戶觀點、情感走勢的重要依據(jù)。媒體評論數(shù)據(jù)收集主要針對的是主流新聞媒體站點的評論,評論多位于新聞下方,且只能顯示部分評論。對此,可以通過對網(wǎng)頁結構代碼進行分析,可以通過站點自身的js 請求獲取數(shù)據(jù)。而評論數(shù)據(jù)js 請求返回格式為JSON 字符串,對該格式數(shù)據(jù)處理大大降低了難度,至此,再將評論與對應的新聞數(shù)據(jù)進行關聯(lián)即可。如圖3所示,首先執(zhí)行新聞列表js 請求,獲取滾動新聞列表,并提取新聞id;其次將下載的評論數(shù)據(jù)與新聞進行拼接,得到完善的信息數(shù)據(jù);最后,將數(shù)據(jù)推送預處理[5]。
圖3 媒體評論數(shù)據(jù)采集流程圖
4.2.2 數(shù)據(jù)預處理
系統(tǒng)收集到的數(shù)據(jù)信息數(shù)量較多,覆蓋范圍較廣,數(shù)據(jù)質量參差不齊。為保證數(shù)據(jù)分析更準確,數(shù)據(jù)預處理功能需要對數(shù)據(jù)進行篩選、過濾,過濾掉廣告信息以及無關的新聞網(wǎng)頁。對于剩余數(shù)據(jù)信息,可以簡單地通過標題、關鍵詞等進行簡單的分類。與新聞相匹配的評論數(shù)據(jù)的處理,可以通過情緒關鍵詞,將受眾態(tài)度進行簡單的情緒劃分。
4.2.3 數(shù)據(jù)分析
數(shù)據(jù)分析模塊主要是借助于一些算法和思想,通過機器學習的方法,對預處理后的數(shù)據(jù)再次進行細致分析。例如,針對熱門新聞數(shù)據(jù)的分析,可以采用文本向量化技術,對已收集到的新聞熱點標題進行比對,將相似度較高的且出現(xiàn)次數(shù)較多的新聞,從高到低進行排序[6]。再比如,對某個網(wǎng)站的新聞數(shù)據(jù)進行分析時,可以根據(jù)閱讀量、點贊量、瀏覽量等設計專門的計算公式,對站內熱門新聞話題進行排行。
大數(shù)據(jù)技術有效結合了互聯(lián)網(wǎng)技術和數(shù)據(jù)采集、挖掘等智能化技術,實現(xiàn)了對數(shù)據(jù)資源的整合。將大數(shù)據(jù)技術應用于新聞廣播媒體行業(yè),通過對全網(wǎng)新聞、評論等實時數(shù)據(jù)的收集、處理與分析,構建熱點追蹤和輿情監(jiān)管系統(tǒng),能夠為新聞廣播的選題、內容生產(chǎn)與管理等提供新思路,滿足不同受眾群體需求。