常衛(wèi)東+劉完芳
摘 要:網(wǎng)絡(luò)輿情是指在網(wǎng)絡(luò)空間中對網(wǎng)民和生活中的社會事件尤其是一些突發(fā)事件的看法和態(tài)度。網(wǎng)絡(luò)輿情通常涉及社會的熱點事件,因而經(jīng)常在網(wǎng)絡(luò)中快速傳播,成為人們談?wù)摰慕裹c。因而,對網(wǎng)絡(luò)輿情進行分析和正確的引導(dǎo)顯得尤為重要。文章采用大數(shù)據(jù)分析方法分析網(wǎng)絡(luò)數(shù)據(jù),通過聚類的方法發(fā)掘網(wǎng)絡(luò)輿情中的熱點問題。實驗證明該分析方法具有較高的熱點挖掘能力和及時的能力。
關(guān)鍵詞:網(wǎng)絡(luò)輿情;大數(shù)據(jù)分析;統(tǒng)計方法
一、輿情信息的獲取
輿情分析的第一步是要對網(wǎng)頁中的信息進行抓取,第二步是對抓取的網(wǎng)頁的信息進行預(yù)處理。
對網(wǎng)頁信息抓取主要采用網(wǎng)絡(luò)爬蟲,爬蟲的主要作用是將互聯(lián)網(wǎng)上的網(wǎng)頁下載到本地形成一個互聯(lián)網(wǎng)內(nèi)容的鏡像備份。它既可以爬取網(wǎng)頁鏈接,又可以爬取網(wǎng)頁的文本信息和圖像信息。它通過關(guān)鍵字的搜索將對應(yīng)的統(tǒng)一資源定位為相關(guān)的網(wǎng)頁頁面進行抓取,通過對其進行文本和圖像的解析,提取對應(yīng)網(wǎng)頁的文本和圖像信息并進行保存。 本文中主要提取的是網(wǎng)頁的文本信息。
而中文分詞是把中文中的漢字系列分割為一個個獨立的中文詞匯。由于中文詞匯與詞匯之間的界限遠不如英文單詞那樣清晰,因此,中文分詞也是一個技術(shù)難點。當前中文分詞主要是從主要包括字符串匹配分詞方法和機器學(xué)習(xí)的統(tǒng)計分詞方法。字符串匹配分詞方法是事先通過一定的方法建立一個龐大的數(shù)據(jù)庫字典,按照一定的方法把待分詞的詞匯與數(shù)據(jù)庫字典中的詞進行匹配從而實現(xiàn)分詞的方法。機器學(xué)習(xí)的統(tǒng)計分詞方法是通過詞匯出現(xiàn)的頻率和在文中的含義等信息對漢字的這些特征進行訓(xùn)練,從而實現(xiàn)分詞。字符串匹配分詞方法比較準確,但缺乏靈活性,機器學(xué)習(xí)的統(tǒng)計分詞方法能對詞的語意進行識別,但由于算法的不完善,準確率不高,因此,在實際中通常是將這兩種結(jié)合來實現(xiàn)分詞。
中文分詞的詞性主要包括名詞、動詞、形容詞和副詞等,形容詞和副詞常表示事物的狀態(tài)和特征,因而經(jīng)常能表明作者對事件的喜怒哀樂之情;動詞一般就是用來表示動作或狀態(tài),它是對事物采取的動作的直接體現(xiàn)。這些詞在輿情分析中就顯得尤為重要。
二、文檔特征的提取
一個網(wǎng)頁的文本通過分詞后會有成百上千個中文詞匯,如果直接對其分類會影響分類的效率和準確性。因此,在分類前要去除一些無關(guān)的詞語,留下最能代表文檔特征的一些分詞作為文檔的特征。文檔特征提取最主要的方法是把文檔的內(nèi)容和詞頻進行結(jié)合。
文檔特征提取的是在不損傷文本核心信息的情況下盡量減少要處理的單詞數(shù),從而降低向量空間維數(shù)。其中最重要的方法是分析詞頻。其基本原理是一個詞在一個文本中出現(xiàn)的次數(shù)越多,通常它在文本中就越重要。因此,可以計算詞在文檔中出現(xiàn)的概率即詞頻,來對文檔的特征進行提取。另外,如果一個詞在很多的文檔中出現(xiàn),表明它在該文檔中的重要性越低,這個詞就不能代表該文檔的特征,文檔的貢獻度應(yīng)該就越小,也就是通過這個詞來區(qū)分文檔的區(qū)分度越小,可以用逆文檔頻率(idf)來度量詞在該文檔中的重要性。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對數(shù)得到。
設(shè)文檔d中詞w出現(xiàn)次數(shù)為count(w, d),文檔d中總詞數(shù)為size(d),則詞w在文檔d中的詞頻tf由下式計算。
即tf(w,d) = count(w, d) / size(d)。
詞w在整個文檔中的逆向詞頻idf為文檔總數(shù)n與詞w所出現(xiàn)文檔數(shù)docs(w,d)比值的對數(shù)。
即idf = log(n / docs(w,d))。
如果要對逆向詞頻歸一化可以采用如下的公式:
idf = log((n+0.5) / docs(w,d))/log(n+1)
tf-idf模型根據(jù)tf和idf為每一個文檔d和由關(guān)鍵詞w[1]...w[k]組成的查詢串q計算一個權(quán)值,用于表示查詢串q與文檔d的匹配度
tf-idf(q, d)
= sum { i = 1...k | tf-idf(w[i],d) }
= sum { i = 1...k | tf(w[i],d) * idf(w[i])}
三、文檔特征的分類
文本特征的分類是在事先確定的分類標準下,根據(jù)文本的內(nèi)容確定待分類的文本已知文本之間的類型關(guān)聯(lián)。它和普通的數(shù)據(jù)分類方法是一致的,原則上現(xiàn)有的數(shù)據(jù)分類方法都可以實現(xiàn)這一功能。這一具體過程主要包括輸入訓(xùn)練和分類兩個步驟,對應(yīng)的數(shù)據(jù)庫包括訓(xùn)練數(shù)據(jù)庫和檢測數(shù)據(jù)庫。訓(xùn)練數(shù)據(jù)庫為帶有分類標記的n個特征的若干個向量X組成的集合, x=(w1,... wi ...,wn,y),其中 wi 是文檔向量的一個特征,y為該文檔的分類標記。檢測數(shù)據(jù)庫同樣是帶有n個特征的若干個向量X組成的集合只是缺少分類標記。輸出數(shù)據(jù)為標記號的集合即檢測數(shù)據(jù)的分類標記。本文采用SVM分類方法對文本分類,對于一組訓(xùn)練數(shù)據(jù) x=(w1,... wi ...,wn,y),在線性可分的情況下會有一個超平面,將這兩類樣本完全分開,并且離超平面最近的向量與超平面之間的距離最大。
四、實驗與分析
本實驗數(shù)據(jù)來源于天涯社區(qū),它主要通過論壇、博客、微博為基礎(chǔ)提供一系列網(wǎng)友和網(wǎng)站之間,網(wǎng)友和網(wǎng)友之間互動的虛擬綜合平臺。網(wǎng)友通過在其中發(fā)各種帖子能發(fā)表對各種事件的看法。實驗中數(shù)據(jù)是從中獲取的1500個帖子,其中1200個帖子作為訓(xùn)練數(shù)據(jù),另外300個帖子作為測試數(shù)據(jù)。這1500個帖子包含六個話題,即經(jīng)濟、房產(chǎn)、體育、軍事、時尚和汽車,每個帖子均帶有話題類型的標記以方便訓(xùn)練和測試。實驗中采用SVM分類方法對文本進行分類。
在信息檢索中通常采用召回率和精度衡量分類系統(tǒng)對數(shù)據(jù)分類的能力。召回率是檢索出的某一類型的文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率,它表明該文檔類型的查全率。精度即正確率是在所有相關(guān)話題文檔中,檢索到的正確分類文檔所占的比例,它表示分類的準確程度。上述六類文檔分類的召回率和精度如下表所示。
五、結(jié)束語
綜上所述,網(wǎng)絡(luò)輿情的分析在維護互聯(lián)網(wǎng)安全方面起到了重要的作用,通過網(wǎng)絡(luò)輿情分析挖掘網(wǎng)民所關(guān)心的熱點問題,發(fā)現(xiàn)其中的意見領(lǐng)袖,對網(wǎng)絡(luò)輿情進行正確的引導(dǎo)是工作的重點。同時要根據(jù)這些數(shù)據(jù)的實際情況,采用高效的算法保證輿情分析具有較快的響應(yīng)速度和較低的誤報率。
參考文獻:
[1]夏火松,甄化春.大數(shù)據(jù)環(huán)境下輿情分析與決策支持研究文獻綜述[J].情報雜志,2015,34(2):1-5.
[2]江華麗.中文分詞算法研究與分析 [J]. 物聯(lián)網(wǎng)技術(shù),2016(1):87-89.
[3]張鵬高,畢 曦.基于大數(shù)據(jù)的教育網(wǎng)絡(luò)輿情監(jiān)控與分析[J].中國教育信息化,2015(15):7-9.