王茜儀,杜明坤,張 山
(江蘇警官學(xué)院,江蘇 南京 210031)
網(wǎng)絡(luò)輿情已成為熱門詞匯,現(xiàn)在的輿情傳播媒介層出不窮,網(wǎng)民隨時(shí)隨地都能在互聯(lián)網(wǎng)上發(fā)表自己的言論、觀點(diǎn),分享自己的生活。有些能夠快速地引起群眾的強(qiáng)烈共鳴。還有一些通過刪減、惡意剪輯造成大眾誤解,歪曲事實(shí)博取眼球的做法,也極易引起輿情事件。因此對(duì)網(wǎng)絡(luò)輿情進(jìn)行監(jiān)控和預(yù)警就顯得尤其重要。[1]
自動(dòng)駕駛汽車(AV)、智能機(jī)器人、圖像和語(yǔ)音識(shí)別、自動(dòng)翻譯、醫(yī)療和法律應(yīng)用等的快速發(fā)展使得機(jī)器學(xué)習(xí)在過去十年中獲得了相當(dāng)大的成就。深度學(xué)習(xí)基于機(jī)器學(xué)習(xí)算法,能夠通過反復(fù)的分析、訓(xùn)練來(lái)學(xué)習(xí),并隨著時(shí)間的推移不斷提高其性能。
深度學(xué)習(xí)中的LSTMs在時(shí)間序列數(shù)據(jù)處理方面有很大優(yōu)勢(shì),然而自然語(yǔ)言正好是一種時(shí)間序列,前后有邏輯關(guān)系[2],所以本文基于LSTMs對(duì)輿情數(shù)據(jù)進(jìn)行分析并預(yù)警。原始RNN對(duì)短時(shí)間的輸入有著有效的預(yù)測(cè),但對(duì)于長(zhǎng)時(shí)間的樣本數(shù)據(jù)處理準(zhǔn)確率很低。LSTMs通過添加一個(gè)可以選擇留下或者遺忘某些狀態(tài)的長(zhǎng)時(shí)間序列的細(xì)胞狀態(tài),來(lái)處理長(zhǎng)時(shí)間的樣本序列。
本文用網(wǎng)絡(luò)爬蟲抓取美XXXX時(shí)間相關(guān)輿情數(shù)據(jù),共抓取從2020年5月28日至2020年7月3日共37天的文本數(shù)據(jù),通過篩選和過濾噪聲操作,將得到的數(shù)據(jù)進(jìn)行預(yù)處理,輸入LSTMs模型中進(jìn)行模型分類訓(xùn)練,利用訓(xùn)練好的模型對(duì)接下來(lái)的輿情數(shù)據(jù)進(jìn)行分類分析預(yù)警。
首先選取這些結(jié)果中的一部分LSTMs預(yù)測(cè)模型進(jìn)行訓(xùn)練。訓(xùn)練完成之后,再對(duì)剩下的數(shù)據(jù)進(jìn)行輿情趨勢(shì)預(yù)測(cè),若輸出的值超過設(shè)定的閾值,系統(tǒng)將進(jìn)行警報(bào),若不超過閾值則不進(jìn)行警報(bào)(見表1)。
表1 部分?jǐn)?shù)據(jù)
運(yùn)行測(cè)試數(shù)據(jù)共37天不同內(nèi)容的文本數(shù)據(jù),并做標(biāo)準(zhǔn)化處理,得到的數(shù)據(jù)越大,說(shuō)明網(wǎng)民關(guān)注度越高,故輿情熱度越高。
從圖1中可以看出,從5月28日開始有關(guān)美XXXX的輿情出現(xiàn),也就是輿情的第一天,熱度直線上升,一直到第三天,輿情呈現(xiàn)最熱態(tài)勢(shì),然后開始呈下降趨勢(shì),第六天出現(xiàn)一個(gè)谷值。下降到第六天之后出現(xiàn)一個(gè)波動(dòng)開始上升,升至第八天出現(xiàn)拐點(diǎn)又開始下降,第八天的輿情熱度并沒有超過第三天最熱情況,且第八天后面呈逐漸下降趨勢(shì)。預(yù)測(cè)值和實(shí)際值的峰值和谷值、拐點(diǎn)一致,由此可見LSTMs模型預(yù)測(cè)結(jié)果和真實(shí)輿情的發(fā)展趨勢(shì)基本一致。
圖1 輿情事件實(shí)際情況與預(yù)測(cè)情況對(duì)比
本文主要介紹了LSTMs網(wǎng)絡(luò),對(duì)于數(shù)據(jù)處理與預(yù)測(cè)結(jié)果進(jìn)行一定分析,值得關(guān)注的問題是輿情數(shù)據(jù)序列的隨機(jī)性,以及預(yù)測(cè)模型從數(shù)據(jù)噪聲中區(qū)分模式的能力,從而避免過擬合,最后一個(gè)問題可能是需要進(jìn)行預(yù)處理,這需要每個(gè)人注意選擇最合適的轉(zhuǎn)換,消除一些無(wú)關(guān)因素以及趨勢(shì)。在預(yù)測(cè)應(yīng)用中,規(guī)則未知,而且還可能發(fā)生變化,數(shù)據(jù)中存在結(jié)構(gòu)不穩(wěn)定性,同時(shí)存在大量的不確定性和噪聲,這可能會(huì)使尋找最優(yōu)權(quán)重的過程變得混亂。此外,在某些應(yīng)用中,預(yù)測(cè)本身可以影響甚至改變未來(lái),擴(kuò)大數(shù)據(jù)噪音水平和增加不確定性水平。因此,應(yīng)該使算法適應(yīng)這些條件,并確保不存在過擬合。從本文的結(jié)果來(lái)看,深度學(xué)習(xí)算法應(yīng)用于預(yù)測(cè)可能需要更多的研究來(lái)進(jìn)行創(chuàng)新思想的實(shí)驗(yàn)和調(diào)整,以實(shí)現(xiàn)更準(zhǔn)確的預(yù)測(cè)。