向小東,黃 飄
(福州大學(xué) 經(jīng)濟(jì)與管理學(xué)院,福建 福州 350116)
在互聯(lián)網(wǎng)飛速發(fā)展的環(huán)境下,突發(fā)傳染病事件極易引起網(wǎng)民的高度關(guān)注,從2003年的SARS到2013年的H7N9,這些突發(fā)傳染病事件直接威脅到我國(guó)人民的生命和財(cái)產(chǎn)安全。公眾對(duì)突發(fā)傳染病的病源、病理突變、治療問題等相關(guān)信息給予了高度關(guān)注,突發(fā)傳染病網(wǎng)絡(luò)輿情熱度在短時(shí)間內(nèi)達(dá)到最高點(diǎn),從而造成整個(gè)網(wǎng)絡(luò)環(huán)境的動(dòng)蕩。對(duì)突發(fā)傳染病網(wǎng)絡(luò)輿情事件進(jìn)行管理已經(jīng)成為突發(fā)事件應(yīng)急管理的重要內(nèi)容之一,準(zhǔn)確預(yù)測(cè)突發(fā)傳染病輿情事件的熱度,把握輿情的長(zhǎng)期發(fā)展趨勢(shì),對(duì)于輿情管理有著積極的意義。
在網(wǎng)絡(luò)輿情熱度預(yù)測(cè)領(lǐng)域,部分學(xué)者采用神經(jīng)網(wǎng)絡(luò)方法進(jìn)行研究。如陳福集等[1]基于改進(jìn)的ABC-BP模型對(duì)網(wǎng)絡(luò)輿情熱度走勢(shì)進(jìn)行預(yù)測(cè)研究。游丹丹等[2]采用改進(jìn)的粒子群和BP神經(jīng)網(wǎng)絡(luò)對(duì)輿情熱度進(jìn)行預(yù)測(cè)。DONG等[3]采用發(fā)帖數(shù)構(gòu)建時(shí)間序列,建立PSO-BPNN預(yù)測(cè)模型,并運(yùn)用該模型對(duì)輿情熱度進(jìn)行預(yù)測(cè)。曾子明等[4]采用信息熵確定輿情熱度指標(biāo)的權(quán)重,從而計(jì)算熱度值,建立BP神經(jīng)網(wǎng)絡(luò)模型并對(duì)突發(fā)傳染病輿情熱度進(jìn)行預(yù)測(cè)。
另外,一些學(xué)者采用非神經(jīng)網(wǎng)絡(luò)方法進(jìn)行網(wǎng)絡(luò)輿情熱度預(yù)測(cè)研究。如徐旖旎等[5-7]利用馬爾可夫鏈的輿情熱度趨勢(shì)分析模型預(yù)測(cè)熱度的變化區(qū)間。蘭月新等[8]基于灰色關(guān)聯(lián)度方法、多維度Logistic模型對(duì)每個(gè)平臺(tái)輿情信息進(jìn)行預(yù)測(cè)。王衛(wèi)姣等[9]基于LDA和KNN的組合模型預(yù)測(cè)帖子的熱度趨勢(shì)。張茂元等[10]使用EEMD-based KSC組合算法對(duì)網(wǎng)絡(luò)輿情事件進(jìn)行聚類,在此基礎(chǔ)上構(gòu)建類模型庫(kù),采用最小二乘法選取模型庫(kù)中均方差和最小的模型,并用該模型對(duì)熱點(diǎn)輿情事件進(jìn)行預(yù)測(cè)分析。CHEN等[11]采用粗糙集理論篩選輿情指標(biāo)體系,引入模糊綜合評(píng)價(jià)法預(yù)測(cè)和評(píng)估輿情發(fā)展趨勢(shì)。安璐等[12]構(gòu)建決策樹模型并對(duì)突發(fā)傳染病的微博影響力進(jìn)行預(yù)測(cè)。
綜上可知,學(xué)者們?cè)诰W(wǎng)絡(luò)輿情熱度預(yù)測(cè)領(lǐng)域開展了較多的研究工作,并且取得了一定進(jìn)展,這為網(wǎng)絡(luò)輿情管理提供了一些有價(jià)值的信息。但是鮮有學(xué)者運(yùn)用組合模型進(jìn)行突發(fā)傳染病輿情熱度預(yù)測(cè)研究,且現(xiàn)有突發(fā)傳染病輿情預(yù)測(cè)的精度并不理想,預(yù)測(cè)準(zhǔn)確度有待改善。因此,筆者在已有研究基礎(chǔ)上構(gòu)建EEMD-NAR神經(jīng)網(wǎng)絡(luò)組合預(yù)測(cè)模型,定義百度指數(shù)為輿情熱度值,以期提高NAR神經(jīng)網(wǎng)絡(luò)模型對(duì)突發(fā)傳染病輿情熱度的預(yù)測(cè)精度,為政府部門開展輿情管理工作提供決策依據(jù)。
網(wǎng)絡(luò)輿情熱度預(yù)測(cè)的準(zhǔn)確性依賴于對(duì)歷史數(shù)據(jù)變化特征的正確把握,原始的時(shí)間序列因其影響因素較多,呈現(xiàn)出不平穩(wěn)、非線性的狀態(tài),而神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型對(duì)非線性、不平穩(wěn)序列的擬合度有限,因此已有研究采用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)突發(fā)傳染病輿情的精度并不理想。為了提升神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)精度,筆者引入EEMD-NAR神經(jīng)網(wǎng)絡(luò)組合模型開展突發(fā)傳染病網(wǎng)絡(luò)輿情熱度預(yù)測(cè)研究。
HUANG等[13]為了分析非線性、非平穩(wěn)序列提出了EMD方法,該方法將原始時(shí)間序列分解成一組簡(jiǎn)單信號(hào),包含了原始信號(hào)不同時(shí)間的局部特征信息。但EMD常常會(huì)出現(xiàn)不同模態(tài)的混淆,即模式混疊,因此WU等[14]在EMD基礎(chǔ)上加入白噪聲,從而得到了集成經(jīng)驗(yàn)?zāi)B(tài)分解方法(ensemble empirical mode decomposition,EEMD)。可見,EEMD是在EMD的基礎(chǔ)上提出的一種噪聲輔助數(shù)據(jù)分析方法,EEMD的重點(diǎn)工作是將白噪聲加入信號(hào)中進(jìn)行多次 EMD分解,將分解多次的IMF取均值并將其定義為最終的IMF分量,IMF分量是對(duì)原始序列進(jìn)行分解之后的不同頻率的時(shí)間序列分量。EEMD的分解過程如下:
(1)設(shè)定加入高斯白噪聲的次數(shù)為N,將第i次加入噪聲后的序列記為Yi(t)。
(2)識(shí)別要分解序列Yi(t)的最大值和最小值,分別采用三次樣條插值擬合Yi(t)的上包絡(luò)線e(t)max和下包絡(luò)線e(t)min。
(3)計(jì)算上包絡(luò)線和下包絡(luò)線的平均值:
m(t)=(e(t)max+e(t)min)/2
(1)
(4)提取出平均值m(t),得到新序列d(t):
d(t)=Yi(t)-m(t)
(2)
(5)判斷d(t)是否滿足IMF分量的條件,若滿足,則ci=d(t);若不滿足,則令d(t)作為原始序列,重新回到步驟(2)繼續(xù)進(jìn)行k次篩選,直到第k個(gè)新序列dk(t)滿足IMF分量的條件。
(6)第一個(gè)篩選出來的IMF分量為c1,并通過式(3)將c1從序列中分離出來,然后將r1作為要分解的數(shù)據(jù),重復(fù)步驟(2)~步驟(5),即可得到c2,c3,…,cn,由式(4)即可得到r2,r3,…,rn。直到滿足以下條件之一,則結(jié)束分解過程:①rn或者cn小于給定的數(shù)值;②rn為單調(diào)函數(shù),無法繼續(xù)分解出更多的分量。
r1=Yi(t)-c1
(3)
r2=r1-c2,r3=r2-c3,…,rn=rn-1-cn
(4)
(7)用限值標(biāo)準(zhǔn)差SD來判別第k次篩選出來的序列dk(t)是否為IMF分量,SD的定義式如式(5)所示。當(dāng)SD小于閾值α?xí)r,說明當(dāng)前篩選序列為IMF分量,α取值一般為0.2~0.3。將所有加入噪聲的Yi(t)序列按照步驟(2)~步驟(7)進(jìn)行處理后,可得到不同尺度的本征模函數(shù)和趨勢(shì)項(xiàng)。
(5)
(8)將N次分解的結(jié)果進(jìn)行均值處理,得到EEMD分解后最終的IMF,即:
(6)
其中,IMFij表示序列第i次加入噪聲后分解得到的第j個(gè)IMF。
最終的結(jié)果可以表示為:
(7)
其中,RES為將原始序列分解后的殘差序列。
NAR(nonlinear auto regressive)神經(jīng)網(wǎng)絡(luò)是非線性自回歸模型,是一種基于動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)的時(shí)間序列預(yù)測(cè)模型,由輸入層、輸出層和隱含層構(gòu)成,將歷史數(shù)據(jù)在輸入層輸入,經(jīng)隱含層神經(jīng)元加權(quán)之后形成輸出層的輸入,輸出層輸出未來數(shù)據(jù)的預(yù)測(cè)值。模型中的每一個(gè)輸出全部指向神經(jīng)網(wǎng)絡(luò)層的輸入中,將擬合值與實(shí)際值之間的誤差反饋到神經(jīng)網(wǎng)絡(luò)中,作為下一次輸出的調(diào)整參數(shù)依據(jù),從而完成對(duì)神經(jīng)網(wǎng)絡(luò)的調(diào)整。NAR神經(jīng)網(wǎng)絡(luò)模型可以表示為:
y(t)=f(y(t-1),y(t-2),…,y(t-m))
(8)
其中,m為延時(shí)層階數(shù)。
NAR神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示,左邊的y(t)表示輸入,右邊的y(t)表示輸出數(shù)據(jù);1∶3表示輸入與輸出的延時(shí)層階數(shù)m;w表示連接權(quán);b表示閾值。
NAR神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練步驟為:①將樣本數(shù)據(jù)進(jìn)行劃分,設(shè)置訓(xùn)練集、驗(yàn)證集和測(cè)試集的比例;②設(shè)置延時(shí)層階數(shù);③設(shè)置隱含層節(jié)點(diǎn)數(shù);④采用NAR神經(jīng)網(wǎng)絡(luò)模型對(duì)樣本數(shù)據(jù)進(jìn)行訓(xùn)練,通過誤差自相關(guān)圖以及目標(biāo)值與輸出值誤差圖來判斷擬合效果,若不符合要求,則重復(fù)步驟③;⑤保存訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)各項(xiàng)參數(shù),預(yù)測(cè)數(shù)據(jù),觀測(cè)并記錄誤差值。
圖1 NAR神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
EEMD-NAR神經(jīng)網(wǎng)絡(luò)組合模型預(yù)測(cè)流程如圖2所示,EEMD具有對(duì)復(fù)雜序列進(jìn)行預(yù)處理的優(yōu)勢(shì),將輿情事件熱度指標(biāo)構(gòu)成的不平穩(wěn)、非線性原始時(shí)間序列進(jìn)行離散分解,分解成一組較為平穩(wěn)的序列,然后采用NAR神經(jīng)網(wǎng)絡(luò)分別對(duì)各部分進(jìn)行預(yù)測(cè)建模,最后將各部分預(yù)測(cè)結(jié)果相加就得到網(wǎng)絡(luò)輿情熱度預(yù)測(cè)值。
圖2 突發(fā)傳染病網(wǎng)絡(luò)輿情熱度預(yù)測(cè)流程圖
在預(yù)測(cè)過程中,為了評(píng)價(jià)預(yù)測(cè)模型的性能,筆者采用相對(duì)誤差RE和平均相對(duì)誤差MRE作為衡量模型預(yù)測(cè)精度的指標(biāo)。RE、MRE值越小,表明模型預(yù)測(cè)精度越高。其中,相對(duì)誤差和平均相對(duì)誤差的定義分別為:
(9)
(10)
百度指數(shù)是統(tǒng)計(jì)網(wǎng)民在百度上針對(duì)關(guān)鍵詞的搜索量,通過科學(xué)分析并計(jì)算關(guān)鍵詞在百度上搜索量的加權(quán)和獲得,反映網(wǎng)民的主動(dòng)搜索量和某一類事件受網(wǎng)民的關(guān)注程度,由于其在搜索引擎產(chǎn)品中極高的市場(chǎng)占有率及數(shù)據(jù)的可獲得性,受到學(xué)者們的廣泛關(guān)注。考慮以上因素,筆者采用百度指數(shù)作為輿情事件熱度值,研究對(duì)象為2015年上半年人民網(wǎng)輿情監(jiān)測(cè)室廣受關(guān)注的“MERS (中東呼吸綜合征) 病毒衛(wèi)生突發(fā)事件”,通過百度指數(shù)搜索關(guān)鍵字“MERS”得到事件爆發(fā)后的數(shù)據(jù),選取5月28日—8月7日作為研究時(shí)間段,共得到72個(gè)數(shù)據(jù)。
采用Matlab2017b作為模型構(gòu)建及仿真繪圖的工具,試驗(yàn)環(huán)境是samsung電腦,將72個(gè)數(shù)據(jù)作為原始序列進(jìn)行EEMD后,分解成5個(gè)IMF分量和1個(gè)殘差序列,具體結(jié)果如圖3所示。由圖3可知,IMF分量圍繞零均線上下波動(dòng),且隨著分量值的增大,其頻率逐次降低,表示不同因素影響下的輿情熱度值波動(dòng)特征;殘差序列是長(zhǎng)期趨勢(shì)項(xiàng),代表輿情熱度值隨時(shí)間變化的趨勢(shì),該時(shí)間序列是先上升而后下降。IMF1~I(xiàn)MF5的數(shù)據(jù)波動(dòng)比較明顯,具有非均勻變化的特點(diǎn),且各分量變化曲線比原輿情熱度值時(shí)間序列曲線更光滑、平穩(wěn)。
圖3 2015年5月27日—8月7日百度指數(shù)時(shí)間序列EEMD分解圖
在EEMD對(duì)原始序列進(jìn)行分解的基礎(chǔ)上,采用NAR神經(jīng)網(wǎng)絡(luò)分別對(duì)各分量及殘差序列構(gòu)建預(yù)測(cè)模型。在預(yù)測(cè)過程中,先將待預(yù)測(cè)分量或殘差序列進(jìn)行歸一化,并取前65個(gè)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),后7個(gè)數(shù)據(jù)作為測(cè)試數(shù)據(jù)。為了避免模型過度擬合,將65個(gè)訓(xùn)練數(shù)據(jù)分成3組:訓(xùn)練集70%、驗(yàn)證集15%、測(cè)試集15%。將NAR神經(jīng)網(wǎng)絡(luò)延時(shí)層數(shù)設(shè)置為3,由于當(dāng)前選取隱含層節(jié)點(diǎn)數(shù)的方法并沒有成熟的理論依據(jù),故只能依靠仿真過程中不斷訓(xùn)練,根據(jù)最小誤差來選取隱含層節(jié)點(diǎn)數(shù)。經(jīng)重復(fù)試驗(yàn),筆者將神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型隱含層節(jié)點(diǎn)數(shù)取為10。訓(xùn)練過程中,若試驗(yàn)結(jié)果的訓(xùn)練數(shù)據(jù)自相關(guān)誤差在上下置信區(qū)間內(nèi),且擬合誤差在目標(biāo)誤差0.005以下,則說明訓(xùn)練結(jié)果較好,可以開始對(duì)后面的數(shù)據(jù)進(jìn)行預(yù)測(cè)。EEMD-NAR神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的具體參數(shù)設(shè)置如表1所示。
表1 EEMD-NAR神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型訓(xùn)練參數(shù)
NAR神經(jīng)網(wǎng)絡(luò)首先對(duì)IMF1構(gòu)建預(yù)測(cè)模型,模型訓(xùn)練結(jié)果分別如圖4和圖5所示,除了lag=0(0階自相關(guān))時(shí),其他的自相關(guān)系數(shù)都不超過上下置信區(qū)間,誤差也都在限定范圍內(nèi),足以證明NAR神經(jīng)網(wǎng)絡(luò)對(duì)IMF1的訓(xùn)練結(jié)果可信,且目標(biāo)值與輸出值誤差圖中誤差線也較少,表明訓(xùn)練誤差較小,訓(xùn)練結(jié)果較為理想。同理,在IMF2~I(xiàn)MF5及殘差序列訓(xùn)練過程中,選取同樣的參數(shù)設(shè)置,結(jié)果顯示IMF2~I(xiàn)MF5及殘差序列的訓(xùn)練誤差也控制在限定范圍內(nèi),訓(xùn)練結(jié)果可信。
圖4 IMF1自相關(guān)誤差圖
圖5 IMF1目標(biāo)值與輸出值誤差圖
圖6 基于EEMD-NAR的各分量及殘差序列預(yù)測(cè)結(jié)果圖
NAR神經(jīng)網(wǎng)絡(luò)對(duì)各分量及殘差序列構(gòu)建的模型訓(xùn)練完成后,隨即對(duì)后7個(gè)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)。預(yù)測(cè)結(jié)果如圖6所示,可知其預(yù)測(cè)準(zhǔn)確度隨著分量逐漸趨于平穩(wěn)而提高,表明NAR神經(jīng)網(wǎng)絡(luò)對(duì)非線性序列的擬合度有限,NAR神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)平穩(wěn)序列的準(zhǔn)確度會(huì)高于非平穩(wěn)序列。
在NAR神經(jīng)網(wǎng)絡(luò)對(duì)各部分進(jìn)行預(yù)測(cè)分析之后,將模型輸出值進(jìn)行反歸一化處理可得到各分量及殘差序列的預(yù)測(cè)值,在此基礎(chǔ)上將其相加即可獲得原始數(shù)據(jù)的預(yù)測(cè)結(jié)果。
為了驗(yàn)證此組合模型預(yù)測(cè)的有效性,筆者建立單一NAR、BP神經(jīng)網(wǎng)絡(luò)模型直接對(duì)原始時(shí)間序列進(jìn)行預(yù)測(cè),通過比較單一模型與組合模型的預(yù)測(cè)結(jié)果來說明組合模型的優(yōu)越性。在單一神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)過程中,將前65個(gè)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),后7個(gè)數(shù)據(jù)作為測(cè)試數(shù)據(jù)。NAR神經(jīng)網(wǎng)絡(luò)模型延時(shí)層數(shù)、隱含層數(shù)分別為3、10,將65個(gè)訓(xùn)練數(shù)據(jù)分成70%訓(xùn)練集、15%驗(yàn)證集、15%測(cè)試集,模型其他參數(shù)設(shè)置見表1。在BP神經(jīng)網(wǎng)絡(luò)對(duì)原始序列的預(yù)測(cè)過程中,采用 Matlab 中的神經(jīng)網(wǎng)絡(luò)工具箱,經(jīng)過反復(fù)試驗(yàn),發(fā)現(xiàn)當(dāng)輸入層、隱含層、輸出層節(jié)點(diǎn)數(shù)分別為3、10、1時(shí),其擬合效果最好,因而將BP神經(jīng)網(wǎng)絡(luò)模型的輸入層、隱含層、輸出層節(jié)點(diǎn)數(shù)設(shè)置為3、10、1,訓(xùn)練函數(shù)采用 Trainglm,傳遞函數(shù)為Tansig。
組合模型和單一NAR、BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)結(jié)果對(duì)比圖如圖7所示,可以看出EEMD-NAR神經(jīng)網(wǎng)絡(luò)組合模型較單一神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)精度有顯著提升,組合模型的預(yù)測(cè)值更接近真實(shí)值。
為了進(jìn)一步衡量預(yù)測(cè)模型的準(zhǔn)確性,通過式(9)和式(10)計(jì)算相對(duì)誤差及平均相對(duì)誤差,預(yù)測(cè)誤差如表2所示。由表2可以看出,BP、NAR、EEMD-NAR模型的平均相對(duì)誤差分別為0.091 2、0.234 8、0.067 5,EEMD-NAR神經(jīng)網(wǎng)絡(luò)組合模型的平均相對(duì)誤差小于單一神經(jīng)網(wǎng)絡(luò)模型,而且該模型的預(yù)測(cè)精度在NAR神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上顯著提高。EEMD-NAR神經(jīng)網(wǎng)絡(luò)組合模型的相對(duì)誤差大部分都在7%以下,相對(duì)誤差較單一NAR神經(jīng)網(wǎng)絡(luò)模型大幅度減小,在BP神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ)上也有所降低,而且組合模型的最大相對(duì)誤差為0.164 4,遠(yuǎn)小于單一BP、NAR神經(jīng)網(wǎng)絡(luò)模型的最大相對(duì)誤差0.234 1和0.472 4。
圖7 預(yù)測(cè)結(jié)果對(duì)比圖
綜上,筆者采用EEMD-NAR神經(jīng)網(wǎng)絡(luò)組合模型對(duì)突發(fā)傳染病輿情熱度進(jìn)行預(yù)測(cè),其預(yù)測(cè)精度達(dá)到了93.25%,說明了EEMD-NAR神經(jīng)網(wǎng)絡(luò)組合模型在突發(fā)傳染病輿情熱度預(yù)測(cè)方面的有效性,同時(shí)該組合模型還在一定程度上提高了NAR神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的精度。
表2 試驗(yàn)結(jié)果對(duì)比
突發(fā)傳染病發(fā)生后,由于嚴(yán)重危及到社會(huì)公眾的生命安全,事件相關(guān)信息往往迅速在網(wǎng)絡(luò)上傳播交流,從而形成網(wǎng)絡(luò)輿情,準(zhǔn)確掌握網(wǎng)絡(luò)輿情發(fā)展的變化趨勢(shì)對(duì)于輿情管理有積極的影響。筆者采用EEMD-NAR神經(jīng)網(wǎng)絡(luò)組合模型對(duì)突發(fā)傳染病輿情熱度進(jìn)行預(yù)測(cè),定義百度指數(shù)作為輿情熱度指標(biāo)構(gòu)成原始時(shí)間序列,進(jìn)而分析突發(fā)傳染病輿情事件的發(fā)展趨勢(shì)。選取2015年“MERS”案例事件進(jìn)行仿真試驗(yàn),試驗(yàn)結(jié)果證明EEMD-NAR神經(jīng)網(wǎng)絡(luò)組合模型較單一模型相對(duì)誤差、平均相對(duì)誤差均有所降低,預(yù)測(cè)結(jié)果準(zhǔn)確度更高。該組合模型充分利用EEMD、NAR兩者的優(yōu)勢(shì),提高了單一模型預(yù)測(cè)的準(zhǔn)確度,同時(shí)也是對(duì)突發(fā)傳染病輿情領(lǐng)域預(yù)測(cè)方法的有益補(bǔ)充,可幫助政府部門快速、準(zhǔn)確地把握突發(fā)傳染病輿情的發(fā)展趨勢(shì),為突發(fā)傳染病輿情管理提供決策支持。