• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于KPCA粒子群隨機森林算法的輿情趨勢預測研究

      2019-08-12 06:15:44聶黎生
      現代電子技術 2019年15期
      關鍵詞:BP神經網絡輿情

      聶黎生

      摘 ?要: 隨著互聯(lián)網時代社交媒體的飛速發(fā)展,熱點事件不斷進入公眾視野,輿情分析成為公共管理部門面臨的新挑戰(zhàn)。針對該問題提出基于KPCA?粒子群隨機森林算法用于輿情趨勢預測研究。實驗結果表明,該算法在預測精度上較BP神經網絡算法有顯著提高,可以為政府部門及時掌握、引導和控制網絡輿情提供決策支持。

      關鍵詞: KPCA; 輿情; 趨勢預測; 粒子群隨機森林; 預測精度; BP神經網絡

      中圖分類號: TN911.1?34; TP391 ? ? ? ? ? ? ? ? ?文獻標識碼: A ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2019)15?0079?04

      Research on trend prediction of public opinion based on KPCA

      and particle swarm random forest algorithm

      NIE Lisheng

      (College of Computer Science and Technology, Jiangsu Normal University, Xuzhou 221116, China)

      Abstract: With the rapid development of social media in the Internet era, the hot issues come into the public view constantly, and the public opinion analysis becomes a new challenge to public administration departments. In order to solve this problem, the trend prediction study on public opinion is proposed on the basis of KPCA and particle swarm random forest algorithm. The experimental results show that the prediction accuracy of this algorithm is significantly higher than that of BP neural network algorithm, and it can provide the decision support for government departments to master, guide and control the network public opinion in time.

      Keywords: KPCA; public opinion; trend prediction; particle swarm random forest; prediction accuracy; BP neural network

      0 ?引 ?言

      隨著網絡社交媒體的蓬勃發(fā)展,信息傳播的速度和廣度以指數級規(guī)模快速擴散,社會個體在進行便利信息傳播的同時也給輿情監(jiān)控和公共安全增加了復雜性[1]。及早發(fā)現社會高度關切的輿情熱點,及時為公共管理部門提供輿情后續(xù)傳播趨勢,從而使管理部門能夠準確、高效地進行危機處理,有利于社會的和諧與穩(wěn)定。

      近年來,輿情趨勢預測研究已經引起眾多學者的關注。文獻[2]探討了離散粒子群優(yōu)化算法發(fā)現微博熱點話題的應用;文獻[3?4]分別從數據挖掘和詞項角度研究了微博熱點話題預測及發(fā)現;文獻[5]基于微博事件的情感常識層面研究了公眾情感的變化趨勢;文獻[6]分析了輿情大數據背景下網民情緒變化機理及趨勢預測;文獻[7]給出了基于社交網絡的輿論傳播模型,并對輿論傳播的動力學進行了研究。

      本文運用基于核主成分分析(KPCA)與粒子群隨機森林算法對輿情趨勢進行預測。該算法首先提取原始輿情數據特征向量,通過KPCA線性降維并選取其中核主成分特征向量,輸出非線性時間序列數據;然后利用粒子群隨機森林算法輸入上述序列數據,從而實現對輿情趨勢進行預測。

      1 ?特征提取與KPCA降維處理

      在輿情趨勢預測中,原始數據混入的噪聲信號對預測結果存在冗余和不確定性,如若直接提取時間序列物理量的特征,就會導致最終的預測結果存在明顯誤差。從趨勢預測的角度看,輿情反映在時序波形中有可能并非輿情爆發(fā)的開始時間,而是具有一定的時間延遲。對獲取的輿情數據進行時域和頻域特征提取,不同特征向量對于趨勢預測的貢獻率和關聯(lián)度差異較大,最終預測結果存在誤差。所以,如果物理含義不充分,或者是不存在先驗知識時,必須完成特征向量降維這一環(huán)節(jié)[8]。

      1.1 ?核主成分分析

      模式識別中線性特征提取和數據表示通常采用主成分分析(PCA)的方式。當訓練數據集樣本數量相對較少時,很難得到精確的估計協(xié)方差矩陣,并且在非線性數據處理時往往得不到較好的期望效果。作為一種非線性特征降維算法,KPCA利用核化思想把樣本空間通過非線性的方式映射到高維特征空間[F],然后對[F]執(zhí)行PCA算法進行線性降維。KPCA在解決非線性特征提取問題上較PCA具有特征更多和質量更高的優(yōu)點,利用核函數可以有效地保留原始數據的特征,并最大限度地抽取數據中蘊含的非線性信息。KPCA具有以下特點:將原空間中數據通過引入隱性非線性映射函數映射到高維空間;該空間中的所有樣本均可線性表示空間中的任一向量。

      1.2 ?基于核函數的主成分分析的實現

      1) 構建[m×n]維數據矩陣:

      2) 選擇核函數,確定參數,通過計算得到矩陣[S]。

      3) 對核矩陣予以優(yōu)化,得到[SL]。

      4) 通過雅克比(Jacobi)迭代法進行計算以確定[SL]的特征值[λ1,λ2,…,λn],并計算其對應的特征向量[V1,V2,…,Vn]。

      5) 將特征值通過降序排列,得到[λ′1≥λ′2≥…≥λ′n],并相應地調整特征向量為[V′1,V′2,…,V′n]。

      6) 利用施密特正交化方法,對特征向量予以正交化處理,確定[α1,α2,…,αn]的值。

      7) 通過計算確定降序后特征值的累積貢獻率[β1,β2,…,βn],按照之前設定的特征提取效率[g],若有[βk≥g],通過提取得到[k]個主成分[α1,α2,…,αk]。

      8) 確定經過標準化處理的樣本數據[X]在特征向量上的投影[F=X?α],其中,[α=(α1,α2,…,αk)]。

      降維后的數據,就是數據協(xié)方差矩陣[K]個最大特征值對應的特征向量。所有包含特征向量的矩陣[F]形成一組正交基,同時在數據中保留了最佳信息。

      2 ?粒子群隨機森林算法

      2.1 ?隨機森林

      隨機森林是Leo Breiman和Adele Cutler在2001年首次提出的一種使用多棵樹來訓練和預測樣本的分類器。在此之后,Deitterich將隨機節(jié)點優(yōu)化思想嵌入到模型中進而有效地優(yōu)化隨機森林。隨機森林算法以若干CART為元分類器,基于“套袋”思想控制方差創(chuàng)建不同的決策樹集合。雖然單一決策樹不能提供很強的性能分離器,但是通過組合起來可以有效提高決策性能[9]。作為一種多功能的機器學習算法,隨機森林可以實現回歸和分類任務,亦可用于缺失值、異常值及重復值的降維處理[10]。一般而言,該方法的執(zhí)行程序為:

      1) 設定包含[K]個樣本的集合為[A],變量的數量為[J]。

      2) 每個節(jié)點通過隨機方法選擇[m(m

      3) 從[A]中以可放回采樣的方式,重復采樣[N]次,形成一組決策樹的訓練集[Z]。根據訓練集[Z]預測剩余類別,并對誤差進行分析。

      4) 隨機選取[m]個基于每一個節(jié)點上的變量,根據這[m]個變量,計算確定其最優(yōu)分裂點。

      5) 每棵決策樹在不剪枝的情況下最大限度地進行生長,并通過將所有決策樹相加預測新數據。

      2.2 ?粒子群優(yōu)化算法

      粒子群優(yōu)化算法(Particle Swarm Optimization,PSO)是基于魚群和鳥群等動物在自然界中以相互合作的方式尋找食物的行為模擬技術。該算法把粒子群當作鳥群,種群里面各個粒子代表可行域里面的可行解,通過粒子間的相互作用尋求復雜空間最優(yōu)解。在進行迭代操作時,能夠利用學習機制掌握歷史經驗,據此優(yōu)化自身速度以及位置矢量,從而實現全局尋優(yōu)的效果。

      式中:[W]為慣性權重,用于調節(jié)對空間的搜索范圍,它在種群全局搜索和局部細化能力中起著關鍵作用,通常在 0.4~1.2范圍內;[C1]和[C2]代表將每個粒子推向Pbest和Sbest位置的加速常數,用來調整最大學習步長;[rand()]為隨機函數,在[0,1)范圍內產生隨機數,從而確保搜索的隨機性。

      粒子速度更新公式由三部分構成:粒子自身運動習慣的“動量”部分,表示粒子保持之前的速度;粒子對歷史經驗記憶的“認知”部分[11],表示粒子的實時位置和自身最佳位置的距離;不同粒子彼此協(xié)作和共享的“社會”部分,表示粒子的實時位置和群體最佳位置的距離。

      3 ?基于粒子群隨機森林的輿情趨勢預測

      媒體傳播方式、網民關注程度及信源敏感性質等均會影響到輿情的發(fā)展趨勢。本研究選擇網民關注度較高的微博話題作為實驗數據,采用基于KPCA?粒子群隨機森林算法預測輿情的趨勢變化。

      3.1 ?實驗數據獲取

      實驗數據通過網絡爬蟲系統(tǒng)自動提取2018年8月1日—12日新浪微博熱點話題所形成的時間序列作為實驗數據,采樣間隔為24 h,采樣點的數量為1 580個數據點,實驗記錄了該時間內總共6 245條微博。根據實際問題的需要,獲取的微博數據主要包含博主ID、博主類型、發(fā)布時間、主題特征、閱讀數、評論數、轉發(fā)數及點贊數等,這些數據可用來分析輿情動態(tài)趨勢特征。將收集的前5天數據作為訓練數據,后1天數據作為測試數據,分成兩組,通過采用單步滾動的方式進行預測以驗證本文算法的預測精度。

      3.2 ?特征向量提取與KPCA降維

      由于提取數據的特征向量很多,致使原始特征空間的維數非常大,勢必影響到決策的建模并降低建模精度,因此需要對原始特征集空間進行降維處理,刪除那些對預測結果貢獻率和關聯(lián)度較小的特征向量,進而得到最優(yōu)化意義下的最簡約特征向量集合,以提高算法的預測效率和精度。對于特征向量的選取以及權值計算,采用時域與頻域分析,從每一節(jié)數據里面提取16個特征向量(頻域、時域特征量分別有6個和10個)展開核主成分分析。

      為了揭示出各個微博特征對輿情發(fā)展變化的作用,通過計算確定各個特征對輿情趨勢的信息增益值,留下作用較為明顯的特征;這樣分類學習算法就能夠僅關注攜帶最多預測信息的那部分特征,使模型在有效性方面具有更好的表現。本實驗數據的16個特征值里,保留了反映輿情趨勢和富含預測價值的12個主要特征展開KPCA主成分分析,從而實現特征向量的降維處理。根據核主成分分析結果,如表1所示確定了貢獻率排名前四的分量。這里面,分量1的貢獻率高于90%,達到了94.49%,基于貢獻率超過85%為合適的原則,選擇貢獻率排名第一的分量為預測實驗依據。

      表1 ?部分特征向量貢獻率

      3.3 ?實驗與分析

      3.3.1 ?粒子群隨機森林預測模型構建

      基于通過實驗獲取的數據,以及粒子群隨機森林的輸入輸出和結構,確定訓練集以及預測數據,對數據分析結果進行KPCA降維處理,獲取876個能夠正確反映輿情趨勢變化數據點,從中選取601~800數據點為訓練集,801~820數據點為預測數據,創(chuàng)建訓練集的訓練樣本特征空間[s=α,β],其中訓練集樣本空間[α]為:

      預測步長擁有25列。在步長為15,20,25,30的情況下進行實驗,結果表明在步長為25的情況下,模型的預測準確性達到最佳。粒子群隨機森林以100~900為樹的數量,以50為步長步進,實驗結果表明在樹的數量等于500的情況下,預測誤差是最小的。每個樹節(jié)點隨機采樣數目設置為25,其他參數設為缺省值。

      3.3.2 ?實驗結果及有效性分析

      為了驗證基于KPCA?粒子群隨機森林算法的預測效果,選取BP神經網絡算法比較兩者的預測精度。圖1為BP神經網絡、粒子群隨機森林預測點擊數和微博實際點擊數對比圖,并采用[R]方值、RMSE值以及MSE值作為衡量預測值和實際值擬合優(yōu)度的評價指標。

      微博的點擊數量是輿情趨勢變化晴雨表的直接反映。從圖1總體上看到,輿情熱度的演變具有爆發(fā)迅速、回落緩慢的特征,大致經歷萌動、加速、成熟和衰退4個階段,基本符合網絡輿情的生命周期[12]。具體來看,BP神經網絡在輿情萌動階段預測結果不精確且延遲較為嚴重,尤其在輿情爆發(fā)時其預測值偏離真實值較大;對于粒子群隨機森林算法,不僅在相對平緩的地方預測趨勢和真實情況比較相符,而且能夠準確揭示出真實值在波峰較大情況下的趨勢。這表明基于KPCA?粒子群隨機森林算法,可以從日益增長的媒體數據中挖掘輿情傳播的內在規(guī)律,準確預測輿情的發(fā)展趨勢,預測結果較實際數值誤差較小。粒子群隨機森林算法、BP神經網絡算法的預測結果[R]方值、RMSE值、MSE值詳見表2。對表中的數據進行對比分析可知,本文算法各指標明顯優(yōu)于BP神經網絡模型,其[R]方值為0.934 9,比BP神經網絡模型的0.832 5高出12.30%;RMSE值與BP神經網絡相比,降低了50.18%;MSE值相對于BP神經網絡大大降低,結果表明本文算法具有更高的預測精度,是一種有效的輿情趨勢預測方法。

      圖1 ?BP神經網絡、粒子群隨機森林算法預測結果

      表2 ?粒子群隨機森林與BP神經網絡預測結果指標比較

      4 ?結 ?語

      本文以復雜網絡輿情的預測模型為研究對象,提出一種基于KPCA?粒子群隨機森林算法,并通過實驗對比了本文算法與BP神經網絡算法的預測效果。從實驗結果可以看出,在[R]方值、RMSE及MSE評價指標上粒子群隨機森林算法整體均優(yōu)于BP神經網絡算法,表明本文算法能夠準確反映輿情傳播進程中潛在驅動機制和動態(tài)規(guī)律,可以為政府部門引導和控制網絡輿情提供決策支持。

      參考文獻

      [1] CERON A, NEGRI F. The social side of public policy: monitoring online public opinion and its mobilization during the policy cycle [J]. Policy & Internet, 2016, 8(2): 131?147.

      [2] 馬慧芳,吉余崗.基于離散粒子群優(yōu)化的微博熱點話題發(fā)現算法[J].計算機工程,2016,42(3):208?213.

      MA Huifang, JI Yugang. Discrete particle swarm optimization?based topic discovery algorithm for microblogs [J]. Computer engineering, 2016, 42(3): 208?213.

      [3] 張貴紅,李中華.基于數據挖掘技術的微博熱點話題預測[J].現代電子技術,2017,40(15):52?55.

      ZHANG Guihong, LI Zhonghua. Micro?blog hot topic forecasting based on data mining technology [J]. Modern electronics technique, 2017,40(15): 52?55.

      [4] 李惠,王麗婷.基于詞項熱度的微博熱點話題發(fā)現研究[J].情報科學,2018,38(4):45?50.

      LI Hui, WANG Liting. Research on topic discovery in microblogs based on term hot [J]. Information science, 2018, 38(4): 45?50.

      [5] 任巨偉,楊亮,吳曉芳,等.基于情感常識的微博事件公眾情感趨勢預測[J].中文信息學報,2017,31(2):169?178.

      REN Juwei, YANG Liang, WU Xiaofang, et al. Public sentiment trend prediction of microblog events based on affective commonsense knowledge [J]. Journal of Chinese information processing, 2017, 31(2): 169?178.

      [6] 蘭月新,夏一雪,劉冰月,等.面向輿情大數據的網民情緒演化機理及趨勢預測研究[J].情報雜志,2017,36(11):134?140.

      LAN Yuexin, XIA Yixue, Liu Bingyue, et al. Research on the evolution mechanism and trend prediction of netizens for public opinion big data [J]. Journal of intelligence, 2017,36(11): 134?140.

      [7] XIONG Xi, HU Yong. Research on the dynamics of opinion spread based on social network services [J]. Acta physica sinica, 2012, 61(15):150?156.

      [8] 王梓杰,周新志.基于PCA和隨機森林的故障趨勢預測方法研究[J].計算機測量與控制,2018,26(2):21?26.

      WANG Zijie, ZHOU Xinzhi. Research on fault trend prediction methods based on PCA and random forest [J]. Computer measurement and control, 2018, 26(2): 21?26.

      [9] 李強,鄭宇杰.基于多視角特征融合與隨機森林的蛋白質結晶預測[J].現代電子技術,2015,38(8):50?53.

      LI Qiang, ZHENG Yujie. Protein crystallization prediction based on fusion of multi?view features and random forest [J]. Modern electronics technique, 2015, 38(8): 50?53.

      [10] SURHONE L M, TENNOE M T, HENSSONOW S F, et al. Random forest [J]. Machine learning, 2010, 45(1): 5?32.

      [11] 程慕鑫.基于小波變異的改進粒子群算法[J].華東理工大學學報(自然科學版),2013,39(1):236?240.

      CHENG Muxin. Improved particle swarm optimization based on wavelet mutation [J]. Journal of East China University of Science and Technology (Natural science edition), 2013, 39(1): 236?240.

      [12] 曾子明,黃城鶯.BP神網絡的突發(fā)傳染病輿情熱度趨勢預測模型研究[J].現代情報,2018,38(5):37?52.

      ZENG Ziming, HUANG Chengying. BP neural network for predicting the trend of public opinion on sudden infectious diseases [J]. Modern intelligence, 2018, 38(5): 37?52.

      猜你喜歡
      BP神經網絡輿情
      數字輿情
      就bp神經網絡銀行選址模型的相關研究
      基于DEA—GA—BP的建設工程評標方法研究
      價值工程(2016年30期)2016-11-24 13:17:31
      基于BP神經網絡的旅行社發(fā)展方向研究
      商情(2016年39期)2016-11-21 09:30:36
      復雜背景下的手勢識別方法
      BP神經網絡在軟件質量評價中的應用研究 
      軟件導刊(2016年9期)2016-11-07 18:25:50
      BP神經網絡算法在數值預報產品釋用中的應用
      科技視界(2016年20期)2016-09-29 14:15:12
      輿情
      中國民政(2016年16期)2016-09-19 02:16:48
      輿情
      中國民政(2016年10期)2016-06-05 09:04:16
      輿情
      中國民政(2016年24期)2016-02-11 03:34:38
      三门县| 武川县| 舞阳县| 玉树县| 济南市| 喀喇沁旗| 密山市| 平乡县| 华安县| 合山市| 东阳市| 新巴尔虎左旗| 青海省| 宁阳县| 宜城市| 修文县| 东阳市| 邵东县| 延津县| 泊头市| 昆山市| 枞阳县| 广河县| 石河子市| 卢氏县| 云浮市| 田阳县| 关岭| 鸡西市| 莆田市| 孝义市| 曲水县| 临沭县| 西乌珠穆沁旗| 包头市| 卫辉市| 柘城县| 师宗县| 伊吾县| 通山县| 固阳县|