• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      改進(jìn)的支持向量機(jī)在微博熱點(diǎn)話題預(yù)測中的應(yīng)用

      2017-04-07 22:14饒浩文海寧林育曼陳曉鋒
      現(xiàn)代情報(bào) 2017年3期
      關(guān)鍵詞:熱點(diǎn)話題微博輿情

      饒浩++文海寧++林育曼++陳曉鋒

      〔摘要〕為了提高微博輿情的預(yù)測精度,針對(duì)不同單一核函數(shù)的局限,用線性擬合確定兩種核函數(shù)的權(quán)重提出改進(jìn)的支持向量機(jī)模型。首先利用馬爾科夫模型矩陣的稀疏程度提取影響因子指標(biāo),得到微博傳播的增減趨勢;然后用改進(jìn)的支持向量機(jī)對(duì)實(shí)時(shí)數(shù)據(jù)按照4∶1的比例劃分測試集和訓(xùn)練集,進(jìn)行實(shí)時(shí)預(yù)測與警示。實(shí)驗(yàn)結(jié)果表明:應(yīng)用馬爾科夫模型進(jìn)行微博輿情的主成分提取效果較佳,改進(jìn)的支持向量機(jī)構(gòu)造了新的組合核函數(shù),比傳統(tǒng)的預(yù)判效果更佳。

      〔關(guān)鍵詞〕馬爾科夫模型;組合支持向量機(jī);微博;輿情;熱點(diǎn)話題;預(yù)測

      DOI:10.3969/j.issn.1008-0821.2017.03.009

      〔中圖分類號(hào)〕G206〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2017)03-0046-06

      〔Abstract〕In order to improve the prediction accuracy of Microblog public opinion and make up for performance deficiency of single kernel function,the weight coefficients of two kernel functions have been calculated by linear fitting.The Markov matrix was used to determine the weights of the impact factors and the trend of Microblog public opinion.Improved support vector machine was used to divide real time data into training set and test set according to the proportion of 4∶1.Experiment showed that the features which affected micro blogging publica opinion,had been mined better by using Markov model;Optimized SVM model constructed a new combined kernel function,and the forecasting results were better.

      〔Key words〕Markov model;combination support vector machine;microblog;public opinion;hot topic;prediction

      目前我國針對(duì)輿情分析指標(biāo)的研究有很多,按照功能的完善程度分為告警和預(yù)警。告警模型如李綱等在突發(fā)公共事件大背景下,對(duì)突發(fā)公共事件、公共衛(wèi)生事件、社會(huì)安全事件等指標(biāo)進(jìn)行分析,結(jié)合信息空間模型分析微博輿情傳播的過程,構(gòu)建微博輿情監(jiān)測指標(biāo)[1]。易臣何分析微博輿情的傳播特點(diǎn),在此基礎(chǔ)上研究演化規(guī)律[2]。預(yù)警模型如朱衛(wèi)紅等采用離散的時(shí)間序列和地圖定位做生態(tài)畫像,根據(jù)標(biāo)簽特征進(jìn)行提取、分析并提前一定的時(shí)間周期告警實(shí)現(xiàn)預(yù)警目標(biāo)[3]。葉金印等建立了多條預(yù)判擬合函數(shù)進(jìn)行分類和預(yù)測,用MAE等誤差指標(biāo)尋優(yōu)[4]。

      針對(duì)微博輿情預(yù)測算法的研究,不同算法有不同的業(yè)務(wù)場景的優(yōu)點(diǎn),例如局部最優(yōu)、全局最優(yōu)等的差別。例如杜智濤等用灰色預(yù)測方法,用微分方程解法做時(shí)間序列回歸模型[5]。張華基于BP-神經(jīng)網(wǎng)絡(luò)算法對(duì)其經(jīng)典模型進(jìn)行優(yōu)化,對(duì)輸入層與隱含層的矩陣、隱含層與輸出層的矩陣權(quán)值的稀疏性處理較好[6]。魏德志提出用混沌理論解決非線性的函數(shù),一改用線性函數(shù)進(jìn)行擬合的前提假設(shè),并且改進(jìn)了徑向基核函數(shù),使得神經(jīng)網(wǎng)絡(luò)發(fā)揮了在具體輿情預(yù)測中的優(yōu)點(diǎn)以提高數(shù)據(jù)準(zhǔn)確性[7]。

      微博話題的影響因子與權(quán)值矩陣的處理是預(yù)測準(zhǔn)確度提升的保證。雖然微博話題的影響因子有很多,但是許多學(xué)者的研究主要在于確定影響因子之間內(nèi)在邏輯,往往難以分離各個(gè)指標(biāo)確定各自的權(quán)重而進(jìn)行定量分析。也有一些學(xué)者涉及定量的研究,但是用戶能獲取到的微博指標(biāo)權(quán)限有限,實(shí)際操作無法進(jìn)行。因此,本文基于容易獲取到的一些指標(biāo),進(jìn)行兩個(gè)算法過程的預(yù)測與驗(yàn)證,分別從不同角度預(yù)測趨勢,得到較好的預(yù)測效果,供輿情部門參考。

      1馬爾科夫模型的增減趨勢預(yù)判

      馬爾科夫區(qū)別于回歸模型,在于將問題看作是離散隨機(jī)過程,并非連續(xù)函數(shù),且強(qiáng)調(diào)下一個(gè)時(shí)間節(jié)點(diǎn)的狀態(tài)與上一個(gè)無關(guān)(即相鄰兩個(gè)時(shí)間節(jié)點(diǎn)的數(shù)據(jù)無法互相影響)[8]。而這恰恰更適合預(yù)測隨機(jī)波動(dòng)大的動(dòng)態(tài)過程,可彌補(bǔ)灰色預(yù)測的局限[9]。

      馬爾科夫模型要求數(shù)據(jù)具有馬爾科夫鏈和平穩(wěn)過程等均值的特點(diǎn),而現(xiàn)實(shí)生活的預(yù)測問題大都是隨時(shí)間變化或呈某種變化趨勢的非平穩(wěn)過程。若用灰色GM(1,1)模型對(duì)滿足時(shí)間序列的數(shù)據(jù)進(jìn)行擬合,可用變化趨勢彌補(bǔ)馬爾科夫鏈預(yù)測的局限;而在灰色預(yù)測的基礎(chǔ)上進(jìn)行馬爾科夫預(yù)測,又可彌補(bǔ)灰色預(yù)測對(duì)隨機(jī)波動(dòng)大的數(shù)據(jù)預(yù)測準(zhǔn)確度低的缺陷。從而得出兩種模型結(jié)合,能較準(zhǔn)確地預(yù)測微博熱點(diǎn)話題。

      圖1是從MySQL主表界面得到的隨著時(shí)間分段不同獲取的單位時(shí)間內(nèi)中文分詞的關(guān)鍵詞出現(xiàn)的時(shí)間段的情況(其中“Null”代表空)。

      從MySQL里獲取的分詞數(shù)據(jù),將3月上旬的時(shí)間劃分為30個(gè)等距時(shí)間間隔,及8個(gè)小時(shí)為1個(gè)獲取時(shí)間周期。以每個(gè)時(shí)間點(diǎn)檢測獲取到的關(guān)鍵詞不同作為劃分標(biāo)準(zhǔn),沒有出現(xiàn)的地方顯示為“Null”,以選取的16條記錄為例,計(jì)算每項(xiàng)出現(xiàn)關(guān)鍵詞的時(shí)間段個(gè)數(shù),作為馬爾科夫模型中每種關(guān)鍵詞的詞頻。

      2改進(jìn)的支持向量機(jī)的熱點(diǎn)話題預(yù)測

      21算法實(shí)現(xiàn)偽代碼

      Step 1:數(shù)據(jù)的提取和預(yù)處理

      1)將半年微博數(shù)據(jù)用Java提取四列數(shù)據(jù),即:時(shí)間節(jié)點(diǎn)、點(diǎn)贊數(shù)、評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)。

      2)將原始數(shù)據(jù)進(jìn)行歸一化(mapminmax為matlab自帶的映射函數(shù),對(duì)點(diǎn)贊數(shù)、評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)進(jìn)行歸一化處理,公式為:y=(ymax-ymin)*(x-xmin)/(xmax-xmin)+ymin;并對(duì)點(diǎn)贊數(shù)、評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)進(jìn)行轉(zhuǎn)置,以符合libsvm工具箱數(shù)據(jù)格式要求。

      Step 2:確定核函數(shù)的各項(xiàng)參數(shù):

      1)寫調(diào)用函數(shù)kernel(ker,x,y)。

      2)對(duì)比各個(gè)經(jīng)典核函數(shù)模型的誤差率,確定各自的優(yōu)缺點(diǎn)。

      3)確定怎樣分配比例使得組合模型能實(shí)現(xiàn)最佳預(yù)測。

      Step 3:利用回歸預(yù)測分析最佳的參數(shù)進(jìn)行SVM網(wǎng)絡(luò)訓(xùn)練

      22多項(xiàng)式核、高斯核、線性與非線性核函數(shù)的對(duì)比使用支持向量機(jī)算法要從常用的3種函數(shù)模型中選擇最優(yōu)的作改進(jìn),經(jīng)過對(duì)比分析確定一種核函數(shù)為指標(biāo)的最佳核函數(shù)[10-11],目的是將高維空間的內(nèi)積運(yùn)算轉(zhuǎn)化為低維空間的函數(shù)運(yùn)算。

      對(duì)核函數(shù)的選擇,目前沒有成熟完善的指導(dǎo)原則,必須根據(jù)各種測試數(shù)據(jù)的觀察結(jié)果來確定[12-13]。某些問題用某些核函數(shù)效果很好,用另一些很差。多項(xiàng)式核是典型的全局核函數(shù),相距很遠(yuǎn)的點(diǎn)對(duì)核函數(shù)的值均有影響,不論函數(shù)中的階數(shù)從1~5增加,其周邊的數(shù)據(jù)點(diǎn)都對(duì)多項(xiàng)式核函數(shù)的值產(chǎn)生影響;而高斯核函數(shù)是典型的局部核函數(shù),只有當(dāng)落在某個(gè)寬度之間時(shí)才會(huì)對(duì)核函數(shù)值有影響,只有在一定的范圍內(nèi)取值對(duì)高斯核函數(shù)有效。

      23組合核函數(shù)的確定

      24結(jié)果與分析

      241改進(jìn)的馬爾科夫模型

      列舉16個(gè)中文分詞得到的關(guān)鍵詞,以及統(tǒng)計(jì)的出現(xiàn)時(shí)間段次數(shù),T1~T15表示15個(gè)等距時(shí)間段,表中數(shù)字代表增長速率,使得快速上升(≥03)在程序中用“2”表示;緩慢上升(0,003),用“1”表示;相對(duì)不變用“0”表示;緩慢下降(-003,0)用“-1”表示;快速下降(≤-003)用“-2”表示,從而得到各個(gè)關(guān)鍵詞在不同時(shí)段的相對(duì)值A(chǔ)i(i=1,2,…,30)。

      以第一個(gè)關(guān)鍵詞“以后”為例,T1~T15這15個(gè)等距時(shí)間段中,取前14個(gè)等距時(shí)間段的增長率參加計(jì)算,第15個(gè)增長率與模型的預(yù)測率進(jìn)行比對(duì),從而驗(yàn)證模型的準(zhǔn)確性。

      先算出增長率,使用概率轉(zhuǎn)移矩陣完成馬爾科夫預(yù)測。由于微博爆發(fā)趨勢受到多重因素的影響,若籠統(tǒng)地采用擬合計(jì)算分析,會(huì)使誤差率增加;而用概率矩陣轉(zhuǎn)移,則是根據(jù)下一次的爆發(fā)趨勢所出現(xiàn)的狀態(tài)的最大可能概率進(jìn)行預(yù)測,可靠性高。

      Key1:“以后”

      10200010200010102000104000110212210216710087210236710247211024181021981009801024351019691102432102238101030102481101818110245310224010104610248810177311024571022431010501024911017591102458102243101052102492101755用1個(gè)關(guān)鍵詞為例,可知:列數(shù)表示5個(gè)狀態(tài)下對(duì)應(yīng)的概率,行數(shù)表示預(yù)測的時(shí)段個(gè)數(shù),輸出數(shù)據(jù)的每一行的最大的概率值表示相應(yīng)時(shí)間段最可能出現(xiàn)的增長狀態(tài)。下面為關(guān)鍵詞1:“以后”的算法數(shù)值,其中D1~D5分別表示“先迅速增長”、“先緩慢增長”、“先相對(duì)不變”、“先緩慢下降”、“先快速下降”。如表3:

      如果目前微博熱點(diǎn)預(yù)測的話題處于狀態(tài)Bi(i=1,2,3,4,5),這時(shí)Eij描述目前狀態(tài)Bi在將來轉(zhuǎn)移狀態(tài)Bj(j=1,2,3,4,5)的可能性。按照最大概率原則,即選{Ei1,Ei2,Ei3,Ei4,Ei5}中最大者對(duì)應(yīng)的狀態(tài)即為預(yù)測結(jié)果。

      由于通過計(jì)算得到的關(guān)鍵詞“以后”的增長率狀態(tài)為E3,即相對(duì)穩(wěn)定。由上面的轉(zhuǎn)移矩陣可知:由一次轉(zhuǎn)移到5種狀態(tài)的概率分別為:E31=0833,E32=02083,E33=06250,E34=00833,E35=0,Max={Ei1,Ei2,Ei3,Ei4,Ei5}=E33=06250,且E31、E32、E34、E35比E33對(duì)比,均差距很大。

      因此,預(yù)測的結(jié)果顯示:在T11~T30時(shí)間段內(nèi)的微博熱點(diǎn)話題的熱度將繼續(xù)保持穩(wěn)定,且增長幅度為1,將預(yù)測結(jié)果與實(shí)際結(jié)果表對(duì)比可知:實(shí)際微博繼續(xù)保持緩慢上升,因預(yù)測結(jié)果是準(zhǔn)確的。

      改進(jìn)的支持向量機(jī)模型綜合了兩個(gè)經(jīng)典核函數(shù)的優(yōu)點(diǎn),對(duì)實(shí)際數(shù)據(jù)出現(xiàn)的稀疏矩陣問題采用核函數(shù)映射,歸一化處理后將其映射到[0,1]區(qū)間,解決誤差大造成的預(yù)測影響。最后反歸一化回去,得到實(shí)際預(yù)測數(shù)值。

      由此可以得出,改進(jìn)的支持向量機(jī)模型可以解決局部樣本最優(yōu)問題,得到的趨勢誤差較小,可以代替全局最優(yōu)函數(shù)用逼近法逼近,逐步減小誤差。

      242組合核函數(shù)模型

      新構(gòu)造的組合核函數(shù),即加入各種核函數(shù)的權(quán)重,構(gòu)建組合核函數(shù)來適應(yīng)數(shù)據(jù)的特點(diǎn)。其近期樣本重要性遠(yuǎn)大于前期樣本,體現(xiàn)最近時(shí)間樣本點(diǎn)最重要的原則,增強(qiáng)預(yù)測準(zhǔn)確度。

      由于采集的是點(diǎn)贊數(shù)、評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù),分別記為y1、y2、y3,對(duì)其一一進(jìn)行訓(xùn)練與測試,得到擬合與預(yù)測曲線。表4以預(yù)測部分的10分鐘為例:

      其中4058759664-4058760602是2016/3/15 15∶00~2016/3/15 15∶10的10分鐘數(shù)據(jù),Matlab中調(diào)用函數(shù)將標(biāo)準(zhǔn)時(shí)間(時(shí)間格式)轉(zhuǎn)為時(shí)間戳(字符格式),預(yù)測數(shù)據(jù)(藍(lán)色)與真實(shí)數(shù)據(jù)(黑色)的對(duì)比,每分鐘獲取一次數(shù)據(jù),經(jīng)過測試尋優(yōu),確定訓(xùn)練集與測試集的比例為4∶1時(shí)最佳的數(shù)據(jù)。后面1/5的數(shù)據(jù)即為表4所示。圖3中是50分鐘的數(shù)據(jù),分為40分鐘實(shí)際數(shù)據(jù)與10分鐘預(yù)測數(shù)據(jù)。藍(lán)色實(shí)際值的離散點(diǎn)與擬合、預(yù)測紅色曲線很接近,走向趨勢也保持一致,表明擬合與預(yù)測效果較佳。

      其中程序展示最優(yōu)化正則參數(shù)與最優(yōu)核參數(shù)的檢驗(yàn)結(jié)果,省略展示R2、MSE、MAE、MAPE等誤差類的統(tǒng)計(jì)驗(yàn)證,且采用快速留一的交叉驗(yàn)證方法,不斷迭代降低誤差。得到組合模型預(yù)測效果較佳。

      3結(jié)束語

      本研究結(jié)合馬爾科夫與改進(jìn)的支持向量機(jī)來構(gòu)建微博話題預(yù)測趨勢預(yù)測,通過實(shí)例來驗(yàn)證模型的準(zhǔn)確性。此外,該模型也會(huì)存在著一些缺點(diǎn)。首先是獲取到的指標(biāo)參數(shù)有限,后選取時(shí)間序列和轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)、點(diǎn)贊數(shù)的指標(biāo)用于預(yù)測。另外,獲取到的是2015年上半年的數(shù)據(jù)訓(xùn)練,用4∶1的比例做訓(xùn)練預(yù)測,和實(shí)時(shí)情況中組合模型取最近的權(quán)重最大,沒有進(jìn)行歷史數(shù)據(jù)按天同期的統(tǒng)計(jì),不可避免地存在特定日期等情況時(shí)輿情暴增帶來的誤差。因此需要人工處理這種趨勢帶來的例外。該模型的預(yù)測結(jié)果的準(zhǔn)確性依賴于數(shù)據(jù)的邏輯聯(lián)系與誤差的迭代。研究所得到的結(jié)果可以為輿情的管理提供有效的指導(dǎo)。

      參考文獻(xiàn)

      [1]李綱,陳璟浩.突發(fā)公共事件網(wǎng)絡(luò)輿情研究綜述[J].圖書情報(bào)知識(shí),2014,(3):117-123.

      [2]易臣何.突發(fā)事件網(wǎng)絡(luò)輿情的演化規(guī)律與政府監(jiān)控[D].湘潭:湘潭大學(xué),2014.

      [3]朱衛(wèi)紅,苗承玉,鄭小軍.基于3S技術(shù)的圖們江流域濕地生態(tài)安全評(píng)價(jià)與預(yù)警研究[J].生態(tài)學(xué)報(bào),2014,(1):119-121.

      [4]葉金印,李致家,常露.基于動(dòng)態(tài)臨界雨量的山洪預(yù)警方法研究與應(yīng)用[J].氣象雜志,2014,(1):114-116.

      [5]杜智濤,謝新洲.利用灰色預(yù)測與模式識(shí)別方法構(gòu)建網(wǎng)絡(luò)輿情預(yù)測與預(yù)警模型[J].圖書情報(bào)工作,2013,(8):76-81.

      [6]張華.基于優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的微博輿情預(yù)測模型研究[D].武漢:華中師范大學(xué),2014.

      [7]魏德志,陳福集,鄭小雪.基于混沌理論和改進(jìn)徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情預(yù)測方法[J].物理學(xué)報(bào),2015,(4):93-95.

      [8]徐揚(yáng),孟文霞,李廣建.基于灰色預(yù)測模型的情報(bào)學(xué)熱點(diǎn)主題發(fā)展預(yù)測[J].情報(bào)科學(xué),2016,(7):3-6.

      [9]楊怡.銷量的多因素灰色預(yù)測和馬爾柯夫鏈模糊修正模型研究[J].工業(yè)工程與管理,2014,(5):90-93.

      [10]王和勇,崔蓉.在線用戶評(píng)論的主題發(fā)現(xiàn)研究[J].現(xiàn)代情報(bào),2015,(9):63-69.

      [11]商麗媛,譚清美.基于支持向量機(jī)的突發(fā)事件分級(jí)研究[J].管理工程學(xué)報(bào),2014,(1):119-123.

      [12]曹云忠,邵培基,李良強(qiáng).微博網(wǎng)絡(luò)中用戶關(guān)注行為預(yù)測[J].系統(tǒng)工程,2015,(7):146-152.

      [13]章成志,李蕾.社會(huì)化標(biāo)簽質(zhì)量自動(dòng)評(píng)估研究[J].現(xiàn)代圖書情報(bào)技術(shù),2015,(10):2-12.

      (本文責(zé)任編輯:孫國雷)

      猜你喜歡
      熱點(diǎn)話題微博輿情
      何以解憂?基于社交媒體大數(shù)據(jù)的睡眠健康公眾敘事研究
      2017年高考作文熱點(diǎn)話題預(yù)測
      事實(shí)與流言的博弈
      重大突發(fā)事件中微博之力不微
      輿情
      基于SVM的熱點(diǎn)話題跟蹤實(shí)現(xiàn)過程研究
      輿情
      輿情
      熱點(diǎn)話題排行榜
      基于熵值的網(wǎng)絡(luò)論壇熱點(diǎn)話題發(fā)現(xiàn)
      汝城县| 麟游县| 安阳市| 平南县| 永吉县| 名山县| 扬中市| 神木县| 汶上县| 九龙坡区| 浦江县| 孙吴县| 定西市| 兰坪| 镇宁| 海兴县| 钦州市| 石台县| 吴堡县| 麻栗坡县| 宝山区| 扶绥县| 景泰县| 彝良县| 南阳市| 江阴市| 青川县| 隆昌县| 元阳县| 浦县| 金溪县| 庆安县| 尼勒克县| 梅河口市| 汝城县| 青阳县| 延津县| 清镇市| 马鞍山市| 芜湖市| 包头市|