• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多維時(shí)間序列模型的社會(huì)安全事件

      2016-04-27 07:51:52關(guān)聯(lián)關(guān)系挖掘與預(yù)測(cè)

      關(guān)聯(lián)關(guān)系挖掘與預(yù)測(cè)

      孫越恒1, 王文俊1, 遲曉彤2, 寧溥泰1, 邢 磊1

      (1. 天津大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 天津 300072; 2. 天津大學(xué)軟件學(xué)院, 天津 300072)

      ?

      基于多維時(shí)間序列模型的社會(huì)安全事件

      關(guān)聯(lián)關(guān)系挖掘與預(yù)測(cè)

      孫越恒1, 王文俊1, 遲曉彤2, 寧溥泰1, 邢磊1

      (1. 天津大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 天津 300072; 2. 天津大學(xué)軟件學(xué)院, 天津 300072)

      摘要:近年來社會(huì)安全事件頻繁發(fā)生,給人民群眾的生命和財(cái)產(chǎn)帶來了嚴(yán)重?fù)p害。文章基于大規(guī)模時(shí)序數(shù)據(jù),通過挖掘事件觸發(fā)因素,利用多維時(shí)間序列模型量化分析其與社會(huì)安全事件發(fā)生的關(guān)聯(lián)關(guān)系,并對(duì)未來事件的發(fā)生數(shù)量進(jìn)行預(yù)測(cè)。另外,提出一種基于態(tài)勢(shì)主導(dǎo)的多維時(shí)間序列相似性度量方法,量化分析不同類別事件之間發(fā)展趨勢(shì)的相似程度,并對(duì)三類具體的社會(huì)安全事件進(jìn)行相關(guān)分析及預(yù)測(cè)。實(shí)驗(yàn)表明,從時(shí)序數(shù)據(jù)角度分析可以很好地挖掘觸發(fā)事件的隱形因素,并較為準(zhǔn)確地估計(jì)事件發(fā)生數(shù)目和事件發(fā)展趨勢(shì),為管理者預(yù)防和控制此類事件的發(fā)生提供了一種新的思路和方法。

      關(guān)鍵詞:社會(huì)安全事件; 關(guān)聯(lián)關(guān)系挖掘; 多維時(shí)間序列

      危害社會(huì)安全事件近幾年來在各地頻發(fā),管理者預(yù)防此類惡性事件發(fā)生的第一步就是分析觸發(fā)事件發(fā)生的原因。除了貧富差距變大、民族矛盾激化等社會(huì)原因外,此類事件發(fā)生與近年來互聯(lián)網(wǎng)技術(shù)的普及也有極大的關(guān)系。互聯(lián)網(wǎng)使事件消息的傳播不再受到空間限制,傳播范圍越來越廣,傳播時(shí)效性也越來越強(qiáng),這就可能造成了事件之間的模仿效應(yīng),事件與事件之間不再是獨(dú)立存在,一個(gè)事件可能如蝴蝶效應(yīng)一般觸發(fā)另一個(gè)事件[1]。因此,找到事件與事件之間的關(guān)聯(lián)關(guān)系和觸發(fā)因素對(duì)于控制與預(yù)防類似事件發(fā)生尤為重要。

      由于非結(jié)構(gòu)化數(shù)據(jù)的文本處理困難以及人的思想與情感極強(qiáng)的不確定性,對(duì)于由人主導(dǎo)的社會(huì)安全事件之間關(guān)聯(lián)關(guān)系挖掘還處于起步的定性階段,量化分析較少,主要集中在對(duì)其傳播特征的挖掘及應(yīng)對(duì)上[2-3],只有極少的研究分析社會(huì)安全事件的發(fā)生機(jī)理[4]。通過對(duì)社會(huì)安全事件產(chǎn)生的大量網(wǎng)絡(luò)數(shù)據(jù)特征的分析,本文將運(yùn)用時(shí)間序列分析的相關(guān)基礎(chǔ)研究對(duì)事件的關(guān)聯(lián)因素進(jìn)行挖掘與定量分析。

      時(shí)間序列是指一串按時(shí)間先后順序排列的而又相互關(guān)聯(lián)的數(shù)據(jù)序列。時(shí)間序列分析就是對(duì)這種依賴性關(guān)系的挖掘以及根據(jù)分析結(jié)果對(duì)未來某時(shí)刻值進(jìn)行預(yù)測(cè)的一種分析技術(shù)[5],在諸多領(lǐng)域得到廣泛應(yīng)用,例如自然界氣象領(lǐng)域中的氣象數(shù)據(jù),社會(huì)經(jīng)濟(jì)領(lǐng)域中一個(gè)國(guó)家的國(guó)民生產(chǎn)總值(GDP),物價(jià)指數(shù)等都可以構(gòu)成時(shí)間序列數(shù)據(jù)并進(jìn)行分析[6-7],而時(shí)間序列也越來越多地應(yīng)用于事件的預(yù)測(cè)中,例如經(jīng)濟(jì)領(lǐng)域?qū)τ诮鹑谑录念A(yù)測(cè)[8],醫(yī)學(xué)領(lǐng)域?qū)τ诩膊“l(fā)病率預(yù)測(cè)[9]以及醫(yī)療事故的時(shí)序分析[10]等等。這些都證明時(shí)間序列分析方法對(duì)于分析具有時(shí)序特征的數(shù)據(jù)較為有效,且應(yīng)用更加靈活。

      當(dāng)將多個(gè)獨(dú)立發(fā)生事件映射到等劃分的時(shí)間段內(nèi)觀測(cè)到的事件數(shù)目可形成時(shí)間序列數(shù)據(jù),不同時(shí)間區(qū)間發(fā)生的同類事件之間可能具有相互依賴或者相關(guān)關(guān)系,因此采用時(shí)間序列分析模型研究事件發(fā)生規(guī)律是可行的。而當(dāng)前時(shí)間段內(nèi)的事件發(fā)生不僅與此前發(fā)生的同類事件本身性質(zhì)相關(guān),也可能與其帶來的附加影響相關(guān),例如前段時(shí)間內(nèi)已發(fā)生事件的熱度、該事件的傳播影響大小以及民眾對(duì)于事件的情感傾向都可能與此時(shí)間段事件的發(fā)生有關(guān)。為了使分析和預(yù)測(cè)更加準(zhǔn)確,將這些信息作為附加的相關(guān)變量形成多元變量,通過多維時(shí)間序列分析挖掘同類事件發(fā)生的關(guān)聯(lián)因素。對(duì)于事件性質(zhì)不同的異類事件,我們認(rèn)為事件性質(zhì)或發(fā)生數(shù)目可能差別明顯,但是其變化趨勢(shì)卻可能相同,因此采取基于態(tài)勢(shì)主導(dǎo)的多維時(shí)間序列相似度分析,通過態(tài)勢(shì)距離衡量異類事件發(fā)展趨勢(shì)的相似程度,為進(jìn)一步分析異類事件關(guān)聯(lián)關(guān)系做鋪墊。具體內(nèi)容包括:1)定義并抽取事件相關(guān)因素;2)挖掘同類事件之間的關(guān)聯(lián)因素并預(yù)測(cè);3)不同類別事件的相似度分析。

      一、 模型基本概念定義

      1. 相關(guān)定義

      定義1:時(shí)間間隔。時(shí)間間隔是模型分析最基本的觀測(cè)時(shí)間單元,記作τ。所有觀測(cè)數(shù)值在基本時(shí)間間隔內(nèi)觀測(cè)獲得,以基本時(shí)間間隔做切分。定義整體觀測(cè)時(shí)間段的起始和終止時(shí)間點(diǎn)為ts與te,整體時(shí)間被劃分成n個(gè)時(shí)間段,其中n=(te-ts)/τ。

      定義2:階段事件發(fā)生數(shù)目。事件性質(zhì)的量化數(shù)值用事件數(shù)目代表,階段事件數(shù)目指單位時(shí)間間隔內(nèi)該類別事件發(fā)生的數(shù)目。第i個(gè)時(shí)間段內(nèi)事件發(fā)生數(shù)目定義為Yi,其中i=1,2,…,n。這是觀測(cè)向量中最重要一維觀測(cè)數(shù)據(jù),既屬于觀測(cè)影響因素,又屬于被影響因素。

      定義3:階段影響因子。一個(gè)時(shí)間段內(nèi)一類事件發(fā)生而產(chǎn)生的影響中引起下一階段同類事件發(fā)生的影響因子稱為此類事件的階段影響因子。本文定義了兩個(gè)危害社會(huì)安全事件的階段影響因子,分別為階段事件熱度與階段情感傾向,前者指此階段事件的發(fā)生引起的社會(huì)關(guān)注與民眾討論的熱烈程度,后者指此階段民眾對(duì)該類事件的發(fā)生的態(tài)度與情感傾向,例如贊同、支持、反對(duì)或者憤怒等等。定義第i個(gè)時(shí)間段內(nèi)事件熱度與民眾情感傾向分別為Hi與Ei。

      定義4:多維時(shí)間序列。多維時(shí)間序列指連續(xù)時(shí)間間隔觀測(cè)到的事件多維序列數(shù)據(jù)。第i個(gè)時(shí)間段內(nèi)的事件發(fā)生數(shù)目Yi及附加影響因子事件熱度Hi和民眾情感傾向Ei組成第i個(gè)時(shí)間間隔內(nèi)的觀測(cè)向量Ai=。從觀測(cè)的起始時(shí)間ts至終止時(shí)間te每個(gè)單位時(shí)間段內(nèi)的觀測(cè)向量組成了某類事件多維時(shí)間序列數(shù)據(jù){A1,A2,…,An}。

      2. 影響因子抽取

      當(dāng)前網(wǎng)上事件發(fā)布渠道主要包括權(quán)威資訊網(wǎng)和熱門微博,這些網(wǎng)絡(luò)媒體或傳播平臺(tái)使得公眾言論更加開闊,可追溯性也越來越強(qiáng)。我們選取這兩類傳播媒體,通過消息的傳播路徑,量化事件的階段熱度以及階段情感傾向。

      (1) 階段事件熱度。計(jì)算熱度的意義是能夠?qū)υ掝}的被關(guān)注程度有一個(gè)量化的、直觀的表示,以便可以將熱度因素考慮進(jìn)入模型中,實(shí)際熱度值最終呈現(xiàn)在模型中只是轉(zhuǎn)化為話題之間關(guān)注度比例的問題,而不局限在其量化值本身。因此選取最簡(jiǎn)單最常用的加權(quán)法進(jìn)行話題熱度計(jì)算。

      基于已有的數(shù)據(jù)集,從資訊網(wǎng)來源量化事件熱度,選定資訊網(wǎng)網(wǎng)媒集合M,對(duì)于資訊網(wǎng)m,根據(jù)發(fā)布事件的資訊網(wǎng)的網(wǎng)媒權(quán)重km、對(duì)于事件j的新聞總報(bào)道數(shù)目Qmj,發(fā)布的所有新聞報(bào)道中民眾的評(píng)論量數(shù)量Cmj,點(diǎn)贊數(shù)量Amj的量化值,通過資訊網(wǎng)傳播因子結(jié)合式(1)得到資訊網(wǎng)傳播的事件熱度為

      (1)

      從微博傳播的角度衡量事件熱度,選定微博號(hào)集合W,對(duì)于微博號(hào)w,根據(jù)事件發(fā)布源的意見領(lǐng)袖權(quán)重lw以及民眾參與量Qwj的量化值,通過微博傳播因子結(jié)合式(2)得出微博傳播的事件熱度為

      (2)

      定義事件j的事件熱度hj定義為zhj與whj之和。定義J類事件在第i個(gè)時(shí)間段內(nèi)的階段事件熱度為

      (3)

      (2) 階段情感傾向。同話題熱度類似,情感傾向的計(jì)算只是為反應(yīng)民眾當(dāng)前階段的整體情感,該量化值最終也會(huì)轉(zhuǎn)化成為模型中的不同階段情感比例,而不局限在其量化值本身。因此,我們用最簡(jiǎn)單的某類情緒占比來標(biāo)識(shí)階段情感傾向即可。

      民眾對(duì)社會(huì)安全事件的情緒復(fù)雜多樣,可以根據(jù)其激烈程度分成多個(gè)等級(jí)。為方便計(jì)算,在此只將情緒分為兩類:積極情緒和消極情緒。積極情緒是指激動(dòng)、興奮、有正義感,這種情緒可能會(huì)抑制此類事件再次發(fā)生;而消極情緒是指言辭激烈,甚至有可能引發(fā)沖動(dòng)性的行為,這種情緒則可能導(dǎo)致此類事件再次發(fā)生。將階段情感傾向量化為積極情緒所占比例,分析其與下一階段該類事件發(fā)生的關(guān)系。定義在第i個(gè)時(shí)間段內(nèi)對(duì)J類事件的積極情感數(shù)目為PosiJ,消極情感數(shù)目為NegiJ。

      因此,J類事件在第i個(gè)時(shí)間段內(nèi)的階段事件情感傾向?yàn)?/p>

      EiJ=PosiJ/(PosiJ+NegiJ),iτ≤tj<(i+1)τ

      (4)

      二、 模型建立

      1. 假設(shè)

      假設(shè)當(dāng)前時(shí)間段內(nèi)事件的發(fā)生會(huì)與過去p個(gè)時(shí)間段內(nèi)發(fā)生的事件成線性關(guān)系,且不僅與之前時(shí)間段內(nèi)發(fā)生的事件性質(zhì)相關(guān),也與其階段事件熱度以及階段情感傾向相關(guān)。

      2. 多維時(shí)間序列模型

      觀測(cè)到的時(shí)間序列為{A1,A2,…,An},其中At代表第t個(gè)時(shí)間段的觀測(cè)向量,觀測(cè)向量包含第t個(gè)時(shí)間段內(nèi)事件發(fā)生數(shù)目Yi,第t個(gè)時(shí)間段階段事件熱度Ht與階段民眾情感傾向Et三個(gè)維度。假設(shè)當(dāng)前時(shí)間段內(nèi)事件的發(fā)生與過去p個(gè)時(shí)間段內(nèi)觀測(cè)向量成線性關(guān)系,通過一維時(shí)間序列ARp階線性時(shí)間反演時(shí)序模型擴(kuò)展對(duì)多維時(shí)間序列的關(guān)聯(lián)關(guān)系進(jìn)行定量分析。設(shè)定模型階數(shù)為p,令t=p+k(k=1,2,…,n-p),則模型表示為

      (5)

      式中:δ為誤差向量,記作δ=[δp+1,δp+2,…,δn]T;β為關(guān)聯(lián)參數(shù)向量,即與每一維度屬性相關(guān)程度,記作β=[β1,β2,…,βp]T。

      將觀測(cè)向量用矩陣表示為

      Z=[Ap+1,Ap+2,…,An]T

      則多維時(shí)間序列關(guān)聯(lián)模型可以表示為

      Z=βX+δ

      (6)

      βLS=(X′X)-1X′Z

      (7)

      3. 基于態(tài)勢(shì)主導(dǎo)的多維時(shí)間序列相似性度量模型

      基于態(tài)勢(shì)主導(dǎo)的多維時(shí)間序列相似度度量的假設(shè)基礎(chǔ)是:不同的多維時(shí)間序列其各維度所在量級(jí)也許不同,但其變化趨勢(shì)可能會(huì)相同。也就是說,不同類型事件的事件性質(zhì)的體現(xiàn)可能不同,但是其事件的變化趨勢(shì)也許相同。對(duì)于給定的兩個(gè)觀測(cè)向量A,B,通過計(jì)算它們之間的態(tài)勢(shì)距離DS(A,B)來衡量?jī)蓚€(gè)序列發(fā)展趨勢(shì)的相似程度。

      每個(gè)時(shí)間段內(nèi)的態(tài)勢(shì)值設(shè)定為三個(gè),上升態(tài)勢(shì)用“1”表示,平穩(wěn)態(tài)勢(shì)用“0”表示,下降態(tài)勢(shì)用“-1”表示。即t時(shí)間段內(nèi)r維度態(tài)勢(shì)值表示為

      (8)

      則觀測(cè)向量A,B的態(tài)勢(shì)距離定義為對(duì)應(yīng)時(shí)段間的平均距離為

      (9)

      A,B的態(tài)勢(shì)距離DS(A,B)越小,表示A,B發(fā)展趨勢(shì)越相近。

      三、 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

      1. 數(shù)據(jù)集介紹

      本實(shí)驗(yàn)數(shù)據(jù)集由“第二屆中國(guó)大數(shù)據(jù)技術(shù)創(chuàng)新大賽”協(xié)辦單位“海量智能數(shù)據(jù)技術(shù)有限公司”提供,數(shù)據(jù)類型為互聯(lián)網(wǎng)媒體報(bào)道和UGC用戶生成數(shù)據(jù),訓(xùn)練集主要提供資訊和微博兩類數(shù)據(jù),其時(shí)間跨度為2011年4月至2014年4月共三年,數(shù)據(jù)量為55萬條左右。由于選擇的資訊網(wǎng)和微博較為權(quán)威和全面,因此分析結(jié)果基本可以代表事件在網(wǎng)絡(luò)傳播的實(shí)際情況,進(jìn)而反應(yīng)實(shí)際事件發(fā)生的規(guī)律。

      數(shù)據(jù)集共包含三類危害社會(huì)安全事件,分別為:公交車爆炸事件數(shù)據(jù),暴力恐怖事件數(shù)據(jù)和校園砍傷事件數(shù)據(jù)。數(shù)據(jù)集提供字段主要包括資訊和微博的發(fā)布時(shí)間、標(biāo)題、正文、摘要、原始出處、是否原創(chuàng)、評(píng)論量、轉(zhuǎn)發(fā)量、正文分詞等信息。微博人物資料信息,包括性別、生日、等級(jí)、粉絲數(shù)、個(gè)人標(biāo)簽等。

      2. 實(shí)驗(yàn)步驟

      (1) 事件提取。基于上述數(shù)據(jù)集,數(shù)據(jù)預(yù)處理步驟包括數(shù)據(jù)去重與事件提取。數(shù)據(jù)去重基于數(shù)據(jù)庫的前綴索引特點(diǎn),以時(shí)間、媒體源和報(bào)道題目的前70個(gè)字符為索引去掉本質(zhì)相同的數(shù)據(jù)記錄,去重的準(zhǔn)確率達(dá)到98.8%。事件提取采用人工標(biāo)注事件與訓(xùn)練文本分類相結(jié)合的方式,提取獨(dú)立事件以及事件相關(guān)的新聞報(bào)道和微博發(fā)布。由于突發(fā)事件數(shù)量并不多,人工標(biāo)注事件的方法可行且準(zhǔn)確。通過標(biāo)注事件利用TF-IDF方法[11]進(jìn)行人名、地名向量提取,并結(jié)合余弦相似度的計(jì)算提取同個(gè)事件相關(guān)的資訊和微博內(nèi)容。在反復(fù)人工標(biāo)注、修正的迭代下,獲得了很好的事件提取效果。

      (2) 時(shí)間間隔選取。由于危害社會(huì)安全事件的發(fā)生相對(duì)來講并不頻繁(例如暴恐事件可能三個(gè)月或者半年發(fā)生一次),觀測(cè)數(shù)據(jù)較為稀疏,因此,將時(shí)間間隔盡量擴(kuò)大,保證數(shù)據(jù)的可觀測(cè)性。這里取時(shí)間間隔即基本數(shù)據(jù)觀測(cè)單元τ為3個(gè)月,所有觀測(cè)數(shù)據(jù)統(tǒng)計(jì)與計(jì)算都以3個(gè)月為間隔進(jìn)行。整體時(shí)間跨度為2011年4月至2014年4月三年,因此共有12個(gè)時(shí)間間隔,即n=12。

      (3) 影響因子抽取與向量構(gòu)建。事件發(fā)生數(shù)目向量構(gòu)建:通過人工標(biāo)注事件,對(duì)三類危害社會(huì)安全事件進(jìn)行事件提取,提取的事件數(shù)目按3個(gè)月為時(shí)間間隔進(jìn)行統(tǒng)計(jì)。

      階段事件熱度向量構(gòu)建。熱度計(jì)算需要考慮資訊網(wǎng)報(bào)道的媒體權(quán)重與微博報(bào)道的意見領(lǐng)袖權(quán)重。我們采用HITS算法思想[12],基于“數(shù)量假設(shè)”與“質(zhì)量假設(shè)”兩點(diǎn)計(jì)算資訊網(wǎng)各網(wǎng)媒權(quán)重,而微博意見領(lǐng)袖權(quán)重的計(jì)算依據(jù)其微博用戶自身性質(zhì)(粉絲數(shù)、等級(jí))進(jìn)行分級(jí)評(píng)估設(shè)定。通過對(duì)單個(gè)事件相關(guān)報(bào)道以及微博轉(zhuǎn)發(fā)評(píng)論數(shù)量的提取,結(jié)合資訊網(wǎng)媒和微博意見領(lǐng)袖權(quán)重,根據(jù)式(1)~(3)以時(shí)間間隔τ=3分別計(jì)算12個(gè)間隔的階段事件熱度。

      階段情感傾向向量構(gòu)建。情感傾向分析的限制關(guān)鍵在于文本的信息抽取。利用情感詞典(董振東HowNet)以及總結(jié)的微博表情詞典,將待分析的資訊評(píng)論與微博評(píng)論轉(zhuǎn)發(fā)文本通過開源分詞軟件進(jìn)行文本分詞,并將分詞結(jié)果與情感詞典比較,根據(jù)兩類權(quán)值計(jì)算每個(gè)文本的情感傾向。最后根據(jù)式(4)計(jì)算與某個(gè)事件相關(guān)的所有評(píng)論的正面情感比例,即事件情感傾向。

      3. 實(shí)驗(yàn)結(jié)果與分析

      (1) 事件影響因素挖掘。根據(jù)以上分析與計(jì)算,得到以3個(gè)月為時(shí)間間隔的觀測(cè)向量。以“校園砍殺”類型事件為例,其觀測(cè)向量三個(gè)維度如表1所示。

      表1 “校園砍殺”事件觀測(cè)向量

      觀察數(shù)值呈上升趨勢(shì),因此要進(jìn)行數(shù)據(jù)去趨勢(shì)平穩(wěn)化,此處采用對(duì)數(shù)線性去趨勢(shì)平穩(wěn)化方法。由于要考慮三個(gè)維度中每個(gè)維度對(duì)于事件發(fā)生的貢獻(xiàn)比例,因此對(duì)數(shù)據(jù)進(jìn)行歸一化使其在同一量級(jí)上更便于我們分析結(jié)果。同時(shí),觀察到前5個(gè)時(shí)刻事件發(fā)生數(shù)量為0,無法采集相關(guān)的事件報(bào)道評(píng)論以及微博傳播報(bào)道。因此,向量從第6時(shí)刻開始截?cái)唷⒍嗑S觀測(cè)向量輸入模型求得參數(shù)向量結(jié)果如表2所示。

      表2 相關(guān)系數(shù)

      以“校園砍殺”類型事件為例,β=[2.729 1,1.533 7,-0.983 1],模型階數(shù)p=1。表明校園事件的發(fā)生和前一個(gè)時(shí)間段,也就是前三個(gè)月內(nèi)此類事件的發(fā)生相關(guān)。其中,與其事件本身性質(zhì)(事件發(fā)生規(guī)律)關(guān)系度為2.729 1最大。另外,此類事件的事件熱度與事件發(fā)生成正比關(guān)系(1.533 7),也就是說事件,被討論越多,傳播越廣,越有可能導(dǎo)致更多該類事件的發(fā)生,可以理解為很多人也許會(huì)受到已經(jīng)發(fā)生的該類事件的影響而去效仿。第三個(gè)維度參數(shù)小于0表明,事件發(fā)生與民眾正情感的比例成反比,如果民眾的態(tài)度較為積極向上,則會(huì)抑制此類事件發(fā)生,但是效果并不明顯。

      根據(jù)參數(shù)β與階數(shù)p以及歷史值,可以預(yù)測(cè)下一個(gè)時(shí)間段即2014年4月~2014年6月內(nèi)校園砍傷事件發(fā)生的數(shù)目為13,根據(jù)實(shí)際的網(wǎng)絡(luò)統(tǒng)計(jì)數(shù)據(jù)統(tǒng)計(jì)下三個(gè)月內(nèi)的校園砍殺事件數(shù)目為15, 綜合另兩類事件訓(xùn)練集的預(yù)測(cè)誤差在15.6%左右。由于無法預(yù)測(cè)出具體可能發(fā)生的事件內(nèi)容,而僅能預(yù)測(cè)事件發(fā)生數(shù)目,因此僅可以根據(jù)歷史相關(guān)數(shù)據(jù)判斷未來事件發(fā)生趨勢(shì),為管理者針對(duì)當(dāng)前事態(tài)變化和民眾情緒提供下一步管理的方向指示和緊急預(yù)警。

      (2) 事件相似度衡量。根據(jù)三類事件觀測(cè)向量每個(gè)時(shí)間段的變化趨勢(shì)確定其態(tài)勢(shì)向量。三類事件以數(shù)量維度上的態(tài)勢(shì)向量為例,如表3所示,對(duì)應(yīng)態(tài)勢(shì)圖如圖1所示。

      表3 事件發(fā)生數(shù)量維度態(tài)勢(shì)向量

      通過計(jì)算三個(gè)維度態(tài)勢(shì)向量,計(jì)算三類事件的多維時(shí)間序列的態(tài)勢(shì)相似度,結(jié)果如表4所示。

      表4 三類事件態(tài)勢(shì)相似度

      從模型可以得知,某類事件時(shí)間序列的態(tài)勢(shì)指其各時(shí)間段內(nèi)發(fā)生數(shù)目、事件熱度以及民眾情感傾向整體的狀態(tài)。兩個(gè)時(shí)間序列的態(tài)勢(shì)距離越小,說明其形態(tài)越相近,兩類事件整體趨勢(shì)越接近。

      通過事件的態(tài)勢(shì)相似性距離可以看出,校園砍殺與暴力恐怖類型的事件態(tài)勢(shì)距離為1.189,最為相近,也就是說這兩類事件的發(fā)展趨勢(shì)最為接近,這可能由于兩類事件都是由人的主觀意識(shí)控制造成,事件傳播極可能引起人的效仿,導(dǎo)致模式相近。而公交爆炸事件與暴力恐怖事件和校園砍殺事件的態(tài)勢(shì)距離相對(duì)來說較遠(yuǎn),分別為1.745和1.897,這可能由于公交爆炸事件多是天氣原因自燃或者極少意外引發(fā)的。

      四、 結(jié)語

      本文提出了一種新的思路來量化分析社會(huì)安全事件的發(fā)生,假設(shè)此類事件的發(fā)生不僅與其事件性質(zhì)有關(guān),還受一些附加因素影響。將事件本身與附加因素映射至多個(gè)時(shí)間段內(nèi),形成多維時(shí)間序列進(jìn)行關(guān)聯(lián)關(guān)系分析,挖掘出可能影響事件發(fā)生的因子。并通過事件的態(tài)勢(shì)相似度分析不同類別事件的發(fā)展趨勢(shì)相似性,為控制和預(yù)防危害社會(huì)安全事件發(fā)生提供了新的思路和方法。但是,由于非結(jié)構(gòu)化文本處理困難,影響因子提取的準(zhǔn)確性無法估測(cè)。因此,未來的工作我們更多地要對(duì)定義的影響因子進(jìn)行評(píng)估并優(yōu)化影響因子的提取過程,同時(shí)將事件的關(guān)聯(lián)關(guān)系由線性向非線性進(jìn)行擴(kuò)展。

      參考文獻(xiàn):

      [1]韓立新, 霍江河. “蝴蝶效應(yīng)”與網(wǎng)絡(luò)輿論生成機(jī)制[J].當(dāng)代傳播, 2008 (6):64-67.

      [2]陳虹, 沈申奕. 新媒體環(huán)境下突發(fā)事件中謠言的傳播規(guī)律和應(yīng)對(duì)策略[J].華東師范大學(xué)學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版, 2011, 43(3):83-91.

      [3]劉鐵民.危機(jī)型突發(fā)事件應(yīng)對(duì)與挑戰(zhàn)[J]. 中國(guó)安全生產(chǎn)科學(xué)技術(shù), 2010, 6(1):8-12.

      [4]朱正威, 胡永濤, 郭雪松. 基于尖點(diǎn)突變模型的社會(huì)安全事件發(fā)生機(jī)理分析[J]. 西安交通大學(xué)學(xué)報(bào):社會(huì)科學(xué)版, 2011, 31(3):51-55.

      [5]Chatfield C.TheanalysisofTimeSeries:AnIntroduction[M]. Boca Raton: CRC press, 2013.

      [6]鈔小靜, 任保平. 中國(guó)經(jīng)濟(jì)增長(zhǎng)質(zhì)量的時(shí)序變化與地區(qū)差異分析[J]. 江蘇商論, 2014 (27):26-40.

      [7]Engle R F. Autoregressive conditional heteroscedasticity with estimates of the variance of United Kingdom inflation[J].Econometrica:JournaloftheEconometricSociety, 1982, 50(4): 987-1007.

      [8] 白旻. 金融時(shí)間序列數(shù)據(jù)預(yù)測(cè)方法探析[J]. 商業(yè)時(shí)代, 2012 (21):80-81.

      [9] 羅靜, 楊書, 張強(qiáng), 等. 時(shí)間序列ARIMA模型在艾滋病疫情預(yù)測(cè)中的應(yīng)用[J]. 重慶醫(yī)學(xué), 2012, 41(13):1255-1256.

      [10] Schaffer A, Muscatello D, Broome R, et al. Emergency department visits, ambulance calls, and mortality associated with an exceptional heat wave in Sydney, Australia, 2011: A time-series analysis[J].EnvironHealth, 2012, 11(1): 273-279.

      [11] Sparck Jones K. A statistical interpretation of term specificity and its application in retrieval[J].Journalofdocumentation, 1972, 28(1): 11-21.

      [12] Gibson D, Kleinberg J, Raghavan P. Inferring web communities from link topology[C]//ProceedingsoftheNinthACMConferenceonHypertextandHypermedia. Pitsburgh: ACM Press, 1998: 225-234.

      Correlation Mining and Prediction of Social Security Events Based on

      Multi-dimensional Time Series Model

      Sun Yueheng1, Wang Wenjun1, Chi Xiaotong2, Ning Putai1, Xing Lei1

      (1. School of Computer Science and Technology, Tianjin University, Tianjin 300072, China;

      2. School of Computer Software, Tianjin University, Tianjin 300072, China)

      Abstracts: In recent years the frequentoccurring of social security events has led serious damage to masses’ life and property security. Based on large-scale time series data, this paper quantitatively analyzes the correlation between the trigger factors and the happening of social security events, then predicts the number of security events that may happen in the future. In addition, this paper presents a multi-dimensional time series similarity measurement method which is based on situational dominant, trying to quantitatively analyze the similarity of development tendency among different kinds of events, and make correlation analysis and predictiontowards three kinds of specific social security events. The experiment result shows that time series analysis can well mine the invisible trigger factorsand accurately estimate the number and tendency of public security events’ happening. It can provide a new thought and method for administrators to prevent and control the happening of these kinds of events.

      Keywords:social security events; correlationmining of events; multi-dimensional time series

      中圖分類號(hào):G350.7

      文獻(xiàn)標(biāo)志碼:A

      文章編號(hào):1008-4339(2016)02-097-06

      通訊作者:王文俊, wjwang@tju.edu.cn.

      作者簡(jiǎn)介:孫越恒(1974—),男,講師.

      基金項(xiàng)目:國(guó)家社科基金重大資助項(xiàng)目(14ZDB153);教育部人文社會(huì)科學(xué)研究基金資助項(xiàng)目(13YJC870023).

      收稿日期:2015-04-27.

      林西县| 陇川县| 开封县| 新丰县| 叙永县| 沙坪坝区| 遂溪县| 平武县| 耒阳市| 卓尼县| 手游| 咸宁市| 马边| 会昌县| 藁城市| 太白县| 中西区| 顺昌县| 德令哈市| 莱阳市| 顺平县| 仁怀市| 阳春市| 长沙市| 卢湾区| 巴里| 扎兰屯市| 北京市| 隆尧县| 积石山| 水城县| 松阳县| 大宁县| 嘉峪关市| 英德市| 襄城县| 望都县| 霍城县| 青海省| 建德市| 永善县|