趙蕓 趙敏
摘 要:恐怖襲擊不但會(huì)造成大量人員傷亡和財(cái)產(chǎn)損失,還會(huì)造成群眾恐慌,對(duì)社會(huì)穩(wěn)定有很大影響。旨在從數(shù)據(jù)分析角度,依據(jù)相關(guān)數(shù)據(jù)對(duì)恐怖襲擊中蘊(yùn)藏的信息加以分析,為防恐反恐提供有用信息。針對(duì)基于危害的恐怖襲擊事件分級(jí),根據(jù)GTD上1998-2017年數(shù)據(jù)信息進(jìn)行數(shù)據(jù)提取,考慮到很多變量大面積缺失數(shù)據(jù),首先對(duì)這些變量的重要性作簡易評(píng)估并進(jìn)行刪減,然后對(duì)數(shù)據(jù)進(jìn)行清洗和補(bǔ)充,最后根據(jù)特征提取和降維后的數(shù)據(jù),分出事件對(duì)應(yīng)的恐怖襲擊級(jí)別。結(jié)果表明,深度學(xué)習(xí)中的深度置信網(wǎng)絡(luò)(DBN)可以用于提取和減少預(yù)處理數(shù)據(jù),且DBN可自動(dòng)實(shí)現(xiàn)上述功能,無需太多人為干預(yù)。
關(guān)鍵詞:數(shù)據(jù)處理;恐怖襲擊;深度置信網(wǎng)絡(luò)(DBN);特征提取;降維
DOI:10. 11907/rjdk. 182618 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類號(hào):TP319文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2019)007-0173-04
A Quantitative Hierarchical Study of Terrorist Attacks
Using Deep Belief Networks
ZHAO Yun, ZHAO Min
(School of Photoelectric Information and Computer Engineering,
University?of?Shanghai?for?Science?and?Technology, Shanghai 200093,China)
Abstract:The occurrence of terrorist attacks will not only lead to a large number of casualties and losses of property, but also cause public panic, which has a great impact on social stability and hinder people's normal work and life order. This paper aims to analyze the information contained in terrorist attacks from the perspective of data analysis according to relevant data, so as to provide useful information for counter-terrorism and counter-terrorism prevention. In view of the classification based on the harm of terrorist attacks, we first extract the data from 1998-2017 according to the GDT (Global Terrorism Databas), considering there are many variables the missing data of large area, so we first make a simple assessment of the importance of these variables, subtract them, and then clean and supplement the data. Finally, we distinguish the level of terror attack corresponding to part of the incident according to the feature extraction and dimensionality reduction data. The deep belief networks (DBN) in deep learning can be used to extract and reduce preprocessing data. DBN can do this automatically without much human intervention.
Key Words: data processing; terrorist attacks; deep belief networks (DBN); feature extraction; dimensionality reduction
作者簡介:趙蕓(1993-),女,上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院碩士研究生,研究方向?yàn)閿?shù)據(jù)分析;趙敏(1979-),女,博士,上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院講師,研究方向?yàn)轭A(yù)測控制分析。
0 引言
自從“9.11”恐怖事件發(fā)生至今,恐怖主義襲擊給各國人民帶來了巨大痛苦,人民生命、財(cái)產(chǎn)安全和地區(qū)穩(wěn)定受到嚴(yán)重威脅。據(jù)官方報(bào)道統(tǒng)計(jì),僅2014年一年的恐怖襲擊事件就達(dá)到了16 818起,100多個(gè)國家深受恐怖主義威脅和傷害[1]。目前,恐怖襲擊事件已成為全球和平與地區(qū)穩(wěn)定的主要威脅,并引起了世界各國關(guān)注。但是,隨著記錄恐怖襲擊事件的數(shù)據(jù)規(guī)模越來越大,如何從大量數(shù)據(jù)中提取隱藏信息,根據(jù)災(zāi)害對(duì)恐怖襲擊事件進(jìn)行分類,并根據(jù)事件特點(diǎn)發(fā)現(xiàn)恐怖襲擊事件的制造者,從而對(duì)未來反恐態(tài)勢進(jìn)行可行性分析,成為需要認(rèn)真思考的重要問題。
近些年,一些文章用定量分析方法對(duì)恐怖襲擊相關(guān)問題進(jìn)行研究[2]。還有一些學(xué)者利用博弈論識(shí)別恐怖網(wǎng)絡(luò)中的關(guān)鍵恐怖分子,由Shapley值衡量合作博弈的重要性,以及將博弈論的中心測量法用于更好地說明互連子網(wǎng)絡(luò)之間的強(qiáng)度大小,并對(duì)其作敏感性分析,從而對(duì)恐怖襲擊事件進(jìn)行分類[3,4]。上述研究使用更多定量分析方法研究恐怖主義事件,并提供減少恐怖主義或?yàn)?zāi)害損失發(fā)生的可能性,但是對(duì)以往發(fā)生的恐怖襲擊事件分級(jí)研究文章較少。因此,本文通過研究深度置信網(wǎng)絡(luò)(Deep Belief Networks,DBN)為恐怖襲擊分級(jí)研究開拓一種新思路[5]。
針對(duì)目前GTD(Global Terrorism Databas,全球恐怖主義數(shù)據(jù)庫)的恐怖襲擊事件,本文對(duì)以往發(fā)生過的恐怖襲擊事件進(jìn)行分級(jí)[6]。人們以往對(duì)災(zāi)難性事件比如地震、交通事故、氣象災(zāi)害等進(jìn)行分級(jí)是社會(huì)管理中的重要任務(wù),通常評(píng)分一般采用主觀方法,權(quán)威組織或部門選擇幾個(gè)主要指標(biāo),強(qiáng)制性規(guī)定分級(jí)標(biāo)準(zhǔn),如國家《道路交通事故處理辦法》第6條關(guān)于交通事故的標(biāo)準(zhǔn)分類,主要根據(jù)人員傷亡和經(jīng)濟(jì)損失程度劃分。然而,恐怖襲擊事件的危害不僅取決于傷亡和經(jīng)濟(jì)損失兩個(gè)方面,還取決于時(shí)間、地理位置、目標(biāo)指標(biāo)和許多其它因素,因此難以通過使用上述分類方法形成統(tǒng)一標(biāo)準(zhǔn)?;贕TD歷年數(shù)據(jù)和其它相關(guān)信息,結(jié)合現(xiàn)代信息處理技術(shù),采用DBN建立基于數(shù)據(jù)分析的量化分級(jí)模型[7,8]。本文選取幾個(gè)事件按危害程度分為5級(jí),并表示每一個(gè)事件的級(jí)數(shù)。
1 數(shù)據(jù)處理過程
1.1 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理流程見圖1。
圖1 數(shù)據(jù)預(yù)處理流程
1.2 數(shù)據(jù)篩選
參數(shù)選取原則是掌握主要特征的實(shí)用性和可行性。恐怖襲擊與多種因素有關(guān),使用一些指標(biāo)描述恐怖事件且不錯(cuò)過有用信息是一種兩難選擇。對(duì)恐怖事件進(jìn)行分級(jí)時(shí),應(yīng)主要考慮發(fā)生時(shí)間、地點(diǎn)、武器類型及受害者類型等。所選變量應(yīng)捕獲主要特征,并應(yīng)盡可能多地使用信息,但所選參數(shù)不應(yīng)過多。因此,有必要預(yù)處理1988-2017年的海量數(shù)據(jù)。
剔除不能用數(shù)學(xué)模型進(jìn)行處理的文字信息以及與題目相關(guān)性不大的信息,如地名、犯罪組織名稱、事件描述、攻擊類型、攻擊武器等,在初始數(shù)據(jù)135類信息中篩選出29類與題目相關(guān)且重要的數(shù)據(jù)信息。
1.3 數(shù)據(jù)清洗
數(shù)據(jù)清理指刪除、改正數(shù)據(jù)庫錯(cuò)誤、數(shù)據(jù)缺失、格式錯(cuò)誤和冗余數(shù)據(jù)。數(shù)據(jù)清理不但是為了改正錯(cuò)誤數(shù)據(jù),而且是為了使每個(gè)來自單獨(dú)系統(tǒng)的數(shù)據(jù)一致性更強(qiáng),也是為了后期數(shù)據(jù)處理更方便快捷。數(shù)據(jù)清洗包含兩個(gè)方面:處理缺失數(shù)據(jù)和處理異常數(shù)據(jù)。
針對(duì)缺失數(shù)據(jù),通常思路是使用其它可選值進(jìn)行替代。當(dāng)缺失數(shù)據(jù)量很小時(shí),可以采取人工填充方式,使用具有特定意義的常量進(jìn)行填充,如0等;也可使用均值進(jìn)行填充,如使用與該屬性相同的數(shù)據(jù)均值填充,或?qū)?shù)據(jù)進(jìn)行分類后使用同類數(shù)據(jù)均值進(jìn)行填充。
針對(duì)異常數(shù)據(jù)(通常指那些偏離隨機(jī)變量分布的數(shù)據(jù)和錯(cuò)誤數(shù)據(jù)),一般采取如下方式:①分桶法,首先將有序數(shù)據(jù)存儲(chǔ)在不同桶中,并使用相鄰數(shù)據(jù)的平均值、中值、邊界值代替異常數(shù)據(jù);②回歸法,使用回歸函數(shù)擬合替代錯(cuò)誤數(shù)據(jù);③聚類法,通常采用聚類函數(shù)對(duì)數(shù)據(jù)進(jìn)行聚類,錯(cuò)誤數(shù)據(jù)往往是某些離群點(diǎn),從而可以選擇剔除該數(shù)據(jù)或?qū)ζ溥M(jìn)行替換。
在本體數(shù)據(jù)清洗過程中,考慮到相關(guān)數(shù)據(jù)有很多變量大面積缺失,因此對(duì)這些變量的重要性作簡易評(píng)估,進(jìn)行刪減,然后對(duì)數(shù)據(jù)進(jìn)行清洗和補(bǔ)充。主要對(duì)某些變量中的空白項(xiàng),權(quán)衡變量特性后,根據(jù)均值、眾數(shù)填充或補(bǔ)零的方法對(duì)數(shù)據(jù)進(jìn)行清洗。通過清理得到29組具有代表性的數(shù)據(jù),如表1所示。
表1 清理后數(shù)據(jù)類型
2 DBN建模
2.1 DBN模型簡介
DBN在2006年主要由Hinton[9]提出,已被廣泛用作深度學(xué)習(xí)模型,并且在圖像和語音識(shí)別領(lǐng)域應(yīng)用非常廣泛。首先從結(jié)構(gòu)上說,多層沒有監(jiān)督的受限波爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)和一層有監(jiān)督的反向傳播(Back-Propagation,BP)構(gòu)成了DBN,如圖2所示。
DBN的訓(xùn)練包括“預(yù)訓(xùn)練(Pre-Training)”和“微調(diào)(Fine-Tuning)”兩部分。在預(yù)訓(xùn)練階段,DBN以分層訓(xùn)練模式訓(xùn)練每一層RBM,并且將下一層RBN隱藏層的輸出當(dāng)作上一層RBN可見層的輸入。
在微調(diào)階段,使用監(jiān)督學(xué)習(xí)方法對(duì)最后一級(jí)BP網(wǎng)絡(luò)進(jìn)行微調(diào),并且實(shí)際輸出值與預(yù)期輸出值的誤差是反向一層一層傳播的[10-17]。
2.2 受限玻爾茲曼機(jī)(RBM)
RBM是一個(gè)基于能量的模型EBM(Energy-Based Model),由可見層和隱藏層組成。如圖3所示,[v]、[h]為可見層和隱藏層,[w]表示可見層與隱藏層之間的連接權(quán)重。對(duì)于可見和隱藏層,連接關(guān)系是所有神經(jīng)元連接在層之間,并且層內(nèi)無神經(jīng)元連接。
圖3 RBM原理
設(shè)可見層和隱藏層都是二進(jìn)制量,其中神經(jīng)元分別為[I]、[J]個(gè),并且[vi]、[hi]表示第[i]和第[j]個(gè)可見層與隱含層神經(jīng)元。對(duì)于集合([v],[h]),RBM作為系統(tǒng)能量,定義為:
[E(v,h|θ)=-i=1Iaivi-j=1Jbihi-i=1Ij=1Jwijvihj]? ? ? (1)
其中,[θ=(wij,ai,bj)]是參數(shù),[wij]為可見層節(jié)點(diǎn)[vi]與隱含層節(jié)點(diǎn)[hi]的偏置值。由能量函數(shù)可得到[(v,h)]聯(lián)合概率分布。
[p(v,h|θ)=e-E(v,h|θ)/Z(θ)]? ? ? ? ?(2)
其中,[Z(θ)=vhe-E(v,h|θ)/Z(θ)]是歸一化項(xiàng)。實(shí)際運(yùn)用時(shí),最重要的是RBM下的觀測變量分布,[p(v|θ)]也稱似然函數(shù),即聯(lián)合概率[p(v,h|θ)]的邊緣分布。
由于RBM層內(nèi)神經(jīng)元無連接的特殊結(jié)構(gòu),當(dāng)可見層節(jié)點(diǎn)給定時(shí),每個(gè)隱含層節(jié)點(diǎn)之間激活狀態(tài)互不相干,則第[j]個(gè)隱含層節(jié)點(diǎn)的激活概率為:
[p(hj=1|v,θ)=σ(bj+i=1Iviwji)]? ? (3)
其中,[σ(x)=1/(1+e-x)]為sigmoid函數(shù)。同樣,當(dāng)隱含層節(jié)點(diǎn)給定時(shí),第[i]個(gè)可見層的概率為:
[p(vi=1|h,θ)=σ(ai+j=1jhjwji)]? ? ?(4)
RBM以迭代式訓(xùn)練,其目標(biāo)是為了導(dǎo)出參數(shù)[θ=(wij,ai,bj)]的值,以適應(yīng)給定的訓(xùn)練數(shù)據(jù)??梢郧笥?xùn)練集上最大對(duì)數(shù)的似然函數(shù),得到參數(shù)(設(shè)樣本為[T]),即:
[θ*=argθmaxL(θ)=argθmaxt=1Tlnp(v(t)|θ)]? ? ?(5)
由Hinton[9]提出的對(duì)比散度(Contrastive Divergence,CD)算法更新參數(shù):
[Δwij=ε(vihjdata-vihjrecon)]? ? ?(6)
[Δai=ε(vidata-virecon)]? ? ? ? (7)
[Δbj=ε(hjdata-hjrecon)]? ? ? ?(8)
其中,[ε]為Pre-Training的學(xué)習(xí)率,[?data]是定義訓(xùn)練數(shù)據(jù)級(jí)分布的數(shù)學(xué)期望,[?recon]是重新定義之后模型分布的數(shù)學(xué)期望[18]。
2.3 BP網(wǎng)絡(luò)
BP網(wǎng)絡(luò)是一個(gè)分類器,具有監(jiān)督功能[19,20]。其中,特征向量的輸入逐層傳入輸出層,以獲得預(yù)測的分類類別。將實(shí)際分類結(jié)果與預(yù)期分類值進(jìn)行比較以獲得錯(cuò)誤值,然后逐層返回以微調(diào)DBN參數(shù)。反向傳播需要計(jì)算每一層[δ],即靈敏度,并使用從上到下傳遞的權(quán)重參數(shù)修改網(wǎng)絡(luò)。
對(duì)于輸出層,[oi]第[i]個(gè)節(jié)點(diǎn)的實(shí)際輸出為所需輸出,則[δ](靈敏度)的計(jì)算公式為:
[δi=oi(1-oi)(di-oi)]? ? ?(9)
對(duì)于隱含層[l],[δ](靈敏度)的計(jì)算公式為:
[δli=yli(1-yli)jwlijδl+1j]? ? ?(10)
在計(jì)算每一層之后,根據(jù)式(11)、(12)更新DBN的網(wǎng)絡(luò)權(quán)重。
[wlij=wlij+εfine-tuning×yliδl+1j]? ?(11)
[blj=blj+εfine-tuning×δl+1j]? ?(12)
3 實(shí)驗(yàn)過程
3.1 實(shí)驗(yàn)環(huán)境
Matlab是一款專業(yè)數(shù)學(xué)軟件,功能強(qiáng)大,應(yīng)用場景廣泛[21]。本文基于Matlab中對(duì)恐怖襲擊的定量分級(jí)進(jìn)行模擬。
3.2 主要過程
圖4是模型主要流程。
圖4 基本流程
主要步驟:
(1)通過數(shù)據(jù)篩選和數(shù)據(jù)清理之后,將原始數(shù)據(jù)中135個(gè)變量信息處理至29個(gè)具有代表性的變量信息。
(2)采用深度置信網(wǎng)絡(luò)(DBN)對(duì)數(shù)據(jù)進(jìn)行特征提取和降維,深度置信網(wǎng)絡(luò)可自動(dòng)實(shí)施上述功能,而無需太多人為操作[21]。篩選出地理位置信息(精度、維度)、時(shí)間(日、月)后,得到了25個(gè)代表變量信息,并對(duì)特征值進(jìn)行排序,如表2、圖5所示。
表2 特征值排序
圖5 25類數(shù)據(jù)信息的特征值排序
通過K-means方法調(diào)用K-means函數(shù)對(duì)所有恐怖襲擊事件進(jìn)行聚類分析,得到所有恐怖襲擊事件的危險(xiǎn)程度分級(jí)(5級(jí))。將表1中挑選的10個(gè)事件同危險(xiǎn)程度分級(jí)進(jìn)行匹配后,得到其危害級(jí)別,如表4所示(事件編號(hào)是根據(jù)GTD中數(shù)據(jù)信息選取的部分?jǐn)?shù)據(jù)編號(hào))。
表4 典型事件危害級(jí)別
4 結(jié)語
本文采用深度置信網(wǎng)絡(luò)(DBN)對(duì)非線性數(shù)據(jù)進(jìn)行降維、特征提取,并且對(duì)歷年恐怖襲擊事件進(jìn)行分級(jí),在Matlab中調(diào)用深度置信網(wǎng)絡(luò)可自動(dòng)實(shí)現(xiàn)上述功能,而無需太多人為操作。本文研究僅提取一些事件進(jìn)行分析,主要是數(shù)據(jù)處理,為預(yù)測恐怖事件和防止恐怖襲擊奠定了基礎(chǔ)。下一步研究可從時(shí)間特征中找到恐怖襲擊概率高的地區(qū),更好地防止恐怖襲擊發(fā)生。
參考文獻(xiàn):
[1] 傅子洋,徐榮貞,劉文強(qiáng). 基于貝葉斯網(wǎng)絡(luò)的恐怖襲擊預(yù)警模型研究[J]. 災(zāi)害學(xué),2016,31(3):184-189.
[2] FRIEDMAN N,GOLDSZMIDT M,WYNER A. On the application of the bootstrap for computing confidence measures on features of induced Bayesian networks[J]. AI & STAT,1999(7): 189-208.
[3] 趙國敏,劉茂,張青松, 等. 基于博弈論的地鐵車站恐怖襲擊風(fēng)險(xiǎn)定量研究[J]. 安全與環(huán)境學(xué)報(bào), 2006, 6(3):47-50.
[4] MAJOR J A. Advanced techniques for modeling terrorism risk[J]. Journal of Risk Finance, 2002,4 (1):15-24.
[5] 王雷,王欣,趙秋紅. 基于和聲搜索算法優(yōu)化支持向量機(jī)的突發(fā)暴恐事件分級(jí)研究[J]. 管理理論,2016,28(8):125-132.
[6] LINDELAUF R H A,HUSSLASGE B G M. Cooperative game theoretic analysis of terrorist networks: the cases of Jemash Islamiyah and AI Qaeda[J]. European Journal of Operational Research,2013,229(1):230-238.
[7] 王振,劉茂. 定量風(fēng)險(xiǎn)分析在恐怖襲擊風(fēng)險(xiǎn)評(píng)估中的應(yīng)用[J]. 公共安全, 2006(7):18-22.
[8] 張亞軍,劉宗田,周文. 基于深度信念網(wǎng)絡(luò)的事件識(shí)別[J]. 電子學(xué)報(bào),2017(6):1415-1423.
[9] HINTON G E,SALAKHUTDINOV R. Reducing the dimensionality of data with neural networks [J]. Science,2006,313(5768): 504-507.
[10] YU D, DENG L. Deep Learning and its applications to signal and information processing[J]. IEEE Signal Processing Magazine,2011, 28(1):145-154.
[11] AREL I,ROSE C,KARNOWSKI T. Deep machine learning-a new frontier in artificial intelligence[J]. IEEE Computational Intelligence Magazine, 2010, 5(4): 13-18.
[12] BENGIO Y. Learning deep architectures for AI[J]. Foundation and Trends in Machine Learning, 2009, 2(1): 1-127.
[13] BENGIO Y,COURVILLE A,VINCENT P. Representation learning: a review and new perspectives[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1798-1828.
[14] ANTHES G. Deep learning comes of age[J]. Communications of the ACM,2013,56(6):13-15.
[15] JONES N. The learning machines[J]. Nature,2014,505(7428): 146-148.
[16] 胡曉林,朱軍. 深度學(xué)習(xí):機(jī)器學(xué)習(xí)領(lǐng)域的新熱點(diǎn)[J]. 中國計(jì)算機(jī)學(xué)會(huì)通訊,2013,9(7):64-69.
[17] 余凱,賈磊,陳雨強(qiáng),等. 深度學(xué)習(xí)的昨天、今天和明天[J]. 計(jì)算機(jī)研究與發(fā)展,2013,50(9):1799-1804.
[18] 呂啟,竇勇,牛新,等. 基于DBN模型的遙感圖像分類[J]. 計(jì)算機(jī)研究與發(fā)展,2014,51(9):1911-1918.
[19] 陳翠平. 基于深度信念網(wǎng)絡(luò)的文本分類算法[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2015, 24(2):121-126.
[20] HINTON G E,OSINDERO S,THE Y. A fast learning algorithm for deep belief nets[J]. Neural Computation,2006,18(7):1527-1554.
[21] 劉亮,劉君,尹斐. 基于MATLAB環(huán)境的實(shí)時(shí)仿真研究[J].微計(jì)算機(jī)信息,2006,22(7):250-252.
(責(zé)任編輯:何 麗)