劉 棟,寧玉富
(1.山東青年政治學(xué)院,山東 濟(jì)南 250103;2.山東省高校信息安全與智能控制重點(diǎn)實(shí)驗(yàn)室,山東 濟(jì)南 250103)
事件關(guān)聯(lián)在證據(jù)鏈構(gòu)造中的研究
劉 棟1,2,寧玉富1,2
(1.山東青年政治學(xué)院,山東 濟(jì)南 250103;2.山東省高校信息安全與智能控制重點(diǎn)實(shí)驗(yàn)室,山東 濟(jì)南 250103)
在電子取證工作中,往往忽略對(duì)電子證據(jù)信息的預(yù)處理,從而導(dǎo)致電子證據(jù)冗余較大,計(jì)算分析較復(fù)雜。為解決計(jì)算機(jī)取證中存在電子證據(jù)形式化表示的困難以及數(shù)據(jù)缺失的問(wèn)題,在對(duì)事件關(guān)聯(lián)技術(shù)進(jìn)行研究和深入分析的基礎(chǔ)上,利用貝葉斯網(wǎng)絡(luò)理論,提出一種基于事件關(guān)聯(lián)的證據(jù)鏈構(gòu)造方法。該方法考慮事件之間的相互影響以及序列關(guān)系,分析缺失數(shù)據(jù)的因果關(guān)系,擬合完整證據(jù)鏈,實(shí)現(xiàn)了形式化表示電子證據(jù),并降低了證據(jù)分析的數(shù)據(jù)冗余,從而有針對(duì)性地進(jìn)行數(shù)據(jù)處理和證據(jù)分析,完善了取證體制。通過(guò)實(shí)驗(yàn)結(jié)果分析得出,該方法實(shí)現(xiàn)了證據(jù)的形式化表示,減少了證據(jù)分析的數(shù)據(jù)量。
計(jì)算機(jī)取證;事件關(guān)聯(lián);貝葉斯網(wǎng)絡(luò);證據(jù)鏈;電子證據(jù)
計(jì)算機(jī)取證是解決爭(zhēng)議和打擊計(jì)算機(jī)犯罪的重要手段,專門研究如何按照符合法律規(guī)范的方式收集、處理計(jì)算機(jī)犯罪證據(jù),是實(shí)現(xiàn)信息安全保障的一個(gè)重要方面,在保持社會(huì)穩(wěn)定和維護(hù)法律秩序方面具有重要作用[1-2]。近年來(lái),隨著計(jì)算機(jī)取證不斷在實(shí)用性和有效性方面的深入研究,在電子證據(jù)的獲取、分析、表示等方面取得了許多經(jīng)驗(yàn)和進(jìn)展。文獻(xiàn)[3]用手工定義的入侵事件間概率相似度和極小匹配規(guī)則來(lái)構(gòu)建入侵事件關(guān)聯(lián)專家系統(tǒng),但難以直接獲取所需知識(shí);文獻(xiàn)[4]將前提和目的吻合的入侵事件關(guān)聯(lián)形成入侵者攻擊軌跡,但主觀性較強(qiáng);文獻(xiàn)[5]提出了運(yùn)用關(guān)聯(lián)算法分析事件間的關(guān)系;文獻(xiàn)[6]提出一種基于計(jì)劃的事件關(guān)聯(lián)模型,但分析數(shù)據(jù)量較大,未考慮數(shù)據(jù)缺失的情況。
文中在總結(jié)前人研究的基礎(chǔ)上,提出一種基于事件關(guān)聯(lián)的證據(jù)鏈構(gòu)造方法,用于證據(jù)分析,便于形式化表示證據(jù),完善了取證體制。
先前的證據(jù)分析大都是對(duì)事物間的統(tǒng)計(jì)關(guān)系的挖掘,未涉及底層因果結(jié)構(gòu)以及電子證據(jù)間的相關(guān)性,而電子證據(jù)的表現(xiàn)方式多樣,獲取的證據(jù)不一定就是完整數(shù)據(jù),對(duì)于證據(jù)的形式化出示一直存在困難[7-8]。為了支持司法分析,有必要進(jìn)行證據(jù)鏈的挖掘與構(gòu)造。證據(jù)鏈的構(gòu)造具體為事件的關(guān)聯(lián)分析,其基本內(nèi)容主要包括將每一子事件以時(shí)間序列重新定義,進(jìn)而把不同的事件聯(lián)系起來(lái),挖掘深層次、有價(jià)值的模式。事件關(guān)聯(lián)分析的目的是進(jìn)行數(shù)據(jù)預(yù)處理,主要包括信息計(jì)數(shù)、數(shù)據(jù)濃縮、信息抑制和事件概括[9]。
在計(jì)算機(jī)取證領(lǐng)域,很多專家學(xué)者已經(jīng)做了大量深入研究,文中從理論層面研究事件關(guān)聯(lián)分析在證據(jù)鏈構(gòu)造中的應(yīng)用。
定義1 事件[10](Event):是指在計(jì)算機(jī)系統(tǒng)中由某項(xiàng)活動(dòng)產(chǎn)生的記錄。
定義2 原子事件(Atom Event,AE):描述用戶一次具體的請(qǐng)求(e),比如僅單擊某個(gè)按鈕。
2.1 事件的關(guān)聯(lián)分析
對(duì)于事件之間的關(guān)系,文中列出了事件之間常見(jiàn)的關(guān)聯(lián)關(guān)系類型,具體如下:
(1)壓縮(compression):去除冗余的過(guò)程,計(jì)算多個(gè)事件的關(guān)聯(lián)度,將多事件歸納為單事件,形式為:[e,e,e,…]e。
(2)過(guò)濾(filtering):假定源事件集e的屬性諸多M(e)不屬于目的事件集,則過(guò)濾掉源事件集e中的該類事件,形式為:[e,M(e)?H]φ。
(3)壓制(suppression):將事件進(jìn)行優(yōu)先級(jí)排列,形式為:[e,E]E。
(4)計(jì)數(shù)(count):重復(fù)事件的計(jì)數(shù)歸納過(guò)程,盡可能減少重復(fù)計(jì)算,形式為:[n×e]E。
(5)時(shí)序關(guān)系(temporalrelation):根據(jù)依賴函數(shù),計(jì)算事件之間的時(shí)間序列模式,形式為:[|e1-e2| 2.2 證據(jù)鏈構(gòu)造方法 根據(jù)協(xié)同取證的原理,構(gòu)造證據(jù)事件的序列模式關(guān)鍵在于子事件內(nèi)部序參量之間的協(xié)同作用[11]。證據(jù)事件關(guān)聯(lián)系統(tǒng)可以定義為一種自組織結(jié)構(gòu),在有賴于事件之間的關(guān)聯(lián)作用的有序組織中相繼發(fā)生的事件之間通過(guò)相互作用形成,事件關(guān)聯(lián)度用來(lái)描述事件之間相互關(guān)聯(lián)相互影響的程度。 (1)作用函數(shù)。 αij,βij是系統(tǒng)穩(wěn)定臨界點(diǎn)上序參量的上、下限值。對(duì)原子事件有序的作用系數(shù)uij可表示為: (1) 式(1)中反映了各指標(biāo)達(dá)到目標(biāo)的滿意程度,Xij對(duì)證據(jù)鏈構(gòu)成的貢獻(xiàn)作用由uij表示,uij的取值范圍為[0,1],uij趨于1為最滿意,趨于0為最不滿意。 構(gòu)成證據(jù)鏈上的原子事件間存在先發(fā)事件的輸出要素與后發(fā)事件的輸入要素之間的因果關(guān)系。后發(fā)事件的輸入要素與先發(fā)事件的輸出要素構(gòu)成了證據(jù)鏈的序數(shù)參量,設(shè)為U1、U2,一般采用集成方法來(lái)計(jì)算各個(gè)序參量有序程度的總貢獻(xiàn)度。具體方法為: (2) 其中,UA(Ui)為某個(gè)原子事件對(duì)事件證據(jù)鏈系統(tǒng)的總序參量;λj為影響因素指標(biāo)的權(quán)重。 (2)關(guān)聯(lián)度函數(shù)。 原子事件相互作用的關(guān)聯(lián)度模型可以表示為: (3) 其中,C表示事件之間的關(guān)聯(lián)度;i表示事件個(gè)數(shù);UA(Ui)表示對(duì)證據(jù)鏈系統(tǒng)有序的作用貢獻(xiàn)大小。 當(dāng)C趨于1,事件關(guān)聯(lián)程度最大,即若干原子事件的演化將會(huì)對(duì)證據(jù)鏈產(chǎn)生完全的影響;當(dāng)C=0時(shí),表示事件之間無(wú)任何關(guān)聯(lián)性。在計(jì)算過(guò)程中,設(shè)定一個(gè)關(guān)聯(lián)度的臨界值α,若C>α,表示后發(fā)事件的輸入可以由先發(fā)事件的輸出表示,即后發(fā)事件的發(fā)生由先發(fā)事件引起,否則事件間不存在鏈?zhǔn)阶饔藐P(guān)系。 設(shè)集合E={e1,e2…ei…en},通過(guò)計(jì)算事件關(guān)聯(lián)度,可以構(gòu)建一條以初始原子事件為鏈源的證據(jù)鏈,具體過(guò)程為: 設(shè)初始原子事件為ei(ei∈E),以ei為先發(fā)事件,E中的其他事件為后發(fā)事件,計(jì)算ei與其他事件的關(guān)聯(lián)度Cij(1≤j≤n)。當(dāng)Cij>α?xí)r,則說(shuō)明ei與ej之間的關(guān)聯(lián)度較高,它們之間存在著潛在的鏈?zhǔn)疥P(guān)系。令ei存在潛在的鏈?zhǔn)疥P(guān)系的后繼事件集合由Eil={ei1,ei2…eii…ein}表示。接著按照同樣的方法,對(duì)集合Eil1,Eil2,…,Eili,…,Eiln進(jìn)行操作。其中Eili表示與集合Eil中的事件eii具有鏈?zhǔn)疥P(guān)系的事件集合。以上過(guò)程持續(xù)直到在集合E中不再找到與后繼事件集合中的事件具有鏈?zhǔn)疥P(guān)系的原子事件為止。最后,從初始事件ei開(kāi)始,合并所有的后繼原子事件集合Eil,Eili,Eilii,…,可以得到最后的目標(biāo)證據(jù)鏈EL={E,P}。其中E={e1,e2,…,ei,…,em|1≤m≤n}為原子事件集合;P={(ei,ej)|ei,ej∈E}為E中各種原子事件的鏈?zhǔn)疥P(guān)系集合。 2.3 證據(jù)鏈的形式化表示 用函數(shù)begin(p)表示初始路徑,用end(p)表示路徑尾,基本的狀態(tài)轉(zhuǎn)換路徑表示為Pφ。設(shè)有兩條路徑: px=(sx1,ex1,sx2,ex2,…,sxm,exm) py=(sy1,ey1,sy2,ey2,…,syn,eyn) 如果end(px)=begin(py),如sym=sy1,則兩條路徑可以連接為一條路徑p。即: p=px?py=(sx1,ex1,sx2,ex2,…,sxm,exm,sy1,ey1,sy2,ey2,…,syn,eyn) (3) 其中,符號(hào)“?”表示連接操作。 p=σ(px,py)= (5) 對(duì)應(yīng)路徑集合連接運(yùn)算為: P=φ(P1,P2)={σ(p1,p2)|p1∈P1,p2∈P2,end(p1)=begin(p2)} (6) 在取證研究中,獲取的證據(jù)源數(shù)據(jù)并不都是完整的,存在犯罪人員將數(shù)據(jù)擦除或者篡改的危險(xiǎn),造成數(shù)據(jù)缺失,為此需要將缺失數(shù)據(jù)進(jìn)行完整擬合。貝葉斯網(wǎng)絡(luò)[12]可以自然地表示因果信息,是一種表示變量集合的連接概率分布的圖形模型,在處理帶有噪聲和不完整數(shù)據(jù)集方面具有優(yōu)勢(shì)。該模型采用概率測(cè)度的權(quán)重來(lái)描述數(shù)據(jù)間的相關(guān)性。文中將缺失數(shù)據(jù)作為網(wǎng)絡(luò)節(jié)點(diǎn),數(shù)據(jù)間的因果關(guān)系采用有向圖表示,進(jìn)而構(gòu)建貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)。 3.1 貝葉斯網(wǎng)絡(luò) 貝葉斯網(wǎng)絡(luò)描述由兩部分組成: (1)有向無(wú)環(huán)圖(DAG),其中每一個(gè)節(jié)點(diǎn)代表一個(gè)數(shù)據(jù)變量Xi,Pai為Xi的父節(jié)點(diǎn)的集合。 (2)條件概率表(CPT),表中的每一元素為數(shù)據(jù)變量Xi,條件概率密度為p(XiPai,θ)。 這兩部分確定了貝葉斯網(wǎng)絡(luò),節(jié)點(diǎn)變量可以是對(duì)任何問(wèn)題的抽象,文中節(jié)點(diǎn)變量主要指與原子事件發(fā)生、發(fā)展相關(guān)的各種因素。 3.2 證據(jù)鏈缺失數(shù)據(jù)的分析處理 基于貝葉斯統(tǒng)計(jì)的缺失證據(jù)參數(shù)學(xué)習(xí)[13]的基本思想是:對(duì)于一個(gè)隨機(jī)變量λ,服從先驗(yàn)分布P(λ),該分布表示學(xué)習(xí)前關(guān)于參數(shù)λ的先驗(yàn)信息。假設(shè)P(λ)是一個(gè)均勻分布。參數(shù)λ的信息隨著在實(shí)例數(shù)據(jù)集合M上的學(xué)習(xí)而發(fā)生變化。一般參數(shù)的估計(jì)值采用最大后驗(yàn)分布。采用式(7)計(jì)算參數(shù)的估計(jì)值為: (7) 其中,αk代表先驗(yàn)知識(shí)(專家證據(jù)集[9]),特殊情況下,假設(shè)變量取各個(gè)值的概率都相等,即αi=1,一般采用等價(jià)抽樣規(guī)模法進(jìn)行估計(jì)。 原子事件的貝葉斯網(wǎng)絡(luò)擬合:令G={N,E,P}為原子事件貝葉斯網(wǎng)絡(luò),如圖1所示。 圖1 原子事件貝葉斯網(wǎng)絡(luò)結(jié)構(gòu) 其中,N=Z∪S∪O,(N,E)表示網(wǎng)絡(luò)結(jié)構(gòu),其作用是描述變量之間的因果關(guān)系,用條件概率表示變量之間的影響程度,根據(jù)歷史數(shù)據(jù)或通過(guò)專家知識(shí)直接指定得到變量的條件概率。得到其他節(jié)點(diǎn)的條件概率和根節(jié)點(diǎn)的先驗(yàn)概率,就可以得到所有變量的聯(lián)合概率分布,如式(8): p(ei,si,sj,zj,se,ak,oj)=p(ei)p(sj|ei)p(sj,zj| ak)p(sj|si)p(zj|si)p(se|si,zj)p(oj| si)p(oj|zj) (8) 通過(guò)式(8)可以得到網(wǎng)絡(luò)中各節(jié)點(diǎn)的邊緣概率,確定先驗(yàn)網(wǎng)絡(luò)。假設(shè)獲取的部分信息為E,利用此數(shù)據(jù)更新網(wǎng)絡(luò)中其他節(jié)點(diǎn)的概率,實(shí)現(xiàn)對(duì)證據(jù)事件后果的預(yù)測(cè)和關(guān)鍵狀態(tài),由貝葉斯公式計(jì)算如下: 令e∈E為證據(jù)信息,則: (9) 當(dāng)網(wǎng)絡(luò)節(jié)點(diǎn)過(guò)多時(shí),為了降低計(jì)算復(fù)雜度,可以采用聯(lián)合樹(shù)推理算法[14]進(jìn)行求解。 對(duì)缺失證據(jù)事件的修補(bǔ),為取證提供完整證據(jù)鏈,以滿足電子證據(jù)的分析需求。而缺失的原子事件又是離散的,因此,可以構(gòu)造一種用于多個(gè)離散變量的貝葉斯網(wǎng)絡(luò)。 以一次關(guān)聯(lián)實(shí)驗(yàn)為例,測(cè)試該方法構(gòu)造證據(jù)鏈關(guān)聯(lián)事件的性能。測(cè)試環(huán)境為實(shí)驗(yàn)室內(nèi)局域網(wǎng)(25臺(tái)主機(jī),1臺(tái)服務(wù)器),操作系統(tǒng)為WindowsXP。數(shù)據(jù)采集了2 500個(gè)事件,測(cè)試中時(shí)間閾值(即在某一時(shí)間段內(nèi)進(jìn)行關(guān)聯(lián)分析)分別為20min,40min,60min。實(shí)驗(yàn)中關(guān)聯(lián)度臨界值α設(shè)為0.7。測(cè)試結(jié)果如圖2所示。 圖2 證據(jù)鏈關(guān)聯(lián)結(jié)果 從測(cè)試結(jié)果中得出,時(shí)間閾值較小時(shí),由于獲取的前后知識(shí)不充分,錯(cuò)誤率較大,隨著閾值的增大,錯(cuò)誤率明顯下降。當(dāng)數(shù)據(jù)缺失較嚴(yán)重時(shí),錯(cuò)誤率增加不明顯,說(shuō)明該方法對(duì)于缺失數(shù)據(jù)的擬合補(bǔ)充效果較為明顯。但是當(dāng)時(shí)間閾值較小,如20min時(shí),錯(cuò)誤率卻較高,說(shuō)明此時(shí)對(duì)于因果關(guān)系的分析還不充分,仍需要進(jìn)一步的自學(xué)習(xí)。 經(jīng)過(guò)證據(jù)鏈中的事件關(guān)聯(lián)分析后,減少了無(wú)用知識(shí)與冗余事件,證據(jù)分析的數(shù)據(jù)量減少了許多,見(jiàn)表1,使得取證分析更有針對(duì)性。 表1 事件數(shù)量比較 文中引入關(guān)聯(lián)度的概念描述證據(jù)事件間的相互影響程度,提出一種基于事件關(guān)聯(lián)的證據(jù)鏈構(gòu)造方法,綜合不同的證據(jù)事件源進(jìn)行相關(guān)性分析,去除冗余事件,最終構(gòu)成證據(jù)鏈,有效地實(shí)現(xiàn)了電子證據(jù)的形式化表示,減少了證據(jù)分析的數(shù)據(jù)量。運(yùn)用貝葉斯網(wǎng)絡(luò)推理算法分析缺失數(shù)據(jù)與現(xiàn)有數(shù)據(jù)之間的因果關(guān)系,即使在部分事件失序和數(shù)據(jù)缺失情況下,算法也可推理犯罪入侵的發(fā)生過(guò)程,擬合證據(jù)鏈,保證了數(shù)據(jù)的完整性。形成證據(jù)鏈后,不僅能有效驗(yàn)證證據(jù)的原始性,而且能防止對(duì)證據(jù)記錄的破壞,最大程度地保護(hù)證據(jù),滿足了電子取證的事件連續(xù)性的原則。但是隨著網(wǎng)絡(luò)取證的數(shù)據(jù)量的增大,特別是云計(jì)算技術(shù)的發(fā)展,給電子取證技術(shù)帶來(lái)了挑戰(zhàn),比如構(gòu)造海量數(shù)據(jù)的證據(jù)鏈,海量信息的證據(jù)事件處理,以及多維證據(jù)的分析等,這將是下一步研究的方向。 [1]HanJ,KamberM,PeiJ.Dataminingconceptsandtechniques[M].3nded.Beijing:ChinaMachinePress,2012:288-293. [2]DingLP,WangYJ.Studyonrelevantlawandtechnologyissuesaboutcomputerforensics[J].JournalofSoftware,2005,16(2):260-275. [3]EtzionO,NiblettP.Eventprocessinginaction[M].[s.l.]:ManningPublicationsCo.,2010. [4]NingPeng,CuiYun,ReevesDS.Analyzingintensiveintrusionalertsviacorrelation[C]//RAID2002.Zurich,Switzerland:[s.n.],2002. [5]KochGG,KoldehofeB,RothermelK.Cordies:expressiveeventcorrelationindistributedsystems[C]//ProceedingsofthefourthACMinternationalconferenceondistributedevent-basedsystems.[s.l.]:ACM,2010:26-37. [6]AcamporaG.Exploitingtimedautomatabasedfuzzycontrollersfordesigningadaptiveintrusiondetectionsystems[J].SoftComputing,2012,16(7):1183-1196. [7]TiffanyM.Asurveyofeventcorrelationtechniquesandrelated topics[EB/OL].2003.http://www.tiffman.net/netman/netman.pdf. [8]JakobsonG,WeissmanM.Real-timetelecommunicationnetworkmanagement:extendingeventcorrelationwithtemporalconstraints[C]//Proceedingsofthefourthsymposiumonintegratednetworkmanagement.SantaBarbara,California,USA:Chapman&Hall,1995:290-301. [9]NarayananK,BoseSK,RaoS.Towards’integratedmonitoringandmanagementofDataCentersusingcomplexeventprocessingtechniques[C]//ProceedingsofthefourthannualACMconference.Bangalore:ACM,2011. [10]LuckhamD.Thepowerofevents:anintroductiontocomplexeventprocessingindistributedenterprisesystems[M].[s.l.]:Addison-Wesley,2002. [11] 張有東,曾慶凱,王建東.網(wǎng)絡(luò)協(xié)同取證計(jì)算研究[J].計(jì)算機(jī)學(xué)報(bào),2010,33(3):504-513. [12]PearlJ.Probabilisticreasoninginintelligentsystems:networksofplausibleinference[M].SanMateo,CA:MorganKaufmanPublishers,1988. [13]ChengJ,RussellG,KellyJ.LearningBayesiannetworksfromdata:aninformation-theorybasedapproach[J].ArtificialIntelligence,2002,137(1-2):43-90. [14]GuiHX.Researchoftheintrusiondetectionsystembasedondatamining[C]//Proceedingsoftheinternationalconferenceone-educationentertainmentande-management.[s.l.]:[s.n.],2011:190-192. Research on Event Correlation in Construction of Evidence Chain LIU Dong1,2,NING Yu-fu1,2 (1.Shandong Youth University of Political Science,Jinan 250103,China;2.Key Laboratory of Information Security and Intelligent Control of Shandong Universities,Jinan 250103,China) The electronic evidence data preprocessing is easily neglected in electronic forensics work,leading to heavy redundancy for electronic evidence and complex calculation.Since the electronic evidence is difficult to represent formalized,and there exist missing data.A method for constructing electronic evidence chain is proposed on the basis of the study and analysis of event correlation and Bayesian network.Considering the interaction between evidence events and sequence relationship,it can be analysis of causal relationship of the events to deal with the missing data.It realizes the electronic evidence represented and reduces the data redundancy of evidence analysis,thus consummating the evidence collection system and making the data process and evidence analysis be more target-oriented.The experimental results show that the method realizes the representation of evidence and reduces the computation. computer forensics;event correlation;Bayesian network;evidence chain;electronic evidence 2016-02-14 2016-05-19 時(shí)間:2016-11-21 國(guó)家自然科學(xué)基金資助項(xiàng)目(60873247) 劉 棟(1987-),男,碩士研究生,助理實(shí)驗(yàn)師,研究方向?yàn)閿?shù)據(jù)挖掘;寧玉富,教授,博士,碩士生導(dǎo)師,研究方向?yàn)椴淮_定理論。 http://www.cnki.net/kcms/detail/61.1450.TP.20161121.1641.034.html TP391 A 1673-629X(2016)12-0107-04 10.3969/j.issn.1673-629X.2016.12.0243 擬合缺失數(shù)據(jù)
4 測(cè)試結(jié)果與分析
5 結(jié)束語(yǔ)