□薛建周
在“大數(shù)據(jù)”的時代,大量的人、設(shè)備和傳感器通過數(shù)字網(wǎng)絡(luò)連接起來,每天都有從它們的交互中生成的大量數(shù)據(jù)。對大數(shù)據(jù)的有效處理和分析可以揭示寶貴的知識,使人們能夠及時地處理新出現(xiàn)的問題。
人們很少能找到現(xiàn)有文獻(xiàn)中所討論的大數(shù)據(jù)分析模型和犯罪取證方法。本文提出了一種利用異構(gòu)大數(shù)據(jù)資源進(jìn)行犯罪模式檢測的新的大數(shù)據(jù)分析框架。該框架可以揭示犯罪網(wǎng)絡(luò)的固有結(jié)構(gòu)特性,這對于犯罪調(diào)查和犯罪網(wǎng)絡(luò)運(yùn)行策略的制定都是必不可少的。本文所提出的系統(tǒng)所產(chǎn)生的結(jié)構(gòu)分析能力,可以顯著地提高網(wǎng)絡(luò)分析任務(wù)的效率和準(zhǔn)確性。該框架由兩種重要的分析方法組成,即結(jié)構(gòu)分析和網(wǎng)絡(luò)映射。基于所提出的框架,開發(fā)了一個自動犯罪檢測器(ACD)原型系統(tǒng),該系統(tǒng)結(jié)合了幾種大數(shù)據(jù)分析方法。實證評價表明,該框架對于犯罪網(wǎng)絡(luò)發(fā)現(xiàn)是有效的。從歷史上看,尋找預(yù)防犯罪活動的解決辦法是刑事司法和執(zhí)法專家的主要任務(wù)。在大數(shù)據(jù)時代,大量的人、罪犯、設(shè)備和感應(yīng)器通過數(shù)字網(wǎng)絡(luò)和交叉播放在這些信息中聚集在一起,這些信息為執(zhí)法人員和偵探提供了解決犯罪的手段。在這項研究中,將在計算機(jī)科學(xué)、社會科學(xué)和刑事司法之間采取跨學(xué)科的方法,發(fā)展一種大數(shù)據(jù)范式,幫助更容易、更快地解決犯罪問題??植乐髁x活動分為兩大類。ONC是涉及單個嫌疑人的個人犯罪,另一種是涉及一群嫌疑人的有組織犯罪(例如武裝搶劫、與幫派有關(guān)的事件)。自2001年9月11日雙塔襲擊以來,針對有組織犯罪的張力網(wǎng)絡(luò)分析一直受到學(xué)者們的廣泛關(guān)注,以防止未來的攻擊。組織犯罪,如販毒、組織犯罪、欺詐和持械搶劫,往往需要共謀和連鎖行動。警察部門和偵探機(jī)構(gòu)早就認(rèn)識到犯罪網(wǎng)絡(luò)模式對犯罪調(diào)查的重要性。清楚地了解網(wǎng)絡(luò)結(jié)構(gòu)、團(tuán)體行動和個人角色,可以幫助警察部門和偵探機(jī)構(gòu)采取適當(dāng)措施防止犯罪活動。目前,大多數(shù)法律信息和情報機(jī)構(gòu)都會遇到來自不同大數(shù)據(jù)資源的大量數(shù)據(jù),這些數(shù)據(jù)必須被處理并轉(zhuǎn)化為有用的信息。雖然執(zhí)法機(jī)構(gòu)越來越多地獲取數(shù)據(jù)和數(shù)據(jù)挖掘,以支持其犯罪分析能力,但它們?nèi)匀蝗狈Λ@得大數(shù)據(jù)機(jī)遇的工具和技術(shù)支持。一般來說,大數(shù)據(jù)的特點是“3V”——容量、Vclocity和多樣性[1]。
V表示從不同資源生成的數(shù)據(jù)量。速度表示比現(xiàn)有數(shù)據(jù)處理工具更快的數(shù)據(jù)生成速度。多樣性與不同格式的數(shù)據(jù)相關(guān),如結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化。最近,在大數(shù)據(jù)中加入了BCCN,以確保數(shù)據(jù)的可信度和準(zhǔn)確性。由于偽造數(shù)據(jù)會提取虛構(gòu)的犯罪模式,從而誤導(dǎo)執(zhí)法機(jī)構(gòu),因此,準(zhǔn)確性是一個重要的維度。因此,在分析過程的卡莉階段,數(shù)據(jù)的準(zhǔn)確性應(yīng)該受到質(zhì)疑[2]。
基于大數(shù)據(jù)的應(yīng)用,從不同的研究工作中提出了一個體系結(jié)構(gòu)的概念。為了描述隱私分析,在(Lu,R.et.al.)中提出了一種大數(shù)據(jù)的體系結(jié)構(gòu)。本文將描述犯罪數(shù)據(jù)獲取中的大數(shù)據(jù)分析的一般架構(gòu)。大數(shù)據(jù)的一般結(jié)構(gòu),主要由三個重要階段組成:第一階段是通過使用正確的元數(shù)據(jù)和進(jìn)程與數(shù)據(jù)收集、獲取和過濾相連接的,在這一階段,來自不同來源的數(shù)據(jù)被聚合和轉(zhuǎn)換,以補(bǔ)充數(shù)據(jù),并且信息值允許組織分析以獲得比較的收益。第二階段涉及應(yīng)用不同的分析和預(yù)測模型來尋找大規(guī)模數(shù)據(jù)集之間的模式和關(guān)系。根據(jù)組織的需求,大數(shù)據(jù)處理和建模的智能水平是不同的。這一階段的重點是當(dāng)前和未來,而不是傳統(tǒng)的歷史相關(guān)性,以抓住大的數(shù)據(jù)挑戰(zhàn)。第三階段主要組織和映射數(shù)據(jù)到所需的模型,同時解釋當(dāng)時發(fā)現(xiàn)的信息的含義。雖然結(jié)構(gòu)化數(shù)據(jù)集很自然地適應(yīng)了關(guān)系數(shù)據(jù)集,但半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集卻不是這樣。為了適應(yīng),非結(jié)構(gòu)化數(shù)據(jù)集有大量的應(yīng)用程序集中于提供對這些數(shù)據(jù)源的訪問viaNoSQL[3]。
(一)刑事數(shù)據(jù)領(lǐng)域的數(shù)據(jù)分析。刑事數(shù)據(jù)挖掘的主要思想分為關(guān)聯(lián)和順序規(guī)則化、分類和預(yù)測以及數(shù)據(jù)壓縮和聚類技術(shù)。關(guān)聯(lián)規(guī)則挖掘技術(shù)被廣泛應(yīng)用于從用戶交互記錄中檢測入侵檢測。此外,調(diào)查人員可以將這一方法應(yīng)用于入侵者的配置文件,從而設(shè)想未來的網(wǎng)絡(luò)攻擊。與關(guān)聯(lián)規(guī)則挖掘一樣,序貫規(guī)則挖掘主要發(fā)現(xiàn)在某些預(yù)定義事務(wù)的不同時間上發(fā)生SCQuencc事件的頻率,這種方法可以識別時間標(biāo)記數(shù)據(jù)之間的入侵模式。同樣,分類方法發(fā)現(xiàn),不同犯罪實體之間的相似特征,并將它們組織成預(yù)先定義的類。通常用于預(yù)測犯罪趨勢,分類和預(yù)測技術(shù)減少了捕捉犯罪實體的時間。數(shù)據(jù)提取從異構(gòu)數(shù)據(jù)訪問標(biāo)識特定模式。它已被用于從警方敘述的非結(jié)構(gòu)化記錄中自動識別個人地址、特征、地點。此外,還采用一些統(tǒng)計基礎(chǔ)方法將犯罪記錄中的罪犯、嫌疑人和組織等不同對象聯(lián)系起來。金融犯罪執(zhí)法網(wǎng)絡(luò)人工智能系統(tǒng)使用聚類方法識別類似于偵查洗錢和其他金融犯罪的交易[4]。
(二)現(xiàn)有犯罪網(wǎng)絡(luò)分析工具。將犯罪網(wǎng)絡(luò)分析工具分為三大類:第一代:手工方法。第一代的代表是“安娜帕帕圖”。在這種方法中,分析人員(A)構(gòu)造關(guān)聯(lián)矩陣;(B)檢查數(shù)據(jù)文件以識別罪犯之間的聯(lián)系;(C)繪制基于關(guān)聯(lián)矩陣的鏈接圖,以便于可視化。第二代:基于圖形的應(yīng)用。第二代工具由COPLINK開發(fā),可以自動生成圖形。網(wǎng)絡(luò)劃分是分析犯罪網(wǎng)絡(luò)的另一種重要方法,它采用了矩陣置換和更嚴(yán)格的聚類兩種方法。矩陣排列主要是矩陣的RC-排列行和列,使得具有相似屬性的成員組織在同一組中。由于矩陣置換中的NP難問題,許多研究者特別關(guān)注在SNA研究中使用層次聚類方法。位置和角色是社會網(wǎng)絡(luò)分析中的重要概念,它們在本質(zhì)上是聯(lián)系在一起的。位置是一個網(wǎng)絡(luò)節(jié)點的集合,這些節(jié)點在結(jié)構(gòu)上是可替換的,在社交活動、地位和與其他節(jié)點的鏈接方面也是相似的。網(wǎng)絡(luò)中相同位置的兩個節(jié)點在位置分析中不需要直接連接,而在關(guān)系分析中是必要的[5]。
為了便于犯罪模式的檢測,提出一種結(jié)合兩種分析方法的框架:一是結(jié)構(gòu)分析;二是網(wǎng)絡(luò)映射。在此框架下,開發(fā)了一個原型系統(tǒng)——自動犯罪檢測系統(tǒng),它可以應(yīng)用于大數(shù)據(jù)環(huán)境中。框架可以被歸類為第三代網(wǎng)絡(luò)分析工具。并且,還可以利用該系統(tǒng)提供的一些數(shù)據(jù)分析過程,找出是否可以有效地發(fā)現(xiàn)犯罪模式檢測,并提出了建議的框架。WC在框架中使用了三種最流行的中心功能。為了識別犯罪網(wǎng)絡(luò)中的中心成員,犯罪網(wǎng)絡(luò)中的中心性、中心性和中間中心性被廣泛使用。一個節(jié)點的度中心度被度量為該節(jié)點與所有其他節(jié)點的連接數(shù)。如果n是一個犯罪網(wǎng)絡(luò)中的節(jié)點總數(shù),則節(jié)點u的度中心度可以用C(U)來度量,可以通過除以Byn-1來標(biāo)準(zhǔn)化。CD有六個主要Memus(文件、編輯、提取、集群、結(jié)構(gòu)、地圖和幫助)。前兩個菜單-文件和編輯,用于類似的目的,如典型的應(yīng)用系統(tǒng)。一般情況下,文件和編輯菜單包括打開、保存、編輯、打印、剪切、復(fù)制、粘貼和S0的功能。結(jié)構(gòu)分析和網(wǎng)絡(luò)映射模塊給出了中心性度量和依賴矩陣,用于提供清晰的圖像來識別一個粒子區(qū)域節(jié)點對其他節(jié)點的依賴程度,以及其他節(jié)點對任何特定節(jié)點的依賴程度。這一類型的結(jié)構(gòu)分析和網(wǎng)絡(luò)映射有助于犯罪關(guān)聯(lián)和模式可視化[6]。
ACD系統(tǒng)計算的中心度度量和依賴矩陣。在中心度度量中,度和中間度度量是非常簡單的,當(dāng)節(jié)點與其他節(jié)點具有較高的連接度時,度和中間度實際上度量的是相依性。如果更多的節(jié)點依賴于某個特定節(jié)點與其他節(jié)點通信,則該節(jié)點具有更高的之間性[7]。
一個節(jié)點與網(wǎng)絡(luò)中其他節(jié)點的距離是由該節(jié)點之間的總距離和acll中的所有其他節(jié)點之間的距離來衡量的。中心節(jié)點(單元lcader)具有較高的貼近度值,因為它們與單元中所有其他節(jié)點的總距離最小。
本文利用大數(shù)據(jù)的新機(jī)遇,特別是重視大數(shù)據(jù)犯罪模式的準(zhǔn)確提取,提出了一種大數(shù)據(jù)分析的總體體系結(jié)構(gòu),回顧了現(xiàn)有的犯罪網(wǎng)絡(luò)分析工具在數(shù)據(jù)挖掘中的應(yīng)用,還提出了一個從社會媒體數(shù)據(jù)、報紙報道、警察報告等大規(guī)模數(shù)據(jù)中提供清晰的犯罪網(wǎng)絡(luò)模式的框架,以幫助法律工作者和智能代理機(jī)構(gòu)。在此基礎(chǔ)上,對系統(tǒng)進(jìn)行了全面的評價,最后總結(jié)了本文的研究內(nèi)容。