朱 峰,萬雪勇,雷鵬程
(1.吉安市公安局網(wǎng)安支隊(duì),江西 吉安 343000;2.江西警察學(xué)院,江西 南昌 330103;3.江西省公安廳網(wǎng)絡(luò)安全和技術(shù)偵察總隊(duì),江西 南昌 330006)
我們面對的大數(shù)據(jù)由大量的各種各樣的數(shù)據(jù)庫構(gòu)成,數(shù)據(jù)庫是由一張張數(shù)據(jù)表組成,大數(shù)據(jù)是由看則無限實(shí)則有界的數(shù)據(jù)表鋪接成的數(shù)據(jù)地球。 站在數(shù)據(jù)地球之外來看, 我們需規(guī)劃管理好各地的數(shù)據(jù)庫,身在數(shù)據(jù)地球之中來講,則需分布式交通和樞紐來遍及整個數(shù)據(jù)地球。 因此我們設(shè)計(jì)了以地域來劃分,以服務(wù)接口為連接點(diǎn)的分布式大數(shù)據(jù)處理架構(gòu)。
我們將分布各地的數(shù)據(jù)庫稱為離散數(shù)據(jù)庫或數(shù)據(jù)庫集群, 該架構(gòu)物理上是一種以大數(shù)據(jù)處理中心為根、總線與接口為枝、各離散數(shù)據(jù)庫和數(shù)據(jù)庫集群為葉的樹形結(jié)構(gòu)。 基本原理是由大數(shù)據(jù)處理中心統(tǒng)一協(xié)調(diào)下發(fā)任務(wù), 以各離散數(shù)據(jù)庫預(yù)建的數(shù)據(jù)源產(chǎn)生地區(qū)索引為基礎(chǔ), 通過大數(shù)據(jù)處理的詞義模型來挖掘大量數(shù)據(jù)中潛在的價值信息。 大數(shù)據(jù)時代很多情況下難以預(yù)先確定模式, 模式只有在數(shù)據(jù)出現(xiàn)之后才能確定, 且模式隨著數(shù)據(jù)量的增長處于不斷的演變之中,[1]大數(shù)據(jù)處理的詞義模型跨越了大數(shù)據(jù)模式和數(shù)據(jù)的關(guān)系的障礙, 體現(xiàn)了該架構(gòu)對不同數(shù)據(jù)庫或者說數(shù)據(jù)模式的包容性, 而包容性是未來超大規(guī)模大數(shù)據(jù)處理的核心內(nèi)容與研究方向。
本文將探討基于面向服務(wù)可包容的分布式大數(shù)據(jù)樹形處理架構(gòu)在犯罪預(yù)測方面的應(yīng)用。
研究大數(shù)據(jù)必須以理清數(shù)據(jù)源頭為基礎(chǔ), 數(shù)據(jù)本身在一定程度上會受數(shù)據(jù)源頭的特點(diǎn)所影響,數(shù)據(jù)模式又與不同數(shù)據(jù)庫的結(jié)構(gòu)相聯(lián)系, 數(shù)據(jù)源是由產(chǎn)生的數(shù)據(jù)信息的設(shè)備來區(qū)分。 數(shù)據(jù)模式不能限制,然后以數(shù)據(jù)源來劃分,即數(shù)據(jù)源產(chǎn)生地域來區(qū)別,可以將數(shù)據(jù)歸類為相應(yīng)有限的區(qū)塊。 同一數(shù)據(jù)庫有多地?cái)?shù)據(jù),將以數(shù)據(jù)的來源,如產(chǎn)生數(shù)據(jù)的IP 源歸屬或其他方法按省、市、縣來建立數(shù)據(jù)區(qū)域索引。
這種分布式大數(shù)據(jù)樹形處理架構(gòu)主要包括以下幾個模塊:
1.XML 查詢端。 XML 查詢端,使用統(tǒng)一的XML語言編碼,此端工作對象是各數(shù)據(jù)庫或數(shù)據(jù)庫集群,功能是訪問查詢指定數(shù)據(jù)庫和在指定數(shù)據(jù)庫中建立以IP 當(dāng)前歸屬地為內(nèi)容的索引(索引表通過IP 字段的自動檢索建立, 也可手動根據(jù)具體情況數(shù)據(jù)源產(chǎn)生地來劃分添加)。
2.XML 控制端。 接口統(tǒng)一標(biāo)準(zhǔn)以提供總線通過接口訪問查詢指定數(shù)據(jù)庫, 以完成大數(shù)據(jù)處理中心下發(fā)的數(shù)據(jù)挖掘查詢?nèi)蝿?wù)。
大數(shù)據(jù)處理中心通過總線和預(yù)先設(shè)置好的數(shù)據(jù)服務(wù)接口,按照指定命令分解任務(wù),向有關(guān)聯(lián)的各地?cái)?shù)據(jù)庫下發(fā)分任務(wù), 各地?cái)?shù)據(jù)庫服務(wù)器可同時分別處理所接收的任務(wù)要求, 并將結(jié)果通過數(shù)據(jù)服務(wù)接口和總線反饋到大數(shù)據(jù)處理中心。
大數(shù)據(jù)處理的詞義模型也是一種大數(shù)據(jù)需求型研究模型。 按區(qū)域劃分以分類關(guān)鍵詞為線索關(guān)聯(lián)到離散數(shù)據(jù)庫的表中記錄的有關(guān)信息。 總的概要關(guān)系如圖1 所示。
圖1 大數(shù)據(jù)處理關(guān)系圖
1.大數(shù)據(jù)需求研究模型
(1)大數(shù)據(jù)需求權(quán)重研究模型。 大數(shù)據(jù)需求研究模型必須考慮需求影響, 我們將某地區(qū)與需求內(nèi)容(通常指某一需預(yù)測的已知事件) 關(guān)系度定義為S,S對大數(shù)據(jù)的研究模型的影響貫穿始末。 需求因子S映射出與S 密切影響的其他的關(guān)系因子量m1-…mn,Z(mi)為各因子量的出現(xiàn)概率,每個關(guān)系因子的影響度不一樣,我們?yōu)橹x一個關(guān)系系數(shù)權(quán)重b1-…bn(注:bi = 1,1≤i≤n)。 這樣我們就得出大數(shù)據(jù)需求研究模型權(quán)重計(jì)算公式:
S= Z(m1)b1+…+ Z(mn)bn 即S= bi* Z(mi)
通過這個公式可以計(jì)算出某地區(qū)與需求內(nèi)容即某一事件的關(guān)系強(qiáng)度, 關(guān)系強(qiáng)度和評分一樣可按百分比顯示, 五級標(biāo)注,80%-100%為一級,60%-80%為二級,40%-60%為三級,20%-40%為四級,20%以下為五級。[2]關(guān)系越強(qiáng)出現(xiàn)該需求內(nèi)容的概率越大。
此權(quán)重計(jì)算公式針對一種相對的關(guān)系強(qiáng)度計(jì)算,在預(yù)測事件發(fā)生方面具有簡便易操作的優(yōu)點(diǎn),但精確度不高,在粗略預(yù)測使用中較為合適。
(2)大數(shù)據(jù)需求全概率研究模型。 大數(shù)據(jù)需求全概率研究模型比權(quán)重研究模型具有較高的精確度和正確率,計(jì)算相對其也較復(fù)雜。 具體計(jì)算方式在下面大數(shù)據(jù)處理的詞義模型中詳細(xì)闡述。
2.大數(shù)據(jù)處理詞義模型
(1)大數(shù)據(jù)處理詞義模型的基本原理。 大數(shù)據(jù)處理的詞義模型是建立在大數(shù)據(jù)需求研究模型之上通過詞組分割、詞義關(guān)聯(lián)、邏輯轉(zhuǎn)換獲得多個關(guān)鍵詞字段為各關(guān)系因子來進(jìn)行大數(shù)據(jù)處理研究的模型。 該模型的方式是將大數(shù)據(jù)傳統(tǒng)處理挖掘方法化歸為處理大數(shù)據(jù)關(guān)鍵詞信息的方法。
(2)關(guān)鍵詞因子的篩選。 通過各種方法獲得大量有關(guān)的關(guān)鍵詞因子數(shù)據(jù)集合, 但其數(shù)量太多會增加研究的復(fù)雜性。 所以要篩選出盡可能少的關(guān)鍵詞因子,且盡可能全地反映我們需求的結(jié)果狀態(tài)。 關(guān)鍵詞因子數(shù)據(jù)集合中的項(xiàng)集存在性往往存在著一定關(guān)系, 這些項(xiàng)與項(xiàng)之間的關(guān)系異于挖掘算法里的關(guān)聯(lián)關(guān)系,它們的相關(guān)關(guān)系是基于概率模型下的相關(guān)。[3]我們可通過主成分分析法 (principal component analysis) 將關(guān)鍵詞因子間有相關(guān)關(guān)系的進(jìn)行初步篩選,令剩下的關(guān)鍵詞因子在表面上兩兩不相關(guān),達(dá)到數(shù)據(jù)降維效果以降低研究難度和成本。
(3)大數(shù)據(jù)處理詞義模型的全概率計(jì)算方式。 把需求內(nèi)容即某事件用S 來表示, 產(chǎn)生該事件的有關(guān)原因事件A1-…An ,原因事件發(fā)生的概率通過以往數(shù)據(jù)計(jì)算為P (An)(原因An 對S 事件發(fā)生的影響度為P(B/An)),通過一些事件的逆向歷史統(tǒng)計(jì)調(diào)查,發(fā)現(xiàn)原因事件與相應(yīng)的關(guān)鍵詞的出現(xiàn)量成正比。 設(shè)An原因事件對應(yīng)的關(guān)鍵詞為Kn,設(shè)定某地區(qū)某時間段產(chǎn)生關(guān)鍵詞Kn 有效次數(shù)量(排除重復(fù)量、錯誤量、干擾量) 與所有地區(qū)在該時間段產(chǎn)生該關(guān)鍵詞有效次數(shù)量的比值為Z(Kn),通過大量歷史數(shù)據(jù)計(jì)算出這個值和原因事件發(fā)生概率P(An)偏差系數(shù)為ξn。因此P(An)= Z(Kn)ξ,將此結(jié)果套入全概率公式可得公式:
事件S 發(fā)生的概率P(S)= P(S/Ai) Z(Ki)ξi
對各數(shù)據(jù)中反映關(guān)鍵詞Kn 有效次數(shù)量的復(fù)雜重復(fù)量排除中, 我們可以參考2010 年P(guān)VLDB 全球數(shù)據(jù)庫頂級會議上介紹的一種對多數(shù)據(jù)源同步復(fù)制、傳遞復(fù)制的檢測算法,[4]結(jié)合利用隱馬爾可夫模型來識別有關(guān)數(shù)據(jù)復(fù)制造成的重復(fù)量。
大數(shù)據(jù)處理中心是由各種功能服務(wù)器組成的服務(wù)器集群,包括若干專項(xiàng)功能服務(wù)器,是進(jìn)行任務(wù)下發(fā)、任務(wù)分析、任務(wù)收集、任務(wù)研判、錯誤糾正、實(shí)時監(jiān)測的大數(shù)據(jù)處理架構(gòu)中心。
1.離散數(shù)據(jù)庫資料服務(wù)器。記錄各地離散數(shù)據(jù)庫的有關(guān)信息與分類備注, 并實(shí)時監(jiān)測各數(shù)據(jù)庫的有關(guān)狀態(tài),通過各地?cái)?shù)據(jù)庫與服務(wù)接口地址,定期檢測數(shù)據(jù)庫的運(yùn)行狀態(tài),并記錄反饋結(jié)果,實(shí)時更新數(shù)據(jù)庫備案資料, 以及記錄保存各離散數(shù)據(jù)庫在完成大數(shù)據(jù)處理挖掘中的工作資料。
2.IP 實(shí)時分配信息服務(wù)器。 該服務(wù)器中,建立了IP 統(tǒng)一規(guī)劃庫,實(shí)時跟蹤IP 的重新分配情況。 并記錄IP 每次重新分配的時間段和歸屬地。 為區(qū)別離散數(shù)據(jù)庫中的數(shù)據(jù)源產(chǎn)生地的歸屬提供可靠信息支撐。 各離散數(shù)據(jù)庫在新建數(shù)據(jù)源歸屬索引時可以根據(jù)IP 和時間段,來劃分歸屬。 為每個IP 在某時間段的使用地建立檔案,并以不同序號識別,同一IP 因多次調(diào)整跨縣市分配都有不同的序號標(biāo)注記錄,并且該IP 序號同時寫入在離散數(shù)據(jù)庫的數(shù)據(jù)源歸屬索引中。
3.任務(wù)分配研判服務(wù)器。其按照每次大數(shù)據(jù)挖掘處理任務(wù)的具體需求,進(jìn)行任務(wù)劃分,并下發(fā)到各地的離散數(shù)據(jù)庫所在服務(wù)器和其他有關(guān)給任務(wù)提供支撐的服務(wù)器, 并對反饋的信息根據(jù)預(yù)設(shè)模型進(jìn)行分析研判為各類決策活動提供有價值的信息。
4.異常識別糾錯服務(wù)器。實(shí)時跟蹤處理各地分任務(wù)的完成情況,統(tǒng)一匯集處理分析結(jié)果,并記錄錯誤實(shí)時反饋修正。如當(dāng)出現(xiàn)歸屬誤差等錯誤時,通過IP分配序號可以及時找到需要修改的離散數(shù)據(jù)庫中的索引信息,以及時修正錯誤。 根據(jù)離散數(shù)據(jù)庫服務(wù)器中的有關(guān)數(shù)據(jù)庫實(shí)時信息識別數(shù)據(jù)庫異常狀態(tài),針對性連接訪問有關(guān)異常數(shù)據(jù)庫進(jìn)行全面核對檢查,并將結(jié)果反饋到離散數(shù)據(jù)庫資料服務(wù)器。
犯罪預(yù)測,就是運(yùn)用科學(xué)的理論和方法,通過調(diào)查、統(tǒng)計(jì)、比較、處理有關(guān)犯罪的數(shù)字和資料,分析研究犯罪的規(guī)律,對未來犯罪現(xiàn)象的種類、數(shù)量、發(fā)展趨勢等進(jìn)行的推測和估計(jì)。[5]犯罪預(yù)測的方法非常多,如:專家預(yù)測法、相關(guān)因素分析法、統(tǒng)計(jì)學(xué)的方法、概率論的方法、模糊數(shù)學(xué)預(yù)測法等。 犯罪預(yù)測已被公認(rèn)為犯罪學(xué)理論體系中重要的組成部分, 是犯罪預(yù)防必不可少的前提條件。
大數(shù)據(jù)處理詞義模型特別適合區(qū)域型事件發(fā)生概率的預(yù)測工作, 在打擊違法犯罪工作方面可以通過統(tǒng)計(jì)計(jì)算區(qū)域各類違法犯罪的擴(kuò)散趨勢與未來發(fā)案率, 為各類違法犯罪特別是信息安全方面犯罪的防范、控制、偵破提供有效的數(shù)據(jù)情報(bào)支撐。
微博犯罪預(yù)測就是大數(shù)據(jù)處理詞義模型的應(yīng)用。 帶地理位置標(biāo)簽的微博預(yù)測犯罪,通過大量的歷史犯罪記錄和地理位置信息進(jìn)行相關(guān)分析, 具體是通過微博博文當(dāng)時談?wù)摰臒狳c(diǎn), 或某一類群體某一時刻談?wù)撃愁悷狳c(diǎn)關(guān)鍵詞, 與這之后這一地區(qū)發(fā)生某類犯罪情況,得到他們之間的匹配度,利用前面所述關(guān)鍵詞因子篩選方法和概率計(jì)算方式預(yù)測出該地區(qū)未來會發(fā)生犯罪或某類犯罪的幾率。
另一類常見的是搜索引擎犯罪預(yù)測。 通過大量歷史數(shù)據(jù)分析不同地區(qū),在某一段時期,檢索某類關(guān)鍵詞的頻率和之后這一地區(qū)發(fā)生某類犯罪匹配情況, 利用關(guān)鍵詞因子篩選法選出一系列有效檢索關(guān)鍵詞, 并計(jì)算出這些關(guān)鍵詞因子與某類犯罪事件發(fā)生的影響系數(shù)等相關(guān)參數(shù)。 我們可將當(dāng)前這些檢索關(guān)鍵詞出現(xiàn)的頻率和提交這些關(guān)鍵詞區(qū)域進(jìn)行概率分析,獲知未來該區(qū)域發(fā)生某類犯罪的可能性大小。
大數(shù)據(jù)處理詞義模型用于犯罪預(yù)測已越來越多的出現(xiàn)在國內(nèi)外各警察機(jī)構(gòu)。 美國已經(jīng)有超過10 個城市的警察局引入了大數(shù)據(jù)處理算法,包括洛杉磯、波士頓和芝加哥等, 洛杉磯警察局利用大數(shù)據(jù)處理及分析軟件成功地把轄區(qū)里的盜竊犯罪降低了33%, 暴力犯罪降低了21%, 財(cái)產(chǎn)類犯罪降低了12%。 北京懷柔公安局使用的“犯罪數(shù)據(jù)分析和趨勢預(yù)測系統(tǒng)”,是典型的大數(shù)據(jù)處理模型在犯罪分析及預(yù)測方面的應(yīng)用, 該系統(tǒng)的應(yīng)用使懷柔公安局轄區(qū)內(nèi)的龍山、泉河、懷柔鎮(zhèn)派出所2013 年刑事案件發(fā)案率分別下降了10.7% 、9.3% 和8.8% 。
大數(shù)據(jù)具有多源異構(gòu)、分布廣泛、動態(tài)增長、無固定模式等特點(diǎn), 大數(shù)據(jù)時代的到來為我們的公安工作帶來了深刻的影響, 犯罪預(yù)測作為預(yù)防犯罪的重要前提,在大數(shù)據(jù)時代將會有長足的發(fā)展。
我們研究了一種基于面向服務(wù)為功能基礎(chǔ)的,按區(qū)域樹形分布式并行處理大數(shù)據(jù)的體系架構(gòu),并將其詞義處理模型用于犯罪預(yù)測, 在吉安市公安局網(wǎng)安支隊(duì)做了有益的嘗試,取得了一定的成果。
[1] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,(1):146-169.
[2] 朱峰,劉捷,李軍.遠(yuǎn)程勘驗(yàn)取證分析軟件開發(fā)與實(shí)現(xiàn)[J].信息網(wǎng)絡(luò)安全,2011,(11):73-74.
[3] 李海峰,章寧,柴艷妹.不確定性數(shù)據(jù)上頻繁項(xiàng)集挖掘的預(yù)處理方法[J].計(jì)算機(jī)科學(xué),2012,(7):161-164.
[4] Xin Dong, Laure Berti-Equille,Yifan Hu, Divesh Srivastava. Global Detection of Complex Copying Relationships Between Sources[J]. Proceedings of the VLDB Endowment,2010,3(1-2):1358-1369.
[5] 康樹華,張小虎.犯罪學(xué)[M].北京:北京大學(xué)出版社,2004:187.