分布式大數(shù)據(jù)樹形處理架構(gòu)在犯罪預(yù)測方面的應(yīng)用研究

2014-11-20 10:03:28萬雪勇雷鵬程

江西警察學(xué)院學(xué)報(bào) 2014年5期

朱峰，萬雪勇，雷鵬程

（1.吉安市公安局網(wǎng)安支隊(duì)，江西吉安 343000；2.江西警察學(xué)院，江西南昌 330103；3.江西省公安廳網(wǎng)絡(luò)安全和技術(shù)偵察總隊(duì)，江西南昌 330006）

我們面對的大數(shù)據(jù)由大量的各種各樣的數(shù)據(jù)庫構(gòu)成，數(shù)據(jù)庫是由一張張數(shù)據(jù)表組成，大數(shù)據(jù)是由看則無限實(shí)則有界的數(shù)據(jù)表鋪接成的數(shù)據(jù)地球。站在數(shù)據(jù)地球之外來看，我們需規(guī)劃管理好各地的數(shù)據(jù)庫，身在數(shù)據(jù)地球之中來講，則需分布式交通和樞紐來遍及整個數(shù)據(jù)地球。因此我們設(shè)計(jì)了以地域來劃分，以服務(wù)接口為連接點(diǎn)的分布式大數(shù)據(jù)處理架構(gòu)。

我們將分布各地的數(shù)據(jù)庫稱為離散數(shù)據(jù)庫或數(shù)據(jù)庫集群，該架構(gòu)物理上是一種以大數(shù)據(jù)處理中心為根、總線與接口為枝、各離散數(shù)據(jù)庫和數(shù)據(jù)庫集群為葉的樹形結(jié)構(gòu)。基本原理是由大數(shù)據(jù)處理中心統(tǒng)一協(xié)調(diào)下發(fā)任務(wù)，以各離散數(shù)據(jù)庫預(yù)建的數(shù)據(jù)源產(chǎn)生地區(qū)索引為基礎(chǔ)，通過大數(shù)據(jù)處理的詞義模型來挖掘大量數(shù)據(jù)中潛在的價值信息。大數(shù)據(jù)時代很多情況下難以預(yù)先確定模式，模式只有在數(shù)據(jù)出現(xiàn)之后才能確定，且模式隨著數(shù)據(jù)量的增長處于不斷的演變之中，[1]大數(shù)據(jù)處理的詞義模型跨越了大數(shù)據(jù)模式和數(shù)據(jù)的關(guān)系的障礙，體現(xiàn)了該架構(gòu)對不同數(shù)據(jù)庫或者說數(shù)據(jù)模式的包容性，而包容性是未來超大規(guī)模大數(shù)據(jù)處理的核心內(nèi)容與研究方向。

本文將探討基于面向服務(wù)可包容的分布式大數(shù)據(jù)樹形處理架構(gòu)在犯罪預(yù)測方面的應(yīng)用。

一、基于面向服務(wù)可包容的分布式大數(shù)據(jù)樹形處理架構(gòu)

研究大數(shù)據(jù)必須以理清數(shù)據(jù)源頭為基礎(chǔ)，數(shù)據(jù)本身在一定程度上會受數(shù)據(jù)源頭的特點(diǎn)所影響，數(shù)據(jù)模式又與不同數(shù)據(jù)庫的結(jié)構(gòu)相聯(lián)系，數(shù)據(jù)源是由產(chǎn)生的數(shù)據(jù)信息的設(shè)備來區(qū)分。數(shù)據(jù)模式不能限制，然后以數(shù)據(jù)源來劃分，即數(shù)據(jù)源產(chǎn)生地域來區(qū)別，可以將數(shù)據(jù)歸類為相應(yīng)有限的區(qū)塊。同一數(shù)據(jù)庫有多地?cái)?shù)據(jù)，將以數(shù)據(jù)的來源，如產(chǎn)生數(shù)據(jù)的IP 源歸屬或其他方法按省、市、縣來建立數(shù)據(jù)區(qū)域索引。

這種分布式大數(shù)據(jù)樹形處理架構(gòu)主要包括以下幾個模塊：

（一）數(shù)據(jù)服務(wù)接口

1.XML 查詢端。 XML 查詢端，使用統(tǒng)一的XML語言編碼，此端工作對象是各數(shù)據(jù)庫或數(shù)據(jù)庫集群，功能是訪問查詢指定數(shù)據(jù)庫和在指定數(shù)據(jù)庫中建立以IP 當(dāng)前歸屬地為內(nèi)容的索引（索引表通過IP 字段的自動檢索建立，也可手動根據(jù)具體情況數(shù)據(jù)源產(chǎn)生地來劃分添加）。

2.XML 控制端。接口統(tǒng)一標(biāo)準(zhǔn)以提供總線通過接口訪問查詢指定數(shù)據(jù)庫，以完成大數(shù)據(jù)處理中心下發(fā)的數(shù)據(jù)挖掘查詢?nèi)蝿?wù)。

（二）數(shù)據(jù)的分布式并行處理

大數(shù)據(jù)處理中心通過總線和預(yù)先設(shè)置好的數(shù)據(jù)服務(wù)接口，按照指定命令分解任務(wù)，向有關(guān)聯(lián)的各地?cái)?shù)據(jù)庫下發(fā)分任務(wù)，各地?cái)?shù)據(jù)庫服務(wù)器可同時分別處理所接收的任務(wù)要求，并將結(jié)果通過數(shù)據(jù)服務(wù)接口和總線反饋到大數(shù)據(jù)處理中心。

（三）大數(shù)據(jù)處理的詞義模型

大數(shù)據(jù)處理的詞義模型也是一種大數(shù)據(jù)需求型研究模型。按區(qū)域劃分以分類關(guān)鍵詞為線索關(guān)聯(lián)到離散數(shù)據(jù)庫的表中記錄的有關(guān)信息。總的概要關(guān)系如圖1 所示。

圖1 大數(shù)據(jù)處理關(guān)系圖

1.大數(shù)據(jù)需求研究模型

（1）大數(shù)據(jù)需求權(quán)重研究模型。大數(shù)據(jù)需求研究模型必須考慮需求影響，我們將某地區(qū)與需求內(nèi)容（通常指某一需預(yù)測的已知事件）關(guān)系度定義為S,S對大數(shù)據(jù)的研究模型的影響貫穿始末。需求因子S映射出與S 密切影響的其他的關(guān)系因子量m1-…mn，Z（mi）為各因子量的出現(xiàn)概率，每個關(guān)系因子的影響度不一樣，我們?yōu)橹x一個關(guān)系系數(shù)權(quán)重b1-…bn（注：bi = 1,1≤i≤n）。這樣我們就得出大數(shù)據(jù)需求研究模型權(quán)重計(jì)算公式：

S= Z（m1）b1+…+ Z（mn）bn 即S= bi* Z（mi）

通過這個公式可以計(jì)算出某地區(qū)與需求內(nèi)容即某一事件的關(guān)系強(qiáng)度，關(guān)系強(qiáng)度和評分一樣可按百分比顯示，五級標(biāo)注，80%-100%為一級，60%-80%為二級，40%-60%為三級，20%-40%為四級，20%以下為五級。[2]關(guān)系越強(qiáng)出現(xiàn)該需求內(nèi)容的概率越大。

此權(quán)重計(jì)算公式針對一種相對的關(guān)系強(qiáng)度計(jì)算，在預(yù)測事件發(fā)生方面具有簡便易操作的優(yōu)點(diǎn)，但精確度不高，在粗略預(yù)測使用中較為合適。

（2）大數(shù)據(jù)需求全概率研究模型。大數(shù)據(jù)需求全概率研究模型比權(quán)重研究模型具有較高的精確度和正確率，計(jì)算相對其也較復(fù)雜。具體計(jì)算方式在下面大數(shù)據(jù)處理的詞義模型中詳細(xì)闡述。

2.大數(shù)據(jù)處理詞義模型

（1）大數(shù)據(jù)處理詞義模型的基本原理。大數(shù)據(jù)處理的詞義模型是建立在大數(shù)據(jù)需求研究模型之上通過詞組分割、詞義關(guān)聯(lián)、邏輯轉(zhuǎn)換獲得多個關(guān)鍵詞字段為各關(guān)系因子來進(jìn)行大數(shù)據(jù)處理研究的模型。該模型的方式是將大數(shù)據(jù)傳統(tǒng)處理挖掘方法化歸為處理大數(shù)據(jù)關(guān)鍵詞信息的方法。

（2）關(guān)鍵詞因子的篩選。通過各種方法獲得大量有關(guān)的關(guān)鍵詞因子數(shù)據(jù)集合，但其數(shù)量太多會增加研究的復(fù)雜性。所以要篩選出盡可能少的關(guān)鍵詞因子，且盡可能全地反映我們需求的結(jié)果狀態(tài)。關(guān)鍵詞因子數(shù)據(jù)集合中的項(xiàng)集存在性往往存在著一定關(guān)系，這些項(xiàng)與項(xiàng)之間的關(guān)系異于挖掘算法里的關(guān)聯(lián)關(guān)系，它們的相關(guān)關(guān)系是基于概率模型下的相關(guān)。[3]我們可通過主成分分析法（principal component analysis）將關(guān)鍵詞因子間有相關(guān)關(guān)系的進(jìn)行初步篩選，令剩下的關(guān)鍵詞因子在表面上兩兩不相關(guān)，達(dá)到數(shù)據(jù)降維效果以降低研究難度和成本。

（3）大數(shù)據(jù)處理詞義模型的全概率計(jì)算方式。把需求內(nèi)容即某事件用S 來表示，產(chǎn)生該事件的有關(guān)原因事件A1-…An ，原因事件發(fā)生的概率通過以往數(shù)據(jù)計(jì)算為P (An)(原因An 對S 事件發(fā)生的影響度為P(B/An)),通過一些事件的逆向歷史統(tǒng)計(jì)調(diào)查，發(fā)現(xiàn)原因事件與相應(yīng)的關(guān)鍵詞的出現(xiàn)量成正比。設(shè)An原因事件對應(yīng)的關(guān)鍵詞為Kn，設(shè)定某地區(qū)某時間段產(chǎn)生關(guān)鍵詞Kn 有效次數(shù)量（排除重復(fù)量、錯誤量、干擾量）與所有地區(qū)在該時間段產(chǎn)生該關(guān)鍵詞有效次數(shù)量的比值為Z（Kn），通過大量歷史數(shù)據(jù)計(jì)算出這個值和原因事件發(fā)生概率P(An)偏差系數(shù)為ξn。因此P(An)= Z（Kn）ξ，將此結(jié)果套入全概率公式可得公式：

事件S 發(fā)生的概率P（S）= P(S/Ai) Z（Ki）ξi

對各數(shù)據(jù)中反映關(guān)鍵詞Kn 有效次數(shù)量的復(fù)雜重復(fù)量排除中，我們可以參考2010 年P(guān)VLDB 全球數(shù)據(jù)庫頂級會議上介紹的一種對多數(shù)據(jù)源同步復(fù)制、傳遞復(fù)制的檢測算法，[4]結(jié)合利用隱馬爾可夫模型來識別有關(guān)數(shù)據(jù)復(fù)制造成的重復(fù)量。

（四）大數(shù)據(jù)處理中心

大數(shù)據(jù)處理中心是由各種功能服務(wù)器組成的服務(wù)器集群，包括若干專項(xiàng)功能服務(wù)器，是進(jìn)行任務(wù)下發(fā)、任務(wù)分析、任務(wù)收集、任務(wù)研判、錯誤糾正、實(shí)時監(jiān)測的大數(shù)據(jù)處理架構(gòu)中心。

1.離散數(shù)據(jù)庫資料服務(wù)器。記錄各地離散數(shù)據(jù)庫的有關(guān)信息與分類備注，并實(shí)時監(jiān)測各數(shù)據(jù)庫的有關(guān)狀態(tài)，通過各地?cái)?shù)據(jù)庫與服務(wù)接口地址，定期檢測數(shù)據(jù)庫的運(yùn)行狀態(tài)，并記錄反饋結(jié)果，實(shí)時更新數(shù)據(jù)庫備案資料，以及記錄保存各離散數(shù)據(jù)庫在完成大數(shù)據(jù)處理挖掘中的工作資料。

2.IP 實(shí)時分配信息服務(wù)器。該服務(wù)器中，建立了IP 統(tǒng)一規(guī)劃庫，實(shí)時跟蹤IP 的重新分配情況。并記錄IP 每次重新分配的時間段和歸屬地。為區(qū)別離散數(shù)據(jù)庫中的數(shù)據(jù)源產(chǎn)生地的歸屬提供可靠信息支撐。各離散數(shù)據(jù)庫在新建數(shù)據(jù)源歸屬索引時可以根據(jù)IP 和時間段，來劃分歸屬。為每個IP 在某時間段的使用地建立檔案，并以不同序號識別，同一IP 因多次調(diào)整跨縣市分配都有不同的序號標(biāo)注記錄，并且該IP 序號同時寫入在離散數(shù)據(jù)庫的數(shù)據(jù)源歸屬索引中。

3.任務(wù)分配研判服務(wù)器。其按照每次大數(shù)據(jù)挖掘處理任務(wù)的具體需求，進(jìn)行任務(wù)劃分，并下發(fā)到各地的離散數(shù)據(jù)庫所在服務(wù)器和其他有關(guān)給任務(wù)提供支撐的服務(wù)器，并對反饋的信息根據(jù)預(yù)設(shè)模型進(jìn)行分析研判為各類決策活動提供有價值的信息。

4.異常識別糾錯服務(wù)器。實(shí)時跟蹤處理各地分任務(wù)的完成情況，統(tǒng)一匯集處理分析結(jié)果，并記錄錯誤實(shí)時反饋修正。如當(dāng)出現(xiàn)歸屬誤差等錯誤時，通過IP分配序號可以及時找到需要修改的離散數(shù)據(jù)庫中的索引信息，以及時修正錯誤。根據(jù)離散數(shù)據(jù)庫服務(wù)器中的有關(guān)數(shù)據(jù)庫實(shí)時信息識別數(shù)據(jù)庫異常狀態(tài)，針對性連接訪問有關(guān)異常數(shù)據(jù)庫進(jìn)行全面核對檢查，并將結(jié)果反饋到離散數(shù)據(jù)庫資料服務(wù)器。

二、在犯罪預(yù)測方面的應(yīng)用研究

犯罪預(yù)測，就是運(yùn)用科學(xué)的理論和方法，通過調(diào)查、統(tǒng)計(jì)、比較、處理有關(guān)犯罪的數(shù)字和資料，分析研究犯罪的規(guī)律，對未來犯罪現(xiàn)象的種類、數(shù)量、發(fā)展趨勢等進(jìn)行的推測和估計(jì)。[5]犯罪預(yù)測的方法非常多，如：專家預(yù)測法、相關(guān)因素分析法、統(tǒng)計(jì)學(xué)的方法、概率論的方法、模糊數(shù)學(xué)預(yù)測法等。犯罪預(yù)測已被公認(rèn)為犯罪學(xué)理論體系中重要的組成部分，是犯罪預(yù)防必不可少的前提條件。

大數(shù)據(jù)處理詞義模型特別適合區(qū)域型事件發(fā)生概率的預(yù)測工作，在打擊違法犯罪工作方面可以通過統(tǒng)計(jì)計(jì)算區(qū)域各類違法犯罪的擴(kuò)散趨勢與未來發(fā)案率，為各類違法犯罪特別是信息安全方面犯罪的防范、控制、偵破提供有效的數(shù)據(jù)情報(bào)支撐。

微博犯罪預(yù)測就是大數(shù)據(jù)處理詞義模型的應(yīng)用。帶地理位置標(biāo)簽的微博預(yù)測犯罪，通過大量的歷史犯罪記錄和地理位置信息進(jìn)行相關(guān)分析，具體是通過微博博文當(dāng)時談?wù)摰臒狳c(diǎn)，或某一類群體某一時刻談?wù)撃愁悷狳c(diǎn)關(guān)鍵詞，與這之后這一地區(qū)發(fā)生某類犯罪情況，得到他們之間的匹配度，利用前面所述關(guān)鍵詞因子篩選方法和概率計(jì)算方式預(yù)測出該地區(qū)未來會發(fā)生犯罪或某類犯罪的幾率。

另一類常見的是搜索引擎犯罪預(yù)測。通過大量歷史數(shù)據(jù)分析不同地區(qū)，在某一段時期，檢索某類關(guān)鍵詞的頻率和之后這一地區(qū)發(fā)生某類犯罪匹配情況，利用關(guān)鍵詞因子篩選法選出一系列有效檢索關(guān)鍵詞，并計(jì)算出這些關(guān)鍵詞因子與某類犯罪事件發(fā)生的影響系數(shù)等相關(guān)參數(shù)。我們可將當(dāng)前這些檢索關(guān)鍵詞出現(xiàn)的頻率和提交這些關(guān)鍵詞區(qū)域進(jìn)行概率分析，獲知未來該區(qū)域發(fā)生某類犯罪的可能性大小。

大數(shù)據(jù)處理詞義模型用于犯罪預(yù)測已越來越多的出現(xiàn)在國內(nèi)外各警察機(jī)構(gòu)。美國已經(jīng)有超過10 個城市的警察局引入了大數(shù)據(jù)處理算法，包括洛杉磯、波士頓和芝加哥等，洛杉磯警察局利用大數(shù)據(jù)處理及分析軟件成功地把轄區(qū)里的盜竊犯罪降低了33%，暴力犯罪降低了21%，財(cái)產(chǎn)類犯罪降低了12%。北京懷柔公安局使用的“犯罪數(shù)據(jù)分析和趨勢預(yù)測系統(tǒng)”，是典型的大數(shù)據(jù)處理模型在犯罪分析及預(yù)測方面的應(yīng)用，該系統(tǒng)的應(yīng)用使懷柔公安局轄區(qū)內(nèi)的龍山、泉河、懷柔鎮(zhèn)派出所2013 年刑事案件發(fā)案率分別下降了10.7% 、9.3% 和8.8% 。

三、總結(jié)

大數(shù)據(jù)具有多源異構(gòu)、分布廣泛、動態(tài)增長、無固定模式等特點(diǎn)，大數(shù)據(jù)時代的到來為我們的公安工作帶來了深刻的影響，犯罪預(yù)測作為預(yù)防犯罪的重要前提，在大數(shù)據(jù)時代將會有長足的發(fā)展。

我們研究了一種基于面向服務(wù)為功能基礎(chǔ)的，按區(qū)域樹形分布式并行處理大數(shù)據(jù)的體系架構(gòu)，并將其詞義處理模型用于犯罪預(yù)測，在吉安市公安局網(wǎng)安支隊(duì)做了有益的嘗試，取得了一定的成果。

[1] 孟小峰，慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展，2013，（1）：146-169.

[2] 朱峰，劉捷，李軍.遠(yuǎn)程勘驗(yàn)取證分析軟件開發(fā)與實(shí)現(xiàn)[J].信息網(wǎng)絡(luò)安全，2011，（11）：73-74.

[3] 李海峰，章寧，柴艷妹.不確定性數(shù)據(jù)上頻繁項(xiàng)集挖掘的預(yù)處理方法[J].計(jì)算機(jī)科學(xué)，2012，（7）：161-164.

[4] Xin Dong, Laure Berti-Equille，Yifan Hu, Divesh Srivastava. Global Detection of Complex Copying Relationships Between Sources[J]. Proceedings of the VLDB Endowment，2010，3（1-2）：1358-1369.

[5] 康樹華，張小虎.犯罪學(xué)[M].北京：北京大學(xué)出版社，2004：187.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看