• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      分布式大數(shù)據(jù)樹形處理架構(gòu)在犯罪預(yù)測方面的應(yīng)用研究

      2014-11-20 10:03:28萬雪勇雷鵬程
      關(guān)鍵詞:數(shù)據(jù)源詞義數(shù)據(jù)處理

      朱 峰,萬雪勇,雷鵬程

      (1.吉安市公安局網(wǎng)安支隊(duì),江西 吉安 343000;2.江西警察學(xué)院,江西 南昌 330103;3.江西省公安廳網(wǎng)絡(luò)安全和技術(shù)偵察總隊(duì),江西 南昌 330006)

      我們面對的大數(shù)據(jù)由大量的各種各樣的數(shù)據(jù)庫構(gòu)成,數(shù)據(jù)庫是由一張張數(shù)據(jù)表組成,大數(shù)據(jù)是由看則無限實(shí)則有界的數(shù)據(jù)表鋪接成的數(shù)據(jù)地球。 站在數(shù)據(jù)地球之外來看, 我們需規(guī)劃管理好各地的數(shù)據(jù)庫,身在數(shù)據(jù)地球之中來講,則需分布式交通和樞紐來遍及整個數(shù)據(jù)地球。 因此我們設(shè)計(jì)了以地域來劃分,以服務(wù)接口為連接點(diǎn)的分布式大數(shù)據(jù)處理架構(gòu)。

      我們將分布各地的數(shù)據(jù)庫稱為離散數(shù)據(jù)庫或數(shù)據(jù)庫集群, 該架構(gòu)物理上是一種以大數(shù)據(jù)處理中心為根、總線與接口為枝、各離散數(shù)據(jù)庫和數(shù)據(jù)庫集群為葉的樹形結(jié)構(gòu)。 基本原理是由大數(shù)據(jù)處理中心統(tǒng)一協(xié)調(diào)下發(fā)任務(wù), 以各離散數(shù)據(jù)庫預(yù)建的數(shù)據(jù)源產(chǎn)生地區(qū)索引為基礎(chǔ), 通過大數(shù)據(jù)處理的詞義模型來挖掘大量數(shù)據(jù)中潛在的價值信息。 大數(shù)據(jù)時代很多情況下難以預(yù)先確定模式, 模式只有在數(shù)據(jù)出現(xiàn)之后才能確定, 且模式隨著數(shù)據(jù)量的增長處于不斷的演變之中,[1]大數(shù)據(jù)處理的詞義模型跨越了大數(shù)據(jù)模式和數(shù)據(jù)的關(guān)系的障礙, 體現(xiàn)了該架構(gòu)對不同數(shù)據(jù)庫或者說數(shù)據(jù)模式的包容性, 而包容性是未來超大規(guī)模大數(shù)據(jù)處理的核心內(nèi)容與研究方向。

      本文將探討基于面向服務(wù)可包容的分布式大數(shù)據(jù)樹形處理架構(gòu)在犯罪預(yù)測方面的應(yīng)用。

      一、 基于面向服務(wù)可包容的分布式大數(shù)據(jù)樹形處理架構(gòu)

      研究大數(shù)據(jù)必須以理清數(shù)據(jù)源頭為基礎(chǔ), 數(shù)據(jù)本身在一定程度上會受數(shù)據(jù)源頭的特點(diǎn)所影響,數(shù)據(jù)模式又與不同數(shù)據(jù)庫的結(jié)構(gòu)相聯(lián)系, 數(shù)據(jù)源是由產(chǎn)生的數(shù)據(jù)信息的設(shè)備來區(qū)分。 數(shù)據(jù)模式不能限制,然后以數(shù)據(jù)源來劃分,即數(shù)據(jù)源產(chǎn)生地域來區(qū)別,可以將數(shù)據(jù)歸類為相應(yīng)有限的區(qū)塊。 同一數(shù)據(jù)庫有多地?cái)?shù)據(jù),將以數(shù)據(jù)的來源,如產(chǎn)生數(shù)據(jù)的IP 源歸屬或其他方法按省、市、縣來建立數(shù)據(jù)區(qū)域索引。

      這種分布式大數(shù)據(jù)樹形處理架構(gòu)主要包括以下幾個模塊:

      (一)數(shù)據(jù)服務(wù)接口

      1.XML 查詢端。 XML 查詢端,使用統(tǒng)一的XML語言編碼,此端工作對象是各數(shù)據(jù)庫或數(shù)據(jù)庫集群,功能是訪問查詢指定數(shù)據(jù)庫和在指定數(shù)據(jù)庫中建立以IP 當(dāng)前歸屬地為內(nèi)容的索引(索引表通過IP 字段的自動檢索建立, 也可手動根據(jù)具體情況數(shù)據(jù)源產(chǎn)生地來劃分添加)。

      2.XML 控制端。 接口統(tǒng)一標(biāo)準(zhǔn)以提供總線通過接口訪問查詢指定數(shù)據(jù)庫, 以完成大數(shù)據(jù)處理中心下發(fā)的數(shù)據(jù)挖掘查詢?nèi)蝿?wù)。

      (二)數(shù)據(jù)的分布式并行處理

      大數(shù)據(jù)處理中心通過總線和預(yù)先設(shè)置好的數(shù)據(jù)服務(wù)接口,按照指定命令分解任務(wù),向有關(guān)聯(lián)的各地?cái)?shù)據(jù)庫下發(fā)分任務(wù), 各地?cái)?shù)據(jù)庫服務(wù)器可同時分別處理所接收的任務(wù)要求, 并將結(jié)果通過數(shù)據(jù)服務(wù)接口和總線反饋到大數(shù)據(jù)處理中心。

      (三)大數(shù)據(jù)處理的詞義模型

      大數(shù)據(jù)處理的詞義模型也是一種大數(shù)據(jù)需求型研究模型。 按區(qū)域劃分以分類關(guān)鍵詞為線索關(guān)聯(lián)到離散數(shù)據(jù)庫的表中記錄的有關(guān)信息。 總的概要關(guān)系如圖1 所示。

      圖1 大數(shù)據(jù)處理關(guān)系圖

      1.大數(shù)據(jù)需求研究模型

      (1)大數(shù)據(jù)需求權(quán)重研究模型。 大數(shù)據(jù)需求研究模型必須考慮需求影響, 我們將某地區(qū)與需求內(nèi)容(通常指某一需預(yù)測的已知事件) 關(guān)系度定義為S,S對大數(shù)據(jù)的研究模型的影響貫穿始末。 需求因子S映射出與S 密切影響的其他的關(guān)系因子量m1-…mn,Z(mi)為各因子量的出現(xiàn)概率,每個關(guān)系因子的影響度不一樣,我們?yōu)橹x一個關(guān)系系數(shù)權(quán)重b1-…bn(注:bi = 1,1≤i≤n)。 這樣我們就得出大數(shù)據(jù)需求研究模型權(quán)重計(jì)算公式:

      S= Z(m1)b1+…+ Z(mn)bn 即S= bi* Z(mi)

      通過這個公式可以計(jì)算出某地區(qū)與需求內(nèi)容即某一事件的關(guān)系強(qiáng)度, 關(guān)系強(qiáng)度和評分一樣可按百分比顯示, 五級標(biāo)注,80%-100%為一級,60%-80%為二級,40%-60%為三級,20%-40%為四級,20%以下為五級。[2]關(guān)系越強(qiáng)出現(xiàn)該需求內(nèi)容的概率越大。

      此權(quán)重計(jì)算公式針對一種相對的關(guān)系強(qiáng)度計(jì)算,在預(yù)測事件發(fā)生方面具有簡便易操作的優(yōu)點(diǎn),但精確度不高,在粗略預(yù)測使用中較為合適。

      (2)大數(shù)據(jù)需求全概率研究模型。 大數(shù)據(jù)需求全概率研究模型比權(quán)重研究模型具有較高的精確度和正確率,計(jì)算相對其也較復(fù)雜。 具體計(jì)算方式在下面大數(shù)據(jù)處理的詞義模型中詳細(xì)闡述。

      2.大數(shù)據(jù)處理詞義模型

      (1)大數(shù)據(jù)處理詞義模型的基本原理。 大數(shù)據(jù)處理的詞義模型是建立在大數(shù)據(jù)需求研究模型之上通過詞組分割、詞義關(guān)聯(lián)、邏輯轉(zhuǎn)換獲得多個關(guān)鍵詞字段為各關(guān)系因子來進(jìn)行大數(shù)據(jù)處理研究的模型。 該模型的方式是將大數(shù)據(jù)傳統(tǒng)處理挖掘方法化歸為處理大數(shù)據(jù)關(guān)鍵詞信息的方法。

      (2)關(guān)鍵詞因子的篩選。 通過各種方法獲得大量有關(guān)的關(guān)鍵詞因子數(shù)據(jù)集合, 但其數(shù)量太多會增加研究的復(fù)雜性。 所以要篩選出盡可能少的關(guān)鍵詞因子,且盡可能全地反映我們需求的結(jié)果狀態(tài)。 關(guān)鍵詞因子數(shù)據(jù)集合中的項(xiàng)集存在性往往存在著一定關(guān)系, 這些項(xiàng)與項(xiàng)之間的關(guān)系異于挖掘算法里的關(guān)聯(lián)關(guān)系,它們的相關(guān)關(guān)系是基于概率模型下的相關(guān)。[3]我們可通過主成分分析法 (principal component analysis) 將關(guān)鍵詞因子間有相關(guān)關(guān)系的進(jìn)行初步篩選,令剩下的關(guān)鍵詞因子在表面上兩兩不相關(guān),達(dá)到數(shù)據(jù)降維效果以降低研究難度和成本。

      (3)大數(shù)據(jù)處理詞義模型的全概率計(jì)算方式。 把需求內(nèi)容即某事件用S 來表示, 產(chǎn)生該事件的有關(guān)原因事件A1-…An ,原因事件發(fā)生的概率通過以往數(shù)據(jù)計(jì)算為P (An)(原因An 對S 事件發(fā)生的影響度為P(B/An)),通過一些事件的逆向歷史統(tǒng)計(jì)調(diào)查,發(fā)現(xiàn)原因事件與相應(yīng)的關(guān)鍵詞的出現(xiàn)量成正比。 設(shè)An原因事件對應(yīng)的關(guān)鍵詞為Kn,設(shè)定某地區(qū)某時間段產(chǎn)生關(guān)鍵詞Kn 有效次數(shù)量(排除重復(fù)量、錯誤量、干擾量) 與所有地區(qū)在該時間段產(chǎn)生該關(guān)鍵詞有效次數(shù)量的比值為Z(Kn),通過大量歷史數(shù)據(jù)計(jì)算出這個值和原因事件發(fā)生概率P(An)偏差系數(shù)為ξn。因此P(An)= Z(Kn)ξ,將此結(jié)果套入全概率公式可得公式:

      事件S 發(fā)生的概率P(S)= P(S/Ai) Z(Ki)ξi

      對各數(shù)據(jù)中反映關(guān)鍵詞Kn 有效次數(shù)量的復(fù)雜重復(fù)量排除中, 我們可以參考2010 年P(guān)VLDB 全球數(shù)據(jù)庫頂級會議上介紹的一種對多數(shù)據(jù)源同步復(fù)制、傳遞復(fù)制的檢測算法,[4]結(jié)合利用隱馬爾可夫模型來識別有關(guān)數(shù)據(jù)復(fù)制造成的重復(fù)量。

      (四)大數(shù)據(jù)處理中心

      大數(shù)據(jù)處理中心是由各種功能服務(wù)器組成的服務(wù)器集群,包括若干專項(xiàng)功能服務(wù)器,是進(jìn)行任務(wù)下發(fā)、任務(wù)分析、任務(wù)收集、任務(wù)研判、錯誤糾正、實(shí)時監(jiān)測的大數(shù)據(jù)處理架構(gòu)中心。

      1.離散數(shù)據(jù)庫資料服務(wù)器。記錄各地離散數(shù)據(jù)庫的有關(guān)信息與分類備注, 并實(shí)時監(jiān)測各數(shù)據(jù)庫的有關(guān)狀態(tài),通過各地?cái)?shù)據(jù)庫與服務(wù)接口地址,定期檢測數(shù)據(jù)庫的運(yùn)行狀態(tài),并記錄反饋結(jié)果,實(shí)時更新數(shù)據(jù)庫備案資料, 以及記錄保存各離散數(shù)據(jù)庫在完成大數(shù)據(jù)處理挖掘中的工作資料。

      2.IP 實(shí)時分配信息服務(wù)器。 該服務(wù)器中,建立了IP 統(tǒng)一規(guī)劃庫,實(shí)時跟蹤IP 的重新分配情況。 并記錄IP 每次重新分配的時間段和歸屬地。 為區(qū)別離散數(shù)據(jù)庫中的數(shù)據(jù)源產(chǎn)生地的歸屬提供可靠信息支撐。 各離散數(shù)據(jù)庫在新建數(shù)據(jù)源歸屬索引時可以根據(jù)IP 和時間段,來劃分歸屬。 為每個IP 在某時間段的使用地建立檔案,并以不同序號識別,同一IP 因多次調(diào)整跨縣市分配都有不同的序號標(biāo)注記錄,并且該IP 序號同時寫入在離散數(shù)據(jù)庫的數(shù)據(jù)源歸屬索引中。

      3.任務(wù)分配研判服務(wù)器。其按照每次大數(shù)據(jù)挖掘處理任務(wù)的具體需求,進(jìn)行任務(wù)劃分,并下發(fā)到各地的離散數(shù)據(jù)庫所在服務(wù)器和其他有關(guān)給任務(wù)提供支撐的服務(wù)器, 并對反饋的信息根據(jù)預(yù)設(shè)模型進(jìn)行分析研判為各類決策活動提供有價值的信息。

      4.異常識別糾錯服務(wù)器。實(shí)時跟蹤處理各地分任務(wù)的完成情況,統(tǒng)一匯集處理分析結(jié)果,并記錄錯誤實(shí)時反饋修正。如當(dāng)出現(xiàn)歸屬誤差等錯誤時,通過IP分配序號可以及時找到需要修改的離散數(shù)據(jù)庫中的索引信息,以及時修正錯誤。 根據(jù)離散數(shù)據(jù)庫服務(wù)器中的有關(guān)數(shù)據(jù)庫實(shí)時信息識別數(shù)據(jù)庫異常狀態(tài),針對性連接訪問有關(guān)異常數(shù)據(jù)庫進(jìn)行全面核對檢查,并將結(jié)果反饋到離散數(shù)據(jù)庫資料服務(wù)器。

      二、在犯罪預(yù)測方面的應(yīng)用研究

      犯罪預(yù)測,就是運(yùn)用科學(xué)的理論和方法,通過調(diào)查、統(tǒng)計(jì)、比較、處理有關(guān)犯罪的數(shù)字和資料,分析研究犯罪的規(guī)律,對未來犯罪現(xiàn)象的種類、數(shù)量、發(fā)展趨勢等進(jìn)行的推測和估計(jì)。[5]犯罪預(yù)測的方法非常多,如:專家預(yù)測法、相關(guān)因素分析法、統(tǒng)計(jì)學(xué)的方法、概率論的方法、模糊數(shù)學(xué)預(yù)測法等。 犯罪預(yù)測已被公認(rèn)為犯罪學(xué)理論體系中重要的組成部分, 是犯罪預(yù)防必不可少的前提條件。

      大數(shù)據(jù)處理詞義模型特別適合區(qū)域型事件發(fā)生概率的預(yù)測工作, 在打擊違法犯罪工作方面可以通過統(tǒng)計(jì)計(jì)算區(qū)域各類違法犯罪的擴(kuò)散趨勢與未來發(fā)案率, 為各類違法犯罪特別是信息安全方面犯罪的防范、控制、偵破提供有效的數(shù)據(jù)情報(bào)支撐。

      微博犯罪預(yù)測就是大數(shù)據(jù)處理詞義模型的應(yīng)用。 帶地理位置標(biāo)簽的微博預(yù)測犯罪,通過大量的歷史犯罪記錄和地理位置信息進(jìn)行相關(guān)分析, 具體是通過微博博文當(dāng)時談?wù)摰臒狳c(diǎn), 或某一類群體某一時刻談?wù)撃愁悷狳c(diǎn)關(guān)鍵詞, 與這之后這一地區(qū)發(fā)生某類犯罪情況,得到他們之間的匹配度,利用前面所述關(guān)鍵詞因子篩選方法和概率計(jì)算方式預(yù)測出該地區(qū)未來會發(fā)生犯罪或某類犯罪的幾率。

      另一類常見的是搜索引擎犯罪預(yù)測。 通過大量歷史數(shù)據(jù)分析不同地區(qū),在某一段時期,檢索某類關(guān)鍵詞的頻率和之后這一地區(qū)發(fā)生某類犯罪匹配情況, 利用關(guān)鍵詞因子篩選法選出一系列有效檢索關(guān)鍵詞, 并計(jì)算出這些關(guān)鍵詞因子與某類犯罪事件發(fā)生的影響系數(shù)等相關(guān)參數(shù)。 我們可將當(dāng)前這些檢索關(guān)鍵詞出現(xiàn)的頻率和提交這些關(guān)鍵詞區(qū)域進(jìn)行概率分析,獲知未來該區(qū)域發(fā)生某類犯罪的可能性大小。

      大數(shù)據(jù)處理詞義模型用于犯罪預(yù)測已越來越多的出現(xiàn)在國內(nèi)外各警察機(jī)構(gòu)。 美國已經(jīng)有超過10 個城市的警察局引入了大數(shù)據(jù)處理算法,包括洛杉磯、波士頓和芝加哥等, 洛杉磯警察局利用大數(shù)據(jù)處理及分析軟件成功地把轄區(qū)里的盜竊犯罪降低了33%, 暴力犯罪降低了21%, 財(cái)產(chǎn)類犯罪降低了12%。 北京懷柔公安局使用的“犯罪數(shù)據(jù)分析和趨勢預(yù)測系統(tǒng)”,是典型的大數(shù)據(jù)處理模型在犯罪分析及預(yù)測方面的應(yīng)用, 該系統(tǒng)的應(yīng)用使懷柔公安局轄區(qū)內(nèi)的龍山、泉河、懷柔鎮(zhèn)派出所2013 年刑事案件發(fā)案率分別下降了10.7% 、9.3% 和8.8% 。

      三、總結(jié)

      大數(shù)據(jù)具有多源異構(gòu)、分布廣泛、動態(tài)增長、無固定模式等特點(diǎn), 大數(shù)據(jù)時代的到來為我們的公安工作帶來了深刻的影響, 犯罪預(yù)測作為預(yù)防犯罪的重要前提,在大數(shù)據(jù)時代將會有長足的發(fā)展。

      我們研究了一種基于面向服務(wù)為功能基礎(chǔ)的,按區(qū)域樹形分布式并行處理大數(shù)據(jù)的體系架構(gòu),并將其詞義處理模型用于犯罪預(yù)測, 在吉安市公安局網(wǎng)安支隊(duì)做了有益的嘗試,取得了一定的成果。

      [1] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,(1):146-169.

      [2] 朱峰,劉捷,李軍.遠(yuǎn)程勘驗(yàn)取證分析軟件開發(fā)與實(shí)現(xiàn)[J].信息網(wǎng)絡(luò)安全,2011,(11):73-74.

      [3] 李海峰,章寧,柴艷妹.不確定性數(shù)據(jù)上頻繁項(xiàng)集挖掘的預(yù)處理方法[J].計(jì)算機(jī)科學(xué),2012,(7):161-164.

      [4] Xin Dong, Laure Berti-Equille,Yifan Hu, Divesh Srivastava. Global Detection of Complex Copying Relationships Between Sources[J]. Proceedings of the VLDB Endowment,2010,3(1-2):1358-1369.

      [5] 康樹華,張小虎.犯罪學(xué)[M].北京:北京大學(xué)出版社,2004:187.

      猜你喜歡
      數(shù)據(jù)源詞義數(shù)據(jù)處理
      認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
      ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
      西夏語“頭項(xiàng)”詞義考
      西夏研究(2020年1期)2020-04-01 11:54:26
      詞義辨別小妙招——看圖辨詞
      Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
      基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
      基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
      基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
      字意與詞義
      語言與翻譯(2014年3期)2014-07-12 10:31:59
      分布式異構(gòu)數(shù)據(jù)源標(biāo)準(zhǔn)化查詢設(shè)計(jì)與實(shí)現(xiàn)
      大邑县| 麟游县| 涞源县| 徐汇区| 黄浦区| 太原市| 利辛县| 阿拉善右旗| 磴口县| 隆回县| 昌图县| 拜城县| 成安县| 九寨沟县| 措勤县| 嫩江县| 新竹县| 汕头市| 巴里| 商丘市| 星座| 无锡市| 即墨市| 乐东| 武鸣县| 南雄市| 华阴市| 社旗县| 蒙自县| 海安县| 金塔县| 营山县| 青神县| 靖边县| 沾益县| 霍林郭勒市| 平安县| 涞源县| 民勤县| 青河县| 墨江|