• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種基于廣義回歸神經(jīng)網(wǎng)絡(luò)的城市入室盜竊串并案分析方法

      2020-09-02 07:14馮佳樂(lè)姚遠(yuǎn)陳德華
      微型電腦應(yīng)用 2020年8期
      關(guān)鍵詞:案情入室分詞

      馮佳樂(lè) 姚遠(yuǎn) 陳德華

      摘要:

      隨著城市的發(fā)展,城市人口的越來(lái)越多元化,這給城市治安帶來(lái)了新的挑戰(zhàn),入室盜竊就是這個(gè)過(guò)程中不可調(diào)和的矛盾。我們以近幾年城市室盜竊案件的案情文本數(shù)據(jù)為基礎(chǔ),提取入室盜竊案件的文本向量特征,基于廣義回歸神經(jīng)網(wǎng)絡(luò)模型,采用凝聚層次聚類算法作為回歸方法,基于這一理論研究入室盜竊案件的串并方法,通過(guò)給辦案民警提供入室盜竊案件的串并依據(jù),從而提高案件的偵破率,減少群眾的財(cái)產(chǎn)損失。

      關(guān)鍵詞:

      廣義回歸神經(jīng)網(wǎng)絡(luò); 凝聚層次聚類; 文本向量化; 入室盜竊

      中圖分類號(hào): TP311

      文獻(xiàn)標(biāo)志碼: A

      An Analysis Method for Serial and Parallel Cases of Urban House Burglary

      Based on Generalized Regression Neural Network

      FENG Jiale1, YAO Yuan2, CHEN Dehua3

      (1. Shanghail Triman Software Technology Co. Ltd., Shanghai 200042, China; 2. Chongqing Public Security Bureau

      Police Supervision Corps., Chongqing 401147, China; 3. School of Computer Science and Technology, Donghua

      University, Shanghai 200162, China)

      Abstract:

      With the development of the city, the population of the city is more and more diversified, which brings new challenges to the public security of the city. Based on the text data of urban burglary cases in recent years, we extract the text vector characteristics of burglary cases. Based on the generalized regression neural network model, we use clustering algorithm as the regression method. Based on this theory, we study the serial and parallel methods of burglary cases. By providing the serial and parallel basis of burglary cases for the police, we can provide the serial and parallel basis of burglary cases high detection rate of cases and reduction of property losses of the masses.

      Key words:

      generalized regression neural network; hierarchical agglomerative clustering; text to vectorization; burglary

      0引言

      入室盜竊案件隨著我國(guó)城鎮(zhèn)化進(jìn)程的不斷加速,越來(lái)越突顯出其危害性,即損害了群眾的財(cái)產(chǎn)利益,也對(duì)社會(huì)安定造成了極大的威脅。由于案件的特殊性,現(xiàn)場(chǎng)線索有限,給破案帶來(lái)極大困難。因此研究入室盜竊串并案的串并分析方法,可有效的提高辦案民警的工作效率,更準(zhǔn)確和及時(shí)的打擊了犯罪分子,從而提高群眾對(duì)公共安全的滿意度,節(jié)省公共安全領(lǐng)域的人力開銷。

      串案和并案[1](簡(jiǎn)稱串并案)是偵破系列案件,特別是在個(gè)案?jìng)刹橄萑肜Ь硶r(shí)的常用方法。入室盜竊串并案[2]是一種偵破案件的方法,主要是針對(duì)入室盜竊案件進(jìn)行串案和并案處理的過(guò)程。入室盜竊案件多發(fā)生在流動(dòng)性大、人口密集的大中型城鎮(zhèn),對(duì)群眾的生命和財(cái)產(chǎn)安全構(gòu)成威脅,對(duì)社會(huì)的穩(wěn)定造成不良的影響。

      文本向量化[3]是把文本表述為可以讓計(jì)算機(jī)來(lái)理解的形式,可以分為詞語(yǔ)的向量化、短文本的向量化和長(zhǎng)文本向量化。不同的情景需要用到不同的處理方式。

      凝聚層次聚類(HAC)是自下而上的一種聚類算法。聚集聚類是一種分層聚類算法,從許多小聚類開始,然后逐漸合并聚類[45]。該算法的思想大致為:將每個(gè)數(shù)據(jù)點(diǎn)視為一個(gè)單一的分組,然后計(jì)算所有分組之間的距離來(lái)合并分組,直到所有的分組聚合成為一個(gè)分組為止。該算法的優(yōu)點(diǎn)是不需要知道有多少個(gè)分組且對(duì)于距離度量標(biāo)準(zhǔn)的選擇并不敏感;其缺點(diǎn)是算法運(yùn)行效率低。

      傳統(tǒng)的關(guān)于案情文本應(yīng)用于串并案分析的研究方法,先對(duì)文本數(shù)據(jù)進(jìn)行結(jié)構(gòu)化,然后再對(duì)結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行分析,最后利用統(tǒng)計(jì)分析方法進(jìn)行建模處理。TangD等提出一種基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的情感分類方法[6];Michael Chau等人應(yīng)用信息抽取技術(shù)分析案情文本信息識(shí)別出作案手段、作案工具等特征信息[7];Jennifer Xu等人提出一種基于犯罪領(lǐng)域知識(shí)的自動(dòng)關(guān)聯(lián)分析模型[8];Bennell等人提出一種串聯(lián)國(guó)際團(tuán)伙入室盜竊作案的方法。

      國(guó)內(nèi)的相關(guān)研究雖然起步比較晚但發(fā)展迅速,韓寧、陳巍提出基于聚類分析的串并案研究[1];夏平提出一種技術(shù)性開鎖入室盜竊案件的特點(diǎn)及偵查方向[2];單培提出一種比較法與刑事案件串并案分析方法[9]。針對(duì)以上問(wèn)題,在本文中,我們采用文本向量化提取入室盜竊案件的文本特征,基于廣義回歸神經(jīng)網(wǎng)絡(luò)模型,采用凝聚層次聚類算法做為回歸方法,基于這一理論研究入室盜竊案件的串并方法,通過(guò)給辦案民警提供入室盜竊案件的串并依據(jù),從而提高案件的偵破率,減少群眾的財(cái)產(chǎn)損失。

      1城市入室盜竊案件數(shù)據(jù)整理

      入室盜竊案情文本是記錄報(bào)案人對(duì)案件的基本描述信息以及勘查人員的現(xiàn)場(chǎng)勘查信息的主要載體。報(bào)案人對(duì)案件的描述信息主要包括報(bào)案人的信息、被盜物品信息、報(bào)案人描述的案件發(fā)生的時(shí)間段和地點(diǎn)等信息;勘查人員的現(xiàn)場(chǎng)勘查信息主要包括侵入目標(biāo)、侵入部位、侵入方式、侵入手段以及現(xiàn)場(chǎng)指紋、鞋印、遺留物等信息,其中指紋、鞋印、遺留物信息的串并和比對(duì)不在本文的研究范圍內(nèi)。如表1所示。

      1.1處理案件文本數(shù)據(jù)

      將入室盜竊案情文本原始數(shù)據(jù)進(jìn)行預(yù)處理,形成用于訓(xùn)練的報(bào)案人信息、報(bào)案時(shí)間、案發(fā)地點(diǎn)、被盜物品詳細(xì)信息、被盜金額和現(xiàn)場(chǎng)勘查數(shù)據(jù)的數(shù)據(jù)集。

      數(shù)據(jù)處理是為了某個(gè)特殊的研究目的而對(duì)數(shù)據(jù)進(jìn)行校驗(yàn)和處理的過(guò)程,目的在于針對(duì)研究目的檢查數(shù)據(jù)一致性,處理無(wú)效值和缺失值的過(guò)程;刪除不符合要求重復(fù)信息、糾正存在的錯(cuò)誤數(shù)據(jù),主要是包括干擾分析結(jié)果的缺失數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、重復(fù)數(shù)據(jù)三大類。

      (1) 一致性檢查

      一致性檢查是根據(jù)案情文本數(shù)據(jù)的取值范圍和數(shù)據(jù)之間的相互關(guān)系,檢查數(shù)據(jù)是否合理或者相互矛盾的數(shù)據(jù)。

      案件的特征數(shù)據(jù)侵入方式、侵入部位、作案手段都為字典項(xiàng),都需要做一致性檢查,保證數(shù)據(jù)在字典項(xiàng)中。

      (2) 無(wú)效值和缺省值處理

      由于接報(bào)案件時(shí)錄入的案情文本數(shù)據(jù)的誤差,可能存在一些無(wú)效和缺失的案情文本數(shù)據(jù),這些數(shù)據(jù)都需要適當(dāng)?shù)奶幚?,避免因?shù)據(jù)問(wèn)題影響研究結(jié)果。這類數(shù)據(jù)常用的處理方法有:結(jié)合上下文進(jìn)行估算,整列刪除。

      1.2生成案情文本詞向量數(shù)據(jù)

      案件文本向量化將基于詞向量方法,是整個(gè)模型的重要步驟,詞向量訓(xùn)練效果的好壞直接影響到最終串并案分析的效果。

      (1) 案情文本數(shù)據(jù)分詞

      案情文本數(shù)據(jù)是中文數(shù)據(jù),中文語(yǔ)料庫(kù)跟其他語(yǔ)言的語(yǔ)料庫(kù)有所不同,且本文研究的案情文本有其領(lǐng)域的獨(dú)特性,需要單獨(dú)生成研究的預(yù)料庫(kù),對(duì)案情文本進(jìn)行分析需要先進(jìn)行中文分詞步驟。

      結(jié)巴分詞是一種常見的中文分詞工具,對(duì)于日常中文數(shù)據(jù)分詞效果好,考慮到案情文本的來(lái)源多為報(bào)案人描述,所以本文采用結(jié)巴分詞作為中文分詞工具。由于中文預(yù)料的特殊性,本文在分詞后刪除了對(duì)研究沒(méi)有實(shí)際意義的標(biāo)點(diǎn)符號(hào),并用空格作為分隔符,生成語(yǔ)料庫(kù)文件。

      (2) 案情文本詞向量訓(xùn)練

      Word2vec工具是一款開源的文本向量化工具,其提供的詞向量文件在很多領(lǐng)域都取得很好的效果,特別是英文預(yù)料的研究方面。但考慮到本文研究的文本的特殊性,其內(nèi)容包含很多犯罪方面的專業(yè)數(shù)據(jù),因此需要訓(xùn)練本文研究所內(nèi)容所需要的詞向量。

      Word2vec工具提供了完整的訓(xùn)練詞向量的方法,我們提取歷年的入室盜竊案件的案情文本數(shù)據(jù)作為輸入,通過(guò)word2vec工具提供的參數(shù)設(shè)置,進(jìn)行多次實(shí)驗(yàn)比較,最終輸出本文研究所需要的詞向量文件。

      1.3提取案情文本向量化數(shù)據(jù)

      (1) 語(yǔ)料庫(kù)準(zhǔn)備

      本文將某市2015—2017年入室盜竊案件案情文本信息作為原始數(shù)據(jù)。詞向量訓(xùn)練使用的是Google開源的Word2vec工具,其提供的語(yǔ)料庫(kù)格式是以空格作為分割符的詞的集合文件。首先將所有案情文本去除標(biāo)點(diǎn)符號(hào)等無(wú)效的字符。然后通過(guò)中文分詞工具將案情文本進(jìn)行分詞,最后將所有的分詞結(jié)果寫入一個(gè)文件(cbaaqxx.txt)中作為語(yǔ)料庫(kù)。

      (2) 詞向量訓(xùn)練

      使用Word2vec工具進(jìn)行詞向量訓(xùn)練關(guān)鍵在于根據(jù)語(yǔ)料庫(kù)和實(shí)驗(yàn)環(huán)境選擇合適的參數(shù)進(jìn)行訓(xùn)練,不需要過(guò)多的干預(yù)。本文參數(shù)設(shè)置如下:

      ① 將cbaaqxx.txt作為語(yǔ)料庫(kù);參數(shù)設(shè)置:train:cbaaqxx.txt;

      ② 輸出詞向量設(shè)置為cbavec.bin;參數(shù)設(shè)置:output: cbavec.bin;

      ③ 基于Negative Sampling的CBOW模型;參數(shù)配置:hs:0cbow:1negative:5sample:le3;

      ④ 詞向量維度設(shè)置為:200;參數(shù)設(shè)置:size:200

      工具運(yùn)行后會(huì)生成一個(gè)cbavec.bin的文件即為詞向量庫(kù)。

      (3) 文本向量化表示

      首先對(duì)入室盜竊案情文本進(jìn)行切分,將整段文本根據(jù)標(biāo)點(diǎn)符號(hào)切分為m條句子,形式如[w1,w2,w3,…,wm],其中m為句子的長(zhǎng)度,wi表示第i條句子。分別對(duì)m條句子進(jìn)行處理,對(duì)于第i句子wi,進(jìn)行分詞后形成長(zhǎng)度為n的詞序列,形式如[Vi1,Vi2,Vi3,…,Vin]。對(duì)于每個(gè)案情文本文本都形成了一個(gè)M×N維的向量。

      2城市入室盜竊串并分析

      入室盜竊串并案分析過(guò)程是識(shí)別案件并一一對(duì)比歸類的過(guò)程,傳統(tǒng)的串并案分析研究方式是基于聚類方法的研究[10],但是聚類算法是一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)過(guò)程,在沒(méi)有標(biāo)記的案件文本數(shù)據(jù)集里面,這種無(wú)監(jiān)督學(xué)習(xí)的算法數(shù)據(jù)結(jié)構(gòu)和特征需要算法自行尋找,這在串并案分析中很難實(shí)現(xiàn)。

      廣義回歸神經(jīng)網(wǎng)絡(luò)模型[11]通過(guò)徑向基神經(jīng)元和線性神經(jīng)元來(lái)設(shè)計(jì),在結(jié)構(gòu)上由輸入層、模式層、求和層和輸出層構(gòu)成,是一種基于徑向基函數(shù)網(wǎng)絡(luò)的改進(jìn)。

      本文提出的入室盜竊串并案分析方法就是結(jié)合凝聚層次聚類算法和循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建的廣義回歸神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)的。該方法充分利用兩類算法的優(yōu)點(diǎn),將凝聚層次聚類的結(jié)果作為循環(huán)神經(jīng)網(wǎng)絡(luò)的標(biāo)簽進(jìn)行訓(xùn)練學(xué)習(xí),將循環(huán)神經(jīng)網(wǎng)絡(luò)模型的最終的標(biāo)簽輸出作為分類結(jié)果,這種結(jié)合很好的解決了手動(dòng)打標(biāo)簽和自動(dòng)提取特征的難點(diǎn)。

      本文首先將整理清洗過(guò)入室盜竊案情文本信息進(jìn)行中文分詞,運(yùn)用Word2vec工具生成案情文本向量,案情文本特征集為:{tr x1,tr x2,tr x3,…,tr xk},每一個(gè)案情文本向量的維度為m,及tr xi={x1,x2,x3,…,xm}。標(biāo)簽集為:{tr y1,tr y2,tr y3,…,tr yk},每個(gè)標(biāo)簽的維度為n,tr yi={y1,y2,y3,…,yn}。

      然后對(duì)案情文本向量進(jìn)行凝聚層級(jí)聚類,聚類結(jié)果為循環(huán)神經(jīng)網(wǎng)絡(luò)模型提供監(jiān)督信號(hào),循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出有利于凝聚層級(jí)聚類的結(jié)果。通過(guò)將這兩個(gè)過(guò)程集成到具有統(tǒng)一加權(quán)三元組損失函數(shù)中。

      最終基于TensorFlow深度學(xué)習(xí)平臺(tái),通過(guò)參數(shù)調(diào)整優(yōu)化訓(xùn)練模型的訓(xùn)練效果,最終輸出入室盜竊串并案分析結(jié)果,如圖1所示。

      整個(gè)結(jié)構(gòu)上由四層構(gòu)成,分別為輸入層、模式層、求和層和輸出層。

      ① 輸入層:輸入測(cè)試案情文本數(shù)據(jù),輸入層的節(jié)點(diǎn)個(gè)數(shù)等于案情文本向量化的維度。

      ② 凝聚層級(jí)聚類:默認(rèn)將每個(gè)案情文本作為一個(gè)分組,計(jì)算分組間的距離,逐步合并分組,并將分組結(jié)果輸入到模式層。

      ③ 模式層:計(jì)算案情文本與訓(xùn)練的案情文本中的每一個(gè)案情文本的Gauss函數(shù)的取值。及第i個(gè)案情文本tr ?xi與第j個(gè)訓(xùn)練案情文本集之間的Gauss函數(shù)取值(對(duì)于測(cè)試樣本x,從第j個(gè)模式層節(jié)點(diǎn)輸出的數(shù)值)為:

      ④ 求和層:節(jié)點(diǎn)個(gè)數(shù)等于輸出樣本維度加1,即(k+1),求和層的輸出分為兩部分,第一個(gè)節(jié)點(diǎn)輸出為模式層輸出的算術(shù)和,其余k個(gè)節(jié)點(diǎn)的輸出為模式層輸出的加權(quán)和。假設(shè)對(duì)于測(cè)試樣本te x,模式層的輸出為{g1,g2,…,gm}。求和層第一個(gè)節(jié)點(diǎn)的輸出為:

      ⑤ 輸出層:輸出層節(jié)點(diǎn)個(gè)數(shù)等于標(biāo)簽向量的維度,每個(gè)節(jié)點(diǎn)的輸出等于對(duì)應(yīng)的求和層輸出與求和層第一個(gè)節(jié)點(diǎn)輸出相除。

      本文通過(guò)廣義回歸神經(jīng)網(wǎng)絡(luò)模型進(jìn)行實(shí)驗(yàn),具體的實(shí)驗(yàn)環(huán)境,如表2所示。

      本文設(shè)計(jì)了兩組對(duì)比數(shù)據(jù),第一組為公安提供的串并數(shù)據(jù)(串并案521起);第二組為本文提出的廣義回歸神經(jīng)網(wǎng)絡(luò)模型串并出的案件數(shù)據(jù),串并分析結(jié)果共637起系列案件。

      對(duì)比兩組數(shù)據(jù)的結(jié)果如表3所示。

      本文提出的廣義回歸神經(jīng)網(wǎng)絡(luò)模型串并出的案件效果接近于真實(shí)串并的數(shù)據(jù)。

      通過(guò)對(duì)比實(shí)驗(yàn)結(jié)果,可以看出本文提出的分析模型的可行性和有效性。

      3總結(jié)

      城市入室盜竊案件一般發(fā)生在被害人不在場(chǎng)或無(wú)意識(shí)狀況下,采用特殊的作案工具,進(jìn)入到被害人居住的處所,盜竊被害人錢財(cái)?shù)男袨?。阻止入室盜竊案件的發(fā)生,可有效保證人民群眾的生命和財(cái)產(chǎn)安全。

      城市入室盜竊案件是城市社會(huì)生活常見犯罪類型之一,由于作案過(guò)程中被害人處于不知情狀態(tài),其提供的報(bào)案信息有限,且該類案件具有團(tuán)伙作案的可能性,加大了治安治理難度,嚴(yán)重影響了人們?nèi)罕姷墓舶踩泻蜕鐣?huì)穩(wěn)定。本文提出的一種城市入室盜竊串并案分析的方法,希望能減少群眾生命財(cái)產(chǎn)的威脅,提高城市入室盜竊犯罪偵破率。

      參考文獻(xiàn)

      [1]韓寧. 基于聚類分析的串并案研究[J]. 中國(guó)人民公安大學(xué)學(xué)報(bào), 2012(1): 5358.

      [2]夏平. 技術(shù)性開鎖入室盜竊案件的特點(diǎn)及偵查方向[J]. 法治與社會(huì), 2015(7): 7576.

      [3]于政. 基于深度學(xué)習(xí)的文本向量化研究與應(yīng)用[D]. 上海:華東師范大學(xué), 2016.

      [4]T Kurita. An efficient agglomerative clustering algorithm using a heap[J]. Pattern Recognition, 1991, 24(3):205209.

      [5]Gdalyahu Y, Weinshall D, Werman M. Self Organization in Vision: Stochastic Clustering for Image Segmentation, Perceptual Grouping, and Image Database Organization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 23(10):10531074.

      [6]Tang D, Qin B, Liu T. Learning ?semantic representations of users and products for document level sentiment classification[C].In Proceedings of ACL.2015:10141023.

      [7]Michael Chau,Jennifer Xu. Extracting meaningful entities from police narrative reports[C].

      In Proceedings of the National Conference for Digital Government Research. Los Angeles California, USA:

      2002:271275.

      [8]Jennifer Xu, Hsinchun Chen, Michael Chau. Automated criminal link analysis based on domain knowledge[J]. Journal of the American Society for Information Science and Technology, 2007, 58(6): 842855.

      [9]單培. 比較法與刑事案件串并案分析[J]. 公安海警學(xué)院學(xué)報(bào), 2013, 12(3): 6668.

      [10]王慧. 基于聚類的關(guān)聯(lián)規(guī)則算法在刑事犯罪行為分析中的應(yīng)用[J]. 中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版), 2010, 65(3): 6467.

      [11]CSDN.(20181212).https://blog.csdn.net/Luqiang_Shi/ article/details/ 84978712

      (收稿日期: 2019.05.12)

      作者簡(jiǎn)介:馮佳樂(lè)(1986),男,本科,中級(jí)工程師,研究方向:大數(shù)據(jù)分析,串并案研究。

      姚遠(yuǎn)(1986),男,碩士,高級(jí)工程師,研究方向:公安大數(shù)據(jù)、警務(wù)監(jiān)督信息化。

      通訊作者:陳德華(1976),男,博士,副教授,碩士生導(dǎo)師,研究方向:數(shù)據(jù)倉(cāng)庫(kù)、大數(shù)據(jù)分析、圖數(shù)據(jù)挖掘。

      文章編號(hào):1007757X(2020)08014203

      猜你喜歡
      案情入室分詞
      入室盜竊案
      疑點(diǎn)重重
      入室盜竊案
      分詞在英語(yǔ)教學(xué)中的妙用
      凌晨“案情”
      結(jié)巴分詞在詞云中的應(yīng)用
      結(jié)巴分詞在詞云中的應(yīng)用
      是誰(shuí)下的毒
      誰(shuí)在說(shuō)謊
      “兩高”刑事指導(dǎo)性案例的文本分析及改進(jìn)
      湖北省| 响水县| 永川市| 安乡县| 黄平县| 荥阳市| 收藏| 湛江市| 华安县| 柳江县| 嘉荫县| 威远县| 诸暨市| 周口市| 樟树市| 页游| 仲巴县| 辽宁省| 灵台县| 涿鹿县| 宜宾县| 鄂托克前旗| 大荔县| 保德县| 陕西省| 天长市| 汕尾市| 台北市| 台东县| 乌恰县| 贺兰县| 嘉峪关市| 富平县| 福清市| 新野县| 江西省| 黑水县| 南华县| 襄城县| 高安市| 鄂托克前旗|