• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于機器學習的犯罪人慣犯身份預測分析和識別

      2018-11-02 07:00:50曾昭龍胡嘯峰張學軍
      中國刑警學院學報 2018年5期
      關鍵詞:慣犯元組犯罪人

      陳 鵬 曾昭龍 胡嘯峰 張學軍

      (中國人民公安大學信息技術(shù)與網(wǎng)絡安全學院 北京 102600)

      1 前言

      隨著公安信息化建設的不斷推進,犯罪預測已經(jīng)成為當前公安機關開展精準打擊和有效治理的重要工具。而在實現(xiàn)過程上,犯罪預測也經(jīng)歷了從定性到定量,從簡單到復雜的過程??偟膩砜?,犯罪預測的發(fā)展大致可以分為兩個主要階段,第一個階段主要是以案件數(shù)量的時序預測為主,即根據(jù)案件的歷史數(shù)據(jù)來預測未來短期內(nèi)犯罪數(shù)量的變動趨勢,在方法上主要以灰色模型[1]、自回歸滑動平均[2]、馬爾可夫鏈[3]、BP神經(jīng)網(wǎng)絡[4]、支持向量機等工具為主[5],這種預測由于偏重于事件的發(fā)生概率,因此,主要應用于巡邏巡控、防范防控等典型的公安勤務指揮等業(yè)務層面。近年來,隨著大數(shù)據(jù)分析在公安工作中的應用不斷深入,犯罪預測從第一階段發(fā)展到第二階段,即從事件預測向個體預測轉(zhuǎn)變[6-8],尤其是基于個體特征的犯罪人風險預測得到了更多的重視,這種預測由于能夠?qū)崿F(xiàn)對個人的身份和行為進行精準刻畫,因此,適用于更加具體的業(yè)務場景,如治安重點人員犯罪風險分析、犯罪人特征識別等。

      在公安工作中,慣犯群體是相較于其他犯罪人危害性更大的一類主體,其主要特點為犯罪人員在短時間內(nèi)以一定形式反復從事同一類犯罪活動,由于慣犯群體在短時間內(nèi)頻繁作案會推高一個區(qū)域的發(fā)案量,嚴重危害社會安全秩序等特點,因此,具有更大的危害性,一直以來是公安機關重點打擊的對象。傳統(tǒng)的慣犯群體特征分析和預測研究主要是從犯罪人特征描述的角度進行,即利用犯罪學、心理學和社會學等基本理論,利用人格分析、心理測量等手段研究犯罪人的社會、心理和人格等影響因素特征,進而在此基礎上開展犯罪人行為分析等工作[9-11]。這種研究的理論性較強,方法以偏定性化的調(diào)查和心理分析為主,因此,適用于對慣犯群體的特征畫像與犯罪行為解釋,但在公安信息化環(huán)境下犯罪人員慣犯身份的快速判定這一實戰(zhàn)性較強的應用中實用性比較有限。另一方面,近年來利用機器學習方法開展犯罪人的身份特征分析已經(jīng)成為犯罪人預測的一個新的發(fā)展方向,一些研究人員利用Probit、支持向量機等分類算法對犯罪人的身份進行了一定的分析實驗[12-13],但這些工作的主要目標為實現(xiàn)犯罪人員身份特征的精準預測,其結(jié)果可解釋性和應用性較差。因此,對于公安偵查工作來說,基于現(xiàn)有的公安數(shù)據(jù)資源提出一種分析效率高、應用性能較好的慣犯人員身份識別方法具有很重要的現(xiàn)實意義。對此,本文從公安偵查工作的現(xiàn)實需求出發(fā),以現(xiàn)有的公安偵查數(shù)據(jù)資源為基礎,研究一種基于機器學習的犯罪人慣犯身份特征的快速識別方法,為刑事偵查和犯罪人員鑒別等工作提供技術(shù)手段支持。

      2 犯罪人慣犯身份特征的預測分析原理

      2.1 犯罪人慣犯身份特征的預測分析流程

      隨著公安信息化的快速發(fā)展,公安部門掌握了人、地、物、事等大量的基礎信息資源,其中在犯罪人員的數(shù)據(jù)資源方面就包括了犯罪人的生物、社會、關系、行為等多種信息類型。目前,在公安偵查工作領域一個很重要的業(yè)務應用是偵查訊問,即如何根據(jù)犯罪人本身的相關信息快速判斷其身份特征以便為下一階段的工作提供偵查方向,而對于慣犯群體來說偵查重點就是根據(jù)犯罪人的一些基本屬性判斷其屬于慣犯的可能性。對此,根據(jù)公安數(shù)據(jù)資源現(xiàn)狀及機器學習分類預測的基本原理,提出如圖所示的慣犯群體的預測分析流程。其中原始的數(shù)據(jù)為分析對象的一些基本信息,對于犯罪人預測分析來說,主要的信息可以分為三大類,即目標對象的生物屬性信息(如性別、年齡等)、社會屬性信息(如學歷、職業(yè)等)和行為屬性信息(如違法行為和前科記錄),在原始數(shù)據(jù)的基礎上可以根據(jù)如下流程開展慣犯群體的身份特征識別工作:

      (1)對原始數(shù)據(jù)進行數(shù)據(jù)清洗,去除無效或缺失數(shù)據(jù),再根據(jù)目標對象的三類重點信息定義進行數(shù)據(jù)抽取,以此作為分析預測的自變量。

      (2)對目標對象的屬性信息變量進行數(shù)據(jù)歸約化,即把屬性特征中具有相近或相似性的數(shù)據(jù)項進行合并,然后按照屬性信息變量的類別定義相應的標簽,對數(shù)據(jù)信息進行標簽化。

      (3)對標簽化后的數(shù)據(jù)分為訓練數(shù)據(jù)和預測數(shù)據(jù),利用機器學習分類算法對訓練數(shù)據(jù)集進行分類訓練,構(gòu)造預測分類器,最后應用分類器對預測數(shù)據(jù)集開展實際的預測分析,并得到預測結(jié)果。

      圖 慣犯群體的預測分析框架

      2.2 基于二項邏輯回歸的犯罪人慣犯身份特征預測分類實現(xiàn)

      在分類器的選擇上,本文選取二項邏輯回歸分類算法來構(gòu)造犯罪人慣犯身份特征識別模型。二項邏輯回歸分類是一種基于統(tǒng)計學習的經(jīng)典分類算法,能夠解決數(shù)據(jù)線性不可分等復雜類問題,適用性較好,因此,常用于二分類預測和判別問題分析。此外,相較于其他分類算法,二項邏輯回歸的另一個優(yōu)勢在于能夠發(fā)現(xiàn)分類問題中的危險性因素,即對分類問題具有較大影響性的變量因素,因此,二項邏輯回歸分類結(jié)果具有良好的可解釋性。

      現(xiàn)令犯罪人慣犯身份特征識別問題為二分類問題,則目標對象的屬性信息為x,且,其慣犯身份分別用0和1表示,其中0表示目標對象不是慣犯,1表示目標對象為慣犯,則分類結(jié)果可以由條件概率分布P(Y|X)表示,其表達式為如下形式:

      采用極大似然估計法對模型的參數(shù)進行估計,設:

      則似然函數(shù)為:

      對數(shù)似然函數(shù)為:

      3 實驗分析

      3.1 數(shù)據(jù)概況

      以某市2016年街面盜竊、扒竊、入室盜竊三類案件的犯罪嫌疑人數(shù)據(jù)作為案例,進行犯罪人群體的慣犯身份特征預測分析。根據(jù)犯罪類型定義,街面盜竊為偷竊街面機動車、沿街門店財物的犯罪行為,扒竊是在公共空間非法盜取他人隨身攜帶財物的犯罪行為,入室盜竊為進入他人室內(nèi)盜取財物的犯罪行為。三類案件的初始數(shù)據(jù)分別為1461、316、361條,經(jīng)過去重及刪除缺失項后三類案件的有效數(shù)量分別為937、201、276條。

      三類案件的屬性及相關變量如表1所示。其中,犯罪人的分類學習目標被設定為是否為慣犯,即“是”和“否”兩類。在分類變量的選擇上,主要選取了犯罪人的性別、年齡、文化程度、是否有吸毒史等。其中性別和年齡為犯罪人的生物屬性,文化程度為社會屬性,是否有吸毒史為其行為屬性。在變量的標簽化方面,除了性別與是否有吸毒史為典型的二值變量以外,年齡屬于連續(xù)型變量,文化程度屬于多值型變量。為了便于分類分析,對變量進行歸約化處理。根據(jù)各個屬性特征變量下犯罪人的數(shù)量分布,將文化程度分為小學以下、初中和高中以上等三個類別,將年齡分為20歲以下、20-29歲、30-39歲和40歲以上等四個類別。

      3.2 預測評價

      應用二項邏輯回歸算法對三類案件數(shù)據(jù)集進行分類預測,其中模型參數(shù)采用梯度下降法進行估計,模型檢測采用交叉驗證法,分別進行2-10折驗證。檢驗完成后,計算相應的精度、召回率和AUC值。令P為正元組數(shù)量,N為負元組數(shù)量,TP為實際是正元組而被分類為正元組的數(shù)量;TN為實際是負元組而被分類為負元組的數(shù)量;FP為實際為負元組但被誤分類為正元組的數(shù)量;FN為實際是正元組但被誤分類為負元組的數(shù)量。則精度定義為:

      表1 犯罪人的屬性特征變量名稱及標簽化處理

      AUC為接受者操作特征曲線(ROC)下方的面積。ROC曲線中的橫坐標為假陽性率,縱坐標為真陽性率,即召回率。如果模型的分類效果越好,AUC越接近1,如果模型為隨機猜測,則AUC等于0.5。本文定義慣犯為正元組,初犯為負元組。為便于兩個模型進行比較,引入F1-Measure度量方法。F1表示為精度和召回率的調(diào)和平均值,能夠綜合反映模型在分類預測準確性上的效果,其定義式為:

      3.3 結(jié)果分析

      表2為三類案件分別經(jīng)過2-10折交叉檢驗的計算結(jié)果。從結(jié)果中可以看到,在三類案件中,街面盜竊案件的二項邏輯回歸分類效果最好,其分類精度平均值達到了0.698,召回率平均值為0.735,AUC平均值為0.716;其次為入室盜竊類案件,其分類精度平均值達到了0.634,召回率平均值為0.644,AUC平均值為0.682;相比之下,扒竊類案件的分類效果則相對較低,其分類精度平均值達到了0.624,召回率平均值為0.627,AUC平均值為0.651。由此可見,利用犯罪人的性別、年齡、文化程度和吸毒史等屬性特征能夠?qū)T犯群體實現(xiàn)較好的分類預測。

      為進一步驗證二項邏輯回歸模型的有效性,將二項邏輯回歸分類預測的結(jié)果與隨機森林模型得到的結(jié)果進行對比。應用隨機森林模型和二項邏輯回歸模型對三類案件犯罪人進行分類預測,結(jié)果如表3所示。由表中數(shù)據(jù)可見,對于街面盜竊和入室盜竊兩類案件,二項邏輯回歸與隨機森林模型的分類效果比較接近,但二項邏輯回歸要略好于隨機森林方法,但對于扒竊案件,二項邏輯回歸的分類效果則要明顯好于隨機森林模型。

      表2 三類案件犯罪人的分類預測準確率

      表3 基于隨機森林和二項邏輯回歸的分類效果對比

      在統(tǒng)計分類準確率的基礎上,進一步統(tǒng)計各類案件的二項邏輯回歸分類OR值。OR值即優(yōu)勢比,指的是數(shù)據(jù)組中二分類組數(shù)量的比值除以對照組中二分類組數(shù)量的比值。一般將OR值與1進行對比,如果變量的OR值大于1,則該變量對分類結(jié)果具有顯著性影響。三類案件的二項邏輯回歸分類的OR值如表4所示。從中可見,街面盜竊案件中犯罪人有三類特征變量的OR值大于1,依次為文化程度在小學以下,年齡在40歲以上和30-39歲之間,即符合這些特征的犯罪人屬于慣犯的可能性要大于初犯。對于扒竊類案件,OR值最為顯著的變量為有吸毒史,達到了17.3以上,即有吸毒史的犯罪人屬于慣犯的可能性是此人屬于初犯的可能性的17倍多,其次分別為年齡在40歲以上、文化程度在小學以下、性別為男性。對于入室盜竊案件,OR值大于1的特征變量有5個,其中最為顯著的變量為年齡在40歲以上,其次分別為年齡在30-39歲之間、文化程度在小學以下、有吸毒史和文化程度為初中。

      4 結(jié)論

      隨著公安信息化的快速發(fā)展,如何利用已有公安數(shù)據(jù)資源實現(xiàn)犯罪人身份特征的快速、準確識別和分析已成為公安偵查工作的迫切需求。本文針對慣犯這一特殊犯罪人群體,利用犯罪人的生物屬性、社會屬性和行為屬性等多類信息資源,提出了一種基于機器學習的犯罪人慣犯身份特征識別預測模型。通過以某市的街面盜竊、扒竊、入室盜竊三類案件的犯罪人特征數(shù)據(jù)作為實驗案例,利用該模型和二項邏輯回歸分類算法對犯罪人的慣犯特征進行了分類預測。分析結(jié)果表明,二項邏輯回歸模型能夠得到較好的分類預測效果,并且在分類預測的精度和召回率上要好于隨機森林方法,特別是二項邏輯回歸模型通過計算OR值給出了對預測結(jié)果影響較大的危險性特征變量集,其結(jié)論具有較好的可解釋性和外延性,對公安偵查工作有著較高的實用價值。

      表4 三類案件犯罪人的分類OR值

      猜你喜歡
      慣犯元組犯罪人
      Python核心語法
      電腦報(2021年14期)2021-06-28 10:46:22
      執(zhí)紀量紀應劃清“初、累、慣”
      清風(2020年5期)2020-09-10 07:22:44
      和諧人際關系的構(gòu)建與犯罪人的再社會化
      新華月報(2019年24期)2019-09-10 07:22:44
      海量數(shù)據(jù)上有效的top-kSkyline查詢算法*
      基于減少檢索的負表約束優(yōu)化算法
      減刑假釋實行申請制之倡導
      未成年犯罪人的刑罰制度分析
      尋找石像
      論未成年犯罪人的矯治
      商(2015年6期)2015-05-30 21:02:25
      智斗慣犯
      宿迁市| 许昌县| 南溪县| 沧源| 东辽县| 西贡区| 阿拉善右旗| 清水县| 曲阳县| 昌都县| 洞口县| 民县| 方山县| 永登县| 华坪县| 杭锦旗| 同江市| 法库县| 东城区| 冀州市| 汶上县| 娄底市| 济阳县| 邵阳市| 高邑县| 柘城县| 康马县| 六枝特区| 横山县| 汾阳市| 郓城县| 东丰县| 威宁| 新巴尔虎左旗| 金华市| 神池县| 宁国市| 黄石市| 沾化县| 绍兴县| 江西省|