• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于機(jī)器學(xué)習(xí)的典型侵財(cái)類案件發(fā)生概率預(yù)測分析方法

      2020-10-27 10:52:48盧子涵胡嘯峰侯苗苗
      關(guān)鍵詞:天氣數(shù)量概率

      盧子涵, 胡嘯峰, 侯苗苗

      (1.中國人民公安大學(xué)信息網(wǎng)絡(luò)安全學(xué)院, 北京 100038;2.安全防范技術(shù)與風(fēng)險(xiǎn)評估公安部重點(diǎn)實(shí)驗(yàn)室, 北京 102623)

      0 引言

      我國侵財(cái)類犯罪案件數(shù)量占比高,破案率低[1],嚴(yán)重威脅著人民群眾的財(cái)產(chǎn)安全,乃至影響社會(huì)的穩(wěn)定。在經(jīng)濟(jì)迅速發(fā)展的新時(shí)代,人民群眾對公安機(jī)關(guān)預(yù)防、打擊侵財(cái)類案件提出了更高的要求。搶劫、搶奪和盜竊3類典型侵財(cái)類案件具有代表性,根據(jù)國家統(tǒng)計(jì)局公布的數(shù)據(jù)顯示,僅每年發(fā)生的盜竊案數(shù)量在刑事案件數(shù)量中的占比就能達(dá)到60%,長期威脅人民群眾的生命財(cái)產(chǎn)安全。

      李衛(wèi)紅等[2]利用改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)模型建立了侵財(cái)類案件預(yù)測模型,可挖掘風(fēng)險(xiǎn)要素與案件風(fēng)險(xiǎn)之間的非線性關(guān)系;胡嘯峰等[3-5]研究了熱應(yīng)力與侵財(cái)類案件之間的相關(guān)關(guān)系,分析了侵財(cái)類案件的發(fā)生規(guī)律;邱凌峰等[6]提出了基于機(jī)器學(xué)習(xí)的社會(huì)安全事件預(yù)測分析方法,可以預(yù)測犯罪人的類型;陳鵬等[7]利用二項(xiàng)邏輯回歸算法,以犯罪人的生物、社會(huì)和行為信息為特征,實(shí)現(xiàn)慣犯身份特征的預(yù)測識(shí)別;石拓等[8]提出一種基于Bagging和特征選擇差異性的集成學(xué)習(xí)算法進(jìn)行犯罪預(yù)測;杜益虹等[9]構(gòu)建基于邏輯回歸的犯罪概率預(yù)測模型,對犯罪信息進(jìn)行積分預(yù)測,按照分?jǐn)?shù)的高低預(yù)測犯罪的發(fā)生概率。Mehmet Sait Vura等[10]基于樸素貝葉斯理論提出了關(guān)于犯罪預(yù)測問題的解決方案,提出的模型在預(yù)測刑事犯罪的可疑人員方面表現(xiàn)較好。

      對典型侵財(cái)類案件的發(fā)生概率進(jìn)行預(yù)測分析,能夠及時(shí)有效地預(yù)防犯罪的發(fā)生。然而當(dāng)前大多數(shù)研究對于侵財(cái)類案件的預(yù)測分析以盜竊案居多,對搶劫、搶奪類案件的研究極少,并且大多數(shù)研究在預(yù)測案件發(fā)生概率時(shí)很少涉及對時(shí)間滯后項(xiàng)的考慮,導(dǎo)致執(zhí)法部門缺乏充足的時(shí)間制定防控策略。對典型侵財(cái)類案件的發(fā)生概率進(jìn)行預(yù)測研究,能夠幫助公安機(jī)關(guān)合理有效地配置警力資源、制定有針對性的巡邏計(jì)劃,在源頭上減少典型侵財(cái)類案件的發(fā)生。

      1 數(shù)據(jù)及研究方法

      1.1 數(shù)據(jù)集與研究方案

      本節(jié)選取的數(shù)據(jù)來源于ZS市2005年2月1日~2015年7月31日的實(shí)際典型侵財(cái)類案件,以及2005年2月1日~2015年7月31日的實(shí)際天氣數(shù)據(jù)。

      典型侵財(cái)類案件數(shù)據(jù)集共包含111 579條犯罪數(shù)據(jù),經(jīng)過初步提取后共得到盜竊案件數(shù)據(jù)66 691條、搶奪案件數(shù)據(jù)8 608條、搶劫案件數(shù)據(jù)8 196條。天氣數(shù)據(jù)集共包含19 201條天氣數(shù)據(jù),每條數(shù)據(jù)中包含詳細(xì)的天氣情況,一天的天氣數(shù)據(jù)包含不同時(shí)間段的測量數(shù)據(jù),即每天測量8次或4次的天氣數(shù)據(jù)。

      提取的特征通過去除與標(biāo)簽相關(guān)性較小的特征等操作后,最后選取的特征包括“時(shí)間”“發(fā)案概率”“案件總數(shù)量”“單類案件總數(shù)量”以及從天氣數(shù)據(jù)中提取的“最高氣溫”“最低氣溫”“平均氣溫”“氣象站公布當(dāng)天氣象情況”。

      “時(shí)間”指的是不同時(shí)間間隔的時(shí)間值,如以1個(gè)月為時(shí)間間隔,則特征值為“201010”“201011”,以1天為時(shí)間間隔則特征值為“20111001”“20111002”;“單類案件數(shù)量”指的是在一定的時(shí)間長度內(nèi)某一類案件的發(fā)生數(shù)量;“案件總數(shù)量”是指在與“單類案件數(shù)量”相同長度的時(shí)間內(nèi)案件的發(fā)生數(shù)量;“發(fā)案概率”指的是在某一確定時(shí)間長度內(nèi)單類案件數(shù)量與所有案件數(shù)量的比值;“最高氣溫”指的是在當(dāng)天內(nèi)氣溫的最高值,一般是在下午2點(diǎn);“最低氣溫”指的是在當(dāng)天內(nèi)氣溫的最低值,一般是在凌晨2點(diǎn);“平均氣溫”指的是一天中氣溫的平均值。“氣象站公布當(dāng)天氣象情況”指的是氣象站在一天中不同時(shí)段實(shí)時(shí)監(jiān)測的天氣情況;“降水量”指的是一定時(shí)間長度內(nèi)降水的平均值。其中,“發(fā)案概率”作為預(yù)測的標(biāo)簽值,是連續(xù)值。

      研究方案如圖1所示。首先進(jìn)行提取關(guān)鍵字、處理時(shí)間特征等數(shù)據(jù)處理工作,其次將數(shù)據(jù)集按照一定的比例隨機(jī)分為訓(xùn)練集和測試集,運(yùn)用多種機(jī)器學(xué)習(xí)方法對訓(xùn)練集進(jìn)行回歸分析[11]和交叉驗(yàn)證[12],然后用測試集進(jìn)行準(zhǔn)確性檢驗(yàn)、提出最優(yōu)模式。

      圖1 典型侵財(cái)類案件發(fā)生概率分析研究方案

      1.2 數(shù)據(jù)預(yù)處理

      首先對一定時(shí)間長度下的案件數(shù)量進(jìn)行統(tǒng)計(jì),計(jì)算案件發(fā)生頻率;對每天的最低氣溫和最高氣溫進(jìn)行整理;統(tǒng)計(jì)每一天的平均氣溫;對每一個(gè)時(shí)間長度中的天氣情況進(jìn)行統(tǒng)計(jì),天氣情況經(jīng)過分類后包括“雷暴”“霾”“晴”“閃電”“無法觀測”“霧”“雨”7種情況。最終的樣式如表1所示。

      表1 數(shù)據(jù)樣式

      (1)對天氣數(shù)據(jù)表進(jìn)行處理時(shí),首先提取“氣象站公布當(dāng)天氣象情況”中的關(guān)鍵字。如表2所示,原本在數(shù)據(jù)集中有25種天氣狀況,其中有些特征雖然表示的天氣狀況相同卻表述不同,并且過多的特征屬性會(huì)降低模型的擬合效果。因此,通過提取關(guān)鍵字來統(tǒng)一格式,數(shù)據(jù)表中的天氣狀況統(tǒng)一為“雷暴”“霾”“晴”“閃電”“無法觀測”“霧”“雨”7種情況。

      表2 “氣象站公布當(dāng)天氣象情況”關(guān)鍵字提取

      (2)插補(bǔ)空白值?!皻庀笳竟籍?dāng)天氣象情況”特征中包含有大量的空白值,綜合同一個(gè)樣本內(nèi)其他特征的值,將空白值填充為“晴”;在“降水量”特征中,將空白值填充為“0”;“最高氣溫”和“最低氣溫”兩列特征值用當(dāng)天的最低氣溫或最高氣溫填補(bǔ)。

      (3)對犯罪數(shù)據(jù)表進(jìn)行處理時(shí),首先將天氣數(shù)據(jù)表和犯罪數(shù)據(jù)表合并。為了減小誤差,合并的原則定為:使犯罪數(shù)據(jù)的時(shí)間值和天氣數(shù)據(jù)的時(shí)間值最接近。這里需要注意的是,天氣數(shù)據(jù)表在“11.01.2013 23:00”之前是每天測量8次,在“10.01.2013 20:00”之后每天測量4次到6次不等,即犯罪時(shí)的天氣情況最長誤差間隔不超過3小時(shí)。

      對合并的犯罪、天氣數(shù)據(jù)集進(jìn)行處理時(shí),按照預(yù)設(shè)的時(shí)間長度對某一類案件數(shù)量進(jìn)行統(tǒng)計(jì),生成特征“單類案件數(shù)量”;按照預(yù)設(shè)的時(shí)間長度對所有案件數(shù)量進(jìn)行統(tǒng)計(jì),生成特征“總案件數(shù)量”;根據(jù)前兩個(gè)特征的比值,生成特征“發(fā)生概率”;按照預(yù)設(shè)的時(shí)間長度統(tǒng)計(jì)最高氣溫生成特征列“最高氣溫”;按照預(yù)設(shè)的時(shí)間長度統(tǒng)計(jì)最低氣溫,生成特征列“最低氣溫”;按照預(yù)設(shè)的時(shí)間長度統(tǒng)計(jì)平均氣溫,生成特征列“平均氣溫”;按照預(yù)設(shè)的時(shí)間長度統(tǒng)計(jì)降水量,生成特征列“平均降水量”;按照預(yù)設(shè)的時(shí)間長度統(tǒng)計(jì)“氣象站公布當(dāng)天氣象情況”特征中不同天氣情況的次數(shù)。

      1.3 機(jī)器學(xué)習(xí)模型

      基于前文構(gòu)建的犯罪數(shù)據(jù)集和天氣數(shù)據(jù)集,為預(yù)測典型侵財(cái)類案件的發(fā)生概率,本文基于python3.7中開源機(jī)器學(xué)習(xí)模型庫Sklearn的嶺回歸[13]、線性回歸[14]、彈性網(wǎng)絡(luò)回歸[15]、支持向量回歸[16]以及K最近鄰回歸[17]共5種機(jī)器學(xué)習(xí)回歸模型對典型侵財(cái)類案件的發(fā)生概率大小進(jìn)行回歸預(yù)測,并比較其性能。

      2 結(jié)果與討論

      本文構(gòu)建模型時(shí)采用的是十折交叉驗(yàn)證法,并用平均絕對誤差(MAE)[18]和R2[19]值的大小對模型的性能進(jìn)行評估。平均絕對誤差(MAE)越小,R2值越大代表模型的性能越好。如公式(1)、公式(2)所示。

      (1)

      (2)

      2.1 基于機(jī)器學(xué)習(xí)考慮時(shí)間滯后的概率預(yù)測

      為研究考慮時(shí)間滯后的典型侵財(cái)類案件發(fā)生概率預(yù)測方法,以月份為時(shí)間長度劃分?jǐn)?shù)據(jù)集,模型的預(yù)測結(jié)果如表3所示。

      根據(jù)表3可知,對盜竊案、搶劫案、搶奪案而言,性能最好的模型均為K最近鄰模型,R2值分別為0.83, 0.88和0.8。模型的預(yù)測值與真實(shí)值的結(jié)果比較如圖2~4所示。

      圖3 搶劫案件預(yù)測值與真實(shí)值的結(jié)果比較

      圖4 搶奪案件預(yù)測值與真實(shí)值的結(jié)果比較

      圖中y表示真實(shí)值,“Ridge” “Linear Regression” “Elastic Net” “SVR”和“KNN”分別代表模型預(yù)測值。

      圖5所示為盜竊類案件特征的熱圖分析結(jié)果,可見:盜竊類案件中的“單個(gè)案件數(shù)量”與發(fā)案概率的相關(guān)性為0.82,“總案件數(shù)量”與發(fā)案概率的相關(guān)性為0.78,即本月的盜竊案件數(shù)量或總體案件數(shù)量都與下一個(gè)月的盜竊案發(fā)生概率成正相關(guān),也就是本月盜竊類案件的數(shù)量或總體案件數(shù)量越多,下一個(gè)月的盜竊類案件發(fā)生概率越大。

      圖5 盜竊類案件熱圖

      圖6所示為搶劫類案件特征的熱圖分析結(jié)果,可見:

      圖6 搶劫類案件熱圖

      (1)搶劫類案件的發(fā)案概率與“時(shí)間”特征的相關(guān)性小于-0.8,即搶劫類案件的發(fā)案概率和時(shí)間成負(fù)相關(guān)性,也就是隨著時(shí)間發(fā)展搶劫案的發(fā)案概率越來越小。

      (2)搶劫案件的發(fā)生概率與“總案件數(shù)量”特征的相關(guān)性小于-0.6,即搶劫類案件的發(fā)案概率和總案件數(shù)量成負(fù)相關(guān),也就是上個(gè)月中總案件數(shù)量越多本月的搶劫類案件發(fā)生概率越小。

      (3)搶劫類案件的“單個(gè)案件數(shù)量”和“晴”兩個(gè)特征的相關(guān)性為-0.45,即搶劫類案件的發(fā)生數(shù)量和一個(gè)月中的晴天數(shù)量成負(fù)相關(guān),也就是本月中晴天數(shù)量越多則本月?lián)尳兕惏讣l(fā)生數(shù)量越少。

      (4)搶劫類案件的發(fā)案概率和“晴”特征的相關(guān)性為-0.61,即搶劫類案件的發(fā)生概率與一個(gè)月中的晴天數(shù)量呈負(fù)相關(guān),也就是本月中晴天數(shù)量越多則下個(gè)月?lián)尳兕惏讣l(fā)生概率越小。

      圖7所示為搶奪類案件特征的熱圖分析結(jié)果,可見:

      圖7 搶奪類案件熱圖

      (1)搶奪類案件的發(fā)案概率與“時(shí)間”特征的相關(guān)性為-0.79,即搶奪類案件的發(fā)案概率和時(shí)間成負(fù)相關(guān)性,也就是隨著時(shí)間發(fā)展搶劫案的發(fā)案概率越來越小。

      (2)搶奪類案件的發(fā)生概率與“總案件數(shù)量”特征的相關(guān)性為-0.55,即搶奪類案件的發(fā)案概率和總案件數(shù)量成負(fù)相關(guān),也就是上個(gè)月中總案件數(shù)量越多本月的搶奪類案件發(fā)生概率越小。

      (3)搶奪類案件的發(fā)生概率與“晴”特征的相關(guān)性為-0.56,即搶奪類案件的發(fā)案概率與一個(gè)月中的晴天數(shù)量呈負(fù)相關(guān),也就是說本月中晴天數(shù)量越多則下個(gè)月?lián)寠Z類案件發(fā)案概率越小。

      2.2 基于機(jī)器學(xué)習(xí)和實(shí)時(shí)數(shù)據(jù)的典型侵財(cái)類案件發(fā)生概率預(yù)測分析

      在基于機(jī)器學(xué)習(xí)考慮時(shí)間滯后的典型侵財(cái)類案件發(fā)生概率研究中發(fā)現(xiàn),天氣狀況的統(tǒng)計(jì)數(shù)量與案件的發(fā)生概率有一定的相關(guān)性,因此構(gòu)建基于機(jī)器學(xué)習(xí)和實(shí)時(shí)犯罪數(shù)據(jù)、天氣數(shù)據(jù)的典型侵財(cái)類案件發(fā)生概率預(yù)測分析模型。其中,實(shí)時(shí)的犯罪數(shù)據(jù)和天氣數(shù)據(jù)都以天為單位。

      在2.1的基礎(chǔ)上繼續(xù)進(jìn)行關(guān)鍵字提?。?1)提取發(fā)案地域,將發(fā)案地域分為“鄉(xiāng)村”“其他區(qū)域”“城區(qū)”“郊區(qū)”和“鎮(zhèn)”5個(gè)類別。(2)提取派出所的名稱,按照派出所的名稱劃分管轄地域。(3)統(tǒng)計(jì)平均風(fēng)速和平均水平能見度。(4)由于“氣象站公布當(dāng)天氣象情況”這一特征在一天的長度中包含多個(gè)天氣類型,因此將各個(gè)特征處理為啞變量。數(shù)據(jù)樣式如表4所示。

      表4 數(shù)據(jù)樣式

      將處理好的數(shù)據(jù)帶入模型中得到分析結(jié)果如表5所示。

      根據(jù)表5可知,基于實(shí)時(shí)數(shù)據(jù)的侵財(cái)類案件發(fā)生概率預(yù)測只有搶奪案的模型泛化性能較好,K最近鄰回歸模型的R2值能夠達(dá)到0.7。搶劫案和盜竊案的模型泛化性能不突出,最高分別是K最近鄰模型的0.66和0.47。

      表5 回歸模型預(yù)測性能評估

      3 結(jié)論

      利用ZS市2005年2月1日~2015年7月31日的實(shí)際侵財(cái)類案件數(shù)據(jù)以及2005年2月1日~2015年7月31日的實(shí)際天氣數(shù)據(jù),提出基于時(shí)間滯后的預(yù)測分析模型。結(jié)果顯示:盜竊案中,模型性能最好的是K最近鄰模型,R2值達(dá)到了0.83;搶劫案中,模型性能最好的是K最近鄰模型,R2值達(dá)到了0.88;搶奪案中,模型表現(xiàn)性能最好的是K最近鄰模型,R2值達(dá)到了0.8。

      提出基于實(shí)時(shí)數(shù)據(jù)的線性預(yù)測分析模型,利用當(dāng)天的天氣數(shù)據(jù)及在犯罪前已知的信息建立模型,對典型侵財(cái)類案件進(jìn)行線性分析預(yù)測。其中搶奪案的模型泛化性能較好,K最近鄰回歸模型的R2值達(dá)到0.7。搶劫案和盜竊案的模型泛化性能不突出,最高分別是K最近鄰模型的0.66和0.47。對線性預(yù)測分析結(jié)果不好的原因進(jìn)行了分析:(1)劃分的時(shí)間段太小時(shí),各個(gè)案件的發(fā)生均具有偶然性和隨機(jī)性。(2)數(shù)據(jù)錄入不規(guī)范。

      本文的研究成果預(yù)期可以為執(zhí)法機(jī)關(guān)提供預(yù)測典型侵財(cái)類案件發(fā)生概率、內(nèi)部特征之間相關(guān)性的預(yù)測分析模型,能夠?yàn)閳?zhí)法機(jī)關(guān)的科學(xué)決策提供方法依據(jù),為建設(shè)綜合性的犯罪預(yù)測預(yù)警系統(tǒng)提供方法支撐。

      猜你喜歡
      天氣數(shù)量概率
      第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
      第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
      天氣冷了,就容易抑郁嗎?
      概率與統(tǒng)計(jì)(一)
      概率與統(tǒng)計(jì)(二)
      誰是天氣之子
      盛暑天氣,覓得書中一味涼
      文苑(2020年7期)2020-08-12 09:36:38
      統(tǒng)一數(shù)量再比較
      Weather(天氣)
      頭發(fā)的數(shù)量
      泉州市| 渑池县| 故城县| 穆棱市| 壶关县| 阳山县| 廊坊市| 枣阳市| 紫金县| 健康| 平定县| 东港市| 辽源市| 额尔古纳市| 陆川县| 临桂县| 临安市| 台州市| 林口县| 海口市| 田东县| 英山县| 察雅县| 宝兴县| 肥城市| 会昌县| 黄大仙区| 崇文区| 新民市| 应城市| 太白县| 缙云县| 元谋县| 莱州市| 赣州市| 阜新市| 眉山市| 寻甸| 桦川县| 泸西县| 长泰县|