• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于長短期記憶模型的入室盜竊犯罪預(yù)測研究

      2019-11-11 05:19:52沈寒蕾張耀峰張志剛朱艷敏
      統(tǒng)計(jì)與信息論壇 2019年11期
      關(guān)鍵詞:入室時(shí)空網(wǎng)格

      沈寒蕾,張 虎,張耀峰,張志剛,朱艷敏,3,蔡 黎,3

      (1.中南財(cái)經(jīng)政法大學(xué) 統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,湖北 武漢430073;2.湖北經(jīng)濟(jì)學(xué)院 湖北數(shù)據(jù)與分析中心,湖北 武漢430205;3.湖北大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)學(xué)院,湖北 武漢430062)

      一、引 言

      《中國法律年鑒》數(shù)據(jù)顯示,2000年至2017年中國刑事案件數(shù)量呈現(xiàn)緩慢上升趨勢,破案率卻小幅下降,社會治安問題越來越值得關(guān)注。2018年1月中共中央、國務(wù)院發(fā)布《關(guān)于開展掃黑除惡專項(xiàng)斗爭的通知》,要求保障人民安居樂業(yè)、社會安定有序、國家長治久安。隨著智慧警務(wù)平臺建設(shè)的興起,大數(shù)據(jù)逐漸成為公安機(jī)關(guān)預(yù)防和打擊犯罪的重要信息資源。因犯罪事件的時(shí)間和空間信息是警務(wù)大數(shù)據(jù)最基本也是最重要的兩項(xiàng)數(shù)據(jù)維度,所以時(shí)空大數(shù)據(jù)已成為智慧警務(wù)數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)。相對于傳統(tǒng)的數(shù)據(jù)挖掘技術(shù),時(shí)空大數(shù)據(jù)挖掘研究還遠(yuǎn)未成熟,時(shí)空大數(shù)據(jù)中的時(shí)間關(guān)系和空間關(guān)系通常更為復(fù)雜,需要在數(shù)據(jù)挖掘系統(tǒng)中結(jié)合時(shí)空推理不斷探索。時(shí)空推理和數(shù)據(jù)挖掘的深度結(jié)合,一方面可以發(fā)掘更多時(shí)空模式及信息,增強(qiáng)時(shí)空模式的可理解性;另一方面可以顯著提高挖掘的效率和質(zhì)量。本文將采用深度學(xué)習(xí)算法,利用犯罪時(shí)空數(shù)據(jù)對未來犯罪行為進(jìn)行預(yù)測,對預(yù)防犯罪行為的發(fā)生和案發(fā)后的輔助研判提供依據(jù)。

      上述研究從諸多視角進(jìn)行了犯罪分析和預(yù)測,但對于國內(nèi)犯罪預(yù)測而言,依然存在一些不足之處。一是已有文獻(xiàn)大多使用國外數(shù)據(jù)或國內(nèi)的宏觀統(tǒng)計(jì)數(shù)據(jù),國內(nèi)微觀數(shù)據(jù)相對較少。二是使用的方法大多是基于傳統(tǒng)的機(jī)器學(xué)習(xí)方法或統(tǒng)計(jì)學(xué),較少使用深度學(xué)習(xí)。三是研究視角大多屬于長期、宏觀層面,犯罪短期研究還需進(jìn)一步豐富與改進(jìn)。

      針對以上不足,本文以微觀數(shù)據(jù)110接警數(shù)據(jù)為基礎(chǔ),使用深度學(xué)習(xí)算法進(jìn)行犯罪事件的預(yù)測,進(jìn)一步探索適合國內(nèi)環(huán)境的犯罪預(yù)測模型。采用深度學(xué)習(xí)算法而不是傳統(tǒng)機(jī)器學(xué)習(xí)算法主要基于以下兩點(diǎn)考慮:首先,110接警數(shù)據(jù)庫的數(shù)據(jù)規(guī)模龐大,相比傳統(tǒng)的機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)的預(yù)測效果會隨著測試數(shù)據(jù)集規(guī)模的擴(kuò)大而提升,從而能夠充分發(fā)揮深度神經(jīng)網(wǎng)絡(luò)因深度和廣度的大量增加帶來的預(yù)測能力。深度學(xué)習(xí)算法在處理大規(guī)模110接警數(shù)據(jù)時(shí)具有更強(qiáng)的泛化能力,即訓(xùn)練模型的預(yù)測效果比傳統(tǒng)機(jī)器學(xué)習(xí)更好;其次,犯罪事件具有時(shí)間和空間上的關(guān)聯(lián)性,這種關(guān)聯(lián)性在學(xué)習(xí)算法中表現(xiàn)為對數(shù)據(jù)時(shí)空特征的記憶性。深度學(xué)習(xí)之所以比傳統(tǒng)機(jī)器學(xué)習(xí)具有更強(qiáng)的泛化能力,就是因?yàn)槠淞己玫挠洃浤芰Γ?其 長 短 期 記 憶 模 型 (Long short-term memory,LSTM)算法能夠有效記住犯罪事件在發(fā)生時(shí)間和空間上的長期或短期特征,這是傳統(tǒng)機(jī)器學(xué)習(xí)算法所不具備的[13]。

      二、犯罪預(yù)測體系設(shè)計(jì)

      犯罪預(yù)測作為案前防范的手段之一,能夠?qū)⑦`法犯罪扼殺在搖籃之中,對于社會安全建設(shè)至關(guān)重要。本文的犯罪預(yù)測體系主要以接警數(shù)據(jù)的案件類別、時(shí)空屬性、地理編碼信息為基礎(chǔ),利用神經(jīng)網(wǎng)絡(luò)考慮犯罪事件的長短期記憶、并發(fā)性以及空間關(guān)系,構(gòu)建科學(xué)、有效地犯罪預(yù)測體系。犯罪預(yù)測的技術(shù)路線(見圖1)主要由三部分組成。第一部分:數(shù)據(jù)提取。從110接警平臺查詢并提取相應(yīng)的接警數(shù)據(jù)主要包括案件類別信息、案件時(shí)空信息、相應(yīng)行政區(qū)域的地理編碼,并對部分涉密信息進(jìn)行脫敏處理。第二部分:數(shù)據(jù)預(yù)處理。首先,包括案件類別的熱點(diǎn)編碼、案件時(shí)空信息的去重和補(bǔ)全、相關(guān)行政區(qū)域地圖的網(wǎng)格劃分;接下來依次對案件進(jìn)行空間聚類、時(shí)間分割,形成時(shí)空維度的犯罪數(shù)據(jù)窗口。第三部分:生成預(yù)測模型。根據(jù)輸入數(shù)據(jù)的不同種類進(jìn)行LSTM模型的設(shè)計(jì)、訓(xùn)練以及最優(yōu)模型的選取。最終,動(dòng)態(tài)選取自適應(yīng)閾值,輸出相應(yīng)預(yù)測結(jié)果。

      (一)數(shù)據(jù)提取

      原始數(shù)據(jù)接警數(shù)據(jù)包含報(bào)案人、接警單位、案件等相關(guān)信息。首先針對其中涉及隱私的相關(guān)信息進(jìn)行了脫敏處理,然后從中提取了與案件相關(guān)的時(shí)間、空間、案件類別等相關(guān)信息。本文使用接警數(shù)據(jù)中的部分相關(guān)變量,如表1所示。另外,相關(guān)行政區(qū)域地圖的編碼信息通過百度地圖的API獲取,主要包括地圖以及行政區(qū)域的邊界經(jīng)緯度信息。

      圖1 犯罪預(yù)測的技術(shù)路線圖

      表1 110接警數(shù)據(jù)相關(guān)變量表

      (二)數(shù)據(jù)預(yù)處理

      本文主要是利用接警平臺的時(shí)空大數(shù)據(jù)和百度地圖地理信息數(shù)據(jù),采用LSTM模型對指定地理范圍內(nèi)指定時(shí)間的指定犯罪種類進(jìn)行預(yù)測。結(jié)合研究目的和算法模型對數(shù)據(jù)質(zhì)量以及輸入格式的要求,需對已有數(shù)據(jù)進(jìn)行科學(xué)、合理的預(yù)處理。具體的預(yù)處理包括以下五個(gè)方面:第一,考慮到不同案件類型的時(shí)空異質(zhì)性,本文對不同種類的案件分類進(jìn)行預(yù)測,因此需提前對案件進(jìn)行類別的獨(dú)熱編碼;第二,接警平臺中經(jīng)常存在報(bào)案人重復(fù)報(bào)警,偶爾也會出現(xiàn)案件時(shí)空信息缺失的情形,因此需對原始數(shù)據(jù)進(jìn)行去重和補(bǔ)全;第三,過大研究范圍得到的預(yù)測結(jié)果對于基層警務(wù)人員實(shí)際工作的開展意義不大,因此,預(yù)測范圍不是省、市、區(qū)、縣等大的行政區(qū)域,而是對相應(yīng)研究區(qū)域進(jìn)行一定大小的網(wǎng)格劃分,以小區(qū)、街道等更小的區(qū)域作為研究單位;第四,案件空間信息是精確的經(jīng)緯度坐標(biāo)數(shù)據(jù)即坐標(biāo)點(diǎn)信息,研究的地理范圍是一定經(jīng)緯度區(qū)間的面信息,因此需通過空間聚類將每個(gè)案件映射到對應(yīng)的地理網(wǎng)格塊之中;第五,案件時(shí)間信息的處理與空間信息處理類似,由于每個(gè)案件的時(shí)間信息是精確到分鐘的,而案件預(yù)測是針對某天、某周或某月等某個(gè)時(shí)間段而言的,因此,需要對案件的時(shí)間信息做聚集處理,然后按照犯罪預(yù)測的相應(yīng)時(shí)間單位進(jìn)行分割及合并。下面對相應(yīng)預(yù)處理過程進(jìn)行詳細(xì)說明。

      第一,案件類別信息獨(dú)熱編碼。獨(dú)熱編碼,又稱為One-Hot編碼或一位有效編碼,主要是通過N位狀態(tài)寄存器來對N種狀態(tài)編碼,每個(gè)狀態(tài)對應(yīng)一個(gè)獨(dú)立的寄存器位,并且每次只有一位有效。獨(dú)熱編碼多用于分類變量的表示,先將分類值映射到整數(shù)值,再將每個(gè)整數(shù)值表示為二進(jìn)制向量。其中,整數(shù)的索引記為1,其它均為0。編碼后,離散特征被數(shù)字化,不僅便于特征相似性的度量、距離的計(jì)算,同時(shí)便于特征的分離及合并。如,案件類別=[“入室盜竊”“涉毒”“扒竊”“擾亂秩序”“打架斗毆”“搶劫”],此處N=6,則“入室盜竊”=>[1,0,0,0,0,0],“打架斗毆”=>[0,0,0,0,1,0]。

      第二,時(shí)空信息去重、補(bǔ)全。去重主要是針對重復(fù)報(bào)警信息進(jìn)行過濾,補(bǔ)全主要是補(bǔ)全缺乏經(jīng)緯度信息的案件記錄。數(shù)據(jù)清洗過程中,首先,利用百度API采用爬蟲技術(shù)對其進(jìn)行信息補(bǔ)全;然后,對重復(fù)多次報(bào)警以及跨區(qū)域報(bào)警數(shù)據(jù)進(jìn)行清洗過濾。最終保留的案件屬性變量包括案件類別、報(bào)案時(shí)間、報(bào)案地點(diǎn)(緯度、經(jīng)度、地名)。

      首先需要解釋的是弗雷格系統(tǒng)中水平線“—”的涵義。水平函數(shù)是這樣的一種函數(shù):—x在x等于真時(shí)為真,在x不等于真時(shí)為假。[5]68根據(jù)這個(gè)定義,如果水平線后面連接的是自然語言中常見的那些單獨(dú)詞項(xiàng),得到的表達(dá)式一律都指稱假,例如“—柏拉圖”、“—紐約”的指稱都是假。如果水平線后連接的是真值表達(dá)式,那么得到的表達(dá)式和原表達(dá)式的指稱是一樣的,例如,真值表達(dá)式“2+2=4”指稱真,添加水平線后得到的新的真值表達(dá)式“—2+2=4”也指稱真;相反,真值表達(dá)式“2+2=5”和“—2+2=5”都指稱假。

      第三,地圖網(wǎng)格劃分。事件通過經(jīng)緯度信息與指定區(qū)域在地圖上的經(jīng)緯度信息對應(yīng),反應(yīng)事件的發(fā)生位置。針對某市、某區(qū)或某縣這樣的行政區(qū)域進(jìn)行犯罪事件的預(yù)測對于基層警務(wù)人員工作安排沒有實(shí)質(zhì)性的參考意義,而對每個(gè)指定大小的小區(qū)域在指定時(shí)段的犯罪情況做預(yù)測,能夠?yàn)閷?yīng)街道或是小區(qū)的相關(guān)工作人員的巡邏路線或是人員分配提供參考。因此,需要先將目標(biāo)區(qū)域劃分為一定面積的小網(wǎng)格塊。以前的研究中很多直接采用經(jīng)緯度等分后的地圖網(wǎng)格進(jìn)行后期的研究,如:將區(qū)域S(lngmin,latmin,lngmax,latmax)分為500×500的網(wǎng)格,則分別用Δlng和Δlat對區(qū)域S進(jìn)行分割,則Δlng=(lngmax-lngmin)/500,Δlat=(latmax-latmin)/500,這種分割方式在經(jīng)緯度上實(shí)現(xiàn)了等間隔分割。但經(jīng)緯度等間隔劃分后其對應(yīng)的球面區(qū)域面積ΔSΔ可能存在很大差異,因?yàn)?A(latA,lngA),B(latB,lngB)兩點(diǎn)間球面距離d(單位:m)為:

      其中,

      可看出球面距離d與兩點(diǎn)間經(jīng)緯度間隔并非簡單的線性關(guān)系,因此直接均分經(jīng)緯度這種劃分網(wǎng)格的方式會形成面積差異很大的網(wǎng)格。本文針對每個(gè)網(wǎng)格設(shè)定與其面積s成正比的權(quán)重w。其他條件相同時(shí),網(wǎng)格面積越大對應(yīng)的預(yù)測準(zhǔn)確率會越高,難以與不同方法對應(yīng)不同大小網(wǎng)格的預(yù)測準(zhǔn)確率進(jìn)行對比。因此,本文對經(jīng)緯度實(shí)現(xiàn)等間隔分割后,得到R×C網(wǎng)格數(shù)。由于地球近似為球體,等間隔劃分經(jīng)緯度后的網(wǎng)格投射到平面近似為等腰梯形。因此,對于網(wǎng)格gi利用兩經(jīng)緯度間的距離公式計(jì)算出對應(yīng)等腰梯形的四邊邊長分別為d1、d2、d3、d4,則網(wǎng)格gi對應(yīng)的面積Si為:

      其中d2≈d4,則wsi=μsi。與其他不同大小網(wǎng)格對比時(shí),以參照網(wǎng)格的面積大小s0為單位,對本文網(wǎng)格大小設(shè)置相應(yīng)的權(quán)重,實(shí)現(xiàn)準(zhǔn)確率的可比性。

      第四,空間聚類。結(jié)合已分割好的地圖網(wǎng)格g1,g2,…,gn分別將原始數(shù)據(jù)對應(yīng)到相應(yīng)網(wǎng)格中,實(shí)現(xiàn)原始數(shù)據(jù)的空間聚類。由于空間具有距離性、鄰近性、層次性,因此可結(jié)合實(shí)際研究需要,對原始數(shù)據(jù)進(jìn)行二次空間聚類。

      第五,時(shí)間分割。時(shí)間分割過程是為LSTM模型輸入數(shù)據(jù)做準(zhǔn)備。假設(shè)犯罪預(yù)測模型是針對指定區(qū)域每天的犯罪情況做預(yù)測,則時(shí)間維度上需要將原始數(shù)據(jù)按天進(jìn)行分割并對相同網(wǎng)格內(nèi)的案件記錄數(shù)進(jìn)行合并。得到二值分類數(shù)據(jù)(BD)和頻數(shù)回歸數(shù)據(jù)(RD),并分別利用BD-LSTM和RD-LSTM 進(jìn)行犯罪預(yù)測。

      (三)預(yù)測模型生成

      本文將研究兩類犯罪數(shù)據(jù)預(yù)測問題:第一類是犯罪是否發(fā)生的二值分類(Binary Data,簡稱BD),通過構(gòu)建BD-LSTM模型預(yù)測指定區(qū)域在指定時(shí)間段是否發(fā)生案件;第二類是犯罪發(fā)生數(shù)量的回歸分類(Regression Data,簡 稱 RD),通 過構(gòu)建 RDLSTM模型預(yù)測指定區(qū)域在指定時(shí)間段發(fā)生的案件數(shù)量。經(jīng)過LSTM模型最終輸出的結(jié)果矩陣是案件是否發(fā)生的概率值或者非整的案件數(shù)量,需設(shè)定閾值將輸出概率二值化,案件發(fā)生數(shù)量取整,以便于結(jié)果的顯示及應(yīng)用。針對BD-LSTM、RD-LSTM模型分別以最小化二值交叉熵?fù)p失和均方誤差損失為目標(biāo),自適應(yīng)動(dòng)態(tài)選定合理的閾值。

      三、基于LSTM的犯罪預(yù)測模型構(gòu)建

      犯罪預(yù)測的目的是利用地理信息及110接警的時(shí)空數(shù)據(jù)盡量提前準(zhǔn)確預(yù)測潛在的違法犯罪行為,其本質(zhì)是時(shí)空大數(shù)據(jù)的預(yù)測問題。國內(nèi)微觀警務(wù)數(shù)據(jù)不易獲得,因此相關(guān)研究較少,且大都通過傳統(tǒng)機(jī)器學(xué)習(xí)方法針對時(shí)空特征進(jìn)行分析,未能更進(jìn)一步更精確的預(yù)測未來短時(shí)間的犯罪趨勢。針對某地區(qū)小范圍短時(shí)間的犯罪預(yù)測,實(shí)際是針對量大、稀疏且正負(fù)樣本極不平衡的歷史數(shù)據(jù)進(jìn)行犯罪預(yù)測。傳統(tǒng)機(jī)器學(xué)習(xí)方法對于解決高維、稀疏、傾斜數(shù)據(jù)效果不佳。近年來,計(jì)算機(jī)性能的提升,大數(shù)據(jù)時(shí)代的來臨,深層神經(jīng)網(wǎng)絡(luò)模型強(qiáng)大的學(xué)習(xí)能力能夠很好地解決上述問題,并且具有良好的學(xué)習(xí)效率和泛化能力。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是一種改進(jìn)的多層感知器網(wǎng)絡(luò),用于處理序列數(shù)據(jù)。但是犯罪事件通常呈現(xiàn)近期重復(fù),即存在時(shí)空范圍上的依賴,RNN對于長期序列依賴會出現(xiàn)梯度消失問題,因此不適合用于犯罪預(yù)測研究。LSTM是在RNN基礎(chǔ)上1997年由Hochreiter等提出[13],2014年由 Alex Graves等進(jìn)行改進(jìn)的一種循環(huán)神經(jīng)網(wǎng)絡(luò)[14]。LSTM早期多用于語音文本處理中,近年來開始應(yīng)用于金融等其他領(lǐng)域[15]。LSTM通過確定新的輸入是否被存儲、遺忘或作為輸出存儲在記憶單元中,可以學(xué)習(xí)序列數(shù)據(jù)間的長短期依賴信息。時(shí)空數(shù)據(jù)的后期輸出與前期的輸入、輸出相關(guān),即輸出依賴于輸入及前期“記憶”。因此,本文主要運(yùn)用LSTM構(gòu)建犯罪預(yù)測模型。同時(shí)結(jié)合時(shí)間序列預(yù)測模型選取適當(dāng)?shù)拈撝递敵隹勺x、易用的預(yù)測結(jié)果。

      LSTM是基于RNN的改良與推廣,二者均包含前向傳播計(jì)算、基于時(shí)間的反向傳播(Back Propagation Through Time,BPTT)算法、Adam 參數(shù)優(yōu)化算法。RNN模型的反向傳播過程中隨著依賴序列的增長,連乘項(xiàng)增加可能出現(xiàn)梯度消失或梯度爆炸問題,RNN將忘記它在較長序列中的內(nèi)容,可見RNN不適合處理延遲窗口過長的序列,因此具有短時(shí)記憶。為保證學(xué)習(xí)力度,需提前設(shè)置RNN模型的延遲窗口長度,但主觀的設(shè)置在實(shí)際應(yīng)用中很難達(dá)到最優(yōu)。由此,LSTM模型應(yīng)運(yùn)而生,解決了RNN模型的長期依賴問題。LSTM與RNN的大體結(jié)構(gòu)類似,主要不同之處在于對RNN“記憶體”的改造,對記憶的信息進(jìn)行篩選,該記的會一直傳遞,不該記的被過濾掉。LSTM設(shè)置“門”讓歷史犯罪信息選擇性通過,從而過濾或添加相應(yīng)的犯罪事件信息到“記憶體”。LSTM通過歷史犯罪事件的記憶和當(dāng)前新輸入的犯罪事件"相加",使得之前的記憶會繼續(xù)存在而不是受到乘法的影響而部分“消失”。因此,LSTM不會造成對很久以前歷史犯罪事件有效信息的衰減,能夠處理長期記憶問題。

      假設(shè)已發(fā)生的犯罪事件在臨近時(shí)間(以“天”為單位)及空間上均彼此相關(guān),根據(jù)不同的輸入數(shù)據(jù)類型,本文將創(chuàng)建兩種形式的預(yù)測模型:BD-LSTM、RD-LSTM。設(shè)時(shí)間序列長度為T,地圖被分為R行C列,網(wǎng)格總數(shù)為G??紤]空間相關(guān),假設(shè)網(wǎng)格g與周邊q環(huán)網(wǎng)格對應(yīng)的犯罪數(shù)量相關(guān),則其與周邊的(2q+1)2-1個(gè)網(wǎng)格相關(guān),i<0或i>R。若周邊近鄰網(wǎng)格所在行或者所在列j<0或j>C,均視為越界,對應(yīng)xtg=0,g=i×j。

      考慮時(shí)間相關(guān),假設(shè)第t+1天的案件數(shù)量與之前b天的犯罪數(shù)量相關(guān),稱b為回看天數(shù)。第t+1天,格子編號g=r×c對應(yīng)的犯罪事件二值化矩陣樣本 mtB+1,g,標(biāo)簽值ytB+1,g分別為:

      第t+1天,格子編號g=r×c對應(yīng)的犯罪事件頻數(shù)統(tǒng)計(jì)矩陣樣本 mRt+1,g,標(biāo)簽值yRt+1,g分別為:

      綜合所有接警數(shù)據(jù)的時(shí)空信息,犯罪事件的二值化數(shù)據(jù)矩陣MB及頻數(shù)統(tǒng)計(jì)數(shù)據(jù)矩陣MR分別為:

      假設(shè)回看長度為b,空間相關(guān)度q=1,本文所使用的BD-LSTM、RD-LSTM模型均由一個(gè)輸入層、一個(gè)隱藏層和一個(gè)輸出層組成。LSTM模型中的權(quán)重在[0,1]間隨機(jī)初始化。利用反向傳播計(jì)算在學(xué)習(xí)過程中的每個(gè)階段更新權(quán)重,不斷優(yōu)化網(wǎng)絡(luò)產(chǎn)生的輸出。不同之處在于,BD-LSTM以MB作為輸入數(shù)據(jù),二值交叉熵(binary_crossentropy)作為損失函數(shù),Softmax作為激活函數(shù),而RD-LSTM以MR作為輸入數(shù)據(jù),均方誤差(mean_squared_error)作為損失函數(shù),Linear作為激活函數(shù)。

      四、實(shí)證研究

      (一)樣本選取與數(shù)據(jù)來源

      文中實(shí)證數(shù)據(jù)來源于WH市公安局大數(shù)據(jù)實(shí)戰(zhàn)應(yīng)用中心110接警平臺2015年1月3日至2018年5月28日1 242天經(jīng)脫敏處理的所有報(bào)案數(shù)據(jù)共934 698條。原始接警數(shù)據(jù)基于Oracle數(shù)據(jù)庫存儲,其中包含案件的時(shí)間(DateTime)、空間(Latitude,Longitude,Location)、案件類別(入室盜竊、扒竊、尋釁滋事等)等相關(guān)信息。本文主要針對WH市的入室盜竊案件數(shù)據(jù)進(jìn)行分析,篩選過濾后得到入室盜竊記錄115 218條,其中8 657條記錄數(shù)據(jù)空間信息缺失。數(shù)據(jù)清洗過程中,先利用百度API采用爬蟲技術(shù)對其進(jìn)行信息補(bǔ)全;再對重復(fù)多次報(bào)警以及跨區(qū)域報(bào)警數(shù)據(jù)進(jìn)行清洗過濾。最后,得到入室盜竊類案件有效原始數(shù)據(jù)66 177條,保留的案件屬性變量包括報(bào)案時(shí)間、報(bào)案地點(diǎn)(緯度、經(jīng)度)。此外,WH市地理信息數(shù)據(jù)來自百度API。

      (二)數(shù)據(jù)預(yù)處理

      案件類別的獨(dú)熱編碼以及接警數(shù)據(jù)的清洗在樣本選取過程中已實(shí)現(xiàn)并篩選出入室盜竊案件的相關(guān)數(shù)據(jù)。除此之外,數(shù)據(jù)的預(yù)處理過程主要包括地圖網(wǎng)格劃分,空間聚類,時(shí)間分割,接警數(shù)據(jù)的二值化以及頻數(shù)統(tǒng)計(jì),大體處理方式見第二節(jié)數(shù)據(jù)預(yù)處理。具體的細(xì)節(jié)如下:首先,網(wǎng)格劃分過程涉及的相關(guān)參數(shù)見表2。WH市屬于南北長東西短,因此,在滿足表2相關(guān)參數(shù)設(shè)置時(shí),WH市外接矩形最終劃分為22 500個(gè)網(wǎng)格。其中經(jīng)緯度分別等分為150份。隨后將所有接警數(shù)據(jù)按照對應(yīng)的空間信息聚集到相應(yīng)的網(wǎng)格中,隨后對各網(wǎng)格中的數(shù)據(jù)按天進(jìn)行時(shí)間分割,并統(tǒng)計(jì)各網(wǎng)格每天的案件數(shù),最終得到二值分類數(shù)據(jù)(BD)和頻數(shù)回歸數(shù)據(jù)(RD)。

      表2 網(wǎng)格劃分參數(shù)表

      (三)犯罪預(yù)測模型結(jié)果與分析

      實(shí)驗(yàn)過程中BD-LSTM、RD-LSTM 兩模型分別取不同的迭代次數(shù)epochs=50,100,500,1 000,5 000;不同的回看天數(shù)lookBack=1,7,30,90,365;不同的空間依賴程度q=0,1,2,3。組成多種不同參數(shù)的組合模型。為防止過擬合,分別設(shè)置不同的失活率dropout=0.0,0.1,0.2,…,0.9。此外,為度量不同參數(shù)模型的學(xué)習(xí)能力及穩(wěn)健性,分別對每種模型對應(yīng)的不同參數(shù)組合運(yùn)行10次。對所有樣本數(shù)據(jù)按時(shí)間升序排列并進(jìn)行編號,每次采用有放回的等概率抽樣隨機(jī)抽取一個(gè)樣本作為測試集,直至抽取的所有不重復(fù)樣本數(shù)量達(dá)到總樣本所占比例p停止抽樣且將這部分樣本數(shù)據(jù)標(biāo)記為測試數(shù)據(jù)集,余下1-p作為訓(xùn)練數(shù)據(jù)集。本文分別對BD和RD兩類數(shù)據(jù)比較了p=0.1,0.2,…,0.9不同比例下測試集的平均預(yù)測準(zhǔn)確率,結(jié)果顯示在其它條件相同時(shí),p取0.2,0.3,0.4時(shí)預(yù)測準(zhǔn)確率波動(dòng)不大均在BD數(shù)據(jù)約為60%,RD數(shù)據(jù)約為57%,由于總樣本量不算很大p≥0.5時(shí)基于BD、RD數(shù)據(jù)的預(yù)測性能急劇下降。已有深度學(xué)習(xí)研究中,測試集與訓(xùn)練集常按照3∶7的比例劃分[16],本文后續(xù)實(shí)驗(yàn)均是抽取總樣本量的30% 用于測試,余下70% 用于訓(xùn)練。模型訓(xùn)練基于tensorflow背景下的kares框架實(shí)現(xiàn)。

      關(guān)于犯罪預(yù)測模型的性能,主要關(guān)注模型的預(yù)測精度和魯棒性。BD-LSTM、RD-LSTM模型輸出分別是0~1之間的概率取值以及非負(fù)回歸數(shù)值,兩模型分別利用二值交叉熵和均方誤差計(jì)算實(shí)際數(shù)值與預(yù)測結(jié)果的距離,以此來衡量預(yù)測精度,其值越小,對應(yīng)的預(yù)測精度越高。魯棒性主要體現(xiàn)在模型對于每天預(yù)測精度的平穩(wěn)性,能夠適應(yīng)一定范圍內(nèi)的波動(dòng)。

      圖2(a)(b)(c)(d)分別展示了迭代次數(shù)、回看期數(shù)、空間依賴度以及失活率取不同值時(shí),RDLSTM模型對應(yīng)的均方誤差的變化。圖2(a)顯示,隨著迭代次數(shù)的增加,MSE的變化??煽闯?,當(dāng)?shù)螖?shù)在0~200之間時(shí)MSE直線下降,200~800期間依然保持很快的下降速度,800~1 000過程中MSE下降速度逐漸降低,1 000~5 000過程中MSE略微有所增大且中間出現(xiàn)過幾次波動(dòng),可能是因?yàn)榈螖?shù)相對于樣本量來說過多而產(chǎn)生了一定程度的過擬合導(dǎo)致的,因此本文認(rèn)為針對當(dāng)前樣本數(shù)據(jù)epochs=1 000性能最優(yōu)。圖2(b)顯示了不同回看次數(shù)隨著迭代次數(shù)的增加對應(yīng)MSE的變化,考慮到整體來看入室盜竊在時(shí)間上可能具有某種周期規(guī)律比如,天、周、月、季度、年或是工作日、節(jié)假日等,所以預(yù)計(jì)執(zhí)行的回看天數(shù)為1,7,30,90,365。實(shí)際執(zhí)行中發(fā)現(xiàn)lookBack=30時(shí),每次迭代輸入的樣本量所占內(nèi)存大大增加,導(dǎo)致模型訓(xùn)練時(shí)間很長??紤]到硬件設(shè)備的限制以及較長的訓(xùn)練時(shí)間,并且隨著lookBack取值增加,損失的樣本信息也越多,對于lookBack=90,365的情況未進(jìn)行實(shí)驗(yàn)。圖(b)表明lookBack=7時(shí),模型預(yù)測精度更高。圖2(c)展示了不同空間依賴度下,測試集MSE的變化。不同取值q代表了不同地理范圍的相互影響,q的大小與最初網(wǎng)格的劃分粒度有關(guān),最初網(wǎng)格劃分越小可能q對應(yīng)的取值會越大。圖(c)結(jié)果表明,對于當(dāng)前網(wǎng)格大小,q=1時(shí)性能最佳。圖2(d)比較了不同失活率,整體對應(yīng)的預(yù)測精度差異。圖(d)顯示,失活率越大模型初始學(xué)習(xí)效率越高但預(yù)測精度提升緩慢,dropout取0.0,0.1,0.2,0.3均表現(xiàn)出較好的性能,無法通過圖(d)確定最佳失活率。為進(jìn)一步比較dropout=0.0,0.1,0.2,0.3的實(shí)驗(yàn)性能,本研究對不同失活率對應(yīng)的整體預(yù)測精度MSE的均值、方差、最大最小等進(jìn)行了綜合比較。對比結(jié)果見圖3,其中epochs=1 000,q=1,lookBack =7,dropout依次 為 0.0,0.1,0.2,0.3。結(jié)果 表 明dropout=0.1時(shí)MSE波動(dòng)范圍最小,中位數(shù)也最低,因此,最佳失活率為0.1。BD-LSTM 結(jié)果與RD-LSTM結(jié)果一致,因此,不做多余的說明與展示。綜上所述,基于LSTM模型的最優(yōu)超參數(shù)組合為epochs=1 000,lookBack=7,q=1,dropout=0.1,最初樣本數(shù)1 235,其中訓(xùn)練樣本900,測試樣本335。

      圖2 RD-LSTM模型在不同超參數(shù)取值下MSE變化圖

      圖3 RD-LSTM模型不同失活率下MSE箱線圖

      考慮到最佳回看天數(shù)為7,表明入室盜竊可能存在以周為單位的時(shí)間特征。因此,本文將入室盜竊案件的發(fā)生時(shí)間按照工作日、休息日打上標(biāo)簽。其中,工作日包括國家規(guī)定的周末補(bǔ)班時(shí)間,不包括周一至周五的國家法定節(jié)假日;同樣,休息日不包括國家規(guī)定的周末補(bǔ)班時(shí)間,包括周一至周五的國家法定節(jié)假日。通過方差分析發(fā)現(xiàn)工作日和休息日入室盜竊的區(qū)域發(fā)生頻率和數(shù)量發(fā)生頻率均存在顯著差異(見表4)。BD-LSTM*、RD-LSTM*模型在包含工作日和休息日的335個(gè)樣本的測試集上利用動(dòng)態(tài)網(wǎng)格搜索法對各樣本自適應(yīng)設(shè)置閾值后分別得到BD-LSTM*、RD-LSTM*在測試集上準(zhǔn)確率(見圖4)。同樣利用方差分析發(fā)現(xiàn)工作日、休息日對應(yīng)準(zhǔn)確率無顯著性差異(見表5)。再次證明本文提出的犯罪預(yù)測模型對于入室盜竊案發(fā)時(shí)間的差異具有魯棒性。整體來看,同一批測試集樣本,二值化數(shù)據(jù)對應(yīng)的預(yù)測準(zhǔn)確率高于頻數(shù)統(tǒng)計(jì)數(shù)據(jù)。表明預(yù)測指定時(shí)間段、指定區(qū)域、指定類別案件是否發(fā)生易于預(yù)測其具體的案件發(fā)生數(shù)量。本文自適應(yīng)閾值選取條件下,BD-LSTM*、RD-LSTM*對應(yīng)的平均準(zhǔn)確率分別為63.02%和59.60%。

      表4 BD、RD數(shù)據(jù)集在工作日、休息日上案件發(fā)生區(qū)域數(shù)和數(shù)量的方差分析表

      表5 BD、RD數(shù)據(jù)集在工作日、休息日上預(yù)測準(zhǔn)確率方差分析表

      目前,國內(nèi)外針對犯罪預(yù)測研究廣泛采用的模型包括決策樹(DT)[7,18]、樸素貝葉斯(NB)[7]、隨機(jī)森林(RF)[17]、自激點(diǎn)模型(SE)[10-11],其公布的準(zhǔn)確率在35%至60%之間,由于實(shí)際使用的數(shù)據(jù)集存在差異,無法實(shí)現(xiàn)完全同一標(biāo)準(zhǔn)的對比。為檢驗(yàn)基于LSTM模型的入室盜竊犯罪預(yù)測性能,本文比較了WH市數(shù)據(jù)集在決策樹、樸素貝葉斯、隨機(jī)森林、自激點(diǎn)模型上的預(yù)測效果。通過實(shí)證比較研究,結(jié)果發(fā)現(xiàn),相對于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,本文提出的基于LSTM的犯罪預(yù)測模型可靠性更強(qiáng)。結(jié)果統(tǒng)計(jì)見表6。

      表6 WH市入室盜竊模型預(yù)測結(jié)果比較表

      五、結(jié) 論

      本文提出了一種基于LSTM的犯罪預(yù)測系統(tǒng)。在犯罪預(yù)測體系結(jié)構(gòu)中,假設(shè)犯罪事件存在空間依賴的前提下,對地圖實(shí)行網(wǎng)格劃分,并將相鄰地理位置的案件歸于同一網(wǎng)格,為犯罪預(yù)測對應(yīng)的地理范圍提供了基本單元。時(shí)間分割和窗口化提供了以天為單位的時(shí)間序列數(shù)據(jù)集,可用于訓(xùn)練和測試犯罪預(yù)測模型?;诮泳瘯r(shí)空大數(shù)據(jù)利用地理空間依賴性及發(fā)生時(shí)間關(guān)聯(lián)性的二值分類數(shù)據(jù)和頻數(shù)回歸數(shù)據(jù)分別構(gòu)建了BD-LSTM 和RD-LSTM 模型。以WH市的接警數(shù)據(jù)為例,分別學(xué)習(xí)了兩模型的最優(yōu)超參數(shù)取值、評估了兩模型的預(yù)測精度和模型魯棒性,證明了該預(yù)測系統(tǒng)的可靠性。

      在一定時(shí)空范圍內(nèi)對入室盜竊犯罪進(jìn)行趨勢預(yù)測和風(fēng)險(xiǎn)預(yù)警,實(shí)現(xiàn)對犯罪行為的源頭預(yù)防和有效控制。通過對比同一超參數(shù)多種不同取值對應(yīng)的預(yù)測性能,學(xué)到了適用于WH市入室盜竊類最佳性能的犯罪預(yù)測模型。通過最優(yōu)回看天數(shù)以及空間依賴程度取值,證明入室盜竊類犯罪存在一定程度的時(shí)空模仿預(yù)期效應(yīng),與地震的余震效應(yīng)類似。另外,將WH市數(shù)據(jù)集在目前犯罪預(yù)測廣泛采用的傳統(tǒng)機(jī)器學(xué)習(xí)方法上進(jìn)行了對比研究,結(jié)果表明,本文提出的基于LSTM犯罪預(yù)測系統(tǒng)具有更好的預(yù)測效果。

      由于不同犯罪種類在時(shí)間或空間上可能具有不同的發(fā)生模式,因此,未來針對不同種類的犯罪預(yù)測有必要結(jié)合實(shí)際的犯罪數(shù)據(jù)再次進(jìn)行評估。在今后的工作中,由于犯罪預(yù)測的精度和速度在犯罪管理系統(tǒng)中起著至關(guān)重要的作用,因此可以根據(jù)不同的行政區(qū)域和時(shí)間尺度設(shè)計(jì)犯罪預(yù)測系統(tǒng),使其更準(zhǔn)確、更快速地進(jìn)行預(yù)測。為了提高預(yù)測質(zhì)量,一方面,本研究所提出的架構(gòu)也可以采用最近開發(fā)的其它深度學(xué)習(xí)模型;另一方面,未來的研究可加入一些影響犯罪的其他因素,同時(shí)可以基于網(wǎng)格及路網(wǎng)綜合信息進(jìn)行犯罪預(yù)測。

      猜你喜歡
      入室時(shí)空網(wǎng)格
      入室謎案
      用全等三角形破解網(wǎng)格題
      跨越時(shí)空的相遇
      入室盜竊案
      入室盜竊案
      鏡中的時(shí)空穿梭
      反射的橢圓隨機(jī)偏微分方程的網(wǎng)格逼近
      玩一次時(shí)空大“穿越”
      重疊網(wǎng)格裝配中的一種改進(jìn)ADT搜索方法
      竊賊是如何入室作案的
      漳州市| 循化| 冕宁县| 忻城县| 鲜城| 赤水市| 吉隆县| 平武县| 舟曲县| 玉田县| 博乐市| 札达县| 常州市| 泸水县| 乐亭县| 清流县| 丹阳市| 汉中市| 休宁县| 讷河市| 罗田县| 调兵山市| 霍州市| 临高县| 拜泉县| 博罗县| 信丰县| 南川市| 宜宾县| 孟州市| 普兰店市| 托克托县| 南郑县| 达州市| 张家界市| 集贤县| 兰考县| 扎兰屯市| 拉萨市| 新邵县| 海门市|