蔣 耀, 胡嘯峰,2
(1.中國人民公安大學(xué)信息網(wǎng)絡(luò)安全學(xué)院, 北京 100038; 2.安全防范技術(shù)與風(fēng)險評估公安部重點實驗室, 北京 102623)
影響城市犯罪的風(fēng)險要素十分復(fù)雜,大量研究從不同方面進行了分析。屈茂輝等[1]研究發(fā)現(xiàn)社會經(jīng)濟要素與財產(chǎn)類犯罪具有長期協(xié)同關(guān)系,其中社會失業(yè)率和通貨膨脹水平對財產(chǎn)類犯罪數(shù)量的影響較為顯著;Shen等[2]研究了溫度、濕度、降雨量等不同氣候變量與犯罪率之間的相關(guān)性。除了宏觀社會經(jīng)濟和自然氣候要素外,物質(zhì)空間環(huán)境要素對犯罪同樣起到重要影響[3]。風(fēng)險設(shè)施(Risky Facilities)指對促進、吸引犯罪具有明顯作用的空間環(huán)境設(shè)施[4],已有研究分析了城市中的賓館酒店、娛樂場所、交通站點等風(fēng)險設(shè)施對犯罪的影響[5-6]。此外,城市的步行環(huán)境、用地類型同樣與犯罪存在密切聯(lián)系[7-8]。對于與犯罪直接相關(guān)的涉案人員、場所等案件特征,王慧等[9]基于聚類關(guān)聯(lián)規(guī)則挖掘算法,揭示了犯罪案件間的關(guān)聯(lián)特點、犯罪人的構(gòu)成屬性特征和引發(fā)不同類型犯罪行為的關(guān)鍵要素;閆密巧等[10]則利用聚類關(guān)聯(lián)規(guī)則分析了公交扒竊的犯罪模式。
由此可見,犯罪風(fēng)險往往由多種風(fēng)險要素及其關(guān)聯(lián)關(guān)系共同決定,單獨考慮某類風(fēng)險要素與犯罪風(fēng)險的關(guān)系都不夠全面。近些年來,知識圖譜受到了越來越多的關(guān)注,知識圖譜將各類實體、概念及其關(guān)系以語義網(wǎng)絡(luò)的方式進行形式化描述[11]。通過知識圖譜能夠?qū)崿F(xiàn)實體及其關(guān)聯(lián)關(guān)系的精準(zhǔn)查詢,并能夠進行進一步的分析與推理。當(dāng)前,有學(xué)者將知識圖譜運用到情報分析、偵查破案等工作之中。楊陽[12]以地下錢莊案件數(shù)據(jù)為基礎(chǔ),構(gòu)建涉眾型經(jīng)濟犯罪知識圖譜,深入挖掘犯罪團伙的社會網(wǎng)絡(luò)關(guān)系和資金交易鏈,為打擊經(jīng)濟犯罪提供了決策支持;凡友榮等[13]基于知識圖譜、分布式計算等方法,通過構(gòu)建通聯(lián)特征挖掘模型,為偵查并破獲電信欺詐案件提供了情報線索;周鵬等[14]設(shè)計了公安領(lǐng)域知識圖譜的構(gòu)建方案,并利用知識圖譜實現(xiàn)了家族族譜、知識智能搜索等功能;樊舒等[15]則提出了基于復(fù)雜網(wǎng)絡(luò)和知識圖譜的結(jié)構(gòu)化公安情報運行流程。另一方面,知識圖譜在風(fēng)險防控與預(yù)警等領(lǐng)域也得到了廣泛應(yīng)用。胡勉寧等[16]通過分析社區(qū)治安風(fēng)險多主體及其關(guān)聯(lián)關(guān)系,構(gòu)建社區(qū)治安風(fēng)險事件演化邏輯模型,提出了基于知識圖譜的社區(qū)治安風(fēng)險預(yù)警方法;楊波等[17]利用企業(yè)風(fēng)險知識,構(gòu)建出完整的企業(yè)風(fēng)險知識圖譜,并將知識圖譜應(yīng)用于智能問答等領(lǐng)域;梁野等[18]提出了一種端到端架構(gòu)CLOpin,利用該架構(gòu)可以面向輿情分析和預(yù)警領(lǐng)域構(gòu)建出跨語言知識圖譜,從而有利于掌握輿情動態(tài)并及時預(yù)警。
本文旨在基于多源數(shù)據(jù)挖掘犯罪風(fēng)險要素及其關(guān)聯(lián)關(guān)系,并構(gòu)建城市犯罪風(fēng)險知識圖譜,將不同風(fēng)險要素進行關(guān)聯(lián)分析,為犯罪風(fēng)險提供微觀解釋,從而為犯罪風(fēng)險分析、防控及預(yù)警提供決策支持。
在獲取城市多源數(shù)據(jù)的基礎(chǔ)上,挖掘犯罪風(fēng)險要素及其關(guān)聯(lián)關(guān)系是構(gòu)建本文城市犯罪風(fēng)險知識圖譜的首要工作,接下來利用相關(guān)方法實現(xiàn)完整的知識圖譜構(gòu)建,技術(shù)路線如圖1所示。
圖1 技術(shù)路線
本文以我國北方某大型城市A市中B區(qū)為例,研究挖掘城市犯罪風(fēng)險要素,并構(gòu)建城市犯罪風(fēng)險知識圖譜。B區(qū)位于A市東部,其下轄24個街道和19個地區(qū),面積超470平方千米。B區(qū)不僅交通發(fā)達,道路縱橫交錯,而且包含較多的金融企業(yè)、政府機關(guān)、旅游景點、商業(yè)服務(wù)場所等機構(gòu)、設(shè)施。因此,這里匯集了大量的人流、客流和物流,城市環(huán)境豐富多樣,人口結(jié)構(gòu)復(fù)雜,各種風(fēng)險要素互相交織,致使社會治安面臨著不小的壓力和挑戰(zhàn)。
本文采用城市犯罪案件數(shù)據(jù)、空間環(huán)境數(shù)據(jù)、特定人員軌跡點數(shù)據(jù)及社會經(jīng)濟數(shù)據(jù)進行研究。(1)犯罪案件數(shù)據(jù)為2017年1月至2019年12月的發(fā)案統(tǒng)計數(shù)據(jù),這里選取侵財類犯罪案件(盜竊案、搶劫案、搶奪案)、人身傷害類犯罪案件(故意傷害案、強奸案)和妨害公共秩序類犯罪案件(擾亂公共秩序案、尋釁滋事案)作為研究對象。經(jīng)過清洗、篩選和提取后,共得到侵財類案件數(shù)據(jù)48 354條、人身傷害類案件數(shù)據(jù)2 294條、妨害公共秩序類案件數(shù)據(jù)1 803條。案件數(shù)據(jù)包括作案人、受害人、案件類型、作案時間、作案地址、選擇處所等信息。(2)特定人員軌跡點數(shù)據(jù)的采集時間為2019年,共包括46 853條。根據(jù)活動地點類別,特定人員軌跡點分為特定人員網(wǎng)吧上網(wǎng)點和特定人員酒店賓館活動點兩類。每條記錄包含特定人員的編號、特定人員的涉案類型、活動時間、活動地點及活動地點類別等信息。(3)空間環(huán)境數(shù)據(jù)為從高德地圖獲取的城市POI(Points of Interest)數(shù)據(jù),共計10萬余條。經(jīng)整理后,將POI劃分為道路附屬設(shè)施、風(fēng)景名勝、公共設(shè)施、公司企業(yè)、購物服務(wù)、交通設(shè)施服務(wù)、金融保險服務(wù)、科教文化服務(wù)、汽車服務(wù)、商務(wù)住宅、生活服務(wù)、體育休閑服務(wù)、醫(yī)療保健服務(wù)、政府機構(gòu)及社會團體、住宿服務(wù)和餐飲服務(wù)共計16大類。每個POI設(shè)施點包含POI名稱、POI地址和POI類別等信息。(4)社會經(jīng)濟數(shù)據(jù)為從統(tǒng)計網(wǎng)站獲取的2017至2019年統(tǒng)計年鑒數(shù)據(jù),包括人口情況、主要經(jīng)濟指標(biāo)、城鎮(zhèn)單位職工及工資情況、居民家庭基本情況、氣象情況等信息。
本文研究的空間尺度為社區(qū)一級,研究區(qū)域共計556個社區(qū)。作案地址、作案人暫住地、POI地址及特定人員活動點等地址經(jīng)地理編碼和坐標(biāo)轉(zhuǎn)換操作后,獲取其對應(yīng)的經(jīng)緯度坐標(biāo)。之后,通過ArcGIS軟件中的“空間連接(Spatial Join)”工具,得到每個社區(qū)對應(yīng)的犯罪案件、POI設(shè)施點及特定人員活動軌跡點,并統(tǒng)計得到每個社區(qū)內(nèi)的犯罪發(fā)案量、POI設(shè)施點數(shù)量及特定人員軌跡點數(shù)量。
1.2.1 犯罪熱點分析
犯罪發(fā)案量在時間和空間上的分布通常不是均勻的,往往表現(xiàn)為明顯的聚集現(xiàn)象,這種聚集現(xiàn)象常用“犯罪熱點”來表述[19]。首先,通過全局Moran’s I指數(shù)法[20]可以對犯罪發(fā)案量在各社區(qū)的空間自相關(guān)性進行檢驗。接下來,利用熱點分析中Getis-Ord Gi*方法[21]識別得到具有統(tǒng)計顯著性的犯罪熱點社區(qū),Gi*方法的計算公式如下:
(1)
其中,xj為社區(qū)j的發(fā)案量,wi,j為社區(qū)i和j的空間權(quán)重,n為社區(qū)總數(shù),并且:
(2)
(3)
Gi*值即為z統(tǒng)計量值,對于具有統(tǒng)計顯著性的正z值,其數(shù)值越高,熱點的聚類就越緊密;而對于具有統(tǒng)計顯著性的負(fù)z值,其數(shù)值越低,冷點的聚類就越緊密。由此可以識別出犯罪熱點社區(qū),同時,分析犯罪案件的時間分布特征還可以得到犯罪熱點時段。一般而言,高風(fēng)險犯罪熱點背后的風(fēng)險要素更為集聚和復(fù)雜。在識別出犯罪熱點的基礎(chǔ)上,針對不同的數(shù)據(jù)類型可以采用不同的方法進一步挖掘犯罪風(fēng)險要素。
1.2.2 犯罪風(fēng)險設(shè)施挖掘
針對城市空間環(huán)境數(shù)據(jù),利用地理加權(quán)回歸(Geographically Weighted Regression, GWR)模型[22],將社區(qū)中16種類型POI設(shè)施點的數(shù)量作為自變量,將3類犯罪發(fā)案量分別作為因變量,分析不同類型環(huán)境設(shè)施與不同類型犯罪發(fā)案量的關(guān)系。GWR模型的計算公式如下:
(4)
其中,y為第i個社區(qū)的發(fā)案量,(ui,vi)表示第i個社區(qū)的中心坐標(biāo),β0(ui,vi)為截距項,xik為第i個社區(qū)的第k個自變量,βk(ui,vi)為第i個社區(qū)的第k個自變量系數(shù),εi為第i個社區(qū)的隨機誤差項。本文中GWR模型采用自適應(yīng)型高斯函數(shù)作為空間權(quán)重函數(shù),并采用赤池信息準(zhǔn)則(Akaike Information Criterion, AICc)對帶寬進行優(yōu)化選擇。
1.2.3 特點人員軌跡點與犯罪熱點關(guān)聯(lián)關(guān)系分析
針對特定人員軌跡點數(shù)量和犯罪發(fā)案量的時序數(shù)據(jù),在對二者進行平穩(wěn)性檢驗并建立向量自回歸模型(Vector Autoregressive Model)后,利用Granger因果檢驗[23]可以分析特定人員軌跡點與犯罪熱點的關(guān)聯(lián)關(guān)系。Granger因果關(guān)系檢驗?zāi)軌驈慕y(tǒng)計意義上檢驗時間序列變量間的關(guān)系,以分析變量間過去的狀態(tài)對當(dāng)前狀態(tài)的影響,Granger因果檢驗的回歸公式[24]如下所示:
(5)
(6)
其中,X和Y分別代表熱點社區(qū)內(nèi)特定人員軌跡點數(shù)量和發(fā)案量的時序變量,Xt表示周期t內(nèi)的軌跡點數(shù)量,Yt表示周期t內(nèi)的發(fā)案量,μ1t和μ2t表示誤差項。如果Y的過去狀態(tài)能夠?qū)ψ陨懋?dāng)前的狀態(tài)產(chǎn)生影響,同時X的滯后狀態(tài)能夠提升對變量Y的解釋效果,則X可以認(rèn)為是Y的Granger原因[24]。
本文以侵財類犯罪熱點社區(qū)為例,選取2019年特定人員軌跡點數(shù)量和2019年犯罪發(fā)案量的時序數(shù)據(jù)進行研究,對犯罪熱點社區(qū)中每周“特定人員賓館酒店活動點”和“特定人員網(wǎng)吧上網(wǎng)點”兩種軌跡點的數(shù)量和每周的侵財發(fā)案量之間的關(guān)系進行Granger因果檢驗。
1.2.4 犯罪選擇偏好及犯罪模式識別
犯罪案件包括作案人年齡、受害人年齡、作案人學(xué)歷、作案手段、選擇處所等案件特征,利用Apriori算法[25-26]可以對犯罪案件特征進行關(guān)聯(lián)挖掘。通過設(shè)定Apriori算法的最小支持度(Support)、置信度(Confidence)和提升度(Lift)3個指標(biāo),可以計算得到頻繁項集和強關(guān)聯(lián)規(guī)則項集,進而識別出高風(fēng)險犯罪選擇偏好及犯罪模式。
1.3.1 模式層構(gòu)建
根據(jù)犯罪熱點分析結(jié)果,侵財類、人身傷害類和妨害公共秩序類犯罪在Moran’s I顯著性檢驗中的z得分別為4.98,6.48和3.26,這表明3類犯罪隨機產(chǎn)生聚類模式的可能性均小于1%,即3類犯罪均存在顯著的聚集分布。之后,利用ArcGIS中“熱點分析(Getis-Ord Gi*)”工具得到犯罪熱點社區(qū)。此外,周一~周五的8:00~10:00以及周一~周日的18:00~21:00時為侵財類犯罪的熱點時段,人身傷害類犯罪集中發(fā)生在晚20:00至次日凌晨4:00時,妨害公共秩序類犯罪集中發(fā)生在周一~周五的8:00~11:00時,由此得到具有高犯罪風(fēng)險的特定時間和地點。
根據(jù)GWR模型結(jié)果,侵財類、人身傷害類和妨害公共秩序類犯罪GWR模型的擬合效果較好,其R2分別為0.832,0.826和0.624,校正R2分別為0.751,0.751和0.500。本文將0.05顯著性水平作為自變量回歸系數(shù)顯著性檢驗的標(biāo)準(zhǔn),犯罪風(fēng)險設(shè)施即為與社區(qū)發(fā)案量呈顯著正相關(guān)關(guān)系的環(huán)境設(shè)施。
根據(jù)Granger因果檢驗結(jié)果,原假設(shè)“特定人員賓館酒店活動軌跡點數(shù)量不是侵財類犯罪發(fā)案量的Granger原因”的F統(tǒng)計量為8.52,所以在1%的顯著性水平下拒絕原假設(shè),即特定人員賓館酒店活動軌跡點數(shù)量是侵財類犯罪發(fā)案量的格蘭杰因果原因,同時也表明部分特定人員活動軌跡點與犯罪熱點之間存在一定的關(guān)聯(lián)關(guān)系。
根據(jù)Apriori算法結(jié)果,作案人文化程度大多較低,普遍為高中以下學(xué)歷,年齡段集中在在18~40歲,并常對同年齡段受害人作案;作案選擇處所以居民小區(qū)居多;人身傷害類犯罪中常使用踢打等暴力手段。
通過以上分析,在得到犯罪熱點社區(qū)、時段,犯罪風(fēng)險設(shè)施,特定人員軌跡點,特定涉案人員、場所、作案手段等犯罪風(fēng)險要素及其關(guān)聯(lián)關(guān)系后,參考公安領(lǐng)域知識圖譜本體構(gòu)建流程[27],采取自頂向下的構(gòu)建方式,從中抽象出本體模型,定義不同類型本體間的語義關(guān)系,構(gòu)建城市犯罪風(fēng)險知識圖譜的模式層,如圖2所示。
圖2 城市犯罪風(fēng)險知識圖譜模式層
模式層共包括38類本體,人口情況、主要經(jīng)濟指標(biāo)、居民家庭基本情況等用來從宏觀層面說明全區(qū)以及各街道地區(qū)的社會經(jīng)濟發(fā)展情況,各類本體及其對應(yīng)屬性如表1所示。
表1 各類本體及其對應(yīng)屬性
1.3.2 知識抽取
知識抽取指從數(shù)據(jù)源中提取實體、屬性及關(guān)系實例。由于已經(jīng)預(yù)先定義關(guān)系,所以按照表1抽取實體及其屬性。本文采用的多源數(shù)據(jù)主要為結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),其中以數(shù)據(jù)表居多,非結(jié)構(gòu)化數(shù)據(jù)相對較少,主要為犯罪案情的文本數(shù)據(jù)。針對結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),主要按照表格字段直接進行實體及其屬性的抽取。針對非結(jié)構(gòu)化的文本數(shù)據(jù),借助自然語言處理工具、正則表達式等方法,對非結(jié)構(gòu)化數(shù)據(jù)中的實體及其屬性進行識別和匹配,從而實現(xiàn)對知識的補充。
接下來,將每一類實體創(chuàng)建內(nèi)容形式為“實體- 屬性- 屬性值”的實體csv文件,文件中的每一條記錄對應(yīng)一個實例,每個實例對應(yīng)唯一的編號,其余各列為其屬性值。之后,通過各實體間的關(guān)系對實體進行關(guān)聯(lián),創(chuàng)建內(nèi)容形式為“實體- 關(guān)系- 實體”的關(guān)系csv文件,每對關(guān)系中的兩個實體各自對應(yīng)唯一的編號。
1.3.3 知識存儲
Neo4j是目前廣泛使用的一種圖數(shù)據(jù)庫。在Neo4j中,實體以節(jié)點的形式存在,實體之間的關(guān)系以節(jié)點間連邊的形式存在,同時節(jié)點和邊擁有各自的屬性。Neo4j具有查詢靈活、高效,數(shù)據(jù)簡明、直觀等優(yōu)點。因此,本文選擇Neo4j圖數(shù)據(jù)庫作為城市犯罪知識圖譜的知識存儲工具。通過Cypher語句中的load csv命令將實體及其關(guān)系數(shù)據(jù)導(dǎo)入Neo4j圖數(shù)據(jù)庫中,從而創(chuàng)建相應(yīng)的實體節(jié)點及其關(guān)系。
例如,創(chuàng)建“犯罪案件”節(jié)點代碼如下:
LOAD CSV WITH HEADERS FROM “file:∥/犯罪案件.csv” AS line
create (n:犯罪案件{案件編號:line.編號,案件級別:line.級別,損失金額: line.損失})
創(chuàng)建“作案人- 實施- 犯罪案件”關(guān)系代碼如下:
LOAD CSV WITH HEADERS FROM “file:∥/作案人- 實施- 犯罪案件.csv” AS line
match (from:作案人{作案人編號:line.編號}),(to: 犯罪案件{案件編號:line.編號})
merge (from)-[r:實施]→(to)
基于城市犯罪風(fēng)險知識圖譜,可以對犯罪風(fēng)險要素進行關(guān)聯(lián)查詢,同時以圖的形式對風(fēng)險要素節(jié)點進行展示,更為清晰和直觀。通過綜合分析這些風(fēng)險要素與犯罪之間的關(guān)系,能夠為犯罪風(fēng)險防控與預(yù)警提供決策支持。以下通過兩個應(yīng)用實例進行具體說明。
(1)風(fēng)險要素關(guān)聯(lián)查詢與分析
利用傳統(tǒng)的關(guān)系數(shù)據(jù)庫查詢案件的特征信息復(fù)雜而繁瑣,不能有效對各類風(fēng)險要素進行關(guān)聯(lián)分析,而通過知識圖譜可以精準(zhǔn)查詢發(fā)生在特定時間和地點內(nèi)的犯罪案件及其作案人、受害人、作案手段、選擇處所等相關(guān)風(fēng)險節(jié)點,提高查詢效率。在此基礎(chǔ)上,一方面,可以在時間和空間上串并案件,并對具有其它相似特征的案件進行關(guān)聯(lián)分析;另一方面,基于已經(jīng)發(fā)生的犯罪案件可以對社區(qū)內(nèi)的犯罪風(fēng)險進行評估。接下來,通過查詢發(fā)生在特定社區(qū)內(nèi)的犯罪案件及其相關(guān)節(jié)點進行進一步分析,結(jié)果如圖3所示。
圖3 社區(qū)內(nèi)犯罪案件及其關(guān)聯(lián)節(jié)點
在圖3中,不同類型節(jié)點使用不同的方式進行了標(biāo)注。根據(jù)不同類型節(jié)點的特征,可以開展不同的關(guān)聯(lián)分析。例如,根據(jù)“XX安居社區(qū)”節(jié)點,可以關(guān)聯(lián)本社區(qū)內(nèi)特定時段內(nèi)發(fā)生的犯罪案件,并可以根據(jù)案件的等級、造成的損失金額等屬性特征,對社區(qū)開展犯罪風(fēng)險評估。其次,根據(jù)發(fā)案時間節(jié)點,可以關(guān)聯(lián)發(fā)生在同一時段內(nèi)的犯罪案件,如圖3中發(fā)案時間為“2017-02-22 22:00”的兩起案件分別發(fā)生在兩個不同的社區(qū)內(nèi),因此可以從時間上考慮二者的聯(lián)系。再次,根據(jù)作案人的戶籍地節(jié)點,可以深入挖掘案件線索和犯罪同伙。此外,還可以根據(jù)選擇處所和作案手段等節(jié)點,關(guān)聯(lián)犯罪選擇偏好。
(2)社區(qū)犯罪風(fēng)險防控與預(yù)警
在分析社區(qū)的犯罪風(fēng)險時,除了考慮犯罪案件之外,還要考慮社區(qū)內(nèi)的城市風(fēng)險設(shè)施以及特定人員的活動軌跡對犯罪風(fēng)險的影響。利用知識圖譜可以實現(xiàn)特定人員軌跡的動態(tài)關(guān)聯(lián)匹配,并可以篩選出特定的犯罪風(fēng)險設(shè)施,從而為社區(qū)犯罪風(fēng)險防范與預(yù)警提供支持。以“XX家園社區(qū)”為例,查詢與該社區(qū)相關(guān)的特定人員軌跡點和犯罪風(fēng)險設(shè)施節(jié)點,結(jié)果如圖4所示。
在圖4中,可以發(fā)現(xiàn)某些特定人員在“XX家園社區(qū)”內(nèi)經(jīng)?;顒拥牡攸c及活動地點的類別。當(dāng)通過攝像監(jiān)控識別出特定人員在本社區(qū)內(nèi)頻繁活動時,利用知識圖譜可以進行關(guān)聯(lián)匹配,并根據(jù)特定人員的涉案類別等特征,向社區(qū)民警發(fā)出預(yù)警信息,從而進行分析研判并及時采取防范手段,從源頭遏制犯罪風(fēng)險。另外,根據(jù)查詢檢索出的特定藥店、醫(yī)院、停車場等風(fēng)險設(shè)施,可以指導(dǎo)民警針對具體目標(biāo)開展隱患排查工作,從而防范化解犯罪風(fēng)險。
圖4 “XX家園社區(qū)”相關(guān)風(fēng)險要素節(jié)點
本文基于多源數(shù)據(jù)挖掘犯罪風(fēng)險要素及其關(guān)聯(lián)關(guān)系,構(gòu)建城市犯罪風(fēng)險知識圖譜,實現(xiàn)了對犯罪風(fēng)險要素及其關(guān)聯(lián)關(guān)系的精準(zhǔn)查詢與深入分析,從而為社區(qū)犯罪風(fēng)險防范與預(yù)警提供決策支持。然而,本文涉及的數(shù)據(jù)類型仍然不夠廣泛。未來可通過擴充異構(gòu)數(shù)據(jù)源及數(shù)據(jù)量,運用知識圖譜相關(guān)技術(shù),不斷完善城市犯罪風(fēng)險知識圖譜。