盧 睿 李林瑛
(1 遼寧警察學(xué)院信息系 遼寧 大連 116036;2 大連外國語大學(xué)軟件學(xué)院 遼寧 大連 116044)
當(dāng)前,我國的犯罪事件呈增長趨勢(shì)且不斷復(fù)雜,在犯罪數(shù)據(jù)上表現(xiàn)為數(shù)據(jù)量呈指數(shù)增長、數(shù)據(jù)形式復(fù)雜多樣。而警方對(duì)犯罪大數(shù)據(jù)的應(yīng)用仍處于一般性的定性和宏觀分析上,缺乏實(shí)務(wù)性的定量的犯罪分析和預(yù)測(cè)應(yīng)用,因此預(yù)測(cè)精度不足、實(shí)用價(jià)值較低。同時(shí)犯罪數(shù)據(jù)的不公開導(dǎo)致犯罪數(shù)據(jù)不易獲得,也限制了犯罪預(yù)測(cè)研究的發(fā)展。與此相對(duì)的是,數(shù)據(jù)挖掘方法已經(jīng)在不同領(lǐng)域的預(yù)測(cè)應(yīng)用中表現(xiàn)出良好的性能。
研究表明,將犯罪案件、受害者和犯罪嫌疑人數(shù)據(jù)應(yīng)用于數(shù)據(jù)挖掘,有助于發(fā)現(xiàn)隱藏的模式,從而為執(zhí)法和決策者提供決策支持[1]。經(jīng)公安部門研究發(fā)現(xiàn),犯罪分子實(shí)施犯罪在很大程度上取決于某個(gè)人的一些基本屬性,這些屬性對(duì)在案后發(fā)現(xiàn)犯罪嫌疑人具有重大意義。隨著以隨機(jī)森林為代表的集成學(xué)習(xí)算法的性能得到普遍認(rèn)同,很多研究者以隨機(jī)森林方法為基礎(chǔ),將犯罪數(shù)據(jù)的諸多因素聯(lián)系起來進(jìn)行犯罪預(yù)測(cè)。文獻(xiàn)[2]分別使用不同分類方法來預(yù)測(cè)謀殺案件數(shù)據(jù)中受害人與罪犯之間的關(guān)系,其研究結(jié)果認(rèn)為通過隨機(jī)森林和支持向量機(jī)方法建立二元分類問題可以獲得良好的分類準(zhǔn)確性,并且執(zhí)行屬性選擇和使用透明決策樹模型可以獲得較好的樹模型。文獻(xiàn)[3]針對(duì)犯罪嫌疑人識(shí)別問題提出基于Probit模型的判定技術(shù),采用聚類分離算法、關(guān)聯(lián)算法及Probit模型的顯著性水平參數(shù)發(fā)現(xiàn)重要屬性并據(jù)此進(jìn)行訓(xùn)練,從而得到嫌疑人風(fēng)險(xiǎn)判定模型。針對(duì)嫌疑人特征預(yù)測(cè),文獻(xiàn)[4]根據(jù)歷史數(shù)據(jù)進(jìn)行特征選擇,訓(xùn)練基于SVM的特征預(yù)測(cè)模型,并與備選嫌疑人庫進(jìn)行特征相似度計(jì)算,進(jìn)而預(yù)測(cè)犯罪嫌疑人。文獻(xiàn)[5]針對(duì)刑事案件罪犯特征,提出改進(jìn)的隨機(jī)森林分類器。文獻(xiàn)[6]采用隨機(jī)森林算法進(jìn)行犯罪信息指標(biāo)集合的選擇和犯罪風(fēng)險(xiǎn)預(yù)測(cè)。文獻(xiàn)[7]使用隨機(jī)森林回歸來預(yù)測(cè)犯罪,并量化城市指標(biāo)在兇殺案中的影響,進(jìn)而通過掌握城市指標(biāo)相對(duì)犯罪的重要性等級(jí)達(dá)到指導(dǎo)控制犯罪公共政策的目的。文獻(xiàn)
[8]將Benford定律與邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林算法結(jié)合起來,在真實(shí)的西班牙法庭案件中學(xué)習(xí)洗錢罪犯的模式。文獻(xiàn)[9]針對(duì)保險(xiǎn)詐騙的檢測(cè)問題,提出基于隨機(jī)森林、主成分分析和潛在最近鄰方法的多分類系統(tǒng),將隨機(jī)森林作為K潛在最近鄰的自適應(yīng)學(xué)習(xí)機(jī)制,并以基于潛在最近鄰的投票機(jī)制取代多數(shù)投票機(jī)制,從而改進(jìn)基分類器的差異。
本文提出了一種基于隨機(jī)森林的犯罪預(yù)測(cè)模型,能夠?qū)唧w涉案人員進(jìn)行犯罪風(fēng)險(xiǎn)的判定與犯罪嫌疑人識(shí)別。對(duì)犯罪嫌疑人的基本屬性與犯罪傾向之間的關(guān)聯(lián)性進(jìn)行研究,篩選出重要的特征屬性;利用所選擇的特征屬性進(jìn)行隨機(jī)森林模型的訓(xùn)練,最終得到犯罪預(yù)測(cè)模型。針對(duì)犯罪信息噪聲多、屬性復(fù)雜的特點(diǎn),隨機(jī)森林模型在犯罪風(fēng)險(xiǎn)預(yù)測(cè)中的應(yīng)用較之支持向量機(jī)和樸素貝葉斯模型表現(xiàn)出更好的準(zhǔn)確性。
隨機(jī)森林(Random Forest,RF)是典型的集成學(xué)習(xí)方法,在以決策樹為基學(xué)習(xí)器構(gòu)建 Bagging集成的基礎(chǔ)上進(jìn)一步在決策樹的訓(xùn)練過程中引入隨機(jī)屬性選擇[10],并根據(jù)投票機(jī)制產(chǎn)生最后的分類結(jié)果。RF方法對(duì)于噪聲數(shù)據(jù)和存在缺失值的數(shù)據(jù)具有很好的魯棒性和較快的學(xué)習(xí)速度,其變量重要度度量可以作為數(shù)據(jù)的屬性約簡方法,所以近年已經(jīng)被廣泛應(yīng)用到各類分類、回歸、預(yù)測(cè)、特征選擇及異常點(diǎn)檢測(cè)問題中[11-15]。
定義2 組合分類模型的泛化誤差定義為
定義3 如果森林中分類數(shù)目增加,根據(jù)大數(shù)定律,組合分類模型的泛化誤差幾乎處處收斂于
通過在袋外數(shù)據(jù)(Out of Bag, OOB)中對(duì)屬性值進(jìn)行擾動(dòng)可以判斷屬性對(duì)分類結(jié)果的影響,影響越大,則說明該屬性越重要。
定義5 基于OOB分類準(zhǔn)確率的屬性重要度度量,定義為OOB自變量發(fā)生輕微擾動(dòng)后的分類正確率與擾動(dòng)前平均分類正確率的平均減少量(Mean Decrease Accuracy, MDA),MDA計(jì)算公式為
公式(5)說明屬性重要度對(duì)分類模型的貢獻(xiàn),以該定義作為屬性約簡的啟發(fā)信息。
犯罪嫌疑人特征是犯罪案件特征的一部分,其分析過程需與犯罪案件特征相關(guān)聯(lián)。本文構(gòu)造案件基本特征與犯罪嫌疑人犯罪傾向的判定模型,分為屬性約簡、判定模型訓(xùn)練和嫌疑人犯罪傾向預(yù)測(cè)3個(gè)部分。
在數(shù)據(jù)集進(jìn)入方法運(yùn)算之前需要做預(yù)處理,使訓(xùn)練集和測(cè)試集中的各個(gè)屬性具有統(tǒng)一的定義和標(biāo)準(zhǔn),即將與預(yù)測(cè)操作無關(guān)的冗余數(shù)據(jù)屬性去除,同時(shí)也對(duì)屬性值進(jìn)行泛化操作、處理缺失值等,目的是提高數(shù)據(jù)質(zhì)量使之適合模型的輸入和運(yùn)算需求。
屬性約簡是預(yù)測(cè)方法中的重要步驟,通過計(jì)算屬性重要度將與預(yù)測(cè)結(jié)果關(guān)聯(lián)較小的屬性去除,只保留其中的重要屬性參與運(yùn)算,從而減小算法計(jì)算量、提高算法實(shí)用性。
訓(xùn)練數(shù)據(jù)屬性約簡后進(jìn)入模型訓(xùn)練過程。本文設(shè)計(jì)了基于隨機(jī)森林的訓(xùn)練方法,從而得到犯罪嫌疑人判定模型。
在犯罪嫌疑人預(yù)測(cè)階段,將經(jīng)過預(yù)處理后的測(cè)試數(shù)據(jù)輸入預(yù)測(cè)模型,計(jì)算得出每個(gè)測(cè)試集樣本的犯罪傾向,從而得出判定結(jié)論。模型的判斷方法和過程如圖1所示。
圖1 犯罪嫌疑人分類方法
圖2描述基于隨機(jī)森林的預(yù)測(cè)模型,其中屬性約簡階段采取以下步驟:
(3) 運(yùn)用決策樹Tm對(duì)數(shù)據(jù)集進(jìn)行分類并記錄分類結(jié)果 。
(4)逐個(gè)提取每個(gè)袋外數(shù)據(jù)集實(shí)施屬性值的擾動(dòng):對(duì)于每個(gè)屬性擾動(dòng)袋外數(shù)據(jù)集中的屬性的取值,從而形成擾動(dòng)后的數(shù)據(jù)集
(6)當(dāng)完成對(duì)每個(gè)袋外數(shù)據(jù)集的屬性值擾動(dòng)后,利用公式(4)和公式(5)計(jì)算每個(gè)屬性 的屬性重要度。
(7) 依各屬性的重要度進(jìn)行降序排列。
圖2 基于隨機(jī)森林的預(yù)測(cè)模型
對(duì)排序結(jié)果采用序列后向搜索策略進(jìn)行屬性約簡,即每次遍歷僅刪除一個(gè)重要性最低的屬性,產(chǎn)生新的特征屬性集合,經(jīng)過多次迭代選出最小冗余、性能最優(yōu)的重要屬性集合,并將其輸入預(yù)測(cè)模型。
在模型訓(xùn)練和模型預(yù)測(cè)階段,以隨機(jī)森林思想和方法構(gòu)建預(yù)測(cè)模型。在訓(xùn)練階段,訓(xùn)練數(shù)據(jù)集進(jìn)入模型進(jìn)行屬性約簡,然后應(yīng)用隨機(jī)森林方法進(jìn)行模型訓(xùn)練,從而產(chǎn)生n個(gè)基分類模型。將測(cè)試數(shù)據(jù)集輸入各個(gè)基分類模型進(jìn)行分類,然后以投票的方式?jīng)Q定產(chǎn)生預(yù)測(cè)結(jié)果。
本文的實(shí)驗(yàn)數(shù)據(jù)來源于已經(jīng)脫敏的犯罪人員信息的部分記錄,用于挖掘犯罪嫌疑人屬性特征與犯罪風(fēng)險(xiǎn)之間的證據(jù)關(guān)系,從而獲得高可疑度的犯罪嫌疑人,最終達(dá)到犯罪預(yù)防和輔助決策的目的。
模型的輸入信息為犯罪人員信息特征,包括年齡、家庭情況、文化程度、有無職業(yè)、有無犯罪紀(jì)錄、有無特長、是否常駐人口、性別、身高、體重、經(jīng)濟(jì)狀況。其中文化程度細(xì)分為小學(xué)、初中、高中、學(xué)士、碩士、博士等類別。模型的輸出信息是對(duì)犯罪嫌疑人“犯罪程度”的分類結(jié)果,即分為{一般,嚴(yán)重}兩類。
本文實(shí)驗(yàn)環(huán)境:①軟件條件:MyEclipse 8.5,Weka 3.6。②硬件條件: Intel(R)Core(TM) i7-5500U @ 2.40GHz, 8GB內(nèi)存,1TB硬盤,Window 7操作系統(tǒng)。
數(shù)據(jù)預(yù)處理是提高數(shù)據(jù)質(zhì)量的關(guān)鍵步驟之一。根據(jù)實(shí)驗(yàn)數(shù)據(jù)的特點(diǎn),需要處理數(shù)據(jù)集中的缺失值,原則上盡可能地填充缺失值,對(duì)無法填充缺失值的記錄作刪除處理。以“年齡”屬性為例,其缺失值可通過“案發(fā)時(shí)間”和“出生日期”的差值填充。對(duì)包含多個(gè)無序不同屬性值的屬性向上泛化,如將“年齡”屬性的特征值量化,以分組的方式劃分為3個(gè)區(qū)段:{18-29}為少年,{30-40}為青年,{40以上}為中老年,相應(yīng)的特征值為1~3。對(duì)于數(shù)據(jù)屬性中與預(yù)測(cè)結(jié)果無關(guān)的冗余屬性,如“案件ID”等,需將其刪除以提高屬性約簡和分類運(yùn)算的效率。對(duì)于各屬性值中量綱和單位的不同,需要將樣本數(shù)據(jù)作歸一化處理,去除其對(duì)分類運(yùn)算結(jié)果的影響,使處理后的數(shù)據(jù)在[0,1]區(qū)間。經(jīng)過數(shù)據(jù)預(yù)處理,最終提取有效記錄2021條,其中“一般”類別1036條,“嚴(yán)重”類別985條,量化后的部分?jǐn)?shù)據(jù)如表1所示。
表1 犯罪人員屬性值的部分量化結(jié)果
利用3.2所述方法對(duì)樣本數(shù)據(jù)進(jìn)行屬性約簡,得到各屬性的MDA值。表2給出經(jīng)過計(jì)算得到的12個(gè)屬性{A1,A2,A3,A4,A5,A6,A7,A8,A9,A10,A11,A12}的MDA值。經(jīng)過計(jì)算和約簡得出{A1,A2,A3,A6,A8,A9,A10}為重要屬性。為便于比較,圖3給出將約簡的重要屬性值分別除以其最大值后的結(jié)果。
表2 屬性重要性度量
圖3 屬性特征約簡結(jié)果
根據(jù)最終確定的重要屬性,約簡原數(shù)據(jù)中冗余的屬性列,余下的數(shù)據(jù)構(gòu)建預(yù)測(cè)模型的數(shù)據(jù)集,并采用10-折交叉驗(yàn)證。采用控制變量法調(diào)參以使預(yù)測(cè)獲得較好準(zhǔn)確率,參數(shù)優(yōu)化結(jié)果見表3,可知參數(shù)最終確定為:森林中樹的棵數(shù)設(shè)為200,每次分裂隨機(jī)選擇的候選變量個(gè)數(shù)為3。
表3 隨機(jī)森林模型參數(shù)設(shè)置及相應(yīng)結(jié)果
模型的查準(zhǔn)率P和查全率R可以作為衡量模型性能優(yōu)劣的指標(biāo)。綜合考慮查準(zhǔn)率和查全率,可以使用F1度量,其含義是加權(quán)調(diào)和平均值?,F(xiàn)實(shí)應(yīng)用中要求漏查嫌犯的數(shù)量盡量小,因此查全率更為重要。令TP、FP、TN、FN分別表示真正例、假正例、真反例、假反例的樣例數(shù)。F1度量的一般形式為,能夠表達(dá)出對(duì)查準(zhǔn)率和查全率的不同偏好,其計(jì)算公式為
此次實(shí)驗(yàn)的最終結(jié)果如表4所示。
為驗(yàn)證隨機(jī)森林預(yù)測(cè)模型的性能,在Weka平臺(tái)上分別選用SVM單分類器算法和樸素貝葉斯單分類器算法,并以默認(rèn)參數(shù)進(jìn)行運(yùn)算,結(jié)果的比較如圖4所示??梢婋S著輸入特征變量的增多,三類算法的查準(zhǔn)率逐漸提高,說明在一定范圍內(nèi),模型的輸入變量越多,預(yù)測(cè)效果越好。隨機(jī)森林算法的查準(zhǔn)率明顯優(yōu)于SVM單分類器算法和樸素貝葉斯單分類器算法。原因是集成學(xué)習(xí)算法能夠通過綜合不同基分類器模型的分類結(jié)果來增強(qiáng)集成學(xué)習(xí)算法的容錯(cuò)性和泛化能力。表4和圖4的數(shù)據(jù)說明了所提出的嫌疑人預(yù)測(cè)模型的可行性,通過該模型可以預(yù)測(cè)新發(fā)生案件中的高危犯罪嫌疑人,分析結(jié)果可進(jìn)一步在相關(guān)數(shù)據(jù)庫中碰撞比對(duì),從而實(shí)現(xiàn)重點(diǎn)研判、提高辦案效率的目的。
表4 隨機(jī)森林模型預(yù)測(cè)結(jié)果
圖4 不同模型的預(yù)測(cè)效果比較
對(duì)犯罪嫌疑人進(jìn)行有效預(yù)測(cè),不僅實(shí)現(xiàn)快速打擊,還達(dá)到犯罪預(yù)防的目的。集成學(xué)習(xí)算法已經(jīng)在不同鄰域的預(yù)測(cè)應(yīng)用中表現(xiàn)突出。本文提出基于隨機(jī)森林的犯罪嫌疑人預(yù)測(cè)模型,對(duì)犯罪嫌疑人的屬性加以評(píng)價(jià)和約簡,有效提高了方法效率和準(zhǔn)確性,避免了單一決策樹分類的局限性。通過脫敏案件數(shù)據(jù)對(duì)模型進(jìn)行評(píng)價(jià),結(jié)果顯示所提出的模型較SVM和樸素貝葉斯方法具有更好的準(zhǔn)確性,模型可進(jìn)一步應(yīng)用于不同類別案件的犯罪嫌疑人預(yù)測(cè)應(yīng)用中。