石拓,魏新蕾,邵旭芬
(1.中國傳媒大學信息工程學院,北京 100024;2. 浙江省樂清中學,樂清325600)
基于ID3—SMOTE結合算法的社會群體性事件預警模型
石拓1,魏新蕾1,邵旭芬2
(1.中國傳媒大學信息工程學院,北京 100024;2. 浙江省樂清中學,樂清325600)
當前國內群體性事件表現(xiàn)出組織化、復雜化、政治化、暴力化的特征,嚴重影響了社會的和諧穩(wěn)定。通過科學手段預測群體性事件是預防其發(fā)生的有效途徑。在以往的群體性事件預警方法中,主要都是通過定性分析或簡單的定量分析方法實現(xiàn)預測,相對缺乏科學可靠的數據事實作為支撐。文中筆者通過內部單位獲取到近年來發(fā)生在我國境內的群體性事件的相關數據,創(chuàng)新性地將機器學習的思路引入群體性事件預警領域,顛覆了針對群體性事件的傳統(tǒng)分析方法。從社會科學和自然科學的雙重視角出發(fā),我們利用機器學習技術科學預測群體性事件。這對政府在處置群體性事件過程中科學決策、有效預防和快速反應具有重要指導意義。
群體性事件;分類;決策樹;ID3;SMOTE
近年來,我國境內群體性事件時有發(fā)生,事件發(fā)生數量和參與人數都在不斷攀升,且一旦事發(fā),事件規(guī)模迅速擴大。如去年發(fā)生的泛亞事件、e租寶事件都引發(fā)了大規(guī)模涉事群體的上訪請愿。類似事件涉及的人員數量較多,潛在的危害性也大大加強。稍不留意就可能造成社會治安不穩(wěn)定、引發(fā)公共安全事件、發(fā)生違法犯罪行為、造成嚴重后果和損失。如今隨著改革的不斷深化、經濟不斷增長,各類社會矛盾更是日益凸顯且不斷加劇。為此,建立切實可行的群體性事件預警機制,運用現(xiàn)代化科技手段,對該類事件及時準確地預測、預判、預報,盡快盡早地做好預防和處置工作十分必要。當今時代,大數據技術方興未艾,尤其是機器學習技術高速發(fā)展,為各個領域的科學預測和先期預警帶來了新的契機。機器學習通過利用計算機模擬實現(xiàn)人類的學習行為,不斷獲取新的知識技能,并不斷組織知識結構,實現(xiàn)了各行各業(yè)的“人工智能化”,尤其是針對互聯(lián)網行業(yè)的發(fā)展起到巨大推動作用。然而,機器學習的科學能力在我國的公共安全領域卻并沒有得到充分應用,在群體性事件的預警領域更是寥寥無幾,相關的文獻也是十分罕見。筆者想通過此文將機器學習技術引入群體性事件分析,為后續(xù)類似研究開辟道路,提供方法和思路。
關于群體性事件預警機制研究的相關文獻數量很多,但大多數文獻都集中于研究群體性事件預警機制體制建設和相關指標構建領域。如余光輝等人撰寫的《我國環(huán)境群體性事件預警指標體系及預警模型研究》[1]、吳竹撰寫的《群體性事件預警機制研究》[2]等文章都是在分析社會系統(tǒng)穩(wěn)定因素及社會評價指標體系的基礎上,運用管理學定性、定量及定時等研究方法,對群體性事件的預警指標體系及群體性事件預警預測管理系統(tǒng)模式展開討論,并提供群體性事件預警預測管理體系運行影響因素分析和執(zhí)行效果評估方法。顯有的幾篇如胡詩妍撰寫的《群體性事件風險定量預測》[3]從數據的角度出發(fā),利用數據的統(tǒng)計分析方法,結合應用德爾菲法(Delphi)、層次分析法(AHP)、經驗統(tǒng)計分析等定量化分析方法,提出了一些關于群體性事件風險的定量化評估方法。辛越等人撰寫的《基于灰色分析的群體性事件情報預警》[4]利用灰色預測理論提出了一種基于灰色理論的群體性事件分析模型構想。
總體來說,關于群體性事件預警分析的研究大多聚焦于社會科學層面的理論研究,而針對基于機器學習技術的群體性事件分析和預警的研究難覓蹤影,甚至利用大數據相關分析技術的群體性事件預警文獻也是十分罕見??梢?,目前將機器學習技術引入群體性事件分析預測還是相對空缺的,缺乏比較成熟的方法和科學模型及實踐嘗試。
2.1 數據準備
本文中所用數據是內部單位提供的近年來發(fā)生在我國境內的部分群體性事件,數據主要包含2000-2013年的比較有代表性的事件。數據包含群體性事件發(fā)生的時間、區(qū)域(省份)、事件持續(xù)時間、社會關系定位、參與主體、訴求目的、事件表現(xiàn)形式、事件規(guī)模、危害程度、媒體影響共10個屬性特征。
為建立科學的數學模型對群體性事件進行科學預測,本文首先對上述共971條數據進行清洗:
1、解析文本文件:由于該數據的多數屬性特征是以文本形式呈現(xiàn)的,只有時間相關屬性是通過數字符號形式展現(xiàn)的,為了實現(xiàn)后續(xù)模型計算,首先利用Python編程對文本文件進行了解析,將每條樣本數據的各項特征用向量的形式描述。通過篩選過濾,最終選擇省份、月份、社會關系、參與主體、述求目的、事件規(guī)模、表現(xiàn)形式作為群體性事件的特征。
2、數據處理:筆者根據數據整體情況,將相關信息缺失較為嚴重的60條數據進行刪除,由于所占比例較小,不會對整體數據分析結果產生較大影響;又對個別樣本的個別缺失特征取值進行了插值,以滿足后續(xù)分類模型要求。
3、數據特征劃分:該類數據中的幾個特征需要預先標注分類等級,便于后續(xù)挖掘數據關聯(lián)性和類別預測。我們把地區(qū)、月份、社會關系、參與主體、訴求目的、事件規(guī)模、表現(xiàn)形式作為群體性事件的特征節(jié)點逐個進行劃分和統(tǒng)計,結果如表1-表7 所示:
表1 群體性事件發(fā)生省份及頻數統(tǒng)計
表2 群體性事件發(fā)生月份及頻數統(tǒng)計
此外,根據矛盾沖突本文描述將沖突焦點類型進行了歸類,主要劃分為:政府類、社會類型沖突(涉及征地、拆遷、國企改制、司法、亂收費、環(huán)境、就業(yè)等方面矛盾和沖突)、企事業(yè)機構與利益訴求方的沖突(涉及業(yè)主與物業(yè)、醫(yī)患、教育、環(huán)境等方面的沖突和糾紛)、及除上述幾類沖突之外的其他類型沖突焦點。具體如表3所示:
表3 焦點目標及頻數統(tǒng)計
涉及的參與主體如表4所示:
表4 參與主體及頻數統(tǒng)計
涉及群體性事件發(fā)生的訴求目的統(tǒng)計情況如表5所示:
表5 訴求目的及頻數統(tǒng)計
涉及群體性事件發(fā)生的事件規(guī)模根據參與人數進行劃分,可分為4個等級,統(tǒng)計情況如表6所示:
表6 事件規(guī)模及頻數統(tǒng)計
根據發(fā)生群體事件的表現(xiàn)形式,可以將其劃分為5類,具體統(tǒng)計情況如表7所示:
表7 事件表現(xiàn)形式及頻數統(tǒng)計
筆者又根據關注的媒體級別對群體性事件數據中的媒體影響力進行了分級分類,分級劃分情況如表8所示:
表8 關注媒體級別及影響
根據媒體影響力劃分統(tǒng)計情況如表9所示:
表9 媒體影響力及頻數統(tǒng)計
為了最終模型的標簽類別劃分,筆者根據中國國家標準《公共安全風險評估技術規(guī)范》[5]對數據中的安全等級和危害程度(傷亡人數、財產損失)進行劃分,劃分標準如表10所示:
表10 公共安全等級和危害程度
根據上述劃分標準得到具體統(tǒng)計和劃分結果如表11所示:
表11 危害程度及頻數統(tǒng)計
2.2 模型選擇及實現(xiàn)
2.2.1 機器學習中常用的分類算法
在機器學習方法中,分類器有很多種,它們的優(yōu)劣勢不盡相同。而如何針對不同的場景選擇不同的模型算法就需要深入把握各種分類模型的特點。
樸素貝葉斯在機器學習的分類器中相對比較簡單,但這種方法需要滿足各個特征盡量條件獨立。如果條件獨立性假設成立,相比于其他分類判別模型,它的收斂速度更快,所以這對與小型訓練集效果比較優(yōu)越。如果要得到簡單快捷的執(zhí)行效果,樸素貝葉斯方法比較適合。但樸素貝葉斯最大的不足之處在于如果特征之間不滿足條件獨立,甚至有很大的關聯(lián)性的情況下,分類結果就很不理想,不能學習特征之間的相互作用。
邏輯回歸是當前機器學習領域比較常用的分類方法,主要用于估計某種事物的可能性。就邏輯回歸本質而言,它就是一種線性回歸,其與線性回歸的最大不同點就是它引入了一個sigmoid函數:
(1),
目的就是要將線性回歸輸出的很大范圍的數,壓縮到0和1之間。邏輯回歸的有點就在于它是一種軟分類,即得出的結果是一個概率值,用戶可以根據概率閾值的調整控制分。這種分類方法可用于二值分類和多值分類,最常用的場景還是二值分類。相對效果也比較理想。
決策樹是一個樹結構,其每個非葉節(jié)點表示一個特征屬性上的測試,每個分支代表這個特征屬性在某個值域上的輸出,而每個葉節(jié)點存放一個類別[7]。使用決策樹進行決策的過程就是從根節(jié)點開始,測試待分類項中相應的特征屬性,并按照其值選擇輸出分支,直到到達葉子節(jié)點,將葉子節(jié)點存放的類別作為決策結果。決策樹有它特殊的優(yōu)勢:一是它可以毫無壓力地處理特征間非參數化的交互關系,無需再異常值或者數據是否線性可分得問題上做過多處理。二是處理速度快,緣于它的計算量相對較小,且容易轉化成分類規(guī)則。一般只要沿著樹根向下一直延伸到葉,沿途的分裂條件就能夠唯一確定一條分類的謂詞。 三是挖掘出的分類規(guī)則準確性高且便于理解,因為決策樹可以清晰的顯示哪些字段比較重要。
2.2.2 決策樹分類方法的選擇
本研究中,筆者根據群體性事件的數據情況,分析各類機器學習中常用的幾種分類方法,出于數據集的數據類型普遍是非結構化、非參數化的形式,為了避免過多的數據處理和符號化,選擇采用決策樹方法進行危害性后果的等級評估。此外,本研究涉及的數據體量并不很大,選擇決策樹分類方法不會影響計算效率。再而決策樹分類方法在不存在連續(xù)性的字段,也就不會出現(xiàn)預測不到結果的問題,而且該群體性事件的數據噪聲較小(空值較少),更有利于決策樹作用的發(fā)揮。
2.2.3 基于Python的ID3解決方案
為更好的劃分數據集,筆者首先對危害程度進行信息熵計算,得到熵之后,就可以按照獲取最大信息增益的方法開展分類。根據香農公式:
(2)
算得數據分類劃分的信息熵H=1.3274812033811645。使用python通過利用決策樹算法對群體性事件進行劃分,部分程序代碼如圖1所示:
圖1 基于ID3的代碼實現(xiàn)(部分)
鑒于以上方式,可以始終保持基于最好的屬性值對數據集進行劃分,程序遞歸構建決策樹,數據由上而下依次劃分處理,直到滿足決策樹遞歸的終止條件,即遍歷完所有劃分數據集的屬性,或者每個分支下的所有實例都具有相同的分類,則得到下一個葉子節(jié)點或者終止塊。此時任何到達葉子節(jié)點的數據必然屬于葉子節(jié)點的分類。
本文對實驗結果通過精確率(precision)、召回率(recall)及F1—score進行模型效果評價。所謂精確率(precision)是指分類器分類正確的正樣本的個數占該分類器所有分類為正樣本個數的比例。召回率(recall)是指分類器分類正確的正樣本個數占所有的正樣本個數的比例。F1-score為精確率與召回率的調和平均值,它的值更接近于Precision與Recall中較小的值。即:
(3)
具體實驗結果如表12所示:
表12 原始數據實驗結果
從上述表格實驗結果可以看出,基于決策樹分析法的群體性事件風險評估模型效果并不理想,針對風險等級A、B的預測效果比較好,無論從準確率還是召回率及F1評分來說效果都比較理想。但是針對C、D、E分級結果的預測效果明顯較差,尤其是D和E分級的預測結果十分不理想,準確率過低,分本無法達到預期效果,滿足預警目的。究其原因主要是因為D、E隸屬于兩級的數據量較少,尤其對比A級的樣本數據量相差懸殊。故而導致了針對A級分類樣本的擬合效果好,而針對D、E兩級分類結果的擬合效果很差。下文筆者將根據這一問題對數據進行處理,以達到正負樣本盡量均衡,預測效果盡量提升的目的。
4.1 SMOTE算法的引入
一般而言,為改善樣本不均衡帶來的預測效果不理想困境,可以從兩個方面著手解決。一是從算法的角度出發(fā),考慮不同誤分類情況代價的差異性對算法進行優(yōu)化,使得算法在不平衡數據下也能有較好的效果。二是主要從數據的角度出發(fā),通過某種抽樣策略使得樣本數量盡量均衡。本研究中筆者主要采取第二種方案對數據進行抽樣處理后實現(xiàn)預測效果的改善。
SMOTE全稱是Synthetic Minority Oversampling Technique,即合成少數類過采樣技術,它是Chalwa[8]在2002年提出的一種是基于隨機過采樣算法的一種改進方案,相對于隨機過采樣普遍采取簡單重復構造數據樣本的策略來增加少數類樣本,極易產生模型過擬合的問題,使得訓練模型學習到的信息過于集中而不夠泛化。
SMOTE算法的基本思想是對少數類樣本進行分析并根據少數類樣本人工合成新樣本添加到數據集中,具體算法流程如下:
1.對于樣本數量少的那一類中每一個樣本,以歐氏距離為標準計算它到該本集中所有樣本的距離,算得它的k近鄰。
2.取過采樣根據樣倍數為n,再在上一步取到的k個近鄰樣本中選取n個樣本。
3.對于每一個隨機選出的近鄰樣本,再分別與原樣本按照如下公式
xnew=xi+rand(0,1)×(xi-xij)
(4)
,其中(j=1,2,3...,n)
構建新的樣本。xnew上式中,表示新構造的樣本,xi表示原有樣本,rand(0,1)表示區(qū)間(0,1)之間的一個隨機數,而xij(j=1,2,3……n)則表示取到的k近鄰中的n個樣本。將這些新生成的樣本添加到原來樣本集中數據較少的那一類中就產生了新的均衡化的訓練集。該方法中新生成樣本數量可有控制合成倍數來完成。SMOTE方法通過過采樣的方式有效避免了非均衡訓練集中的過擬合及樣本失衡問題,大大提高了分類器的泛化能力。
4.2 引入SMOTE算法的實驗數據改進
本研究中為克服樣本失衡現(xiàn)象,主要對C、D、E三類危害等級樣本進行合成泛化,即主要針對上述兩類數據進行SMOTE新數據合成后再進行基于決策樹模型的分類模擬,最終的實驗效果如表13所示:
表13 引入SMOTE合成數據后的實驗結果
通過引入SMOTE樣本均衡算法針對失衡樣本集效果改善較為明顯,但預測分類效果依然有繼續(xù)完善的空間,也就表明SMOTE在本研究關于群體性預警模型改進效果較為顯著。
本文針對群體性事件的預警模型進行探討,旨在通過機器學習方法實現(xiàn)對群體性事件危害性后果的預估評判。主要思路就是將事件危害等級作為分類標簽,將包括發(fā)生地點、發(fā)生時間、媒體關注程度、涉及利益訴求等9類屬性作為自變量輸入,利用決策樹的ID3算法通過熵值最大化原則劃分數據類別,確定最終分類結果的思維過程。但通過ID3方法作完分類的預測效果并不理想,尤其是針對樣本數量較少的C、D、E等級數據預測效果很差,無法滿足模型預期效果。筆者就在數據失衡的問題下嘗試引入SMOTE算法,實現(xiàn)針對數量較少類別的樣本進行新樣本合成,盡可能實現(xiàn)樣本均衡。實驗結果表明引入SMOTE算法對樣本改善效果較為明顯,預測效果有所提升,但仍沒有達到理想狀態(tài),還需進一步對模型進行改進。
下一步在模型的優(yōu)化上可以換種切入角度,數據失衡導致模型的效果不理想問題不但可以通過引入過采樣算法進行改進,還可以嘗試通過改進模型算法進行優(yōu)化,如可引入CART算法或C4.5算法做進一步嘗試驗證模型預測效果。
[1]余光輝,陳天然,周佩純. 我國環(huán)境群體性事件預警指標體系及預警模型研究[J]. 情報雜志,2013,(7):13-18.
[2]吳竹. 群體性事件預警機制研究[D]. 長沙:中南大學,2006.
[3]胡詩妍,隋晉光,王靖亞. 群體性事件風險定量預測預警[J].西安: 西北大學學報(自然科學版),2012,42(4):548-552.
[4]辛越,于建. 基于灰色分析的群體性事件情報預警[J]. 河北公安警察職業(yè)學院學報,2009,9(1):20-24.
[5]GB/T,Technical Specification of Public Safety Risk Assessment[S].http://www.doc88.com/p-385770201522.htm[OB/OL].
[6]Joachims T.SVM light Support Vector Machine[E]. 2008,6.
[7]Nahler M.Decision Tree[M].Vienna: Springer,2009.
[8]Michael A Arbib,Jean-Marc Fellous.Emotions:from brain to robot[J].Trends in Cognitive Sciences,2004,8(12).
(責任編輯:王 謙)
EarlyWarningModelofSocialGroupEventBasedon
ID3-SMOTECombinationAlgorithm
SHI Tuo1,WEI Xin-lei1,SHAO Xu-fen2
(1. Information Engineering School,Communication University of China,Beijing 100024,China;2. Zhejiang Yueqing Middle School,Yueqing 325600,China)
At present,the mass incidents in China show the characteristics of organization,complexity,politics and violence,and seriously affect the social harmony and stability. To predict mass events through scientific means is an effective way to prevent its occurrence. The past group events warning methods were mainly through qualitative analysis or simple quantitative analysis to predict the occurrence of social group events,relatively lack of scientific and reliable data facts as a support. In this paper we obtain relevant group events data occurred in China during recent years through internal units,innovatively introduce machine learning into the field of mass incidents,and get the subversion of the traditional analysis method of group events. From the dual perspectives of social science and natural science,we use machine learning technology to predict mass events scientifically. It has important guiding significance for the government in the process of dealing with mass incidents,scientific decision-making,effective prevention and rapid response.
social group event;classification;decision tree;ID3;SMOTE
TP399
A
1673-4793(2017)06-0009-07
2017-09-22
石拓(1988-),女(漢族),北京市人,中國傳媒大學博士研究生.E-mail:414496511@qq.com