• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      涉黑涉惡類警情的特征分析方法研究

      2020-07-14 02:36邱明月崔年冬
      法制與社會 2020年18期
      關鍵詞:自然語言處理警情

      邱明月 崔年冬

      關鍵詞 自然語言處理 涉黑涉惡 警情 Python I2

      基金項目:中央高校基本科研業(yè)務費專項資金項目:基于NLP的涉黑涉惡警情的特征分析與可視化研究(編號:LGYB2 02012)。

      作者簡介:邱明月,南京森林警察學院,講師,博士,研究方向:數據挖掘、公安情報學;崔年冬,南京森林警察學院公安情報學學生。

      中圖分類號:D631 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A ? ? ? ? ? ? ? ? ? ? ? ?DOI:10.19387/j.cnki.1009-0592.2020.06.340

      一、背景

      伴隨著大數據時代的到來,大數據在社會的各個領域都得到了廣泛的應用。現如今,大數據是朝著“未來社會發(fā)展的趨勢”發(fā)展,習總書記也不斷強調了科技以及大數據在公安工作中的應用前景,將大數據戰(zhàn)略提升到了國家的層次。在目前公安行業(yè)對大數據與人工智能等熱門關鍵技術應用的過程中,充分利用了業(yè)務系統(tǒng)產生的結構化數據,如人員數據、軌跡數據、交通數據等。但是近些年來黑惡勢力犯罪形式的不斷變化又給公安機關開展工作帶來了不少的挑戰(zhàn)。

      當今社會隨著現代信息技術的發(fā)展和普及,使得黑惡勢力犯罪分子具有過去多得多的犯罪手段、方式和犯罪環(huán)境。犯罪分子的高學歷化、高智商化,犯罪工具的現代化、智能化趨勢讓現在的掃黑除惡工作越來越難開展。他們利用現代網絡設施和交通工具,使得作案的空間和時間都得到空前的擴展和延伸。犯罪分子進行有組織的團伙作案,利用現代化的手段逃避公安機關的追查的趨勢也越來越明顯。因此,公安機關實戰(zhàn)部門如何利用好大數據技術來打擊黑惡勢力犯罪成為當今政府部門以及全社會關注的熱點問題。

      2018年1月中旬, 黨中央和國務院部署了《關于開展掃黑除惡專項斗爭的通知》,從而決定在全國范圍內開展一項為期三年的掃黑除惡專項斗爭。這個經歷是這一階段進行十多年打黑除惡斗爭后,對黑惡暗黑勢力展開的一場更全面更深入更有效的打擊斗爭。涉黑犯罪是我國社會治理中面臨的重大挑戰(zhàn),在全球化網絡時代,如何利用大數據打擊黑社會犯罪已經成為各國政府所應解決的重大問題。

      二、相關概念

      (一)自然語言處理

      自然語言處理是人工智能和語言學相結合的交叉學科,主要研究如何讓計算機處理并應用人類語言??梢哉f,計算機視覺和語音識別是人工智能領域的感知智能,而 NLP 屬于人工智能領域的認知智能,因而相對更難。在深度學習的發(fā)展過程中也與之類似,語音和圖像提前獲得突破,而 NLP 這兩年才漸漸在機器翻譯等領域大展身手。

      (二)Python

      Python是一種跨平臺的計算機程序設計語言,是一種面向對象的動態(tài)類型語言?;赑ython的網絡爬蟲十分完備,可以分布式、多線程地對網頁進行抓取。Python提供了多個能實現http請求的功能模塊例如urlib庫、resquests庫;以及可以解析網頁頁面的功能模塊例如BeautifuleSoup庫、lxml庫等,可以很有效得實現對各種網頁頁面的抓取、數據采集的任務。

      (三)網絡爬蟲

      網絡爬蟲,是按照既定的規(guī)則自動抓取萬維網信息的程序或者腳本,他們廣泛地運用于互聯網的搜索引擎或者其他類似的網站中?;旧峡梢苑譃?類:第一類是通用網絡爬蟲,指搜索引擎爬蟲,類似于百度、谷歌等這種大型的搜索引擎,其特點是根據一定的策略,用特定的計算機程序,將互聯網上的信息加以收集并對信息進行篩選和排序后展示給用戶,搜索引擎由搜索者、用戶界面、索引器和搜索器4部分組成。第二類是聚焦爬蟲,是指可以有選擇地爬取那些事先處理好的主題相關的網絡爬蟲,與一般形式的網絡爬蟲相比,聚焦網絡爬蟲需要爬取與主旨相關的內容,極大地節(jié)約了硬件和網絡資源。第三類是增量網絡爬蟲,是指有間隔地進行信息收集,一段時間內重新爬取數據進行數據更新。第四類是深層網絡爬蟲,深層網絡需要通過登錄提交數據后,才能進行頁面提取信息。

      三、警情數據的預處理與篩選

      從基層公安部門獲得的原始數據來源各異,表示方式也不盡相同,還會有很多字段值的缺失等情況出現。所以在收集到人員的各類數據之后,需要進行指標的預處理與篩選。指標的預處理是一項重要的工作,直接影響到模型的準確性與可用性。如果直接未經篩選將全部的數據導入預測模型,會造成模型的多余、運行的速度減緩以及預測的準確度下降等不同問題。因此,我們在模型運算之前,將指標數據的篩選和預處理是一項重要的難點工作。由于數據樣本中影響因素繁多且數量較大,還有缺失值的出現,容易導致分析的結果很難達到一個較為準確的水平,所以需要首先進行數據指標的預處理工作。數據的預處理可包括屬性指標量化、數值化賦值、缺失值處理以及數據歸一化處理等。比如:按出生日期將犯罪嫌疑人的年齡分為老年、中年、青年三種類型,制定出指標的分類變量。根據犯罪嫌疑人的性別,1表示“男”,2表示“女”。將指標進行數值化賦值。然后,將經過歸一化處理過的數據輸入到后續(xù)的模型中。

      在涉黑涉惡類警情分析中,有些指標因素相對于人員涉黑涉惡行為的發(fā)生影響是具有相關性的??梢酝ㄟ^模糊數、相關分析等處理與篩選出具有代表性的影響指標。這樣,通過小部分的指標就可以進行某些預測,目的用來提高模型的準確度。同時,可以針對這些變量進行特征分析,對影響犯罪的重要因素進行排序,得出影響涉黑涉惡案件的犯罪因素的重要性順序表。

      四、基于NLP的涉黑涉惡類警情的特征分析與可視化

      (一)涉黑涉惡類數據的預處理

      屬性指標量化:將采集到的屬性指標進行量化,可通過模糊數來進行區(qū)間劃分。

      數值化賦值:采集到的人員指標中如果有連續(xù)性的數據,可以通過運用連續(xù)函數進行數值轉換。例如:對于活動軌跡和前科記錄這樣具有時間特征的連續(xù)性數據,可以運用連續(xù)函數對其進行賦值。

      缺失值處理:數據采集中,缺失數據的情況時有發(fā)生。由于缺失值對于之后的對模型的準確性與可用性影響較大,所以應采用科學有效的方法進行填充。填充方法包括:人工填充、特殊值填充、關聯規(guī)則填充以及其他眾多的統(tǒng)計以及數據挖掘算法進行填充。

      數據歸一化處理:由于采集到的數據范圍不同,所以對數據做歸一化處理,以加快模型的收斂以及預測的準確率。

      (二)涉黑涉惡類案件詞庫的建立

      通過如圖1三種方式建立涉黑涉惡類案件詞庫:

      1.基于歷史警情數據的文本挖掘。通過收集到的歷史相關警情案件數據,運用自然語言處理等方式對關鍵詞進行提取與分析。

      2.基于基層民警經驗總結分析。通過調查問卷、座談訪問等方式,對基層民警關于涉惡涉惡案件的詞匯進行經驗總結。

      3.基于新媒體語境的網絡爬蟲。通過網絡爬蟲等工具,對微博、天涯、知乎等新媒體主流平臺進行涉黑涉惡類詞匯的網絡爬取。

      圖1:涉黑涉惡類案件詞庫的建立

      (三)重要性特征排序與可視化呈現

      通過人工神經網絡模型、決策樹模型等對涉黑涉惡類警情進行重要性分析與排序。訓練樣本:通過數據預處理后的70%數據用作訓練模型的樣本數據。根據人工神經網絡等模型的自適應等特點,對樣本數據的內在的潛在規(guī)律進行機器學習。模型運用:將訓練好的模型對案件的重要性特征進行分析。用剩余的30%數據作為測試樣本輸入模型中進行測試,以檢驗模型的預測效果。隨后,運用Python、I2等技術對上述數據庫進行實時動態(tài)連接,以保證動態(tài)化警情數據特征能夠得到實時反饋。

      五、結語

      涉黑涉惡警情的特征分析不僅可以對基層公安工作提供有力的數據參考,也使得公安大數據在實際的公安工作中得到有效的運用。通過運用自然語言處理、人工神經網絡模型等模型算法,將采集到的與涉黑涉惡案件相關的大量指標數據進行分析,并推斷出影響涉黑涉惡案件的重要指標與影響因素。運用案件的相關特征做出可視化云圖,以指導公安機關的警力部署,提高出警效率和質量。

      參考文獻:

      [1]廣東省掃黑除惡專項斗爭領導小組,省委政法委.應對三個難題 統(tǒng)籌強力攻堅 深入推進掃黑除惡專項斗爭打擊工作[N].人民公安報,2018-10-19(003).

      [2]杜曉旭,賈小云.基于Python的新浪微博爬蟲分析[J].軟件,2019,40(4):182-185.

      [3]張昌繁,陳利高,劉曉波,龔建.基于NPL-NMC系統(tǒng)的 測量子系統(tǒng)的建模與優(yōu)化[J].原子能科學技術,2016,50(4):698-704.

      [4]張繼光.許淵沖研究現狀的可視化分析及其啟示[J].西安外國語大學學報,2020,28(1):87-92.

      猜你喜歡
      自然語言處理警情
      不能吃的餃子
      “霉神”彥哥
      警情多,賴別人的嘴?
      基于組合分類算法的源代碼注釋質量評估方法
      面向機器人導航的漢語路徑自然語言組塊分析方法研究
      漢哈機器翻譯中的文字轉換技術研究
      HowNet在自然語言處理領域的研究現狀與分析
      搜索| 商南县| 翁源县| 陇川县| 墨江| 余江县| 泗水县| 达日县| 宝丰县| 南靖县| 阜平县| 获嘉县| 屏边| 延安市| 新竹市| 遵义县| 舒城县| 常州市| 龙陵县| 茂名市| 古丈县| 弥渡县| 奎屯市| 宁津县| 和田市| 东乌珠穆沁旗| 灵寿县| 博乐市| 河东区| 定襄县| 界首市| 昌宁县| 正镶白旗| 青铜峡市| 平乐县| 彝良县| 中山市| 邢台县| 高要市| 太湖县| 富阳市|