基于NLP的多維數(shù)據(jù)深度挖掘分析服務(wù)在公安行業(yè)的應(yīng)用

2023-10-22 01:45:38王鑫公安部第一研究所

警察技術(shù) 2023年5期

王鑫公安部第一研究所

引言

隨著當(dāng)前社會(huì)動(dòng)態(tài)化、信息化的深入發(fā)展，社會(huì)形勢(shì)日益復(fù)雜，各種重大突發(fā)案事件時(shí)常發(fā)生，而公安機(jī)關(guān)的實(shí)戰(zhàn)警力不足、部門各自為戰(zhàn)、信息閉塞滯后等問題也日益突出，傳統(tǒng)的單打獨(dú)斗式警務(wù)模式已經(jīng)難以滿足各地公安保衛(wèi)政治安全、打擊違法犯罪、維護(hù)社會(huì)穩(wěn)定的實(shí)戰(zhàn)需求。作為社會(huì)治安“晴雨表”的警情數(shù)據(jù)明顯增多，積累了大量反應(yīng)社會(huì)治安情況的信息，亟需以科技信息化手段作為支撐，為合成作戰(zhàn)指揮提供有針對(duì)性和有效性的決策信息。本文基于NLP（Natural Language Processing）自然語言處理技術(shù)，構(gòu)建多維數(shù)據(jù)深度挖掘分析服務(wù)在公安行業(yè)的應(yīng)用，實(shí)現(xiàn)自動(dòng)提取結(jié)構(gòu)化要素、挖掘海量數(shù)據(jù)潛在信息、多維度關(guān)聯(lián)分析等功能，推動(dòng)NLP技術(shù)與公安信息分析研判業(yè)務(wù)深度融合。

一、業(yè)務(wù)需求

國(guó)內(nèi)各級(jí)公安指揮中心目前已經(jīng)形成了長(zhǎng)期、廣泛和有價(jià)值的數(shù)據(jù)。隨著科學(xué)技術(shù)的發(fā)展，已經(jīng)開始對(duì)各類數(shù)據(jù)進(jìn)行整合和相應(yīng)的分析，但目前主要還是以數(shù)據(jù)的匯聚、類別、時(shí)間段等傳統(tǒng)方式進(jìn)行統(tǒng)計(jì)分析。為了深挖數(shù)據(jù)中關(guān)鍵的信息，建立多維數(shù)據(jù)深度挖掘分析服務(wù)，將自然語言分析技術(shù)應(yīng)用于公安信息分析研判，并支撐合成作戰(zhàn)業(yè)務(wù)落地應(yīng)用，有效將公安業(yè)務(wù)工作與通用技術(shù)相結(jié)合的方式，將是未來發(fā)展趨勢(shì)。

利用NLP技術(shù)對(duì)公安數(shù)據(jù)進(jìn)行深度挖掘和分析，主要滿足如下實(shí)戰(zhàn)需求：

一是探索數(shù)據(jù)隱性關(guān)系，基于文本記錄信息，全量解析各類信息中實(shí)體和主題詞，發(fā)現(xiàn)不同信息間的人物關(guān)聯(lián)、地點(diǎn)管理、組織機(jī)構(gòu)關(guān)聯(lián)等隱性特點(diǎn)，并與相關(guān)聯(lián)的應(yīng)急預(yù)案匹配。

二是發(fā)現(xiàn)時(shí)間聯(lián)動(dòng)規(guī)律，提供時(shí)間維度的數(shù)據(jù)細(xì)節(jié)統(tǒng)計(jì)，呈現(xiàn)按照年、月、日、時(shí)段等不同粒度時(shí)間周期上，全量數(shù)據(jù)的分布情況，提供按照關(guān)鍵字、主題詞、區(qū)域等維度的篩選。

三是發(fā)現(xiàn)數(shù)據(jù)聚類特點(diǎn)，針對(duì)不同分類的信息，以類型為單位探索挖掘此類數(shù)據(jù)在時(shí)間、地點(diǎn)、關(guān)鍵要素等方面的特征。

二、構(gòu)建多維數(shù)據(jù)深度挖掘分析服務(wù)的重點(diǎn)內(nèi)容

通過梳理公安信息分析研判業(yè)務(wù)，基于NLP對(duì)數(shù)據(jù)進(jìn)行句法分析、中文自動(dòng)分詞、詞性標(biāo)注、文本分類、信息檢索、信息抽取等關(guān)鍵技術(shù)，建立文檔語義向量化模型和分類語義模型。本文著重論述語義標(biāo)注訓(xùn)練方法管理、分析服務(wù)處理流程制定、語義關(guān)鍵詞自動(dòng)提取、分類模型訓(xùn)練等重點(diǎn)內(nèi)容，實(shí)現(xiàn)多維數(shù)據(jù)深度挖掘分析服務(wù)對(duì)海量數(shù)據(jù)快速、準(zhǔn)確的全量解析，確保對(duì)每一個(gè)事件進(jìn)行準(zhǔn)確、高效的指揮調(diào)度。

（一）語義標(biāo)注訓(xùn)練方法

為進(jìn)一步提高準(zhǔn)確度，除了對(duì)模型進(jìn)行調(diào)優(yōu)外，人工糾偏是一個(gè)重要的環(huán)節(jié)。通過數(shù)據(jù)信息標(biāo)注管理，監(jiān)督機(jī)器學(xué)習(xí)，在人工干預(yù)下為機(jī)器提供樣本參考，樣本越準(zhǔn)確、越多，機(jī)器進(jìn)行學(xué)習(xí)后的效果就越好、準(zhǔn)確度更高。在人工進(jìn)行類別選擇糾偏標(biāo)注后，被糾偏事件進(jìn)入事件訓(xùn)練庫成為樣本，提升事件分類的準(zhǔn)確性。語義標(biāo)注管理需包括：

（1）隨機(jī)聚類標(biāo)注管理：在所有的數(shù)據(jù)中隨機(jī)選取可用戶自定義數(shù)量條數(shù)提供給用戶，并提供與該事件信息相近的多個(gè)分類類別，用戶可以單一或者批量提交數(shù)據(jù)分類類別進(jìn)行糾偏標(biāo)注。

（2）分類聯(lián)想標(biāo)注管理：通過分類類別進(jìn)行數(shù)據(jù)聯(lián)想聚類糾偏標(biāo)注。

（3）反向剔除標(biāo)注管理：對(duì)數(shù)據(jù)的分類類別進(jìn)行反向選擇，通過反向選擇提高數(shù)據(jù)信息分類的準(zhǔn)確性。

（二）NLP多維數(shù)據(jù)深度挖掘分析服務(wù)處理流程

多維數(shù)據(jù)深度挖掘分析服務(wù)通過接口管理模塊實(shí)時(shí)接入各類信息，語義提取案事件要素信息、日期時(shí)間、地址信息等，同時(shí)智能匹配對(duì)應(yīng)預(yù)案，交由預(yù)案分類模型進(jìn)行案事件分類分級(jí)。

NLP多維數(shù)據(jù)深度挖掘分析服務(wù)提供歷史數(shù)據(jù)查詢和日志查詢接口，通過數(shù)據(jù)分析管理、多維數(shù)據(jù)查詢管理模塊進(jìn)行可視化呈現(xiàn)；對(duì)于新類型、未識(shí)別、識(shí)別不準(zhǔn)的數(shù)據(jù)，通過語義標(biāo)注接口，作為優(yōu)化模型自學(xué)習(xí)的輸入，持續(xù)提升模型準(zhǔn)確性和完備性。

（三）NLP數(shù)據(jù)語義關(guān)鍵詞提取與預(yù)案匹配原理

首先對(duì)數(shù)據(jù)文本進(jìn)行關(guān)鍵詞語義提取，涉及到熱詞識(shí)別/文本聚類，命名實(shí)體識(shí)別（包括日期時(shí)間、地址）。

其次根據(jù)數(shù)據(jù)信息分詞結(jié)果進(jìn)行特征語義提取，計(jì)算特征權(quán)重，輸入訓(xùn)練好的預(yù)案匹配分類器模型，選擇最高匹配度預(yù)案以及關(guān)聯(lián)預(yù)案。對(duì)于預(yù)案中涉及案事件定級(jí)的關(guān)鍵詞與數(shù)字，比如傷/亡人數(shù)、是否有外籍、事發(fā)區(qū)域、事發(fā)時(shí)間等，通過正則表達(dá)式技術(shù)進(jìn)行規(guī)則語義提取，使用決策樹模型對(duì)案件進(jìn)行定級(jí)。

（四）案事件處置預(yù)案分類模型訓(xùn)練

為實(shí)現(xiàn)案事件處置預(yù)案精準(zhǔn)匹配，利用機(jī)器學(xué)習(xí)技術(shù)，對(duì)預(yù)案中關(guān)鍵名詞、數(shù)字、規(guī)則進(jìn)行標(biāo)注，制定標(biāo)簽?zāi)０澹斎胗?xùn)練文本進(jìn)行分詞，自行標(biāo)注或基于規(guī)則的自動(dòng)標(biāo)注。完成數(shù)據(jù)準(zhǔn)備后進(jìn)行特征提取，輸出特征權(quán)重，通過權(quán)重與標(biāo)簽?zāi)０宓倪\(yùn)算，調(diào)整分類器的參數(shù)，形成案事件處置預(yù)案分類模型。

三、多維數(shù)據(jù)深度挖掘分析服務(wù)在公安行業(yè)的應(yīng)用

通過構(gòu)建多維數(shù)據(jù)深度挖掘分析服務(wù)，對(duì)多年的警情歷史數(shù)據(jù)進(jìn)行訓(xùn)練，并在某地市級(jí)公安機(jī)關(guān)成功應(yīng)用。

（一）文本檢測(cè)類服務(wù)接口

1.文本多標(biāo)簽分類

將文本輸入機(jī)器學(xué)習(xí)流程之前，確保文本清洗和向量化步驟已經(jīng)完成，使用NaiveBayes分類器和支持向量機(jī)分類器來輔助完成分類任務(wù)。自動(dòng)甄別基于多個(gè)分類樹形成的訓(xùn)練語料，結(jié)合使用SVM、DT、Xgboost等算法，一條數(shù)據(jù)可能有多個(gè)標(biāo)簽，每個(gè)標(biāo)簽可能有兩個(gè)或者多個(gè)類別，對(duì)每一類警情訓(xùn)練一個(gè)文本分類模型。

2.文本多級(jí)分類

根據(jù)用戶歸類匯總形成的分類樹，系統(tǒng)利用訓(xùn)練警情數(shù)據(jù)在不同類別分支之間的關(guān)聯(lián)關(guān)系，拆分成特征工程和分類器兩部分，在訓(xùn)練和推理過程中feed模型需要的數(shù)據(jù)，在學(xué)習(xí)層級(jí)信息的時(shí)候使用fine-tuning微調(diào)技術(shù)，將上層標(biāo)簽信息微調(diào)的方式傳到下層標(biāo)簽的學(xué)習(xí)中。輸入沒有標(biāo)簽的新數(shù)據(jù)后，將新數(shù)據(jù)的每個(gè)特征與樣本集中數(shù)據(jù)對(duì)應(yīng)的特征進(jìn)行比較，然后算法提取樣本集中特征最相似數(shù)據(jù)（最近鄰）的分類標(biāo)簽，從而實(shí)現(xiàn)在分類預(yù)測(cè)結(jié)果結(jié)合輸出類別的路徑類別，例如預(yù)測(cè)類別為Y，如果C同時(shí)隸屬X類，則預(yù)測(cè)結(jié)果同時(shí)包括X類和Y類。

（二）實(shí)體識(shí)別類服務(wù)接口

1.地址詞識(shí)別

訓(xùn)練地址識(shí)別語義模型，將識(shí)別粒度從“省市區(qū)街道地點(diǎn)”的5級(jí)體系擴(kuò)展到“省市區(qū)、商圈、街道、地點(diǎn)、樓層門牌號(hào)、方位距離”的8級(jí)體系，通過多子任務(wù)共同約束的方式，濾掉非法字符，根據(jù)分詞后的詞性得出概率以及詞典元數(shù)據(jù)對(duì)地址文本進(jìn)行地址切分。對(duì)切分結(jié)果進(jìn)行地址標(biāo)注，并獲得最優(yōu)的地址等級(jí)標(biāo)注序列。同時(shí)根據(jù)上下文校正標(biāo)注序列，并輸出最優(yōu)標(biāo)注結(jié)果。

2.時(shí)間詞識(shí)別

基于語義模型對(duì)輸入文本進(jìn)行語義分析識(shí)別技術(shù)，從文本數(shù)據(jù)中析取帶有時(shí)間類語義的文本數(shù)據(jù)，輔助識(shí)別各種時(shí)間表示格式，推斷不同場(chǎng)景下的時(shí)間語義詞匯。

3.名詞識(shí)別

名詞識(shí)別模塊包括分析主題模塊、關(guān)注詞匯模塊、分詞服務(wù)模塊、索引服務(wù)模塊以及名詞分析模塊。分析主題模塊，用于確定分析數(shù)據(jù)源、定義分析主題、定義分析字段的域以及定義每個(gè)域的數(shù)據(jù)類型，產(chǎn)生主題數(shù)據(jù)結(jié)構(gòu)；關(guān)注詞匯模塊，用于確定需要關(guān)注的潛在名詞，形成關(guān)注詞匯表列；分詞服務(wù)模塊用于根據(jù)主題數(shù)據(jù)結(jié)構(gòu)語義提取相應(yīng)域中的數(shù)據(jù)信息，并根據(jù)關(guān)注詞匯表序列對(duì)數(shù)據(jù)信息進(jìn)行分詞，產(chǎn)生詞元序列；索引服務(wù)模塊中的索引關(guān)系生成單元用于記錄詞元序列中每個(gè)詞元在對(duì)應(yīng)域中的索引位置和記錄每個(gè)詞元對(duì)應(yīng)的數(shù)據(jù)信息，生成詞元索引文件；名詞分析模塊根據(jù)詞元索引文件生成名詞關(guān)聯(lián)信息，且根據(jù)每個(gè)詞元的協(xié)同概率生成置信度。

4.單位名稱識(shí)別

分類利用地域識(shí)別模型、行業(yè)特征詞識(shí)別模型以及CRF模型組合形成單位名稱識(shí)別模型，提供單位名稱識(shí)別接口服務(wù)。

5.實(shí)體詞使用分析

對(duì)臨時(shí)提供的實(shí)體詞進(jìn)行使用次數(shù)統(tǒng)計(jì)，根據(jù)使用或出現(xiàn)頻次變化對(duì)實(shí)體詞的數(shù)量進(jìn)行管理，統(tǒng)計(jì)分析不同實(shí)體詞在不同數(shù)據(jù)分類的應(yīng)用場(chǎng)景下的適配性，避免無效數(shù)據(jù)對(duì)系統(tǒng)性能造成負(fù)面影響。

（三）趨勢(shì)分析類服務(wù)接口

1.關(guān)鍵詞識(shí)別

本服務(wù)采用三種識(shí)別模型：

有監(jiān)督模型：作為二分類問題進(jìn)行處理，判斷文檔中的詞和短語，提供已經(jīng)標(biāo)注好的訓(xùn)練語料，利用歷史語料訓(xùn)練關(guān)鍵詞語義提取模型，對(duì)文檔進(jìn)行關(guān)鍵詞抽取。

半監(jiān)督模型：只需要少量的訓(xùn)練數(shù)據(jù)構(gòu)建關(guān)鍵詞抽取模型，然后使用模型對(duì)新的文本進(jìn)行關(guān)鍵詞語義提取，對(duì)于這些關(guān)鍵詞進(jìn)行人工過濾，將過濾得到的關(guān)鍵詞加入訓(xùn)練集，重新訓(xùn)練模型。

無監(jiān)督模型：不需要人工標(biāo)注的語料，利用機(jī)器學(xué)習(xí)方法發(fā)現(xiàn)文本中比較重要的詞作為關(guān)鍵詞，進(jìn)行關(guān)鍵詞抽取。

2.關(guān)鍵短語識(shí)別

提取典型的、有代表性的短語可代表文本的關(guān)鍵內(nèi)容。先利用停用詞表生成候選詞，再計(jì)算各個(gè)候選詞和短語的得分，基于序列標(biāo)注模型的方法，轉(zhuǎn)換成核心成分識(shí)別問題。通過觀察到的文檔集合，基于按不同應(yīng)用場(chǎng)景的語料數(shù)據(jù)使用無監(jiān)督的聯(lián)通權(quán)重的圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法形成模型，利用所提的完整性篩選和排序函數(shù)對(duì)候選短語進(jìn)行篩選和排序，加入利用詞語在文章中首次出現(xiàn)的位置作為特征，分析當(dāng)前輸入數(shù)據(jù)的可表示主題的最佳短語。

3.熱詞關(guān)聯(lián)識(shí)別

基于歷史警情數(shù)據(jù)進(jìn)行語義分析，以30日為時(shí)間窗口，連續(xù)滾動(dòng)建立每周關(guān)鍵詞和停用詞庫，對(duì)獲取的實(shí)時(shí)文本內(nèi)容進(jìn)行自動(dòng)分詞，解決新詞和不規(guī)則詞在警情中口語化表達(dá)的問題。根據(jù)關(guān)鍵詞出現(xiàn)的頻率和時(shí)間遠(yuǎn)近程度計(jì)算其熱度值，之后依照該詞的熱度值，利用貝葉斯多維分類模型對(duì)比每周熱詞排行榜，獲得熱詞的關(guān)聯(lián)趨勢(shì)。

在實(shí)戰(zhàn)中通過真實(shí)數(shù)據(jù)對(duì)該模型進(jìn)行迭代驗(yàn)證和糾偏，其文本標(biāo)簽分類準(zhǔn)確率達(dá)95%，對(duì)地址、時(shí)間、名詞、單位名稱等實(shí)體識(shí)別準(zhǔn)確率達(dá)97%以上，為上層警情研判系統(tǒng)提供穩(wěn)定、可靠的多維數(shù)據(jù)分析服務(wù)。

四、結(jié)語

本文將NLP技術(shù)運(yùn)用在公安研判分析工作中，根據(jù)業(yè)務(wù)實(shí)戰(zhàn)需求，構(gòu)建基于NLP的多維數(shù)據(jù)深度挖掘分析服務(wù)，首次提出并定義了地址、時(shí)間、名詞、單位名稱等實(shí)體識(shí)別類服務(wù)接口，并在實(shí)戰(zhàn)中得到較好的驗(yàn)證結(jié)果。同時(shí)，逐步建立了數(shù)據(jù)中關(guān)鍵信息要素標(biāo)簽體系，推動(dòng)NLP技術(shù)在公安實(shí)戰(zhàn)中的深度應(yīng)用，為偵查破案、維穩(wěn)處突、服務(wù)民生等工作提供強(qiáng)大的技術(shù)支撐，有效提升公安工作效能，不斷助力智慧警務(wù)建設(shè)。