王鑫 公安部第一研究所
隨著當(dāng)前社會(huì)動(dòng)態(tài)化、信息化的深入發(fā)展,社會(huì)形勢(shì)日益復(fù)雜,各種重大突發(fā)案事件時(shí)常發(fā)生,而公安機(jī)關(guān)的實(shí)戰(zhàn)警力不足、部門各自為戰(zhàn)、信息閉塞滯后等問題也日益突出,傳統(tǒng)的單打獨(dú)斗式警務(wù)模式已經(jīng)難以滿足各地公安保衛(wèi)政治安全、打擊違法犯罪、維護(hù)社會(huì)穩(wěn)定的實(shí)戰(zhàn)需求。作為社會(huì)治安“晴雨表”的警情數(shù)據(jù)明顯增多,積累了大量反應(yīng)社會(huì)治安情況的信息,亟需以科技信息化手段作為支撐,為合成作戰(zhàn)指揮提供有針對(duì)性和有效性的決策信息。本文基于NLP(Natural Language Processing)自然語言處理技術(shù),構(gòu)建多維數(shù)據(jù)深度挖掘分析服務(wù)在公安行業(yè)的應(yīng)用,實(shí)現(xiàn)自動(dòng)提取結(jié)構(gòu)化要素、挖掘海量數(shù)據(jù)潛在信息、多維度關(guān)聯(lián)分析等功能,推動(dòng)NLP技術(shù)與公安信息分析研判業(yè)務(wù)深度融合。
國(guó)內(nèi)各級(jí)公安指揮中心目前已經(jīng)形成了長(zhǎng)期、廣泛和有價(jià)值的數(shù)據(jù)。隨著科學(xué)技術(shù)的發(fā)展,已經(jīng)開始對(duì)各類數(shù)據(jù)進(jìn)行整合和相應(yīng)的分析,但目前主要還是以數(shù)據(jù)的匯聚、類別、時(shí)間段等傳統(tǒng)方式進(jìn)行統(tǒng)計(jì)分析。為了深挖數(shù)據(jù)中關(guān)鍵的信息,建立多維數(shù)據(jù)深度挖掘分析服務(wù),將自然語言分析技術(shù)應(yīng)用于公安信息分析研判,并支撐合成作戰(zhàn)業(yè)務(wù)落地應(yīng)用,有效將公安業(yè)務(wù)工作與通用技術(shù)相結(jié)合的方式,將是未來發(fā)展趨勢(shì)。
利用NLP技術(shù)對(duì)公安數(shù)據(jù)進(jìn)行深度挖掘和分析,主要滿足如下實(shí)戰(zhàn)需求:
一是探索數(shù)據(jù)隱性關(guān)系,基于文本記錄信息,全量解析各類信息中實(shí)體和主題詞,發(fā)現(xiàn)不同信息間的人物關(guān)聯(lián)、地點(diǎn)管理、組織機(jī)構(gòu)關(guān)聯(lián)等隱性特點(diǎn),并與相關(guān)聯(lián)的應(yīng)急預(yù)案匹配。
二是發(fā)現(xiàn)時(shí)間聯(lián)動(dòng)規(guī)律,提供時(shí)間維度的數(shù)據(jù)細(xì)節(jié)統(tǒng)計(jì),呈現(xiàn)按照年、月、日、時(shí)段等不同粒度時(shí)間周期上,全量數(shù)據(jù)的分布情況,提供按照關(guān)鍵字、主題詞、區(qū)域等維度的篩選。
三是發(fā)現(xiàn)數(shù)據(jù)聚類特點(diǎn),針對(duì)不同分類的信息,以類型為單位探索挖掘此類數(shù)據(jù)在時(shí)間、地點(diǎn)、關(guān)鍵要素等方面的特征。
通過梳理公安信息分析研判業(yè)務(wù),基于NLP對(duì)數(shù)據(jù)進(jìn)行句法分析、中文自動(dòng)分詞、詞性標(biāo)注、文本分類、信息檢索、信息抽取等關(guān)鍵技術(shù),建立文檔語義向量化模型和分類語義模型。本文著重論述語義標(biāo)注訓(xùn)練方法管理、分析服務(wù)處理流程制定、語義關(guān)鍵詞自動(dòng)提取、分類模型訓(xùn)練等重點(diǎn)內(nèi)容,實(shí)現(xiàn)多維數(shù)據(jù)深度挖掘分析服務(wù)對(duì)海量數(shù)據(jù)快速、準(zhǔn)確的全量解析,確保對(duì)每一個(gè)事件進(jìn)行準(zhǔn)確、高效的指揮調(diào)度。
為進(jìn)一步提高準(zhǔn)確度,除了對(duì)模型進(jìn)行調(diào)優(yōu)外,人工糾偏是一個(gè)重要的環(huán)節(jié)。通過數(shù)據(jù)信息標(biāo)注管理,監(jiān)督機(jī)器學(xué)習(xí),在人工干預(yù)下為機(jī)器提供樣本參考,樣本越準(zhǔn)確、越多,機(jī)器進(jìn)行學(xué)習(xí)后的效果就越好、準(zhǔn)確度更高。在人工進(jìn)行類別選擇糾偏標(biāo)注后,被糾偏事件進(jìn)入事件訓(xùn)練庫成為樣本,提升事件分類的準(zhǔn)確性。語義標(biāo)注管理需包括:
(1)隨機(jī)聚類標(biāo)注管理:在所有的數(shù)據(jù)中隨機(jī)選取可用戶自定義數(shù)量條數(shù)提供給用戶,并提供與該事件信息相近的多個(gè)分類類別,用戶可以單一或者批量提交數(shù)據(jù)分類類別進(jìn)行糾偏標(biāo)注。
(2)分類聯(lián)想標(biāo)注管理:通過分類類別進(jìn)行數(shù)據(jù)聯(lián)想聚類糾偏標(biāo)注。
(3)反向剔除標(biāo)注管理:對(duì)數(shù)據(jù)的分類類別進(jìn)行反向選擇,通過反向選擇提高數(shù)據(jù)信息分類的準(zhǔn)確性。
多維數(shù)據(jù)深度挖掘分析服務(wù)通過接口管理模塊實(shí)時(shí)接入各類信息,語義提取案事件要素信息、日期時(shí)間、地址信息等,同時(shí)智能匹配對(duì)應(yīng)預(yù)案,交由預(yù)案分類模型進(jìn)行案事件分類分級(jí)。
NLP多維數(shù)據(jù)深度挖掘分析服務(wù)提供歷史數(shù)據(jù)查詢和日志查詢接口,通過數(shù)據(jù)分析管理、多維數(shù)據(jù)查詢管理模塊進(jìn)行可視化呈現(xiàn);對(duì)于新類型、未識(shí)別、識(shí)別不準(zhǔn)的數(shù)據(jù),通過語義標(biāo)注接口,作為優(yōu)化模型自學(xué)習(xí)的輸入,持續(xù)提升模型準(zhǔn)確性和完備性。
首先對(duì)數(shù)據(jù)文本進(jìn)行關(guān)鍵詞語義提取,涉及到熱詞識(shí)別/文本聚類,命名實(shí)體識(shí)別(包括日期時(shí)間、地址)。
其次根據(jù)數(shù)據(jù)信息分詞結(jié)果進(jìn)行特征語義提取,計(jì)算特征權(quán)重,輸入訓(xùn)練好的預(yù)案匹配分類器模型,選擇最高匹配度預(yù)案以及關(guān)聯(lián)預(yù)案。對(duì)于預(yù)案中涉及案事件定級(jí)的關(guān)鍵詞與數(shù)字,比如傷/亡人數(shù)、是否有外籍、事發(fā)區(qū)域、事發(fā)時(shí)間等,通過正則表達(dá)式技術(shù)進(jìn)行規(guī)則語義提取,使用決策樹模型對(duì)案件進(jìn)行定級(jí)。
為實(shí)現(xiàn)案事件處置預(yù)案精準(zhǔn)匹配,利用機(jī)器學(xué)習(xí)技術(shù),對(duì)預(yù)案中關(guān)鍵名詞、數(shù)字、規(guī)則進(jìn)行標(biāo)注,制定標(biāo)簽?zāi)0澹斎胗?xùn)練文本進(jìn)行分詞,自行標(biāo)注或基于規(guī)則的自動(dòng)標(biāo)注。完成數(shù)據(jù)準(zhǔn)備后進(jìn)行特征提取,輸出特征權(quán)重,通過權(quán)重與標(biāo)簽?zāi)0宓倪\(yùn)算,調(diào)整分類器的參數(shù),形成案事件處置預(yù)案分類模型。
通過構(gòu)建多維數(shù)據(jù)深度挖掘分析服務(wù),對(duì)多年的警情歷史數(shù)據(jù)進(jìn)行訓(xùn)練,并在某地市級(jí)公安機(jī)關(guān)成功應(yīng)用。
1.文本多標(biāo)簽分類
將文本輸入機(jī)器學(xué)習(xí)流程之前,確保文本清洗和向量化步驟已經(jīng)完成,使用NaiveBayes分類器和支持向量機(jī)分類器來輔助完成分類任務(wù)。自動(dòng)甄別基于多個(gè)分類樹形成的訓(xùn)練語料,結(jié)合使用SVM、DT、Xgboost等算法,一條數(shù)據(jù)可能有多個(gè)標(biāo)簽,每個(gè)標(biāo)簽可能有兩個(gè)或者多個(gè)類別,對(duì)每一類警情訓(xùn)練一個(gè)文本分類模型。
2.文本多級(jí)分類
根據(jù)用戶歸類匯總形成的分類樹,系統(tǒng)利用訓(xùn)練警情數(shù)據(jù)在不同類別分支之間的關(guān)聯(lián)關(guān)系,拆分成特征工程和分類器兩部分,在訓(xùn)練和推理過程中feed模型需要的數(shù)據(jù),在學(xué)習(xí)層級(jí)信息的時(shí)候使用fine-tuning微調(diào)技術(shù),將上層標(biāo)簽信息微調(diào)的方式傳到下層標(biāo)簽的學(xué)習(xí)中。輸入沒有標(biāo)簽的新數(shù)據(jù)后,將新數(shù)據(jù)的每個(gè)特征與樣本集中數(shù)據(jù)對(duì)應(yīng)的特征進(jìn)行比較,然后算法提取樣本集中特征最相似數(shù)據(jù)(最近鄰)的分類標(biāo)簽,從而實(shí)現(xiàn)在分類預(yù)測(cè)結(jié)果結(jié)合輸出類別的路徑類別,例如預(yù)測(cè)類別為Y,如果C同時(shí)隸屬X類,則預(yù)測(cè)結(jié)果同時(shí)包括X類和Y類。
1.地址詞識(shí)別
訓(xùn)練地址識(shí)別語義模型,將識(shí)別粒度從“省市區(qū)街道地點(diǎn)”的5級(jí)體系擴(kuò)展到“省市區(qū)、商圈、街道、地點(diǎn)、樓層門牌號(hào)、方位距離”的8級(jí)體系,通過多子任務(wù)共同約束的方式,濾掉非法字符,根據(jù)分詞后的詞性得出概率以及詞典元數(shù)據(jù)對(duì)地址文本進(jìn)行地址切分。對(duì)切分結(jié)果進(jìn)行地址標(biāo)注,并獲得最優(yōu)的地址等級(jí)標(biāo)注序列。同時(shí)根據(jù)上下文校正標(biāo)注序列,并輸出最優(yōu)標(biāo)注結(jié)果。
2.時(shí)間詞識(shí)別
基于語義模型對(duì)輸入文本進(jìn)行語義分析識(shí)別技術(shù),從文本數(shù)據(jù)中析取帶有時(shí)間類語義的文本數(shù)據(jù),輔助識(shí)別各種時(shí)間表示格式,推斷不同場(chǎng)景下的時(shí)間語義詞匯。
3.名詞識(shí)別
名詞識(shí)別模塊包括分析主題模塊、關(guān)注詞匯模塊、分詞服務(wù)模塊、索引服務(wù)模塊以及名詞分析模塊。分析主題模塊,用于確定分析數(shù)據(jù)源、定義分析主題、定義分析字段的域以及定義每個(gè)域的數(shù)據(jù)類型,產(chǎn)生主題數(shù)據(jù)結(jié)構(gòu);關(guān)注詞匯模塊,用于確定需要關(guān)注的潛在名詞,形成關(guān)注詞匯表列;分詞服務(wù)模塊用于根據(jù)主題數(shù)據(jù)結(jié)構(gòu)語義提取相應(yīng)域中的數(shù)據(jù)信息,并根據(jù)關(guān)注詞匯表序列對(duì)數(shù)據(jù)信息進(jìn)行分詞,產(chǎn)生詞元序列;索引服務(wù)模塊中的索引關(guān)系生成單元用于記錄詞元序列中每個(gè)詞元在對(duì)應(yīng)域中的索引位置和記錄每個(gè)詞元對(duì)應(yīng)的數(shù)據(jù)信息,生成詞元索引文件;名詞分析模塊根據(jù)詞元索引文件生成名詞關(guān)聯(lián)信息,且根據(jù)每個(gè)詞元的協(xié)同概率生成置信度。
4.單位名稱識(shí)別
分類利用地域識(shí)別模型、行業(yè)特征詞識(shí)別模型以及CRF模型組合形成單位名稱識(shí)別模型,提供單位名稱識(shí)別接口服務(wù)。
5.實(shí)體詞使用分析
對(duì)臨時(shí)提供的實(shí)體詞進(jìn)行使用次數(shù)統(tǒng)計(jì),根據(jù)使用或出現(xiàn)頻次變化對(duì)實(shí)體詞的數(shù)量進(jìn)行管理,統(tǒng)計(jì)分析不同實(shí)體詞在不同數(shù)據(jù)分類的應(yīng)用場(chǎng)景下的適配性,避免無效數(shù)據(jù)對(duì)系統(tǒng)性能造成負(fù)面影響。
1.關(guān)鍵詞識(shí)別
本服務(wù)采用三種識(shí)別模型:
有監(jiān)督模型:作為二分類問題進(jìn)行處理,判斷文檔中的詞和短語,提供已經(jīng)標(biāo)注好的訓(xùn)練語料,利用歷史語料訓(xùn)練關(guān)鍵詞語義提取模型,對(duì)文檔進(jìn)行關(guān)鍵詞抽取。
半監(jiān)督模型:只需要少量的訓(xùn)練數(shù)據(jù)構(gòu)建關(guān)鍵詞抽取模型,然后使用模型對(duì)新的文本進(jìn)行關(guān)鍵詞語義提取,對(duì)于這些關(guān)鍵詞進(jìn)行人工過濾,將過濾得到的關(guān)鍵詞加入訓(xùn)練集,重新訓(xùn)練模型。
無監(jiān)督模型:不需要人工標(biāo)注的語料,利用機(jī)器學(xué)習(xí)方法發(fā)現(xiàn)文本中比較重要的詞作為關(guān)鍵詞,進(jìn)行關(guān)鍵詞抽取。
2.關(guān)鍵短語識(shí)別
提取典型的、有代表性的短語可代表文本的關(guān)鍵內(nèi)容。先利用停用詞表生成候選詞,再計(jì)算各個(gè)候選詞和短語的得分,基于序列標(biāo)注模型的方法,轉(zhuǎn)換成核心成分識(shí)別問題。通過觀察到的文檔集合,基于按不同應(yīng)用場(chǎng)景的語料數(shù)據(jù)使用無監(jiān)督的聯(lián)通權(quán)重的圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法形成模型,利用所提的完整性篩選和排序函數(shù)對(duì)候選短語進(jìn)行篩選和排序,加入利用詞語在文章中首次出現(xiàn)的位置作為特征,分析當(dāng)前輸入數(shù)據(jù)的可表示主題的最佳短語。
3.熱詞關(guān)聯(lián)識(shí)別
基于歷史警情數(shù)據(jù)進(jìn)行語義分析,以30日為時(shí)間窗口,連續(xù)滾動(dòng)建立每周關(guān)鍵詞和停用詞庫,對(duì)獲取的實(shí)時(shí)文本內(nèi)容進(jìn)行自動(dòng)分詞,解決新詞和不規(guī)則詞在警情中口語化表達(dá)的問題。根據(jù)關(guān)鍵詞出現(xiàn)的頻率和時(shí)間遠(yuǎn)近程度計(jì)算其熱度值,之后依照該詞的熱度值,利用貝葉斯多維分類模型對(duì)比每周熱詞排行榜,獲得熱詞的關(guān)聯(lián)趨勢(shì)。
在實(shí)戰(zhàn)中通過真實(shí)數(shù)據(jù)對(duì)該模型進(jìn)行迭代驗(yàn)證和糾偏,其文本標(biāo)簽分類準(zhǔn)確率達(dá)95%,對(duì)地址、時(shí)間、名詞、單位名稱等實(shí)體識(shí)別準(zhǔn)確率達(dá)97%以上,為上層警情研判系統(tǒng)提供穩(wěn)定、可靠的多維數(shù)據(jù)分析服務(wù)。
本文將NLP技術(shù)運(yùn)用在公安研判分析工作中,根據(jù)業(yè)務(wù)實(shí)戰(zhàn)需求,構(gòu)建基于NLP的多維數(shù)據(jù)深度挖掘分析服務(wù),首次提出并定義了地址、時(shí)間、名詞、單位名稱等實(shí)體識(shí)別類服務(wù)接口,并在實(shí)戰(zhàn)中得到較好的驗(yàn)證結(jié)果。同時(shí),逐步建立了數(shù)據(jù)中關(guān)鍵信息要素標(biāo)簽體系,推動(dòng)NLP技術(shù)在公安實(shí)戰(zhàn)中的深度應(yīng)用,為偵查破案、維穩(wěn)處突、服務(wù)民生等工作提供強(qiáng)大的技術(shù)支撐,有效提升公安工作效能,不斷助力智慧警務(wù)建設(shè)。