• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于NLP的多維數(shù)據(jù)深度挖掘分析服務(wù)在公安行業(yè)的應(yīng)用

      2023-10-22 01:45:38王鑫公安部第一研究所
      警察技術(shù) 2023年5期
      關(guān)鍵詞:語義分類文本

      王鑫 公安部第一研究所

      引言

      隨著當(dāng)前社會(huì)動(dòng)態(tài)化、信息化的深入發(fā)展,社會(huì)形勢(shì)日益復(fù)雜,各種重大突發(fā)案事件時(shí)常發(fā)生,而公安機(jī)關(guān)的實(shí)戰(zhàn)警力不足、部門各自為戰(zhàn)、信息閉塞滯后等問題也日益突出,傳統(tǒng)的單打獨(dú)斗式警務(wù)模式已經(jīng)難以滿足各地公安保衛(wèi)政治安全、打擊違法犯罪、維護(hù)社會(huì)穩(wěn)定的實(shí)戰(zhàn)需求。作為社會(huì)治安“晴雨表”的警情數(shù)據(jù)明顯增多,積累了大量反應(yīng)社會(huì)治安情況的信息,亟需以科技信息化手段作為支撐,為合成作戰(zhàn)指揮提供有針對(duì)性和有效性的決策信息。本文基于NLP(Natural Language Processing)自然語言處理技術(shù),構(gòu)建多維數(shù)據(jù)深度挖掘分析服務(wù)在公安行業(yè)的應(yīng)用,實(shí)現(xiàn)自動(dòng)提取結(jié)構(gòu)化要素、挖掘海量數(shù)據(jù)潛在信息、多維度關(guān)聯(lián)分析等功能,推動(dòng)NLP技術(shù)與公安信息分析研判業(yè)務(wù)深度融合。

      一、業(yè)務(wù)需求

      國(guó)內(nèi)各級(jí)公安指揮中心目前已經(jīng)形成了長(zhǎng)期、廣泛和有價(jià)值的數(shù)據(jù)。隨著科學(xué)技術(shù)的發(fā)展,已經(jīng)開始對(duì)各類數(shù)據(jù)進(jìn)行整合和相應(yīng)的分析,但目前主要還是以數(shù)據(jù)的匯聚、類別、時(shí)間段等傳統(tǒng)方式進(jìn)行統(tǒng)計(jì)分析。為了深挖數(shù)據(jù)中關(guān)鍵的信息,建立多維數(shù)據(jù)深度挖掘分析服務(wù),將自然語言分析技術(shù)應(yīng)用于公安信息分析研判,并支撐合成作戰(zhàn)業(yè)務(wù)落地應(yīng)用,有效將公安業(yè)務(wù)工作與通用技術(shù)相結(jié)合的方式,將是未來發(fā)展趨勢(shì)。

      利用NLP技術(shù)對(duì)公安數(shù)據(jù)進(jìn)行深度挖掘和分析,主要滿足如下實(shí)戰(zhàn)需求:

      一是探索數(shù)據(jù)隱性關(guān)系,基于文本記錄信息,全量解析各類信息中實(shí)體和主題詞,發(fā)現(xiàn)不同信息間的人物關(guān)聯(lián)、地點(diǎn)管理、組織機(jī)構(gòu)關(guān)聯(lián)等隱性特點(diǎn),并與相關(guān)聯(lián)的應(yīng)急預(yù)案匹配。

      二是發(fā)現(xiàn)時(shí)間聯(lián)動(dòng)規(guī)律,提供時(shí)間維度的數(shù)據(jù)細(xì)節(jié)統(tǒng)計(jì),呈現(xiàn)按照年、月、日、時(shí)段等不同粒度時(shí)間周期上,全量數(shù)據(jù)的分布情況,提供按照關(guān)鍵字、主題詞、區(qū)域等維度的篩選。

      三是發(fā)現(xiàn)數(shù)據(jù)聚類特點(diǎn),針對(duì)不同分類的信息,以類型為單位探索挖掘此類數(shù)據(jù)在時(shí)間、地點(diǎn)、關(guān)鍵要素等方面的特征。

      二、構(gòu)建多維數(shù)據(jù)深度挖掘分析服務(wù)的重點(diǎn)內(nèi)容

      通過梳理公安信息分析研判業(yè)務(wù),基于NLP對(duì)數(shù)據(jù)進(jìn)行句法分析、中文自動(dòng)分詞、詞性標(biāo)注、文本分類、信息檢索、信息抽取等關(guān)鍵技術(shù),建立文檔語義向量化模型和分類語義模型。本文著重論述語義標(biāo)注訓(xùn)練方法管理、分析服務(wù)處理流程制定、語義關(guān)鍵詞自動(dòng)提取、分類模型訓(xùn)練等重點(diǎn)內(nèi)容,實(shí)現(xiàn)多維數(shù)據(jù)深度挖掘分析服務(wù)對(duì)海量數(shù)據(jù)快速、準(zhǔn)確的全量解析,確保對(duì)每一個(gè)事件進(jìn)行準(zhǔn)確、高效的指揮調(diào)度。

      (一)語義標(biāo)注訓(xùn)練方法

      為進(jìn)一步提高準(zhǔn)確度,除了對(duì)模型進(jìn)行調(diào)優(yōu)外,人工糾偏是一個(gè)重要的環(huán)節(jié)。通過數(shù)據(jù)信息標(biāo)注管理,監(jiān)督機(jī)器學(xué)習(xí),在人工干預(yù)下為機(jī)器提供樣本參考,樣本越準(zhǔn)確、越多,機(jī)器進(jìn)行學(xué)習(xí)后的效果就越好、準(zhǔn)確度更高。在人工進(jìn)行類別選擇糾偏標(biāo)注后,被糾偏事件進(jìn)入事件訓(xùn)練庫成為樣本,提升事件分類的準(zhǔn)確性。語義標(biāo)注管理需包括:

      (1)隨機(jī)聚類標(biāo)注管理:在所有的數(shù)據(jù)中隨機(jī)選取可用戶自定義數(shù)量條數(shù)提供給用戶,并提供與該事件信息相近的多個(gè)分類類別,用戶可以單一或者批量提交數(shù)據(jù)分類類別進(jìn)行糾偏標(biāo)注。

      (2)分類聯(lián)想標(biāo)注管理:通過分類類別進(jìn)行數(shù)據(jù)聯(lián)想聚類糾偏標(biāo)注。

      (3)反向剔除標(biāo)注管理:對(duì)數(shù)據(jù)的分類類別進(jìn)行反向選擇,通過反向選擇提高數(shù)據(jù)信息分類的準(zhǔn)確性。

      (二)NLP多維數(shù)據(jù)深度挖掘分析服務(wù)處理流程

      多維數(shù)據(jù)深度挖掘分析服務(wù)通過接口管理模塊實(shí)時(shí)接入各類信息,語義提取案事件要素信息、日期時(shí)間、地址信息等,同時(shí)智能匹配對(duì)應(yīng)預(yù)案,交由預(yù)案分類模型進(jìn)行案事件分類分級(jí)。

      NLP多維數(shù)據(jù)深度挖掘分析服務(wù)提供歷史數(shù)據(jù)查詢和日志查詢接口,通過數(shù)據(jù)分析管理、多維數(shù)據(jù)查詢管理模塊進(jìn)行可視化呈現(xiàn);對(duì)于新類型、未識(shí)別、識(shí)別不準(zhǔn)的數(shù)據(jù),通過語義標(biāo)注接口,作為優(yōu)化模型自學(xué)習(xí)的輸入,持續(xù)提升模型準(zhǔn)確性和完備性。

      (三)NLP數(shù)據(jù)語義關(guān)鍵詞提取與預(yù)案匹配原理

      首先對(duì)數(shù)據(jù)文本進(jìn)行關(guān)鍵詞語義提取,涉及到熱詞識(shí)別/文本聚類,命名實(shí)體識(shí)別(包括日期時(shí)間、地址)。

      其次根據(jù)數(shù)據(jù)信息分詞結(jié)果進(jìn)行特征語義提取,計(jì)算特征權(quán)重,輸入訓(xùn)練好的預(yù)案匹配分類器模型,選擇最高匹配度預(yù)案以及關(guān)聯(lián)預(yù)案。對(duì)于預(yù)案中涉及案事件定級(jí)的關(guān)鍵詞與數(shù)字,比如傷/亡人數(shù)、是否有外籍、事發(fā)區(qū)域、事發(fā)時(shí)間等,通過正則表達(dá)式技術(shù)進(jìn)行規(guī)則語義提取,使用決策樹模型對(duì)案件進(jìn)行定級(jí)。

      (四)案事件處置預(yù)案分類模型訓(xùn)練

      為實(shí)現(xiàn)案事件處置預(yù)案精準(zhǔn)匹配,利用機(jī)器學(xué)習(xí)技術(shù),對(duì)預(yù)案中關(guān)鍵名詞、數(shù)字、規(guī)則進(jìn)行標(biāo)注,制定標(biāo)簽?zāi)0澹斎胗?xùn)練文本進(jìn)行分詞,自行標(biāo)注或基于規(guī)則的自動(dòng)標(biāo)注。完成數(shù)據(jù)準(zhǔn)備后進(jìn)行特征提取,輸出特征權(quán)重,通過權(quán)重與標(biāo)簽?zāi)0宓倪\(yùn)算,調(diào)整分類器的參數(shù),形成案事件處置預(yù)案分類模型。

      三、多維數(shù)據(jù)深度挖掘分析服務(wù)在公安行業(yè)的應(yīng)用

      通過構(gòu)建多維數(shù)據(jù)深度挖掘分析服務(wù),對(duì)多年的警情歷史數(shù)據(jù)進(jìn)行訓(xùn)練,并在某地市級(jí)公安機(jī)關(guān)成功應(yīng)用。

      (一)文本檢測(cè)類服務(wù)接口

      1.文本多標(biāo)簽分類

      將文本輸入機(jī)器學(xué)習(xí)流程之前,確保文本清洗和向量化步驟已經(jīng)完成,使用NaiveBayes分類器和支持向量機(jī)分類器來輔助完成分類任務(wù)。自動(dòng)甄別基于多個(gè)分類樹形成的訓(xùn)練語料,結(jié)合使用SVM、DT、Xgboost等算法,一條數(shù)據(jù)可能有多個(gè)標(biāo)簽,每個(gè)標(biāo)簽可能有兩個(gè)或者多個(gè)類別,對(duì)每一類警情訓(xùn)練一個(gè)文本分類模型。

      2.文本多級(jí)分類

      根據(jù)用戶歸類匯總形成的分類樹,系統(tǒng)利用訓(xùn)練警情數(shù)據(jù)在不同類別分支之間的關(guān)聯(lián)關(guān)系,拆分成特征工程和分類器兩部分,在訓(xùn)練和推理過程中feed模型需要的數(shù)據(jù),在學(xué)習(xí)層級(jí)信息的時(shí)候使用fine-tuning微調(diào)技術(shù),將上層標(biāo)簽信息微調(diào)的方式傳到下層標(biāo)簽的學(xué)習(xí)中。輸入沒有標(biāo)簽的新數(shù)據(jù)后,將新數(shù)據(jù)的每個(gè)特征與樣本集中數(shù)據(jù)對(duì)應(yīng)的特征進(jìn)行比較,然后算法提取樣本集中特征最相似數(shù)據(jù)(最近鄰)的分類標(biāo)簽,從而實(shí)現(xiàn)在分類預(yù)測(cè)結(jié)果結(jié)合輸出類別的路徑類別,例如預(yù)測(cè)類別為Y,如果C同時(shí)隸屬X類,則預(yù)測(cè)結(jié)果同時(shí)包括X類和Y類。

      (二)實(shí)體識(shí)別類服務(wù)接口

      1.地址詞識(shí)別

      訓(xùn)練地址識(shí)別語義模型,將識(shí)別粒度從“省市區(qū)街道地點(diǎn)”的5級(jí)體系擴(kuò)展到“省市區(qū)、商圈、街道、地點(diǎn)、樓層門牌號(hào)、方位距離”的8級(jí)體系,通過多子任務(wù)共同約束的方式,濾掉非法字符,根據(jù)分詞后的詞性得出概率以及詞典元數(shù)據(jù)對(duì)地址文本進(jìn)行地址切分。對(duì)切分結(jié)果進(jìn)行地址標(biāo)注,并獲得最優(yōu)的地址等級(jí)標(biāo)注序列。同時(shí)根據(jù)上下文校正標(biāo)注序列,并輸出最優(yōu)標(biāo)注結(jié)果。

      2.時(shí)間詞識(shí)別

      基于語義模型對(duì)輸入文本進(jìn)行語義分析識(shí)別技術(shù),從文本數(shù)據(jù)中析取帶有時(shí)間類語義的文本數(shù)據(jù),輔助識(shí)別各種時(shí)間表示格式,推斷不同場(chǎng)景下的時(shí)間語義詞匯。

      3.名詞識(shí)別

      名詞識(shí)別模塊包括分析主題模塊、關(guān)注詞匯模塊、分詞服務(wù)模塊、索引服務(wù)模塊以及名詞分析模塊。分析主題模塊,用于確定分析數(shù)據(jù)源、定義分析主題、定義分析字段的域以及定義每個(gè)域的數(shù)據(jù)類型,產(chǎn)生主題數(shù)據(jù)結(jié)構(gòu);關(guān)注詞匯模塊,用于確定需要關(guān)注的潛在名詞,形成關(guān)注詞匯表列;分詞服務(wù)模塊用于根據(jù)主題數(shù)據(jù)結(jié)構(gòu)語義提取相應(yīng)域中的數(shù)據(jù)信息,并根據(jù)關(guān)注詞匯表序列對(duì)數(shù)據(jù)信息進(jìn)行分詞,產(chǎn)生詞元序列;索引服務(wù)模塊中的索引關(guān)系生成單元用于記錄詞元序列中每個(gè)詞元在對(duì)應(yīng)域中的索引位置和記錄每個(gè)詞元對(duì)應(yīng)的數(shù)據(jù)信息,生成詞元索引文件;名詞分析模塊根據(jù)詞元索引文件生成名詞關(guān)聯(lián)信息,且根據(jù)每個(gè)詞元的協(xié)同概率生成置信度。

      4.單位名稱識(shí)別

      分類利用地域識(shí)別模型、行業(yè)特征詞識(shí)別模型以及CRF模型組合形成單位名稱識(shí)別模型,提供單位名稱識(shí)別接口服務(wù)。

      5.實(shí)體詞使用分析

      對(duì)臨時(shí)提供的實(shí)體詞進(jìn)行使用次數(shù)統(tǒng)計(jì),根據(jù)使用或出現(xiàn)頻次變化對(duì)實(shí)體詞的數(shù)量進(jìn)行管理,統(tǒng)計(jì)分析不同實(shí)體詞在不同數(shù)據(jù)分類的應(yīng)用場(chǎng)景下的適配性,避免無效數(shù)據(jù)對(duì)系統(tǒng)性能造成負(fù)面影響。

      (三)趨勢(shì)分析類服務(wù)接口

      1.關(guān)鍵詞識(shí)別

      本服務(wù)采用三種識(shí)別模型:

      有監(jiān)督模型:作為二分類問題進(jìn)行處理,判斷文檔中的詞和短語,提供已經(jīng)標(biāo)注好的訓(xùn)練語料,利用歷史語料訓(xùn)練關(guān)鍵詞語義提取模型,對(duì)文檔進(jìn)行關(guān)鍵詞抽取。

      半監(jiān)督模型:只需要少量的訓(xùn)練數(shù)據(jù)構(gòu)建關(guān)鍵詞抽取模型,然后使用模型對(duì)新的文本進(jìn)行關(guān)鍵詞語義提取,對(duì)于這些關(guān)鍵詞進(jìn)行人工過濾,將過濾得到的關(guān)鍵詞加入訓(xùn)練集,重新訓(xùn)練模型。

      無監(jiān)督模型:不需要人工標(biāo)注的語料,利用機(jī)器學(xué)習(xí)方法發(fā)現(xiàn)文本中比較重要的詞作為關(guān)鍵詞,進(jìn)行關(guān)鍵詞抽取。

      2.關(guān)鍵短語識(shí)別

      提取典型的、有代表性的短語可代表文本的關(guān)鍵內(nèi)容。先利用停用詞表生成候選詞,再計(jì)算各個(gè)候選詞和短語的得分,基于序列標(biāo)注模型的方法,轉(zhuǎn)換成核心成分識(shí)別問題。通過觀察到的文檔集合,基于按不同應(yīng)用場(chǎng)景的語料數(shù)據(jù)使用無監(jiān)督的聯(lián)通權(quán)重的圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法形成模型,利用所提的完整性篩選和排序函數(shù)對(duì)候選短語進(jìn)行篩選和排序,加入利用詞語在文章中首次出現(xiàn)的位置作為特征,分析當(dāng)前輸入數(shù)據(jù)的可表示主題的最佳短語。

      3.熱詞關(guān)聯(lián)識(shí)別

      基于歷史警情數(shù)據(jù)進(jìn)行語義分析,以30日為時(shí)間窗口,連續(xù)滾動(dòng)建立每周關(guān)鍵詞和停用詞庫,對(duì)獲取的實(shí)時(shí)文本內(nèi)容進(jìn)行自動(dòng)分詞,解決新詞和不規(guī)則詞在警情中口語化表達(dá)的問題。根據(jù)關(guān)鍵詞出現(xiàn)的頻率和時(shí)間遠(yuǎn)近程度計(jì)算其熱度值,之后依照該詞的熱度值,利用貝葉斯多維分類模型對(duì)比每周熱詞排行榜,獲得熱詞的關(guān)聯(lián)趨勢(shì)。

      在實(shí)戰(zhàn)中通過真實(shí)數(shù)據(jù)對(duì)該模型進(jìn)行迭代驗(yàn)證和糾偏,其文本標(biāo)簽分類準(zhǔn)確率達(dá)95%,對(duì)地址、時(shí)間、名詞、單位名稱等實(shí)體識(shí)別準(zhǔn)確率達(dá)97%以上,為上層警情研判系統(tǒng)提供穩(wěn)定、可靠的多維數(shù)據(jù)分析服務(wù)。

      四、結(jié)語

      本文將NLP技術(shù)運(yùn)用在公安研判分析工作中,根據(jù)業(yè)務(wù)實(shí)戰(zhàn)需求,構(gòu)建基于NLP的多維數(shù)據(jù)深度挖掘分析服務(wù),首次提出并定義了地址、時(shí)間、名詞、單位名稱等實(shí)體識(shí)別類服務(wù)接口,并在實(shí)戰(zhàn)中得到較好的驗(yàn)證結(jié)果。同時(shí),逐步建立了數(shù)據(jù)中關(guān)鍵信息要素標(biāo)簽體系,推動(dòng)NLP技術(shù)在公安實(shí)戰(zhàn)中的深度應(yīng)用,為偵查破案、維穩(wěn)處突、服務(wù)民生等工作提供強(qiáng)大的技術(shù)支撐,有效提升公安工作效能,不斷助力智慧警務(wù)建設(shè)。

      猜你喜歡
      語義分類文本
      分類算一算
      語言與語義
      在808DA上文本顯示的改善
      分類討論求坐標(biāo)
      基于doc2vec和TF-IDF的相似文本識(shí)別
      電子制作(2018年18期)2018-11-14 01:48:06
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      認(rèn)知范疇模糊與語義模糊
      沙坪坝区| 荔波县| 丘北县| 定陶县| 博爱县| 木兰县| 天台县| 长沙市| 龙井市| 德昌县| 康乐县| 合水县| 岳普湖县| 玉田县| 雷波县| 武义县| 阿合奇县| 仁布县| 南皮县| 喜德县| 盐城市| 永清县| 七台河市| 东乡| 原阳县| 工布江达县| 镇坪县| 时尚| 陈巴尔虎旗| 民县| 孝感市| 墨江| 革吉县| 南和县| 招远市| 建阳市| 惠水县| 临海市| 福州市| 炎陵县| 缙云县|