• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多模型融合的警情要素提取

      2022-04-24 03:21:00龔艷汪玉梁昌明黃林鈺樂漢徐圣嬰王本強(qiáng)
      軟件導(dǎo)刊 2022年4期
      關(guān)鍵詞:特征函數(shù)警情模式識別

      龔艷,汪玉,梁昌明,黃林鈺,樂漢,徐圣嬰,王本強(qiáng)

      (1.上海市公安局科技處,上海 200042;2.上海德拓信息技術(shù)股份有限公司,上海 200030)

      0 引言

      命名實體識別(Named Entity Recognition,NER)又稱為要素提取,是指識別文本中具有特定意義的實體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等,簡而言之就是識別自然文本中實體指稱的邊界和類別,在自動文本摘要、機(jī)器翻譯、信息檢索、問題回答等不同自然語言的應(yīng)用中具有至關(guān)重要的作用。

      目前,公安系統(tǒng)已經(jīng)初步建立了能覆蓋業(yè)務(wù)場景和滿足使用需求的應(yīng)用系統(tǒng)體系,并在實際使用過程中積累了大量案件數(shù)據(jù)。這些數(shù)據(jù)和現(xiàn)有公安數(shù)據(jù)、社會數(shù)據(jù)在公安日常工作中起著至關(guān)重要的作用,如在警情統(tǒng)計分析中需進(jìn)行同時間、同地點等更細(xì)膩的要素統(tǒng)計分析;分析同一案件人員的串聯(lián)關(guān)系,用于警情串并案;對于重點人員、重點車輛等要素進(jìn)行預(yù)警分析等。因此,隨著各類警務(wù)活動的深入開展,建立一個高精度、高覆蓋率的警情要素提取模型迫在眉睫。

      1 相關(guān)研究

      近年來,神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)機(jī)器學(xué)習(xí)相結(jié)合的方法在端到端NER系統(tǒng)中的應(yīng)用越來越廣泛。例如,文獻(xiàn)[5]提出基于詞向量+條件隨機(jī)場(Conditional Random Fields,CRF)的NER方法;文獻(xiàn)[6-7]提出基于雙向長短時記憶神經(jīng)網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,BiLSTM)+卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的實體提取模型;文獻(xiàn)[8-9]提出基于BiLSTM+CRF的NER方法;文獻(xiàn)[10]提出基于BiLSTM+CNN+CRF的序列標(biāo)注方法。然而,但上述方法均存在未引入預(yù)訓(xùn)練知識且抽取內(nèi)容單一等問題。

      為此,本文提出多模型融合警情要素提取方法,主要由兩部分組成。對于人名、地名、機(jī)構(gòu)名等無明顯規(guī)律的要 素,采 用BERT(Bidirectional Encoder Representations from Transformers)+BiLSTM+CRF方法。該法相較傳統(tǒng)深度學(xué)習(xí)方法提取的上下文語義信息更加豐富準(zhǔn)確,同時很好地解決了一詞多義的問題;對于時間、車牌號等具有一定規(guī)律的數(shù)據(jù),采用模式識別方法搜集要素規(guī)律,制定相關(guān)規(guī)則,抽取出符合該規(guī)則的要素類型。最后結(jié)合兩種方法,抽取出人名、地點、機(jī)構(gòu)名、丟失物品、金額、身份證號、手機(jī)號、銀行卡號、時間、IMEI、MAC、車牌號、性別、文化程度、血型、民族16種要素,以滿足實際業(yè)務(wù)需求。

      2 算法簡介

      2.1 BERT+BiLSTM+CRF

      采用BERT+BiLSTM+CRF模型對人名、地點、機(jī)構(gòu)名、丟失物品、金額5類要素進(jìn)行抽取,該模型由BERT字向量表征層、BiLSTM雙向編碼層、CRF解碼層組成。首先采用BERT對文本中的每個字進(jìn)行向量表征,利用上下文信息使每個字不僅包含其本身的語義信息,還能包含上下文的語義信息;然后通過BiLSTM進(jìn)行更深層次的編碼;最后利用CRF進(jìn)行解碼及序列標(biāo)注,從而得到每個字所對應(yīng)的類別。

      BERT+BiLSTM+CRF模型架構(gòu)如圖1所示,其中

      Text

      為輸入文本,每個字映射為

      Tok

      1、

      Tok

      2…

      TokN

      對應(yīng)數(shù)字。利用BERT層將數(shù)字映射為對應(yīng)的字向量

      E

      、

      E

      E

      ,融合句子上下文信息,將字向量表征為

      T

      、

      T

      T

      ;然后利用BiLSTM層進(jìn)一步學(xué)習(xí)句子的序列信息,得到

      P

      P

      P

      ;最后利用CRF進(jìn)行解碼,得到每個字所對應(yīng)的類別

      Tag

      、

      Tag

      Tag

      。

      2.1.1 BERT預(yù)訓(xùn)練語言模型

      近年來,預(yù)訓(xùn)練語言模型逐漸成為自然語言處理領(lǐng)域的一大熱點,被廣泛應(yīng)用于自然語言推理、命名實體識別、知識問答等領(lǐng)域。傳統(tǒng)語言模型僅從統(tǒng)計的角度考慮,沒有考慮上下文信息,難以解決一詞多義問題。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,近年來出現(xiàn)了ELMO(Embedding from Language Models)、GPT(Improving Language Understanding by Generative Pre-Training)等優(yōu)秀的語言模型,均取得了不錯效果。Devlin等提出的BERT預(yù)訓(xùn)練語言模型更是一舉拿下自然語言處理領(lǐng)域的14個冠軍,成為近年來領(lǐng)先的預(yù)訓(xùn)練語言模型。

      Fig.1 Structure of BERT+BiLSTM+CRF model圖1 BERT+BiLSTM+CRF模型架構(gòu)

      采用BERT模型作為字向量表征層,結(jié)構(gòu)如圖2所示。其中,

      P

      、

      P

      ……

      P

      為位置編碼,用于存儲每個字對應(yīng)的位置信息;

      E

      為句子編碼,用于區(qū)分上下句;

      t

      、

      t

      ……

      t

      為字向量,用于儲存字信息;加入特殊符號[CLS],用于后續(xù)分類任務(wù)。將3個部分的信息相加融合形成

      E

      、

      E

      ……

      E

      ,作為輸入向量,再經(jīng)過BERT模型將字向量表征為

      T

      、

      T

      ……

      T

      。

      Fig.2 Structure of BERT model圖2 BERT模型結(jié)構(gòu)

      BERT的特征提取采用Transformer(Attention is All You Need)的編碼部分,該部分由多個編碼層(Encoder)堆疊而成。每個編碼層由自注意力機(jī)制(Self-attention)和前饋神經(jīng)網(wǎng)絡(luò)(Feed-forward)兩部分構(gòu)成,結(jié)構(gòu)如圖3所示。

      編碼層中的主要部分為Self-attention層,具體結(jié)構(gòu)如圖4所示。每個字都有Q(Query)、K(Key)、V(Value)3個向量,分別由其對應(yīng)的字向量與

      w

      、

      w

      、

      w

      3個矩陣相乘得到,表示為:

      Fig.3 Structure of Encoder in the Transformer圖3 Transformer中的Encoder結(jié)構(gòu)

      式中,

      x

      為每個字經(jīng)過映射對應(yīng)的字向量,維度為512×768;

      w

      w

      、

      w

      為初始化后的學(xué)習(xí)矩陣,維度為768×64。

      Fig.4 Structure of self-attention圖4 Self-attention結(jié)構(gòu)

      在自編碼中,單個詞的Attention值計算結(jié)果如圖4中公式所示。采用字a對應(yīng)的

      K

      向量與字a所對應(yīng)的

      Q

      向量點乘,產(chǎn)生對應(yīng)的score值,再利用Softmax對score進(jìn)行歸一化,表示為:

      此外,為提取更深層的語義信息,Transformer中使用了多頭注意力機(jī)制(Multi-Headed-Attention),即重復(fù)式(4)、式(5)計算,再將結(jié)果進(jìn)行拼接,表示為:

      式中,

      t

      為Multi-Headed個數(shù)。

      為防止模型退化,Transformer中借鑒了殘差結(jié)構(gòu),將上一層參數(shù)與這一層參數(shù)相加融合。同時,為加速模型的學(xué)習(xí)速度,引入批歸一化(Normalize)方法,將參數(shù)縮放至類正態(tài)分布。

      2.1.2 BiLSTM層

      采用長短時記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)層進(jìn)行更深層次的編碼。LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種,由于其能夠儲存序列信息,在序列標(biāo)注任務(wù)中應(yīng)用廣泛。LSTM的結(jié)構(gòu)如圖5所示。

      Fig.5 Structure of LSTM algorithm圖5 LSTM結(jié)構(gòu)

      LSTM主要由遺忘門、學(xué)習(xí)門、記憶門和使用門組成,同時利用長時記憶C和短時記憶h作為記憶單元。對于第

      t

      個輸入來說,

      h

      、

      C

      的更新方式為:

      τ

      為tanh激活函數(shù),用于擬合模型非線性能力,表示為:

      為緩解LSTM產(chǎn)生的長時依賴問題,本文模型采用雙向LSTM模型BiLSTM,即正向逆向各進(jìn)行一次LSTM,再將兩者信息進(jìn)行拼接融合。

      2.1.3 CRF層

      CRF是經(jīng)典無向圖之一,其核心思想為給定一組輸入序列條件下另一組輸出序列的條件概率分布模型,最常見的形式為線性鏈(Linear Chain),結(jié)構(gòu)如圖6所示。該模型假設(shè)馬爾可夫隨機(jī)場中只有X和Y兩個變量,X一般是給定的,而Y是X給定條件下模型的輸出。

      在線性CRF中,特征函數(shù)分為兩類:第一類是定義在Y節(jié)點上的節(jié)點特征函數(shù),該函數(shù)只與當(dāng)前節(jié)點有關(guān),表示為:

      第二類是定義在Y上下文的局部特征函數(shù),該函數(shù)只與當(dāng)前節(jié)點的上一個節(jié)點有關(guān),表示為:

      Fig.6 Structureof CRF圖6 CRF結(jié)構(gòu)

      無論是節(jié)點特征函數(shù)還是局部特征函數(shù),它們的取值只能是0或1,分別表示滿足特征條件或不滿足特征條件。此外,可以為每個特征函數(shù)賦予一個權(quán)值,用于表達(dá)對該特征函數(shù)的信任度,從而得到線性CRF的參數(shù)化形式:

      以上公式中涉及的參數(shù)均采用梯度下降法求解。為減少計算量,采用維特比算法求得局部最優(yōu)解。

      2.2 模式識別

      采用模式識別方式抽取身份證號、手機(jī)號、銀行卡號、時間、IMEI、MAC、車牌號、性別、文化程度、血型、民族11種要素。模式識別的原理是通過搜集要素規(guī)律制定相關(guān)規(guī)則,抽取出符合該規(guī)則的要素類型。例如,身份證號的固定長度為18位,由地址碼、出生日期碼、順序碼和校驗碼組成,其中前6位為地址碼,第7-14位為出生日期碼,第15-17位為順序碼,第18位為校驗碼。再如關(guān)于時間的規(guī)律比較雜亂且多,分為5個部分進(jìn)行分析:①標(biāo)準(zhǔn)時間,如2020-11-11 23:59:59、2020/11/11;②數(shù)字中文混合,如2020年十一月11日;③年、月、周、天,如上周日、周日下午、明天、上月末、去年十月一號;④節(jié)日,如端午節(jié)、圣誕節(jié)、春節(jié);⑤時間段,如近3天、10月11日到11月11日。

      3 實驗方法與結(jié)果分析

      3.1 模型參數(shù)設(shè)置

      遵循BERT+BiLSTM+CRF模型訓(xùn)練規(guī)則,數(shù)據(jù)采用BIOES編碼方式,其中B代表每個類別的起始字,I代表中間字,E代表結(jié)束字,S代表單個字,O代表無關(guān)字。

      BERT層采用Google中文預(yù)訓(xùn)練語言模型參數(shù)作為初始參數(shù),并在此基礎(chǔ)上進(jìn)行微調(diào)(Fine-tuning)。模型包含12個Encoder層,每個隱藏層有768個參數(shù),12個Multi-Headed;BiLSTM層中,神經(jīng)元個數(shù)為256,向上堆疊2層;CRF層中輸出21個類別。

      選取Adam優(yōu)化器,訓(xùn)練30批次,每個批次大小為256,初始學(xué)習(xí)率為1×10,并在每個Epoch結(jié)束后衰減5%。同時,為了防止過擬合,在訓(xùn)練過程中隨機(jī)丟棄10%的參數(shù)。

      3.2 評估標(biāo)準(zhǔn)

      模型采取精確率(Precision)、召回率(Recall)、F1值作為評估標(biāo)準(zhǔn)。

      精確率用于評估抽取出來要素的準(zhǔn)確性,表示為:

      召回率用于評估要素抽取的全面性,表示為:

      F1用于評估模型整體效果,表示為:

      3.3 數(shù)據(jù)集

      本文使用的數(shù)據(jù)集由8萬篇警情構(gòu)成,警情字?jǐn)?shù)范圍為50~100個。為保證測試公平性,采用十折交叉法驗證。識別實體包括人名、地名、機(jī)構(gòu)名、丟失物品、金額、身份證號、手機(jī)號、銀行卡號、時間、IMEI、MAC、車牌號、性別、文化程度、血型、民族。

      3.4 結(jié)果分析

      對人名、地名、機(jī)構(gòu)名、丟失物品、金額進(jìn)行命名實體識別,比較Word2vec+CRF、BiLSTM、BiLSTM+CRF、BiLSTM+CNN+CRF、BERT+BiLSTM+CRF模型的性能,結(jié)果見表1??梢钥闯?,BERT+BiLSTM+CRF在精確率、召回率、F1值上均比其他模型提升3%以上。

      Table1 Results of named entity recognition of each model表1 命名實體識別效果比較 (%)

      比較各批次下BERT+BiLSTM+CRF模型在測試集中的性能(見表2),1個批次時,測試集的F1值即達(dá)到94.0%,在20個批次左右F1值達(dá)到95.2%,后續(xù)訓(xùn)練無明顯提升。

      Table2 Effect of BERT+BiLSTM+CRF model in different batches of test dataset表2 BERT+BiLSTM+CRF模型在不同批次下的測試集效果(%)

      30個訓(xùn)練批次完成后,BERT+BiLSTM+CRF模型對各個實體的抽取效果見表3。對于人名、地名、機(jī)構(gòu)名、金額的抽取,F(xiàn)1值均能達(dá)到95%以上;丟失物品的不規(guī)律性過強(qiáng),很多描述模棱兩可,對模型理解造成較大干擾,導(dǎo)致其F1值僅在78%左右。

      比較模式識別模型對不同實體的抽取效果(見表4),發(fā)現(xiàn)除時間外,其余要素召回率均超過95%,F(xiàn)1值均超過93%。

      Table3 Effect of BERT+BiLSTM+CRF model in different entities表3 BERT+BiLSTM+CRF模型對不同實體的抽取效果 (%)

      Table4 Effect of pattern recognition model in different entities表4 模式識別模型對不同實體的抽取效果 (%)

      比較模式識別和表1中5種深度學(xué)習(xí)方法對身份證號、手機(jī)號、銀行卡號、時間、IMEI、MAC、車牌號、性別、文化程度、血型、民族要素的抽取效果(見表5),可以看出,模式識別的評價指標(biāo)相較其他方法均提升超過1%。

      Table5 Results comparison of named entity recognition based on pattern recognition and deep learning methods表5 模式識別與深度學(xué)習(xí)方法效果比較 (%)

      4 結(jié)語

      基于多模型融合的要素提取方法旨在解決警情中日益增長的不同種類要素提取需求,為此,本文建立了抽取詞義關(guān)鍵信息的BERT+BiLSTM+CRF模型,以及抽取符合一定規(guī)則要素的模式識別模型。實驗結(jié)果表明,該模型具有較高的準(zhǔn)確率,且能夠滿足不同種類的要素提取需求。后續(xù)計劃將BERT+BiLSTM+CRF模型與模式識別模型融合起來,形成端到端的一體化模型,并繼續(xù)探索新類型的警情要素提取方法。

      猜你喜歡
      特征函數(shù)警情模式識別
      亞純函數(shù)的Borel方向與Tsuji特征函數(shù)
      隨機(jī)變量的特征函數(shù)在概率論中的應(yīng)用
      特征函數(shù)的性質(zhì)在實變函數(shù)中的應(yīng)用
      特征函數(shù)在伽瑪分布中一個恒等式的證明及推廣
      不能吃的餃子
      派出所工作(2017年9期)2017-05-30 10:48:04
      “霉神”彥哥
      派出所工作(2017年9期)2017-05-30 10:48:04
      警情多,賴別人的嘴?
      派出所工作(2017年9期)2017-05-30 10:48:04
      淺談模式識別在圖像識別中的應(yīng)用
      電子測試(2017年23期)2017-04-04 05:06:50
      第四屆亞洲模式識別會議
      第3屆亞洲模式識別會議
      郧西县| 林口县| 河曲县| 镇远县| 成都市| 宜川县| 武川县| 卓尼县| 兴仁县| 汝南县| 房产| 瓦房店市| 临沭县| 沙雅县| 张家川| 清原| 呼玛县| 印江| 顺昌县| 松溪县| 黄龙县| 贵定县| 安化县| 江源县| 萨嘎县| 通榆县| 浦北县| 广元市| 罗源县| 台安县| 右玉县| 广州市| 丽水市| 桦南县| 普兰店市| 霍林郭勒市| 札达县| 同心县| 诸城市| 农安县| 交城县|