• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合attention機制的BI-LSTM-CRF中文分詞模型

      2018-11-17 01:03:00黃丹丹郭玉翠
      軟件 2018年10期
      關鍵詞:分詞標簽向量

      黃丹丹,郭玉翠

      ?

      融合attention機制的BI-LSTM-CRF中文分詞模型

      黃丹丹,郭玉翠

      (北京郵電大學理學院 北京 100876)

      中文的詞語不同于英文單詞,沒有空格作為自然分界符,因此,為了使機器能夠識別中文的詞語需要進行分詞操作。深度學習在中文分詞任務上的研究與應用已經有了一些突破性成果,本文在已有工作的基礎上,提出融合 Bi-LSTM-CRF模型與attention機制的方法,并且引入去噪機制對字向量表示進行過濾,此外為改進單向LSTM對后文依賴性不足的缺點引入了貢獻率對BI-LSTM的輸出權重矩陣進行調節(jié),以提升分詞效果。使用改進后的模型對一些公開數據集進行了實驗。實驗結果表明,改進的attention-BI-LSTM-CRF模型以及訓練方法可以有效地解決中文自然語言處理中的分詞、詞性標注等問題,并較以前的模型有更優(yōu)秀的性能。

      中文分詞;BI-LSTM;CRF;attention機制;貢獻因子;去噪機制;Dropout

      0 引言

      隨著人工智能在越來越多領域的突破,基于深度學習的自然語言處理這一重要領域已經引起了眾多研究者的關注。分詞、詞性標注作為中文自然語言處理中最重要的基礎工作之一,已經取得了一些成果。本文在已有結果的基礎上深入研究深度學習在中文分詞中的應用。分詞是指將未加工的自然語言文本分割成單詞的順序。在英語中,單詞之間以空格作為的自然分隔符,但在中文中漢字之間沒有明顯區(qū)分。因此需要將中文文本序列進行分割,使之轉變成單詞序列,以便后續(xù)的中文信息處理。

      從機器學習角度來看,分詞任務可轉化成序列標注任務(或者分類任務)。序列標注任務指將觀察序列中的每個元素在固定標簽集合中為之賦予一個指定標簽的過程(分類的過程)。目前,常用的解決序列標記任務的模型有隱馬爾可夫模型[1]、條件隨機場模型[2,3]和最大熵模型[4]。然而,這些傳統(tǒng)的模型需要使用大量的語言學知識來手工構造特征,因此不具有廣泛的適用性。深度學習有效利用無監(jiān)督數據,避免繁瑣的人工特征提取,從而具有良好的泛化能力。它通過對數據的多層次建模從而得到數據特征的層次結構以及數據的分布式表示。

      深度學習用來解決自然語言處理領域的一些難題。語言的高維特性導致了傳統(tǒng)的自然語言處理系統(tǒng)需要復雜的語言知識以便手動構造分類器所能使用的特征。深度學習的方法有以下優(yōu)點:(1)通過構建模型,可以自動學習自然語言處理領域中解決問題所需要的特征。Collobert等[5]就是利用該特性,拋棄傳統(tǒng)的手工提取特征方式,解決了英文序列標注問題。(2)在自然語言處理領域,獲得標記數據相對于獲得大量的無標記數據成本較大,深入學習可以使用大量的無標記數據來獲取特征。(3)自然語言處理領域中的許多問題是密切相關的,如分詞、詞性標注和命名實體識別等。傳統(tǒng)的方法往往單獨解決這些問題,而忽略了它們之間的關系。使用深度學習,您可以在特征提取級別構建統(tǒng)一模型以同時處理這些問題,并使用多任務學習方法在模型中建模其相關性以獲得更好的性能。Zheng等[6]利用SENNA系統(tǒng)將神經網絡運用到中文分詞任務上,并提出一個感知器算法加速整個訓練過程。Chen等[7,8]在GRNN模型基礎上提出了LSTM(long short-term memory)模型進行中文分詞任務,取得了很好的效果。之后,Yao等人[9]在LSTM 模型的基礎上提出了BI-LSTM模型,更進一步提高了中文分詞的準確度。

      本文在適合于中文自然語言處理的雙向長短期記憶條件隨機場模型(BI-LISTM-CRF)基礎上,進行了以下改進:(1)提出一種去噪機制,對字向量表示進行調整,使得固定窗口內的字嵌入以一定概率出現,不再依賴于左右聯合字嵌入的共同作用;(2)引入了貢獻因子對前傳LSTM層和后傳LSTM 層的權重矩陣進行調節(jié)以改進單向LSTM對后文依賴性不足的缺點;(3)在BI-LSTM-CRF中文分詞模型中融合attention機制,通過注意機制計算Bi-LSTM模型的輸入和輸出之間的相關性的重要性,并根據重要性程度獲得文本的整體特征。利用改進的attention-BI-LSTM-CRF模型,在MSRA corpus、PKU corpus和人民日報2014公開數據集上進行了實驗。實驗結果表明,使用本文改進的模型以及訓練方法可以有效地進行中文自然語言處理中的分詞問題,并提高了精度。

      1 模型建立

      本文采用圖1所示的attention-BI-LSTM-CRF中文分詞模型來進行中文分詞處理。自底向上: (1)將待分詞的文本序列進行文本向量化,將文本中的每一個字映射成一個固定長度的短向量,以作為當前字的特征向量表示;(2)基于去噪機制對輸入的信息進行過濾調整;(3)利用 BI-LSTM 獲取每個詞長距離的上下文特征;(4)引入attention模型對BI-LSTM層的輸入與輸出之間的相關性進行重要度計算,根據重要度獲取文本整體特征; (5)最后CRF層考慮單詞標簽之間的制約關系,加入標簽轉移概率矩陣,給出全局最優(yōu)標注序列。

      圖1 Attention-BILSTM-CRF中文分詞模型

      1.1 LSTM和BI-LSTM

      圖2 RNN神經網絡結構

      RNN理論上可以學習長期的依賴關系,但在實際情況中并不是如此,它們更傾向于最近的輸入序列。這是由于傳統(tǒng)的RNN在進行幾次鏈式法則求導后梯度會指數級縮小,導致傳播幾層后出現梯度消失,無法處理“長期依賴”問題。因此,出現了一種RNN的變體即LSTM。LSTM的設計旨在通過整合一個存儲單元來解決這個問題,并被證明可以捕獲遠距離依賴。他們使用幾個門來控制輸入給存儲單元的比例,以及從以前的狀態(tài)中忘記的比例[12]。

      LSTM的結構與RNN一致,唯一的不同在于其中間的神經網絡模塊A。該模塊結構如圖3所示。

      圖3 LSTM神經網絡模塊結構

      圖4 BILSTM+CRF模型

      1.2 標簽得分計算

      中文分詞問題可以轉換為字符序列的字符標簽分類問題。1.1節(jié)中BI-LSTM神經網絡的中文分詞模型的輸出即為字符序列中每一個字符的標簽得分。文中采用BMES標注方法對分詞語料庫文本進行標注,即每個字符用{B,M,E,S}來分別表示字符在詞中的開始位置、中間位置、結束位置以及單個字為一個獨立詞。比如文本序列‘我們都是共產主義接班人’用{B,M,E,S}來分割后為‘我/B 們/E 都/B 是/E 共/B 產/M 主/M 義/E接/B 班/M 人/E’。

      1.3 CRF標注模型

      一個簡單但效果顯著的有效標注模型叫條件隨機場(CRF)[13]。它根據給定的觀察序列來推測出對應的狀態(tài)序列,屬于一種條件概率模型。CRF由Lafferty 等人于2001年提出,它解決了隱馬爾可夫模型的輸出獨立性假設問題,也解決了最大熵模型在每一個節(jié)點歸一化導致只能找到局部最優(yōu)解和標記偏見問題,因此是比較好的命名實體識別模型。CRF的序列標注思想和BI-LSTM模型利用前后上下文特征的思想上有相向之處,在文獻[13]和文獻[9]中分別證明了該類模型性能相較于只考慮單方面影響的模型性能有更好的表現。

      CRF的工作原理如下:

      在所有可能的標簽序列上產生序列y的概率為:

      訓練期間,目標函數是最大化正確標簽序列的對數概率:

      其中Y代表句子X的所有可能的標簽序列。從上述公式可以看出,CRF是學習一個從觀察序列到標記序列的概率函數映射關系。我們鼓勵我們的網絡生成一個有效的輸出標簽序列。在預測過程(解碼)中,模型使用動態(tài)規(guī)劃的Viterbi算法來獲得最大分數的輸出序列:

      1.4 引入attention機制

      深度學習中的attention機制模擬人腦的注意力特點。Attention機制可以理解為總是將注意力放在更重要的信息上。Bahdanau等在論文[14]中第一次提出把attention機制應用到了神經網絡機器翻譯上。

      其中:

      在attention層之后用一個tanh層用來預測神經網絡輸出的標簽得分:

      Attention-BI-LSTM-CRF模型在BI-LSTM網絡與CRF標簽判別層中間添加attention層。我們將字嵌入序列作為輸入提供給BI-LSTM,通過BI-LSTM層結合了上下文的特征,輸出返回每個字的上下文的表示,并結合attention機制將更有效的信息輸入向CRF層,使用CRF來考慮相鄰標簽,從而得出每個字的最終預測結果。

      2 輸入字嵌入

      本節(jié)介紹輸入字嵌入,用特征向量表示序列文本作為BI-LSTM層的輸入:(1)將原始序列文本進行向量化,用一個固定長度的向量表示每一個字;(2)由于固定窗口大小帶來的上下文不確定性,引入去噪機制對特征向量進行調整;(3)最后使用dropout技巧防止訓練過程中的過擬合問題。

      2.1 文本向量化

      為了使機器能夠理解自然語言首先需要將自然語言符號數學化,即文本向量化。在深度學習中,將文本向量化的方式使采用分布式表示方法[15](又稱字嵌入)。該方法將詞用一種低維實數向量表示,這樣的表示既能夠使得上下文的詞之間的彼此聯系,又可以避免向量維度過大帶來的不必要的復雜度。

      具體地,在中文分詞任務中,我們建立一個大小為d×N的漢字字典矩陣D,其中d為字向量維度,N為字典大小。該字典包括我們可以處理的所有漢字以及其他字符(如數字、標點、未登錄字等)的替代符號。因此,我們用字典找到對應的字向量來代替每個字。研究表明,將大規(guī)模無監(jiān)督學習得到的字向量作為輸入矩陣的初始值要比隨機初始化得 來的字向量性能上表現更優(yōu)[16]。本文實驗中使用word2vec作為第一層,把輸入數據預先處理成字嵌入向量。

      2.2 輸入去噪

      本文對當前字設置了特征窗口,即利用固定上下文窗口內的字表示當前字。但是固定窗口內的字不一定每次都出現在一起,有的可能只出現少數次。因此,加入一個去噪層對固定窗口內的信息進行調整,使得固定窗口內的字嵌入以一定概率出現,不再依賴于固定窗口內左右詞的字向量的共同作用。

      首先,句中每個字的字向量表示作為去噪機制的輸入。然后該機制對輸入信息進行調整,之后BI- LSTM獲取每個詞長距離的上下文特征并由attention機制對BI-LSTM層的輸入與輸出之間的相關性進行重要度計算獲取文本整體特征,最后CRF層考慮單詞標簽之間的制約關系,加入標簽轉移概率矩陣,給出全局最優(yōu)標注序列。

      2.3 Dropout技巧

      為了防止模型訓練過程中的過擬合問題,本文采用了Dropout[17]技術。其主要思想是在模型訓練過程中,隨機移除一定比例p(Dropout比率)的神經元以及其對應的輸入輸出權重。我們將輸入attention- BI-LSTM-CRF模型的字嵌入向量使用Dropout方法以降低錯誤率,提升系統(tǒng)性能。

      3 實驗

      為了說明改進的模型的有效性,我們選擇常用的MSRA corpus、PKU corpus和人民日報2014作對比實驗。其中MSRA和PKU corpus是由國際中文分詞評測Bakeoff提供的封閉語料,包括簡體中文和繁體中文。

      實驗過程中為了公正的評估模型的分詞性能,我們采用了分詞常用的評價指標:準確率(P),召回率(R),綜合指標值(F1)。

      3.1 貢獻因子與去噪機制測試

      為驗證本文提出的貢獻因子和去噪機制是否會影響到實驗效果,我們選取1層BI-LSTM分詞模型,句子長度為80,在MSRA數據集上進行測試,測試結果如表1所示。

      表1 貢獻因子和去噪機制在MSRA 測試集上測試結果(F1值)

      Tab.1 Contribution factor and denoising mechanism test results on the MSRA test set (F1 value)

      表2<40時不同取值的貢獻因子測試結果

      Tab.2 Contributing factor test results with different values when t<40

      3.2 超參數配置

      對于本文改進的attention-BI-LSTM-CRF模型,我們使用反向傳播算法來訓練我們的網絡,設定初始學習率為0.01。本實驗采用word2vec方法對字向量進行訓練預處理。文中使用PKU數據集,基于BMES詞位標注方法,以BI-LSTM為模型,我們設定字嵌入向量長度為 100,dropout 大小為 0.3。實驗研究過程中,我們發(fā)現不斷增大的隱藏層單元數當達到一定值以后,對測試結果影響趨于穩(wěn)定。本文中改進的模型最終選取隱藏層的單元數為120。

      表3 超參數設置

      Tab.3 Hyperparameter setting

      3.3 實驗對比與分析

      我們測試BI-LSTM、BI-LSTM-CRF、和本文改進的attention-BI-LSTM-CRF這三個不同的模型分別在 PKU,MSRA和人民日報2014語料庫上分詞性能的表現。如表4所示,本文提出的attention-BI- LSTM-CRF模型相比較BI-LSTM和BI-LSTM-CRF 模型性能分別提升為0.6%、1.0%和0.6%,分詞效果更好。

      表5為本文訓練的attention-BI-LSTM-CRF模型與前人在分詞領域研究結果對比。其中Bakeoff-best 為2005年Bakeoff 測評最好結果;Chen-2015[7]他們在文本向量化過程中加入了雙字符嵌入向量,最佳水平如表5所示;Yao-2016在文獻[9]中疊加了 3層BI-LSTM 模型。本文中融合了attention機制與過濾機制以及引入了貢獻因子也取得了不錯的分詞效果,證明了 attention-BI-LSTM-CRF分詞模型的優(yōu)越性。

      表4 不同模型在PKU、MSRA、人民日報2014測試集上的實驗對比結果

      Tab.4 Experimental comparison results of different models on PKU, MSRA, People's Daily 2014 test set

      表5 在PKU、MSRA測試集上與前人模型的實驗結果對比

      Tab.5 Comparison of experimental results with predecessor models on PKU and MSRA test sets

      4 結語

      文中針對自然語言處理中的中文分詞任務,在BI-LSTM-CRF模型的基礎上提出一種改進的attention- BI-LSTM-CRF中文分詞模型。該模型融合attention機制方法,以計算BI-LSTM模型的輸入和輸出之間相關性的重要性,從而更好的獲得文本的整體特征。利用一種去噪機制,使得固定窗口內的字嵌入以一定概率出現,減少了左右聯合字嵌入的聯合作用。并且引入了貢獻因子以改進單向LSTM對后文依賴性不足的缺點。實驗表明, 在中文分詞任務中,相比較BI-LSTM模型和BI-LSTM-CRF模型,本文改進的attention-BI-LSTM-CRF模型在選取的測試集上分詞表現更加出色。

      [1] 李月倫, 常寶寶. 基于最大間隔馬爾可夫網模型的漢語分詞方法[J]. 中文信息學報, 2010, 24(1): 8-14.

      [2] Peng F, Feng F, Mccallum A. Chinese segmentation and new word detection using conditional random fields[C]. Proceedings of Coling, 2004: 562-568.

      [3] Tseng H, Chang P, Andrew G, et al. A conditional random field word segmenter for sighan bakeoff 2005[C]. Proc of the Fourth SIGHAN Workshop on Chinese Language Processing, 2005: 168-171.

      [4] Nianwen Xue. Chinese word segmentation as char- acter tagging[J]. Computational Linguistics and Chi- nese Language Processing, 2003, 8(1): 29-48.

      [5] Collobert R, Weston J, Bottou L. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011, 12(1): 2493-2537.

      [6] Zheng X, Chen H, Xu T. Deep learning for Chinese word segmentation and POS tagging[C]. Confer- ence on Empirical Methods in Natural Language Processing, 2013: 647-657.

      [7] Chen X, Qiu X, Zhu C, et al. Gated recursive neu- ral network for Chinese word segmentation[C]. Proc of Annual Meeting of the Association for Computational Linguistics, 2015: 1744-1753.

      [8] Chen X, Qiu X, Zhu C, et al. Long short-term memory neural networks for Chinese word seg- mentation[C]. Conference on Empirical Methods in Natural Language Processing, 2015: 1197-1206.

      [9] Yushi Yao, Zheng Huang. Bi-directional LSTM recurrent neural network for Chinese word segmen- tation[C]. InternationalConference on Neural In-formation Processing, 2016: 345-353.

      [10] Y. Bengio; P. Simard; P. Frasconi, Learning long-term dependencies with gradient descent is difficult. IEEE Transactions on Neural Networks, 2002, 5(2): 157-166.

      [11] 張玉環(huán), 錢江. 基于兩種 LSTM 結構的文本情感分析[J]. 軟件, 2018, 39(1): 116-120.

      [12] S Hochreiter, J Schmidhuber, LSTM can solve hard long time lag problems. International Conference on Neural Information, 1996, 9: 473-479.

      [13] Lafferty J D, Mccallum A, Pereira F C N. Conditional random fields: probabilistic models for seg- menting and labeling sequence data[C]. Proc of ICML, 2002, 3(2): 282-289.

      [14] Neural Machine Translation by Jointly Learning to Align and Translate. D Bahdanau, K Cho, Y Bengio - arXiv preprint arXiv: 1409. 0473, 2014.

      [15] Hinton G E. Learning distributed representations of concepts[C]//Proceedings of the eighth annual conference of the cognitive science society. 1986: 1-12.

      [16] Mulder W D, Bethard SMoens M F. A Survey on the application of recurrent neural networks to statistical language modelingJ. Computer Speech &Language, 2014, 30(1): 61-98.

      [17] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958.

      BI-LSTM-CRF Chinese Word Segmentation Model with Attention Mechanism

      HUANG Dan-dan, GUO Yu-cui

      (School of Science, Beijing University of Posts and Telecommunications, Beijing 100876, China)

      In English words, spaces are used as natural delimiters between words, and there are no such clear delimiters between Chinese words. Therefore, deep learning models and methods that obtain good results in English natural language processing cannot be directly applied. Deep learning has achieved breakthrough results in the field of natural language processing in English. Based on the existing work, this paper proposes a method to integrate the Bi-LSTM-CRF model and the attention mechanism, and introduces a denoising mechanism to filter the word vector representation.In addition, the contribution rateof the unidirectional LSTM is reduced. The output weight matrix of the BI-LSTM is adjusted to improve the word segmentation effect. We conducted experiments using the public data set in the above model. Experimental results show that the improved attention-BI-LSTM-CRF model and training method can effectively solve the problem of word segmentation and part of speech tagging in Chinese natural language processing, and can obtain good performance.

      Chinese segmentation; BI-LSTM; CRF; Attention mechanism; Contribution factor; Denoising mechanism; Dropout

      TP391

      A

      10.3969/j.issn.1003-6970.2018.10.050

      黃丹丹(1991-),女,研究生,主要研究方向:自然語言處理;郭玉翠(1962-),女,教授,主要研究方向:數學與信息安全。

      黃丹丹,郭玉翠. 融合attention機制的BI-LSTM-CRF中文分詞模型[J]. 軟件,2018,39(10):260-266

      猜你喜歡
      分詞標簽向量
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      結巴分詞在詞云中的應用
      智富時代(2019年6期)2019-07-24 10:33:16
      無懼標簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      值得重視的分詞的特殊用法
      標簽化傷害了誰
      向量垂直在解析幾何中的應用
      向量五種“變身” 玩轉圓錐曲線
      基于多進制查詢樹的多標簽識別方法
      計算機工程(2015年8期)2015-07-03 12:20:27
      奈曼旗| 甘孜| 达孜县| 石台县| 汝阳县| 平江县| 枞阳县| 大关县| 佛冈县| 老河口市| 弥渡县| 高州市| 广元市| 普兰店市| 铜川市| 乡宁县| 安徽省| 台州市| 綦江县| 天门市| 福鼎市| 宁德市| 盈江县| 夏津县| 织金县| 张北县| 南召县| 裕民县| 鄂伦春自治旗| 囊谦县| 鸡东县| 罗定市| 镇雄县| 铜陵市| 丹巴县| 万宁市| 林甸县| 从江县| 五指山市| 和龙市| 阿克|