• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx

      基于有向圖模型的旅游領(lǐng)域命名實(shí)體識(shí)別

      2022-02-24 05:07:08崔麗平古麗拉阿東別克王智悅
      計(jì)算機(jī)工程 2022年2期
      關(guān)鍵詞:實(shí)體卷積向量

      崔麗平,古麗拉·阿東別克,王智悅

      (1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046;2.新疆多語(yǔ)種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,烏魯木齊 830046;3.國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究少數(shù)民族語(yǔ)言中心哈薩克和柯爾克孜語(yǔ)文基地,烏魯木齊 830046)

      0 概述

      隨著信息化建設(shè)的加快,旅游逐漸成為人們休閑放松的重要方式。在旅游過(guò)程中,游客利用智能化的應(yīng)用軟件解決出行問(wèn)題,例如景點(diǎn)的智能線路推薦、景區(qū)的智能問(wèn)答系統(tǒng)實(shí)現(xiàn)等,旅游領(lǐng)域的命名實(shí)體識(shí)別(Named Entity Recognition,NER)作為智能化服務(wù),逐漸引起研究人員的關(guān)注。

      NER 是自然語(yǔ)言處理的一項(xiàng)研究任務(wù),是信息檢索、問(wèn)答系統(tǒng)、機(jī)器翻譯等諸多任務(wù)的基礎(chǔ)。以往的NER 任務(wù)大多針對(duì)通用領(lǐng)域,近年來(lái),NER 被應(yīng)用在某些特定領(lǐng)域上,文獻(xiàn)[1]在生物醫(yī)學(xué)領(lǐng)域中利用支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行蛋白質(zhì)、基因、核糖核酸等實(shí)體識(shí)別;文獻(xiàn)[2]在社交媒體領(lǐng)域中對(duì)微博中的實(shí)體進(jìn)行研究;文獻(xiàn)[3]對(duì)電子病歷中的實(shí)體進(jìn)行研究。此外,研究人員對(duì)一些實(shí)體(如化學(xué)實(shí)體[4]、古籍文本中的人名[5]等)研究較少。

      旅游領(lǐng)域的NER 研究相對(duì)較少。文獻(xiàn)[6]提出基于隱馬爾科夫模型(Hidden Markov Model,HMM)的旅游景點(diǎn)識(shí)別方法,該方法首次在旅游領(lǐng)域上進(jìn)行NER 任務(wù),但未充分考慮到上下文信息,解決一詞多義的問(wèn)題表現(xiàn)欠佳。因?yàn)楹芏鄬?shí)體在不同的語(yǔ)境中會(huì)代表不同的意思,例如“玉門關(guān)”在其他的文本中指的是地名,在旅游文本中指的是旅游景點(diǎn)玉門關(guān)。文獻(xiàn)[7]提出使用層疊條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)識(shí)別景點(diǎn)名的方法,該方法過(guò)于依賴人工特征的建立,而且規(guī)則制定要耗費(fèi)大量的人力,以致于不能廣泛使用。文獻(xiàn)[8]提出一種基于CNN-BiLSTM-CRF 的網(wǎng)絡(luò)模型,避免了人工特征的構(gòu)建,但該方法是基于字進(jìn)行識(shí)別,未能充分利用詞典信息。對(duì)于特定領(lǐng)域的NER 任務(wù),詞典是十分重要的外部資源,尤其是旅游文本中存在許多較長(zhǎng)的景點(diǎn)名,例如阿爾金山自然保護(hù)區(qū)、巴音布魯克天鵝湖等,可以利用詞典獲取這類詞匯信息進(jìn)而提高NER 的準(zhǔn)確率。

      本文提出一種有向圖神經(jīng)網(wǎng)絡(luò)模型用于旅游領(lǐng)域中的命名實(shí)體識(shí)別。將預(yù)訓(xùn)練詞向量通過(guò)具有多個(gè)卷積核的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)提取字特征,基于詞典構(gòu)建每個(gè)句子的有向圖,生成對(duì)應(yīng)的鄰接矩陣,通過(guò)邊的連接融合詞特征與字特征,將詞向量和鄰接矩陣輸入圖神經(jīng)網(wǎng)絡(luò)進(jìn)行全局語(yǔ)義信息的提取,并引入CRF 得到最優(yōu)序列。

      1 相關(guān)工作

      1.1 命名實(shí)體識(shí)別

      NER 主要是基于規(guī)則和詞典、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)、基于深度學(xué)習(xí)的方法?;谝?guī)則和詞典的方法需要考慮數(shù)據(jù)的結(jié)構(gòu)和特點(diǎn),在特定的語(yǔ)料上取得較高的識(shí)別效果,但是依賴于大量規(guī)則的制定,手工編寫規(guī)則又耗費(fèi)時(shí)間和精力?;诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法具有較好的移植性,對(duì)未登錄詞也具有較高的識(shí)別效果。常用的機(jī) 器學(xué)習(xí)模型有SVM[9]、HMM[10]、條件隨機(jī)場(chǎng)[11]、最大熵(Maximum Entropy,ME)[12]等,這些方法都被成功地用于進(jìn)行命名實(shí)體的序列化標(biāo)注,然而都需要從文本中選擇對(duì)該項(xiàng)任務(wù)有影響的各種特征,并將這些特征加入到詞向量中,所以對(duì)語(yǔ)料庫(kù)的依賴性很高。

      隨著深度學(xué)習(xí)在圖像和語(yǔ)音領(lǐng)域的廣泛應(yīng)用,深度學(xué)習(xí)的眾多方法也被應(yīng)用在自然語(yǔ)言處理任務(wù)中。文獻(xiàn)[13]提出基于神經(jīng)網(wǎng)絡(luò)的NER 方法,該方法利用具有固定大小的窗口在字符序列上滑動(dòng)以提取特征。由于窗口的限制,該方法不能考慮到長(zhǎng)距離字符之間的有效信息。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的優(yōu)勢(shì)在于它通過(guò)記憶單元存儲(chǔ)序列信息,但是在實(shí)際的應(yīng)用中,RNN 的記憶功能會(huì)隨著距離的變長(zhǎng)而衰減,從而喪失學(xué)習(xí)遠(yuǎn)距離信息的能力。文獻(xiàn)[14]基于RNN 提出長(zhǎng)短時(shí)記憶(Long Short Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò),該方法利用門結(jié)構(gòu)解決梯度消失的問(wèn)題,然而3 個(gè)門單元增加了計(jì)算量。門循環(huán)單元(Gated Recurrent Unit,GRU)[15]只用了2 個(gè)門保存和更新信息,能夠減少訓(xùn)練參數(shù),縮短訓(xùn)練的時(shí)間。由于單向的RNN 不能滿足NER 任務(wù)的需求,文獻(xiàn)[16]提出雙向LSTM模型(BiLSTM)用于序列標(biāo)注任務(wù),通過(guò)不同方向充分學(xué)習(xí)上下文特征。文獻(xiàn)[17]構(gòu)建BiLSTM 與CRF結(jié)合的模型,用CRF 規(guī)范實(shí)體標(biāo)簽的順序。因此,BiLSTM+CRF結(jié)構(gòu)成為NER 任務(wù)中的主流模型[18-19]。

      文獻(xiàn)[20]提出一種基于注意力機(jī)制的機(jī)器翻譯模型,摒棄之前傳統(tǒng)的Encoder-Decoder 模型結(jié)合RNN 或CNN 的固有模式,使用完全基于注意力機(jī)制的方式。由于Transformer 有強(qiáng)大的并行計(jì)算能力和長(zhǎng)距離特征捕獲能力,因此在機(jī)器翻譯、預(yù)訓(xùn)練語(yǔ)言模型等語(yǔ)言理解任務(wù)中表現(xiàn)出色,逐漸取代RNN 結(jié)構(gòu)成為提取特征的主流模型。在NER 任務(wù)上,基于自注意力的Transformer 編碼器相較于LSTM 的效果較差,雖然自注意力可以進(jìn)一步獲得字詞之間的關(guān)系,卻無(wú)法捕捉字詞間的順序關(guān)系,并且經(jīng)過(guò)自注意力計(jì)算后相對(duì)位置信息的特性會(huì)丟失。位置信息的丟失和方向信息的缺失影響NER 的效果[21]。

      在英文的NER 任務(wù)上主要使用基于詞的方法,但是在中文NER 任務(wù)中,由于中文存在嚴(yán)重的邊界模糊現(xiàn)象,基于詞的方法會(huì)產(chǎn)生歧義,進(jìn)而影響NER結(jié)果?;谧值姆椒ū然谠~的方法更適合中文NER 任務(wù)[22-23],然而基于字的方法存在無(wú)法提取詞匯信息的缺陷,這些潛在詞的信息對(duì)NER 任務(wù)十分重要。因此,構(gòu)造字詞結(jié)合訓(xùn)練的方法[24-26]成為研究熱點(diǎn)。

      文獻(xiàn)[27]提出Lattice LSTM 結(jié)構(gòu),使用詞典動(dòng)態(tài)將字詞信息送入LSTM 結(jié)構(gòu)中進(jìn)行計(jì)算,在多個(gè)數(shù)據(jù)集上取得了最好成績(jī)。RNN 的鏈?zhǔn)浇Y(jié)構(gòu)和缺乏全局語(yǔ)義的特點(diǎn)決定了基于RNN 的模型容易產(chǎn)生歧義,Lattice LSTM 結(jié)構(gòu)如圖1 所示?!笆虚L(zhǎng)”和“長(zhǎng)江”兩個(gè)詞共同包含“長(zhǎng)”字,RNN 會(huì)嚴(yán)格按照字和詞匯出現(xiàn)的順序進(jìn)行信息傳遞,因此,“長(zhǎng)”會(huì)優(yōu)先被劃分到左邊的“市長(zhǎng)”一詞中[28],這顯然是錯(cuò)誤的。針對(duì)這個(gè)問(wèn)題,本文使用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行信息傳遞,在每次計(jì)算時(shí),每個(gè)節(jié)點(diǎn)都會(huì)同時(shí)獲得與其相連節(jié)點(diǎn)的信息,以削弱字符語(yǔ)序和匹配詞序?qū)ψR(shí)別的影響。

      圖1 Lattice LSTM 結(jié)構(gòu)Fig.1 Structure of Lattice LSTM

      1.2 圖神經(jīng)網(wǎng)絡(luò)

      圖是由一系列對(duì)象(節(jié)點(diǎn))和關(guān)系類型(邊)組成的結(jié)構(gòu)化數(shù)據(jù)。文獻(xiàn)[29]提出圖神經(jīng)網(wǎng)絡(luò)的概念。文獻(xiàn)[30]提出基于譜圖論的一種圖卷積的變體。圖神經(jīng)網(wǎng)絡(luò) 包括圖注 意力網(wǎng)絡(luò)[31](Graph Attention Network,GAT)、圖生成網(wǎng)絡(luò)[32]等。圖神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理領(lǐng)域的應(yīng)用逐漸成為研究熱點(diǎn),文獻(xiàn)[33]提出將圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)用于文本分類,文獻(xiàn)[34]利用依存句法分析構(gòu)建圖神經(jīng)網(wǎng)絡(luò)并用于關(guān)系抽取。

      2 L-CGNN 模型

      L-CGNN 模型的整體結(jié)構(gòu)分為特征表示層、GGNN 層、CRF 層3 個(gè)部分。特征表示層的主要任務(wù)有:1)獲取預(yù)訓(xùn)練詞向量并使用具有不同卷積核的CNN 提取局部特征,充分獲得每個(gè)字的局部特征;2)通過(guò)詞典匹配句子中的詞匯信息,構(gòu)建句子的有向圖結(jié)構(gòu)得到相應(yīng)的鄰接矩陣用于表示字與詞匯的關(guān)系。GGNN 層接收特征表示層傳入的詞向量矩陣和鄰接矩陣,動(dòng)態(tài)融合字詞信息獲得全局的語(yǔ)義表示。通過(guò)CRF 層進(jìn)行解碼獲得最優(yōu)標(biāo)簽序列。L-CGNN 模型結(jié)構(gòu)如圖2 所示。

      圖2 L-CGNN 模型結(jié)構(gòu)Fig.2 Structure of L-CGNN model

      2.1 特征表示層

      特征表示層首先對(duì)文本進(jìn)行詞向量表示,然后構(gòu)建文本的圖結(jié)構(gòu)。

      1)詞向量

      神經(jīng)網(wǎng)絡(luò)的輸入是向量矩陣,因此先將字轉(zhuǎn)換成向量矩陣形式。詞向量給定包含n個(gè)字的句子S={c1,c2,…,cn},其中ci是第i個(gè)字,每個(gè)字通過(guò)查詢預(yù)訓(xùn)練字向量表,轉(zhuǎn)換為基于字的詞向量,如式(1)所示:

      其中:Ec為預(yù)訓(xùn)練詞向量表。通過(guò)引入bigram 特征后得到的詞向量是由基于字的向量、前向bigram 詞向量、后向bigram 詞向量3 個(gè)部分組成,以提高NER效果[35-36]。加入bigram 的詞向量如式(2)所示:

      其中:Eb為預(yù)先訓(xùn)練的bigram 向量矩陣。因?yàn)槁糜挝谋镜膶?shí)體名通常較長(zhǎng),并且嵌套現(xiàn)象嚴(yán)重,字向量和bigram 向量并不能很好表示局部信息。例如天山大峽谷是新疆著名景點(diǎn),對(duì)于山字,除了字向量特征外,只能獲取到天山和山天的信息,導(dǎo)致天山可能被當(dāng)作單獨(dú)的一個(gè)景點(diǎn)名被識(shí)別,然而這里的天山大峽谷是一個(gè)完整的景點(diǎn)名,需要更多的信息輔助識(shí)別。

      卷積神經(jīng)網(wǎng)絡(luò)逐漸被用于自然語(yǔ)言任務(wù)中提取局部特征。CNN 結(jié)構(gòu)包含卷積層、激活層、池化層,由于池化層會(huì)削弱位置特征的表達(dá),而位置特征對(duì)于序列標(biāo)注任務(wù)十分重要,所以本文沒(méi)有使用池化操作,而是使用3 個(gè)不同大小的卷積核提取特征,對(duì)卷積核進(jìn)行填充操作以獲得相同維度的表示。3 個(gè)卷積核的大小為k×w,其中k依次取1、3、5,對(duì)應(yīng)w依次取d、d+2、d+4,d為詞向量xi的維度,局部特征提取流程如圖3 所示。

      圖3 局部特征提取流程Fig.3 Extraction procedure of local feature

      局部特征的提取如式(3)、式(4)所示:

      其中:Wconv∈?k×w;f為線性修正單元(ReLU);b為偏置項(xiàng),將不同卷積核提取的局部特征拼接,得到最終的特征表示。

      2)文本圖結(jié)構(gòu)

      對(duì)于一個(gè)有n個(gè)節(jié)點(diǎn)的圖,文本圖結(jié)構(gòu)可以用形狀為n×n的鄰接矩陣表示。本文中圖結(jié)構(gòu)的構(gòu)建主要分為兩個(gè)步驟。給定包含n個(gè)漢字的句子S={c1,c2,…,cn},將句子中每個(gè)字作為圖的節(jié)點(diǎn)。首先連接所有相鄰的節(jié)點(diǎn),由于信息傳遞的方向性對(duì)于序列標(biāo)注任務(wù)具有重要意義,因此在句子的第i個(gè)字和第i+1 個(gè)字之間(ci,ci+1之間)都連接2 條方向相反的邊。其次連接詞匯邊,若i和j是第i個(gè)字從字典中匹配到詞的開始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn),本文在這2 個(gè)節(jié)點(diǎn)之間連 接2 條方向相反的 邊,即 令A(yù)i,j=1,Aj,i=1。字詞結(jié)合的有向圖如圖4 所示。

      圖4 字詞結(jié)合的有向圖Fig.4 Directed graph containing word-character

      從圖4 可以看出,如果一個(gè)節(jié)點(diǎn)在字典中匹配到詞匯數(shù)不止一個(gè),則該節(jié)點(diǎn)和與之構(gòu)成詞匯的所有節(jié)點(diǎn)之間都存在相應(yīng)的邊,這樣在后續(xù)的傳遞過(guò)程中可以同時(shí)學(xué)習(xí)所有詞匯與字的信息,有效消除字或詞匯固有序列的影響。

      2.2 基于門控機(jī)制圖神經(jīng)網(wǎng)絡(luò)

      門控圖神經(jīng)網(wǎng)絡(luò)(GGNN)是一種基于GRU 的經(jīng)典空間域消息傳遞模型[37],與GCN 等其他圖神經(jīng)結(jié)構(gòu)相比,GGNN 在捕捉長(zhǎng)距離依賴方面優(yōu)于GCN,更適合于中文的NER 任務(wù)。本文將特征表示層得到的詞向量和鄰接矩陣傳入GGNN 進(jìn)行上下文語(yǔ)義學(xué)習(xí)。信息傳遞過(guò)程如式(5)~式(10)所示:

      2.3 條件隨機(jī)場(chǎng)層

      條件隨機(jī)模型可以看成是一個(gè)無(wú)向圖模型或馬爾科夫隨機(jī)場(chǎng),用于學(xué)習(xí)標(biāo)簽的約束,解決標(biāo)簽偏置問(wèn)題。對(duì)于給定的觀察列,通過(guò)計(jì)算整個(gè)標(biāo)記序列的聯(lián)合概率的方法獲得最優(yōu)標(biāo)記序列。隨機(jī)變量X={x1,x2,…,xn} 表示觀察序列,隨機(jī)變量Y={y1,y2,…,yn}表示相應(yīng)的標(biāo)記序列,P(Y|X)表示在給定X的條件下Y的條件概率分布,則CRF 計(jì)算如式(11)所示:

      其中:Y(x)為所有可能的標(biāo)簽序列;f(yt-1,yt,x)用于計(jì)算yt-1到y(tǒng)t的轉(zhuǎn)移分?jǐn)?shù)和yt的分?jǐn)?shù)。最后使得P(y|x)分?jǐn)?shù)最大的標(biāo)記序列y,即句子對(duì)應(yīng)的實(shí)體標(biāo)簽序列如式(12)所示:

      3 實(shí)驗(yàn)

      3.1 數(shù)據(jù)集

      本文實(shí)驗(yàn)的數(shù)據(jù)集包括旅游數(shù)據(jù)集和簡(jiǎn)歷數(shù)據(jù)集。

      Beats1作為一個(gè)綜合性的音樂(lè)信息傳播平臺(tái),將音樂(lè)的電臺(tái)傳播和網(wǎng)絡(luò)傳播的特點(diǎn)綜合在一起,形成了具有實(shí)時(shí)性、主動(dòng)性和社交性的全球網(wǎng)絡(luò)音樂(lè)電臺(tái),加之自身運(yùn)營(yíng)平臺(tái)的大眾化優(yōu)勢(shì)、傳播內(nèi)容的專業(yè)化和覆蓋范圍的全球化,使其具備了成為世界性音樂(lè)電臺(tái)的基本條件。

      1)旅游數(shù)據(jù)集,目前還沒(méi)有公認(rèn)度較高的旅游領(lǐng)域數(shù)據(jù)集,本文從去哪兒網(wǎng)、攜程、馬蜂窩等旅游網(wǎng)站收集有關(guān)新疆的旅游攻略,經(jīng)過(guò)去除空白行、空格、非文本相關(guān)內(nèi)容等預(yù)處理操作,得到旅游領(lǐng)域文本1 200 余篇。旅游數(shù)據(jù)集使用NLTK 工具對(duì)預(yù)處理后的語(yǔ)料進(jìn)行半自動(dòng)化標(biāo)注,之后進(jìn)行人工校對(duì)、標(biāo)注,構(gòu)建用于旅游領(lǐng)域?qū)嶓w識(shí)別的訓(xùn)練集、評(píng)估集和測(cè)試集,并通過(guò)高德地圖旅游景點(diǎn)數(shù)據(jù)和旅游網(wǎng)站檢索構(gòu)造旅游景點(diǎn)詞典。

      針對(duì)旅游領(lǐng)域?qū)嶓w類型的定義,本文參考文獻(xiàn)[7]的分類標(biāo)準(zhǔn),將旅游領(lǐng)域?qū)嶓w分為地名、景點(diǎn)名、特色美食3 大類??紤]到新疆地域的特點(diǎn),本文新增了人名、民族2 種實(shí)體類型,采用BIOES 標(biāo)注體系進(jìn)行實(shí)體標(biāo)注,例如天山大峽谷位于烏魯木齊縣境內(nèi),按照采用的標(biāo)注體系可以標(biāo)記為“天/B-SA 山/I-SA 大/I-SA 峽/I-SA 谷/E-SA 位/O 于/O 烏/B-LOC魯/I-LOC 木/I-LOC 齊/I-LOC 縣/E-LOC 境/O 內(nèi)/O”。旅游數(shù)據(jù)集訓(xùn)練集合計(jì)4 176,驗(yàn)證集合計(jì)541,測(cè)試集合計(jì)540。旅游數(shù)據(jù)集實(shí)體信息如表1 所示。

      表1 旅游數(shù)據(jù)集實(shí)體信息Table 1 Entities information of tourism dataset

      2)簡(jiǎn)歷數(shù)據(jù)集,文獻(xiàn)[27]提出該數(shù)據(jù)集共有CONT(country)、EDU(educational institution)、LOC、PER、ORG、PRO(profession)、RACE(ethics background)和TITLE(job title)8 種不同的實(shí)體類型。

      旅游數(shù)據(jù)集和簡(jiǎn)歷數(shù)據(jù)集的數(shù)據(jù)統(tǒng)計(jì)如表2所示。

      表2 旅游數(shù)據(jù)集和簡(jiǎn)歷數(shù)據(jù)集的數(shù)據(jù)統(tǒng)計(jì)Table 2 Data statistics of tourism and resume datasets

      實(shí)驗(yàn)使用的預(yù)訓(xùn)練詞向量表來(lái)源于文獻(xiàn)[38],通用的詞典來(lái)源于文獻(xiàn)[27],該字典包含704.4×103個(gè)詞,其中單個(gè)字有5.7×103個(gè),2個(gè)字構(gòu)成的詞有291.5×103個(gè),3 個(gè)字構(gòu)成的詞有278.1×103個(gè),其他129.1×103個(gè)。

      3.2 模型對(duì)比

      為驗(yàn)證模型的有效性,本文使用現(xiàn)有的應(yīng)用于旅游領(lǐng)域NER 任務(wù)的機(jī)器學(xué)習(xí)方法和主流的深度學(xué)習(xí)模型進(jìn)行對(duì)比。

      1)HMM 模型[6],以HMM 算法為原理,用于旅游領(lǐng)域NER 任務(wù);

      3)BiLSTM+CRF 模型是NER 任務(wù)的經(jīng)典模型;

      4)BiLSTM+CRF(融 合bigram)模型為驗(yàn) 證bigram 對(duì)NER 任務(wù)的作用,設(shè)計(jì)包含bigram 特征的BiLSTM+CRF 模型進(jìn)行對(duì)比分析;

      5)Transformer+CRF 模型[21],Transformer 具有強(qiáng)大的特征提取能力,在很多的自然語(yǔ)言處理任務(wù)中逐漸取代RNN 模型,所以本文加入該模型的對(duì)比;

      6)ID-CNN+CRF 模型[24],膨脹卷積、空洞卷積主要是通過(guò)擴(kuò)大感受域的方法獲得更廣泛的序列信息,在英文NER 任務(wù)上曾取得最佳成績(jī);

      7)Lattice LSTM 模型[27],該模型是字詞結(jié)合訓(xùn)練的代表性方法,創(chuàng)造性地將字符和詞匯通過(guò)網(wǎng)格的方法融合在一起,并且在MSRA、Weibo、OntoNotes4、Resume 這4 個(gè)數(shù)據(jù)集上取得最好成績(jī);

      8)Bert+CRF 模型,Bert 作為一種預(yù)訓(xùn)練模型,在自然語(yǔ)言處理的多項(xiàng)任務(wù)中逐漸成為主流模型。

      3.3 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

      本文模型使用的GPU 為GeForce GTX 1080Ti,操作系統(tǒng)為Ubuntu18.04,編程語(yǔ)言為Python3.6,框架為PyTorch 1.1.0。為實(shí)體識(shí)別算法的一致性,本文設(shè)置初始化參數(shù),預(yù)訓(xùn)練詞向量維度為300,GGNN 神經(jīng)元個(gè)數(shù)為200,丟碼率為0.5,初始學(xué)習(xí)率為0.001,衰減率為0.05。

      3.4 評(píng)價(jià)指標(biāo)

      評(píng)價(jià)指標(biāo)采用準(zhǔn)確率(P)、召回率(R)和F1 值,如式(13)、式(14)所示:

      其中:TTP為正確識(shí)別的實(shí)體個(gè)數(shù);FFP為識(shí)別不相關(guān)的實(shí)體個(gè)數(shù);FFN為數(shù)據(jù)集中存在且未被識(shí)別出來(lái)的實(shí)體個(gè)數(shù)。

      通常精確率和召回率的數(shù)值越高,代表實(shí)驗(yàn)的效果好。一般精確率和召回率會(huì)出現(xiàn)矛盾的情況,即精確率越高,召回率越低。F1 值綜合考量?jī)烧叩募訖?quán)調(diào)和平均值,F(xiàn)1 值如式(15)所示:

      3.5 實(shí)驗(yàn)結(jié)果分析

      在旅游領(lǐng)域NER 數(shù)據(jù)集上,本文選擇HMM、CRF、BiLSTM+CRF、BiLSTM+CRF(融合bigram)、Transformer+CRF、ID-CNN+CRF、Lattice LSTM、Bert+CRF 等模型進(jìn)行實(shí)驗(yàn)。不同模型的實(shí)驗(yàn)結(jié)果對(duì)比如表3 所示,*Dic 為自建詞典。

      表3 在旅游數(shù)據(jù)集上不同模型的實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Experimental results comparison among different models on tourism dataset %

      從表3 可以看出,HMM 和CRF 模型在旅游領(lǐng)域NER 任務(wù)上的P、R、F1 數(shù)值都低于其他深度學(xué)習(xí)模型,HMM 模型僅依賴于當(dāng)前狀態(tài)和對(duì)應(yīng)的觀察對(duì)象,序列標(biāo)注問(wèn)題不僅與單個(gè)詞相關(guān),還與觀察序列的長(zhǎng)度、單詞的上下文等相關(guān)。CRF 模型解決了標(biāo)注偏置問(wèn)題,識(shí)別效果相較于HMM 模型有很大程度的提高。由于CRF 模型不能充分捕捉上下文語(yǔ)義信息,因此在不規(guī)范的旅游文本上識(shí)別效果不佳。

      與ID-CNN+CRF模型相比,BiLSTM+CRF模型的識(shí)別效果較優(yōu),BiLSTM 模型能夠獲得長(zhǎng)距離依賴關(guān)系,加強(qiáng)對(duì)語(yǔ)義的理解,ID-CNN 模型雖然通過(guò)擴(kuò)大感受域的方法加強(qiáng)距離關(guān)系的捕捉,但仍存在不足。BiLSTM+CRF 模型融合bigram 特征后,對(duì)實(shí)體識(shí)別的效果略有提升,表明加入bigram 特征可以提高NER 效果。

      對(duì)比Transformer+CRF 與BiLSTM+CRF 模型,Transformer+CRF 模型在命名實(shí)體識(shí)別效果上低于BiLSTM+CRF模型。Transformer在方向性、相對(duì)位置、稀疏性方面不適合NER 任務(wù)。雖然Transformer對(duì)位置信息進(jìn)行編碼,但在NER 任務(wù)上,效果仍然不理想。

      Lattice LSTM 模型通過(guò)字典的方式融合詞匯信息與字符信息以提升NER 效果,由于其嚴(yán)格的序列學(xué)習(xí)特性,每次都會(huì)按照匹配詞出現(xiàn)的順序?qū)W習(xí),因此會(huì)出現(xiàn)歧義現(xiàn)象。Lattice LSTM 模型實(shí)驗(yàn)效果相較于L-CGNN 模型較差。

      Bert+CRF 模型在該任務(wù)上的結(jié)果優(yōu)于Lattice LSTM 模型。Bert 利用Transformer 編碼器提高特征提取能力,獲得充分的上下文信息。對(duì)于旅游領(lǐng)域,詞典是非常重要的外部資源,對(duì)于NER 等任務(wù)具有十分重要的意義。因此,L-CGNN(*Dic)模型在旅游數(shù)據(jù)集上識(shí)別效果優(yōu)于Bert+CRF 模型。

      本文提出L-CGNN 模型通過(guò)詞典構(gòu)建有向圖結(jié)構(gòu),利用圖神經(jīng)網(wǎng)絡(luò)獲得語(yǔ)義信息,不僅融合字符與詞匯信息,還可以利用圖特殊的結(jié)構(gòu)進(jìn)行傳遞。在每次計(jì)算時(shí),L-CGNN 模型同時(shí)將節(jié)點(diǎn)匹配到與所有詞匯信息相融合,從而減少詞序?qū)е碌钠缌x現(xiàn)象。

      為驗(yàn)證L-CGNN 模型解決匹配詞先后順序?qū)ER 效果的影響,本文在公開的簡(jiǎn)歷數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4 所示。

      表4 在簡(jiǎn)歷數(shù)據(jù)集上不同模型的實(shí)驗(yàn)結(jié)果對(duì)比Table 4 Experimental results comparison among different models on resume dataset %

      從表4 可以看出,Transformer+CRF 中的P、R沒(méi)有公布,所以未能獲取。與其他模型(除Bert+CRF模型外)相比,L-CGNN 模型在P、R、F1 值上的分?jǐn)?shù)較高。本文模型略低于Bert+CRF 模型,主要是因?yàn)橛邢驁D結(jié)果依賴于字典的質(zhì)量,通用的詞典質(zhì)量低于專有領(lǐng)域詞典,未能取得與旅游領(lǐng)域一樣高于Bert+CRF 模型的數(shù)值。這組實(shí)驗(yàn)進(jìn)一步表明L-CGNN 模型具有一定的泛化能力。

      3.6 消融實(shí)驗(yàn)

      為探討不同特征對(duì)實(shí)驗(yàn)結(jié)果的影響,本文分別去除某些特征進(jìn)行命名實(shí)體的識(shí)別,實(shí)驗(yàn)結(jié)果如表5所示。W/O 代表去除該特征,例如W/O lexicon 代表去除字典信息。

      表5 不同特征對(duì)實(shí)驗(yàn)結(jié)果的影響Table 5 Influence of different features on experimental results %

      從表5 可以看出,在兩個(gè)數(shù)據(jù)集上,如果去除字典特征,最終的識(shí)別效果較差。同樣的,在去除bigram 特征的情況下,模型的識(shí)別效果也會(huì)被削弱。同時(shí)去除字典和bigram 兩個(gè)特征后,F(xiàn)1 值有了很大程度降低,說(shuō)明加入的特征能夠改善最終的識(shí)別效果。

      3.7 收斂速率與資源消耗對(duì)比

      為進(jìn)一步說(shuō)明本文模型的性能,本文對(duì)比BiLSTM+CRF、Lattice LSTM 和L-CGNN 這3 種模型的收斂速度。不同模型的收斂曲線對(duì)比如圖5所示。

      圖5 不同模型的收斂曲線對(duì)比Fig.5 Convergence curves comparison among different models

      從圖5 可以看出,L-CGNN 模型的收斂速度優(yōu)于其他模型。BiLSTM+CRF 模型通過(guò)雙向LSTM 學(xué)習(xí),使得信息更新較慢,并且沒(méi)有包含任何詞匯特征,因此,識(shí)別速率提升較慢。Lattice LSTM 和L-CGNN 模型都包含字典外部信息,識(shí)別效果相對(duì)較好。在一段時(shí)間后,L-CGNN 模型識(shí)別效果明顯優(yōu)于Lattice LSTM 模型,說(shuō)明本文模型在融合詞匯方面具有較優(yōu)的效果。

      在資源消耗方面,本文從訓(xùn)練時(shí)間上分別對(duì)HMM、CRF、BiLSTM+CRF、Lattice LSTM、L-CGNN等模型進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表6 所示。

      表6 在旅游數(shù)據(jù)集上不同模型的訓(xùn)練時(shí)間對(duì)比Table 6 Training time comparison among different models on tourism dataset s

      從表6 可以看出,HMM 和CRF 模型是基于機(jī)器學(xué)習(xí)方法,所以訓(xùn)練速度較快,但識(shí)別效果欠佳。相比BiLSTM+CRF 模型,由于L-CGNN 模型構(gòu)建鄰接矩陣,因此在訓(xùn)練上的時(shí)間消耗略大。對(duì)比融合詞典的Lattice LSTM 模型,L-CGNN 模型的時(shí)間消耗較低,且具有最優(yōu)的識(shí)別效果。

      4 結(jié)束語(yǔ)

      針對(duì)旅游領(lǐng)域的命名實(shí)體識(shí)別任務(wù),本文提出基于字典構(gòu)建文本的有向圖結(jié)構(gòu)模型,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取字特征,利用詞典構(gòu)建句子的有向圖,生成對(duì)應(yīng)的鄰接矩陣,并將包含局部特征的詞向量和鄰接矩陣輸入圖神經(jīng)網(wǎng)絡(luò)中,引入條件隨機(jī)場(chǎng)得到最優(yōu)的標(biāo)記序列。實(shí)驗(yàn)結(jié)果表明,相比Lattice LSTM、ID-CNN+CRF、CRF 等模型,本文模型具有較高的識(shí)別準(zhǔn)確率。后續(xù)將研究更有效的圖神經(jīng)網(wǎng)絡(luò),用于命名實(shí)體識(shí)別,進(jìn)一步提高實(shí)體識(shí)別準(zhǔn)確率。

      猜你喜歡
      實(shí)體卷積向量
      向量的分解
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      聚焦“向量與三角”創(chuàng)新題
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      向量垂直在解析幾何中的應(yīng)用
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      黑龙江省| 安陆市| 永寿县| 平远县| 平武县| 宜州市| 南部县| 金门县| 铁岭县| 太康县| 翁源县| 宁乡县| 新田县| 遂溪县| 上犹县| 施甸县| 玉环县| 赤壁市| 潼关县| 南阳市| 葵青区| 新巴尔虎右旗| 西青区| 许昌市| 延庆县| 射阳县| 海林市| 乌兰察布市| 长垣县| 墨脱县| 隆德县| 怀仁县| 即墨市| 罗源县| 宣恩县| 白城市| 定日县| 全州县| 彝良县| 夏津县| 田东县|