基于多特征注意力卷積神經(jīng)網(wǎng)絡(luò)的旅游領(lǐng)域?qū)嶓w關(guān)系抽取

2022-03-26 06:53:38殷纖慧古麗拉阿東別克

東北師大學(xué)報(自然科學(xué)版) 2022年1期

殷纖慧，古麗拉·阿東別克

(1.新疆大學(xué)信息科學(xué)與工程學(xué)院，新疆烏魯木齊 830046；2.新疆多語種信息技術(shù)實驗室，新疆烏魯木齊 830046；3.國家語言資源監(jiān)測與研究少數(shù)民族語言中心哈薩克和柯爾克孜語文基地，新疆烏魯木齊 830046)

0 引言

關(guān)系抽取[1]旨在識別文本中實體詞之間的語義關(guān)系.它是信息抽取中的一個重要組成部分.新疆旅游領(lǐng)域?qū)嶓w關(guān)系抽取的研究為構(gòu)建旅游領(lǐng)域知識圖譜奠定了基礎(chǔ).目前研究關(guān)系抽取的方法包括傳統(tǒng)方法和深度學(xué)習(xí)的方法.傳統(tǒng)的方法包括基于特征的方法和基于核函數(shù)的方法[2].傳統(tǒng)方法手工依賴性較高，導(dǎo)致額外的傳播錯誤且增加計算成本.近年來，循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等方法[3-4]被用于實體關(guān)系抽取任務(wù)中，可自動學(xué)習(xí)簡單的特征，能夠發(fā)現(xiàn)更多隱含的特征.但仍然存在以下問題：(1)文本特征提取不充分.且對于新疆旅游領(lǐng)域而言，語料中包含大量復(fù)雜的人名地名，僅考慮某個單個特征，不足以充分捕捉文本信息.(2)核心詞表現(xiàn)弱.不同詞語對于整個句子的語義信息影響大小不同，對所有詞一視同仁，影響關(guān)系預(yù)測的結(jié)果.(3)大多用于普通領(lǐng)域，缺乏新疆旅游領(lǐng)域相關(guān)研究.缺少領(lǐng)域語料庫，領(lǐng)域針對性較小.

近年來，大量傳統(tǒng)方法被用于解決實體關(guān)系抽取問題.主要為基于特征的方法和基于核函數(shù)的方法.

(1) 基于特征的方法：該方法利用通過特征提取構(gòu)造特征向量.常用的特征包括詞匯特征、句法特征和語義特征.文獻[5]使用了依存句法分析、詞性標注兩個特征，以支持向量機作為分類器.但沒有考慮到位置特征及實體標簽，特征提取不充分.

(2) 基于核函數(shù)的方法：該方法利用解析樹、核函數(shù)等豐富句子的句法信息.文獻[6]將語義相似度嵌入樹核中實現(xiàn)關(guān)系抽取.這些方法增強了模型的泛化性，但特征提取耗時耗力，擴展性不強.

目前，解決實體關(guān)系抽取問題所用的兩大主流的深度學(xué)習(xí)方法為卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)，它們是解決實體關(guān)系抽取問題的兩大主流的深度學(xué)習(xí)方法.

Zhang等[7]提出BiLSTM來模擬一個完整的、連續(xù)的單詞信息的句子.但LSTM無法進行平行化輸入，局部信息表示不充分.Zeng等[8]采用CNN實現(xiàn)關(guān)系抽取，且首次引入位置標簽.Zhou等[9]2016年將注意力機制與雙向LSTM相融合，使用位置特征作為輸入特征.Wang等[10]提出將注意力機制引入到CNN中.這些方法的提出驗證了注意力機制和CNN模型在解決實體關(guān)系抽取任務(wù)中的有效性.

因此本文將注意力機制與卷積神經(jīng)網(wǎng)絡(luò)相融合，提高核心詞的影響力.并使用多特征融合的方法解決特征提取不充分的問題.

本文提出了一種基于多特征注意力CNN的實體關(guān)系抽取方法.其主要優(yōu)點：(1)引入多個特征進行特征表示，如位置、詞性及實體標簽，充分提取特征；(2)將句子級的注意力機制與CNN相結(jié)合，提高核心詞的權(quán)重；(3)面向新疆旅游領(lǐng)域，結(jié)合歸納15種實體關(guān)系.設(shè)計語料標注系統(tǒng)，建立小型語料關(guān)系庫；(4)設(shè)計對比實驗，驗證本文模型優(yōu)勢.

1 旅游領(lǐng)域?qū)嶓w關(guān)系抽取方法

1.1 CNN的基本模型

本文模型由特征層、嵌入層、卷積層、池化層和全連接層組成，如圖1所示.

圖1 實體關(guān)系抽取模型

1.1.1 特征層

本文特征層用多個離散特征進行特征表示.

(1) 位置標簽：文本中每個詞距離實體e1和實體e2的距離.以圖2中句子為例，“美麗”距離實體詞“新疆”“天池”的距離分別為3和-2.

圖2 表示位置關(guān)系的例子

(2) 詞性特征：詞性為基本語法屬性，詞的詞性蘊含著重要信息.本文采用基于統(tǒng)計模型的標注方法.

(3) 實體類型：旅游領(lǐng)域涉及大量的地名、景點名等，且較為復(fù)雜,例如：“霍爾果斯口岸”“江布拉克”等.本文采用命名實體的標注方法，即BMEO標注.

1.1.2 嵌入層

(1)

(2)

1.1.3 卷積層

卷積層對輸入文本進行卷積操作，以提取句子的局部特征[11].w1，w2，…，wm是所輸入句子的特征向量序列，其中wi∈Rd第i個詞所包含所有特征向量.假設(shè)有一個權(quán)重向量參數(shù)化的濾波器，權(quán)重向量由Wconv∈Rcd表示，其中c表示濾波器的長度，因而輸出序列為

hi=f(Wconv·wi：i+c-1+b).

(3)

其中i=1，2，…，m-c+1，操作“·”代表點乘，b是偏倚項，f是線性整流函數(shù)(ReLU).

1.1.4 池化層

本文使用最大池化層將卷積層中每個濾波器的輸出轉(zhuǎn)化為一個大小固定的向量[12]，卷積層的輸出長度(m-c+1)，依賴于句子中詞m的個數(shù).

z=max[hi].

(4)

通過池化層操作得到句子的全局特征，保留句子中最有用的全局特征.

1.1.5 全連接層

本文使用池化層的輸出來預(yù)測實體關(guān)系的類型[13]，使用權(quán)重矩陣Wfconn∈Ro×le將z轉(zhuǎn)化為分數(shù)

s=Wfconnz.

(5)

其中zi∈Rle表示池化層的輸出，s表示得分.使用softmax函數(shù)將s轉(zhuǎn)化為關(guān)系概率

(6)

其中且s=[s1，…，so]，o表示為待分類的關(guān)系總數(shù).當已知分類標簽為y時，損失函數(shù)Lsoftmax定義為

Lsoftmax=-∑ylogp.

(7)

其中：p表示關(guān)系概率；y表示one-hot向量.

1.2 注意力機制

本文發(fā)現(xiàn)句子中每個詞語對于整個句子的語義信息影響不同，一部分詞影響較小，而另一部分詞則能決定整個句子的語義信息.因此本文采用注意力機制，如圖2上部分所示.計算注意力公式為：

(8)

(9)

(10)

其中：函數(shù)βi表示當前詞與設(shè)定關(guān)系的匹配程度；E={e1，e2}；ai，1表示實體1的權(quán)重；ai，2表示實體2的權(quán)重；bα為偏倚項；權(quán)重為ai.

1.3 模型訓(xùn)練

本文采用L2正則避免過擬合問題，使用目標函數(shù)Lsoftmax與L2合并，對損失函數(shù)權(quán)重進行正則化.

(11)

其中：λ表示正則化參數(shù)，‖‖F(xiàn)表示Frobenius范式.需要優(yōu)化的參數(shù)為Wemb，Wconv，Wfconn，b，bα.使用Kingma和Ba在2015年提出的Adam算法作為優(yōu)化器.

2 實驗部分

為評估本文模型在新疆旅游領(lǐng)域進行實體關(guān)系抽取研究的有效性，在建立的新疆旅游領(lǐng)域小型語料關(guān)系庫中進行實驗.

2.1 數(shù)據(jù)集

本文實驗從去哪兒網(wǎng)、新疆旅游官網(wǎng)等旅游型網(wǎng)站中爬取有關(guān)新疆旅游領(lǐng)域的數(shù)據(jù)，通過對語料的預(yù)處理操作，最終獲得標注數(shù)據(jù)5 028條.訓(xùn)練數(shù)據(jù)3 028條，其余2 000條為測試數(shù)據(jù).

(1) 定義實體對：總結(jié)定義了15種旅游領(lǐng)域?qū)嶓w關(guān)系對，其中“民族-美食”、“民族-習(xí)俗”等實體對均為新疆文化特色.如表1所示.

表1 實體關(guān)系對

(2) 開發(fā)語料標注系統(tǒng)：設(shè)計并開發(fā)語料標注系統(tǒng)，進行半自動化的語料標注，如圖3所示.

圖3 語料標注系統(tǒng)

(3)參數(shù)設(shè)置：詞向量為300，位置向量為20，詞性向量為17，實體標簽向量為20，卷積窗口大小為[3，4]，卷積核數(shù)目為100，L2正則化參數(shù)為0.000 1.

2.2 實驗結(jié)果

2.2.1 多特征的有效性驗證

本文共使用了多個特征進行特征表示，為了研究每個特征對本文模型的貢獻，依次加入不同的特征對模型的性能進行比較，結(jié)果如表2所示.

表2 特征對于訓(xùn)練模型的影響效果 %

表2中，WV為使用詞訓(xùn)練模型訓(xùn)練好的旅游領(lǐng)域詞向量.PF(位置特征)、POS(詞性特征)、NER(實體標簽)，在WV的基礎(chǔ)上添加其他特征.其中位置特征最有效，F(xiàn)1值提高了4.03%.詞性影響不明顯.實體類型考慮了領(lǐng)域復(fù)雜名詞等，使F1值提高了1.95%.

2.2.2 注意力機制的有效性驗證

為了驗證注意力機制對關(guān)系抽取模型的性能影響，本文模型與未加注意力機制的CNN做了對比試驗(見圖4).

圖4 模型驗證

本文方法相較于CNN效果更佳，迭代次數(shù)在5～15次內(nèi)有大幅度提升，迭代次數(shù)大于20趨于穩(wěn)定.最終ATT-CNN的F1值比CNN高3.19%.驗證了引入注意力機制能夠提升實驗F1值.

2.2.3 與同類實驗對比

為了比較本文提出的關(guān)系抽取模型的性能，與目前關(guān)系抽取模型進行了對比實驗.

本文實驗與表3中的實驗進行了對比，本組實驗中分別選了SVM、CNN、ATT-CNNN、ATT-BiLSTM 等模型做了對比，不同的模型所選的特征不同，實驗結(jié)果表明：本文提出的多特征融合的ATT-CNN模型，在實體關(guān)系抽取任務(wù)中F1值高于其他方法.

表3 同類實驗對比

3 結(jié)語

本文采用了ATT-CNN模型，并使用了位置、詞性、實體類型3個特征進行特征表示.針對新疆旅游領(lǐng)域進行實體關(guān)系抽取研究.此外，建立關(guān)于新疆旅游領(lǐng)域的小型語料關(guān)系庫，并總結(jié)使用15種關(guān)系對.通過實驗分析驗證了本文模型的有效性.

未來的工作主要為：(1)擴展語料庫，研究其他特征對模型的影響.(2)本文通過預(yù)先定義的關(guān)系對來實現(xiàn)關(guān)系抽取任務(wù)，今后研究如何將本文方法引入到開發(fā)領(lǐng)域，并且自動發(fā)現(xiàn)實體關(guān)系對.