• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Bert和卷積神經(jīng)網(wǎng)絡(luò)的人物關(guān)系抽取研究

      2021-10-15 10:38:56杜慧祥楊文忠石義樂柴亞闖王麗花
      關(guān)鍵詞:門限雙向實體

      杜慧祥,楊文忠,石義樂,柴亞闖,王麗花

      (1.新疆大學(xué)軟件學(xué)院,新疆 烏魯木齊 830002;2.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830002)

      0 引言

      隨著互聯(lián)網(wǎng)數(shù)據(jù)爆炸式的增長,各種半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)也在不斷增多.如何從半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)中提取有效的結(jié)構(gòu)化信息,是當(dāng)前信息抽取領(lǐng)域的一個研究熱點和難點.信息抽取作為自然語言處理領(lǐng)域中的一個重要的研究子領(lǐng)域,近年來受到了國內(nèi)外研究學(xué)者的不斷研究,其中實體關(guān)系抽取技術(shù)是信息抽取中的一個關(guān)鍵技術(shù),也是構(gòu)建知識圖譜的重要技術(shù)之一,其主要的研究目的是從包含實體對以及包含某種語義關(guān)系的句子中提取出所需要的關(guān)鍵信息.目前實體關(guān)系抽取技術(shù)主要分為有監(jiān)督的、半監(jiān)督的、無監(jiān)督的、開放領(lǐng)域的、基于遠程監(jiān)督的、基于深度學(xué)習(xí)的等6類方法.有監(jiān)督的關(guān)系抽取又分為基于特征向量的方法和基于核函數(shù)[1]的方法.基于特征向量的方法是從包含關(guān)系的句子中,選擇該句的上下文中包含的詞法、語法和句法等特征來構(gòu)造特征向量,進一步通過計算特征向量的相似度來訓(xùn)練實體關(guān)系抽取模型,最后完成關(guān)系抽取.基于核函數(shù)的方法也是比較常用的一種方法,文獻[2]采用淺層解析樹核與SVM、投票感知器相結(jié)合的算法從非結(jié)構(gòu)化的文本中抽取人-從屬關(guān)系和組織-位置關(guān)系.文獻[3]通過擴展前人工作,提出依賴樹核,通過計算依賴樹核的相似度來進行實體關(guān)系抽取,實驗結(jié)果表明,基于依賴樹核的方法比基于“詞袋”核的效果有較大的提高.

      有監(jiān)督的實體關(guān)系抽取方法雖然在一定程度上提高了關(guān)系抽取的效率,但是需要人工標(biāo)注大量的語料,因此有人提出了半監(jiān)督的實體關(guān)系抽取方法.半監(jiān)督的實體關(guān)系抽取最先提出的是Bootstrapping方法[4],該方法首先人工設(shè)定若干種子實例,然后迭代從數(shù)據(jù)中抽取關(guān)系對應(yīng)的關(guān)系模板和更多的實例.半監(jiān)督實體關(guān)系抽取技術(shù)可以減少人工標(biāo)注數(shù)據(jù)的語料,但是該方法需要人工構(gòu)建高質(zhì)量的初始種子集,且該方法不可避免地會引入噪聲和語義漂移現(xiàn)象.

      在面對大規(guī)模語料的時候,有監(jiān)督和半監(jiān)督的關(guān)系抽取方法往往不能預(yù)測到所有位置的實體關(guān)系類型,因此人們提出了基于聚類方法的無監(jiān)督關(guān)系抽取.無監(jiān)督的實體關(guān)系抽取在無標(biāo)注的數(shù)據(jù)集中利用聚類算法將上下文中出現(xiàn)的實體對相似度高的聚為一類,用包含特定意義的詞來表示這種關(guān)系.無監(jiān)督的實體關(guān)系抽取方法不需要人工預(yù)先定義的關(guān)系類型,但其聚類的閾值確定相對較難,且目前基于無監(jiān)督的實體關(guān)系抽取方法沒有統(tǒng)一的評價指標(biāo).

      基于開放領(lǐng)域的實體關(guān)系抽取方法,是為了構(gòu)建某領(lǐng)域的語料庫時減少人工的參與,該方法在不需要任何人工標(biāo)注的情況下,通過與外部大型知識庫(如DBpedia、YAGO、FreeBase等)將完整的、高質(zhì)量的實體關(guān)系實例與大規(guī)模的訓(xùn)練數(shù)據(jù)對齊來獲得大量的訓(xùn)練數(shù)據(jù).基于遠程監(jiān)督的關(guān)系抽取方法也是為了減少人工參與標(biāo)注數(shù)據(jù)集而被提出來的.文獻[5]首次提出基于遠程監(jiān)督的實體關(guān)系抽取方法,該方法假設(shè)兩個實體間如果存在某種關(guān)系,那么在整個語料庫中包含這兩個實體的句子都存在這種關(guān)系.該方法在一定程度上減少了對標(biāo)注數(shù)據(jù)集的依賴,但其也帶來了數(shù)據(jù)噪聲和錯誤傳播的問題.

      近年來,隨著深度學(xué)習(xí)的快速發(fā)展,將深度學(xué)習(xí)的方法應(yīng)用到實體關(guān)系抽取中得到了大量研究學(xué)者的關(guān)注.文獻[6]提出將遞歸神經(jīng)網(wǎng)絡(luò)與矩陣向量表示相結(jié)合的模型,該模型可以學(xué)習(xí)任意長度的短語和句子的向量表示,但是忽略了實體對之間的位置信息以及其他的特征信息;文獻[7]利用卷積神經(jīng)網(wǎng)絡(luò)的方法進行實體關(guān)系抽取,采用詞向量和位置向量作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,通過卷積層、池化層和非線性層得到句子的表示;文獻[8]針對捕獲句子中重要信息不明確的問題提出了基于注意力機制的雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(ATT-BILSTM).

      目前在關(guān)系抽取領(lǐng)域中主要針對的是英文,但近年來隨著深度學(xué)習(xí)技術(shù)的廣泛使用,對中文關(guān)系抽取的研究也有了一定的進展,文獻[9]提出一種基于自注意的多特征實體關(guān)系提取方法,該方法充分考慮了詞匯、句法、語義和位置的特征,并利用基于自注意機制的雙向長短期記憶網(wǎng)絡(luò)預(yù)測實體之間關(guān)系;中文關(guān)系抽取任務(wù)中的數(shù)據(jù)稀疏和噪聲傳播問題一直是研究的難點,文獻[10]提出一種將位置特征、最短依存等特征融合起來,并提升關(guān)鍵特征的權(quán)重,改善了噪聲傳播的問題;文獻[11]提出一種多通道的卷積神經(jīng)網(wǎng)絡(luò)用來解決單一詞向量表征能力的問題,該模型利用不同的詞向量作為輸入語句,然后傳輸?shù)侥P偷牟煌ǖ乐?,最后利用卷積神經(jīng)網(wǎng)絡(luò)提取特征,利用Softmax分類器完成關(guān)系分類.以上方法大多數(shù)是采用早期預(yù)訓(xùn)練方法詞嵌入(Word Embedding)進行向量表示,詞嵌入的方法是2003年最早提出的[12],該方法利用了詞分布表示考慮了上下文之間的相似度.2013年谷歌公司的研究人員發(fā)布了Word2vec工具包,該工具包包含了Skip-Gram模型和CBOW模型[13],兩個模型能夠獲取文本之間相似性,但只考慮了文本中的局部信息而忽略了全局信息.2018年Google發(fā)布了Bert預(yù)訓(xùn)練模型[14],該模型通過充分的對詞和句進行提取,能夠得到動態(tài)編碼詞向量捕獲更長距離的依賴,在2018年10月底公布了Bert在11項NLP任務(wù)中的表現(xiàn),Bert取得了較好的結(jié)果.因此本文在Bert預(yù)訓(xùn)練模型下,提出了Bert-BiGRU-CNN的網(wǎng)絡(luò)模型進行人物關(guān)系抽取.該網(wǎng)絡(luò)模型首先通過Bert預(yù)訓(xùn)練模型獲取包含上下文語義信息的詞向量,然后利用雙向門控循環(huán)單元(BiGRU)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取上下文相關(guān)特征進行學(xué)習(xí),最后通過全連接層利用Softmax進行關(guān)系分類.

      1 模型介紹

      本文提出的Bert-BiGRU-CNN模型如圖1所示,其主要結(jié)構(gòu):(1)Bert層.利用Bert預(yù)訓(xùn)練模型獲取包含上下文語義信息的詞向量.(2)BiGRU層.獲取上下文的文本特征.(3)CNN層.進一步獲取文本的局部特征.(4)輸出層.利用Softmax分類器進行關(guān)系分類.

      1.1 Bert層

      大多數(shù)模型采用的都是2018年Google公司的研究人員提出了Bert預(yù)訓(xùn)練模型,該模型在自然語言處理領(lǐng)域得到了廣泛的好評,隨后Google公司公開了Bert預(yù)訓(xùn)練模型在11項自然語言處理任務(wù)中取得的效果,肯定了Bert預(yù)訓(xùn)練模型的學(xué)術(shù)價值.Bert預(yù)訓(xùn)練模型主要包含輸入層和多層Transformer編碼層,其基本結(jié)構(gòu)圖如圖2所示.Bert的輸入層是通過詞向量(Token Embeddings)、段向量(Segment Embeddings)和位置向量(Position Embedings)3個部分求和組成,且給句子的句首句尾分別增加了[CLS]和[SEP]標(biāo)志位.Transformer編碼層是文獻[15]提出來的,包含了多個結(jié)構(gòu)相同的編碼器和解碼器,從編碼器輸入的句子會通過一個自注意力(Self-Attention)層,然后傳輸?shù)角梆伾窠?jīng)網(wǎng)絡(luò)(Feed-Forward Neural Network)中,解碼器中除了包含這兩層之外,在這兩層之間多了一個注意力層,以此來關(guān)注與輸入句子中相關(guān)的部分.Bert預(yù)訓(xùn)練模型的提出與傳統(tǒng)的Word2vec、Glove預(yù)訓(xùn)練模型相比,Bert能夠充分考慮詞上下文的信息,獲得更精確的詞向量.本文采用Google公開的預(yù)訓(xùn)練好的中文模型“Bert-Base,Chinese”獲取句子向量并作為模型的輸入.

      圖1 Bert-BiGRU-CNN模型結(jié)構(gòu)

      圖2 Bert模型結(jié)構(gòu)

      1.2 BiGRU層

      循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network)是一種處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),其每個時刻的預(yù)測結(jié)果不僅依賴當(dāng)前時刻的輸入,還依賴于所有之前時刻的中間結(jié)果.由于每次輸入都依賴之前的所有輸入,所以存在梯度消失(Vanishing Gradient)和梯度爆炸(Exploding Gradient)的問題.文獻[16]為了解決這個問題提出了LSTM(Long Short-Term Memory)網(wǎng)絡(luò).LSTM網(wǎng)絡(luò)中包含輸入門、遺忘門和輸出門.輸入門用來控制當(dāng)前狀態(tài)哪些信息應(yīng)該保存到內(nèi)部狀態(tài)中;遺忘門用來控制過去狀態(tài)中包含的信息是否應(yīng)該刪除;輸出門用來控制當(dāng)前內(nèi)部狀態(tài)下的多少信息需要傳輸?shù)酵獠繝顟B(tài)中.GRU網(wǎng)絡(luò)是LSTM網(wǎng)絡(luò)的一種簡化模型,GRU神經(jīng)網(wǎng)絡(luò)[17]與長短期記憶網(wǎng)絡(luò)(LSTM)相比,GRU網(wǎng)絡(luò)將LSTM中的輸入門與遺忘門替換為單一的更新門,更新門能夠決定從各個狀態(tài)中保留信息或者刪除信息,除此之外GRU網(wǎng)絡(luò)中還包含重置門,重置門是用來控制候選狀態(tài)的計算是否與上一狀態(tài)有依賴關(guān)系.GRU網(wǎng)絡(luò)的具體計算公式為:

      zt=σ(Wzxt+Uzht-1);

      (1)

      rt=σ(Wtxt+Utht-1);

      (2)

      (3)

      (4)

      其中:WZ,Wt,W,Uz,Ut,U表示權(quán)重矩陣;zt,rt分別表示為更新門與重置門;tanh表示激活函數(shù);xt表示當(dāng)前時刻的數(shù)據(jù)輸入;ht-1表示上一時刻的輸出;·表示矩陣點乘.

      1.3 CNN層

      卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為圖像領(lǐng)域的一種經(jīng)典網(wǎng)絡(luò)模型,近年來被廣泛應(yīng)用到自然語言處理領(lǐng)域中.本文在雙向門限循環(huán)單元層之后加入了卷積神經(jīng)網(wǎng)絡(luò)來進一步獲取語義的局部特征.主要由輸入層、卷積層、池化層、全連接層、輸出層5個部分構(gòu)成.

      (1) 輸入層.將雙向門限循環(huán)單元(BiGRU)的輸出作為輸入.

      (2) 卷積層.卷積運算包含一個卷積核w∈Rh×k,該濾波器被應(yīng)用于h字的窗口產(chǎn)生一個新的特征.例如,特征ci是從詞xi:i+h-1窗口產(chǎn)生的,公式為

      ci=f(w·xi:i+h-1+b).

      (5)

      其中:b是一個偏置項,f是一個非線性函數(shù),如雙曲正切等.·表示矩陣之間的點乘,將卷積核應(yīng)用到句子{x1:h,x2:h+1,…,xn-h+1:n}中生成特征圖

      c=[c1,c2,c3,…,cn-h+1].

      (6)

      (3) 池化層.池化層不僅能夠降維,還能保留特征和防止過擬合的現(xiàn)象發(fā)生.本文采用最大池化對卷積層之后得到的句子局部特征進行下采樣,獲得局部最優(yōu)值

      (7)

      (4) 輸出層.通過卷積神經(jīng)網(wǎng)絡(luò)層進一步獲取局部特征,輸出層采用Softmax分類器作為最后關(guān)系分類.

      本文利用雙向門限循環(huán)單元(BiGRU)層的輸出作為卷積神經(jīng)網(wǎng)絡(luò)的輸入層,通過卷積層進一步獲取語義的局部特征,池化層采用Max-Pool(最大值池化)來降低語義特征維度,減少了模型的參數(shù),保證了卷積層的輸出上獲得一個定長的全連接層的輸入.最后采用全連接層利用Softmax分類器進行分類.

      2 實驗部分

      2.1 數(shù)據(jù)集和實驗設(shè)置

      目前有關(guān)中文人物關(guān)系抽取的公開數(shù)據(jù)集比較少,因此本文通過在線知識庫復(fù)旦大學(xué)知識工廠實驗室研發(fā)的大規(guī)模通用領(lǐng)域結(jié)構(gòu)化百科CN-DBpedia來獲取實體對,CN-DBpedia中的數(shù)據(jù)主要從百度百科、互動百科、中文維基百科等網(wǎng)站的頁面文本中獲取.將確定好的實體對利用爬蟲技術(shù)在新浪、百度百科、互動百科等網(wǎng)站頁面中獲取包含實體對的句子,通過人工整理后,構(gòu)建出了人物關(guān)系數(shù)據(jù)集.該數(shù)據(jù)集包含了14類人物關(guān)系,10 155條實例數(shù)據(jù),數(shù)據(jù)格式為〈實體1 實體2 關(guān)系類別、包含實體1和實體2的句子〉.實驗采用隨機的方法將人物關(guān)系數(shù)據(jù)集中的8 124條實例數(shù)據(jù)作為訓(xùn)練集,2 031條實例數(shù)據(jù)作為測試集.每種關(guān)系類別的數(shù)量如表1所示,數(shù)據(jù)格式示例如表2所示.

      表1 關(guān)系類別數(shù)量

      其中關(guān)系類別中“unknow”表示除表中13種關(guān)系以外的關(guān)系,“同人”表示同一個人不同的名字.

      表2 數(shù)據(jù)示例

      實驗參數(shù)設(shè)置如表3所示.

      表3 實驗參數(shù)

      2.2 實驗方法和評價指標(biāo)

      為了驗證本文提出的模型在中文關(guān)系抽取數(shù)據(jù)集上的效果,以Bert預(yù)訓(xùn)練模型作為基線,分別在Bert預(yù)訓(xùn)練模型下加入雙向門限循環(huán)單元網(wǎng)絡(luò)與注意力機制的結(jié)合、雙向門限循環(huán)單元網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的結(jié)合、僅加入雙向門限循環(huán)單元網(wǎng)絡(luò)、僅加入卷積神經(jīng)網(wǎng)絡(luò),利用這種模型在同一數(shù)據(jù)集進行訓(xùn)練.實驗結(jié)果的評價方法采用宏精確率(P宏)、宏召回率(R宏)和F1宏值.公式如下:

      2.3 實驗對比設(shè)置

      在人物關(guān)系抽取實驗中設(shè)置了以下幾組對比實驗,包括以Bert作為基線任務(wù)的單一的模型和組合的模型的對比:

      (1) Baseline:采用Bert預(yù)訓(xùn)練模型作為基線模型.

      (2) Bert-BiGRU:在Bert預(yù)訓(xùn)練模型下加入雙向門限循環(huán)單元網(wǎng)絡(luò).

      (3) Bert-CNN:在Bert預(yù)訓(xùn)練模型下加入卷積神經(jīng)網(wǎng)絡(luò).

      (4) Bert-BiGRU-ATT:在Bert預(yù)訓(xùn)練模型下,加入雙向門限循環(huán)單元網(wǎng)絡(luò)和注意力機制網(wǎng)絡(luò).

      (5) Bert-BiGRU-CNN:在Bert預(yù)訓(xùn)練模型下,加入雙向門限循環(huán)單元網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò).

      2.4 實驗結(jié)果和分析

      為了驗證在Bert預(yù)訓(xùn)練模型下加入雙向門限循環(huán)單元網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)在人物關(guān)系抽取模型上的效果,利用表3設(shè)置的參數(shù)進行實驗,各個模型的實驗效果對比如表4所示.

      表4 不同模型的實驗對比

      通過表4對比發(fā)現(xiàn)在以Bert作為基線任務(wù)中,P宏為76.68%,R宏為67.65%;在基于Bert預(yù)訓(xùn)練模型的基礎(chǔ)上,僅加入雙向門限循環(huán)單元網(wǎng)絡(luò)(BiGRU)的模型P宏為81.84%,R宏為75.17%;僅加入卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)的P宏為84.80%,R宏為81.84%;加入雙向門限循環(huán)單元和注意力機制的網(wǎng)絡(luò)模型P宏為86.92%,R宏為83.31%;加入雙向門限循環(huán)單元和卷積神經(jīng)網(wǎng)絡(luò)的模型P宏為87.92%,R宏為86.79%.無論從P宏、R宏還是F1宏值上來看,在Bert預(yù)訓(xùn)練模型下加入雙向門限循環(huán)單元網(wǎng)絡(luò)與注意力機制的網(wǎng)絡(luò)模型要優(yōu)于僅有雙向門限循環(huán)單元網(wǎng)絡(luò)的模型和僅加入卷積神經(jīng)網(wǎng)絡(luò)的模型,加入雙向門限循環(huán)單元網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的模型獲得了最高的P宏、R宏和F1宏值.由此可以證明,在Bert預(yù)訓(xùn)練模型下,加入雙向門限循環(huán)單元網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的模型可以進一步提高在人物關(guān)系抽取數(shù)據(jù)集上關(guān)系抽取的準(zhǔn)確性.

      3 結(jié)束語

      本文通過在Bert預(yù)訓(xùn)練模型下,提出一種將雙向門限循環(huán)單元網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的網(wǎng)絡(luò)模型,利用Bert預(yù)訓(xùn)練模型獲取文本的詞向量,采用雙向門限循環(huán)單元和卷積神經(jīng)網(wǎng)絡(luò)來提取局部語義特征,實現(xiàn)人物關(guān)系的抽取分類.本文提出的Bert-BiGRU-CNN模型在構(gòu)造的人物關(guān)系抽取數(shù)據(jù)集與其他模型相比取得了最好的實驗效果,但是本文未考慮更細粒度的關(guān)系分類,如師生關(guān)系中誰是老師,誰是學(xué)生.因此下一步的研究是將充分考慮細粒度的人物關(guān)系抽取.

      猜你喜歡
      門限雙向實體
      雙向度的成長與自我實現(xiàn)
      出版人(2022年11期)2022-11-15 04:30:18
      基于規(guī)則的HEV邏輯門限控制策略
      地方債對經(jīng)濟增長的門限效應(yīng)及地區(qū)差異研究
      中國西部(2021年4期)2021-11-04 08:57:32
      隨機失效門限下指數(shù)退化軌道模型的分析與應(yīng)用
      前海自貿(mào)區(qū):金融服務(wù)實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      兩會進行時:緊扣實體經(jīng)濟“釘釘子”
      振興實體經(jīng)濟地方如何“釘釘子”
      一種軟開關(guān)的交錯并聯(lián)Buck/Boost雙向DC/DC變換器
      生產(chǎn)性服務(wù)業(yè)集聚與工業(yè)集聚的非線性效應(yīng)——基于門限回歸模型的分析
      湖湘論壇(2015年3期)2015-12-01 04:20:17
      电白县| 唐山市| 夏津县| 东乡县| 吉安县| 武冈市| 三明市| 鄱阳县| 梅州市| 金华市| 江门市| 宝清县| 芜湖市| 图木舒克市| 启东市| 沛县| 耒阳市| 铁岭市| 丰台区| 萍乡市| 波密县| 固始县| 通许县| 汉中市| 新平| 万山特区| 广宁县| 汝阳县| 巢湖市| 金华市| 龙游县| 江安县| 盱眙县| 扎鲁特旗| 东宁县| 新巴尔虎左旗| 安陆市| 酉阳| 家居| 旅游| 巍山|