郎春雨,侯 霞
(北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院,北京 100101)
在當(dāng)今信息爆炸的背景下,如何從非結(jié)構(gòu)化、復(fù)雜冗余的數(shù)據(jù)中獲取有效的信息至關(guān)重要。信息抽取是從非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)中自動(dòng)抽取信息的有效技術(shù),在信息檢索、問(wèn)答系統(tǒng)等任務(wù)中有廣泛應(yīng)用。實(shí)體關(guān)系抽取則是信息抽取重要的子任務(wù)之一,其目的在于抽取出一對(duì)或多對(duì)實(shí)體并判斷實(shí)體對(duì)之間是否存在某種語(yǔ)義關(guān)系。實(shí)體關(guān)系抽取分為流水式和聯(lián)合式抽取。聯(lián)合抽取[1-2]在一定程度上可以緩解流水式抽取的誤差累積問(wèn)題,但是其強(qiáng)行共享編碼可能會(huì)導(dǎo)致實(shí)體抽取的特征與關(guān)系抽取的特征出現(xiàn)過(guò)于一致或者相互沖突等情況[3]。
近年來(lái),借助于深度學(xué)習(xí)在特征提取和自動(dòng)學(xué)習(xí)上的優(yōu)勢(shì),基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取研究取得了不少成果[4-5]。但是,深度學(xué)習(xí)在實(shí)體關(guān)系抽取任務(wù)中需要大量正確標(biāo)注的語(yǔ)料進(jìn)行訓(xùn)練,對(duì)數(shù)據(jù)的依賴(lài)性影響了其實(shí)際應(yīng)用。遷移學(xué)習(xí)是將從相似領(lǐng)域?qū)W習(xí)到的知識(shí)應(yīng)用到目標(biāo)領(lǐng)域,可在一定程度上緩解實(shí)體關(guān)系抽取任務(wù)中訓(xùn)練數(shù)據(jù)缺乏的問(wèn)題。
遷移學(xué)習(xí)是機(jī)器學(xué)習(xí)的重要分支,它利用數(shù)據(jù)、任務(wù)或模型之間的相似性,讓模型通過(guò)已有的源域標(biāo)記數(shù)據(jù)向目標(biāo)域未標(biāo)記數(shù)據(jù)遷移,從而訓(xùn)練出適用于目標(biāo)域的模型。遷移學(xué)習(xí)包括4種基本方法[6]:樣本遷移,模型遷移,特征遷移和關(guān)系遷移。
基于樣本的遷移重復(fù)使用源域中的有標(biāo)簽數(shù)據(jù),訓(xùn)練出一個(gè)在目標(biāo)域中更準(zhǔn)確的模型。其中存在兩個(gè)關(guān)鍵問(wèn)題:一是如何從源域中篩選出與目標(biāo)域有相似分布的有標(biāo)簽樣本;二是如何利用這些樣本訓(xùn)練出準(zhǔn)確的目標(biāo)域上的理想模型。
第一種方法是基于樣本的非歸納式遷移,它利用源域有標(biāo)簽數(shù)據(jù)和目標(biāo)域無(wú)標(biāo)簽數(shù)據(jù)為目標(biāo)域未見(jiàn)數(shù)據(jù)訓(xùn)練出預(yù)測(cè)模型。通過(guò)對(duì)源域和目標(biāo)域的分布比值進(jìn)行估計(jì)得到樣本權(quán)重[7]。第二種是基于樣本的歸納式遷移,利用源域的有標(biāo)簽數(shù)據(jù)和目標(biāo)域一小部分有標(biāo)簽數(shù)據(jù),為目標(biāo)域訓(xùn)練預(yù)測(cè)模型。借鑒AdaBoost的思想,Dai等[8]提出TrAdaBoost,通過(guò)提高有利于目標(biāo)分類(lèi)任務(wù)的樣本權(quán)重、降低不利于目標(biāo)分類(lèi)任務(wù)的樣本權(quán)重,為目標(biāo)域?qū)W習(xí)集成分類(lèi)器。在實(shí)際場(chǎng)景中,基于樣本方法的源域和目標(biāo)域數(shù)據(jù)往往不重疊,而且某些特征只適用于源域,重新加權(quán)或采樣的樣本不能減少域間差異。為了解決這些問(wèn)題,引入基于特征的遷移方法。
基于特征的遷移將源域和目標(biāo)域的數(shù)據(jù)特征變換到統(tǒng)一的特征空間,然后使用變換后的數(shù)據(jù)在新的特征空間中訓(xùn)練目標(biāo)分類(lèi)器。同時(shí),需要將目標(biāo)域未見(jiàn)數(shù)據(jù)映射到新的特征空間,然后進(jìn)行預(yù)測(cè)。
第一種方法是最小化域間差異,識(shí)別不會(huì)導(dǎo)致域間差異的隱特征,并用它們表示源域數(shù)據(jù),從而獲得新特征訓(xùn)練目標(biāo)分類(lèi)器。如何學(xué)習(xí)域間隱特征十分重要,研究者們主要利用最大均值差異距離[9]最小化不同數(shù)據(jù)的分布差異,同時(shí)避免計(jì)算難和泛化難的問(wèn)題。第二種方法是學(xué)習(xí)通用特征,從若干個(gè)源域的無(wú)標(biāo)簽數(shù)據(jù)學(xué)習(xí)通用的高級(jí)特征,用高級(jí)特征表示目標(biāo)域有標(biāo)簽數(shù)據(jù),然后利用這些有標(biāo)簽數(shù)據(jù)訓(xùn)練分類(lèi)器。研究者們采用編碼器[10]來(lái)學(xué)習(xí)通用特征并增強(qiáng)這些特征的可解釋性。
基于模型的遷移也稱(chēng)基于參數(shù)的遷移,其假設(shè)源域與目標(biāo)域數(shù)據(jù)中存在一些可以共享的模型參數(shù),它的核心目標(biāo)是找到源域中哪部分有助于目標(biāo)域?qū)W習(xí)。
第一種是基于共享模型成分的遷移。Williams等[11]提出利用高斯過(guò)程在不同任務(wù)間共享知識(shí),依靠訓(xùn)練數(shù)據(jù)間的相似性,預(yù)測(cè)未見(jiàn)數(shù)據(jù)標(biāo)簽。第二是基于正則化的遷移。Yang等[12]提出的自適應(yīng)支持向量機(jī),成為后續(xù)研究的基礎(chǔ)。
基于深度學(xué)習(xí)的遷移模型逐漸出現(xiàn),參數(shù)微調(diào)是一種簡(jiǎn)單有效的模型參數(shù)的遷移方法。Long等[13]改進(jìn)了深度網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)在網(wǎng)絡(luò)中加入概率分布適配層,進(jìn)一步提高了深度遷移學(xué)習(xí)網(wǎng)絡(luò)對(duì)于大數(shù)據(jù)的泛化能力。
許多實(shí)際領(lǐng)域中存在樣本間的關(guān)系結(jié)構(gòu),基于關(guān)系的遷移要構(gòu)建源關(guān)系域和目標(biāo)關(guān)系域之間關(guān)系知識(shí)的映射,其假設(shè)源域和目標(biāo)域之間的關(guān)系具有共同的規(guī)律。Nickel等[14]借助馬爾科夫邏輯網(wǎng)絡(luò)來(lái)發(fā)現(xiàn)不同領(lǐng)域之間的關(guān)系相似性,從而進(jìn)行關(guān)系的遷移。
表1對(duì)遷移學(xué)習(xí)不同方法的適用場(chǎng)景進(jìn)行了總結(jié)。
表1 遷移學(xué)習(xí)方法的適用場(chǎng)景
遷移學(xué)習(xí)最初應(yīng)用在圖像領(lǐng)域,近些年被應(yīng)用到自然語(yǔ)言處理(natural language processing,NLP)領(lǐng)域且逐漸獲得了一些較好的成果。本節(jié)將主要總結(jié)遷移學(xué)習(xí)在實(shí)體抽取和關(guān)系抽取兩方面的研究進(jìn)展。
遷移學(xué)習(xí)在NLP領(lǐng)域通常被稱(chēng)為領(lǐng)域自適應(yīng)。因?yàn)樯窠?jīng)網(wǎng)絡(luò)是領(lǐng)域自適應(yīng)的基本模型,所以使用梯度下降法在源域和目標(biāo)域進(jìn)行模型優(yōu)化,然后進(jìn)行遷移是比較容易的。NLP中的遷移主要有兩種方法,分別是參數(shù)初始化和多任務(wù)學(xué)習(xí),在某些情況下可以混合使用,先在源域參數(shù)初始化進(jìn)行預(yù)訓(xùn)練,然后在源域和目標(biāo)域同時(shí)進(jìn)行多任務(wù)學(xué)習(xí)。其中參數(shù)初始化有兩種方式:參數(shù)凍結(jié)和參數(shù)微調(diào)。參數(shù)凍結(jié)是將源域訓(xùn)練的模型直接應(yīng)用到目標(biāo)域,不進(jìn)行任何修改;參數(shù)微調(diào)則將源域訓(xùn)練的模型部分層固定,目標(biāo)域?qū)W習(xí)剩余的層。當(dāng)目標(biāo)數(shù)據(jù)集規(guī)模遠(yuǎn)小于源數(shù)據(jù)集時(shí),參數(shù)凍結(jié)更優(yōu)[15],反之微調(diào)方法更優(yōu)[16]。
Qu等[17]通過(guò)共享詞匯和上下文特征,利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)源標(biāo)簽和目標(biāo)標(biāo)簽間的相關(guān)性,并對(duì)模型微調(diào)以學(xué)習(xí)目標(biāo)域特征的方式,在目標(biāo)域與源域標(biāo)簽不匹配的情況下,將在大型醫(yī)學(xué)源域訓(xùn)練的模型遷移至小型醫(yī)學(xué)目標(biāo)域。在強(qiáng)基線(xiàn)的基礎(chǔ)上,僅基于125個(gè)目標(biāo)域的訓(xùn)練句子,F(xiàn)1值提高了160%。Giorgi等[18]基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short time memory,LSTM)+條件隨機(jī)場(chǎng)(conditional random fields,CRF),將在大型、嘈雜的數(shù)據(jù)集上訓(xùn)練的模型遷移到很小但由人工標(biāo)注的數(shù)據(jù)集上,實(shí)體識(shí)別的錯(cuò)誤平均減少約11%,且F1值有效提升,顯著改善了生物醫(yī)學(xué)實(shí)體抽取的最新結(jié)果,也證明了遷移學(xué)習(xí)對(duì)具有少量標(biāo)簽(約6 000或更少)的目標(biāo)數(shù)據(jù)集是非常有效的。電子健康記錄大多以非結(jié)構(gòu)化形式存在,對(duì)其進(jìn)行實(shí)體抽取是NLP解決的典型問(wèn)題之一。為了保護(hù)患者信息,相關(guān)機(jī)構(gòu)在與研究者們共享信息前會(huì)去掉不同類(lèi)型的個(gè)人信息,如姓名、地址和電話(huà)號(hào)碼,這對(duì)實(shí)體抽取任務(wù)來(lái)說(shuō)會(huì)更加困難。Lee等[19]利用LSTM獲取字符特征,然后利用全連接網(wǎng)絡(luò)在大型源域訓(xùn)練模型,最后將其遷移到較小的目標(biāo)域,證明了對(duì)于標(biāo)簽數(shù)量較少的目標(biāo)域,遷移學(xué)習(xí)是有效的。電子健康記錄除了存在保密信息外,還存在格式錯(cuò)誤的速記和非廣泛使用的首字母縮略詞,這使得實(shí)體識(shí)別難度更大,Gligic等[20]利用源域?yàn)槟繕?biāo)域中未標(biāo)注的電子健康記錄提供預(yù)訓(xùn)練詞嵌入表示,然后基于雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(bi-directional LSTM,BiLSTM)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)等模型進(jìn)行遷移學(xué)習(xí),在I2b2(2009)數(shù)據(jù)集上算法的F1值達(dá)到了94.7%。
社交媒體上的用戶(hù)生成文本同樣存在數(shù)據(jù)缺失和語(yǔ)料少的問(wèn)題。Von等[21]基于英文Twitter數(shù)據(jù),通過(guò)合并句子級(jí)特征和利用不同于Twitter數(shù)據(jù)標(biāo)簽的數(shù)據(jù),基于BiLSTM+CRF進(jìn)行遷移學(xué)習(xí)。對(duì)于中文實(shí)體抽取任務(wù),不僅只有很少的標(biāo)注數(shù)據(jù)可用,而且語(yǔ)料處理時(shí)比英文更復(fù)雜。為了緩解WeiboNER數(shù)據(jù)集規(guī)模小、標(biāo)注數(shù)據(jù)少的問(wèn)題,Cao等[22]基于BiLSTM+CRF+對(duì)抗訓(xùn)練+自注意力機(jī)制進(jìn)行遷移,采用多任務(wù)學(xué)習(xí)的方式將新聞?lì)I(lǐng)域的模型遷移至社交媒體領(lǐng)域。其中對(duì)抗遷移學(xué)習(xí)充分利用任務(wù)共享邊界信息,自注意力機(jī)制捕獲兩個(gè)標(biāo)記之間的長(zhǎng)距離依賴(lài)關(guān)系。在兩個(gè)公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明該模型顯著優(yōu)于其他模型。
近些年基于深度神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練語(yǔ)言表示模型快速發(fā)展,如ELMO、BERT等。預(yù)訓(xùn)練的本質(zhì)就是要進(jìn)行遷移學(xué)習(xí),對(duì)于實(shí)體任務(wù)來(lái)說(shuō),研究者們更傾向于利用源域獲得預(yù)訓(xùn)練嵌入,然后對(duì)其他深度學(xué)習(xí)模型微調(diào)進(jìn)行跨領(lǐng)域遷移。預(yù)訓(xùn)練模型的參數(shù)遷移使得模型訓(xùn)練更快,并且使用很少的訓(xùn)練樣本就能達(dá)到特定的效果。
遷移學(xué)習(xí)在關(guān)系抽取方面獲得了不少成果。因缺乏藥物—疾病關(guān)系的標(biāo)注數(shù)據(jù)集,張宏濤[23]分別利用基于樣本和特征組的方法進(jìn)行關(guān)系抽取。基于樣本的方法采用TrAdaboost算法,對(duì)樣本權(quán)重進(jìn)行學(xué)習(xí)調(diào)整;基于特征組的方法,在特征級(jí)別上對(duì)源域中有利于目標(biāo)域的多個(gè)特征進(jìn)行學(xué)習(xí)并調(diào)整權(quán)重。以上兩種方法在多個(gè)不同數(shù)據(jù)集上的召回率和F1值相較于基線(xiàn)均有很大提升;同時(shí),基于特征組遷移比基于樣本遷移在召回率方面提升了10%以上,這是因?yàn)榛谔卣鹘M遷移選取了較為通用的特征,不需要更多領(lǐng)域性的知識(shí),所以通用性更強(qiáng)。在不同領(lǐng)域間進(jìn)行樣本遷移時(shí),由于樣本差異,利用TrAdaboost算法容易出現(xiàn)負(fù)遷移。針對(duì)標(biāo)注語(yǔ)料不足而導(dǎo)致蛋白質(zhì)交互關(guān)系抽取性能較差的問(wèn)題,李麗雙等[24]對(duì)TrAdaboost算法進(jìn)行了改進(jìn),通過(guò)調(diào)整源域已標(biāo)注數(shù)據(jù)集的樣本權(quán)重,使得模型學(xué)習(xí)有利于目標(biāo)域的樣本特征,得到了改進(jìn)算法DisTrAdaboost,并驗(yàn)證了改進(jìn)算法的收斂速度和抽取效果明顯優(yōu)于TrAdaboost,且有效避免了負(fù)遷移。在公開(kāi)數(shù)據(jù)集20newsgroups上的實(shí)驗(yàn)結(jié)果也證明了DisTrAdaboost能更好地使用源域數(shù)據(jù)輔助模型訓(xùn)練,加速收斂。
Di等[25]建立了領(lǐng)域感知的遷移方法,先提取目標(biāo)域詞匯特征,然后初始化實(shí)體關(guān)系的特征表示,再選取有利于目標(biāo)域的源域知識(shí)庫(kù)對(duì)實(shí)體關(guān)系表示進(jìn)行規(guī)范、細(xì)化與推斷,以DBpedia作為源域,Wiki-KBP和NYT作為目標(biāo)域,重新建立了新的知識(shí)庫(kù),并優(yōu)于所有最先進(jìn)的基線(xiàn)。Jiang[26]利用源域有標(biāo)簽樣本向目標(biāo)域遷移,因域間關(guān)系類(lèi)型不同,所以選擇共享模型權(quán)重在域間提取通用特征,然后再通過(guò)人工加以實(shí)體類(lèi)型約束信息,學(xué)習(xí)目標(biāo)關(guān)系類(lèi)型知識(shí)。在ACE2004數(shù)據(jù)集上的結(jié)果表明,將實(shí)體類(lèi)型信息與自動(dòng)選擇通用特征相結(jié)合,多任務(wù)遷移方法達(dá)到了最佳性能。于海濤[27]提出了一種基于BERT降噪的實(shí)體關(guān)系抽取模型:為了解決因遠(yuǎn)程監(jiān)督產(chǎn)生的噪聲問(wèn)題,通過(guò)在外部語(yǔ)料訓(xùn)練BERT,然后將BERT遷移至目標(biāo)任務(wù)進(jìn)行微調(diào);在BERT輸出后添加位置增強(qiáng)卷積層處理實(shí)體位置信息,彌補(bǔ)預(yù)訓(xùn)練任務(wù)與關(guān)系抽取任務(wù)的語(yǔ)義鴻溝,獲取BERT的全局文本表示;同時(shí)改進(jìn)選擇性注意力(selective attention)機(jī)制,設(shè)計(jì)了時(shí)間衰減注意力機(jī)制,在訓(xùn)練的過(guò)程中按時(shí)間衰減機(jī)制避免低置信的樣本,達(dá)到降噪效果,提升了模型的精度,在NYT-10和GIDS公開(kāi)數(shù)據(jù)集上表現(xiàn)出優(yōu)越的性能。
近年來(lái),大多數(shù)基于模型遷移的關(guān)系抽取都與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,通過(guò)在神經(jīng)網(wǎng)絡(luò)中加入領(lǐng)域適配層,然后聯(lián)合基于特征的遷移進(jìn)行訓(xùn)練。其中在基于特征遷移時(shí),大都采用特征選擇法,從源域和目標(biāo)域中,利用樣本遷移估計(jì)數(shù)據(jù)分布,通過(guò)數(shù)據(jù)分布自適應(yīng)來(lái)選擇可共享的特征。在低資源條件下進(jìn)行跨領(lǐng)域遷移時(shí),根據(jù)實(shí)際情況,可以一對(duì)一遷移,也可將多源域遷移至單一目標(biāo)域。
在實(shí)體和關(guān)系抽取研究中有一些常用數(shù)據(jù)集,表2對(duì)其中適合作為源領(lǐng)域的大型數(shù)據(jù)集進(jìn)行了匯總。
表2 實(shí)體和關(guān)系抽取中的常用數(shù)據(jù)集
遷移學(xué)習(xí)的核心問(wèn)題是找到兩個(gè)領(lǐng)域的相似性。但是如果兩個(gè)領(lǐng)域不相似或基本不相似,就會(huì)極大地影響遷移學(xué)習(xí)的效果,此種現(xiàn)象被稱(chēng)為負(fù)遷移。產(chǎn)生負(fù)遷移的原因主要有兩點(diǎn):首先是數(shù)據(jù)問(wèn)題,源域和目標(biāo)域數(shù)據(jù)不相似;其次是方法問(wèn)題,源域和目標(biāo)域數(shù)據(jù)相似,但是遷移方法不對(duì)。針對(duì)數(shù)據(jù)問(wèn)題,Tan等[28]提出了傳遞遷移學(xué)習(xí),其目標(biāo)是在源域和目標(biāo)域共享較少樣本或特征的情況下,引入一個(gè)與源域和目標(biāo)域都相似的領(lǐng)域作為中間域,從而實(shí)現(xiàn)3個(gè)領(lǐng)域間知識(shí)的遷移。Tan等[29]又提出了遠(yuǎn)域遷移學(xué)習(xí),將其擴(kuò)展到了多個(gè)領(lǐng)域,且極大地提升了算法的精度。針對(duì)方法問(wèn)題,需要利用合適的方式找到可遷移的部分,如DisTrAdaboost通過(guò)調(diào)整樣本權(quán)重有效地避免了負(fù)遷移。
在一般領(lǐng)域和醫(yī)學(xué)領(lǐng)域的實(shí)體關(guān)系抽取任務(wù)中,使用遷移學(xué)習(xí)可以在一定程度上有效緩解標(biāo)注語(yǔ)料不足的問(wèn)題,但仍需研究者們?cè)诟囝I(lǐng)域進(jìn)行不斷探索。通過(guò)對(duì)現(xiàn)有研究工作的探討與總結(jié),未來(lái)可從以下幾方面展開(kāi)研究:
1)深度遷移學(xué)習(xí)。利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行遷移越來(lái)越受到研究者的關(guān)注。深度遷移學(xué)習(xí)[30]分為4類(lèi):基于實(shí)例、基于映射、基于網(wǎng)絡(luò)和基于對(duì)抗的深度遷移。目前的研究主要集中在有監(jiān)督學(xué)習(xí)上,如何利用深度神經(jīng)網(wǎng)絡(luò)在無(wú)監(jiān)督或半監(jiān)督學(xué)習(xí)中進(jìn)行知識(shí)傳遞,將成為今后研究的熱點(diǎn)。
2)強(qiáng)化遷移學(xué)習(xí)。Taylor和Stone[31]定義了強(qiáng)化遷移學(xué)習(xí)的問(wèn)題,并將強(qiáng)化遷移學(xué)習(xí)分為3類(lèi):從單一源任務(wù)到目標(biāo)任務(wù)的固定域遷移、跨多個(gè)源任務(wù)到目標(biāo)任務(wù)的固定域遷移、源任務(wù)和目標(biāo)任務(wù)不同域遷移。強(qiáng)化遷移學(xué)習(xí)已經(jīng)在圖像翻譯[32]、知識(shí)圖譜[33]等領(lǐng)域中獲得較大成果,如何將強(qiáng)化遷移學(xué)習(xí)更好地應(yīng)用在實(shí)體關(guān)系抽取任務(wù)中,還需要進(jìn)行更深入的研究。
北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年1期