• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于高困惑樣本對(duì)比學(xué)習(xí)的隱式篇章關(guān)系識(shí)別

      2023-01-18 03:37:50竇祖俊徐旻涵陸煜翔周國(guó)棟
      中文信息學(xué)報(bào) 2022年11期
      關(guān)鍵詞:論元語(yǔ)義損失

      李 曉,洪 宇, 竇祖俊,徐旻涵,陸煜翔,周國(guó)棟

      (蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

      0 引言

      篇章關(guān)系識(shí)別旨在判斷兩個(gè)語(yǔ)言單元(子句、從句及文本塊等,簡(jiǎn)稱“論元”)之間的語(yǔ)義關(guān)系,其核心任務(wù)是形成可靠的論元表示和關(guān)系感知方法,對(duì)語(yǔ)義的深度表示和敏銳感知有著極高的要求。因此,篇章關(guān)系識(shí)別屬于自然語(yǔ)言處理(NLP)領(lǐng)域底層的關(guān)鍵基礎(chǔ)性研究。其對(duì)機(jī)器翻譯[1]、情感分析[2]、自動(dòng)文摘[3]和問(wèn)答系統(tǒng)[4]等NLP應(yīng)用層研究,有著極高的借鑒甚至輔助作用。

      篇章關(guān)系識(shí)別的處理對(duì)象是一個(gè)由論元和關(guān)系標(biāo)記形成的三元組{Arg1;R;Arg2}。通常,語(yǔ)序上置前的論元為Arg1,置后的論元為Arg2,關(guān)系R為待解的關(guān)系標(biāo)記。面向篇章關(guān)系識(shí)別研究,賓州篇章樹(shù)庫(kù)(Penn Discourse Treebank,PDTB)[5]提供了大規(guī)模權(quán)威的標(biāo)記數(shù)據(jù),其定義的論元關(guān)系體系共計(jì)包含三層,其中,層次最高的粗粒度關(guān)系類別涉及四項(xiàng),分別為:對(duì)比關(guān)系(Comparison)、偶然性關(guān)系(Contingency)、擴(kuò)展關(guān)系(Expansion)和時(shí)序關(guān)系(Temporal)。本文繼承前人的主要研究模式,面向四種粗粒度論元關(guān)系開(kāi)展二元和多元分類的研究。

      值得注意的是,PDTB根據(jù)是否存在連接詞,將篇章關(guān)系分為顯式篇章關(guān)系和隱式篇章關(guān)系。其中,顯式篇章關(guān)系在多元分類上的準(zhǔn)確率已達(dá)到96.02%,而隱式篇章關(guān)系的識(shí)別的準(zhǔn)確率則相去甚遠(yuǎn)(1)截至2021年末,現(xiàn)有前沿技術(shù)的最優(yōu)性能維持在70.17%的水平。。下文給出的例1即為一個(gè)隱式篇章關(guān)系的測(cè)試樣本,其可能的連接詞meanwhile(譯文:同時(shí))在真實(shí)樣本中為缺省項(xiàng),模型無(wú)法利用連接詞進(jìn)行直觀的關(guān)系預(yù)判,僅能通過(guò)充分理解、表示和感知論元的語(yǔ)義,促進(jìn)關(guān)系判別器做出正確預(yù)測(cè)。本文將集中在隱式篇章關(guān)系識(shí)別這一任務(wù)上開(kāi)展研究。

      例1[Arg1]:Valley Federal is currently being examined by regulators

      (譯文: 聯(lián)邦目前正在接受監(jiān)管機(jī)構(gòu)的審查)

      [Arg2]:meanwhilenew loans continue to slow

      (譯文:與此同時(shí)新貸款繼續(xù)放緩)

      [篇章關(guān)系]:Temporal.Synchrony.

      現(xiàn)有基于監(jiān)督學(xué)習(xí)的論元關(guān)系分類方法,往往受限于訓(xùn)練樣本數(shù)量不足的問(wèn)題,無(wú)法充分發(fā)揮其在語(yǔ)義特征編碼和感知層面的優(yōu)勢(shì)。前人[6-7]往往采用數(shù)據(jù)擴(kuò)展的方法,彌補(bǔ)可觀測(cè)樣本總量的缺口。這類方法能夠引入知識(shí)面較寬、特征多樣性較高的外部數(shù)據(jù),從而優(yōu)化監(jiān)督學(xué)習(xí)過(guò)程,且提升神經(jīng)網(wǎng)絡(luò)模型的健壯性。然而,外部數(shù)據(jù)不僅包含符合關(guān)系分類的高質(zhì)量樣本,也包含未經(jīng)校驗(yàn)且質(zhì)量偏低的噪聲樣本。使得數(shù)據(jù)擴(kuò)展帶來(lái)的性能優(yōu)化存在一定的不確定性(高噪聲數(shù)據(jù)反而誤導(dǎo)監(jiān)督學(xué)習(xí))。

      針對(duì)上述問(wèn)題,本文嘗試將對(duì)比學(xué)習(xí)方法引入論元關(guān)系分類模型的訓(xùn)練過(guò)程。對(duì)比學(xué)習(xí)可以在類別標(biāo)記不可見(jiàn)的情況下,依據(jù)訓(xùn)練樣本本身的屬性,對(duì)其在高維語(yǔ)義表示空間上的分布特點(diǎn)進(jìn)行學(xué)習(xí)和應(yīng)用。具體而言,對(duì)比學(xué)習(xí)方法能夠利用樣本間語(yǔ)義屬性的近似性度量,自動(dòng)探尋相似于目標(biāo)樣本的實(shí)例以及具有較高差異的其他實(shí)例,從而有利于監(jiān)督在學(xué)習(xí)過(guò)程中調(diào)整神經(jīng)網(wǎng)絡(luò)模型的內(nèi)核(即參數(shù)矩陣),使之善于在高維語(yǔ)義表示空間中聚攏相似實(shí)例,驅(qū)離非相似實(shí)例。也因此,對(duì)比學(xué)習(xí)不僅有助于數(shù)據(jù)稀疏情況下的模型優(yōu)化,也可與數(shù)據(jù)擴(kuò)展相互協(xié)作,在保證新增正例的額外監(jiān)督作用下,降低噪聲的負(fù)面影響?;谶@一優(yōu)勢(shì),本文將簡(jiǎn)單對(duì)比學(xué)習(xí)(SimpleContrastiveLearning,SimCSE)[8]方法引入論元的語(yǔ)義編碼和關(guān)系分類過(guò)程。現(xiàn)有研究[8]已證實(shí),SimCSE能夠優(yōu)化文本的語(yǔ)義編碼,提升正負(fù)例樣本在語(yǔ)義表示空間上的劃分。

      例2[Arg1]:UAL Corp. is a good example

      (譯文: UAL公司就是一個(gè)很好的例子)

      [Arg2]:becauseValued as a buy-out target, the airline stock was trading at nearly $280 a share

      (譯文:因?yàn)楸还乐倒咀鳛槭召?gòu)目標(biāo),該航空公司的股票交易價(jià)格接近每股280美元)

      [篇章關(guān)系]:Contingency.Cause.Reason

      例3 [Arg1]:Valued as a buy-out target, the airline stock was trading at nearly $280 a share

      (譯文: 被估值公司作為收購(gòu)目標(biāo),該航空公司的股票交易價(jià)格接近每股280美元)

      [Arg2]:ThenWhen the deal ran into trouble, the stock tumbled

      (譯文:然后當(dāng)交易陷入困境,該公司股價(jià)暴跌)

      [篇章關(guān)系]: Temporal.Asynchronous.

      盡管對(duì)比學(xué)習(xí)方法(如本文引入的SimCSE)具有上述優(yōu)勢(shì),使其在論元語(yǔ)義編碼的訓(xùn)練過(guò)程中,有著較高的應(yīng)用價(jià)值。但是,觀察發(fā)現(xiàn)對(duì)比學(xué)習(xí)在區(qū)分困惑負(fù)樣本的過(guò)程中仍存在不足。然而,PDTB篇章關(guān)系分類數(shù)據(jù)集卻蘊(yùn)含著困惑度樣本,使得對(duì)比學(xué)習(xí)的直接應(yīng)用面臨可預(yù)見(jiàn)的瓶頸。具體而言,PDTB語(yǔ)料中某些目標(biāo)關(guān)系類的樣本,與非目標(biāo)關(guān)系類的樣本存在較高的語(yǔ)用重疊現(xiàn)象(即用詞的一致性較高),其構(gòu)成了高困惑度樣本群。如上述例2和例3所示(假設(shè)例2中的論元對(duì)屬于目標(biāo)關(guān)系類別,例3的論元對(duì)則是非目標(biāo)關(guān)系類別)。觀測(cè)發(fā)現(xiàn),例2中Arg2的文本和例3的Arg1有部分語(yǔ)用重疊,使得兩個(gè)論元對(duì)互為困惑樣本。其“困惑”的根源是: ①樣本之間存在語(yǔ)用重疊現(xiàn)象,兩者在語(yǔ)義上較為相似; ②兩個(gè)樣本的關(guān)系類別是不同的。在SimCSE中,目標(biāo)樣本的對(duì)比實(shí)例來(lái)源于批次內(nèi)的其他樣本,這些對(duì)比樣本中困惑樣本的比例較低,使得模型在困惑樣本上的區(qū)分度較低。

      針對(duì)這一問(wèn)題,本文進(jìn)一步提出了面向PDTB中高困惑樣本的對(duì)比學(xué)習(xí)(Contrastive Learning with Confused Samples,CL-CFS)優(yōu)化方法。該方法將有效利用條件變分自編碼器(Conditional Variational Auto Encoder,CVAE)[9]提升對(duì)比樣本中高困惑樣本的占比,其核心思想是借助CVAE生成困惑樣本的變種,并將該變種作為目標(biāo)樣本在對(duì)比學(xué)習(xí)中的對(duì)比對(duì)象。在CL-CFS方法的訓(xùn)練中,不斷拉開(kāi)目標(biāo)樣本和高困惑樣本在語(yǔ)義表示空間上的距離,從而提高模型對(duì)高困惑樣本的辨識(shí)能力。在此基礎(chǔ)上,本文采用三元組損失函數(shù)(Triplet loss)[10]作為對(duì)比學(xué)習(xí)的損失函數(shù)。該損失函數(shù)可通過(guò)間隔值的設(shè)置,過(guò)濾語(yǔ)義相似度差異較大的簡(jiǎn)單負(fù)樣本,增加模型對(duì)困惑負(fù)樣本的關(guān)注度。

      本文采用篇章關(guān)系分析的公開(kāi)語(yǔ)料集PDTB進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,SimCSE方法獲得優(yōu)于基線模型的實(shí)驗(yàn)性能,該方法在Comparison、Expansion以及Temporal關(guān)系上在F1值上分別取得2.0%、1.45%、4.62%的性能提升。特別地,本文提出的CL-CFS相較于SimCSE方法獲得了進(jìn)一步的性能提升,其在Comparison、Contingency、Expansion以及Temporal關(guān)系上分別取得2.68%、3.77%、1.69%、8.15%的F1值性能提升??傮w上,本文的主要貢獻(xiàn)包含如下兩個(gè)方面:

      (1) 首次將對(duì)比學(xué)習(xí)機(jī)制引入面向論元關(guān)系分類的研究,并取得了顯著的性能提升。

      (2) 根據(jù)對(duì)比學(xué)習(xí)的工作原理和PDTB數(shù)據(jù)的固有性質(zhì),開(kāi)展了適應(yīng)性研究,研究側(cè)重分析現(xiàn)有對(duì)比學(xué)習(xí)方法在高困惑樣本中的缺陷。特別地,提出了CL-CFS方法,充分利用CVAE的變種生成優(yōu)勢(shì),實(shí)現(xiàn)了對(duì)比學(xué)習(xí)對(duì)象的遷移。同時(shí),結(jié)合對(duì)比學(xué)習(xí)的訓(xùn)練過(guò)程,提高模型在表征高困惑樣本語(yǔ)義上的準(zhǔn)確性。

      本文組織結(jié)構(gòu)如下: 第1節(jié)介紹隱式篇章關(guān)系識(shí)別的相關(guān)工作;第2節(jié)介紹基于高困惑樣本對(duì)比的學(xué)習(xí)方法;第3節(jié)介紹本文所用的數(shù)據(jù)集、實(shí)驗(yàn)設(shè)置、實(shí)驗(yàn)結(jié)果,以及對(duì)實(shí)驗(yàn)結(jié)果的可解釋分析;第4節(jié)總結(jié)全文并展望未來(lái)工作。

      1 相關(guān)工作

      現(xiàn)有隱式篇章關(guān)系識(shí)別的研究主要從兩個(gè)方向出發(fā): 對(duì)現(xiàn)有數(shù)據(jù)集進(jìn)行擴(kuò)展和構(gòu)建較為復(fù)雜的分類模型學(xué)習(xí)論元的表征。其中模型構(gòu)建分為基于語(yǔ)義特征的傳統(tǒng)機(jī)器學(xué)習(xí)和基于神經(jīng)網(wǎng)絡(luò)的論元表示模型。

      1.1 基于數(shù)據(jù)集擴(kuò)充的隱式篇章關(guān)系識(shí)別

      語(yǔ)料資源規(guī)模小的問(wèn)題一直是隱式篇章關(guān)系識(shí)別的研究難點(diǎn)之一,該問(wèn)題使得模型無(wú)法獲得豐富的論元語(yǔ)義特征。研究者們嘗試使用數(shù)據(jù)擴(kuò)充的方法來(lái)緩解這個(gè)問(wèn)題。

      很多研究者按照一定的規(guī)則挖掘外部數(shù)據(jù)資源,嘗試為模型提供更加豐富的語(yǔ)義特征。如Xu等[6]用連接詞匹配外部數(shù)據(jù)并將擴(kuò)充數(shù)據(jù)里的連接詞去掉作為偽隱式語(yǔ)料,同時(shí)結(jié)合主動(dòng)學(xué)習(xí)方法,從偽隱式語(yǔ)料中抽取出信息含量豐富的樣本加入訓(xùn)練集,提升了模型的分類性能。朱珊珊等[7]以論元向量為線索,從外部數(shù)據(jù)資源中挖掘出“平行訓(xùn)練樣本集”。該樣本集在語(yǔ)義和關(guān)系上與原始語(yǔ)料是一致的。Varia等[11]通過(guò)構(gòu)建外部數(shù)據(jù)集擴(kuò)展語(yǔ)料,并引入詞對(duì)卷積,捕獲顯式或隱式關(guān)系分類的論元之間的相互作用。

      此外,一些研究者在數(shù)據(jù)擴(kuò)充上提供了不一樣的思路?;谥杏㈦p語(yǔ)語(yǔ)料中存在的“隱式/顯式不匹配”現(xiàn)象,Wu等[12]從大量中英雙語(yǔ)句子對(duì)齊的語(yǔ)料中提取出偽隱式樣本,緩解了隱式篇章關(guān)系語(yǔ)料規(guī)模較小的問(wèn)題。Lan等[13]將注意力神經(jīng)網(wǎng)絡(luò)模型集成到一個(gè)多任務(wù)學(xué)習(xí)框架中,利用大量未標(biāo)記數(shù)據(jù)輔助隱式篇章關(guān)系識(shí)別。特別地,Dou等[14]在隱式篇章關(guān)系識(shí)別中使用自監(jiān)督學(xué)習(xí)方法,該研究采用CVAE[9]進(jìn)行數(shù)據(jù)增強(qiáng),并聯(lián)合注意力機(jī)制學(xué)習(xí)獲得較好的性能提升。

      1.2 基于論元表示學(xué)習(xí)的隱式篇章關(guān)系識(shí)別

      由于外部語(yǔ)料擴(kuò)展數(shù)據(jù)的方法面臨數(shù)據(jù)獲取困難和數(shù)據(jù)噪聲較多的問(wèn)題,因此,一些研究采用了新的研究思路,從有限的數(shù)據(jù)集中學(xué)習(xí)深層的論元語(yǔ)義表征,為模型提供可靠的分類線索。

      1.2.1 基于傳統(tǒng)機(jī)器學(xué)習(xí)獲得論元表征

      早期研究工作主要側(cè)重于基于語(yǔ)義特征的傳統(tǒng)機(jī)器學(xué)習(xí)模型。如Pitler等[15]以詞對(duì)、動(dòng)詞類型等為分類特征,首次在PDTB的四大關(guān)系上取得了不錯(cuò)的性能。Lin等[16]將上下文、句法結(jié)構(gòu)以及依存結(jié)構(gòu)特征應(yīng)用于隱式篇章關(guān)系識(shí)別中。

      1.2.2 基于神經(jīng)網(wǎng)絡(luò)的論元表示模型

      大量研究表明,神經(jīng)網(wǎng)絡(luò)能更好地挖掘句法和語(yǔ)義信息。如Zhang等[17]提出一種淺層卷積神經(jīng)網(wǎng)絡(luò),緩解了隱式篇章關(guān)系識(shí)別中的過(guò)擬合問(wèn)題。Liu等[18]基于卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)論元的表示,同時(shí)融合多任務(wù)學(xué)習(xí)思想,以隱式篇章關(guān)系分類為主任務(wù),顯式篇章關(guān)系和連接詞分類任務(wù)為輔助任務(wù)來(lái)提升模型的性能。值得注意的是,Qin等[19]提出了一種基于特征模擬的新型連接詞開(kāi)采方案,建立一個(gè)對(duì)抗網(wǎng)絡(luò)框架,得到近似擴(kuò)展了連接詞的論元對(duì)表示。Bai和Zhao[20]結(jié)合不同粒度下的語(yǔ)義表征提高了論元對(duì)的表示能力。Dai和Huang[21]構(gòu)建了段落級(jí)神經(jīng)網(wǎng)絡(luò)模型,對(duì)篇章單元之間的相互依賴性以及篇章關(guān)系的連續(xù)性進(jìn)行建模。Nguyen等[22]在Bai和Zhao[20]的基礎(chǔ)上,采用多任務(wù)學(xué)習(xí)框架同時(shí)預(yù)測(cè)了關(guān)系和連接詞,接著將篇章關(guān)系和連接詞同時(shí)嵌入到相同的空間,并通過(guò)映射在兩個(gè)預(yù)測(cè)任務(wù)中實(shí)現(xiàn)知識(shí)遷移。除此之外,Zhang等[23]提出了一種語(yǔ)義圖卷積網(wǎng)絡(luò),首次使用圖形結(jié)構(gòu)來(lái)建模論元對(duì)的語(yǔ)義交互,在兩個(gè)論元的表示上構(gòu)建交互圖,然后通過(guò)圖卷積自動(dòng)提取深度語(yǔ)義交互信息。Ruan等[24]使用雙通道網(wǎng)絡(luò)開(kāi)發(fā)了一個(gè)傳播性注意力學(xué)習(xí)模型。Li等[25]針對(duì)注意力學(xué)習(xí)模型存在權(quán)值分布過(guò)于平滑的問(wèn)題,提出基于懲罰注意力權(quán)重方差的方法。Liu等[26]使用多視角余弦相似度匹配論元,并融合多頭注意力和門控機(jī)制來(lái)深入理解論元。

      2 基于高困惑樣本的對(duì)比學(xué)習(xí)方法

      針對(duì)現(xiàn)有模型對(duì)論元的語(yǔ)義表征不準(zhǔn)確以及對(duì)PDTB語(yǔ)料中困惑樣本區(qū)分能力較差的問(wèn)題,本文提出CL-CFS方法,該方法首先構(gòu)建正負(fù)例樣本。其采用CVAE[9]生成高困惑樣本作為目標(biāo)實(shí)例的負(fù)樣本,同時(shí)基于SimCSE構(gòu)建正負(fù)例樣本。接著,基于CL-CFS的對(duì)比損失,使得模型能夠?qū)W習(xí)到正樣本對(duì)之間的共同特征,并不斷區(qū)分正負(fù)樣本之間的差異。本文的研究結(jié)果表明,CL-CFS能夠使得模型在正負(fù)例樣本上獲得更加準(zhǔn)確且在不同類別樣本上具有差異化的語(yǔ)義表示。

      本節(jié)首先介紹模型的整體結(jié)構(gòu),然后對(duì)每個(gè)模塊的設(shè)計(jì)思路展開(kāi)詳細(xì)描述,并給出整個(gè)模型的訓(xùn)練方式。

      2.1 總體結(jié)構(gòu)

      本文提出基于高困惑樣本對(duì)比學(xué)習(xí)的隱式篇章關(guān)系識(shí)別,圖1是總體模型框架圖。該模型主要分為以下四個(gè)部分: ①本文使用RoBERTa模型對(duì)輸入的論元對(duì)(Arg1和Arg2)進(jìn)行編碼,獲得論元對(duì)融合上下文的編碼表示。②通過(guò)本文提出的CL-CFS方法提升模型表征論元語(yǔ)義的準(zhǔn)確性,從而獲得更加接近論元真實(shí)語(yǔ)義的編碼表示。③將更新后的論元對(duì)表示輸入基礎(chǔ)篇章關(guān)系分類器,通過(guò)全連接層和softmax層進(jìn)行關(guān)系分類。④在實(shí)驗(yàn)中,本文采用損失聯(lián)合優(yōu)化的訓(xùn)練方式,將對(duì)比學(xué)習(xí)的損失和篇章關(guān)系分類的損失相加,進(jìn)行聯(lián)合優(yōu)化。

      圖1 總體模型框架圖

      2.2 編碼層

      對(duì)于隱式篇章關(guān)系識(shí)別語(yǔ)料中的一個(gè)論元對(duì)Arg1和Arg2,本文首先通過(guò)Byte-PairEncoding將其切分為子詞序列,如式(1)、式(2)所示。

      本文使用預(yù)訓(xùn)練模型RoBERTa對(duì)論元對(duì)進(jìn)行編碼,模型的輸入X如式(3)所示。輸入X經(jīng)過(guò)RoBERTa模型編碼后輸出的隱狀態(tài)向量H如式(4)所示。

      2.3 增強(qiáng)高困惑樣本的對(duì)比學(xué)習(xí)方法

      對(duì)比學(xué)習(xí)的核心目標(biāo)是,通過(guò)數(shù)據(jù)增廣方法構(gòu)建正負(fù)樣本,同時(shí)訓(xùn)練一個(gè)能較為準(zhǔn)確地分辨正負(fù)樣本的模型。通過(guò)這個(gè)模型,使得正樣本對(duì)在語(yǔ)義表示空間上的距離更加接近,而正負(fù)例樣本之間的距離盡可能遠(yuǎn)?;谏鲜瞿繕?biāo),CL-CFS首先構(gòu)建正負(fù)例樣本,樣本構(gòu)建的過(guò)程如圖2所示。接著,利用對(duì)比學(xué)習(xí)的損失使得模型獲得能夠區(qū)分正負(fù)例樣本的差異化語(yǔ)義表示。

      圖2 SimCSE和CL-CFS的樣本構(gòu)建

      2.3.1 SimCSE構(gòu)建正負(fù)樣本

      2.3.2 CVAE構(gòu)建高困惑負(fù)樣本

      從圖2可以看出,在現(xiàn)有模型的語(yǔ)義表示空間中,高困惑負(fù)樣本和對(duì)應(yīng)的正樣本距離較近,使得模型難以分辨。SimCSE的負(fù)樣本選自批次內(nèi)的其他樣本,這些樣本具有較強(qiáng)的隨機(jī)性,且高困惑負(fù)樣本的比例較低。其中,部分樣本與輸入樣本的標(biāo)簽相同,強(qiáng)行作為負(fù)樣本使得模型難以收斂。此外,隨機(jī)選取的負(fù)樣本通常和原始樣本在語(yǔ)義上差別很大,使得模型僅能分辨相似度差異很大的樣本。從以上分析可得,基于SimCSE方法的模型在高困惑樣本上的辨別能力較低。

      因此,本文提出采用CVAE生成高困惑樣本作為對(duì)比學(xué)習(xí)中目標(biāo)樣本的負(fù)樣本。其中,高困惑樣本有以下兩個(gè)特性: ①與原始樣本的標(biāo)簽不同; ②與原始樣本語(yǔ)義相似。

      CVAE采用變分推斷的方式來(lái)構(gòu)建樣本。與VAE不同,CVAE不再是直接從高斯分布p(Z)=N(0,1)中直接采樣,而是從p(Z|Y)中進(jìn)行采樣,Y是標(biāo)簽向量。同時(shí),解碼器需要重構(gòu)的是(Y|R)而不是R。本文將CVAE的編碼器表示為后驗(yàn)分布qφ(Z|R,Y),解碼器由生成分布pθ(R|Z)來(lái)表示。其中,R是輸入變量,Z是隱變量,φ和θ是學(xué)習(xí)參數(shù)。CVAE訓(xùn)練中的損失函數(shù)如式(7)所示。

      其中,第一項(xiàng)是樣本的重構(gòu)損失,F(xiàn)是指均方誤差。第二項(xiàng)使用的是KL散度,用來(lái)度量隱藏向量與結(jié)合樣本標(biāo)簽的單位高斯分布的差異。進(jìn)一步地,為了優(yōu)化KL散度,CVAE采用參數(shù)重構(gòu)的技巧,不再產(chǎn)生一個(gè)隱藏向量,而是生成兩個(gè)向量,分別是均值和標(biāo)準(zhǔn)差向量。在訓(xùn)練過(guò)程中,CVAE通過(guò)標(biāo)簽向量的約束改變隱藏變量的均值,進(jìn)而控制其采樣的位置,最后控制生成高困惑負(fù)樣本。

      2.3.3 對(duì)比學(xué)習(xí)正負(fù)樣本的差異

      在對(duì)比學(xué)習(xí)的訓(xùn)練中,通過(guò)對(duì)比學(xué)習(xí)的損失函數(shù),使得模型不斷學(xué)習(xí)正負(fù)例樣本之間的差異。SimCSE中使用的損失函數(shù)是噪聲對(duì)比估計(jì)(Noise Contrastive Estimation,NCE)[27],如式(8)所示。

      NCE的目標(biāo)是縮小正樣本對(duì)之間的距離,拉大正樣本和負(fù)樣本之間的距離。從式(8)可以看出,NCE試圖通過(guò)溫度系數(shù)來(lái)關(guān)注困難負(fù)例,但其依賴于參數(shù)值的設(shè)置。因此,NCE并未真正緩解SimCSE方法構(gòu)建的負(fù)樣本有大量噪聲的問(wèn)題。

      因此,本文提出使用Triplet loss[10]作為對(duì)比學(xué)習(xí)訓(xùn)練中的損失函數(shù),如式(9)~式(12)所示。

      其中,δ是樣本之間的cosine相似度,δ1是正樣本對(duì)之間的相似度得分,δ2指正負(fù)樣本之間相似度得分。γ代表真實(shí)的標(biāo)簽,這里采用無(wú)監(jiān)督的學(xué)習(xí)方法,因此γ值為1。margin是超參數(shù),其用來(lái)設(shè)置參與訓(xùn)練的正負(fù)樣本之間的最大得分間隔。

      分析式(9)可知,Triplet loss的計(jì)算過(guò)程是將正例對(duì)之間的相似度分?jǐn)?shù)和增強(qiáng)的“高困惑的負(fù)樣本”相似度分?jǐn)?shù)進(jìn)行相減,并將差值與margin(本文設(shè)置為0.2)進(jìn)行對(duì)比,當(dāng)分?jǐn)?shù)差值大于margin值時(shí),損失值為0,大于0且小于margin值時(shí),損失為分?jǐn)?shù)差值。換言之,使用Triplet loss可以將與正樣本語(yǔ)義相似度得分差值很大的簡(jiǎn)單負(fù)樣本從參與訓(xùn)練的樣本中篩除。因此,Triplet loss緩解了NCE中出現(xiàn)的簡(jiǎn)單負(fù)樣本過(guò)多導(dǎo)致的模型收斂過(guò)快的問(wèn)題。進(jìn)一步地,Triplet loss保留大量與正樣本相似度差值較小的困惑負(fù)樣本作為對(duì)比學(xué)習(xí)的訓(xùn)練數(shù)據(jù),提高模型對(duì)高困惑負(fù)樣本的辨識(shí)能力。

      2.4 分類層

      2.5 損失聯(lián)合優(yōu)化

      如圖1的模型框架圖所示,本文采用損失聯(lián)合優(yōu)化的訓(xùn)練方式,將隱式篇章關(guān)系分類的損失和基于高困惑樣本對(duì)比學(xué)習(xí)的損失進(jìn)行聯(lián)合優(yōu)化。通過(guò)對(duì)比學(xué)習(xí)獲得更準(zhǔn)確的論元語(yǔ)義表征,在此基礎(chǔ)上,共同優(yōu)化模型的分類損失,使得模型更好地感知論元之間的關(guān)系類型。

      2.5.1 隱式篇章關(guān)系識(shí)別的分類損失

      基于提升隱式篇章關(guān)系的分類能力的目標(biāo),我們首先微調(diào)RoBERTa模型,獲取輸入論元對(duì)的向量表示,接著將論元對(duì)的表示輸入全連接層和softmax層后得到輸出的預(yù)測(cè)概率。然后通過(guò)計(jì)算預(yù)測(cè)概率與真實(shí)類別標(biāo)簽之間的交叉熵?fù)p失訓(xùn)練分類模型。交叉熵?fù)p失如式(14)所示。

      2.5.2 基于高困惑樣本對(duì)比學(xué)習(xí)的損失

      為了緩解現(xiàn)有模型在高困惑樣本上語(yǔ)義表示的偏差,本文提出CL-CFS,使用CVAE生成高困惑負(fù)樣本,并結(jié)合SimCSE生成的正負(fù)例樣本,一起應(yīng)用到對(duì)比學(xué)習(xí)的訓(xùn)練過(guò)程中。

      在模型訓(xùn)練中,CL-CFS采用損失聯(lián)合優(yōu)化的訓(xùn)練方式,同時(shí)優(yōu)化基于高困惑樣本對(duì)比學(xué)習(xí)中的損失Lt[如式(9)所示]和基于CVAE生成高困惑樣本的損失LC[如式(7)所示]。具體地,在優(yōu)化CVAE生成高困惑負(fù)樣本以增強(qiáng)對(duì)比學(xué)習(xí)數(shù)據(jù)的迷惑性的同時(shí),聯(lián)合優(yōu)化對(duì)比學(xué)習(xí)的訓(xùn)練損失,使得構(gòu)建的正負(fù)樣本發(fā)揮更多的作用。因此,CL-CFS的損失函數(shù)如式(15)所示。

      其中,α,β∈(0,1]表示權(quán)重參數(shù),其值越大表明任務(wù)在訓(xùn)練中的關(guān)注度越高。

      2.5.3 損失函數(shù)聯(lián)合優(yōu)化

      基于高困惑對(duì)比學(xué)習(xí)的隱式篇章關(guān)系識(shí)別的研究目標(biāo)是通過(guò)CL-CFS方法,使得現(xiàn)有模型獲得更準(zhǔn)確的論元語(yǔ)義表示,并將優(yōu)化后的論元表示輸入分類器,進(jìn)而感知論元之間的關(guān)系。

      基于上述訓(xùn)練目標(biāo),本文采用損失聯(lián)合優(yōu)化的訓(xùn)練方式(如圖1所示),共同優(yōu)化隱式篇章關(guān)系分類的損失和基于困惑樣本對(duì)比學(xué)習(xí)的損失。因此,整個(gè)模型的損失函數(shù)如式(16)所示。

      其中,LCL-CFS是CL-CFS方法的訓(xùn)練損失,LClassification是隱式篇章關(guān)系分類的損失。在實(shí)驗(yàn)中,通過(guò)調(diào)節(jié)權(quán)重參數(shù)和將兩者進(jìn)行融合。

      3 實(shí)驗(yàn)

      本節(jié)介紹實(shí)驗(yàn)中的相關(guān)配置,包括使用的數(shù)據(jù)集、參數(shù)設(shè)置、實(shí)驗(yàn)設(shè)置以及對(duì)實(shí)驗(yàn)結(jié)果的可解釋性分析。

      3.1 實(shí)驗(yàn)數(shù)據(jù)

      本文在PDTB[5]數(shù)據(jù)集上驗(yàn)證基于CL-CFS的方法在隱式篇章關(guān)系識(shí)別中的有效性,為了與前人工作保持一致,本文將Sec 02-20作為訓(xùn)練集,Sec 00-01作為開(kāi)發(fā)集,Sec 21-22作為測(cè)試集,其中,所有樣本的關(guān)系類別可能是Comparison(COM.),Contingency(CON.),Expansion(EXP.)和Temporal(TEM.)四種關(guān)系其中的一種,每種關(guān)系在語(yǔ)料中的分布情況如表1所示。

      表1 PDTB四大類隱式篇章關(guān)系數(shù)據(jù)分布

      從表1中可以看出,PDTB的數(shù)據(jù)規(guī)模較小,同時(shí)在各關(guān)系類別上的數(shù)據(jù)分布上不均衡。例如,Expansion關(guān)系的樣本數(shù)量遠(yuǎn)遠(yuǎn)超過(guò)Temporal的樣本數(shù)量。因此,僅僅使用多元關(guān)系分類器對(duì)所有關(guān)系的樣本進(jìn)行整體評(píng)測(cè),會(huì)對(duì)數(shù)據(jù)量小的樣本缺少公平性?;诖耍疚倪M(jìn)一步對(duì)每種關(guān)系單獨(dú)訓(xùn)練一個(gè)二元分類器,對(duì)測(cè)試樣本中的每個(gè)關(guān)系類型分別進(jìn)行評(píng)估。本文針對(duì)每個(gè)關(guān)系類別的樣本,隨機(jī)抽樣其他關(guān)系類別的樣本作為負(fù)樣本,從而構(gòu)建二元分類器的訓(xùn)練數(shù)據(jù)。

      3.2 實(shí)驗(yàn)設(shè)置

      為了驗(yàn)證本文提出的基于高困惑樣本的對(duì)比學(xué)習(xí)方法可以輔助改善隱式篇章關(guān)系識(shí)別,本文分為五個(gè)部分進(jìn)行對(duì)比實(shí)驗(yàn)。

      RoBERTa-base(基準(zhǔn)系統(tǒng))對(duì)輸入論元對(duì)Arg1和Arg2進(jìn)行分詞,并將分詞結(jié)果與特殊分類字符[CLS]和特殊分隔字符[SEP]拼接,共同輸入RoBERTa預(yù)訓(xùn)練模型中,獲得論元對(duì)的編碼表示,然后將論元對(duì)的表示輸入全連接層進(jìn)行關(guān)系分類。

      SimCSE將當(dāng)前輸入樣本分兩次輸入RoBERTa模型中進(jìn)行編碼,獲得原始論元對(duì)的向量表示以及增強(qiáng)的正樣本表示。接著將當(dāng)前輸入論元對(duì)所在批次的其他樣本作為負(fù)樣本。然后,通過(guò)對(duì)比學(xué)習(xí)的損失函數(shù)NCE進(jìn)行訓(xùn)練。

      CL-CFS首先,基于CVAE生成高困惑負(fù)樣本,然后采用SimCSE的樣本構(gòu)建方法分別獲得正樣本和批次內(nèi)的負(fù)樣本。進(jìn)一步地,將構(gòu)建的正樣本、批次內(nèi)負(fù)樣本以及高困惑負(fù)樣本共同作為對(duì)比學(xué)習(xí)的數(shù)據(jù)。同時(shí),本節(jié)實(shí)驗(yàn)在對(duì)比學(xué)習(xí)中采用NCE作為訓(xùn)練損失函數(shù)。

      Triplet loss的作用本節(jié)實(shí)驗(yàn)分別將SimCSE以及CL-CFS方法中的損失函數(shù)NCE替換為Triplet loss,并與使用NCE損失函數(shù)的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。

      CVAE中的條件設(shè)置本節(jié)實(shí)驗(yàn)為了驗(yàn)證使用CVAE生成高困惑負(fù)樣本時(shí),引入不同的標(biāo)簽向量作為CVAE的限制條件對(duì)實(shí)驗(yàn)結(jié)果的影響。該實(shí)驗(yàn)分別設(shè)置3組對(duì)比實(shí)驗(yàn): ①無(wú)標(biāo)簽向量(即相當(dāng)于使用VAE)。②目標(biāo)關(guān)系類別,即與原始樣本標(biāo)簽相同的標(biāo)簽向量。③非目標(biāo)關(guān)系類別,即與原始樣本標(biāo)簽不同的標(biāo)簽向量。

      3.3 參數(shù)設(shè)置

      本文使用RoBERTa-base模型來(lái)獲得輸入樣本的向量表示。其中,設(shè)置RoBERTa的隱層向量維度d為768,單個(gè)論元的最大長(zhǎng)度m設(shè)置為126。在模型的訓(xùn)練中,本文的關(guān)系分類任務(wù)使用交叉熵作為損失函數(shù),并采用基于Adam的批梯度下降法優(yōu)化模型參數(shù)。此外,將批處理大小N(Batch size)設(shè)置為8,學(xué)習(xí)率為5e-6。為了緩解過(guò)擬合的問(wèn)題,模型在每層之后使用了dropout,隨機(jī)丟棄的比率設(shè)置為0.2。在損失函數(shù)NCE損失函數(shù)Ls中,溫度系數(shù)τ的值是0.05。在Triplet loss損失函數(shù)Lt中,margin值設(shè)置為0.2。在CL-CFS的訓(xùn)練過(guò)程中,本文聯(lián)合優(yōu)化基于CVAE生成高困惑樣本的損失LC和引入高困惑樣本對(duì)比學(xué)習(xí)中的損失Lt。 其中,Lt的損失權(quán)重α設(shè)置為8,LC的損失權(quán)重β設(shè)置為0.01。

      3.4 實(shí)驗(yàn)結(jié)果與分析

      3.4.1 總體實(shí)驗(yàn)結(jié)果與分析

      根據(jù)第3.2節(jié)的實(shí)驗(yàn)設(shè)置,本節(jié)將多組對(duì)比實(shí)驗(yàn)在PDTB的四大關(guān)系類型中的每個(gè)二元分類任務(wù)上的表現(xiàn)進(jìn)行驗(yàn)證。其中,本文采用F1值(F1-score)作為二元分類的評(píng)價(jià)指標(biāo),具體的分類性能結(jié)果如表2所示。

      表2 對(duì)照實(shí)驗(yàn)的性能對(duì)比 (單位: %)

      表2中的第一組對(duì)照實(shí)驗(yàn)(第3~4行)顯示,與RoBERTa-base基準(zhǔn)模型進(jìn)行對(duì)比,隱式篇章關(guān)系識(shí)別聯(lián)合SimCSE,并采用NCE作為損失函數(shù)的方法,在Comparison、Expansion以及Temporal關(guān)系上分別獲得1.23%、0.53%、3.84%的F1值性能提升。但是,在Contingency關(guān)系相對(duì)基礎(chǔ)模型在F1值上卻下降了0.47%。實(shí)驗(yàn)結(jié)果說(shuō)明,SimCSE在一定程度上改善了現(xiàn)有模型在論元的語(yǔ)義表征能力上的瓶頸。但是,結(jié)合SimCSE進(jìn)行訓(xùn)練也會(huì)給基線模型帶來(lái)一定的干擾。進(jìn)一步地,使用Triplet loss替換NCE損失函數(shù)。從實(shí)驗(yàn)結(jié)果上看,Triplet loss在對(duì)比學(xué)習(xí)的訓(xùn)練中的表現(xiàn)是優(yōu)于NCE損失函數(shù)的。相對(duì)于NCE,Triplet loss在Comparison、Contingency、Expansion以及Temporal關(guān)系上分別獲得1.80%、1.72%、0.92%、1.14%的F1值性能提升。這側(cè)面說(shuō)明了Triplet loss可以通過(guò)間隔值margin篩選出更有效的正負(fù)樣本對(duì)參與模型的訓(xùn)練,從而提升模型性能。

      表2中的第二組對(duì)照實(shí)驗(yàn)(第5~6行),使用本文提出的CL-CFS方法。相較于SimCSE方法,CL-CFS在Comparison、Contingency、Expansion以及Temporal關(guān)系上分別獲得1.59%、1.96%、1.53%、1.80%的F1值性能提升。實(shí)驗(yàn)結(jié)果說(shuō)明,基于SimCSE的模型在部分具有迷惑性的樣本上的語(yǔ)義表征能力存在不足。而CL-CFS使用CVAE為原始樣本構(gòu)建高困惑負(fù)樣本,并加入對(duì)比學(xué)習(xí)的數(shù)據(jù)中,能夠在一定程度上提升現(xiàn)有模型對(duì)于論元的語(yǔ)義表征能力。與第一組對(duì)照實(shí)驗(yàn)一致,本組實(shí)驗(yàn)使用Triplet loss替換NCE。相較于使用NCE,CL-CFS在F1值上獲得了明顯的性能提升。尤其是Temporal和Contingency,在F1值上相對(duì)于基準(zhǔn)模型分別提升了7.13%和3.14%。再次驗(yàn)證了Triplet loss在對(duì)比學(xué)習(xí)中的有效性。

      表2中的第三組對(duì)照實(shí)驗(yàn)(第7~9行),首先嘗試不使用限定條件的CVAE生成樣本,接著分別使用目標(biāo)關(guān)系標(biāo)簽以及非目標(biāo)關(guān)系標(biāo)簽向量作為CVAE的限定條件來(lái)生成高困惑負(fù)樣本。從實(shí)驗(yàn)結(jié)果可以看出,相較于使用目標(biāo)關(guān)系標(biāo)簽,采用非目標(biāo)關(guān)系標(biāo)簽的CVAE在對(duì)比學(xué)習(xí)訓(xùn)練中的性能表現(xiàn)更好。說(shuō)明通過(guò)限定CVAE中的條件可以在一定程度上控制其生成樣本的類別。同時(shí),與不使用標(biāo)簽向量作為限制條件相比,使用目標(biāo)關(guān)系標(biāo)簽會(huì)為CL-CFS的訓(xùn)練帶來(lái)負(fù)收益,尤其是時(shí)序關(guān)系,其性能指標(biāo)相差3.16%。造成這個(gè)實(shí)驗(yàn)結(jié)果的原因是,在對(duì)比學(xué)習(xí)中,采用與目標(biāo)關(guān)系類別相同的樣本作為目標(biāo)樣本的負(fù)樣本,通常會(huì)給模型帶來(lái)較大的干擾。

      同時(shí),第三組對(duì)照進(jìn)一步說(shuō)明SimCSE效果較差的原因。SimCSE在負(fù)樣本的選取中,使用目標(biāo)樣本所在批次內(nèi)的其他樣本作為負(fù)樣本。而批次內(nèi)的樣本很可能存在與目標(biāo)樣本類別相同的樣本,進(jìn)而給對(duì)比學(xué)習(xí)的訓(xùn)練帶來(lái)干擾。

      3.4.2 與前人實(shí)驗(yàn)結(jié)果的對(duì)比與分析

      本節(jié)將CL-CFS與前人的先進(jìn)模型進(jìn)行對(duì)比,其中涵蓋了PDTB的四種主要關(guān)系的四元分類和單個(gè)二元分類任務(wù)的性能對(duì)比。這里采用宏平均F1值(Macro-averagedF1)和準(zhǔn)確率(Accuracy)作為四元分類評(píng)價(jià)指標(biāo),具體如表3所示。

      表3 CL-CFS與現(xiàn)有先進(jìn)模型對(duì)比結(jié)果 (單位: %)

      表3展示的實(shí)驗(yàn)結(jié)果表明,相較于數(shù)據(jù)擴(kuò)充方法的Varia等[11]以及Dou等[14]進(jìn)行對(duì)比,CL-CFS獲得了具有可比性的性能。Varia等利用顯式篇章關(guān)系語(yǔ)料進(jìn)行數(shù)據(jù)擴(kuò)充。具體地,Varia等提出聯(lián)合學(xué)習(xí)隱式和顯式關(guān)系的詞對(duì)和N-gram, 并使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)改善隱式篇章關(guān)系識(shí)別。從表3可以看出,Varia等在Temporal關(guān)系上的性能最具優(yōu)勢(shì)。然而,CL-CFS在Temporal上的F1值(表3中*號(hào)所示)比Varia等的方法高5.01%。這個(gè)對(duì)比結(jié)果表明,CL-CFS能夠在不依賴外部語(yǔ)料的前提下,從現(xiàn)有語(yǔ)料中挖掘更深層的語(yǔ)義特征。與Dou等提出的方法進(jìn)行比較,CL-CFS在Comparison,Expansion以及Temporal關(guān)系上性能表現(xiàn)更具有優(yōu)勢(shì),分析可得,Dou等采用CVAE的方法對(duì)隱式篇章關(guān)系識(shí)別的任務(wù)進(jìn)行改進(jìn)。這樣的方法增強(qiáng)了現(xiàn)有訓(xùn)練數(shù)據(jù)語(yǔ)義的豐富性,但是并沒(méi)有針對(duì)性地解決現(xiàn)有模型在高困惑樣本上辨別度較差的問(wèn)題。特別地,在Expansion關(guān)系上,CL-CFS的性能低于Dou等。分析發(fā)現(xiàn),Dou等的最終實(shí)驗(yàn)在使用CVAE的基礎(chǔ)上,引入了顯式篇章關(guān)系語(yǔ)料進(jìn)行遷移學(xué)習(xí),而CL-CFS方法并不依賴于任何外部數(shù)據(jù)。

      Liu等[26]基于論元表示學(xué)習(xí)的研究方向,取得較優(yōu)的整體性能。其利用上下文感知多視角融合的方法來(lái)提升模型的分類能力。CL-CFS與Liu等在F1值上進(jìn)行相比,在Contingency和Expansion上分別提升2.99%和1.38%。在Comparison和Temporal關(guān)系上,盡管CL-CFS方法低于Liu等的模型性能,但也獲得了非常具有可比性的性能。同時(shí),Liu等的模型比CL-CFS的復(fù)雜程度更高。其采用多視角余弦相似度匹配論元,然后將論元對(duì)輸入到具有門控單元的多頭交互注意力機(jī)制中獲得論元表示,并且對(duì)獲得的論元表示使用了卷積操作。而本文通過(guò)數(shù)據(jù)增廣的方法構(gòu)建正負(fù)樣本,并通過(guò)對(duì)比學(xué)習(xí)的損失函數(shù)進(jìn)行訓(xùn)練。模型的復(fù)雜度較低,可遷移能力較強(qiáng)。

      從表3可以看出,本文也在四元分類任務(wù)上與前人先進(jìn)模型的性能進(jìn)行對(duì)比,其中,本文提出的CL-CFS方法在四元分類任務(wù)上獲得了目前最好的實(shí)驗(yàn)性能,其中,Macro-F1值相對(duì)SOTA模型提升1.52%,Acc值提升2.1%。

      3.5 聯(lián)合優(yōu)化損失的權(quán)重設(shè)置

      如2.4節(jié)所述,本文使用損失聯(lián)合優(yōu)化的訓(xùn)練方式進(jìn)一步優(yōu)化CL-CFS方法。一般地,損失聯(lián)合優(yōu)化時(shí),每個(gè)損失的權(quán)重參數(shù)設(shè)置會(huì)對(duì)聯(lián)合優(yōu)化的結(jié)果造成影響。因此,本節(jié)描述實(shí)驗(yàn)中調(diào)節(jié)損失權(quán)重的細(xì)節(jié)。同時(shí),本節(jié)進(jìn)一步分析不同的權(quán)重參數(shù)設(shè)置對(duì)實(shí)驗(yàn)結(jié)果的影響情況。在2.5.2節(jié)中提到,本文聯(lián)合優(yōu)化基于高困惑樣本對(duì)比學(xué)習(xí)中的損失Lt[如式(9)所示]和基于CVAE生成高困惑樣本的損失LC[如式(7)所示]。在聯(lián)合優(yōu)化過(guò)程中,Lt的權(quán)重為α,LC的權(quán)重β。 本文將LC權(quán)重β設(shè)置為0.01,Lt的權(quán)重為α設(shè)置為8。其原因是,Lt和LC的取值范圍在共同優(yōu)化時(shí)應(yīng)該處于相近的數(shù)量級(jí)。但是,Lt使用的Triplet loss的取值范圍是0到間隔值(本文設(shè)置為0.2),其數(shù)量級(jí)遠(yuǎn)小于使用均方誤差的LC。 因此,基于高困惑樣本對(duì)比學(xué)習(xí)中的損失LC的權(quán)重β,其數(shù)量級(jí)應(yīng)該遠(yuǎn)低于α。 同時(shí),本文進(jìn)一步對(duì)α設(shè)置了如下幾個(gè)數(shù)值(分別是1,2,5,8,10)進(jìn)行對(duì)照實(shí)驗(yàn),具體實(shí)驗(yàn)結(jié)果如圖3所示。

      圖3 調(diào)節(jié)損失Lt的權(quán)重α

      圖3展示了調(diào)節(jié)對(duì)比學(xué)習(xí)的損失Lt的權(quán)重α的過(guò)程,并反映了不同的權(quán)重α,為模型的性能帶來(lái)的變化。其中,橫坐標(biāo)表示Lt的權(quán)重α,縱坐標(biāo)表示模型的性能評(píng)估指標(biāo)F1值(F1-score)。如圖3所示,權(quán)重值α從1開(kāi)始逐漸增加,模型在隱式篇章關(guān)系任務(wù)的四大關(guān)系上的性能不斷提升,并在α為8時(shí)達(dá)到峰值。這說(shuō)明在損失聯(lián)合優(yōu)化中,增大模型在對(duì)比學(xué)習(xí)中關(guān)注度可以有效改善模型對(duì)論元的語(yǔ)義表征不準(zhǔn)確的問(wèn)題。但是,當(dāng)α增大為10時(shí),模型的效果開(kāi)始退化,說(shuō)明過(guò)度關(guān)注Lt,可能導(dǎo)致模型的其他任務(wù)失衡。

      3.6 顯著性檢驗(yàn)分析

      為了檢驗(yàn)CL-CFS在性能提升上的顯著性,同時(shí)排除實(shí)驗(yàn)結(jié)果的偶然性。本節(jié)進(jìn)行顯著性檢驗(yàn)分析[28]。根據(jù)對(duì)SimCSE和CL-CFS重復(fù)進(jìn)行多次實(shí)驗(yàn)(每組實(shí)驗(yàn)5次)的實(shí)驗(yàn)結(jié)果,計(jì)算SimCSE和CL-CFS與基準(zhǔn)模型RoBERTa在評(píng)價(jià)指標(biāo)F1-score上的顯著性得分p值,如表4所示。

      表4 顯著性得分(p值)

      在顯著性檢驗(yàn)中,當(dāng)p值小于閾值時(shí)(本文將閾值設(shè)置為0.05),說(shuō)明兩個(gè)模型的實(shí)驗(yàn)結(jié)果存在顯著差異,即選取的模型性能提升顯著。且p值越小,效果越優(yōu)。從表4可以看出,SimCSE在PDTB的四大關(guān)系(Comparison、Contingency、Expansion以及Temporal)上計(jì)算的p值都小于0.05。同時(shí),本文提出的CL-CFS在PDTB的四大關(guān)系數(shù)據(jù)集上計(jì)算的p值比SimCSE方法計(jì)算的p值更小。這說(shuō)明CL-CFS方法相對(duì)于SimCSE方法在模型的性能提升上具有更加明顯的優(yōu)勢(shì)。

      4 結(jié)論

      本文針對(duì)隱式篇章關(guān)系識(shí)別任務(wù)的研究瓶頸,提出了基于高困惑樣本對(duì)比學(xué)習(xí)的隱式篇章關(guān)系識(shí)別。在引入SimCSE方法的基礎(chǔ)上,本文提出使用CVAE構(gòu)建高困惑負(fù)樣本,緩解現(xiàn)有模型在與原始樣本語(yǔ)義相似的負(fù)樣本上區(qū)分能力較差的問(wèn)題,同時(shí)提升了現(xiàn)有模型表征論元對(duì)語(yǔ)義的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,本文提出的CL-CFS方法優(yōu)于SimCSE。同時(shí),對(duì)比目前主流的方法,CL-CFS在擴(kuò)展關(guān)系上以及四元分類性能上優(yōu)于目前的先進(jìn)模型,在時(shí)序關(guān)系上也獲得了與先進(jìn)模型具有可比的性能。

      但是,隱式篇章關(guān)系識(shí)別的性能離實(shí)際應(yīng)用的標(biāo)準(zhǔn)還有較大的差距,其根本原因是現(xiàn)有語(yǔ)料資源有限,導(dǎo)致微調(diào)預(yù)訓(xùn)練模型的訓(xùn)練方法中無(wú)法獲得豐富的語(yǔ)義特征。我們下一步的工作是利用prompt來(lái)激發(fā)目前應(yīng)用的微調(diào)模型在預(yù)訓(xùn)練模型中“遺忘”掉的知識(shí),分別嘗試手動(dòng)設(shè)計(jì)、自動(dòng)學(xué)習(xí)的方法來(lái)構(gòu)建prompt的輸入模板。

      猜你喜歡
      論元語(yǔ)義損失
      少問(wèn)一句,損失千金
      胖胖損失了多少元
      語(yǔ)言與語(yǔ)義
      玉米抽穗前倒伏怎么辦?怎么減少損失?
      成分重量和粵方言雙及物結(jié)構(gòu)的論元語(yǔ)序
      基于論元結(jié)構(gòu)和題元指派對(duì)漢語(yǔ)處置義“把”字句的句法語(yǔ)義分析
      “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
      一般自由碰撞的最大動(dòng)能損失
      認(rèn)知范疇模糊與語(yǔ)義模糊
      英語(yǔ)中動(dòng)構(gòu)式中施事論元句法隱含的認(rèn)知研究
      江城| 安乡县| 彰武县| 留坝县| 清水县| 桐梓县| 蓬莱市| 洪湖市| 灵璧县| 罗江县| 长垣县| 涡阳县| 华亭县| 徐水县| 扎兰屯市| 四平市| 且末县| 五大连池市| 蕲春县| 镇雄县| 丰都县| 桑植县| 博客| 晋宁县| 顺昌县| 桐城市| 宁陕县| 沈丘县| 蒙自县| 扎兰屯市| 灌云县| 安龙县| 东兰县| 彭山县| 全南县| 文水县| 田林县| 会东县| 江门市| 伊金霍洛旗| 上饶市|