張曉濱,李玉茹
(西安工程大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710048)
意圖識(shí)別是面向任務(wù)對(duì)話的重要組成部分,旨在識(shí)別話語(yǔ)所代表的意圖,進(jìn)行自然語(yǔ)言理解,為后續(xù)的對(duì)話管理和自然語(yǔ)言生成做準(zhǔn)備[1-3]?,F(xiàn)有的意圖識(shí)別模型大多需要大量標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,在僅有少量標(biāo)注數(shù)據(jù)可用時(shí)意圖識(shí)別的準(zhǔn)確率將顯著下降[4]。而在現(xiàn)實(shí)場(chǎng)景中,意圖識(shí)別往往缺乏訓(xùn)練數(shù)據(jù)[5],因此人們開(kāi)始關(guān)注FSID問(wèn)題[6]。
元學(xué)習(xí)中的基于優(yōu)化和基于度量的方法已經(jīng)成功應(yīng)用于自然語(yǔ)言處理領(lǐng)域[7],用以解決FSID等問(wèn)題[8]。JIANG等提出了注意任務(wù)不可知元學(xué)習(xí)方法,在學(xué)習(xí)與任務(wù)無(wú)關(guān)的表征的同時(shí)調(diào)整注意力參數(shù),以此來(lái)快速適應(yīng)特定任務(wù)[9]。DENG等將任務(wù)不可知和特定于任務(wù)的特征學(xué)習(xí)分隔開(kāi),并利用元學(xué)習(xí)學(xué)習(xí)新任務(wù)的初始化參數(shù),從而驗(yàn)證了任務(wù)間隱式共同語(yǔ)言特征的有效性[10]。但是與模型無(wú)關(guān)的元學(xué)習(xí)[11]等方法相比,基于度量學(xué)習(xí)的網(wǎng)絡(luò)更容易優(yōu)化和擴(kuò)展,具有更簡(jiǎn)單的歸納偏差和更高的內(nèi)存效率,因此更加適用于FSID問(wèn)題。
SNELL等提出的原型網(wǎng)絡(luò)屬于經(jīng)典的基于度量的學(xué)習(xí)方法,原型網(wǎng)絡(luò)首先學(xué)習(xí)一個(gè)度量空間,然后通過(guò)計(jì)算實(shí)例與原型之間的距離進(jìn)行分類(lèi)[12]。DOPIERRE等在原型網(wǎng)絡(luò)框架中引入無(wú)監(jiān)督釋義的一致性損失,并在多樣化波束搜索生成中引入了約束條件,提高了網(wǎng)絡(luò)的表征能力和多樣性[13]。LI等提出了一種結(jié)合了大型預(yù)訓(xùn)練語(yǔ)言模型的表征能力和通過(guò)自監(jiān)督增強(qiáng)原型網(wǎng)絡(luò)的快速適應(yīng)能力的半監(jiān)督元學(xué)習(xí)方法解決FSID問(wèn)題[14]。GENG等提出了動(dòng)態(tài)記憶歸納網(wǎng)絡(luò),該模型利用動(dòng)態(tài)路由更好地適應(yīng)和泛化支持集,從而為小樣本學(xué)習(xí)提供更大的靈活性[15]。
然而上述基于度量學(xué)習(xí)的網(wǎng)絡(luò)在構(gòu)建代表支持集的原型時(shí)完全不依賴查詢實(shí)例,導(dǎo)致構(gòu)建的原型在參與查詢實(shí)例匹配時(shí)缺乏有效性,因此部分學(xué)者在小樣本意圖學(xué)習(xí)任務(wù)中側(cè)重于研究支持實(shí)例和查詢實(shí)例之間的匹配信息,構(gòu)建更有效的原型。YE等提出了多級(jí)匹配聚合網(wǎng)絡(luò),該模型以交互方式對(duì)查詢實(shí)例和支持集進(jìn)行編碼,最終通過(guò)對(duì)支持實(shí)例的表示進(jìn)行聚合獲得支持集的類(lèi)別原型[16]。SUN等設(shè)計(jì)了一種基于特征級(jí)、詞級(jí)和實(shí)例級(jí)多重交叉注意的層次注意原型網(wǎng)絡(luò),以此來(lái)增強(qiáng)模型的語(yǔ)義空間表達(dá)能力,學(xué)習(xí)更具代表性的原型[17]。但是上述方法在構(gòu)建原型時(shí)并沒(méi)有考慮各類(lèi)別原型之間的語(yǔ)義約束,代表各支持集的類(lèi)別原型之間沒(méi)有明顯的區(qū)分度,使得最終在進(jìn)行FSID任務(wù)時(shí)意圖識(shí)別的準(zhǔn)確率會(huì)受到限制。
受近期對(duì)比學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域成功應(yīng)用的啟發(fā)[18-19],本文提出了一種基于MVPCL的FSID模型,旨在解決在FSID任務(wù)中基于度量學(xué)習(xí)的網(wǎng)絡(luò)未考慮所構(gòu)建的類(lèi)別原型之間的語(yǔ)義約束問(wèn)題。首先在語(yǔ)義匹配時(shí)結(jié)合查詢實(shí)例和支持集的動(dòng)態(tài)信息構(gòu)建支持集的多個(gè)語(yǔ)義模塊,隨后以各模塊為基礎(chǔ)構(gòu)建多視角原型,之后結(jié)合對(duì)比學(xué)習(xí)多維度的考慮類(lèi)別原型之間的約束。通過(guò)多視角的對(duì)比學(xué)習(xí)來(lái)有效區(qū)分代表各支持集的類(lèi)別原型,從而提高了模型為查詢實(shí)例匹配相應(yīng)類(lèi)別原型的準(zhǔn)確率。
本文將訓(xùn)練中涉及的標(biāo)簽空間表示為Ys,新出現(xiàn)的僅有少量標(biāo)記樣本的標(biāo)簽空間表示為Ym,Ys∩Ym=?,定義新出現(xiàn)僅有少量標(biāo)簽的數(shù)據(jù)集為Dm={(x1,y1),(x2,y2),…,(xm,ym)},其中(xm,ym)表示話語(yǔ)和其所代表的的意圖標(biāo)簽,m表示新出現(xiàn)僅有少量標(biāo)簽數(shù)據(jù)的樣本總數(shù)。
基于MVPCL的FSID模型包括語(yǔ)義編碼模塊、基于MVPCL的聚合模塊和類(lèi)別匹配模塊,其中基于MVPCL的聚合模塊主要包含多視角原型的構(gòu)建、對(duì)比學(xué)習(xí)和語(yǔ)義聚合3個(gè)部分。首先,語(yǔ)義編碼模塊通過(guò)BERT(bidirectional encoder representations from transformers)模型將支持實(shí)例和查詢實(shí)例映射為語(yǔ)義豐富的特征向量,之后通過(guò)注意力機(jī)制捕獲重要的語(yǔ)義信息作為下一模塊的輸入。其次,基于MVPCL的聚合模塊會(huì)從多個(gè)視角構(gòu)建動(dòng)態(tài)的匹配信息,一方面用于構(gòu)建多視角原型,之后結(jié)合對(duì)比學(xué)習(xí)對(duì)所構(gòu)建的各類(lèi)別原型進(jìn)行約束;另一方面通過(guò)長(zhǎng)短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)聚合后用于類(lèi)別原型的構(gòu)建,從而進(jìn)行查詢實(shí)例的類(lèi)別匹配。
1.2.1 語(yǔ)義編碼
給定輸入的實(shí)例為x=[x1,x2,…,xt],其中t代表該語(yǔ)句有t個(gè)單詞,本文通過(guò)預(yù)訓(xùn)練的BERT將每個(gè)詞映射到高維空間,之后為了更好捕捉雙向的語(yǔ)義依賴信息,使用雙向長(zhǎng)短期記憶(bidirectional long short-term memory,Bi-LSTM)網(wǎng)絡(luò)捕獲句子中單詞之間的上下文信息,并利用自注意力機(jī)制提取句子的重要語(yǔ)義成分,最后將注意力和所捕獲的上下文信息相結(jié)合,得到最終的表示U。
(1)
1.2.2 多視角原型
本文分別構(gòu)建了頭視角原型、最大池化原型、注意力原型、最大注意力原型,為后面的MVPCL做準(zhǔn)備,下面將分別進(jìn)行介紹。
(2)
注意權(quán)重可表示為
(3)
式中:V2和W2是可訓(xùn)練的參數(shù)。
(4)
(5)
(6)
(7)
(8)
1.2.3 對(duì)比學(xué)習(xí)
在獲得每個(gè)類(lèi)別的多視角原型后,本文利用對(duì)比學(xué)習(xí)來(lái)進(jìn)行約束性的訓(xùn)練,使得最終構(gòu)建的用于類(lèi)別匹配的原型不僅能夠準(zhǔn)確代表支持集的信息,也能夠使各類(lèi)別原型之間具有一定的區(qū)分度,并且由于是從多個(gè)視角進(jìn)行對(duì)比學(xué)習(xí),在進(jìn)行原型約束時(shí)充分考慮了多個(gè)維度的信息,從而避免了對(duì)單一原型的過(guò)度依賴。
給定支持集S,S中含有N×K個(gè)文本實(shí)例,則對(duì)于頭視角原型可以通過(guò)對(duì)比損失來(lái)優(yōu)化最終原型的表示,對(duì)比損失可表示為
(9)
根據(jù)式(9),可以得到其他輔助原型下的對(duì)比損失Ls2、Ls3、Ls4。
1.2.4 語(yǔ)義聚合
(10)
1.2.5 類(lèi)別匹配
(11)
綜上所述,MVPCL模型的總體結(jié)構(gòu)如圖1所示。
圖1 MVPCL模型結(jié)構(gòu)
本文在2個(gè)人機(jī)交互數(shù)據(jù)集SNIPS[20]和NLUE[21]上分別評(píng)估了所提出的模型在FSID任務(wù)和GFSID任務(wù)上的準(zhǔn)確率。原始的SNIPS和NLUE數(shù)據(jù)集分別含有7個(gè)和64個(gè)類(lèi)別意圖。對(duì)于SNIPS,本文隨機(jī)選取5個(gè)意圖作為有足夠訓(xùn)練數(shù)據(jù)的可見(jiàn)意圖,剩下的2個(gè)意圖作為新意圖;對(duì)于NLUE,則隨機(jī)選取16個(gè)意圖作為新意圖,剩下的48個(gè)意圖類(lèi)別作為有足夠訓(xùn)練數(shù)據(jù)的可見(jiàn)意圖。此外,本文將20%的可見(jiàn)意圖和新意圖混合在一起構(gòu)建聯(lián)合數(shù)據(jù)集,用于評(píng)估模型在GFSID任務(wù)上的效果。
FSID模型通常采用特殊的情景訓(xùn)練[22]方法模擬每個(gè)類(lèi)只有少量實(shí)例可用的情景學(xué)習(xí)知識(shí),從而使得模型達(dá)到最佳的意圖識(shí)別效果。模型的整個(gè)訓(xùn)練過(guò)程由多個(gè)情景構(gòu)成,模型會(huì)在每一情景訓(xùn)練階段從訓(xùn)練集隨機(jī)抽取N個(gè)類(lèi)別,每個(gè)類(lèi)別中隨機(jī)選取K個(gè)實(shí)例,將其定義為支持集。模型在支持集上進(jìn)行訓(xùn)練時(shí),會(huì)再次隨機(jī)抽取M個(gè)實(shí)例,將其定義為查詢集。模型在查詢集上進(jìn)行修正時(shí),支持集和查詢集共同構(gòu)成了模型在訓(xùn)練期間執(zhí)行的元任務(wù)。模型在測(cè)試的過(guò)程中依舊會(huì)劃分支持集和查詢集,因此FSID任務(wù)通常被定義為N-wayK-shot問(wèn)題。
本文隨機(jī)采樣1 000個(gè)情景,采用Adam優(yōu)化器訓(xùn)練模型。在SNIPS和NLUE數(shù)據(jù)集上,對(duì)K=1和K=5的情況進(jìn)行了實(shí)驗(yàn),其中SNIPS對(duì)應(yīng)的N值為2,NLUE對(duì)應(yīng)的N值為5,M值均為20。學(xué)習(xí)率為0.000 1,在語(yǔ)義部分提取的頭部數(shù)量r為4。本文實(shí)驗(yàn)使用的操作系統(tǒng)為Ubuntu18.04,處理器為Intel Xeon Platinum 8255C CPU,主頻為2.50 GHz,顯卡為NVIDIA RTX3080。
為驗(yàn)證所提出模型的有效性,本文將所提出的模型與近年來(lái)用于解決FSID問(wèn)題的模型進(jìn)行比較。本文是采用度量學(xué)習(xí)的思想構(gòu)建的MVPCL模型,因此首先選取了典型的基于度量學(xué)習(xí)的網(wǎng)絡(luò)PN[12]和RN[23]進(jìn)行對(duì)比。其中PN是通過(guò)比較查詢實(shí)例和類(lèi)別原型之間的歐幾里得距離進(jìn)行分類(lèi);RN則是采用可學(xué)習(xí)的非線性相似性度量方式實(shí)現(xiàn)小樣本學(xué)習(xí)任務(wù)。其次,本文重點(diǎn)關(guān)注的是類(lèi)別原型之間的語(yǔ)義約束問(wèn)題,因此本文選取了典型的關(guān)注類(lèi)別原型構(gòu)建的網(wǎng)絡(luò)HATT[24]、HAPN[17]和SMAN[25]。其中,HATT通過(guò)混合注意力的方式減輕噪聲數(shù)據(jù)和稀疏特征對(duì)類(lèi)別原型的干擾;HAPN通過(guò)多交叉注意機(jī)制突出支持實(shí)例的重要性,從而學(xué)習(xí)更具有甄別性的類(lèi)別原型;SMAN則是通過(guò)多頭注意力和動(dòng)態(tài)的正則化約束提取有效的語(yǔ)義成分,使得所構(gòu)建的類(lèi)別原型更加具有代表性。
2.3.1 FSID任務(wù)中模型準(zhǔn)確率對(duì)比
為驗(yàn)證本文模型在FSID任務(wù)中意圖識(shí)別的效果,本文將所提出的MVPCL模型與基線模型的準(zhǔn)確率進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果如表1所示。
表1 FSID任務(wù)中MVPCL模型和基線模型準(zhǔn)確率對(duì)比
從表1可以看出,在FSID任務(wù)中,本文所提出的MVPCL模型在SNIPS和NLUE數(shù)據(jù)集的準(zhǔn)確率都優(yōu)于基線模型。從SNIPS和NLUE數(shù)據(jù)集的整體觀察可知,本文的MVPCL模型相較于PN和RN而言,準(zhǔn)確率至少分別提高了3.71%和8.36%,這是因?yàn)镻N和RN并未充分考慮查詢實(shí)例對(duì)于支持集的影響。HATT和HAPN的意圖識(shí)別準(zhǔn)確率雖然都高于PN和RN。但是仍然低于本文所提出的MVPCL模型,至少分別相差了3.23%和0.91%。這主要是因?yàn)镠ATT和HAPN在編碼支持集中的實(shí)例時(shí)考慮了不同查詢實(shí)例對(duì)于支持集的影響,因此二者的實(shí)驗(yàn)結(jié)果整體而言要優(yōu)于PN和RN。但是HATT和HAPN并沒(méi)有以一種交互的形式具體表示查詢實(shí)例,未充分發(fā)掘其中的信息,因此整體效果均低于MVPCL模型。此外,MVPCL模型相較于SMAN而言意圖識(shí)別的準(zhǔn)確率至少提高了0.49%,這主要是因?yàn)镸VPCL模型充分考慮了各類(lèi)別原型之間的約束,增加了類(lèi)別原型之間的區(qū)分度,從而使得在進(jìn)行類(lèi)別匹配時(shí)不易將話語(yǔ)錯(cuò)誤分類(lèi)到相似意圖。
2.3.2 GFSID任務(wù)中模型準(zhǔn)確率對(duì)比
在CG-BERT[26]的GFSID任務(wù)中,將只有少數(shù)標(biāo)記實(shí)例的新類(lèi)合并到已有足夠標(biāo)記數(shù)據(jù)的類(lèi)中,構(gòu)成一個(gè)聯(lián)合標(biāo)簽空間,旨在測(cè)試所構(gòu)建的FSID模型能否準(zhǔn)確對(duì)聯(lián)合標(biāo)簽空間中的話語(yǔ)進(jìn)行意圖識(shí)別,這相比于FSID任務(wù)更加具有挑戰(zhàn)性。因此本文也對(duì)比了所提出的MVPCL模型和基線模型在聯(lián)合標(biāo)簽空間中的準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如表2所示。
表2 GFSID任務(wù)中MVPCL模型和基線模型準(zhǔn)確率對(duì)比
從表2可以看出,在GFSID任務(wù)中本文所提出的MVPCL模型在SNIPS和NLUE數(shù)據(jù)集上的準(zhǔn)確率均高于基線模型。對(duì)于SNIPS數(shù)據(jù)集而言,當(dāng)K=1和K=5時(shí),MVPCL模型與基線模型相比至少分別提高了0.41%和0.99%;對(duì)于NLUE數(shù)據(jù)集而言,當(dāng)K=1和K=5時(shí),MVPCL模型與基線模型相比至少分別提高了1.01%和0.39%。這主要是因?yàn)榛€模型過(guò)于關(guān)注細(xì)粒度的詞級(jí)語(yǔ)義信息,只有與支持集中某些詞高度重疊的查詢實(shí)例才能與所屬類(lèi)別進(jìn)行匹配,忽略了粗粒度的語(yǔ)義表達(dá)。本文通過(guò)多視角的語(yǔ)義組件從全局的角度捕獲粗粒度的信息,可以有效適應(yīng)話語(yǔ)的多樣化表達(dá),有利于模型在聯(lián)合標(biāo)簽中準(zhǔn)確識(shí)別意圖話語(yǔ)。
2.3.3K值對(duì)模型準(zhǔn)確率的影響
為了探索在元任務(wù)中支持集所包含的每個(gè)類(lèi)別的樣本數(shù)K對(duì)于模型性能的影響,本文比較了K值為1、3、5、10、15情況下,本文所提出的MVPCL模型和基線模型在SNIPS數(shù)據(jù)集上準(zhǔn)確率的變化情況,實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 K值對(duì)MVPCL模型和基線模型準(zhǔn)確率的影響
從圖2可以看出,隨著K值的變化,本文所提出的MVPCL模型的意圖識(shí)別準(zhǔn)確率普遍高于基線模型,并且MVPCL模型在K值為5時(shí)意圖識(shí)別的準(zhǔn)確率達(dá)到了最高。這主要是因?yàn)橹С旨拿總€(gè)類(lèi)別的樣本是用于構(gòu)建各類(lèi)別原型,一些相似意圖的樣本會(huì)對(duì)類(lèi)別原型的獨(dú)立性產(chǎn)生干擾,而基線模型并沒(méi)有考慮類(lèi)別原型之間關(guān)系,MVPCL模型在對(duì)比學(xué)習(xí)的作用下使得不同類(lèi)別原型在嵌入空間中的距離增大,因此整體效果優(yōu)于基線模型。
現(xiàn)有的用于解決FSID問(wèn)題的基于度量學(xué)習(xí)的網(wǎng)絡(luò)過(guò)分關(guān)注支持集的語(yǔ)義表示,從而忽略了所構(gòu)建的各類(lèi)別原型之間的語(yǔ)義約束。本文通過(guò)構(gòu)建多視角原型并且與對(duì)比學(xué)習(xí)相結(jié)合,有效地解決了上述問(wèn)題。在FSID任務(wù)中的實(shí)驗(yàn)結(jié)果表明,本文方法對(duì)各原型進(jìn)行了有效約束,提高了模型的意圖分類(lèi)準(zhǔn)確率,此外,在GFSID任務(wù)中的實(shí)驗(yàn)結(jié)果表明,本文方法在構(gòu)建各類(lèi)別原型時(shí)充分考慮了多維度的粗粒度語(yǔ)義,有利于模型在聯(lián)合空間中準(zhǔn)確識(shí)別話語(yǔ)意圖。