張翼英,馬彩霞,張 楠,柳依陽(yáng),王德龍
(天津科技大學(xué)人工智能學(xué)院,天津 300457)
開(kāi)放域?qū)υ捰捎趹?yīng)用范圍廣而受到產(chǎn)業(yè)界和學(xué)術(shù)界普遍關(guān)注[1],語(yǔ)音對(duì)話具有省時(shí)、高效等優(yōu)勢(shì),在開(kāi)放域?qū)υ捴邪l(fā)揮著越來(lái)越重要的作用.語(yǔ)音模態(tài)是指以音頻形式存儲(chǔ)的說(shuō)話內(nèi)容,由于其中包括振幅、頻率等多種音頻特征,這些特征包含說(shuō)話人的重要信息,因此僅利用文本單模態(tài)生成對(duì)話往往無(wú)法滿(mǎn)足要求.如何利用音頻和文本特征生成信息豐富且流暢的對(duì)話響應(yīng)是值得探究的問(wèn)題.
在文本單模態(tài)對(duì)話生成方面,基于門(mén)控循環(huán)單元(gate recurrent unit,GRU)構(gòu)建Seq2Seq對(duì)話模型,其編碼器將上下文文本編碼至一個(gè)向量,解碼器將該向量作為輸入,并對(duì)信息解碼,從而輸出響應(yīng)序列[2].但Seq2Seq不能很好地捕捉到上下文信息[3],于是HRED(hierarchical recurrent encoder-decoder)模型應(yīng)運(yùn)而生,該模型通過(guò)額外增加一個(gè)編碼器對(duì)上下文建模,減少了相鄰句子間的計(jì)算步驟,促進(jìn)信息的傳播[4].為了提升回復(fù)的多樣性并控制回復(fù)的情感傾向,條件變分自動(dòng)編碼(conditional variational auto encoder,CVAE)模型往往結(jié)合注意力機(jī)制或Seq2Seq模型實(shí)現(xiàn)指定情緒的響應(yīng)生成[5-6].但Seq2Seq模型和HRED模型對(duì)長(zhǎng)句的生成效果較差,為解決這一問(wèn)題,Google團(tuán)隊(duì)于2017年提出自注意力機(jī)制和Transformer序列到序列模型[7].該模型能夠并行提取其他位置的信息,并將信息進(jìn)行加權(quán)平均化,再和當(dāng)前位置進(jìn)行融合,在對(duì)話生成、情感識(shí)別等多種任務(wù)上的運(yùn)行效果均有較大提升;在多模態(tài)對(duì)話任務(wù)中,研究人員應(yīng)用CVAE模型根據(jù)多模態(tài)條件和給定情感信息生成連貫的對(duì)話響應(yīng)[8],但該研究?jī)H僅將模態(tài)間進(jìn)行線性連接,未考慮不同模式之間的交叉融合,不能深入挖掘模態(tài)內(nèi)部的關(guān)聯(lián).文獻(xiàn)[9]利用音頻輔助文本進(jìn)行對(duì)話生成,提出融合音頻的Audio-Seq2Seq文本對(duì)話生成模型,將文本嵌入向量和音頻向量同時(shí)輸入注意力模塊,探究振幅及響度對(duì)于對(duì)話生成情感的重要性.由于該研究的基礎(chǔ)是Seq2Seq模型,因此仍存在對(duì)話較為通用、多樣性較差等問(wèn)題.此外,不少學(xué)者致力于研究多模態(tài)Transformer,其中有研究[10]采用基于Transformer的自監(jiān)督多模態(tài)表示學(xué)習(xí)框架VATT(video-audio-text transformer)實(shí)現(xiàn)了多模態(tài)視頻的有效監(jiān)督,但該方法常被應(yīng)用于圖像相關(guān)的下游任務(wù);文獻(xiàn)[11]提出了視聽(tīng)場(chǎng)景感知對(duì)話(audio-visual scene-aware dialog,AVSD),通過(guò)引入多任務(wù)學(xué)習(xí)實(shí)現(xiàn)多模態(tài)對(duì)話生成,但該方法將語(yǔ)音模態(tài)進(jìn)行了單向映射,未將音頻特征與文本特征充分融合,因此生成的對(duì)話不能囊括音頻特征中豐富的情感信息.
為了解決上述問(wèn)題,本文提出文本音頻Transformer(audio text transformer,AT-Transformer)模型實(shí)現(xiàn)音頻和文本雙模態(tài)的對(duì)話生成,該模型的編碼器將文本和音頻雙模態(tài)進(jìn)行模態(tài)間和模態(tài)內(nèi)部特征融合,區(qū)別于已有的線性連接方法,實(shí)現(xiàn)了模態(tài)間特征關(guān)聯(lián)性的深入挖掘.為了驗(yàn)證模型的有效性,在IEMOCAP數(shù)據(jù)集[12]上進(jìn)行了實(shí)驗(yàn),通過(guò)與基于純文本的Transformer模型和基于音頻、文本多模態(tài)的Audio-Seq2Seq、VATT和AVSD模型進(jìn)行困惑度及生成多樣性比較,并從語(yǔ)義相關(guān)性、流暢度和情感匹配性3個(gè)方面進(jìn)行人工評(píng)估.實(shí)驗(yàn)結(jié)果表明,本文模型能夠生成內(nèi)容豐富、情感適宜的響應(yīng).
本文的主要工作如下:
(1)提出多模態(tài)注意力機(jī)制,探究文本特征和音頻特征之間的深入關(guān)聯(lián),使得文本生成任務(wù)能夠充分融入音頻特征所包含的潛在信息.
(2)從語(yǔ)句生成的多樣性方面提升對(duì)話生成效果,避免生成通用性、無(wú)意義的回復(fù).
(3)通過(guò)灰度對(duì)數(shù)功率譜圖、Mel頻譜圖、Mel頻率倒譜系數(shù)(Mel frequency cepstrum coefficient,MFCC)圖與注意力熱力圖的對(duì)比驗(yàn)證了語(yǔ)音頻率、基頻、共振與注意力之間的正向關(guān)系,表明語(yǔ)音模態(tài)能夠明顯促進(jìn)對(duì)話生成質(zhì)量的提升.
隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展和算力的提升,許多學(xué)者致力于研究對(duì)話生成技術(shù),按生成的依據(jù)可以將這些技術(shù)劃分為純文本對(duì)話生成和多模態(tài)對(duì)話生成兩種方式.純文本對(duì)話生成通過(guò)對(duì)文本數(shù)據(jù)的分析和處理,進(jìn)而生成響應(yīng)的過(guò)程.傳統(tǒng)的Seq2Seq模型對(duì)上下文信息的依賴(lài)有限,生成的響應(yīng)存在無(wú)意義、內(nèi)容不豐富等問(wèn)題,而HRED模型將Seq2Seq模型進(jìn)行層次化改進(jìn),提升了對(duì)上下文信息的關(guān)注度,進(jìn)而提高了多輪對(duì)話的生成效率.變分自編碼器(variational auto encoder,VAE)通過(guò)將潛在特征表述為概率分布的方式更適合對(duì)話上下文內(nèi)部狀態(tài)的表示,條件變分自編碼器(CVAE)結(jié)合雙重注意力機(jī)制能夠?qū)⑸舷挛捻憫?yīng)和隨機(jī)的潛在變量連接,有效地控制響應(yīng)的情感傾向[13].為了解決Seq2Seq模型和HRED模型對(duì)長(zhǎng)句及多輪對(duì)話生成效果不佳的問(wèn)題,Transformer模型通過(guò)多頭注意力機(jī)制關(guān)注當(dāng)前的詞和句子中的其他詞,可以有效獲取上下文語(yǔ)義信息[7].盡管這些模型取得了較好的對(duì)話效果,但是并未考慮語(yǔ)音模態(tài),可能會(huì)存在對(duì)上下文語(yǔ)義感知不準(zhǔn)確的問(wèn)題,故而對(duì)對(duì)話生成質(zhì)量造成影響.
多模態(tài)對(duì)話生成以視頻、音頻、微表情、文本等多種模態(tài)特征為依據(jù),通過(guò)模態(tài)融合建模不同模態(tài)之間的關(guān)系,進(jìn)而生成適合不同場(chǎng)景的回復(fù),具有廣闊的研究前景[14].Wang等[2]通過(guò)視覺(jué)模型提取視覺(jué)特征,并將其輸入序列到序列的對(duì)話生成中,學(xué)習(xí)在給定文本和視覺(jué)上下文情況下生成下一語(yǔ)句的概率.Chen等[5]使用文本實(shí)體定位圖像中的相關(guān)對(duì)象,建立文本與對(duì)象之間的映射,并通過(guò)跨模態(tài)注意力機(jī)制構(gòu)建多模態(tài)Transformer,從而生成與視覺(jué)和文本上下文一致的響應(yīng).除了視頻模態(tài)之外,文獻(xiàn)[9]對(duì)音頻上下文進(jìn)行建模,并提出音頻增強(qiáng)的Seq2Seq模型,實(shí)現(xiàn)對(duì)話生成任務(wù),驗(yàn)證了音頻特征對(duì)于對(duì)話生成的有效性.上述研究雖然能夠產(chǎn)生效果較好的響應(yīng),但是未對(duì)語(yǔ)音模態(tài)進(jìn)行考慮,并且序列到序列的模型存在生成多樣性較差、語(yǔ)義不豐富等問(wèn)題.本文工作區(qū)別于已有工作,通過(guò)應(yīng)用多模態(tài)融合實(shí)現(xiàn)音頻和文本模態(tài)間特征的深度挖掘,從而構(gòu)建多模態(tài)注意力機(jī)制AT-Transformer模型,經(jīng)驗(yàn)證雙模態(tài)特征比純文本特征實(shí)現(xiàn)了對(duì)話質(zhì)量和情感匹配度的顯著提升.
多模態(tài)融合是將音頻、視頻、微表情等多形態(tài)數(shù)據(jù)進(jìn)行綜合處理的過(guò)程,是多模態(tài)對(duì)話生成的基礎(chǔ)[13].模型相關(guān)的融合方法雖然復(fù)雜性較高,但具有較強(qiáng)的實(shí)用性和較高的準(zhǔn)確率.Rohanian等[15]使用長(zhǎng)短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)對(duì)文本中的詞匯信息和音頻中的聲學(xué)特征進(jìn)行順序建模,實(shí)現(xiàn)阿爾茨海默病的檢測(cè).Shen等[16]通過(guò)構(gòu)建LSTM網(wǎng)絡(luò)交互單元,對(duì)音頻和文本之間的動(dòng)態(tài)交互進(jìn)行建模,實(shí)現(xiàn)語(yǔ)音情感的準(zhǔn)確分類(lèi).由于上述研究對(duì)文本和音頻特征進(jìn)行順序建模,未考慮特征間的深層交互關(guān)系,并且LSTM網(wǎng)絡(luò)仍存在梯度消失及梯度爆炸問(wèn)題.Saha等[17]提出基于自身、模態(tài)間和任務(wù)間注意力機(jī)制的多模態(tài)多任務(wù)深度神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)情感和任務(wù)類(lèi)別的聯(lián)合學(xué)習(xí).該模型實(shí)現(xiàn)了對(duì)話行為及情感的準(zhǔn)確分類(lèi)以及模態(tài)間的深層融合,但未對(duì)主要關(guān)聯(lián)部分進(jìn)行探究,并且對(duì)話生成任務(wù)還需補(bǔ)充解碼器部分.本文通過(guò)將Transformer的編碼器部分的多頭注意力機(jī)制部分進(jìn)行跨模態(tài)設(shè)計(jì),并通過(guò)實(shí)驗(yàn)分析不同參數(shù)的重要性程度,促進(jìn)對(duì)話生成質(zhì)量的進(jìn)一步提升.
本文的目標(biāo)是通過(guò)音頻、對(duì)話上下文兩種模態(tài)信息生成內(nèi)容豐富、具有一定情感并且流暢的回復(fù).該任務(wù)定義為:DA(dialogue audio)表示當(dāng)前對(duì)話單位音頻片段;DT(dialogue text)為當(dāng)前對(duì)話音頻DA所對(duì)應(yīng)的文本;R(response)表示在給定對(duì)話單位音頻片段DA和對(duì)話文本DT的前提下生成的對(duì)話響應(yīng)文本,其中包含m個(gè)單詞,即R={r1,r2,…,rm}.則在給定對(duì)話音頻片段DA和對(duì)應(yīng)文本DT的情況下生成響應(yīng)文本R的概率表示為
其中:r<i表示響應(yīng)文本R中的前i-1個(gè)單詞,θ為可訓(xùn)練的參數(shù).
本文提出一種基于多模態(tài)注意力機(jī)制的ATTransformer模型,綜合考慮文本、音頻雙模態(tài),旨在探究語(yǔ)音模態(tài)對(duì)于對(duì)話生成效果的影響.實(shí)驗(yàn)證明,利用該生成模型能夠生成內(nèi)容豐富、情感適宜并且流暢的對(duì)話回復(fù).該模型在傳統(tǒng)Transformer的基礎(chǔ)上提出多模態(tài)注意力機(jī)制,并設(shè)計(jì)情感和內(nèi)容相關(guān)的目標(biāo)函數(shù),采用核采樣算法提升回復(fù)的多樣性,整體架構(gòu)如圖1所示.
圖1 AT-Transformer模型整體結(jié)構(gòu)Fig.1 Overall structure of AT-Transformer model
該模型主要分為3個(gè)部分:第1部分對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將音頻數(shù)據(jù)缺失的數(shù)據(jù)進(jìn)行過(guò)濾,通過(guò)計(jì)算Mel聲譜,進(jìn)行卷積操作獲得嵌入向量,同時(shí)對(duì)文本數(shù)據(jù)設(shè)置最大單詞長(zhǎng)度,進(jìn)行特征提取,然后將其進(jìn)行嵌入向量表示;第2部分將文本嵌入向量和音頻嵌入向量輸入生成模型進(jìn)行訓(xùn)練,在訓(xùn)練過(guò)程中通過(guò)多模態(tài)注意力機(jī)制實(shí)現(xiàn)音頻和文本特征的融合;第3部分通過(guò)多樣性損失函數(shù)提升對(duì)話生成質(zhì)量.
對(duì)音頻中的特征進(jìn)行提取,需要考慮說(shuō)話者的態(tài)度、情感色彩的變化、對(duì)應(yīng)的聲音形式、語(yǔ)調(diào)及說(shuō)話節(jié)奏等特征[18],而Mel頻譜圖更接近人類(lèi)感知音高的方式,因此本文使用VGGish對(duì)該特征進(jìn)行提取,并通過(guò)卷積操作獲取音頻向量的嵌入表示,最后使用主成分分析法進(jìn)行特征降維,從而在編碼器中實(shí)現(xiàn)特征融合.
為了使對(duì)話文本向量攜帶相應(yīng)的順序信息,文本表示由單詞(w)嵌入和位置嵌入構(gòu)成,具體如圖1中的輸入部分所示.
目前已有的多模態(tài)注意力機(jī)制主要是將不同的模態(tài)進(jìn)行一維卷積操作,并將不同的模態(tài)進(jìn)行跨模態(tài)操作并投影至同一模態(tài),然后將該模態(tài)下的所有特征進(jìn)行連接,再進(jìn)行自注意力操作實(shí)現(xiàn)多模態(tài)特征融合[19].雖然該方法實(shí)現(xiàn)了特征的有效融合,但是這種方法進(jìn)行了兩次跨模態(tài)操作,計(jì)算復(fù)雜度較高.
為了使音頻特征和文本特征進(jìn)行有效融合,本文使用多模態(tài)注意力計(jì)算的方法,將文本和音頻分別進(jìn)行嵌入向量表示,并通過(guò)注意力分?jǐn)?shù)體現(xiàn)二者之間的關(guān)系.本文在Transformer模型[7]的基礎(chǔ)上對(duì)其中的多頭注意力機(jī)制進(jìn)行改進(jìn),其中Q、K和V分別代表注意力中的查詢(xún)、鍵和值,多模態(tài)注意力機(jī)制的結(jié)構(gòu)如圖2所示,其中的藍(lán)色圓形表示輸入的文本向量,橙色圓形表示輸入的音頻向量.
圖2 多模態(tài)注意力機(jī)制Fig.2 Multimodal attention mechanism
其中:Qc、Kc和Vc分別是文本模態(tài)所對(duì)應(yīng)的查詢(xún)、鍵和值,Qa、Ka和Va為音頻模態(tài)所對(duì)應(yīng)的查詢(xún)、鍵和值,權(quán)重矩陣模態(tài)內(nèi)部和模態(tài)之間的多頭注意力表示為
其中:Cc和Aa分別為文本和音頻模態(tài)內(nèi)部計(jì)算所得注意力,Ac和Ca為文本和音頻兩種方式的跨模態(tài)注意力,dk為輸入向量的維度.然后,將式(5)—式(8)與對(duì)應(yīng)模態(tài)的值進(jìn)行向量乘積,此處以Ac為例,賦值后A'c為
公式(9)將文本和音頻兩種方式的跨模態(tài)注意力分別與對(duì)應(yīng)模態(tài)的值進(jìn)行向量乘積,分別求取每部分的最終注意力值,實(shí)現(xiàn)模態(tài)之間的深度融合[7].同時(shí),受文獻(xiàn)[20]的啟發(fā),將模態(tài)之間的注意力向量進(jìn)行連接,實(shí)現(xiàn)語(yǔ)音與文本之間注意力機(jī)制的深度挖掘,保證了模態(tài)融合的完整性,公式為
式中:RMM為最終的語(yǔ)音文本模態(tài)注意力計(jì)算結(jié)果,Mc和Ma分別為文本模態(tài)和音頻模態(tài)的注意力,Cc、Ac、Aa和Ca分別為依據(jù)式(9)進(jìn)行向量乘積之后的計(jì)算結(jié)果.
對(duì)話生成任務(wù)通常以softmax交叉熵作為損失函數(shù),傾向于從候選集中生成頻率最高的語(yǔ)句作為響應(yīng),從而出現(xiàn)生成的語(yǔ)句無(wú)意義、重復(fù)性較高等問(wèn)題.為了提高生成語(yǔ)句的多樣性,在原損失函數(shù)的基礎(chǔ)上考慮了單詞的頻率,同時(shí)通過(guò)動(dòng)態(tài)調(diào)整參數(shù)實(shí)現(xiàn)對(duì)目標(biāo)單詞索引權(quán)重的配置,進(jìn)而控制損失函數(shù)Le的收斂速度,其中該部分模型架構(gòu)圖1中的全連接層FC,公式為
其中:Ls為softmax交叉熵?fù)p失函數(shù),x是softmax層之前預(yù)測(cè)層的輸出,xi是x集合(x∈R|V|)中的第i個(gè)單詞,t是目標(biāo)單詞的索引.wt是 t所對(duì)應(yīng)的權(quán)重,tt是t所對(duì)應(yīng)的單詞,f(tt)是tokent在訓(xùn)練集中出現(xiàn)的頻率,λ為控制頻率影響大小的超參數(shù).在公式(12)中,由于eλ能夠通過(guò)調(diào)整λ的大小控制權(quán)重wt的變化速度,進(jìn)而控制損失函數(shù)的收斂速度,同時(shí)當(dāng)λ=0時(shí),該損失函數(shù)與softmax交叉熵?fù)p失函數(shù)相同.
本研究使用IEMOCAP作為數(shù)據(jù)集,該數(shù)據(jù)集包含12h的試聽(tīng)數(shù)據(jù),參與者在其中進(jìn)行即興表演或根據(jù)腳本場(chǎng)景表演,其中包含5個(gè)會(huì)話.由于該數(shù)據(jù)集包含文本和音頻雙模態(tài)并且具有情感標(biāo)簽,探討音頻特征對(duì)于對(duì)話生成文本是否具有情感因素方面的作用有一定的幫助,本研究將后4個(gè)session作為訓(xùn)練集,session1作為測(cè)試集,IEMOCAP數(shù)據(jù)集的初始對(duì)話數(shù)、預(yù)處理后的對(duì)話數(shù)和詞匯大小見(jiàn)表1.
表1 IEMOCAP數(shù)據(jù)集的初始對(duì)話數(shù)、預(yù)處理后的對(duì)話數(shù)和詞匯大小Tab.1Initial utterance number,preprocessed utterance number and vocabulary size of the IEMOCAP dataset
首先對(duì)IEMOCAP中的不規(guī)范文本數(shù)據(jù)及相對(duì)應(yīng)的音頻數(shù)據(jù)進(jìn)行過(guò)濾,然后對(duì)不完整的音頻數(shù)據(jù)及對(duì)應(yīng)的文本數(shù)據(jù)進(jìn)行過(guò)濾,通過(guò)觀察音頻數(shù)據(jù)的時(shí)長(zhǎng)及文本特征長(zhǎng)度,將特征維度進(jìn)行對(duì)齊,其中文本數(shù)據(jù)的維度為90,音頻數(shù)據(jù)的維度為90×128,學(xué)習(xí)率設(shè)置為1×10-4.
5.3.1 困惑度和多樣性評(píng)估
開(kāi)放域?qū)υ捝扇蝿?wù)的自動(dòng)評(píng)估方法一直以來(lái)都面臨著挑戰(zhàn),而人工評(píng)估方法成為一個(gè)較為可靠的評(píng)估標(biāo)準(zhǔn).
本實(shí)驗(yàn)主要進(jìn)行了困惑度(perplexity,PPL)[21]和多樣性?xún)煞矫娴淖詣?dòng)評(píng)估.對(duì)于一個(gè)由詞語(yǔ)序列組成的句子,困惑度計(jì)算公式為
其中:s為候選句子,N為候選句子s的長(zhǎng)度,P(wi)為第i個(gè)詞的概率,第一個(gè)詞為P(w1|w0),w0為句子開(kāi)始占位符.該方法用于估算模型的信息密度,檢測(cè)對(duì)話生成語(yǔ)句相對(duì)于已有參考語(yǔ)句的平均生成質(zhì)量,困惑度越小,語(yǔ)言模型越好.
回復(fù)多樣性作為影響對(duì)話質(zhì)量的關(guān)鍵要素之一,在開(kāi)放式對(duì)話任務(wù)中備受關(guān)注,傳統(tǒng)的Seq2Seq模型產(chǎn)生的回復(fù)往往會(huì)面臨回復(fù)語(yǔ)句單一、枯燥乏味等問(wèn)題,這嚴(yán)重影響用戶(hù)體驗(yàn),而Transformer模型能夠在一定程度上緩解這一問(wèn)題.本實(shí)驗(yàn)主要采用Distinct[22]方法對(duì)回復(fù)多樣性Dn進(jìn)行評(píng)估.
其中:ND為回復(fù)語(yǔ)句中不重復(fù)的n-gram的數(shù)量,NS為回復(fù)語(yǔ)句中n-gram詞語(yǔ)的總數(shù)目.式(15)分別對(duì)回復(fù)中不同的單個(gè)單詞和兩個(gè)單詞進(jìn)行統(tǒng)計(jì),并將該數(shù)目分別除以各自相對(duì)應(yīng)的總數(shù),本實(shí)驗(yàn)中主要采用D1和D2計(jì)算回復(fù)中的內(nèi)容多樣性.
為了驗(yàn)證所提模型的對(duì)話生成質(zhì)量及對(duì)話多樣性效果,本文選取模型Transformer、Audio-Seq2Seq、VATT、AVSD進(jìn)行實(shí)驗(yàn)比較,分別對(duì)其進(jìn)行困惑度及多樣性評(píng)估,其中Transformer模型未考慮音頻模態(tài),而Audio-Seq2Seq、VATT、AVSD模型均考慮了文本和音頻模型,具體比較數(shù)據(jù)見(jiàn)表2.實(shí)驗(yàn)結(jié)果表明,基于AT-Transformer模型相較于傳統(tǒng)Transformer及其他各類(lèi)多模態(tài)模型在困惑度和多樣性均有一定提升,與表2中標(biāo)紅的其他模型的最佳實(shí)驗(yàn)結(jié)果相比,困惑度降低了0.2%,D1和D2分別提升了0.06和2.7%.總體來(lái)看,本文提出的模型在困惑度和D2上的性能提升較為明顯.
表2 不同模型在IEMOCAP數(shù)據(jù)集上的困惑度和多樣性比較Tab.2 Comparison of AT-Transformer’s perplexity and diversity on IEMOCAP data sets with different models
5.3.2 人工評(píng)估
由于情感相關(guān)性與內(nèi)容相關(guān)性很難通過(guò)自動(dòng)評(píng)估方法進(jìn)行考量,為了驗(yàn)證文中模型的效果,從語(yǔ)義相關(guān)性、流暢度和情感匹配度三方面進(jìn)行評(píng)估[13],邀請(qǐng)5名具有對(duì)話相關(guān)工作經(jīng)驗(yàn)的人進(jìn)行評(píng)分,根據(jù)語(yǔ)句與人工回復(fù)語(yǔ)句的近似程度及內(nèi)容豐富性評(píng)分,其中分?jǐn)?shù)分別為0、1、2,如果語(yǔ)句中包含的內(nèi)容較多但不偏離核心話題,那么其得分越高;對(duì)于流暢度,人工主要依據(jù)其可讀性將其分?jǐn)?shù)判定為0、1、2;情感匹配度主要是由評(píng)分者判定生成語(yǔ)句情感和對(duì)話數(shù)據(jù)本身情感是否匹配,如果強(qiáng)匹配則評(píng)分為2,若情感傾向一致,但有一點(diǎn)偏離,則評(píng)分為1,若情感傾向完全不同則評(píng)分為0.回復(fù)在語(yǔ)義相關(guān)性、流暢度和情感匹配度中的達(dá)標(biāo)程度見(jiàn)表3.
表3 回復(fù)在語(yǔ)義相關(guān)性、流暢度和情感匹配度中的達(dá)標(biāo)程度Tab.3Degree to which the response meets the criteria for semantic relevance,fluency and emotional matching
實(shí)驗(yàn)數(shù)據(jù)表明,相較于最優(yōu)基準(zhǔn)模型,本文模型在情感匹配度上提升2%,在流暢度及語(yǔ)義相關(guān)性方面與純文本特征生成的回復(fù)效果基本持平,表現(xiàn)為語(yǔ)義相關(guān)性提升0.5%,而流暢度則下降0.11%.由此可看出音頻特征的增加對(duì)于提升對(duì)話的情感匹配度有一定的作用,而文本特征嵌入向量具有充分的表示能力,因此增加音頻特征之后并不能使流暢度顯著提升.Transformer模型與AT-Transformer模型生成的回復(fù)對(duì)比見(jiàn)表4.
表4 Transformer模型和AT-Transformer模型在系統(tǒng)中生成的回復(fù)對(duì)比Tab.4 Comparison of responses generated by Transformer model and AT-Transformer model
在表4中分別針對(duì)4組上下文將 Transformer模型和AT-Tranformer模型生成的回復(fù)進(jìn)行對(duì)比,從中可以看出本文所提出的模型包含的內(nèi)容較為豐富,例如,針對(duì)第4組上下文Transformer模型產(chǎn)生的響應(yīng)對(duì)于上文進(jìn)行了同義表述然后進(jìn)行了反問(wèn),而ATTransformer模型在承接上文語(yǔ)義之后,又進(jìn)行了話題的延展,增強(qiáng)了內(nèi)容豐富性,同時(shí)情感與上文較為一致.
5.3.3 對(duì)話音頻頻率對(duì)注意力機(jī)制的影響
音頻特征在一定程度上能夠體現(xiàn)說(shuō)話者所強(qiáng)調(diào)的語(yǔ)義重點(diǎn)及情緒特征,對(duì)于生成語(yǔ)義契合、情感匹配的回復(fù)具有一定的意義.為了探究音頻頻率在對(duì)話生成中的作用,選用session1中的第5個(gè)會(huì)話中的音頻片段,其對(duì)應(yīng)表述為“Okay.But I didn’t tell you to get in this,line if you are filling out this particular form.”,其中圖3—圖5分別為該語(yǔ)句所對(duì)應(yīng)的灰度對(duì)數(shù)功率譜圖、Mel頻譜圖和MFCC圖.綜合3個(gè)圖可以看出,在0.5~4s之間的頻率較高,與此同時(shí)該音頻對(duì)應(yīng)的音頻-文本和文本-音頻注意力強(qiáng)度如圖6所示.
圖3 “Okay.But I didn’t tell you to get in this line if you are filling out this particular form.”音頻對(duì)應(yīng)的灰度對(duì)數(shù)功率譜圖Fig.3 Gray logarithmic power spectrum corresponding to “Okay.But I didn’t tell you to get in this line if you are filling out this particular form.”
圖3中的紅色圓點(diǎn)為基頻f0,綠色區(qū)域?yàn)槊繋Z(yǔ)音在空氣中的聲壓級(jí)(SPL為對(duì)數(shù)功率譜),將圖3與圖6對(duì)比可以發(fā)現(xiàn)綠色及紅色原點(diǎn)部分越密集,圖6中注意力分?jǐn)?shù)越高,這也就證明了模型的注意力與基頻f0、聲壓級(jí)具有對(duì)應(yīng)關(guān)系.Log-Mel Spectrogram特征通過(guò)構(gòu)建Mel頻率的維度和時(shí)間幀長(zhǎng)度,實(shí)現(xiàn)了不同時(shí)頻下音頻信號(hào)特征表示(圖4).將圖4和圖6對(duì)比可以發(fā)現(xiàn)文本-音頻注意力機(jī)制與Mel時(shí)頻的變化趨勢(shì)較為一致.
圖4 Mel頻譜圖Fig.4 Mel spectrogram
由圖5可知:MFCC特征能夠充分體現(xiàn)說(shuō)話者的聲音特點(diǎn),考慮到人耳對(duì)不同頻率的感受程度,常用于語(yǔ)音辨識(shí).
圖5 MFCC圖Fig.5 MFCC diagram
MFCC特征包括音高、過(guò)零率、共振峰等,能夠在一定程度上體現(xiàn)說(shuō)話者的情感特點(diǎn),比如開(kāi)懷大笑時(shí)聲音會(huì)高一些,而心情不好則聲音低迷.通過(guò)對(duì)比圖5與圖6,可以發(fā)現(xiàn)文本-音頻注意力機(jī)制能夠捕捉MFCC所體現(xiàn)的這些特征.
圖6 基于AT-Attention模型的音頻-文本注意力和文本-音頻注意力示意圖,該圖所對(duì)應(yīng)的語(yǔ)句為“Okay.But I didn’t tell you to get in this line if you are filling out this particular form.”Fig.6 Audio-context attention and context-audio attention schematic diagram based on AT-Attention model,the corresponding sentence of which is “Okay.But I didn’t tell you to get in this line if you are filling out this particular form.”
圖6中的文本-音頻注意力熱力圖直觀地顯示出不同時(shí)間的注意力強(qiáng)度變化,對(duì)比圖3—圖6可發(fā)現(xiàn)注意力分?jǐn)?shù)與音頻的振幅、基頻、共振峰相關(guān)特征、MFCC系數(shù)均有關(guān)系,并且隨著時(shí)間變化,注意力分?jǐn)?shù)與Mel頻譜圖中的頻率和對(duì)數(shù)功率譜呈明顯的正向關(guān)系,與音頻強(qiáng)度和MFCC具有一定的正向?qū)?yīng)關(guān)系.
本文提出了基于AT-Transformer的語(yǔ)音文本多模態(tài)對(duì)話生成模型,該模型通過(guò)VGGish實(shí)現(xiàn)對(duì)對(duì)話上下文的音頻特征進(jìn)行提取,并通過(guò)WordEmbedding計(jì)算文本嵌入向量,通過(guò)將其與位置編碼進(jìn)行加和融入位置信息,并將二者作為模型的輸入.在編碼階段,通過(guò)多頭注意力機(jī)制對(duì)文本和語(yǔ)音模態(tài)內(nèi)、模態(tài)間關(guān)系計(jì)算,實(shí)現(xiàn)模態(tài)之間關(guān)系的深入挖掘,實(shí)驗(yàn)表明文本-音頻注意力分?jǐn)?shù)更能反映音頻上下文的重要性程度.語(yǔ)音模態(tài)對(duì)于感知對(duì)話上下文的語(yǔ)義重要性有著不可或缺的作用,并且從多樣性方面提升對(duì)話生成質(zhì)量,與純文本對(duì)話生成任務(wù)相比較,生成語(yǔ)句的流暢度基本持平,情感匹配度和語(yǔ)義相關(guān)性均有一定的提升.此外,由于現(xiàn)實(shí)生活中的音頻數(shù)據(jù)具有時(shí)長(zhǎng)差異性較大、不均衡的特點(diǎn),如何對(duì)信息量較小的音頻段進(jìn)行過(guò)濾,實(shí)現(xiàn)高效的音頻特征處理是下一步值得研究的問(wèn)題.