• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Transformer編碼器的語(yǔ)義相似度算法研究

      2021-07-28 13:08:12喬偉濤黃海燕
      關(guān)鍵詞:注意力語(yǔ)義編碼

      喬偉濤,黃海燕,王 珊

      華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海200237

      隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,每時(shí)每刻有大量的信息以文本的形式產(chǎn)生。如何對(duì)文本信息進(jìn)行分析處理是NLP(自然語(yǔ)言處理)研究的主要內(nèi)容。其中的語(yǔ)義相似度計(jì)算是NLP領(lǐng)域中非常重要的研究方向,該技術(shù)可廣泛應(yīng)用于搜索引擎、問(wèn)答系統(tǒng)中,為系統(tǒng)篩選出更為準(zhǔn)確的答案,也可應(yīng)用在內(nèi)容去重中,例如對(duì)門(mén)戶網(wǎng)站的標(biāo)題進(jìn)行語(yǔ)義相似度計(jì)算實(shí)現(xiàn)去除重復(fù)新聞。

      目前,語(yǔ)義相似度的主流計(jì)算方法主要分為四類:第一類是傳統(tǒng)的基于稀疏特征的統(tǒng)計(jì)學(xué)方法,第二類是基于語(yǔ)義詞典的計(jì)算方法,第三類是基于向量空間模型的方法,第四類是基于深度神經(jīng)網(wǎng)絡(luò)的方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)的方法是利用句子中的共現(xiàn)詞、統(tǒng)計(jì)詞頻等特征來(lái)計(jì)算相似度。張培穎[1]通過(guò)統(tǒng)計(jì)句子間的詞語(yǔ)距離、結(jié)構(gòu)以及長(zhǎng)度差異等特征,通過(guò)對(duì)不同的特征賦予不同的權(quán)重來(lái)調(diào)節(jié)各個(gè)特征對(duì)于句子相似度的貢獻(xiàn)來(lái)計(jì)算句子間的相似度?;谡Z(yǔ)義詞典的方法是利用外部詞匯資源來(lái)提取句子文本中的特征,例如中文語(yǔ)義詞典HowNet 和英文語(yǔ)義詞典的WordNet,F(xiàn)ernando 等人[2]基于WordNet 提取出句子相似關(guān)系矩陣相結(jié)合來(lái)計(jì)算句子之間的相似度。朱新華等人[3]在HowNet和同義詞詞林的相似度檢測(cè)上重新設(shè)計(jì)權(quán)重計(jì)算方法取得較好的結(jié)果。在向量空間模型中,用關(guān)鍵詞組成的集合來(lái)表示文本,關(guān)鍵詞在文本中權(quán)值可以通過(guò)詞頻-逆文檔概率(TF-IDF)方法計(jì)算出,將關(guān)鍵詞的權(quán)值映射為向量中各個(gè)元素,則文本可以通過(guò)向量的形式來(lái)表示,然后再利用向量的余弦相似度來(lái)表示句子的語(yǔ)義相似度[4]。句子由詞組成,詞的不同詞性及其在句子中的位置對(duì)句子的語(yǔ)義有著重要的影響,以上介紹的傳統(tǒng)方法都圍繞句子中出現(xiàn)的詞語(yǔ)特征進(jìn)行建模計(jì)算,而忽略了句子中詞語(yǔ)的順序和句子的深層語(yǔ)義,容易造成對(duì)句子語(yǔ)義的曲解,在具體任務(wù)的表現(xiàn)上來(lái)看,都不能達(dá)到令人滿意的效果,例如對(duì)“我乘坐北京到上海的高鐵”和“我乘坐上海到北京的高鐵”兩句話容易造成誤判斷。

      基于神經(jīng)網(wǎng)絡(luò)模型的方法是利用word2vec[5]等詞向量方法將詞語(yǔ)轉(zhuǎn)換為詞向量,然后輸入神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型中,得出句子的語(yǔ)義特征表示,然后送入全連接層或使用距離公式進(jìn)行語(yǔ)義相似度計(jì)算。Hu 等人[6]首次使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型分別對(duì)兩個(gè)句子進(jìn)行建模,通過(guò)抽取出的語(yǔ)義向量計(jì)算相似度。Mueller 等人[7]也提出一種基于孿生長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)模型的網(wǎng)絡(luò)結(jié)構(gòu)并結(jié)合曼哈頓距離用于計(jì)算句子對(duì)之間的語(yǔ)義相似度,并取得了較好的效果。紀(jì)明宇等人[8]將門(mén)控循環(huán)網(wǎng)絡(luò)(GRU)應(yīng)用在智能客服數(shù)據(jù)的相似度計(jì)算上取得不錯(cuò)的效果。

      綜上所述,神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型在處理語(yǔ)義相似度問(wèn)題上是較好的解決思路,但是使用LSTM模型存在速度較慢的問(wèn)題,并且不能充分提取句子間的相似信息。CNN模型由于其池化機(jī)制會(huì)過(guò)濾掉大量和句子底層信息,不能充分地對(duì)語(yǔ)義進(jìn)行編碼。因此,針對(duì)以上問(wèn)題,本文在文獻(xiàn)[7]研究的基礎(chǔ)上,對(duì)模型進(jìn)行改進(jìn),首先使用Transformer-encoder 網(wǎng)絡(luò)取代原來(lái)的單向LSTM 網(wǎng)絡(luò),使模型能夠捕捉語(yǔ)義中的上下文信息,Transformer網(wǎng)絡(luò)的并行結(jié)構(gòu)可以加快模型計(jì)算速度,然后利用交互注意力機(jī)制[9],使得模型可以自動(dòng)地集中注意力在兩個(gè)句子中相似的語(yǔ)義信息,并且不需要任何額外的知識(shí),增強(qiáng)模型魯棒性,更好地計(jì)算語(yǔ)義相似度,實(shí)驗(yàn)表明該模型在語(yǔ)義相似度計(jì)算數(shù)據(jù)集上準(zhǔn)確率提升了5%。

      1 基于Transformer編碼器的語(yǔ)義相似度模型

      基于Transformer 編碼器的語(yǔ)義相似度模型TEAM主要包括以下五部分:詞向量嵌入表示,Transformer 編碼層,交互注意力層,特征融合層,輸出層。圖1是本文提出的TEAM 模型框架圖,輸入句子1 和輸入句子2 首先通過(guò)預(yù)處理層,進(jìn)行文本清洗、去除停用詞和數(shù)字化等操作,接著經(jīng)過(guò)詞嵌入層將句子中的詞映射為對(duì)應(yīng)的詞向量,轉(zhuǎn)化后分別得到S1=(a1,a2,…,al),S2=(b1,b2,…,bl),其中ai表示句子1 中第i個(gè)詞的詞向量,bi表示句子2 中第i個(gè)詞的詞向量,然后經(jīng)過(guò)Transformer編碼層得到句子的全局語(yǔ)義特征,同時(shí)將重新編碼的詞向量經(jīng)過(guò)交互注意力層,得到兩個(gè)句子的局部相似特征,最終將以上的特征通過(guò)拼接融合并輸入到全連接層進(jìn)行語(yǔ)義相似度計(jì)算。

      圖1 TEAM模型框架

      TEAM 模型充分利用Transformer 模型的上下文語(yǔ)義編碼能力提取句子內(nèi)的語(yǔ)義信息,對(duì)句子進(jìn)行深層語(yǔ)義編碼,并通過(guò)引入交互注意力機(jī)制,在編碼兩個(gè)句子時(shí)利用交互注意力機(jī)制提取兩個(gè)句子之間關(guān)聯(lián)的相似特征,使模型更擅長(zhǎng)捕捉句子內(nèi)部重要的語(yǔ)義信息,本章接下來(lái)將會(huì)對(duì)模型各個(gè)部分進(jìn)行詳細(xì)介紹。

      1.1 詞嵌入技術(shù)

      詞是構(gòu)成句子的最小單位,要使計(jì)算機(jī)能處理自然語(yǔ)言,將詞轉(zhuǎn)化為數(shù)字是必不可少的第一步。傳統(tǒng)的表示方法是采用One-hot表示法,這種表示方法存在“維度災(zāi)難”的問(wèn)題,也無(wú)法表示詞與詞之間的語(yǔ)義關(guān)系。Bengio等[10]最先提出神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,使用這種模型可以實(shí)現(xiàn)詞的分布式表示,將單詞轉(zhuǎn)化為低維的稠密向量。

      Mikolov 等[5]提出了被廣泛使用的word2vec 模型,它包括CBOW(Continues Bag-of-Words)和Skip-gram兩種不同的結(jié)構(gòu),可以在大量的無(wú)監(jiān)督文本集上進(jìn)行訓(xùn)練,使用該模型訓(xùn)練出來(lái)的詞向量可以讓相似的詞語(yǔ)在向量空間內(nèi)具有相似的位置,斯坦福NLP團(tuán)隊(duì)在2014年提出了基于詞共現(xiàn)矩陣的Glove 模型[11],在一些任務(wù)上的表現(xiàn)超過(guò)word2vec 模型,可見(jiàn)詞向量的好壞對(duì)實(shí)驗(yàn)結(jié)果會(huì)產(chǎn)生直接的影響。根據(jù)Lai等[12]在詞向量訓(xùn)練實(shí)驗(yàn)結(jié)果可知,好的詞向量與訓(xùn)練語(yǔ)料的大小緊密相關(guān),因此本文采用由騰訊在海量數(shù)據(jù)上訓(xùn)練的800 萬(wàn)詞向量[13],該詞向量具有語(yǔ)料大、覆蓋范圍廣等特點(diǎn)。

      1.2 Transformer編碼器模型

      傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)如LSTM、GRU在編碼句子時(shí)無(wú)法進(jìn)行并行計(jì)算,尤其在層數(shù)深時(shí)模型計(jì)算速度嚴(yán)重下降。2017年Vaswani等[14]提出一種基于自注意力機(jī)制的序列編碼模型Transformer,該模型包括編碼器和解碼器兩個(gè)部分。本文使用的是其中的編碼器部分,編碼器包含6 層疊加的Transformer-block,每個(gè)Transformerblock 的結(jié)構(gòu)如圖2 所示,主要包含多頭注意力機(jī)制、殘差連接、層歸一化、全連接網(wǎng)絡(luò)四個(gè)部分,輸入為句子詞匯的詞向量編碼和位置編碼之和,位置編碼的目的是區(qū)分句子中詞的位置關(guān)系,計(jì)算公式如下:

      圖2 Transformerblock結(jié)構(gòu)圖

      其中,pos表示詞語(yǔ)在句子中的位置,i表示詞向量的位置,dmodel表示詞向量的維度。多頭注意力的計(jì)算公式如下:

      其中,xi表示輸入矩陣x的第i維,m和σ分別表示輸入x的均值和方差,α、β是引入的待學(xué)習(xí)的參數(shù),彌補(bǔ)歸一化的過(guò)程中損失掉的信息,? 是防止除數(shù)等于0設(shè)置的無(wú)窮小的數(shù)。層歸一化的作用在于加快模型的收斂速度,提高訓(xùn)練效率。全連接層計(jì)算公式如下:

      其中,W1、W2為全連接層的權(quán)重矩陣,b1,b2為全連接層的偏置。

      1.3 交互注意力機(jī)制

      注意力機(jī)制最近取得了廣泛的應(yīng)用在深度學(xué)習(xí)領(lǐng)域,例如常見(jiàn)的問(wèn)答系統(tǒng)、機(jī)器翻譯、語(yǔ)音識(shí)別和圖像識(shí)別等任務(wù)[15-16]。注意力機(jī)制最早出現(xiàn)在圖像領(lǐng)域,例如對(duì)于一張圖片,人們會(huì)選擇性地關(guān)注所有信息的一部分,同時(shí)忽略其他部分信息。在自然語(yǔ)言處理領(lǐng)域,例如機(jī)器翻譯中的Encoder-Decoder框架[17],注意力機(jī)制可以使模型翻譯當(dāng)前詞的時(shí)候重點(diǎn)關(guān)注與當(dāng)前詞語(yǔ)境相關(guān)的詞匯,顯著地提高了機(jī)器翻譯的性能。

      對(duì)于語(yǔ)義相似度計(jì)算問(wèn)題,兩個(gè)句子間的關(guān)聯(lián)相似特征是重要的判斷標(biāo)準(zhǔn)之一,而不是單純地將兩個(gè)句子表示為獨(dú)立的向量,然后計(jì)算匹配值。例如對(duì)于下面的句子對(duì):

      句子a:下周有哪些好產(chǎn)品?

      句子b:元月份有什么理財(cái)產(chǎn)品?

      從語(yǔ)義層面看這兩句話,可以看出兩句話的語(yǔ)義有明顯的差別,但是通過(guò)結(jié)構(gòu)對(duì)比發(fā)現(xiàn)在句子a 和句子b中有較多相似的成分,例如“下周”和“元月份”都表示時(shí)間狀語(yǔ),“有哪些”和“有什么”是相似的疑問(wèn)詞,“產(chǎn)品”和“理財(cái)產(chǎn)品”在語(yǔ)義中同屬于詢問(wèn)對(duì)象,這些語(yǔ)義相似的句子成分對(duì)于語(yǔ)義的相似程度具有重要影響,并且只有通過(guò)聯(lián)系另一句話的語(yǔ)義,才能提取出兩個(gè)句子中相似的語(yǔ)義單元。因此,本文提出使用交互注意力來(lái)提取句子間的相似特征。

      本文的交互注意力機(jī)制設(shè)計(jì)思路為,首先計(jì)算相似度矩陣得到兩個(gè)句子中詞匯之間的相似度,然后利用注意力機(jī)制分別對(duì)每個(gè)句子的詞匯進(jìn)行重新編碼,具體計(jì)算公式如下:

      其中,E為兩個(gè)句子的相似度矩陣,為句子1 經(jīng)過(guò)Transformer編碼后的全局語(yǔ)義特征的轉(zhuǎn)置,T2為句子2的語(yǔ)義特征,eij是矩陣E中第i行第j列的元素,表示句子1 中第i個(gè)詞和句子2 中第j個(gè)詞的相似度,s1是利用注意力機(jī)制提取句子2 中與句子1 的相似信息,s2是利用注意力機(jī)制提取句子1 中與句子2 的相似信息,s1和s2是模型用于預(yù)測(cè)的重要特征。

      1.4 特征融合及輸出

      Transformer 層編碼了輸入句子全局的語(yǔ)義特征t1、t2,其中t1表示句子1的語(yǔ)義特征,t2表示句子2的語(yǔ)義特征,交互注意力層提取了每個(gè)句子中的局部相似特征s1、s2,其中s1表示句子1 的相似特征,s2表示句子2 的相似特征,特征融合層根據(jù)公式(14)將兩部分特征進(jìn)行融合:

      其中,t1-t2、s1-s2是向量的相減操作,目的是為了獲取差異特征,最后通過(guò)向量拼接的方式,得到最終的特征融合向量m。輸出層采用全連接網(wǎng)絡(luò)對(duì)特征進(jìn)行權(quán)重調(diào)整及softmax 函數(shù)進(jìn)行預(yù)測(cè)分類結(jié)果y,輸入為融合的特征融合向量m,計(jì)算過(guò)程如公式(15)、(16)所示,經(jīng)過(guò)實(shí)驗(yàn)證明采用全連接層作為輸出效果好于使用歐式距離或余弦相似度作為輸出:

      模型的損失函數(shù)采用交叉熵?fù)p失函數(shù)如下:

      其中ri∈?m是以one-hot 編碼的標(biāo)簽真實(shí)值,yi∈?m是由softmax 函數(shù)預(yù)測(cè)的每個(gè)類別的概率,k是類別的個(gè)數(shù),λ是L2 正則的超參數(shù),本文同時(shí)使用L2 正則和dropout[18]來(lái)防止模型過(guò)擬合,模型的詳細(xì)參數(shù)將會(huì)在2.3節(jié)介紹。

      2 實(shí)驗(yàn)分析

      2.1 實(shí)驗(yàn)數(shù)據(jù)

      為了驗(yàn)證模型的有效性,本文采用兩個(gè)公開(kāi)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),中文數(shù)據(jù)集采用智能客服數(shù)據(jù)(2018 全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)智能客服問(wèn)句匹配大賽),英文數(shù)據(jù)集采用SICK(Sentences Involving Compositional Knowledge)數(shù)據(jù)集[19],其中智能客服數(shù)據(jù)為分類任務(wù),判斷兩個(gè)句子語(yǔ)義相似或不相似,SICK 數(shù)據(jù)集的標(biāo)簽為兩個(gè)句子的相似度分?jǐn)?shù),分?jǐn)?shù)區(qū)間為1~5,5分表示完全相似,1 分表示完全不相似。表1 列出了兩個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息,表2列出了數(shù)據(jù)集樣例。

      表1 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)信息

      表2 數(shù)據(jù)集樣例

      2.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

      對(duì)于智能客服數(shù)據(jù),本實(shí)驗(yàn)采用準(zhǔn)確率(accuracy)和F1 值(F1-score)指標(biāo)作為評(píng)價(jià)指標(biāo),對(duì)于SICK數(shù)據(jù)集,采用皮爾遜系數(shù)作為評(píng)價(jià)指標(biāo)。具體計(jì)算公式如下:

      其中,TP表示正例預(yù)測(cè)為正例的個(gè)數(shù),F(xiàn)P表示負(fù)例預(yù)測(cè)為正例的個(gè)數(shù),F(xiàn)N表示正例預(yù)測(cè)為負(fù)例的個(gè)數(shù),TN表示負(fù)例預(yù)測(cè)為負(fù)例的個(gè)數(shù),X為實(shí)際值,Y為預(yù)測(cè)值。

      2.3 實(shí)驗(yàn)設(shè)置

      本文實(shí)驗(yàn)基于Google 開(kāi)源的TensorFlow 1.14.0 深度學(xué)習(xí)框架實(shí)現(xiàn),中文的詞向量采用的是騰訊開(kāi)源的800 萬(wàn)詞向量[13],并且使用哈工大分詞工具包pyltp0.2.0進(jìn)行中文分詞,英文詞向量的采用的是由斯坦福大學(xué)預(yù)訓(xùn)練的glove[11]詞向量,未登陸詞通過(guò)高斯分布隨機(jī)初始化,所有的參數(shù)包括詞向量都隨訓(xùn)練過(guò)程更新,序列的最大長(zhǎng)度根據(jù)實(shí)驗(yàn)語(yǔ)料長(zhǎng)度覆蓋率95%以上進(jìn)行選取,為防止訓(xùn)練過(guò)程抖動(dòng),優(yōu)化方法采用Adam算法[20],實(shí)驗(yàn)采用earlystopping 防止過(guò)模型擬合,表3 列出了實(shí)驗(yàn)具體的超參數(shù)。

      表3 實(shí)驗(yàn)超參數(shù)設(shè)置

      2.4 實(shí)驗(yàn)結(jié)果及分析

      為了驗(yàn)證本文方法的有效性,同時(shí)為了比較不同的深度學(xué)習(xí)模型的效果,本文加入了Siamese-CNN、Siamese-LSTM 以及Siamese-LSTM-Att 模型進(jìn)行對(duì)比,另外也加入了傳統(tǒng)TF-IDF 方法進(jìn)行對(duì)比,本文提出的模型為T(mén)EAM,實(shí)驗(yàn)采用五折交叉驗(yàn)證的方式選取評(píng)價(jià)指標(biāo)的平均值作為結(jié)果。

      2.4.1 智能客服數(shù)據(jù)實(shí)驗(yàn)分析

      智能客服數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果如表4所示。

      通過(guò)實(shí)驗(yàn)結(jié)果可以看出傳統(tǒng)的TF-IDF方法通過(guò)淺層詞匯匹配只能達(dá)到70.2%的準(zhǔn)確率,本文提出的TEAM 模型比傳統(tǒng)模型在準(zhǔn)確率上提升了24.5 個(gè)百分點(diǎn),比其他深度學(xué)習(xí)模型平均提升了15 個(gè)百分點(diǎn)。通過(guò)表4 可以看出深度學(xué)習(xí)模型較傳統(tǒng)模型性能提升很多。基于卷積神經(jīng)網(wǎng)絡(luò)編碼的Siamese-CNN 只能達(dá)到74.4%的準(zhǔn)確率,這是由于卷積神經(jīng)網(wǎng)絡(luò)只能提取每個(gè)句子的局部特征,不能獲得全局的語(yǔ)義編碼。Siamese-LSTM 模型的準(zhǔn)確率比Siamese-CNN 提升了15 個(gè)百分點(diǎn),證明循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)義的編碼能力比卷積神經(jīng)網(wǎng)絡(luò)表現(xiàn)得更好,加入了注意力機(jī)制的Siamese-LSTM-Att模型相比Siamese-LSTM 模型準(zhǔn)確率只提升了0.9 個(gè)百分點(diǎn),F(xiàn)1 值提升了0.5個(gè)百分點(diǎn),可以看出局部注意力并沒(méi)有對(duì)模型表現(xiàn)帶來(lái)很大的提升。此外,TEAM模型相比Siamese-LSTM模型提升了5.1個(gè)百分點(diǎn),較Siamese-CNN 模型提升了20.3 個(gè)百分點(diǎn),可以看出基于Transformer 的模型比傳統(tǒng)的CNN,LSTM 模型性能提升很多,證明Transformer網(wǎng)絡(luò)的語(yǔ)義編碼能力更強(qiáng)。

      表4 智能客服測(cè)試數(shù)據(jù)集結(jié)果 %

      實(shí)驗(yàn)過(guò)程對(duì)比曲線如圖3所示。

      圖3 智能客服數(shù)據(jù)準(zhǔn)確率變化曲線

      由圖3 可知,TEAM 模型只用了2 個(gè)epoch 達(dá)到了90%的準(zhǔn)確率,并在第8個(gè)epoch開(kāi)始提升緩慢,模型接近收斂點(diǎn),證明TEAM 模型的收斂速度明顯快于其他模型。

      2.4.2 SICK數(shù)據(jù)實(shí)驗(yàn)分析

      不同模型在SICK 數(shù)據(jù)集上的表現(xiàn)如表5 所示,由實(shí)驗(yàn)結(jié)果可以看出,TEAM 模型的表現(xiàn)好于其他模型,比其他模型皮爾遜相關(guān)系數(shù)平均提升了0.3,證明TEAM模型在英文數(shù)據(jù)集上的有效性,但相比Siamese-LSTMAtt模型皮爾遜相關(guān)系數(shù)僅提升了0.052,效果提升不明顯。由圖4可知,由于SICK數(shù)據(jù)集數(shù)據(jù)較小,TEAM模型在訓(xùn)練過(guò)程中出現(xiàn)了過(guò)擬合的現(xiàn)象,證明基于Transformer的模型在數(shù)據(jù)集較小的數(shù)據(jù)上性能還有待提升。

      表5 SICK測(cè)試數(shù)據(jù)集結(jié)果

      圖4 SICK數(shù)據(jù)皮爾遜系數(shù)變化曲線

      2.4.3 交互注意力機(jī)制的有效性分析

      為了進(jìn)步一驗(yàn)證模型有效性,引入將TEAM模型去除交互注意力機(jī)制的模型TEM,分別在兩個(gè)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證加入句子間交互注意力對(duì)模型的影響。表6 為實(shí)驗(yàn)的結(jié)果,圖5 是模型在兩個(gè)實(shí)驗(yàn)數(shù)據(jù)上的訓(xùn)練過(guò)程,由表6 實(shí)驗(yàn)結(jié)果可知,交互注意力對(duì)模型提升效果明顯,在智能客服數(shù)據(jù)上TEAM 比TEM 準(zhǔn)確率提升2.7個(gè)百分點(diǎn),在SICK數(shù)據(jù)上皮爾遜相關(guān)系數(shù)提升0.05,證明交互注意力使模型充分學(xué)習(xí)到句子間的相似特征,進(jìn)而對(duì)相似度進(jìn)行更準(zhǔn)確的預(yù)測(cè)。其次,實(shí)驗(yàn)結(jié)果同時(shí)證明句子間的交互信息對(duì)于相似度計(jì)算問(wèn)題具有重要作用。由訓(xùn)練對(duì)比曲線可知,TEAM模型由于可以捕捉到句子的交互特征,使得模型的收斂更快。

      表6 TEAM和TEM結(jié)果對(duì)比

      圖5 TEAM和TEM訓(xùn)練曲線

      3 結(jié)束語(yǔ)

      本文提出了一種基于Transformer 編碼器的語(yǔ)義相似度計(jì)算模型,并引入了交互注意力機(jī)制提取句子間的相似特征,綜合考慮了相似度計(jì)算問(wèn)題中的全局語(yǔ)義編碼和局部相似特征編碼,在不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明本文模型在中文英文數(shù)據(jù)上比基準(zhǔn)模型有顯著的改善,并且證明了交互注意力機(jī)制的有效性。目前的實(shí)驗(yàn)數(shù)據(jù)及模型對(duì)象都是針對(duì)短文本語(yǔ)料,且數(shù)據(jù)分布均衡,長(zhǎng)文本面臨著計(jì)算時(shí)間長(zhǎng)以及注意力分散的問(wèn)題,在后序的工作中,將開(kāi)展長(zhǎng)文本相似度計(jì)算方法的研究和優(yōu)化,增強(qiáng)模型的泛化能力。

      猜你喜歡
      注意力語(yǔ)義編碼
      讓注意力“飛”回來(lái)
      基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
      《全元詩(shī)》未編碼疑難字考辨十五則
      語(yǔ)言與語(yǔ)義
      子帶編碼在圖像壓縮編碼中的應(yīng)用
      電子制作(2019年22期)2020-01-14 03:16:24
      Genome and healthcare
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
      認(rèn)知范疇模糊與語(yǔ)義模糊
      天柱县| 靖远县| 鹿泉市| 靖宇县| 龙游县| 修武县| 南漳县| 南华县| 连山| 寿阳县| 沂南县| 马山县| 吴忠市| 泽普县| 彰化县| 乌鲁木齐县| 虎林市| 金寨县| 崇明县| 嫩江县| 张家港市| 吴川市| 辰溪县| 江门市| 定襄县| 新竹县| 若尔盖县| 保康县| 西藏| 清流县| 万荣县| 麟游县| 安仁县| 淮南市| 正宁县| 普宁市| 乾安县| 义马市| 车险| 韶关市| 北京市|