• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      Siamese-ELECTRA 網(wǎng)絡(luò)結(jié)合對(duì)抗訓(xùn)練的FAQ 問答模型研究

      2021-08-24 08:36:44王仲林王衛(wèi)民朱樂俊
      軟件導(dǎo)刊 2021年8期
      關(guān)鍵詞:語義向量標(biāo)準(zhǔn)

      王仲林,王衛(wèi)民,朱樂俊

      (江蘇科技大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 鎮(zhèn)江 212003)

      0 引言

      基于常見問題集(Frequently Asked Questions,F(xiàn)AQ)的問答模型是智能客服系統(tǒng)核心技術(shù)之一[1],典型場(chǎng)景是:企業(yè)為了更好地服務(wù)于客戶,維護(hù)著大量標(biāo)準(zhǔn)問題—標(biāo)準(zhǔn)答案對(duì),當(dāng)用戶提出疑問時(shí),服務(wù)者會(huì)根據(jù)經(jīng)驗(yàn)和行業(yè)背景知識(shí)將用戶問題映射到一個(gè)標(biāo)準(zhǔn)問題上,并返回對(duì)應(yīng)的標(biāo)準(zhǔn)解答;如果當(dāng)前FAQ 庫中沒有足夠的用戶咨詢信息,服務(wù)者會(huì)記錄用戶問題并標(biāo)記,準(zhǔn)備好答案后補(bǔ)充到常見問題集。隨著服務(wù)的持續(xù)運(yùn)營,企業(yè)知識(shí)庫中的歷史數(shù)據(jù)規(guī)模不斷增長,客服人員在成千上萬條記錄中尋找用戶所需答案是一項(xiàng)重復(fù)性很高的工作,一方面十分耗費(fèi)時(shí)間精力,另一方面若回答不及時(shí)容易引起客戶不滿。FAQ 問答模型可通過計(jì)算用戶問題與標(biāo)準(zhǔn)問題之間的語義相似性,檢索并返回與輸入問題最相似的候選問題答案。與基于關(guān)鍵字的搜索引擎相比,F(xiàn)AQ 問答系統(tǒng)允許用戶通過自然語言發(fā)問,能夠更深刻理解專業(yè)場(chǎng)景中用戶的意圖,為其提供更為精確的答疑服務(wù)。在一定規(guī)模語料庫支持下,經(jīng)過良好訓(xùn)練的FAQ 問答模型能廣泛應(yīng)用各行各業(yè),為其提供智能化的解決方案,在提高效率的同時(shí)大大降低了客服人力成本。

      FAQ 問答模型的核心是文本相似度計(jì)算[2]。以往基于TF-IDF 的向量空間模型難以表征自然語言文本深層次的語義變化;基于文本特征的方法需要專家配置大量的詞法句法模板;基于詞向量、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)以及注意力機(jī)制的一般深度學(xué)習(xí)方法難以有效處理長依賴和多義詞問題;而基于NLP 預(yù)訓(xùn)練模型句對(duì)分類任務(wù)的相似匹配算法,雖然能夠自動(dòng)提取到深層次的語義特征并充分對(duì)比句子之間的差異,但由于是句對(duì)耦合輸入,一次推理僅能預(yù)測(cè)兩個(gè)句子的關(guān)系,難以滿足應(yīng)用級(jí)別的FAQ 問答系統(tǒng)要求[3]。

      針對(duì)上述問題,本文選取在較小參數(shù)量情況下表現(xiàn)更好的NLP 預(yù)訓(xùn)練模型ELECTRA,結(jié)合對(duì)抗訓(xùn)練算法FGM,提出一種基于遷移學(xué)習(xí)語言模型和對(duì)抗訓(xùn)練的FAQ 問答系統(tǒng),通過訓(xùn)練一個(gè)Siamese 網(wǎng)絡(luò)結(jié)構(gòu),模型將語義上相似問句的特征向量映射到相近的向量空間,最終通過向量距離公式快速計(jì)算出語義相似性得分。實(shí)驗(yàn)表明本文方法與多個(gè)已有模型相比表現(xiàn)更好。

      1 相關(guān)工作

      基于FAQ 的問答模型關(guān)鍵技術(shù)是如何計(jì)算用戶問題和標(biāo)準(zhǔn)問題之間的相似程度,以此為出發(fā)點(diǎn)將已有方法分為基于向量空間模型的傳統(tǒng)信息檢索方法、基于知網(wǎng)等語義資源的相似性度量方法、基于人工構(gòu)造文本特征的機(jī)器學(xué)習(xí)方法、基于詞向量的深度學(xué)習(xí)方法,以及上述方法的混合搭配。

      2003 年,秦兵等[4]綜合利用向量空間模型的TF-IDF 方法和HowNet 的義原分類樹,提出一種中文句子相似度的計(jì)算方法;2007 年,葉正等[5]在向量空間模型基礎(chǔ)上提出一種基于分解向量空間和語義概念的問句相似度計(jì)算方法;2010 年,張琳等[6]提出一種基于多重信息的方法,即結(jié)合關(guān)鍵詞信息、句子結(jié)構(gòu)信息和語義信息的句子相似度計(jì)算;同年,卜文娟等[7]提出一種基于概念圖的問句相似度計(jì)算方法;2014 年,鄭誠等[8]改進(jìn)了傳統(tǒng)的VSM 模型,能更好地體現(xiàn)問題中詞的權(quán)重,并引入LDA 模型。通過主題—詞中詞的概率分布計(jì)算詞與詞的相關(guān)度,提出通過詞與詞間相關(guān)度計(jì)算句子與句子間相似度的算法;2015 年,Wang等[9]通過定義問題的文法特征,應(yīng)用學(xué)習(xí)排序的方法基于FAQ 訓(xùn)練了一個(gè)排序模型;2018 年,高旭楊[10]融 合word2vec 和BM25 打分,結(jié)合邏輯回歸實(shí)現(xiàn)了一個(gè)證書服務(wù)領(lǐng)域的FAQ 問答系統(tǒng);2019 年,莫歧等[11]提出一種聯(lián)合分類與匹配的FAQ 問答模型,能夠在充分利用標(biāo)準(zhǔn)問題信息的同時(shí)選擇真正要區(qū)分的負(fù)例;2020 年,宋文闖等[12]針對(duì)長度較短的問句引入了問題元和詞模思想,對(duì)用戶問題進(jìn)行分解,并與傳統(tǒng)的相似度計(jì)算方法相融合,提出一個(gè)短文本相似度算法。

      基于深度學(xué)習(xí)的方法在文本相似度計(jì)算領(lǐng)域成果顯著,是當(dāng)前業(yè)界的主流方案。2015 年,F(xiàn)eng 等[13]在其論文中將Siamese-CNN 網(wǎng)絡(luò)應(yīng)用到問答領(lǐng)域,提出并對(duì)比了4種不同的網(wǎng)絡(luò)結(jié)構(gòu);2016 年,Neculoiu 等[14]提出的Siamese-RNN 網(wǎng)絡(luò)可學(xué)習(xí)用于文本相似度計(jì)算的句嵌入;同年,Mueller 等[15]在AAAI 上發(fā)表了類似研究的文獻(xiàn)。從傳統(tǒng)的詞向量技術(shù)word2vec、GloVe 到神經(jīng)網(wǎng)絡(luò)模型CNN、RNN、LSTM、Transformer 等,再到遷移學(xué)習(xí)理論在NLP 領(lǐng)域的應(yīng)用,在大規(guī)模語料數(shù)據(jù)的支持下,深度學(xué)習(xí)技術(shù)己被證實(shí)超過了傳統(tǒng)信息檢索和統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法在自然語言處理領(lǐng)域的表現(xiàn);以BERT(Bidirectional Encoder Representa?tions from Transformers)為首的NLP 預(yù)訓(xùn)練模型[16],通過在海量無監(jiān)督文本數(shù)據(jù)上預(yù)訓(xùn)練,然后到下游NLP 具體任務(wù)中的微調(diào)方式,取得了多達(dá)11 項(xiàng)NLP 任務(wù)的最佳結(jié)果。

      綜上所述,當(dāng)前FAQ 問答領(lǐng)域研究的主要問題是如何基于最先進(jìn)的NLP 預(yù)訓(xùn)練模型構(gòu)建一個(gè)高效可用的FAQ問答系統(tǒng)。本文創(chuàng)新點(diǎn)如下:使用ELECTRA-Samll 模型,該模型只有BERT-Base 版約十分之一的參數(shù)體積,卻達(dá)到與其相近的GLUE 分?jǐn)?shù);通過孿生網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練模型,在模型層解耦了擴(kuò)展問-標(biāo)準(zhǔn)問輸入組合,提高了FAQ 問答系統(tǒng)預(yù)測(cè)效率;基于對(duì)抗訓(xùn)練算法,在嵌入層參數(shù)矩陣中添加對(duì)抗擾動(dòng),提高了模型的魯棒性和泛化能力;引入了多重否定損失,配合孿生網(wǎng)絡(luò)結(jié)構(gòu),只需正樣本句對(duì)即可完成模型訓(xùn)練。

      2 模型結(jié)構(gòu)

      在訓(xùn)練階段,模型主要由一組權(quán)值共享的ELECRA 網(wǎng)絡(luò)[17]構(gòu)成,縱向來看,主要包括嵌入層、特征提取層、池化層、相似度計(jì)算層和目標(biāo)函數(shù)層5 個(gè)部分。使用孿生網(wǎng)絡(luò)結(jié)構(gòu)的目的是在模型層(包括輸入層、特征提取層和池化層)將句對(duì)組合分離,減少預(yù)測(cè)時(shí)的計(jì)算復(fù)雜度。為進(jìn)一步提高模型的魯棒性和泛化能力,本文在嵌入層基于對(duì)抗訓(xùn)練算法FGM[18]添加了梯度擾動(dòng);特征提取層選用NLP 預(yù)訓(xùn)練模型ELECTRA,其在相同體積情況下?lián)碛斜菳ERT 更好的效果。NLP 預(yù)訓(xùn)練模型輸出向量較多,需要合理選擇輸出端的池化策略。為計(jì)算方便,訓(xùn)練過程中的相似度計(jì)算由向量點(diǎn)積完成。目標(biāo)函數(shù)層采用多重否定損失[19],使用同一batch 中其他輸入的響應(yīng)作為當(dāng)前輸入的負(fù)響應(yīng),只需輸入正例句對(duì)即可訓(xùn)練模型,如圖1 所示。

      Fig.1 Overall structure of the model圖1 模型整體結(jié)構(gòu)

      2.1 嵌入層

      模型嵌入層即ELECTRA 模型的輸入層,與傳統(tǒng)的詞向量加神經(jīng)網(wǎng)絡(luò)方法不同的是,NLP 預(yù)訓(xùn)練模型的輸入層本身便包含了詞向量矩陣,即嵌入層的參數(shù)在預(yù)訓(xùn)練階段與模型一起從零開始訓(xùn)練,基于這種方式得到的詞嵌入對(duì)預(yù)訓(xùn)練模型適配更好,依據(jù)上下文環(huán)境可以更好地表征多義詞問題。此外,為了提升模型效果,本文基于FGM 算法對(duì)ELECTRA 模型嵌入層的參數(shù)矩陣添加了對(duì)抗擾動(dòng)。

      2.1.1 輸入表示

      與BERT 模型相同,ELECTRA 的輸入由詞嵌入、部分嵌入和位置嵌入3 部分疊加而成。如圖2 所示,Token Em?beddings 表示詞向量,第一個(gè)位置是[CLS]標(biāo)志,一般用于下游分類任務(wù);[SEP]標(biāo)志是分隔符,用于將兩個(gè)句子隔開;Segment Embeddings 的作用也是分開兩個(gè)句子,增強(qiáng)區(qū)分效果;Position Embeddings 表示位置向量,引入的原因是Transformer 的自注意力機(jī)制丟失了輸入的序列信息。

      Fig.2 ELECTRA embedded layer input representation圖2 ELECTRA 嵌入層輸入表示

      本文方法由于使用孿生網(wǎng)絡(luò)結(jié)構(gòu)解除了擴(kuò)展問-標(biāo)準(zhǔn)問句對(duì)的耦合,所以每次輸入模型只有一個(gè)句子,不需要使用[SEP]標(biāo)記分隔雙句。

      2.1.2 對(duì)抗訓(xùn)練

      神經(jīng)網(wǎng)絡(luò)的線性特點(diǎn)使其較容易受到線性擾動(dòng)攻擊,基于該特性構(gòu)造的對(duì)抗樣本會(huì)在不易察覺的情況下引起模型誤判。對(duì)抗訓(xùn)練是防御對(duì)抗樣本的一種方式,其基本思想是在原始輸入樣本中添加一個(gè)梯度擾動(dòng),得到對(duì)抗樣本后以攻代守,用其訓(xùn)練模型。Madry 等[20]從優(yōu)化的視角將對(duì)抗訓(xùn)練解釋為一個(gè)尋找鞍點(diǎn)問題,即Min-Max 公式,如式(1)所示。

      其中,L為損失函數(shù),S為擾動(dòng)的范圍空間,D是輸入樣本的分布。右邊的max 部分表示內(nèi)部損失最大化,尋找最有效的擾動(dòng)使模型出錯(cuò);左邊的min 部分表示外部經(jīng)驗(yàn)風(fēng)險(xiǎn)的最小化,防御攻擊,找到最魯棒的模型參數(shù)。

      式(1)中添加radv的目的是為了使L(θ,x+radv,y)增大,可以取梯度上升的方向。因此:

      為了防止radv數(shù)值過大,通常要將其標(biāo)準(zhǔn)化后加約束?。即:

      式(3)即為基于對(duì)抗訓(xùn)練算法FGM(Fast Gradient Method)添加的梯度干擾。針對(duì)每條樣本構(gòu)造出x+radv后,使用(x+radv,y)對(duì)模型參數(shù)θ進(jìn)行梯度下降更新。

      與CV 領(lǐng)域不同的是,輸入神經(jīng)網(wǎng)絡(luò)的自然語言文本在最外層表示為離散的one-hot 向量,歐式距離恒為理論上不存在添加擾動(dòng)的基礎(chǔ)。因此,在NLP 任務(wù)中,對(duì)抗訓(xùn)練方法更多的是對(duì)嵌入層輸出的連續(xù)向量添加干擾,作為一種類似正則化的方法使用。實(shí)踐結(jié)果表明,該方法可以有效提高模型在NLP 任務(wù)上的效果。Ju 等[21]將對(duì)抗訓(xùn)練方法引入到QA 問答任務(wù)中,在CoQA 數(shù)據(jù)集上取得了很好的結(jié)果;Gan 等[22]在構(gòu)建視覺語言表示學(xué)習(xí)模型時(shí)提出了大規(guī)模對(duì)抗訓(xùn)練方法,通過在預(yù)訓(xùn)練和微調(diào)階段添加對(duì)抗干擾。模型在下游的圖像和文本檢索任務(wù)中得到不同程度的提升。

      2.2 特征提取層

      ELECTRA 是NLP 預(yù)訓(xùn)練模型的一種,基本結(jié)構(gòu)與BERT 相同,同樣是一個(gè)基于Transformer 的雙向編碼器模型,旨在通過聯(lián)合調(diào)節(jié)所有層中的左右上下文來實(shí)現(xiàn)語句的深度雙向表示[23]。只需要一個(gè)額外的輸出層,就可以對(duì)預(yù)訓(xùn)練的網(wǎng)絡(luò)進(jìn)行微調(diào),從而為NLP 任務(wù)創(chuàng)建最先進(jìn)的模型,無需針對(duì)特定任務(wù)大量修改模型結(jié)構(gòu)(見圖3)。

      Fig.3 ELECTRA model structure圖3 ELECTRA 模型結(jié)構(gòu)

      與其他NLP 預(yù)訓(xùn)練模型不同的是,ELECTRA 模型使用了類似生成對(duì)抗網(wǎng)絡(luò)的新穎預(yù)訓(xùn)練方法,使模型能夠以更快的速度在更小的體積上收斂。在參數(shù)量相同的情況下,ELECTRA 的效果要優(yōu)于BERT,體積越小的版本中相差越明顯。算法應(yīng)用不僅要盡可能地提高預(yù)測(cè)精度,推理性能也非常重要。

      如圖4 所示,ELECTRA 模型的預(yù)訓(xùn)練由生成器和判別器兩部分組成。生成器是一個(gè)基于遮蔽語言模型的體積較小的類BERT 結(jié)構(gòu),用于預(yù)測(cè)被[MASK]標(biāo)記遮蓋的標(biāo)簽;判別器同樣是一個(gè)類BERT 結(jié)構(gòu),用于判斷輸入的字符是否被生成器替換過(即預(yù)測(cè)出的標(biāo)簽與原始語料不同),兩邊模型的嵌入層參數(shù)共享,左右兩部分模型一起訓(xùn)練。不同于生成對(duì)抗網(wǎng)絡(luò)的是,判別器梯度不會(huì)反向傳播到生成器,訓(xùn)練的損失函數(shù)如下:

      Fig.4 Pre-training process of ELECTRA model圖4 ELECTRA 模型預(yù)訓(xùn)練過程

      通過這種新穎的預(yù)訓(xùn)練任務(wù)和框架,ELECTRA 不僅可以和遮蔽語言模型(如BERT)一樣利用大規(guī)模無監(jiān)語料進(jìn)行預(yù)訓(xùn)練,而且模型收斂速度更快,學(xué)習(xí)到的語義表示粒度更加細(xì)致。多種預(yù)訓(xùn)練模型的參數(shù)量和GLUE 分?jǐn)?shù)對(duì)比如表1 所示。

      Table 1 Comparison of NLP pre-training models表1 NLP 預(yù)訓(xùn)練模型對(duì)比

      從表1可以看出,ELECTRA-Base與BERT-Base的參數(shù)量都為110M,卻擁有更好的效果。ELECTRA-Small 僅有14M 參數(shù),卻有著接近BERT-Base 的性能,并且超過了66M 模型參數(shù)的蒸餾BERT(DistilBERT)。

      2.3 池化層

      ELECTRA 模型的多層Transformer 結(jié)構(gòu)中,每層均可提取出向量,因此需要合理選擇輸出的池化方式。如圖5 所示,主要有CLS 池化策略,即取CLS 標(biāo)記對(duì)應(yīng)的向量作為輸出向量;平均池化策略,即平均最后一層所有位置的向量作為輸出;最后n 層CLS 平均池化策略,即取最后n 層CLS向量做平均。為了獲取信息更完整的句嵌入表示,本文在實(shí)驗(yàn)中選用平均池化策略。

      Fig.5 Output vector pooling strategy圖5 輸出向量池化策略

      2.4 相似度計(jì)算層與目標(biāo)函數(shù)層

      FAQ 檢索式問答的核心任務(wù)是如何根據(jù)用戶問題找到與其語義最相似的標(biāo)準(zhǔn)問題。對(duì)于用戶問題x最相似的標(biāo)準(zhǔn)問題是y的概率可設(shè)為P(y|x),該概率分布可寫成:

      基于P(y|x)能夠?qū)赡茼憫?yīng)x的候選標(biāo)準(zhǔn)問題y進(jìn)行排序。使用神經(jīng)網(wǎng)絡(luò)模型來學(xué)習(xí)P(x,y)的聯(lián)合概率,即:

      對(duì)于任何給定的x,在模型訓(xùn)練完畢后分母都是一個(gè)常數(shù),不會(huì)影響預(yù)測(cè)時(shí)的相似度排序。式(4)要求在每輪訓(xùn)練迭代中對(duì)所有可能的響應(yīng)yk的概率進(jìn)行求和,計(jì)算代價(jià)過高??赏ㄟ^在語料庫中均勻地采樣K 個(gè)響應(yīng)(包括y)來近似表示P(x):

      結(jié)合式(6)和式(7),可以得到用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的近似概率公式:

      多重否定損失是Henderson 等在設(shè)計(jì)郵件智能回復(fù)系統(tǒng)時(shí)使用的損失函數(shù)。假設(shè)同一batch 中其他響應(yīng)均為當(dāng)前響應(yīng)的負(fù)例,訓(xùn)練目標(biāo)是使數(shù)據(jù)的近似均值負(fù)對(duì)數(shù)概率最小化,無需在數(shù)據(jù)集中添加負(fù)樣本。

      一個(gè)batch 中K個(gè)可能的響應(yīng)將被用來近似P(x,y),包括一個(gè)正確的響應(yīng)和K-1 個(gè)隨機(jī)的否定(負(fù)例)。為提高效率和簡(jiǎn)化步驟,使用訓(xùn)練批次中隨機(jī)梯度下降的其他樣例響應(yīng)作為負(fù)響應(yīng)。對(duì)于一組批次大小為K的正例句對(duì)集合,將有K個(gè)用戶問x=(x1,…,xK)及其對(duì)應(yīng)的K個(gè)標(biāo)準(zhǔn)問y=(y1,…,yK)。當(dāng)i ≠j 時(shí),每個(gè)回答yj可當(dāng)作xi的一個(gè)消極候選。訓(xùn)練梯度下降時(shí)是一個(gè)隨機(jī)打亂過程,因此每個(gè)x的K-1 個(gè)負(fù)例在每輪迭代中都是不同的。

      對(duì)于單個(gè)訓(xùn)練批次,如式(9)所示:

      其中,θ代表神經(jīng)網(wǎng)絡(luò)的參數(shù),S代表神經(jīng)網(wǎng)絡(luò)的計(jì)算。

      3 模型預(yù)測(cè)

      模型訓(xùn)練完成后,具有相似語義問句的特征向量將被強(qiáng)制映射到相近的向量空間中。預(yù)測(cè)時(shí),經(jīng)過ELECTRA模型的特征提取,一條問題語句被編碼為一個(gè)特征表示向量??梢允孪扔?jì)算好檢索庫中所有標(biāo)準(zhǔn)問的句向量,獲得集合S=(s1,s2,…,sn),當(dāng)有用戶咨詢時(shí),通過模型提取特征,可獲得用戶問的語義向量u,通過計(jì)算向量u和集合S中所有的句向量空間距離,可以快速獲取當(dāng)前用戶問和所有標(biāo)準(zhǔn)問之間的相似性得分?;谠撜Z義相似度得分可對(duì)候選問題進(jìn)行相似度排序,返回最接近用戶意圖的候選標(biāo)準(zhǔn)問題。預(yù)測(cè)流程如圖6 所示。

      Fig.6 Model prediction process圖6 模型預(yù)測(cè)流程

      本文實(shí)驗(yàn)使用余弦距離計(jì)算特征向量的相似度,計(jì)算方法如式(10)所示,其中Ai,Bi分別代表向量A和B的各分量。

      對(duì)于應(yīng)用級(jí)別FAQ 問答系統(tǒng),可以使用Facebook 開源的近似向量檢索庫Faiss,能夠有效縮短標(biāo)準(zhǔn)問題召回時(shí)間。Faiss 框架為稠密向量提供高效相似度搜索和聚類,可為向量建立索引,并支持超大規(guī)模的相似向量檢索,如表2所示。詳細(xì)的評(píng)測(cè)結(jié)果可閱讀文獻(xiàn)[25-26]。

      Table 2 Features of Faiss framework表2 Faiss 框架特性

      4 實(shí)驗(yàn)

      4.1 數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境

      實(shí)驗(yàn)數(shù)據(jù)源于某企業(yè)的智能客服項(xiàng)目,共38 251 條高質(zhì)量的正樣本(擴(kuò)展問-標(biāo)準(zhǔn)問句對(duì)),提取出標(biāo)準(zhǔn)問題并去重后獲得933 條標(biāo)準(zhǔn)問。在該數(shù)據(jù)集中,擴(kuò)展問和標(biāo)準(zhǔn)問的對(duì)應(yīng)關(guān)系為n:1,即對(duì)于每一條擴(kuò)展問,只有一條與之相匹配的標(biāo)準(zhǔn)問題,如表3 所示。原始數(shù)據(jù)為Excel 格式,通過Python 的Pandas 庫清洗和規(guī)整數(shù)據(jù)集,隨機(jī)打亂順序后轉(zhuǎn)化成.tsv 格式。

      實(shí)驗(yàn)中,隨機(jī)采樣6 000 條做測(cè)試集,其余32 251 條樣本作為訓(xùn)練集參與訓(xùn)練。為充分展示NLP 預(yù)訓(xùn)練模型在中文FAQ 問答中的效果,僅對(duì)長度大于16 的問句進(jìn)行去停用詞處理,并清洗掉部分特殊字符。由于使用多重否定損失,不再需要向數(shù)據(jù)集中添加負(fù)樣本。

      Table 3 Examples of data表3 數(shù)據(jù)示例

      實(shí)驗(yàn)環(huán)境如表4 所示。

      Table 4 Experimental environment表4 實(shí)驗(yàn)環(huán)境

      ELECTRA 中文版預(yù)訓(xùn)練權(quán)重[27]使用哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布的ELECTRA-small-Chinese 版本,PyTorch 版的權(quán)重需要通過Transformers 提供的轉(zhuǎn)換腳本進(jìn)行轉(zhuǎn)換。

      評(píng)價(jià)指標(biāo)是模型在檢索Topk個(gè)(k=1,3,…)最相似問題時(shí)的準(zhǔn)確率(Accuracy),如式(11)所示。

      4.2 實(shí)驗(yàn)結(jié)果與分析

      模型在實(shí)驗(yàn)數(shù)據(jù)集上的對(duì)比結(jié)果如表5 所示,從表中可以看出,在文本相似度計(jì)算任務(wù)上,本文的Siamese-ELECTRA 模型要優(yōu)于傳統(tǒng)的詞向量加CNN 或LSTM 方法。在微調(diào)階段,對(duì)抗訓(xùn)練的引入對(duì)模型效果有一定提升。

      Table 5 Comparison of model effects表5 模型效果對(duì)比 (%)

      此外,本文選取一組數(shù)據(jù)調(diào)整后調(diào)用模型服務(wù)進(jìn)行預(yù)測(cè),用于驗(yàn)證和分析所述問答模型效果,如表6 所示。

      Table 6 Data analysis of forecast results表6 預(yù)測(cè)結(jié)果數(shù)據(jù)分析

      通過表6 的數(shù)據(jù)分析可以直觀看出本文模型的魯棒性和泛化能力都較為出色,能夠很好地適應(yīng)一些常見擴(kuò)展問法的調(diào)整。其中值得注意的是樣例8、9 和10,這組樣例的實(shí)驗(yàn)結(jié)果表明,對(duì)于語義距離較遠(yuǎn)的句對(duì)組合,模型可能存在一定的過擬合現(xiàn)象,對(duì)于這樣的組合,搭建系統(tǒng)時(shí)需要特別進(jìn)行檢查和數(shù)據(jù)增強(qiáng)。

      5 結(jié)語

      本文基于Siamese-ELECTRA 網(wǎng)絡(luò)、對(duì)抗訓(xùn)練算法FGM以及多重否定損失,提出一種新的FAQ 檢索式問答模型。該模型利用ELECTRA 來提取問句豐富的語義特征,通過訓(xùn)練一個(gè)Siamese 網(wǎng)絡(luò)結(jié)構(gòu),將語義上相似問句的特征向量映射到相近的向量空間,最終基于特征向量之間的距離快速找到最相似的候選標(biāo)準(zhǔn)問題。實(shí)驗(yàn)表明本文模型優(yōu)于多個(gè)已有重要模型,但本文模型仍存在一些問題尚未解決,如多模型融合方法如何通過合并多個(gè)模型的檢索結(jié)果提高最終重排序結(jié)果的精確度。此外,本文模型僅利用了問題與問題之間的信息,沒有利用到問題與答案之間的信息,如何結(jié)合兩部分內(nèi)容來提高模型的表現(xiàn)是后續(xù)要研究的工作。

      猜你喜歡
      語義向量標(biāo)準(zhǔn)
      2022 年3 月實(shí)施的工程建設(shè)標(biāo)準(zhǔn)
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      語言與語義
      忠誠的標(biāo)準(zhǔn)
      美還是丑?
      “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
      向量垂直在解析幾何中的應(yīng)用
      一家之言:新標(biāo)準(zhǔn)將解決快遞業(yè)“成長中的煩惱”
      專用汽車(2016年4期)2016-03-01 04:13:43
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      兴文县| 霍林郭勒市| 玉林市| 阿克陶县| 桦南县| 渝北区| 榆中县| 霞浦县| 平泉县| 绵竹市| 尚志市| 龙门县| 柳江县| 平乡县| 平南县| 镇宁| 远安县| 呈贡县| 化州市| 衡南县| 上饶县| 永川市| 承德县| 上林县| 淮北市| 罗平县| 汉寿县| 隆安县| 昌宁县| 彭州市| 仪陇县| 广南县| 礼泉县| 依兰县| 延津县| 武定县| 曲阜市| 玉树县| 凤冈县| 米林县| 建湖县|