• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      智能催收系統(tǒng)中自然語言理解模塊設(shè)計(jì)

      2022-09-22 05:59:42穆平安
      軟件導(dǎo)刊 2022年9期
      關(guān)鍵詞:語料意圖向量

      趙 冬,穆平安

      (上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)

      0 引言

      在金融領(lǐng)域,銀行主要起著為企業(yè)或個(gè)人提供周轉(zhuǎn)資金的杠桿作用,銀行的盈利主要來源于企業(yè)和個(gè)人的貸款業(yè)務(wù)。隨著經(jīng)濟(jì)的快速發(fā)展,截至20 年末,我國(guó)金融機(jī)構(gòu)人民幣各項(xiàng)貸款余額172.75 萬億元,同比增長(zhǎng)12.8%。但是貸款貸出去存在有風(fēng)險(xiǎn),當(dāng)個(gè)人或貸款企業(yè)無法償還貸款時(shí),就形成了壞賬,隨之而來的是待催收違約客戶也逐漸增多[1]。在銀行內(nèi)部建立催收部門或者打官司成本高且收效甚微,于是不得不將不良賬戶送到第三方機(jī)構(gòu)進(jìn)行催收,第三方往往采用電話轟炸、騷擾通訊錄等極端暴力催收手段。催收過程中催收人員往往掌握著大量債務(wù)人的個(gè)人信息及隱私,以此威脅債務(wù)人還款,這使得債務(wù)人還面臨著信息被泄露的風(fēng)險(xiǎn)。隨著國(guó)家對(duì)相關(guān)問題的重視,催收行業(yè)的監(jiān)管也日趨嚴(yán)格,暴力催收不可取。得益于近年來海量增長(zhǎng)的大數(shù)據(jù)和飛速發(fā)展的人工智能技術(shù)[2],利用機(jī)器人進(jìn)行催收取得了新的進(jìn)展。催收過程中智能機(jī)器人的使用,不僅可以節(jié)省大量人工成本,還可以保護(hù)債務(wù)人的隱私,提升催收效率和客戶滿意度。智能催收機(jī)器人可以自動(dòng)記錄每一通電話的內(nèi)容,以語音和文本的方式存儲(chǔ)在企業(yè)賬戶后臺(tái),為企業(yè)后期數(shù)據(jù)分析、話術(shù)優(yōu)化做準(zhǔn)備,工作效率也是人工坐席的3~4倍。

      目前在實(shí)際應(yīng)用中,NLU 模塊面臨的主要問題有:①訓(xùn)練深度模型需要大量的標(biāo)注語料,尤其是面向特定領(lǐng)域的中文標(biāo)注語料;②深度學(xué)習(xí)模型對(duì)語言的理解只停在語義的表層,在復(fù)雜任務(wù)下,對(duì)話系統(tǒng)結(jié)合已有知識(shí)進(jìn)行邏輯推理的能力較弱,不能利用意圖識(shí)別和槽位填充兩者之間的聯(lián)系進(jìn)行系統(tǒng)聯(lián)合建模;③用戶對(duì)話自由度高,沒有明確的規(guī)范句式,使得對(duì)話存在實(shí)時(shí)性、不規(guī)則性,從而影響了NLU 模塊的準(zhǔn)確性。

      為了解決以上問題,本文基于開源對(duì)話系統(tǒng)機(jī)器學(xué)習(xí)框架Rasa,在自然語言理解模塊中加入最新提出的面向金融領(lǐng)域預(yù)訓(xùn)練語言模型(FinBERT),結(jié)合深度學(xué)習(xí)算法[3]提升自然語言理解模中意圖識(shí)別[4]與槽位填充功能的準(zhǔn)確率;并與原始預(yù)訓(xùn)練語言模型及其他深度學(xué)習(xí)算法比較,結(jié)合對(duì)話系統(tǒng)在智能催收領(lǐng)域的實(shí)際應(yīng)用,對(duì)NLU 模塊的意圖識(shí)別和槽位填充功能進(jìn)行模型訓(xùn)練;最后結(jié)合Rasa 框架內(nèi)置的模型評(píng)估命令,對(duì)訓(xùn)練好的NLU 模塊進(jìn)行測(cè)試與分析。

      1 相關(guān)工作

      1.1 語料庫

      在實(shí)際應(yīng)用中,制約NLU 模塊發(fā)展的一個(gè)關(guān)鍵因素是相關(guān)模型需要大量的標(biāo)注語料。在NLU 領(lǐng)域,斯坦福大學(xué)自然語言處理小組在SQuAD1.0[5]的基礎(chǔ)上加入了“不可回答的問題”將數(shù)據(jù)集擴(kuò)充為SQuAD2.0 版本[6]。使語料與真實(shí)場(chǎng)景更為接近。2018 年,Reddy 等[7]發(fā)布了CoQa 數(shù)據(jù)集,該數(shù)據(jù)集面向多輪對(duì)話,相比SQuAD 數(shù)據(jù)集,CoQA種類更加豐富,因?yàn)槊拷M對(duì)話都需要對(duì)上下文進(jìn)行理解推斷,所以更能反映人類真實(shí)對(duì)話場(chǎng)景。2020 年,微軟亞洲研究院發(fā)布了多輪對(duì)話推理數(shù)據(jù)集MuTual,在該數(shù)據(jù)集上,最先進(jìn)的方法準(zhǔn)確率只能達(dá)到71%,遠(yuǎn)低于人類94%的平均水平[8]。

      1.2 神經(jīng)網(wǎng)絡(luò)模型

      神經(jīng)網(wǎng)絡(luò)是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法模型,這種網(wǎng)絡(luò)通過調(diào)節(jié)內(nèi)部大量節(jié)點(diǎn)間相互連接的關(guān)系,從而達(dá)到信息處理目的。目前,基于神經(jīng)網(wǎng)絡(luò)模型的各種算法已廣泛應(yīng)用于自然語言理解相關(guān)研究。

      Hemphill 等[9]使用基于雙向模型的RNN 語義框架解析網(wǎng)絡(luò)結(jié)構(gòu)并考慮意圖識(shí)別和槽位填充兩個(gè)任務(wù)之間的交互作用,聯(lián)合執(zhí)行兩個(gè)任務(wù),實(shí)驗(yàn)表明,該方法在ATIS數(shù)據(jù)集上優(yōu)于其他方法。Chen 等[10]提出基于注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)模型,用作呼和浩特市公交查詢庫中的意圖識(shí)別與槽位填充任務(wù),實(shí)驗(yàn)表明,基于字向量的方法要優(yōu)于基于詞向量的方法,實(shí)驗(yàn)中提出的模型在F1值上優(yōu)于其他原始LSTM 方法。

      2014 年,KIM[11]改進(jìn)了卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)算法并將其用于句子分類任務(wù),結(jié)果表明,在情感分析和問題分類在內(nèi)的4 個(gè)任務(wù)上均有所改進(jìn)。Xu 等[12]提出一種基于CNN 的意圖識(shí)別與槽位填充的聯(lián)合檢測(cè)模型,該神經(jīng)網(wǎng)絡(luò)模型可以看成是一種三角形狀的條件隨機(jī)場(chǎng)(CRF)模型。該模型使用CNN 提取特征,這也是使用神經(jīng)網(wǎng)絡(luò)模型在意圖識(shí)別與槽位填充聯(lián)合任務(wù)的嘗試。Vu[13]將改進(jìn)的CNN 模型應(yīng)用于序列標(biāo)注任務(wù),模型保留了序列的上下文信息,該方法不需要先驗(yàn)的語言知識(shí),性能優(yōu)于之前的基于RNN 模型。

      1.3 聯(lián)合模型

      考慮到意圖檢測(cè)和時(shí)隙填充之間的密切關(guān)系,最新的研究中采用聯(lián)合模型以利用任務(wù)間的共享知識(shí)。聯(lián)合模型又分為顯示聯(lián)合建模和隱式聯(lián)合建模,其中隱式聯(lián)合模型指該模型采用共享編碼器捕獲共享特征,沒有任何顯式交互。Liu 等[14]使用了一種帶有共享機(jī)制的編碼器—解碼器結(jié)構(gòu),共用于意圖識(shí)別和槽位填充。Zhang 等[15]構(gòu)造一個(gè)關(guān)鍵動(dòng)詞和其上下文信息相結(jié)合的模型以解決問題,進(jìn)一步提高slot-gated 模型性能。雙向流相互作用功能意味著模型考慮了意圖識(shí)別與槽位填充中的交叉影響,Wang等[16]提出使用兩個(gè)相關(guān)的雙向LSTM 并考慮跨意圖識(shí)別和槽位填充交叉影響的模型體系結(jié)構(gòu)。

      1.4 預(yù)訓(xùn)練模型

      BERT 模型是Google 于2018年發(fā)布的一種語言表示模型,一經(jīng)發(fā)布就在多個(gè)自然語言處理任務(wù)中取得了出色的成績(jī)。該模型通過在大量大規(guī)模無標(biāo)注語料上的訓(xùn)練得到一個(gè)通用的“語言理解”模型,其輸入由初始字向量、文本向量和位置向量組成,在下游的特定文本分析任務(wù)中無需對(duì)特定任務(wù)的體系結(jié)構(gòu)進(jìn)行大量修改,只需對(duì)參數(shù)進(jìn)行微調(diào)即可[17]。在基于BERT 的模型中,每個(gè)話語以[CLS]開始,以[SEP]結(jié)束,其中[CLS]是表示整個(gè)序列的特殊符號(hào),[SEP]是分隔非連續(xù)詞塊序列的特殊符號(hào)。此外,特殊詞塊[CLS]的表示用于意圖檢測(cè),而其他詞塊表示用于槽位填充。Chen 等[18]具體研究了BERT 模型在自然語言理解領(lǐng)域的應(yīng)用,BERT 模型用于提取上下文的嵌入信息以進(jìn)行意圖識(shí)別及槽位填充,在與未經(jīng)預(yù)訓(xùn)練的語言模型相比,文中提到的方法取得了優(yōu)異成績(jī)。戰(zhàn)保行[19]采用BERT 模型實(shí)現(xiàn)聯(lián)合模型,利用BERT 代替意圖識(shí)別和槽填充基線模型中的底層詞向量表示模型。Qin 等[20]使用預(yù)先訓(xùn)練的嵌入編碼器以替換其注意力編碼器,進(jìn)一步提高了模型性能。

      2 相關(guān)理論基礎(chǔ)

      2.1 Rasa NLU

      NLU 處理消息是通過幾個(gè)模塊完成,這些模塊連接執(zhí)行,稱為處理管道(Pipeline)。如圖1 所示,管道中的功能模塊分為4 種:分詞器、特征提取器、分類器、實(shí)體識(shí)別模型。

      Fig.1 Rasa NLU treatment pipeline圖1 Rasa NLU處理管道

      2.2 RCNN

      傳統(tǒng)的特征表達(dá)方法有貝葉斯分類(NB)、支持向量機(jī)(SVM)、K 近鄰(KNN),但是這些方法忽略了上下文、語義和詞序信息,而基于深度學(xué)習(xí)和詞嵌入的方法在特征提取方面比傳統(tǒng)的特征表示方法更有優(yōu)勢(shì)。在文本分類任務(wù)中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)作為兩種常用的深度學(xué)習(xí)方法的代表,被廣泛應(yīng)用于各種分類任務(wù)中,但是也有各自的局限性。CNN 作為一種無偏模型,通過池化操作可以獲得更重要的特征,但是在使用過程中卷積核大小難以固定,過小容易丟失數(shù)據(jù),過大則空間參數(shù)過大。RNN 作為一個(gè)有偏的模型,善于利用上下文關(guān)系,但是通常文本序列后面的單詞有更大的權(quán)重,這并沒有考慮到重要的單詞可能出現(xiàn)在文本序列的任何地方。相比于前兩種深度學(xué)習(xí)方法,RCNN 的優(yōu)勢(shì)在于不需要像CNN 一樣需要通過窗口大小來設(shè)定對(duì)上下文的依賴長(zhǎng)度,同時(shí)還可以較為均勻地利用單詞的上下文信息,解決在RNN 中后面的單詞比前面的單詞影響力更大的缺點(diǎn)[21]。

      遞歸卷積神經(jīng)網(wǎng)絡(luò)(RCNN)用于文本分類,其結(jié)構(gòu)如圖2 所示。該模型采用雙向循環(huán)結(jié)構(gòu),比傳統(tǒng)的基于窗口的神經(jīng)網(wǎng)絡(luò)具有更少的干擾,可以最大限度地提取上下文特征。并且,RCNN 通過池化層自動(dòng)判斷哪個(gè)特征具有更重要的作用。在RCNN 中,詞語的嵌入主要由3 部分特征向量連接組成,3 部分特征向量分別是詞左邊的文本信息(lc)、詞本身信息(e)以及詞右邊的文本信息。

      其中,w代表一個(gè)詞語,e(wi)是通過處理后得到的向量,cl是融合當(dāng)前詞前面的詞匯信息,cr是融合當(dāng)前單詞之后的信息。每一個(gè)xi都用這種編碼方式,融合了上下文信息并進(jìn)行長(zhǎng)期的相關(guān)預(yù)測(cè)。

      Fig.2 Structure of recurrent convolutional neural network圖2 遞歸卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

      其中,f代表激活函數(shù)。非線性激活函數(shù)通過多層感知機(jī)處理并加入tanh 激活函數(shù),可以得到y(tǒng)(2),即每個(gè)單詞類別的得分向量:

      使用最大池化得到y(tǒng)(3):

      經(jīng)過上一步處理后再通過多層感知器和softmax 層后得到最終得分向量:

      y(4)經(jīng)過softmax 函數(shù)之后,將轉(zhuǎn)化為概率:

      2.3 BIGRU-CRF

      門控制循環(huán)單元和條件隨機(jī)場(chǎng)(BIGRU-CRF)算法是一種實(shí)體識(shí)別模型,用于意圖檢測(cè)之后的槽位填充任務(wù)(其結(jié)構(gòu)見圖3),本文槽位填充任務(wù)被轉(zhuǎn)換為命名實(shí)體識(shí)別任務(wù)。BIGRU-CRF 方法首先通過預(yù)訓(xùn)練模型獲得每個(gè)單詞的向量表示,再由BiGRU 作進(jìn)一步的語義編碼,最后輸出到CRF 層預(yù)測(cè)最大概率序列標(biāo)簽。CRF 可以通過標(biāo)簽之間的相鄰關(guān)系獲得全局最優(yōu)的標(biāo)簽序列,對(duì)序列x=(x1+x2+… +xn)通過BiGRU 進(jìn)行標(biāo)注輸出序列標(biāo)簽y=(y1+y2+… +yn),經(jīng)過計(jì)算可以得出給定輸入和輸出之間的匹配分?jǐn)?shù)。

      是字符標(biāo)簽yi-th的分?jǐn)?shù),Wi,j是標(biāo)簽的轉(zhuǎn)換分?jǐn)?shù)(W是轉(zhuǎn)移矩陣)。

      Fig.3 BiGRU-CRF model structure圖3 BiGRU-CRF的結(jié)構(gòu)

      h(t)是上一層t時(shí)間輸入數(shù)據(jù)xt的隱藏狀態(tài)。參數(shù)是CRF 的權(quán)重矩陣和最大條件似然估計(jì),訓(xùn)練集是xi、yi,似然函數(shù)求解公式如下:

      P代表輸入序列對(duì)應(yīng)于預(yù)測(cè)序列的概率:

      因此,在進(jìn)行意圖識(shí)別之后可以通過BiGRU+CRF 模型進(jìn)行槽位填充。

      2.4 基于混合技術(shù)的語義相似度算法

      FinBERT 模型是國(guó)內(nèi)首個(gè)針對(duì)金融領(lǐng)域大規(guī)模語料訓(xùn)練出的中文BERT,該預(yù)訓(xùn)練模型是基于標(biāo)準(zhǔn)的BERT架構(gòu)而建立,如圖4所示。

      Fig.4 BERT pretrained language model structure圖4 BERT預(yù)訓(xùn)練語言模型結(jié)構(gòu)

      近年來,預(yù)訓(xùn)練在NLP 領(lǐng)域中非常流行,它構(gòu)建了大量的預(yù)訓(xùn)練目標(biāo),以幫助模型更好地捕獲語言知識(shí)和語義信息。此外,F(xiàn)inBERT 還通過多任務(wù)自監(jiān)督預(yù)訓(xùn)練學(xué)習(xí),不斷更新預(yù)訓(xùn)練模型。與傳統(tǒng)的預(yù)訓(xùn)練模型相比,可以同時(shí)在一般語料庫和金融領(lǐng)域語料庫上進(jìn)行訓(xùn)練。在微調(diào)階段,首先用預(yù)先訓(xùn)練好的參數(shù)初始化模型,然后對(duì)特定于任務(wù)的監(jiān)督數(shù)據(jù)進(jìn)行微調(diào)。在多種金融數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),如在金融SBD、SA 和QA 數(shù)據(jù)集上,F(xiàn)inBERT 都取得了不錯(cuò)的結(jié)果,證明了該方法的有效性。

      3 模塊設(shè)計(jì)

      3.1 數(shù)據(jù)預(yù)處理

      目前,面向特定領(lǐng)域公開的中文數(shù)據(jù)集還很少,因此在進(jìn)行NLU 模塊設(shè)計(jì)前,要先針對(duì)特定領(lǐng)域進(jìn)行語料收集和文本預(yù)處理。之后結(jié)合智能催收電話系統(tǒng)的實(shí)際業(yè)務(wù),對(duì)NLU 模塊進(jìn)行具體設(shè)計(jì),主要包括用戶意圖設(shè)計(jì)、槽位填充設(shè)計(jì),再進(jìn)行模型訓(xùn)練。語料收集流程如圖5所示。

      Fig.5 Corpus preprocessing process圖5 語料預(yù)處理流程

      在收集語料前,首先根據(jù)已有的數(shù)據(jù)和業(yè)務(wù)要求,定義必不可少的用戶意圖和系統(tǒng)動(dòng)作,再從收集的語料庫中抽取對(duì)應(yīng)的數(shù)據(jù)進(jìn)行訓(xùn)練。本文是針對(duì)金融催收領(lǐng)域主題的語料庫,主要通過網(wǎng)絡(luò)爬蟲的方式爬取自己所需要的語料數(shù)據(jù)。本文采用python 語言中的Request 庫模擬HTTP 協(xié)議向新浪微博、中國(guó)金融新聞網(wǎng)、金融行業(yè)資訊網(wǎng)、每日金融新聞網(wǎng)等財(cái)經(jīng)網(wǎng)站發(fā)送請(qǐng)求,獲取相關(guān)的HTML 頁面。并且,還有一些金融公司對(duì)話日志,其中含有大量人工客服與客戶的對(duì)話記錄,這些對(duì)話可以作為智能催收系統(tǒng)中語言理解的訓(xùn)練語料。此外,可以從用戶日志中選取一些催收機(jī)器人對(duì)應(yīng)的場(chǎng)景,人工構(gòu)造一部分用于項(xiàng)目冷啟動(dòng),形成相應(yīng)場(chǎng)景下的對(duì)話數(shù)據(jù)。通過上述途徑,最終獲得了80萬份左右的原始語料。

      收集到的文本形式多種多樣,常見的有TXT 文本、HTML 文本、XML 文本、Word 文本、Excel 文檔等。HTML 文本中存在很多文本標(biāo)簽,例如“body”“div”“p”等。在這些標(biāo)簽的清洗過程中使用Python 中的BeautifulSoup 庫和Re 正則表達(dá)式庫,完成對(duì)HTML 頁面的解析和清理工作。在對(duì)語料的標(biāo)注過程中,本文主要是使用Rasa 提供的語料標(biāo)注工具Rasa NLU Trainer。標(biāo)注好的語料總條數(shù)為40 074條,用戶意圖共有28 類。數(shù)據(jù)集按照9∶1 的比例劃分訓(xùn)練集和測(cè)試集進(jìn)行5折交叉驗(yàn)證,選出最優(yōu)超參數(shù)。

      熵簡(jiǎn)科技于2020 年提出基于BERT 架構(gòu)的金融領(lǐng)域預(yù)訓(xùn)練語言模型FinBERT1.0,該模型在多個(gè)金融領(lǐng)域的下游任務(wù)中顯著的性能提升,在沒有任何調(diào)整的情況下F1值調(diào)高2%~5.7%。本文嘗試將FinBERT 加入到意圖識(shí)別與槽位填充任務(wù)中,并與原始BERT 模型的結(jié)果進(jìn)行比較。

      3.2 意圖識(shí)別模塊設(shè)計(jì)

      意圖是對(duì)用戶一句話表達(dá)的判斷,判斷用戶想要完成什么任務(wù)[22]。意圖識(shí)別模塊在設(shè)計(jì)過程中將模塊設(shè)計(jì)為不可再分的類別,大部分的用戶意圖集中在“accept”“affirm”“autoDeduct”“delaypay”上,由此可以看出,在催收過程中,用戶還是愿意還款或者有還款意向。意圖“family”“refusepay”和“ask_bank_account”等,雖然在數(shù)據(jù)集中占比較少,但是保證了用戶表達(dá)的多樣性,有助于解決對(duì)話系統(tǒng)在突發(fā)場(chǎng)景下的切換問題。意圖識(shí)別模塊的主要流程是首先將文本輸入到模型中,利用FinBERT 進(jìn)行預(yù)訓(xùn)練將輸入文本轉(zhuǎn)化為向量,在FinBERT 訓(xùn)練的最后一層輸出加上權(quán)重作為RCNN 模型的輸入,在RCNN 模型中對(duì)文本的深層語義特征進(jìn)行特征提取,并輸出意圖識(shí)別的結(jié)果。同時(shí),將FinBERT 模型得到的向量表示也作為槽位填充模型的輸入。

      3.3 槽位填充模塊設(shè)計(jì)

      在與用戶的對(duì)話過程中,總有一些關(guān)鍵信息,需要深刻理解才能完成用戶指令。槽位填充就是將用戶表達(dá)的槽位內(nèi)容識(shí)別為結(jié)構(gòu)化的信息,例如時(shí)間、銀行卡信息等。當(dāng)用戶想要知道自己賬戶逾期利息時(shí),就需要知道很多用戶的必要信息。在槽位設(shè)計(jì)過程中需遵守以下規(guī)則:①槽位需要被解釋;②槽位是核心信息,有特定含義,需要在執(zhí)行任務(wù)時(shí)使用;③槽位可以被清晰識(shí)別。在本文設(shè)計(jì)的智能催收系統(tǒng)中,表1 列出了所有槽位填充情況。在本文提到的FinBERT-BiGRU-CRF 模型中,整個(gè)模型分為3 部分,首先使用FinBERT 模型獲得輸入文本的向量表示,將得到的每個(gè)字的向量輸入BIGRU 中并對(duì)語義進(jìn)行編碼,最后輸出到CRF 層并輸出最大概率的標(biāo)簽序列。

      Table 1 Slot filling statistics表1 槽位填充統(tǒng)計(jì)

      3.4 其他模塊設(shè)計(jì)

      在對(duì)話管理模塊中一個(gè)意圖對(duì)應(yīng)著一個(gè)對(duì)話響應(yīng),系統(tǒng)要執(zhí)行的動(dòng)作主要根據(jù)NLU 模塊得到的用戶意圖以及相應(yīng)的槽值進(jìn)行設(shè)計(jì)。本文所使用的Rasa Core 中允許多個(gè)意圖對(duì)應(yīng)一個(gè)或者多個(gè)系統(tǒng)動(dòng)作以簡(jiǎn)化故事結(jié)構(gòu)。在模塊設(shè)計(jì)時(shí),以“HS”開頭的系統(tǒng)動(dòng)作代表對(duì)應(yīng)用戶意圖可以直接回復(fù)的動(dòng)作如“HS_repeat”;以“QR”開頭的動(dòng)作代表系統(tǒng)需要主動(dòng)對(duì)用戶提問的動(dòng)作;以“JS”開頭的系統(tǒng)動(dòng)作代表不同場(chǎng)景下對(duì)話的結(jié)束動(dòng)作;以“Action”開頭的系統(tǒng)動(dòng)作代表需要進(jìn)行槽位填充的自定義動(dòng)作。

      話術(shù)模板設(shè)計(jì)主要針對(duì)系統(tǒng)動(dòng)作而定,用作系統(tǒng)對(duì)用戶的具體響應(yīng)輸出??紤]到保護(hù)個(gè)人隱私和信息安全,對(duì)涉及到的相應(yīng)人名、公司名、金額、電話、賬戶信息等,均用‘XX’表示。如QR 類模板:“請(qǐng)問您是本人嗎?/請(qǐng)問這是XX 的電話嗎?”;HS 類模板:“如果你不想逾期記錄惡化,麻煩盡快處理一下好嗎?/那你等下把錢存到銀行卡里,自己登錄我們的APP 還款,沒問題吧!”;JS 類模板:“我們的通話是全程錄音的,建議您登錄XX 借款A(yù)PP 選擇充值還款的方式,在兩小時(shí)還清款項(xiàng),避免產(chǎn)生不良記錄,感謝你的接聽,再見?!?/p>

      3.5 模型訓(xùn)練

      通過對(duì)詞向量的特征構(gòu)造與選擇,得到一個(gè)面向金融領(lǐng)域的預(yù)訓(xùn)練詞向量模型,對(duì)訓(xùn)練語料進(jìn)行相應(yīng)標(biāo)注和定義。訓(xùn)練過程中標(biāo)注好的語料共有40 074 條,用戶意圖共被劃分為28 類。將數(shù)據(jù)按照9∶1 的比例劃分訓(xùn)練集和測(cè)試集,在訓(xùn)練集中按照9∶1 的比例劃分出驗(yàn)證集,然后對(duì)訓(xùn)練集進(jìn)行五折交叉驗(yàn)證。本文大多數(shù)實(shí)驗(yàn)都是在Intel Xeon E5-2678 v3 CPU、雙Nvidia GeForce GTX 1080 Ti GPU的環(huán)境下進(jìn)行測(cè)試。首先加載預(yù)訓(xùn)練詞向量模型,與BERT 模型一樣,F(xiàn)inBERT 模型也分為兩種,即FinBERTlarge 和FinBert-base。兩種模型網(wǎng)絡(luò)結(jié)構(gòu)大致相同,部分參數(shù)略有不同,這里使用的是FinBERT-Base 模型,其中學(xué)習(xí)率是5e-5,每批訓(xùn)練數(shù)據(jù)為16,有768 個(gè)隱藏神經(jīng)元,編碼器的層數(shù)以及自注意力頭數(shù)均為12。在RCNN 模型中,詞嵌入維度是768,隱藏節(jié)點(diǎn)數(shù)是256,學(xué)習(xí)率為0.001,每批數(shù)據(jù)大小為128,隨機(jī)失活率為0.1,epoch 設(shè)置為100。隨著訓(xùn)練次數(shù)的逐漸增多,準(zhǔn)確率不斷上升,損失率逐漸下降,最后在經(jīng)過100 次的epoch 后,準(zhǔn)確率在驗(yàn)證集和訓(xùn)練集開始震蕩收斂。驗(yàn)證集準(zhǔn)確率達(dá)96%左右,同時(shí)損失率也下降到0.1,此時(shí)模型已達(dá)到最優(yōu)。

      4 自然語言理解模塊測(cè)試與分析

      在實(shí)驗(yàn)中除與傳統(tǒng)模型對(duì)比外,還選取了NLU 模塊的準(zhǔn)確率、召回率F1值以完成NLU 模塊的測(cè)試與分析。選擇準(zhǔn)確率、召回率、F1值對(duì)意圖識(shí)別進(jìn)行評(píng)價(jià),選用F1值對(duì)槽位填充模塊進(jìn)行評(píng)價(jià)。按照9∶1 的比例將數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集,遇到小數(shù)點(diǎn)按四舍五入的原則取整。對(duì)話系統(tǒng)各模塊評(píng)價(jià)指標(biāo)眾多,在自然語言理解模塊中,對(duì)意圖識(shí)別和槽位填充識(shí)別進(jìn)行精確率(P)、召回率(R)及F1得分評(píng)測(cè)。其中,TP是模型成功識(shí)別為正確的樣本數(shù),F(xiàn)P是模型識(shí)別到的正確樣本但實(shí)際是錯(cuò)誤的樣本個(gè)數(shù),F(xiàn)N是模型預(yù)測(cè)為錯(cuò)誤樣本但實(shí)際正確的樣本個(gè)數(shù)。

      4.1 意圖識(shí)別模塊測(cè)試與評(píng)估

      在意圖識(shí)別任務(wù)中,為了驗(yàn)證本文FinBERT 模型效果,加入與常見神經(jīng)網(wǎng)絡(luò)模型、BERT 模型的比較。為了驗(yàn)證RCNN 的有效性,本文還加入了面向特定領(lǐng)域的預(yù)訓(xùn)練模型與不同神經(jīng)網(wǎng)絡(luò)算法結(jié)合的比較。不同模型在本文數(shù)據(jù)集上的比較結(jié)果如表2所示。

      Table 2 Comparison of intention recognition results表2 意圖識(shí)別實(shí)驗(yàn)結(jié)果比較

      在常見神經(jīng)網(wǎng)絡(luò)模型中的輸入使用了Word2vec 工具中的Skip-gram 模型進(jìn)行詞向量表示。由表2 可以看出,以CNN 模型為基線,在與原始預(yù)訓(xùn)練語言模型BERT 比較中,后者可以顯著提高意圖識(shí)別任務(wù)中的精確率、召回率、F1值等。當(dāng)面向特定領(lǐng)域的預(yù)訓(xùn)練語言模型與常見神經(jīng)網(wǎng)絡(luò)模型相結(jié)合后,實(shí)驗(yàn)效果進(jìn)一步提升,RCNN 算法在與之前算法的比較中也展現(xiàn)出了自身優(yōu)勢(shì),最終取得了95.75%的F1值,高于基線13.4%,驗(yàn)證了本文提出的算法模型性能更好。

      4.2 槽位填充測(cè)試

      表3 是不同槽位填充模型在本文數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果比較。共享意圖識(shí)別模塊中預(yù)訓(xùn)練后的向量表示,本文通過RasaNLU 內(nèi)置的同義詞抽取和正則表達(dá)式功能,利用FinBERT+BiGRU+CRF 算法模型完成實(shí)體別任務(wù)。槽位填充模塊的基線模型使用Word2vec 工具中的Skipgram 模型對(duì)詞向量進(jìn)行表示,然后使用BiGRU+CRF 方法完成槽位填充任務(wù)。在分別加入BERT 模型及FinBERT模型后,實(shí)驗(yàn)的各項(xiàng)指標(biāo)均有所提升。本文提出的Fin-BERT+BiGRU+CRF 算法模型最終取得了95.88%的F1 值,高于基線7.31%。

      Table 3 Comparison of experimental results of slot filling表3 槽位填充實(shí)驗(yàn)結(jié)果比較

      5 結(jié)語

      本文基于開源機(jī)器學(xué)習(xí)框架Rasa,改進(jìn)了其中的NLU模塊,采用最新提出的面向金融領(lǐng)域的預(yù)訓(xùn)練語言模型FinBERT 與RCNN 算法相結(jié)合的方式完成意圖識(shí)別任務(wù),共享意圖識(shí)別任務(wù)中的預(yù)訓(xùn)練向量結(jié)合BIGRU+CRF 的聯(lián)合模型完成槽位填充任務(wù)。實(shí)驗(yàn)表明,本文算法的模型性能更優(yōu)。后續(xù)將進(jìn)一步豐富領(lǐng)域內(nèi)的對(duì)話語料,引入閑聊功能以提升系統(tǒng)穩(wěn)定性,并提高用戶體驗(yàn)。

      猜你喜歡
      語料意圖向量
      原始意圖、對(duì)抗主義和非解釋主義
      法律方法(2022年2期)2022-10-20 06:42:20
      陸游詩寫意圖(國(guó)畫)
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      制定法解釋與立法意圖的反事實(shí)檢驗(yàn)
      法律方法(2021年3期)2021-03-16 05:56:58
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語料
      嵊泗县| 曲水县| 秭归县| 浦城县| 仙游县| 巴林左旗| 溆浦县| 遵化市| 肃南| 加查县| 鄢陵县| 鄯善县| 马关县| 定州市| 临猗县| 隆安县| 玉山县| 长海县| 正定县| 木兰县| 白城市| 合阳县| 分宜县| 宣城市| 商水县| 奇台县| 合肥市| 元阳县| 阳城县| 体育| 乳山市| 泸西县| 文山县| 桐庐县| 苍山县| 故城县| 沐川县| 嘉善县| 北票市| 马鞍山市| 东城区|