• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學習的生成式聊天機器人算法綜述

      2018-11-26 09:33:06孫立茹余華云
      電腦知識與技術 2018年23期
      關鍵詞:強化學習深度學習

      孫立茹 余華云

      摘要:隨著深度學習算法的發(fā)展,聊天機器人也迎來了發(fā)展的黃金時期,本文主要研究的是生成式聊天機器人,這種方式區(qū)別于檢索式的聊天機器人,使得聊天機器人的遷移性與泛化性更佳。具有非常廣闊的應用場景。本文首先對生成式聊天機器人領域主流框架進行實驗,在此基礎上加入attention注意力模型機制來提高生成效果,為了避免大量的無意義的安全回復,又采用強化學習評估對話的未來獎勵,保證對話的自然流暢。

      關鍵詞:深度學習;聊天機器人;強化學習

      中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2018)23-0227-02

      聊天機器人思想出現是從20世紀70年代,當時稱為專家系統(tǒng),由龐大的知識庫構建而成。隨著2015年人工智能技術的飛速發(fā)展,把深度學習模型應用到自然語言處理領域取得了很好的效果,成為近幾年來了熱門研究方向。聊天機器人分為兩種方式,檢索和生成兩種方式。生成式聊天機器人與原來的檢索不同,是指在人與機器進行對話時,機器自動組織語言回復。聊天機器人在未來有廣闊的應用前景。但是目前聊天對話有很多不完善的地方,比如對話過程中容易產生安全回答,前后信息不一致以及容易使聊天陷入僵局等情況。在文章中我們會簡單介紹生成式聊天機器人中所涉及的幾種算法。

      1 基于RNN的seq2seq模型

      目前在深度學習模型中,循環(huán)神經網絡(RNN)在自然語言處理領域中應用越來越廣。但是因為RNN有一定局限性,一些學者在原來模型的基礎上進行了改進,也就是LSTM和GRU模型。在對話模型中,我們需要對輸入的文本進行處理,輸入的文本信息轉化成向量形式是最常見的方法,以向量形式輸入到所選的深度模型中進行訓練。在對話任務中,所選用的框架是seq2seq模型,這個框架一開始在自然語言處理領域中的翻譯系統(tǒng)上取得了較好的效果,在聊天機器人的對話模型中,也取得了比較好的效果。Bahdanau等人后來在原來的深度框架模型上添加了attention機制,解決了循環(huán)神經網絡中信息丟失的問題。

      1.1 聊天機器人中的關鍵算法

      在研究聊天機器人對話中,我們首先需要對輸入的文本信息進行處理。一般是做向量化處理也就是將文本內容上下文信息用向量來表示。將文本信息轉化成向量格式有兩種方法:一種是文本分布式,另一種是文本向量空間模型(VSM)。詞嵌入(Word Embedding)屬于文本分布式中的一個方法也是文本處理的主流方式,指將文本信息映射到向量中,根據向量間的距離判斷詞語是否相近。

      RNN主要解決的是序列問題,也就是當前的輸出不僅與當前時刻的輸入有關還與前一時刻的輸出有關,這就構成了前后詞之間的關聯(lián)。所以非常適合來解決文本處理的問題。但是RNN網絡也存在諸多難以解決的問題,比如說數據集太大,訓練難度會增加,容易產生的梯度消失和梯度爆炸的問題。在此基礎上一些學者設計出了RNN兩個變種LSTM(Long Short Term Memory Network) 和GRU(Gated Recurrent Unit Network)。

      LSTM和GRU與RNN的不同在于神經網絡層中隱藏層設計的不同,因為LSTM帶有記憶特性,所以能解決RNN中的長距離問題。另外GRU在隱藏層上做出了改進,主要是對前面狀態(tài)中信息進行加權計算,離當前時刻越近的信息權值越大。另外在訓練過程中,為了減少數據量少而引起的過擬合,所以在模型中引入了Drop out機制。Drop out指在訓練過程中,去掉神經網絡單元中某些單元,簡化模型的結構,進而可以增強模型的泛化能力

      1.2 seq2seq 模型框架

      seq2seq模型也稱為序列到序列模型,因為在翻譯系統(tǒng)中取得了不錯的效果,隨后應用到聊天機器人中。seq2seq模型有兩部分構成:編碼器和解碼器,引入到聊天機器人任務中,定義編碼器對應的是問句,解碼器對應的是回復的語句。

      從理論上講seq2seq模型表現很好,但是在實際場景中訓練數據效果不好。Bahdanau等人把注意力機制運用到了對話生成中,對于循環(huán)神經網絡中隨時間增長信息丟失的問題有了很好的解決方法,也提升了整個系統(tǒng)的效果。attention機制思想是編碼器中輸入詞映射到解碼器中對每個詞都是有影響的,只是概率分布不同。

      2 基于深度強化學習的對話模型

      Alphago證實了強化學習技術的成功,也推動了強化學習技術在自然語言處理領域的發(fā)展。強化學習中智能體與環(huán)境進行交互,根據系統(tǒng)提前定義的獎勵函數來判定智能體的行為是否合適。系統(tǒng)會給出一定的獎勵或懲罰,最終目標是獎勵函數最大化。

      2.1 獎勵函數簡介

      在智能聊天機器人對話系統(tǒng)中,強化學習模型所代表的含義是利用兩個機器人不斷的對話來模擬智能體與環(huán)境的交互過程,最后訓練出我們想要的效果。馬爾科夫決策過程包括動作,狀態(tài),策略,獎勵函數等幾個要素。其中獎勵函數作為目標函數是最重要的因素。當每次都出現無意義的回答時,我們將給出懲罰。最后我們希望對話過程中所給的回答是有效的,并且在生成的語句中更多的是有意義的回復,保證對話的流暢性。

      我們可以自由設定聊天機器人中的獎勵函數,第一個獎勵函數可以定義為讓對話產生新的信息。第二個獎勵函數設定為問題與答案的相關度。第三個獎勵函數設定為回答的語句中帶有情緒的詞語。第四個獎勵函數設定為回答文本中不帶有尷尬的詞語出現,避免聊天陷入僵局。最后對幾個獎勵函數進行加權求和,獎勵函數最大時對應的模型就是我們想要的模型。

      3 總結

      本文介紹了生成式聊天機器人中的主流算法模型,通過對算法的優(yōu)化希望與聊天機器人對話語句更加的自然順暢。我們首先介紹循環(huán)神經網絡,然后簡單說明seq2seq模型與attention機制的思想。由于聊天機器人經常給出一些安全回復,容易使對話陷入僵局,因此后來把強化學習算法引入到聊天機器人對話生成中。在一定程度上可以提升對話的流暢性。在未來的發(fā)展中,我們希望聊天機器人還擁有自己的情商,使生成語句更加自然順暢并保持前后一致。

      參考文獻:

      [1] Vinyals O, Le Q. A neural conversational model[J].arXiv preprint arXiv:1506.05869,2015.

      [2] Guo H. Generating text with deep reinforcement learning[J].arXiv preprint arXiv:1510.09202,2015.

      [3] Li J,Monroe W,Ritter A, et al. Deep reinforcement learning for dialogue generation[J].arXiv preprint arXiv:1606.01541,2016.

      [4] Van Hasselt H,Guez A, Silver D. Deep Reinforcement Learning with Double Q-Learning[C]//AAAI.2016:2094-2100.

      [5] Cuayahuitl H. Simpleds: A simple deep reinforcement learning dialogue system[M]//Dialogues with Social Robots. Springer Singapore, 2017:109-118

      [6] Lison P. Model-based bayesian reinforcement learning for dialogue management[J]. arXiv preprint arXiv:1304.1819,2013.

      [7] 曹東巖.基于強化學習的開放領域聊天機器人對話生成算法[D].哈爾濱:哈爾濱工業(yè)大學,2017.

      【通聯(lián)編輯:唐一東】

      猜你喜歡
      強化學習深度學習
      智能車自主避障路徑規(guī)劃研究綜述
      軟件導刊(2017年10期)2017-11-02 11:22:44
      一種記憶可修剪型仿生機器人的速度跟蹤算法研究
      基于強化學習的在線訂單配送時隙運能分配
      論“以讀促寫”在初中英語寫作教學中的應用
      智能交通車流自動導引系統(tǒng)
      大經貿(2017年5期)2017-06-19 20:06:37
      有體驗的學習才是有意義的學習
      電子商務中基于深度學習的虛假交易識別研究
      現代情報(2016年10期)2016-12-15 11:50:53
      MOOC與翻轉課堂融合的深度學習場域建構
      大數據技術在反恐怖主義中的應用展望
      分布式系統(tǒng)中基于非合作博弈的調度算法
      定陶县| 佛学| 罗江县| 嵊泗县| 长岛县| 东丽区| 青海省| 丹棱县| 泾川县| 雅江县| 凌源市| 夏河县| 侯马市| 海城市| 永定县| 布拖县| 斗六市| 锦屏县| 北川| 沾化县| 瑞金市| 连州市| 遵义县| 肥东县| 克拉玛依市| 德庆县| 睢宁县| 汪清县| 三原县| 天镇县| 富源县| 漳州市| 剑川县| 盐城市| 肇东市| 石嘴山市| 南城县| 饶阳县| 德保县| 丹阳市| 通河县|