• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)對電子郵件的作者識別

      2018-04-21 08:10:12米碩孫瑞彬李欣明曉
      科技創(chuàng)新與應(yīng)用 2018年10期
      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)

      米碩 孫瑞彬 李欣 明曉

      摘 要:文章針對如何捕獲電子郵件的語言特征來識別作者的問題進行了研究建模,首先使用NLTK自然語言處理工具對文本進行了預處理,然后使用Word2Vec和GloVe模型對文本內(nèi)容進行了嵌入化處理得到了詞向量,接著文章使用改進的基于TextCNN的網(wǎng)絡(luò)架構(gòu),使用改進的基于CLSTM的網(wǎng)絡(luò)架構(gòu)和提出了一種新的基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)的網(wǎng)絡(luò)架構(gòu)來解決文章的問題,并且采用集成學習的方法對上述三種單一模型進行模型融合作為最終的模型來識別作者,最終的效果較好。

      關(guān)鍵詞:循環(huán)神經(jīng)網(wǎng)絡(luò);卷積神經(jīng)網(wǎng)絡(luò);詞向量;Python

      中圖分類號:TP391 文獻標志碼:A 文章編號:2095-2945(2018)10-0024-02

      Abstract: In this paper, we study and model in view of how to capture the language features of email to identify the author. Firstly, we preprocess the text with NLTK natural language processing tool. Then we use Word2Vec and GloVe models to embed the text content to get word vector. Then we use the improved network architecture based on TextCNN and an improved network architecture based on CLSTM, and a new network architecture based on recurrent neural network (RNN) and convolutional neural network (CNN) is proposed to solve the problem of an article. And the integration learning method is used to identify the author by fusing the above three single models as the final model, with a good final effect.

      Keywords: recurrent neural network (RNN); convolutional neural network (CNN); word vector; Python

      1 模型的建立

      筆跡分析是一種非常特殊的調(diào)查形式,用于將人們與書面證據(jù)聯(lián)系起來。筆跡調(diào)查人員通常被要求在法庭或刑事調(diào)查中,以確定書面樣本是否來自某個特定的人。由于許多語言證據(jù)現(xiàn)在都出現(xiàn)在電子郵件中,從廣義上說,筆跡分析也包括了如何通過電子郵件的語言特征來識別作者的問題。本文基于此使用深度學習的方法建立了相應(yīng)的模型。其為改進的基于TextCNN的分類模型,改進的基于CLSTM的分類模型和一種新的基于循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的分類模型,并且使用集成學習的方法對上述三種單一模型進行融合作為最終的分類結(jié)果。(見圖1、圖2、圖3)

      2 模型的求解

      對于每個單一模型的輸入都為用詞向量替換的郵件原始正文文本數(shù)據(jù)的詞向量矩陣,模型最終的輸出為133維的向量,代表這封郵件屬于這133個人的概率本文在訓練中使用Ten-folder cross-validation(十折交叉驗證)的方法來做數(shù)據(jù)進行訓練和驗證。本文所用的數(shù)據(jù)集大小為255636,首先留出5636個樣本作為測試集,剩余的250000個樣本分成十份,輪流的將其中九份作為訓練數(shù)據(jù),1份作為測試數(shù)據(jù),進行試驗,每次訓練都會得出相應(yīng)的準確率。10次的結(jié)果的準確率的平均值作為最終的準確率,最終來對算法準確性進行估計。

      本文在進行模型訓練時根據(jù)算法的準確性不斷的進行參數(shù)的調(diào)節(jié),并且使用GTX 1080Ti顯卡進行足夠時間的學習訓練,力求使每個模型的準確率達到最高。

      由訓練集和測試集的準確率變化可知,該模型對于電子郵件作者的識別取得了不錯的效果。較單一的傳統(tǒng)模型效果更佳,故采用本文的方法能較好的解決該電子郵件識別問題。

      3 模型的優(yōu)缺點

      3.1 模型的優(yōu)點

      (1)同時使用了Word2Vec模型和GloVe模型對文本進行了處理得到了原始文本的特征表示,使得模型能夠從文本中提取到更加有效的特征來進行文本分類識別。

      (2)使用了集成學習的方法來進行模型融合,這種方法相比使用單一的分類模型效果更好。

      (3)在驗證單一模型的使用的算法的有效性和正確性方面,使用十折交叉驗證方法,證實了模型的準確率相對來說較好。

      (4)本文創(chuàng)新性的提出了一種新的文本分類識別模型,并且在此文本分類識別問題上取得了不錯的效果。

      3.2 模型的缺點

      (1)在模型過程中,可能未找到最優(yōu)的模型參數(shù)值使得模型表現(xiàn)出最好的效果。

      (2)因為單一模型的最后是全連接層,需要訓練的參數(shù)較多,容易出現(xiàn)過擬合,深度模型容易出現(xiàn)梯度消散問題。

      3.3 模型的改進

      (1)通過迭代法找到模型表現(xiàn)出最好的效果時的模型參數(shù)值。

      (2)對通過Word2Vec模型和GloVe模型得到詞向量進行L1,L2正則化處理,以提高單一模型的泛化能力,也會使得最終的模型融合的效果更優(yōu)。

      參考文獻:

      [1]lan Goodfellow,Deep learning[M].Beijing:People's post and Tele

      communications Press,2017.

      [2]Shalini Ghosh,Orilo Vinyals, Contextual LSTM(CLSTM)models for large scale NLP tasks, arxiv.org,2016.

      [3]楊靜.基于SVM的中文電子郵件作者性別識別技術(shù)研究[D].河北農(nóng)業(yè)大學,2007.

      [4]聶小塵.電子郵件取證模型及關(guān)鍵技術(shù)研究[D].上海交通大學,2011.

      [5]馬建斌.基于SVM的中文電子郵件作者身份挖掘技術(shù)研究[D].河北農(nóng)業(yè)大學,2004.

      猜你喜歡
      卷積神經(jīng)網(wǎng)絡(luò)
      基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別算法
      深度學習算法應(yīng)用于巖石圖像處理的可行性研究
      軟件導刊(2016年9期)2016-11-07 22:20:49
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識別的算法的研究
      绥化市| 西城区| 和田县| 河东区| 江油市| 定结县| 北京市| 宜都市| 郁南县| 洛阳市| 嵩明县| 当涂县| 华容县| 乐安县| 凤山县| 定南县| 团风县| 额济纳旗| 普兰店市| 福泉市| 湖南省| 齐河县| 镇平县| 通渭县| 阳山县| 灵寿县| 景谷| 额尔古纳市| 彰化市| 梁平县| 都昌县| 区。| 辉县市| 兴海县| 沅江市| 循化| 曲阳县| 汝阳县| 南乐县| 开封市| 河曲县|