關(guān)于電子郵件語(yǔ)言特征識(shí)別作者的研究

2019-03-20 05:18:04韓樂(lè)慷周鈺晗樊昊東郭鵬王賢麟

西部論叢 2019年9期

韓樂(lè)慷　周鈺晗　樊昊東　郭鵬　王賢麟

摘要：電子郵件中的手寫分析是一種非常具體的調(diào)查形式，可通過(guò)電子郵件的語(yǔ)言特征來(lái)識(shí)別作者。電子郵件的內(nèi)容往往比較短，作者的語(yǔ)言風(fēng)格比較明顯。所以通過(guò)電子郵件的語(yǔ)言特征來(lái)識(shí)別作者具有一定的科學(xué)可行性，并且通過(guò)電子郵件語(yǔ)言特征識(shí)別身份的研究具有重要意義。本文建立了以邏輯條件順序?yàn)榛A(chǔ)的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型。

關(guān)鍵詞：語(yǔ)言特征規(guī)劃作者識(shí)別 bp算法誤差反向傳播預(yù)測(cè)檢驗(yàn)

1.電子郵件的語(yǔ)言特征的用途

在電子郵件中蘊(yùn)藏了豐富的各類有用信息，是進(jìn)行計(jì)算機(jī)分析取證的重要內(nèi)容之一，它能為案件偵破提供一些有力的線索。為提高使用效率，人們經(jīng)常使用各類電子郵件客戶端（如Foxmail、Outlook Express、Microsoft Office Outlook等）來(lái)處理郵件。因此，分析各類郵件客戶端所保存的郵件數(shù)據(jù)文件也是計(jì)算機(jī)分析取證的重要手段之一。

此外，由于電子郵件的作者所運(yùn)用的語(yǔ)言特征不同，通過(guò)電子郵件識(shí)別作者是十分科學(xué)可行的。電子郵件證據(jù)在涉網(wǎng)案件偵辦中的作用越來(lái)越重要。通過(guò)解讀大數(shù)據(jù)時(shí)代海量電子郵件分析的挑戰(zhàn)與機(jī)遇，提出了通過(guò)郵件各元數(shù)據(jù)信息的分析與挖掘、郵件關(guān)系分析和郵件行為分析，從而準(zhǔn)確研判郵件聯(lián)系人的關(guān)系、涉案人員及涉案人員生活規(guī)律的分析思路。

2.研究電子郵件的作者身份識(shí)別問(wèn)題的背景

目前，國(guó)內(nèi)外的研究人員主要從兩個(gè)方面來(lái)研究電子郵件的作者身份識(shí)別問(wèn)題。一方面是從物理信息（如電子郵件的頭信息、IP地址等）來(lái)研究獲取作者身份，但效果不盡人意。另一方面是試圖通過(guò)研究郵件內(nèi)容來(lái)識(shí)別作者身份。

3.關(guān)于電子郵件語(yǔ)言特征識(shí)別的分析

3.1文本處理

本文電子郵件語(yǔ)言特征的識(shí)別從表層上分析可以作為一類特殊的文本處理。作者識(shí)別需要利用實(shí)現(xiàn)作者識(shí)別。當(dāng)然收集的有效文本越多，越具有典型性，就越有利于得到更準(zhǔn)確的結(jié)果。按照一定的方法和原則排除無(wú)關(guān)因素，將作者的可能范圍縮小到個(gè)人。關(guān)于作者的語(yǔ)言特征，主要通過(guò)詞匯頻率、特定詞匯頻率、標(biāo)點(diǎn)、n-Gram字符串、特定語(yǔ)法特征、平均句長(zhǎng)、作者的已有文檔作為參考，由于作者的寫作風(fēng)格在一定時(shí)間內(nèi)相對(duì)穩(wěn)定，因此只要能挖掘出作者的語(yǔ)言特征就可以段落長(zhǎng)度等特征的統(tǒng)計(jì)分析和經(jīng)驗(yàn)評(píng)價(jià)來(lái)確定電子郵件的作者。

3.2 SVM算法

基于SVM的中文郵件作者識(shí)別算法研究：支持向量機(jī)（support vector machine，SVM）是一種建立在由統(tǒng)計(jì)學(xué)習(xí)理論導(dǎo)出的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則基礎(chǔ)上的機(jī)器學(xué)習(xí)算法。其主要思想是針對(duì)兩類分類問(wèn)題，在高維空間中尋找一個(gè)超平面作為兩類的分割，以保證最小的分類錯(cuò)誤率，而且SVM的一個(gè)重要的優(yōu)點(diǎn)是可以處理線性不可分的情況。

3.3郵件特征

格式特征：郵件的格式特征包括稱呼語(yǔ)、問(wèn)候語(yǔ)、敬語(yǔ)、簽名、日期、電子簽名、空行、空格、縮進(jìn)等內(nèi)外模式，格式特征的提取是通過(guò)提前識(shí)別標(biāo)注和之后的統(tǒng)計(jì)計(jì)算得來(lái)的，在有這些格式特征出現(xiàn)的地方做好標(biāo)注，就可以進(jìn)行自動(dòng)化統(tǒng)計(jì)，之后將對(duì)應(yīng)的格式特征出現(xiàn)的權(quán)值標(biāo)記為1，未出現(xiàn)的標(biāo)志為0即可。

結(jié)構(gòu)特征：中文郵件結(jié)構(gòu)特征選取的是平均句長(zhǎng)度、平均段長(zhǎng)度、空行比率、空格比率、英文比率、數(shù)字比率、7種連續(xù)點(diǎn)號(hào)和7種點(diǎn)號(hào)與9種標(biāo)號(hào)的比率。所有這些結(jié)構(gòu)特征都是通過(guò)字符識(shí)別與統(tǒng)計(jì)計(jì)算得出的，很容易通過(guò)匹配統(tǒng)計(jì)的方法得到各種結(jié)構(gòu)特征。

4.模型建立與求解

4.1模型一的建立。為了簡(jiǎn)化模型，我們首先考慮選取單個(gè)郵件作為樣本

4.2模型一求解

第一步：網(wǎng)絡(luò)初始化

給各連接權(quán)值分別賦一個(gè)區(qū)間（?1，1）內(nèi)的隨機(jī)數(shù)，設(shè)定誤差函數(shù)e ，給定計(jì)算精度值ε 和最大學(xué)習(xí)次數(shù)M 。

第二步：隨機(jī)選取

隨機(jī)選取第k 個(gè)輸入樣本以及對(duì)應(yīng)的期望輸出

第三步：隱含層計(jì)算

計(jì)算隱含層各神經(jīng)元的輸入和輸出

4.3模型一檢驗(yàn)

判斷網(wǎng)絡(luò)誤差是否滿足要求。當(dāng)誤差達(dá)到預(yù)設(shè)精度或者學(xué)習(xí)次數(shù)大于設(shè)計(jì)的最大次數(shù)，則結(jié)束算法。否則，選取下一個(gè)學(xué)習(xí)樣本以及對(duì)應(yīng)的輸出期望，返回第三部，進(jìn)入下一輪學(xué)習(xí)。

5.結(jié)束語(yǔ)

人類都有本能習(xí)慣性，總想保持某些個(gè)人的特性，每個(gè)人都有獨(dú)特的行為方式，生物統(tǒng)計(jì)學(xué)特點(diǎn)等，而且都是潛意識(shí)的。我們可以通過(guò)提取電子郵件的各種特征，包括語(yǔ)言特征、頭信息、結(jié)構(gòu)特征和格式特征，自動(dòng)地把郵件分類到預(yù)定的作者類別中，所以通過(guò)電子郵件的語(yǔ)言特征識(shí)別作者將成為計(jì)算機(jī)取證的科學(xué)而可靠的技術(shù)理論依據(jù)。

參考文獻(xiàn)

[1] 滕桂法.中文電子郵件作者身份識(shí)別技術(shù)研究[D].北京師范大學(xué)，2005.

[2] 馬建斌.中文Web信息作者同一認(rèn)定技術(shù)研究[D].河北農(nóng)業(yè)大學(xué)，2010.

西部論叢2019年9期

西部論叢的其它文章: 逆風(fēng)翻盤，向陽(yáng)而生; 關(guān)于虛擬社會(huì)越軌行為的研究; 淺談高中開設(shè)法律課程的意義; 明確補(bǔ)“鈣”標(biāo)準(zhǔn) 堅(jiān)定理想信念; 城市化進(jìn)程中的郊區(qū)社會(huì)治理問(wèn)題研究; 從土崩坎社區(qū)探析城市社區(qū)治理創(chuàng)新路徑

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

關(guān)于電子郵件語(yǔ)言特征識(shí)別作者的研究