陳夢(mèng)圓 田君藝 任宇童 重慶郵電大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院
在日??谡Z(yǔ)表達(dá)和文本描述中,每個(gè)人都會(huì)形成具有個(gè)人特征的語(yǔ)言風(fēng)格,郵件中的文本?;旌现谡Z(yǔ)內(nèi)容和正式書面語(yǔ),個(gè)人特征風(fēng)格尤為明顯。本文就基于個(gè)人語(yǔ)言風(fēng)格特征對(duì)郵件內(nèi)容提取有效關(guān)鍵字,比對(duì)郵件特征和樣本之間的余弦距離來(lái)識(shí)別郵件作者。
TF-IDF(term frequency inverse document frequency)是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)。TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜尋引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評(píng)級(jí)。
余弦相似度用向量空間中兩個(gè)向量夾角的余弦值作為衡量?jī)蓚€(gè)個(gè)體間差異的大小。相比距離度量,余弦相似度更加注重兩個(gè)向量在方向上的差異,而非距離或長(zhǎng)度上。
設(shè)計(jì)流程如圖1所示。
圖1 設(shè)計(jì)流程
首先選擇一個(gè)由Bass寫的安然郵件信息作為語(yǔ)料訓(xùn)練集。刪除郵件的非原件部分,只保留原文內(nèi)容。然后使用nltk進(jìn)行單詞提取,給出訓(xùn)練集合中的每個(gè)特征詞的TFC的重量,和文本內(nèi)容轉(zhuǎn)換成計(jì)算機(jī)能夠識(shí)別和處理的數(shù)據(jù)。選擇另一個(gè)人寫的郵件,重復(fù)上面的步驟來(lái)處理。最終使用TF-IDF算法得到測(cè)試郵件和語(yǔ)料庫(kù)的特征矩陣,計(jì)算其余弦相似度。
采用600封重復(fù)以上步驟,計(jì)算識(shí)別作者過(guò)程各類指標(biāo)值,計(jì)算所得結(jié)果如表1所示。
表1 計(jì)算結(jié)果
如你所見(jiàn),該模型能正確識(shí)別作者的概率是89.13%,也就是說(shuō),在100封電子郵件中,大約89.13個(gè)字母可以被正確識(shí)別,正確率非常高。
[1] http://blog.csdn.net/baimafujinji/article/details/51476117
[2]劉明勇.基于寫作風(fēng)格學(xué)的作者識(shí)別技術(shù)研究[D].浙江大學(xué),2013.
[3] http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html