摘 要:為防止敏感數(shù)據(jù)泄密事件問題,為對(duì)敏感數(shù)據(jù)的有效訪問和管理工作建立基礎(chǔ),發(fā)明并完成了基于文本內(nèi)容的敏感數(shù)據(jù)識(shí)別技術(shù)。經(jīng)過對(duì)敏感數(shù)據(jù)庫(kù)系統(tǒng)和已知秘密文件數(shù)據(jù)庫(kù)系統(tǒng)的深入研究,實(shí)現(xiàn)了通過設(shè)定文本內(nèi)容的敏感數(shù)據(jù)辨識(shí)閾值,進(jìn)而確定未知文本內(nèi)容是否存在有敏感數(shù)據(jù)。并介紹了文字預(yù)處理、文本辨識(shí)和閾值評(píng)估等工作的細(xì)節(jié)設(shè)計(jì)與完成流程等。而通過識(shí)別數(shù)據(jù)庫(kù)中的一些相關(guān)文檔,可確保該方法的敏感數(shù)據(jù)的處理過程簡(jiǎn)單、實(shí)用、準(zhǔn)確。
關(guān)鍵詞:文本內(nèi)容; 敏感數(shù)據(jù) ;識(shí)別方法
目前,防范數(shù)據(jù)泄漏的方式主要可以分成三種:安全審計(jì)、安全控制和文件加密【1】。其中,敏感數(shù)據(jù)辨識(shí)技術(shù)在防范信息泄漏的安全管理中起了關(guān)鍵作用。一旦可以智能地辨識(shí)并保存從內(nèi)部互聯(lián)網(wǎng)發(fā)送到外部網(wǎng)絡(luò)上的加密信息,則能夠大大簡(jiǎn)化自動(dòng)辨識(shí)或訪問控制規(guī)則的復(fù)雜度,從而有效地避免了敏感數(shù)據(jù)出現(xiàn)風(fēng)險(xiǎn)的概率。
一、體系結(jié)構(gòu)
文字類型可包括如下過程:首先,創(chuàng)建數(shù)據(jù)集合,包含培訓(xùn)集和測(cè)試集。接著創(chuàng)建文字表示模式,確定文字類型。然后學(xué)習(xí)訓(xùn)練集,并構(gòu)建分類器。最后,進(jìn)行試驗(yàn)與性能評(píng)價(jià)。
本文的資源收集項(xiàng)目主要涵蓋了培訓(xùn)集和測(cè)試集,也涉及了敏感文本庫(kù)和已有的文本庫(kù)。敏感的數(shù)據(jù)庫(kù)系統(tǒng)中,通常包括了大量的敏感數(shù)據(jù)文件,主要用于機(jī)器學(xué)習(xí)。而目前已知的分類數(shù)據(jù)庫(kù)系統(tǒng)通常由2種小詞庫(kù)構(gòu)成,一類是加密數(shù)據(jù),另一類則不是加密數(shù)據(jù),主要用來生成在統(tǒng)計(jì)學(xué)習(xí)時(shí)是否產(chǎn)生了敏感數(shù)據(jù)的閾值。
主要實(shí)現(xiàn)過程如下:
主要實(shí)現(xiàn)流程如下:
1.通過對(duì)敏感數(shù)據(jù)空間的文本數(shù)據(jù)庫(kù)進(jìn)行預(yù)處理和特征提取,TFIDF算法能夠預(yù)測(cè)向量空間的權(quán)重,進(jìn)而產(chǎn)生數(shù)據(jù)特征向量。
2.用敏感數(shù)據(jù)形成的特征向量計(jì)算余弦,并根據(jù)閾值確定方法確定閾值。
二、功能組成
21預(yù)處理方法
在識(shí)別文本敏感數(shù)據(jù)的過程中,第一步是通過中國(guó)科學(xué)院中文方法分析系統(tǒng)預(yù)處理階段ICTCLAS,將文本分為單獨(dú)的短語,并標(biāo)注詞性、詞長(zhǎng)和詞頻,以促進(jìn)特征的提取效率。
通過ICTCLAS分詞界面,分詞文件,統(tǒng)計(jì)單詞長(zhǎng)度,標(biāo)記詞性,如名詞(n)、動(dòng)詞(v)、形容詞(a)等。
2特征提取
在文本學(xué)習(xí)與分析的過程中,若以所有詞性分詞為關(guān)鍵詞,由于計(jì)算工作量大,且冗余數(shù)據(jù)太多,后期的計(jì)算誤差也較大。
(1)詞性選擇
在文本中,可以按照詞性選取最能代表文章內(nèi)容的關(guān)鍵字,也可以用于后期特征提取,可以減少信息冗余,縮短運(yùn)算步驟。因此,可以提取分析文本短語中的名詞短語,并剔除其他單詞,進(jìn)行詞性選擇。
(2)詞頻統(tǒng)計(jì)
統(tǒng)計(jì)關(guān)鍵詞的頻率,形成分詞三元組,包括短語、短語在本文中的頻率和詞性。T加上一個(gè)詞頻項(xiàng),進(jìn)行進(jìn)一步表示。
(3)選擇單詞長(zhǎng)度
在文字中,漢字往往比詞匯更有表現(xiàn)力。計(jì)算每個(gè)關(guān)鍵詞的長(zhǎng)度,并刪除一個(gè)單詞的所有關(guān)鍵詞。
(4)詞頻選擇
在文本中,只出現(xiàn)一次的單詞都是偶然的,并不具備代表性,所以可以從統(tǒng)計(jì)后的文本分割三元組中,刪去只出現(xiàn)一次的短語。
2.3計(jì)算特征向量
2.3.1計(jì)算敏感數(shù)據(jù)的特征向量
計(jì)算單詞權(quán)重也是度量特征值的有效方式。目前,基于統(tǒng)計(jì)方法的TF-IDF公式已經(jīng)獲得了廣泛的運(yùn)用,并且已經(jīng)在大量的現(xiàn)實(shí)應(yīng)用中被證實(shí)是合理和高效的。核心思想是一個(gè)詞語如果在其他文獻(xiàn)中出現(xiàn)的數(shù)量越少,含有的信息就越多,越能代表文獻(xiàn)的類型。反之,一旦在其他文獻(xiàn)中大量出現(xiàn),這個(gè)詞語就不具備代表性。
2.5閾值確定方法
通過對(duì)比計(jì)算結(jié)果與閾值,并分析余弦的相似性,將有助于確定文檔是否對(duì)數(shù)據(jù)敏感。因此本文將通過研究現(xiàn)有的分析文獻(xiàn)來判斷閾值。先得到安全文檔和敏感文件的詞庫(kù),接著再處理和統(tǒng)計(jì)敏感詞集的余留部分。然后,再經(jīng)過定義相同范圍的閾值,才能確定對(duì)數(shù)據(jù)的最敏感,并由此定義失敗率最并且最能保證未知秘密文件閾值的方式。
三、具體的應(yīng)用
(1)建立數(shù)據(jù)庫(kù)
該系統(tǒng)還能夠通過改變數(shù)據(jù)集中訓(xùn)練庫(kù)的文本數(shù)據(jù)類型,來辨識(shí)在不同環(huán)境下的敏感數(shù)據(jù)。
(2)預(yù)處理和特征選擇
數(shù)據(jù)說明,在特征選擇過程中,詞類選取后滿足關(guān)鍵詞要求的比率約為百分之三十,而字長(zhǎng)法選取后滿足關(guān)鍵詞要求的比率約為27%,而字頻分析法選取后滿足關(guān)鍵詞要求的比率約為10%。冗余分詞比率將逐步減小,而后續(xù)的運(yùn)算過程也將越來越簡(jiǎn)化【2】。
(3)計(jì)算特征向量
根據(jù)獲得的關(guān)鍵字,通過TFIDF算法計(jì)算,用向量表示敏感數(shù)據(jù),獲得敏感數(shù)據(jù)的特征向量V。
(4)計(jì)算已知分類和敏感數(shù)據(jù)的余弦值
已知分類文檔的特征向量計(jì)算的相同量的敏感數(shù)據(jù),和無敏感數(shù)據(jù)或敏感數(shù)據(jù)的特征向量V余弦之間的最大相似度值。獲得余弦相似度值,就必須找尋出它們之間的排列順序。
(5)確定閾值
以長(zhǎng)度范圍為單位,從值的底部開始,每次添加一個(gè)范圍單位,將每個(gè)值設(shè)置為一個(gè)閾值,并計(jì)算在該閾值環(huán)境中判斷的錯(cuò)誤率。計(jì)算后,將最低錯(cuò)誤率作為實(shí)際閾值。
(6)閾值用于識(shí)別敏感文檔
根據(jù)上述定義的閾值,對(duì)所有在未知文件庫(kù)中的文件都進(jìn)行了預(yù)處理和分析,并獲取了基于敏感數(shù)據(jù)的特征向量。使用了對(duì)敏感數(shù)據(jù)的特征矢量運(yùn)算后,就能夠使用余音運(yùn)算得到相應(yīng)的結(jié)果。余弦運(yùn)算基本原理主要包括:根據(jù)結(jié)果可確定的錯(cuò)誤閾值為0.7,并統(tǒng)計(jì)未知文檔庫(kù)的錯(cuò)誤識(shí)別情況和60.45%的錯(cuò)誤率。
(7)性能測(cè)試
提升對(duì)文本內(nèi)容的敏感數(shù)據(jù)的識(shí)別率,提升識(shí)別的效率,簡(jiǎn)化識(shí)別的過程,節(jié)約識(shí)別的時(shí)間,促進(jìn)文本敏感數(shù)據(jù)識(shí)別技術(shù)的發(fā)展。
結(jié)語:
綜上所述,本文主要研究了一個(gè)基于詞性、詞頻和詞長(zhǎng)的簡(jiǎn)便有效的文本特征提取方式,利用智能技術(shù)來自動(dòng)設(shè)定閾值,來確定對(duì)文本中是否存在有的數(shù)據(jù)敏感。該方式較以往自動(dòng)設(shè)定閾值的方式,更為實(shí)用、精確、靈活。該方法既可有效地避免數(shù)據(jù)泄漏的問題,同時(shí)也可以更高效地實(shí)現(xiàn)對(duì)敏感數(shù)據(jù)的甄別與訪問控制。在文件識(shí)別處理過程中,由于機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)大小和待處理文件長(zhǎng)度的提高,處理效能也將大大提高,但是要求也會(huì)同時(shí)提高,因此唯有通過對(duì)技術(shù)加以持續(xù)地提高與發(fā)展,并同時(shí)持續(xù)地加以完善與優(yōu)化,才可以緊跟新時(shí)代的發(fā)展腳步,從而有效地識(shí)別處文本內(nèi)容中的敏感數(shù)據(jù),為后續(xù)的工作打下一個(gè)堅(jiān)實(shí)的基礎(chǔ),促進(jìn)我國(guó)文本識(shí)別技術(shù)的發(fā)展【3】。
參考文獻(xiàn):
[1]林臻彪.基于數(shù)據(jù)流分析的防文件網(wǎng)絡(luò)泄露關(guān)鍵技術(shù)研究[D].鄭州:解放軍信息工程大學(xué),2009.
[2]李曉紅.中文文本分類中的特征詞抽取方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30 ( 17>:4127-4129.
[3]劉蔚琴.網(wǎng)絡(luò)敏感信息監(jiān)控系統(tǒng)研究[D].廣州:廣東工業(yè)大學(xué),2008.
作者簡(jiǎn)介:郭玲玲,出生年月:1987.2,性別:女,籍貫(精確到市):安徽省宿州市,民族:漢,學(xué)歷 :本科,職稱職務(wù):工程師,研究方向:敏感信息檢測(cè)。