• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于文本內(nèi)容的敏感詞決策樹(shù)信息過(guò)濾算法

      2014-06-06 10:46:47鄧一貴伍玉英
      計(jì)算機(jī)工程 2014年9期
      關(guān)鍵詞:查全率查準(zhǔn)率詞庫(kù)

      鄧一貴,伍玉英

      (重慶大學(xué)a.信息與網(wǎng)絡(luò)管理中心;b.計(jì)算機(jī)學(xué)院,重慶400030)

      ;

      基于文本內(nèi)容的敏感詞決策樹(shù)信息過(guò)濾算法

      鄧一貴a,伍玉英b

      (重慶大學(xué)a.信息與網(wǎng)絡(luò)管理中心;b.計(jì)算機(jī)學(xué)院,重慶400030)

      隨著互聯(lián)網(wǎng)的高速發(fā)展,各種各樣的信息資源呈指數(shù)級(jí)增長(zhǎng),隨之出現(xiàn)許多負(fù)面影響,需要構(gòu)建一個(gè)安全健康的網(wǎng)絡(luò)環(huán)境。為此,提出針對(duì)網(wǎng)頁(yè)文本內(nèi)容的敏感信息過(guò)濾算法(SWDT-IFA)。該算法不依賴(lài)詞典與分詞,通過(guò)構(gòu)建敏感詞決策樹(shù),將網(wǎng)頁(yè)文本內(nèi)容以數(shù)據(jù)流形式檢索決策樹(shù),記錄敏感詞詞頻、區(qū)域信息以及敏感詞級(jí)別,計(jì)算文本整體敏感度,過(guò)濾敏感文本。實(shí)驗(yàn)結(jié)果表明,SWDT-IFA算法具有較高的查準(zhǔn)率和查全率,且執(zhí)行時(shí)間能夠滿(mǎn)足當(dāng)前網(wǎng)絡(luò)環(huán)境的實(shí)時(shí)性要求。

      文本過(guò)濾;敏感級(jí)別;決策樹(shù);分流;詞頻

      1 概述

      隨著互聯(lián)網(wǎng)時(shí)代的到來(lái),海量網(wǎng)絡(luò)信息資源使得人們獲取信息、生活交流、購(gòu)物理財(cái)?shù)茸兊迷絹?lái)越方便快捷。但是在人們獲得便利的同時(shí),各種色情、暴力、反動(dòng)、迷信等非法信息也接踵而至,給人們尤其是青少年帶來(lái)了巨大的危害,也給社會(huì)帶來(lái)了諸多不良影響。對(duì)此,從事信息安全的研究人員做了多方面研究,提出多種內(nèi)容過(guò)濾技術(shù)。

      針對(duì)Web上大量的網(wǎng)頁(yè)文本內(nèi)容,本文利用決策樹(shù)分流特性提出了敏感詞決策樹(shù)信息過(guò)濾算法SWDT-IFA。該算法基于敏感詞庫(kù),通過(guò)構(gòu)建敏感詞決策樹(shù),以數(shù)據(jù)流形式處理網(wǎng)頁(yè)文本內(nèi)容,綜合考慮區(qū)域、詞頻、敏感詞級(jí)別三大要素,最終給出候選敏感詞權(quán)重,計(jì)算文本整體敏感度,實(shí)現(xiàn)敏感文本檢測(cè)。

      2 問(wèn)題描述及相關(guān)工作

      定義1(敏感詞) 是指帶有敏感政治傾向(或反執(zhí)政黨傾向)、暴力傾向、不健康色彩的詞或不文明語(yǔ)。但是也有的網(wǎng)站根據(jù)自身實(shí)際情況,設(shè)定一些只適用于本網(wǎng)站的特殊敏感詞。敏感詞設(shè)定功能在貼吧或論壇中都被廣泛應(yīng)用。

      經(jīng)相關(guān)研究,目前敏感信息過(guò)濾技術(shù)主要有以下4個(gè)需要解決的關(guān)鍵問(wèn)題:

      (1)人工干擾[1-2]。為了逃避關(guān)鍵詞匹配過(guò)濾,敏感信息發(fā)布者通常會(huì)采取多種方式來(lái)逃避。包括在敏感詞中間夾雜無(wú)意義的符號(hào),如法&輪&功;將敏感詞進(jìn)行拆分,如三去車(chē)侖工力;用拼音代替敏感詞,如fa lun gong;或者將前述幾種方式結(jié)合,如法lun功等。對(duì)于這些復(fù)雜的組合但又不影響人閱讀的方式,傳統(tǒng)的文本過(guò)濾算法是無(wú)法解決的。

      (2)準(zhǔn)確性。部分在敏感網(wǎng)頁(yè)上出現(xiàn)的敏感詞,很多時(shí)候也會(huì)出現(xiàn)在健康教育類(lèi)的網(wǎng)頁(yè)中。實(shí)際上不應(yīng)當(dāng)將這些正常的教育網(wǎng)頁(yè)歸類(lèi)到敏感信息中。

      (3)分詞障礙[3]。網(wǎng)絡(luò)環(huán)境中新詞、音譯詞大量出現(xiàn),而中文文本又沒(méi)有顯示詞邊界,利用人工詞典分詞難以識(shí)別詞典未包含的詞,而且人工詞典的更新和維護(hù)費(fèi)時(shí)費(fèi)力。

      (4)時(shí)空效率?,F(xiàn)在網(wǎng)絡(luò)上的資源呈指數(shù)級(jí)增長(zhǎng),并且很多網(wǎng)頁(yè)還在不定時(shí)的動(dòng)態(tài)更新,這就要求敏感信息過(guò)濾算法必須滿(mǎn)足時(shí)效性,以及海量的處理需求。這對(duì)時(shí)空效率的要求是必然的。

      對(duì)于人工干擾問(wèn)題,參考文獻(xiàn)中的多數(shù)算法僅能處理夾雜特殊符號(hào)的敏感詞,而對(duì)于拼音或者拆分詞卻無(wú)能為力。在SWDT-IFA中,采取了多種方式解決干擾問(wèn)題:首先通過(guò)對(duì)文本停用詞預(yù)處理文本,解決惡意夾雜無(wú)意義符號(hào)的敏感詞問(wèn)題;敏感詞決策樹(shù)同時(shí)兼具判斷拼音的部分,對(duì)于夾雜拼音的敏感詞也無(wú)從逃避;而對(duì)于拆分字,目前本算法是采用增加敏感詞庫(kù)詞匯的方式。

      針對(duì)準(zhǔn)確性,文獻(xiàn)[4]提出了針對(duì)準(zhǔn)確檢測(cè)敏感信息的解決方案,通過(guò)構(gòu)建由顯示,隱藏以及邏輯3種關(guān)鍵詞構(gòu)成的CNN-like詞網(wǎng)對(duì)文本進(jìn)行分析處理。該算法識(shí)別敏感信息文本的準(zhǔn)確率較高,但是CNN-like需要人工去構(gòu)建詞與詞之間的關(guān)聯(lián),而且構(gòu)建原理和檢測(cè)算法也比較復(fù)雜,對(duì)于敏感詞遞增的網(wǎng)絡(luò)環(huán)境很難維護(hù)。文獻(xiàn)[5]提出了基于自學(xué)習(xí)的兩級(jí)過(guò)濾算法,在不依賴(lài)詞典的情況下能夠進(jìn)行自學(xué)習(xí),快速地處理文本,但是該算法在第一級(jí)主題字過(guò)濾時(shí),有限的計(jì)數(shù)器就會(huì)被出現(xiàn)頻率較多的敏感信息無(wú)關(guān)的字占用,以至于影響第二級(jí)過(guò)濾的準(zhǔn)確性。SWDT-IFA在計(jì)算敏感詞權(quán)重時(shí),增加了敏感詞級(jí)別因子:將類(lèi)似于既出現(xiàn)在健康科普網(wǎng)站,又出現(xiàn)在敏感網(wǎng)站的敏感詞級(jí)別降低,提高只會(huì)出現(xiàn)在非法網(wǎng)站敏感詞級(jí)別,提升網(wǎng)頁(yè)檢測(cè)準(zhǔn)確率。

      目前許多敏感信息過(guò)濾算法都效仿文本主題提取技術(shù)[5-6],先對(duì)文本進(jìn)行分詞,提取關(guān)鍵詞,再進(jìn)行敏感詞匹配,但是實(shí)際上敏感信息過(guò)濾與主題提取的側(cè)重點(diǎn)差別較大。文本主題需要提取可以描述文本主旨的詞語(yǔ)或者語(yǔ)句,是未知的,所以需要統(tǒng)計(jì)全文重點(diǎn)出現(xiàn)的詞語(yǔ);而敏感信息過(guò)濾需要找出的敏感信息是用戶(hù)自定義的,已知的,數(shù)量在可控范圍內(nèi),比WORD NET[7-8]要小得多。并且敏感信息發(fā)布者很有可能比較隱晦,不會(huì)大篇幅高頻率地在文本中出現(xiàn)敏感詞,利用詞典提取主題詞來(lái)過(guò)濾敏感信息的算法準(zhǔn)確率并不高。所以,SWDT-IFA算法不依靠詞典,直接將預(yù)處理過(guò)的文本與敏感詞庫(kù)中的詞相匹配。

      為了提高時(shí)空效率,SWDT-IFA算法將敏感詞庫(kù)中的詞按照一定分類(lèi)規(guī)則構(gòu)建成了一棵敏感詞決策樹(shù),提高文本檢索時(shí)的匹配時(shí)效;并且決策樹(shù)中敏感詞的存儲(chǔ)方式非常節(jié)約空間。

      3 SWDT-IFA算法設(shè)計(jì)

      算法整體思想如下:(1)將文本進(jìn)行去停用詞等預(yù)處理;(2)將敏感詞庫(kù)通過(guò)敏感詞決策樹(shù)構(gòu)建算法建立成一棵分流樹(shù),以達(dá)到文本匹配過(guò)程的分流的作用,提高時(shí)空效率;在前2步的基礎(chǔ)上,將預(yù)處理過(guò)的文本,以文本數(shù)據(jù)流方式通過(guò)檢索敏感詞決策樹(shù),記錄文本中對(duì)應(yīng)敏感詞的頻率和區(qū)域信息; (3)通過(guò)特殊計(jì)算公式,得出文本整體敏感度,將對(duì)應(yīng)網(wǎng)頁(yè)劃分為敏感、非敏感網(wǎng)頁(yè)。

      3.1 文本預(yù)處理

      首先需要對(duì)網(wǎng)頁(yè)文本進(jìn)行預(yù)處理[9],去除HTML標(biāo)記,停用詞過(guò)濾,以及記錄文本區(qū)域信息,得到待處理文本。這里停用詞定義為不能反映主題的功能詞以及標(biāo)點(diǎn)符號(hào)。例如:“的”、“地”、“得”之類(lèi)的助詞,以及像“然而”、“因此”等只能反映句子語(yǔ)法結(jié)構(gòu)的詞語(yǔ),在敏感詞過(guò)濾中,它們的出現(xiàn)頻率較高,不屬于敏感信息,還會(huì)影響敏感詞檢索效率,有必要將其濾除。而對(duì)所有無(wú)意義標(biāo)點(diǎn)符號(hào)的濾除,解決了發(fā)布敏感信息者對(duì)敏感詞過(guò)濾的干擾問(wèn)題之一:在敏感詞之間夾雜無(wú)意義符號(hào)。

      3.2 敏感詞決策樹(shù)構(gòu)建算法

      算法通過(guò)對(duì)敏感詞庫(kù)中的詞,按第一個(gè)字的拼音首字母進(jìn)行分類(lèi),首字母都為A的“安眠藥”、“安樂(lè)死”、“愛(ài)情”等為同一類(lèi)。首字母同類(lèi)的詞再進(jìn)行同字聚類(lèi),如“安眠藥”、“安樂(lè)死”,這里對(duì)于這2個(gè)詞,“安”字只存儲(chǔ)一次,這種結(jié)構(gòu)在敏感詞較多時(shí),能夠節(jié)約空間。在存儲(chǔ)漢字的同時(shí),將該漢字的拼音也存儲(chǔ)起來(lái),當(dāng)遇到純拼音或者拼音與漢字搭配的敏感詞時(shí),算法也同樣能夠?qū)⑵錂z測(cè)出來(lái),如:“安le死”,“zuo e”。

      建樹(shù)算法的輸入是敏感詞庫(kù),每個(gè)敏感詞都帶有用戶(hù)自定義的敏感因子,如:敏感詞庫(kù)Aford={{安眠藥,3},{安樂(lè)死,3},{愛(ài)情,1},…,{糟蹋,2},{作惡,2}},輸出一棵決策樹(shù),如圖1所示。

      圖1 敏感詞決策樹(shù)

      定義 2 敏感詞庫(kù)Aford={a0,a1,…,ai,…,an-1},(0≤i<n),n為敏感詞個(gè)數(shù),ai表示敏感詞;ai={ai,0,…,ai,j,…,ai,m-1},(0≤j<m),aij表示第i個(gè)敏感詞的第j個(gè)敏感字,m表示敏感詞長(zhǎng)度。

      算法如下:

      (1)初始化i=0,j=0,k=0,k記錄孩子節(jié)點(diǎn)序號(hào);

      (2)輸入敏感詞ai,獲取其中文長(zhǎng)度為m,并提取首字母LetterS;

      (3)進(jìn)入S子樹(shù)查詢(xún),將aij與S的第k個(gè)孩子節(jié)點(diǎn)childk比較;

      (5)否則,若aij≠childk節(jié)點(diǎn)值,查詢(xún)childk的兄弟節(jié)點(diǎn)是否為空;

      (6)若childk兄弟節(jié)點(diǎn)為空,創(chuàng)建新節(jié)點(diǎn)childk+1,值為aij,記錄aij的拼音,j++;

      (8)否則,若childk兄弟節(jié)點(diǎn)不為空,k++,返回步驟(2),處理下一個(gè)敏感詞;

      (9)算法結(jié)束。

      本文算法構(gòu)建的敏感詞決策樹(shù)深度為敏感詞庫(kù)中最長(zhǎng)敏感詞的長(zhǎng)度,一般≤6。樹(shù)中每個(gè)節(jié)點(diǎn)都存儲(chǔ)了敏感字以及其對(duì)應(yīng)的拼音,葉節(jié)點(diǎn)還記錄了敏感詞的頻率、區(qū)域信息、敏感級(jí)別,并且將各個(gè)詞的頻率和區(qū)域因子都進(jìn)行了初始化。

      3.3 查找樹(shù)處理文本

      定義3 文本流Btext={b0,b1,…,bi,…,bn–1}, (0≤i<n),其中,bi表示文本中的字符;n為文本長(zhǎng)度,在這里的字符定義為一個(gè)漢字或者一串沒(méi)有空格間斷的英文字符,以便區(qū)分檢索決策樹(shù)中的中文字和拼音。

      算法如下:

      (1)初始化i=0,k=0,k用于記錄第一個(gè)進(jìn)入分支的字符序列號(hào);

      (2)輸入bi,k=i,j=0,判斷bi為英文字符還是中文字符,如果是中文字符需要提取首字母s,英文直接獲取;

      (3)將bi與S的孩子childj相匹配;

      (4)若bi==childj節(jié)點(diǎn)值,i++(若i≥n,則算法結(jié)束)

      (5)若bi≠childj值,查詢(xún)childj兄弟節(jié)點(diǎn)是否為空;

      (6)若兄弟節(jié)點(diǎn)不為空,則j++,轉(zhuǎn)步驟(3)處理;

      ;

      (8)算法結(jié)束。

      在3.1節(jié)、3.2節(jié)處理基礎(chǔ)上,本文算法輸入預(yù)處理過(guò)的文本,以數(shù)據(jù)流形式檢測(cè)文本中所含有的敏感詞,并記錄其頻率和區(qū)域信息以提供文本最后的敏感度計(jì)算。

      3.4 文本敏感度計(jì)算

      算法借鑒文獻(xiàn)[8,10]中提取關(guān)鍵詞采用的對(duì)每個(gè)詞的詞頻因子、位置因子的加權(quán)計(jì)算方式,詞頻因子frei的計(jì)算方式為:

      其中,fi為i的詞頻,再加上敏感詞級(jí)別因子,最終對(duì)敏感詞的權(quán)值采用下式:

      其中,weighti表示敏感詞匯i的權(quán)值;loci表示詞匯i的區(qū)域因子,參考文獻(xiàn)[6,11],當(dāng)詞匯出現(xiàn)在標(biāo)題中時(shí)loci=5,否則loci=1;levi表示敏感詞級(jí)別因子,一般地,敏感詞分3個(gè)級(jí)別,絕對(duì)禁止levi=3,一般levi=2,需要審核levi=1,這3個(gè)級(jí)別由人工劃分。α,β,γ都是調(diào)節(jié)因子,需要設(shè)置合理的調(diào)節(jié)因子,檢測(cè)結(jié)果才能更加準(zhǔn)確,參考文獻(xiàn)[8,10]中的實(shí)驗(yàn)結(jié)果,定義α=2,β=1,γ=1。

      查樹(shù)處理文本之后,文本中相關(guān)的敏感詞的詞頻因子、區(qū)域因子以及敏感級(jí)別都已經(jīng)統(tǒng)計(jì)完成。提取top-k[12]個(gè)敏感詞,計(jì)算文本的整體敏感度??紤]到文本長(zhǎng)度較長(zhǎng)的敏感詞頻率個(gè)數(shù)比較多,所以為了平衡文本長(zhǎng)度的影響,這里k的取值為k=len×ε,其中,len為文本長(zhǎng)度;ε為誤差系數(shù)。

      (1)初始化i=0,獲取文本長(zhǎng)度len,初始化k=len×ε;

      (2)建立一個(gè)有k個(gè)節(jié)點(diǎn)的堆,每個(gè)節(jié)點(diǎn)值初始化為0,堆頂節(jié)點(diǎn)為root;

      (7)重新調(diào)整堆為最小頂點(diǎn)堆,即root仍然為堆中最小值;

      (8)IF++i<n

      (9)轉(zhuǎn)步驟(4)處理;

      (10)最后通過(guò)式(3),取堆的所有k個(gè)節(jié)點(diǎn)值計(jì)算出文本的權(quán)重W:

      文本的最終敏感度值W由式(3)計(jì)算得來(lái),定義θ為文本敏感度閾值,如果W≥θ則表示此文本為敏感文本,若W<θ,則表明此文本非敏感文本。對(duì)上面算法的時(shí)間復(fù)雜度進(jìn)行分析:建堆的時(shí)間復(fù)雜度為O(k);遍歷所有n個(gè)敏感詞,調(diào)整堆的時(shí)間為O(nlogk)??偟膹?fù)雜度為O(nlogk)。

      4 實(shí)驗(yàn)和性能分析

      采用C語(yǔ)言程序?qū)崿F(xiàn),實(shí)驗(yàn)環(huán)境為內(nèi)存1.0 GB、硬盤(pán)250 GB、操作系統(tǒng)為Windows7的主機(jī)。由于算法中有多個(gè)待定參數(shù),因此采用交叉驗(yàn)證的方式。從網(wǎng)絡(luò)上下載200篇網(wǎng)頁(yè)文檔,其中60篇新浪網(wǎng)的普通新聞報(bào)道,60篇健康教育網(wǎng)頁(yè),另外80篇包括計(jì)算機(jī)病毒相關(guān)等貼吧網(wǎng)頁(yè)。選擇的這3類(lèi)中新聞報(bào)道類(lèi)相對(duì)較正規(guī),偏向非敏感;健康教育類(lèi)屬于帶有敏感詞而非敏感的文本,屬于非敏感與待審查之間;第3類(lèi)寫(xiě)作比較自由,內(nèi)容偏敏感文本,并且存在干擾因子。從3類(lèi)文檔中各抽取一半即100篇作為訓(xùn)練集,剩余100篇為驗(yàn)證集。針對(duì)參數(shù)ε,θ,通過(guò)訓(xùn)練集實(shí)驗(yàn),實(shí)驗(yàn)中的敏感詞庫(kù),是由網(wǎng)絡(luò)上下載并整理的2 000個(gè)敏感詞,包含了現(xiàn)在網(wǎng)站管理使用的絕大多數(shù)的敏感詞匯,并手工給所有敏感詞匯標(biāo)記了敏感級(jí)別。當(dāng)ε=0.01,θ=4.85時(shí),SWDT-IFA算法能取得最好的結(jié)果。

      利用訓(xùn)練集實(shí)驗(yàn)得出的經(jīng)驗(yàn)值,用SWDT-IFA算法和SAFE算法分別對(duì)100篇驗(yàn)證集文本進(jìn)行過(guò)濾,從查準(zhǔn)率和查全率以及過(guò)濾效率對(duì)2個(gè)算法作了分析。選擇文獻(xiàn)[5]中的SAFE算法進(jìn)行比較,因?yàn)镾AFE算法是當(dāng)前執(zhí)行效率和準(zhǔn)確率都較高的,并且同樣是通過(guò)數(shù)據(jù)流形式處理文本,不依賴(lài)字典。

      4.1 算法的查準(zhǔn)率和查全率

      首先考察算法的查全率和查準(zhǔn)率:

      SWDT-IFA算法在提高查準(zhǔn)和查全率方面除了考慮敏感詞頻、區(qū)域信息外,增加了對(duì)敏感詞級(jí)別的綜合計(jì)算,這對(duì)于處理帶有敏感詞的正常健康教育類(lèi)信息的準(zhǔn)確過(guò)濾非常關(guān)鍵;并且對(duì)于停用詞的預(yù)處理,以及敏感詞決策樹(shù)中帶拼音的數(shù)據(jù)結(jié)構(gòu)匹配模式,使得SWDT-IFA算法具有較強(qiáng)的抗干擾能力,能夠處理有較多干擾因子的文本。

      經(jīng)過(guò)實(shí)驗(yàn),SWDT-IFA和SAFE算法的查全率與查準(zhǔn)率結(jié)果分別如表1和表2所示。由表1可以看出,SWDT-IFA算法的查全率和查準(zhǔn)率比SAFE高,其中查準(zhǔn)率在新聞報(bào)道和計(jì)算機(jī)病毒類(lèi)都是100%,只有健康教育類(lèi)有一篇錯(cuò)誤過(guò)濾。經(jīng)分析,是由于錯(cuò)誤過(guò)濾的文本包含的敏感詞級(jí)別屬于二級(jí)的較多,而且出現(xiàn)頻率高,并且標(biāo)題中也有敏感詞出現(xiàn),以至于最后計(jì)算敏感度值偏高。由表2可以看出,SAFE對(duì)于形式比較正規(guī)的新聞報(bào)道類(lèi),查全率與查準(zhǔn)率與SWDT-IFA一致都是93.75%,100%,而對(duì)于容易引起誤判的健康教育類(lèi),以及具有干擾因子較多的計(jì)算機(jī)病毒類(lèi),SAFE的查全率和查準(zhǔn)率就比較低,這是由于SAFE算法只考慮了敏感詞的頻率和區(qū)域信息,并且對(duì)人為的有意干擾沒(méi)有進(jìn)行處理。

      表1 SWDT-IFA算法處理結(jié)果

      表2 SAFE算法處理結(jié)果

      4.2 算法效率

      SWDT-IFA算法采用不依賴(lài)詞典分詞而是直接與敏感詞庫(kù)匹配的方式;并且采用決策樹(shù)模式對(duì)數(shù)據(jù)匹配進(jìn)行分流;對(duì)預(yù)處理過(guò)的文本流只需遍歷一次即可得出文本敏感度,總體算法時(shí)間復(fù)雜度低,執(zhí)行效率高。需要說(shuō)明的是,SWDT-IFA構(gòu)建敏感詞決策樹(shù)的時(shí)間并沒(méi)有算在內(nèi),因?yàn)槊舾性~決策樹(shù)只需要構(gòu)建一次,就可以處理所有文本。SAFE算法雖然也不依賴(lài)詞典分詞,但是SAFE算法需要一次對(duì)所有敏感詞進(jìn)行匹配,并且需要多次遍歷文本過(guò)濾,算法時(shí)間復(fù)雜度較高,執(zhí)行效率較低。

      針對(duì)效率問(wèn)題對(duì)SWDT-IFA和SAFE算法做了實(shí)驗(yàn),結(jié)果如圖2所示,可以看出SWDT-IFA具有較高的執(zhí)行效率。對(duì)于平均長(zhǎng)度為4.5千字的內(nèi)容, SAFE算法平均處理時(shí)間為42 ms,SWDT-IFA算法只需要30 ms,效率提升了28.6%。并且由圖2的走勢(shì)可以看出,當(dāng)文本長(zhǎng)度越長(zhǎng),SWDT-IFA執(zhí)行時(shí)間增長(zhǎng)比SAFE增長(zhǎng)慢。這說(shuō)明SWDT-IFA在處理長(zhǎng)度越長(zhǎng)的文本上比SAFE優(yōu)勢(shì)更加明顯。

      圖2 SWDT-IFA和SAFE算法過(guò)濾時(shí)間對(duì)比

      4.3 SWDT-IFA算法復(fù)雜度分析

      針對(duì)時(shí)空復(fù)雜性進(jìn)行分析,SWDT-IFA算法主要分為兩部分,即建樹(shù)和查樹(shù)。對(duì)于建樹(shù)算法,復(fù)雜度為屬性個(gè)數(shù)和結(jié)點(diǎn)數(shù)之積的線(xiàn)性函數(shù)。由于葉節(jié)點(diǎn)中存儲(chǔ)較多屬性,因此會(huì)占用較多空間,不過(guò)構(gòu)建決策樹(shù)是在前期進(jìn)行,對(duì)敏感文本過(guò)濾的實(shí)時(shí)效率影響不大。搜索算法的時(shí)間復(fù)雜度為O(n×m),n為文本長(zhǎng)度,m實(shí)際上是樹(shù)的深度,最壞情況下為O(n×mMAX)。綜合考慮查準(zhǔn)率、查全率以及快速的處理速率,SWDT-IFA算法執(zhí)行效率更高,適合實(shí)時(shí)過(guò)濾敏感文本。

      5 結(jié)束語(yǔ)

      針對(duì)當(dāng)前敏感文本過(guò)濾算法的要求,本文提出一種SWDT-IFA算法,首先將帶有敏感級(jí)別的敏感詞構(gòu)建成分流的決策樹(shù);然后把經(jīng)過(guò)預(yù)處理的文本通過(guò)檢索敏感詞決策樹(shù),記錄規(guī)則信息;最后通過(guò)加權(quán)公式計(jì)算文本敏感度,以達(dá)到文本敏感檢測(cè)目的。實(shí)驗(yàn)結(jié)果表明,SWDT-IFA算法的查準(zhǔn)率和查全率都達(dá)到了90%以上,并且執(zhí)行時(shí)間也符合實(shí)時(shí)性要求。下一步的工作包括:改善拆分詞干擾算法的解決方案以及敏感詞決策樹(shù)的結(jié)構(gòu),以提高檢索效率。

      [1] 張 坤,徐安鳳.網(wǎng)絡(luò)環(huán)境下有害信息的識(shí)別與過(guò)濾技術(shù)[J].電腦知識(shí)與技術(shù),2009,5(9):2099-2100.

      [2] 李寶林,張翼英,蘭 蕓.用關(guān)聯(lián)分析技術(shù)識(shí)別不良信息特征項(xiàng)的新方法[J].計(jì)算機(jī)工程與應(yīng)用,2003,39 (28):39-41.

      [3] 馮 穎.網(wǎng)絡(luò)輿情敏感話(huà)題發(fā)現(xiàn)平臺(tái)的研究[D].北京:北京交通大學(xué),2009.

      [4] Wu Ou,Hu Wweiming.Web Sensitive Text Filtering by Combining Semantics and Statistics[C]//Proc.of IEEE NLP-KE'05.[S.1.]:IEEE Press,2005:215-259.

      [5] 段 磊,唐常杰,左 劫,等.Web實(shí)時(shí)環(huán)境兩級(jí)過(guò)濾中文文本內(nèi)容自學(xué)習(xí)算法[J].計(jì)算機(jī)科學(xué)與探索, 2011,5(8):695-706.

      [6] 彭浩林.基于內(nèi)容的敏感信息過(guò)濾系統(tǒng)研究[D].武漢:武漢科技大學(xué),2011.

      [7] 華秀麗,朱巧明,李培峰.語(yǔ)義分析與詞頻統(tǒng)計(jì)相結(jié)合的中文文本相似度量方法研究[J].計(jì)算機(jī)應(yīng)用研究, 2012,29(3):833-836.

      [8] 鄭家恒,盧嬌麗.關(guān)鍵詞抽取方法的研究[J].計(jì)算機(jī)工程,2005,31(18):194-196.

      [9] 張雪英,Krause J.中文文本關(guān)鍵詞自動(dòng)抽取方法研究[J].情報(bào)學(xué)報(bào),2008,27(4):512-520.

      [10] 索紅光,劉玉樹(shù),曹淑英.一種基于詞匯鏈的關(guān)鍵詞抽取方法[J].中文信息學(xué)報(bào),2006,20(6):25-30.

      [11] 韓客松,王永成.一種用于主題提取的非線(xiàn)性加權(quán)方法[J].情報(bào)學(xué)報(bào),2000,19(6):650-653.

      [12] Metwally A,AgrawalD,AbbadiA E.Efficient Computation of Frequent and Top-k Elements in Data Streams[C]//Proc.of the 10th International Conference on Database Theory.Berlin,Germany:Springer Verlag, 2005:398-441.

      編輯 索書(shū)志

      Information Filtering Algorithm of Text Content-based Sensitive Words Decision Tree

      DENG Yi-guia,WU Yu-yingb
      (a.Information and Campus Network Management Center;
      b.School of Computer Science,Chongqing University,Chongqing 400030,China)

      With the development of Internet,many negative effects come out as the exponential growth of various information resources,which means that a more secure and healthy network environment should be constructed right now. In order to solve this problem,this paper proposes a Sensitive Word Decision Tree for Information Filtering Algorithm (SWDT-IFA)for content-based Web pages.The algorithm takes no consideration of dictionary and word segmentation, builds the foundation on the sensitive words decision tree,lets the web text retrieval decision tree in form of data stream, records word frequency,regional information and sensitive level,and calculates the sensitive degree of the text to filter the sensitivity.Experimental results show that the SWDT-IFA algorithm has precision ratio and recall ratio,and low time complexity which can require the real-time demand of network environment.

      text filtering;sensitive level;decision tree;distributary;word frequency

      1000-3428(2014)09-0300-05

      A

      TP393

      10.3969/j.issn.1000-3428.2014.09.060

      鄧一貴(1971-),男,高級(jí)工程師、博士,主研方向:信息安全;伍玉英,碩士研究生。

      2013-08-21

      2013-10-16E-mail:dengyg@cqu.edu.cn

      猜你喜歡
      查全率查準(zhǔn)率詞庫(kù)
      海量圖書(shū)館檔案信息的快速檢索方法
      基于詞嵌入語(yǔ)義的精準(zhǔn)檢索式構(gòu)建方法
      大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
      基于深度特征分析的雙線(xiàn)性圖像相似度匹配算法
      詞庫(kù)音系學(xué)的幾個(gè)理論問(wèn)題芻議
      環(huán)境變了,詞庫(kù)別變
      電腦迷(2014年14期)2014-04-29 00:44:03
      中文分詞技術(shù)對(duì)中文搜索引擎的查準(zhǔn)率及查全率的影響
      QQ手機(jī)輸入法如何導(dǎo)入分類(lèi)詞庫(kù)
      電腦迷(2012年15期)2012-04-29 17:09:47
      基于Web的概念屬性抽取的研究
      將用戶(hù)詞庫(kù)快速導(dǎo)入搜狗五筆詞庫(kù)
      邹城市| 武乡县| 房产| 盖州市| 松溪县| 甘德县| 株洲市| 文安县| 邵武市| 天水市| 肥东县| 文登市| 洛宁县| 措美县| 垦利县| 武宣县| 阜城县| 桂阳县| 兰溪市| 隆化县| 浑源县| 芜湖县| 德保县| 岳普湖县| 柘城县| 石渠县| 苏尼特右旗| 大田县| 中山市| 阳曲县| 太原市| 嘉峪关市| 济源市| 攀枝花市| 大安市| 九龙坡区| 迁西县| 长泰县| 美姑县| 无极县| 苏州市|