趙軍
摘 要:隨著科學技術的進步和互聯(lián)網的普及,網絡信息資源的共享規(guī)模不斷擴大,互聯(lián)網已經成為了全球最重要的信息交流載體和主要的交流方式,網絡安全問題也日益突出。針對當前基于網絡內容過濾的網絡信息安全監(jiān)控現(xiàn)狀,對基于內容過濾的網絡監(jiān)控技術中的關鍵工作以及基本原理和未來的發(fā)展進行了探討。
關鍵詞:內容過濾;網絡監(jiān)控技術
1 引言
進入新的世紀,網絡化和信息化不斷地改變著我們這個時代,也深刻地影響著我們的生活。信息化發(fā)展到現(xiàn)在,它的觸角已經伸向了各個領域。網絡信息資源的共享規(guī)模不斷擴大,互聯(lián)網已經成為了全球最重要的信息交流載體和主要的交流方式,網絡信息安全問題也越來越突出。一般的網絡都是安裝了網絡防火墻等保障網絡信息安全的設施,但是這些安全措施不能夠檢查關于信息內容涉密問題,因此基于內容過濾的網絡監(jiān)控技術就顯得非常重要,這對網絡的建設和發(fā)展將會產生重大的影響。
2 基于內容過濾的網絡監(jiān)控技術介紹
過濾的幾個基本的步驟對于任何過濾技術都是相同的:首先要知道想要過濾掉什么內容,然后用不同的方法對比要過濾的內容和監(jiān)控內容,最后把與要過濾內容相同的部分過濾掉。第一步中的過濾內容由人為設定。其中最難實現(xiàn)的是第二步。首先是獲取要監(jiān)控的信息,目前最新的基于內容的網絡監(jiān)控系統(tǒng)DFNMS的架構如圖1,其中的七個模塊分別對應七種不同形式的信息。它的原理是:首先,偽造一個虛擬服務器,截獲信息并向發(fā)送者反饋信息發(fā)送成功的提示,然后對信息進行比對分析,把不合格的信息過濾掉,把合格的信息發(fā)送到目的地以達到過濾的效果。其次是信息的比對和分析。隨著互聯(lián)網的發(fā)展,網絡中出現(xiàn)了大量良莠不齊的內容,這些內容形式多樣,再加上漢語表達博大精深的特點,使得要判斷監(jiān)測內容是否是要過濾掉的不良信息非常困難[1]。而且,網絡信息數(shù)量龐大,這就要就過濾技術既能準確的識別出要過濾的信息,又能快速高效地完成這個過程。識別不良信息的方法也是各種過濾技術的區(qū)別所在。目前國內外的過濾技術主要有四種:基于因特網內容分級平臺過濾(PICS)、數(shù)據(jù)庫過濾、關鍵字過濾以及基于內容理解的過濾。
3 文本內容理解的過濾技術
文本內容的過濾技術主要是在關鍵字詞檢索方法的基礎上,通過各種語言處理的方法以及數(shù)據(jù)分析技術通過對文章的內容及語境等要素理解文本的內容,然后發(fā)現(xiàn)目標信息的過濾技術。例如我們檢查的文本中有“槍支”這個詞匯,如果不對其文本的結構和語境就將它過濾掉,就會錯誤地過濾掉軍事理論教材或者軍事科普知識等信息。所以文本內容理解的過濾技術在基于內容過濾的網絡監(jiān)控中得到廣泛運用[2]。
3.1 文本內容的預處理
文本內容的預處理主要是將信息源中無關的文本剔除,保留和敏感詞匯有關聯(lián)的文本部分,并按照一定的量化指標對文本信息的特征描述字詞進行量化分析,然后將對文本具有識別性特征的信息提取出來。這些具有識別性特征的信息能夠對需要過濾的文本內容進行有效表達。
3.2 文本內容的匹配算法
文本內容的匹配算法影響著對信息進行過濾的速度,一般情況下它由匹配算法模型來決定。目前在實際操作中常用到的理論模型有向量空間模型和貝葉斯決策模型。向量空間決策模型是將文檔用它的特征識別項按照所占的權重來分析的一個高維向量表示,在對文本的過濾分析中就可以運用向量的計算原則,可以極大地降低了工作的復雜性。但是該方法也有缺點,因為在對文本特征識別項的權重確定方面很難做到精確,所以對文章的計算量較大。而貝葉斯決策模型是依托貝葉斯理論而建立的。在文檔識別的時候,它首先是對文檔的所屬類別進行分類。文章分類的概率等于有識別性特征的信息所屬概率的綜合表達,最后根據(jù)總和概率的計算選出概率最大的類別文檔作為需要過濾的內容。
4 圖像內容分析的過濾技術
所謂圖像內容分析過濾技術是指,基于圖像所顯現(xiàn)的色彩、紋理、形狀以及圖像內容的空間關系等顯性特征作為索引,利用圖像的這些外觀特征的相似度和匹配程度進行過濾的技術。圖像內容分析過濾技術還被廣泛地應用其他圖像特征和語義特征的圖像內容進行判定。目前為止,圖像內容分析過濾技術的最主要研究手段就是機器學習,從豐富而復雜的圖像信息中找到規(guī)律性的特征,然而,很多時候計算機無法從海量的圖片信息和千變萬化的圖像中準確地識別需要過濾的圖像,尤其是在全局視覺內容不能很好地表現(xiàn)圖像語義的時候,計算機對圖像的區(qū)分就顯得比較困難。影響這項技術發(fā)展的因素主要有圖像的內容過于豐富或者圖像處理復雜,要解決這樣的問題,還需要從以下幾個方面努力[3],首先,是敘述問題的數(shù)學建模;其次,是敘述語義特征和圖像內容;然后是規(guī)律和標準的建立;最后是圖像相似度的標準以及索引的技術。隨著最近幾年來科學知識和計算機技術的高速發(fā)展,很多技術都得到了相應的進步,圖像內容分析過濾技術也同樣獲得了可喜的進展。
[參考文獻]
[1]彭昱忠,元昌安,王艷,等.基于內容理解的不良信息過濾技術研究[J].計算機應用研究,2009(02):33-36.
[2]李振星,陸大玨,任繼成,等.基于潛在語義索引的WEB信息預測采集過濾方法[J].計算機輔助設計與圖形學學報,2012,16(01):147.
[3]孫莉娜.企業(yè)網絡監(jiān)控技術初探[J].煤炭技術(Coal Technology),2013(02):34—36.