王 嵐
(云南警官學(xué)院 基礎(chǔ)課程教研部,云南 昆明 650223)
基于隸屬函數(shù)參數(shù)自學(xué)習(xí)的網(wǎng)絡(luò)信息過濾技術(shù)的研究
王 嵐
(云南警官學(xué)院 基礎(chǔ)課程教研部,云南 昆明 650223)
隨著計算機和網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)上的信息越來越多,如何在短時間內(nèi)查詢到符合自己需求的有用的信息,則是每一個網(wǎng)絡(luò)用戶非常關(guān)心的問題。同時,隨著網(wǎng)絡(luò)信息量的增大,各種信息犯罪行為也不斷涌現(xiàn),其主要類型有信息竊取和盜用、信息欺詐和勒索、信息攻擊和破壞、信息污染和濫用等,并表現(xiàn)出強烈的智能性、隱蔽性、多樣性、嚴(yán)重性和復(fù)雜性等特征。于是,各國政府主要是從技術(shù)、管理和法律等方面采取相應(yīng)的整治舉措,并為了有力的偵破和打擊網(wǎng)絡(luò)犯罪紛紛建立了網(wǎng)絡(luò)警察。網(wǎng)絡(luò)警察的主要任務(wù)之一就是對網(wǎng)絡(luò)上的信息進(jìn)行篩選、過濾,找出其中對網(wǎng)絡(luò)取證有用的信息。于是,網(wǎng)絡(luò)信息過濾的研究成為了當(dāng)前一個比較熱門的話題。網(wǎng)絡(luò)信息的篩選和過濾則是對信息按照預(yù)先確定的標(biāo)準(zhǔn)進(jìn)行分類。本文給出了一種模糊隸屬函數(shù)參數(shù)自學(xué)習(xí)的方法來對信息進(jìn)行客觀的分類,從而,使網(wǎng)絡(luò)信息過濾的正確率得到大大提高。
隸屬函數(shù);參數(shù)學(xué)習(xí);網(wǎng)絡(luò)信息過濾;網(wǎng)絡(luò)犯罪
隨著計算機和網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)上的信息越來越多,如何在短時間內(nèi)查詢到符合自己需求的有用的信息,則是每一個網(wǎng)絡(luò)用戶非常關(guān)心的問題。即,將網(wǎng)絡(luò)上的海量信息按照一定的方法和使用一定的工具進(jìn)行過濾,選出用戶所需的信息,這就是網(wǎng)絡(luò)信息過濾。在網(wǎng)絡(luò)安全領(lǐng)域的防火墻和入侵檢測方面涉及的主要技術(shù)也是網(wǎng)絡(luò)信息過濾,而信息的過濾主要有以下幾點:關(guān)鍵詞、摘要、標(biāo)題、網(wǎng)絡(luò)IP、圖像識別等。過濾的目的一方面是阻止不良信息或有害信息的侵入,營造一個積極健康的網(wǎng)絡(luò)環(huán)境;另一方面則是按照網(wǎng)絡(luò)用戶的要求快速準(zhǔn)確地找出用戶需要的信息,網(wǎng)絡(luò)警察也通過信息過濾找出相關(guān)取證信息,更好地打擊和震懾網(wǎng)絡(luò)犯罪。
網(wǎng)絡(luò)信息過濾的首要任務(wù)是對相關(guān)信息按照一定的標(biāo)準(zhǔn)進(jìn)行分類,然后,再對相關(guān)信息進(jìn)行按預(yù)先確定的分類標(biāo)準(zhǔn)進(jìn)行識別。從用戶而言,不同社會、民族、群體、個人對不良信息有不同的認(rèn)定,因此,網(wǎng)絡(luò)信息過濾標(biāo)準(zhǔn)必須盡可能地適應(yīng)用戶多樣化的要求;從過濾標(biāo)準(zhǔn)而言,任何一種標(biāo)準(zhǔn)都是一定的思想觀點和價值觀念的反映,即使是那些適合自我分級的分級體系也不例外。為此,如何盡可能準(zhǔn)確地描述相關(guān)信息,對提高信息過濾的準(zhǔn)確性有較大地理論意義和實用價值。通過大量的文獻(xiàn)發(fā)現(xiàn),將傳統(tǒng)的經(jīng)典集合過度到模糊集合,用來描述網(wǎng)絡(luò)信息,進(jìn)行信息過濾,更接近于對信息的抽象的理解。在對網(wǎng)絡(luò)信息進(jìn)行分類的過程中,將每一個分類定義為一個模糊集,分類的關(guān)鍵字作為集合的元素,其隸屬函數(shù)表示與該領(lǐng)域的相關(guān)程度。隸屬函數(shù)的參數(shù)則是刻畫隸屬函數(shù),進(jìn)而對模糊集的刻畫具有重要的指導(dǎo)意義。于是,我們采用相關(guān)的技術(shù)對隸屬函數(shù)的參數(shù)進(jìn)行自動學(xué)習(xí),從而,能大大提高網(wǎng)絡(luò)信息過濾的準(zhǔn)確性。
要學(xué)習(xí)隸屬函數(shù)的參數(shù),必須選用能對參數(shù)進(jìn)行學(xué)習(xí)的算法,符合此要求的算法有:遺傳算法、神經(jīng)網(wǎng)絡(luò)等。本文采用神經(jīng)網(wǎng)絡(luò)來對隸屬函數(shù)的參數(shù)進(jìn)行學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)的類型很多,我們選用目前最常用、最流行的誤差反向傳播神經(jīng)網(wǎng)絡(luò),即前饋型BP神經(jīng)網(wǎng)絡(luò)模型。BP網(wǎng)絡(luò)的輸入和輸出關(guān)系可以看成是一種非線性映射關(guān)系,即每一組輸入對應(yīng)一組輸出。任何神經(jīng)網(wǎng)絡(luò)的設(shè)計可分為三個部分:網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計、參數(shù)優(yōu)化學(xué)習(xí)算法和激活(目標(biāo))函數(shù)構(gòu)造。
1. 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計
(1)隱層數(shù)
一般認(rèn)為,增加隱層數(shù)可以降低網(wǎng)絡(luò)誤差(也有文獻(xiàn)認(rèn)為不一定能有效降低),提高精度,但也使網(wǎng)絡(luò)復(fù)雜化,從而增加了網(wǎng)絡(luò)的訓(xùn)練時間和出現(xiàn)“過擬合”的傾向。本文的網(wǎng)絡(luò)設(shè)計為兩個隱層。
(2) 隱層節(jié)點數(shù)
在BP 網(wǎng)絡(luò)中,隱層節(jié)點數(shù)的選擇非常重要,它不僅對建立的神經(jīng)網(wǎng)絡(luò)模型的性能影響很大,而且是訓(xùn)練時出現(xiàn)“過擬合”的直接原因,但是目前理論上還沒有一種科學(xué)的和普遍的確定方法。本文中的隱層節(jié)點數(shù)等于模糊子集數(shù)。
2. 參數(shù)優(yōu)化學(xué)習(xí)算法設(shè)計
在神經(jīng)網(wǎng)絡(luò)的幫助下通過訓(xùn)練和學(xué)習(xí)的過程來獲取知識。在許多情況下,一個未知系統(tǒng)的知識以數(shù)據(jù)的形式出現(xiàn)。因此,許多學(xué)習(xí)算法都是基于數(shù)據(jù)的。眾所周知,在某些實際問題中收集數(shù)據(jù)是很困難的。這樣,融合先驗知識(包括啟發(fā)式和專家知識)在神經(jīng)網(wǎng)絡(luò)中將變得很重要,特別是在可獲得的訓(xùn)練數(shù)據(jù)不足時顯得尤為重要。
學(xué)習(xí)是通過改變神經(jīng)網(wǎng)絡(luò)的參數(shù)(權(quán)值和節(jié)點)以優(yōu)化目標(biāo)函數(shù)來實現(xiàn)。依賴于所涉及到的學(xué)習(xí)方法,目標(biāo)函數(shù)可能是很不同的。一般來說,有三種主要的學(xué)習(xí)模式:有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和增強學(xué)習(xí)。本文采用有監(jiān)督學(xué)習(xí)中的BP網(wǎng)絡(luò)。
● 學(xué)習(xí)率
學(xué)習(xí)率影響系統(tǒng)學(xué)習(xí)過程的穩(wěn)定性。大的學(xué)習(xí)率可能使網(wǎng)絡(luò)權(quán)值每一次的修正量過大,甚至?xí)?dǎo)致權(quán)值在修正過程中超出某個誤差的極小值呈不規(guī)則跳躍而不收斂;但過小的學(xué)習(xí)率導(dǎo)致學(xué)習(xí)時間過長,不過能保證收斂于某個極小值。所以,一般傾向選取較小的學(xué)習(xí)率以保證學(xué)習(xí)過程的收斂性(穩(wěn)定性),通常在0.01~0.8之間。
● 網(wǎng)絡(luò)的初始連接權(quán)值
BP算法決定了誤差函數(shù)一般存在(很)多個局部極小點,不同的網(wǎng)絡(luò)初始權(quán)值直接決定了BP算法收斂于哪個局部極小點或是全局極小點。如采用的是Sigmoid轉(zhuǎn)換函數(shù)作為目標(biāo)函數(shù),則由于Sigmoid轉(zhuǎn)換函數(shù)的特性,一般要求初始權(quán)值分布在-0.5~0.5之間比較有效。而本文采用的是訓(xùn)練模糊系統(tǒng)的隸屬函數(shù)的參數(shù),考慮到BP算法易陷入局部收斂而選則較小的初始參數(shù)。
3. 激活(目標(biāo))函數(shù)的構(gòu)造
由于神經(jīng)網(wǎng)絡(luò)需要求梯度,從而,所給的隸屬函數(shù)必須滿足可導(dǎo)性,于是,采用最普遍使用的高斯型隸屬函數(shù)。
i。需要先設(shè)計目標(biāo)函數(shù)(閾值函數(shù)),這里采用具有帶有乘積推理機、單值模糊器、中心平均解模糊器和高斯隸屬函數(shù)的模糊系統(tǒng)。原因是“帶有乘積推理機、單值模糊器、中心平均解模糊器和高斯隸屬函數(shù)的模糊系統(tǒng)是一個萬能逼近系統(tǒng),即模糊系統(tǒng)以任意精度逼近任意非線性函數(shù)?!盵王立新 2003]。于是,激活閾值(目標(biāo))函數(shù)為:
學(xué)習(xí)算法(1.10)、(1.13)和(1.14)完成的是一個BP算法。下面給出其具體的MFPLBP (membership function’s parameters learned by BP neural networks)算法:
4. 模糊隸屬函數(shù)參數(shù)學(xué)習(xí)(MFPLBP)算法(隸屬函數(shù)參數(shù)的學(xué)習(xí))
輸入:對處理的數(shù)據(jù)提取相關(guān)特征,得到相應(yīng)的數(shù)據(jù)對作為輸入
輸出:學(xué)習(xí)后的隸屬函數(shù)參數(shù)或隸屬函數(shù)的圖形表示
Step4: 令q=q+1,返回Step2重新計算,直到誤差|f-yi|<ε(ε為一個很小的正數(shù))或者直到q等于一個預(yù)先指定的正整數(shù)。
Step5: p=p+1,即用下一個輸入—輸出數(shù)據(jù)對來調(diào)整參數(shù),重復(fù)step2~step4。
Step6: 對生成的模糊隸屬函數(shù),確定相關(guān)的模糊規(guī)則(另文再述),進(jìn)而,根據(jù)模糊規(guī)則,即可判斷信息的分類。
本文通過對模糊隸屬函數(shù)的參數(shù)進(jìn)行自適應(yīng)學(xué)習(xí),以生成比較客觀的隸屬函數(shù),依此來對網(wǎng)絡(luò)信息分級體系進(jìn)行客觀的建立,根據(jù)客觀生成的模糊劃分和隨后模糊規(guī)則的生成,對網(wǎng)絡(luò)上的海量信息進(jìn)行較準(zhǔn)確的分類。從而使網(wǎng)絡(luò)信息的過濾的準(zhǔn)確性得到大大的提高。
[1] 劉長安. 人工神經(jīng)網(wǎng)絡(luò)的研究方法及應(yīng)用. 2004.12.31
[2] 徐宗本,張講社,鄭亞林. 計算智能中的仿生學(xué):理論與算法. 科學(xué)出版社,2003(5)
[3] 王立新 著,王迎軍 譯. 模糊系統(tǒng)與模糊控制教程.清華大學(xué)出版社,2003(6),1
[4] 黃曉斌. 網(wǎng)絡(luò)信息過濾原理與應(yīng)用. 北京圖書館出版社,2005(7),1
Research on the Computer Secutity Technology of Course Teaching
Wang Lan
(Teaching and research department of Basic Course, Yunnan Police Officer Academy, Kunming Yunnan 650223)
With the development and perfect of computer technology and computer network development, the problem of computer security will be the focus of discussing by and by. In all spheres of the society , penetrated with computer technology and computer network,more and more people depended on the computer technology and network. So, the computer secutity have been payed close attention for society. This paper we gave the discussing and thought of computer security teaching which we were engaged in the teaching of computer security.
public security university;computer secutity;course teaching