謝 浩, 樊重俊, 李 巖, 冉祥來
(1上海理工大學(xué)管理學(xué)院,上海200093;2上海機(jī)場(chǎng)(集團(tuán))有限公司,上海201106)
隨著信息科技的高速發(fā)展,機(jī)場(chǎng)的信息化建設(shè)也逐漸向智慧機(jī)場(chǎng)轉(zhuǎn)變。為了促進(jìn)智慧機(jī)場(chǎng)的建設(shè),數(shù)據(jù)中心不可或缺。數(shù)據(jù)中心將機(jī)場(chǎng)數(shù)據(jù)進(jìn)行集中分析和處理,極大提升了機(jī)場(chǎng)核心競(jìng)爭(zhēng)力和服務(wù)水平。同時(shí)也將信息安全風(fēng)險(xiǎn)集中到了機(jī)場(chǎng)數(shù)據(jù)中心。各種利用數(shù)據(jù)中心安全弱點(diǎn)的新型攻擊被入侵者使用,數(shù)據(jù)中心安全逐漸成為人們關(guān)注的焦點(diǎn)。
信息安全風(fēng)險(xiǎn)評(píng)估是解決機(jī)場(chǎng)數(shù)據(jù)中心信息安全問題的前提和基礎(chǔ)。國內(nèi)外學(xué)者提出多種信息安全風(fēng)險(xiǎn)評(píng)估方法,主要有:美國Pittsburgh大學(xué)教授Saaty提出層次分析法,對(duì)復(fù)雜問題進(jìn)行分解和排序并找出風(fēng)險(xiǎn)較大的影響因子,但不能對(duì)問題做出整體評(píng)價(jià)[1];蘭繼斌等根據(jù)信息安全評(píng)估中的大量指標(biāo)存在模糊性,引進(jìn)了模糊綜合評(píng)價(jià)對(duì)信息安全進(jìn)行評(píng)估,該法有效的解決了在評(píng)估中存在的主觀性及難以量化的問題[2];方陽、顧孟鈞把改進(jìn)的DS證據(jù)合成法則引進(jìn)信息網(wǎng)絡(luò)安全進(jìn)行評(píng)估中,該方法消除了評(píng)判過程中的不確定性[3];張磊等將灰色評(píng)估模型與算法和層次分析法相結(jié)合對(duì)信息安全進(jìn)行評(píng)估[4],該方法能成功反映參數(shù)的模糊性和不確定性;黨德鵬等把支持向量機(jī)引入到信息安全風(fēng)險(xiǎn)評(píng)估中,但其依據(jù)經(jīng)驗(yàn)選取參數(shù),存在很大的不確定性[5]。
機(jī)場(chǎng)數(shù)據(jù)中心信息安全風(fēng)險(xiǎn)評(píng)估實(shí)質(zhì)是一種小樣本、非線性、復(fù)雜的分類問題[6],而基于支持向量機(jī)的機(jī)場(chǎng)數(shù)據(jù)中心信息安全風(fēng)險(xiǎn)評(píng)估模型對(duì)小樣本、非線性的測(cè)試環(huán)境具有較好的適應(yīng)能力和分類準(zhǔn)確率。SVM模型的成功與否很大程度上取決于參數(shù)的選擇,依據(jù)經(jīng)驗(yàn)選取參數(shù)的方法經(jīng)常不能獲得滿意的效果,而遺傳算法具有很強(qiáng)的全局優(yōu)化能力,適合較為復(fù)雜的優(yōu)化問題。因此,本文將遺傳算法和SVM相結(jié)合,通過遺傳算法來尋找SVM的最優(yōu)參數(shù),從而提高SVM的分類準(zhǔn)確率。除此之外,SVM一般僅適用于二分類問題,而機(jī)場(chǎng)數(shù)據(jù)中心信息安全包含三個(gè)等級(jí),本文通過一定的研究將SVM拓展到三分類問題上并獲得了相對(duì)滿意的分類效果。
在有限樣本的情況下,支持向量機(jī)(SVM)具有較好的適應(yīng)性,能在有限樣本的情況下獲得最優(yōu)解。通過二次尋優(yōu)得到全局最優(yōu)點(diǎn),有效避免了神經(jīng)網(wǎng)絡(luò)中局部極值的問題[9]。對(duì)于非線性分類問題,引入核函數(shù)將其映射到高維特征空間構(gòu)造分類判別函數(shù),巧妙解決了維數(shù)問題。
支持向量機(jī)具體原理可用圖1說明:圓點(diǎn)和四角形分別代表兩類樣本。其中,H線表示兩類不同樣本點(diǎn)的分界線,H1和H2為與分界線平行且距離樣本點(diǎn)最近的直線(H評(píng)分H1與H2之間的距離),H1和H2之間的距離稱為分類間隔。支持向量機(jī)的分類原理就是通過最大化分類間隔來尋找最優(yōu)的分界線。
圖1 SVM分類原理
當(dāng)數(shù)據(jù)集線性不可分時(shí),引入松弛變量 ξi,i=1,2,…N(ξi≥0)和懲罰參數(shù)C(C>0)。此時(shí)最優(yōu)化問題轉(zhuǎn)化為:
利用拉格朗日乘子法求解上述問題,可得:
其中αi和ri為拉格朗日乘子,固定α對(duì)ω,b,ξ分別求偏導(dǎo)后可將上式化簡(jiǎn)為:
遇到非線性的分類問題時(shí),支持向量機(jī)通過非線性變換將原問題轉(zhuǎn)化為求解一個(gè)在高維特征空間中的線性分類問題。通過引入核函數(shù)K( xi,xj)來代替高維空間的內(nèi)機(jī)運(yùn)算〈xi,xj〉。只要核函數(shù) K( xi,xj)能夠滿足Mercer的條件,這樣即可避免維數(shù)災(zāi)難。求出αi、ω和b,最終即可求得分類函數(shù)f(x)=sgn{ωx+b}。
SVM算法起初是為二分類問題設(shè)計(jì),而機(jī)場(chǎng)數(shù)據(jù)中心信息安全分為“較低、中等、較高”三個(gè)等級(jí),由此需要構(gòu)建合適的三分類的支持向量機(jī)模型。構(gòu)建三分類器的方法有兩種:一種是直接求解法,即求解時(shí)根據(jù)輸入向量特征,直接將問題分為三種類別,一次解決三分類問題。這種方法雖然容易理解,但計(jì)算復(fù)雜度非常高且實(shí)用性不大。第二種方法即捆綁法,現(xiàn)將兩個(gè)等級(jí)捆綁在一起,將三分類問題變?yōu)槎诸悊栴}。首先解決該二分類問題,后將捆綁的一類再次進(jìn)行分類,通過多次二分類來解決多分類問題[8]。后者解決問題的準(zhǔn)確率和效率都相對(duì)高于前者。因此,本文選擇通過組合兩次二分類問題將SVM拓展到三分類問題上。
同時(shí),從上述建模的過程可以看出:SVM的分類的效果與其參數(shù)的選取之間具有較大的關(guān)聯(lián)性。通常情況下依據(jù)經(jīng)驗(yàn)選取參數(shù)的方法經(jīng)常不能獲得滿意的效果,而遺傳算法是一種基于生物遺傳和進(jìn)化機(jī)制的自適應(yīng)概率優(yōu)化算法,能夠通過全局搜索求得最優(yōu)解。本文采用遺傳算法來優(yōu)化SVM參數(shù),并將其應(yīng)用到機(jī)場(chǎng)數(shù)據(jù)中心信息安全風(fēng)險(xiǎn)評(píng)估中,由此提高其機(jī)場(chǎng)數(shù)據(jù)中心信息安全風(fēng)險(xiǎn)評(píng)估的準(zhǔn)確性。
機(jī)場(chǎng)數(shù)據(jù)中心的信息安全除了保證信息的完整性和保密性,同時(shí)延伸到了信息的真實(shí)性、可靠性、可用性和抗抵賴性,其內(nèi)涵涉及到了機(jī)場(chǎng)數(shù)據(jù)中心的方方面面。機(jī)場(chǎng)數(shù)據(jù)中心信息安全問題的本質(zhì)為:數(shù)據(jù)資源存在一定的價(jià)值和脆弱性,脆弱性是引發(fā)問題的內(nèi)在原因,而其面臨的危險(xiǎn)則是引發(fā)安全問題的外在因素。信息安全風(fēng)險(xiǎn)評(píng)估就是對(duì)數(shù)據(jù)中心可能面臨的威脅、系統(tǒng)潛在的缺陷、可能引發(fā)相應(yīng)的損失以及數(shù)據(jù)中心現(xiàn)有的安全防護(hù)措施進(jìn)行綜合評(píng)估,即在一定周期內(nèi)對(duì)不確定事件發(fā)生的概率及其可能引發(fā)的損失進(jìn)行定性和定量的評(píng)估。
數(shù)據(jù)中心信息安全風(fēng)險(xiǎn)評(píng)估可以從四個(gè)方面進(jìn)行分析:威脅識(shí)別;系統(tǒng)脆弱性識(shí)別;資產(chǎn)價(jià)值識(shí)別;安全措施識(shí)別[9]。威脅識(shí)別屬于外部因素,系統(tǒng)脆弱性、數(shù)據(jù)中心資產(chǎn)價(jià)值以及相應(yīng)的安全措施隸屬于內(nèi)部因素。通過分析機(jī)場(chǎng)數(shù)據(jù)中心面臨的威脅、存在的價(jià)值和脆弱性及現(xiàn)有的安全防護(hù)措施,得出具體的機(jī)場(chǎng)數(shù)據(jù)中心信息安全風(fēng)險(xiǎn)評(píng)估指標(biāo)。根據(jù)具體指標(biāo)評(píng)估值,判定出機(jī)場(chǎng)數(shù)據(jù)中心的安全等級(jí)。具體指標(biāo)如圖2所示:
圖2 機(jī)場(chǎng)數(shù)據(jù)中心信息安全風(fēng)險(xiǎn)評(píng)估指標(biāo)
基于GA-SVM機(jī)場(chǎng)數(shù)據(jù)中信息安全風(fēng)險(xiǎn)評(píng)估模型的算法實(shí)現(xiàn)步驟如下:
Step1數(shù)據(jù)的收集。通過對(duì)機(jī)場(chǎng)數(shù)據(jù)中心進(jìn)行調(diào)研,對(duì)其關(guān)于上述十四個(gè)指標(biāo)的歷史數(shù)據(jù)進(jìn)行收集,組織專家對(duì)其各指標(biāo)進(jìn)行評(píng)估打分并確定其所處的信息安全等級(jí)。依據(jù)專家評(píng)估結(jié)果值作為樣本數(shù)據(jù)集。一共收集了32組數(shù)據(jù),將其中前25組數(shù)據(jù)作為訓(xùn)練樣本,最后7組作為測(cè)試樣本。數(shù)據(jù)具體如表1所示(其中“1”代表信息安全等級(jí)“較低”,“2”代表“中等”,“3”代表“較高”):
表1 機(jī)場(chǎng)數(shù)據(jù)中心信息安全風(fēng)險(xiǎn)指評(píng)估標(biāo)值
Step2選擇SVM模型,確定核函數(shù)類型。本文采用參數(shù)較少且使用率較高的RBF函數(shù)作為核函數(shù)。
Step3利用遺傳算法優(yōu)化SVM的懲罰參數(shù)C和g。使用遺傳算法時(shí),選取最大進(jìn)化代數(shù)取值為100;種群最大數(shù)量默認(rèn)為20;交叉概率默認(rèn)為0.4;變異概率默認(rèn)為0.01;參數(shù)C的變化范圍為[0.1,10];參數(shù) g的變化范圍為[0.01,100]。
Step5利用優(yōu)化過的參數(shù)和訓(xùn)練樣本數(shù)據(jù)集建立GA-SVM多分類模型。首先將“中等、較高”綁做一類,選出“較低”的一類,而后對(duì)“中等、較高”在此使用分類,把“中等”和“較高”分出來。
Step6運(yùn)行GA-SVM分類模型。并將運(yùn)行結(jié)果與實(shí)際結(jié)果對(duì)比得出分類準(zhǔn)確率。
本文在Core(TM)i5 CPU、2G內(nèi)存,操作系統(tǒng)為Windows7的環(huán)境下采用MatlabR2011a編程實(shí)現(xiàn)。經(jīng)過GA算法擇優(yōu),得到懲罰參數(shù)C=2.305,RBF核函數(shù)參數(shù)g=0.7746。此時(shí)準(zhǔn)確率達(dá)到100%。
為了更加易于比較,本文還分別采用相同訓(xùn)練集和測(cè)試集對(duì)該算法、基于Pso算法優(yōu)化支持向量機(jī)參數(shù)以及未進(jìn)行參數(shù)優(yōu)化的支持向量機(jī)算法進(jìn)行比較,運(yùn)行十次,其平均結(jié)果如表2所示:
表2 模型測(cè)試結(jié)果對(duì)比
從上表中可以明顯看出:GA-SVM在保證了較高的分類準(zhǔn)確率的同時(shí)訓(xùn)練時(shí)間相對(duì)Pso-SVM較少。由于SVM直接選用固定的C和g參數(shù)不需要經(jīng)過迭代尋優(yōu),所以訓(xùn)練時(shí)間相對(duì)較少,但是其分類準(zhǔn)確率相對(duì)較低,且需根據(jù)經(jīng)驗(yàn)選取C和g存在很大的偶然性。
本文通過將遺傳算法引入到支持向量機(jī)中,并將支持向量機(jī)兩分類模型拓展為三分類模型,建立基于GA-SVM的機(jī)場(chǎng)數(shù)據(jù)中信息安全風(fēng)險(xiǎn)評(píng)估模型,為日后機(jī)場(chǎng)數(shù)據(jù)中心安全、平穩(wěn)的運(yùn)行提供更加可靠、高效的決策額支持。很多文獻(xiàn)對(duì)于支持向量機(jī)參數(shù)的選擇時(shí)都依據(jù)經(jīng)驗(yàn)選用固定值,本文通過遺傳算法對(duì)支持向量機(jī)的參數(shù)C和g進(jìn)行優(yōu)化,建立了基于GA-SVM三分類問題的機(jī)場(chǎng)數(shù)據(jù)中心信息安全風(fēng)險(xiǎn)評(píng)估模型。通過機(jī)場(chǎng)數(shù)據(jù)中心信息安全相關(guān)數(shù)據(jù)的測(cè)驗(yàn),取得了較滿意的測(cè)驗(yàn)結(jié)果。同時(shí)本文還具有一定的發(fā)展空間,比如指標(biāo)的取值很大程度上都取決于專家評(píng)估結(jié)果,在以后的改進(jìn)中可以進(jìn)一步優(yōu)化選取指標(biāo);模型還可進(jìn)一步優(yōu)化,將三分類問題拓展到多分類問題上,并減少運(yùn)行時(shí)間,這樣才能為機(jī)場(chǎng)數(shù)據(jù)中心的管理者提供更加準(zhǔn)確及時(shí)的決策支持。
[1] Satty T L.The Analytic Hierarchy Process[M].New York,USA:McGraw - Hill,1980.
[2] 蘭繼斌,徐揚(yáng),霍良安.模糊層次分析法權(quán)重研究[J].系統(tǒng)工程理論與實(shí)踐,2006,26(9):107-112.
[3] 方陽.基于層次分析法和 D_S證據(jù)理論的電信網(wǎng)網(wǎng)絡(luò)安全風(fēng)險(xiǎn)評(píng)估模型的研究與應(yīng)用[D].北京:北京郵電大學(xué),2010.
[4] 張磊,向德全,胥杰.軍用信息系統(tǒng)安全效能灰色評(píng)估模型和算法[J].空軍工程大學(xué)學(xué)報(bào):自然科學(xué)版,2007,8(1):77-80.
[5] 黨德鵬,孟真.基于支持向量機(jī)的信息安全風(fēng)險(xiǎn)評(píng)估[J].華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2010,38(3):46-49.
[6] 李紹中.支持向量機(jī)的智能信息安全風(fēng)險(xiǎn)評(píng)估模型[J].計(jì)算機(jī)應(yīng)用與軟件,2013(8):330-333.
[7] 劉志強(qiáng),呂學(xué),張利.基于多分類 GA—SVM的高速公路AID模型[J].系統(tǒng)工程理論與實(shí)踐,2013,33(8):2110-2115.
[8] 連可,陳世杰,周建明.基于遺傳算法的SVM多分類決策樹優(yōu)化算法研究[J].控制與決策,2009,24(1):7-12.
[9] 陳健,吉久明,孫濟(jì)慶.基于單威脅分析的高校綜合信息安全風(fēng)險(xiǎn)評(píng)估方法研究[J].情報(bào)雜志,2013,32(2):169-172.