關(guān)鍵詞:人工智能;網(wǎng)絡(luò)空間安全;生成對(duì)抗網(wǎng)絡(luò);安全防御機(jī)制
中圖分類(lèi)號(hào):TP393.2 文獻(xiàn)標(biāo)識(shí)碼:A
1引言(Introduction)
在2021年公布的十大最新技術(shù)排行榜中[1],人工智能與網(wǎng)絡(luò)空間安全技術(shù)均位列其中。隨著網(wǎng)絡(luò)在經(jīng)濟(jì)、政治、文化等領(lǐng)域的全面應(yīng)用,與網(wǎng)絡(luò)相關(guān)的公共安全問(wèn)題不斷增多,每年全球在網(wǎng)絡(luò)空間安全上的花費(fèi)超過(guò)數(shù)十億美元,中國(guó)、美國(guó)、俄羅斯等國(guó)家相繼出臺(tái)了針對(duì)網(wǎng)絡(luò)空間安全領(lǐng)域的建設(shè)規(guī)劃。全面加強(qiáng)網(wǎng)絡(luò)空間安全軟件和硬件設(shè)施建設(shè),是保障社會(huì)穩(wěn)定、推動(dòng)國(guó)家治理體系和治理能力現(xiàn)代化的基礎(chǔ)。人工智能技術(shù)的發(fā)展令人感到驚嘆,它在攻擊點(diǎn)多、面廣的新型網(wǎng)絡(luò)中發(fā)揮出不可比擬的優(yōu)越性。以生成對(duì)抗網(wǎng)絡(luò)為代表的人工智能技術(shù)和思想在網(wǎng)絡(luò)空間安全防御策略中的廣泛應(yīng)用,表明人工智能技術(shù)有助于構(gòu)建更加智能、全面的網(wǎng)絡(luò)空間防御體系,成為網(wǎng)絡(luò)安全創(chuàng)新發(fā)展新的方向。在網(wǎng)絡(luò)空間安全領(lǐng)域應(yīng)用人工智能技術(shù),是一次應(yīng)用上的創(chuàng)新,是對(duì)網(wǎng)絡(luò)空間的一次防御加固,也是未來(lái)網(wǎng)絡(luò)空間安全領(lǐng)域發(fā)展的熱點(diǎn)和難點(diǎn),具有現(xiàn)實(shí)的研究?jī)r(jià)值。
2目前網(wǎng)絡(luò)空間安全存在的問(wèn)題(Problems incurrent cyberspace security)
網(wǎng)絡(luò)空間安全包含物理、系統(tǒng)、內(nèi)容等的安全[2],其中物理安全是指參與連接人和物等要素的安全;系統(tǒng)安全是指構(gòu)建網(wǎng)絡(luò)互聯(lián)及應(yīng)用的軟件設(shè)備、硬件設(shè)備和通信數(shù)據(jù)的安全;內(nèi)容安全是指在網(wǎng)絡(luò)互聯(lián)環(huán)境中保證通信數(shù)據(jù)的機(jī)密性、完整性、可靠性。新形勢(shì)下,網(wǎng)絡(luò)空間安全存在以下問(wèn)題。一是人工智能技術(shù)應(yīng)用于身份識(shí)別、垃圾郵件、拒絕服務(wù)、惡意代碼等網(wǎng)絡(luò)攻擊中,呈現(xiàn)出攻擊手段自動(dòng)化、智能化、隱匿化、規(guī)模化等特點(diǎn),能有效躲避、繞過(guò)防御端的檢測(cè);二是網(wǎng)絡(luò)應(yīng)用范圍越來(lái)越廣,使其邊界急劇擴(kuò)張,構(gòu)成網(wǎng)絡(luò)的結(jié)構(gòu)越來(lái)越復(fù)雜;三是網(wǎng)絡(luò)空間具有通信數(shù)據(jù)出現(xiàn)量大、類(lèi)型復(fù)雜等特點(diǎn),傳統(tǒng)的威脅檢測(cè)系統(tǒng)和手段已經(jīng)疲于應(yīng)付大量數(shù)據(jù)日志,未能很好地起到保護(hù)網(wǎng)絡(luò)空間安全的作用;四是網(wǎng)絡(luò)空間安全人才急缺,隨著各種新技術(shù)錯(cuò)綜復(fù)雜地融合,技術(shù)單一的網(wǎng)絡(luò)空間安全工程師很難應(yīng)對(duì)目前層出不窮的安全問(wèn)題,全面型人才是解決安全問(wèn)題的核心力量;五是傳統(tǒng)網(wǎng)絡(luò)空間安全理念已經(jīng)不能適應(yīng)時(shí)代發(fā)展的要求,要改變以固定規(guī)則匹配攻擊類(lèi)型的被動(dòng)防御方式,不斷轉(zhuǎn)變?yōu)橹鲃?dòng)防御方式,并能主動(dòng)進(jìn)行規(guī)則學(xué)習(xí);六是雖然網(wǎng)絡(luò)在各領(lǐng)域的應(yīng)用越來(lái)越深入,但是使用者用網(wǎng)層次和安全意識(shí)不一,大部分使用者的網(wǎng)絡(luò)空間安全意識(shí)淡薄。以上問(wèn)題都是需要網(wǎng)絡(luò)空間安全工程師打破傳統(tǒng)被動(dòng)的防御手段,在人工智能技術(shù)新環(huán)境下勇于創(chuàng)新并實(shí)踐。
3人工智能與網(wǎng)絡(luò)安全關(guān)聯(lián)度分析(Analysis of thecorrelation between artificial intelligence andnetwork security)
人工智能與網(wǎng)絡(luò)空間安全是兩個(gè)交叉學(xué)科,兩個(gè)領(lǐng)域均有非常全面的理論架構(gòu)和技術(shù)體系。認(rèn)真厘清兩個(gè)學(xué)科之間的邏輯關(guān)系,是更好地將人工智能技術(shù)運(yùn)用于網(wǎng)絡(luò)空間安全的關(guān)鍵。網(wǎng)絡(luò)空間安全起源于計(jì)算機(jī)網(wǎng)絡(luò)技術(shù),人工智能技術(shù)與計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)TCP/IP(Transmission ControlProtocol/Internet Protocol,傳輸控制協(xié)議/網(wǎng)際協(xié)議)和OSI(Open System Interconnection,開(kāi)放式系統(tǒng)互聯(lián))參考模型的層次對(duì)應(yīng)關(guān)系如圖1所示。
(1)攻擊與防御。網(wǎng)絡(luò)空間安全是指對(duì)網(wǎng)絡(luò)空間信息在產(chǎn)生、傳輸、使用、存儲(chǔ)處理過(guò)程中的安全防護(hù),包含網(wǎng)絡(luò)系統(tǒng)安全、數(shù)據(jù)安全、內(nèi)容安全、行為安全和安全管理。理解網(wǎng)絡(luò)空間安全的一個(gè)重要維度是參與者,即攻擊者與防御者,二者之間存在典型的“道高一尺,魔高一丈”關(guān)系,因此都迫切需要利用更先進(jìn)技術(shù)應(yīng)對(duì)對(duì)方的攻擊或防御行為。人工智能具備自動(dòng)推理、分析識(shí)別等能力,是攻擊者與防御者都迫切需要的新技術(shù)。由此,可以引出人工智能與網(wǎng)絡(luò)空間安全的重要結(jié)合點(diǎn),即人工智能應(yīng)用于網(wǎng)絡(luò)空間攻擊與防御[3]。其中,人工智能技術(shù)應(yīng)用于安全防御,是從防御者的角度出發(fā),試圖引入人工智能技術(shù)加強(qiáng)網(wǎng)絡(luò)空間安全;而人工智能技術(shù)應(yīng)用于攻擊各類(lèi)網(wǎng)絡(luò)空間,是從攻擊者的角度出發(fā),試圖引入人工智能技術(shù)提升攻擊效率和效果。
(2)知識(shí)與模型??梢越柚R(shí)層次理解人工智能安全。知識(shí)的表示、分析挖掘是人工智能的核心[4],相比于信息和數(shù)據(jù),知識(shí)位于更高的層次,而這種層次差異體現(xiàn)在知識(shí)的語(yǔ)義特征方面。知識(shí)信息具備更強(qiáng)的蘊(yùn)含表達(dá)能力,由此更容易導(dǎo)致一些廣泛意義上的網(wǎng)絡(luò)空間安全問(wèn)題。此類(lèi)安全問(wèn)題主要發(fā)生在內(nèi)容語(yǔ)義層面,涉及倫理道德、隱私性、健康性、公平正義等。微軟在線(xiàn)機(jī)器人Tay發(fā)表偏激言論、人臉識(shí)別的濫用、大數(shù)據(jù)“殺熟”、個(gè)人信息的過(guò)度索取、算法對(duì)物流配送員的控制、推薦算法推薦沒(méi)有價(jià)值的低俗內(nèi)容等現(xiàn)實(shí)的網(wǎng)絡(luò)空間安全問(wèn)題,都是內(nèi)容語(yǔ)義層面表現(xiàn)出來(lái)的問(wèn)題。隨著人工智能在網(wǎng)絡(luò)空間中的應(yīng)用和推廣,迫切需要建立可信、可靠的基于人工智能技術(shù)的網(wǎng)絡(luò)空間安全防御體系,而模型安全是其中的核心。
(3)漏洞與利用。不論哪種形式的安全問(wèn)題,其根本原因是存在漏洞及可利用的途徑。由于信息系統(tǒng)復(fù)雜性高,各種軟件和硬件存在漏洞不可避免。攻擊者與防御者之間的對(duì)抗通常都是圍繞漏洞的發(fā)現(xiàn)、分析、利用與封堵。漏洞被封堵之后就失去了利用價(jià)值,因此攻擊者熱衷于尋找零日漏洞[5],趁對(duì)方毫無(wú)防備時(shí)發(fā)起攻擊,而零日漏洞普遍存在于新技術(shù)、新系統(tǒng)中。人工智能在網(wǎng)絡(luò)空間中的應(yīng)用還處在發(fā)展過(guò)程,不可避免地存在一些未知漏洞,可能存在于知識(shí)處理的模型、算法和平臺(tái)中。從知識(shí)層次來(lái)看,相比于信息和數(shù)據(jù),以知識(shí)處理為中心的新型應(yīng)用顯然為攻防二者開(kāi)辟了新的對(duì)抗戰(zhàn)場(chǎng)。因此,人工智能模型、算法和平臺(tái)的漏洞發(fā)現(xiàn)與利用,成為人工智能安全發(fā)展的主要推動(dòng)力。
4網(wǎng)絡(luò)空間安全知識(shí)架構(gòu)(Architecture of cyberspace security knowledge)
人工智能被認(rèn)為是包括機(jī)器學(xué)習(xí)在內(nèi)的一個(gè)廣泛的研究領(lǐng)域,機(jī)器學(xué)習(xí)中包含了深度學(xué)習(xí)。機(jī)器學(xué)習(xí)有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)三種類(lèi)型[6]。機(jī)器學(xué)習(xí)技術(shù)也可以根據(jù)需要解決問(wèn)題的種類(lèi)劃分為分類(lèi)、聚類(lèi)、回歸、降維度和密度估計(jì)等技術(shù),與此對(duì)應(yīng)的機(jī)器算法也就有支持向量機(jī)、貝葉斯網(wǎng)絡(luò)、決策樹(shù)、隨機(jī)森林、分層、遺傳、相似度等。
在人工智能時(shí)代,網(wǎng)絡(luò)空間攻擊的分類(lèi)如圖2所示。其中,分類(lèi)是根據(jù)輸入未知數(shù)據(jù)的特征或特性進(jìn)行類(lèi)別區(qū)分,因?yàn)閼?yīng)用的數(shù)據(jù)是有標(biāo)記的,所以是監(jiān)督學(xué)習(xí)。在網(wǎng)絡(luò)安全框架中,可以用于正確識(shí)別同一類(lèi)的攻擊。通過(guò)訓(xùn)練數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí),將合法電子郵件發(fā)送給收件箱、垃圾郵件投入垃圾文件夾。同樣,基于文本內(nèi)容網(wǎng)頁(yè)分類(lèi)也是分類(lèi),例如新聞、廣告等網(wǎng)頁(yè)。聚類(lèi)與分類(lèi)不同,屬于無(wú)監(jiān)督學(xué)習(xí),在分類(lèi)前沒(méi)有獲得類(lèi)別的信息情況下就自動(dòng)識(shí)別樣本類(lèi)別,使用數(shù)據(jù)進(jìn)行多次迭代,比如基于統(tǒng)一協(xié)議的惡意軟件攻擊、基于不同簽名的多態(tài)惡意軟件?;貧w主要通過(guò)對(duì)數(shù)據(jù)的統(tǒng)計(jì),分析自變量和因變量之間存在關(guān)系實(shí)現(xiàn)數(shù)據(jù)預(yù)測(cè),特別是對(duì)攻擊者先前行為日志數(shù)據(jù)進(jìn)行分析,預(yù)測(cè)即將發(fā)生的攻擊,以此進(jìn)行必要的防御。此時(shí),必須采用高度動(dòng)態(tài)的算法且需要算法有自動(dòng)學(xué)習(xí)能力,比如入侵檢測(cè)、智能防火墻等。
目前,Python語(yǔ)言是網(wǎng)絡(luò)安全人員用于滲透測(cè)試與惡意軟件分析的最佳選擇,它提供了大量用于網(wǎng)絡(luò)空間安全的庫(kù)。其中,pefile庫(kù)用于分析可執(zhí)行文件,主要在靜態(tài)惡意軟件分析時(shí)查找軟件是否被破壞或加載惡意代碼,類(lèi)似于用MD5和SHA1摘要算法檢測(cè)軟件的完整性;volatility庫(kù)是可以編程的實(shí)用程序,用來(lái)對(duì)可執(zhí)行程序運(yùn)行內(nèi)存進(jìn)行分析,發(fā)現(xiàn)存在的惡意軟件代碼,通常默認(rèn)安裝在惡意軟件分析和滲透測(cè)試的發(fā)行版本中,允許從內(nèi)存中提取API(ApplicationProgramming Interface,應(yīng)用程序編程接口)掛鉤、網(wǎng)絡(luò)連接、內(nèi)核模塊等進(jìn)程的重要信息;TensorFlow庫(kù)主要應(yīng)用在監(jiān)測(cè)欺詐程序、檢測(cè)網(wǎng)絡(luò)異常支付、生物認(rèn)證、網(wǎng)絡(luò)用語(yǔ)異常行為等方面,特別是應(yīng)用在生成對(duì)抗網(wǎng)絡(luò),可以生成與原生物特征一樣的樣本,這對(duì)傳統(tǒng)人臉識(shí)別和語(yǔ)音識(shí)別提出了挑戰(zhàn)。
5人工智能助力網(wǎng)絡(luò)空間安全(Artificial intelligencehelps cyberspace security)
5.1檢測(cè)垃圾郵件
電子郵件是計(jì)算機(jī)網(wǎng)絡(luò)誕生時(shí)最早的應(yīng)用,是網(wǎng)絡(luò)通信最重要的手段,因此電子郵件理所當(dāng)然地成為網(wǎng)絡(luò)攻擊的主要載體。其中,垃圾郵件是未經(jīng)用戶(hù)許可就強(qiáng)行發(fā)送到用戶(hù)郵箱中的任何電子郵件[7],通常包含廣告、病毒等。一般來(lái)說(shuō),過(guò)濾垃圾郵件的方法有知識(shí)工程和機(jī)器學(xué)習(xí)[8]。使用知識(shí)工程方法時(shí),由于郵件傳輸流量巨大、需要選取一定數(shù)量的關(guān)鍵字、需要選擇一個(gè)不斷更新以區(qū)分垃圾郵件的閾值、垃圾郵件發(fā)送者會(huì)嘗試使用不同的策略欺騙過(guò)濾器等,導(dǎo)致這種以正則表達(dá)式識(shí)別垃圾郵件的靜態(tài)規(guī)則已經(jīng)很難跟上攻擊者的步伐,所建立規(guī)則的泛化能力也特別差。因此,利用機(jī)器學(xué)習(xí)算法完成這一任務(wù)將是必然選擇。目前,檢測(cè)垃圾郵件是AI(Artificial Intelligence,人工智能)在網(wǎng)絡(luò)安全領(lǐng)域最成功的應(yīng)用。
5.1.1感知機(jī)
模仿人腦神經(jīng)元分層結(jié)構(gòu),將給定輸出結(jié)果與一個(gè)或者多個(gè)輸入層關(guān)聯(lián)起來(lái)。感知機(jī)通過(guò)預(yù)先選擇一個(gè)適當(dāng)?shù)拈撝担ㄟ^(guò)線(xiàn)性分類(lèi)器計(jì)算,如果電子郵件分?jǐn)?shù)超過(guò)了閾值,就會(huì)分類(lèi)為垃圾郵件。但是,感知機(jī)是一個(gè)二元線(xiàn)性分類(lèi)器,局限于線(xiàn)性可分情況下使用,容易在數(shù)據(jù)周?chē)袷帯?/p>
5.1.2支持向量機(jī)
與感知機(jī)不同,支持向量機(jī)是監(jiān)督學(xué)習(xí)方法,所識(shí)別的超平面不再局限于感知機(jī)線(xiàn)性模型,是感知機(jī)的一種擴(kuò)展。
與感知機(jī)盡量使分類(lèi)錯(cuò)誤最小化不同,SVM(Support VectorMachine,支持向量機(jī))目標(biāo)是使超平面與支持向量之間的距離最大化。支持向量機(jī)除了以文本方式分類(lèi)垃圾郵件,還可以通過(guò)圖片方式檢測(cè)垃圾郵件,可分為基于內(nèi)容、非基于內(nèi)容的過(guò)濾,其中前者與本文方式類(lèi)似,主要采用光學(xué)字符識(shí)別技術(shù)識(shí)別圖片中的文字,后者主要利用計(jì)算機(jī)生成正常和垃圾郵件在圖片屬性上(比如顏色不同)的特征來(lái)分類(lèi)。因此,為了提取圖片特征,需要進(jìn)一步使用神經(jīng)網(wǎng)絡(luò)以及深度學(xué)習(xí)算法。
5.1.3樸素貝葉斯
通常個(gè)人郵件數(shù)量不多,很難成為訓(xùn)練樣本。由于概率估計(jì)原理來(lái)源于著名的貝葉斯定理,先驗(yàn)概率可以作為后驗(yàn)概率的輸入,以此動(dòng)態(tài)更新概率統(tǒng)計(jì),所以樸素貝葉斯最適合這種只需要很少輸入就可以分類(lèi)的情況,在逐步累加的樣本信息中不斷優(yōu)化先前的估計(jì),動(dòng)態(tài)調(diào)整預(yù)測(cè)模型。結(jié)合文本分類(lèi)技術(shù)[9],能夠動(dòng)態(tài)檢測(cè)垃圾郵件中的關(guān)鍵字。
5.1.4自然語(yǔ)言包
自然語(yǔ)言處理是人工智能的子領(lǐng)域,包含對(duì)人類(lèi)語(yǔ)言的分析和理解,能夠從非結(jié)構(gòu)化數(shù)據(jù)中獲得敏感信息,應(yīng)用在翻譯、語(yǔ)音識(shí)別、情感分析、信息檢索等領(lǐng)域。其中,自然語(yǔ)言工具包可以結(jié)合樸素貝葉斯用在垃圾郵件的檢測(cè)中。
5.2檢測(cè)惡意軟件威脅
惡意軟件是包含對(duì)計(jì)算機(jī)構(gòu)成威脅代碼的文件[10]。惡意軟件有木馬、僵尸網(wǎng)絡(luò)、勒索軟件、零日漏洞等,可以嵌入可執(zhí)行文件或隱藏在圖片文件中,甚至普通文本文件也可以成為其傳播載體。以上方式都有一個(gè)共同特點(diǎn),即破壞原有文件的完整性。所以,文件完整性檢測(cè)是網(wǎng)絡(luò)安全體系結(jié)構(gòu)中的一個(gè)重要環(huán)節(jié),能夠有效防止惡意軟件的攻擊。惡意軟件傳播速度越快,所構(gòu)成的威脅就會(huì)呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。目前的惡意軟件有靜態(tài)、動(dòng)態(tài)、多態(tài)、變態(tài)等形式和分類(lèi),檢測(cè)需要有靈活的應(yīng)對(duì)策略,常見(jiàn)的檢測(cè)手段有哈希文件計(jì)算、系統(tǒng)監(jiān)視、網(wǎng)絡(luò)監(jiān)視等。然而,傳統(tǒng)基于電子簽名和圖像文件的哈希檢測(cè)方法已經(jīng)不足以應(yīng)對(duì)惡意軟件的攻擊,引入人工智能技術(shù)重要且必要。
5.2.1 k均值聚類(lèi)算法
[11]惡意軟件檢測(cè)過(guò)程中,檢測(cè)方法和檢測(cè)效率都很重要,正確識(shí)別惡意軟件的行為相似性很關(guān)鍵,這就需要將惡意軟件樣本及同類(lèi)型惡意軟件相關(guān)聯(lián),實(shí)現(xiàn)檢測(cè)自動(dòng)化。關(guān)聯(lián)性分析可以利用k近鄰算法和k均值算法,將惡意軟件的不同特征用距離關(guān)聯(lián),用來(lái)估計(jì)其相似性,單個(gè)特征作為n 維空間中的一個(gè)點(diǎn),選擇一個(gè)合適的規(guī)則計(jì)算點(diǎn)與點(diǎn)之間的距離,作為度量。目前,可用來(lái)確定距離的度量有歐幾里得距離、切比雪夫距離、曼哈頓距離,如果軟件特征較多,可以選擇歐幾里得距離。度量確定后就是選擇合適的聚類(lèi)算法,k均值算法是使用較為廣泛的一種無(wú)監(jiān)督算法,該算法可以根據(jù)所選歐幾里得距離度量將數(shù)據(jù)分為k 個(gè)不同子組,最小化由維度空間中點(diǎn)和各自質(zhì)心之間計(jì)算出的度量所表示的代價(jià)函數(shù),最后返回對(duì)應(yīng)分組樣本。這個(gè)過(guò)程是選用scikit-learn庫(kù)中的算法實(shí)現(xiàn)的,該方法操作簡(jiǎn)單,適用于大數(shù)據(jù)集,但是在n 維空間中會(huì)以稀疏形式發(fā)生維數(shù)災(zāi)難現(xiàn)象。
5.2.2決策樹(shù)
決策樹(shù)使用二叉樹(shù)進(jìn)行數(shù)據(jù)分析和處理[12],算法通過(guò)一系列if-then-else決策對(duì)學(xué)習(xí)過(guò)程進(jìn)行建模,在迭代過(guò)程中把軟件樣本最終以數(shù)值和類(lèi)別形式進(jìn)行區(qū)分,代表的是一種非線(xiàn)性分類(lèi)器,無(wú)法簡(jiǎn)化為平面中的直線(xiàn)或超平面。決策樹(shù)的缺點(diǎn)是會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,對(duì)樣本變化會(huì)產(chǎn)生比較大的振蕩,因此在實(shí)際做法中可以使用決策樹(shù)集合即隨機(jī)森林讓每棵樹(shù)都有投票權(quán),票數(shù)最高的預(yù)測(cè)就是最后的結(jié)果。
5.2.3隱馬爾可夫模型(Hidden Markov Model,HMM)[13]
前面兩種方法都是基于靜態(tài)惡意軟件檢測(cè)方法,如果應(yīng)用在動(dòng)態(tài)惡意軟件,甚至多態(tài)和變態(tài)惡意軟件檢測(cè)中,會(huì)有誤報(bào)情況發(fā)生。對(duì)于多態(tài)惡意軟件以及零日攻擊軟件的檢測(cè),可使用基于HMM機(jī)器學(xué)習(xí)算法,這是一個(gè)無(wú)法直接觀(guān)測(cè)系統(tǒng)狀態(tài)的馬爾可夫過(guò)程,未來(lái)狀態(tài)概率分布取決于當(dāng)前狀態(tài)。
5.2.4卷積神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)模仿人腦學(xué)習(xí)機(jī)制,由輸入層、輸出層和隱藏層組成。卷積神經(jīng)網(wǎng)絡(luò)具有圖像識(shí)別功能,通過(guò)卷積運(yùn)算提取輸入的惡意軟件圖像特征,將其轉(zhuǎn)換成二進(jìn)制序列,通過(guò)轉(zhuǎn)換灰度圖像中存在的布局和紋理相似性,利用圖像分類(lèi)k鄰近算法實(shí)現(xiàn)分類(lèi)。這種方法既能識(shí)別惡意代碼修改部分,使惡意軟件整體結(jié)構(gòu)不被破壞,也可以快捷識(shí)別同一家族的不同變體。
5.3網(wǎng)絡(luò)異常檢測(cè)
在網(wǎng)絡(luò)異常檢測(cè)領(lǐng)域,有基于電子簽名異常檢測(cè)和流量異常檢測(cè)。其中,基于電子簽名的異常檢測(cè)一般是通過(guò)已受攻擊的簽名知識(shí)庫(kù)來(lái)匹配同類(lèi)攻擊,但它有明顯的缺陷,即必須通過(guò)不斷更新簽名庫(kù)來(lái)識(shí)別新型的網(wǎng)絡(luò)攻擊?;诹髁康漠惓z測(cè)主要通過(guò)檢測(cè)時(shí)間內(nèi)主機(jī)的連接數(shù)、不尋常通信端口的流量、單位時(shí)間內(nèi)突發(fā)流量高峰、網(wǎng)絡(luò)中固定主機(jī)占用大量帶寬等方式完成檢測(cè)。
5.3.1基于人工智能的入侵檢測(cè)系統(tǒng)[14]
防火墻是一組預(yù)先定義的網(wǎng)絡(luò)規(guī)則集合。通常放置于內(nèi)網(wǎng)和外網(wǎng)邊界,進(jìn)行網(wǎng)絡(luò)異常檢測(cè)與防范,經(jīng)歷了包過(guò)濾、應(yīng)用代理、狀態(tài)檢測(cè)三個(gè)不同的發(fā)展階段。不管在哪個(gè)階段,最關(guān)鍵的都是進(jìn)行網(wǎng)絡(luò)異常檢測(cè),因此配備入侵檢測(cè)系統(tǒng)就顯得更加重要。根據(jù)基于簽名庫(kù)和流量的檢測(cè)種類(lèi),相應(yīng)出現(xiàn)了基于主機(jī)IDS(Intrusion Detection System,入侵檢測(cè)系統(tǒng))和基于網(wǎng)絡(luò)流量IDS。隨著人工智能的高速發(fā)展,傳統(tǒng)檢測(cè)系統(tǒng)已經(jīng)無(wú)法應(yīng)對(duì)如今的網(wǎng)絡(luò)攻擊。這時(shí),利用監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)算法更新檢測(cè)解決方案就顯得必須和重要,基于異常IDS出現(xiàn)了。這種新檢測(cè)方法需要設(shè)置對(duì)不同數(shù)據(jù)進(jìn)行分離的閾值,讓數(shù)據(jù)集之間存在一定距離,運(yùn)用聚類(lèi)算法對(duì)數(shù)據(jù)進(jìn)行計(jì)算,評(píng)估其分布規(guī)律性,從而實(shí)現(xiàn)分類(lèi)和達(dá)到自動(dòng)檢測(cè)目的。在這個(gè)過(guò)程中,我們需要不斷分析各種服務(wù)日志,并將其轉(zhuǎn)換成有用的數(shù)據(jù)集;還必須把類(lèi)似于惡意軟件、零日攻擊、會(huì)話(huà)劫持、端口掃描等各種攻擊的特征分類(lèi)出來(lái),為算法提供更加有代表性的數(shù)據(jù)集。
5.3.2僵尸網(wǎng)絡(luò)檢測(cè)
僵尸網(wǎng)絡(luò)是基于流量的網(wǎng)絡(luò)異常檢測(cè)的難點(diǎn),是指攻擊者試圖通過(guò)發(fā)送木馬讓網(wǎng)絡(luò)中的計(jì)算機(jī)運(yùn)行,然后不知情地接受攻擊者的命令后攻擊網(wǎng)絡(luò)中其他主機(jī)的行為。攻擊者通常結(jié)合分布式計(jì)算以及區(qū)塊連技術(shù)讓僵尸網(wǎng)絡(luò)參與發(fā)送垃圾郵件、發(fā)起DDoS(Distributed Denial of Service,分布式拒絕服務(wù))、密碼暴力破解等攻擊。僵尸網(wǎng)絡(luò)通常有三個(gè)階段:一是通過(guò)不同方式讓網(wǎng)絡(luò)中的主機(jī)運(yùn)行惡意軟件;二是加入僵尸網(wǎng)絡(luò);三是將僵尸網(wǎng)絡(luò)傳播到其他主機(jī)。在僵尸網(wǎng)絡(luò)中,受害主機(jī)為了接收新的指令,需要不斷與遠(yuǎn)控主機(jī)進(jìn)行信息溝通,并將從受害主機(jī)系統(tǒng)上獲得的信息發(fā)送到服務(wù)器中。這個(gè)過(guò)程的典型特征是需要持續(xù)保持會(huì)話(huà)活躍性且定期進(jìn)行數(shù)據(jù)交換。因此,檢測(cè)僵尸網(wǎng)絡(luò)最關(guān)鍵的就是數(shù)據(jù)通信流量,并能圖形化地呈現(xiàn)出來(lái)。深度學(xué)習(xí)算法比如k鄰近算法、決策樹(shù)、高斯樸素貝葉斯模型都可以較好地用于僵尸網(wǎng)絡(luò)檢測(cè)。
5.3.3運(yùn)用高斯分布進(jìn)行異常檢測(cè)
高斯分布廣泛應(yīng)用于檢測(cè)數(shù)據(jù)分布建模,可識(shí)別數(shù)據(jù)中的離群點(diǎn)。離群點(diǎn)假定的異常元素相對(duì)于其他數(shù)據(jù)存在明顯差異,大多數(shù)據(jù)越是緊密集中在均值附近且方差越小,離群點(diǎn)所假定的異常值就越明顯。檢測(cè)需要導(dǎo)入Python中的numpy、pandas、matplotlib等庫(kù),同時(shí)加載檢測(cè)數(shù)據(jù)流延時(shí)和網(wǎng)絡(luò)吞吐量的值,驗(yàn)證樣本分布是否像高斯分布及以圖形式顯示相應(yīng)的值,最后將數(shù)據(jù)繪制在散點(diǎn)圖上,用可視化方式識(shí)別離群點(diǎn)。
5.4用戶(hù)行為異常檢測(cè)
用戶(hù)賬號(hào)是網(wǎng)絡(luò)安全體系結(jié)構(gòu)中的一個(gè)重要環(huán)節(jié),主要用來(lái)保證網(wǎng)絡(luò)中數(shù)據(jù)的完整性和機(jī)密性。傳統(tǒng)密碼在健壯性方面已經(jīng)做得很好,其組成包括數(shù)字、字母、符號(hào)等,但是隨著各種網(wǎng)絡(luò)服務(wù)平臺(tái)的增加,密碼管理成為用戶(hù)們最大的困惑。一碼通用成為大家的習(xí)慣,這就給攻擊者提供了可乘之機(jī),一旦密碼被破解,全部的網(wǎng)絡(luò)服務(wù)平臺(tái)就成為攻擊者的控制對(duì)象。當(dāng)然,各類(lèi)網(wǎng)絡(luò)服務(wù)平臺(tái)都采取了各種保護(hù)措施,如密碼地理區(qū)域限制、動(dòng)態(tài)口令卡二級(jí)保護(hù)、手機(jī)驗(yàn)證碼等,還使用了傳統(tǒng)密碼異常檢測(cè)方法,如暴力訪(fǎng)問(wèn)嘗試次數(shù)控制、同賬號(hào)同時(shí)間異地登錄、不同設(shè)備登錄、用戶(hù)鍵盤(pán)打字頻率等,在一定程度上降低了攻擊的成功概率。盡管如此,針對(duì)用戶(hù)身份的攻擊依然是網(wǎng)絡(luò)安全領(lǐng)域的重災(zāi)區(qū),傳統(tǒng)密碼保護(hù)措施與安全檢測(cè)方法之間矛盾越來(lái)越大。
5.4.1采用擊鍵識(shí)別用戶(hù)身份驗(yàn)證
把數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)結(jié)合起來(lái),從用戶(hù)關(guān)聯(lián)數(shù)據(jù)信息中識(shí)別出潛在的賬號(hào)違規(guī)行為,并采取相應(yīng)的防御操作成為新趨勢(shì),特別是應(yīng)用在目前無(wú)監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)適用于挖掘數(shù)據(jù)中潛在的用戶(hù)可疑行為。把賬號(hào)風(fēng)險(xiǎn)預(yù)測(cè)由檢測(cè)違規(guī)行為轉(zhuǎn)換到對(duì)正確特征進(jìn)行監(jiān)控,以積累用于訓(xùn)練的必要特征。但是,監(jiān)督學(xué)習(xí)算法不足,受到分類(lèi)標(biāo)簽的影響,難以識(shí)別新形式的異常活動(dòng),即使在后面檢測(cè)過(guò)程中加入了新的檢測(cè)規(guī)則,也不能避免放大先前標(biāo)簽所引入識(shí)別的誤差。同樣,對(duì)于無(wú)監(jiān)督學(xué)習(xí)算法比如k均值算法,正確確定簇?cái)?shù)量很重要,因?yàn)樵趯?shí)際應(yīng)用中并不能確定賬號(hào)分組必需的簇?cái)?shù)量,所以不適用于檢測(cè)用戶(hù)可疑行為,也不能適用于以二進(jìn)制分類(lèi)值形式的用戶(hù)特征。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,使用生物特征檢測(cè)可疑賬號(hào)越來(lái)越普及,其中擊鍵輸入與人臉虹膜、聲音、指紋可以作為識(shí)別用戶(hù)的特征。擊鍵過(guò)程屬于動(dòng)力學(xué)領(lǐng)域,在這一過(guò)程中,個(gè)人的擊鍵節(jié)奏和韻律等動(dòng)態(tài)信息是唯一的生物特征。這個(gè)技術(shù)過(guò)程主要是在清除了各種干擾因素后,將用戶(hù)相應(yīng)的原始擊鍵特征數(shù)據(jù)轉(zhuǎn)換為正確表示用戶(hù)特征的數(shù)據(jù)集,在這個(gè)基礎(chǔ)上運(yùn)用k鄰近、支持向量機(jī)、多層感知機(jī)算法進(jìn)行分析,可以根據(jù)攻擊者擊鍵特征識(shí)別出盜取別人賬號(hào)的行為,并予以制止。
5.4.2采用人臉識(shí)別用戶(hù)身份
智能手機(jī)、平板電腦等終端設(shè)備基本配備了采集用戶(hù)人臉信息的設(shè)備,讓各種應(yīng)用采用人臉識(shí)別實(shí)現(xiàn)登錄成為可能。人臉識(shí)別是一種分類(lèi)技術(shù),其中利用線(xiàn)性代數(shù)進(jìn)行“特征臉”識(shí)別是最常見(jiàn)的一種,識(shí)別分為實(shí)時(shí)圖像識(shí)別和已有圖像批量導(dǎo)入識(shí)別,本研究利用各終端設(shè)備攝像頭實(shí)時(shí)采集的用戶(hù)人臉作為采集數(shù)據(jù),將待驗(yàn)證圖像與圖像集進(jìn)行比對(duì)。在采集過(guò)程中受到光線(xiàn)、角度等客觀(guān)因素和如人臉自然衰老等因素的影響,會(huì)出現(xiàn)“撞臉”情況,加上圖片是高維數(shù)據(jù),在識(shí)別過(guò)程中模型構(gòu)建和數(shù)據(jù)清洗很重要,所以通常利用無(wú)監(jiān)督降維算法、主成分分析法識(shí)別出主要代表性變量,從而減少變量數(shù)。第一步是去掉各種干擾因素、調(diào)整圖片位置等歸一化和去除噪聲預(yù)處理,把圖片轉(zhuǎn)換成黑白色和用直方圖均衡化圖片解決因?yàn)楣饩€(xiàn)原因?qū)е碌拿靼刀葐?wèn)題。這個(gè)過(guò)程雖然復(fù)雜,但是直接關(guān)系到識(shí)別速度和準(zhǔn)確度;第二步是特征值提取,用k 維特征向量反映人臉圖片的特征信息;第三步是用k鄰近或者支持向量機(jī)等分類(lèi)器對(duì)圖片進(jìn)行分類(lèi),并與已訓(xùn)練數(shù)據(jù)集進(jìn)行比對(duì)后,實(shí)現(xiàn)人臉識(shí)別。
6結(jié)論(Conclusion)
人工智能技術(shù)應(yīng)用在網(wǎng)絡(luò)空間安全領(lǐng)域具有獨(dú)特的優(yōu)勢(shì),如提升網(wǎng)絡(luò)自動(dòng)化管理的學(xué)習(xí)能力、加強(qiáng)識(shí)別網(wǎng)絡(luò)威脅的推理能力、模糊數(shù)據(jù)的處理能力、創(chuàng)建網(wǎng)絡(luò)管理機(jī)制和協(xié)作能力,以及有利于保證大數(shù)據(jù)處理技術(shù)和應(yīng)用的安全性,有利于改進(jìn)人工神經(jīng)網(wǎng)絡(luò)的整體功能。人工智能與網(wǎng)絡(luò)空間安全相輔相成,人工智能在對(duì)網(wǎng)絡(luò)攻擊的感知、認(rèn)知、防御、控制等方面都表現(xiàn)出顯著的優(yōu)勢(shì),同時(shí)其在網(wǎng)絡(luò)空間安全領(lǐng)域的應(yīng)用也促進(jìn)了人工智能的發(fā)展。在人工智能和網(wǎng)絡(luò)空間安全共同發(fā)展的歷程中,神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等新技術(shù)作用于網(wǎng)絡(luò)攻防兩端,特別是生成對(duì)抗網(wǎng)絡(luò)(GenerativeAdversarial Network, GAN)[15]的出現(xiàn),將兩者關(guān)系更加緊密地聯(lián)系起來(lái),讓網(wǎng)絡(luò)空間安全進(jìn)入了全新的發(fā)展階段,也讓人工智能展現(xiàn)出前所未有的優(yōu)勢(shì),這將是未來(lái)的研究熱點(diǎn)。
作者簡(jiǎn)介:
劉邦桂(1983-),男,碩士,講師.研究領(lǐng)域:人工智能技術(shù),服務(wù)器技術(shù),網(wǎng)絡(luò)空間安全.