(中國電子科技集團公司第五十四研究所 河北省電磁頻譜認(rèn)知與管控重點實驗室,石家莊 050081)
在信息化極速發(fā)展的當(dāng)今社會,無線通信技術(shù)已經(jīng)普及到各群眾的生活中。無線技術(shù)已全面應(yīng)用于商業(yè)、生活、金融及工作中。移動電話、語音通話、數(shù)字電視、網(wǎng)絡(luò)通信、數(shù)據(jù)交換等,都隨著無線通信技術(shù)的平臺繁衍而生。
隨著大眾網(wǎng)絡(luò)安全意識的穩(wěn)步提升,對于數(shù)據(jù)保護的意識也愈加強烈。對于特定類型的流量,加密甚至已成為法律的強制性要求,數(shù)據(jù)加密儼然已經(jīng)成為保護隱私的重要手段之一。根據(jù)最新統(tǒng)計報告截止到2019年,超過80%的企業(yè)網(wǎng)絡(luò)流量被加密,75%的網(wǎng)絡(luò)流量被加密。Barac預(yù)測到2020年,83%的流量將被加密。
雖然加密技術(shù)的推行旨在保護網(wǎng)絡(luò)通信的安全和隱蔽性,但這種隱蔽性同樣讓它成為了攻擊者隱藏部署惡意代碼、滲透、命令和控制等惡意行為的強大工具。Radware公司在2016年公開的年度全球應(yīng)用與網(wǎng)絡(luò)安全研究報告中顯示已有 35%的惡意攻擊正在借助 SSL/TLS 協(xié)議進行C&C命令傳輸、惡意代碼傳輸?shù)裙艋顒?。?017年5月,勒索軟件“想哭”(WannaCry)通過加密技術(shù)來逃避入侵檢測系統(tǒng)的檢測,致使該攻擊在網(wǎng)絡(luò)空間中如野火燎原之勢傳播。實現(xiàn)加密流量有效監(jiān)管是互聯(lián)網(wǎng)流量識別和監(jiān)管的重要組成部分。加密流量識別和管理可以有效防范惡意流量,保障計算機和終端設(shè)備安全運行,維護健康綠色的網(wǎng)絡(luò)環(huán)境。
目前國內(nèi)外學(xué)者專家對于有線互聯(lián)網(wǎng)網(wǎng)絡(luò)加密流量分類識別的研究比較成熟,由于無線傳輸?shù)慕橘|(zhì)是電磁波,相比于有線傳輸更易受到其他因素的干擾,而且易受相同或相近頻段的無線電波影響,降低信息傳輸速度。因此無線通信可能引發(fā)信號損耗,降低信號傳遞質(zhì)量,出現(xiàn)數(shù)據(jù)包誤碼和丟包問題。而且通常情況下僅能收到單向流量。因此,對于無線傳輸條件下網(wǎng)絡(luò)加密流量分類識別的研究相對困難,研究成果較少。
由于有線網(wǎng)絡(luò)與無線網(wǎng)絡(luò)的工作頻段、傳輸媒介等條件不同,因此在物理層和數(shù)據(jù)鏈路層具有差異性。但是有線網(wǎng)和無線網(wǎng)在網(wǎng)絡(luò)層以上都遵循TCP/IP協(xié)議,因此在網(wǎng)絡(luò)層以上不具有差異性。
無線網(wǎng)絡(luò)和有線網(wǎng)絡(luò)都需要通過前導(dǎo)碼通知設(shè)備數(shù)據(jù)鏈路層幀的到達。有線網(wǎng)絡(luò)和無線網(wǎng)絡(luò)前導(dǎo)碼結(jié)構(gòu)不同;有線網(wǎng)絡(luò)和無線網(wǎng)絡(luò)根據(jù)依據(jù)的標(biāo)準(zhǔn)不同,在物理層使用的技術(shù)也不同。無線網(wǎng)與有線網(wǎng)在物理層均通過前導(dǎo)碼(preamble)通知設(shè)備數(shù)據(jù)鏈路層幀的到達,不同的是無線網(wǎng)物理層前導(dǎo)碼包含兩個部分:sync和SFD。其中sync用于發(fā)現(xiàn)信道中是否存在數(shù)據(jù)幀,分為長和短兩個部分,一般直接稱為長前導(dǎo)碼和短前導(dǎo)碼。其中長前導(dǎo)碼是用于大范圍低速模式,短前導(dǎo)碼用于小范圍高速模式;SFD固定為0000 0101 1100 1111,用作幀起始標(biāo)志。對于有線以太網(wǎng)而言,其前導(dǎo)碼為固定8個字節(jié)。根據(jù)依據(jù)的標(biāo)準(zhǔn)不同,無線網(wǎng)絡(luò)與有線網(wǎng)絡(luò)在物理層使用的技術(shù)也不同。
無線網(wǎng)絡(luò)與有線網(wǎng)絡(luò)在數(shù)據(jù)鏈路層層面的差異性主要在于實現(xiàn)的技術(shù)與流量的傳輸格式。在數(shù)據(jù)鏈路層實現(xiàn)技術(shù)中,有線網(wǎng)絡(luò)的集線器和中繼器設(shè)計中采用了CSMA/CD(Carrier Sense Multiple Access with Collision Detection,載波偵聽多路訪問/沖突檢測)技術(shù)。該技術(shù)早期是用來解決有線網(wǎng)絡(luò)中,共享介質(zhì)下的多路網(wǎng)絡(luò)接入問題,仍然在當(dāng)今的10M/100M半雙工網(wǎng)絡(luò)中使用。在更高的帶寬情況下,比如1 000 M網(wǎng)絡(luò),則采用全雙工技術(shù)以取代CSMA/CD。無線網(wǎng)絡(luò)采用CSMA/CA(Carrier Sense Multiple Access with Collision Avoidance,載波偵聽多路訪問/沖突避免)協(xié)議搭配停止等待協(xié)議。無線信道的通信質(zhì)量遠不如有線信道,因此無線站點每通過無線局域網(wǎng)發(fā)送完一幀后,要等到收到對方的確認(rèn)幀后才能繼續(xù)發(fā)送下一幀。
無線網(wǎng)絡(luò)與有線網(wǎng)絡(luò)差異主要集中在物理層與數(shù)據(jù)鏈路層,在網(wǎng)絡(luò)層以上的層次中,二者并無區(qū)別,即無線網(wǎng)絡(luò)與有線網(wǎng)絡(luò)均使用TCP/IP架構(gòu)中的網(wǎng)絡(luò)層、傳輸層、應(yīng)用層。因此,對加密流量檢測、加密流量協(xié)議分類和加密流量業(yè)務(wù)識別,在網(wǎng)絡(luò)層以上的處理均與有線網(wǎng)絡(luò)無異。檢測要素則主要需要考慮物理層和數(shù)據(jù)鏈路層中的信息。
本文要對不同業(yè)務(wù)進行分類識別,因此需要構(gòu)建出業(yè)務(wù)環(huán)境。目前本文選定了幾種業(yè)務(wù),分別是文件下載業(yè)務(wù)、網(wǎng)頁瀏覽業(yè)務(wù)、郵件業(yè)務(wù)、即時通信業(yè)務(wù)、流媒體業(yè)務(wù)。
本文用兩臺計算機,一臺作為服務(wù)器,一臺作為客戶端,建立了FTP服務(wù)器、郵件服務(wù)器、流媒體服務(wù)器、即時通信服務(wù)器。本文利用兩臺計算機進行FTP文件下載業(yè)務(wù),網(wǎng)頁瀏覽業(yè)務(wù),郵件業(yè)務(wù),流媒體業(yè)務(wù),即時通信業(yè)務(wù)。
圖1 FTP文件下載業(yè)務(wù)
圖2 郵件業(yè)務(wù)
圖3 流媒體業(yè)務(wù)
圖4 即時通信業(yè)務(wù)
本文利用實驗室環(huán)境中的加密衛(wèi)星通信系統(tǒng),該系統(tǒng)是由一個主站和若干小站構(gòu)成的,并且在數(shù)據(jù)鏈路層加密。作者利用其主站和兩個小站,兩個小站通過主站進行通信,兩個小站分別連接到計算機上即可采集加密數(shù)據(jù)。結(jié)合上節(jié)構(gòu)建的業(yè)務(wù)環(huán)境,就完成了加密傳輸?shù)沫h(huán)境,為后續(xù)加密數(shù)據(jù)采集作鋪墊。
由于加密數(shù)據(jù)的隱私性及衛(wèi)星通信系統(tǒng)的特殊性,目前沒有公開的數(shù)據(jù)集,所以本文利用前文構(gòu)建的加密環(huán)境和業(yè)務(wù)環(huán)境進行加密數(shù)據(jù)的采集。
1)文件下載業(yè)務(wù):
文件傳輸業(yè)務(wù)主要基于文件傳輸協(xié)議FTP(file transfer protocol),它是由TCP/IP提供的用于從一個主機往另一個主機復(fù)制文件的標(biāo)準(zhǔn)機制。FTP是在兩個主機之間穿件了兩條連接,一條用于文件傳輸(通常端口20),另一條用于控制信息(通常端口21)。在整個FTP回話期間,控制連接端口都是開放的,用于在客戶端和服務(wù)器之間發(fā)送控制信息和客戶端命令。數(shù)據(jù)連接使用的是臨時端口來創(chuàng)建的。每當(dāng)有文件要在客戶端和服務(wù)器之間傳輸時,就創(chuàng)建一個數(shù)據(jù)連接。FTP要求客戶端在請求文件傳輸之前,發(fā)送登錄名和密碼給服務(wù)器,來驗證自己。本文利用前文構(gòu)建的業(yè)務(wù)模型中的FTP服務(wù),配置好FTP服務(wù)器并設(shè)置好目錄及文件,用另一臺客戶端訪問FTP服務(wù)器地址,然后登陸FTP服務(wù),訪問目錄并進行文件下載,并在登錄服務(wù)的同時采集數(shù)據(jù)。采集幾組相同文件下載的數(shù)據(jù)和幾組不同文件下載的數(shù)據(jù)來做對比。
2)電子郵件業(yè)務(wù):
郵件業(yè)務(wù)主要基于簡單郵件傳輸協(xié)議SMTP(simple mail transfer protocol),它是一種用于從一個服務(wù)器往另一個服務(wù)器傳輸?shù)腅-mail協(xié)議。SMTP的特征包括郵件列表、回復(fù)接收和轉(zhuǎn)發(fā)。SMTP可以接收輸入的消息,并利用TCP把它發(fā)送給另一個服務(wù)器上的SMTP。SMTP的作用是利用本地電子郵件數(shù)據(jù)包把輸入消息存儲在用戶的收件箱中。一旦SMTP服務(wù)器標(biāo)志出了接收者的E-mail服務(wù)器的IP地址,就將通過標(biāo)準(zhǔn)的TCP/IP路由過程發(fā)送消息。本文利用構(gòu)建好的電子郵件服務(wù),分別在連接到兩個小站的計算機上登錄配置好的郵件賬號,開啟數(shù)據(jù)采集設(shè)備,兩個賬戶之間互相發(fā)文字信息,互相傳送附件并下載。
3)流媒體業(yè)務(wù):
流媒體業(yè)務(wù)主要基于實時傳輸協(xié)議RTP(Real-time transport protocol),它用來為網(wǎng)絡(luò)上的語音、圖像、傳真等多種需要實時傳輸?shù)亩嗝襟w數(shù)據(jù)提供端到端的實時傳輸服務(wù)。RTP既不需要實現(xiàn)建立連接,也不需要中間節(jié)點的參與。在網(wǎng)絡(luò)帶寬充足的情況下,RTP具有一定的帶寬調(diào)控能力,保證端到端的多媒體流同步。在網(wǎng)絡(luò)帶寬不足時,RTP的帶寬調(diào)控能力將受到一定的限制。本文利用構(gòu)建好的流媒體服務(wù)器VLC,在服務(wù)器端配置好串流視頻屬性,在客戶端配置好串流地址,開始進行數(shù)據(jù)采集。采集幾組同樣視頻的數(shù)據(jù)和不同視頻的數(shù)據(jù)來作對比。
4)即時通信業(yè)務(wù):
即時通信業(yè)務(wù)主要是為用戶提供即時消息,語音,視頻,文件傳輸?shù)榷鄻踊?wù)。即時通信業(yè)務(wù)是一種基于Internet的通信技術(shù),涉及到IP/TCP /UDP等多種技術(shù)手段。無論即時通信系統(tǒng)的功能多么復(fù)雜,它們大都基于相同的技術(shù)原理,主要包括客戶/服務(wù)器(C/S)和對等通信(P2P)模式。本文利用FeiQ在兩臺計算機之間進行通信,采集文字、圖片等消息的發(fā)送接收和文件的傳送等數(shù)據(jù)。
1)無線加密流量物理層與數(shù)據(jù)鏈路層特征:
無線網(wǎng)絡(luò)與有線網(wǎng)絡(luò)的主要差異在物理層和數(shù)據(jù)鏈路層中,因此本文對于無線加密流量進行特征提取的研究點也主要集中在物理層和數(shù)據(jù)鏈路層的協(xié)議特征提取中。
相較于有線信道,無線信道為了保證數(shù)據(jù)傳輸?shù)陌踩?,有些情況在數(shù)據(jù)鏈路層就進行了加密處理。但是,與TLS等安全傳輸層加密協(xié)議類似,無線網(wǎng)絡(luò)兩個通信節(jié)點建立連接時,經(jīng)歷了802.11相互發(fā)現(xiàn)過程、802.1X認(rèn)證過程和4次握手過程,這些過程中會包含大量的伴生明文信息。而在正常通信過程中數(shù)據(jù)鏈路層中還存在一些未被加密的數(shù)據(jù)幀字段,這均可以作為無線加密流量的特征進行識別。由于這種加密通信大部分情況下需要手動進行配置(例如在路由器設(shè)置中手動開啟使用WPA2),這也有可能導(dǎo)致無線信道中可能存在未經(jīng)加密的報文,靈活運用這些未被加密的報文,可以較為方便的對網(wǎng)絡(luò)層及以上的特征進行提取。
2)無線加密流量的網(wǎng)絡(luò)層與傳輸層特征:
由于無線網(wǎng)絡(luò)與有線網(wǎng)絡(luò)在網(wǎng)絡(luò)層及以上并無明顯差異,因此,在可以完整提取到網(wǎng)絡(luò)層及以上報文的前提條件下,無線網(wǎng)絡(luò)與有線網(wǎng)絡(luò)的網(wǎng)絡(luò)層與傳輸層特征并無太大差異。但是,如果使用TCP協(xié)議作為傳輸層協(xié)議以實現(xiàn)數(shù)據(jù)的嚴(yán)格按序傳輸,相較于有線網(wǎng)絡(luò),無線網(wǎng)絡(luò)環(huán)境將面臨三點主要的問題:1)由于信號衰減等多種問題,無線信道的丟包率明顯較高;2)無線信道是不對稱的,主要體現(xiàn)在帶寬不對稱、丟包率不對稱與路由不對稱3個方面,這將導(dǎo)致測量結(jié)果產(chǎn)生偏差,進而無法正確設(shè)置TCP重傳定時器的超時時間;3)由于通信范圍的有限,無線網(wǎng)絡(luò)存在隱患終端和暴露終端問題,這將導(dǎo)致時隙資源的無序爭用,增加了報文碰撞的概率,進而增大了數(shù)據(jù)傳輸時延,嚴(yán)重影響網(wǎng)絡(luò)的吞吐量。因此無線網(wǎng)絡(luò)中存在比有線網(wǎng)絡(luò)更多的重傳報文,在對會話進行特征提取時需要對這些情況進行特別的識別與處理。
為了進行識別與分析,需要對無線加密流量的特征進行提取,本論文擬通過對無線網(wǎng)絡(luò)流量進行分析,歸納出無線加密流量的特征池,為后續(xù)的研究奠定基礎(chǔ)。
從無線信道中抓取到的數(shù)據(jù)幀有可能從數(shù)據(jù)鏈路層開始就已經(jīng)得到加密處理,這樣將無法正常對網(wǎng)絡(luò)層及以上的特征進行獲取,這對加密流量識別產(chǎn)生了很大困擾。因此相較于有線網(wǎng)絡(luò)加密流量識別特征提取主要提取網(wǎng)絡(luò)層及以上特征,針對無線加密流量的特征提取來源更加廣泛。
由于有些無線通信系統(tǒng)物理層就是加密的,所以無法提取到上層的特征,必須對物理層的特征進行分析。通過對采集的大量數(shù)據(jù)的十六進制數(shù)據(jù)流進行分析,可以通過不加密的幀頭分離出業(yè)務(wù)幀與控制幀。
圖5是對文件下載業(yè)務(wù)的幀長統(tǒng)計,文件下載業(yè)務(wù)主要分為兩部分完成,包括FTP的登錄和文件的傳輸,F(xiàn)TP登錄時客戶端請求訪問需要將自己的登錄名和密碼發(fā)送給服務(wù)器來驗證。從圖中可以看出,0~50幀左右?guī)L度在100~600字節(jié)小幅波動,此時為FTP的登錄過程;在后續(xù)50~1 700幀為文件的傳輸過程,可以看出此時幀長度基本可以保持在最大值1 500字節(jié),并且比較穩(wěn)定。
圖5 文件下載業(yè)務(wù)幀長統(tǒng)計
圖6是對流媒體業(yè)務(wù)的幀長統(tǒng)計,從圖中可以看出,流媒體業(yè)務(wù)的幀長波動范圍很大,從100~1 500字節(jié)均有分布,但是基本都在200字節(jié)以上由圖可知,流媒體業(yè)務(wù)的幀長度波動幅度很大,最大幀長度可達到1 500字節(jié)??梢钥闯隽髅襟w業(yè)務(wù)幀長波動幅度較大,最大幀長可達到1 525字節(jié)。
圖6 流媒體業(yè)務(wù)幀長統(tǒng)計
圖7是對郵件業(yè)務(wù)的幀長統(tǒng)計,從圖中可以看出,在0~30幀左右?guī)L在100~600字節(jié)波動,在30~120幀左右在100字節(jié)左右波動較小,在120~1 800幀左右在100~1 500字節(jié)波動但1 500字節(jié)占很大比例。通過分析發(fā)現(xiàn),在0~30幀左右為郵件的登錄過程,在30~120幀左右為郵件發(fā)送文字業(yè)務(wù),在120~1 800幀左右為郵件發(fā)送附件的業(yè)務(wù),此時和文件下載業(yè)務(wù)類似。
圖7 郵件業(yè)務(wù)幀長統(tǒng)計
圖8是對即時通信業(yè)務(wù)的幀長統(tǒng)計,從圖中可以看出,在0~20幀左右?guī)L為100字節(jié)左右,可能為通信雙方交互過程;在20~30幀左右有一個較大值,可達到1500字節(jié);在30~100幀基本維持在100字節(jié)左右,可能是保持通信的數(shù)據(jù)幀;在100~150幀有一段1 500字節(jié)的峰值,可能是消息通信;在150~350幀也有一段1 500字節(jié)的數(shù)據(jù)幀,可能是消息通信或者文件傳輸;在560~860幀有比較多的1 500字節(jié)的數(shù)據(jù)幀,可能是文件傳輸過程。
圖8 即時通信業(yè)務(wù)幀長統(tǒng)計
本論文利用K-means算法進行特征分類,該算法核心是通過設(shè)定參數(shù)作為個子集的中心點,將計算數(shù)據(jù)集中的點與中心點的相似性,將點歸入相似性最高的子集中,然后在每個子集中計算均值選擇中心點,重復(fù)以上步驟直至中心點不再變化。其中計算相似性使用最小化平方差來計算:
(1)
其中:E為數(shù)據(jù)集中所有點之間的均方差之和,xj為隨機選擇的數(shù)據(jù)集中非本輪中心點的某一點,cj為本輪選擇的中心點,K-means 算法是基于參數(shù)K預(yù)先設(shè)定,并且受包含與正常值差異較大的噪聲數(shù)據(jù)影響較大,算法的具體步驟如下:
輸入:聚類個數(shù)K和具有n個對象的數(shù)據(jù)集。
輸出:K個聚類中心點及其對象。
1)在包含n個對象的數(shù)據(jù)集中隨機選取K個對象作為中心點;
2)計算與中心點的距離,將數(shù)據(jù)集中剩余數(shù)據(jù)對象聚到與之距離最小的中心點的類簇中;
3)在每個類簇中重新計算得到n個中心點;
4)重復(fù)步驟2)和3)直至中心點不再發(fā)生變化;
5)輸出結(jié)果。
本文利用前文構(gòu)建的加密傳輸環(huán)境得到的加密數(shù)據(jù),結(jié)合上文提取的特征和方法,對文件下載業(yè)務(wù)、即時通信業(yè)務(wù)、流媒體業(yè)務(wù)和郵件業(yè)務(wù)進行分類識別,得到的結(jié)果如圖9所示??梢钥闯?,每種業(yè)務(wù)的分類識別率都在85%以上。
圖9 業(yè)務(wù)分類識別率
現(xiàn)有針對網(wǎng)絡(luò)加密流量分類識別的研究主要是研究網(wǎng)絡(luò)層及以上加密數(shù)據(jù),本文研究的是數(shù)據(jù)鏈路層加密數(shù)據(jù)。通過對4種業(yè)務(wù)的加密流量分類結(jié)果分析得出,本文提出的無線網(wǎng)絡(luò)數(shù)據(jù)鏈路層加密流量特征也可以對業(yè)務(wù)進行分類,并且由于加密層次在數(shù)據(jù)鏈路層,對于數(shù)據(jù)的要求更加廣泛,適用范圍更廣。但是加密層次低帶來的一個問題是數(shù)據(jù)中包含的信息相對于網(wǎng)絡(luò)層及以上包含的信息較少,由此帶來對于某些業(yè)務(wù)例如即時通信業(yè)務(wù)的某些特征會與其他業(yè)務(wù)的相似性較大造成識別率相對較低。本文進一步的研究方向是對流量特征進行更深層次的挖掘以尋找更多可用于分類的特征。
目前國內(nèi)外學(xué)術(shù)界對專門無線通信網(wǎng)絡(luò)加密流的測量與識別還是一片空白,其主要研究著眼于無線通信網(wǎng)絡(luò)加密技術(shù)、無線網(wǎng)絡(luò)測量技術(shù)和非網(wǎng)絡(luò)環(huán)境相關(guān)的加密流量識別技術(shù)。國內(nèi)除近幾年興起的加密流量識別與分析領(lǐng)域的研究外,其他領(lǐng)域的研究相較于國外而言相對落后。因此,國內(nèi)亟需對無線通信加密網(wǎng)絡(luò)的安全通信進行研究,而無線通信網(wǎng)絡(luò)加密流的測量與識別則可以為未來無線通信加密網(wǎng)絡(luò)的安全通信奠定基礎(chǔ)。
本文創(chuàng)新性地面向無線通信數(shù)據(jù)準(zhǔn)確識別的需求,考慮到實際無線通信網(wǎng)絡(luò)環(huán)境中存在的問題,研究針對無線通信網(wǎng)絡(luò)加密流的測量與識別技術(shù),突破目前國內(nèi)在無線通信網(wǎng)絡(luò)加密流測量與分析領(lǐng)域的空白,打破國際在該領(lǐng)域的技術(shù)壟斷,實現(xiàn)對無線網(wǎng)絡(luò)的有效監(jiān)管,并反哺推動無線通信加密技術(shù)的發(fā)展,保障我國未來無線網(wǎng)絡(luò)通信的安全,為國家網(wǎng)絡(luò)安全保駕護航。