郭濤敏
摘 ?要: 為了對(duì)云計(jì)算平臺(tái)中日志審計(jì)數(shù)據(jù)進(jìn)行安全分析,提出一種采用改進(jìn)的關(guān)聯(lián)規(guī)則的日志信息挖掘方法,以便有效識(shí)別事故類型或者預(yù)防可能出現(xiàn)的各種惡意入侵。該方法采用典型的關(guān)聯(lián)規(guī)則Apriori算法對(duì)比挖掘系統(tǒng)日志和用戶行為模式的異常信息,并通過(guò)刪除稀疏矩陣集合中的弱相關(guān)項(xiàng)目集和可調(diào)節(jié)最小置信度的策略,對(duì)Apriori算法進(jìn)行輕量化改進(jìn)。在多次迭代運(yùn)算得到最大項(xiàng)目集后運(yùn)用于日志審計(jì)。仿真實(shí)驗(yàn)結(jié)果表明,改進(jìn)的Apriori算法可以有效減少對(duì)數(shù)據(jù)庫(kù)的掃描次數(shù),提高挖掘效率,具有一定的推廣價(jià)值。
關(guān)鍵詞: 關(guān)聯(lián)規(guī)則; Apriori算法; 日志審計(jì); 最小置信度; 安全日志; 數(shù)據(jù)挖掘
中圖分類號(hào): TN915.08?34; TP393 ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2019)15?0083?03
Research on security log audit technology based on lightweight association rules mining
GUO Taomin
(Rongzhi College of Chongqing Technology and Business University, Chongqing 401320, China)
Abstract: In order to carry out the security analysis on log audit data in cloud computing platform, a log information mining method based on improved association rules is proposed to effectively identify the type of accident or prevent the possible malicious intrusions. The typical association rule Apriori algorithm is used to compare the abnormal information of the system log and user behavior mode. The Apriori algorithm is lightly improved by deleting the weakly related item sets in the sparse matrix set and adjusting the minimum confidence. The maximum item set is obtained after multiple iterations, and applied to log audit. The simulation results show that the improved Apriori algorithm can effectively reduce the scan number of the database, and improve the efficiency of mining, and has a certain promotion value.
Keywords: association rule; Apriori algorithm; log audit; minimum confidence; security log; data mining
0 ?引 ?言
云計(jì)算作為當(dāng)前網(wǎng)絡(luò)資源服務(wù)模式的一種類型,接入云計(jì)算服務(wù)器的終端用戶,借助服務(wù)器強(qiáng)大的數(shù)據(jù)處理能力和存儲(chǔ)能力,較好地解決了終端設(shè)備數(shù)據(jù)處理和存儲(chǔ)能力低下的問(wèn)題。作為云計(jì)算服務(wù)器平臺(tái),如何較好地管理接入該平臺(tái)的終端用戶是必須解決的關(guān)鍵問(wèn)題[1]。為了檢測(cè)接入平臺(tái)的終端用戶的合法性和安全性,對(duì)終端用戶的審計(jì)工作就顯得尤為重要。安全審計(jì)作為計(jì)算機(jī)安全研究領(lǐng)域的一個(gè)方向,近年來(lái)引起研究者們的關(guān)注[2],當(dāng)前的安全審計(jì)主要結(jié)合日志完成審計(jì)工作,對(duì)接入平臺(tái)終端用戶的登錄情況、操作行為等情況進(jìn)行記錄并檢測(cè),根據(jù)檢測(cè)情況及時(shí)提出報(bào)警,為云計(jì)算服務(wù)器管理員提供審計(jì)輔助。
目前,基于關(guān)聯(lián)規(guī)則原理的數(shù)據(jù)庫(kù)日志安全問(wèn)題逐漸得到越來(lái)越多的關(guān)注。文獻(xiàn)[3]提出一種基于模糊關(guān)聯(lián)規(guī)則的危險(xiǎn)Web信息挖掘技術(shù),通過(guò)引入Takens定理降低數(shù)據(jù)模型的復(fù)雜度,實(shí)現(xiàn)了危險(xiǎn)Web信息的準(zhǔn)確挖掘。文獻(xiàn)[4]采用基于相似性的關(guān)聯(lián)分析算法獲得用戶行為模式,以指導(dǎo)節(jié)點(diǎn)的分裂或合并,從而完成數(shù)據(jù)庫(kù)日志挖掘的業(yè)務(wù)流程優(yōu)化。
但是,隨著云計(jì)算平臺(tái)中用戶量的增加,審計(jì)日志記錄將逐漸增多,根據(jù)審計(jì)日志,較明顯的非法行為系統(tǒng)可以自動(dòng)檢測(cè)并預(yù)警,但是大規(guī)模數(shù)據(jù)中深層次較隱蔽的非法登錄及訪問(wèn)卻不容易察覺(jué)。因此,為了進(jìn)一步提高Apriori算法在日志審計(jì)挖掘方面的適用性,提高審計(jì)精度和執(zhí)行效率,本文通過(guò)Apriori挖掘算法對(duì)審計(jì)日志進(jìn)行數(shù)據(jù)挖掘,以檢測(cè)云計(jì)算平臺(tái)受到的各種攻擊,并對(duì)Apriori算法進(jìn)行適當(dāng)改進(jìn),以便更好地完成日志審計(jì)。
1 ?日志審計(jì)系統(tǒng)中的數(shù)據(jù)挖掘技術(shù)分析
當(dāng)前,云計(jì)算平臺(tái)常見(jiàn)的攻擊類型有4種:分布式拒絕訪問(wèn)攻擊(DDoS)、未授權(quán)訪問(wèn)攻擊(R2L)、獲取權(quán)限攻擊(U2R)及收集信息攻擊(Probe)[5]。根據(jù)終端用戶在云計(jì)算平臺(tái)的登錄、訪問(wèn)及操作情況,系統(tǒng)生成審計(jì)日志。以上4種入侵均可能影響日志審計(jì)。
日志審計(jì)系統(tǒng)中的數(shù)據(jù)挖掘任務(wù),就是利用關(guān)聯(lián)規(guī)則方法發(fā)現(xiàn)隱藏在日志記錄之間的相互聯(lián)系,例如,挖掘數(shù)據(jù)中的異常孤立記錄,從而發(fā)現(xiàn)入侵攻擊現(xiàn)象。本文采用Apriori關(guān)聯(lián)規(guī)則算法對(duì)系統(tǒng)日志數(shù)據(jù)進(jìn)行挖掘處理,得出關(guān)聯(lián)頻繁項(xiàng)集模式集合。安全日志記錄示例如表1所示,描述所需屬性模式的規(guī)則就是所需審計(jì)關(guān)聯(lián)規(guī)則。
2 ?輕量化改進(jìn)Apriori算法
云計(jì)算平臺(tái)的日志記錄了所有用戶在云平臺(tái)停留的重要痕跡,將訪問(wèn)云平臺(tái)用戶的所有關(guān)鍵操作一一記錄,并根據(jù)用戶的操作情況采用Apriori算法進(jìn)行數(shù)據(jù)挖掘,判斷該用戶是否屬于正常訪問(wèn),若不屬于,根據(jù)用戶的實(shí)際操作情況進(jìn)行分類,分別歸于不同的攻擊類型。本文通過(guò)Apriori挖掘算法對(duì)安全審計(jì)日志進(jìn)行數(shù)據(jù)挖掘,以檢測(cè)云計(jì)算平臺(tái)受到的各種攻擊,并對(duì)Apriori算法進(jìn)行輕量化改進(jìn),以便解決審計(jì)日志數(shù)據(jù)處理中的增量更新問(wèn)題。
2.1 ?刪除稀疏矩陣集合中的弱相關(guān)項(xiàng)目集
Apriori算法的遍歷過(guò)程,實(shí)際就是一個(gè)尋找最大項(xiàng)目集的過(guò)程。通過(guò)不斷遍歷,將項(xiàng)目集與最小支持度比較,得到[K]維最大項(xiàng)目集[3?4]。設(shè)集合[D]為所有待挖掘數(shù)據(jù)集合,與目標(biāo)集相關(guān)的最小支持?jǐn)?shù)目為[minCount],最小支持度[minSupCount]的計(jì)算方法分別為[6]:
2.2 ?可調(diào)節(jié)最小置信度
在日志審計(jì)的過(guò)程中,Apriori算法需要對(duì)日志中所有用戶的關(guān)鍵操作做迭代計(jì)算,這將大大降低算法的執(zhí)行效率,算法適用性降低,而且在計(jì)算過(guò)程中,為了充分展現(xiàn)算法的柔性及可操作性,需要對(duì)最小置信度[minConf]進(jìn)行動(dòng)態(tài)調(diào)整,否則會(huì)導(dǎo)致算法的遷移性差,對(duì)不同規(guī)模的云平臺(tái)適用性差,降低了算法的通用性。
3 ?實(shí)例仿真
為了驗(yàn)證本文算法在日志審計(jì)方面的性能,采用Snort進(jìn)行實(shí)例仿真[11],對(duì)60份審計(jì)日志進(jìn)行實(shí)例仿真,在200 h周期內(nèi)4種不同類型攻擊的情況如圖1所示。
首先檢測(cè)算法對(duì)4種不同類型攻擊的識(shí)別能力,分別采用Apriori算法及改進(jìn)的輕量化Apriori算法對(duì)審計(jì)日志進(jìn)行數(shù)據(jù)挖掘,通過(guò)算法檢測(cè)的攻擊數(shù)與實(shí)際攻擊數(shù)的誤差對(duì)比,檢驗(yàn)算法能力。其中,DDos仿真結(jié)果如圖2所示。
其他3種類型的結(jié)果與圖2一致,可以看出,采用Apriori算法和輕量化的Apriori算法均能通過(guò)審計(jì)日志檢測(cè)出接入云計(jì)算平臺(tái)的攻擊,相比于Apriori算法,本文算法的檢測(cè)優(yōu)勢(shì)明顯,更接近于實(shí)際攻擊數(shù)目。特別是DDos和Probe類型的攻擊,本文算法檢測(cè)結(jié)果更接近于實(shí)際攻擊數(shù)目。
從圖2也可以看出,兩種算法均不能全部檢測(cè)出訪問(wèn)云計(jì)算平臺(tái)的攻擊數(shù),這個(gè)與迭代次數(shù)、最小置信度的設(shè)置、算法時(shí)間等均有關(guān)系,為了達(dá)到平衡,暫時(shí)不能保證100%檢測(cè)出攻擊記錄。
下面對(duì)算法的執(zhí)行效率進(jìn)行Matlab仿真,檢驗(yàn)算法的計(jì)算時(shí)間是否能夠滿足云計(jì)算平臺(tái)攻擊檢測(cè)的需求。分別選取包含記錄條數(shù)為5 000,10 000,15 000,20 000的日志作為仿真對(duì)象,檢測(cè)算法的執(zhí)行時(shí)間,仿真結(jié)果如表2所示。
從表2可以看出,隨著日志中記錄條數(shù)的增加,執(zhí)行時(shí)間也隨之增加,當(dāng)日志記錄小于10 000條時(shí), Apriori算法和改進(jìn)的Apriori算法的日志挖掘執(zhí)行時(shí)間相差不大,但隨著記錄條數(shù)的增加,兩者之間的差距逐漸變大,本文算法優(yōu)勢(shì)明顯。
在實(shí)際運(yùn)用過(guò)程中,為了提高算法對(duì)云計(jì)算平臺(tái)日志審計(jì)的效率,以便及時(shí)根據(jù)日志審計(jì)結(jié)果做出相應(yīng)的決策,可以考慮將日志文件進(jìn)行有效分割,保證每個(gè)日志文件所包含的記錄條數(shù)設(shè)置合理,防止出現(xiàn)算法執(zhí)行時(shí)間長(zhǎng),審計(jì)效率降低,攻擊決策不及時(shí)的問(wèn)題。
4 ?結(jié) ?語(yǔ)
本文采用輕量化改進(jìn)的Apriori算法完成云計(jì)算平臺(tái)的安全日志審計(jì),用來(lái)挖掘接入云計(jì)算平臺(tái)的各種不同類型的攻擊,根據(jù)攻擊情況從而采取相應(yīng)的決策來(lái)保證云計(jì)算平臺(tái)的安全,提高云計(jì)算平臺(tái)的穩(wěn)定性。仿真結(jié)果驗(yàn)證了提出算法的可行性和先進(jìn)性。但是,數(shù)據(jù)挖掘的精確度和適用性仍不能滿足需求,后續(xù)將對(duì)更多類型入侵的適用性開(kāi)展進(jìn)一步研究。
參考文獻(xiàn)
[1] ABBAS H, MAENNEL O, ASSAR S. Security and privacy issues in cloud computing [J]. Annals of telecommunications, 2017, 72(5/6): 233?235.
[2] AMINSOOFI A, IRFAN KHAN M, FAZALEAMIN F A. A review on data security in cloud computing [J]. International journal of computer applications, 2017, 96(2): 95?96.
[3] 黃宏本.基于改進(jìn)關(guān)聯(lián)規(guī)則的危險(xiǎn)Web信息挖掘技術(shù)研究[J].現(xiàn)代電子技術(shù),2016,39(6):14?17.
HUANG Hongben. Research on hazardous Web information mining technology based on improved association rules [J]. Modern electronics technique, 2016, 39(6): 14?17.
[4] 肖宗水,孟令童,孔蘭菊,等.基于數(shù)據(jù)庫(kù)日志關(guān)聯(lián)規(guī)則挖掘的業(yè)務(wù)流程優(yōu)化[J].計(jì)算機(jī)集成制造系統(tǒng),2017(5):993?999.
XIAO Zongshui, MENG Lingtong, KONG Lanju, et al. Business process optimization based on database log association rule mining [J]. Computer integrated manufacturing system, 2017(5): 993?999.
[5] GAI K, QIU L, CHEN M, et al. SA?EAST: security?aware efficient data transmission for ITS in mobile heterogeneous cloud computing [J]. ACM transactions on embedded computing systems, 2017, 16(2): 1?22.
[6] LIU A X, ZHAO Y, SUNB M. An improved Apriori algorithm based on an evolution?communication tissue?like P system with promoters and inhibitors [J]. Discrete dynamics in nature and society, 2017(1): 1?11.
[7] PARK S H, SYNN J, KWON O H, et al. Apriori?based text mining method for the advancement of the transportation ma?nagement plan in expressway work zones [J]. Journal of supercomputing, 2017, 74(3): 1?16.
[8] 陸江東,鄭奮,戴卓臣.基于改進(jìn)Apriori的網(wǎng)絡(luò)安全感知方法[J].計(jì)算機(jī)測(cè)量與控制,2017,25(10):244?246.
LU Jiangdong, ZHENG Fen, DAI Zhuochen. Network security perception method based on improved Apriori [J]. Computer measurement and control, 2017, 25(10): 244?246.
[9] DANGELO G, RAMPONE S, PALMIERI F. Developing a trust model for pervasive computing based on Apriori association rules learning and Bayesian classification [J]. Soft computing, 2017, 21(21): 6297?6315.
[10] YIN Y. A study on the behavior description of learners under berlitz pedagogy based on the Apriori all algorithm [J]. Wireless personal communications, 2018(3): 1?10.
[11] ZHU S. Research on data mining of education technical ability training for physical education students based on Apriori algorithm [J]. Cluster computing, 2018(4): 1?8.