• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種改進(jìn)的模糊聚類日志異常檢測(cè)方法

      2022-08-15 04:51何書前孫學(xué)朝蔣文娟余緒杭
      現(xiàn)代電子技術(shù) 2022年16期
      關(guān)鍵詞:日志聚類監(jiān)督

      何書前,孫學(xué)朝,蔣文娟,余緒杭

      (1.海南師范大學(xué) 信息網(wǎng)絡(luò)與數(shù)據(jù)中心,海南 ???571158;2.海南師范大學(xué) 信息科學(xué)技術(shù)學(xué)院,海南 ???571158)

      異常檢測(cè)在大規(guī)模分布式信息系統(tǒng)運(yùn)行管理中有著重要的作用。通常是通過系統(tǒng)的運(yùn)行日志信息來進(jìn)行異常檢測(cè),但專業(yè)人員人工或半人工方式檢查日志的傳統(tǒng)運(yùn)維已經(jīng)不再適用于現(xiàn)代的大規(guī)模應(yīng)用系統(tǒng)的運(yùn)行管理。因此,基于大規(guī)模日志數(shù)據(jù)的自動(dòng)化異常檢測(cè)方法被學(xué)術(shù)界和工業(yè)界廣泛關(guān)注,成為了重要的研究熱點(diǎn)領(lǐng)域。異常檢測(cè)的日志數(shù)據(jù)分析過程分為日志收集、日志解析、特征提取和異常檢測(cè)四個(gè)部分。其中,根據(jù)所采用的數(shù)據(jù)類型和機(jī)器學(xué)習(xí)方法,異常檢測(cè)方法分為有監(jiān)督和無監(jiān)督兩種。有監(jiān)督類型需要有標(biāo)注的訓(xùn)練數(shù)據(jù)集,包括邏輯回歸、決策樹、支持向量機(jī)(Support Vector Machine,SVM)和深度神經(jīng)網(wǎng)絡(luò)等;而無監(jiān)督類型的數(shù)據(jù)集不需要數(shù)據(jù)標(biāo)簽,主要方法包括聚類、主成分分析(Principal Component Analysis,PCA)和不變量挖掘等。有監(jiān)督學(xué)習(xí)方法需要大量的人工標(biāo)注數(shù)據(jù)以獲得帶有統(tǒng)計(jì)特征的海量訓(xùn)練樣本,才能精確地預(yù)測(cè)日志異常的判斷結(jié)果。日志數(shù)據(jù)本身數(shù)據(jù)量巨大、內(nèi)容繁多復(fù)雜,人工標(biāo)注工作又需要專業(yè)的運(yùn)維人員手工完成,然而在實(shí)際的異常檢測(cè)應(yīng)用中,很難具備這樣的條件,故缺乏充足的標(biāo)注日志數(shù)據(jù)。此外,異常情況自身具有其獨(dú)特的不可預(yù)知性與關(guān)聯(lián)性,也導(dǎo)致一些異常情況的數(shù)據(jù)很難收集。鑒于以上的情況,無監(jiān)督的異常檢測(cè)方法具有其天然的優(yōu)勢(shì):首先,其不需要人工標(biāo)注數(shù)據(jù);其次,日志數(shù)據(jù)自帶學(xué)習(xí)的分布特性功能,樣本空間中潛在的異常情況可通過統(tǒng)計(jì)分布特性自適應(yīng)判決;最后,無監(jiān)督檢測(cè)方法簡(jiǎn)單高效,可用于實(shí)時(shí)應(yīng)用場(chǎng)景。本文研究一種基于無監(jiān)督學(xué)習(xí)的日志數(shù)據(jù)異常檢測(cè)方法。

      1 現(xiàn)有相關(guān)工作

      基于機(jī)器學(xué)習(xí)的異常檢測(cè)是從系統(tǒng)日志數(shù)據(jù)中學(xué)習(xí)正常運(yùn)行的關(guān)鍵特征向量,圍繞這些特征向量構(gòu)建機(jī)器學(xué)習(xí)模型,進(jìn)行無監(jiān)督聚類檢測(cè)出離群點(diǎn),即異常,通過比對(duì)這些關(guān)鍵特征向量來判別異常。

      有監(jiān)督方法:D.Jeon 等針對(duì)惡意IP 地址檢測(cè)問題,收集檢查數(shù)據(jù)包流量數(shù)據(jù)以及待保護(hù)IT 系統(tǒng)的日志數(shù)據(jù),通過邏輯回歸多階段分類得到90%以上的檢測(cè)識(shí)別率。Q.H.Vu 等針對(duì)網(wǎng)絡(luò)安全事件日志的網(wǎng)絡(luò)安全事件檢測(cè),提出了基于決策樹學(xué)習(xí)的網(wǎng)絡(luò)安全異常檢測(cè)方法。D.Saraswat 等從電網(wǎng)系統(tǒng)中收集事件日志數(shù)據(jù),提出了基于規(guī)則的分類器,采用支持向量機(jī)與改進(jìn)的最近鄰方法有效地預(yù)測(cè)故障事件。

      無監(jiān)督方法:O.Alghushairy 等圍繞信用卡交易中的欺詐監(jiān)測(cè)與網(wǎng)絡(luò)入侵監(jiān)測(cè)應(yīng)用,分析了各種全局與局部離群因子算法(Local Outlier Factor,LOF)的優(yōu)劣,并提出了改進(jìn)的快速數(shù)據(jù)局部LOF 異常監(jiān)測(cè)算法。文獻(xiàn)[5]針對(duì)云系統(tǒng)的日志記錄數(shù)據(jù),提出在線演進(jìn)的異常檢測(cè)框架,結(jié)合單類支持向量機(jī)(One?Class SVM)在線更新,實(shí)現(xiàn)了高精度的高維數(shù)據(jù)異常檢測(cè)。文獻(xiàn)[6]基于優(yōu)化的孤立森林(Isolation Forest)算法,通過監(jiān)測(cè)和分析容器的多維資源指標(biāo),提出了一種在線容器異常檢測(cè)系統(tǒng)。文獻(xiàn)[7]分析了各類控制臺(tái)日志的高維數(shù)據(jù),通過PCA 方法將數(shù)據(jù)映射到低維特征空間,利用異常點(diǎn)與整體數(shù)據(jù)樣本之間的距離來檢測(cè)異常點(diǎn),該方法準(zhǔn)確性高。文獻(xiàn)[8]提出了一種用于異常檢測(cè)的非結(jié)構(gòu)化日志分析技術(shù),使用日志解析器將日志數(shù)據(jù)結(jié)構(gòu)化,并根據(jù)日志參數(shù)關(guān)系進(jìn)行分組,通過提取分組中的不變量(Invariants Mining)來自動(dòng)檢測(cè)日志的異常。文獻(xiàn)[9]利用日志聚類的方法,采用層次聚類算法對(duì)Hadoop 應(yīng)用和微軟的在線服務(wù)系統(tǒng)的潛在故障問題進(jìn)行有效識(shí)別,大大減少了日志檢測(cè)的數(shù)量。文獻(xiàn)[10]將系統(tǒng)日志建模為自然語言序列數(shù)據(jù),使用長(zhǎng)短期記憶(Long Short?Term Memory,LSTM)深度神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)日志模式,但訓(xùn)練模型形成的日志模式偏離檢測(cè)異常。文獻(xiàn)[11]則采用自編碼深度神經(jīng)網(wǎng)絡(luò),通過學(xué)習(xí)超級(jí)計(jì)算機(jī)節(jié)點(diǎn)的正常行為來識(shí)別異常情況,異常檢測(cè)的準(zhǔn)確率介于88%和96%之間。文獻(xiàn)[12]對(duì)現(xiàn)有的日志數(shù)據(jù)異常檢測(cè)方法進(jìn)行了比較,提供了對(duì)6 種基于日志的最新異常檢測(cè)方法的詳細(xì)審查和評(píng)估,其中包括3 種有監(jiān)督的方法和3 種無監(jiān)督的方法,并且還發(fā)布了一個(gè)開放源代碼工具包供研究參考。文獻(xiàn)[13?14]基于安全日志數(shù)據(jù)和LSTM模型,提出了一個(gè)安全分析的異常檢測(cè)框架。綜上所述,現(xiàn)有研究采用了經(jīng)典的無監(jiān)督機(jī)器學(xué)習(xí)方法解決日志數(shù)據(jù)集的異常檢測(cè)問題,取得比較好的效果。但基于日志數(shù)據(jù)集的異常檢測(cè)問題仍然有較大的改進(jìn)空間。本文針對(duì)日志數(shù)據(jù)集的異常檢測(cè),采用模糊聚類的方法,相對(duì)于現(xiàn)有的無監(jiān)督學(xué)習(xí)方法,該方法進(jìn)一步提高了檢測(cè)性能。同時(shí),在日志數(shù)據(jù)的異常檢測(cè)中,正常與異常數(shù)據(jù)量偏差較大,存在不平衡數(shù)據(jù)集,對(duì)聚類結(jié)果影響較大。圍繞不平衡數(shù)據(jù)集的問題,本文從聚類評(píng)價(jià)指標(biāo)入手,引入不平衡補(bǔ)償因子,通過新的聚類評(píng)價(jià)指標(biāo)擴(kuò)大兩個(gè)不平衡聚群之間的中心距離,從而解決了不平衡問題。

      2 基于日志數(shù)據(jù)的異常檢測(cè)

      基于日志數(shù)據(jù)的異常檢測(cè)流程如圖1 所示,主要由4 個(gè)部分組成:原始系統(tǒng)數(shù)據(jù)采集、日志數(shù)據(jù)預(yù)處理與解析、特征提取與向量化和基于模型異常檢測(cè)。

      圖1 日志數(shù)據(jù)異常檢測(cè)流程

      1)原始系統(tǒng)日志數(shù)據(jù)采集是收集各類系統(tǒng),如分布 式 系 統(tǒng)HDFS、Spark,操 作 系 統(tǒng)Windows、安 卓 和MAC,服務(wù)器應(yīng)用Apache、OpenSSH 等的日志,該類日志包括系統(tǒng)狀態(tài)和運(yùn)行信息,每個(gè)日志包含時(shí)間戳、指示和操作等不同格式的文本信息,通常通過Kafka 等數(shù)據(jù)流傳輸抽取工具匯聚到集中的數(shù)據(jù)庫中。原始日志數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),為了便于使用復(fù)雜機(jī)器學(xué)習(xí)的方法挖掘有價(jià)值的信息以用于異常檢測(cè),通常需要對(duì)日志進(jìn)行結(jié)構(gòu)化。

      2)日志數(shù)據(jù)預(yù)處理與解析即完成日志數(shù)據(jù)結(jié)構(gòu)化的工作,如文本信息的數(shù)值化、歸一化和模板化處理。

      3)特征提取和向量化是指通過固定間隔窗口、滑動(dòng)窗口或會(huì)話窗口將結(jié)構(gòu)化日志數(shù)據(jù)切分為特征序列,再執(zhí)行特征提取對(duì)數(shù)據(jù)序列進(jìn)行向量化(如事件計(jì)數(shù)向量),所有特征向量可形成特征矩陣。

      4)基于模型異常檢測(cè)是將特征矩陣輸送給機(jī)器學(xué)習(xí)模型進(jìn)行學(xué)習(xí)與訓(xùn)練,生成較高泛化能力的異常檢測(cè)模型,最后利用所構(gòu)建的模型識(shí)別新導(dǎo)入的日志序列是否存在異常。

      本文的工作主要是針對(duì)特征向量數(shù)據(jù)集,提出合適的機(jī)器學(xué)習(xí)模型,進(jìn)行異常檢測(cè)并提高異常檢測(cè)的性能。

      3 面向不均衡數(shù)據(jù)集的改進(jìn)模糊聚類方法

      3.1 模糊聚類方法相關(guān)模型

      模糊C 均值聚類(Fuzzy C?means Clustering,F(xiàn)CM)模型是將個(gè)采樣數(shù)據(jù)={,,…,x,…,x}分為個(gè)聚類,并搜索每組的聚類中心,使得非相似性指標(biāo)的價(jià)值函數(shù)達(dá)到最小。FCM 聚類的目標(biāo)函數(shù)為:

      目標(biāo)函數(shù)對(duì)uc求偏導(dǎo)取極值可得:

      3.2 改進(jìn)模糊聚類方法

      模糊聚類在很多應(yīng)用中取得了明顯效果,但數(shù)據(jù)分布的不平衡性將對(duì)模糊聚類的性能產(chǎn)生負(fù)面影響。兩個(gè)相鄰的數(shù)據(jù)群集分布不平衡,而模糊聚類因其目標(biāo)函數(shù)的局限性,在聚類過程中趨于均衡兩個(gè)類之間的容量,存在均勻效應(yīng),這樣就導(dǎo)致了一部分?jǐn)?shù)據(jù)點(diǎn)將錯(cuò)誤地劃分為少數(shù)據(jù)樣本的類別,較大地影響了不均衡數(shù)據(jù)集的分類性能。為解決不均衡數(shù)據(jù)集模糊聚類中存在的均勻效應(yīng)問題,提高聚類性能,本文引入新的模糊聚類有效性指標(biāo),通過進(jìn)一步放大聚類中心距離,從而影響模糊聚類目標(biāo)函數(shù),從而提高聚類的性能。通常異常檢測(cè)為2 個(gè)聚類中心,即=2;其中,為正常類,占了大比例數(shù)據(jù);為異常類,占了小部分?jǐn)?shù)據(jù)。因此,式(2)分開表述為:

      為便于后面的推導(dǎo),隸屬度簡(jiǎn)化為:

      代入式(4)、式(5)可得:

      針對(duì)不平衡數(shù)據(jù)集的應(yīng)用場(chǎng)景,假設(shè)當(dāng) ||不斷增加時(shí),少樣本類 ||可固定為常數(shù),則屬于正常類的數(shù)據(jù)將對(duì)異常類產(chǎn)生更大的影響。將 ||不斷增加的假設(shè)操作代入式(7)、式(8)可得:

      本文利用聚類性能指標(biāo)(Clustering Validity Index,CVI)來優(yōu)化不平衡問題。從類內(nèi)與類間的尺度評(píng)價(jià),分為類內(nèi)評(píng)價(jià)指標(biāo)(緊湊度準(zhǔn)則)和類間評(píng)價(jià)指標(biāo)(分離度準(zhǔn)則)。緊湊度準(zhǔn)則:

      分離度準(zhǔn)則是指兩個(gè)聚類中心的距離能夠準(zhǔn)確描述類間分離度,表示為:

      為了準(zhǔn)確評(píng)估類內(nèi)的聚合度和類間的分離度,將類內(nèi)緊湊度和類間分離度融合,得到聚類評(píng)估指標(biāo):

      根據(jù)式(10),評(píng)估指標(biāo)Sep 包含了不平衡補(bǔ)償因子,通過不平衡補(bǔ)償因子將類間距離拉開,可以解決不平衡數(shù)據(jù)聚類問題,其聚類目標(biāo)是找到最小的值即最優(yōu)的聚類結(jié)果。

      3.3 算法步驟

      本文基于模糊聚類和聚類評(píng)價(jià)指標(biāo),針對(duì)日志數(shù)據(jù)集中的不平衡問題,提出了一種改進(jìn)的模糊聚類日志異常檢測(cè)方法。算法由三大步驟組成:首先,模糊聚類算法用于訓(xùn)練數(shù)據(jù)集的聚類計(jì)算,以獲得數(shù)據(jù)集的統(tǒng)計(jì)分布特性和模糊屬性,即不同類型的數(shù)據(jù)點(diǎn)分配不同的隸屬權(quán)值;其次,采用模糊聚類評(píng)價(jià)準(zhǔn)則評(píng)估最優(yōu)的聚類參數(shù),并解決不平衡數(shù)據(jù)問題帶來的奇異點(diǎn)不平衡分配問題;最后,生成預(yù)測(cè)模型。具體步驟如下:

      步驟1:選擇0~1 期間的隨機(jī)數(shù)初始化隸屬度u,使其滿足式(6)中的約束條件;

      步驟2:用式(7)、式(8)計(jì)算,。

      步驟3:用式(1)計(jì)算目標(biāo)函數(shù),如果該值小于某個(gè)確定的閾值,或相對(duì)上次目標(biāo)函數(shù)的改變量小于某個(gè)閾值,則算法中止;

      步驟4:用式(3)計(jì)算新的u,返回步驟2;

      步驟5:由式(13)選出最優(yōu)的所對(duì)應(yīng)的聚類模型。

      4 實(shí)驗(yàn)結(jié)果分析

      為評(píng)估本文方法的性能,采用公開的數(shù)據(jù)集HDFS(https://github.com/logpai/loghub),該數(shù)據(jù)集是從EC2 平臺(tái)實(shí)際生產(chǎn)平臺(tái)中收集,由原始領(lǐng)域?qū)<沂謩?dòng)標(biāo)記。隨機(jī)選擇50%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,剩下的50%作為測(cè)試數(shù)據(jù)集,在訓(xùn)練數(shù)據(jù)集上訓(xùn)練模型,并將模型應(yīng)用于測(cè)試數(shù)據(jù)集;再與其他的無監(jiān)督學(xué)習(xí)LOF、One?Class SVM、Isolation Forest、PCA、Invariants Mining和層次聚類等算法進(jìn)行比較。

      通常系統(tǒng)日志數(shù)據(jù)的異常檢測(cè)是將輸出日志片段屬于異常的標(biāo)簽或系統(tǒng)異常信息的概率作為評(píng)測(cè)標(biāo)準(zhǔn),具體評(píng)測(cè)指標(biāo)包括準(zhǔn)確率(Precision)、召回率(Recall)和綜合評(píng)價(jià)指標(biāo)F1 值(F?measure)。其中,準(zhǔn)確率用于評(píng)估異常檢測(cè)的正確性,召回率用于評(píng)估異常檢測(cè)的全面性,F(xiàn)1 值是通過加權(quán)調(diào)和平均結(jié)合了準(zhǔn)確率和召回率,用于評(píng)估異常檢測(cè)的整體性能。不同方法在HDFS數(shù)據(jù)集上的性能比較如表1 所示。

      表1 不同方法在HDFS 數(shù)據(jù)集上的性能比較

      表1 中,各類算法在HDFS 數(shù)據(jù)集上的表現(xiàn)顯示出良好的準(zhǔn)確性,精度都在83%~100%之間,但部分算法召回率和F1 性能指標(biāo)不穩(wěn)定,如LOF、One?Class SVM、PCA和 層 次 聚 類。其 中,LOF和One?Class SVM因正常判定為異常的比例太高,誤報(bào)率較高,造成了整體性能不佳;而PCA和層次聚類的結(jié)果中精確度接近1,基本沒有將異常錯(cuò)誤判定為正常的情況,有一定數(shù)量的正常數(shù)據(jù)被誤判為異常結(jié)果,在實(shí)際應(yīng)用中可以接受,并在實(shí)際系統(tǒng)中有應(yīng)用。另外,Isolation Forest和Invariants Mining算法整體性能較穩(wěn)定,基本上準(zhǔn)確率和召回率指標(biāo)都比較接近,但均在95%以下,達(dá)不到最佳。模糊C 均值聚類(FCM)因引入模糊隸屬度對(duì)不同簇群分配不同的權(quán)值,較好地過濾了噪聲,整體性能都優(yōu)于其他方法,性能均在96%以上,特別是召回率為100%,但還是存在較少的異常點(diǎn)被判定為正常,這是因數(shù)據(jù)集的不平衡問題導(dǎo)致的。

      本文方法引入了不平衡補(bǔ)償因子,對(duì)不同分布的異常點(diǎn)分配了不同權(quán)值的隸屬度,將兩個(gè)簇集距離進(jìn)一步拉開,從而進(jìn)一步提高了聚類的效果,性能整體提高了1%,各項(xiàng)指標(biāo)均優(yōu)于其他算法。

      5 結(jié) 論

      針對(duì)目前分布式應(yīng)用系統(tǒng)的自動(dòng)化運(yùn)維中日志數(shù)據(jù)異常檢測(cè)需求,本文提出了一種模糊C 均值聚類(FCM)的無監(jiān)督學(xué)習(xí)的異常檢測(cè)算法,在HDFS 數(shù)據(jù)集上與其他無監(jiān)督學(xué)習(xí)方法進(jìn)行了比較。結(jié)果表明,無論是準(zhǔn)確率還是召回率和F1 指標(biāo),均優(yōu)于其他的異常檢測(cè)算法。針對(duì)大規(guī)模的日志數(shù)據(jù)中存在正常事件和異常事件嚴(yán)重不平衡的問題,從而影響了機(jī)器學(xué)習(xí)的分類效果問題,本文引入了不平衡補(bǔ)償因子用于平衡數(shù)據(jù)的不平衡性,提高類內(nèi)聚合度和類間分離度。在模糊C 均值聚類的基礎(chǔ)上,本文方法的性能指標(biāo)提升了1%,精確度、召回率和F1 值分別達(dá)到了97%,1和98.6%。

      猜你喜歡
      日志聚類監(jiān)督
      一名老黨員的工作日志
      突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
      扶貧日志
      基于DBSACN聚類算法的XML文檔聚類
      游學(xué)日志
      監(jiān)督見成效 舊貌換新顏
      基于高斯混合聚類的陣列干涉SAR三維成像
      夯實(shí)監(jiān)督之基
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      監(jiān)督宜“補(bǔ)”不宜“比”
      深水埗区| 曲阳县| 龙山县| 尼勒克县| 永福县| 嵊州市| 景德镇市| 安宁市| 桦南县| 讷河市| 城口县| 宁国市| 丰台区| 巴林右旗| 五家渠市| 惠安县| 修文县| 桃江县| 古浪县| 手游| 泊头市| 萨迦县| 栖霞市| 江达县| 佛山市| 宝清县| 平武县| 泾阳县| 惠安县| 卓资县| 苏州市| 宁城县| 博野县| 顺平县| 巴彦淖尔市| 江油市| 新乐市| 阿鲁科尔沁旗| 盐山县| 汉寿县| 和顺县|