杜冠瑤,郭勇杰,2,龍春*,趙靜,萬巍
1.中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100083
2.中國(guó)科學(xué)院大學(xué),北京 100190
隨著互聯(lián)網(wǎng)和大數(shù)據(jù)的快速發(fā)展,網(wǎng)絡(luò)異常檢測(cè)作為保護(hù)網(wǎng)絡(luò)安全和維護(hù)系統(tǒng)正常運(yùn)行的手段變得越來越重要。網(wǎng)絡(luò)異常檢測(cè)往往依靠日志或流量等網(wǎng)絡(luò)數(shù)據(jù),而這些數(shù)據(jù)發(fā)生概念漂移會(huì)對(duì)網(wǎng)絡(luò)異常檢測(cè)的準(zhǔn)確性和可靠性產(chǎn)生較為嚴(yán)重的影響。因此,近年來針對(duì)網(wǎng)絡(luò)異常檢測(cè)領(lǐng)域的概念漂移檢測(cè)研究也引起了廣泛關(guān)注。概念漂移是指隨著時(shí)間推移,流數(shù)據(jù)的分布發(fā)生變化的情況,這種變化可能由外部或內(nèi)部因素引起[1]。
網(wǎng)絡(luò)異常檢測(cè)領(lǐng)域常用到的數(shù)據(jù)有日志數(shù)據(jù)和流量數(shù)據(jù)等,本質(zhì)上也是流數(shù)據(jù)。因此,已有的針對(duì)流數(shù)據(jù)的概念漂移檢測(cè)方法也適用于網(wǎng)絡(luò)異常檢測(cè)領(lǐng)域。為了解決網(wǎng)絡(luò)數(shù)據(jù)中的概念漂移問題,研究人員提出了各種檢測(cè)方法[2],主要可以分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩大類。監(jiān)督學(xué)習(xí)方法通過使用已標(biāo)記的漂移樣本進(jìn)行訓(xùn)練,并通過分類器的輸出來檢測(cè)概念漂移。無監(jiān)督學(xué)習(xí)方法不需要標(biāo)記樣本,它們基于數(shù)據(jù)分布的統(tǒng)計(jì)特性來檢測(cè)概念漂移,通常使用聚類、密度估計(jì)和滑動(dòng)窗口等技術(shù)來識(shí)別數(shù)據(jù)中的潛在模式變化。
盡管針對(duì)網(wǎng)絡(luò)數(shù)據(jù)異常檢測(cè)領(lǐng)域已經(jīng)有許多概念漂移檢測(cè)方法被提出,但仍然面臨著一些挑戰(zhàn)。首先,概念漂移的定義本身缺乏統(tǒng)一標(biāo)準(zhǔn),不同研究者對(duì)概念漂移的理解和定義存在差異[3],這導(dǎo)致了不同方法之間的比較以及評(píng)估困難。其次,由于概念漂移的多樣性和復(fù)雜性,單一的網(wǎng)絡(luò)數(shù)據(jù)異常檢測(cè)方法往往無法適用于所有情況[4],因此,設(shè)計(jì)具有魯棒性和適應(yīng)性的多模型融合方法是一個(gè)具有挑戰(zhàn)性的任務(wù)。
本綜述更聚焦于網(wǎng)絡(luò)異常檢測(cè)領(lǐng)域,旨在系統(tǒng)性地闡述該領(lǐng)域概念漂移的定義和類型、總結(jié)概念漂移的最新研究進(jìn)展,并分析對(duì)比現(xiàn)有方法的優(yōu)缺點(diǎn)。同時(shí),本文將討論概念漂移檢測(cè)領(lǐng)域面臨的機(jī)遇與挑戰(zhàn),并提出未來可能的研究方向。本文通過深入探討概念漂移,可以為科研人員提供一個(gè)較為全面的視角,促進(jìn)概念漂移在網(wǎng)絡(luò)異常檢測(cè)領(lǐng)域的發(fā)展。
本文的主要貢獻(xiàn)如下:(1)針對(duì)當(dāng)前網(wǎng)絡(luò)異常檢測(cè)領(lǐng)域概念漂移的定義和類型進(jìn)行了系統(tǒng)性的闡述,并對(duì)當(dāng)前網(wǎng)絡(luò)異常檢測(cè)領(lǐng)域概念漂移的劃分標(biāo)準(zhǔn)進(jìn)行了歸納和總結(jié);(2)針對(duì)當(dāng)前網(wǎng)絡(luò)異常檢測(cè)領(lǐng)域主流的概念漂移模型和方法進(jìn)行了歸納與總結(jié),并分析和對(duì)比各方法的優(yōu)缺點(diǎn);(3)針對(duì)目前網(wǎng)絡(luò)異常檢測(cè)領(lǐng)域中概念漂移檢測(cè)所面臨的問題進(jìn)行了總結(jié)分析,并提出下一步研究方向。
通過以上工作,本文為網(wǎng)絡(luò)異常檢測(cè)概念漂移的研究提供了重要的理論和實(shí)踐基礎(chǔ)。本文工作不僅深入探討了概念漂移的特征和分類方法,還為研究者提供了對(duì)現(xiàn)有方法較為全面的介紹和評(píng)估,從而為進(jìn)一步改進(jìn)和發(fā)展概念漂移異常檢測(cè)算法奠定了堅(jiān)實(shí)基礎(chǔ)。
概念漂移現(xiàn)象普遍出現(xiàn)在各種數(shù)據(jù)集和系統(tǒng)中,涉及多個(gè)領(lǐng)域和應(yīng)用場(chǎng)景,其對(duì)數(shù)據(jù)分析和模型應(yīng)用帶來了巨大的挑戰(zhàn)。特別是在網(wǎng)絡(luò)異常檢測(cè)領(lǐng)域中,隨著時(shí)間的推移,網(wǎng)絡(luò)數(shù)據(jù)特征概念可能會(huì)發(fā)生漂移,從而導(dǎo)致現(xiàn)有的異常檢測(cè)模型失效[5]。因此,本文旨在探索和檢測(cè)網(wǎng)絡(luò)異常檢測(cè)領(lǐng)域中概念漂移現(xiàn)象,以提供更準(zhǔn)確和更可靠的網(wǎng)絡(luò)異常檢測(cè)方法。
概念漂移(Concept Drift)是指在數(shù)據(jù)生成過程中,數(shù)據(jù)的統(tǒng)計(jì)特性或關(guān)系隨時(shí)間發(fā)生變化的現(xiàn)象。然而,對(duì)于概念漂移的定義目前并不統(tǒng)一,存在多種觀點(diǎn)和說法。當(dāng)前被普遍認(rèn)同的定義是:在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域中,模型在時(shí)間或者環(huán)境改變的情況下,對(duì)于輸入數(shù)據(jù)的理解和預(yù)測(cè)能力發(fā)生變化的情況。這種變化可能是由于外部環(huán)境的變化、數(shù)據(jù)生成過程的演化、觀察偏差或噪聲引起的[6]。因此,在概念漂移的分析中,需要考慮各種類型的數(shù)據(jù)以及潛在的漂移原因。
為了應(yīng)對(duì)概念漂移,研究者提出了各種方法和技術(shù),其中包括概念漂移檢測(cè)算法[7]、在線學(xué)習(xí)方法[8]、集成學(xué)習(xí)方法[9]等。這些方法旨在識(shí)別和理解概念漂移的發(fā)生機(jī)制,并采取相應(yīng)措施來保持模型的性能不下降。
數(shù)據(jù)發(fā)生概念漂移的原因可能有多種:
(1)數(shù)據(jù)內(nèi)部變化(Internal Data Changes)[10],例如郵件系統(tǒng)、社交網(wǎng)絡(luò)中,用戶的行為可能會(huì)隨時(shí)間改變,導(dǎo)致數(shù)據(jù)分布發(fā)生變化。
(2)外部環(huán)境變化(External Environmental Changes)[11],隨著時(shí)間的推移,數(shù)據(jù)生成的環(huán)境可能會(huì)發(fā)生變化,例如新的技術(shù)工具和平臺(tái)的出現(xiàn)、過濾器的改進(jìn)等。
(3)數(shù)據(jù)收集過程的變化(Changes in Data Collection Process)[12],數(shù)據(jù)的收集方式或過程發(fā)生變化,例如更換了不同的記錄系統(tǒng)、修改了數(shù)據(jù)抽取規(guī)則等。
因此,概念漂移的產(chǎn)生是一個(gè)復(fù)雜的過程,受到多個(gè)內(nèi)部和外部因素以及數(shù)據(jù)收集過程中各種因素的綜合影響。
概念漂移對(duì)模型造成影響主要是因?yàn)樗鹆藬?shù)據(jù)分布的變化,當(dāng)數(shù)據(jù)分布發(fā)生變化時(shí),模型在面對(duì)新的數(shù)據(jù)分布時(shí)可能無法有效地捕捉到新的異常模式或變化,這導(dǎo)致了以下幾個(gè)方面的影響:
(1)模型退化(Model Degradation)
概念漂移意味著數(shù)據(jù)的統(tǒng)計(jì)特性和關(guān)系發(fā)生了變化。當(dāng)數(shù)據(jù)分布發(fā)生變化時(shí),模型在面對(duì)新的數(shù)據(jù)分布時(shí)可能無法捕捉到新的異常模式或變化,從而導(dǎo)致模型退化[13]。模型退化會(huì)使得模型的準(zhǔn)確性下降,無法有效對(duì)新的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行異常檢測(cè)和預(yù)測(cè)。
(2)決策偏差(Decision Bias)
概念漂移還可能會(huì)引起模型的決策偏差[14]。當(dāng)數(shù)據(jù)分布發(fā)生變化時(shí),模型在進(jìn)行決策時(shí)可能偏向于過去的數(shù)據(jù)分布,而忽視了新的數(shù)據(jù)分布中出現(xiàn)的新模式和異常行為。這種決策偏差可能增加模型在各種異常檢測(cè)任務(wù)中的誤報(bào)和漏報(bào)現(xiàn)象。
(3)模型更新困難(Difficulty in Model Updating)
受概念漂移影響,模型更新變得困難[15]。當(dāng)數(shù)據(jù)分布發(fā)生變化時(shí),為了適應(yīng)新的數(shù)據(jù)分布,模型需要進(jìn)行更新或重新訓(xùn)練。然而,在在線系統(tǒng)或?qū)崟r(shí)應(yīng)用中,模型更新需要在運(yùn)行過程中進(jìn)行,這可能會(huì)涉及到計(jì)算資源和時(shí)間的限制。此外,如果訓(xùn)練數(shù)據(jù)的標(biāo)簽信息不完全或不準(zhǔn)確,模型更新過程中的監(jiān)督學(xué)習(xí)可能會(huì)受到困擾。
因此,及時(shí)檢測(cè)概念漂移的發(fā)生,緩解概念漂移對(duì)模型的影響非常重要。
為了更好地解決網(wǎng)絡(luò)數(shù)據(jù)中的概念漂移問題,需要深入了解概念漂移的不同類型。本節(jié)將分別從真?zhèn)胃拍钇?、漂移的速度以及漂移的空間分布3 個(gè)維度對(duì)概念漂移進(jìn)行分類。通過對(duì)不同類型概念漂移的細(xì)致分類和理解,能夠更好地應(yīng)對(duì)網(wǎng)絡(luò)數(shù)據(jù)中的概念漂移問題,為后續(xù)異常檢測(cè)和模型更新提供更多解決途徑和選擇。
在研究概念漂移領(lǐng)域中,一種常見的分類方法是根據(jù)真?zhèn)胃拍钇茖?duì)其進(jìn)行劃分,以更好地理解漂移的本質(zhì)和影響。真?zhèn)胃拍钇频姆诸惢诰W(wǎng)絡(luò)數(shù)據(jù)中的變化是由真實(shí)的概念漂移引起還是由噪聲、異?;蛘`差等非真實(shí)因素引起[16]。
(1)偽概念漂移(Pseudo Concept Drift),指數(shù)據(jù)變化不是由數(shù)據(jù)本身變化所引起的,而可能是由于噪聲、異常值、數(shù)據(jù)收集或處理錯(cuò)誤等非真實(shí)因素所導(dǎo)致的。偽概念漂移可能會(huì)誤導(dǎo)模型,并產(chǎn)生錯(cuò)誤的漂移檢測(cè)結(jié)果。
(2)真實(shí)概念漂移(Real Concept Drift),指數(shù)據(jù)變化是由于數(shù)據(jù)本身實(shí)際變化所引起的,這種漂移可能是由網(wǎng)絡(luò)外部環(huán)境的變化、用戶行為的改變或系統(tǒng)演化等因素導(dǎo)致的。真實(shí)概念漂移反映了數(shù)據(jù)生成過程的實(shí)際變化,對(duì)模型的性能產(chǎn)生較大的影響。
圖1給出基于真?zhèn)胃拍钇频某橄蠡枋觯梢钥闯稣鎸?shí)概念漂移是由于目標(biāo)概念本身變化而導(dǎo)致的數(shù)據(jù)分布變化,而偽概念漂移是由于數(shù)據(jù)采樣或標(biāo)注錯(cuò)誤等因素引起的誤導(dǎo)性數(shù)據(jù)分布變化。了解真?zhèn)胃拍钇频膮^(qū)別可更準(zhǔn)確地判斷網(wǎng)絡(luò)異常檢測(cè)中概念漂移的源頭,從而采取適當(dāng)?shù)拇胧﹣響?yīng)對(duì)網(wǎng)絡(luò)數(shù)據(jù)不同類型的漂移,確保異常檢測(cè)模型的準(zhǔn)確性和魯棒性。
圖1 基于真?zhèn)蔚膬煞N概念漂移抽象化描述Fig.1 Abstract descriptions of two types of concept drift based on veracity
概念漂移的變化方式和因素可以以不同的速度發(fā)生,這與數(shù)據(jù)的統(tǒng)計(jì)特性和關(guān)系的變化密切相關(guān)。這些不同類型的概念漂移由各種事件、行為、環(huán)境和因素引起,從而使得網(wǎng)絡(luò)異常檢測(cè)領(lǐng)域數(shù)據(jù)的統(tǒng)計(jì)特性和關(guān)系隨時(shí)間發(fā)生變化,進(jìn)而影響機(jī)器學(xué)習(xí)模型在不同時(shí)間段的準(zhǔn)確性和適應(yīng)性[17]。
(1)突變漂移(Sudden Drift)
突變漂移指的是概念在某個(gè)時(shí)間點(diǎn)上突然發(fā)生變化的情況,導(dǎo)致數(shù)據(jù)的統(tǒng)計(jì)特性和關(guān)系在短時(shí)間內(nèi)突然改變。例如,網(wǎng)絡(luò)異常檢測(cè)中突然出現(xiàn)新的技術(shù)或突發(fā)事件可能導(dǎo)致不同類型的數(shù)據(jù)特征突然變化。
(2)漸進(jìn)漂移(Gradual Drift)
漸進(jìn)漂移是指數(shù)據(jù)分布的逐漸變化,主要強(qiáng)調(diào)變化的速度逐漸加快,可能是非線性的。例如,網(wǎng)絡(luò)系統(tǒng)升級(jí)、用戶群體變化、法規(guī)政策調(diào)整等因素可能導(dǎo)致各種類型數(shù)據(jù)特征發(fā)生偏移。
(3)漸增漂移(Incremental Drift)
漸增漂移也是指數(shù)據(jù)分布的逐漸變化,但與漸進(jìn)漂移略有不同,漸增漂移變化是緩慢的、線性的,并且相對(duì)較為平緩。例如,隨著時(shí)間推移,發(fā)送者可能會(huì)逐漸改變其行為策略,采用新的方法或策略,導(dǎo)致各種類型數(shù)據(jù)特征分布逐漸變化。
(4)復(fù)發(fā)式漂移(Seasonal Drift)
復(fù)發(fā)式漂移指的是數(shù)據(jù)的概念變化與時(shí)間的變化相關(guān)。例如,在特定的季節(jié),如節(jié)假日季節(jié),人們使用網(wǎng)絡(luò)行為模式可能會(huì)發(fā)生變化,從而導(dǎo)致數(shù)據(jù)中對(duì)應(yīng)的特征分布發(fā)生變化。
圖2提供了對(duì)概念漂移按速度進(jìn)行分類的4種抽象化描述,可以明顯看出,突變漂移是突然且明顯的數(shù)據(jù)變化,漸進(jìn)漂移是漸進(jìn)性的數(shù)據(jù)變化,漸增漂移是數(shù)據(jù)變化逐漸增加的趨勢(shì),復(fù)發(fā)式漂移是周期性的數(shù)據(jù)變化。雖然這4 種類型漂移發(fā)生方式和模式并不相同,但它們都代表了數(shù)據(jù)分布變化。
圖2 基于速度的4種概念漂移抽象化描述Fig.2 Abstract descriptions of four types of concept drift based on velocity
在網(wǎng)絡(luò)數(shù)據(jù)研究領(lǐng)域,對(duì)漂移空間分布進(jìn)行分類是一項(xiàng)重要任務(wù),可根據(jù)概念漂移完成后網(wǎng)絡(luò)數(shù)據(jù)全局分布是否發(fā)生變化來對(duì)漂移進(jìn)行劃分,即局部概念漂移和全局概念漂移[18]。另外,根據(jù)漂移發(fā)生的空間特征,可以將漂移劃分為連續(xù)的概念漂移和非連續(xù)概念漂移。
(1)局部漂移(Local Drift)
局部漂移僅發(fā)生在數(shù)據(jù)局部區(qū)域,而其他區(qū)域保持穩(wěn)定。這種漂移模式可能由特定數(shù)據(jù)子集變化引起,例如,在在線購(gòu)物平臺(tái)中的局部漂移場(chǎng)景中,數(shù)據(jù)的局部區(qū)域可能會(huì)發(fā)生漂移,而其他區(qū)域保持穩(wěn)定。
(2)全局漂移(Global Drift)
全局漂移發(fā)生在數(shù)據(jù)的整體分布上,涉及到整個(gè)數(shù)據(jù)集或大部分?jǐn)?shù)據(jù)。這種漂移模式可能由整體環(huán)境的變化、數(shù)據(jù)源的更改或廣泛影響的外部因素引起。例如,在一個(gè)電子商務(wù)平臺(tái)上,某一時(shí)期整個(gè)平臺(tái)的用戶開始偏好購(gòu)買環(huán)保和可持續(xù)發(fā)展的產(chǎn)品,而不再關(guān)注傳統(tǒng)的大品牌商品。
(3)連續(xù)漂移(Continuous Drift)
連續(xù)漂移在空間上是連續(xù)的,即漂移發(fā)生區(qū)域之間沒有明顯的邊界或過渡區(qū)域。這種漂移模式可能由漸進(jìn)性數(shù)據(jù)變化、復(fù)發(fā)式變化或漸進(jìn)的系統(tǒng)演化引起。例如,在一個(gè)在線氣候數(shù)據(jù)收集系統(tǒng)中,溫度數(shù)據(jù)呈現(xiàn)出連續(xù)漂移。隨著時(shí)間的推移,數(shù)據(jù)顯示溫度逐漸上升,反映出氣候變暖的趨勢(shì)。
(4)非連續(xù)漂移(Discontinuous Drift)
非連續(xù)漂移在空間上是間斷或不連續(xù)的,即漂移發(fā)生區(qū)域之間存在明顯的邊界或過渡區(qū)域。這種漂移模式可能由系統(tǒng)變更、數(shù)據(jù)源切換或特定事件發(fā)生引起的。例如,一個(gè)社交媒體平臺(tái)引入了新的算法和界面設(shè)計(jì),導(dǎo)致用戶群體的行為發(fā)生了明顯的變化。
圖3展示了基于空間概念漂移的抽象描述,可以看出局部概念漂移是數(shù)據(jù)中特定區(qū)域的變化,而全局概念漂移是數(shù)據(jù)整體分布的變化。通過對(duì)漂移的空間分布進(jìn)行分類,研究者可以更深入地了解漂移的發(fā)生模式,并選擇合適的建模方法和策略來處理不同類型的漂移。
圖3 基于真?zhèn)蔚膬煞N概念漂移抽象化描述Fig.3 Abstract descriptions of two types of concept drift based on veracity
概念漂移是異常檢測(cè)領(lǐng)域的重要研究方向,已經(jīng)涌現(xiàn)出多種方法用于檢測(cè)概念漂移。圖4是一些常見的概念漂移檢測(cè)方法總結(jié)。
圖4 常見的概念漂移檢測(cè)方法總結(jié)Fig.4 Summary of common concept drift detection methods
(1)均值和方差檢測(cè)(Mean and Variance Detection)
通過比較數(shù)據(jù)的均值和方差來檢測(cè)數(shù)據(jù)分布的變化。Dries 等人[19]提出了3 種新的網(wǎng)絡(luò)數(shù)據(jù)漂移檢測(cè)方法,這些方法可以動(dòng)態(tài)調(diào)整以匹配已有的實(shí)際數(shù)據(jù)。第一個(gè)是基于數(shù)據(jù)二進(jìn)制表示的密度估計(jì)秩統(tǒng)計(jì),第二個(gè)是比較1范數(shù)支持向量機(jī)(SVM)引起的線性分類器平均裕度,第三個(gè)是基于SVM分類器的平均0-1、S形或逐步線性誤差率,這幾種方法進(jìn)行結(jié)合可以對(duì)網(wǎng)絡(luò)異常檢測(cè)數(shù)據(jù)中的多變量數(shù)據(jù)進(jìn)行概念漂移檢測(cè)。Liu 等人[20]在協(xié)變量漂移或偏移的情況下,使用數(shù)據(jù)分布之間的均值和方差度量數(shù)據(jù)漂移或者偏移的幅度,從而準(zhǔn)確的估計(jì)數(shù)據(jù)樣本之間是否發(fā)生概念漂移現(xiàn)象。Baidari 等人[21]提出了一種基于Bhattacharyya 距離的概念漂移檢測(cè)方法,該方法使用均值和方差來輔助判斷分布中漸變或突變型漂移。具體地,該方法通過計(jì)算連續(xù)數(shù)據(jù)窗口內(nèi)均值和方差,并與先前參考窗口進(jìn)行比較,來評(píng)估數(shù)據(jù)分布的變化情況。當(dāng)均值和方差超過預(yù)定的閾值時(shí),就會(huì)判定發(fā)生了概念漂移。
(2)卡方檢驗(yàn)(Chi-Square Test)
基于卡方統(tǒng)計(jì)量來比較觀察值和期望值之間的差異,從而檢測(cè)漂移的發(fā)生。Nishida等人[22]提出了一種基于元學(xué)習(xí)的在線數(shù)據(jù)主動(dòng)漂移檢測(cè)(Meta-Add)框架,該框架通過跟蹤錯(cuò)誤率的變化模式來學(xué)習(xí)分類概念漂移。在訓(xùn)練階段,根據(jù)各種概念漂移的錯(cuò)誤率提取元數(shù)據(jù),然后使用卡方檢驗(yàn)來判斷這些錯(cuò)誤率是否存在顯著的差異,從而檢測(cè)概念漂移的發(fā)生。在檢測(cè)階段,通過基于流的主動(dòng)學(xué)習(xí),利用元測(cè)試器調(diào)整模型以適應(yīng)不同的網(wǎng)絡(luò)數(shù)據(jù),從而實(shí)時(shí)監(jiān)測(cè)和適應(yīng)概念漂移。Liu等人[23]提出了一種基于聚類的直方圖方法,稱為等強(qiáng)度k均值空間劃分(EIkMeans)用于檢測(cè)概念漂移,并介紹了一種提高漂移檢測(cè)靈敏度的啟發(fā)式方法。在該方法中,皮爾遜卡方檢驗(yàn)被用作統(tǒng)計(jì)假設(shè)檢驗(yàn),確保檢驗(yàn)統(tǒng)計(jì)量與樣本分布無關(guān),為了實(shí)現(xiàn)概念漂移檢測(cè),該研究開發(fā)了3 種算法:包括貪婪質(zhì)心初始化算法、聚類放大收縮算法和漂移檢測(cè)算法,結(jié)果證明了EI-kMeans方法的優(yōu)勢(shì),并展示了其在檢測(cè)概念漂移方面的有效性。Kabir等人[24]采用了經(jīng)驗(yàn)證明的方法DDM(漂移檢測(cè)方法)的策略,并使用帶有Yates 連續(xù)性校正的卡方檢驗(yàn)來評(píng)估其統(tǒng)計(jì)顯著性。目標(biāo)是根據(jù)經(jīng)驗(yàn)確定概念漂移,并相應(yīng)地校準(zhǔn)基礎(chǔ)模型。實(shí)證研究表明,軟件缺陷數(shù)據(jù)集中會(huì)出現(xiàn)概念漂移,其存在會(huì)降低預(yù)測(cè)模型的性能。在所研究的軟件缺陷數(shù)據(jù)集中,使用帶有Yates 連續(xù)性校正的卡方檢驗(yàn)有效的識(shí)別了兩種類型的概念漂移(漸進(jìn)漂移和突然漂移)。
(3)KL散度檢測(cè)(KL Divergence Detection)
通過計(jì)算兩個(gè)概率分布之間的KL 散度來度量數(shù)據(jù)分布的變化。Wang等人[25]為了建立一個(gè)有效的模型,采用K-L散度來表示垃圾郵件分布,并使用多尺度漂移檢測(cè)測(cè)試(MDDT)來定位其中可能的漂移,然后基于檢測(cè)結(jié)果對(duì)基礎(chǔ)分類器進(jìn)行再訓(xùn)練,以獲得性能改進(jìn)。綜合實(shí)驗(yàn)表明,當(dāng)漂移發(fā)生時(shí),K-L 散度在特征之間具有高度一致的變化模式。Hayat等人[26]提出了一種基于KL散度的自適應(yīng)垃圾郵件過濾系統(tǒng),該系統(tǒng)利用計(jì)算電子郵件內(nèi)容分布的偏差來檢測(cè)概念漂移。該方法可以與各種分類器結(jié)合使用,本文中采用了樸素貝葉斯分類器。通過使用安然公司的數(shù)據(jù)集進(jìn)行評(píng)估,結(jié)果表明該方法在檢測(cè)概念漂移方面具有有效性,并且在準(zhǔn)確度方面優(yōu)于樸素貝葉斯分類器。Goldenberg等人[27]通過調(diào)查距離測(cè)量方法在估計(jì)數(shù)字?jǐn)?shù)據(jù)樣本之間的漂移和偏移幅度方面的適用性,使用了KL散度來檢測(cè)概念漂移,部署的機(jī)器學(xué)習(xí)系統(tǒng)從網(wǎng)絡(luò)日志中學(xué)習(xí)歷史數(shù)據(jù),并在當(dāng)前數(shù)據(jù)上應(yīng)用,使用KL 散度作為一種距離度量,可以較好地檢測(cè)出當(dāng)前數(shù)據(jù)是否發(fā)生概念漂移現(xiàn)象。
(4)其他方法(Other Methods)
張育培等人[28]提出了一種首先綜合考慮數(shù)據(jù)分布質(zhì)心和半徑改變引起概念的漂移,提出有效的相異度量方法,然后對(duì)網(wǎng)絡(luò)數(shù)據(jù)采用雙向統(tǒng)計(jì)的方法更準(zhǔn)確地標(biāo)識(shí)數(shù)據(jù)分布并映射到均勻分布序列,最后計(jì)算雙重隨機(jī)冪鞅的均值,并利用停時(shí)定理來判斷網(wǎng)絡(luò)數(shù)據(jù)中是否有概念漂移發(fā)生的檢測(cè)方法。胡陽等人[29]提出了一種基于McDiarmid 邊界的自適應(yīng)加權(quán)概念漂移檢測(cè)方法。該方法利用McDiarmid 不等式得到加權(quán)分類正確率的置信邊界,在檢測(cè)到分類正確率下降超過置信邊界時(shí)調(diào)節(jié)衰減因子,實(shí)現(xiàn)權(quán)值的動(dòng)態(tài)改變。
基于統(tǒng)計(jì)的概念漂移檢測(cè)方法包括均值和方差檢測(cè)、卡方檢驗(yàn)、KL散度檢測(cè)等。這些方法的特點(diǎn)是簡(jiǎn)單直觀、計(jì)算高效,并且適用于各種數(shù)據(jù)類型和領(lǐng)域。其優(yōu)勢(shì)在于實(shí)時(shí)性高、獨(dú)立于具體模型、相對(duì)穩(wěn)定;然而,不足之處在于對(duì)假設(shè)的依賴、維度災(zāi)難和復(fù)雜分布的處理困難。
(1)基于模型的預(yù)測(cè)(Model Based Prediction)
使用建立的模型對(duì)未來數(shù)據(jù)進(jìn)行預(yù)測(cè),并比較預(yù)測(cè)結(jié)果與實(shí)際觀測(cè)值,以檢測(cè)漂移的發(fā)生。Masud 等人[30]通過使用基于模型的預(yù)測(cè)來檢測(cè)概念漂移,并解決了網(wǎng)絡(luò)異常檢測(cè)中新類數(shù)據(jù)到達(dá)的問題,將新類檢測(cè)機(jī)制集成到傳統(tǒng)分類器中,使其能夠在新類實(shí)例的真實(shí)標(biāo)簽到達(dá)之前自動(dòng)檢測(cè)新類。在概念漂移情況下,當(dāng)?shù)讓訑?shù)據(jù)分布在流中演變時(shí),新類檢測(cè)變得更具挑戰(zhàn)性。為了確定實(shí)例是否屬于新類,分類模型需要等待更多測(cè)試實(shí)例以發(fā)現(xiàn)它們之間的相似性。Masud 等人[31]使用基于模型的預(yù)測(cè)來檢測(cè)概念漂移,特別關(guān)注概念進(jìn)化中的循環(huán)類情況,循環(huán)類是概念進(jìn)化的一個(gè)特例,即一個(gè)類在流中出現(xiàn)、消失一段時(shí)間后再次出現(xiàn),為解決這個(gè)問題,文章提出了一種更現(xiàn)實(shí)的新穎類檢測(cè)技術(shù),該技術(shù)可以記住一個(gè)類,并在其長(zhǎng)時(shí)間消失后再次出現(xiàn)時(shí)將其識(shí)別為“不新穎”。該方法相較于最先進(jìn)的流分類技術(shù),在分類誤差方面顯著降低。Saurav 等人[32]描述了一種基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的時(shí)間模型,用于時(shí)間序列異常檢測(cè),以應(yīng)對(duì)正常行為的突然或規(guī)則變化帶來的挑戰(zhàn)。隨著新數(shù)據(jù)的可用,該模型將逐步進(jìn)行訓(xùn)練,并且能夠適應(yīng)數(shù)據(jù)分布的變化。RNN 用于對(duì)時(shí)間序列進(jìn)行多步預(yù)測(cè),預(yù)測(cè)誤差用于更新RNN模型以及檢測(cè)異常和變化點(diǎn)。
(2)基于異常的檢測(cè)(Anomaly Based Detection)
通過檢測(cè)數(shù)據(jù)中的異常模式或異常點(diǎn)來間接判斷是否發(fā)生概念漂移。Jain 等人[33]研究了基于分布式機(jī)器學(xué)習(xí)的集成技術(shù),以檢測(cè)網(wǎng)絡(luò)流量中概念漂移的存在,并檢測(cè)基于網(wǎng)絡(luò)的攻擊。這項(xiàng)工作分為3個(gè)部分。第一,隨機(jī)森林和邏輯回歸兩個(gè)分類器被用作0級(jí)學(xué)習(xí)器,支持向量機(jī)被用作1級(jí)學(xué)習(xí)器。第二,為了處理概念漂移的過程,使用了基于滑動(dòng)窗口的K-means 聚類。第三,用于檢測(cè)流量中基于集成的攻擊技術(shù)。實(shí)驗(yàn)結(jié)果表明,該方法在檢測(cè)網(wǎng)絡(luò)中的異常行為和適應(yīng)概念漂移方面表現(xiàn)出良好的性能和魯棒性。Qiao 等人[34]設(shè)計(jì)了機(jī)器人物聯(lián)網(wǎng)子數(shù)據(jù)集,以確保最終完成概念漂移發(fā)生。與沒有概念漂移分析的分類模型相比,檢測(cè)準(zhǔn)確率有顯著提高,當(dāng)概念漂移分析正在進(jìn)行時(shí),還通過比較混淆矩陣獲得了優(yōu)越的性能結(jié)果。文章還提出了一種基于殘差投影的動(dòng)態(tài)滑動(dòng)窗口技術(shù)來進(jìn)行概念漂移分析。在網(wǎng)絡(luò)數(shù)據(jù)中尋找概念的過程中,通過將殘差投影方法在當(dāng)前窗口中獲得的異常量與先前的異常量進(jìn)行比較,來動(dòng)態(tài)更新樣本數(shù)。Yang等人[35]提出了一個(gè)名為性能加權(quán)概率平均集成(PWPAE)框架,用于異常的預(yù)測(cè)來檢測(cè)概念漂移,并應(yīng)用于物聯(lián)網(wǎng)數(shù)據(jù)的異常檢測(cè)。PWPAE框架通過集成多個(gè)基于異常的預(yù)測(cè)模型,利用它們的性能權(quán)重和預(yù)測(cè)概率進(jìn)行漂移自適應(yīng)。通過在兩個(gè)公共數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),研究結(jié)果表明,相較于最先進(jìn)的方法,文章提出的PWPAE方法在物聯(lián)網(wǎng)數(shù)據(jù)漂移自適應(yīng)異常檢測(cè)方面是有效的。
(3)其他方法(Other Methods)
Klinkenberg 等人[36]提出了一種使用支持向量機(jī)(SVM)來檢測(cè)周期性概念漂移的方法。作者利用SVM 模型對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行建模,并根據(jù)模型預(yù)測(cè)結(jié)果變化來檢測(cè)概念漂移。這種方法可以幫助識(shí)別出重復(fù)出現(xiàn)的概念漂移模式。Seeliger等人[37]使用圖指標(biāo)來檢測(cè)網(wǎng)絡(luò)數(shù)據(jù)中的概念漂移,這些網(wǎng)絡(luò)數(shù)據(jù)可以表示為圖流。崔澤林[38]提出了一種基于密度網(wǎng)格數(shù)據(jù)概念漂移檢測(cè)框架,該框架利用網(wǎng)格技術(shù),進(jìn)而使得其適用于一般數(shù)據(jù)。在解決滑動(dòng)窗口中多概念問題上,在在線處理階段中創(chuàng)建一個(gè)臨時(shí)密度網(wǎng)格和一個(gè)歷史密度網(wǎng)格,根據(jù)數(shù)據(jù)集到達(dá)時(shí)間給網(wǎng)格賦予一個(gè)權(quán)值擴(kuò)展了DCDA 檢測(cè)模型,計(jì)算臨時(shí)密度網(wǎng)格和歷史密度網(wǎng)格的距離檢測(cè)概念漂移。
基于預(yù)測(cè)的概念漂移檢測(cè)方法包括基于模型的預(yù)測(cè)和基于異常檢測(cè)?;谀P偷念A(yù)測(cè)方法的優(yōu)點(diǎn)是可以利用模型對(duì)新樣本進(jìn)行快速預(yù)測(cè),并且可以適應(yīng)各種數(shù)據(jù)類型和模型類型。然而,它的缺點(diǎn)是高度依賴于模型的準(zhǔn)確性和魯棒性。基于異常檢測(cè)方法的優(yōu)點(diǎn)是可以自動(dòng)發(fā)現(xiàn)與歷史數(shù)據(jù)分布差異較大的樣本或預(yù)測(cè)錯(cuò)誤較大的樣本。然而,它的缺點(diǎn)是對(duì)異常檢測(cè)算法的選擇和參數(shù)設(shè)置要求較高,可能存在誤報(bào)或漏報(bào)的風(fēng)險(xiǎn)。
(1)滑動(dòng)窗口技術(shù)(Sliding Window Technology)
使用滑動(dòng)窗口技術(shù)來監(jiān)測(cè)數(shù)據(jù)分布的變化,例如EWMA (Exponentially Weighted Moving Average)、CUSUM (Cumulative Sum)等方法。Liu等人[39]提出了一種基于區(qū)域密度估計(jì)漂移檢測(cè)方法,稱為基于最近鄰密度變化識(shí)別(NN-DVI),并將其應(yīng)用于基于滑動(dòng)窗口的概念漂移檢測(cè)。該方法由3個(gè)主要組成部分組成,首先通過基于k近鄰的空間劃分模式(NNPS),將離散的不可測(cè)量數(shù)據(jù)實(shí)例轉(zhuǎn)換為一組共享子空間,用于進(jìn)行密度估計(jì)。Ross等人[40]提出了一種基于滑動(dòng)窗口的概念漂移檢測(cè)方法,使用指數(shù)加權(quán)移動(dòng)平均(EWMA)圖來監(jiān)測(cè)流分類器的誤分類率,該模塊化的方法可以與任何底層分類器并行運(yùn)行,從而提供額外的概念漂移檢測(cè)層,并且該方法與許多現(xiàn)有的概念漂移檢測(cè)方法不同,該方法允許控制假陽性檢測(cè)率,并且可以隨時(shí)間保持恒定,從而提供更穩(wěn)定的漂移檢測(cè)性能。Hoens 等人[41]系統(tǒng)性概述了類不平衡和概念漂移問題的挑戰(zhàn)性,并全面回顧了近期為制定一個(gè)整體框架以解決這些問題而進(jìn)行的研究。這包括探討如何使用基于滑動(dòng)窗口方法來檢測(cè)概念漂移,以及如何應(yīng)對(duì)類不平衡問題和非平穩(wěn)環(huán)境中的學(xué)習(xí)需求。
徐清妍等人[42]針對(duì)大多數(shù)概念漂移檢測(cè)算法時(shí)延高、對(duì)噪聲過于敏感的問題,提出了一種基于四分位區(qū)間重疊滑動(dòng)窗口的概念漂移檢測(cè)方法,該方法利用四分位窗口中的樣本和改進(jìn)的Hoeffding不等式來檢測(cè)概念漂移。為了避免噪聲對(duì)分類器性能的影響,在Hoeffding 不等式中引入了基于當(dāng)前樣本分類精度的動(dòng)態(tài)系數(shù)。朱群等人[43]提出一種新的基于雙層窗口機(jī)制的網(wǎng)絡(luò)數(shù)據(jù)分類算法,該算法采用隨機(jī)決策樹模型構(gòu)建集成分類器,利用雙層窗口機(jī)制周期性地檢測(cè)滑動(dòng)窗口中網(wǎng)絡(luò)數(shù)據(jù)分布的變化,并動(dòng)態(tài)地更新模型以適應(yīng)概念漂移。
綜合上述內(nèi)容,通過使用滑動(dòng)窗口技術(shù)能夠?qū)崟r(shí)監(jiān)測(cè)網(wǎng)絡(luò)異常檢測(cè)領(lǐng)域數(shù)據(jù)分布發(fā)生的變化,從而及時(shí)發(fā)現(xiàn)概念漂移。由于滑動(dòng)窗口只保留最新的一部分?jǐn)?shù)據(jù),不需要在內(nèi)存中存儲(chǔ)所有歷史數(shù)據(jù),從而降低了存儲(chǔ)需求。這種輕量級(jí)的存儲(chǔ)方式使得滑動(dòng)窗口方法能夠適應(yīng)高速網(wǎng)絡(luò)數(shù)據(jù)異常檢測(cè),并且具有較低的計(jì)算成本。然而,滑動(dòng)窗口方法也存在一些限制和挑戰(zhàn),例如窗口大小選擇對(duì)于滑動(dòng)窗口方法的性能至關(guān)重要,以確?;瑒?dòng)窗口方法的準(zhǔn)確性和性能。
(1)聚類算法(Clustering Algorithm)
通過對(duì)數(shù)據(jù)進(jìn)行聚類分析,監(jiān)測(cè)聚類結(jié)果的變化來檢測(cè)數(shù)據(jù)概念漂移。Jain 等人[44]提出了基于錯(cuò)誤率和基于數(shù)據(jù)分布的概念漂移檢測(cè)方法,并研究了它們的影響。此外,基于滑動(dòng)窗口的數(shù)據(jù)捕獲和漂移分析與K-Means 聚類相結(jié)合,用于減少數(shù)據(jù)大小和升級(jí)訓(xùn)練數(shù)據(jù)集。使用支持向量機(jī)(SVM)分類器進(jìn)行異常檢測(cè),并在統(tǒng)計(jì)測(cè)試的基礎(chǔ)上啟動(dòng)了模型的再訓(xùn)練。Sakamoto 等人[45]提出了一種基于聚類的概念漂移檢測(cè)方法,通過結(jié)合漂移檢測(cè)方法和Page Hinkley 檢驗(yàn),利用統(tǒng)計(jì)變化檢測(cè)來監(jiān)測(cè)網(wǎng)絡(luò)數(shù)據(jù)中的概念漂移。該方法的獨(dú)特之處在于,它允許用戶對(duì)聚類結(jié)果進(jìn)行注釋,而無需為每個(gè)輸入構(gòu)建漂移檢測(cè)模型。通過使用合成數(shù)據(jù)進(jìn)行實(shí)驗(yàn),研究者評(píng)估了該方法的檢測(cè)延遲和錯(cuò)誤檢測(cè)性能,并揭示了方法參數(shù)與漂移程度之間的關(guān)系。Sousa等人[46]提出了一種基于聚類的概念漂移檢測(cè)和定位集成方法,旨在適應(yīng)復(fù)雜的業(yè)務(wù)流程環(huán)境并提供靈活性。該方法將兩個(gè)任務(wù)集成為一個(gè)解決方案。實(shí)驗(yàn)結(jié)果表明,該方法可以有效地檢測(cè)和定位概念漂移,通過使用合成事件日志,模擬了具有不同類型控制流變化的情況。
(2)基于聚類中心的方法(A Method Based on Cluster Centers)
比較聚類中心之間的距離或相似性來判斷漂移。Fanizzi 等人[47]提出了一種基于聚類中心的方法,用于概念漂移的檢測(cè)。這種方法通過使用語言無關(guān)的半距離測(cè)量,基于資源的基本語義以及與一組概念描述相關(guān)的多個(gè)維度(區(qū)分特征),為個(gè)體提供了簡(jiǎn)單但有效的特征表示。聚類算法基于概念中的medoids(即采用的半距離測(cè)量)進(jìn)行分段處理,最終生成由個(gè)體群體組成的層級(jí)組織。該方法還可以應(yīng)用于檢測(cè)概念漂移或新穎性。Yuan等人[48]提出了一種基于聚類中心的無監(jiān)督概念漂移檢測(cè)算法,通過多尺度滑動(dòng)窗口和k均值聚類方法來計(jì)算總平均距離,并將其作為概念漂移的檢測(cè)指標(biāo)。進(jìn)一步,通過統(tǒng)計(jì)過程控制系統(tǒng)確定了指標(biāo)閾值的范圍。通過對(duì)不同維度的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),驗(yàn)證了該算法在檢測(cè)漸變和突變概念漂移方面的有效性。Ren 等人[49]提出了一種名為梯度重采樣集合(GRE)的集合分類器,用于處理表現(xiàn)出概念漂移和類別分布不均衡的網(wǎng)絡(luò)數(shù)據(jù)。利用DBSCAN 聚類方法可以發(fā)現(xiàn)異常點(diǎn),避免了小簇和異常值對(duì)相似性評(píng)估的干擾。只有與當(dāng)前多數(shù)類集合重疊較低的少數(shù)類實(shí)例才會(huì)被選擇用于對(duì)當(dāng)前少數(shù)類集合進(jìn)行重新采樣。
基于聚類的概念漂移檢測(cè)方法包括聚類算法和基于聚類中心方法。聚類算法的優(yōu)點(diǎn)是可以適應(yīng)數(shù)據(jù)分布的變化,能夠發(fā)現(xiàn)新聚類簇或不同的數(shù)據(jù)分布。然而,它的缺點(diǎn)是對(duì)數(shù)據(jù)的聚類結(jié)果較為敏感,可能會(huì)受到噪聲和異常值的影響。基于聚類中心方法的優(yōu)點(diǎn)是計(jì)算簡(jiǎn)單,不受數(shù)據(jù)規(guī)模影響,對(duì)離群值和噪聲較為魯棒。然而,它的缺點(diǎn)是對(duì)聚類中心的選取和距離度量方法有一定要求,可能會(huì)受到聚類算法的限制。
(1)神經(jīng)網(wǎng)絡(luò)方法(Neural Network)
建立神經(jīng)網(wǎng)絡(luò)模型來學(xué)習(xí)數(shù)據(jù)分布,并監(jiān)測(cè)網(wǎng)絡(luò)輸出的變化來檢測(cè)概念漂移。Elwell 等人[50]提出了一種名為L(zhǎng)earn++.NSE 的基于分類器集合的概念漂移增量學(xué)習(xí)方法,用于處理非平穩(wěn)環(huán)境(NSE)下的網(wǎng)絡(luò)數(shù)據(jù)。Learn++.NSE算法能夠從連續(xù)批次的數(shù)據(jù)中學(xué)習(xí),而不對(duì)漂移的性質(zhì)或速率做出任何假設(shè),適用于各種類型的漂移環(huán)境。該算法屬于增量學(xué)習(xí)范疇,不需要訪問以前的數(shù)據(jù)。Learn++.NSE 在接收到每個(gè)批次數(shù)據(jù)時(shí)訓(xùn)練一個(gè)新的分類器,并使用動(dòng)態(tài)加權(quán)多數(shù)投票將這些分類器組合在一起。
Guo 等人[51]提出了一種基于選擇性集成的在線自適應(yīng)深度神經(jīng)網(wǎng)絡(luò)(SEOA)來解決概念漂移問題。首先,通過將淺層特征與深層特征相結(jié)合來構(gòu)建自適應(yīng)深度單元,并根據(jù)相鄰時(shí)刻網(wǎng)絡(luò)數(shù)據(jù)的變化自適應(yīng)地控制神經(jīng)網(wǎng)絡(luò)中的信息流,從而提高了在線深度學(xué)習(xí)模型的收斂性,將不同層的自適應(yīng)深度單元作為基礎(chǔ)分類器進(jìn)行集成,并根據(jù)每個(gè)分類器的損失進(jìn)行動(dòng)態(tài)加權(quán),以更好地檢測(cè)概念漂移。Yang 等人[52]提出了一種新的網(wǎng)絡(luò)數(shù)據(jù)概念漂移檢測(cè)方法,基于:1)在線序列極限學(xué)習(xí)機(jī)(OS-ELM)的開發(fā)和持續(xù)更新;2)量化更新后的模型被新收集的數(shù)據(jù)修改了多少。所提出的方法在兩個(gè)關(guān)于不同類型概念漂移的綜合案例研究中得到了驗(yàn)證,結(jié)果表明,與其他最先進(jìn)的概念漂移檢測(cè)方法相比,該方法具有優(yōu)越性。
神經(jīng)網(wǎng)絡(luò)方法在概念漂移檢測(cè)中具有以下優(yōu)點(diǎn):神經(jīng)網(wǎng)絡(luò)能夠建模和學(xué)習(xí)復(fù)雜的非線性數(shù)據(jù)關(guān)系,適用于各種復(fù)雜的數(shù)據(jù)模式和問題領(lǐng)域。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的靈活性使其能夠適應(yīng)不同的數(shù)據(jù)和任務(wù),可以通過調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)來應(yīng)對(duì)不同類型的概念漂移。然而,它的缺點(diǎn)是通常需要大量的訓(xùn)練數(shù)據(jù)和計(jì)算資源,訓(xùn)練過程較為耗時(shí)。需要調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),對(duì)網(wǎng)絡(luò)的選擇和調(diào)優(yōu)要求較高,并且對(duì)大量標(biāo)記數(shù)據(jù)的依賴性較高,如果數(shù)據(jù)不充分或標(biāo)記不準(zhǔn)確,可能影響模型的性能。
概念漂移檢測(cè)方法總結(jié)如表1所示,可以看出這些方法各有優(yōu)缺點(diǎn),分別適用于不同類型的數(shù)據(jù)特征和漂移情景。在實(shí)際應(yīng)用中,常常需要結(jié)合多種方法或根據(jù)具體情況檢測(cè)概念漂移。此外,還有一些新的方法和模型不斷涌現(xiàn),以應(yīng)對(duì)不斷變化的漂移檢測(cè)需求。
表1 概念漂移檢測(cè)方法總結(jié)Table 1 Summary of concept drift detection methods
使用公開數(shù)據(jù)集在概念漂移檢測(cè)領(lǐng)域變得越來越流行。公開數(shù)據(jù)集具有廣泛可用性,同時(shí)可以避免真實(shí)數(shù)據(jù)中存在的隱私和倫理問題及不同領(lǐng)域的需求,成為概念漂移檢測(cè)算法的評(píng)估基準(zhǔn)。目前,網(wǎng)絡(luò)異常檢測(cè)領(lǐng)域概念漂移檢測(cè)常用公開數(shù)據(jù)集如表2所示。
表2 概念漂移檢測(cè)常用公開數(shù)據(jù)集Table2 Commonly Used Datasets for Concept Drift Detection
這些數(shù)據(jù)集特征多樣性反映了真實(shí)世界中概念漂移的復(fù)雜性,并為解決概念漂移問題提供了豐富的實(shí)驗(yàn)場(chǎng)景。
提高網(wǎng)絡(luò)異常檢測(cè)系統(tǒng)的準(zhǔn)確性和適應(yīng)性可以通過減輕概念漂移的影響來實(shí)現(xiàn),以下是以下常見的緩解概念漂移的方法:
(1)實(shí)例選擇(Instance Selection)
實(shí)例選擇方法是通過選擇最具代表性和有價(jià)值的實(shí)例來緩解概念漂移對(duì)模型的影響。Gama等人[53]提出了一種使用基于實(shí)例選擇的方法來抵御概念漂移的方法,其核心思想是通過控制算法的在線錯(cuò)誤率來檢測(cè)實(shí)例概率分布的變化。算法定義了警告級(jí)別和漂移級(jí)別,當(dāng)一系列示例中的錯(cuò)誤率增加到警告級(jí)別和漂移級(jí)別所定義的閾值時(shí),就會(huì)宣布示例的分布發(fā)生了變化。在這種情況下,算法僅使用自警告級(jí)別之后的示例來學(xué)習(xí)新的模型。
(2)實(shí)例加權(quán)(Instance Weighting)
通過在訓(xùn)練模型時(shí)對(duì)不同的網(wǎng)絡(luò)數(shù)據(jù)實(shí)例進(jìn)行加權(quán),以更好地適應(yīng)新的數(shù)據(jù)分布。Schlimmer 等人[54]提出了一種基于實(shí)例加權(quán)的學(xué)習(xí)方法STAGGER,用于處理復(fù)雜環(huán)境下的概念漂移。該方法能夠在容忍噪聲和漂移的情況下學(xué)習(xí)復(fù)雜的布爾特征,并通過實(shí)驗(yàn)證明了其跟蹤概念變化的能力。
(3)集成學(xué)習(xí)(Ensemble Learning)
通過結(jié)合多個(gè)基礎(chǔ)模型預(yù)測(cè)結(jié)果來提高整體性能和魯棒性。Susnjak等人[55]提出了一種用于增強(qiáng)系綜級(jí)聯(lián)的自適應(yīng)學(xué)習(xí)算法,該算法旨在處理非平穩(wěn)環(huán)境中的概念漂移問題,該方法的獨(dú)特性體現(xiàn)在兩個(gè)方面:第一種是在訓(xùn)練期間對(duì)集合的每個(gè)級(jí)聯(lián)層中的各個(gè)弱分類器進(jìn)行聚類并分配能力值的方式,第二種是在運(yùn)行時(shí)學(xué)習(xí)最優(yōu)級(jí)聯(lián)層閾值想法,這使得能夠快速適應(yīng)動(dòng)態(tài)環(huán)境變化。
(4)聚類(Clustering)
聚類方法在一定程度上可以幫助抵御概念漂移,但它們并不能完全解決概念漂移問題。Spinosa等人[56]提出了一種新穎檢測(cè)方法OLINDDA,該方法將其作為連續(xù)學(xué)習(xí)場(chǎng)景中識(shí)別新概念的問題,作為單類分類問題的擴(kuò)展。OLINDDA 使用高效的標(biāo)準(zhǔn)聚類算法在當(dāng)前已知概念未解釋示例中連續(xù)生成候選聚類。符合考慮凝聚力和代表性的驗(yàn)證標(biāo)準(zhǔn)的集群最初被確定為概念。通過合并類似的概念,OLINDDA可以在以無監(jiān)督方式描述新興概念最終目標(biāo)過程中增強(qiáng)一些概念的表示。
(5)采樣(Sampling)
采樣方法可以根據(jù)具體的情況選擇合適的樣本,以便更好地適應(yīng)網(wǎng)絡(luò)數(shù)據(jù)中新的概念和數(shù)據(jù)分布。Yang 等人[57]提出了一種新系統(tǒng)CADE,旨在檢測(cè)偏離現(xiàn)有類別漂移的樣本和解釋檢測(cè)到漂移的原因,與傳統(tǒng)方法(需要大量新標(biāo)簽來統(tǒng)計(jì)確定概念漂移)不同,該方法是在單個(gè)漂移樣本到達(dá)時(shí)識(shí)別它們,將數(shù)據(jù)樣本映射到低維空間,并自動(dòng)學(xué)習(xí)距離函數(shù)來測(cè)量樣本之間的相異性。
概念漂移檢測(cè)方法的性能評(píng)估是確保其實(shí)際應(yīng)用可行性的關(guān)鍵一步。在本節(jié)中,將探討當(dāng)前概念漂移檢測(cè)性能評(píng)估的常見方法、關(guān)注點(diǎn)以及未來需關(guān)注的方向[58]。
當(dāng)前,衡量概念漂移檢測(cè)性能的方法主要集中在幾個(gè)方面[59]。其中,常見的方法包括:
(1)準(zhǔn)確率(Accuracy):準(zhǔn)確率是評(píng)估模型預(yù)測(cè)的正確性與總樣本數(shù)量之比。它是一種直觀的性能度量,但在類別不平衡的情況下可能會(huì)出現(xiàn)偏差。
(2)召回率(Recall):召回率衡量了模型正確識(shí)別正例的能力,對(duì)于概念漂移檢測(cè)來說,高召回率意味著模型能有效捕捉到概念漂移事件。
(3)F1 Score:F1 Score是準(zhǔn)確率和召回率的調(diào)和平均,綜合考慮了兩者之間的平衡。
在概念漂移檢測(cè)性能方面,有以下重要關(guān)注點(diǎn)[60]:
(1)實(shí)時(shí)性:在實(shí)際應(yīng)用中,模型的實(shí)時(shí)性變得至關(guān)重要。這意味著模型需要能夠迅速檢測(cè)到概念漂移的發(fā)生,以便及時(shí)采取必要的措施。實(shí)時(shí)性是確保模型在動(dòng)態(tài)環(huán)境下保持高性能的關(guān)鍵因素之一。
(2)快速檢測(cè):快速檢測(cè)概念漂移是與實(shí)時(shí)性密切相關(guān)的關(guān)注點(diǎn)。模型需要能夠迅速識(shí)別概念漂移事件,以防止對(duì)系統(tǒng)或業(yè)務(wù)造成不必要的影響。在某些情況下,延遲甚至數(shù)秒的差異都可能對(duì)決策產(chǎn)生重大影響。
(3)適應(yīng)性:模型的適應(yīng)性是指其能夠在概念漂移發(fā)生后自動(dòng)調(diào)整,以適應(yīng)新的數(shù)據(jù)分布。這種自適應(yīng)性對(duì)于保持模型的性能至關(guān)重要,而不僅僅是在訓(xùn)練期間達(dá)到高準(zhǔn)確率和召回率。
(4)可解釋性:模型的可解釋性是指能夠解釋其決策過程和預(yù)測(cè)依據(jù)。在實(shí)際應(yīng)用中,決策者需要理解模型的工作原理,以便對(duì)模型的建議或決策產(chǎn)生信任??山忉屝杂兄谔岣吣P驮趯?shí)際應(yīng)用中的可信度,并支持決策制定。
這些關(guān)注點(diǎn)共同影響著概念漂移檢測(cè)模型在實(shí)際應(yīng)用中的性能和有效性。在選擇和評(píng)估概念漂移檢測(cè)方法時(shí),綜合考慮這些因素可以幫助確保模型在動(dòng)態(tài)環(huán)境中表現(xiàn)出色,同時(shí)滿足實(shí)際需求。
目前,概念漂移檢測(cè)領(lǐng)域在性能方面仍存在一些挑戰(zhàn)。在處理高維度、大規(guī)模數(shù)據(jù)集時(shí),現(xiàn)有方法可能面臨效率和計(jì)算資源的限制。未來的研究需要關(guān)注如何優(yōu)化算法,以在實(shí)際應(yīng)用中快速檢測(cè)概念漂移。另外,隨著數(shù)據(jù)不斷演化,模型的持續(xù)適應(yīng)能力也變得至關(guān)重要。研究人員需要探索增量學(xué)習(xí)、在線學(xué)習(xí)等技術(shù),以實(shí)現(xiàn)模型的持續(xù)性能提升[61]。
總之,概念漂移檢測(cè)的性能評(píng)估涉及多個(gè)指標(biāo)和關(guān)注點(diǎn),未來的研究應(yīng)聚焦于優(yōu)化模型的準(zhǔn)確性、實(shí)時(shí)性、可解釋性以及持續(xù)適應(yīng)性,以滿足實(shí)際應(yīng)用的需求。
盡管已經(jīng)提出了許多方法來檢測(cè)概念漂移的發(fā)生,以及降低概念漂移的影響,但現(xiàn)有方法中仍存在一些局限性,限制了它們?cè)趯?shí)際應(yīng)用中的適用性。也為未來概念漂移的研究提供了一些可能的方向:
(1)復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)中的概念漂移檢測(cè):現(xiàn)實(shí)世界的網(wǎng)絡(luò)數(shù)據(jù)通常更為復(fù)雜和動(dòng)態(tài),而現(xiàn)有方法大多基于簡(jiǎn)單和平穩(wěn)的網(wǎng)絡(luò)數(shù)據(jù)假設(shè)。因此,未來可以關(guān)注如何在復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)中準(zhǔn)確檢測(cè)和適應(yīng)概念漂移,以應(yīng)對(duì)更為復(fù)雜的數(shù)據(jù)變化情況。
(2)含概念漂移的多類不平衡網(wǎng)絡(luò)數(shù)據(jù)分類:在實(shí)際場(chǎng)景中,網(wǎng)絡(luò)異常檢測(cè)數(shù)據(jù)往往存在類別不平衡情況,而概念漂移可能進(jìn)一步增加類別不平衡的挑戰(zhàn)。因此,需要研究如何在含有概念漂移和類別不平衡網(wǎng)絡(luò)數(shù)據(jù)中進(jìn)行有效的多類別異常檢測(cè),以提高模型的泛化能力和魯棒性。
(3)多標(biāo)簽中類不平衡網(wǎng)絡(luò)數(shù)據(jù)分類:某些應(yīng)用中,數(shù)據(jù)實(shí)例可能涉及多個(gè)標(biāo)簽,并且這些標(biāo)簽之間也可能存在不平衡的情況。針對(duì)這種多標(biāo)簽、類不平衡的網(wǎng)絡(luò)數(shù)據(jù),如何有效處理概念漂移并準(zhǔn)確地進(jìn)行異常檢測(cè)是一個(gè)具有挑戰(zhàn)性的問題,可以進(jìn)一步研究。
(4)特征演化中網(wǎng)絡(luò)數(shù)據(jù)的新類探測(cè):在某些場(chǎng)景中,隨著時(shí)間推移,新的類別可能逐漸出現(xiàn),這被稱為特征演化。如何在特征演化網(wǎng)絡(luò)數(shù)據(jù)中及時(shí)發(fā)現(xiàn)和適應(yīng)新類別的出現(xiàn),并準(zhǔn)確地進(jìn)行異常檢測(cè),是一個(gè)重要的研究方向。研究人員可以探索如何利用增量學(xué)習(xí)、自適應(yīng)模型更新等技術(shù)來解決這一問題。
(5)檢測(cè)性能的研究:雖然已經(jīng)提出了多種方法來檢測(cè)概念漂移,但仍需要更深入地研究這些方法的性能。未來的研究可以著重于開發(fā)評(píng)估框架和度量標(biāo)準(zhǔn),以全面衡量不同概念漂移檢測(cè)方法的性能。這包括準(zhǔn)確性、召回率、特異性以及實(shí)時(shí)性等關(guān)鍵性能指標(biāo)的評(píng)估。此外,還可以研究如何優(yōu)化這些方法,以平衡性能和計(jì)算資源的利用,使其在大規(guī)模和高維度數(shù)據(jù)集上更加高效。檢測(cè)性能的提升對(duì)于將概念漂移研究應(yīng)用到實(shí)際網(wǎng)絡(luò)異常檢測(cè)中至關(guān)重要。
通過進(jìn)一步研究上述挑戰(zhàn)和問題,可以為概念漂移異常檢測(cè)方法的改進(jìn)和應(yīng)用提供新的思路和解決方案,推動(dòng)該領(lǐng)域的發(fā)展和廣泛應(yīng)用。在克服當(dāng)前方法的局限性和挑戰(zhàn)的過程中,概念漂移異常檢測(cè)的性能和效果將得到進(jìn)一步提升,為實(shí)際應(yīng)用帶來更大的價(jià)值和好處。
本篇綜述全面介紹了網(wǎng)絡(luò)異常檢測(cè)領(lǐng)域的概念漂移問題,著重關(guān)注了未來研究工作中的檢測(cè)性能問題。首先,明確定義了概念漂移,并強(qiáng)調(diào)了其在數(shù)據(jù)異常檢測(cè)中的至關(guān)重要性。在深入討論概念漂移的分類和分析時(shí),本文以多維度、全面的方式介紹了不同類型的概念漂移。在探討概念漂移檢測(cè)方法時(shí),本文系統(tǒng)梳理了基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的檢測(cè)方法,包括方法原理、優(yōu)劣勢(shì)以及適用范圍。此外,本文還深入研究了應(yīng)對(duì)概念漂移的方法,其中包括監(jiān)測(cè)和適應(yīng)策略、模型更新以及增量學(xué)習(xí)技術(shù)等手段,以提升模型性能和魯棒性。最后,著眼于未來的研究工作,本文提出了一系列可能的研究方向,包括復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)中的概念漂移檢測(cè)、處理含漂移的多類不平衡網(wǎng)絡(luò)數(shù)據(jù)分類、多標(biāo)簽中的類不平衡網(wǎng)絡(luò)數(shù)據(jù)分類,以及特征演化網(wǎng)絡(luò)數(shù)據(jù)中的新類別探測(cè)等。這些方向?yàn)榫W(wǎng)絡(luò)異常檢測(cè)領(lǐng)域未來的概念漂移研究提供了有力的引導(dǎo),特別是在提高檢測(cè)性能方面的探索。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。