黃 暢,劉晏嘉,羅晟庭
(北京交通大學(xué),北京 100044)
隨著網(wǎng)絡(luò)應(yīng)用服務(wù)不斷更新迭代和網(wǎng)絡(luò)用戶流量規(guī)模劇烈增長(zhǎng),傳統(tǒng)網(wǎng)絡(luò)管控手段已經(jīng)難以應(yīng)對(duì)現(xiàn)有網(wǎng)絡(luò)“高速率、大規(guī)模、多接入、不可預(yù)期”等特點(diǎn)帶來(lái)的管控挑戰(zhàn)。此研究相對(duì)于傳統(tǒng)網(wǎng)絡(luò)監(jiān)測(cè)及故障排除方法更加具有創(chuàng)造性和革新性,能夠應(yīng)對(duì)網(wǎng)絡(luò)狀態(tài)測(cè)量、網(wǎng)絡(luò)故障檢測(cè)、故障精準(zhǔn)定位與及時(shí)恢復(fù)網(wǎng)絡(luò)性能等場(chǎng)景的網(wǎng)絡(luò)管控,此解決方案對(duì)于網(wǎng)絡(luò)管理者而言已是迫在眉睫。與傳統(tǒng)網(wǎng)絡(luò)測(cè)量方案不同,帶內(nèi)測(cè)量將數(shù)據(jù)包轉(zhuǎn)發(fā)和網(wǎng)絡(luò)測(cè)量相結(jié)合,通過(guò)路徑中間交換節(jié)點(diǎn)對(duì)數(shù)據(jù)包依次插入元數(shù)據(jù)的方式完成網(wǎng)絡(luò)狀態(tài)采集。相較于傳統(tǒng)網(wǎng)絡(luò)測(cè)量方案,帶內(nèi)測(cè)量能夠?qū)W(wǎng)絡(luò)拓?fù)?、網(wǎng)絡(luò)性能和網(wǎng)絡(luò)流量實(shí)現(xiàn)端到端測(cè)量。
帶內(nèi)網(wǎng)絡(luò)遙測(cè)是網(wǎng)絡(luò)數(shù)據(jù)平面可編程的重要應(yīng)用場(chǎng)景,拓展了傳統(tǒng)網(wǎng)絡(luò)測(cè)量邊界。現(xiàn)階段帶內(nèi)網(wǎng)絡(luò)遙測(cè)的相關(guān)研究多集中于遙測(cè)架構(gòu)和應(yīng)用上,處于“能測(cè)就行”的起步階段,缺少對(duì)帶內(nèi)網(wǎng)絡(luò)遙測(cè)缺失數(shù)據(jù)補(bǔ)全算法的研究。帶內(nèi)網(wǎng)絡(luò)遙測(cè)通過(guò)用戶數(shù)據(jù)包承載遙測(cè)數(shù)據(jù),用戶數(shù)據(jù)包的丟包會(huì)導(dǎo)致網(wǎng)絡(luò)遙測(cè)數(shù)據(jù)缺失。帶內(nèi)網(wǎng)絡(luò)遙測(cè)數(shù)據(jù)本質(zhì)是時(shí)間序列數(shù)據(jù),網(wǎng)絡(luò)遙測(cè)數(shù)據(jù)缺失往往屬于隨機(jī)數(shù)據(jù)缺失,而這種丟包現(xiàn)象是不可避免的,每當(dāng)發(fā)生丟包,勢(shì)必會(huì)引起網(wǎng)絡(luò)層面上的一些重大故障,導(dǎo)致測(cè)量結(jié)果的不準(zhǔn)確,故在遙測(cè)方向的背景下缺失數(shù)據(jù)的處理,本文通過(guò)多種方法對(duì)缺失的數(shù)據(jù)進(jìn)行補(bǔ)全并對(duì)補(bǔ)全效果進(jìn)行研究。
首先,在對(duì)帶內(nèi)網(wǎng)絡(luò)遙測(cè)過(guò)程中缺失的網(wǎng)絡(luò)狀態(tài)測(cè)量值進(jìn)行處理之前,了解相關(guān)網(wǎng)絡(luò)節(jié)點(diǎn)測(cè)量值缺失機(jī)制及其類別是必要的。如果在測(cè)量過(guò)程中得到的數(shù)據(jù)中不包含任何缺失值,則將其稱為完全變量,若測(cè)量得到的數(shù)據(jù)中含有任一缺失數(shù)據(jù)則稱其為不完全變量,Roderick J.A.Little和Donald B.Rubin 定義了如下三種數(shù)據(jù)缺失機(jī)制:
(1)完全隨機(jī)缺失(Missing Completely at Random,MCAR)[1]。數(shù)據(jù)的缺失與完全變量和不完全變量都無(wú)關(guān);隨機(jī)缺失(Missing at Random,MAR)。數(shù)據(jù)的缺失僅僅與完全變量有關(guān);非隨機(jī)不可忽略缺失(Not Missing at Random,NMAR[2],or Non-ignorable)。不完全變量中數(shù)據(jù)的缺失依賴于它自身的特性,這種缺失在實(shí)際應(yīng)用中不可忽略。
(2)缺失值插補(bǔ)針對(duì)兩種類型:?jiǎn)我徊逖a(bǔ)(single imputation)[3]以及多重插補(bǔ)(multiple imputation)。單一插補(bǔ)指使用特定方法,對(duì)因?yàn)闊o(wú)響應(yīng)造成的缺失值僅構(gòu)造一個(gè)合理替代值,并將該替代值插補(bǔ)到原缺失數(shù)據(jù)位置,從而構(gòu)造出完整數(shù)據(jù)集。多重插補(bǔ)是一種基于重復(fù)模擬的處理缺失數(shù)據(jù)的方法。它從一個(gè)包含缺失數(shù)據(jù)的數(shù)據(jù)集中生成一組完整的數(shù)據(jù)集,每個(gè)數(shù)據(jù)集中的缺失數(shù)據(jù)用蒙特·卡羅法來(lái)填補(bǔ)。從缺失數(shù)據(jù)的所屬類別上看,如果所有的缺失數(shù)據(jù)為同一類型,這種缺失稱為單值缺失;如果缺失數(shù)據(jù)屬于不同類型,為任意缺失。對(duì)于時(shí)間序列類的數(shù)據(jù),可能存在隨著時(shí)間的缺失,這種缺失稱為單調(diào)缺失,分析可以得出,網(wǎng)絡(luò)遙測(cè)數(shù)據(jù)的缺失是一種單值單調(diào)的隨機(jī)數(shù)據(jù)缺失。
故在本文研究中,利用目前數(shù)據(jù)平面帶內(nèi)網(wǎng)絡(luò)遙測(cè)主要研究之一,P4 聯(lián)盟主導(dǎo)的帶內(nèi)網(wǎng)絡(luò)遙測(cè)(In-band Network Telemetry,INT)[4]模擬現(xiàn)實(shí)中網(wǎng)絡(luò)情況,將一段時(shí)間的時(shí)間序列數(shù)據(jù)導(dǎo)出,得到時(shí)間戳及其相應(yīng)時(shí)間上所對(duì)應(yīng)的網(wǎng)絡(luò)的逐跳延遲等若干數(shù)據(jù),然后人為進(jìn)行數(shù)據(jù)的隨機(jī)丟失處理,接著使用不同方法進(jìn)行缺失數(shù)據(jù)的填充,比較驗(yàn)證各類數(shù)據(jù)補(bǔ)全方法在帶內(nèi)網(wǎng)絡(luò)遙測(cè)領(lǐng)域的有效性與可靠性。
刪除元組法是將缺失的數(shù)據(jù)直接刪除,得到完備的信息集合,集合中數(shù)據(jù)為完整原始的測(cè)量數(shù)據(jù),但是被刪除數(shù)據(jù)所包含信息和其缺失所帶來(lái)的影響不可忽視。如果樣本容量足夠大,這個(gè)方法是有效的,然而這種方法卻有很大的局限性。它以減少部分測(cè)量數(shù)據(jù)來(lái)?yè)Q取數(shù)據(jù)集合的完備性,造成測(cè)量資源以及測(cè)量時(shí)間的大量浪費(fèi),增加測(cè)量成本負(fù)擔(dān)。此外,丟棄的這些包含缺失數(shù)據(jù)的對(duì)象中還隱藏著大量的測(cè)量信息,這些數(shù)據(jù)的丟棄對(duì)測(cè)量的準(zhǔn)確性和客觀性帶來(lái)了影響,同時(shí)對(duì)后續(xù)的測(cè)量結(jié)果分析工作也造成了一定的困難。在樣本容量不足的情況下,刪除少量數(shù)據(jù)就足以嚴(yán)重影響到測(cè)量結(jié)果的準(zhǔn)確性,性能非常差。因此,當(dāng)缺失數(shù)據(jù)所占百分比較大,特別是當(dāng)缺失數(shù)據(jù)服從隨機(jī)分布時(shí),這種方法容易導(dǎo)致數(shù)據(jù)發(fā)生大偏差,進(jìn)而在分析測(cè)量結(jié)果的過(guò)程中可能會(huì)得出錯(cuò)誤結(jié)論。
而在本實(shí)驗(yàn)過(guò)程中,我們將人為隨機(jī)丟失的部分?jǐn)?shù)據(jù)直接進(jìn)行刪除的操作,可以看出刪除元組法在準(zhǔn)確性上具有較大的局限,與原有數(shù)據(jù)存在極大的偏離,在實(shí)際帶內(nèi)網(wǎng)絡(luò)遙測(cè)領(lǐng)域中,這種程度的誤差范圍是我們所不能接受的,會(huì)引起諸如增大網(wǎng)絡(luò)開(kāi)銷、遙測(cè)精度降低等一系列性能問(wèn)題。
這類方法是通過(guò)一些分析方法得出較為合適的數(shù)據(jù)去填充缺失數(shù)據(jù),從而使數(shù)據(jù)集完整化。一般基于統(tǒng)計(jì)學(xué)原理,根據(jù)未缺失數(shù)據(jù)取值的分布情況以及數(shù)據(jù)之間內(nèi)在聯(lián)系對(duì)缺失數(shù)據(jù)進(jìn)行合理補(bǔ)齊,在遙測(cè)仿真網(wǎng)絡(luò)中所提取到的部分性能數(shù)據(jù)恢復(fù)完整數(shù)據(jù)的質(zhì)量,依賴于此統(tǒng)計(jì)技術(shù),而當(dāng)下常用的有以下幾種填充方法:
1.2.1 均值填充(Mean/Mode Completer)
為了盡可能保證涉及到所有數(shù)據(jù),平均數(shù)考慮了每一個(gè)個(gè)體對(duì)總體的貢獻(xiàn),給每個(gè)測(cè)量數(shù)據(jù)賦予相同或不同的權(quán)重占比。平均數(shù):
少量的缺失數(shù)據(jù)能夠直接刪除處理。除此之外,由于均值很好地保留并反映了樣本或總體的集中特點(diǎn),以均值作為填充數(shù)據(jù)來(lái)填補(bǔ)缺失位置也是一個(gè)合適的方式。在本次實(shí)驗(yàn)中,帶內(nèi)網(wǎng)絡(luò)遙測(cè)仿真環(huán)境所導(dǎo)出的數(shù)據(jù)類型是一個(gè)二維數(shù)組,具體是不同時(shí)間戳下所對(duì)應(yīng)遙測(cè)網(wǎng)絡(luò)中節(jié)點(diǎn)的逐跳時(shí)延,由于空值是屬于數(shù)值型的,故我們采用的是逐跳延遲的平均值進(jìn)行填充,在此處我們還進(jìn)行了一項(xiàng)改進(jìn),如果取的是丟失數(shù)據(jù)補(bǔ)集的所有元素平均值來(lái)進(jìn)行填充的話,無(wú)法反映出數(shù)據(jù)在其時(shí)間戳上的特殊性,所以我們將區(qū)間盡可能縮小,從而讓填充值與時(shí)間的對(duì)應(yīng)關(guān)系盡可能貼近原有數(shù)據(jù),并能夠恢復(fù)出一定的變化趨勢(shì),但由于本次實(shí)驗(yàn)導(dǎo)出的逐跳延遲數(shù)據(jù)性質(zhì)具有一定的隨機(jī)性,在某些跳變大的區(qū)間內(nèi)恢復(fù)精度會(huì)受到影響。
數(shù)學(xué)方法可以在一定程度上實(shí)現(xiàn)丟失遙測(cè)數(shù)據(jù)的填充,但是很大程度上忽視了數(shù)據(jù)間以及局部數(shù)據(jù)與整體數(shù)據(jù)之間的內(nèi)在聯(lián)系。為了實(shí)現(xiàn)網(wǎng)絡(luò)性能數(shù)據(jù)模型中數(shù)據(jù)更好的交互,當(dāng)下國(guó)內(nèi)外已有許多學(xué)者使用張量模型對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行填充,充分利用了數(shù)據(jù)的多重相關(guān)性(即隱藏的時(shí)空相關(guān)性),其通常將源節(jié)點(diǎn)、目的節(jié)點(diǎn)和時(shí)間間隔的特征投影到一個(gè)空間中,利用該空間的潛在因子向量的內(nèi)積表示三者間的內(nèi)在聯(lián)系。這一分析過(guò)程是基于三者間的聯(lián)系是線性的假設(shè),然而實(shí)際的網(wǎng)絡(luò)遙測(cè)過(guò)程中很大部分的數(shù)據(jù)之間并不是簡(jiǎn)單的線性關(guān)系,往往存在比較復(fù)雜的非線性關(guān)系。因此,在實(shí)際情況下,不能只用簡(jiǎn)單的線性關(guān)系來(lái)理解數(shù)據(jù)間的關(guān)聯(lián),進(jìn)而導(dǎo)致數(shù)據(jù)恢復(fù)的精度受限。因此,我們引入了深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。
深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別等領(lǐng)域上取得了巨大的成就,因此可以類比這些處理方式,將深度學(xué)習(xí)應(yīng)用于遙測(cè)數(shù)據(jù)的補(bǔ)全上,通過(guò)大量數(shù)據(jù)的學(xué)習(xí),找尋不同時(shí)間戳下逐跳時(shí)延值的內(nèi)在規(guī)律及關(guān)系。此處,我們只采用了一種EM 算法進(jìn)行實(shí)驗(yàn),諸如決策樹(shù)、向量機(jī)等深度學(xué)習(xí)算法也是可行的,在結(jié)果上存在細(xì)微的差別,但從整體上的還原效果大致類似。
1.2.2 期望值最大化方法(Expectation maximuzation,EM)
隨著網(wǎng)絡(luò)日益復(fù)雜化,細(xì)粒度網(wǎng)絡(luò)監(jiān)控的可靠性、靈活性等面臨著前所未有的挑戰(zhàn)。相比于傳統(tǒng)的監(jiān)控方式和處理手段,通過(guò)機(jī)器學(xué)習(xí)的方式則可以做出更優(yōu)化的決策。在隨機(jī)性缺失的情況下,假設(shè)該模型對(duì)于一個(gè)完整樣品來(lái)說(shuō)都是正確和合適的,那么我們就可以通過(guò)觀察數(shù)據(jù)邊沿的分布來(lái)對(duì)其中一些未知的參數(shù)做出極大似然性估計(jì),將之稱為忽略缺失值的極大似然估計(jì),在實(shí)際應(yīng)用過(guò)程中經(jīng)常采取的一種計(jì)算方式是預(yù)測(cè)期望值的最大化(Expectation Maximization,EM)[5]。該方法較之于刪除元組法和簡(jiǎn)單的多值插入法更符合一個(gè)整體的數(shù)據(jù)集,原因在于這種算法適用于大樣本數(shù)據(jù)集,適用于本次帶內(nèi)網(wǎng)絡(luò)遙測(cè)實(shí)驗(yàn)中。有效樣本數(shù)量足夠來(lái)保障其估計(jì)值是漸近無(wú)偏的且符合正態(tài)分布,然而該算法可能會(huì)陷入局部極值,收斂速度不快,計(jì)算較復(fù)雜。
EM 算法是一種在不完全數(shù)據(jù)情況下計(jì)算極大似然估計(jì)或者后驗(yàn)分布的迭代算法。在每一迭代循環(huán)過(guò)程中交替執(zhí)行兩個(gè)步驟:E 步(Expectationstep,期望步)和M步(Maximzation step,極大化步),算法在E 步和M 步之間不停交替迭代直到收斂為止,即在兩次迭代中所得到的參數(shù)之差小于一個(gè)提前設(shè)定的閾值之時(shí),迭代結(jié)束,其實(shí)施過(guò)程如下:
極大似然估計(jì)已知一個(gè)樣本集符合某種概率分布,但是該分布的某些參數(shù)未知,通過(guò)尋找使得樣本重復(fù)的概率最大化的參數(shù)作為未知參數(shù)的估計(jì)值,假設(shè)未知參數(shù)為X,與參數(shù)X 有關(guān)的隱含量Z。
首先隨機(jī)估計(jì)一個(gè)X 值,接著進(jìn)行E 步:在固定參數(shù)X 后,使下界拉升的函數(shù)Q(Z)的計(jì)算公式為條件概率,基于這個(gè)論斷,就解決了Q(Z)如何抉擇的問(wèn)題,建立了樣本集的聯(lián)合概率L(X)的下界。之后,對(duì)于每一個(gè)i,依據(jù)上一次迭代的模型參數(shù)來(lái)計(jì)算出隱性變量的后驗(yàn)概率即隱性變量的期望,以此作為隱藏變量的估計(jì)值。然后進(jìn)行M 步:在給定Q(Z)后,調(diào)整參數(shù)X,極大化L(X)的下界。
如此循環(huán)重復(fù),不停迭代,直到收斂就可以得到使似然函數(shù)L(X)最大化的參數(shù)X 了。
數(shù)據(jù)描述:本文利用目前數(shù)據(jù)平面帶內(nèi)網(wǎng)絡(luò)遙測(cè)主要研究之一,P4 聯(lián)盟主導(dǎo)的帶內(nèi)網(wǎng)絡(luò)遙測(cè)(In-band Network Telemetry,INT)模擬現(xiàn)實(shí)中網(wǎng)絡(luò)情況,將一段時(shí)間的時(shí)間序列數(shù)據(jù)導(dǎo)出,得到時(shí)間戳及其相應(yīng)時(shí)間戳所對(duì)應(yīng)的網(wǎng)絡(luò)中逐跳延遲的若干數(shù)據(jù),然后進(jìn)行數(shù)據(jù)的隨機(jī)丟失處理操作??紤]到缺口處的大小可能會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生一定的影響,所以在丟失數(shù)據(jù)操作時(shí),對(duì)缺口數(shù)據(jù)量也進(jìn)行了一定的控制,在一定數(shù)據(jù)范圍內(nèi)設(shè)置了五處缺口位置,根據(jù)每處缺失數(shù)據(jù)量的區(qū)間大小分為三組,第一組每處缺失1 個(gè)數(shù)據(jù),第二組每處缺失5 個(gè)數(shù)據(jù),第三組每處缺失10 個(gè)數(shù)據(jù)。分別采用刪除元組法,均值填補(bǔ)法以及EM 算法進(jìn)行數(shù)據(jù)補(bǔ)全,最后通過(guò)計(jì)算并對(duì)比誤差大小來(lái)判斷各類方法的特點(diǎn)。
通過(guò)數(shù)據(jù)補(bǔ)全后作圖,將逐跳延遲數(shù)據(jù)丟失前以及補(bǔ)全后的對(duì)比展示如下。
通過(guò)對(duì)比相同缺失位置,不同缺失量之間的差別,我們可以看出,刪除元組法對(duì)于數(shù)據(jù)的處理效果隨著丟失數(shù)據(jù)數(shù)量的增加逐漸變差,當(dāng)數(shù)據(jù)丟失較多時(shí),這樣的處理方式會(huì)導(dǎo)致大量數(shù)據(jù)丟失,一些關(guān)鍵起伏點(diǎn)的缺失如果用這種方法進(jìn)行處理的話,會(huì)導(dǎo)致測(cè)量的準(zhǔn)確度大幅下降。而通過(guò)對(duì)比相同缺失量,不同缺失位置之間的差異,我們可以得出,刪除元組法對(duì)于變化趨勢(shì)相對(duì)穩(wěn)定,起伏不明顯的缺失位置的處理效果要優(yōu)于對(duì)有較大變動(dòng)、變化趨勢(shì)變化較明顯的位置的處理效果。這種方法的優(yōu)勢(shì)在于操作簡(jiǎn)單、計(jì)算成本較低,但是會(huì)造成數(shù)據(jù)的缺失,對(duì)于大量數(shù)據(jù)缺失的場(chǎng)景處理效果并不理想(見(jiàn)圖1-圖3)。
圖1 第一組刪除元組方法補(bǔ)全效果圖
圖2 第二組刪除元組方法補(bǔ)全效果圖
圖3 第三組刪除元組方法補(bǔ)全效果圖
由實(shí)驗(yàn)結(jié)果可以看出,均值補(bǔ)全法相對(duì)于刪除元組法,其補(bǔ)全的數(shù)據(jù)更加貼近于原始數(shù)據(jù)的起伏變化,盡可能不丟失原始數(shù)據(jù),對(duì)于較多數(shù)據(jù)缺失的情況也可以較好恢復(fù)。雖然其補(bǔ)全的數(shù)據(jù)可以更大程度地接近原始數(shù)據(jù)的變化趨勢(shì),但是有部分?jǐn)?shù)據(jù)補(bǔ)全后與原始數(shù)據(jù)相差較大,這也使得補(bǔ)全數(shù)據(jù)的總體誤差上升。這種方法的優(yōu)勢(shì)在于可以較好地還原原始數(shù)據(jù)的變化趨勢(shì),然而補(bǔ)全數(shù)據(jù)的準(zhǔn)確性還有待提高(見(jiàn)圖4-圖6)。
圖4 第一組均值填充方法補(bǔ)全效果圖
圖5 第二組均值填充方法補(bǔ)全效果圖
圖6 第三組均值填充方法補(bǔ)全效果圖
EM 算法相較于刪除元組法,其沒(méi)有丟失大量的數(shù)據(jù)。相對(duì)于均值填充法,其補(bǔ)全數(shù)據(jù)更加貼近原始數(shù)據(jù),但是對(duì)于缺失部位的數(shù)據(jù)變化沒(méi)有很好地反映。EM 算法的優(yōu)勢(shì)在于其補(bǔ)全值與缺失部位周圍的數(shù)據(jù)水平比較接近,而缺失位置周圍的數(shù)據(jù)某種程度上也可以反映原始數(shù)據(jù)的信息,所以其補(bǔ)全數(shù)據(jù)的準(zhǔn)確性更好。但是問(wèn)題在于,如果缺失部位全部用一個(gè)數(shù)據(jù)填充會(huì)忽略缺失部位原始數(shù)據(jù)變化的特點(diǎn)(見(jiàn)圖7-圖9)。
圖7 第一組EM 算法填充方法補(bǔ)全效果圖
圖8 第二組EM 算法填充方法補(bǔ)全效果圖
圖9 第三組EM 算法填充方法補(bǔ)全效果圖
使用圖像進(jìn)行對(duì)比判斷分析是一種直接但較為定性的方法,所以我們還引入了三個(gè)性能指標(biāo)從而細(xì)致地分析實(shí)驗(yàn)結(jié)果,分別是:誤差率(Error Ratio,ER)、平均絕對(duì)誤差(Mean Absolute Error,MAE)、均方根誤差(Root Mean Square Error,RMSE)。
其中Xij和X?ij分別表示導(dǎo)出數(shù)據(jù)的原始值和丟失后的補(bǔ)全值,Ω 表示丟失數(shù)據(jù)的索引集合。性能指標(biāo)的計(jì)算公式如表1。
表1 性能指標(biāo)的計(jì)算公式
由于刪除元組法不滿足性能指標(biāo)的計(jì)算要求,故只能從圖像上進(jìn)行定性的分析。
以下是均值補(bǔ)全和EM 算法補(bǔ)全的性能指標(biāo)對(duì)比(圖10-圖12)。
圖10 均值補(bǔ)全和EM 算法補(bǔ)全的性能指標(biāo)對(duì)比
圖11 均值補(bǔ)全和EM 算法補(bǔ)全的性能指標(biāo)對(duì)比
圖12 均值補(bǔ)全和EM 算法補(bǔ)全的性能指標(biāo)對(duì)比
通過(guò)三個(gè)性能指標(biāo)對(duì)不同補(bǔ)全方法的定量分析可以得出與之前對(duì)數(shù)據(jù)補(bǔ)全前后圖像的定性分析相似的結(jié)果,EM 算法填充所得到的補(bǔ)全數(shù)據(jù)相對(duì)于均值填充準(zhǔn)確性更高,誤差更小。
通過(guò)對(duì)三種方法定性、定量的分析,我們可以直觀地得出他們的優(yōu)缺點(diǎn)。顯然,單獨(dú)運(yùn)用一種方法并不能達(dá)到我們預(yù)期的數(shù)據(jù)補(bǔ)全效果,因此,我們可以將三種數(shù)據(jù)處理方式結(jié)合,面對(duì)不同類型的缺失數(shù)據(jù)采取與之對(duì)應(yīng)的處理方法。
在帶內(nèi)網(wǎng)絡(luò)遙測(cè)領(lǐng)域中,隨著數(shù)據(jù)丟失缺口的增大,補(bǔ)全難度也隨之大幅增大,效果降低;在采用的四種方法中,刪除元組法較為局限,只適用于缺失數(shù)據(jù)占比小且缺失部位數(shù)據(jù)變化趨勢(shì)較平緩的情況,而均值填充和EM算法在圖像對(duì)比中可以看出,兩者補(bǔ)全效果均較為理想,相對(duì)而言均值填充能夠更好地反映圖像的變化特性,而EM 算法填充數(shù)據(jù)更加準(zhǔn)確。從三個(gè)性能指標(biāo)中不難分辨,EM 算法無(wú)論是誤差率,平均絕對(duì)誤差還是均方根誤差都明顯小于均值填充法,證明其補(bǔ)全穩(wěn)定性及準(zhǔn)確性在本次實(shí)驗(yàn)中優(yōu)于均值填充法。
基于以上實(shí)驗(yàn)結(jié)果和理論分析,我們可以得出以下結(jié)論。在數(shù)據(jù)缺失數(shù)量較少的情況下,如果成本為主要考慮因素的話,可以采用刪除元組法,直接刪除丟失數(shù)據(jù)以換取較完備的數(shù)據(jù)集;如果準(zhǔn)確性為主要考慮因素的話,可以采用EM 算法進(jìn)行填充。當(dāng)缺失數(shù)據(jù)占比大,數(shù)據(jù)波動(dòng)不明顯時(shí),可以采用EM 算法或者均值填充進(jìn)行補(bǔ)全。而當(dāng)數(shù)據(jù)波動(dòng)顯著時(shí),可以結(jié)合EM 算法和均值填充法進(jìn)行補(bǔ)全,先通過(guò)EM 算法確定缺失部位的數(shù)據(jù)水平,然后根據(jù)此數(shù)據(jù)水平對(duì)均值填充得到的數(shù)據(jù)集進(jìn)行調(diào)整,以達(dá)到既能很好地反映數(shù)據(jù)變化缺失,又能準(zhǔn)確還原數(shù)據(jù)的目的。