冀汶莉,郗劉濤,柴 敬
(1.西安科技大學(xué) 通信與信息工程學(xué)院,陜西 西安 710054;2.西安科技大學(xué) 西部礦井開采及災(zāi)害防治教育部重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710054;3.西安科技大學(xué) 能源學(xué)院,陜西 西安 710054)
中國工程院主持研究的《我國煤炭資源高效回收及節(jié)能戰(zhàn)略研究》中指出煤炭目前仍然是中國的重要能源[1]。隨著煤炭資源的深度開采,采場(chǎng)上覆巖層出現(xiàn)大空間、大變形的特點(diǎn)[2-5]。與沖擊地壓的產(chǎn)生有直接關(guān)系的采場(chǎng)上覆巖層的復(fù)雜變形和運(yùn)動(dòng)過程仍難以有效監(jiān)測(cè)、準(zhǔn)確表征和精確預(yù)測(cè)。分布式光纖傳感器技術(shù)結(jié)合數(shù)據(jù)挖掘技術(shù)為解決上述問題提供了可行思路[6-7]。無論是采動(dòng)覆巖分布式光纖實(shí)際監(jiān)測(cè)應(yīng)用,還是以研究煤巖動(dòng)力災(zāi)害的發(fā)生規(guī)律以及災(zāi)害前兆信息識(shí)別為目標(biāo)的分布式光纖監(jiān)測(cè)的實(shí)驗(yàn)室大尺度物理模擬實(shí)驗(yàn),由于光纖傳感器的物理特性以及周圍地質(zhì)環(huán)境的影響使數(shù)據(jù)缺失的情況客觀存在,這將會(huì)導(dǎo)致基于監(jiān)測(cè)數(shù)據(jù)的學(xué)習(xí)算法學(xué)習(xí)到的參數(shù)出現(xiàn)偏差,標(biāo)準(zhǔn)差增大,泛化能力減弱等問題[8-11],最終將影響煤礦災(zāi)害前兆信息的精準(zhǔn)辨識(shí)和預(yù)警效果。
目前對(duì)于缺失數(shù)據(jù)處理常用的方法有2類,一是傳統(tǒng)方法,如刪除法、均值法、以及插值法來填補(bǔ)少數(shù)離散缺失值[12]。刪除方法在遇到連續(xù)缺失或者數(shù)據(jù)變化幅度較大的情況,不但會(huì)丟失一些重要的信息,而且導(dǎo)致數(shù)據(jù)集規(guī)??赡軠p小。LITTLE和RUBIN詳細(xì)描述了直接剔除缺失記錄可能會(huì)導(dǎo)致的嚴(yán)重風(fēng)險(xiǎn)[13-14]。均值在填補(bǔ)小于5%的缺失數(shù)據(jù)時(shí)是一種較為有效的方法[15]。插值法是一種在工程應(yīng)用中較為常用的插補(bǔ)方法[16]。二是以BP神經(jīng)網(wǎng)絡(luò)為代表的機(jī)器學(xué)習(xí)方法或組合方法,如極大似然估計(jì)(EM)結(jié)合聚類方法[17-18]、樸素貝葉斯[19]、決策樹方法進(jìn)行缺失數(shù)據(jù)填補(bǔ)[20-21]。極大似然估計(jì)是在假設(shè)缺失屬性和非缺失屬性之間存在依賴關(guān)系,通過這個(gè)依賴關(guān)系對(duì)缺失數(shù)據(jù)進(jìn)行迭代估計(jì),算法的收斂速度慢且效率低。聚類方法是通過測(cè)量多屬性特征值之間的距離來確定相似性,通過最相似的數(shù)據(jù)屬性值來填補(bǔ)缺失數(shù)據(jù),在缺失數(shù)據(jù)比例較高時(shí),填充的精確度會(huì)快速降低。上述方法為解決多屬性數(shù)據(jù)缺失的填補(bǔ)提供了思路,但不適合文中所面對(duì)的多測(cè)點(diǎn)單屬性小樣本的缺失數(shù)據(jù)填補(bǔ)問題。
為解決多測(cè)點(diǎn)單屬性小樣本缺失數(shù)據(jù)的填補(bǔ)問題,文中以分布式光纖監(jiān)測(cè)系統(tǒng)所獲得的不同監(jiān)測(cè)點(diǎn)光纖頻率值為研究對(duì)象,建立了最小二乘支持向量LSSVM缺失數(shù)據(jù)填補(bǔ)模型。并將LSSVM與BP神經(jīng)網(wǎng)絡(luò)、3次樣條插值方法進(jìn)行對(duì)比試驗(yàn),結(jié)果表明3次樣條插值和BP神經(jīng)網(wǎng)絡(luò)的填補(bǔ)結(jié)果魯棒性和泛化性差,LSSVM插補(bǔ)模型更適合多測(cè)點(diǎn)單屬性小樣本中缺失值的插補(bǔ)。
煤礦開采的上覆巖層變形過程的大尺度物理模擬實(shí)驗(yàn)如圖1所示,幾何相似比為1∶200,模型尺寸為2 000 mm×200 mm×980 mm,從右側(cè)200 mm處向左側(cè)開挖煤層。在模型中布置垂直傳感光纖(Fv11,F(xiàn)v12),以及百分表。以分布式光纖傳感系統(tǒng)監(jiān)測(cè)的Fv11,F(xiàn)v12上的頻率變化來研究上覆巖層的變形發(fā)展過程。在監(jiān)測(cè)過程中,由于實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)材料的物理特性以及周圍地質(zhì)環(huán)境的影響,導(dǎo)致采集的Fv11,F(xiàn)v12上光纖頻率數(shù)據(jù)具有數(shù)據(jù)缺失現(xiàn)象,實(shí)驗(yàn)數(shù)據(jù)片段見表1,表2。
表1 分布式光纖實(shí)驗(yàn)數(shù)據(jù)展示
表2 分布式光纖實(shí)驗(yàn)數(shù)據(jù)展示
1997年RUBIN和LITTEL提出了目前公認(rèn)的數(shù)據(jù)缺失分類,根據(jù)隨機(jī)缺失程度分為3類[13]:完全隨機(jī)缺失(missing completely at random,MCAR)、隨機(jī)缺失(missing at random,MAR)和非隨機(jī)缺失(not missing at random,NMAR)。完全隨機(jī)缺失是指數(shù)據(jù)缺失的產(chǎn)生是完全隨機(jī),不依賴于其他任何變量。隨機(jī)缺失是依賴于某種因素,不是完全隨機(jī)缺失,這也是一種最為常見的數(shù)據(jù)缺失情況。非隨機(jī)缺失與變量自身或一些不可抗、或未觀察到的值相關(guān)。
從表1和表2可以看出,分布式光纖監(jiān)測(cè)數(shù)據(jù)中的缺失數(shù)據(jù)類型屬于MCAR,MAR類以及NMAR類。其中NMAR類的缺失數(shù)據(jù),表現(xiàn)為大范圍連續(xù)0值,可能的原因是光纖拉伸應(yīng)變超過了自身的測(cè)量量程[22-23]。文中著眼研究MCAR,MAR類以及NMAR類連續(xù)缺失數(shù)據(jù)少于5個(gè)的填補(bǔ)方法。如果是大于10個(gè)以上連續(xù)0值的NMAR類數(shù)據(jù)缺失填補(bǔ),是缺失數(shù)據(jù)填補(bǔ)領(lǐng)域的難題之一,擬利用深度學(xué)習(xí)相關(guān)算法從實(shí)驗(yàn)反演或趨勢(shì)預(yù)測(cè)的角度探索解決方法,因此文中方法不考慮此類缺失數(shù)據(jù)的填補(bǔ)問題。
圖1 物理實(shí)驗(yàn)?zāi)P图胺植际焦饫w監(jiān)測(cè)布設(shè)Fig.1 Physical experimental model and lay outing distributed optical fiber monitoring
為便于分析,文中用D表示分布式光纖實(shí)驗(yàn)監(jiān)測(cè)數(shù)據(jù)全集,描述方法如下式(1)所示。
D={C1,C2,C3,…,Cn}
(1)
式中C1為描述不同光纖傳感器位置信息;C2為描述傳感器的初始中心頻率;C3到Cn為描述實(shí)驗(yàn)過程中模擬煤礦開采,開挖到一定位置所有光纖傳感器當(dāng)前時(shí)刻采集的光纖頻率值;C1和C2數(shù)據(jù)是已知的,文中重點(diǎn)討論C3到Cn任意一列缺失數(shù)據(jù)的填補(bǔ)算法,需要注意C3~Cn是相互獨(dú)立的,其中Ci可以認(rèn)為是長(zhǎng)時(shí)間序列多測(cè)點(diǎn)單屬性局部小樣本監(jiān)測(cè)數(shù)據(jù)。
定義1:數(shù)據(jù)缺失模式的定義如公式(2)所示。
(2)
如果Vj(Ci)等于0表示當(dāng)前位置loca(i,j)監(jiān)測(cè)值是缺失狀態(tài)。當(dāng)采用機(jī)器學(xué)習(xí)算法時(shí),以Ci列中沒有缺失的數(shù)據(jù)來推測(cè)該列缺失數(shù)據(jù)的值。
在物理模擬實(shí)驗(yàn)過程中每一次開采會(huì)得到一組監(jiān)測(cè)數(shù)據(jù)即Ci(3≤i≤n),這些監(jiān)測(cè)數(shù)據(jù)是進(jìn)行異常數(shù)據(jù)識(shí)別、覆巖變形趨勢(shì)預(yù)測(cè)等研究工作的數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)缺失會(huì)極大降低數(shù)據(jù)分析的準(zhǔn)確性和精度,也會(huì)影響規(guī)律的正確發(fā)現(xiàn)和變形趨勢(shì)的預(yù)測(cè)。在圖2(a),2(b)中分別描述了Fv11光纖第一個(gè)測(cè)點(diǎn)6.940到最后一個(gè)測(cè)點(diǎn)8.234共127個(gè)測(cè)點(diǎn),在開挖到36 cm、54 cm處采集到的光纖頻率數(shù)據(jù)和位置的關(guān)系。從圖中可看出監(jiān)測(cè)值和監(jiān)測(cè)位置之間有某種非線性關(guān)系,其原因是由于不同巖層的巖性、彈性模量以及厚度有所不同,導(dǎo)致監(jiān)測(cè)點(diǎn)的光纖中心頻率在煤層開采過程中發(fā)生不同程度的偏移。Fv12光纖監(jiān)測(cè)數(shù)據(jù)也有同樣的表現(xiàn)形式。SVM是有數(shù)學(xué)證明基礎(chǔ)的較新小樣本非線性回歸和分類的機(jī)器學(xué)習(xí)方法[24],LSSVM是SVM的擴(kuò)展,在保持較高非線性擬合度的基礎(chǔ)上降低了算法的計(jì)算復(fù)雜度[25]。通過對(duì)監(jiān)測(cè)數(shù)據(jù)的空間相關(guān)性分析可知,樣本數(shù)據(jù)具有小樣本、非線性的特征,文中提出LSSVM的多測(cè)點(diǎn)單屬性缺失數(shù)據(jù)插補(bǔ)方法。
圖2 Fv11開采多點(diǎn)光纖傳感器采集數(shù)據(jù)趨勢(shì)Fig.2 Graph of the date trend based on simulation experiment about Fv11
最小二乘支持向量機(jī)是傳統(tǒng)支持向量機(jī)算法的擴(kuò)展,它利用最小二乘線性系統(tǒng)代替了傳統(tǒng)的支持向量機(jī)所采用的二次規(guī)劃方法,在優(yōu)化模型的基礎(chǔ)上提高了算法的執(zhí)行速度。
假設(shè)訓(xùn)練集為Ci=[ci1,ci2,ci3,…,cim,…,cin],cim為某一個(gè)測(cè)點(diǎn)的位置和巖層屬性組成的向量。輸出為Y=[f1,f2,f3,…,fm,…,fn],fm為cim位置點(diǎn)的光纖頻率值。將向量cik通過非線性映射φ(xi)函數(shù)映射到一個(gè)高維的特征空間,然后在這個(gè)特征空間中構(gòu)造優(yōu)化的線性回歸函數(shù),如公式(3)所示。
(3)
(4)
(5)
上述約束優(yōu)化問題通過引入拉格朗日函數(shù)將其轉(zhuǎn)化為對(duì)偶問題來進(jìn)行求解,如公式(6)所示,αi為拉格朗日乘子。
(6)
然后根據(jù)KKT條件對(duì)參數(shù)分別求偏導(dǎo),如公式(7)。
(7)
通過聯(lián)立上述方程求解出a和b,最終得到以下的學(xué)習(xí)模型,如公式(8)所示。
(8)
式中K(x,xi)為核函數(shù),文中選擇高斯核函數(shù),如公式(9)所示。它能夠?qū)崿F(xiàn)非線性映射,適用于文中中輸入?yún)?shù)較少的情況下實(shí)現(xiàn)高維映射的需求。
(9)
首先在實(shí)驗(yàn)數(shù)據(jù)集D={C1,C2,C3,…,Cn}中取不含有缺失數(shù)據(jù)的Ci列(3≤i≤n),在其上利用隨機(jī)函數(shù)人為產(chǎn)生見表1具有MCAR類和MAR類、NMAR類(連續(xù)5個(gè)以下的0值)特征的缺失數(shù)據(jù),為了驗(yàn)證該方法的插補(bǔ)效果保留原有的對(duì)應(yīng)監(jiān)測(cè)數(shù)據(jù)。然后將Ci中正常監(jiān)測(cè)值數(shù)據(jù)形成的子集作為訓(xùn)練樣本S_train,挖空的數(shù)據(jù)形成的子集作為測(cè)試樣本S_test。算法具體步驟如下。
1)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。獲取到的監(jiān)測(cè)數(shù)據(jù)中存在著噪聲數(shù)據(jù),首先使用小波變換的處理方法將數(shù)據(jù)集Ci中每個(gè)監(jiān)測(cè)點(diǎn)的頻率數(shù)據(jù)中包含的噪聲數(shù)據(jù)濾除,使曲線更平滑。
2)在Ci數(shù)據(jù)集中隨機(jī)產(chǎn)生缺失數(shù)據(jù)。為了能夠驗(yàn)證學(xué)習(xí)模型的有效性,在Ci集上通過隨機(jī)函數(shù)確定需要挖去的數(shù)據(jù),形成MCAR類和MAR類、NMAR類特征的缺失數(shù)據(jù)。
3)將以上2步處理好的Ci劃分為S_train和S_test樣本。
4)設(shè)置σ2,γ參數(shù)初始值。根據(jù)經(jīng)驗(yàn)在實(shí)驗(yàn)過程中設(shè)置γ,σ2這2個(gè)參數(shù)的初始值分別為10和0.1。參數(shù)γ是權(quán)衡模型復(fù)雜度與誤差之間的關(guān)系,σ為函數(shù)的寬度參數(shù),控制了函數(shù)的徑向作用范圍,對(duì)系統(tǒng)的泛化能力具有一定影響。
5)對(duì)S_train樣本進(jìn)行LSSVM模型訓(xùn)練,輸入為位置信息和覆巖層屬性組成的向量,輸出為該點(diǎn)的頻率值。
6)計(jì)算MSE指標(biāo)。MSE(Mean Squared Error)是平均平方誤差,在回歸問題中常用的參數(shù)指標(biāo),用來評(píng)估在訓(xùn)練過程中模型的可用性。
7)判斷MSE是否不變且最小。如果MSE趨于平穩(wěn)且達(dá)到最小就直接到8),否則調(diào)整γ,σ2參數(shù),返回執(zhí)行5)。
8)輸出LSSVM插補(bǔ)回歸模型。輸出最優(yōu)參數(shù)(γ,σ2),將最優(yōu)參數(shù)帶入LSSVM模型,構(gòu)建缺失數(shù)據(jù)插補(bǔ)的回歸模型。
文中仿真實(shí)驗(yàn)的數(shù)據(jù)樣本集分別由圖1所示的采場(chǎng)覆巖變形大尺度物理模擬實(shí)驗(yàn)中,F(xiàn)v11和Fv12這2根光纖上各127個(gè)傳感器點(diǎn),在5次模擬煤礦開采過程中采集不含有缺失數(shù)據(jù)的監(jiān)測(cè)數(shù)據(jù)組成的6個(gè)樣本數(shù)據(jù)集,數(shù)據(jù)精度為單浮點(diǎn)型光纖中心頻率值(GHz)。為了便于實(shí)驗(yàn)分析將這些數(shù)據(jù)集分別定義為:Fv11-2,F(xiàn)v11-12,F(xiàn)v11-23,F(xiàn)v12-12,F(xiàn)v12-27,F(xiàn)v12-33其中2,12,23,27,33分別為第2次,12次,23次,27次,33次模擬工作面開采。
在這些數(shù)據(jù)集上人為構(gòu)造不同缺失率下的數(shù)據(jù)缺失,并保留原有的監(jiān)測(cè)數(shù)據(jù)進(jìn)行插補(bǔ)效果驗(yàn)證。為了驗(yàn)證算法的有效性和普適性,算法分別在確定缺失率情況下針對(duì)離散缺失值和連續(xù)缺失值,以及不同缺失率兼具離散和連續(xù)缺失等3種情況進(jìn)行仿真實(shí)驗(yàn)并做了結(jié)果分析。采用BP神經(jīng)網(wǎng)絡(luò)插補(bǔ)方法、3次樣條插值方法作為對(duì)比算法。
文中采用均方根誤差(root mean squared error,RMSE)、最大的偏離量(maximum deviation error,MDE)作為模型的評(píng)估指標(biāo)。其中均方根誤差是回歸算法常用的評(píng)價(jià)指標(biāo),這個(gè)值越小表示填補(bǔ)的數(shù)據(jù)越準(zhǔn)確。然而當(dāng)極少的填補(bǔ)值為異常值時(shí)可能導(dǎo)致這個(gè)均方根誤差較大,不能很好的評(píng)價(jià)算法的性能。為了更好的評(píng)估算法的性能,文中引入了最大的偏離量MDE作為另外一個(gè)評(píng)價(jià)指標(biāo)。RMSE和MDE值越小表示填補(bǔ)越準(zhǔn)確,算法性能越好。
(10)
MDE=MAX(|yi-fi|),i=(1,2,…,n)
(11)
式中yi為利用插值方法所得的補(bǔ)插值;fi為實(shí)際光纖頻率監(jiān)測(cè)值;n為缺失數(shù)據(jù)個(gè)數(shù)。在公式(10)中MAX表示插補(bǔ)值與實(shí)際值差值絕對(duì)值的最大值。
按照20%的缺失比率分別在Fv11和Fv12光纖監(jiān)測(cè)數(shù)據(jù)形成的6個(gè)樣本集上,隨機(jī)產(chǎn)生單點(diǎn)離散型缺失數(shù)據(jù),使用LSSVM,BP神經(jīng)網(wǎng)絡(luò)、3次樣條3種插補(bǔ)方法進(jìn)行缺失值插補(bǔ)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3、圖4、圖5、圖6所示。
圖3和圖5中綠色曲線分別表示對(duì)Fv11和Fv12不同6個(gè)數(shù)據(jù)集的缺失值插補(bǔ)擬合,不同形狀的圖示點(diǎn)表示不同插補(bǔ)算法計(jì)算的插補(bǔ)值。從2個(gè)圖中可以看出當(dāng)缺失數(shù)據(jù)為單點(diǎn)離散型時(shí),3種缺失值的插補(bǔ)方法基本可以較好的完成缺失值的插補(bǔ)。但從圖3(a)、圖3(b)、圖3(c)、圖4(a)、4(b)、4(c)可直觀看出3次樣條插值在某些數(shù)據(jù)集中端點(diǎn)和末尾處填補(bǔ)偏差較大。圖3(c)在橫坐標(biāo)7.7~7.8處,以及圖5(c)橫坐標(biāo)12.4~12.5處不連續(xù),反映出相鄰的2個(gè)監(jiān)測(cè)點(diǎn)在此時(shí)受巖石力影響不同,在數(shù)值上差別較大出現(xiàn)了跳躍現(xiàn)象,在圖中表示為間斷或跳躍現(xiàn)象。
圖3 Fv11數(shù)據(jù)集上單點(diǎn)離散型缺失值插補(bǔ)回歸實(shí)驗(yàn)結(jié)果Fig.3 Results of discrete missing value imputation about Fv11
圖4 Fv11數(shù)據(jù)集上離散型缺失值插補(bǔ)回歸實(shí)驗(yàn)絕對(duì)誤差Fig.4 Absolute errors of algorithm about discrete missing value imputation about Fv11
在圖3(c)、4(c)顯示在Fv11-23數(shù)據(jù)集上橫坐標(biāo)7.8~8附近,以及圖5(a)、6(a)顯示在Fv12-33數(shù)據(jù)集上橫坐標(biāo)12~12.2附近,3種插值方法在該位置的絕對(duì)誤差都比較大,原因是真實(shí)監(jiān)測(cè)值在這個(gè)位置附近出現(xiàn)了突變,趨勢(shì)很陡峭。在Fv11和Fv12數(shù)據(jù)集上直觀從圖4,圖5中可以看出,LSSVM的絕對(duì)誤差是最小的。
表3描述了Fv11,Fv12上 6個(gè)數(shù)據(jù)集LSSVM,BP神經(jīng)網(wǎng)絡(luò)、3次樣條插值算法評(píng)估指標(biāo)RMSE和MDE的值。對(duì)表3分析可知在Fv11的3個(gè)數(shù)據(jù)集上,LSSVM算法的RMSE,MDE略優(yōu)于BP神經(jīng)網(wǎng)絡(luò),3次樣條插值指標(biāo)最高,性能相對(duì)最差。在Fv12數(shù)據(jù)集上LSSVM算法的RMSE,MDE略優(yōu)于3次樣條插值,BP神經(jīng)網(wǎng)絡(luò)插補(bǔ)方法指標(biāo)最高。原因是BP神經(jīng)網(wǎng)絡(luò)在Fv12波動(dòng)性較大的數(shù)據(jù)集上可能會(huì)陷入局部最優(yōu),導(dǎo)致填補(bǔ)性能指標(biāo)差。
在Fv11和Fv12監(jiān)測(cè)數(shù)據(jù)中產(chǎn)生的6個(gè)樣本數(shù)據(jù)集上進(jìn)行連續(xù)缺失情況的插補(bǔ)實(shí)驗(yàn)。按照36%的缺失比例隨機(jī)在2個(gè)數(shù)據(jù)集上產(chǎn)生連續(xù)缺失數(shù)據(jù)(連續(xù)缺失數(shù)據(jù)個(gè)數(shù)為3~5個(gè)之間),然后在相應(yīng)的數(shù)據(jù)集上使用LSSVN,BP神經(jīng)網(wǎng)絡(luò)、3次樣條插補(bǔ)方法進(jìn)行缺失值填補(bǔ)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖7、圖8、圖9、圖10所示。
圖5 Fv12數(shù)據(jù)集上單點(diǎn)離散型缺失值插補(bǔ)回歸實(shí)驗(yàn)結(jié)果Fig.5 Results of discrete missing value imputation about Fv12
圖6 Fv12數(shù)據(jù)集上離散型缺失值插補(bǔ)回歸實(shí)驗(yàn)絕對(duì)誤差Fig.6 Absolute errors of algorithm about discrete missing value imputation about Fv12
圖7 Fv11數(shù)據(jù)集上連續(xù)型缺失值插補(bǔ)回歸實(shí)驗(yàn)結(jié)果Fig.7 Results of continuous missing value imputation about Fv11
從圖7,圖8可知,在Fv11數(shù)據(jù)集上進(jìn)行連續(xù)缺失值插補(bǔ)時(shí),LSSVM具有較好的擬合趨勢(shì)。但在圖7(a)、圖8(a)的橫坐標(biāo)7.3~7.5范圍內(nèi)3次樣條連續(xù)填補(bǔ)的偏差較大,圖7(b)、圖8(b)的橫坐標(biāo)7.3~7.5范圍內(nèi)3次樣條、BP神經(jīng)網(wǎng)絡(luò)的連續(xù)填補(bǔ)偏差較大,而且在連續(xù)值插補(bǔ)時(shí)可能會(huì)改變數(shù)據(jù)的變化趨勢(shì)。圖7(c)、圖8(c)的橫坐標(biāo)7.5~7.9范圍內(nèi)3次樣條的連續(xù)插補(bǔ)偏差較大。從圖9、圖10可知在Fv12的數(shù)據(jù)集上進(jìn)行連續(xù)缺失值插補(bǔ)時(shí),LSSVM具有較好的擬合趨勢(shì)。但在圖9(a)、10(a)橫坐標(biāo)12.4~12.6范圍內(nèi),3次樣條和BP神經(jīng)網(wǎng)絡(luò)的連續(xù)缺失插補(bǔ)偏差較大,而且在連續(xù)值插補(bǔ)時(shí)可能會(huì)改變數(shù)據(jù)的變化趨勢(shì)。在圖9(b)、10(b)的開始位置3次樣條連續(xù)填補(bǔ)的偏差較大。
從圖8和圖10可以看出,當(dāng)缺失值呈現(xiàn)連續(xù)狀態(tài),3種缺失值插補(bǔ)算法的絕對(duì)誤差都在增大。3次樣條插值的絕對(duì)誤差在Fv11數(shù)據(jù)集上變化幅度較大,在Fv12數(shù)據(jù)集上BP神經(jīng)網(wǎng)絡(luò)變化幅度略高于3次樣條,但LSSVM在2個(gè)數(shù)據(jù)集上都有好的擬合表現(xiàn)。
表3 Fv11和Fv12離散缺失值插補(bǔ)方法的RMSE和MDE Table 3 RMSE and MDE based on Discrete missing value about Fv11 and Fv12
圖8 Fv11數(shù)據(jù)集上連型缺失值插補(bǔ)回歸實(shí)驗(yàn)絕對(duì)誤差Fig.8 Absolute errors of algorithm about continuous missing value imputation about Fv11
圖9 Fv12數(shù)據(jù)集上連續(xù)型缺失值插補(bǔ)回歸實(shí)驗(yàn)結(jié)果Fig.9 Results of continuous missing value imputation about Fv12
表4展示了LSSVM,BP神經(jīng)網(wǎng)絡(luò)和3次樣條插補(bǔ)算法在Fv11,F(xiàn)v12數(shù)據(jù)集上進(jìn)行連續(xù)缺失值插補(bǔ)時(shí)評(píng)估指標(biāo)RMSE和MDE值。整體來看連續(xù)缺失值插補(bǔ)比離散型插補(bǔ),3種方法的RMSE,MDE值都有提高。通過對(duì)表4分析可知,在Fv11和Fv12不同的數(shù)據(jù)集上LSSVM均優(yōu)于BP神經(jīng)網(wǎng)絡(luò)和3次樣條插補(bǔ)方法。同時(shí)可看出在Fv11不同數(shù)據(jù)集上,由于BP神經(jīng)網(wǎng)絡(luò)和3次樣條插值均有較大的填補(bǔ)誤差,因此這2個(gè)方法在Fv11數(shù)據(jù)集上表現(xiàn)近似。在Fv12-33數(shù)據(jù)集上BP神經(jīng)網(wǎng)絡(luò)插補(bǔ)方法性能在3個(gè)算法中最差,原因是由于該數(shù)據(jù)集非線性波動(dòng)可能使BP神經(jīng)網(wǎng)絡(luò)陷入局部最優(yōu)。在Fv12-12數(shù)據(jù)集上由于3次樣條插補(bǔ)在起始點(diǎn)處誤差最大,導(dǎo)致其RMSE,MDE值較高。在Fv12-27數(shù)據(jù)集上由于出現(xiàn)了監(jiān)測(cè)值的大跳變導(dǎo)致3種算法的RMSE值和MDE值都變大,但變化平穩(wěn)。
圖10 Fv12數(shù)據(jù)集上連型缺失值插補(bǔ)回歸實(shí)驗(yàn)絕對(duì)誤差Fig.10 Absolute errors of algorithm about continuous missing value imputation about Fv12
表4 Fv11和Fv12數(shù)據(jù)集上連續(xù)缺失值插補(bǔ)方法的RMSE和MDE
在實(shí)際應(yīng)用和大尺度物理模擬實(shí)驗(yàn)中,較為常見的是監(jiān)測(cè)數(shù)據(jù)同時(shí)具有離散和連續(xù)2種缺失形式的情況。為了驗(yàn)證LSSVM算法對(duì)于缺失值填補(bǔ)算法的泛化性和適用性,利用隨機(jī)函數(shù)在Fv11,F(xiàn)v12的6個(gè)數(shù)據(jù)集上同時(shí)產(chǎn)生離散和連續(xù)2種缺失形態(tài),并在此基礎(chǔ)上分別形成不同比例的隨機(jī)缺失,缺失比例分別為10%,20%,30%,36%,44%,50%。通常情況下無論是物理模擬實(shí)驗(yàn)環(huán)境還是實(shí)際應(yīng)用環(huán)境,缺失數(shù)據(jù)率低于30%。為了驗(yàn)證算法的極限性能,也為了更準(zhǔn)確的分析隨著缺失比例的增大,RMSE和MDE值的變化趨勢(shì),在30%到50%的缺失比例區(qū)間增加了36%和44%的缺失比例。分別采用LSSVM,BP神經(jīng)網(wǎng)絡(luò)和3次樣條插補(bǔ)算法在Fv11和Fv12對(duì)應(yīng)的數(shù)據(jù)集上進(jìn)行所有缺失比例下數(shù)據(jù)的填補(bǔ)實(shí)驗(yàn)。為了保證實(shí)驗(yàn)結(jié)果的客觀性,文中對(duì)于每組實(shí)驗(yàn)進(jìn)行50次迭代,表7和表8顯示了不同數(shù)據(jù)集上不同缺失比例下評(píng)估指標(biāo)RMSE和MDE值。
表7和表8顯示,在Fv11-12和Fv11-2數(shù)據(jù)集上當(dāng)缺失比例為20%及以下時(shí),3種插值方法的RMSE都相差不大,但LSSVM的MDE指標(biāo)明顯優(yōu)于3次樣條、BP神經(jīng)網(wǎng)絡(luò)2種方法。隨著缺失比例逐漸增大,3種插值方法的RMSE值和MDE值較之前有著明顯的上升,但LSSVM的RMSE值均低于3次樣條插值法和BP神經(jīng)網(wǎng)絡(luò)方法,LSSVM的MDE指標(biāo)顯著低于其他2種方法。對(duì)于Fv11-23數(shù)據(jù)集3次樣條的RMSE值和MDE值都是最高的,性能也是最差的??傮w上在Fv11數(shù)據(jù)集不同缺失比例數(shù)據(jù)插補(bǔ)實(shí)驗(yàn)中,LSSVM表現(xiàn)最好,BP神經(jīng)網(wǎng)絡(luò)次之,3次樣條插值最差。
表5 Fv11,F(xiàn)v12數(shù)據(jù)集上不同缺失比例缺失值插補(bǔ)方法的RMSE
表6 Fv11,F(xiàn)v12數(shù)據(jù)集上不同缺失比例缺失值插補(bǔ)方法的MDE
在Fv12數(shù)據(jù)集,隨著缺失比例逐漸增大,3種插值方法的RMSE值和MDE值同樣有明顯的上升,但LSSVM的RMSE和MDE指標(biāo)值均明顯低于3次樣條插值法和BP神經(jīng)網(wǎng)絡(luò)。當(dāng)缺失比例低于30%時(shí)BP神經(jīng)網(wǎng)和3次樣條插補(bǔ)方法性能基本相似,LSSVM略高于2種方法。當(dāng)缺失比例從36%升高到50%時(shí),由于3次樣條插值方法采用的是數(shù)值計(jì)算的方式,缺失值填補(bǔ)的準(zhǔn)確性快速下降,而基于機(jī)器學(xué)習(xí)的LSSVM方法和BP神經(jīng)網(wǎng)絡(luò)顯示出了較強(qiáng)的非線性學(xué)習(xí)能力,因此評(píng)估指標(biāo)均好于3次樣條插值,其中LSSVM表現(xiàn)最好。
綜合實(shí)驗(yàn)分析可知,LSSVM在2根不同光纖產(chǎn)生的6個(gè)不同數(shù)據(jù)集上,不同類型、不同缺失比例下的缺失值插補(bǔ)效果穩(wěn)定,性能均高于BP神經(jīng)網(wǎng)絡(luò)和3次樣條插補(bǔ)方法。LSSVM缺失數(shù)據(jù)插補(bǔ)方法對(duì)于長(zhǎng)時(shí)間序列中多測(cè)點(diǎn)單屬性局部小樣本缺失數(shù)據(jù)填補(bǔ)是一種有效的填補(bǔ)方法。
1)采場(chǎng)覆巖光纖監(jiān)測(cè)數(shù)據(jù)呈現(xiàn)了多測(cè)點(diǎn)單屬性小樣本的特性,文中建立了多測(cè)點(diǎn)單屬性小樣本缺失數(shù)據(jù)LSSVM填補(bǔ)模型。
2)LSSVM填補(bǔ)方法在不同數(shù)據(jù)集上,針對(duì)不同缺失類型的數(shù)據(jù)插補(bǔ)性能評(píng)價(jià)指標(biāo)均高于其他2種方法,預(yù)測(cè)精度也高于其他2種方法。該方法對(duì)單屬性小樣本缺失數(shù)據(jù)填補(bǔ)是一種穩(wěn)定有效的填補(bǔ)方法。
3)3次樣條插補(bǔ)方法在端點(diǎn)處可能存在較大的誤差,且隨著缺失比例提高填補(bǔ)精度下降較快。BP神經(jīng)網(wǎng)絡(luò)插補(bǔ)方法隨著原始數(shù)據(jù)的曲線形狀不同,在缺失值插補(bǔ)時(shí)可能會(huì)出現(xiàn)局部最優(yōu)或改變數(shù)據(jù)趨勢(shì)的情況。