吳斌鑫,劉 美,周正南,,莫常春,4,吳 猛,張 斐
(1.廣東石油化工學(xué)院,廣東 茂名 525000;2.吉林化工學(xué)院,吉林 吉林 132022;3.東莞理工學(xué)院,廣東 東莞 523419;4.大連交通大學(xué),遼寧 大連 116028)
在多傳感網(wǎng)絡(luò)監(jiān)測(cè)的過(guò)程中,由于工作環(huán)境的復(fù)雜性、傳感設(shè)備失效等因素,監(jiān)測(cè)數(shù)據(jù)有可能存在缺失。插補(bǔ)法是利用現(xiàn)有數(shù)據(jù),通過(guò)統(tǒng)計(jì)學(xué)習(xí)方法挖掘數(shù)據(jù)信息并預(yù)測(cè)缺失值,避免了原始信息的丟失、保持樣本容量,具有高效的優(yōu)點(diǎn)[1-2]。其中,K近鄰(K-nearest neighbor,KNN)插補(bǔ)法,尋找數(shù)據(jù)集中識(shí)別空間相似或相近的K個(gè)樣本,并使用這K個(gè)樣本估計(jì)缺失數(shù)據(jù)點(diǎn)的值,簡(jiǎn)單易行[3-4];單一線性回歸插補(bǔ)法,利用完整數(shù)據(jù)建立模型,依據(jù)此模型預(yù)測(cè)插補(bǔ)缺失值[5];神經(jīng)網(wǎng)絡(luò)依據(jù)網(wǎng)絡(luò)深度及反向傳播,優(yōu)化網(wǎng)絡(luò)輸出減小誤差,最終做出預(yù)測(cè)[6]。機(jī)器學(xué)習(xí)算法在處理缺失值時(shí)速度快、特征表征能力強(qiáng),因此應(yīng)用廣泛。
然而,KNN插補(bǔ)法的插補(bǔ)效果因受數(shù)據(jù)集部分異常值影響,導(dǎo)致預(yù)測(cè)效果浮動(dòng)較大[7];單一線性回歸插補(bǔ)法因信息表征能力有限而存在精確度不高的問題[8];神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)插補(bǔ)法隨著網(wǎng)絡(luò)層數(shù)增加時(shí)間復(fù)雜度較高[9]。因而,本文提出了一種基于Lasso回歸及模型修正的雙重回歸缺失值插補(bǔ)方法。
Lasso回歸、皮爾遜相關(guān)性分析及嶺回歸是本文方法的重要組成部分,對(duì)本文方法起支撐作用。
對(duì)于多元線性回歸模型[10],其模型表達(dá)式為
(1)
yi為第i個(gè)預(yù)測(cè)值;βk為第k個(gè)自變量對(duì)應(yīng)的回歸系數(shù);xi,k為第i行第k個(gè)自變量;ε為偏移量;n為自變量個(gè)數(shù)。
為保證回歸系數(shù)βk可求,在多元線性回歸目標(biāo)函數(shù)加上L1范數(shù)懲罰項(xiàng),則Lasso回歸目標(biāo)函數(shù)[11]為
J(β)=∑(y-Xβ)2+∑λ|β|
(2)
y為觀測(cè)集;X為由x1,x2,…,xn構(gòu)成的集合;β為由β1,β2,…,βn構(gòu)成的回歸系數(shù)集;λ為正則化系數(shù),且值非負(fù)。
由Lasso回歸目標(biāo)函數(shù)可知,其引入L1范數(shù)懲罰項(xiàng),正則化系數(shù)λ的選取十分重要。因此,本文采用K折交叉驗(yàn)證的方式對(duì)參數(shù)λ進(jìn)行求取。
為彌補(bǔ)單層回歸存在的誤差,將挖掘數(shù)據(jù)之間存在的相關(guān)性,反映各變量與目標(biāo)值之間的相關(guān)信息,并在此基礎(chǔ)上作為L(zhǎng)asso回歸的特征。此處采用皮爾遜相關(guān)系數(shù)尋找相關(guān)系數(shù)[12],2個(gè)變量之間的皮爾遜相關(guān)系數(shù)計(jì)算公式為
(3)
ρX,Y為2個(gè)變量之間的皮爾遜相關(guān)系數(shù);σX、σY分別為變量X、Y的標(biāo)準(zhǔn)差;μX、μY分別為變量X、Y的均值。
對(duì)獲得的相關(guān)系數(shù)重新進(jìn)行計(jì)算(權(quán)重分配),計(jì)算公式為
(4)
γi為新獲得的系數(shù);ρXi,Y為原始系數(shù)。
在多元線性回歸目標(biāo)函數(shù)加上L2范數(shù)懲罰項(xiàng),則嶺回歸目標(biāo)函數(shù)[13]為
J(β)=∑(y-Xβ)2+∑λβ2
(5)
y為觀測(cè)集;X為由x1,x2,…,xn構(gòu)成的集合;β為由β1,β2,…,βn構(gòu)成的回歸系數(shù)集;λ為正則化系數(shù),且值非負(fù)。
與Lasso回歸相同的是,嶺回歸對(duì)于參數(shù)λ值的求取也非常重要,因此同樣采用K折交叉驗(yàn)證的方式求取參數(shù)λ。
K近鄰(KNN)插補(bǔ)法,通過(guò)距離測(cè)量來(lái)尋找數(shù)據(jù)集中識(shí)別空間相似或相近的K個(gè)樣本,并使用這K個(gè)樣本估計(jì)缺失數(shù)據(jù)點(diǎn)的值,或者可以直接使用相鄰觀測(cè)值的完整值來(lái)估計(jì)缺失值,簡(jiǎn)單易行。其識(shí)別空間相似或相近使用歐氏距離度量,公式為
(6)
整體模型以Lasso回歸模型為基礎(chǔ),結(jié)合皮爾遜相關(guān)系數(shù)與嶺回歸模型并將兩者輸出作為L(zhǎng)asso回歸模型的輸入(特征),最終構(gòu)建雙重回歸模型,提高整體預(yù)測(cè)插補(bǔ)的精度。
對(duì)于任意m×n結(jié)構(gòu)的數(shù)據(jù)集,通過(guò)式(1)、式(3)和式(4)可得嶺回歸模型結(jié)構(gòu)及權(quán)重分配后的皮爾遜相關(guān)系數(shù)。假設(shè)求得嶺回歸(第1層回歸)系數(shù)β1,β2,…,βn、嶺回歸偏移量ε及權(quán)重分配后的相關(guān)系數(shù)γ1,γ2,…,γn。那么對(duì)于導(dǎo)入的數(shù)據(jù),將會(huì)生成集成嶺回歸及相關(guān)性的數(shù)據(jù)集,公式為:
(7)
(8)
將生成的集成嶺回歸及相關(guān)性的數(shù)據(jù)集導(dǎo)入Lasso回歸模型,最終確定回歸系數(shù)及偏移量,即可確定整體模型表達(dá)式,即
(9)
ε′為L(zhǎng)asso回歸的偏移量;α1、α2為L(zhǎng)asso回歸系數(shù)。
a.對(duì)原始數(shù)據(jù)進(jìn)行滑動(dòng)窗口處理以制作數(shù)據(jù)集,并針對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)剔除以模擬缺失值。將整個(gè)數(shù)據(jù)集分為完整數(shù)據(jù)集和殘缺數(shù)據(jù)集。因2層回歸的數(shù)據(jù)需要,因此再將完整數(shù)據(jù)集分為2組,即訓(xùn)練集1、測(cè)試集1、訓(xùn)練集2、測(cè)試集2。過(guò)程如圖1所示。
圖1 數(shù)據(jù)預(yù)處理
b.劃分后的數(shù)據(jù)集使用訓(xùn)練集1放入嶺回歸模型進(jìn)行訓(xùn)練,并采用交叉驗(yàn)證對(duì)嶺回歸重要參數(shù)調(diào)優(yōu)。進(jìn)一步,使用測(cè)試集1對(duì)嶺回歸評(píng)估,與此同時(shí),對(duì)訓(xùn)練集1進(jìn)行皮爾遜相關(guān)性分析獲得應(yīng)變量與自變量之間的初步聯(lián)系。最終得到嶺回歸模型及皮爾遜相關(guān)性模型。過(guò)程如圖2所示。
圖2 嶺回歸與皮爾遜相關(guān)分析
c.對(duì)已獲得的嶺回歸系數(shù)、偏移量及相關(guān)系數(shù)結(jié)合訓(xùn)練集2進(jìn)行計(jì)算,生成集成嶺回歸及相關(guān)性的訓(xùn)練集(雙列),并將此作為L(zhǎng)asso回歸的輸入用以訓(xùn)練模型,后續(xù)通過(guò)K折交叉對(duì)Lasso模型參數(shù)調(diào)優(yōu)。同理,測(cè)試集2通過(guò)嶺回歸模型及皮爾遜相關(guān)性模型生成集成嶺回歸及相關(guān)性的測(cè)試集,并對(duì)Lasso回歸模型評(píng)估。最終初步確定整體模型。過(guò)程如圖3所示。
圖3 初步整體模型確定
d.將殘缺數(shù)據(jù)集導(dǎo)入全局初步模型模擬插補(bǔ),并根據(jù)計(jì)算而得的評(píng)估指標(biāo)校正分塊模型的參數(shù),最終完成建模,為后續(xù)缺失值插補(bǔ)提供支撐。
采用均方根誤差ERMS、模型訓(xùn)練時(shí)間及決定系數(shù)R2來(lái)評(píng)估各方法在各缺失率下的插補(bǔ)效果。均方根誤差的計(jì)算公式為
(10)
計(jì)算時(shí)間,即時(shí)間花費(fèi),該指標(biāo)關(guān)注模型的時(shí)間復(fù)雜度,公式為模型訓(xùn)練結(jié)束時(shí)間減去模型訓(xùn)練開始時(shí)間,即te-ts。
決定系數(shù)反映了模型對(duì)數(shù)據(jù)的擬合能力。決定系數(shù)計(jì)算公式為
(11)
u為殘差平方和,v為總體平方差,計(jì)算公式分別為:
(12)
(13)
由上述可知,R2的取值范圍一般介于[0,1]。R2的值越高,說(shuō)明自變量(特征)對(duì)因變量解釋程度越高,觀測(cè)點(diǎn)在回歸線附近越密集。
本文采用西儲(chǔ)大學(xué)軸承數(shù)據(jù)中正常狀態(tài)下驅(qū)動(dòng)端加速度數(shù)據(jù)。選擇其中前5 010個(gè)采樣點(diǎn)并使用滑動(dòng)窗口法對(duì)數(shù)據(jù)進(jìn)行處理,窗口長(zhǎng)度為11,步長(zhǎng)為1,即生成1個(gè)5 000×11的數(shù)據(jù)集。使用隨機(jī)剔除方法對(duì)數(shù)據(jù)集處理,并劃分為殘缺數(shù)據(jù)集和完整數(shù)據(jù)集。在此基礎(chǔ)上,將完整數(shù)據(jù)集分別按照0.35、0.15、0.35、0.15的比例隨機(jī)地劃分訓(xùn)練集1、測(cè)試集1、訓(xùn)練集2、測(cè)試集2。
經(jīng)過(guò)數(shù)據(jù)集劃分后,將數(shù)據(jù)集1導(dǎo)入嶺回歸、皮爾遜相關(guān)性分析訓(xùn)練模型并采用10折交叉驗(yàn)證求得最優(yōu)嶺回歸參數(shù)λ。經(jīng)求得,最優(yōu)嶺回歸參數(shù)λ=1×10-6。獲得嶺回歸系數(shù)、偏移量及皮爾遜相關(guān)系數(shù)如表1所示。
表1 嶺回歸系數(shù)及皮爾遜相關(guān)系數(shù)
表1(續(xù))
將測(cè)試集1載入已訓(xùn)練模型,得到嶺回歸測(cè)試集分?jǐn)?shù)(決定系數(shù)R2)為0.961,嶺回歸測(cè)試集均方根誤差為0.01。數(shù)據(jù)表明,測(cè)試集1在嶺回歸模型中擬合較好,證明了第1層回歸的可靠性。
隨后,對(duì)得到的各自變量對(duì)應(yīng)的皮爾遜相關(guān)系數(shù)進(jìn)行權(quán)重分配,權(quán)重分配為式(4)。進(jìn)一步,將訓(xùn)練集2導(dǎo)入已訓(xùn)練的嶺回歸模型和已權(quán)重分配的皮爾遜相關(guān)模型,對(duì)此將得到集成嶺回歸及相關(guān)性的訓(xùn)練集,如圖4所示。其表示第1層回歸(嶺回歸)的輸出,將相關(guān)系數(shù)預(yù)測(cè)值作為輔助預(yù)測(cè)特征(列),同時(shí)也是第2層回歸(Lasso回歸)的輸入。
圖4 集成嶺回歸與相關(guān)性的數(shù)據(jù)集
為確切地?cái)M合真實(shí)值,將集成嶺回歸及相關(guān)性的訓(xùn)練集導(dǎo)入Lasso回歸模型并使用10折交叉驗(yàn)證得到最優(yōu)Lasso回歸參數(shù)λ=1×10-5。在此基礎(chǔ)上,將測(cè)試集2導(dǎo)入已訓(xùn)練的嶺回歸模型和已權(quán)重分配的皮爾遜相關(guān)系數(shù)生成集成嶺回歸及相關(guān)性的測(cè)試集,后將其載入Lasso回歸模型,以評(píng)估Lasso回歸模型。經(jīng)過(guò)上述步驟,得到的Lasso回歸系數(shù)為[1.002 3,5.8×10-4],偏移量為0.000 41。Lasso回歸測(cè)試集分?jǐn)?shù)、均方根誤差分別為0.972、0.01。數(shù)據(jù)表明,測(cè)試集2在Lasso回歸中擬合較好,證明了第2層回歸的可靠性。
建立可靠的模型后,為驗(yàn)證整體模型預(yù)測(cè)插補(bǔ)效果,使用殘缺數(shù)據(jù)集用以比較不同缺失率、不同插補(bǔ)方法下各評(píng)估指標(biāo)情況。
利用KNN插補(bǔ)法、Lasso回歸插補(bǔ)法及基于Lasso回歸及模型修正的雙重回歸缺失值插補(bǔ)方法(以下簡(jiǎn)稱為雙重回歸插補(bǔ)法),對(duì)模擬缺失數(shù)據(jù)(殘缺數(shù)據(jù)集)進(jìn)行預(yù)測(cè),并針對(duì)不同缺失率(4%、10%和20%)比較各方法在評(píng)估指標(biāo)下的插補(bǔ)效果,如表2所示。表2中的數(shù)據(jù)皆為經(jīng)過(guò)多次驗(yàn)證后的平均數(shù),且各模型參數(shù)已由K折交叉驗(yàn)證取得最優(yōu)參數(shù),其中Lasso回歸插補(bǔ)法參數(shù)λ=1×10-5,KNN插補(bǔ)法參數(shù)neighbors=5。
表2 各缺失率下研究方法及評(píng)估指標(biāo)情況
由表2可知,雙重回歸插補(bǔ)法與單一Lasso回歸插補(bǔ)法在各評(píng)價(jià)指標(biāo)中相對(duì)于KNN插補(bǔ)法均有著不錯(cuò)的效果,可能由于數(shù)據(jù)的無(wú)規(guī)律性及空間距離的復(fù)雜性導(dǎo)致了KNN插補(bǔ)法效果較差。單一Lasso回歸插補(bǔ)法憑借其模型簡(jiǎn)單,在時(shí)間復(fù)雜度上優(yōu)于雙重回歸插補(bǔ)法,但也由此存在著相比于雙重回歸插補(bǔ)法更大的均方根誤差、更小的決定系數(shù)。
以4%缺失率為例,3種方法預(yù)測(cè)插補(bǔ)如圖5~圖7所示。
由圖5~圖7可以知道,以4%缺失率為例,雙重回歸插補(bǔ)法略優(yōu)于Lasso回歸插補(bǔ)法,更勝于KNN插補(bǔ)法,但是依舊出現(xiàn)部分點(diǎn)略有偏離的情況。
圖5 4%缺失率下殘缺數(shù)據(jù)集雙重回歸預(yù)測(cè)插補(bǔ)圖
圖6 4%缺失率下殘缺數(shù)據(jù)集Lasso回歸預(yù)測(cè)插補(bǔ)圖
圖7 4%缺失率下殘缺數(shù)據(jù)集KNN插補(bǔ)圖
雙重回歸插補(bǔ)法可以更好地?cái)M合真實(shí)值,其建立的模型泛化能力較強(qiáng),預(yù)測(cè)插補(bǔ)值與真實(shí)值相等或者接近,能夠?yàn)楹罄m(xù)的處理提供可靠保障。
本文提出了一種基于Lasso回歸及模型修正的雙重回歸缺失值插補(bǔ)方法,并使用KNN插補(bǔ)法、Lasso插補(bǔ)法以均方根誤差、決定系數(shù)、計(jì)算時(shí)間為評(píng)估指標(biāo)進(jìn)行橫向、縱向?qū)Ρ取=Y(jié)果表明:基于Lasso回歸及模型修正的雙重回歸缺失值插補(bǔ)法略優(yōu)于Lasso回歸插補(bǔ)法,更勝于KNN插補(bǔ)法;在測(cè)試集、殘缺數(shù)據(jù)集方面,雙重回歸插補(bǔ)法有更好的表現(xiàn),但是依然存在部分預(yù)測(cè)插補(bǔ)值偏離正確值的情況,若需要完善,可能需要對(duì)數(shù)據(jù)及算法做更深層次的處理。