□杜付然 王改堂
(1.河南省水文水資源局;2.西安現(xiàn)代控制技術(shù)研究所)
黃河流域起源于青海,流經(jīng)四川、甘肅、寧夏、內(nèi)蒙古、陜西、山西、河南、山東等省市自治區(qū),是我國(guó)西北地區(qū)和華北地區(qū)的重要水源,雖然黃河流域僅占全國(guó)2%的徑流量,但卻肩負(fù)著0.15 億hm2耕地和50 多座大中型城市約1.40 億人口的供水任務(wù)。近年來,隨著自然生態(tài)環(huán)境的破壞,以及流域內(nèi)在地貌、地形、地質(zhì)、土壤、植被等方面具有的復(fù)雜特性,黃河流域正面臨著水資源短缺,且水資源供需矛盾也在日趨尖銳。如何合理有效的利用水資源已成為社會(huì)關(guān)注的熱點(diǎn)問題。黃河流域水文模型的建立不僅在水利工程、水旱災(zāi)害防治以及水資源調(diào)度、規(guī)劃和管理等方面具有重要的意義,而且是作為研究黃河問題的一個(gè)重要工具和手段。
極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)是由黃廣斌教授于2004年提出的一種新的單隱層前向人工神經(jīng)網(wǎng)絡(luò)。與傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)相比,在網(wǎng)絡(luò)學(xué)習(xí)過程中,極限學(xué)習(xí)機(jī)算法無需調(diào)整任何學(xué)習(xí)參數(shù)(如輸入權(quán)值和閾值),只需通過隱含層輸出矩陣的廣義逆矩陣即可計(jì)算輸出層權(quán)值,極大地提高了網(wǎng)絡(luò)的學(xué)習(xí)速度。由于ELM算法具有學(xué)習(xí)效率高和泛化能力強(qiáng)等優(yōu)點(diǎn),因此被廣泛應(yīng)用于分類,模式識(shí)別等領(lǐng)域。然而,在解決實(shí)際的工程問題時(shí),樣本數(shù)據(jù)之間可能存在復(fù)共線性關(guān)系等現(xiàn)象,使用最小二乘法或MP廣義逆求解輸出權(quán)值時(shí)易導(dǎo)致病態(tài)解問題。針對(duì)該問題,王改堂等提出了極限學(xué)習(xí)機(jī)嶺回歸學(xué)習(xí)算法(ELMRR),該算法雖然在訓(xùn)練時(shí)間和測(cè)試時(shí)間上均大于ELM 所用的時(shí)間,但其測(cè)試的性能明顯優(yōu)于ELM。為提高ELM 算法的學(xué)習(xí)性能,國(guó)內(nèi)外研究學(xué)者提出了多隱含輸出矩陣的極限學(xué)習(xí)機(jī)算法(M-ELM),融合極限學(xué)習(xí)機(jī)(PELM),增量型極限學(xué)習(xí)機(jī)改進(jìn)算法(I-ELM),經(jīng)驗(yàn)?zāi)J椒纸鈽O限學(xué)習(xí)機(jī)(EMD-ELM),多元時(shí)序驅(qū)動(dòng)ELM 算法。雖然這些算法取得了良好的效果,但大都是從結(jié)構(gòu)形式上做了更改,沒有從算法的本質(zhì)入手,為此,文章將特征加權(quán)核函數(shù)應(yīng)用于極限學(xué)習(xí)機(jī)學(xué)習(xí)算法中,提出了特征加權(quán)核極限學(xué)習(xí)機(jī)算法(Feature Weighted Kernel ELM,F(xiàn)WKELM)。通過該方法預(yù)測(cè)黃河流域的含沙量,實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的準(zhǔn)確性、有效性。
假設(shè)ELM 網(wǎng)絡(luò)的隱含層節(jié)點(diǎn)數(shù)為L(zhǎng),激活函數(shù)為g(x),對(duì)任意Q個(gè)不同的樣本(xi,yi)∈Rn×Rm,ELM網(wǎng)絡(luò)的輸出與實(shí)際數(shù)據(jù)之間實(shí)現(xiàn)零誤差逼近,則存在εi,wi,bi有:
式(1)簡(jiǎn)化為:
式中,
式中,wi=[wi1,wi2,…,win]T為隱含層的第i 個(gè)節(jié)點(diǎn)與輸入層之間的連接權(quán)值,其值為0~1之間的隨機(jī)數(shù);εi=[εi1,εi2,…,εim]T為隱含層的第i 個(gè)節(jié)點(diǎn)與輸出層之間的連接權(quán)值;bi代表隱含層i節(jié)點(diǎn)的閾值。H為隱含層輸出矩陣,則ELM網(wǎng)絡(luò)的輸出權(quán)值ε的最小二乘解為:
式中,H+為矩陣H的Moore-Penrose廣義逆。
激活函數(shù)是ELM 算法的核心,激活函數(shù)選擇的好壞直接影響網(wǎng)絡(luò)的非線性映射能力和學(xué)習(xí)精度。徑向基函數(shù)(RBF)是一個(gè)取值僅僅依賴于離原點(diǎn)距離的實(shí)值函數(shù),由于該函數(shù)具有學(xué)習(xí)收斂速度快、非線性映射能力強(qiáng)等特點(diǎn),因此,文章選擇徑向基函數(shù)(RBF)為例進(jìn)行分析。
RBF函數(shù)可表示為:
不管是分類算法還是回歸算法,對(duì)當(dāng)前任務(wù)的分析并不是所有的特征做出同等貢獻(xiàn),因此,我們需要根據(jù)特征的貢獻(xiàn)程度來選擇不同的權(quán)值。特征加權(quán)矩陣的出現(xiàn)不僅可以避免被一些弱相關(guān)或不相關(guān)的特征所支配,而且能使特征空間中點(diǎn)與點(diǎn)之間的位置發(fā)生改變,從而尋找最好的線性超平面來提高算法的性能。文章采用自助特征加權(quán)(Bootstrap feature weights)分析方法來計(jì)算權(quán)值,具體的算法過程如下:
假設(shè)自助特征加權(quán)算法的隨機(jī)樣本為X ={X1,…,Xn}?RP,Xj=(xj1,…,xjp)為第j個(gè)樣本,則樣本的標(biāo)準(zhǔn)偏差可表示為:
構(gòu)件設(shè)計(jì)主要是應(yīng)用了草圖設(shè)計(jì)和線框建模等功能,以此進(jìn)行工程結(jié)構(gòu)的三維構(gòu)件設(shè)計(jì)。其中,構(gòu)件裝配主要是指對(duì)于設(shè)計(jì)好的構(gòu)件模型,要裝配成一個(gè)工程結(jié)構(gòu)模型,從而促進(jìn)裝配工作的順利完成,而結(jié)構(gòu)配筋主要是指在設(shè)計(jì)好的構(gòu)件上進(jìn)行配筋工作,這與以往配筋圖紙存在極大的區(qū)別。在該模塊中,對(duì)全三維的鋼筋配置進(jìn)行了廣泛應(yīng)用,設(shè)計(jì)人員在施工之前,可以充分了解施工時(shí)的真實(shí)效果。此外,地質(zhì)建模主要是指通過鉆探和物探等方式獲取的勘察資料,借助三維建模技術(shù),及時(shí)構(gòu)造出三維地質(zhì)模型。
第k個(gè)特征變量的權(quán)值wk為:
步驟1:選擇B 個(gè)獨(dú)立的Bootstrap 樣本Xb={Xb1,…,Xbn},b=1,…,B,其中Xbj=(xbj1,…,xbjp)是從X={X1,…,Xn}中有放回抽取的樣本。
步驟3:計(jì)算B次復(fù)制樣本的均值估計(jì)特征權(quán)值wk為:
步驟4:特征加權(quán)矩陣P為:
定義1:令K是定義在X×X上的核函數(shù),X?RP,P是給定輸入空間的p階線性變換矩陣,其中p是輸入空間的維數(shù)。定義為
式中,P為特征加權(quán)矩陣。
由式(12)可以得到,特征加權(quán)徑向基函數(shù)為:
式中,xi是第i 個(gè)樣本數(shù)據(jù)的輸入向量,xj為高斯函數(shù)的中心,σj為高斯函數(shù)的寬度。
FWKELM算法步驟如下:
步驟1:選擇訓(xùn)練樣本數(shù)據(jù)(xi,yi),其中i=1,2,…n,計(jì)算訓(xùn)練樣本數(shù)據(jù)的輸入數(shù)據(jù)矩陣為X,輸出數(shù)據(jù)矩陣為y;步驟2:根據(jù)特征加權(quán)算法步驟計(jì)算或構(gòu)造特征加權(quán)矩陣P;步驟3:選取式(13)作為改進(jìn)算法的激活函數(shù);步驟4:隨機(jī)產(chǎn)生輸入權(quán)值wi和閥值bi;步驟5:采用式(3)計(jì)算隱含層輸出矩陣H;步驟6:采用式(5)計(jì)算輸出權(quán)值ε。
為了驗(yàn)證該算法的有效性和可行性,文章以龍門(馬王廟二)站為例對(duì)黃河流域含沙量(kg/m3)進(jìn)行預(yù)測(cè),選擇水位(m)、起點(diǎn)距(m)、水深(m)、測(cè)點(diǎn)深(m)、流速(m/s)和水溫(℃)作為黃河流域含沙量的影響因子,利用文章提出的FWKELM 算法對(duì)黃河流域的含沙量進(jìn)行預(yù)測(cè)。
實(shí)驗(yàn)共采集了100組樣本數(shù)據(jù),為了彌補(bǔ)在記錄數(shù)據(jù)時(shí)產(chǎn)生的誤差,對(duì)每組樣本數(shù)據(jù)增加0.01×10-1~0.09×10-1的隨機(jī)數(shù)。實(shí)驗(yàn)過程中,首先對(duì)樣本數(shù)進(jìn)行歸一化處理,然后將歸一化處理后的樣本數(shù)據(jù)隨機(jī)選取50 組數(shù)據(jù)作為訓(xùn)練樣本,剩余的50組數(shù)據(jù)作為測(cè)試樣本,實(shí)驗(yàn)采用均方根誤差(RMSE)作為評(píng)估算法的性能指標(biāo)。圖1給出了FWKELM 算法的預(yù)測(cè)值與誤差,圖2 給出了ELM 的預(yù)測(cè)結(jié)果與誤差。FWKELM 和ELM算法的性能比較如表1所示。
圖1 FWKELM算法的預(yù)測(cè)結(jié)果與誤差圖
從圖1、圖2和表1中可以看出,F(xiàn)WKELM算法對(duì)黃河流域含沙量的預(yù)測(cè)精度優(yōu)于ELM 算法,F(xiàn)WKELM 的測(cè)試誤差大多數(shù)情況處于[-2,2]之間,僅有個(gè)別點(diǎn)的預(yù)測(cè)誤差的絕對(duì)值>2,而ELM算法的預(yù)測(cè)誤差明顯不如FWKELM算法的測(cè)試結(jié)果。
圖2 ELM算法的預(yù)測(cè)結(jié)果與誤差圖
表1 FWKELM和ELM算法結(jié)果比較表
文章針對(duì)極限學(xué)習(xí)機(jī)(ELM)僅考慮樣本重要性的問題,提出了一種改進(jìn)的ELM學(xué)習(xí)算法——基于特征加權(quán)核函數(shù)的極限學(xué)習(xí)機(jī)算法。該算法從樣本的特征重要性出發(fā),使用自助特征加權(quán)算法對(duì)其激活函數(shù)進(jìn)行了加權(quán)處理。通過對(duì)黃河流域含沙量的預(yù)測(cè)結(jié)果表明,文章所提出的算法具有較好的預(yù)測(cè)精度和泛化性能。