吳 雨
(中國科學(xué)技術(shù)大學(xué) 管理學(xué)院, 合肥 230026)
極限學(xué)習(xí)機(jī)由于其快速的訓(xùn)練速度, 良好的泛化能力, 廣泛應(yīng)用于各行業(yè)研究中, 例如面部識別、圖像分割和人類動作識別[1].在實(shí)際應(yīng)用中, 為了達(dá)到理想的預(yù)測效果, 需要選取預(yù)測精度較高的機(jī)器學(xué)習(xí)方法.極限學(xué)習(xí)機(jī)的預(yù)測精度受到隱藏層節(jié)點(diǎn)數(shù)目、隱藏層的任意生成的輸入?yún)?shù)和數(shù)據(jù)噪聲的影響.這種不更新隱藏層參數(shù), 通過最小二乘調(diào)整的輸出權(quán)重使極限學(xué)習(xí)機(jī)的抗錯能力較差, 容易夸大離群點(diǎn)和噪聲的影響得到不準(zhǔn)確的結(jié)果.在一些應(yīng)用中, 針對極限學(xué)習(xí)機(jī)隱藏層節(jié)點(diǎn)過多的缺陷, 在隱藏層中增加了一類分類神經(jīng)元[2].或者通過粒子群算法優(yōu)化選擇極限學(xué)習(xí)機(jī)的隱藏層偏置, 驗(yàn)證了粒子群極限學(xué)習(xí)機(jī)算法在隱含層節(jié)點(diǎn)數(shù)目選擇上具有優(yōu)勢[3].
現(xiàn)實(shí)生活中存在許多與機(jī)器學(xué)習(xí)方法的應(yīng)用條件不一致的情況, 因此對大多數(shù)傳統(tǒng)算法進(jìn)行改進(jìn)以適應(yīng)當(dāng)前情況是正常的.王莉等[4]在代價(jià)敏感的理論基礎(chǔ)上, 提出一種新的基于代價(jià)敏感集成學(xué)習(xí)的非平衡數(shù)據(jù)分類方法.鄭仙花等[5]通過進(jìn)化學(xué)習(xí)改進(jìn)了克隆選擇算法實(shí)現(xiàn)了多類監(jiān)督分類, 避免了只能針對某一類樣本數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí).沈宋衍等[6]基于在線回歸學(xué)習(xí)提出一種輪廓跟蹤算法, 解決了目標(biāo)快速運(yùn)動以及嚴(yán)重形變導(dǎo)致跟蹤失敗的問題.王英博等[7]提出采用修正型果蠅優(yōu)化算法優(yōu)化廣義回歸神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)優(yōu)化.蒙凱等[8]基于集成問題的離散特征, 提出面向多目標(biāo)優(yōu)化的改進(jìn)灰狼算法.趙燕偉等[9]以關(guān)聯(lián)函數(shù)為基礎(chǔ), 重新定義神經(jīng)網(wǎng)絡(luò)中的誤差計(jì)算方法, 構(gòu)建了一種基于改進(jìn)BP 神經(jīng)網(wǎng)絡(luò)的可拓分類器.
由于極限學(xué)習(xí)機(jī)的學(xué)習(xí)效果依賴于初始的隱藏層輸入權(quán)值和偏置.本研究認(rèn)為極限學(xué)習(xí)機(jī)可以利用模擬退火算法不斷嘗試隱藏層輸入權(quán)值和偏置的選擇,提升預(yù)測能力.首先, 傳統(tǒng)的極限學(xué)習(xí)機(jī)對訓(xùn)練集的學(xué)習(xí)過程, 可以得到一組隱藏層的輸入權(quán)值、偏置、輸出權(quán)值和均方根誤差.然后把得到的隱藏層輸入權(quán)值和偏置作為初始解, 均方根誤差視為目標(biāo)函數(shù), 通過模擬退火過程, 找到訓(xùn)練過程均方根誤差最小的極限學(xué)習(xí)機(jī)的隱藏層輸入權(quán)值和偏置, 再通過傳統(tǒng)的極限學(xué)習(xí)機(jī)計(jì)算得到隱藏層輸出權(quán)值.最后文本為了測試改進(jìn)后的極限學(xué)習(xí)機(jī)的預(yù)測能力, 選取了鳶尾花分類數(shù)據(jù)和波士頓房價(jià)預(yù)測數(shù)據(jù)分別進(jìn)行了分類和回歸實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明基于模擬退火改進(jìn)的極限學(xué)習(xí)機(jī)在分類和回歸的預(yù)測能力上優(yōu)于傳統(tǒng)的極限學(xué)習(xí)機(jī).
極限學(xué)習(xí)機(jī)作為單隱層神經(jīng)網(wǎng)絡(luò), 與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比, 優(yōu)勢在于收斂速度快、泛化能力強(qiáng), 并且避免了反向傳播神經(jīng)網(wǎng)絡(luò)易陷入局部最優(yōu), 由于迭代, 訓(xùn)練過程十分耗時等特點(diǎn)[10].極限學(xué)習(xí)機(jī)任意初始化輸入權(quán)重和偏置, 通過計(jì)算隱藏層神經(jīng)元的輸出權(quán)值, 加快了極限學(xué)習(xí)機(jī)的學(xué)習(xí)速度.根據(jù)線性方程組的求解方法可知, 當(dāng)樣本隱藏層神經(jīng)元輸出值矩陣是滿秩時,只需要矩陣求逆這一次性的操作, 就可以得到隱藏層神經(jīng)元權(quán)重.這一過程恰好可以學(xué)習(xí)不同的觀測樣本.極限學(xué)習(xí)機(jī)的學(xué)習(xí)算法如下所示:
模擬退火算法作為一種迭代自適應(yīng)啟發(fā)式概率性搜索算法, 模擬了一個高溫固體的退火過程, 將優(yōu)化過程分成加溫、等溫、冷卻等3 個部分, 利用Metropolis算法適當(dāng)?shù)目刂茰囟认陆颠^程.Metropolis 準(zhǔn)則是模擬退火算法收斂于全局最優(yōu)解的關(guān)鍵所在, 它以一定的概率接受惡化解, 這就使算法跳離局部最優(yōu)的陷阱[13].具體來說, 模擬退火算法通過迭代的方式嘗試改進(jìn)目標(biāo)函數(shù)的最優(yōu)解, 改進(jìn)的新解將被接受為最優(yōu)解, 當(dāng)新解劣于當(dāng)前最優(yōu)解, 由波爾茨曼概率確定一個劣解的概率, 使目標(biāo)函數(shù)避免局部最優(yōu), 最終獲得全局最優(yōu)解[14].模擬退火算法的具體實(shí)現(xiàn)步驟算法1 所示.
在應(yīng)用中模擬退火算法發(fā)揮了重要的作用, 高鷹等[15]提出一種基于模擬退火的粒子群優(yōu)化算法, 改善了粒子群優(yōu)化算法擺脫局部極值點(diǎn)的能力, 提高了算法的收斂速度和精度.楊若黎等[16]提出一種確定模擬退火算法溫度更新函數(shù)的啟發(fā)式準(zhǔn)則, 數(shù)值計(jì)算結(jié)果表明采用新的溫度更新函數(shù)以及相應(yīng)的概率密度函數(shù)的模擬退火算法可以顯著地提高求解全局優(yōu)化問題的計(jì)算效率.張世睿等[17]提出一種基于模擬退火算法的單隱藏層BP 神經(jīng)網(wǎng)絡(luò)隱藏層節(jié)點(diǎn)估算算法, 通過模擬退火不斷增加隱藏層節(jié)點(diǎn)個數(shù)直至算法結(jié)束, 得到最優(yōu)解.凌靜等[18]用模擬退火算法改進(jìn)遺傳算法的變異操作, 改善了遺傳算法的早熟現(xiàn)象.黃聯(lián)標(biāo)等[19]基于模擬退火算法對多工程系統(tǒng)維護(hù)時刻和維護(hù)方案進(jìn)行尋優(yōu), 確定各個工段最佳的預(yù)防性維護(hù)策略.
由于極限學(xué)習(xí)機(jī)是任意給定隱藏層神經(jīng)元的權(quán)值和偏置, 這導(dǎo)致一些隱藏層神經(jīng)元在訓(xùn)練過程中無效,使得極限學(xué)習(xí)機(jī)的泛化能力降低.由于ELM 學(xué)習(xí)算法隨機(jī)選擇隱藏層神經(jīng)元的輸入權(quán)值和偏置, 但是這些輸入權(quán)值和偏置相對與輸入數(shù)據(jù)來說, 不是最優(yōu)的選擇, 這使得極限學(xué)習(xí)機(jī)的泛化能力降低.在實(shí)際應(yīng)用中,為了使神經(jīng)網(wǎng)絡(luò)有較好的泛化能力, 需要較多的隱含層神經(jīng)元, 因而增加了網(wǎng)絡(luò)的復(fù)雜度.羅庚合[20]為了減少隱含層神經(jīng)元個數(shù)、提高網(wǎng)絡(luò)的泛化性能, 引入可拓聚類算法, 動態(tài)調(diào)整隱藏層節(jié)點(diǎn)數(shù)目.針對以上問題本文提出基于模擬退火算法的極限學(xué)習(xí)機(jī), 利用模擬退火算法選擇極限學(xué)習(xí)機(jī)的輸入權(quán)值和偏置, 從而得到一個最優(yōu)的訓(xùn)練網(wǎng)絡(luò).
基于模擬退火算法改進(jìn)的極限學(xué)習(xí)機(jī)算法算法2所示.
基于模擬退火算法改進(jìn)的極限學(xué)習(xí)機(jī), 結(jié)構(gòu)復(fù)雜不便理論分析, 若要了解算法的收斂性, 可采用數(shù)值實(shí)驗(yàn)的方法.計(jì)算該算法的目標(biāo)值與問題已有最優(yōu)值之比, 利用概率統(tǒng)計(jì)的方法考察所得比值與1 的接近程度, 比值越接近于1, 說明算法性能越好[21].
為了說明基于模擬退火算法改進(jìn)的極限學(xué)習(xí)機(jī)的收斂性和泛化效果, 文本選取了鳶尾花分類樣本和波士頓房價(jià)預(yù)測兩個數(shù)據(jù)集分別進(jìn)行定性預(yù)測和定量預(yù)測兩組實(shí)驗(yàn).將基于模擬退火算法改進(jìn)的極限學(xué)習(xí)機(jī)的預(yù)測結(jié)果與極限學(xué)習(xí)機(jī)等其他方法的預(yù)測結(jié)果進(jìn)行對比.兩組實(shí)驗(yàn)參數(shù)如表1 所示.
表1 參數(shù)設(shè)置
本研究采用的鳶尾花數(shù)據(jù)包含4 個解釋變量分別是萼片的長度、萼片的寬度、花瓣的長度、花瓣的寬度, 被解釋變量即鳶尾花的種類.在這150 條數(shù)據(jù)中,包含了3 種鳶尾花, 分別為setosa、versicolor、virginica,每種花各有50 條數(shù)據(jù).實(shí)驗(yàn)按2:1 的比例將數(shù)據(jù)隨機(jī)地劃分成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集.研究選取精度為衡量預(yù)測準(zhǔn)確性的標(biāo)準(zhǔn), 對實(shí)驗(yàn)結(jié)果進(jìn)行分析, 精度計(jì)算公式如表2 所示.
表2 精度計(jì)算公式
任意選取一次實(shí)驗(yàn)進(jìn)行觀測, 結(jié)果如圖1 所示, 基于模擬退火改進(jìn)的極限學(xué)習(xí)機(jī)在降溫的過程中, 分類預(yù)測誤差得到優(yōu)化, 未改進(jìn)的極限學(xué)習(xí)機(jī)的預(yù)測精度是88%, 改進(jìn)后的極限學(xué)習(xí)機(jī)的預(yù)測精度將近98%, 預(yù)測精度提高了10%.
圖1 改進(jìn)的極限學(xué)習(xí)機(jī)分類的優(yōu)化過程
實(shí)驗(yàn)對每種分類方法的50 次分類精度取平均值,再進(jìn)行比較.實(shí)驗(yàn)發(fā)現(xiàn)極限學(xué)習(xí)機(jī)的分類精度是6 種方法里最低的, 只有83.2%, 不足90%, 其余的分類方法的預(yù)測精度都高于90%.其中, 本文方法的預(yù)測精度最高, 達(dá)到99.0%, 可見本文方法可以極大的提高極限學(xué)習(xí)機(jī)的分類預(yù)測精度.如表3 所示
表3 鳶尾花分類結(jié)果
通過對50 次實(shí)驗(yàn)結(jié)果取平均值, 由表4 發(fā)現(xiàn)隨著鳶尾花樣本數(shù)據(jù)規(guī)模越大, 比值越接近1, 說明樣本數(shù)據(jù)越大, 改進(jìn)后的極限學(xué)習(xí)機(jī)分類性能越好.
表4 鳶尾花實(shí)驗(yàn)收斂趨勢
任意選取一次實(shí)驗(yàn)進(jìn)行觀測, 結(jié)果如圖2~圖4 所示.其中圖2 說明了未改進(jìn)的極限學(xué)習(xí)機(jī)在測試集上的估計(jì)值和真實(shí)值的對比.圖3 說明了改進(jìn)后的極限學(xué)習(xí)機(jī)的在測試集上的估計(jì)值和真實(shí)值的對比.
從圖2 中可知, 未改進(jìn)的極限學(xué)習(xí)機(jī)在測試集上的一些預(yù)測值比實(shí)際值偏大.從圖3 中可知, 改進(jìn)后的極限學(xué)習(xí)機(jī)在測試集上的預(yù)測值相對平穩(wěn), 波動較為平緩.圖4 表明基于模擬退火改進(jìn)的極限學(xué)習(xí)機(jī)的優(yōu)化過程, 均方根誤差在優(yōu)化過程中減小.
實(shí)驗(yàn)對每種分類方法的50 次預(yù)測誤差取平均值, 再進(jìn)行比較, 實(shí)驗(yàn)結(jié)果如表5 所示.實(shí)驗(yàn)發(fā)現(xiàn)極限學(xué)習(xí)機(jī)的預(yù)測誤差相比于其他傳統(tǒng)機(jī)器學(xué)習(xí)方法偏高.本文方法可以提高極限學(xué)習(xí)機(jī)的回歸預(yù)測能力.由表6 發(fā)現(xiàn)波士頓房價(jià)樣本數(shù)據(jù)規(guī)模越大, 比值在1 附近有微小的變動, 說明改進(jìn)后的極限學(xué)習(xí)機(jī)回歸性能穩(wěn)定.
為了提高極限學(xué)習(xí)機(jī)的分類和回歸的預(yù)測能力,提出一種基于模擬退火改進(jìn)的極限學(xué)習(xí)機(jī).本文利用模擬退火算法的降溫過程對隱藏層的輸入權(quán)值和偏置進(jìn)行優(yōu)化, 避免了任意選擇的輸入權(quán)值和偏置使訓(xùn)練的模型無效的情況, 使極限學(xué)習(xí)機(jī)的表現(xiàn)更加穩(wěn)定.實(shí)驗(yàn)結(jié)果表明通過模擬退火算法改進(jìn)的極限學(xué)習(xí)機(jī)分類預(yù)測能力極好, 回歸預(yù)測能力劣于BP 神經(jīng)網(wǎng)絡(luò)和回歸樹的預(yù)測能力.
圖2 極限學(xué)習(xí)機(jī)的波士頓房價(jià)預(yù)測結(jié)果
圖3 改進(jìn)的極限學(xué)習(xí)機(jī)的波士頓房價(jià)預(yù)測結(jié)果
圖4 改進(jìn)的極限學(xué)習(xí)機(jī)回歸的優(yōu)化過程
下一步工作考慮改進(jìn)的極限學(xué)習(xí)機(jī)在降溫優(yōu)化過程中如何選擇最優(yōu)的迭代次數(shù)、在優(yōu)化時選擇最優(yōu)的隱藏層神經(jīng)元個數(shù)以及如何進(jìn)一步提高極限學(xué)習(xí)機(jī)的回歸預(yù)測能力.
表5 波士頓房價(jià)預(yù)測結(jié)果
表6 波士頓房價(jià)實(shí)驗(yàn)收斂趨勢