黃永紅,宋心雷
(江蘇大學(xué)電氣信息工程學(xué)院,機(jī)械工業(yè)設(shè)施農(nóng)業(yè)測控技術(shù)與裝備重點(diǎn)實(shí)驗(yàn)室,江蘇鎮(zhèn)江 212013)
海洋蛋白酶是海洋生物發(fā)酵所得的一種新型酶制劑,它菌種穩(wěn)定,產(chǎn)酶能力強(qiáng),廣泛用于洗滌、紡織、制革、環(huán)保、食品、生物工程等領(lǐng)域。海洋蛋白酶以其獨(dú)有的耐壓、耐堿、耐鹽、耐冷等特性,成為近年來研究的熱點(diǎn)[1]。但是海洋蛋白酶發(fā)酵過程是一個(gè)復(fù)雜的非線性過程,對于其中的一些關(guān)鍵生物參數(shù)(如基質(zhì)濃度、菌體濃度等)目前還很難實(shí)時(shí)在線測量,采用軟測量技術(shù)是解決上述問題的有效途徑[2]。
軟測量建模是軟測量技術(shù)的核心問題。目前常用的軟測量建模方法主要包括:機(jī)理建模、回歸分析、模式識別、人工神經(jīng)網(wǎng)絡(luò)、模糊數(shù)學(xué)、支持向量機(jī)等。
支持向量機(jī)(Support vector machine,SVM)是近幾年來應(yīng)用于建模的一種新方法。它是建立在統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的一種機(jī)器學(xué)習(xí)方法[3-5]。最小二乘支持向量機(jī)(Least squares support vector machine,LS-SVM)是SVM的一種改進(jìn),它將SVM解二次規(guī)劃問題轉(zhuǎn)化為求解線性方程組問題,提高了求解問題的速度和收斂精度,解決了小樣本、非線性、高維數(shù)等問題[6]。但是,在LS-SVM建模中,正規(guī)化參數(shù)和核參數(shù)是必須優(yōu)化的參數(shù),它們的取值將直接影響著模型的訓(xùn)練和泛化性能。常用的參數(shù)優(yōu)化方法有交叉驗(yàn)證法、遺傳算法等。其中交叉驗(yàn)證法和遺傳算法計(jì)算量大且可能陷入局部最優(yōu)[7-8]。因此,文中提出一種貝葉斯LS-SVM軟測量建模方法,即利用貝葉斯準(zhǔn)則(即貝葉斯證據(jù)框架準(zhǔn)則)對LS-SVM建模中的參數(shù)進(jìn)行優(yōu)化選取。貝葉斯分析的出發(fā)點(diǎn)是假設(shè)集合上的先驗(yàn)分布,它描述了學(xué)習(xí)器對于數(shù)據(jù)特定假設(shè)的似然性的先驗(yàn)信念。它的基本思想是最大化參數(shù)分布的后驗(yàn),而最佳參數(shù)值或模型是在參數(shù)分布后驗(yàn)最大化的情況下得到的。仿真結(jié)果表明:基于貝葉斯LS-SVM的軟測量建模比基于LS-SVM的軟測量建模精度高,泛化能力強(qiáng)。
對于樣本集(xi,yi),xi為輸入值,yi為輸出值,樣本為n維向量,首先用一非線性映射φ(·)把樣本從原空間RN映射到特征空間。在這個(gè)高維特征空間中構(gòu)造最優(yōu)決策函數(shù):
f(x)=ωTφ(xi)+b
(1)
式中:φ(xi)為代價(jià)函數(shù);ω為模型的權(quán)值;b為分類超平面閾值。
這樣非線性函數(shù)轉(zhuǎn)化為高維特征空間中的線性估計(jì)函數(shù)。利用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,尋找ω、b就是最小化式(2)。
(2)
s.t.yi=ωTφ(xi)+b+ei,i=1,2,…n
(3)
式中:γ為正規(guī)化參數(shù);e為松弛變量;J為風(fēng)險(xiǎn)。
通過引入拉格朗日乘子,將式(2)的求解轉(zhuǎn)化為如下的對偶優(yōu)化問題:
(4)
式中ai(i=1,2,…n)為拉格朗日乘子。
(5)
(6)
ωφ(xi)+b+ei-yi=0
(7)
定義核函數(shù):
K(xi,xj)=φ(xi)·φ(xj)
(8)
K(xi,xj)是滿足Mercer條件的對稱函數(shù)。經(jīng)過計(jì)算消去e和ω,最后得到的優(yōu)化模型為
(9)
選擇不同的核函數(shù),可構(gòu)造不同的支持向量機(jī),文中采用徑向基高斯核函數(shù)即:
K(x,xi)=exp(-(x-xi)2/(2σ2))
(10)
式中σ為核參數(shù)。
由此可知,在LS-SVM建模中,正規(guī)化參數(shù)γ和核參數(shù)σ是重要的參數(shù),它們的優(yōu)化選取將對軟測量模型的預(yù)測結(jié)果起著重要的作用。
Macky將貝葉斯推斷理論分為3個(gè)證據(jù)框架準(zhǔn)則。利用這3個(gè)準(zhǔn)則依次對LS-SVM算法中的權(quán)值ω、正規(guī)化參數(shù)γ以及核參數(shù)σ進(jìn)行推斷優(yōu)化。
2.1權(quán)值ω的優(yōu)化
首先用貝葉斯準(zhǔn)則1對權(quán)值ω進(jìn)行貝葉斯推斷,利用最大化參數(shù)ω的后驗(yàn),就可以得出參數(shù)ω的最佳值。為了便于處理,將優(yōu)化問題的目標(biāo)函數(shù)除以γ,令λ=1/γ為模型的超參數(shù)。
由貝葉斯公式可得參數(shù)ω的后驗(yàn):
(11)
式中:p(ω|λ)為權(quán)值的先驗(yàn)概率;p(D|λ)為一個(gè)歸一化常數(shù);p(D|ω,λ)為似然函數(shù);p(ω|D,λ)為后驗(yàn)概率。
取高斯分布為權(quán)值的先驗(yàn)概率,得:
(12)
(13)
由式(11)~式(13)可得權(quán)值的后驗(yàn)概率為
(14)
可以看出最小二乘支持向量機(jī)的權(quán)值可以用貝葉斯理論來優(yōu)化,從而可以得出ω的最優(yōu)值ωmp.
2.2正規(guī)化參數(shù)的優(yōu)化
將貝葉斯準(zhǔn)則2用于最小二乘支持向量機(jī)正規(guī)化參數(shù)的推斷和優(yōu)化。
(15)
(16)
對式(15)兩邊取對數(shù)得:
(17)
Const為常數(shù),令λ的偏導(dǎo)數(shù)為0。
A=▽2(λEω+ED)=λI+B
(18)
(19)
由式(18)、式(19)可得:
式中δ為參數(shù)的有效數(shù)。
用pn表示B的特征值,則A的特征值:
(20)
(21)
l(l≤n)表示矩陣K非0特征值的個(gè)數(shù),從而可以得到λ的最優(yōu)值λmp.進(jìn)而可以得到正規(guī)化參數(shù)γ的最優(yōu)值。
2.3核參數(shù)的優(yōu)化
用貝葉斯準(zhǔn)則3優(yōu)化高斯核參數(shù)。設(shè)一模型為H,通過最大化后驗(yàn)概率來進(jìn)行模型比較,最后選擇最優(yōu)核參數(shù),假設(shè)所有模型的先驗(yàn)概率p(H)為平坦分布,則p(D|H)通過對參數(shù)λ的積分可得:
p(H|D)∝p(D|H)p(H)∝p(D/H)∝
(22)
(23)
(24)
2.4基于貝葉斯準(zhǔn)則的LS-SVM建模過程
利用上述優(yōu)化好的參數(shù)來建立基于貝葉斯準(zhǔn)則的LS-SVM的軟測量模型,建模過程具體步驟如下:
(1)確定模型的輸入輸出變量;
(2)對樣本數(shù)據(jù)進(jìn)行預(yù)處理;
(3)初始化正規(guī)化參數(shù)γ和核參數(shù)σ;
(4)用貝葉斯證據(jù)框架準(zhǔn)則優(yōu)化模型的正規(guī)化參數(shù)γ和核參數(shù)σ;
(5)利用優(yōu)化后參數(shù)對最小二乘支持向量機(jī)進(jìn)行訓(xùn)練,建立基于貝葉斯準(zhǔn)則的LS-SVM模型;
(6)用測試樣本集對模型仿真驗(yàn)證。
以海洋蛋白酶發(fā)酵過程為例,其發(fā)酵過程中菌體濃度、基質(zhì)濃度以及酶活等參數(shù)的實(shí)時(shí)測量對了解發(fā)酵進(jìn)程、優(yōu)化控制后續(xù)發(fā)酵環(huán)境參量起著至關(guān)重要的作用。但是這些參數(shù)目前還不能實(shí)時(shí)在線測量,大多采用離線化驗(yàn)分析的方法,為此建立了基于貝葉斯準(zhǔn)則的LS-SVM軟測量模型。在建模過程中,以菌體濃度X、基質(zhì)濃度S、相對酶活P(為了更好的顯示酶活的變化幅度,此處用相對酶活表示)作為軟測量模型的主導(dǎo)變量。通過對海洋蛋白酶發(fā)酵過程進(jìn)行機(jī)理分析,利用相關(guān)系數(shù)法確定軟測量模型的輔助變量為溶解氧濃度DO、pH值、CO2濃度、基質(zhì)進(jìn)給速率u.
為了驗(yàn)證模型的有效性,在海洋蛋白酶發(fā)酵過程中總共采集了15個(gè)發(fā)酵批次的數(shù)據(jù),將這些數(shù)據(jù)分成兩部分。一部分作為網(wǎng)絡(luò)的訓(xùn)練樣本(前10個(gè)批次,共含500個(gè)樣本),另一部分作為測試樣本(后5個(gè)批次,含250個(gè)樣本)。用這些數(shù)據(jù)分別對LS-SVM模型和基于貝葉斯準(zhǔn)則的LS-SVM模型進(jìn)行了仿真驗(yàn)證。仿真結(jié)果如圖1、圖2、圖3所示。
圖1 基質(zhì)濃度預(yù)估變化曲線
圖2 菌體濃度預(yù)估變化曲線
圖3 相對酶活預(yù)估變化曲線
為了更加直觀地說明基于貝葉斯準(zhǔn)則LS-SVM的軟測量建模具有優(yōu)越的預(yù)測性能,以菌體濃度為例,采用最大誤差(MAXE)和均方根誤差(RMSE)這2個(gè)預(yù)測性能指標(biāo)來反映這2種建模方式的預(yù)測效果,結(jié)果如表1所示。
(25)
(26)
表1 兩種建模方法的誤差比較
從圖1、圖2、圖3 和表1中可以看出,基于貝葉斯準(zhǔn)則的LS-SVM比LS-SVM預(yù)測結(jié)果更加逼近于離線化驗(yàn)值。以基質(zhì)濃度為例,LS-SVM的基質(zhì)濃度的最大誤差為2.488,而Bayesian-LSSVM的最大誤差為1.530,兩者的均方根誤差分別為0.965和0.554,由此可以得出Bayesian-LSSVM的預(yù)測效果更好,逼近精度更高。
為解決海洋微生物發(fā)酵過程中關(guān)鍵生物參數(shù)難以實(shí)時(shí)在線測量的問題,提出了一種基于貝葉斯準(zhǔn)則的LS-SVM軟測量建模方法。首先確定基質(zhì)濃度、菌體濃度、相對酶活作為海洋蛋白酶發(fā)酵過程軟測量模型的主導(dǎo)變量,采用相關(guān)系數(shù)法確定了軟測量模型的輔助變量。利用貝葉斯準(zhǔn)則優(yōu)化LS-SVM模型的正規(guī)化參數(shù)和核參數(shù),用訓(xùn)練樣本集對優(yōu)化后的LS-SVM進(jìn)行了學(xué)習(xí)訓(xùn)練,建立了基于海洋蛋白酶發(fā)酵過程的軟測量模型,并利用測試樣本對模型進(jìn)行了仿真驗(yàn)證。結(jié)果表明,該軟測量模型具有較高的測量精度和泛化效果。
參考文獻(xiàn):
[1]劉朝誼,郭凱,許峰,等.低溫海洋微生物產(chǎn)堿性蛋白酶菌株的篩選.淮海工學(xué)院學(xué)報(bào),2006,15(2):59-62.
[2]閻威武,朱宏棟,邵惠鶴.基于最小二乘支持向量機(jī)的軟測量建模.系統(tǒng)仿真學(xué)報(bào),2003,15(10):1494-1496.
[3]顧燕萍,趙文杰,吳占松.最小二乘支持向量機(jī)的算法研究.清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,50 (7):1063-1066;1071.
[4]李鵬.基于貝葉斯理論的神經(jīng)網(wǎng)絡(luò)算法研究.光機(jī)電信息,2011,28(1):28-32.
[5]孫曉東,陳龍,楊澤斌,等.貝葉斯證據(jù)框架下LS-SVM 的BPMSM磁鏈建模.浙江大學(xué)學(xué)報(bào),2012,46(5):873-877.
[6]CRITIANINI N,TAYLOR J S .An Introduction to Support Vector Machine and Other Kernel-based Learning Methods.Cambridge University Press,2000:47-107.
[7]陳帥,朱建寧,潘俊.最小二乘支持向量機(jī)的參數(shù)優(yōu)化及其應(yīng)用.華東理工大學(xué)學(xué)報(bào),2008,34(2):278-282.
[8]王振樹,李林川,牛麗.基于貝葉斯證據(jù)框架的支持向量機(jī)負(fù)荷建模.電工技術(shù)學(xué)報(bào),2009,24(8):127-134.