許曉磊,聶文惠,曹 菲
(江蘇大學 計算機科學與通信工程學院,江蘇 鎮(zhèn)江 212013)
?
HAFBPS對發(fā)酵法生產(chǎn)透明質(zhì)產(chǎn)量的預測
許曉磊,聶文惠,曹菲
(江蘇大學 計算機科學與通信工程學院,江蘇 鎮(zhèn)江 212013)
摘要針對發(fā)酵生產(chǎn)透明質(zhì)酸產(chǎn)量進行的預測方法困難的問題。提出一種基于粒子群算法的支持向量機模型,對發(fā)酵產(chǎn)物透明質(zhì)酸的產(chǎn)量進行預測。支持向量機的精確度主要取決于懲罰系數(shù)和核參數(shù)的設(shè)定,為了提高其預測的精確度,將懲罰系數(shù)和核參數(shù)看成是一定空間范圍的解,利用粒子群算法對其全局優(yōu)化運算。通過比較HAFBPS和同類方法的仿真實驗結(jié)果,得出基于粒子群算法的支持向量機模型在對發(fā)酵產(chǎn)物透明質(zhì)酸的預測上具有更高的精確度。
關(guān)鍵詞粒子群算法;參數(shù)優(yōu)化;支持向量機;預測;透明質(zhì)酸
透明質(zhì)酸最先是由牛眼玻璃體中分離得到的物質(zhì),比其他同類型分子攜帶水分的能力強500倍,是公認的最佳保濕成分,廣泛用于保養(yǎng)品,化妝品和醫(yī)療中[1]。在生物體內(nèi)是一種相容性好的多聚糖。但是透明質(zhì)酸的發(fā)酵是一個復雜的非線性的過程,對于其中一些重要變量的測量難實現(xiàn)實時在線測量。本文主要研究以支持向量機和粒子群算法來建立模型對發(fā)酵產(chǎn)物透明質(zhì)酸的產(chǎn)量進行預測。支持向量機是一個基于小樣本的優(yōu)秀機器學習的算法。文獻[2]用遺傳算法來計算支持向量機的參數(shù),也證明了使用遺傳算法能夠提高可靠性。但遺傳算法計算過程過于復雜,針對不同的優(yōu)化問題需要設(shè)計不同的組合方法。粒子群算法相對比較易于實現(xiàn),文獻[3~5]在航空蓄電池電量預測和遙感圖像精度預測及鉆具失效模型的預測中運用了粒子群算來提高計算的精度。文獻[6~7]在短期汛期的天氣預測和在陀螺儀壽命預測中運用支持向量機。粒子群算法可較好地搜索一定區(qū)域范圍內(nèi)的全局最優(yōu)解。本文中運用支持向量機來構(gòu)建透明質(zhì)酸的預測模型,并利用粒子群算法來對其參數(shù)進行優(yōu)化。實驗結(jié)果表明,該方法具有較高的預測精度,給透明質(zhì)酸的預測分析提供了一種有效的方法。
1相關(guān)內(nèi)容介紹
1.1支持向量機
在1992年Vapnik等提出一種基于統(tǒng)計學方法SVM(支持向量機)。該方法具有小樣本學習能力強、預測誤差小等特點。使用支持向量機做回歸預測,是通過非線性映射將數(shù)據(jù)點映射到高緯度特征空間,構(gòu)建最優(yōu)線性回歸函數(shù)
f(x)=(w·φ(x))+b
(1)
式中,w為模型的權(quán)值,φ(x)為非線性功能函數(shù);b為分類超平面閾值。在特征空間中,對于誤差的限制條件為
(2)
函數(shù)(1)作用是將非線性函數(shù)轉(zhuǎn)化為高維特征空間中線性函數(shù)。
由于該線性函數(shù)并不能將所有點均分開,引入松弛變量ξ≥0;將限制條件的方程(2)改寫為
yi[w·φ(xi)+b]-1+ξ≥0
(3)
最優(yōu)決策的超平面應(yīng)滿足使被分類的點距離分類函數(shù)的最短距離最大,即使得如下函數(shù)(4)值最小
(4)
γ為懲罰系數(shù)表示對偏離點懲罰的力度;ξ為松弛變量。
引入拉格朗日乘子,使對式(4)的求解轉(zhuǎn)化為對偶優(yōu)化求解問題
(5)
(6)
定義核函數(shù):k(xi,xj)表示為將非線性點群映射到特征空間的函數(shù)。則得到最優(yōu)模型表示為
(7)
不同核函數(shù)可以構(gòu)造出不同支持向量機模型,本文采用的核函數(shù)是徑向基高斯核函數(shù)(RBF)[8-9]
(8)
1.2粒子群算法
參數(shù)(C,σ)是影響支持向量機性能的關(guān)鍵參數(shù),這兩個參數(shù)通常是通過經(jīng)驗選取的方法,但這種方法無法保證選取的參數(shù)是全局最優(yōu),隨機性較大,對支持向量機的性能影響比較大。
1995年,Eberhart博士和kennedy博士收到鳥類覓食行為的啟發(fā),提出了粒子群算法。其基本思想是隨機定義幾個粒子,每一個粒子是n維空間的一個點也是作為所需優(yōu)化參數(shù)的一個解。定義一個適應(yīng)度函數(shù)來判斷每個粒子的優(yōu)勢度。
在每一次的迭代中,粒子群通過追蹤每個粒子來更新兩個變量,一個叫全局最優(yōu)解gbest,一個叫粒子最優(yōu)解Pbest。Pbest是一個粒子歷次迭代的最好的值,gbest是所有粒子中的最好的值。每一個粒子每次迭代的速度和位置的更新根據(jù)如式(9)所示。
(9)
(10)
式中,k表示迭代的次數(shù);C1和C2為兩個常數(shù),表示加速因子,范圍在0~2之間;rand()是0~1之間的隨機數(shù);W表示慣性權(quán)重,慣性權(quán)重是隨著迭代的次數(shù)線性遞減,表示為
(11)
其中,i表示當前迭代的次數(shù);imax表示設(shè)定最大的迭代次數(shù);w為設(shè)定的慣性權(quán)重值;wmax表示慣性權(quán)重設(shè)定上限;Wmin表示慣性權(quán)重設(shè)定下限。
1.3HAFBPS模型
定義透明質(zhì)酸樣本實例{xi,yi},i=1,2,…n,y是透明質(zhì)酸發(fā)酵產(chǎn)量,x是影響發(fā)酵產(chǎn)物的因素。利用支持向量機建立對透明質(zhì)酸產(chǎn)量預測的模型為
(12)
式中,Hi表示透明酸的樣本,0≤α≤C(懲罰因子),用于控制預測誤差超出樣本的懲罰程度;K是核函數(shù);b是閾值。
HAFBPS(Hyaluronic Acid Forecasting Based on Pso and Svm)模型構(gòu)建步驟[10-12]:(1)獲取訓練樣本{xi,yi};(2)確定支持向量機的核參數(shù);(3)利用粒子群算法優(yōu)化求解;(4)構(gòu)建SVM模型;(5)利用樣本進行模型測試。
粒子群算法可較好地在大范圍搜索空間找到最優(yōu)或接近最優(yōu)解的解。由式(12)可看出,參數(shù)(C,σ)對支持向量機的精確度影響至關(guān)重要的,所以使用粒子群算法來優(yōu)化選取支持向量機的參數(shù)。HAFBPS模型的實施步驟如下[9]:(1)設(shè)定粒子群算法的初始參數(shù),初始速度、粒子的數(shù)量、慣性權(quán)重、C1、C2、最大迭代次數(shù)和最大速度;(2)設(shè)定搜索解的范圍即確定(C,σ)的大致的范圍;(3)定義適應(yīng)度函數(shù),計算每一個粒子的適應(yīng)度,選出最優(yōu)解。定義適應(yīng)度函數(shù)為
(13)
vc≥vmax,i≥imax
(14)
不滿足跳出循環(huán)條件,則轉(zhuǎn)入步驟(4);否則得到最優(yōu)參數(shù)解(C,σ),建立PSO-SVM模型。
2應(yīng)用與實驗
影響發(fā)酵的過程的因素很多,如溫度、pH值、溶氧、轉(zhuǎn)速、泡沫、原料、罐壓等。在發(fā)酵過程中,溫度過高過低會影響生物的生長和活性影響,同樣微生物發(fā)酵環(huán)境的pH值對微生物的成長也是至關(guān)重要的,氧是發(fā)酵生物生長的營養(yǎng),含氧過高過低均對微生物的生長進程產(chǎn)生較大影響,因此這些參數(shù)都是影響預測結(jié)果關(guān)鍵的因素。
在實驗過程中,發(fā)現(xiàn)轉(zhuǎn)速對微生物的發(fā)酵也有較大的影響,電機的轉(zhuǎn)速的快慢使發(fā)酵的產(chǎn)物有明顯的變化,還有一些因素對產(chǎn)物的發(fā)酵液有一些影響,如補料的流量、罐壓等。
變量過多導致建模的維數(shù)偏高,訓練數(shù)值的時間開銷過大,不利于實踐應(yīng)用,利用關(guān)聯(lián)度分析法來檢測影響因素對發(fā)酵產(chǎn)物的相關(guān)性,選出對發(fā)酵結(jié)果影響最高的影響因子。
關(guān)聯(lián)分析公式如下
(15)
其中,r值越接近1,代表檢測的變量和預測結(jié)果直接的關(guān)聯(lián)度越大相關(guān)性越大,反之則越小。
表1 各種影響因素和產(chǎn)物之間的關(guān)聯(lián)度的結(jié)果
在本次實驗中,PSO-SVM模型各項參數(shù)設(shè)定為:vmax=30,i=50,C1=2,C2=2,n=20,ε=0.02,w根據(jù)式(10)有0.9線性衰減。(C,σ)的參數(shù)范圍為(0,100),(0,500)。PSO優(yōu)化SVM模型的最優(yōu)解為σ=0.228 8,C=15.003 1。圖1是測試模型的預測值和實際值的比較結(jié)果;圖2是實際值和PSO-SVM模型的估計結(jié)果的比較;圖3是運用GA-SVM模型來作對比,種群POP中個體數(shù)量初始化為30,交叉概率是0.7,變異概率是0.5。
圖1 實際值和SVM模型的估計結(jié)果的比較
圖2 實際值和PSO-SVM模型的估計結(jié)果的比較
圖3 實際值和GA-SVM模型的估計結(jié)果的比較
結(jié)果顯示標準SVM的模型的平均相對誤差是0.277 8,GA-SVM的模型的平均相對誤差是0,223 8,經(jīng)過PSO優(yōu)化參數(shù)得到的SVM模型的平均相對誤差是0.194 6。實驗結(jié)果說明在透明質(zhì)酸的預測中PSO-SVM比SVM的預測的準確性更好。
3實驗總結(jié)
(1)SVM可描述溫度、pH、溶氧、CO2的濃度,攪拌功率和發(fā)酵產(chǎn)物之間的非線性關(guān)系,粒子群算法可較好的全局搜索最優(yōu)解,以保證SVM模型的精度。PSO-SVM在發(fā)酵產(chǎn)物透明質(zhì)酸產(chǎn)量上可進行預測;
(2)對于透明質(zhì)酸產(chǎn)物的預測,目前還有過多的研究,其影響因素也比較復雜,本文在考慮時間開銷同時選取影響因子最大的因素,如何在最大化考慮影響因素的同時,降低其時間開銷和模型復雜度是下一步的研究方向。
參考文獻
[1]Kim K S,Kim J,Park K,et al.Real-time bioimaging of hyaluronic acid derivatives using quantum dots for biopharmaceutical delivery applications[C].Molecular:4th International Conference on Nano, IEEE,2010.
[2]Xin Y I,Hui L I,Feng J.Sorting of communication signals based on optimized SVM by GA[J].Informatization Research, 2010,36(3):49-57.
[3]Xie J,Li W,Hu Y.Aviation lead-acid battery state-of-health assessment using PSO-SVM technique[C].Beijing: 5th IEEE International Conference: Software Engineering and Service Science (ICSESS),2014.
[4]Bhandari K A,Manthalkar R R.A new watershed segmentation (NWS)and particle swarm optimization (PSO-SVM) techniques in remote sensing image retrieval[C].Shanghai: 3rd International Conference on Reliability, Infocom Technologies and Optimization (ICRITO),2014.
[5]Li B,Yang M.Analysis model of drilling tool failure based on PSO-SVM and Its application[C].Shanghai: Fourth International Conference on IEEE:Computational and Information Sciences,2012.
[6]Wang J,Xing Y,Cheng L,et al.The prediction of mechanical properties of cement soil based on PSO-SVM[C].Beijing: International Conference on Computational Intelligence and Software Engineering, IEEE, 2010.
[7]徐國平.基于支持向量機的動調(diào)陀螺儀壽命預測方法研究[D].上海:上海交通大學, 2008.
[8]Fei X U,Weiya X U,Liu K,et al. forecasting of rock mechanical behaviors based on PSO-SVM model[J].Chinese Journal of Rock Mechanics & Engineering, 2009,A02(z2):3699-3074.
[9]Shen Y.Application of support vector machine to short-term climate prediction during the flood season of sanming prefecture[J].Atmospheric Science Research & Application, 2009,31(1):24-26.
[10] Delian M A.Forecasting analysis of dam break flood of shanxi reservoir[J].Water Resources & Power,2010 (4):52-55.
[11] Wen-Tao M A.Evaluation of rock slope stability based on PSO and LSSVM[J].Rock & Soil Mechanics, 2009, 30(3):845-848.
[12] Sun L,Zhang Y,Rina S. Research on the fouling prediction of heat exchanger based on support vector machine optimized by particle swarm optimization algorithm[C].Beijing: International Conference on Mechatronics and Automation,IEEE,2009.
Prediction of the Production of Transparent Material by HAFBPS
XU Xiaolei, NIE Wenhui, CAO Fei
(School of Computer Science and Communication Engineering, Jiangsu University, Zhenjiang 212013, China)
AbstractCurrently, there is no good method for the production of hyaluronic acid forecast. This paper presents a model of particle swarm algorithm, HAFBPS, to predict the production of hyaluronic acid. The accuracy of SVM depends on the set of penalty coefficient and nuclear parameters. In order to improve its accuracy and efficiency, we transform the penalty coefficients and parameters into a solution of the space using particle swarm algorithm to optimize its operation in the global scope. Comparison of the results show that HAFBPS have higher accuracy on prediction of hyaluronic acid.
KeywordsPSO; optimization; SVM; prediction; hyaluronic acid
收稿日期:2015- 11- 12
基金項目:江蘇省科技型企業(yè)創(chuàng)新基金資助項目(BC2014212);江蘇省普通高校研究生科研創(chuàng)新計劃基金資助項目(1293000491)
作者簡介:許曉磊(1989-),男,碩士研究生。研究方向:數(shù)據(jù)預測。聶文惠(1968-),男,副教授。研究方向:數(shù)據(jù)庫理論與應(yīng)用等。
doi:10.16180/j.cnki.issn1007-7820.2016.07.007
中圖分類號TP301.6
文獻標識碼A
文章編號1007-7820(2016)07-022-04