劉金明,謝秋菊,王 雪,馬鐵民
(黑龍江八一農墾大學信息技術學院,黑龍江 大慶 163319)
基于GSA-SVM的畜禽舍廢氣監(jiān)測缺失數據恢復方法
劉金明,謝秋菊,王 雪,馬鐵民
(黑龍江八一農墾大學信息技術學院,黑龍江 大慶 163319)
針對畜禽舍內廢氣監(jiān)測過程中因傳感器故障等原因造成部分監(jiān)測數據缺失的問題,將遺傳模擬退火算法與支持向量機相結合,提出一種基于GSA-SVM的缺失數據恢復方法。該方法綜合考慮畜禽舍廢氣監(jiān)測值對應的時間、空間和環(huán)境等多種影響因素,建立支持向量機回歸預測模型對缺失的監(jiān)測數據進行恢復性估算;為獲得更好的預測結果,使用遺傳模擬退火算法對模型參數進行優(yōu)化。以氨氣濃度數據的恢復為例,隨機選取某養(yǎng)殖場3 d的監(jiān)測數據驗證。結果表明,缺失數據估算最大相對誤差為6.69%,平均相對誤差為1.87%,估算數據與監(jiān)測數據誤差很小,可有效對缺失性數據進行恢復,為畜舍廢氣監(jiān)測提供可行數據恢復處理方法。
遺傳模擬退火算法;支持向量機;畜禽舍;廢氣監(jiān)測;數據恢復
網絡出版時間2015-4-30 14:32:00 [URL]http://www.cnki.net/kcms/detail/23.1391.S.20150430.1432.008.html
劉金明,謝秋菊,王雪,等.基于GSA-SVM的畜禽舍廢氣監(jiān)測缺失數據恢復方法[J].東北農業(yè)大學學報,2015,46(5):95-101.
Liu Jinming,Xie Qiuju,Wang Xue,et al.Method of missing data recovery of waste gases monitoring in animal buildings based on GSA-SVM[J].Journal of Northeast Agricultural University,2015,46(5):95-101.(in Chinese with English abstract)
畜禽飼養(yǎng)過程中產生的各種有害氣體,對畜禽健康生長和食品安全產生影響[1-2]。因此,連續(xù)可靠地監(jiān)測養(yǎng)殖場內廢氣濃度[3],精確計算廢氣排放量,對分析各種有害氣體排放規(guī)律和影響因素[4],采取有效措施控制和處理有害氣體有重要意義。在生豬飼養(yǎng)過程中,為分析畜禽舍內有害氣體排放規(guī)律,需在畜禽舍內安裝多種有害氣體濃度檢測傳感器,實時監(jiān)測其濃度,將監(jiān)測數據保存到上位機的數據庫中供相關人員查看、分析。然而,畜禽舍內復雜環(huán)境可導致傳感器漂移或損壞,造成監(jiān)測數據偏差或錯誤[5-6]。監(jiān)測過程中采集到的廢氣濃度數據在傳輸過程中,也可能由于線路問題導致失真或丟失。為保證監(jiān)測數據完整性和準確性,需要對缺失廢氣濃度監(jiān)測數據進行恢復。但畜禽舍內廢氣濃度與時間、空間和環(huán)境等多種因素相關,各因素之間存在相互作用,是復雜的非線性系統(tǒng),使用線性插值方法進行缺失數據恢復誤差較大。朱偉興等提出使用神經網絡進行廢氣監(jiān)測缺失數據處理,取得較好估算結果[5-6]。但神經網絡存在局部極小值問題,容易出現(xiàn)過學習。
支持向量機(Support vector machine,SVM)是基于小樣本統(tǒng)計學習理論和結構風險最小化原則的機器學習方法[7],具有良好泛化能力,彌補神經網絡不足,能有效處理各種非線性問題,廣泛用于各種回歸預測問題的求解[8-9]。SVM相關參數選取直接關系到SVM預測精度,采用網格搜索方法進行SVM參數尋優(yōu)時,尋優(yōu)步長設置較小時才可能獲得較好尋優(yōu)效果,但需要大量計算時間。因此,學者提出基于粒子群算法(Particle swarm opti?mization,PSO)[10-11]、遺傳算法(Genetic algorithm, GA)[12-13]等智能算法對SVM參數進行優(yōu)化。其中,GA有較強魯棒性和全局優(yōu)化搜索能力,適用于SVM參數尋優(yōu)問題求解,但存在早熟問題,在進化后期搜索效率較低。因此,本文將模擬退火算法(Simulated annealing algorithm,SA)的退溫思想和Metropolis判別準則引入GA的種群進化過程中,構建遺傳模擬退火算法(Genetic simulated annealing algorithm,GSA)克服標準GA的早熟問題,提高其后期優(yōu)化搜索能力,使用GSA對SVM參數進行尋優(yōu),提出一種基于GSA-SVM預測模型的畜禽舍廢氣監(jiān)測缺失數據恢復方法。
1.1 GSA-SVM理論基礎
GA和SA都是優(yōu)秀的智能計算方法[14]。GA是一種具有高度非線性映射、自適應和自組織功能的智能全局優(yōu)化算法,廣泛用于各種組合優(yōu)化問題求解,但其存在容易過早收斂和進化后期搜索效率低缺點。SA計算過程簡單,魯棒性強,選優(yōu)能力強,適用于求解復雜非線性優(yōu)化問題,但其性能對初值依賴性強、全局搜索最優(yōu)解的能力差。將二者相結合形成GSA混合算法,可利用SA 為GA提供更加多樣性搜索空間,有效避免陷入局部最優(yōu);GA選擇、交叉和變異操作為SA提供新解,增強SA爬山能力;SA算子得到的解有選擇地為GA提供新種群,提高GA收斂速度,使混合算法在較短時間內得到近似全局最優(yōu)解。
SVM非線性回歸基本思想是利用非線性變換將原問題映射到高維特征空間的線性問題上,并在該空間中進行線性回歸,而這種非線性變換通過定義適當的內積函數實現(xiàn)。在高維特征空間中,線性問題中的內積運算可用核函數代替,常用有線性核函數、多項式核函數、徑向基(Radial basis function,RBF)核函數、Sigmoid核函數等。在選定核函數基礎上,SVM預測模型參數選取對預測精度影響很大。結合交叉驗證的網格搜索算法是比較常用的SVM參數優(yōu)化方法,但其耗時且性能有待提高。GSA具有全局搜索能力強、收斂速度快優(yōu)勢,能直接依據SVM預測值與真實值的誤差在編碼后的種群中搜索SVM最優(yōu)參數,通過選擇、交叉、變異和模擬退火選擇復制等操作在指定范圍內隨機地進行SVM參數尋優(yōu)。經過若干代遺傳進化后,得到適應度最佳的個體即可作為SVM預測模型最優(yōu)參數。
1.2 SVM輸入輸出確定及處理
為實現(xiàn)對缺失的廢氣監(jiān)測數據進行恢復性估算,綜合考慮畜禽舍內廢氣濃度與時間、空間和環(huán)境等多種因素的關系,建立SVM多輸入單輸出預測模型,對某一時刻廢氣監(jiān)測缺失數據進行恢復。多個輸入包括:缺失數據采樣點前一時刻廢氣濃度監(jiān)測數據、相鄰采樣點相鄰采樣時刻廢氣濃度變化量,以及缺失數據采樣點處對應環(huán)境溫度、相對濕度和風速監(jiān)測值。輸出為缺失數據采樣點廢氣濃度估算值。通過長時間連續(xù)監(jiān)測數據對SVM進行訓練,得到模型保存輸入自變量與輸出因變量之間非線性映射關系,成為缺失數據估算器。當出現(xiàn)監(jiān)測數據缺失時,只需取相應數據輸入SVM預測模型,即可完成缺失數據的恢復性估算。但在使用輸入輸出數據對SVM進行訓練和預測前,應對數據進行歸一化處理,公式如下:
式中,y為歸一化后的數據,x為歸一化前的監(jiān)測數據,xmax為監(jiān)測數據最大值,xmin為監(jiān)測數據最小值,ymax為設定的歸一化后數據最大值,ymin為設定的歸一化后數據最小值。若xmax與xmin大小相等,即監(jiān)測到某一數據相同,直接設定y=ymin。通過多次測試后發(fā)現(xiàn),將輸入自變量的歸一化區(qū)間設定為[-1,1],將輸出因變量的歸一化區(qū)間設定為[0,1],SVM預測模型估算效果最佳。
1.3 SVM核函數選取
SVM核函數建立原始樣本空間到特征空間的一個隱式映射,其基本思想是將原始空間中線性不可分問題轉化為高維特征空間中線性可分問題。在利用SVM解決回歸預測問題時,選擇恰當的核函數是影響SVM預測精度的重要因素。王霞等研究可知,在求解非線性多因素預測問題時,RBF核函數SVM預測模型表現(xiàn)明顯優(yōu)勢,預測精度最高[15]。因此,本文采用RBF核函數作為SVM預測模型核函數,計算公式如下:
1.4 SVM參數GSA尋優(yōu)
SVM預測模型參數選取對預測精度影響大,本文采用K折交叉驗證結合GSA對SVM預測模型的參數進行優(yōu)化,待優(yōu)化參數包括懲罰參數C、核函數參數γ和不敏感損失函數參數ε。
1.4.1 編碼和種群初始化
利用GSA對SVM進行參數尋優(yōu)時,采用的編碼方式為二進制實數編碼。SVM的3個參數C、γ 和ε對應染色體的3個基因,每個基因編碼成k位二進制數。
染色體結構如圖1所示。
圖1染色體結構Fig.1 Structure of chromosome
其中,二進制序列a1a2…ak為參數C編碼基因,二進制序列b1b2…bk為參數γ的編碼基因,二進制序列c1c2…ck為參數ε的編碼基因。以參數C的編碼基因a1a2…ak為例,其對應的實數解碼公式為:
式中,[U1,U2]為參數C的取值范圍,k為單個基因的二進制碼長,本文取k=20,則染色體碼長為60位。
在進行種群初始化時,隨機產生一個N×M的二元矩陣即可,其中N為初始種群中染色體數量,M為染色體碼長。
1.4.2 適應度函數設計
本文采用K折交叉驗證結合GSA對SVM參數進行最優(yōu)化,而SVM預測模型的目的是預測值與實際值誤差盡量小,可直接把K折交叉驗證均方誤差(Mean squared error,MSE)作為目標函數。結合溫度參數對適應度函數定義如下:
式中,f(x)為當前染色體的目標函數值,fmin為當前代種群中最小目標函數值,t為當前代溫度值。
結合溫度參數設計適應度函數,算法在高溫時計算的適應度值差異較小,有效避免個別優(yōu)良個體充斥整個種群造成早熟;而低溫時優(yōu)良個體具有相對更大的適應度函數值,易遺傳給下一代,加快算法搜索速度。
1.4.3 遺傳操作設計
GA遺傳操作包括選擇、交叉和變異3種。選擇操作采用結合最優(yōu)保留策略的賭輪選擇方法,交叉操作采用單點交叉,變異操作采用多位變異。
1.4.4 初溫確定及退溫操作
初溫確定采用t0=Kδ的形式,其中K是正整數,δ=fmax-fmin,fmax和fmin為初始種群中最大和最小目標函數值。
退溫操作采用tn+1=αtn的形式,其中0<α<1,α決定降溫速度。
1.4.5 鄰域解的構建
依據算法編碼方式,鄰域解的構建采用多位變異策略,具體方案為:分別在當前染色體3個基因中隨機選取一位進行位變異。
1.4.6 狀態(tài)接收函數
將每一代經GA遺傳操作后的種群作為模擬退火算法種群,對種群中每個染色體構建鄰域解后進行基于Metropolis判別準則的選擇復制。假設為染色體i構造鄰域解j,令Δf=fit(j)-fit(i),若Δf≥0,則接受鄰域解j到下一代種群;若Δf<0,則生成隨機數r∈[0,1],當r<exp(Δf/tn)時,仍接受鄰域解j到下一代種群;否則,將原染色體i復制到下一代種群中。
采用此選擇復制策略,在高溫時接受劣質解能力較強,保證種群多樣性,避免早熟,低溫時優(yōu)良染色體更易遺傳給下一代,加快算法收斂速度。
1.5 SVM缺失數據預測
在完成SVM 參數尋優(yōu)后,可將優(yōu)化后參數C、γ、ε和訓練集帶入訓練函數進行訓練,進而建立SVM預測模型,然后再使用測試集對該預測模型進行測試評價,完成缺失監(jiān)測數據恢復性估算。在使用該預測模型進行恢復性估算時,測試集每個樣本中前一時刻的廢氣濃度監(jiān)測數據這個屬性應是上一樣本的廢氣濃度估算值,即由前一時刻估算值結合當前時刻的其他屬性預測當前時刻值,是一個典型時間序列預測問題。
運用GSA-SVM預測模型進行缺失數據恢復估算具體流程見圖2。
圖2 缺失數據恢復流程Fig.2 Flowchart of missing data recovery
2.1 數據來源
本文以美國印第安納北部某畜禽養(yǎng)殖場連續(xù)監(jiān)測3 d氨氣濃度歷史數據處理為例,對缺失數據恢復方法進行評測。其中,氨氣濃度和環(huán)境參數等相關監(jiān)測數據采樣1次·h-1,3 d共計72組數據樣本。測試系統(tǒng)時,以前48個樣本作為訓練集,后24個樣本作為測試集。經預處理后的部分數據樣本如表1所示。
表1 部分試驗數據Table 1 Some experimental data
2.2 相關參數設定
運用K折交叉驗證結合GSA對SVM預測模型進行參數最優(yōu)化時,相關參數設定包括:種群規(guī)模為20,遺傳代數為50,初始溫度參數K為100,退溫系數α為0.8,懲罰參數C、核函數參數γ和不敏感損失函數參數ε尋優(yōu)范圍分別是[0,100]、[0,100]和[0.001,1],交叉概率0.7,變異概率0.7/M(M為染色體碼長),采用5折交叉驗證。測試得到最佳預測模型對應SVM參數尋優(yōu)結果為:C為30.7696,γ為0.1062,ε為0.0353。參數尋優(yōu)進化過程如圖3所示。
圖3 參數尋優(yōu)過程Fig.3 Optimization process of parameters
由圖3可知,在進化前期(高溫時)GSA求得的平均目標函數值與最佳目標函數值差異較大,而進化后期(低溫時)平均目標函數值更接近最佳目標函數值。原因在于GSA結合溫度參數設計適應度函數,引入基于Metropolis判別準則的選擇復制策略。在高溫時,不同染色體對應適應度函數值差異較小,接受劣質解能力較強,保證種群相對多樣性,有效避免早熟;在低溫時,優(yōu)良染色體具有更大適應度函數值,遺傳給下一代,加快算法收斂速度。
2.3 仿真結果分析
將參數C、γ、ε和訓練集帶入訓練函數進行訓練后得到SVM預測模型,對應訓練結果見圖4。
圖4 訓練集回歸擬合結果Fig.4 Regression results of training set
由圖4可知,GA-SVM預測模型能很好擬合訓練集,其MSE為0.0009。
采用訓練好的SVM預測模型對測試集進行測試驗證時,針對這個時間序列預測問題,沒有采用MSE作為評價標準,而是采用相對誤差對預測結果進行評價。通過多次測試,得到最佳預測模型對應的測試集回歸擬合結果為:最大相對誤差為6.69%,最小相對誤差為0.03%,平均相對誤差為1.87%。測試集回歸擬合結果如圖5所示。
圖5 測試集回歸擬合結果Fig.5 Regression results of test set
為測試GSA-SVM預測模型在缺失數據恢復方面的性能和效率,本文與BP神經網絡方法、網格搜索參數尋優(yōu)SVM(簡稱網格-SVM)和遺傳算法參數尋優(yōu)SVM(簡稱GA-SVM)三種預測模型的回歸預測精度進行對比。在Win7 64位系統(tǒng)下,使用MATLAB R2012b和LibSVM-3.1工具箱對各預測模型進行評測。硬件設備中CPU為Xeon E1230v2,內存容量為8 GB。不同回歸預測模型預測效率和性能對比結果如表2所示。
表2 不同模型預測結果對比Table 2 Comparison of predict results with different models
由表2可知,三種SVM預測模型的執(zhí)行時間明顯少于BP神經網絡,且三種SVM預測模型平均相對誤差均小于BP神經網絡預測模型,說明SVM預測模型在回歸問題求解方面具有優(yōu)勢。而GSASVM模型與其他SVM預測模型相比,雖然執(zhí)行時間稍高,但其最大相對誤差、最小相對誤差和平均相對誤差均最小,說明GSA-SVM預測精度最高,實現(xiàn)效率和性能統(tǒng)一,預測效果最好。其中GA-SVM和GSA-SVM為多次測試保存的最佳預測結果。在進行實際缺失數據恢復時,只需保存多次測試獲得的最佳預測模型,并用此模型對后續(xù)出現(xiàn)缺失數據進行恢復性估算。
在進行各種SVM預測模型仿真測試時發(fā)現(xiàn),除網格-SVM能夠獲得固定預測結果外,使用GA 和GSA兩種智能算法優(yōu)化SVM 參數得到的C、γ和ε差異較大,每種算法多次測試結果不同,雖然對應訓練集擬合結果均很好,但相應測試集回歸擬合結果差異較大,GA-SVM和GSA-SVM兩種預測模型100次測試得到總平均相對誤差分別為2.78% 和2.49%,小于BP神經網絡和網格-SVM兩種預測模型預測誤差??梢奊SA-SVM預測模型恢復性估算精度最高,可滿足畜禽舍內有害氣體排放規(guī)律分析需要。
通過綜合考慮畜禽舍內廢氣濃度與時間、空間和環(huán)境等多種因素關系,建立GSA-SVM回歸預測模型,對廢氣監(jiān)測缺失數據進行恢復性估算。通過估算數據與監(jiān)測數據對比試驗研究表明,缺失數據估算的平均相對誤差為1.87%,與BP神經網絡預測方法、網格和GA參數尋優(yōu)SVM預測方法相比,增強傳感器之間的數據互補性,提高監(jiān)測系統(tǒng)可靠性,為準確計量養(yǎng)殖場某一段時間內連續(xù)排放的廢氣總量,分析畜禽舍內廢氣排放規(guī)律,采取有效措施對畜禽排放有害氣體進行控制和處理提供依據。
[1]謝秋菊,蘇中濱,劉佳薈,等.基于L-M優(yōu)化算法的豬舍氨氣濃度預測模型研究[J].東北農業(yè)大學學報,2014,45(10):74-79.
[2]高玉紅,孫新勝,曹玉鳳,等.密閉肉牛舍冬季有害氣體的日變化和垂直分布規(guī)律研究[J].東北農業(yè)大學學報,2013,44(11): 143-146.
[3] Heber A J,Ni J Q,Lim T T,et al.Quality assured measurements of animal building emissions:Gas concentrations[J].Journal of the Air and Waste Management Association,2006,56(10):1472-1483.
[4] Bottcher R W,Keener K M,Munilla R D,et al.Dust and odor emission from tunnel ventilated swine buildings in North Carolina and comparison of different odor evaluation methods[J].Applied Engineering in Agriculture,2004,20(3):343-347.
[5] 朱偉興,李麗,龐敏.基于神經網絡的數據融合在廢氣測量中的應用[J].中國安全科學學報,2007,17(6):162-165.
[6] 黃建清,朱偉興,李麗.BP神經網絡在廢氣測量中的應用[J].農機化研究,2009,31(4):191-195.
[7] Vapnik V N.The nature of statistical learning theory[M].New York:Springger,2000.
[8] 都平平.基于支持向量機的綜合地質環(huán)境評價研究[J].采礦與安全工程學報,2012,29(4):555-558.
[9] 戴棟,黃筱婷,代州,等.基于支持向量機的輸電線路覆冰回歸模型[J].高電壓技術,2013,39(11):2822-2828.
[10] 劉偉,王建平,劉長虹,等.基于粒子群尋優(yōu)的支持向量機番茄紅素含量預測[J].農業(yè)機械學報,2012,43(4):143-147.
[11] 單亞鋒,孫朋,徐耀松,等.基于PSO-SVM的煤巖聲發(fā)射源定位預測[J].傳感技術學報,2013,26(3):402-406.
[12]劉希亮,趙學勝,陸峰,等.基于GA-SVM的露天礦拋擲爆破拋擲率預測[J].煤炭學報,2012,37(12):1999-2005.
[13] 陳偉根,滕黎,劉軍,等.基于遺傳優(yōu)化支持向量機的變壓器繞組熱點溫度預測模型[J].電工技術學報,2014,29(1):44-51.
[14] 賀小亮,畢義明.基于模擬退火遺傳算法的編隊對地攻擊火力分配建模與優(yōu)化[J].系統(tǒng)工程與電子技術,2014,36(5):900-904.
[15]王霞,王占岐,金貴,等.基于核函數支持向量回歸機的耕地面積預測[J].農業(yè)工程學報,2014,30(4):204-211.
Method of missing data recovery of waste gases monitoring in animal buildings based on GSA-SVM
LIU Jinming,XIE Qiuju,WANG Xue,MA Tiemin(School of InformationTechnology,Heilongjiang BayiAgricultural University,Daqing Heilongjiang 163319,China)
In order to solve the data missing problem caused by sensor faults during the waste gas monitoring in animal buildings,a method for missing data recovery was presented based on support vector machine(SVM)combined with genetic simulated annealing algorithm(GSA).Multiple factors that influenced monitoring values of the waste gas in animal buildings,such as temporal,spatial and environmental,were considered to established a SVM regression prediction model to estimate the missing data of the waste gas monitoring.Meanwhile,to obtain a better prediction accuracy,model parameters were optimized by the GSA.The data processing of the ammonia concentration was taken as an example,monitoring data of 3 d were randomly selected in a farm to test the presented model in this paper.The results showed that there was a very little error between the estimated data and monitoring data,the maximal relative error was 6.69%, the average relative error was 1.87%.It was an effective method for missing data recovery and a practical way of data processing for waste gases monitoring in animal buildings.
genetic simulated annealing algorithm(GSA);support vector machine(SVM);animal buildings;waste gas monitoring;data recovery
TP183
A
1005-9369(2015)05-0095-07
2014-11-13
黑龍江省青年科學基金項目(QC2013C065)
劉金明(1981-),男,講師,碩士,研究方向為計算機在農業(yè)中的應用。E-mail:jinmingliu2008@126.com