劉 鑫,冒智康,張小鳴,李紹穩(wěn),金 秀
(1.常州大學 信息科學與工程學院,江蘇 常州 213164;2.安徽農(nóng)業(yè)大學 信息與計算機學院,安徽 合肥 230036)
近紅外光譜定量分析技術(shù)是利用化學計量學方法通過多元校正模型實現(xiàn)的.土壤有機物化學鍵結(jié)合的各種基團對近紅外光譜不同波長產(chǎn)生振動倍頻或合頻吸收度光譜,反映了特定土壤養(yǎng)分質(zhì)量分數(shù)的吸收特征,也是提取特征波長變量的基礎(chǔ).土壤樣本近紅外光譜數(shù)據(jù)包含有噪聲信號、冗余數(shù)據(jù),通過預處理技術(shù)可以有效消除噪聲的影響,但同時也會損失部分有用信息[1].通過特征波長變量提取技術(shù),可以有效剔除不相關(guān)的冗余數(shù)據(jù)和非線性干擾數(shù)據(jù),提高校正模型的穩(wěn)健性和預測能力.張世芝等[2]利用近紅外光譜波長變量純度和多元校正模型的回歸系數(shù)絕對值構(gòu)建特征波長變量選擇權(quán)重,將權(quán)重值降序排序,按前向提取準則,從大至小依次帶入PLS計算校正集的交叉驗證均方根誤差(root mean square error of cross validation,RMSECV),使RMSECV變小者保留,直到遍歷所有變量后,保留的變量即是特征波長變量子集.該方法選擇時間較長,而且前向選擇難免選擇冗余數(shù)據(jù).章海亮等[3]應用遺傳算法,在原始全光譜波長變量中選擇若干個不同數(shù)量的特征波長變量子集,考察預測響應精度貢獻率最大的特征波長子集,再利用連續(xù)投影算法將這個特征波長變量子集進一步篩選,減少為18個特征波長變量.該方法說明在全光譜中用遺傳算法選出的特征波長變量之間還存在信息重疊,利用連續(xù)投影算法進一步去除了冗余信息,降低了模型運算量.賓俊等[4]研究比較了5種智能優(yōu)化算法:蟻群優(yōu)化(ant colony optimization,ACO)、遺傳優(yōu)化(genetic algorithm ,GA)、粒子群優(yōu)化( particle swarm optimization,PSO)、隨機青蛙(random frog,RF)和模擬退火(simulated annealing,SA)在煙葉氮和煙葉堿質(zhì)量分數(shù)近紅外光譜預測中選擇特征波長變量的應用,結(jié)果表明:GA提取50個特征波長變量建模的偏最小二乘回歸算法(PLS-R)預測性能優(yōu)于其他4種優(yōu)化算法,有較大的全局搜索優(yōu)勢,不僅簡化了校正模型,而且預測精度較高.但是遺傳算法從全光譜波長變量中選擇特征波長變量,信息重疊問題較嚴重.采用基于機器學習算法的回歸模型預測土壤氮質(zhì)量分數(shù)、有機磷質(zhì)量分數(shù)、有機碳質(zhì)量分數(shù)都取得了一定研究成果[5].
基于區(qū)間光譜選擇的間隔偏最小二乘(iPLS)算法是將全光譜(full spectrum,F(xiàn)S)分成等間隔的若干個區(qū)間光譜(interval spectrum,IS),在每個區(qū)間光譜上建立PLS-R模型,通過區(qū)間光譜模型的預測結(jié)果選擇特征波長變量.根據(jù)區(qū)間選擇策略的不同,iPLS算法又衍生出了一系列特征變量區(qū)間選擇算法,如向前間隔PLS算法和向后間隔PLS算法等.這類算法在全光譜范圍內(nèi)選擇特征波長變量,難以消除近紅外光譜高度重疊和相鄰特征變量之間共線性問題,但算法選擇特征波長變量的穩(wěn)定性一般較高.基于群智能優(yōu)化算法的特征變量選擇算法將PLS-R的預測均方根誤差作為目標函數(shù),隨機搜索預測均方根誤差最小的特征波長變量組合.但是,在全光譜范圍內(nèi)選擇特征波長變量,選擇弱相關(guān)性的波長變量概率較大,也容易陷入局部最優(yōu)解.
文中通過建立近紅外光譜波長變量純度梯度和PLS-R的變量投影重要性系數(shù)相結(jié)合的區(qū)間光譜提取準則,構(gòu)建與測量目標量相關(guān)性大的區(qū)間光譜,提出一種改進遺傳算法的區(qū)間光譜特征波長變量選擇方法,應用于近紅外光譜土壤速效磷質(zhì)量分數(shù)預測中,取得較高的預測精度.
全光譜波長變量純度行向量是由各個波長變量純度值作為元素組成的行向量,一個波長變量純度值定義為每個近紅外光譜波長掃描所有樣本產(chǎn)生的光譜數(shù)據(jù)列向量的標準差除以該光譜數(shù)據(jù)列向量的平均值,計算式為
(1)
式中:pi為第i個光譜變量純度;σi,μi分別為第i個光譜波長下所有數(shù)據(jù)樣本的數(shù)據(jù)標準差、平均值.若某一光譜波長變量純度pi越大,說明該光譜波長變量所含信息量越大.
全光譜波長變量純度梯度行向量是由全光譜波長變量純度行向量中相鄰兩個純度在水平方向從左到右的線性梯度作為元素組成的行向量,線性梯度計算公式為
(2)
式中:y1,yi,yn分別為波長變量純度梯度向量中的第1,i,n列純度梯度元素;xi(i=1,2,…,n)為全光譜變量純度行向量的純度元素.波長變量純度梯度值大小反映該光譜波長變量純度值的變化率大小,梯度值越大,說明光譜波長變量包含的有用信息越多,找到潛在特征波長變量的可能性越大.
采用偏最小二乘回歸算法對校正集樣本進行光譜數(shù)據(jù)分析,提取對預測目標量解釋性最強的光譜波長變量.變量投影重要性系數(shù)(variable importance in projection,用VVIP表示)是PLS-R模型重要輸出參數(shù)之一,它反映PLS-R模型對每個光譜波長變量的評分.一般認為當VVIP大于1時,該光譜波長變量對預測目標有重要的作用[6].相關(guān)計算式為
(3)
LLV值是PLS-R模型的輸入?yún)?shù).若LLV值較小,模型會出現(xiàn)欠擬合,均方根誤差較大;若LLV值較大,模型會出現(xiàn)過擬合,均方誤差也會增大,且模型較復雜.LLV值為5~10對應的模型均方根誤差最小,故選取LLV=10建立PLS-R回歸模型[7].
遺傳算法最常用的決策變量編碼方式有2種:二進制編碼和實數(shù)編碼.二進制編碼編碼形式簡單,選擇、交叉、變異操作易實現(xiàn),但二進制編碼與決策變量實數(shù)之間需要解碼公式解碼,存在解碼誤差較大、搜索速度慢、容易早熟收斂等缺點.實數(shù)編碼用實數(shù)直接代表決策變量值,物理意義明確,可以直接表示實際問題的解.實數(shù)編碼長度較短,不存在解碼誤差.但變異算子不像二進制編碼有完備的理論基礎(chǔ),變異算子僅有表達形式,全局搜索能力較差,收斂速度較慢,最優(yōu)解精度易受到變異算子控制等[8].
文中提出一種采用差分變異算子的改進遺傳算法(improved genetic algorithms,iGA),差分變異算子公式為
G(i,j)=F×(E(r1,j)-E(r2,j))+E(i,j),
(4)
式中:G(i,j)為第i個個體的第j個染色體的子代(下一代)值;F為變異因子(即縮放因子);E(r1,j)為種群中隨機產(chǎn)生的第r1個體的父代(上一代)第j個染色體;E(r2,j)為種群中隨機產(chǎn)生的第r2個體的父代第j個染色體;E(i,j)為第i個個體的第j個染色體的父代值;E(r1,j)-E(r2,j)為父代任意兩個個體之間的差異.在迭代初期,由于種群個體是隨機產(chǎn)生的,一般任意兩個個體之間的差異較大,則差分變異算子產(chǎn)生新的下一代的能力強,有利于跳出局部極值點,擴大搜索空間.當F大于1時,變異作用強,但收斂速度較慢;當F小于1時,變異作用弱,收斂速度較快.通常F取值為0.6~1.2.若新一代個體組成的決策變量代入適應度函數(shù)產(chǎn)生的適應度值優(yōu)于父代個體,就通過選擇算子取代父代個體,否則保留父代個體.
把全光譜劃分為多個波長間隔可有兩種方法:第1種是將全光譜人為等分為N個等間隔的波長間隔,屬于現(xiàn)有技術(shù);第2種是利用某種方法將全光譜劃分為若干個不等間隔的波長間隔.文中利用波長變量線性純度梯度的正負變化次數(shù),將全光譜劃分為s個不等間隔的波長間隔,再以全光譜每個波長變量投影重要性系數(shù)(VVIP)大于1作為重要波長光譜提取準則,從s個區(qū)間光譜中,提取任何包含VVIP大于1的k個區(qū)間光譜(k
每種土壤養(yǎng)分都有自己的吸收光譜波長,信號弱,譜帶重疊,還包含環(huán)境噪聲和無關(guān)信息等干擾信息.同一樣本的光譜數(shù)據(jù)內(nèi)部存在共線性關(guān)系,易產(chǎn)生數(shù)據(jù)冗余.在全光譜等間隔區(qū)間光譜中選擇特征波長變量,難以消除近紅外光譜高度重疊和相鄰特征波長變量之間共線問題,容易陷入局部最優(yōu)解,回歸模型的預測精度和穩(wěn)健性不高.利用波長變量對預測目標變量的貢獻大小來劃分波長間隔,并利用PLS-R模型的VVIP值大于給定閾值來選擇對目標量起重要作用的波長變量,使改進遺傳算法選擇強相關(guān)性特征波長變量概率增大,有利于剔除共線性關(guān)系和冗余數(shù)據(jù),降低弱相關(guān)性波長變量的選擇概率,提高回歸模型的預測精度和穩(wěn)健性.
圖1 改進遺傳算法的區(qū)間光譜特征波長選擇方法流程圖
回歸模型評價標準包括相對分析誤差RRPD(標準偏差除以均方根誤差)、決定系數(shù)(R2),計算式為
(5)
(6)
3.1.1土壤樣本采集與處理
193個土壤樣本采自皖北蒙城縣、埇橋區(qū)和懷遠縣3個地區(qū)的不同采樣點,這幾個地區(qū)的土壤為砂姜黑土.采用對角采樣的方法將土壤采集后混合,去除其中的石塊、秸稈和作物殘根,作為其中一個采樣點的樣本,每個樣本約1.5 kg,采樣深度為0~20 cm.采集的土壤樣本封存后在實驗室內(nèi)進行自然風干處理,研磨后過20目篩子,得到待測量的土壤樣本粉末.將樣本均勻分成2份,其中1份用于標準化學方法標定土壤速效磷質(zhì)量分數(shù),另1份用于土壤樣本可見/近紅外漫反射光譜數(shù)據(jù)的采集.使用堿解擴散法對193個樣本的速效磷質(zhì)量分數(shù)進行化學標定.使用海洋光學的OFS1700地物光譜儀和鹵鎢燈接觸式反射探頭掃描近紅外光譜范圍350~1 655 nm,光譜分辨率1 nm,利用黑白板校正得到光譜漫反射率,共采集1 306個光譜波長的漫反射率數(shù)據(jù),構(gòu)成1931 306階光譜數(shù)據(jù)矩陣.193個土壤樣本的原始近紅外漫反射光譜圖如圖2所示.
圖2 土壤樣本近紅外漫反射光譜圖
由圖2可見光譜波長在400~500 nm處反射率較低,在500~700 nm處有明顯上升;在930 nm處有明顯的波動,可能是土壤中鐵氧化物(針鐵礦、赤鐵礦)對光譜吸收引起的[9];在1 400 nm處有明顯吸收峰,可能是土壤樣品中殘留水分的影響[10].光譜圖像出現(xiàn)較多毛刺,伴有較多噪聲,可能的原因是土壤顆粒大小不均,且均勻度不同,光譜儀受到高頻噪聲干擾,以及光譜儀的基線漂移等等.
3.1.2校正集與驗證集劃分
采用濃度梯度法將193個土壤數(shù)據(jù)樣本按照速效磷質(zhì)量分數(shù)參考值進行排序,以7 ∶3的比例劃分為136個土壤數(shù)據(jù)樣本作為校正集,57個土壤數(shù)據(jù)樣本作為驗證集.校正集和驗證集的均值、標準差等統(tǒng)計量數(shù)據(jù)如表1所示.
表1 速效磷質(zhì)量分數(shù)樣本校正集和驗證集數(shù)據(jù)統(tǒng)計表
由表1可見,速效磷質(zhì)量分數(shù)的最大值和最小值之間相差34.94,平均值為10.55,離散程度較大,但校正集與驗證集劃分有相近的標準差分布特征,說明劃分出的校正集與驗證集可以代表整體數(shù)據(jù)集的分布特征.校正集136個樣本約占總樣本數(shù)的70%,用于土壤速效氮質(zhì)量分數(shù)回歸模型建模.驗證集57個樣本,用于預測模型的評價參數(shù)驗證,對回歸模型預測優(yōu)劣進行評價.
土壤速效磷校正集全光譜波長變量純度曲線見圖3.
圖3 土壤速效磷校正集全光譜波長變量純度曲線
由圖3可見,在全光譜范圍(350~1 655 nm)內(nèi)變量純度曲線總體波動明顯,變量純度最小值約為0.070,最大值約為0.098.在光譜波長350~500 nm時有1個峰值,在500~800 nm時有1個谷值,在800~1 000 nm時有1個峰值和1個谷值,在1 000~1 655 nm時有多個峰值和多個谷值.其中峰谷過渡曲線最陡峭的波長點在930 nm和1 400 nm附近,與圖2中明顯波動點的分析相吻合.這說明近紅外光譜數(shù)據(jù)組成信息成分復雜,可以同時測定多組土壤營養(yǎng)成分和其他礦物質(zhì)質(zhì)量分數(shù),但是為了減少非目標量對目標量預測的干擾和不利影響,有必要提取對目標量預測貢獻大的特征波長變量.
土壤速效磷校正集全光譜波長變量純度梯度曲線見圖4.
圖4 土壤速效磷校正集全光譜波長變量純度梯度曲線
由圖4可見,在光譜波長350~900 nm時,波長變量純度梯度的變化頻率較高,說明這個波段包含較多對預測目標量貢獻大的潛在特征波長變量.在900~1 100 nm時波長變量純度梯度的變化頻率較低,說明這個波段包含較少的潛在特征波長變量.在1400~1 655 nm時波長變量純度梯度的變化頻率也較高,說明這個波段包含較多的潛在特征波長變量.
土壤速效磷校正集全光譜波長變量PLS-R模型的VVIP曲線見圖5.
圖5 土壤速效磷校正集全光譜PLS回歸VVIP曲線
由圖5可見,波長變量VVIP>1的波段位于350~500 nm,800~950 nm,1 300 nm周邊,1 400~1 655 nm,這些波段的波長變量對目標量預測的解釋性較強.
對校正集136個樣本和驗證集57個樣本進行土壤速效磷PLS-R回歸模型訓練和驗證,分為全光譜波長變量PLS-R回歸模型(FS-PLS-R)、全光譜iGA選擇特征波長變量PLS-R回歸模型(FS-iGA-PLS-R)、區(qū)間光譜iGA選擇特征變量PLS-R回歸模型(IS-iGA-PLS-R).其中,區(qū)間光譜是通過光譜波長變量純度梯度和變量投影重要性系數(shù)選擇方法在全光譜中篩選.PLS-R回歸模型評價參數(shù)試驗結(jié)果如表2所示.
表2 PLS-R回歸模型評價參數(shù)試驗結(jié)果
由表2可見,F(xiàn)S-PLS-R預測性能最差,其次為FS-iGA-PLS-R,IS- iGA-PLS-R最優(yōu).
土壤速效磷驗證集57個樣本的參考方法測定值與FS-iGA-PLS-R模型、IS-iGA- PLS-R模型預測值之間的對比效果圖如圖6所示.
圖6 土壤速效磷驗證集參考方法測定值與預測值對比圖
從圖6可見,全光譜iGA選擇的特征波長變量PLS-R回歸模型測預值在Y=X一元回歸線周邊比在區(qū)間光譜iGA選擇的特征波長變量PLS回歸模型測預值更松散,說明iGA在區(qū)間光譜中選擇特征波長變量建模比在全光譜中選擇建模具有更好的解釋能力和預測精度.
用光譜波長變量純度梯度和變量投影重要性系數(shù)作為波長間隔劃分與提取準則,提取出31個重要波長間隔,波長分布在350~399,480~488,840~1 122,1 237~1 502,1 510~1 655 nm的不連續(xù)波長間隔中,與文獻[7]中所述對土壤速效磷預測有重要作用波長大致相同,證明了波長間隔提取的正確性.一個光譜波長變量的非零純度梯度可能因土壤有機質(zhì)O—H基團的吸收度所致.光譜波長變量純度梯度最陡峭峰值位于的波長間隔是840~1 122 nm.土壤速效磷質(zhì)量分數(shù)是通過土壤有機化合物近紅外光譜間接測量的[10].
在全光譜中用FS-iGA-PLS-R模型選擇的25個特征波長變量中,位于光譜波長變量純度梯度最大陡峭峰值附近的波長值共有6個,分別是815,865,901,1 066,1 102,1 303 nm.
在區(qū)間光譜中用IS-iGA-PLS-R模型選擇的25個特征波長變量中,位于光譜波長變量純度梯度最大陡峭峰值附近的波長值共有13個,分別是855,940,994,1 018,1 023,1 085,1 102,1 112,1 124,1 129,1 144,1 166,1 198 nm.可見,對于提取相同數(shù)量的特征波長變量,在光譜波長變量純度梯度最大陡峭峰值附近波長區(qū)間中,IS-iGA-PLS-R模型比FS-iGA-PLS-R模型能多選出1倍以上數(shù)量的特征波長變量.在光譜變量純度梯度最大陡峭峰值附近波長區(qū)間中,含有與目標預測量相關(guān)的更多有用信息,從該波長區(qū)間提取更多的特征波長變量,有利于提高回歸模型的預測精度.
區(qū)間光譜iGA選擇特征波長變量SVM回歸模型(IS-iGA-SVM)與文獻[7]的PLS-BP神經(jīng)網(wǎng)絡(luò)回歸模型(PLS-BPNN)對土壤速效磷的預測試驗結(jié)果比較如表3所示.
表3 土壤速效磷的IS-iGA-SVM與文獻[7]的PLS-BPNN模型評價參數(shù)比較
由表3可見,IS-iGA-PLS-R模型選擇的特征波長變量運用到其他非線性回歸模型中,預測精度與PLS-BPNN模型的相當,但區(qū)間光譜改進遺傳算法選擇的特征波長變量使預測模型結(jié)構(gòu)更加簡單,計算量更小,具有更好的解釋性和實用性.由于波長變量與目標量之間存在非線性關(guān)系,采用單一回歸模型預測精度很難再有提高.必須用本方法選擇的特征波長變量結(jié)合集成模型才能進一步提高預測精度.
粒子群優(yōu)化算法在找尋最優(yōu)解效率上要好于遺傳算法,但是粒子群優(yōu)化算法嚴重依賴參數(shù)大小和初始種群的設(shè)置,容易陷入局部最優(yōu)解,算法不穩(wěn)定.而改進遺傳算法克服了這個缺點,且不會陷入局部最優(yōu)解.雖然針對粒子群算法容易陷入局部最優(yōu)解的狀況,出現(xiàn)很多改進粒子群算法,但改進粒子群算法的設(shè)置參數(shù)多,算法實現(xiàn)復雜.而改進遺傳算法的設(shè)置參數(shù)少,算法實現(xiàn)簡單.全局搜索能力強,收斂速度較快,克服了傳統(tǒng)遺傳算法的缺點.
1) 提出一種重要區(qū)間光譜提取和區(qū)間光譜改進遺傳算法的特征波長選擇方法,提取對速效磷質(zhì)量分數(shù)預測貢獻大的重要區(qū)間光譜,使改進遺傳算法在重要區(qū)間光譜選擇潛在特征波長變量的概率大大增加,解決了在全光譜選擇潛在特征波長變量概率不高的問題.
2) 25個特征波長變量的IS-iGA-PLS-R模型預測性能優(yōu)于全光譜波長變量PLS-R模型,同時與文獻[7]的PLS-BPNN模型模型預測精度相當.
3) IS-iGA-PLS-R模型能夠有效減少高光譜數(shù)據(jù)冗余和共線性影響,簡化預測模型,提高預測精度,可用于土壤速效磷的定量預測.
4) 下一步研究利用集成模型進一步提高預測精度和穩(wěn)健性.