李耀翔,張鴻富
(1.東北林業(yè)大學(xué)工程技術(shù)學(xué)院,哈爾濱150040;2.云南農(nóng)業(yè)大學(xué),昆明650201)
木材是一種復(fù)雜的天然有機(jī)聚合物,主要由木質(zhì)素、纖維素、半纖維素和一定數(shù)量的抽提物等高分子有機(jī)物組成,這些組分在近紅外譜區(qū)都有較強(qiáng)的吸收度,這使得近紅外光譜技術(shù)預(yù)測(cè)木材的密度成為可能。木材密度是木材性質(zhì)的一項(xiàng)重要指標(biāo),根據(jù)木材的密度信息可以估計(jì)木材的重量、判斷木材硬度、強(qiáng)度等物理力學(xué)性質(zhì)及工藝性質(zhì)。傳統(tǒng)的測(cè)量木材密度的方法費(fèi)時(shí)且費(fèi)力,對(duì)其進(jìn)行快速、準(zhǔn)確的預(yù)測(cè)具有十分重要的意義。近紅外光譜分析技術(shù)具有操作簡(jiǎn)單、預(yù)測(cè)結(jié)果準(zhǔn)確、對(duì)試樣無損等優(yōu)點(diǎn),在國(guó)內(nèi)外已廣泛用于檢測(cè)木材密度、強(qiáng)度、含水率、木質(zhì)素、抽提物、糖類等物理及化學(xué)性質(zhì)[1-3]。落葉松作為我國(guó)東北林區(qū)大量種植的重要用材林樹種,具有種植范圍廣,木材蓄積量大的特點(diǎn),用近紅外光譜分析技術(shù)對(duì)其密度進(jìn)行預(yù)測(cè)有利于提高落葉松木材的利用率。本文運(yùn)用基于高斯核變換的非線性偏最小二乘法結(jié)合近紅外光譜,對(duì)木材密度進(jìn)行了預(yù)測(cè)研究[4]。
本次試驗(yàn)所用落葉松試材采自黑龍江帶嶺林業(yè)局東方紅林場(chǎng),北緯 46°50'8″~ 46°59'20″,東經(jīng)128°57'16″~129°17'50″,海拔 650m。在所選標(biāo)準(zhǔn)樣地中從背陰面及向陽面各選一株健康木作為標(biāo)準(zhǔn)木。所選標(biāo)準(zhǔn)木直徑分別為26.2 cm和26.3 cm,樹高分別為23.2 m和23 m。在每株標(biāo)準(zhǔn)木的胸高(1.3 m)附近連續(xù)截取5 cm厚圓盤,帶回實(shí)驗(yàn)室將每個(gè)圓盤去皮后過髓心縱向取20 mm×40 mm×200 mm樣條,每個(gè)樣條取規(guī)格為20 mm×20 mm×20 mm樣方,總計(jì)117個(gè)樣方。落葉松木材氣干密度的測(cè)量按照《木材物理力學(xué)性質(zhì)試驗(yàn)方法》(GB1933-1991)進(jìn)行。運(yùn)用MATLAB 7.0編寫程序?qū)?17個(gè)樣品按照3∶1的比例隨機(jī)分為校正集和驗(yàn)證集,其中校正集共88個(gè)樣品,驗(yàn)證集共29個(gè)樣品。具體信息見表1。
表1 樣品密度統(tǒng)計(jì)信息Tab.1 Statistics of wood density for the samples (g/cm3)
樣品近紅外光譜的采集儀器采用美國(guó)ASD公司生產(chǎn)的LabSpecR Pro FR/A114260便攜式快速掃描光譜儀。該儀器光譜波長(zhǎng)范圍為350~2500 nm,光譜分辨率為3 nm@700 nm,10 nm@1 400和2 100 nm。實(shí)驗(yàn)室溫度、濕度基本恒定,室內(nèi)溫度控制在20±1℃,平均相對(duì)濕度為50%。采集樣品光譜前先用聚四氟乙烯制成的白色材料進(jìn)行空白校準(zhǔn),由于用近紅外光譜分析技術(shù)分析木材密度時(shí)在木材橫切面、徑切面、弦切面3個(gè)切面中對(duì)橫切面采集的光譜建模預(yù)測(cè)效果最好[5],本次實(shí)驗(yàn)采用兩分叉光纖探頭垂直于樣品的橫切面采集光譜。在全光譜范圍內(nèi)對(duì)樣品進(jìn)行掃描,設(shè)置波長(zhǎng)范圍每隔10 nm紀(jì)錄一個(gè)信息點(diǎn),每個(gè)樣品掃描30次并自動(dòng)平均為一個(gè)光譜,每條光譜共得216個(gè)信息點(diǎn)[4]。
設(shè)自變量光譜信息點(diǎn)x1,x2,…,xp與因變量樣品密度值y的函數(shù)關(guān)系式為
設(shè)fj(xj)的核函數(shù)變換為^fj(xj)(j=1,2,…,p),則有
式中:ξj,l-1為變量 xj上劃分的區(qū)間分點(diǎn),hj為分段長(zhǎng)度、Mj為分段個(gè)數(shù),進(jìn)而可以得到全體光譜信息矩陣與密度矩陣的非線性擬合函數(shù)可表示為式中:y 與 zj,l=K之間是線性關(guān)系,可以用求解線性回歸的方法對(duì)其構(gòu)造回歸模型,需要注意的是在進(jìn)行變量替換后新的變量之間也可能存在多重共線性,可以采用偏最小二乘方法進(jìn)行模型的求解來消除多重共線性的影響。
在近紅外光譜技術(shù)中由于光譜信息點(diǎn)的個(gè)數(shù)比較多,有時(shí)多達(dá)2 000個(gè)以上,大部分的光譜信息點(diǎn)之間存在著多重共線性,有的對(duì)所測(cè)性質(zhì)而言可能是冗余信息,將其加入模型中可能還會(huì)降低模型的預(yù)測(cè)精度,同時(shí)使建模時(shí)間增長(zhǎng),使模型的泛化能力變差。本文采用Bootstrap方法對(duì)光譜信息進(jìn)行篩選,去除冗余光譜點(diǎn)。Bootstrap變量篩選方法是1979年由美國(guó)斯坦福大學(xué)統(tǒng)計(jì)系教授倚佛儂提出的一種基于數(shù)據(jù)模擬的再抽樣方法,也稱為自助法,Bootstrap方法在運(yùn)用過程中只依賴于給定的樣本信息,而不需要其他假設(shè)或增加新的樣本,是一種新的變量篩選方法[6-11]。
本文用于評(píng)價(jià)模型質(zhì)量的參數(shù)主要有相關(guān)系數(shù)(R),均方差根誤差 (RMSE)及平均精度(PRE)。相關(guān)系數(shù) (R),其取值范圍在 [0,1],其值越大,模型擬合就越好:
式中:n為建模的樣本數(shù),yi為實(shí)驗(yàn)室運(yùn)用標(biāo)準(zhǔn)方法測(cè)定的實(shí)際值,為所建模型的預(yù)測(cè)值,為實(shí)驗(yàn)室運(yùn)用標(biāo)準(zhǔn)方法測(cè)定實(shí)際值的平均值。
均方差根誤差 (RMSE),均方差根誤差越小,模型擬合效果越好:
平均精度 (PRE),平均精度越大,模型擬合性越好。
將所采集的光譜進(jìn)行卷積平滑和一階導(dǎo)數(shù)處理以消除背景噪聲及基線的影響。為了減少自變量的個(gè)數(shù),提高運(yùn)算速度及建模精度,所得光譜的216個(gè)信息點(diǎn)采用Bootstrap方法篩選變量 (本文所采用Bootstrap方法、線性與非線性偏最小二乘建模方法程序均由MATLAB 7.0編寫),第一次設(shè)置檢驗(yàn)水平α=0.15,取B=100,有83個(gè)自變量未通過顯著性檢驗(yàn),將其剔除,剩余133個(gè)光譜數(shù)據(jù)。第二次設(shè)置檢驗(yàn)水平α=0.1,取B=100,有71個(gè)自變量未通過顯著性檢驗(yàn),將其剔除,剩余62個(gè)光譜數(shù)據(jù)。第三次設(shè)置檢驗(yàn)水平α=0.1,取B=300,有41個(gè)自變量未通過顯著性檢驗(yàn),將其剔除,剩余21個(gè)光譜數(shù)據(jù)。第四次設(shè)置檢驗(yàn)水平α=0.05,取B=100,有6個(gè)自變量未通過顯著性檢驗(yàn),將其剔除,剩余15個(gè)光譜數(shù)據(jù)。再次設(shè)置檢驗(yàn)水平α=0.05,取B=100所有變量均通過檢驗(yàn),最后通過Bootstrap方法篩選最后剩余15個(gè)光譜信息點(diǎn)用于線性和非線性偏最小二乘法的模型構(gòu)建。
在運(yùn)用非線性偏最小二乘法建立模型時(shí),為了選擇最佳主成分?jǐn)?shù),使所建模型能夠在最大程度上反映樣品密度值與光譜數(shù)據(jù)之間的關(guān)系,圖1和圖2分析了隨著主成分?jǐn)?shù)的增加模型RMSE與PRE變化關(guān)系。從圖1可以看出隨著主成分?jǐn)?shù)的增加,校正集RMSE逐漸下降,在主成分?jǐn)?shù)為10時(shí)趨近于0.02,而驗(yàn)證集RMSE在主成分?jǐn)?shù)在1至5之間呈現(xiàn)下降趨勢(shì),而在5以后卻又呈現(xiàn)上升趨勢(shì),在主成分?jǐn)?shù)為5處出現(xiàn)了拐點(diǎn)。圖2中隨著主成分?jǐn)?shù)的增加,校正集PRE逐漸升高,在主成分?jǐn)?shù)為10時(shí)趨近于97.5%,而驗(yàn)證集PRE在主成分?jǐn)?shù)在1至5之間呈現(xiàn)上升趨勢(shì),而在5以后卻又呈現(xiàn)下降趨勢(shì),在主成分?jǐn)?shù)為5處出現(xiàn)了拐點(diǎn)。從圖1及圖2可以看出校正模型的擬合能力隨著主成分?jǐn)?shù)的增加而增強(qiáng),但是預(yù)測(cè)能力卻是隨著主成分?jǐn)?shù)的增加出現(xiàn)了先增強(qiáng)后減弱的現(xiàn)象,所以綜合校正集及驗(yàn)證集兩方面的考慮,確定5為最佳主成分?jǐn)?shù),基于主成分?jǐn)?shù)為5建立的校正模型擬合能力及預(yù)測(cè)能力為最優(yōu)。
圖1 非線性偏最小二乘回歸主成分?jǐn)?shù)與均方差根關(guān)系圖Fig.1 The relationship between number of principle components and RMSE with nonlinear PLS
圖2 非線性偏最小二乘回歸主成分?jǐn)?shù)與平均精度關(guān)系圖Fig.2 The relationship between number of principle components and PRE%with nonlinear PLS
在確定了最佳主成分?jǐn)?shù)后,運(yùn)用非線性偏最小二乘法 (主成分?jǐn)?shù)為5)構(gòu)建落葉松木材密度近紅外光譜模型,建模結(jié)果與傳統(tǒng)線性偏最小二乘法進(jìn)行了對(duì)比 (見表2)。通過表2可以看出,從對(duì)落葉松樣品密度預(yù)測(cè)方面,無論非線性偏最小二乘法所建模型還是線性偏最小二乘法所建模型都能實(shí)現(xiàn)有效預(yù)測(cè)。但從模型的具體參數(shù)比較來看,非線性偏最小二乘法所建模型不論校正集還是驗(yàn)證集的相關(guān)系數(shù)和平均精度都高于線性偏最小二乘法所建模型,均方根誤差都小于線性偏最小二乘法所建模型,這說明了在結(jié)合近紅外分析技術(shù)預(yù)測(cè)木材密度中非線性偏最小二乘法所建模型要優(yōu)于線性偏最小二乘法所建模型,預(yù)測(cè)結(jié)果更加準(zhǔn)確。還在一定程度上也反映了樣品近紅外光譜信息與樣品的實(shí)際密度值之間不是單純的線性關(guān)系,非線性關(guān)系可以更好地表征二者之間的關(guān)系。
表2 線性與非線性偏最小二乘法結(jié)果分析Tab.2 Comparison of modeling results with linear and nonlinear PLS
本文給出了結(jié)合非線性偏最小二乘法應(yīng)用近紅外光譜技術(shù)對(duì)落葉松木材的密度的預(yù)測(cè)模型,并進(jìn)行了模型比較。結(jié)果表明近紅外分析技術(shù)可以快速、準(zhǔn)確地預(yù)測(cè)木材的密度。
為了消除光譜信息中可能出現(xiàn)的冗余信息,提高建模的運(yùn)算速度,對(duì)所采集的光譜運(yùn)用Bootstrap變量篩選方法對(duì)光譜信息數(shù)據(jù)進(jìn)行了降維,設(shè)置相關(guān)參數(shù),經(jīng)過4次篩選,一條光譜的216個(gè)信息點(diǎn)篩選剩余15個(gè)信息點(diǎn)作為一個(gè)樣品的光譜信息,這就有效地提高了建模的運(yùn)算速度及建模精度。
分別運(yùn)用基于高斯核變換的非線性偏最小二乘法和傳統(tǒng)偏最小二乘法建立密度預(yù)測(cè)模型,并且對(duì)所建模型的評(píng)價(jià)參數(shù)進(jìn)行了對(duì)比分析。結(jié)果表明兩種方法建立的預(yù)測(cè)模型都能對(duì)樣品的密度進(jìn)行有效預(yù)測(cè),而在模型的具體參數(shù)比較上看,基于高斯核變換的非線性偏最小二乘法所建模型預(yù)測(cè)準(zhǔn)確度要優(yōu)于傳統(tǒng)偏最小二乘法建立模型,這在一定程度上也反映了樣品近紅外光譜信息與樣品的實(shí)際密度值之間不是單純的線性關(guān)系,非線性關(guān)系可以更好地表征二者之間的關(guān)系。
[1]黃安民,江澤慧.近紅外光譜技術(shù)在木材性質(zhì)預(yù)測(cè)中的應(yīng)用研究進(jìn)展[J].世界林業(yè)研究2007,20(1):49-54.
[2]嚴(yán)衍祿,趙龍蓮,韓東海,等.近紅外光譜分析基礎(chǔ)與應(yīng)用[M].北京:中國(guó)輕工業(yè)出版,2007.
[3]陸婉珍,袁洪福.現(xiàn)代近紅外光譜分析技術(shù)[M].北京:中國(guó)石化出版,2007.
[4]張鴻富.基于近紅外光譜技術(shù)的落葉松木材材性預(yù)測(cè)的研究[D].哈爾濱:東北林業(yè)大學(xué),2011.
[5]江澤慧,黃安民,王 斌.木材不同切面的近紅外光譜信息與密度快速預(yù)測(cè)[J].光譜學(xué)與光譜分析,2006,26(6):1034 -1037.
[6]王惠文,吳載斌,孟 潔.偏最小二乘回歸的線性與非線性方法[M].北京:國(guó)防工業(yè)出版社,2006.
[7]Nguyen H T,Lee B.Assessment of rice leaf growth and nitrogen status by hyperspectral canopy reflectance and partial least square regression[J].European Journal of Agronomy 2006,24:349 - 356.
[8]琚存勇,邸雪穎,蔡體久.變量篩選方法對(duì)郁閉度遙感估測(cè)模型的影響比較[J],林業(yè)科學(xué),2007,43(12):33 -38.
[9]杜曉明,蔡體久,琚存勇.采用偏最小二乘回歸方法估測(cè)森林郁閉度[J],應(yīng)用生態(tài)學(xué)報(bào),2008,19(2):273 -277.
[10]孟憲靜,孫天用,王立海.基于紅外熱像技術(shù)的木材內(nèi)部缺陷檢測(cè)的研究[J].森林工程,2011,27(6):33 -35.
[11]張 莉,周金池.近紅外光譜檢測(cè)技術(shù)及其在木材工業(yè)中的應(yīng)用[J].林業(yè)機(jī)械與木工設(shè)備,2010,38(10):4 -6.