高禮彬,陳金浩,張怡卓,王克奇
(東北林業(yè)大學(xué)機電工程學(xué)院,哈爾濱 150040)
木材順紋抗壓強度是結(jié)構(gòu)用材重要的力學(xué)指標(biāo)之一,而傳統(tǒng)的破壞性檢測方法時間長、成本高,且由于木材的各向異性及不均勻性,造成操作復(fù)雜且準(zhǔn)確度低。近紅外光譜技術(shù)(NIR)具有簡單便捷、快速有效的特點,通過建立NIR定量分析模型,可實現(xiàn)快速無損測定[1]。黃安民等[2]指出近紅外光譜技術(shù)在木材物理力學(xué)研究方面具有極大的潛力;虞華強等[3]將近紅外光譜作為初步檢測杉木木材力學(xué)性質(zhì)的工具;趙榮軍等[4]利用近紅外光譜方法預(yù)測人工林粗皮桉木材力學(xué)性質(zhì)效果較好。因此,近紅外光譜技術(shù)在木材力學(xué)性能檢測中被證明是一種理想可靠的方法。
在近紅外光譜建模過程中,原始光譜會包含大量無用信息,要先進行特征選擇,實現(xiàn)降維處理。云永歡等[5]和Yun等[6]提出模型集群分析(MPA)算法框架運用于光譜特征優(yōu)選,打破了傳統(tǒng)一次性建模思路,力求最大限度地利用已有樣本集的信息,通過隨機采樣,從大量的子模型中提取統(tǒng)計信息并進行選擇分析?;贛PA算法框架開發(fā)的算法常見的有:變量組合集群分析(VCPA)[7-8]算法,其根據(jù)優(yōu)秀子集中變量出現(xiàn)頻率作為變量重要性的評價標(biāo)準(zhǔn)選取特征變量組合;競爭性自適應(yīng)重加權(quán)(CARS)[9-10]算法,其通過搜索方法及評價變量重要性程度的標(biāo)準(zhǔn)以得到最優(yōu)的變量子集;變量迭代空間收縮(VISSA)[11-12]算法,其在變量空間中迭代收縮,保證新的變量空間優(yōu)于前一個,得到最優(yōu)變量組合。其中,VCPA和CARS的弊端在于當(dāng)校正集樣本出現(xiàn)波動時,對于變量的重要性判斷會受到一定程度的影響,會降低模型的預(yù)測能力。VISSA避免了這種缺點,但因其在每輪迭代子數(shù)據(jù)集時,得到的是特征波長數(shù)量比例不同的子數(shù)據(jù)集,可能無法準(zhǔn)確評價子模型的優(yōu)劣,導(dǎo)致有效信息丟失,增加不穩(wěn)定性。因而引入采樣誤差分布分析(SEPA)[13-14]與VISSA相結(jié)合進行改進,相比于原VISSA能以一種更溫和的方式消除非信息變量。
合適的建模方法是建立光譜數(shù)據(jù)與真值之間聯(lián)系的關(guān)鍵,由于木材的各向異性及不均勻性,使高維度特征變量之間的相關(guān)性非常敏感,采用線性建模會導(dǎo)致模型的精度大大降低,如偏最小二乘回歸法(PLS)[15-16]。而非線性建模能有效提升預(yù)測精度,有較好的泛化能力且不會出現(xiàn)過擬合的問題,如支持向量回歸(SVR)[17-18],但其不提供后驗概率且參數(shù)不易設(shè)置。因此,在SVR基礎(chǔ)上提出基于貝葉斯框架的稀疏概率學(xué)習(xí)模型——相關(guān)向量機(RVM)[19],其不僅具有SVR模型的優(yōu)點,且核函數(shù)可以任意指定,不是必須正定,此外調(diào)節(jié)參數(shù)較少,便于模型優(yōu)化,相較于SVR模型能夠完成更精確的預(yù)測。
筆者以樺木木材為試驗對象,使用近紅外光譜儀采集光譜數(shù)據(jù)并測定順紋抗壓強度真值,然后以SEPA作為VISSA的改進策略進行特征波長篩選,在此基礎(chǔ)上采用RVM非線性建模方法進行木材抗壓強度預(yù)測,并與其他波長優(yōu)選算法和建模方法效果進行比較。
樺木木材淡褐色至紅褐色,可用作地板、家具、內(nèi)部裝飾材料、車船設(shè)備、膠合板等。所制家具光滑耐磨,花紋明晰,如今多用于結(jié)構(gòu)、鑲花木細工和內(nèi)部框架的制作。試驗樺木樣本來自黑龍江帶嶺林業(yè)局林場,取5株樺樹樣木,樹齡均在20 a以上,在每株樣木的胸高(1.3 m)附近截取約50 cm的圓盤后去皮,氣干后鋸解成力學(xué)試材毛坯條。參照GB/T 1935—2009《木材順紋抗壓強度試驗方法》,制取尺寸為30 mm×20 mm×20 mm的順紋方向抗壓力學(xué)試樣,并挑選出無疵試樣100條,按1~100編號,將試樣放入恒溫恒濕箱內(nèi)調(diào)至含水率為12%,保持室溫為(20±2)℃、相對濕度為(65±3)%,然后進行近紅外光譜掃描和力學(xué)性能測試。
研究表明,木材近紅外光譜在1 000~1 600 nm波長范圍內(nèi)攜有重要信息,能夠較好地預(yù)測木材力學(xué)強度等性質(zhì)[3,16]。因此,采用INSION公司近紅外光纖光譜儀進行光譜掃描,采集波長范圍900~1 700 nm,環(huán)境溫度20 ℃,平均相對濕度50%。使用兩分叉光纖探頭及鎢光源,光纖探頭垂直固定在金屬支架上,試樣置于支架底面,非接觸測量距1 mm,光斑直徑5 mm,采用聚四氟乙烯白板標(biāo)定后進行光譜采集。在每個試件的徑、弦切面上分別均勻掃描采集4個樣本點,每點掃描30次自動平均為1個光譜,記錄保存。將每個試件的徑、弦切面共8條光譜數(shù)據(jù)平均成1條光譜,代表該編號試件整體的近紅外吸收光譜。
本試驗利用INSION公司開發(fā)的SPEC view 7.1 軟件進行數(shù)據(jù)采集,由于原始光譜存在基線漂移、樣本顆粒大小不一和光散射等噪聲信息影響因素而混入非信息變量,因此需對所采集數(shù)據(jù)做預(yù)處理后再建模。分別采用多元散射校正(MSC)、卷積平滑(SG)和MSC-SG這3種方法對原始光譜數(shù)據(jù)進行預(yù)處理,然后針對各處理后的全波段光譜建立PLS模型。SG-PLS模型效果最優(yōu),校正集和預(yù)測集的決定系數(shù)分別為0.908 8和0.881 4,相應(yīng)的均方根誤差分別為3.765 3和3.086 5,如表1所示。由表1可知,經(jīng)過SG預(yù)處理后能夠?qū)υ脊庾V信息進行去噪,所建立的抗壓強度PLS模型更加穩(wěn)定和精確。
表1 不同預(yù)處理方法的PLS模型對比Table 1 PLS model comparisons of different pretreatment methods
參照GB/T 1935—2009測定樺木的無疵試樣抗壓強度真值。對100組樺木樣本,以校正集與預(yù)測集之比為3∶1的比例,采用光譜-理化值共生距離(SPXY)算法[20]對其進行分割,得到校正集樣本75個,預(yù)測集樣本25個,如表2所示。由表2可知,抗壓強度范圍為60.822 1~107.476 2 MPa,預(yù)測集樣品信息被校正集樣品信息所覆蓋。
表2 樣本校正集和預(yù)測集抗壓強度的測定結(jié)果Table 2 Test results of compressive strengths of sample calibration set and prediction set
1.4.1 SEPA-VISSA算法
VISSA的核心在于通過加權(quán)二進制采樣(WBMS)構(gòu)建子模型,然后提取預(yù)測誤差最小的子模型,統(tǒng)計各變量出現(xiàn)的頻率,分配變量權(quán)重來實現(xiàn)變量空間收縮。其中,WBMS主要根據(jù)變量當(dāng)前權(quán)重來分配子數(shù)據(jù)集中的變量數(shù),確保權(quán)值較大的變量有較高被選擇概率,使每個變量有不同的采樣頻率。變量的權(quán)重公式為:
ωi=fi/mbest
(1)
式中:fi為變量在最佳子模型中的頻率;mbest為最佳模型的數(shù)量;ωi為包含變量的子模型比例。
SEPA是將子模型均方根誤差(RMSE,公式中記為RMSE)的中位數(shù)和標(biāo)準(zhǔn)差相加作為RMSE的一種估計。使用中位數(shù)而不是平均值和最小值,是因為中位數(shù)更穩(wěn)健。在VISSA算法中通過WBMS建立m個子模型,最大主成分數(shù)為n,然后根據(jù)SEPA原理,以其中一個子模型的n個交叉驗證均方根誤差(RMSECV,公式中記為RMSECV)進行計算,取RMSECV的中位數(shù)和計算n個RMSECV的標(biāo)準(zhǔn)差后相加,公式如下:
(2)
式中:RMSECV為子模型的交叉驗證均方根誤差;n為RMSECV的個數(shù);STD為各子模型RMSE的標(biāo)準(zhǔn)差。
根據(jù)上述原理,設(shè)光譜數(shù)據(jù)為X,抗壓強度真值為Y,特征波長個數(shù)為p,WBMS采樣數(shù)為m,則SEPA-VISSA算法過程如下:
步驟1,賦予特征波長p值均為0.5的初始權(quán)重。
步驟2,采用WBMS對光譜數(shù)據(jù)X生成m個子數(shù)據(jù)集,分別建立PLS子模型。
1.4.2 RVM建模原理
RVM是建立在貝葉斯稀疏框架下的稀疏概率模型。與SVR相比,滿足Merrcer核正定的條件不再是必要的,且在計算負擔(dān)方面也更小。在波長優(yōu)選的結(jié)果下,令校正集為{xn,tn|n=1,2,…,N},建立木材抗壓強度預(yù)測模型:
(3)
式中:xn為輸入的變量,即光譜的特征波長;tn為目標(biāo)輸出,即木材抗壓強度;?為權(quán)重;ωm為?中的第m個元素;M(1≤m≤M)為xn中光譜特征波長的數(shù)量;K(x,xn)為核函數(shù);ω0為基礎(chǔ)量;ξn為殘差且滿足ξn~N(0,σ2)。設(shè)tn為獨立分布,則似然函數(shù)可表示為:
(4)
式中:σ2為噪聲方差;t為目標(biāo)輸出,是以tn組成的向量(t1,t2,…,tn)T;φ為基函數(shù),是以φn組成的矩陣[φ1,φ2,…,φM],其中φ(xn)=[1,k(xn,x1),k(xn,x2),…,k(xn,xM)]。
為了確定先驗分布,假設(shè)參數(shù)ωn服從以0為均值、σ2為方差的高斯分布,則有:
(5)
式中,α為決定權(quán)值?先驗分布的超參數(shù),其只與相對應(yīng)的權(quán)值?相關(guān)。假定α和σ2均服從Gamma先驗概率,然后根據(jù)貝葉斯準(zhǔn)則可得?的后驗分布為:
(6)
高斯(Gaussian)核函數(shù)(式7)、冪指數(shù)(Exponential)核函數(shù)(式8)和拉普拉斯(Laplacian)核函數(shù)(式9)是3種典型的核函數(shù),具有良好的分布特性。分別采用這3種核函數(shù),結(jié)合粒子群算法(PSO)[21]選取其最優(yōu)核參數(shù)并在RVM中建模,最后比較優(yōu)劣。各核函數(shù)表達式如下所示:
(7)
(8)
(9)
式中:yc為核函數(shù)中心;σ為核寬度。
以SG預(yù)處理后的512個波長點作為對象,采用不同算法設(shè)置參數(shù),并進行降維試驗,過程如圖1所示。其中,VCPA 的二進制采樣(BMS)采樣數(shù)為500,指數(shù)遞減函數(shù)(EDF)運行數(shù)為200,比率為0.5;CARS的蒙特卡洛采樣數(shù)為2 000;VISSA和SEPA-VISSA的加權(quán)二進制采樣(WBMS)采樣數(shù)均為2 000。試驗均設(shè)最大主成分數(shù)n為10,交叉驗證為5折,每個試驗各進行10次,取試驗結(jié)果中值。
不同算法的波長選擇對比見圖2。結(jié)合圖1和2可知:①VCPA在EDF運行到187次時,最小RMSECV為3.672 2,此時得到15個波長點,占總波長的3%;②CARS在蒙特卡洛采樣1 799次時,最小RMSECV為12.597 0,此時得到12個波長點,占總波長的2%;③VISSA選取了77個波長點,占總波長的15%,此時模型的最小RMSECV為3.681 8;④SEPA-VISSA選取了111個波長點,占總波長的22%,此時最小RMSECV±STD(SEPA)為3.822 0。此處4種算法的采樣方法和判斷最優(yōu)變量特征方式都各不相同,由于是隨機采樣的子模型,僅表現(xiàn)當(dāng)前對應(yīng)算法選取特征時的子模型狀況,相互間無直接聯(lián)系。
對于木材的主要成分纖維素和木質(zhì)素,其含有大量的含氫基團C—H、O—H、N—H等在近紅外光譜區(qū)產(chǎn)生吸收,其中二級倍頻主要位于1 000~1 400 nm處,一級倍頻主要位于1 400~1 800 nm處,因此使其在近紅外光譜區(qū)域有豐富的吸收信息。從圖2可以看出,在990,1 210,1 460和1 660 nm附近有主要吸收。根據(jù)吸收峰可得,1 210和1 660 nm 處分別為C—H鍵二級倍頻伸縮和一級倍頻伸縮,1 460 nm處為O—H鍵一級倍頻伸縮振動,990 nm處為N—H鍵二級倍頻對稱伸縮振動。由圖2可知,VCPA和CARS選擇波長數(shù)量較少,可能會遺漏信息變量而降低建模準(zhǔn)確性,而SEPA-VISSA相比于VISSA所選特征波長增加了1 460 nm處C—H鍵一級倍頻振動以及一些非主要的吸收峰,這是VISSA算法在特征波長多而雜時,子數(shù)據(jù)集隨機產(chǎn)生所帶來的不穩(wěn)定性,而SEPA-VISSA算法能更穩(wěn)定包含更多信息變量。
圖1 不同算法的波長選擇過程Fig. 1 Wavelength selection process of different algorithms
圖2 不同算法的波長選擇對比Fig. 2 Comparison of wavelength selections of different algorithms
對各算法優(yōu)選后的特征波長進行PLS建模,如表3所示。其中,SEPA-VISSA在校正集中決定系數(shù)為0.940 2,校正均方根誤差為3.049 2;在預(yù)測集中,決定系數(shù)為0.959 3,預(yù)測均方根誤差為2.899 5,相對分析誤差為3.025 6。相比之下,驗證了SEPA-VISSA在校正集和預(yù)測集中的PLS模型效果均優(yōu)于其他算法,主要原因如下:①相對于復(fù)雜的抗壓強度本身而言,影響抗壓強度的因素有很多,如木材的各向異性及不均勻性等特點,但通過VCPA和CARS所提取的特征波長可能會排除主要信息變量,導(dǎo)致預(yù)測結(jié)果不理想;②在SEPA-VISSA算法中,運用SEPA中的RMSECV±STD作為子模型的評判指標(biāo)對VISSA改進,提取出的特征波長信息與抗壓強度實際值擬合度更高,除了主要的特征波長,還包含一些非主要的特征波長,以更加柔和精確的方式剔除無信息特征波長,進一步提升預(yù)測模型的準(zhǔn)確性。
表3 不同算法的PLS模型對比Table 3 PLS model comparisons of different algorithms
將SEPA-VISSA特征優(yōu)選后的數(shù)據(jù)作為輸入,以PSO算法分別對Gaussian、Exponential和Laplacian核函數(shù)的核寬度進行優(yōu)化,其中PSO參數(shù)慣性權(quán)重ω和學(xué)習(xí)因子C1、C2為預(yù)置值,設(shè)最大迭代數(shù)為80,上下界為26和2-6,5折交叉驗證,各運行10次,取最佳結(jié)果。不同核函數(shù)的PSO優(yōu)化過程如圖3所示,3種核函數(shù)參數(shù)優(yōu)化的迭代次數(shù)分別為53,59和38,最佳適應(yīng)度值為3.027 1,3.325 1和3.132 3。不同核函數(shù)的PSO-RVM模型效果對比見表4,根據(jù)表4,采用Laplacian建立RVM模型時,其核寬度為10.404 3,預(yù)測決定系數(shù)為0.944 9,預(yù)測均方根誤差為2.043 2,均優(yōu)于基于Gaussian和Exponential的RVM模型,因此采用Laplacian進行建模,可進一步提高抗壓強度預(yù)測模型的精度。
圖3 不同核函數(shù)的PSO優(yōu)化過程Fig. 3 PSO optimization process of different kernel functions
表4 不同核函數(shù)的PSO-RVM模型效果對比Table 4 Comparison of PSO-RVM model accuracies of different kernel functions
不同建模方法的模型效果對比如圖4所示,為SEPA-VISSA提取特征波長分別采用PLS、SVR和RVM這3種方法進行建模。其中PLS模型的預(yù)測決定系數(shù)為0.959 3,優(yōu)于SVR和RVM,這是因為建模所輸入的SEPA-VISSA特征波長是在PLS建立子模型的基礎(chǔ)上所篩選的,因此,因變量(抗壓強度)的全部變異通過回歸關(guān)系被自變量(特征波長)解釋的比例,即決定系數(shù)是更高的。但是由于木材的各向異性及不均勻性等特點,特征波長之間更多是處在非線性不可分的狀態(tài),因此SVR和RVM非線性模型的預(yù)測均方根誤差分別為2.235 5和2.043 2,相對分析誤差分別為3.924 3和4.293 6,均優(yōu)于PLS建模,模型更穩(wěn)定和精確。此外,RVM相比于SVR引入了貝葉斯方法,提供了后驗概率的輸出,能產(chǎn)生更稀疏的解,同時其調(diào)參也更為簡便。從預(yù)測的結(jié)果數(shù)據(jù)來看,RVM模型的效果最優(yōu),建模效果優(yōu)于PLS和SVR。
圖4 不同建模方法的模型效果對比Fig. 4 Comparison of model accuracies of different modeling methods
在900~1 700 nm近紅外光譜波段上,以樺木為例,提出SEPA-VISSA-RVM的木材抗壓強度預(yù)測建模方法。通過實例和數(shù)據(jù)證明該模型不僅在波長優(yōu)選上具有優(yōu)勢,且相比于常用的PLS和SVR建模效果更好,在實際工程中具有良好應(yīng)用性。
1)利用SEPA作為VISSA的改進策略提取出的111個特征波長建立PLS模型,得到?jīng)Q定系數(shù)為0.959 3,預(yù)測均方根誤差為2.899 5,相對分析誤差為3.025 6,與VCPA、CARS和VISSA相比,在使用PLS線性建模時預(yù)測精準(zhǔn)度更高,提升了木材抗壓強度預(yù)測模型的準(zhǔn)確性和魯棒性。
2)將SPEA-VISSA與RVM建模方法相結(jié)合,通過PSO對RVM進行參數(shù)優(yōu)化,選擇Laplacian核函數(shù)建模,得到?jīng)Q定系數(shù)為0.944 9,預(yù)測均方根誤差為2.043 2,相對分析誤差為4.293 6,相比于PLS和SVR,RVM作為非線性建模方法可更加精確地計算出樺木抗壓強度的預(yù)測值。