汪紫陽,尹世逵,李 穎,李耀翔
(東北林業(yè)大學(xué) 工程技術(shù)學(xué)院,黑龍江 哈爾濱 150040)
隨著中國天然林全面禁伐,木材資源供給愈發(fā)緊張[1],這對木材高效識別與利用提出了更高的要求。木材識別能夠維護(hù)消費(fèi)者的利益,同時(shí)在合理利用木材方面發(fā)揮著一定的作用。近幾年國內(nèi)外木材無損檢測技術(shù)主要有應(yīng)力波、阻抗儀、超聲波檢測和X射線檢測等方法。但是這些檢測手段主要用于檢測木材的材性和缺陷[2-7],在樹種識別方面應(yīng)用的較少。BARMPOUTIS等[8]利用木材橫斷面圖像結(jié)合多維紋理分析技術(shù)和支持向量機(jī)(SVM)進(jìn)行分類,識別率達(dá)91.47%。但此方法需要獲取樹木木材樣本的橫斷面圖像,不能完全達(dá)到無損檢測的目的。ROJAS等[9]使用可聽范圍的應(yīng)力波對樹種進(jìn)行了識別,這是一種無損識別方法,但儀器的布線、樣本點(diǎn)間的測距等前期準(zhǔn)備工作需要一定時(shí)間,不能對大批量樣本的樹種檢測。可見/近紅外光譜技術(shù)是一項(xiàng)無損檢測技術(shù),采譜時(shí)無需對樣品進(jìn)行預(yù)處理,可以達(dá)到無損檢測的目的,并且單次采譜時(shí)間非常短,可以實(shí)現(xiàn)野外實(shí)時(shí)檢測[10]。近幾年國內(nèi)近紅外光譜技術(shù)在石油和農(nóng)業(yè)上使用較多,對木材進(jìn)行識別的研究還較少[11-12]。且木材樣本都是解析木,導(dǎo)致后期識別的未知樣本也需要相同規(guī)格的解析木。中國東北地區(qū)既有大、小興安嶺和長白山等茂密的天然林,又有東北各省各地區(qū)林場等密集的次生林[13]。本研究使用可見/近紅外光譜識別技術(shù),結(jié)合生長錐取樣的方法,通過S-G平滑濾波、導(dǎo)數(shù)、Norris導(dǎo)數(shù)濾波等方法對光譜進(jìn)行預(yù)處理,使用距離法建立了木材識別模型,識別了東北地區(qū)14種常見樹種的木材。為可見/近紅外光譜識別技術(shù)的預(yù)處理方法選擇和平滑處理參數(shù)選擇提供參考,為快速、準(zhǔn)確識別木材提供了一種新的無損檢測方法。
所用樣品均采自黑龍江省方正縣林業(yè)局星火林場(45°43′5.73″N, 129°13′34.37″E)。樣品由生長錐鉆取,鉆孔方位為由南向北穿過樹心,高度為距離地面1.3 m胸高處。從25塊樣地選擇14個(gè)樹種(表1)。采樣25株·種-1,共300個(gè)樣品。樣品直徑約5.15 mm。將樣品放在溫度為20℃,濕度為38%的室內(nèi)陰干1周,使其達(dá)到氣干狀態(tài)。從中部截?cái)鄻悠酚糜诓杉庾V,為得到較穩(wěn)定的模型,每個(gè)斷面用80目的砂紙打磨5次,使其表面粗糙度參數(shù)Ra接近12.5 μm。在建立木材識別模型時(shí),表面粗糙度對模型影響很?。?4]。
表1 木材樣品種類Table 1 Sample information
使用美國ASD公司生產(chǎn)的LabSpec光譜儀采集光譜,波長范圍為350~2 500 nm。其中350~780 nm為可見光波段,780~2 500 nm為近紅外波段,調(diào)整二分光纖端部距探頭口2 mm處固定。采譜前將探頭對準(zhǔn)聚四氟乙烯白板進(jìn)行校正,采譜過程中每15 min進(jìn)行1次空白校正,以保證光譜的穩(wěn)定性。將木樣嵌入直徑為5 mm的探頭口中,光斑直徑為5 mm,覆蓋木樣的端面,即采譜面(圖1)。每個(gè)斷面采集1次光譜后旋轉(zhuǎn)一定角度采集第2次光譜,共采集3次光譜,采集完成一個(gè)樹種所有樣本光譜后,使用OMNIC 9.2打開這些光譜,對比光譜波形相似度,篩除異常光譜后將單個(gè)樣品的剩余光譜取平均光譜用于分析。用此方法采集的光譜為樹木胸徑處邊材弦切面的光譜。用光譜儀配套的軟件采集光譜并轉(zhuǎn)換成數(shù)據(jù)文件,使用OMNIC 9.2,Matlab和Excel完成對光譜的初篩、預(yù)處理和數(shù)據(jù)處理工作。
由于木材是復(fù)雜的天然物,屬于散射介質(zhì),采集光譜時(shí)需要用漫反射光譜分析樣品,相對于透射光譜測量方式要更加復(fù)雜[15]。樣品的可見/近紅外光譜還會(huì)存在光譜基線偏移、高頻噪音、斜坡背景等偏差,影響建模的準(zhǔn)確性,使得可見/近紅外光譜的分析更加困難。所以利用可見/近紅外光譜建模時(shí),需要對光譜進(jìn)行預(yù)處理[16]。
可見/近紅外光譜預(yù)處理常用的方式就是數(shù)字濾波和導(dǎo)數(shù)處理。目前常用的數(shù)字濾波為平滑處理,光譜平滑可以降低噪音,一定程度上提升信噪比,但過度平滑會(huì)使光譜失真。最常用的平滑方式為移動(dòng)窗口最小二乘多項(xiàng)式平滑(Savitzky-Golay smoothing,S-G平滑)。背景中的基線偏移和光譜旋轉(zhuǎn)可以通過對光譜求導(dǎo)處理進(jìn)行校正,但是求導(dǎo)的過程中會(huì)放大光譜的噪音。如果原始光譜噪音比較大,則不適合直接對光譜進(jìn)行求導(dǎo)處理。
本研究主要使用了導(dǎo)數(shù)和平滑2種光譜預(yù)處理方法??疾炝嗽脊庾V(raw spectra)、S-G平滑、一階導(dǎo)數(shù)(first derivative,1st Der),二階導(dǎo)數(shù)(second derivative,2nd Der), 三階導(dǎo)數(shù)(third derivative,3rd Der), 對數(shù)(lg), Norris 一階 導(dǎo)數(shù)濾波(Norris 1st derivative filter), Norris 二 階導(dǎo)數(shù)濾波(Norris 2nd derivative filter)及組合等11種光譜預(yù)處理方法對分類建模預(yù)測效果的比較。
圖1 生長錐樣品光譜采集方法Figure 1 Near infrared (NIR)collecting method for the increment core samples
采用距離法建立識別模型。每個(gè)樹種采集50個(gè)光譜,用SNEE[17]提出的新序貫法(the DUPLEX method)抽取其中30個(gè)樣品光譜作為校正集,以表征此樣品標(biāo)準(zhǔn)光譜。剩余20個(gè)樣品光譜作為驗(yàn)證集,以驗(yàn)證此方法的可靠性。首先利用每個(gè)樹種的30個(gè)校正集光譜,計(jì)算出該樹種的平均光譜和標(biāo)準(zhǔn)偏差光譜。
導(dǎo)數(shù)處理的實(shí)質(zhì)是將某一波段對應(yīng)的反射值轉(zhuǎn)變成該波段曲線的切線的斜率,原始光譜波峰與波谷值經(jīng)過一階導(dǎo)數(shù)處理后為0。所以導(dǎo)數(shù)處理可以凸顯原始光譜波峰與波谷的位置,同時(shí)可以減小光譜的基線偏移偏差。從表2還可以看出:一階導(dǎo)數(shù)處理后識別準(zhǔn)確率較高,識別準(zhǔn)確率可達(dá)96.79%。而二階導(dǎo)數(shù)與三階導(dǎo)數(shù)對識別準(zhǔn)確率的提升沒有一階導(dǎo)數(shù)效果明顯,識別準(zhǔn)確率分別為78.57%和75.00%。圖2以榆樹平均光譜為例,可以看出:導(dǎo)數(shù)能夠消除光譜的基線偏移的同時(shí)會(huì)增大噪聲,特別是高階導(dǎo)數(shù)的處理效果反而差強(qiáng)人意。
表2 各階導(dǎo)數(shù)處理后預(yù)測結(jié)果Table 2 Predicted results after different derivative processing
圖2 榆樹原始平均光譜與導(dǎo)數(shù)平均光譜Figure 2 Average spectrum of elm after derivative processing
S-G平滑即移動(dòng)窗口最小二乘多項(xiàng)式平滑,這種平滑方式有2個(gè)參數(shù),平滑點(diǎn)數(shù)n(一般為大于1的奇數(shù))和擬合的多項(xiàng)式次數(shù)m。對于某一點(diǎn)的處理就是利用該點(diǎn)以及其前后(n-1)/2點(diǎn),共n個(gè)點(diǎn)進(jìn)行m次多項(xiàng)式的最小二乘擬合。
本研究對700個(gè)樣品的原始光譜進(jìn)行各參數(shù)的S-G平滑處理,其中平滑點(diǎn)數(shù)為3~51點(diǎn),多項(xiàng)式次數(shù)為1~6次,共150種不同的組合。準(zhǔn)確率為總準(zhǔn)確率,包括校正集的內(nèi)部交叉驗(yàn)證的準(zhǔn)確率和驗(yàn)證集的預(yù)測準(zhǔn)確率。S-G平滑濾波能降低光譜的噪音,但不會(huì)改變光譜的波形(在平滑波長小于半峰寬的情況下)。
由圖3可知:僅進(jìn)行S-G平滑處理時(shí),對模型識別準(zhǔn)確率的提高效果微乎其微。一階導(dǎo)數(shù)光譜的各參數(shù)S-G平滑的效果都很好。其中一階導(dǎo)數(shù)與3次和4次多項(xiàng)式9點(diǎn)S-G平滑的效果最好,誤判個(gè)數(shù)低至7個(gè),準(zhǔn)確率高達(dá)97.43%。二階導(dǎo)數(shù)和三階導(dǎo)數(shù)處理后的低點(diǎn)數(shù)S-G平滑的預(yù)測效果略差,識別準(zhǔn)確率低于80%。但是隨著平滑點(diǎn)數(shù)的增多,準(zhǔn)確率也不斷提高,最終識別準(zhǔn)確率穩(wěn)定在90%以上,其中二階導(dǎo)數(shù)配合1次、2次和3次多項(xiàng)式與21點(diǎn)、23點(diǎn)平滑和三階導(dǎo)數(shù)配合1次、2次和3次多項(xiàng)式與51點(diǎn)平滑的誤判個(gè)數(shù)低至5個(gè),識別準(zhǔn)確率高達(dá)98.42%。
隨著平滑點(diǎn)數(shù)在一定范圍內(nèi)增大,使用低次多項(xiàng)式S-G平滑的效果要好于高次多項(xiàng)式S-G平滑,低次多項(xiàng)式的識別準(zhǔn)確率高于高次多項(xiàng)式10%以上,但是隨著平滑點(diǎn)數(shù)繼續(xù)增大,由于多項(xiàng)式次數(shù)和平滑點(diǎn)數(shù)開始逐漸匹配,這種差異慢慢減小,識別準(zhǔn)確率都在95%以上,且不同多項(xiàng)式之間的差異小于1%。說明多項(xiàng)式次數(shù)和平滑點(diǎn)數(shù)要 “門當(dāng)戶對”才能達(dá)到最好的預(yù)測效果,不恰當(dāng)?shù)膮?shù)搭配還會(huì)使模型的預(yù)測準(zhǔn)確率降低。同時(shí),隨著導(dǎo)數(shù)處理的階數(shù)增大,例如三階導(dǎo)數(shù)處理時(shí),達(dá)到最好預(yù)測效果所需要的S-G平滑點(diǎn)數(shù)也增大,說明高階導(dǎo)數(shù)需要配合大點(diǎn)數(shù)S-G平滑使用。
圖3 基于不同參數(shù)組合的4種光譜預(yù)處理方法識別結(jié)果Figure 3 Different predicted results for 4 spectral pretreatment methods (A)S-G soomthing (B)1st+S-G soomthing (C)2nd+S-G soomthing(D)3rd+S-G soomthing
Norris導(dǎo)數(shù)濾波是 “近紅外之父”NORRIS提出的一種光譜預(yù)處理方法。這種方法類似于移動(dòng)窗口平均和卷積函數(shù)求導(dǎo),但是在窗口段長之間加入了段間距[18],同S-G平滑,窗口段長為1~51內(nèi)的奇數(shù),點(diǎn)數(shù)過高會(huì)使覆蓋波峰導(dǎo)致光譜失真,大點(diǎn)數(shù)設(shè)置將失去平滑意義。當(dāng)段長設(shè)置為3時(shí),則段內(nèi)每個(gè)數(shù)據(jù)點(diǎn)經(jīng)過濾波變成中心點(diǎn)和兩邊的點(diǎn)的平均值。段間距為2個(gè)連續(xù)窗口段長之間的距離,為0~20的自然數(shù),增大段間距可以增強(qiáng)被寬波段重疊的陡峭波段,大點(diǎn)數(shù)的間距將影響平滑效果。當(dāng)段間距設(shè)置為3時(shí),則2個(gè)連續(xù)段長之間的間距為3個(gè)波長上的點(diǎn)。S-G平滑濾波對于某一平滑點(diǎn)數(shù),其第1個(gè)中心點(diǎn)前的n個(gè)點(diǎn)和最后1個(gè)中心點(diǎn)的后n個(gè)點(diǎn)不能使用S-G平滑方法處理,使用Norris導(dǎo)數(shù)濾波可以克服這個(gè)問題。
本研究對700個(gè)樣品的原始光譜進(jìn)行各參數(shù)的Norris導(dǎo)數(shù)濾波,其中段長為1~51,段間距為0~20,共546種組合。準(zhǔn)確率為總準(zhǔn)確率,包括校正集的內(nèi)部交互驗(yàn)證的準(zhǔn)確率和驗(yàn)證集的預(yù)測準(zhǔn)確率。
2.3.1 Norris一階導(dǎo)數(shù)濾波 由圖4可知:對于Norris一階導(dǎo)數(shù)濾波,隨著段長點(diǎn)數(shù)增大,模型的準(zhǔn)確率降低,但是當(dāng)間距為0 nm,段長大于33 nm時(shí)識別準(zhǔn)確率低于80%。從整體上看,段長大于39 nm的濾波效果都不好,說明Norris一階導(dǎo)數(shù)濾波的段長選擇應(yīng)控制在1~19 nm之間。其中段長為1,段間距為4的一階導(dǎo)數(shù)Norris濾波效果最好,驗(yàn)證集預(yù)測誤判個(gè)數(shù)為8個(gè)。
2.3.2 Norris二階導(dǎo)數(shù)濾波 對于Norris二階導(dǎo)數(shù)濾波(圖5),由于間距0~20 nm的各參數(shù)的結(jié)果不一樣,繪制成21個(gè)變量的折線圖效果不好?,F(xiàn)將21種間距的各平滑點(diǎn)數(shù)準(zhǔn)確率數(shù)據(jù)進(jìn)行聚類分析,發(fā)現(xiàn)21組數(shù)據(jù)變化趨勢可分為2類:間距0~7 nm和間距8~20 nm,前者為準(zhǔn)確率先增大再減小,后者準(zhǔn)確率呈減小趨勢,如圖5所示。從整體上看,間距為8~20 nm時(shí)同Norris一階導(dǎo)數(shù)濾波,隨著段長點(diǎn)數(shù)變大,識別準(zhǔn)確率從98%降低至90%左右。但在間距為0~4 nm時(shí),段長為1 nm與3 nm的Norris導(dǎo)數(shù)濾波使模型的準(zhǔn)確率低于90%,隨著段長點(diǎn)數(shù)增大,識別準(zhǔn)確率也大幅上升,最高可達(dá)98.14%。說明段間距為0~5 nm和6~20 nm的Norris二階導(dǎo)數(shù)濾波的段長最佳選擇范圍分別為5~15 nm和1~7 nm。其中段長為3 nm和段間距為8 nm的Norris二階導(dǎo)數(shù)濾波效果最好,誤判個(gè)數(shù)低至5個(gè),準(zhǔn)確率高達(dá)98.21%。
圖4 基于不同參數(shù)組合(546種)的Norris一階導(dǎo)數(shù)濾波預(yù)測結(jié)果Figure 4 546 predicted results of different 1st+Norris derivative filtering parameter
圖5 基于不同參數(shù)組合(546種)的Norris二階導(dǎo)數(shù)濾波預(yù)測結(jié)果Figure 5 546 predicted results of different 2nd+Norris derivative filtering parameter
測試了這11種光譜預(yù)處理方法對識別模型準(zhǔn)確率的影響,這11種方法中若涉及參數(shù)選擇問題,取準(zhǔn)確率最高的參數(shù)組合(表3)。對數(shù)(lg),S-G平滑,對數(shù)(lg)與S-G平滑等3種處理方式的準(zhǔn)確率與原始光譜的準(zhǔn)確率一樣,說明單純使用對數(shù)(lg)和S-G平滑預(yù)處理方式不能提升模型的準(zhǔn)確率,原因是對數(shù)和平滑處理沒有改變原始光譜的波形,只能使光譜更加平滑,不能提高光譜區(qū)分度。
可見/近紅外光譜技術(shù)能夠?qū)崿F(xiàn)生長錐取樣的木材識別。本研究采用距離法識別模型,使用未經(jīng)任何預(yù)處理的光譜識別木材準(zhǔn)確率很低。使用S-G平滑處理或?qū)?shù)處理對光譜進(jìn)行預(yù)處理不能提升識別準(zhǔn)確率。一階導(dǎo)數(shù)預(yù)處理能明顯提升木材識別準(zhǔn)確率。由于二階導(dǎo)數(shù)和三階導(dǎo)數(shù)會(huì)增大光譜的噪音,經(jīng)過二階導(dǎo)數(shù)或三階導(dǎo)數(shù)預(yù)處理的光譜識別準(zhǔn)確率為沒有一階導(dǎo)數(shù)高。在利用可見/近紅外光譜進(jìn)行樹種識別的過程中,二階導(dǎo)數(shù)預(yù)處理和三階導(dǎo)數(shù)預(yù)處理需與其他預(yù)處理方式配合使用,才能達(dá)到提升識別模型準(zhǔn)確率的效果。
表3 11種預(yù)處理方法識別預(yù)測結(jié)果Table 3 Predicted results of 11 processing methods
S-G平滑處理能夠明顯降低二階導(dǎo)數(shù)和三階導(dǎo)數(shù)處理后的光譜的噪音,能夠極大程度地提升木材識別模型的準(zhǔn)確率。使用Norris導(dǎo)數(shù)濾波能夠提升木材識別模型的準(zhǔn)確率,在最優(yōu)的參數(shù)設(shè)置下,Norris導(dǎo)數(shù)濾波效果略好于S-G導(dǎo)數(shù)平滑,但差異不明顯。由于Norris導(dǎo)數(shù)濾波的特性,使得它能夠處理光譜波長兩端的若干個(gè)點(diǎn),而S-G平滑不能對光譜波長兩端的若干個(gè)點(diǎn)進(jìn)行處理。所以在選擇與導(dǎo)數(shù)處理相配合的預(yù)處理方式時(shí),Norris導(dǎo)數(shù)濾波應(yīng)為首選。在使用這2種預(yù)處理方法時(shí)搭配二階導(dǎo)數(shù)的預(yù)處理效果最好。
參數(shù)的選擇對木材識別模型的準(zhǔn)確率有一定影響,在使用過程中需要合理選擇各項(xiàng)參數(shù)。由于Norris導(dǎo)數(shù)濾波的可選參數(shù)組合要多于S-G平滑,所以在最優(yōu)參數(shù)選擇上,Norris導(dǎo)數(shù)濾波的工作量要大于S-G平滑。但是通過本試驗(yàn)發(fā)現(xiàn),在控制某一個(gè)參數(shù)不變,另一個(gè)參數(shù)遞變時(shí)識別準(zhǔn)確率的變化也呈現(xiàn)出遞增/遞減的規(guī)律,通過合理的參數(shù)選擇方案可以有效減少最優(yōu)參數(shù)確定的工作量。