賓俊 范偉 劉仁祥
摘要:為了解決近紅外漫反射光譜分析技術用于煙葉整葉檢測時,由于煙葉葉面積大、化學成分分布不均,光譜采集代表性和重復性無法保證的問題,對煙葉整葉采樣方式進行了系統(tǒng)研究。首先通過信息散度與梯度角正切相結合的光譜相似性方法(SID-GA)計算了7種整葉采樣方式獲得光譜的相似程度,并采用排序差異和值方法(SRD)對不同采樣方式下煙葉總糖、還原糖、煙堿、總氮、鉀和氯的偏最小二乘(PLS)定量模型進行了評估。結果表明,B2F、C3F、X2F煙葉樣本的最適宜采樣方式分別為“8點法”、“6點法”和“8點法”,綜合考慮采樣點數(shù)與模型預測性能,“8點法”被認為是煙葉的最佳光譜采集方式,“6點法”次之。采樣點數(shù)少、代表性高、重復性好的煙葉整葉近紅外光譜采樣方式,對提高煙葉品質現(xiàn)場快速分析效率和準確性具有現(xiàn)實意義。
關鍵詞:近紅外光譜;SID-GA:排序差異和值法;PLS定量模型:整葉采樣:8點法
近年來,近紅外光譜技術由于樣品前處理簡單、分析速度快、綠色無損等特點在煙草領域獲得了廣泛的應用。煙葉作為葉用經濟作物,葉長通常在55~75cm,葉寬在15-45cm,葉片薄而大。Bruton、王建安、楊晨龍等研究認為煙葉葉片中煙堿、葉綠素、總糖、蛋白質、氯、鉀等化學成分的分布不均勻,因此,對煙葉整葉直接的、無規(guī)律性的光譜采集存在代表性無法保證、重復性較差等問題,所以,目前普遍先對煙葉樣本進行粉碎、過篩等前處理,以保證分析試驗的精度:但是前處理會導致樣品被破壞,且制樣時間較長,不能滿足現(xiàn)場實時品質分析的需求。另外,隨著便攜式、手持式以及在線近紅外光譜儀器的廣泛應用,采用近紅外光譜技術在煙葉田間采收、分級定級、打葉復烤等現(xiàn)場進行原位品質分析勢在必行。王建安、楊晨龍、董小衛(wèi)、李佛琳、章英、李向陽、傅里峰,等分別采用“48點法”、“12點法”、“10點法”、“8點法”、“6點法”、正反面掃描法等對煙葉整葉進行了光譜采集,但是都沒有對煙葉采樣點位置和個數(shù)進行系統(tǒng)性的分析以明確何種采樣方式更具代表性。鑒于此,本文基于煙葉主要化學成分的葉面分布規(guī)律,結合光譜相似性原理和主要化學指標校正模型,試圖找到一種采樣點數(shù)少、代表性好、重復性高、適合便攜式近紅外光譜現(xiàn)場采樣的方案,實現(xiàn)真正意義上的煙葉整葉無損分析,為煙葉現(xiàn)場實時品質分析提供參考。
1材料與方法
1.1試驗材料
供試煙草品種為K326,于2015年自云南騰沖收集完整國標仿制煙樣150片,其中B2F、C3F和X2F等級煙葉各50片,樣品中總糖、還原糖、煙堿、總氮、氯含量根據行業(yè)標準采用連續(xù)流動法測定,鉀含量采用火焰光度法進行測定。具體樣本信息見表1。
1.2試驗設計
試驗設8個不同的煙葉近紅外光譜采樣處理,以煙葉磨粉處理后采樣為CK,在采樣前先將煙葉平整鋪開,以80cmx80cm玻璃板平壓24h,不同處理的具體采樣示意圖見圖1,研究表明煙葉化學成分分布沿主脈基本對稱,因此,部分試驗處理僅對煙葉半片進行光譜采樣,以減少采樣點數(shù),提高采集效率。
T1處理:將整片煙葉從葉尖至葉基方向劃分為9個等份,沿主脈方向左右各劃分為4等份,將煙葉分為48個小區(qū)域,任取其中一個半葉進行光譜采集,共24個采樣小區(qū)域。
T2處理:將煙葉以主脈為軸分為a和b兩大區(qū)域,從葉尖到葉基均分為12等分,共24個小區(qū)域,任取其中一個半葉進行光譜采集,共12個采樣區(qū)域。
T3處理:將葉片沿主脈縱向3等分為葉尖、葉中、葉基,葉尖取3個小區(qū)域,呈正立三角形,中部取4個小區(qū)域呈菱形,葉基取3個小區(qū)域呈倒立三角形,任取其中一個半葉進行光譜采集,共計10個小區(qū)域。
T4處理:將煙葉縱向4等分,靠近邊緣的兩個區(qū)域4等分,靠近葉梗的兩個區(qū)域5等分,共18個小區(qū)域,任取其中一個半葉進行光譜采集,共9個小區(qū)域。
T5處理:將煙葉以主脈為軸對稱劃分出上下2個大區(qū)域a和b,其中每個大區(qū)域再由葉尖至葉柄均分為4個小區(qū)域,共計8個采樣區(qū)間。
T6處理:將煙葉分成三部分(葉基段,葉中段,葉尖段),葉基段占煙葉的面積的15%,葉尖段大約150mm,又以主脈為對稱軸劃為兩部分,共6個區(qū)域。
T7處理:在采樣方式T6的基礎上,增加了煙葉背面的光譜采集,在煙葉背面相對應位置劃分6個小區(qū)域,共12個小區(qū)域。
CK處理:待所有采樣完成后去除煙葉主脈,利用旋風式粉碎機將其粉碎,過60目篩,然后進行光譜采集,每個樣本重復3次所得平均光譜作為該煙葉的光譜。
1.3光譜采集
按照1.2節(jié)試驗設計方案以及相關文獻使用光柵型i-Spec近紅外光譜儀(B&w Tek,Inc.)以漫反射模式采集煙葉整葉近紅外光譜,掃描次數(shù)為32次,光譜平均分辨率為3.5 nln,光譜采集范圍為900~1700 mm,每個小區(qū)域隨機選取3個樣點分別進行掃描(避開較大葉脈,點與點的間隔不超過0.1~0.5 cm,若采樣點位置出現(xiàn)破損,則適當偏移,就近取點)。測量時光纖探測器與樣品垂直呈90°,探測器頭部下端緊壓煙葉葉面,將每張煙葉所有樣點的反射光譜的平均光譜作為該煙葉樣本的最終光譜。煙葉進行光譜采集前置于溫度為(224±1)℃、相對濕度為(804±2)%的恒溫恒濕箱中平衡48 h,以保證不同煙葉樣本的含水率相同,盡量減小由于樣本含水率不一致給光譜測量帶來的影響。所有試驗于25℃室溫、相對濕度80%下進行。
1.4試驗方法
光譜相似度表示光譜之間的近似程度,是進行光譜分類、圖像壓縮、譜異常探測等圖像處理的操作基礎。兩個光譜的相似度可以用兩者之間的距離表示,距離越大相似度越小。除了使用距離計算外,還可以用夾角余弦、相關系數(shù)、光譜信息散度等方法來度量,但是這些方法只注重光譜的相似性,對差異的區(qū)分度則較低,而光譜梯度角可從局部辨別光譜曲線的差別,因此,文章采用信息散度與梯度角正切相結合的方法(SID-GA)來進行光譜相似性度量,該方法能夠從整體上反映出兩條光譜曲線的相似性,同時可將他們之間的微小差異放大。
排序差異和值法(SRD)是一種既簡單又相對公平的模型和方法比較評價算法,其基本評價準則是通過計算模型或者方法多次排名的差異和值的大小來判斷該模型或方法的穩(wěn)定性和可靠性,多次排名結果越一致,排名差異和值就越小,相應模型或方法的穩(wěn)健性越高。具體的計算步驟如下:(1)數(shù)據歸一化處理,使不同量綱和評價方式的數(shù)據統(tǒng)一:(2)確定排序參考標準,一般可選擇均值、最大值或最小值;(3)根據參考標準排序并計算SRD值:(4)根據SRD值進行排序。
1.5模型評價和統(tǒng)計軟件
PLS預測模型利用10折交互驗證法優(yōu)化主成分數(shù),以樣品模型決定系數(shù)(R2)、交互檢驗均方誤差(RMSECV)和預測平均相對偏差(RADP)作為評價模型的有效指標。數(shù)據分析處理通過Excel2010和Matlab R2015a軟件平臺完成。
2結果
2.1近紅外光譜的特征
圖2分別為B2F、C3F、X2F等級煙葉原始光譜,從圖中可以看出,光譜譜線輪廓光滑清晰,光譜差異較大的位置基本位于波峰與波谷。由于CK是粉末樣,所以其與T1-T7處理的光譜偏差較大,B2F的T1-T6處理光譜相似度較高,而T7處理所得光譜與其他處理光譜有一定的偏差:C3F各處理所得光譜都有一定偏離,在1470-1700nm內偏差增大,其中T5和T7偏離T1較遠:X2F各處理所得光譜900~1400 nm范圍內相互偏差都較大。因此,由于不同部位煙葉各處理所得光譜之間有一定的偏差,所以需要進行系統(tǒng)性的分析以明確光譜的代表性。
2.2相似性計算
由于CK處理樣品狀態(tài)為粉末,與其他處理樣品狀態(tài)存在明顯差異,在相似度計算中,我們將T1處理光譜作為參照,分別計算了其與T2-T7處理光譜之間的相似程度。由于樣品的吸收光譜存在較顯著的基線漂移現(xiàn)象,故在相似度計算之前需要對樣品光譜進行預處理,采用Norris一階導數(shù)法結合Savitzky-Golay平滑法消除基線的干擾。從圖3的相似度計算結果箱式分布圖可以直觀地看出各處理相似度分布規(guī)律,3組樣本不同處理下的光譜相似度都非常高,B2F和C3F等級的所有處理,樣本相似程度都在0.99以上,X2F等級僅有少量處理樣本相似程度在0.95-0.99,但是整體分布在0.99以上,這說明葉片較大、采樣點數(shù)較少時,光譜代表性降低。3組樣本中T7處理與T1的相似度較其他處理差,可能是煙葉的正面與背面的油分、分泌物等不同導致,因此,T7處理不太適合作為整葉光譜采集的方式?;谙嗨菩杂嬎憬Y果(不考慮CK和T1處理),不同采樣處理B2F樣本相似度從高到低順序為:T3、T4、T2、T6、T5、T7:C3F為:T2、T4、T3、T5、T6、T7:X2F為:T3、T5、T2、T4、T6、T7。
由于單純的光譜相似度分析并不能完全說明光譜采樣方法的優(yōu)劣,因此對不同處理下煙葉總糖、還原糖、煙堿、總氮、鉀和氯6種常規(guī)化學成分的PLS預測模型進行了評估。采用SPXY方法將B2F、C3F和X2F三個煙葉等級樣本中的40個劃作訓練集,余下10個作為驗證集。各等級PLS模型預測決定系數(shù)(R2)、交互檢驗均方誤差(RMSECV)和預測相對平均偏差(RADP)見表2~4。
2.3校正模型驗證
從表2可知,在B2F的各模型中除T7處理外,其他各處理模型都能取得較好的性能指標,達到或與CK模型相差不多的效果。總糖模型中,T2模型決定系數(shù)最高,性能最佳,甚至超過了CK和T1模型,此說明煙葉整葉取點采集光譜是可行的,且建立的模型有可能不會較磨粉建模差:還原糖、煙堿、總氮、鉀和氯模型都以CK表現(xiàn)最優(yōu),其中部分采樣點數(shù)較少的T5、T6處理模型比采樣點數(shù)較多的T2、T3模型性能好,這說明并非采樣點數(shù)越多,所得模型性能越佳,考慮到相似度計算結果,也并非相似度越高,所得模型越好。
從表3可知,在C3F等級煙葉樣本所建的PLS校正模型中,CK模型與T1模型性能指標較一致且較其他模型優(yōu)秀,這說明磨粉采樣與“24點法”采樣處理相差不大。在總糖模型中,T5、T6模型性能較接近CK.T1模型,而還原糖、煙堿和總氮模型各處理都較為接近,鉀和氯模型中除T7處理較差,其他模型比較接近??傮w來說,各模型都取得了較好的預測結果,除CK和T1模型明顯較優(yōu)外,其他模型難分優(yōu)劣。
從表4可知,X2F的煙堿、總氮、鉀和氯模型各處理指標都較接近,預測結果相差不大,但在總糖模型中,T4、T5、T6和T7處理的模型預測能力較其他處理差,其R2都低于0.9。T1~T7處理的所有成分模型幾乎都較CK處理模型差,有可能是由于煙葉面積太大,采樣點數(shù)較少以致得到的光譜代表性不足。在3個等級模型的預測相對誤差比較中,可以看出C3F煙葉還原糖模型的RADP值較B2F和X2F模型高,說明C3F的還原糖模型預測效果較其他兩個等級煙葉還原糖模型差,其他成分模型的預測相對誤差與其在不同等級煙葉中含量變化規(guī)律一致。
由于模型個數(shù)較多,且每個模型有3個評價指標,綜合評價存在較大困難,因此,我們采用一種新穎的模型或方法評估算法——排序差異和值法(SRD)來進行不同處理間的模型比較。模型R2越大、RMSECV和RADP越小,模型越好,在SRD計算中分別選取行最大值、行最小值和行最小值作為R2、RMSECV和RADP行的參考標準。表5為采用SRD方法計算的差異和值結果,從中可知,模型的某些指標差異和值為0,這說明多次排序的結果沒有變化,模型的穩(wěn)健性較好。當不同處理下的差異和值相等時,采樣點數(shù)少的模型較優(yōu)。此外,不同處理下的不同成分模型有好有差,盡量選擇一種最穩(wěn)健的處理進行建模。圖4為各處理的模型排名結果,將各等級模型SRD值相加得到最終總SRD值,總排名前三分別為:CK、T5、T6,由于CK為磨粉處理,因此,可以認為T5處理是最符合實際情況的整葉采樣方式,T6次之。
3討論
近紅外光譜是一種快速無損分析技術,應充分發(fā)揮其優(yōu)勢,采樣點數(shù)越少,光譜掃描越方便快捷。與傳統(tǒng)的磨粉測量相比,取點采樣光譜掃描雖有一定偏差,但只要誤差在容許范圍內即可接受,且隨著模型樣本量的增加和模型的不斷優(yōu)化,模型預測準確度將進一步提高。出現(xiàn)光譜相似度較高,但是化學成分模型預測準確率不高的原因可能是光譜相似度計算了整條光譜與標準光譜之間的系統(tǒng)性相似程度,而某一種化學成分可能僅與光譜中的某些波長或波段相關,從而導致相似度計算結果與模型預測率有一定的偏差。
王建安等將煙葉劃分為48個小區(qū)域,并對每個區(qū)域的煙堿、總糖、鉀和氯含量進行了分析,根據分析結果,4種成分是基于煙梗近似對稱的。本文研究表明,T5、T6處理所建模型穩(wěn)健性高于T2、T3和T4處理,這可能是由于T5和T6處理是對煙葉的兩個半片都進行了光譜采集,平均光譜更具代表性。楊晨龍等研究表明,初烤煙葉從葉尖至葉基方向,化學成分在近葉基處都有一明顯拐點,之后含量變化速度明顯加快,從煙葉外緣至葉梗方向,大部分化學成分變化較小,因此,其采用“12點法”進行光譜采集。但是在本文中T2處理排名較靠后,并非最佳的處理方案,可能是由于本文考慮的模型個數(shù)和指標較多,更能反映實際情況,而文獻的主要目的是用于打葉復烤的分切,找出成分分布的最佳拐點。董小衛(wèi)等采用“10點法”采集近紅外光譜,并建立了數(shù)學模型,煙堿、總糖、還原糖、鉀和氯模型相關性均在0.9以上,這與本文研究結果較一致。其也進行了幾種采樣方式的比較研究,但是其他處理僅從這10個點中選擇部分進行組合,無法保證光譜代表性,與之相比,本文試驗設計更加合理。此外,其僅對組合光譜本身進行比較分析,沒有進行建模處理比較,認為光譜越相似代表性越好,這與本文光譜相似度越高,所建模型并非最好的結論不相符。李佛琳等根據煙葉化學成分的分布規(guī)律研究了同一葉片8個部分的光譜反射率的差異,結果表明各個部分光譜有差異,因此在葉片測定時需要對部位和點數(shù)統(tǒng)一規(guī)定,由于其僅采用此方式進行光譜采集,并沒有與其他采樣方式進行比較,故不能判斷此采樣處理的好壞。章英等采用“8點法”采集煙葉光譜信息進行烤煙煙葉自動分級研究,其認為8點平均光譜能代表整張煙葉的光譜特征,且分組模型校正集正確識別率為100%,預測集正確識別率平均為97.86%。李向陽等采用“6點法”獲取了煙葉的代表光譜,并用煙堿模型進行了驗證,預測值與實測值差異極小,所以其認為這是一種較合理的煙葉整葉光譜采集方式。上述文獻研究成果與本文結論較一致,“8點法”、“6點法”是較合適的整葉采樣方式。傅里峰等研究表明采用正、反面掃描法進行光譜采集能得到較多的煙葉外部信息,包含的內部信息較少,這與本文研究結果較一致,T7處理采集的光譜建立的煙葉內部化學成分模型性能較其他處理模型差。
4結論
利用取點采樣法對煙葉整葉采集光譜是可行的,建立的近紅外模型能達到或接近磨粉模型的預測效果,且光譜采集點數(shù)并非越多越好,較少采樣點數(shù)處理建立的模型可能比采集點數(shù)較多的模型更好。B2F、C3F、X2F煙葉分別采用“8點法”、“6點法”、“8點法”采樣處理較合適:綜合考慮采樣點數(shù)與模型的預測性能,3個等級煙葉都采用“8點法”采樣建模比較合理,據此可推廣應用于其他等級煙葉的光譜采集。基于煙葉整葉的近紅外光譜采集,無需前處理,不破壞煙葉,有利于更加及時、準確地判斷煙葉質量,實現(xiàn)真正意義上的無損檢測。