張 娟 原 帥 張 駿
(1.煙臺汽車工程職業(yè)學院電子工程系山東煙臺 265500;2.煙臺大學文經(jīng)學院山東煙臺 264005;3.煙臺大學光電信息科學技術學院山東煙臺 264005)
草莓口感酸甜,營養(yǎng)豐富,是一種人們普遍喜愛的水果。草莓糖度是決定口感和營養(yǎng)的重要因素。傳統(tǒng)的水果糖度檢測的方法多采用理化分析法,檢測時間長、步驟繁瑣、成本高。隨著近紅外光譜測量技術和近紅外光譜儀器的快速發(fā)展,近紅外光譜技術現(xiàn)已廣泛應用于無損檢測領域[1]。新型便攜式近紅外光譜儀具有體積小、低功耗、高性能、高穩(wěn)定性等優(yōu)點,適合現(xiàn)場檢測和在線分析,越來越廣泛應用于水果生產(chǎn)中的管理監(jiān)測、產(chǎn)后加工和質(zhì)量評判中[2,3]?;诒銛y式-近紅外光譜測量分析技術可實現(xiàn)水果內(nèi)部品質(zhì)的簡單、快速、無損檢測,具有成本低、重現(xiàn)性好、分析效率高等優(yōu)勢[4]。
近年來,國內(nèi)外利用近紅外光譜技術對草莓糖度的檢測和分析進行了大量的研究工作,其中光譜數(shù)據(jù)預處理和預測模型的建立方法是研究熱點。金同銘等[5]采用一階導數(shù)逐步回歸的方法獲取定量分析定標方程,對草莓的糖度、酸度等多指標進行分析;牛曉穎等[6]采用偏最小二乘法提取的潛在變量作為最小二乘-支持向量機和反向傳播人工神經(jīng)網(wǎng)絡的輸入變量,建立了草莓糖度的近紅外定量模型;ITO[7]將草莓原始近紅外光譜數(shù)據(jù)進行二階導數(shù)處理,利用多元線性回歸法建立預測模型。為了獲得精確度更好、預測能力更高的紅外光譜模型,本研究采用小波變換(WT)去噪預處理,以遺傳算法(GA)并結合偏最小二乘法(PLS)實現(xiàn)波長優(yōu)化選擇,建立草莓糖度的近紅外光譜模型,并進行分析和驗證。
實驗所用的樣品為市場購買的草莓,共選擇了果形均勻的55個樣本。將40個樣本分為校正集,15個樣本為預測集。為減小環(huán)境溫度和濕度對草莓樣品光譜測量的影響,將樣品放置在環(huán)境溫度為25 ℃,相對濕度為65%的實驗室中5 h后測量。
草莓近紅外光譜數(shù)據(jù)的采集使用Avantes公司的AvaSpec-2048TEC便攜式光纖光譜儀,使用與儀器配套的AvaSoft7.0軟件。數(shù)據(jù)采集時光譜儀探頭距離草莓樣品正上方高度為5 mm。光譜檢測系統(tǒng)的參數(shù)設置為:測量波段范圍為600~1 100 nm,積分時間5 ms,光譜采樣間隔0.28 nm,光譜平滑階數(shù)為3階。為減小實驗測量誤差,每一樣品的不同位置進行3次光譜測量,取其平均值,得到的光譜數(shù)據(jù)以excel形式導出。
將采集完紅外光譜的草莓樣品榨汁,使用手持WZ113折射儀測量其糖度值。表1為校正集和預測集樣本的糖度測量值。
表1 校正集和預測集樣本糖度測量值Table 1 The measure results of calibration and prediction samples
采用具有較強抗干擾能力的偏最小二乘法(PLS)[8]建立校正模型,對草莓糖度進行定量分析和預測。選擇校正集相關系數(shù)RC、預測集相關系數(shù)RP、校正集均方根誤差RMSEC和預測集均方根誤差EMSEP作為模型的評價指標[9]。
對每一條光譜數(shù)據(jù)運用極差標準歸一化公式進行計算變換。
(1)
其中,i=1,2…n,n為校正集樣品數(shù);j=1,2…m,m為波長點數(shù)。
采用極差標準歸一化處理后的光譜數(shù)據(jù)在(0,1)之間,分布更均衡[11]。目的是一方面降低同一草莓樣品多次測量之間的差別,減小因草莓大小差異引起的光散射和微小光程差變化帶來的影響,為后續(xù)分析提供可靠的數(shù)據(jù)源;另一方面,消除冗余信息,加快模型收斂速度,提高模型的穩(wěn)健性和預測能力。
由于受到各種因素的影響,檢測獲得的近紅外光譜信號夾雜噪聲干擾。利用小波變換多分辨率方法[12],對近紅外光譜信號進行不同分辨尺度的變換分解。通過調(diào)節(jié)尺度因子,將原始信號c0(n)(n=1,2,…,N)分解成某尺度的銳化信號(d1(n),d2(n),…,d1(n))和平滑信號(c1(n),c2(n),…,c1(n))[11]。最大限度的去除掉高頻噪聲元素,提取各尺度下的有效細節(jié)信息特征,然后再進行小波系數(shù)反變換,重構得到需要的光譜。本實驗采用Daubechies5濾波器5尺度分解,對草莓近紅外光譜信號進行分解、重構[13],實現(xiàn)濾波預處理。
利用具有自適應的全局、快速搜索的遺傳算法(GA)[12]與最小二乘法(PLS)有機結合[14],對草莓光譜進行波長優(yōu)化選擇。遺傳算法是模擬生物進化機制隨機優(yōu)化的算法,應用于波長選擇的實現(xiàn)主要包括染色體參數(shù)編碼、群體初始化、適應度函數(shù)設計、遺傳操作設計和評價六個基本步驟[15]。GA-PLS波長優(yōu)選的思路是通過交互驗證法評價模型的預測能力來選擇適應度函數(shù)[16]。實現(xiàn)方法是以所選特征波長變量建立偏最小二乘回歸校正模型,得到交互驗證均方根誤差RMSECV最小作為遺傳算法的適應度函數(shù),通過遺傳算法的選擇、交換和突變等算子的操作,不斷的遺傳迭代,剔除不相關或非線性變量,選取最優(yōu)的有效特征波長[17]。在保證精度的前提下,簡化校正模型,提高校正模型的預測能力和穩(wěn)健性[18]。
(2)
其中,yi表示校正集中樣品含量的真實值,y′i表示模型的預測值,n表示對應校正集的樣本數(shù)目。
圖1為隨機抽取的一個草莓樣品的原始近紅外光譜圖。在600~1 100 nm整個光譜區(qū)都有較高的信噪比,影響校正模型的精確性和穩(wěn)定性。故首先對光譜數(shù)據(jù)進行極差歸一化處理,為后期光譜預處理提供可靠數(shù)據(jù)源。然后利用Daubechies5濾波器多尺度小波分析,對原始光譜進行各個尺度下的分解重構。圖2是草莓光譜小波分解第5階信號。可以看出,變換后的光譜很好的消除了高頻噪聲,光譜輪廓清晰平滑,在700、760 nm附近特征峰明顯。
圖1 草莓的原始近紅外光譜Fig.1 Original near infrared spectrum of strawberry
圖2 小波分解第5階信號Fig.2 The fifth order signal of wavelet transform
采用Visual C++編寫遺傳算法程序。便攜式光譜儀測量波長范圍600~1 100 nm,共有2 001個波長數(shù)據(jù)。以草莓近紅外光譜全部2 001個波點數(shù)作為選擇對象,考慮其有效特征波長的個數(shù),經(jīng)過多次實驗驗證,確定遺傳算法的控制參數(shù):群體初始化為80,選擇算子為轉輪法,交叉概率pc為0.5,變異概率pm為0.01,選取遺傳迭代次數(shù)為100。迭代終止,選取累計貢獻率高于50%的201個波點數(shù)建立草莓糖度校正模型。
分別利用偏最小二乘法建立草莓糖度原始光譜全光譜模型(FS-PLS)、小波變換全光譜模型(WT-PLS)和小波變換與遺傳算法波長選擇模型(WT-GA-PLS),通過Matlab編程實現(xiàn)。表2列出了三種校正模型的預測結果。由表2可見,F(xiàn)S-PLS模型預測精度最低,WT-GA-PLS模型精度明顯優(yōu)于FS-PLS和WT-PLS。由于全光譜數(shù)據(jù)比較復雜,含有冗余信息和噪聲,因此FS-PLS模型誤差較大,預測能力較低。利用小波濾波去除了其他干擾信息,采用遺傳算法選用包含重要信息的特征波長建立WT-GA-PLS模型,明顯提高了模型的精確度和預測能力。
表2 草莓糖度的不同偏最小二乘校正模型結果Table 2 PLS calibration models for prediction of different methods
圖3是WT-GA-PLS模型40個校正集樣本的預測值與實測值的散點圖。從圖中可以看出各點均勻的散布在回歸線兩側,預測值與實測值有很好的相關性。該模型校正集的相關系數(shù)RC為0.9395,校正集均方根誤差RMSEC為0.1615,具有較高的精度。
圖4是15個預測集樣本的預測值與實測值的散點圖。預測值與實測值同樣有很好的相關性。模型預測集相關系數(shù)RP為0.9652,預測集均方根誤差EMSEP為0.5042。表明校正模型具有較好的穩(wěn)定性和可靠性。WT-GA-PLS模型采用的波點數(shù)由2 001減少到201個,在保證精度、穩(wěn)定度的前提下簡化了建模變量,可見遺傳算法是一種有效的近紅外光譜特征波長選擇方法。
圖3 校正集糖度預測值與實測值的散點圖Fig.3 Predictive and actual value of calibration set sugar degree
圖4 預測集糖度的預測值與實測值散點圖Fig.4 Predictive and actual value of prediction set sugar degree
采用小波濾波、遺傳算法和偏最小二乘回歸法三者有機結合,建立了草莓糖度的近紅外光譜的小波變換-遺傳算法-偏最小二乘(WT-GA-PLS)校正模型。該模型校正集的相關系數(shù)RC為0.9395,校正集均方根誤差RMSEC為0.1615,預測集的相關系數(shù)RP為0.9652,預測集均方根誤差EMSEP為0.5042,模型具有良好的穩(wěn)定性、可靠性和預測性能。研究表明,利用便攜式光譜儀檢測草莓糖度,不僅滿足品質(zhì)的檢測需求,還為長期監(jiān)控果實動態(tài)變化,實現(xiàn)果園生產(chǎn)中的管理提供了可能性。