程麗娟,劉貴珊,萬國玲,何建國
(寧夏大學 農(nóng)學院,寧夏 銀川 750021)
靈武長棗是一種天然保健品,為寧夏回族自治區(qū)特有的一種鮮食棗品種,由于有利的氣候和土壤環(huán)境使長棗口感鮮美、質(zhì)地酥脆、果實營養(yǎng)豐富,被稱為“棗中之王”[1-2]。糖是長棗果實可溶性固形物主要組成成分,其含量直接影響著靈武長棗的甜度及風味,長棗果實中主要可溶性糖為果糖、葡萄糖和蔗糖[3],葡萄糖為一種單糖,與其他糖相比,葡萄糖更容易被人體吸收,而且吸收后能直接為人體各個組織所利用[4]。對于糖含量的測量,一般都采用折射儀、糖度計、蒽酮法等幾種傳統(tǒng)方法,屬于有損檢測,存在勞動強度大、檢測過程復雜、樣品破壞強度大等問題,而且傳統(tǒng)方法測的都是總糖含量,無法實現(xiàn)具體某一種糖含量的檢測。
本文以靈武長棗作為研究對象,利用高光譜成像技術(shù)采集長棗400~1 000 nm的光譜數(shù)據(jù),選取正交信號校正法(Orthogonal signal correction,OSC)、多元散射校正(Multiple scattering correction,MSC)、卷積平滑(Savitzky-Golay,SG)、去趨勢(Detrending)、高值濾波(Gaussian-filter,GF)、中值濾波(Median-filter,MF)等6種預處理方法減少噪音干擾,結(jié)合PLSR建模方法優(yōu)選最佳的預處理方法;使用間隔隨機蛙跳算法(Interval random frog,IRF)、競爭性自適應加權(quán)算法(Competitive adaptive reweighted sampling,CARS)、反向區(qū)間偏最小二乘法(Backw ard interval PLS,BiPLS)、連續(xù)投影算法(Successie projection algorithm,SPA)、無信息消除變量(Uninformative variable elimination,UVE)等5種數(shù)據(jù)降維方法,結(jié)合使用偏最小二乘回歸(Partial least squares regression,PLSR)和多元線性回歸(Multivariable linear regression,MLR)2種建模方法分別對全波段和特征波段建模,選取最優(yōu)模型,為長棗中葡萄糖含量的快速檢測奠定理論基礎。
靈武長棗采購于寧夏靈武果業(yè)開發(fā)有限責任公司,采摘后的長棗放置于低溫保鮮盒中運至實驗室,將大小均一、顏色鮮紅、表面光滑的長棗樣本擦拭、用密封袋密封并依次編號,置于實驗室冰箱中4 ℃冷藏。每隔5 d測試一次(貯藏期1,6,11,16,21,26,31 d,共計7次),每次隨機取21個長棗作為試驗樣本。
葡萄糖標品,四川省維克奇生物科技有限公司;濾頭(0.45 μm)、水系膜(0.45 μm×50 mm)、乙醇(色譜級),天津科大貿(mào)化學試劑廠。
實驗過程中使用的儀器主要為:AGILENT型高效液相色譜儀(美國安捷倫科技公司);Hyper Spec VIS/NIR 高光譜成像系統(tǒng)(美國Headwall Photonics 公司),如圖1所示。
圖1 Vis/NIR 高光譜成像系統(tǒng)Fig.1 Vis/NIR hyperspectral imaging system
實驗之前將高光譜成像系統(tǒng)打開預熱30 min,通過預實驗確定了光譜掃描的最佳參數(shù):CCD相機曝光時間20 ms,物鏡高度385 mm,掃描長度70 mm,電控位移平臺速度200 μm/s。在完成對整個長棗果實的掃描后,通過光譜矩陣的空間組合,構(gòu)建三維空間和光譜數(shù)據(jù)立方體,高光譜圖像用白色和暗色參考圖像進行校準[10,23]。校正圖像(R0)使用下列公式計算:
(1)
其中,R0是黑白校正后的長棗反射率圖像數(shù)據(jù),R是長棗原始數(shù)據(jù),RD是暗反射圖像數(shù)據(jù)(反射率0%),RW是白色反射率圖像數(shù)據(jù)(反射率約100%)。
標準溶液的配置:準確稱取葡萄糖標準品100 mg(精確至0.000 1 g),加入少量超純水溶解并定容至5 mL容量瓶內(nèi),配制成質(zhì)量濃度為20 mg/mL的溶液。準確吸取2 mL葡萄糖溶液于5 mL容量瓶中定容,制備成質(zhì)量濃度為8 mg/mL的葡萄糖溶液。按照對應比例稀釋,依次制備其他濃度標準溶液,最后得到質(zhì)量濃度均為0.5,1,2,4,8 mg/mL的葡萄糖標準溶液。
提取液的制備:采集長棗樣本,削皮,取1 g果肉研磨搗碎,加入10 mL 無水乙醇進行均質(zhì)、超聲提取半小時,11 000 r/min的離心機中離心15 min后收集上清液,在剩下的殘渣中加入5 mL 無水乙醇再一次提取,將兩次所得的上清液合并。55 ℃真空旋干,超純水溶解并定容到25 mL容量瓶刻度線位置,充分搖勻,測試前用0.45 μm針式過濾器過濾,流動相為超純水進行反復測試。
利用高光譜成像系統(tǒng)采集樣品圖像后,使用ENVI4.8(Research System Inc,USA)軟件選取長棗光譜圖像赤道位置大約30 pixel×30 pixel的區(qū)域作為感興趣區(qū)域(Region of interest,ROI),計算出的平均光譜值作為該長棗的反射光譜。
采用The Unscrambler X 10.4軟件對光譜預處理,圖像分析軟件為ENVI 4.8,利用Matlab R2014a軟件進行建模、劃分樣本集,繪圖軟件為origin 8。
圖2為長棗提取液的高效液相色譜出峰圖,葡萄糖出峰時間為13.42 min,與標準品相對應。線性方程為y=4.5050×10-6x-2.40×10-2,相關(guān)系數(shù)R2=0.999 9,表明兩者具有良好的線性相關(guān)性。精密度、回收率的測定結(jié)果分別見表1、2,精密度測試結(jié)果表明長棗樣品的峰面積基本穩(wěn)定,通過計算得到相對標準偏差(RSD為0.31%)<1%,表明該方法精密度高;加標回收率為92.84%~98.01%,平均回收率為95.43%,有較高的準確性。
圖2 長棗提取液的高效液相色譜出峰圖Fig.2 High performance liquid chromatographic peak of jujube
表1 精密度結(jié)果Tab.1 Precision result of sample
表2 加標回收率結(jié)果Tab.2 Recoverles from sample
采用蒙特卡羅法共檢測出5個異常樣本,分別為93,109,118,137,144樣本。剔除異常樣本后,相關(guān)系數(shù)Rc由0.680 5增大到0.766 3;然后使用SPXY算法將剩余的142個樣本按照3∶1的比例劃分成107個校正集和35個預測集,統(tǒng)計結(jié)果見表3。
表3 長棗葡萄糖含量數(shù)據(jù)統(tǒng)計Tab.3 Statistics of jujube glucose content
表4為原始光譜以及預處理光譜的PLSR建模結(jié)果,由相關(guān)系數(shù)、均方根誤差評價模型穩(wěn)定性,圖3為幾種預處理光譜。可以看出使用OSC預處理方法,建模效果降低,因此,經(jīng)過預處理的光譜建模效果不一定高于原始光譜模型效果;使用其他幾種預處理方法,模型相關(guān)系數(shù)均高于原始光譜,均方根誤差低于原始光譜,說明這幾種預處理方法可以消除噪音干擾,提高建模效果;經(jīng)過數(shù)據(jù)和圖像對比分析,確定SG(7)為最佳預處理方法。
表4 不同預處理方法的PLSR模型Tab.4 PLSR methods of different spectra pretreatment
圖3 不同預處理方式的光譜曲線。(a)MSC處理;(b)OSC處理;(c)De-trending處理;(d)SG(7)處理;(e)GF處理;(f)MF處理。Fig.3 Spectral curves with different pretreatment.(a)MSC treatment.(b)OSC treatment.(c)De-trendingtreatment.(d)SG(7)treatment.(e)GF treatment.(f)MF treatment.
3.4.1 SPA算法選取特征波長
SPA算法可以在很大程度上精簡模型,應用SPA選取特征波長時,設置變量范圍為5~25,歸一化處理后得到前5個波長變量下的RMSECV值,如圖4所示,分別為 401,415,425,641,699 nm。
3.4.2 UVE提取特征波長數(shù)
設置五折交互驗證,運行程序得到輸入變量的穩(wěn)定性結(jié)果,如圖5所示。
圖4 SPA提取的特征波長數(shù)Fig.4 Number of characteristic wavelengths extracted by SPA
圖5豎線左右兩側(cè)各為125個變量(左邊為波長變量,右邊為隨機變量)。用該方法共選取了15個特征波長,分別為 449,463,502,506,554,607,612,617,622,627,679,727,886,924,929 nm。
圖5 UVE-PLSR穩(wěn)定性分布曲線Fig.5 Stability distribution curve of UVE-PLSR model
3.4.3 CARS算法提取特征波長
CARS挑選特征波長的參數(shù)設置為:蒙特卡洛采樣次數(shù)為300,交互驗證組數(shù)為10,篩選過程如圖6。曲線(a)為篩選特征波長數(shù)的過程,運行次數(shù)逐漸加大,波長數(shù)呈現(xiàn)由快到慢的遞減趨勢,最后下降幅度趨于平緩,體現(xiàn)了波長變量篩選的粗選與精選;曲線(b)表示RMSECV的變化趨勢,呈現(xiàn)先下降后上升的趨勢,剛開始RMSECV值不斷減小,說明CARS方法在運行過程中無關(guān)變量被消除,隨著運行次數(shù)的增加,RMSECV值趨于平緩,說明變量變化不明顯,最后,RMSECV值持續(xù)上升,說明一些關(guān)鍵變量數(shù)被消除;曲線(c)中的每條線代表回歸系數(shù)的變化趨勢,*號表示RMSECV最小的位置,CARS選出的18個特征波長分別為478,554,588,670,675,679,737,756,780,795,804,843,852,895,924,948,958,963 nm。
圖6 CARS法選取波長變量過程Fig.6 Process of selecting wavelength variables by CARS method
3.4.4 IRF提取特征波長
IRF[24]參數(shù)設置如下:迭代次數(shù)N=3 000,子間隔初始值Q=50,間隔寬度W=15,最大主成分數(shù)為20。運行IRF程序后得到111個間隔中排名前10的間隔,具體見表5;組合間隔的 RMSECV值如圖7所示。
表5 靈武長棗葡萄糖含量光譜數(shù)據(jù)排名前10的波長間隔Tab.5 Top ranked 10 wavelength interval of Lingwu long jujube spectral data
圖7 組合間隔的RMSECV值Fig.7 RMSECV value of the combined interval
從表5可以得出,前10個區(qū)間選出的波點范圍是46~60、65~87、90~115,但圖7顯示,RMSECV值最低時,組合間隔數(shù)為22,因此,排名前22間隔的波長被選作為特征波長,這些波長依次是35~87號、90~117號,具體是564~814 nm、828~958 nm,總共61個波長。
3.4.5 BiPLS提取特征波長
使用BiPLS[25]法提取特征波長時將整條光譜分為12個子間隔,采用留一法交叉驗證計算各個區(qū)間及組合區(qū)間的RMSECV 值,結(jié)果如表6所示。
表6 12個子區(qū)間數(shù)的BiPLS優(yōu)化結(jié)果Tab.6 Optimization results of 12 subinterval numbers
由表6可以看出,當入選區(qū)間為[5,8,9,10,11]時,RMSECV值最小,利用BiPLS總共選擇出51個波長,其相對應的特征變量主要分布在598~641 nm和742~943 nm。
對全波段和特征波段分別建立PLSR、MLR模型,如表7所示。整體來看,使用SPA、UVE算法提取特征變量數(shù)后的建模效果均低于全波段模型,而其他提取方法建模效果和全波段相當,甚至優(yōu)于全波段模型結(jié)果;鑒于IRF、BiPLS方法提取的特征波長數(shù)較多,使用CARS算法在此基礎上再次降維處理,以減少波段數(shù);對比分析16種模型,建模效果最優(yōu)的是PLSR-IRF+CARS,Rc=0.835 3,Rp=0.832 2。
表7 不同波長提取方法建立的的PLS和MLR模型的結(jié)果Tab.7 Results of PLS and MLR models based on different wavelength extraction methods
本文以靈武長棗為研究對象,采集寧夏靈武長棗400~1 000 nm的光譜圖像,提取反射光譜,同時利用HPLC測量長棗中的葡萄糖含量,對光譜值和化學值建立PLSR、MLR模型。采用高光譜成像技術(shù)可以實現(xiàn)靈武長棗葡萄糖含量的預測。主要結(jié)論如下:
(1)對原始光譜采用6種方法進行預處理,通過對比分析數(shù)據(jù)和圖像信息,確定SG(7)為最佳預處理方法,該預處理方法降低了噪音,去掉了無用信息,提高了建模效果,結(jié)果如下:Rc= 0.826 5,Rp=0.791 0,RMSEC為0.005 3 mg/g,RMSEP為0.005 6 mg/g;
(2)基于最優(yōu)預處理方法,使用了7種數(shù)據(jù)降維方法,提取特征波長數(shù)分別為5,15,18,61,51,33,27,占到全波段的4%、12%、14.4%、48.8%、40.8%、26.4%、21.6%;
(3)對以上8種降維處理數(shù)據(jù)分別建立PLSR和MLR模型,PLSR-IRF+CARS為最優(yōu)模型,Rc=0.835 3,Rp=0.832 2,提取特征波長可減少冗長數(shù)據(jù),降低維數(shù),實現(xiàn)快速檢測。