孫海霞,王潤(rùn)潤(rùn),張淑娟,任 銳,蘇立陽(yáng),盧心緣
(山西農(nóng)業(yè)大學(xué)農(nóng)業(yè)工程學(xué)院,山西 晉中 030801)
玉露香梨是山西省特色農(nóng)產(chǎn)品,富含糖、維生素等多種營(yíng)養(yǎng)物質(zhì),果肉酥脆、口味香甜,深受消費(fèi)者喜愛(ài)[2]??扇苄怨绦挝锖浚⊿oluble solids content,SSC) 是衡量水果品質(zhì)的一個(gè)重要指標(biāo),影響果實(shí)的營(yíng)養(yǎng)成分和口感。因此,SSC 檢測(cè)對(duì)提高玉露香梨的附加價(jià)值、滿足消費(fèi)者需求具有重要意義。
可見(jiàn)/ 近紅外光譜技術(shù)[2]利用樣本內(nèi)部的X-H(C、O、N 等) 基團(tuán)的倍頻與合頻的吸收特性獲取樣本光譜信息,結(jié)合化學(xué)計(jì)量學(xué)方法可實(shí)現(xiàn)樣本品質(zhì)的快速、無(wú)損檢測(cè)。王世芳等人[3]為了實(shí)現(xiàn)對(duì)西瓜可溶性固形物檢測(cè),采用光譜-理化值共生距離(SPXY) 算法對(duì)不同檢測(cè)部位的樣品集進(jìn)行劃分,建立偏最小二乘回歸預(yù)測(cè)模型,預(yù)測(cè)集相關(guān)系數(shù)(Rp) 和均方根誤差(RMSEP) 分別為0.864 和0.33%。田喜等人[4]利用近紅外光譜技術(shù),分析了檢測(cè)姿態(tài)對(duì)檢測(cè)模型的影響,建立了蘋(píng)果整果的糖度檢測(cè)模型,Rp 和RMSEP 分別為0.79 和0.84%。盛曉慧等人[5]在庫(kù)爾勒香梨可溶性糖的檢測(cè)中,基于可見(jiàn)/近紅外光譜技術(shù)采用無(wú)信息變量消除算法進(jìn)行特征波長(zhǎng)的提取,并建立了最小二乘支持向量機(jī)(Least Squares Support Vector Machine,LS-SVM) 檢測(cè)模型,決定系數(shù)(Rp2) 為0.976、預(yù)測(cè)均方根誤差(RMSEP) 為2.313。張立欣等人[6]基于近紅外光譜技術(shù),利用BiPLS 結(jié)合SPA 進(jìn)行了蘋(píng)果SSC 檢測(cè),Rp 和RMSEP 為0.898 1 和0.937 1。趙小康等人[7]提出基于無(wú)監(jiān)督主動(dòng)學(xué)習(xí)方法進(jìn)行了蘋(píng)果SSC 和硬度的光譜檢測(cè),與其他算法相比RMSEP 降低了2.0%~13.2%。
以玉露香梨為研究對(duì)象,基于可見(jiàn)/近紅外光譜技術(shù)進(jìn)行SSC 檢測(cè),采用多種算法進(jìn)行預(yù)處理,采用采用競(jìng)爭(zhēng)自適應(yīng)加權(quán)(Competitive Adaptive Reweighted Sampling,CARS) 算法和連續(xù)投影算法(Successive Projections Algorithm,SPA) 提取特征波長(zhǎng),采用偏最小二乘回歸(Partial Least Squares Regress,PLSR) 建立檢測(cè)模型,分析不同特征提取方法對(duì)檢測(cè)模型的影響,實(shí)現(xiàn)玉露香梨的SSC 快速檢測(cè)。
玉露香梨樣本,采集自山西省太谷區(qū)白城村,選取成熟度一致、無(wú)損傷、尺寸形狀一致的樣本。樣本采后當(dāng)天運(yùn)回實(shí)驗(yàn)室,將樣品清洗干凈并置于實(shí)驗(yàn)室條件下4 h,以恢復(fù)至室溫。共選取試驗(yàn)樣本179 個(gè),采用KS 算法分為校正集(110 個(gè)樣本) 和預(yù)測(cè)集(69 個(gè)樣本)。
采用美國(guó)ASD(Analytical Spectral Device) 公司生產(chǎn)的光譜儀采集玉露香梨樣本的漫反射光譜信息。每個(gè)樣本掃描3 次取其平均值作為光譜數(shù)據(jù)(見(jiàn)圖1)。各個(gè)樣本光譜曲線的變化趨勢(shì)相似。光譜曲線的范圍為350~2 500 nm,在970 nm 和1 400 nm附近均有與O-H 相關(guān)的吸收峰。在350~450 nm 范圍內(nèi)和2 475~2 500 nm 范圍內(nèi)信噪比較低,噪聲大。因此選擇450~2 475 nm 所對(duì)應(yīng)的光譜信息進(jìn)行后續(xù)的分析。
玉露香梨原始光譜曲線見(jiàn)圖1。
采用手持式折光儀測(cè)定每個(gè)樣本的SSC,最大值為12.10%,最小值為8.2%。
樣本SSC 的統(tǒng)計(jì)結(jié)果見(jiàn)表1。
表1 樣本SSC 的統(tǒng)計(jì)結(jié)果 / %
采用CARS 和SPA 算法提取特征波長(zhǎng),采用偏最小二乘回歸[8]建立預(yù)測(cè)模型。CARS 算法通過(guò)自適應(yīng)重加權(quán)采樣技術(shù)將回歸系數(shù)大的波長(zhǎng)點(diǎn)保留,將權(quán)重小的點(diǎn)去除,模仿了達(dá)爾文進(jìn)化論的“適者生存”原則,通過(guò)交叉驗(yàn)證選取交叉驗(yàn)證均方根誤差小的變量組合[9]。SPA 能夠很好地消除特征波長(zhǎng)之間存在的共線性問(wèn)題,而且避免了重疊信息的重復(fù)提取[10-11],簡(jiǎn)便快捷。
所建模型采用校正集的決定系數(shù)(Determination coefficient of calibration,Rc2) 和均方根誤差(Root mean squared error of calibration,RMSEC)、預(yù)測(cè)集的決定系數(shù)(Determination coefficient of prediction,Rp2) 和均方根誤差(Root mean squared error of prediction,RMSEP) 來(lái)評(píng)價(jià)模型的性能。
試驗(yàn)中采用去趨勢(shì)(De-trending)、標(biāo)準(zhǔn)化(Normalize)、標(biāo)準(zhǔn)歸一化(standard normal variate,SNV) 進(jìn)行光譜預(yù)處理,采用PLSR 建立SSC 預(yù)測(cè)模型。去趨勢(shì)法所建模型的結(jié)果最差,Rp2 和RMSEP分別為0.80 和1.62%,預(yù)測(cè)能力相對(duì)較差。其他3種方法所建模型結(jié)果相近,其中Normalize 所建模型的結(jié)果稍差,Rp2 和RMSEP 分別為0.86 和0.32%。原始光譜和SNV 所建模型的Rc2、Rp2 和RMSEP 相同,原始光譜所建模型的RMSEC 最小。因此,選擇原始光譜信息進(jìn)行后續(xù)分析,基于全波段所建PLSR模型的Rp2 和RMSEP 分別為0.86 和0.31%。
不同預(yù)處理方法所建PLSR 模型的預(yù)測(cè)結(jié)果見(jiàn)表2。
表2 不同預(yù)處理方法所建PLSR 模型的預(yù)測(cè)結(jié)果
為去除冗余信息,針對(duì)玉露香梨450~2 475 nm的原始光譜,采用CARS 提取SSC 的特征波長(zhǎng),提取過(guò)程如圖2 所示。CARS 在特征波長(zhǎng)選取中,利用蒙特卡洛交叉驗(yàn)證選取最優(yōu)潛在變量,設(shè)定采樣次數(shù)為50。圖2(a) ~(c) 分別為隨采樣次數(shù)的變化所選取的特征波長(zhǎng)個(gè)數(shù),RMSECV 隨采樣次數(shù)的變化,采樣過(guò)程中回歸系數(shù)的變化。采樣中隨采樣次數(shù)的增加,變量數(shù)逐漸減??;對(duì)模型貢獻(xiàn)率大的變量的回歸系數(shù)被放大和保留,反之被淘汰。由圖2可知,在第27 次采樣時(shí),RMSECV 達(dá)到最小值0.211 4%,共提取到51 個(gè)變量。該51 個(gè)變量所對(duì)應(yīng)的波長(zhǎng)即為特征波長(zhǎng),分別為454,460,461,462,464,473,490,491,495,639,657,676,723,800,840,889,913,914,936,956,977,991,1 142,1 143,1 144,1 249,1 273,1 362,1 421,1 671,1 875,1 878,1 906,1 951,2 013,2 014,2 015,2 041,2 090,2 183,2 213,2 214,2 318,2 339,2 365,2 394,2 410,2 412,2 418,2 472,2 475 nm。
圖2 CARS 提取特征波長(zhǎng)
CARS 提取特征波長(zhǎng)見(jiàn)圖2。
由于CARS 提取的特征波長(zhǎng)數(shù)量較多,進(jìn)行二次數(shù)據(jù)降維。因此,采用SPA 算法對(duì)CARS 所提取的特征波長(zhǎng)進(jìn)行第二次降維。當(dāng)變量數(shù)為16 個(gè)時(shí),RMSE 的變化趨于穩(wěn)定,RMSE 為0.3421 4%(見(jiàn)圖3)。所提取到的16 個(gè)特征波長(zhǎng)的分布(見(jiàn)圖4),圖4 中提取的數(shù)值需與CARS 提取到的特征波長(zhǎng)相對(duì)應(yīng)。根據(jù)重要程度提取到的特征波長(zhǎng)依次為2 183,2 015,1 875,2 318,639,1 951,657,723,495,889,1 421,460,2 472,1 362,2 475,676 nm。
圖3 RMSE 隨變量數(shù)的變化
圖4 SPA 提取特征波長(zhǎng)
RMSE 隨變量數(shù)的變化見(jiàn)圖3,SPA 提取特征波長(zhǎng)見(jiàn)圖4。
分別將全波長(zhǎng)和CARS、CARS-SPA 提取到的特征波長(zhǎng)所對(duì)應(yīng)的光譜數(shù)據(jù)作為模型輸入,采用PLSR建立檢測(cè)模型。
不同波段PLSR 預(yù)測(cè)結(jié)果見(jiàn)表3。
表3 不同波段PLSR 預(yù)測(cè)結(jié)果
由表3 可知,全波段所建模型的Rp2 最高,RMSEP 最低。與全波段所建模型相比,采用CARS提取特征波長(zhǎng)所建模型的校正集預(yù)測(cè)結(jié)果明顯提高(Rc2 提高0.04,RMSEC 降低0.05%),預(yù)測(cè)集的結(jié)果降低(Rp2 降低0.03,RMSEC 提高0.02%)。CARS 所建模型的校正集和預(yù)測(cè)集的預(yù)測(cè)結(jié)果差異性最明顯。與全波段所建模型相比,CARS-SPA 所建模型的Rc2 降低了0.05,RMSEC 提高了0.07%,Rp2 降低0.03,RMSEC 提高0.03%。與CARS 所建模型相比,CARS-SPA 所建模型的Rc2 降低了0.09,RMSEC 提高了0.12%,Rp2 相同,RMSEC 提高0.01%。3 個(gè)模型的預(yù)測(cè)集結(jié)果接近,均得到較好的預(yù)測(cè)結(jié)果(Rp2 為0.83~0.86,RMSEP 為0.31%~0.34%)。與全波段和CARS 所建模型的預(yù)測(cè)結(jié)果相比,CARS-SPA 所建模型的校正集和預(yù)測(cè)集結(jié)果的差異性最小。CARS-SPA 所提取到的變量信息較少,在建模過(guò)程中計(jì)算的復(fù)雜性相對(duì)更小、運(yùn)算速度相對(duì)更快。因此,采用CARS-SPA 所建模型實(shí)現(xiàn)了玉露香梨SSC 的檢測(cè),且得到了較好的預(yù)測(cè)結(jié)果,Rp2和RMSEP 分別為0.83 和0.34%。
基于可見(jiàn)/ 近紅外光譜技術(shù)進(jìn)行玉露香梨SSC檢測(cè)。與預(yù)處理后所建PLSR 模型的預(yù)測(cè)結(jié)果相比,原始光譜所建PLSR 模型的結(jié)果稍好。基于全波段、CARS、CARS-SPA 提取的特征波長(zhǎng)所建PLSR 模型均得到好的預(yù)測(cè)結(jié)果,Rp2 為0.83~0.86,RMSEP 為0.31%~0.34%。與全波段和CARS 所建PLSR 模型的預(yù)測(cè)結(jié)果相比,CARS-SPA-PLSR 模型校正集和預(yù)測(cè)集結(jié)果間的差異性最小,且CARS-SPA 所提取到的變量信息最少。因此,CARS-SPA-PLSR 模型得到最優(yōu)的預(yù)測(cè)性能,Rp2 和RMSEP 分別為0.83 和0.34%,為實(shí)現(xiàn)玉露香梨SSC 在線檢測(cè)提供了基礎(chǔ)。