王風(fēng)云沈 宇張 琛劉炳福鄭紀(jì)業(yè)
(1. 山東省農(nóng)業(yè)科學(xué)院科技信息研究所,濟(jì)南250100;2. 山東科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,青島266000)
中國是世界上最大的蘋果生產(chǎn)國[1]。清脆多汁、酸甜可口的蘋果一直深受人們的喜愛。盡管蘋果產(chǎn)量居世界第一,我國蘋果產(chǎn)業(yè)仍存在一味追求產(chǎn)量、果品質(zhì)次價(jià)低的問題,即“好的不多,多的不好”。根據(jù)農(nóng)業(yè)農(nóng)村部發(fā)表的《蘋果品質(zhì)指標(biāo)評價(jià)規(guī)范》[2],蘋果的品質(zhì)指標(biāo)包括外觀品質(zhì)指標(biāo)和內(nèi)在品質(zhì)指標(biāo)。蘋果的糖度是內(nèi)在品質(zhì)指標(biāo)的重要組成部分,也是消費(fèi)者選購蘋果的主要依據(jù)之一。因此,找到能夠無損、快速檢測糖度的方法對我國蘋果產(chǎn)業(yè)具有重要意義。
測量蘋果糖度的傳統(tǒng)方法是將蘋果取樣榨汁后用折光計(jì)測量,會(huì)損壞被測量蘋果,加之測量速度較慢,只適用于小規(guī)模抽樣,不能滿足消費(fèi)者對糖度的差異化需求。近年來,近紅外光譜技術(shù)被應(yīng)用于蘋果糖度的無損測量,可以對蘋果進(jìn)行快速、大批量的無損檢測,目前已投入生產(chǎn)實(shí)踐。該技術(shù)的缺點(diǎn)是檢測指標(biāo)較為單一,且不能檢測蘋果的外觀品質(zhì)指標(biāo)。高光譜成像技術(shù)的研究與應(yīng)用逐步擴(kuò)展到農(nóng)業(yè)領(lǐng)域,并應(yīng)用于蘋果品質(zhì)無損檢測中。2011年,單佳佳等[3]結(jié)合高光譜圖像處理和光譜分析方法,通過圖像掃描對蘋果的表面摔傷和糖分含量進(jìn)行檢測,實(shí)現(xiàn)了蘋果內(nèi)部品質(zhì)和外部品質(zhì)的同時(shí)檢測。2012年,郭俊先等[4]采用一階微分進(jìn)行光譜預(yù)處理,基于多元線性回歸(Multivariable Linear Regression,MLR)方法建立蘋果糖度的預(yù)測模型。2013年,黃文倩等[5]采用遺傳算法(Genetic Algorithm,GA)、連續(xù)投影算法(Successive Projections Algorithm,SPA)和GA-SPA算法分別從400~1 000 nm的蘋果高光譜圖像中提取特征波長,利用偏最小二乘法(Partial Least Square,PLS)、最小二乘支持向量機(jī)(Least Squares Support Veotor Machine,LS-SVM)和多元線性回歸(MLR)建模進(jìn)行蘋果可溶性固形物含量(Soluble Solids Content,SSC)的定量分析并進(jìn)行了綜合比較,指出可用連續(xù)投影算法(SPA)來進(jìn)行光譜數(shù)據(jù)的篩選。2014年,郭志明等[6]采用偏最小二乘法建立蘋果糖度定量分析模型,結(jié)果表明提取圓形感興趣區(qū)域建立的蘋果糖度模型精度最高,預(yù)測能力最強(qiáng)。2015年,劉文濤等[7]用BP神經(jīng)網(wǎng)絡(luò)建立了糖度預(yù)測模型。2016年,張晉寶等[8]用偏最小二乘回歸(Partial Least Square Regression,PLSR)建立了糖度模型。2017年,馮迪等[9]用SPA算法找到預(yù)測蘋果糖度和硬度的最佳波長。2018年,管曉梅等[10]采用優(yōu)化偏最小二乘因子數(shù)的方法,提高模型的預(yù)測能力,同時(shí)降低了模型的復(fù)雜度。
目前為止,還沒有套袋蘋果與不套袋蘋果糖度無損檢測的對比研究,但是消費(fèi)者對套袋與不套袋蘋果糖度有著不同的需求,為此文章以煙富3號紅富士蘋果為對象,采用高光譜成像技術(shù)采集蘋果的反射光譜信息,經(jīng)多元散射校正后采用偏最小二乘回歸算法對套袋和不套袋蘋果分別建立反射光譜與糖度預(yù)測模型,對模型的精度進(jìn)行比較,并分析了精度不同的原因,為構(gòu)建蘋果品質(zhì)分級系統(tǒng)提供理論支撐。
本研究實(shí)驗(yàn)對象為矮化煙富3號紅富士蘋果,來自山東某集團(tuán)棲霞官道鎮(zhèn)姚莊村碑通達(dá)王太后基地,北緯37°09′46.56″,東經(jīng)120°38′24.38″。剔除損傷及采樣過程中發(fā)現(xiàn)的內(nèi)部腐爛蘋果后,最終獲得90個(gè)套袋蘋果和118個(gè)不套袋蘋果作為試驗(yàn)樣本。
實(shí)驗(yàn)器材主要包括高光譜儀和糖度計(jì)。高光譜圖像采集系統(tǒng)如圖1所示。為了避免周圍環(huán)境光照的影響,保證目標(biāo)樣本光照的均勻性,將整個(gè)圖像采集系統(tǒng)(除計(jì)算機(jī)外)置于暗箱中運(yùn)行。實(shí)驗(yàn)選用美國ASD公司設(shè)計(jì)制造的FieldSpec Hand-Held便攜式地物光譜儀,其主要組成包括光譜儀本體、光纖、探頭以及用來做光強(qiáng)校正的白板等。測量光譜的范圍是350~1 000 nm,波長精度為+/-1 nm,光譜分辨率是3 nm@700 nm。糖度計(jì)使用陸恒生物公司的LH-B55數(shù)顯糖度計(jì)。數(shù)顯糖度計(jì)可以快速測定含糖溶液的糖濃度和折射率。該糖度計(jì)的量程是0.0~55% Brix,分辨率是0.1% Brix,精度是+0.2 Brix。
圖1 高光譜數(shù)據(jù)采集平臺Fig.1 Hyperspectral data acquisition platform
高光譜圖像的采集和處理也稱成像光譜學(xué),鑒于所采集數(shù)據(jù)的形式是高光譜立方體,有時(shí)也被稱為3D光譜學(xué)。高光譜成像本質(zhì)是收集和處理來自電磁頻譜的信息。高光譜成像目的是通過獲取場景圖像中每個(gè)像素的光譜來尋找物體、識別材料或檢測特定過程[11]。形象地說,高光譜傳感器收集信息作為一組“圖像”,每幅圖像代表電磁頻譜中的一個(gè)波段,一個(gè)波段也被稱為一個(gè)光譜帶。我們可以將這些“圖像”組合起來,形成用于處理和分析的三維(X,Y,λ)高光譜數(shù)據(jù)立方體,其中X和Y代表場景的2個(gè)空間維度,λ表示光譜維度。
研究表明,感興趣區(qū)域選取的形狀會(huì)影響蘋果糖度模型的精度。根據(jù)郭志明等人的研究,圓形感興趣區(qū)域精度最好[6]。在蘋果赤道位置選取4個(gè)均勻分布的、直徑約為3 cm的圓形區(qū)域作為感興趣區(qū)域,以每個(gè)感興趣區(qū)域的平均光譜作為樣品的高光譜,共采得208個(gè)蘋果832條光譜樣本。
用小刀剜削蘋果赤道位置4個(gè)感興趣區(qū)域挖取長寬各3 cm、厚2 cm的立方體果肉,將榨好的蘋果汁涂布折光棱鏡的鏡面上,連續(xù)按測量按鈕多次,當(dāng)最后液晶顯示屏3次顯示值一致時(shí)記錄該值,共采得832個(gè)數(shù)據(jù),與感興趣區(qū)域的高光譜數(shù)據(jù)一一對應(yīng)。
套袋蘋果中抽取66個(gè)蘋果樣本數(shù)據(jù)作為校正集,24個(gè)作為預(yù)測集。不套袋蘋果中抽取87個(gè)蘋果樣本數(shù)據(jù)作為校正集,31個(gè)作為預(yù)測集。校正集∶預(yù)測集約等于3∶1。
采集到的反射率光譜首先經(jīng)過多元散射校正(Multiple Scattering Correction,MSC),消除散射對光譜的影響,提高信噪比,增強(qiáng)光譜與糖度的相關(guān)性。
MSC處理方法:首先通過式(1)求得所有感興趣區(qū)域光譜的平均光譜,將其作為“理想光譜”。將每條光譜與“理想光譜”按式(2)作一元線性回歸運(yùn)算,求得相對于標(biāo)準(zhǔn)光譜的數(shù)值差(回歸常數(shù)bi)和斜率倍數(shù)(回歸系數(shù)mi),最后根據(jù)式(3)在每條原始光譜中減去數(shù)值差同時(shí)除以回歸系數(shù),原始光譜的各波段上數(shù)值及曲線斜率都得到修正[12]。
上式中,A表示n×p維定標(biāo)光譜數(shù)據(jù)矩陣,n為定標(biāo)樣品數(shù),p為光譜采集所用的波長點(diǎn)數(shù),Ai,j表示所有樣品的原始光譜在各個(gè)波長點(diǎn)處求平均值所得到的平均光譜矢量,Ai是1×p維矩陣,表示單個(gè)樣品光譜矢量,mi和bi分別表示各樣品光譜Ai與平均光譜進(jìn)行一元線性回歸后得到的相對偏移系數(shù)和平移量。
偏最小二乘回歸是一種使用包含相關(guān)預(yù)測變量數(shù)據(jù)的技術(shù),是通過將預(yù)測變量和可觀察變量投影到新空間來找到一個(gè)線性回歸模型,而主成分回歸是尋找響應(yīng)和自變量之間最大方差的超平面。因?yàn)閿?shù)據(jù)X和Y都投影到新的空間,所以PLS系列方法也被稱為雙線性因子模型。
PLSR、多元線性回歸與主成分分析(Principal Component Analysis,PCA)之間的交叉點(diǎn):多元線性回歸可找到符合響應(yīng)值的預(yù)測變量的組合;主成分分析發(fā)現(xiàn)具有較大方差的預(yù)測變量組合,減少相關(guān)性,PCA不使用響應(yīng)值。PLS發(fā)現(xiàn)具有較大協(xié)方差的預(yù)測變量與響應(yīng)值的組合。因此,PLS結(jié)合了關(guān)于預(yù)測變量和響應(yīng)變量的信息,同時(shí)也考慮了它們之間的相關(guān)性。
PLS用于找出兩個(gè)矩陣(X和Y)之間的基本關(guān)系,例如使用某種潛在變量方法來模擬這2個(gè)空間中的協(xié)方差結(jié)構(gòu)。PLS模型目標(biāo)是在X空間中找到解釋Y空間中最大多維方差方向的多維方向。PLS回歸特別適用于預(yù)測變量矩陣比觀測變量多以及X值之間存在多重共線性的情況。
PLS的一般基礎(chǔ)模型:
其中X是n×m的預(yù)測矩陣,Y是n×p的響應(yīng)矩陣;T和U分別是X的投影(X分?jǐn)?shù),分量或因子矩陣)和Y(Y分?jǐn)?shù))的投影;P和Q分別是m×l和p×l的正交載荷矩陣;矩陣E和F是誤差項(xiàng),假設(shè)它們是獨(dú)立且均勻分布的隨機(jī)正態(tài)變量。分解X和Y是為了使T和U之間的協(xié)方差最大化。
偏最小二乘回歸模型的主要評判指標(biāo)是校正集和預(yù)測集的相關(guān)系數(shù)R和均方根誤差RMSEP。相關(guān)系數(shù)越接近于1,均方根誤差越小,則模型精度越好。
圖2展示的是部分由ASD光譜儀采得的原始光譜數(shù)據(jù),但原始光譜并不適合直接用于建模,主要因?yàn)椋海?)雖然光譜的整體趨勢一致,但不同光譜反射率數(shù)值的大小卻不盡相同,原因是蘋果的形狀不規(guī)則,每個(gè)蘋果的4個(gè)面形狀不同,不同蘋果的外形有較顯著的差異,這就導(dǎo)致鹵素?zé)粽盏矫刻幉蓸狱c(diǎn)的光強(qiáng)不同,反射率的數(shù)值自然不同;(2)光譜兩端有較多較大的噪聲,這是由采集反射光譜的硅光電二極管的特性決定的,光譜儀和其他許多儀器一樣,量程中間精度好,兩端差。為解決光譜兩段噪聲多的問題,裁掉兩端的光譜,保留中間420~1 019 nm波段的光譜。
圖2 部分原始光譜數(shù)據(jù)Fig.2 Part of original spectral data
之后,使用多元散射校正(MSC)算法對光譜進(jìn)行處理,目的是減少光照強(qiáng)度不均對蘋果表面反射率的影響。圖3和圖4分別是多元散射校正前后的光譜圖。可以看出經(jīng)過多元散射校正,光譜向平均光譜(即MSC的“理想光譜”)靠攏。
圖3 多元散射校正前的光譜Fig.3 Spectrum before multiplicative scatter correction
圖4 多元散射校正后的光譜 Fig.4 Spectrum after multiplicative scatter correction
如上所述,使用偏最小二乘回歸(PLSR)算法建立蘋果反射率光譜-糖度模型,首先要確立光譜數(shù)據(jù)主成分的個(gè)數(shù),目的是將600個(gè)波段的光譜信息壓縮為一定數(shù)量的主成分信息,方便建模。
圖5 前50個(gè)主成分對光譜差異的累積解釋率Fig.5 Cumulative interpretation rate for spectral difference of ahead 50 principal components
由圖5可以看出,前50個(gè)主成分對光譜差異的累積解釋率達(dá)99.52%,滿足建模要求。用偏最小二乘回歸(PLSR)建立的蘋果反射率光譜-糖度模型,其預(yù)測結(jié)果的殘差分布如圖6所示。
用偏最小二乘回歸(PLSR)建立的蘋果反射率光譜預(yù)測糖度模型,對于套袋蘋果,校正集相關(guān)系數(shù)Rc=0.76,均方根誤差RMSEP=0.837 5 Brix;預(yù)測集相關(guān)系數(shù)Rv=0.72,均方根誤差RMSEP=0.870 2 Brix。對于不套袋蘋果,校正集相關(guān)系數(shù)Rc=0.69,均方根誤差RMSEP=0.904 0 Brix;預(yù)測集相關(guān)系數(shù)Rv=0.63,均方根誤差RMSEP=0.913 4 Brix。
根據(jù)實(shí)驗(yàn)結(jié)果,不套袋蘋果建立的模型精度低于套袋蘋果。蘋果套袋與不套袋對模型精度的影響是由不同的表面狀況造成的。所有實(shí)驗(yàn)樣品在實(shí)驗(yàn)開始時(shí)均未經(jīng)過清洗,套袋蘋果表面較為干凈,除極個(gè)別蘋果表面在運(yùn)輸過程中碰傷外,其余蘋果表面均無傷痕,蘋果各個(gè)面顏色基本一致,手感光滑;不套袋蘋果表面灰塵較多,蘋果表面有大量的斑點(diǎn)以及在成長過程中的傷疤,且向陽面與背陰面顏色相差較大,手感粗糙。不套袋蘋果復(fù)雜的表面情況會(huì)在一定程度上對光譜采集帶來不利影響,光譜中較多的噪聲導(dǎo)致了較低的建模精度。
圖6 模型預(yù)測結(jié)果:殘差分布Fig.6 Residual distribution for prediction results
本文選擇煙臺棲霞紅富士蘋果為試驗(yàn)材料,測得反射率光譜及其糖度,用多元散射校正(MSC)處理原始光譜,最后用偏最小二乘回歸(PLSR)分別建立了套袋和不套袋蘋果的反射率光譜-糖度模型。
本研究結(jié)果與郭俊先[4]、郭志明[6]、張晉寶[8]等已有研究結(jié)果一致,可以利用偏最小二乘回歸(PLSR)來建立蘋果糖度定量分析預(yù)測模型。但由于套袋與不套袋蘋果差異,使用同一種方法建立的模型,其結(jié)果還是存在差異。不套袋蘋果模型精度低于套袋蘋果,原因是不套袋蘋果表面狀況較為復(fù)雜,影響了光譜采集的精度,增加了無損檢測的難度,不套袋蘋果的無損檢測誤差要高于套袋蘋果。今后套袋蘋果與不套袋蘋果光譜數(shù)據(jù)差異性,需通過不同模型與方法研究,以提高糖度檢測模型的預(yù)測精度。