雷 鷹, 劉翠玲, 周子彥
(北京工商大學(xué) 計(jì)算機(jī)與信息工程學(xué)院, 北京 100048)
蘋(píng)果味道鮮美,營(yíng)養(yǎng)豐富。我國(guó)是蘋(píng)果出口第一大國(guó),但是蘋(píng)果的品質(zhì)不高,主要表現(xiàn)在甜度不夠,只能走“低端”市場(chǎng)。要提高我國(guó)蘋(píng)果的質(zhì)量,需要建立一個(gè)完善的糖度分級(jí)系統(tǒng),實(shí)現(xiàn)對(duì)蘋(píng)果糖度的快速無(wú)損檢測(cè)[1]。
利用傳統(tǒng)方法進(jìn)行糖度檢測(cè),往往需要破壞試驗(yàn)樣本,且操作復(fù)雜,不符合無(wú)損快速的要求。利用近紅外光譜(near-infrared spectroscopy, NIRS)分析技術(shù)可實(shí)現(xiàn)在不對(duì)樣品進(jìn)行復(fù)雜預(yù)處理的情況下快速、無(wú)損、準(zhǔn)確的檢測(cè)[2-6]。曹霞等[7]利用紅外漫反射技術(shù)建立了芒果糖度模型。章海亮等[8]利用偏最小二乘法(PLS)分別對(duì)蘋(píng)果糖度進(jìn)行在線(xiàn)和離線(xiàn)檢測(cè)模型的構(gòu)建,得出結(jié)論:離線(xiàn)模型的預(yù)測(cè)精度更高。Wang等[9]對(duì)比漫反射和漫透射分析法建立酸棗的可溶性固體含量模型,得出結(jié)論:漫反射建模效果更佳。
綜合已有研究報(bào)道發(fā)現(xiàn),利用近紅外光譜技術(shù)進(jìn)行蘋(píng)果糖度模型的建立是可行的,但由于實(shí)驗(yàn)樣品的局限性,使得建立的模型不具有普遍性,同時(shí)也存在模型指標(biāo)單一和光譜儀器不便攜帶的不足。
考慮到不同種類(lèi)不同大小蘋(píng)果的化學(xué)成分相近[10-11],文章選用不同種類(lèi)、不同大小的蘋(píng)果作為實(shí)驗(yàn)樣本,利用便攜式光譜儀器進(jìn)行數(shù)據(jù)采集,K- S算法[12-13]劃分樣本,對(duì)樣本數(shù)據(jù)分別進(jìn)行求導(dǎo)、平滑、標(biāo)準(zhǔn)歸一、多元散射預(yù)處理[14-16]操作,采用偏最小二乘法和間隔最小二乘法(iPLS)[17-18]建立蘋(píng)果糖度的通用模型,從而實(shí)現(xiàn)蘋(píng)果糖度的快速、無(wú)損的現(xiàn)場(chǎng)檢測(cè)。
為使模型更具穩(wěn)健性,選取不同產(chǎn)地,不同大小,放置不同時(shí)間的蘋(píng)果作為樣本。就近選取市場(chǎng)上不同品種的蘋(píng)果100個(gè),包括黃元帥、紅富士、花牛、棲霞紅富士。對(duì)蘋(píng)果先洗凈擦拭,去除污漬對(duì)光譜獲取的影響,再進(jìn)行編號(hào),并在蘋(píng)果赤道附近的3點(diǎn)做標(biāo)記(間隔約120°)。將蘋(píng)果放于室內(nèi)12 h以上,目的是使蘋(píng)果整體溫度達(dá)到與環(huán)境溫度一致,消除溫度帶來(lái)的誤差。
光譜儀器選用北京凱勝天成科技有限公司生產(chǎn)的AMBERⅡ型便攜式近紅外光譜儀,如圖1。其核心光譜分析模塊為美國(guó)德州儀器公司生產(chǎn)的DLP NIRscan Nano近紅外光譜分析的便攜式評(píng)估模塊。該模塊內(nèi)部安裝2個(gè)透鏡端寬帶鎢絲燈作為光源,使用DLP2010NIR數(shù)字微鏡器件作為分光儀器,采用單點(diǎn)1毫米探測(cè)器,所測(cè)量的波長(zhǎng)為900~1 700 nm,信噪比大于6 000∶1,可使用USB和電池供電。
對(duì)蘋(píng)果樣品赤道附近的3點(diǎn)進(jìn)行近紅外光譜采集,采集的光譜數(shù)據(jù)保存為csv格式。為了減小誤差,使用Omnic軟件取這3點(diǎn)光譜數(shù)據(jù)的平均值作為原始光譜。光譜采集條件:掃描99%反射白板獲得的光譜作為參比數(shù)據(jù),積分球漫反射,掃描范圍為900~1 700 nm,掃描次數(shù)15次,波長(zhǎng)點(diǎn)個(gè)數(shù)為605個(gè)。每隔30個(gè)樣品需要掃描白板,重新設(shè)置參照。
圖1 AMBERⅡ型便攜式近紅外光譜儀Fig.1 AMBERⅡportable near-infrared spectrometer
糖度的獲取采用日本Atago PAL- 1型數(shù)顯糖度計(jì)測(cè)定。用水果刀削取赤道附近標(biāo)記處的果肉,厚度控制在5 mm左右,用雙層紗布擠濾出汁液2滴用于檢測(cè),顯示結(jié)果為溫度自動(dòng)補(bǔ)償為20 ℃的可溶性固形物含量值(%Brix),并取3次測(cè)量的平均值作為近紅外光譜在線(xiàn)檢測(cè)蘋(píng)果樣本可溶性固形物的標(biāo)準(zhǔn)值。
定量校正模型質(zhì)量的衡量指標(biāo)有4個(gè)重要參數(shù):校正模型和預(yù)測(cè)模型的相關(guān)系數(shù),校正集和預(yù)測(cè)集的均方根誤差。
模型的相關(guān)系數(shù)(R)越接近1,交互驗(yàn)證校正標(biāo)準(zhǔn)偏差(RMSECV)越小,模型質(zhì)量越好,模型回歸的越好;校正集的均方根誤差(RMSEC)越小,模型回歸的越好;模型預(yù)測(cè)性能用預(yù)測(cè)集的均方根誤差(RMSEP)來(lái)表示,RMSEP越小,模型預(yù)測(cè)能力越好[19]。
本文使用TQ analyst建立模型,使用相對(duì)殘差值(%Difference)作為衡量整個(gè)模型建立的指標(biāo),%Difference越接近100,模型的綜合指標(biāo)就越優(yōu)。
對(duì)蘋(píng)果樣品赤道附近的3點(diǎn)進(jìn)行近紅外光譜采集,最終獲得原始光譜100條作為樣本,如圖2。
圖2 蘋(píng)果原始近紅外光譜Fig.2 Apple primitive near-infrared spectrum
糖度測(cè)定結(jié)果見(jiàn)圖3。由圖3可知,蘋(píng)果糖度樣本的采集大致滿(mǎn)足正態(tài)分布。
圖3 蘋(píng)果糖度與樣品數(shù)量的關(guān)系Fig.3 Relationship between apple sugar and sample quantity
經(jīng)過(guò)K- S算法計(jì)算,確定樣品劃分比例為4∶1,將樣本劃分為校正集和預(yù)測(cè)集。預(yù)測(cè)集有20個(gè)數(shù)據(jù),按照編號(hào)為4、6、12、25、30、33、37、43、46、54、58、63、66、70、72、81、86、92、95和99。首先選取全波段(1 238~656 cm-1)進(jìn)行模型的建立,大概預(yù)估樣品集劃分的準(zhǔn)確性。
26,46,82號(hào)樣本的相對(duì)偏差均大于1,屬于問(wèn)題參數(shù),可將其設(shè)置為ignore類(lèi)型的樣本參數(shù),不參與模型的建立(見(jiàn)表1)。進(jìn)行修改之后模型得到優(yōu)化,表現(xiàn)為%Difference由65.4提高到74.3,預(yù)測(cè)集的R由0.635 4提高到0.802 4。
表1 問(wèn)題樣本的相對(duì)誤差情況
最終得到校正集有78個(gè)樣本,預(yù)測(cè)集有19個(gè)樣本,分別為4、6、12、25、30、33、37、43、54、58、63、66、70、72、81、86、92、95和99。糖度統(tǒng)計(jì)如表2。
表2 各樣本集的糖度統(tǒng)計(jì)結(jié)果
優(yōu)化譜區(qū),可以減小計(jì)算量,去除其他區(qū)間的光譜干擾,利用重要信息區(qū)間的光譜信息就可以很好地代表糖度信息。
對(duì)原始光譜采用一階求導(dǎo)、S- G卷積平滑和多元散射校正(MSC)預(yù)處理,利用PLS和iPLS進(jìn)行最佳譜區(qū)選擇。
1)選擇有效全光譜區(qū)間。全區(qū)譜圖1 238~1 200 cm-1這部分的光譜差異很大,可能是蘋(píng)果顏色及種類(lèi)差異而引起的變化,所以在全光譜的選擇中,使用1 200~660 cm-1譜區(qū),見(jiàn)圖4。
2)將1 200~660 cm-1譜區(qū)均分為11等分的小區(qū)間。從1開(kāi)始標(biāo)號(hào),并分別對(duì)每個(gè)局部小區(qū)間進(jìn)行PLS回歸建模,記錄模型參數(shù)%Difference和RMSECV。該11個(gè)區(qū)間的RMSECV值均大于全譜區(qū)的RMSECV值0.793,見(jiàn)表3。表明測(cè)量蘋(píng)果糖度的模型按照PLS全區(qū)建模的效果較優(yōu)。
圖4 一階求導(dǎo)和S- G處理后的全譜區(qū)光譜Fig.4 First derivatived and S- G processed full spectral spectrum
區(qū)間σ/cm-1%DifferenceRMSECV01200~66082.10.79311200~115058.81.0621150~110069.51.1131100~105071.41.0241050~100070.01.0551000~95070.81.106950~90071.80.9567900~85071.21.098850~80066.50.9589800~750631.1310750~70053.81.0511700~66061.21.04
3)針對(duì)全譜區(qū)范圍進(jìn)行優(yōu)化。最終得到優(yōu)化區(qū)間(1 198~670 cm-1)的%Difference值為85.3,RMSECV值為0.765。
為了使蘋(píng)果糖度模型的預(yù)測(cè)性更高,需要選出較為合適的預(yù)處理方法組合,本實(shí)驗(yàn)主要針對(duì)求導(dǎo)及標(biāo)準(zhǔn)歸一化(SNV)處理和MSC的選擇,提出了9種預(yù)處理組合,見(jiàn)表4。經(jīng)過(guò)一階求導(dǎo)和S- G卷積平滑后的蘋(píng)果糖度模型都比較穩(wěn)定,校正集和預(yù)測(cè)集的相關(guān)系數(shù)都能達(dá)到0.9以上。尤其是再經(jīng)過(guò)SNV處理后的模型表現(xiàn)出的綜合指標(biāo)更優(yōu),%Difference達(dá)到最高85.6,預(yù)測(cè)集的相關(guān)系數(shù)為0.918 9,RMSEC和RMSEP的值分別為0.423和0.237。優(yōu)化模型的相關(guān)指標(biāo)見(jiàn)圖5~圖7。最后利用優(yōu)化蘋(píng)果糖度模型對(duì)20枚蘋(píng)果的糖度預(yù)測(cè)如表5,平均誤差±0.2%Brix,滿(mǎn)足現(xiàn)場(chǎng)檢測(cè)應(yīng)用要求。
表4 不同預(yù)處理方法得到的PLS模型指標(biāo)
圖5 糖度優(yōu)化模型的預(yù)測(cè)結(jié)果Fig.5 Predictive results of best model
圖6 糖度優(yōu)化模型的真實(shí)值與計(jì)算值的相關(guān)性Fig.6 Correlation between true and calculated values of best model
圖7 糖度優(yōu)化模型的真實(shí)值與計(jì)算值的誤差分布Fig.7 Error distribution between true and calculated values of best model
表5 20枚蘋(píng)果的糖度測(cè)量值與預(yù)測(cè)值
利用OMNIC和TQ analyst軟件對(duì)得到的數(shù)據(jù)進(jìn)行處理,包括求平均值,剔除問(wèn)題參數(shù),合理的光譜預(yù)處理和求取最佳波段。在此基礎(chǔ)上利用PLS線(xiàn)性回歸最終得到優(yōu)化的蘋(píng)果糖度光譜模型:使用一階求導(dǎo)的導(dǎo)數(shù)處理、S- G卷積平滑處理和標(biāo)準(zhǔn)歸一化預(yù)處理后得到的模型最穩(wěn)定,校正集和預(yù)測(cè)集的相關(guān)系數(shù)都達(dá)到0.9以上,分別為0.922 3和0.918 9。RMSEC為0.423,RMSEP為0.237。
實(shí)驗(yàn)不足之處在于樣本的選取均來(lái)自就近的市場(chǎng),導(dǎo)致樣本糖度范圍較小,使建立得到的糖度模型僅可對(duì)11.2~16.3%Brix范圍內(nèi)的蘋(píng)果進(jìn)行預(yù)測(cè)。如果實(shí)驗(yàn)樣本的數(shù)量更多,糖度范圍更廣,則模型的預(yù)測(cè)性將越強(qiáng)。