楊雨圖,熊杰,司萬,方會(huì)敏,黃玉萍
(1.南京林業(yè)大學(xué)機(jī)械電子工程學(xué)院,南京市,210037;2.江蘇大學(xué)農(nóng)業(yè)工程學(xué)院,江蘇鎮(zhèn)江,212013)
板栗營(yíng)養(yǎng)價(jià)值與藥用價(jià)值高,它富含蛋白質(zhì)、碳水化合物、維生素以及礦物質(zhì)元素,是一種較為理想的食品、藥品加工原料[1-3],一直深受廣大消費(fèi)者的喜愛。我國(guó)盛產(chǎn)板栗,且種植分布廣泛[4-5],在復(fù)雜的氣候和地理?xiàng)l件下,不同產(chǎn)地板栗之間的大小、品質(zhì)、口感有明顯差異,價(jià)格也顯著不同,因此,急需研究板栗產(chǎn)地識(shí)別技術(shù)對(duì)其進(jìn)行快速分級(jí),從而適應(yīng)市場(chǎng)需求。
目前,常見的板栗品種檢測(cè)方法主要有人工鑒別法和分析化學(xué)檢測(cè)法。人工鑒別法通過直接觀察板栗的外表性狀特征,如堅(jiān)果形狀、果面光澤、果面絨毛等判別板栗的產(chǎn)地。然而,采用人工鑒別的方式不僅效率低下,耗用大量人力資源,而且經(jīng)常會(huì)受到人的主觀意識(shí)的影響,降低了判別的準(zhǔn)確性。分析化學(xué)檢測(cè)法則是測(cè)定板栗的化學(xué)成分從而對(duì)板栗的產(chǎn)地進(jìn)行識(shí)別。分析化學(xué)檢測(cè)方式雖然檢測(cè)準(zhǔn)確率高,但速度較慢,且需要破壞板栗果實(shí)的完整性和可食用性,只能進(jìn)行小批量抽樣檢測(cè),不適合規(guī)?;⒐I(yè)化的食品加工產(chǎn)業(yè)。
近紅外光譜技術(shù)具有快速、無損、無需樣品制備等優(yōu)點(diǎn),被廣泛用于食品定性和定量檢測(cè)中。何勇等[6]采用近紅外光譜技術(shù)結(jié)合主成分分析法,建立人工神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)對(duì)楊梅品種的快速識(shí)別,識(shí)別率達(dá)到95%。李曉麗等[7]采用350~1 075 nm的可見/近紅外光譜鑒別水稻的5個(gè)品種,應(yīng)用小波變換進(jìn)行光譜預(yù)處理,主成分分析降維結(jié)合反向傳播人工神經(jīng)算法,識(shí)別率達(dá)到96%。陳建等[8]在1 000~2 632 nm光譜區(qū)間對(duì)玉米品種進(jìn)行判別分析,比較分析多種光譜預(yù)處理(如Savitzky-Golay平滑、多重散射校正)對(duì)分類結(jié)果的影響,最優(yōu)分類結(jié)果達(dá)到95%。此外,也有一些學(xué)者運(yùn)用近紅外光譜技術(shù),通過不同的數(shù)學(xué)模型對(duì)食品[9-15]、土壤[16-20]、藥物[21-25]等成分特性進(jìn)行研究。一些研究報(bào)道了近紅外光譜分析技術(shù)能夠被用于檢測(cè)板栗樣品,但大都集中在板栗化學(xué)組分的定量分析,在識(shí)別產(chǎn)地等方面定性分析的研究相對(duì)較少。
因此,本研究將采用可見/近紅外光譜技術(shù)在600~1 100 nm光譜區(qū)間對(duì)板栗的產(chǎn)地進(jìn)行判別分析。由于采集到的光譜信息中還摻雜著噪聲和雜散光等,需要通過光譜預(yù)處理方法對(duì)數(shù)據(jù)進(jìn)行校正,提高信噪比。另外,不同波長(zhǎng)點(diǎn)對(duì)樣品的響應(yīng)特性也存在差異,研究不同波長(zhǎng)范圍對(duì)板栗產(chǎn)地的識(shí)別將有助于提高板栗的分級(jí)速度。
試驗(yàn)所用的200個(gè)板栗樣品均購(gòu)買于南京市場(chǎng),河北和安徽產(chǎn)地的板栗樣品各100個(gè)(圖1)。購(gòu)買后將樣品置于溫度為4 ℃的冰箱內(nèi)保存。試驗(yàn)前一天晚上將樣品取出,放置室溫一晚以備第二天光譜采集試驗(yàn)。
(a)安徽板栗
本試驗(yàn)使用SupNIR-1100型光柵掃描式近紅外光譜分析儀采集每個(gè)板栗樣品的近紅外反射光譜,光譜波長(zhǎng)范圍為600~1 100 nm,積分時(shí)間設(shè)置為80 ms,光譜平均次數(shù)為3次、分辨率為1 nm。試驗(yàn)過程中,環(huán)境溫度在25 ℃左右,采集反射率為98%的白板光譜,將其作為參比光譜,再將樣品放置于容器中依次掃描完成。
為避免系統(tǒng)誤差,本試驗(yàn)采用相對(duì)光譜Sr建模分析,如式(1)所示。
(1)
式中:S——樣品原始光譜;
W——參比光譜;
D——暗場(chǎng)光譜。
1.3.1 光譜預(yù)處理
標(biāo)準(zhǔn)正態(tài)變量變換(Standard Normal Variate,SNV),主要用于消除光譜數(shù)據(jù)中因樣品大小不一、表面散射及光程差異產(chǎn)生的影響。SNV與標(biāo)準(zhǔn)化算法的計(jì)算類似,區(qū)別在于SNV對(duì)光譜矩陣的行進(jìn)行變換,標(biāo)準(zhǔn)化則是對(duì)列進(jìn)行變換。計(jì)算公式如式(2)~式(4)所示。
(2)
(3)
(4)
σi——第i個(gè)樣本光譜的標(biāo)準(zhǔn)差;
n——波長(zhǎng)點(diǎn)數(shù)。
Savitzky-Golay平滑屬于低通濾波器,常被應(yīng)用于數(shù)據(jù)流平滑去噪,在去除噪音的同時(shí)能夠確保數(shù)據(jù)的主要信息不受影響。Savitzky-Golay平滑是通過多項(xiàng)式對(duì)移動(dòng)窗口內(nèi)的數(shù)據(jù)使用最小二乘法進(jìn)行擬合,算出窗口內(nèi)中心點(diǎn)關(guān)于其周圍點(diǎn)的加權(quán)平均和。使用Savitzky-Golay平滑時(shí),窗口寬度與擬合次數(shù)的選取至關(guān)重要,其直接決定了Savitzky-Golay平滑的微分點(diǎn)數(shù),若微分點(diǎn)數(shù)過小,噪音無法完全去除,則達(dá)不到理想效果;反之,若微分點(diǎn)數(shù)過大,使數(shù)據(jù)過于平滑,導(dǎo)致數(shù)據(jù)所帶的特征信息缺失,建模的可靠性就會(huì)降低。
導(dǎo)數(shù)處理也是光譜預(yù)處理常用的方法之一,例如差分求導(dǎo),就是一種最簡(jiǎn)單的離散數(shù)據(jù)求導(dǎo)法。使用此方法會(huì)使輸出矩陣維數(shù)減少,為解決此問題,一般在預(yù)處理前在矩陣頭或尾增加一列或兩列相同數(shù)據(jù)。
1.3.2 建模方法
本研究采用MATLAB 2018a分析軟件結(jié)合PLS Toolbox 8.2建立板栗產(chǎn)地的偏最小二乘判別分析(PLSDA)模型。偏最小二乘判別分析是一種有監(jiān)督模式識(shí)別的多元統(tǒng)計(jì)分析方法,其優(yōu)點(diǎn)是能夠減少變量間多重共線性產(chǎn)生的影響。
200個(gè)板栗被隨機(jī)分在校正集(150個(gè)板栗樣品)和驗(yàn)證集(50個(gè)板栗樣品)。分別建立不同光譜預(yù)處理下的PLSDA數(shù)學(xué)模型,比較各模型的性能,運(yùn)用威尼斯百葉窗交叉驗(yàn)證法,并根據(jù)最小交叉驗(yàn)證分類誤差確定最佳潛在變量數(shù)量。
圖2(a)顯示了所有板栗樣品的可見/近紅外光譜,各光譜間差異較難分辨。從圖2(a)中可以發(fā)現(xiàn),600~750 nm以及1 000~1 100 nm區(qū)間的光譜不夠光滑,這種現(xiàn)象同樣也出現(xiàn)在圖2(b)和圖2(c)中,這可能是由于噪聲導(dǎo)致的。但經(jīng)過Savitzky-Golay平滑處理后,噪聲影響相對(duì)較少,光譜曲線也相應(yīng)變得光滑,如圖2(c)所示。經(jīng)過標(biāo)準(zhǔn)正態(tài)變量變換預(yù)處理后,光譜的形狀發(fā)生變換,尤其在靠近800 nm處。此外,經(jīng)過標(biāo)準(zhǔn)正態(tài)變量變換后,在970 nm處的水分吸收峰變得更加明顯。經(jīng)過一階求導(dǎo)后,光譜曲線值大部分集中在0點(diǎn)位置。
(a)原始光譜
分別將100個(gè)安徽板栗和100個(gè)河北板栗的可見/近紅外光譜圖進(jìn)行平均,如圖3所示。
(a)兩產(chǎn)地板栗原始平均光譜
獲得的兩條可見/近紅外平均光譜圖,如圖3(a)所示,不同產(chǎn)地的板栗光譜曲線存在差異,尤其在750~1 000 nm區(qū)間,這說明不同產(chǎn)地的板栗成分和物理結(jié)構(gòu)可能不同。經(jīng)過標(biāo)準(zhǔn)正態(tài)變量變換預(yù)處理后,增加了兩種板栗光譜曲線的差異性,如圖3(b)所示。經(jīng)過Savitzky-Golay平滑后,光譜曲線變得更平滑,尤其在光譜的端部(600~750 nm和1 000~1 100 nm),而形狀與原始光譜未有太大差異。但經(jīng)過一階導(dǎo)數(shù)預(yù)處理后,光譜的形狀有了較大改變,光譜端部變化較大,這可能是由于噪聲引起的。
表1顯示了基于偏最小二乘判別分析(PLSDA)模型全波長(zhǎng)條件下不同光譜預(yù)處理對(duì)板栗產(chǎn)地的判別結(jié)果。原始光譜建立的PLSDA模型對(duì)板栗產(chǎn)地識(shí)別的決定系數(shù)為0.859,驗(yàn)證集決定系數(shù)為0.839,校正集和驗(yàn)證集的均方根誤差分別為0.188和0.204。經(jīng)過SNV光譜預(yù)處理后,校正集決定系數(shù)提高了2.8%,均方根誤差減少了9.0%,但驗(yàn)證集的決定系數(shù)提高不明顯,僅為1.0%左右,而均方根誤差也僅減少了3.4%。相較于SNV,一階導(dǎo)數(shù)光譜預(yù)處理可以進(jìn)一步提高校正集和驗(yàn)證集的決定系數(shù),其決定系數(shù)分別為0.884和0.863,比原始光譜建立的PLSDA模型均提高2.9%,同時(shí),校正集和驗(yàn)證集的均方根誤差分別降低了9.6%和6.4%。然而,當(dāng)經(jīng)過Savitzky-Golay平滑光譜預(yù)處理后,校正集和驗(yàn)證集的決定系數(shù)反而減小了5.2%和11.6%,且均方根誤差分別增大了14.9%和27.9%,這可能是由于平滑處理使得數(shù)據(jù)所帶的特征信息缺失,導(dǎo)致模型的可靠性降低。綜上所述,光譜預(yù)處理對(duì)模型的性能影響較大,合適的光譜預(yù)處理能夠有效提高模型的可靠性。
表1 基于偏最小二乘判別分析模型全波長(zhǎng)條件下各光譜預(yù)處理對(duì)板栗產(chǎn)地的校正集和驗(yàn)證集識(shí)別結(jié)果Tab.1 Classification results for chestnut geographic origin based on PLSDA models using different spectral preprocessing methods at full wavelength range for calibration and prediction sets
表2顯示了在600~1 100 nm光譜區(qū)間,基于PLSDA模型,各光譜預(yù)處理的校正集和驗(yàn)證集的敏感性與特異性統(tǒng)計(jì)分析。不管是校正集還是驗(yàn)證集,原始光譜、SNV光譜預(yù)處理和一階導(dǎo)數(shù)預(yù)處理的敏感性和特異性都一樣,校正集中安徽板栗和河北板栗的敏感性分別為1和0.973,特異性分別為0.973和1。驗(yàn)證集中安徽板栗和河北板栗的敏感性和特異性均為1,說明PLSDA模型能100%識(shí)別驗(yàn)證集中兩個(gè)產(chǎn)地的板栗。而Savitzky-Golay平滑預(yù)處理的敏感性和特異性相對(duì)較差,校正集中安徽板栗和河北板栗的敏感性分別為0.987和0.945,特異性為0.945和0.987,驗(yàn)證集中敏感性分別為1和0.889,而特異性為0.889和1,相對(duì)較低的敏感性和特異性可能是由于模型可靠性不高導(dǎo)致的。
表2 基于偏最小二乘判別分析模型全波長(zhǎng)條件下各光譜預(yù)處理的敏感性與特異性分析Tab.2 Performance of the PLSDA models developed by different spectral preprocessing methods at full wavelength range
由圖2可知,光譜曲線端部(600~750 nm以及1 000~1 100 nm)信噪比較弱,且750~1 000 nm光譜區(qū)間兩個(gè)產(chǎn)地板栗的差異較大,見圖3。因此,選取750~1 000 nm區(qū)間的光譜再次建模分析,結(jié)果如表3所示。相較于表1,雖然原始光譜的校正集的決定系數(shù)沒有改變,但驗(yàn)證集的決定系數(shù)提高了3.2%,均方根誤差減少了8.3%,說明噪聲會(huì)影響模型的性能。另外,各光譜預(yù)處理在消除噪聲影響后,不管是校正集還是驗(yàn)證集,決定系數(shù)均有所提高,均方根誤差降低。針對(duì)驗(yàn)證集,提高最為明顯的是Savitzky-Golay平滑預(yù)處理,決定系數(shù)提高了16.3%,均方根誤差減少了27.6%。相較于一階導(dǎo)數(shù)預(yù)處理后,驗(yàn)證集提高并不明顯,而校正集決定系數(shù)提高3.3%,均方根誤差降低了13.5%。經(jīng)過SNV光譜預(yù)處理,校正集和驗(yàn)證集均有較為平穩(wěn)的提高,決定系數(shù)分別提高了2.3%和4.3%,均方根誤差降低了8.8%和10.2%。
表3 基于偏最小二乘判別分析模型在750~1 000 nm波長(zhǎng)范圍各光譜預(yù)處理對(duì)板栗產(chǎn)地的校正集和驗(yàn)證集識(shí)別結(jié)果Tab.3 Classification results for chestnut geographic origin based on PLSDA models using different spectral preprocessing methods over the spectral range of 750~1 000 nm for calibration and prediction sets
表4顯示了在750~1 000 nm波長(zhǎng)區(qū)間,經(jīng)過各光譜預(yù)處理,基于PLSDA模型對(duì)兩個(gè)產(chǎn)地板栗的敏感性與特異性的統(tǒng)計(jì)分析。原始光譜和Savitzky-Golay平滑預(yù)處理的校正集和驗(yàn)證集的敏感性和特異性均達(dá)到最優(yōu),說明這兩種光譜建立的PLSDA模型對(duì)板栗產(chǎn)地的識(shí)別率最優(yōu),校正集和驗(yàn)證集識(shí)別率均可達(dá)到100%。經(jīng)過SNV預(yù)處理,雖然校正集的敏感性和特異性能達(dá)到1,但驗(yàn)證集中的河北板栗的敏感性與安徽板栗的特異性均只有0.963,這是由于有一個(gè)河北板栗被誤判到安徽板栗。然而,經(jīng)過一階導(dǎo)數(shù)預(yù)處理,不管是校正集還是驗(yàn)證集,敏感性與特異性均沒有達(dá)到最優(yōu),這主要是因?yàn)樵谛U校幸粋€(gè)河北板栗被誤判到安徽板栗,而在驗(yàn)證集中,有一個(gè)安徽板栗被誤判到河北板栗。
表4 基于偏最小二乘判別分析模型750~1 000 nm波長(zhǎng)范圍各光譜預(yù)處理的敏感性與特異性分析Tab.4 Performance of the PLSDA models developed by different spectral preprocessing methods over the spectral range of 750~1 000 nm
分析比較不同光譜預(yù)處理所建立的偏最小二乘判別分析模型對(duì)板栗產(chǎn)地的識(shí)別能力,結(jié)果表明,光譜預(yù)處理對(duì)板栗產(chǎn)地的識(shí)別具有影響,一階導(dǎo)數(shù)對(duì)全波長(zhǎng)數(shù)據(jù)較有效,兩產(chǎn)地板栗的預(yù)測(cè)決定系數(shù)均能達(dá)到0.863。對(duì)比全波長(zhǎng)與近紅外光譜區(qū)域光譜建立的偏最小二乘判別分析模型的性能,結(jié)果顯示,波長(zhǎng)為750~1 000 nm的近紅外光譜區(qū)域光譜對(duì)板栗產(chǎn)地的識(shí)別更具有優(yōu)勢(shì),原始光譜和Savitzky-Golay平滑光譜建立的偏最小二乘判別分析模型的敏感性與特異性均能達(dá)到1,說明750~1 000 nm區(qū)域的光譜能有效鑒別板栗的產(chǎn)地。
中國(guó)農(nóng)機(jī)化學(xué)報(bào)2021年12期