李 楠 楊春杰
(1. 運(yùn)城學(xué)院生命科學(xué)系,山西 運(yùn)城 044000;2. 運(yùn)城學(xué)院機(jī)電工程系,山西 運(yùn)城 044000)
小米又稱粟(米),禾本科狗尾草屬[1]。在中國(guó),作為五谷之一的小米有著悠久的食用歷史,數(shù)千年來(lái)一直作為傳統(tǒng)主食養(yǎng)育了中國(guó)北方文明,在現(xiàn)代仍是主要雜糧之一[2]。小米的產(chǎn)地來(lái)源與其品質(zhì)密切相關(guān),地域特色小米具有反映該區(qū)域自然環(huán)境的特有品質(zhì),中國(guó)已出現(xiàn)許多名優(yōu)原產(chǎn)地域小米產(chǎn)品群落。假冒產(chǎn)地不僅損害消費(fèi)者和企業(yè)利益,同時(shí)也增加了食品安全問(wèn)題追溯與風(fēng)險(xiǎn)管理難度[3]。農(nóng)產(chǎn)品產(chǎn)地溯源方法主要包括特定化學(xué)成分(如礦物元素、同位素、多酚、糖、氨基酸等)差異分析的破壞性溯源方法和光譜、仿生(電子鼻、電子舌)、介電特性、核磁共振檢測(cè)等無(wú)損溯源方法[4]。其中,近紅外光譜技術(shù)因其高效、無(wú)損、環(huán)保等優(yōu)點(diǎn)已成為近幾十年來(lái)發(fā)展最迅速的無(wú)損檢測(cè)技術(shù)之一,也被認(rèn)為是當(dāng)前經(jīng)濟(jì)性最高的食品溯源技術(shù)[4-8]。近紅外光譜技術(shù)已被應(yīng)用于茶葉[9-10]、橄欖油[11]、肉類[12-14]、酒類[15-17]等食品的產(chǎn)地溯源研究,顯現(xiàn)出較好的應(yīng)用前景。目前,采用近紅外、高光譜、拉曼光譜等光譜技術(shù)的小米產(chǎn)地溯源研究較少,同時(shí)這些研究多存在樣本數(shù)量較少[18-20]、樣本產(chǎn)地來(lái)源偏少[18-22]、模型預(yù)測(cè)準(zhǔn)確率偏低[18]等問(wèn)題。此外,相關(guān)研究多使用體積大、價(jià)格高的精密型近紅外光譜儀,在實(shí)際應(yīng)用方面存在一定局限。因此,研究擬以來(lái)源于11個(gè)主產(chǎn)省份的150份小米樣品為研究對(duì)象,采用便攜式近紅外光譜儀檢測(cè)樣品,同時(shí)為了提高模型準(zhǔn)確率和泛化能力,采用魯棒主成分分析(rPCA)識(shí)別異常數(shù)據(jù),并采用DUPLEX方法劃分樣本集,進(jìn)而比較主成分分析、線性判別、人工神經(jīng)網(wǎng)絡(luò)等模式識(shí)別方法的分類結(jié)果,為利用近紅外光譜技術(shù)實(shí)現(xiàn)小米產(chǎn)地溯源提供參考。
小米樣品:采集于中國(guó)11個(gè)省份,涵蓋所有國(guó)內(nèi)小米主產(chǎn)地(見(jiàn)表1)。小米采集后鋁箔袋真空密封,4 ℃保存。
便攜式近紅外谷物分析儀:ZX-50IQ型,美國(guó)Zeltex公司;
真空封口機(jī):RS-BZ11A型,合肥榮事達(dá)電子電器集團(tuán)有限公司;
電子天平:FA1604型,上海舜宇恒平科學(xué)儀器公司。
1.3.1 光譜采集 樣品預(yù)先放置于25 ℃環(huán)境自然升溫至室溫。近紅外分析儀開(kāi)機(jī)預(yù)熱30 min后校準(zhǔn)。每次測(cè)量時(shí),稱取50.0 g樣品,均勻置于樣品杯,然后放于樣品室關(guān)閉遮光罩進(jìn)行測(cè)量。每個(gè)樣品測(cè)量3次,取平均值作為最終分析光譜值。
1.3.2 數(shù)據(jù)分析 采用魯棒主成分分析(rPCA)方法剔除樣品光譜數(shù)據(jù)異常值后,使用DUPLEX方法將數(shù)據(jù)按3∶1劃分為訓(xùn)練集和預(yù)測(cè)集,最后對(duì)數(shù)據(jù)進(jìn)行主成分分析(PCA)、費(fèi)舍爾線性判別分析(LDA)及多層感知器神經(jīng)網(wǎng)絡(luò)(MLP-NN)建模識(shí)別分析。建模分析采用SPSS20軟件;異常值檢測(cè)、訓(xùn)練集及預(yù)測(cè)集劃分采用Matlab R2015b軟件。
由圖1可知,不同樣本的光譜形狀具有相似性,但吸收峰的位置均存在一定的差異性,說(shuō)明不同產(chǎn)地小米的組成成分存在差異,這些差異通過(guò)近紅外光對(duì)含氫基團(tuán)(C—H、N—H、O—H、S—H等)振動(dòng)的倍頻和組合頻吸收不同而生成差異化的紅外光譜圖。為保證光譜數(shù)據(jù)具有代表性,每個(gè)樣品測(cè)量3次,取平均值作為最終分析光譜值。由于試驗(yàn)使用的便攜式近紅外分析儀只有14個(gè)近紅外波長(zhǎng),且小米樣品在不同波長(zhǎng)下的吸光值均有差異,因此將全部波長(zhǎng)數(shù)據(jù)用于后續(xù)分析。
表1 小米樣品產(chǎn)地及數(shù)量
圖1 不同產(chǎn)地小米近紅外光譜圖Figure 1 Near infrared spectra of millet samples from different origins
異常值會(huì)影響模型的可靠性,甚至?xí)?dǎo)致模型嚴(yán)重失真,因此在模型建立前需要識(shí)別并剔除異常值。魯棒主成分分析(rPCA)被用于識(shí)別異常值,該方法能夠高效識(shí)別出異常值[23]。首先計(jì)算每個(gè)樣品的主成分得分距離(SD)和正交距離(OD),然后將樣品分為4組:常規(guī)組(低SD低OD)、良好主成分轉(zhuǎn)換組(高SD低OD)、正交異常值組(低SD高OD)、不良主成分轉(zhuǎn)換組(高SD高OD),后兩組樣品不利于模型分析,被識(shí)別為異常值。如圖2所示,產(chǎn)自陜西的14個(gè)樣品中,2、7、9、13號(hào)共4個(gè)樣品異常值被檢出。同樣的方法識(shí)別其余樣品組異常值,最終得到131組數(shù)據(jù)用于進(jìn)一步分析。
圖2 小米樣品魯棒主成分分析檢測(cè)異常值Figure 2 The outlier diagnosis obtained by rPCA for millet samples
主成分分析是一種無(wú)監(jiān)督的分析方法,在盡可能保證原有信息的前提下將多元數(shù)據(jù)降維轉(zhuǎn)化為少數(shù)新變量,減少數(shù)據(jù)冗余,進(jìn)而方便理解和展示原有變量差異。依據(jù)前兩個(gè)主成分得到的PCA得分圖,可以直觀地表現(xiàn)原始數(shù)據(jù)所代表的樣本狀態(tài),樣品點(diǎn)的聚集、離散程度反映出樣品間的差異大小。如圖3所示,第一主成分的方差貢獻(xiàn)率為95.48%,第二主成分的方差貢獻(xiàn)率為4.22%,合計(jì)為99.70%,因此前兩個(gè)主成分可以充分反映原始數(shù)據(jù)信息。山西、河南、黑龍江3省內(nèi)的樣品點(diǎn)分布較為分散,其余省內(nèi)樣品點(diǎn)分布相對(duì)集中,說(shuō)明來(lái)自于山西、河南、黑龍江3省樣品的省內(nèi)差異較大,其余省份樣品的省內(nèi)差異較小。同時(shí),山西、河南、黑龍江3省樣品點(diǎn)與其余8個(gè)省份樣品點(diǎn)部分重疊,但8個(gè)省份樣品點(diǎn)分布相對(duì)獨(dú)立且界限清晰,說(shuō)明除了山西、河南、黑龍江3省份樣品與部分省份樣品差異較小之外,其余省份樣品省間差異明顯。上述結(jié)果說(shuō)明在主成分分析中,除山西、河南、黑龍江3省的樣品省內(nèi)差異較大導(dǎo)致難以區(qū)分省間差異外,其余省份的樣品均能依據(jù)省間差異區(qū)分省份產(chǎn)地。
圖3 不同產(chǎn)地小米樣品主成分分析二維圖Figure 3 PCA plot of millet samples with PC1 and PC2
2.4.1 訓(xùn)練集及預(yù)測(cè)集劃分 雙向數(shù)據(jù)分組(DUPLEX)方法是一種計(jì)算機(jī)訓(xùn)練集識(shí)別方法,該方法能保證訓(xùn)練集中樣本按照空間距離均勻分布,保證訓(xùn)練集樣本的代表性[24]。該方法的選取過(guò)程:① 選擇樣本組中歐式距離最大的兩個(gè)樣本劃入訓(xùn)練集;② 在余下的樣本組中,選擇歐式距離最大的兩個(gè)樣本劃入預(yù)測(cè)集[25]。重復(fù)上述操作,直到滿足預(yù)測(cè)集所需的樣本數(shù),余下的樣本全部劃入訓(xùn)練集。使用該方法最終由92個(gè)樣品組成訓(xùn)練集,39個(gè)樣品組成預(yù)測(cè)集,具體結(jié)果見(jiàn)表2。
表2 利用DUPLEX方法的分組結(jié)果
2.4.2 費(fèi)舍爾線性判別分析(FLDA) FLDA是一種有監(jiān)督的線性分類方法,將高維模式樣本投影到最佳鑒別矢量空間,降維的同時(shí)保證樣本有最大的類間距離和最小的類內(nèi)距離,使得各類樣品能夠更好的區(qū)分。在SPSS軟件中,將訓(xùn)練集作為FLDA的變量輸入,產(chǎn)地信息作為判別輸出,利用Fisher函數(shù)、wilks'lambda變量選擇,采用步進(jìn)判別法進(jìn)行分析,結(jié)果見(jiàn)表3。訓(xùn)練集中對(duì)不同樣品產(chǎn)地溯源的平均正確率為100.0%,預(yù)測(cè)集中對(duì)不同樣品產(chǎn)地溯源的平均正確率為84.6%,其中來(lái)源于內(nèi)蒙古的3個(gè)樣品產(chǎn)地預(yù)測(cè)全部錯(cuò)誤。以上結(jié)果表明建立的FLDA模型在訓(xùn)練集上表現(xiàn)良好,但對(duì)測(cè)試集數(shù)據(jù)表現(xiàn)一般,模型的泛化能力較差,有可能是訓(xùn)練集樣本數(shù)量不足或特征波長(zhǎng)選擇不合適導(dǎo)致了模型的過(guò)擬合。
表3 訓(xùn)練集和測(cè)試集的費(fèi)舍爾線性判別分析結(jié)果
2.4.3 多層感知器神經(jīng)網(wǎng)絡(luò)分析(MLP-NN) MLP-NN是一種前饋式有監(jiān)督神經(jīng)網(wǎng)絡(luò),由一個(gè)輸入層、一個(gè)輸出層以及一個(gè)或多個(gè)隱藏層組成。作為神經(jīng)網(wǎng)絡(luò)方法中最有影響的方法之一,MLP-NN具有從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)復(fù)雜非線性映射的能力,能夠發(fā)現(xiàn)數(shù)據(jù)間復(fù)雜的關(guān)系。利用訓(xùn)練集數(shù)據(jù)構(gòu)建MLP-NN模型,隱藏層和輸出層的激活函數(shù)分別為雙曲正切和Softmax,隱藏層層數(shù)為1,單位數(shù)為50,優(yōu)化算法為調(diào)整的共軛梯度。結(jié)果見(jiàn)表4,訓(xùn)練集中對(duì)樣品產(chǎn)地溯源的平均正確為95.7%,預(yù)測(cè)集中對(duì)樣品產(chǎn)地溯源的平均正確率為92.3%。以上結(jié)果表明建立的MLP-NN模型具有較高的準(zhǔn)確度和可靠性,因此,相較于建立的FLDA判別模型,基于MLP-NN判別模型的近紅外光譜技術(shù)可有效應(yīng)用于小米的產(chǎn)地溯源。
以產(chǎn)地相對(duì)全面的小米樣品為研究對(duì)象,采用便攜式近紅外光譜儀檢測(cè)樣品,建立了基于近紅外光譜技術(shù)的小米產(chǎn)地多層感知器神經(jīng)網(wǎng)絡(luò)、費(fèi)舍爾線性判別模型。結(jié)果顯示:多層感知器神經(jīng)網(wǎng)絡(luò)模型優(yōu)于費(fèi)舍爾線性判別模型,費(fèi)舍爾線性判別模型準(zhǔn)確度高,但泛化能力一般(測(cè)試集正確率為84.6%);多層感知器神經(jīng)網(wǎng)絡(luò)模型具有較高的準(zhǔn)確度和可靠性(測(cè)試集正確率為92.3%)。因此,基于多層感知器神經(jīng)網(wǎng)絡(luò)模型的近紅外光譜技術(shù)可有效應(yīng)用于小米的產(chǎn)地溯源。
研究中檢測(cè)近紅外波長(zhǎng)以及算法模型都較少,后續(xù)研究應(yīng)該擴(kuò)展近紅外波長(zhǎng)范圍(780~2 500 nm),優(yōu)選新的數(shù)據(jù)算法(數(shù)據(jù)預(yù)處理、特征波長(zhǎng)選擇、建模方法等),進(jìn)而深入揭示小米近紅外光譜數(shù)據(jù)、產(chǎn)地以及組成成分之間的關(guān)系。另外,小米的品質(zhì)除了受地域環(huán)境(如氣候、土壤等)影響外,還與基因(品種)、種植、管理和加工等因素相關(guān),這些因素均能影響產(chǎn)地溯源的準(zhǔn)確性。實(shí)際應(yīng)用時(shí)需要考慮并克服這些因素,因此實(shí)際應(yīng)用建模樣本的數(shù)量及來(lái)源會(huì)遠(yuǎn)遠(yuǎn)超過(guò)研究中的樣本,甚至需要建立規(guī)模龐大的樣本數(shù)據(jù)庫(kù)并持續(xù)完善以降低模型的預(yù)測(cè)風(fēng)險(xiǎn)。
表4 訓(xùn)練集和測(cè)試集的多層感知器神經(jīng)網(wǎng)絡(luò)分析結(jié)果