孫紅敏,董元,李曉明,孔繁澤
(東北農(nóng)業(yè)大學(xué)電氣與信息學(xué)院,哈爾濱 150030)
小米是我國重要糧食作物之一[1],主要產(chǎn)區(qū)分布于黃河流域,包括內(nèi)蒙古、陜西、甘肅等北方各省半干旱地區(qū)[2],受氣候、土壤等因素影響,不同產(chǎn)區(qū)小米營養(yǎng)成分具有一定差異性[3]。在經(jīng)濟(jì)利益驅(qū)動下,一些不法商家假冒小米地理源信息,擾亂市場秩序,增加小米及其他農(nóng)產(chǎn)品質(zhì)量安全監(jiān)控難度,對小米產(chǎn)地溯源方法和技術(shù)提出更高要求。因此,研究高效、精準(zhǔn)的小米產(chǎn)地溯源方法對我國糧食安全及農(nóng)產(chǎn)品地理標(biāo)志保護(hù)具有重要意義[4]。
光譜技術(shù)因其高效無損的判別特性,在農(nóng)作物溯源領(lǐng)域具有良好適用性[5]。宋雪健等利用近紅外漫反射光譜技術(shù)結(jié)合因子化法等方法精準(zhǔn)判別肇州、肇源兩地小米[6];李佳潔等利用近紅外光譜技術(shù)結(jié)合馬氏距離法、線性判別法判別分析3個(gè)產(chǎn)地小米[7];李楠等利用近紅外光譜技術(shù)結(jié)合費(fèi)舍爾線性判別和多層感知器神經(jīng)網(wǎng)絡(luò)模型判別多個(gè)產(chǎn)地小米[8];田雪等采用傅里葉變化紅外光譜和二維相關(guān)紅外光譜分析技術(shù)鑒別4個(gè)小米品種[9]。上述研究表明光譜技術(shù)應(yīng)用于小米產(chǎn)地溯源具有可行性,但普遍存在研究選取樣本產(chǎn)地?cái)?shù)量較少、多產(chǎn)地樣本判別準(zhǔn)確率偏低等問題?;趫D像、光譜信息融合優(yōu)勢,高光譜成像技術(shù)已逐漸應(yīng)用于農(nóng)產(chǎn)品溯源研究[10],王慶國等利用偏最小二乘法實(shí)現(xiàn)玉米種子產(chǎn)地和年份鑒別[11];王朝輝等利用高光譜9個(gè)特征波長判別分析2種大米[12];林瓏等利用HOG特征建立基于單波長圖像特征的支持向量機(jī)模型識別東北和非東北大米[13];Deng等利用高光譜結(jié)合半監(jiān)督分類算法識別水稻種子[14];Bao等利用高光譜成像結(jié)合線性判別分析、支持向量機(jī)和極限學(xué)習(xí)機(jī)基于全波長和特征波長建立分類模型識別小麥[15];吉海彥等基于高光譜成像技術(shù),利用線性判別分析和支持向量機(jī)、邏輯回歸結(jié)合的遞歸特征消除模型判別5種小米產(chǎn)地[16]。
目前研究主要集中于糧食作物產(chǎn)地、品種、物質(zhì)含量等方面的光譜檢測,但高光譜技術(shù)在小米產(chǎn)地溯源方面研究尚少,且現(xiàn)有溯源判別準(zhǔn)確度有待提高。
研究表明,小米產(chǎn)地是影響其營養(yǎng)物質(zhì)含量的主要因素之一。劉為紅等利用近紅外線分光光度計(jì)對5種小米樣本開展試驗(yàn),驗(yàn)證不同氣候因子對小米中蛋白質(zhì)和脂肪含量的影響,發(fā)現(xiàn)蛋白質(zhì)和脂肪受不同環(huán)境的積溫、降水量、日照時(shí)長及土壤化學(xué)成分影響顯著[17];梁克紅等對比5個(gè)地區(qū)小米營養(yǎng)物質(zhì)含量,得出不同產(chǎn)地溫度及土壤中礦物質(zhì)元素含量是影響小米蛋白質(zhì)合成關(guān)鍵因素,此外,產(chǎn)地因素對小米中膳食纖維含量影響大于品種因素[18];劉曉東等研究發(fā)現(xiàn)品種和地域因素對小米中礦物元素含量影響顯著[19];王瑞等發(fā)現(xiàn)相同品種小米種植在不同地區(qū)含量差異最大的營養(yǎng)物質(zhì)是直鏈淀粉、維生素、粗蛋白和粗脂肪[20]。
綜上所述,產(chǎn)地對小米中脂肪、蛋白質(zhì)、膳食纖維和礦物元素等營養(yǎng)物質(zhì)含量影響顯著。其中,脂肪和蛋白質(zhì)含量差異較為明顯,小米中脂肪含量變幅為1%~4%。蛋白質(zhì)含量變幅為9%~13%,不同產(chǎn)地小米物質(zhì)含量差異性在其高光譜數(shù)據(jù)中也有體現(xiàn),說明基于高光譜技術(shù)研究小米產(chǎn)地溯源具有理論意義及可行性。本研究以3個(gè)產(chǎn)區(qū)7個(gè)產(chǎn)地小米樣本為研究對象,提出新的小米產(chǎn)地溯源策略,建立基于該策略的小米產(chǎn)地判別模型。
本研究收集小米樣本共126份,來自全國3個(gè)小米主產(chǎn)區(qū),包括54份西北地區(qū)小米樣本(甘肅、陜西、寧夏),36份東北地區(qū)小米樣本(內(nèi)蒙古、黑龍江),36份中部地區(qū)小米樣本(河南、山西),采集樣本均真空密封保存于同一避光干燥環(huán)境。待測樣本均勻鋪滿直徑50 mm、高10 mm一次性培養(yǎng)皿,保持表面平整,每份樣本采集8條平均光譜反射率,共收集到1 008條平均光譜反射率數(shù)據(jù),如表1所示。
表1 小米樣本數(shù)據(jù)Table 1 Data of millet samples
試驗(yàn)數(shù)據(jù)采集使用Headwall公司生產(chǎn)高光譜成像系統(tǒng)見圖1。系統(tǒng)硬件部分包括高光譜圖像攝像儀(HyperSpecVNIR)、CCD相機(jī)(1 392×1 024)、鏡頭(Compact Schneider Xenoplan)、可調(diào)節(jié)高光譜升降臺、100 mm或250 mm運(yùn)動距離精準(zhǔn)直流伺服線性控制器、150 W可調(diào)功率光纖鹵素?zé)簦↖llumination Techonologies USA)、電控移動平臺、標(biāo)準(zhǔn)反射白板以及計(jì)算機(jī)構(gòu)成。光譜范圍為400~1 000 nm,采樣波段間隔為0.74 nm,分辨率為2~3 nm,空間分辨率為0.15 mm。系統(tǒng)由計(jì)算機(jī)控制,通過Hyperspec軟件控制移動速度、曝光時(shí)間、掃描步長、掃描寬帶、壓縮倍數(shù)等試驗(yàn)參數(shù)。
圖1 高光譜成像系統(tǒng)裝置Fig.1 Schematic diagram of hyperspectral imaging system
為保證試驗(yàn)光源一致性,減少外部光源影響,試驗(yàn)于密閉黑箱中完成,將系統(tǒng)開機(jī)預(yù)熱180 s后采集圖像,設(shè)置參數(shù)如下:曝光時(shí)間0.250 s,物距450 mm,載物臺起始位置90 mm,終止位置130 mm,移動速度8.5 mm·s-1。為降低高光譜圖像采集時(shí)由于系統(tǒng)光源因素或攝像頭暗電流干擾產(chǎn)生大量噪聲,每組樣本拍攝完畢后,對高光譜成像系統(tǒng)開展一次黑白標(biāo)定校正,獲取標(biāo)準(zhǔn)白板標(biāo)定和全黑標(biāo)定圖像,開展亮、暗電流校正[21],校正公式如公式(1)所示:
R為校正后圖像;Rsample為樣本圖像;Rwhite為標(biāo)準(zhǔn)白板標(biāo)定圖像;Rdark為全黑標(biāo)定圖像[22]。
試驗(yàn)采集126份小米樣本高光譜圖像,共提取1 008條平均光譜反射率數(shù)據(jù),使用ENVI Classic 5.3軟件(美國Exelis Visual Information Solutions公司)對每張高光譜圖像選取8個(gè)面積約4 mm×4 mm ROI區(qū)域,計(jì)算所選取ROI區(qū)域內(nèi)像素平均光譜反射率,并將得到的ROI平均光譜反射率計(jì)算結(jié)果,作為該樣本一條試驗(yàn)光譜反射率數(shù)據(jù)。
為提高高光譜信噪比,減少試驗(yàn)時(shí)受光線散射、光程變化、基線漂移等多種因素引起的大量噪聲,使用標(biāo)準(zhǔn)正態(tài)變換處理(Standard normal vari?ate,SNV)、平滑處理(Savitzky-golay,SG)方法,對采集到的光譜反射率作數(shù)據(jù)預(yù)處理[23]。
采用主成分分析(Principal component analysis,PCA)和偏最小二乘判別分析(Partial least squarediscriminant analysis,PLS-DA)方法對高光譜數(shù)據(jù)作定性判別分析,通過PCA判別結(jié)果獲取小米產(chǎn)地溯源可行性,計(jì)算主成分得分以判定各樣本間差異性,通過PLS-DA建立小米樣本產(chǎn)地判別模型;建模軟件使用Matlab(R2019b),采用殘差統(tǒng)計(jì)剔除異常值,置信水平設(shè)為95%(P<0.05);為避免過擬合,在校正模型中使用“venetian blinds”法作交互驗(yàn)證(CV),數(shù)據(jù)級隨機(jī)劃分8次,保留樣本比率13%;試驗(yàn)利用Kennard-Stone法對得到的光譜樣本數(shù)據(jù)集作劃分處理,劃分75%樣本集作校正集,建立校正集定性判別模型,劃分25%樣本作為驗(yàn)證集對校正集建立的定性模型作驗(yàn)證[24];模型性能定性分析用模型靈敏度、特異度、分類誤差評價(jià),模型靈敏度、特異度越接近于1,分類誤差越接近于0,說明定性判別效果越好;以下公式用于計(jì)算評價(jià)指數(shù),式(2)為靈敏度計(jì)算公式,式(3)為特異度計(jì)算公式,式(4)為分類誤差計(jì)算公式。
其中,TP為真陽性樣本個(gè)數(shù);TN為真陰性樣本個(gè)數(shù);FP為假陽性樣本個(gè)數(shù);FN為假陰性樣本個(gè)數(shù)。
對7個(gè)產(chǎn)地小米樣本高光譜數(shù)據(jù)作P CA判別,得到7個(gè)產(chǎn)地小米樣本主成分載荷圖見圖2。在圖2(a)中,第一、第二主成分分別占總變異系數(shù)22.40%和11.56%,內(nèi)蒙古、黑龍江兩個(gè)產(chǎn)地樣本點(diǎn)全部分布在第一主成分正半軸,陜西樣本點(diǎn)大多分布在第一主成分正半軸,少量落在負(fù)半軸,內(nèi)蒙古、黑龍江、陜西3個(gè)產(chǎn)地相互重疊且分布集中、聚類明顯,寧夏樣本點(diǎn)少量分布在第一主成分正半軸,多數(shù)分布在負(fù)半軸,其余甘肅、河南、山西3個(gè)產(chǎn)地分布在第一主成分負(fù)半軸;在第一主成分上,內(nèi)蒙古、黑龍江、陜西3個(gè)產(chǎn)地和寧夏、河南、山西、甘肅4個(gè)產(chǎn)地有明顯區(qū)分。寧夏、甘肅兩個(gè)產(chǎn)地樣本點(diǎn)相互重疊全部分布在第二主成分正半軸,河南、山西兩個(gè)產(chǎn)地樣本點(diǎn)相互重疊分布在第二主成分負(fù)半軸,沿第二主成分,寧夏、甘肅與山西、河南有明顯區(qū)分。在圖2(a)中,內(nèi)蒙古、陜西、黑龍江聚類明顯,寧夏、甘肅聚類明顯,山西、河南聚類明顯,三類樣本點(diǎn)可顯著區(qū)分,但每類各產(chǎn)地間重疊嚴(yán)重?zé)o法有效區(qū)分。
在圖2(b)中,第三主成分占總變異系數(shù)8.01%,甘肅樣本點(diǎn)分布在第三主成分正半軸,寧夏樣本點(diǎn)分布在負(fù)半軸,山西樣本點(diǎn)大量分布在第三主成分正半軸,少量分布在負(fù)半軸,河南樣本點(diǎn)大量分布在負(fù)半軸,少量分布在正半軸,對比圖2(a),在第一、二主成分中聚類明顯的甘肅、寧夏兩個(gè)產(chǎn)地在第三主成分上有明顯區(qū)分,樣本點(diǎn)幾乎無重疊;在第一、二主成分中聚類明顯的河南、山西在第三主成分上可區(qū)分,樣本點(diǎn)僅有少量重疊;內(nèi)蒙古、陜西、黑龍江仍無法明顯區(qū)分,但重疊情況有所改善。對7個(gè)產(chǎn)地小米樣本溯源分析發(fā)現(xiàn),高光譜信息具有溯源小米產(chǎn)地的可行性。在上述分析中,不同產(chǎn)區(qū)樣本聚類明顯,可能與相鄰產(chǎn)地間土壤、海拔、氣候及降水量等環(huán)境因素相近有關(guān)。
圖2 小米產(chǎn)地溯源主成分分析載荷圖Fig.2 Principal component analysis load diagram of millet origin traceability
基于7個(gè)產(chǎn)地小米樣本建立PLS-DA鑒別模型,利用高光譜數(shù)據(jù)對不同產(chǎn)地小米作溯源分析,模型判別結(jié)果如表2所示,與主成分分析結(jié)果相同,各產(chǎn)地PLS-DA判別表現(xiàn)依次為:甘肅>山西>寧夏>河南>內(nèi)蒙古>黑龍江>陜西,其中甘肅表現(xiàn)最好,靈敏度為0.993,特異度為1.000,分類誤差為0.003;山西、寧夏、河南靈敏度分別為0.979、0.972、0.944,特異度分別為0.994、0.992、0.964;分類誤差分別為0.013、0.018、0.046;內(nèi)蒙古、黑龍江、陜西表現(xiàn)較差,靈敏度分別為0.958、0.896、0.826,特異度分別為0.894、0.836、0.870,分類誤差分別為0.074、0.134、0.152。在7個(gè)產(chǎn)地小米樣本光譜數(shù)據(jù)溯源分析模型中,各產(chǎn)地溯源模型靈敏度、特異度兩項(xiàng)評價(jià)標(biāo)準(zhǔn)均高于0.80。結(jié)果表明,利用7個(gè)產(chǎn)地小米樣本高光譜數(shù)據(jù)建立的溯源判別模型對小米產(chǎn)地溯源具有可行性,但判別結(jié)果準(zhǔn)確性有待提高。
表2 小米產(chǎn)地溯源PLS-DA模型判別結(jié)果Table 2 Discriminant results of millet origin traceability PLS-DA model
7個(gè)產(chǎn)地小米樣本溯源模型分析結(jié)果見圖3,同一產(chǎn)區(qū)不同產(chǎn)地間存在相互干擾,圖3(a)與表2中數(shù)據(jù)結(jié)果一致,甘肅不受其他產(chǎn)地影響,區(qū)分效果明顯;圖3(b)中對陜西的判別結(jié)果受其他產(chǎn)地影響較大;圖3(c)中對河南的判別結(jié)果主要受山西干擾;圖3(d)和圖3(e)中對黑龍江的判別主要受內(nèi)蒙古、寧夏影響,對內(nèi)蒙古的判別主要受黑龍江、陜西影響,其中黑龍江和內(nèi)蒙古兩個(gè)產(chǎn)地相互干擾最為嚴(yán)重;圖3(f)和圖3(g)中對寧夏、山西的判別幾乎不受其他產(chǎn)地影響,區(qū)分情況較好。
圖3 小米產(chǎn)地溯源PLS-DA判別分析圖Fig.3 PLS-DA discriminant analysis chart of millet origin traceability
在溯源分析中不同產(chǎn)區(qū)(東北、西北、中部)小米樣本存在明顯聚類現(xiàn)象,這一聚類現(xiàn)象可能影響模型溯源準(zhǔn)確度。在不同產(chǎn)地小米樣本PLSDA模型判別分析中發(fā)現(xiàn),同一產(chǎn)區(qū)不同產(chǎn)地小米樣本間相互干擾情況較嚴(yán)重,證實(shí)“聚類現(xiàn)象會影響模型判別準(zhǔn)確度”這一觀點(diǎn),提出同一產(chǎn)區(qū)不同產(chǎn)地小米樣本間相互影響可能是造成模型判別準(zhǔn)確度較低的原因。結(jié)合相關(guān)研究[25-28],發(fā)現(xiàn)PLSDA模型判別樣本范圍越小,變量間相關(guān)性越高,模型性能越好,在基于PLS判別模型中也顯示出相似結(jié)果。
綜上,為提升鑒別模型準(zhǔn)確度,消除不同產(chǎn)地小米樣本間相互干擾,提出基于高光譜成像技術(shù)的小米“產(chǎn)區(qū)-產(chǎn)地”二級溯源策略,如圖4所示?;凇爱a(chǎn)區(qū)-產(chǎn)地”二級溯源策略對本研究多分類模型作拆解和集成,在本研究中拆解依據(jù)是根據(jù)產(chǎn)區(qū)劃分不同產(chǎn)地,基于溯源策略將原本一級溯源模型疊加成二級溯源模型,以減小不同產(chǎn)區(qū)樣本聚類現(xiàn)象,提高分類精度。
圖4 小米產(chǎn)地溯源策略流程Fig.4 Flow chart of millet origin tracing strategy
實(shí)施步驟如下:首先對提取的小米光譜平均反射率預(yù)處理,建立PLS-DA模型對小米產(chǎn)區(qū)溯源,判定小米所屬產(chǎn)區(qū)(東北、西北、中部),基于產(chǎn)區(qū)判定結(jié)果,進(jìn)一步建立PLS-DA模型對小米產(chǎn)地作溯源分析。
基于“產(chǎn)區(qū)-產(chǎn)地”溯源策略對不同產(chǎn)區(qū)小米光譜數(shù)據(jù)作可行性分析,得到主成分得分圖如圖5所示。第一主成分和第二主成分分別占總變異系數(shù)23.62%和11.99%,東北地區(qū)樣本點(diǎn)分布在第一主成分正半軸,西北地區(qū)、中部地區(qū)樣本點(diǎn)分布在第一主成分負(fù)半軸,在第一主成分上,東北地區(qū)與西北地區(qū)、中部地區(qū)有明顯區(qū)分;在第二主成分上,西北地區(qū)樣本點(diǎn)分布在正半軸,中部地區(qū)樣本點(diǎn)分布在負(fù)半軸,西北地區(qū)與中部地區(qū)區(qū)分顯著;對3個(gè)產(chǎn)區(qū)小米樣本作溯源分析發(fā)現(xiàn),高光譜信息具有溯源小米產(chǎn)區(qū)的可行性;且各產(chǎn)區(qū)間區(qū)分顯著。
圖5 小米產(chǎn)區(qū)溯源主成分分析載荷圖Fig.5 Principal component analysis load graph of different origins
在此基礎(chǔ)上,進(jìn)一步建立不同地區(qū)小米樣本PLS-DA判別模型,模型結(jié)果如表3所示。東北地區(qū)、西北地區(qū)、中部地區(qū)靈敏度分別為0.997、1.000、1.000,特異度分別為0.997、0.999、1.000,分類錯誤分別為0.003、0.001、0.000,3個(gè)地區(qū)均取得良好判別結(jié)果,驗(yàn)證溯源策略可行性。
表3 小米產(chǎn)區(qū)溯源PLS-DA模型判別結(jié)果Table 3 Discriminant results of traceability PLS-DA model for millet production areas
基于上述分析結(jié)果,建立小米產(chǎn)地PLS-DA溯源模型,模型結(jié)果如表4所示。7個(gè)省份PLS-DA模型,靈敏度分別為:甘肅1.000、陜西0.958、河南1.000、黑龍江0.917、內(nèi)蒙古0.910、寧夏1.000、山西0.993;特異度分別為:甘肅1.000、陜西0.976、河南0.993、黑龍江0.958、內(nèi)蒙古0.965、寧夏1.000、山西1.000;分類誤差分別為:甘肅0.000、陜西0.033、河南0.003、黑龍江0.063、內(nèi)蒙古0.063、寧夏0.000、山西0.003。對比分析可知,基于小米“產(chǎn)區(qū)-產(chǎn)地”二級溯源策略的小米產(chǎn)地溯源模型準(zhǔn)確度顯著提升。
表4 基于小米產(chǎn)地溯源策略建立的PLS-DA模型判別結(jié)果Table 4 Discriminant results of PLS-DA model based on millet origin traceability strategy
小米產(chǎn)地PLS-DA溯源模型判別分析結(jié)果如圖6所示,前文中明顯聚類的甘肅、寧夏和河南、山西此時(shí)分類效果較好,可顯著區(qū)分;內(nèi)蒙古、陜西、黑龍江聚類情況得到改善,3個(gè)產(chǎn)地間干擾明顯減弱。可見,溯源策略有效提升小米產(chǎn)地溯源模型判別準(zhǔn)確度。
圖6 基于小米產(chǎn)地溯源策略建立的PLS-DA模型判別分析Fig.6 Discriminant analysis of PLS-DA model based on the strategy of millet origin traceability
本文針對我國3個(gè)產(chǎn)區(qū)7個(gè)產(chǎn)地小米樣本,運(yùn)用高光譜成像技術(shù)(400~1 000 nm)和化學(xué)計(jì)量學(xué)方法,開展小米產(chǎn)地溯源研究,提出“產(chǎn)區(qū)-產(chǎn)地”二級溯源策略,建立基于該策略的小米產(chǎn)地溯源模型,通過試驗(yàn)驗(yàn)證,該模型可有效解決不同產(chǎn)區(qū)小米樣本聚類現(xiàn)象和同一產(chǎn)區(qū)不同產(chǎn)地小米樣本互相干擾問題,為小米及其他農(nóng)產(chǎn)品產(chǎn)地溯源和食品安全保障提供新思路和方法。
a.采用主成分分析(PCA)和偏最小二乘判別分析(PLS-DA)分別對預(yù)處理后小米樣本高光譜數(shù)據(jù)作產(chǎn)地溯源可行性分析和模型建立,試驗(yàn)結(jié)果誤差為:甘肅0.003、陜西0.152、河南0.046、黑龍江0.134、內(nèi)蒙古0.074、寧夏0.018、山西0.013。結(jié)果表明,高光譜成像技術(shù)和化學(xué)計(jì)量學(xué)方法應(yīng)用于小米產(chǎn)地溯源具有可行性,但模型對陜西省和黑龍江省小米樣本判別結(jié)果較差,且同一產(chǎn)區(qū)不同產(chǎn)地小米樣本在溯源分析上互相干擾。
b.樣本間互相干擾及聚類現(xiàn)象因相鄰產(chǎn)地間土壤、海拔、氣候及降水量等環(huán)境因素造成,受環(huán)境影響,相鄰產(chǎn)地小米中蛋白質(zhì)、水分、礦物質(zhì)、脂肪及其他營養(yǎng)物質(zhì)含量同樣具有相似性。結(jié)合相關(guān)研究發(fā)現(xiàn),PLS-DA模型判別樣本范圍越小,變量間相關(guān)性越高,模型性能越好,在基于PLS判別模型中也顯示出相似結(jié)果。針對上述問題,提出小米“產(chǎn)區(qū)-產(chǎn)地”二級溯源策略,利用同一產(chǎn)區(qū)小米樣本的高光譜數(shù)據(jù)對小米樣本進(jìn)行兩次溯源判別,達(dá)到縮小樣本范圍,提高變量相關(guān)性目的。
c.構(gòu)建基于“產(chǎn)區(qū)-產(chǎn)地”二級溯源策略的小米產(chǎn)地判別模型,通過試驗(yàn)驗(yàn)證,結(jié)果誤差為:甘肅0.000、陜西0.033、河南0.003、黑龍江0.063、內(nèi)蒙古0.063、寧夏0.000、山西0.003,對比初始試驗(yàn)結(jié)果,基于“產(chǎn)區(qū)-產(chǎn)地”二級溯源策略的小米產(chǎn)地判別模型準(zhǔn)確率顯著提升,表明該策略和基于該策略的模型具有較強(qiáng)可操作性,有效解決樣本間互相干擾問題和聚類現(xiàn)象,為小米產(chǎn)地溯源及農(nóng)產(chǎn)品安全提供技術(shù)支持。