桂江生,顧敏,吳子嫻,包曉安
(浙江理工大學信息學院,杭州310018)
西蘭花(Brassica oleracea L.var.italic Planch.)又名青花菜,不僅所含營養(yǎng)成分十分全面,還具有顯著的防癌抗癌功效,是人們?nèi)粘V饕秤玫氖卟酥籟1]。西蘭花是浙江省的特色蔬菜,不僅滿足國內(nèi)的消費需求,還出口日本、韓國及遠銷其他國際市場,所以西蘭花的質(zhì)量安全問題不但影響國內(nèi)消費者的身體健康與安全,還關系著我國的國際市場形象。由于西蘭花在生長過程中,容易發(fā)生猝倒病、立枯病等,而且會受菜青蟲、小菜蛾的危害,因此農(nóng)藥的使用不可避免。資料表明,我國農(nóng)藥殘留超標是西蘭花出口受阻的主要原因[2],因此對西蘭花的農(nóng)殘檢測具有十分重要的意義。
目前,西蘭花農(nóng)藥殘留檢測方法均為傳統(tǒng)有損檢測,如氣相色譜法、高效液相色譜法、免疫分析法,等等[3-4]。這些傳統(tǒng)方法雖然檢測精度高,但是檢測耗時長,且依賴大量的化學試劑,浪費大,有污染,不利于推廣。高光譜技術是近年來應用到農(nóng)畜產(chǎn)品檢測的新技術,具有無污染、無損壞、自動化、快速高效等優(yōu)點[5],被廣泛應用于農(nóng)產(chǎn)品的農(nóng)藥殘留檢測。如:JAMSHIDI等[6]利用高光譜技術實現(xiàn)了黃瓜中農(nóng)藥殘留的快速檢測;SHAO等[7]利用高光譜成像技術和拉曼光譜技術實現(xiàn)了對小球藻中農(nóng)藥殘留種類的檢測;孫俊等[8]利用高光譜圖像技術結合自適應-支持向量機(Ada-SVM)算法檢測了桑葉中農(nóng)藥殘留的有無,檢測精度高達97.78%;胡榮明等[9]利用高光譜中特征參數(shù)反演了韭菜中毒死蜱的殘留量。上述研究都證明高光譜技術應用于農(nóng)藥殘留檢測是可行的,但這些研究對象均為表面光滑的植物葉片,而尚未涉及像西蘭花這類表面呈球狀且凹凸不平的蔬菜。
農(nóng)藥殘留精準檢測的前提是有無農(nóng)藥殘留及農(nóng)藥殘留的種類。本文以不含農(nóng)藥的西蘭花和含有3種農(nóng)藥(阿維菌素、丙森鋅、吡蟲啉)的西蘭花作為研究對象,利用高光譜圖像技術結合模式識別方法建立西蘭花中不同農(nóng)藥殘留種類檢測模型來檢測西蘭花中不同農(nóng)藥種類,旨在探索高光譜圖像技術在西蘭花表面農(nóng)藥殘留檢測中的應用,為西蘭花農(nóng)藥殘留檢測提供一種新的快速、高效的無損檢測方法。
在西蘭花生長過程中,常用的防治病蟲害的農(nóng)藥有阿維菌素、丙森鋅、蟲螨腈、吡蟲啉等[10]。本實驗使用阿維菌素(含有效成分2%,由濟南金地農(nóng)藥有限公司生產(chǎn))、吡蟲啉(含有效成分10%,由杭州泰豐化工有限公司生產(chǎn))、丙森鋅(含有效成分70%,由拜耳作物科學有限公司生產(chǎn))3種農(nóng)藥作為農(nóng)藥殘留檢測對象。實驗所用的西蘭花樣本來自浙江省杭州市余杭區(qū)喬司農(nóng)場西蘭花種植地,品種為日本炎秀;選取180顆長勢和形態(tài)近似的成熟、無病害西蘭花,平均分成4組進行農(nóng)藥噴灑。由于傍晚氣溫低,農(nóng)藥不會揮發(fā)且容易被植物吸收,實驗于17:00進行,對第一組西蘭花按推薦劑量(4 000倍稀釋液)均勻噴灑吡蟲啉農(nóng)藥;第二組西蘭花按推薦劑量(2 500倍稀釋液)均勻噴灑阿維菌素農(nóng)藥;第三組西蘭花按推薦劑量(500倍稀釋液)均勻噴灑丙森鋅農(nóng)藥;第四組西蘭花均勻噴灑清水。每顆西蘭花噴灑100 mL,每組噴灑4.5 L,24 h后(每組樣本的農(nóng)藥均被吸收但還未被分解,且肉眼觀測不出差別),每組采摘西蘭花各45顆,裝入保鮮袋密封保存并編號,隨后立即送往實驗室進行高光譜圖像采集。
高光譜圖像采集實驗使用的是四川雙利合譜科技有限公司的Image-λ-V10E-PS高光譜成像儀系統(tǒng)。成像光譜儀型號為Imperx IPX-2M30,光譜范圍為383.70~1 032.70 nm,光譜分辨率為2.73 nm,光源為標準汞燈。使用SpecView軟件采集高光譜圖像數(shù)據(jù)。為避免環(huán)境中雜散光帶來的影響,整個采集過程在暗箱中進行。高光譜圖像采集參數(shù)設定如下:曝光時間15 ms,平移臺移動速度1.15 cm/s,4個汞燈與平移臺的夾角為45°。按組依次對所有的西蘭花樣本進行高光譜采集,同時將白板放置在與西蘭花相同距離的位置上進行白板數(shù)據(jù)采集,然后關閉光源,蓋上鏡頭蓋進行暗背景數(shù)據(jù)采集。黑白校正公式為:
式中:R是校正后的數(shù)據(jù),S是原始樣本數(shù)據(jù),W是白板數(shù)據(jù),D是暗背景數(shù)據(jù)。
1.3.1 分段多元散射校正
由于西蘭花表面呈半球形且表面花苞呈顆粒狀,因此在采集高光譜圖像時會產(chǎn)生光的散射現(xiàn)象,而分段多元散射校正(piecewise multiplicative scatter correction,PMSC)的主要作用正是消除顆粒造成的非線性光散射影響[11]。該算法假設在寬度為j=(w1+w2+1)的移動窗口波長范圍內(nèi),光譜xi與平均光譜x存在線性關系,對每一移動窗口分別按式(2)進行一元線性回歸,用最小二乘法依次求出每段移動窗口的截距aik和斜率bik。
由式(3)得到校正后的光譜xPMSC。
1.3.2 降維算法
高光譜的數(shù)據(jù)量大,是高光譜圖像處理最主要的問題。雖然取樣品感興趣區(qū)域的平均光譜可以顯著減少數(shù)據(jù)量,但是全波段光譜數(shù)據(jù)之間線性相關性大,信息冗余會影響分類模型的性能。主成分分析算法(principal component analysis algorithm,PCA)[12]是一種非監(jiān)督的特征提取算法,主要思想是將多個變量進行線性變換后轉換成另一組不相關的變量,將多波段圖像信息壓縮到少數(shù)更有效的幾個轉換波段。連續(xù)投影算法(successive projection algorithm,SPA)[13]是一種特征變量前向循環(huán)選擇算法,在所有光譜中循環(huán)投影尋找含有最低限度的冗余信息的變量組,提高模型的速度和效率,被廣泛應用于光譜特征波長的選擇上。
1.3.3 分類算法
馬氏距離(Mahalanobis distance,MD)是線性判別法中常用方法之一[14]。計算輸入樣本和測試樣本之間的馬氏距離,得到的距離越小則匹配效果越好。
最小二乘支持向量機(least square support vector machine,LSSVM)是支持向量機的一種類型[15]。該算法使用最小二乘線性系統(tǒng)代替二次規(guī)劃方法,對所采集的樣本通過非線性映射函數(shù)在高維特征空間建立最優(yōu)分類面,從而實現(xiàn)樣本的線性可分。與SVM相比,LSSVM把原方法的不等式約束變?yōu)榈仁郊s束,從而大大方便了Lagrange乘子的求解,使得求解速度得到極大提高。
人工神經(jīng)網(wǎng)絡(artificial neural networks,ANN)是用許多處理單元模擬人類的神經(jīng)網(wǎng)絡來進行預測,由輸入層、一個或多個隱含層及輸出層組成復雜的處理單元(人工“神經(jīng)元”)構成。該算法具有智能化、高容錯性、并行分布的處理和自學習能力等優(yōu)點,被廣泛應用于處理人腦和現(xiàn)代計算機較難處理的復雜數(shù)據(jù)中[16]。
極限學習機(extreme learning machine,ELM)是由HUANG等[17]提出的一種特殊的單隱層前饋神經(jīng)網(wǎng)絡算法,相比于傳統(tǒng)人工神經(jīng)網(wǎng)絡和SVM算法,具有運算速度快、泛化能力強、不過擬合的優(yōu)點。
實驗統(tǒng)一選取樣本中心60像素×60像素的正方形區(qū)域作為感興趣區(qū)域(region of interest,ROI)。計算該正方形感興趣區(qū)域內(nèi)所有像素點的光譜平均值得到的原始光譜數(shù)據(jù)如圖1所示。從中可以看出,在數(shù)據(jù)開頭和結尾部分噪聲較大,因此剔除數(shù)據(jù)前后各20個波段的光譜數(shù)據(jù),以提高整體數(shù)據(jù)信噪比。實驗得到180顆西蘭花樣本從431.84~981.71 nm之間共216個波段的光譜數(shù)據(jù),然后用PMSC算法消除西蘭花表面顆粒感造成的光散射和基線漂移數(shù)據(jù)。4種樣本(各45條光譜)的平均光譜曲線如圖2所示。從中可以看出,有、無農(nóng)藥殘留的西蘭花光譜曲線差異明顯,因此可利用西蘭花的高光譜信息識別其表面有無農(nóng)藥殘留。同時,含農(nóng)藥殘留種類不同的西蘭花的光譜曲線也不同,由此可以識別出西蘭花表面所含農(nóng)藥殘留的種類。
通過主成分分析算法對預處理后的原始光譜數(shù)據(jù)進行特征提取,得到主成分圖像(圖3)和各個主成分的累積貢獻率(表1)。從前5個主成分圖像中可以看出,第一主成分圖像最清晰,而圖像清晰度隨著成分數(shù)的增加而降低。
圖1 西蘭花樣本圖和感興趣區(qū)域(ROI)光譜提取示意圖Fig.1 Schematic diagram of broccoli sample’s region of interest(ROI)selection and spectral extraction
圖2 不含農(nóng)藥殘留及含不同種類農(nóng)藥殘留的西蘭花平均光譜圖Fig.2 Average reflectance spectra of broccoli samples with different types of pesticide residues or without pesticide residues
從表1中可以看出,當主成分數(shù)達到9時,累計貢獻率已經(jīng)達到99.05%。為了達到降低數(shù)據(jù)冗余性的同時最大程度保留數(shù)據(jù)信息的目的,選取主成分數(shù)為10,此時累計貢獻率達到99.10%。
使用連續(xù)投影算法(SPA)對預處理后的光譜數(shù)據(jù)特征波長進行選擇,設定特征波長最大個數(shù)為20。根據(jù)均方根誤差盡可能小且波長個數(shù)盡可能少的原則,得到的特征波長個數(shù)為8(圖4),此時均方根誤差為0.85 275,光譜特征波長分別為458.51、500.02、522.13、551.77、614.04、720.32、769.08、818.26 nm。
圖3 前5個主成分圖像Fig.3 The first five principal component images of broccoli samples
表1 不同主成分的累計貢獻率Table 1 Cumulative contribution rates using different numbers of principal components %
圖4 連續(xù)投影算法(SPA)提取的特征波長Fig.4 Characteristic wavelengths extracted by SPA
從預處理后的每類樣品中隨機抽取30個(共計120個)數(shù)據(jù)作為訓練集,余下的每類15個(共計60個)數(shù)據(jù)作為測試集。對431.84~981.71 nm之間進行PMSC處理后的原始光譜作為輸入變量,分別驗證MD、ANN、LSSVM和ELM這4種分類方法的鑒別效果,結果如表2所示。其中最小二乘支持向量機算法(LSSVM)分別采用線性核函數(shù)和徑向基核函數(shù),該模型中的懲罰因子c和核函數(shù)參數(shù)gamma均為默認參數(shù)。在人工神經(jīng)網(wǎng)絡算法(ANN)中,活化函數(shù)為Logistic,訓練貢獻閾值設為0.94,隱含層數(shù)為1,權重調(diào)節(jié)速度為0.2,訓練迭代次數(shù)1 000,允許誤差為0.06。極限學習機(ELM)模型隱含層節(jié)點數(shù)為31。
從表2中可以看出,4種基于全光譜的分類方法都能有效分類識別,其中識別效果最好的模型是人工神經(jīng)網(wǎng)絡算法建模,訓練集和測試集正確率分別為99.17%和98.33%。使用ELM算法建模效果僅次于人工神經(jīng)網(wǎng)絡算法建模,訓練集和測試集正確率分別為97.50%和95.83%。而使用徑向基核函數(shù)的LSSVM算法建模的正確率均高于使用線性核函數(shù)模型的正確率。
表2 基于全波段數(shù)據(jù)不同分類器建模結果Table 2 Results of different classification models using fullspectra %
同樣地,將選取的前10個主成分特征光譜和8個特征波長分別作為輸入變量,構建分類模型。分類結果如表3所示。其中最小二乘支持向量機算法、人工神經(jīng)網(wǎng)絡和極限學習機算法的參數(shù)設置同2.3。從中可以看出,基于SPA特征波長的分類模型的正確率整體都高于基于主成分特征光譜的分類模型,說明試驗中采用連續(xù)投影算法進行數(shù)據(jù)降維的效果優(yōu)于主成分分析算法。與2.3中的分類結果相比,基于SPA特征波長的建模中,馬氏距離、最小二乘支持向量機和人工神經(jīng)網(wǎng)絡模型正確率略有下降但是精度仍然較好,訓練集的正確率均超過80%;而基于SPA特征波長下的極限學習機模型的判別正確率有所提高,且高于其他3類分類器的正確率,訓練集和測試集的正確率均高達96%以上。
表3 基于主成分特征光譜和SPA特征波長的不同分類器建模結果Table 3 Results of different classification models using principal component characteristic spectra and characteristic wavelengths selected by SPA %
利用高光譜圖像技術采集4組西蘭花樣本圖像,利用圖像信息選取感興趣區(qū)域的平均光譜后,針對西蘭花表面凹凸不平的特點采用分段多元散射校正算法進行預處理,有效地消除了顆粒造成的非線性光散射影響,然后基于全光譜信息分別采用馬氏距離算法、最小二乘支持向量機算法、人工神經(jīng)網(wǎng)絡和極限學習機算法進行分類建模。其中人工神經(jīng)網(wǎng)絡分類算法效果最優(yōu),訓練集和測試集正確率分別為99.17%和98.33%。為剔除大量高光譜冗余數(shù)據(jù),提高模型的識別速度,采用主成分分析算法選取前10個主成分和連續(xù)投影算法選擇8個特征值波長進行特征提取,分別建立了基于特征信息的判別模型。在實驗分類器中,SPA-ELM模型的識別效果均優(yōu)于其他3類分類器,訓練集和測試集的正確率分別為98.33%、96.67%。綜上表明,利用高光譜圖像技術結合人工神經(jīng)網(wǎng)絡算法實現(xiàn)西蘭花表面有、無農(nóng)藥殘留及殘留農(nóng)藥種類檢測是完全可行的,為西蘭花表面農(nóng)藥殘留快速無損檢測提供了一種新的方法。
參考文獻(References):
[1] XU L,CAO J,CHEN W.Structural characterization of a broccoli polysaccharide and evaluation of anti-cancer cell proliferation effects.Carbohydrate Polymers,2015,126:179-184.
[2] 孫彩霞,戚亞梅,楊桂玲,等.西蘭花出口的技術性貿(mào)易措施分析.農(nóng)產(chǎn)品質(zhì)量與安全,2013(1):55-57.SUN C X,QI Y M,YANG G L,et al.Analysis on technical trade measures of broccoli export.Quality and Safety of Agro-products,2013(1):55-57.(in Chinese)
[3] FARINA Y,ABDULLAH M P,BIBI N,et al.Determination of pesticide residues in leafy vegetables at parts per billion levels by a chemometric study using GC-ECD in Cameron Highlands.Food Chemistry,2017,224:55-61.
[4] ZHANG F,HUANG Z,ZHANG Y,et al.Determination of 20 carbamate pesticide residues in food by high performance liquid chromatography-tandem mass spectrometry.Chinese Journal of Chromatography,2010,28(4):348-355.
[5] CHO B K,KIM M S,BAEK I S,et al.Detection of cuticle defects on cherry tomatoes using hyperspectral fluorescence imagery.Postharvest Biology&Technology,2013,76:40-49.
[6]JAMSHIDI B,MOHAJERANI E,JAMSHIDI J.Developing a Vis/NIR spectroscopic system for fast and non-destructive pesticide residue monitoring in agricultural product.Measurement,2016,89:1-6.
[7] SHAO Y N,LI Y,JIANG L J,et al.Identification of pesticide varieties by detecting characteristics of Chlorella pyrenoidosa using visible/near infrared hyperspectral imaging and Raman microspectroscopy technology.Water Research,2016,104:432-440.
[8] 孫俊,張梅霞,毛罕平,等.基于高光譜圖像的桑葉農(nóng)藥殘留種類鑒別研究.農(nóng)業(yè)機械學報,2015,46(6):251-256.SUN J,ZHANG M X,MAO H P,et al.Identification of pesticide residues in mulberry leaves based on hyperspectral imaging.Transactions of the Chinese Society of Agricultural Machinery,2015,46(6):251-256.(in Chinese with English Abstract)
[9] 胡榮明,郭江波,黃遠程,等.韭菜中毒死蜱殘留量與高光譜特征參數(shù)的相關性建模.農(nóng)藥學學報,2015,17(5):563-570.HU R M,GUO J B,HUANG Y C,et al.Sensitivity model for chlorpyrifos residues in Chinese chive and hyper-spectral absorption parameters.Chinese Journal of Pesticide Science,2015,17(5):563-570.(in Chinese with English Abstract)
[10]EDELSON J V,MAGARO J J,BROWNING H.Control of insect pests on broccoli in southern Texas:A comparison between synthetic organic insecticidesand biorational treatments.Journal of Entomological Science,1993,28(2):191-196.
[11]BURGER J,GELADI P.Spectral pre-treatments of hyperspectral near infrared images:Analysis of diffuse reflectance scattering.Journal of Near Infrared Spectroscopy,2007,15(1):29-37.
[12]HUANG L,ZHAO J,CHEN Q,et al.Rapid detection of total viable count(TVC)in pork meat by hyperspectral imaging.Food Research International,2013,54(1):821-828.
[13]GAO J F,LI X L,ZHU F L,et al.Application of hyperspectral imaging technology to discriminate different geographical origins of Jatropha curcas L.seeds.Computers&Electronics in Agriculture,2013,99(6):186-193.
[14]MAESSCHALCK R D,JOUAN-RIMBAUD D,MASSART D L.The Mahalanobis distance.Chemometrics&Intelligent Laboratory Systems,2000,50(1):1-18.
[15]SUYKENS J A K,GESTEL T V,BRABANTER J D,et al.Least square support vector machine.Euphytica,2002,2(2):1599-1604.
[16]SUN M J,ZHANG D,LIU L,et al.How to predict the sugariness and hardness of melons:A near-infrared hyperspectral imaging method.Food Chemistry,2016,218:413.
[17]HUANG G B,ZHU Q Y,SIEW C K.Extreme learning machine:Theory and applications.Neurocomputing,2006,70(1/2/3):489-501.