羅 微,杜焱喆,章海亮
華東交通大學(xué),江西 南昌 330013
PCA和SPA的近紅外光譜識(shí)別白菜種子品種研究
羅 微,杜焱喆*,章海亮
華東交通大學(xué),江西 南昌 330013
為了實(shí)現(xiàn)對(duì)不同品種白菜種子的快速無損鑒別,應(yīng)用近紅外光譜技術(shù)獲取白菜種子的光譜反射率,首先采用變量標(biāo)準(zhǔn)化校正和多元散射校正對(duì)原始光譜進(jìn)行預(yù)處理;其次,采用主成分分析法(PCA)對(duì)光譜數(shù)據(jù)進(jìn)行聚類分析,從定性分析的角度得到三種不同白菜種子的特征差異,并采用連續(xù)投影算法(SPA)選取特征波長;最后,分別基于全波段光譜、PCA分析得到的前3個(gè)主成分變量以及SPA算法選取的特征波長,建立了最小二乘支持向量機(jī)(LS-SVM)和偏最小二乘判別(PLS-DA)模型進(jìn)行白菜種子不同品種的鑒別。從主成分PC1、PC2得分圖中可以看出,主成分1和2對(duì)不同種類白菜種子具有很好的聚類作用?;谔卣鞑ㄩL建立的PLS-DA和LS-SVM模型的判別結(jié)果優(yōu)于基于主成分變量建立的模型,其中基于特征波長建立的LS-SVM模型識(shí)別效果最優(yōu),建模集和預(yù)測集的品種識(shí)別率均達(dá)到100%。結(jié)果表明,通過SPA算法選取的6個(gè)特征波長變量能夠很好的反映光譜信息,提出的SPA算法結(jié)合LS-SVM預(yù)測模型能獲得滿意的分類結(jié)果,為白菜種子品種的識(shí)別提供了一種新方法。
近紅外光譜;主成分分析;連續(xù)投影算法;偏最小二乘鑒別;最小二乘支持向量機(jī)
我國國土面積大,不同地區(qū)適合種植不同品種的白菜,因此市場上白菜種子品種多,質(zhì)量也良莠不齊,目前主要依靠人工鑒別品種,但難以確保正確分辨,故需要研究一種簡單、實(shí)用、可靠的鑒別方法能夠替代人工識(shí)別白菜種子。近紅外光譜檢測技術(shù)作為一種無損、快速、低成本和綠色無污染的檢測及分析方法,可以對(duì)物質(zhì)的品種、成分、質(zhì)量等進(jìn)行定性和定量分析,近些年在農(nóng)產(chǎn)品質(zhì)量檢測中得到了廣泛應(yīng)用。如水蜜桃[1]、紅酒[2]、蘋果[3]、西瓜[4]、咖啡豆[5]、茶葉[6]、稻谷[7-8]、玉米[9]等,但應(yīng)用近紅外光譜技術(shù)檢測白菜種子品種的研究相對(duì)較少。本文首先對(duì)采集的原始光譜數(shù)據(jù)進(jìn)行預(yù)處理;其次采用主成分分析法(PCA)對(duì)光譜數(shù)據(jù)進(jìn)行聚類分析,從定性分析的角度得到三種不同白菜種子的特征差異,并用連續(xù)投影算法(SPA)挑選特征波長;最后分別以全波段光譜變量、PCA分析得到的前三個(gè)主成分變量及SPA算法選取的特征波長變量作為建模輸入,結(jié)合偏最小二乘鑒別(PLS-DA)和最小二乘支持向量機(jī)(LS-SVM)模型進(jìn)行白菜種子不同品種的鑒別。
1.1 儀器
試驗(yàn)使用美國ASD公司的近紅外光譜儀,其波長范圍為325~1 075 nm,光譜采集探頭視場角為20°,掃描次數(shù)為30次,采樣間隔為1 nm,光源為14.5 V鹵素?zé)?,光源入射角度?5°。光譜數(shù)據(jù)分析軟件為Unscramble V9.7和Matlab 2012。
1.2 樣本采集及樣本統(tǒng)計(jì)
試驗(yàn)所用白菜種子均來自江西某種子交易市場,包括鑫豐70、青麻葉和山東五號(hào)3個(gè)白菜種子品種。用同樣的標(biāo)準(zhǔn)從每個(gè)品種中挑選出30個(gè)樣品,共計(jì)90個(gè)樣本。全部樣本按照2∶1的比例隨機(jī)分成兩個(gè)集合,即建模集與預(yù)測集。其中建模集有60個(gè)樣本(每個(gè)類別各20個(gè)),預(yù)測集有30個(gè)樣本(每個(gè)類別各10個(gè))。待設(shè)備穩(wěn)定工作且經(jīng)過校準(zhǔn)后,將樣本置于光譜儀采集視角范圍內(nèi),測定白菜種子的透射光譜,表1為樣本統(tǒng)計(jì)結(jié)果。
表1 樣本的建模集和預(yù)測集統(tǒng)計(jì)
1.3 光譜預(yù)處理
為了挖掘光譜數(shù)據(jù)中的有效信息,提高信噪比,更好的利用光譜數(shù)據(jù)進(jìn)行建模分析,需要采取適當(dāng)?shù)墓庾V預(yù)處理方法來去除光譜信號(hào)中存在的高頻隨機(jī)噪聲、譜線平移、光散射等干擾的影響。常見的預(yù)處理方法有: 中值濾波平滑法(moving average smoothing)、變量標(biāo)準(zhǔn)化校正(SNV)、多元散射校正(MSC)、一階(1st Der)和二階導(dǎo)數(shù)(2nd Der)等。我們分別采用中值濾波平滑法、SNV、MSC等三種預(yù)處理方法進(jìn)行試驗(yàn)。
1.4 建模方法與模型評(píng)價(jià)
1.4.1 偏最小二乘判別
偏最小二乘PLS算法是通過建立光譜數(shù)據(jù)與品種分類值之間的多元統(tǒng)計(jì)回歸模型,進(jìn)行分析。除了線性回歸分析,PLS在建模過程中集合了包括主成分分析、典型相關(guān)分析等方法的功能特點(diǎn),因此在分析結(jié)果中,不僅可以建立更優(yōu)化的回歸模型,還可以同時(shí)進(jìn)行主成分分析以簡化數(shù)據(jù)結(jié)構(gòu),觀察變量間的相互關(guān)系等研究內(nèi)容,提供更多的建模信息。PLS方法將光譜數(shù)據(jù)與變量進(jìn)行多元線性回歸,而偏最小二乘判別(PLS-DA)方法是基于PLS回歸的一種判別分析方法,基于預(yù)測的分類值,選擇相應(yīng)的閾值進(jìn)行歸類[10]。具體判別標(biāo)準(zhǔn)為: 計(jì)算驗(yàn)證集的分類值(Yp),①當(dāng)|Yp-樣品預(yù)設(shè)值|≥0.1,判定樣本不屬于該類;②當(dāng)|Yp-樣品預(yù)設(shè)值|<0.1,判定樣本屬于該類。
1.4.2 最小二乘支持向量機(jī)
LS-SVM是經(jīng)典支持向量機(jī)(SVM)的一種改進(jìn)算法,具有很強(qiáng)的非線性處理能力,避免了復(fù)雜的計(jì)算,同時(shí)也是一種快速的多元建模方法,被廣泛應(yīng)用于非線性時(shí)間序列的預(yù)測中[11]。LS-SVM將求解復(fù)雜的二次優(yōu)化問題轉(zhuǎn)化為求解線性方程組來獲得支持向量,克服了在少量的訓(xùn)練樣本中訓(xùn)練時(shí)間長、訓(xùn)練結(jié)果存在隨機(jī)性等不足。LS-SVM首先通過一非線性映射函數(shù)將樣本的輸入變量映射到高維特征空間。然后構(gòu)造優(yōu)化函數(shù),將優(yōu)化問題轉(zhuǎn)換為等式約束條件??梢岳美窭嗜粘俗訉?duì)最優(yōu)化問題進(jìn)行求解,對(duì)各個(gè)變量求偏微分。LS-SVM的算法描述如下:
設(shè)訓(xùn)練集樣本為D={(xk,yk)|k=1,2,…,N},xk∈Rn,yk∈{-1,1},其中x為輸入向量為,y為目標(biāo)值。
在權(quán)w空間中可以轉(zhuǎn)化為求解如下函數(shù)
(4)
約束條件為yk=wTφ(x)+b+ek,k=1,…,N,其中權(quán)向量w∈Rn,φ(x)為Rn→Rnh的核空間映射函數(shù),b是偏差量,誤差變量ek∈R,γ是可調(diào)超參數(shù)。
通過拉格朗日乘子對(duì)此最優(yōu)化問題進(jìn)行求解,可得
L(w,b,e,α)=J(w,e)-
(5)
其中αk(k=1,2,…,N)是拉格朗日乘子。根據(jù)優(yōu)化條件
(6)
可得
核函數(shù)Ωkl=φ(xk)Tφ(xl)=K(xk,xl),k,l=1,…,N是滿足Mercer條件的對(duì)稱函數(shù)。
采用RBF(radialbasisfunction)核函數(shù)可得
K(x,xk)=exp(-‖x-xk‖2/σ2)
(8)
最后得到LS-SVM擬合模型
1.4.3 模型評(píng)價(jià)
采用決定系數(shù)、建模集交互驗(yàn)證的均方根誤差、預(yù)測集樣本預(yù)測的均方根誤差和識(shí)別正確率等指標(biāo)評(píng)價(jià)模型的預(yù)測效果。識(shí)別正確率和決定系數(shù)越大,均方根誤差越小,模型的性能就越好。
2.1 白菜種子樣本的光譜特征曲線
圖1為不同品種白菜種子的近紅外光譜曲線,其中以波長為橫坐標(biāo),范圍是325~1 075 nm,光譜漫反射率為縱坐標(biāo)。如圖1所示,不同品種白菜種子的光譜曲線具有相似的變化趨勢(shì),難以從光譜特征中區(qū)分不同樣本之間曲線的差異,因此需要采取化學(xué)計(jì)量學(xué)的建模方法,建立光譜與不同品種白菜種子之間的定性模型。由于光譜曲線在首尾波段處含有較多噪聲,取400~1 000 nm波長范圍共計(jì)601個(gè)變量為研究對(duì)象。
圖1 不同品種白菜種子的近紅外原始光譜
表2 不同預(yù)處理方法的PLS建模預(yù)測結(jié)果
2.2 PCA聚類分析
主成分分析(PCA)方法是一種經(jīng)典的降維方法,它可以用較少的變量去解析原始變量中的大部分信息,且所含信息互不重復(fù),從而把多個(gè)變量轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo)即主成分。通過PCA分析可以將復(fù)雜因素歸結(jié)為幾個(gè)主成分,并對(duì)未知樣品進(jìn)行歸類。應(yīng)用matlab軟件,用PCA對(duì)原始光譜進(jìn)行聚類分析,表3為前三個(gè)主成分對(duì)光譜變量的累計(jì)解析百分比即累計(jì)可信度。從表3可以看出,僅主成分PC1的可信度就為97%,前兩個(gè)主成分PC1和PC2的累計(jì)可信度已達(dá)98%,說明采用前兩個(gè)主成分PC1和PC2就能較好的解析原始光譜的主要信息。
表3 前三個(gè)主成分的累計(jì)可信度
選取通過PCA分析得到的前兩個(gè)主成分對(duì)90個(gè)白菜種子樣本進(jìn)行歸類。圖2為PC1和PC2的得分圖,其中橫坐標(biāo)為每個(gè)樣本的PC1得分值,縱坐標(biāo)為PC2得分值。從圖2中可以明顯看出,樣本被分成三類。品種為山東五號(hào)的30個(gè)白菜種子樣本均分布在Y軸的右方即第一、四象限且聚合度較好;品種為青麻葉的30個(gè)白菜種子樣本分布也較為集中,主要分布在第二、四象限;相比前兩個(gè)品種,品種為鑫豐70的白菜種子樣本聚合度最優(yōu),集中分布在第三象限內(nèi),除了有1個(gè)樣本在第二象限,而另外兩個(gè)品種都平均分布在兩個(gè)象限內(nèi)。以上結(jié)果表明,主成分PC1和PC2對(duì)三種白菜種子有較好的聚類作用,從定性分析的角度得到三種不同白菜種子的特征差異。
圖2 90個(gè)白菜樣本的PC1和PC2得分圖
圖3 基于前5個(gè)PC變量的PLS建模RMSE分布圖
選取的波段從400~1 000 nm共有601個(gè)波長點(diǎn),若采用全光譜波段建模,信息量大、變量太多,且有些樣品的光譜信息很弱,與樣品的性質(zhì)沒有明顯的相關(guān)性,對(duì)品種的鑒別貢獻(xiàn)小。因而在PCA分析基礎(chǔ)上,選擇對(duì)白菜種子有較好聚類作用的少數(shù)變量作為輸入建立品種預(yù)測模型。圖3是采用PCA分析后取前5個(gè)主成分變量進(jìn)行PLS建模得到的RMSE分布圖,橫坐標(biāo)表示前5個(gè)主成分變量,縱坐標(biāo)表示選擇不同的主成分變量個(gè)數(shù)時(shí)RMSE的變化值。從圖中可以看出取前3個(gè)主成分變量建模時(shí),誤差已經(jīng)達(dá)到最小,隨著變量個(gè)數(shù)的增加,誤差并未增大。取基于PCA分析得到的前3個(gè)主成分變量作為后續(xù)預(yù)測模型的輸入。
2.3 連續(xù)投影算法
連續(xù)投影算法(SPA)作為一種重要的特征波長變量提取方法,能夠有效剔除變量之間的共線性,最大程度避免信息的重復(fù),使得變量之間的信息冗余度最低[12]。該算法可以把最重要的少數(shù)幾個(gè)波長點(diǎn)選出來概括大多數(shù)樣品的光譜信息,因而能夠降低模型的復(fù)雜度并減少計(jì)算量,提高模型的速度和效率。應(yīng)用matlab軟件運(yùn)行相關(guān)程序,運(yùn)行結(jié)果如圖所示。圖4表示RMSE值隨變量數(shù)增加的變化,實(shí)心圓點(diǎn)表示挑選出的波長數(shù)??梢钥闯霎?dāng)選取3個(gè)波長點(diǎn)時(shí),均方根誤差值有一個(gè)快速下降的過程,選取6個(gè)波長點(diǎn)建模時(shí),均方根誤差達(dá)到最小的穩(wěn)定值,之后隨著變量數(shù)的增加,誤差也未增大。挑選的6個(gè)特征波長點(diǎn)在整個(gè)光譜波長范圍內(nèi)的分布如圖5所示,這6個(gè)波長點(diǎn)均勻地分布在可見和近紅外光譜范圍內(nèi),說明對(duì)于樣本的分類不能僅僅考慮某個(gè)范圍的波長。采用SPA提取到的6個(gè)特征波長分別為925, 668, 577, 885, 992和888 nm。
圖4 RMSE值隨SPA選擇變量數(shù)增加的變化圖
圖5 SPA選擇的6個(gè)特征波長分布圖
2.4 基于PCA和SPA建立品種預(yù)測模型
基于PCA聚類分析得到的PC1,PC2,PC3和SPA算法選取的6個(gè)特征波長作為輸入變量,依次采用PLS-DA和LS-SVM算法建立不同預(yù)測模型,其分類結(jié)果見表4。表4中,對(duì)比相同輸入變量的建模結(jié)果,可以看出LS-SVM模型的預(yù)測結(jié)果要明顯優(yōu)于PLS-DA模型。其中,采用LS-SVM模型分別對(duì)預(yù)處理后的全波段光譜、前3個(gè)主成分變量及6個(gè)特征波長變量建模的建模集和預(yù)測集的分類正確率均高達(dá)100%。而PLS-DA模型對(duì)預(yù)處理后的全波段光譜建模,預(yù)測集的分類正確率為93.3%;基于SPA提取的特征變量建立的PLS-DA模型,其預(yù)測集的分類正確率為90%;基于PCA分析獲取的前三個(gè)主成分特征變量建立的PLS-DA模型預(yù)測效果最差,預(yù)測集的分類正確率僅為66.7%。主要原因在于LS-SVM模型是一種非線性建模方法,一般來說,相對(duì)于PLS這樣的線性模型,采用非線性模型建模更為復(fù)雜,模型建立過程中考慮到了非線性影響因素,如白菜種子水分、顏色深淺和顆粒大小等,從而提高了模型的預(yù)測效果。此外,采用PLS-DA模型用于品種鑒別時(shí),閾值設(shè)為0.1,若增大閾值,則PLS-DA的建模集和預(yù)測集的正確率會(huì)提高,將該模型應(yīng)用于白菜種子品種鑒別也具有一定的可行性。
表4 PLS-DA和LS-SVM模型分類預(yù)測結(jié)果
表4中,對(duì)比不同輸入變量的建模結(jié)果,可以看出參與建模的輸入變量個(gè)數(shù)越多,預(yù)測效果越好。比如采用預(yù)處理后的全波段光譜數(shù)據(jù),共601個(gè)波長點(diǎn)作為輸入變量建模時(shí),預(yù)測集的正確率最高,Raw-PLS-DA為93.3%,Raw-LS-SVM為100%。采用SPA算法選取的6個(gè)特征波長作為輸入變量建模時(shí),預(yù)測集的正確率也均達(dá)到90%,SPA-PLS-DA為90%,SPA-PLS-DA為100%。采用PCA分析得到的前三個(gè)PC值作為輸入變量時(shí),預(yù)測集的正確率最低,PCA-PLS-DA為66.7%,PCA-LS-SVM為100%。采用全波段光譜建模時(shí),變量多,包含信息量大,結(jié)果更為準(zhǔn)確。但建模時(shí)運(yùn)算更為復(fù)雜,效率低,包含的冗余信息也較多。而采用PCA分析法得到的變量個(gè)數(shù)較少,不能充分代表原始光譜的全部信息,但效率最高。采用SPA算法挑選出的有效波長能充分代表原始光譜的有效信息,預(yù)測效果較好,可以作為波長提取的一種有效手段,提高模型運(yùn)算速度。結(jié)果表明,采用SPA算法選取有效特征波長并結(jié)合LS-SVM模型對(duì)白菜種子品種進(jìn)行分類是可行的,并且獲得了滿意的準(zhǔn)確度。
采用近紅外光譜技術(shù)實(shí)現(xiàn)白菜種子的品種識(shí)別,分別利用變量標(biāo)準(zhǔn)化校正(SNV)和多元散射校正(MSC)對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理,能很好消除光散射以及樣品光譜中基線漂移的影響。采用PCA分析法對(duì)光譜數(shù)據(jù)進(jìn)行聚類分析,從定性分析的角度得到3種不同白菜種子的特征差異,從主成分PC1和PC2得分圖中可以看出,主成分1和2對(duì)不同種類白菜種子具有很好的聚類作用,提取基于PCA分析得到的前3個(gè)主成分變量。采用SPA算法對(duì)預(yù)處理后的光譜提取出6個(gè)特征波長,分別基于全波段光譜變量、PCA分析得到的前3個(gè)主成分變量以及SPA算法選取的特征波長變量,建立PLS-DA和LS-SVM預(yù)測模型。結(jié)果顯示,基于特征波長建立的PLS-DA和LS-SVM模型的判別結(jié)果優(yōu)于基于主成分變量建立的模型,其中基于特征波長建立的LS-SVM模型識(shí)別效果最優(yōu),建模集和預(yù)測集的品種識(shí)別率均達(dá)到100%。相比PCA分析法,通過SPA選取的6個(gè)特征波長變量更能夠反映光譜信息。試驗(yàn)結(jié)果表明,應(yīng)用近紅外光譜技術(shù)可以快速而又準(zhǔn)確的鑒別白菜種子品種。本文提出的SPA算法結(jié)合LS-SVM預(yù)測模型能獲得滿意的分類結(jié)果,為白菜種子品種的識(shí)別提供了有效的方法和依據(jù)。
[1] Monti L L, Bustamante C A, Osorio S, et al. Food Chemistry, 2016, 190: 879.
[2] Heras-Roger J, Díaz-Romero C, Darias-Martín J. Food Chemistry, 2016, 196: 1224.
[3] Jakobek L, Barron A R. Journal of Food Composition and Analysis, 2016, 45: 9.
[4] ZHANG Chu,LIU Fei,KONG Wen-wen, et al(張 初,劉 飛,孔汶汶, 等). Transactions of the Chinese Society of Agricultural Engineering(農(nóng)業(yè)工程學(xué)報(bào)), 2013,(20): 270.
[5] BAO Yi-dan,CHEN Na,HE Yong, et al(鮑一丹,陳 納,何 勇, 等). Optics and Precision Engineering(光學(xué)精密工程), 2015, (2): 349.
[6] Cai J, Wang Y, Xi X, et al. International Journal of Biological Macromolecules, 2015, 78: 439.
[7] LIU Wei,LIU Chang-hong,ZHENG Lei(劉 偉,劉長虹,鄭 磊). Transactions of the Chinese Society of Agricultural Engineering(農(nóng)業(yè)工程學(xué)報(bào)), 2014,(10): 145.
[8] Miskelly D M, Wrigley C W. Identification of Varieties of Food Grains: Elsevier, 2016.
[9] YANG Hang,ZHANG Li-fu,TONG Qing-xi(楊 杭,張立福,童慶禧). Infrared and Laser Engineering(紅外與激光工程), 2013,(9): 2437.
[10] Mazivila S J, de Santana F B, Mitsutake H, et al. Fuel, 2015, 142: 222.
[11] Cheng J, Sun D. LWT-Food Science and Technology, 2015, 63(2): 892.
[12] FANG Xiao-rong,ZHANG Hai-liang,HUANG Ling-xia, et al(方孝榮,章海亮,黃凌霞, 等). Spectroscopy and Spectral Analysis(光譜學(xué)與光譜分析), 2015,35(5): 1248.
(Received Feb. 3, 2016; accepted Jun. 12, 2016)
*Corresponding author
Discrimination of Varieties of Cabbage with Near Infrared Spectra Based on Principal Component Analysis and Successive Projections Algorithm
LUO Wei,DU Yan-zhe*,ZHANG Hai-liang
East China Jiaotong University, Nanchang 330013, China
The varieties of cabbage seeds directly affect the yield and quality of cabbage, in order to rapidly and nondestructively identify the varieties of cabbage seeds, near infrared spectra technique were applied in this study and reflectance spectrum of the cabbage seeds was obtained. Firstly, to excavate the effective information in the spectral data and improve signal to noise ratio, the raw spectra was pre-processed with the method of standard normal variate (SNV) and multiplicative scatter correction (MSC). Secondly, principal component analysis (PCA) was used to analyze the clustering of cabbage samples, then the characteristic differentia of three cabbage varieties was obtained through qualitative analysis. Six Effective wavelengths were selected by successive projections algorithm (SPA). Finally, the full spectra variable, the first three principal components (PCs) using PCA and selected effective wavelengths using SPA were respectively set as inputs of the partial least squares discriminant analysis (PLS-DA) and least-squares support vector machine (LS-SVM) models for the classification of cabbage seeds. As can be seen from the two dimensional plot drawn with the scores of PC1 and PC2 (the first two principle components), PC1 and PC2 had a good clustering effect for different kinds of cabbage seeds. LS-SVM models performed better than PLS-DA models, the correct rates of discrimination were 100% achieved with LS-SVM models. PLS-DA and LS-SVM models built based on the selected wavelengths performed better than the models built based on the first three principal components, moreover, the SPA-LS-SVM model obtained the best results among all models, with 100% discrimination accuracy for both the calibration set and the prediction set. The overall results show that SPA can extract wavelengths, and the LS-SVM model combined with SPA can obtain optimal classification results. So the present paper could offer an alternate approach for the rapid discrimination of cabbage seeds variety.
Near infrared spectral;Principal component analysis (PCA);Successive projections algorithm (SPA);Partial least squares discriminant analysis (PLS-DA);Least-squares support vector machine (LS-SVM)
2016-02-03,
2016-06-12
國家自然科學(xué)基金項(xiàng)目(61565005)資助
羅 微,女,1988年生,華東交通大學(xué)助教 e-mail: 15270030556@163.com *通訊聯(lián)系人 e-mail: dyz@ecjtu.edu.cn
TP731
A
10.3964/j.issn.1000-0593(2016)11-3536-06