李 濤, 鐘玉琴, 曲明亮
(四川大學(xué) 華西藥學(xué)院,四川 成都610041)
紅景天為紅景天屬(Rhodiola)植物,其藥用歷史悠久,種類繁多,臨床應(yīng)用廣泛,為藥食同源之品.紅景天在全球有90余種,我國(guó)紅景天屬植物資源豐富,有73種2亞種7變種,占全世界紅景天資源的85%左右,主要分布于我國(guó)西南和西北地區(qū)[1].紅景天主要以根和根莖入藥,主要活性成分為紅景天苷、酪醇、沒(méi)食子酸等,具有抗氧化、抗疲勞和抗缺氧等作用[2-4].但是,由于紅景天藥材的需求不斷增加,紅景天野生植物資源逐漸減少以及其植物來(lái)源的復(fù)雜性,市場(chǎng)上紅景天藥材的假冒偽劣產(chǎn)品層出不窮.其中,大花紅景天和狹葉紅景天雖為同屬植物,但是臨床應(yīng)用有明顯差異,大花紅景天有益氣活血、通脈平喘的功效[5],而狹葉紅景天有清熱解毒、消腫的作用[6].而且,現(xiàn)代研究表明,大花紅景天和狹葉紅景天雖然具有相似的化學(xué)成分,如紅景天苷、酪醇、沒(méi)食子酸、咖啡酸、對(duì)香豆酸等,但在化學(xué)成分含量上存在較大的差異[7].因此,迫切需要建立一種能夠快速、有效鑒別大花紅景天和狹葉紅景天的方法.
高光譜成像技術(shù)(hyperspectral imaging technology)是近年來(lái)發(fā)展迅速的一種結(jié)合了成像和光譜技術(shù)的無(wú)損檢測(cè)新技術(shù).在高光譜圖像中,可以同時(shí)提取目標(biāo)樣本的光譜信息和圖像信息[8].高光譜成像技術(shù)具有光譜分辨率高、信息量更全面、成本低廉、操作簡(jiǎn)單、準(zhǔn)確度高等一系列優(yōu)點(diǎn),因此被廣泛地應(yīng)用于植物的品質(zhì)檢測(cè)[9-11]和品種鑒別[12-14].本文基于高光譜成像技術(shù)結(jié)合PLS-DA與神經(jīng)網(wǎng)絡(luò)模式識(shí)別方法,利用高光譜成像技術(shù)提取大花紅景天和狹葉紅景天的反射光譜信息,經(jīng)過(guò)光譜預(yù)處理后分別采用載荷系數(shù)法(X-loading weights,X-LW)、連續(xù)投影算法(successive projections algorithm,SPA)和競(jìng)爭(zhēng)自適應(yīng)重加權(quán)算法(competitive adaptive reweight sampling method,CARS)方法對(duì)高光譜數(shù)據(jù)進(jìn)行降維,建立基于全波長(zhǎng)和特征波長(zhǎng)的大花紅景天和狹葉紅景天的偏最小二乘判別分析(partial least squares discriminant analysis,PLS-DA)、概率神經(jīng)網(wǎng)絡(luò)(probabilistic neural network,PNN)和廣義回歸神經(jīng)網(wǎng)絡(luò)(generalized regression neural network,GRNN)模式識(shí)別模型,實(shí)現(xiàn)對(duì)大花紅景天和狹葉紅景天的無(wú)損、快速和準(zhǔn)確的分類與鑒別,以保障紅景天臨床用藥的安全、有效,并為紅景天藥材的質(zhì)量控制、品種鑒別和臨床應(yīng)用奠定基礎(chǔ).
1.1 儀器與材料高光譜成像系統(tǒng)包括SisuCHEMA-FX17高光譜成像光譜儀(芬蘭SPECIM公司)、光鹵素?zé)?、CCD相機(jī)、移動(dòng)平臺(tái)、控制箱和計(jì)算機(jī)等.光譜范圍為935~1 720 nm,光譜分辨率為2.8 nm.
2018—2019 年的7—8月在四川省阿壩藏族羌族自治州和甘孜藏族自治州采集不同批次的大花紅景天和狹葉紅景天的藥材鮮品(表1),經(jīng)四川大學(xué)華西藥學(xué)院李濤鑒定為景天科紅景天屬植物大花紅景天Rhodiola crenulata(Hook.f.et Thoms.)H.Ohba和狹葉紅景天Rhodiola kirilowii(Regel)Maxim.將大花紅景天和狹葉紅景天的新鮮根和根莖藥材清洗干凈,經(jīng)干燥、粉碎和過(guò)80目篩后,再干燥至恒重,備用.
表1 大花紅景天和狹葉紅景天的樣品來(lái)源Tab.1 Sample sources of Rhodiola crenulata and Rhodiola kirilowii
1.2 方法
1.2.1 紅景天高光譜圖像的采集與黑白校正 在完全不透明的黑色箱體中進(jìn)行紅景天高光譜圖像采集.為了得到清晰的高光譜圖像,在圖像采集前先設(shè)定初始值,經(jīng)過(guò)反復(fù)的調(diào)試后,最終確定相機(jī)的曝光時(shí)間、物鏡到樣品的距離和移動(dòng)平臺(tái)的速度分別為5 ms、20 cm、45 fps.由于受到各波段下光強(qiáng)度不均勻和傳感器暗電流的影響,獲得的紅景天高光譜圖像的噪聲往往較大,因此,采集反射率接近100%的白色校正板的高光譜圖像為白色參考圖像,然后蓋上鏡頭蓋采集黑色參考圖像,計(jì)算得到黑白校正的圖像.
1.2.2 感興趣區(qū)域(ROI)的選取 采用ENVI 2.0軟件中的感興趣區(qū)域(ROI)提取工具,在10批大花紅景天和10批狹葉紅景天粉末樣本的高光譜圖像的中央?yún)^(qū)域分別取大小相近的4個(gè)矩形作為實(shí)驗(yàn)樣本的感興趣區(qū)域,共得到80個(gè)感興趣區(qū)域,然后求每個(gè)感興趣區(qū)域內(nèi)所有像素點(diǎn)的平均光譜作為實(shí)驗(yàn)樣本的光譜反射光譜數(shù)據(jù),最后得到一個(gè)80×224的數(shù)據(jù)矩陣(80為紅景天高光譜樣本數(shù),224為波段數(shù))用于數(shù)據(jù)分析.
1.2.3 光譜的預(yù)處理 多元散射校正(multiple scattering correction,MSC)是一種由Martens等[15]提出的的光譜預(yù)處理方法,它不僅可以消除由樣品顆粒度、不均勻性帶來(lái)的散射和噪聲,還可以校正漫反射光譜的基線漂移.多元散射校正的過(guò)程分別為:1)計(jì)算需要校正光譜的平均光譜;2)對(duì)每個(gè)樣本的平均光譜做線性回歸;3)計(jì)算校正光譜.
1.2.4 特征波長(zhǎng)的提取 基于大花紅景天和狹葉紅景天的全光譜進(jìn)行建模識(shí)別分析,由于數(shù)據(jù)之間存在共線性和冗余性,將會(huì)增加計(jì)算量和識(shí)別模型的復(fù)雜度,影響建模識(shí)別分析效果.本實(shí)驗(yàn)分別采用載荷系數(shù)法(X-LW)、連續(xù)投影算法(SPA)、競(jìng)爭(zhēng)自適應(yīng)加權(quán)法(CARS)提取紅景天高光譜特征波長(zhǎng),并采用特征光譜代替全光譜進(jìn)行建模識(shí)別分析,使識(shí)別模型的計(jì)算量和復(fù)雜性降低,從而提高識(shí)別模型的預(yù)測(cè)能力.
采用載荷系數(shù)法(X-LW)提取特征波長(zhǎng)前首先對(duì)高光譜數(shù)據(jù)進(jìn)行PLS分析,得到每個(gè)隱含變量對(duì)應(yīng)的各波長(zhǎng)的載荷系數(shù)值,波長(zhǎng)對(duì)應(yīng)的載荷系數(shù)絕對(duì)值越大,代表該波長(zhǎng)對(duì)識(shí)別模型預(yù)測(cè)效果的影響力越大.因此,可以將某一隱含變量下波長(zhǎng)對(duì)應(yīng)的載荷系數(shù)的絕對(duì)值作為依據(jù)進(jìn)行特征波長(zhǎng)的選取[16].本文選擇每一個(gè)隱含變量下具有最大載荷系數(shù)絕對(duì)值的波長(zhǎng)組成特征提取的變量集.連續(xù)投影算法(SPA)是一種通過(guò)簡(jiǎn)單的投影操作使向量空間的共線性最小的前向變量選擇算法[17].該方法能從大量的光譜變量中選擇含有最低限度冗余信息的變量組,因而,能最大程度的避免光譜信息重疊性的問(wèn)題,目前已經(jīng)廣泛的應(yīng)用于光譜特征變量的選擇[18].競(jìng)爭(zhēng)自適應(yīng)重加權(quán)算法(CARS)是一種由李洪東[19]提出的,以適者生存為原則的有效特征波長(zhǎng)選擇方法.它的原理是以PLS模型回歸系數(shù)的絕對(duì)值作為評(píng)價(jià)波長(zhǎng)的指標(biāo),采用自適應(yīng)再加權(quán)采樣(ARS)技術(shù)篩選回歸系數(shù)絕對(duì)值大的波長(zhǎng),以最小的交叉驗(yàn)證均方根誤差(RMSECV)獲取最優(yōu)的變量子集.
1.2.5 化學(xué)計(jì)量學(xué)方法 為了從不同的分類方法中選出最優(yōu)的判別模型,本實(shí)驗(yàn)主要應(yīng)用了3種分類判別模型,分別是偏最小二乘分析(PLS-DA)、概率神經(jīng)網(wǎng)絡(luò)(PNN)、廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN).
偏最小二乘判別分析(PLS-DA)是一種由PLSR發(fā)展而來(lái)的多變量統(tǒng)計(jì)方法,在光譜數(shù)據(jù)的判別和分類中有廣泛的應(yīng)用[4].PLS-DA作為一種有監(jiān)督的分類方法,它可以根據(jù)PLSR建立Y(類別變量)與X(光譜特征變量)的回歸模型,通過(guò)預(yù)測(cè)值的大小來(lái)實(shí)現(xiàn)樣本的分類識(shí)別.在本實(shí)驗(yàn)中,定義Y變量為紅景天的類別賦值,X變量為光譜的特征變量,采用完全交叉驗(yàn)證建立PLS-DA模型.通過(guò)相關(guān)系數(shù)(R2)、均方根誤差(RMSE)參數(shù)來(lái)評(píng)價(jià)PLS-DA模型在訓(xùn)練集中的性能,并基于此模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè).概率神經(jīng)網(wǎng)絡(luò)(PNN)是一種以Parzen窗口函數(shù)為激活函數(shù)的特殊的徑向基神經(jīng)網(wǎng)絡(luò)[20],它根據(jù)概率密度的無(wú)參數(shù)估計(jì)來(lái)實(shí)行貝葉斯決策從而得到分類結(jié)果.這種基于統(tǒng)計(jì)原理的神經(jīng)網(wǎng)絡(luò)不需要訓(xùn)練樣本的連接權(quán)值,而是根據(jù)模式樣本的分布來(lái)確定網(wǎng)絡(luò)的權(quán)值,因而,PNN具有收斂速度快和分類能力強(qiáng)的特點(diǎn),被廣泛的應(yīng)用于模式識(shí)別[21].廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)是徑向基神經(jīng)網(wǎng)絡(luò)的一個(gè)分支[22],它不僅能夠以任意的精度逼近任意的非線性連續(xù)函數(shù),而且具有收斂速度快、所需訓(xùn)樣本少、網(wǎng)絡(luò)可調(diào)參數(shù)少和能夠進(jìn)行全局逼近等優(yōu)點(diǎn).在PNN、GRNN中徑向基函數(shù)的分布密度值(spread)的選取是非常重要的,spread取值會(huì)直接影響到判別模型的分類精度[23].當(dāng)spread過(guò)大時(shí),函數(shù)擬合越平滑,導(dǎo)致擬合誤差較大;過(guò)小時(shí),網(wǎng)絡(luò)性能較差,會(huì)出現(xiàn)過(guò)適應(yīng)的現(xiàn)象.因此,對(duì)于每個(gè)判別模型需要選擇合適的spread值.
2.1 大花紅景天和長(zhǎng)鞭紅景天的原始光譜特征和光譜的預(yù)處理分別計(jì)算大花紅景天和狹葉紅景天的近紅外平均光譜數(shù)據(jù),其平均光譜曲線如圖1(a)所示.由圖1(a)可知,2種紅景天的平均光譜曲線的波峰、波谷的位置具有一致性,但是具體的反射率值有所不同.對(duì)波段進(jìn)行MSC光譜預(yù)處理后的平均反射光譜圖如圖1(b)所示.對(duì)比圖1(a)和圖1(b)發(fā)現(xiàn),采用MSC方法進(jìn)行光譜預(yù)處理后的曲線不僅在變化趨勢(shì)上與原始光譜保持了很好的一致性,還增強(qiáng)了光譜的吸收特性,減少了曲線的離散性.
圖1 大花紅景天和狹葉紅景天原始平均光譜(a)和MSC預(yù)處理后的光譜曲線(b)Fig.1 Original average spectrum curves of Rhodiola crenulata and Rhodiola kirilowii before(a)and after(b)MSC pretreatment
2.2 特征波長(zhǎng)的提取
2.2.1 采用載荷系數(shù)法(X-LW)提取特征波長(zhǎng)將經(jīng)過(guò)MSC預(yù)處理后的大花紅景天和狹葉紅景天的的反射高光譜數(shù)據(jù)作為PLS模型的X變量,類別賦值作為Y變量建立PLS-DA模型.建立的PLS-DA模型中,校準(zhǔn)集和驗(yàn)證集中X、Y的解釋方差隨著LVs(隱含變量)個(gè)數(shù)的增加如圖2所示,由圖2可知,前10個(gè)LVs值對(duì)驗(yàn)證集的變量X(圖2(a))、Y(圖2(b))解釋方差分別達(dá)到了99.83%和91.70%,可以解釋90%以上的樣本信息,因此,確定LVs的個(gè)數(shù)為10.而每個(gè)波長(zhǎng)對(duì)模型分類預(yù)測(cè)重要性可以根據(jù)載荷系數(shù)絕對(duì)值的大小來(lái)判斷.因此,本文選擇每個(gè)LV值對(duì)應(yīng)的載荷系數(shù)圖中載荷系數(shù)絕對(duì)值最大的波長(zhǎng)作為特征波長(zhǎng),基于X-LW提取的特征波長(zhǎng)數(shù)為9個(gè),如圖3所示.
圖2 隱含變量對(duì)X變量和Y變量的解釋方差貢獻(xiàn)Fig.2 Explanatory variance contributions of LVs to X and Y variables
圖3 載荷系數(shù)法(X-LW)選擇的特征波長(zhǎng)分布Fig.3 Distribution of optimal wavelengths selected by X-LW
2.2.2 采用連續(xù)投影算法(SPA)提取特征波長(zhǎng)本研究中設(shè)定最大提取波長(zhǎng)數(shù)為40,運(yùn)行SPA算法,根據(jù)預(yù)測(cè)均方根誤差(RMSE)最小的原則確定提取特征變量的個(gè)數(shù)為20個(gè).圖4(a)是RMSE隨選取的有效波長(zhǎng)的變化情況,從圖4(a)中可以看出,當(dāng)提取的有效波長(zhǎng)數(shù)增加到20個(gè)時(shí),RMSE值達(dá)到最小為0.124 6,因此,采用SPA算法提取了20個(gè)特征波長(zhǎng).與全波段相比,基于SPA算法提取的特征波長(zhǎng)只占全波段變量數(shù)的8.9%(圖4(b)).
圖4 SPA算法中RMSE值隨最佳波長(zhǎng)數(shù)的變化和特征波長(zhǎng)的分布Fig.4 Variation of RMSE with the number of optimal wavelengths and the distribution of optimal wavelengths selected by SPA
2.2.3 采用競(jìng)爭(zhēng)自適應(yīng)重加權(quán)算法(CARS)提取特征波長(zhǎng) 在應(yīng)用CARS算法進(jìn)行特征波長(zhǎng)選擇時(shí),設(shè)置用于交叉驗(yàn)證的最大潛在變量(LVs)數(shù)為30,蒙特卡羅采樣次數(shù)為100.采用10折交叉驗(yàn)證計(jì)算PLS模型的交叉驗(yàn)證均方根誤差(RMSECV),并根據(jù)RMCECV最小的原則選出的最優(yōu)變量的組合.CARS方法進(jìn)行特征波長(zhǎng)選擇的過(guò)程如圖5所示,圖5a為變量數(shù)隨采樣次數(shù)的變化圖,總體來(lái)說(shuō)隨著采樣次數(shù)的增加,變量數(shù)減小,但是變量數(shù)在前期銳減,后期變得明顯緩慢,說(shuō)明變量的選擇是一個(gè)前期粗選、后期精選的過(guò)程.在圖5b中,當(dāng)采樣次數(shù)為17時(shí),PLS模型的RMSECV達(dá)到最小為0.089,這表明采樣次數(shù)在1~17過(guò)程中在剔除無(wú)關(guān)的變量,而之后RMSECV增加,說(shuō)明剔除了重要的光譜信息.圖5c是變量選擇過(guò)程中各波長(zhǎng)變量相關(guān)系數(shù)的變化趨勢(shì),每一條線代表一個(gè)變量隨著采樣次數(shù)變化的回歸系數(shù)路徑,最長(zhǎng)的豎線對(duì)應(yīng)了圖5b中采樣次數(shù)為17時(shí)RMSECV的最小值.CARS算法選擇的33個(gè)特征波長(zhǎng),如圖6所示.
圖5 CARS算法中特征波長(zhǎng)的提取過(guò)程Fig.5 Process of CARS wavelength extraction
圖6 CARS算法選擇的特征波長(zhǎng)分布Fig.6 Distribution of optimal wavelengths selected by CARS
綜上所述,X-LW、SPA和CARS三種波長(zhǎng)選擇方法分別提取了9、20、33個(gè)特征波長(zhǎng),選擇的特征波長(zhǎng)如表2所示.
表2 X-LW、SPA和CARS法提取的特征波長(zhǎng)Tab.2 The optimal wavelengths selected by X-LW,SPA,and CARS
2.3 建立紅景天的分類判別模型在建立紅景天分類識(shí)別模型前,首先將所有的大花紅景天和狹葉紅景天樣本進(jìn)行類別賦值,并采用Sample set partitioning based on jointx-ydistances法(SPXY)將經(jīng)過(guò)預(yù)處理的紅景天樣本數(shù)據(jù)按照3∶1的比例劃分為訓(xùn)練集和測(cè)試集,訓(xùn)練集和測(cè)試集分別包含60個(gè)紅景天樣本和20個(gè)紅景天樣本.在建立PLS-DA模型時(shí),將0.5作為紅景天類別判定的閾值,即類別賦值與預(yù)測(cè)值之差的絕對(duì)值小于0.5則判別分類正確,否則錯(cuò)誤.神經(jīng)網(wǎng)絡(luò)同樣采用0.5作為樣本分類的閾值.例如,大花紅景天的類別賦值向量為[0,1],如果預(yù)測(cè)類別向量[y1,y2]中y2值大于0.5,y1小于0.5,說(shuō)明該樣本的分類是正確的.樣本的賦值和劃分結(jié)果,如表3所示.
表3 大花紅景天和狹葉紅景天賦值和訓(xùn)練集、測(cè)試集劃分Tab.3 Class assignment and division of training sets and testing sets of Rhodiola crenulata and Rhodiola kirilowii
2.3.1 基于全波長(zhǎng)和特征波長(zhǎng)的偏最小二乘分析(PLS-DA)判別模型 分別基于全波長(zhǎng)、X-LW、SPA、CARS方法選擇的特征波長(zhǎng),以訓(xùn)練集為輸入建立PLS-DA判別模型.LVs的個(gè)數(shù)是影響PLS-DA性能的關(guān)鍵因素,它是通過(guò)完全交叉驗(yàn)證確定的.由于訓(xùn)練集被劃分為校準(zhǔn)集和驗(yàn)證集,因此,根據(jù)校準(zhǔn)集相關(guān)系數(shù)()、驗(yàn)證集相關(guān)系數(shù)()值最大,校準(zhǔn)均方根誤差(RMCEC)、驗(yàn)證均方根誤差(RMCEV)最小的原則確定LVs的個(gè)數(shù).基于全波長(zhǎng)和特征波長(zhǎng)建立的PLS-DA判別模型的LVs、、、RMSEC和RMSEP值見(jiàn)表4.比較4種判別模型的、RMSEC和RMSEP,可以看出,全波長(zhǎng)-PLS-DA判別模型(=0.98、=0.91,RMSEC=0.06,RMSEP=0.15)和CARS-PLS-DA判別模型(=0.96=0.94,RMSEC=0.09,RMSEP=0.12)的校正性能和預(yù)測(cè)性能明顯優(yōu)于SPA-PLS-DA判別模型=0.92=0.80,RMSEC=0.14,RMSEP=0.23),在3個(gè)判別模型中X-LW-PLS-DA的性能最差(=0.79、=0.74,RMSEC=0.23,RMSEP=0.26).
表4 PLS-DA判別模型校準(zhǔn)集和驗(yàn)證集的指標(biāo)值Tab.4 Indices value of the calibration and the validation in PLS-DA model
在PLS-DA判別模型預(yù)測(cè)結(jié)果中,全波長(zhǎng)-PLSDA、SPA-PLS-DA、CARS-PLS-DA判別模型均實(shí)現(xiàn)了所有訓(xùn)練集和測(cè)試集樣本的正確分類,而X-LWPLS-DA判別模型錯(cuò)誤分類了一個(gè)測(cè)試集樣本,即1個(gè)樣本的閾值大于0.5.因此,SPA和CARS選擇的特征波長(zhǎng)可以代替全波長(zhǎng)建立PLS-DA模型進(jìn)行紅景天的分類判別.
2.3.2 基于全波長(zhǎng)和特征波長(zhǎng)的概率神經(jīng)網(wǎng)絡(luò)(PNN)判別模型 基于全波長(zhǎng)和特征波長(zhǎng)建立PNN分類判別模型,在PNN中唯一需要調(diào)整的參數(shù)就是徑向基函數(shù)的分布密度,因此,本文以步長(zhǎng)0.01,在0.01到0.1區(qū)間內(nèi)采用循環(huán)遍歷法選擇不同的徑向基函數(shù)進(jìn)行試驗(yàn),分別計(jì)算訓(xùn)練集和測(cè)試集的預(yù)測(cè)值和真實(shí)值的均方誤差(MSE),根據(jù)MSE最小的原則選擇最優(yōu)的分布密度值,其尋優(yōu)結(jié)果見(jiàn)表5.比較4種判別模型訓(xùn)練集和測(cè)試集的MSE值,可以看出,F(xiàn)ULL-PNN和CARS-PNN判別模型對(duì)訓(xùn)練集和測(cè)試集的預(yù)測(cè),它們的MSE值均為0,明顯優(yōu)于其他2個(gè)模型.而SPA-PNN判別模型雖然對(duì)測(cè)試集預(yù)測(cè)的MSE值與X-LW-PNN相同,但是對(duì)訓(xùn)練集的預(yù)測(cè)略優(yōu)于X-LW-PNN模型.因此,CARS特征波長(zhǎng)提取方法可以代替全波長(zhǎng)建立PNN模型進(jìn)行紅景天的分類判別.
表5 基于全波長(zhǎng)和特征波長(zhǎng)的PNN判別模型參數(shù)優(yōu)化Tab.5 Parameter optimization of PNN model based on full wavelengths and optimal wavelengths
2.3.3 基于全波長(zhǎng)和特征波長(zhǎng)的廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)判別模型 廣義回歸神經(jīng)網(wǎng)絡(luò)中徑向基函數(shù)的分布密度值也是影響模型分類精度的重要參數(shù),因此,同樣采用循環(huán)遍歷法在0.01~0.1區(qū)間內(nèi)選擇不同的spread值進(jìn)行試驗(yàn),計(jì)算均方誤差(MSE)值見(jiàn)表6,可知X-LW-PNN、SPA-PNN、CARSPNN這3種判別模型均在spread值為0.01時(shí),訓(xùn)練集和測(cè)試集預(yù)測(cè)值和真實(shí)值的MSE最小,而全波長(zhǎng)-GRNN在spread值為0.04時(shí)MSE值最小.除此之外,基于全波長(zhǎng)和特征波長(zhǎng)建立的GRNN模型預(yù)測(cè)性能均劣于校正性能,且3種模型的校準(zhǔn)性能和預(yù)測(cè)性能的排序如下:CARS-GRNN>全波長(zhǎng)-GRNN>SPA-GRNN>X-LW-GRNN.
表6 基于全波長(zhǎng)和特征波長(zhǎng)的GRNN判別模型參數(shù)優(yōu)化Tab.6 Parameter optimization of GRNN model based on full wavelengths and optimal wavelengths
2.3.4 PLS-DA、PNN和GRNN判別模型比較分析 將0.5作為紅景天類別判定的閾值,并分別計(jì)算基于全波長(zhǎng)、X-LW、SPA和CARS方法提取的特征波長(zhǎng)建立的PLS-DA、PNN和GRNN識(shí)別模型對(duì)訓(xùn)練集和測(cè)試集的分類準(zhǔn)確率,總結(jié)見(jiàn)表7.
表7 基于全波長(zhǎng)和特征波長(zhǎng)的PLS-DA、PNN和GRNN模型分類的正確率Tab.7 Classification accuracy of PLS-DA,PNN,and GRNN based on full wavelengths and optimal wavelengths
由表7可知,首先,基于全波長(zhǎng)和X-LW、SPA和CARS方法提取的特征波長(zhǎng),建立的PLS-DA、PNN和GRNN識(shí)別模型對(duì)大花紅景天和狹葉紅景天的識(shí)別率均大于或等于90%,說(shuō)明可以采用高光譜成像技術(shù)結(jié)合化學(xué)計(jì)量學(xué)對(duì)2種紅景天進(jìn)行品種鑒別.其次,基于全波長(zhǎng)和CARS算法提取特征波長(zhǎng)的PLS-DA、PNN和GRNN識(shí)別模型均能夠?qū)崿F(xiàn)2種紅景天所有訓(xùn)練集和測(cè)試集樣本的正確分類,分類識(shí)別準(zhǔn)確率達(dá)到100%,而其他2種波長(zhǎng)提取方法建立的模型對(duì)訓(xùn)練集和測(cè)試集的分類識(shí)別準(zhǔn)確率均有一定的下降,且基于SPA提取的特征波長(zhǎng)建立的3種識(shí)別模型的分類識(shí)別準(zhǔn)確率均略優(yōu)于X-LW,因此,3種波長(zhǎng)提取方法的分類識(shí)別準(zhǔn)確率為CARS算法>SPA算法>X-LW.為了減少計(jì)算量和精簡(jiǎn)識(shí)別模型,可以采用CARS算法提取的特征波長(zhǎng)代替全波長(zhǎng)建立判別模型對(duì)紅景天進(jìn)行準(zhǔn)確的分類與鑒別.
本文基于高光譜成像技術(shù)結(jié)合PLS-DA與神經(jīng)網(wǎng)絡(luò)模式識(shí)別方法,建立了大花紅景天和狹葉紅景天的無(wú)損、快速和準(zhǔn)確的分類與鑒別方法.采用波長(zhǎng)范圍為935~1 720 nm的高光譜成像系統(tǒng)進(jìn)行大花紅景天和狹葉紅景天的反射光譜采樣,在經(jīng)過(guò)MSC方法進(jìn)行光譜預(yù)處理后,分別運(yùn)用X-LW、SPA和CARS方法提取特征波長(zhǎng)簡(jiǎn)化識(shí)別模型,分析比較基于全波長(zhǎng)和特征波長(zhǎng)建立的PLS-DA、PNN和GRNN識(shí)別模型對(duì)大花紅景天和狹葉紅景天分類性能的影響.研究結(jié)果表明,CARS算法優(yōu)于SPA算法和X-LW方法,且基于全波長(zhǎng)和CARS提取的特征波長(zhǎng)分別建立的PLS-DA、PNN和GRNN識(shí)別模型能達(dá)到最優(yōu)的判別效果,6種模型對(duì)所有紅景天樣本的訓(xùn)練集和測(cè)試集的分類的正確率均達(dá)到100%.因此,建立的基于高光譜成像技術(shù)結(jié)合PLSDA與神經(jīng)網(wǎng)絡(luò)模式識(shí)別分析方法,能夠?qū)崿F(xiàn)大花紅景天和狹葉紅景天的無(wú)損、快速和準(zhǔn)確的分類與鑒別,為紅景天藥材的質(zhì)量控制、品種鑒別和臨床應(yīng)用奠定基礎(chǔ).