仇遜超 張春越 張怡卓 曹軍
摘要: 為研究檢測(cè)紅松籽仁蛋白質(zhì)含量的近紅外光譜分析技術(shù),在用變量標(biāo)準(zhǔn)化校正+一階導(dǎo)數(shù)+小波變換對(duì)原始光譜進(jìn)行預(yù)處理的基礎(chǔ)上,分別運(yùn)用主成分分析、改進(jìn)型局部線性嵌入、局部切空間對(duì)齊、黑塞特征映射進(jìn)行光譜數(shù)據(jù)的降維處理,分別構(gòu)建偏最小二乘、嶺回歸、支持向量回歸、極度梯度提升數(shù)學(xué)模型。結(jié)果表明,改進(jìn)型局部線性嵌入+支持向量回歸法建立的參數(shù)優(yōu)化模型質(zhì)量最佳。其降維方法優(yōu)化參數(shù)為:維度取4,鄰域數(shù)取50;驗(yàn)證集均方差均值為0.568 1,驗(yàn)證集皮爾遜相關(guān)系數(shù)均值達(dá)0.940 8??梢?,模型的預(yù)測(cè)結(jié)果是可靠的,能夠?qū)崿F(xiàn)對(duì)紅松籽仁蛋白質(zhì)含量的無(wú)損、準(zhǔn)確檢測(cè)。
關(guān)鍵詞: 紅松籽仁;蛋白質(zhì);流形學(xué)習(xí);近紅外光譜
中圖分類號(hào): TS255.6 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1000-4440(2023)01-0246-09
Application of manifold learning in quantitative detection of protein in Korean pine seed kernels using near-infrared quantitative detection
QIU Xun-chao1,2, ZHANG Chun-yue1, ZHANG Yi-zhuo2, CAO Jun2
(1.Department of Computer Engineering, Harbin Finance University, Harbin 150030, China;2.College of Mechanical and Electrical Engineering, Northeast Forestry University, Harbin 150040, China)
Abstract: To study the near-infrared spectroscopy for protein content detection in Korean pine seed kernels, principal components analysis (PCA), modified locally linear embedding (MLLE), local tangent space alignment (LTSA) and Hessian based locally linear embedding (HLLE) were used separately to reduce dimensions of the spectroscopic data, based on pretreatment of the original spectrum by standard normalized variate (SNV)+first derivative (1st-Der)+Symlet4 (SNV+1st-Der+Sym4) method. Partial least square (PLS), ridge regression (Ridge), support vector regression (SVR) and extreme gradient boosting (XGBoost) were adopted separately to establish mathematical models. The results showed that, the quality of the parameter optimization model established by MLLE+SVR method was the best. The optimized parameters for dimension reducing were as follows: the dimension (n-components) was four, the neighborhood number (n-neighbors) was 50, the mean value of mean squared error of validation (mean-MSEV) was 0.568 1, and the mean value of Pearson correlation coefficient of validation (mean-PCCV) was 0.940 8. Therefore, the prediction results of the model is reliable, and non-destructive, accurate and quantitative detection of protein in Korean pine seed kernels can be realized.
Key words: Korean pine seed kernel;protein;manifold learning;near-infrared spectroscopy
紅松籽是紅松的種子,主要產(chǎn)于中國(guó)北方地區(qū),紅松籽市場(chǎng)需求旺盛,供不應(yīng)求,紅松籽產(chǎn)業(yè)是促進(jìn)農(nóng)林增收、拉動(dòng)?xùn)|北三省地區(qū)經(jīng)濟(jì)快速發(fā)展的重要產(chǎn)業(yè)之一。紅松籽仁味道鮮香,蛋白質(zhì)含量高,其總氨基酸中必需氨基酸占1/4,是優(yōu)質(zhì)的植物蛋白,能為人體提供豐富的營(yíng)養(yǎng),紅松籽仁中蛋白質(zhì)的定量研究是植物種子營(yíng)養(yǎng)成分和新舊判別的重要指標(biāo)。傳統(tǒng)的凱式定氮蛋白質(zhì)定量法,是將樣品與硫酸銅和硫酸鉀混合溶液及濃硫酸揮發(fā)性溶劑進(jìn)行融合的破壞性化學(xué)分析方法,其測(cè)試過(guò)程繁瑣、耗時(shí)長(zhǎng)、會(huì)產(chǎn)生刺激氣體,危害檢測(cè)人員身體健康的同時(shí),也無(wú)法滿足大規(guī)模測(cè)試和生產(chǎn)的需要。因此,非破壞性、快速、簡(jiǎn)便、準(zhǔn)確、綠色的近紅外光譜分析技術(shù)近年來(lái)被應(yīng)用到堅(jiān)果中蛋白質(zhì)的定量檢測(cè)研究中[1-3]。
在紅松籽仁蛋白質(zhì)近紅外檢測(cè)方面,前人開展的研究較少。蔣大鵬等[4]通過(guò)構(gòu)建的支持向量機(jī)模型,對(duì)紅松籽仁的蛋白質(zhì)品質(zhì)進(jìn)行了分類。仇遜超等[5]前期運(yùn)用無(wú)信息變量消除法、反向間隔偏最小二乘法,通過(guò)波段篩選建立了紅松籽仁蛋白質(zhì)偏最小二乘近紅外模型。全波段范圍內(nèi)包含的數(shù)據(jù)信息量大,且存在冗余信息,除采用波段篩選方法外,還可以采用降維方法來(lái)提高建模的效率和準(zhǔn)確性。傳統(tǒng)的降維方法主要是通過(guò)主成分分析的線性變化來(lái)實(shí)現(xiàn),線性降維由于受到技術(shù)限制,在映射到低維空間的過(guò)程中無(wú)法很好地反映高維空間中的非線性信息[6]。非線性降維方法分支中的流形學(xué)習(xí),其核心思想是高維歐式復(fù)雜空間的模型是由其內(nèi)在的低維流行模型生成的,因而降維為低維數(shù)據(jù)模型后,可以更好地反映映射關(guān)系,發(fā)掘低維特征,保證非線性信息的保留。
本研究在對(duì)原始光譜數(shù)據(jù)進(jìn)行變量標(biāo)準(zhǔn)化校正+一階導(dǎo)數(shù)+小波變換的預(yù)處理基礎(chǔ)上,進(jìn)一步利用主成分分析、改進(jìn)型局部線性嵌入、局部切空間對(duì)齊、黑塞特征映射進(jìn)行降維處理,以近紅外技術(shù)中最為廣泛采用的偏最小二乘為定標(biāo)模型[7],比對(duì)嶺回歸、支持向量回歸、極度梯度提升的建模結(jié)果,探索不同降維、不同建模方法對(duì)紅松籽仁蛋白質(zhì)定量檢測(cè)精度的影響,以期找到最優(yōu)的降維和建模方法,構(gòu)建質(zhì)量較優(yōu)的近紅外模型,實(shí)現(xiàn)對(duì)紅松籽仁蛋白質(zhì)的準(zhǔn)確、無(wú)損定量檢測(cè)。
1 材料與方法
1.1 材料
紅松籽樣品購(gòu)買于涼水國(guó)家級(jí)自然保護(hù)區(qū),于當(dāng)年采摘。對(duì)紅松籽進(jìn)行手工去殼脫紅衣,并隨機(jī)選取完整的120粒作為樣品,將每個(gè)紅松籽仁樣品分別放入貼有1~120編號(hào)標(biāo)簽的密封袋中。另隨機(jī)選取完整的20粒紅松籽仁樣品,用于建模后對(duì)模型的測(cè)試。將上述樣品置于恒濕恒溫(相對(duì)濕度和溫度分別為50%~60%、-1~2 ℃)的陰涼處保存。
1.2 方法
1.2.1 近紅外光譜數(shù)據(jù)的采集 近紅外光譜采集系統(tǒng)如圖1所示。經(jīng)過(guò)查閱相關(guān)文獻(xiàn)發(fā)現(xiàn),光譜波長(zhǎng)范圍為950~1 700 nm時(shí),包含的信息可以較理想地滿足本研究需求[8-9]。本研究采用德國(guó)INSION公司的NIR-NT-spectrometer-OEM-system微型近紅外光纖光譜儀,光譜適用波長(zhǎng)范圍為900~1 700 nm,光譜分辨率在16 nm以下,具有抗震性和高集成性。鹵素?zé)艄庠垂ぷ麟妷簽?4 V。在進(jìn)行紅松籽仁近紅外光譜數(shù)據(jù)采集前,保持環(huán)境溫度在26 ℃左右,將樣品靜置在該環(huán)境下24 h以上。為使近紅外光譜儀處于穩(wěn)定的工作狀態(tài),將其打開預(yù)熱15 min左右。設(shè)定儀器參數(shù),其中,光譜儀積分時(shí)間設(shè)置為30 ms,平均掃描次數(shù)設(shè)置為3次。將探頭放入操作臺(tái)底端的孔洞內(nèi),保持探頭與樣品距離在3 mm左右,固定光纖。掃描紅松籽仁光譜數(shù)據(jù)時(shí),將倒卵狀三角形的紅松籽仁平滑腹部置于探頭上,以實(shí)現(xiàn)光源的完全遮擋。
1.2.2 傳統(tǒng)蛋白質(zhì)的定量測(cè)定 紅松籽仁蛋白質(zhì)的定量測(cè)定參考GB 5009.5-2010《食品安全國(guó)家標(biāo)準(zhǔn) 食品中蛋白質(zhì)的測(cè)定》中的凱式定氮法。
2 結(jié)果與分析
2.1 紅松籽仁漫反射近紅外光譜分析
圖2為獲取到的紅松籽仁近紅外原始光譜圖像,實(shí)際采集的光譜波長(zhǎng)范圍為906.90~1 699.18 nm,掃描間隔為6.83 nm。
蛋白質(zhì)是由氨基酸以“脫水縮合”的方式組成的多肽鏈,主要由碳(C,50%)、氫(H,7%)、氧(O,23%)、氮(N,16%)元素組成,具有一級(jí)、二級(jí)、三級(jí)、四級(jí)結(jié)構(gòu),分子中有O-H、C-H、N-H含氫基團(tuán)。圖2中1 400 nm附近和1 550 nm附近的明顯吸收峰為一級(jí)胺基(-NH2)組合頻吸收峰和一級(jí)胺基與亞氨基(-NH)的倍頻吸收峰[10],1 100~1 200 nm附近的強(qiáng)烈吸收峰為C-H基團(tuán)二級(jí)倍頻吸收峰[11],1 690 nm附近的微弱吸收峰為C-H基團(tuán)一級(jí)伸縮振動(dòng)吸收峰[12]。蛋白質(zhì)N-H標(biāo)志性基團(tuán)的一倍頻和二倍頻吸收峰分別分布在1 428~1 700 nm、1 000~1 428 nm[13]。由此可知,本研究選定的光譜范圍可以表征紅松籽仁的蛋白質(zhì)特征。
2.2 訓(xùn)練集與驗(yàn)證集的切分
紅松籽仁樣品蛋白質(zhì)含量分布情況如圖3所示,中位數(shù)為16.06%,標(biāo)準(zhǔn)差為2.46%,虛線內(nèi)樣品數(shù)占總樣品數(shù)的72.50%,蛋白質(zhì)含量為12.79%~24.98%,分散差異較大,且基本覆蓋了紅松籽仁蛋白質(zhì)含量常規(guī)分布范圍,表明試驗(yàn)樣品合理,符合后續(xù)的模型建立要求。
為了測(cè)試本研究構(gòu)建模型的可靠性和穩(wěn)定性,對(duì)訓(xùn)練集與驗(yàn)證集按照4∶1的比例進(jìn)行10次不同切分。為了保證每次切分結(jié)果的可重復(fù)性,通過(guò)為隨機(jī)種子分配10個(gè)固定取值,使得10次切分結(jié)果與該10個(gè)固定取值分別對(duì)應(yīng),進(jìn)而保證每次切分結(jié)果是可重復(fù)的。分別在不同的訓(xùn)練集上,進(jìn)行10次近紅外紅松籽仁蛋白質(zhì)定量模型的建立,以10次模型的平均評(píng)價(jià)指標(biāo)來(lái)評(píng)價(jià)模型。10次切分結(jié)果如表1所示。
觀察切分結(jié)果,發(fā)現(xiàn)10次切分的結(jié)果均不相同,并且每次切分后訓(xùn)練集蛋白質(zhì)含量覆蓋范圍均大于驗(yàn)證集,說(shuō)明10個(gè)紅松籽仁訓(xùn)練集樣品所建立的模型可以較好地適用于相應(yīng)的驗(yàn)證集樣品。
2.3 光譜預(yù)處理
原始光譜由于受到采樣環(huán)境、采集方式等影響,存在信噪比低、發(fā)生散射變化等現(xiàn)象,此外還發(fā)現(xiàn)原始光譜圖像存在較大方差、吸收寬度分散的現(xiàn)象,所以需要進(jìn)行光譜預(yù)處理[14]。
在漫反射式光譜數(shù)據(jù)采集的過(guò)程中,由于紅松籽仁顆粒度不均勻,會(huì)使得光譜數(shù)據(jù)因散射影響而產(chǎn)生差異,采用變量標(biāo)準(zhǔn)化校正(SNV)可以進(jìn)行有效校正[15]。光譜信息中吸收寬度存在重疊現(xiàn)象,會(huì)互相干擾,影響模型的穩(wěn)健性,因此在SNV預(yù)處理的結(jié)果上進(jìn)行一階導(dǎo)數(shù)(1st-Der)處理[16]。光譜求導(dǎo)后會(huì)提高噪聲水平,降低信噪比,因此進(jìn)一步進(jìn)行小波變換平滑處理。近似對(duì)稱的緊支集正交小波(SymN)被實(shí)踐證明在近紅外濾波方面十分有效,SymN具備較好的正則性,作為一種對(duì)稱小波,在對(duì)信號(hào)進(jìn)行分析和重構(gòu)時(shí)能夠減少相位失真[17]。因此,采用Sym4小波基函數(shù)進(jìn)行2尺度分解來(lái)進(jìn)行平滑處理。經(jīng)過(guò)SNV+1st-Der+Sym4預(yù)處理后的光譜圖像如圖4所示,隨機(jī)選取1條濾波前后的光譜曲線,并將濾波后的光譜曲線向上平移一段距離,進(jìn)行直觀的對(duì)比觀察。由圖5可知,經(jīng)Sym4小波變換處理后,光譜曲線去掉了一些毛躁噪聲,變得較為平滑。
2.4 光譜數(shù)據(jù)的降維與建模
全光譜波長(zhǎng)范圍內(nèi)的信息量大,含有與需求無(wú)關(guān)的信息,會(huì)降低建模效率,還會(huì)影響模型精準(zhǔn)度。對(duì)數(shù)據(jù)進(jìn)行降維處理后,可以保留有用信息,降低構(gòu)建定量模型的學(xué)習(xí)復(fù)雜程度。采用經(jīng)典的線性主成分分析(PCA)[18]及非線性流形學(xué)習(xí)中的改進(jìn)型局部線性嵌入(MLLE)、局部切空間對(duì)齊(LTSA)、黑塞特征映射(HLLE)降維方法,對(duì)經(jīng)過(guò)預(yù)處理的光譜數(shù)據(jù)進(jìn)行降維處理。為了研究不同建模方法對(duì)紅松籽仁蛋白質(zhì)定量預(yù)測(cè)模型的影響,進(jìn)一步分別運(yùn)用嶺回歸(Ridge)[19]、支持向量回歸(SVR)[20]、極度梯度提升(XGBoost)[21]方法構(gòu)建紅松籽仁蛋白質(zhì)定量模型,并以偏最小二乘法(PLS)建立的模型為定標(biāo),根據(jù)模型的評(píng)價(jià)指標(biāo)確定最佳的降維和建模方法。
局部線性嵌入(LLE)[22]的中心思想是,找到每個(gè)數(shù)據(jù)點(diǎn)的原始高維領(lǐng)域線性關(guān)系,即假設(shè)高維空間數(shù)據(jù)點(diǎn)Xi的鄰域線性關(guān)系表達(dá)式為:
Xi=ωihXh+ωikXk+ωilXl(1)
其中,ωih、ωik、ωil為權(quán)重系數(shù),在經(jīng)過(guò)LLE降維處理后,在低維空間這種線性關(guān)系表達(dá)得到同樣的保持。權(quán)重系數(shù)(ωij)可以通過(guò)式(2)求?。?/p>
其中,Q(i)表示數(shù)據(jù)點(diǎn)Xi的k個(gè)鄰域數(shù)據(jù)點(diǎn)集合,m表示樣本個(gè)數(shù)。
低維空間數(shù)據(jù)點(diǎn)yi通過(guò)式(3)求?。?/p>
LLE只需確定鄰域數(shù),即可完成降維操作,但其存在當(dāng)鄰域數(shù)大于輸入數(shù)據(jù)的維度時(shí),權(quán)重系數(shù)矩陣不是滿秩的情況,為了解決類似問(wèn)題,衍生出了MLLE、LTSA和HLLE方法。MLLE方法不僅尋找最近距離的鄰域數(shù),還對(duì)鄰域的分布權(quán)重進(jìn)行度量,以期使鄰域的分布權(quán)重盡量在樣本的各個(gè)方向。LTSA方法用樣本點(diǎn)的近鄰區(qū)域的切空間來(lái)表示局部幾何結(jié)構(gòu),然后對(duì)局部切空間進(jìn)行重新排列,得到非線性流形的、用自然參數(shù)刻畫的低維線性關(guān)系。HLLE方法不是通過(guò)線性關(guān)系來(lái)構(gòu)建鄰域內(nèi)的樣本,而是依據(jù)黑森矩陣的二次型關(guān)系展開構(gòu)建。
降維方法對(duì)建模效果的影響會(huì)因其參數(shù)的不同取值而有所差別,因此需要優(yōu)化降維方法的參數(shù),進(jìn)而建立高質(zhì)量的紅松籽仁蛋白質(zhì)定量數(shù)學(xué)模型。
PCA需要確定方差累計(jì)貢獻(xiàn)率(n-contribution)的最優(yōu)取值,一般要求累積貢獻(xiàn)率達(dá)到85%以上,因而其參數(shù)取值情況為:n-contribution=[0.86,0.88,0.90,0.92,0.94,0.96,0.98,0.99]。MLLE、LTSA和HLLE方法需要對(duì)鄰域數(shù)(n-neighbors)和維度(n-components)進(jìn)行最優(yōu)值的選取,n-neighbors越大,算法的復(fù)雜度會(huì)增加,建立樣本局部關(guān)系的時(shí)間會(huì)越長(zhǎng),但降維后樣本的局部關(guān)系會(huì)保持得更好。此外n-neighbors最大取值不能超過(guò)紅松籽仁訓(xùn)練集樣品個(gè)數(shù)。MLLE方法要求n-neighbors>n-components,HLLE方法要求n-neighbors>n-components×(n-components+3)/2,因此將MLLE、LTSA方法參數(shù)取值情況設(shè)置為:n-neighbors=[20,30,40,50,60,70,80,90]、n-components=[3,4,6,8,10,12,14,16,18];HLLE參數(shù)的設(shè)定分為以下幾種情況,當(dāng)n-components=[3,4]時(shí),n-neighbors=[20,30,40,50,60,70,80,90];當(dāng)n-components=6時(shí),n-neighbors=[30,40,50,60,70,80,90];當(dāng)n-components=8時(shí),n-neighbors=[50,60,70,80,90];當(dāng)n-components=10時(shí),n-neighbors=[70,80,90]。
為了構(gòu)建出一個(gè)高質(zhì)量的PLS定標(biāo)模型,需要對(duì)PLS主成分?jǐn)?shù)(n-components)進(jìn)行確定,根據(jù)方差累計(jì)貢獻(xiàn)率為86%~99%的需求,主成分?jǐn)?shù)取值范圍為[3,4,5,6,7,8,9,10,11,12,13,14,15]。根據(jù)比對(duì)10次不同切分出的10個(gè)驗(yàn)證集均方差(MSEV)的均值(mean-MSEV),確定最優(yōu)的主成分?jǐn)?shù),比對(duì)結(jié)果如圖6所示。
需要說(shuō)明的是,mean-MSEV越小,擬合效果越好。由圖6可知,當(dāng)主成分?jǐn)?shù)為5個(gè)時(shí),PLS模型質(zhì)量最優(yōu),其mean-MSEV為1.150 7,驗(yàn)證集皮爾遜相關(guān)系數(shù)(PCCV)均值(mean-PCCV)為0.889 8,mean-PCCV越接近1越好。由定標(biāo)模型可知,采用近紅外光譜技術(shù)對(duì)紅松籽仁蛋白質(zhì)進(jìn)行定量分析是可行的,結(jié)果是可靠的。
分別在全波段、光譜降維范圍下構(gòu)建紅松籽仁蛋白質(zhì)的Ridge、SVR、XGBoost、PCA+Ridge、PCA+SVR、PCA+XGBoost、MLLE+Ridge、MLLE+SVR、MLLE+XGBoost、LTSA+Ridge、LTSA+SVR、LTSA+XGBoost、HLLE+Ridge、HLLE+SVR、HLLE+XGBoost數(shù)學(xué)模型,并對(duì)降維方法進(jìn)行參數(shù)優(yōu)化。為了測(cè)試模型的穩(wěn)定性,每個(gè)模型在10次不同切分出的10個(gè)訓(xùn)練集上進(jìn)行模型構(gòu)建,通過(guò)對(duì)比10次建模的mean-MSEV,進(jìn)而確定降維、建模的選取方法,并找到相應(yīng)降維方法的最優(yōu)參數(shù)。10次建模的mean-MSEV對(duì)比情況如圖7、圖8所示。
由圖7可知,不同建模方法構(gòu)建出的模型質(zhì)量不同,在全波段范圍內(nèi)XGBoost模型質(zhì)量最佳,其mean-MSEV為2.952 5,SVR模型質(zhì)量次佳,SVR與XGBoost均為非線性模型,而Ridge屬于線性模型,這說(shuō)明紅松籽仁光譜數(shù)據(jù)中,包含了對(duì)蛋白質(zhì)定量分析建模有用的非線性信息。此外,由于PLS在建模過(guò)程中進(jìn)行了PCA降維處理,去除了冗余信息,因此其模型質(zhì)量與全波段范圍下Ridge、SVR、XGBoost模型相比更佳。
由圖8可知,與全波段構(gòu)建的模型相比(圖7),經(jīng)過(guò)降維處理后模型的質(zhì)量均有所提升。其中,4種降維方法對(duì)XGBoost模型質(zhì)量的提升效果沒(méi)有其他2種建模方法明顯,這是由于XGBoost對(duì)數(shù)據(jù)維度的敏感度相對(duì)較弱。進(jìn)一步以表格(表2)形式更清晰地比較各最優(yōu)參數(shù)模型。
需要說(shuō)明的是,由于10次切分出的訓(xùn)練集不同,因而依照方差累計(jì)貢獻(xiàn)率的PCA降維方法,在不同訓(xùn)練集上降維后的維度不同。
由表2可知,與PLS最優(yōu)參數(shù)定標(biāo)模型相比,其余最優(yōu)參數(shù)模型的質(zhì)量均更佳。此外,整體上非線性降維方法對(duì)模型質(zhì)量的提升效果優(yōu)于線性降維方法。這是因?yàn)?,一方面?jīng)典的PCA線性降維方法,當(dāng)數(shù)據(jù)具有較復(fù)雜的非線性結(jié)構(gòu)時(shí),只是簡(jiǎn)單地將數(shù)據(jù)投射到低維空間中,會(huì)導(dǎo)致非線性信息的丟失;另一方面,PCA是關(guān)注數(shù)據(jù)方差的降維方法,而MLLE、LTSA、HLLE是關(guān)注數(shù)據(jù)局部線性關(guān)系的非線性降維方法,在降維時(shí)保持了數(shù)據(jù)的局部線性特征。
相同建模方法采用MLLE、LTSA、HLLE不同降維方法后,構(gòu)建的模型質(zhì)量相近但又略有不同。這是由于MLLE、LTSA、HLLE三種降維方法的原理均基于LLE降維方法,只是在低維數(shù)據(jù)進(jìn)行恢復(fù)時(shí)遵循的優(yōu)化原理不同。其中,SVR建模方法經(jīng)MLLE最優(yōu)參數(shù)降維、XGBoost建模方法經(jīng)LTSA最優(yōu)參數(shù)降維后,構(gòu)建的模型質(zhì)量最佳,mean-MSEV分別為0.568 1、0.943 1;Ridge建模方法經(jīng)LTSA、HLLE最優(yōu)參數(shù)降維后,構(gòu)建出了質(zhì)量相當(dāng)?shù)淖顑?yōu)預(yù)測(cè)模型,mean-MSEV均為1.049 4。
采用經(jīng)過(guò)參數(shù)優(yōu)化的PCA、MLLE、LTSA、HLLE降維方法后,SVR法構(gòu)建的模型質(zhì)量均優(yōu)于其他建模方法,其中MLLE+SVR模型質(zhì)量最佳,其10個(gè)驗(yàn)證集上的MSEV分別為0.798 6、0.512 8、0.415 9、0.550 5、0.673 1、0.327 4、0.550 9、0.511 2、0.778 5、0.562 3,mean-MSEV為0.568 1,mean-PCCV達(dá)0.940 8,最優(yōu)參數(shù)的取值為:n-components=4,n-neighbors=50。
2.5 MLLE數(shù)據(jù)降維可視化
為了比較直觀地觀察MLLE降維處理后對(duì)紅松籽仁光譜特征性峰與形態(tài)提取等的影響,同時(shí)為了測(cè)試降維結(jié)果的可靠性和穩(wěn)定性,在10次不同訓(xùn)練集與驗(yàn)證集切分結(jié)果的基礎(chǔ)上,隨機(jī)選取2個(gè)訓(xùn)練集,并對(duì)往年53粒紅松籽仁樣品進(jìn)行光譜信息的獲取,在預(yù)處理的基礎(chǔ)上,將光譜數(shù)據(jù)降至二維,以散點(diǎn)圖的形式進(jìn)行可視化展示。圖9為隨機(jī)選取的2個(gè)訓(xùn)練集與往年紅松籽仁樣品降維數(shù)據(jù)的散點(diǎn)圖。
觀察圖9發(fā)現(xiàn),紅松籽仁近紅外光譜數(shù)據(jù)經(jīng)過(guò)MLLE降維處理后,試驗(yàn)當(dāng)年與往年的樣品數(shù)據(jù)點(diǎn)形成了較明顯的兩簇,且簇間幾乎無(wú)交叉現(xiàn)象。
2.6 MLLE+SVR模型的測(cè)試
采用最優(yōu)參數(shù)的MLLE+SVR模型,對(duì)用于測(cè)試的20粒紅松籽仁樣品蛋白質(zhì)含量進(jìn)行定量預(yù)測(cè)。此外,為了測(cè)試MLLE+SVR模型的適用性,進(jìn)一步對(duì)往年30粒紅松籽仁樣品進(jìn)行蛋白質(zhì)含量的定量預(yù)測(cè),其中往年MLLE降維方法的最優(yōu)參數(shù)為:n-components=4,n-neighbors=50。
由圖10可知,實(shí)測(cè)值與預(yù)測(cè)值均比較均勻地分布在45°線兩側(cè)。進(jìn)一步計(jì)算實(shí)測(cè)值與預(yù)測(cè)值間的平均絕對(duì)誤差(MAE),來(lái)評(píng)估預(yù)測(cè)值和實(shí)測(cè)值間的接近程度,從而對(duì)預(yù)測(cè)結(jié)果的準(zhǔn)確程度進(jìn)行描述。MAE的計(jì)算公式為:MAE=1n∑ni=1xi-yi。其中,xi、yi分別表示第i粒紅松籽仁樣品蛋白質(zhì)含量的實(shí)測(cè)值和預(yù)測(cè)值。整體上,紅松籽仁樣品的實(shí)測(cè)值與預(yù)測(cè)值MAE=0.50%,表明預(yù)測(cè)結(jié)果具有可靠性和準(zhǔn)確性,而試驗(yàn)當(dāng)年與往年紅松籽仁樣品的MAE分別為0.37%、0.59%。往年預(yù)測(cè)結(jié)果的準(zhǔn)確性略低,這是由于最佳降維及建模方法是在當(dāng)年紅松籽仁樣品的基礎(chǔ)上確定的,但仍可很理想地實(shí)現(xiàn)對(duì)往年紅松籽仁樣品蛋白質(zhì)含量的預(yù)測(cè),這在一定程度上表明該MLLE+SVR模型的適用性。
3 討論
本研究利用NIR-NT便攜式近紅外光譜儀,通過(guò)在900~1 700 nm波長(zhǎng)范圍內(nèi)獲取的紅松籽仁光譜數(shù)據(jù),開展了紅松籽仁蛋白質(zhì)定量無(wú)損檢測(cè)試驗(yàn)。在訓(xùn)練集與驗(yàn)證集劃分的過(guò)程中,進(jìn)行了10次不同的切分,分別在10個(gè)不同的訓(xùn)練集上進(jìn)行模型的建立,通過(guò)10個(gè)模型的平均評(píng)定指標(biāo)來(lái)評(píng)價(jià)模型,保障了所建模型的穩(wěn)定性和可靠性。采用降維方法對(duì)光譜數(shù)據(jù)進(jìn)行降維處理,可以提升模型的評(píng)價(jià)指標(biāo),表明光譜降維在模型訓(xùn)練中具有重要作用,并且非線性降維方法由于可以更好地保留非線性信息,與線性降維方法相比,可以更好地優(yōu)化模型質(zhì)量。運(yùn)用不同建模方法構(gòu)建預(yù)測(cè)模型,結(jié)果會(huì)存在很大差異,只有選取合適的建模方法才能構(gòu)建出高質(zhì)量的近紅外模型。降維方法參數(shù)的取值也會(huì)影響模型的預(yù)測(cè)結(jié)果,參數(shù)優(yōu)化可以有效地提高模型預(yù)測(cè)的準(zhǔn)確性。試驗(yàn)結(jié)果表明:(1)經(jīng)過(guò)SNV+1st-Der+Sym4預(yù)處理后的光譜數(shù)據(jù)分散程度得到降低,同時(shí)也抑制了部分噪聲信息,光譜數(shù)據(jù)變得較為平滑。(2)經(jīng)過(guò)參數(shù)優(yōu)化的MLLE+SVR模型,構(gòu)建的紅松籽仁蛋白質(zhì)定量預(yù)測(cè)模型質(zhì)量最優(yōu),降維方法優(yōu)化參數(shù)取值為:n-components=4,n-neighbors=50,mean-MSEV為0.568 1,mean-PCCV達(dá)0.940 8。(3)運(yùn)用最優(yōu)參數(shù)模型,對(duì)選取的試驗(yàn)當(dāng)年20粒紅松籽仁樣品進(jìn)行蛋白質(zhì)定量預(yù)測(cè),比較預(yù)測(cè)結(jié)果與化學(xué)實(shí)測(cè)結(jié)果,得到MAE=0.43%;進(jìn)一步用MLLE+SVR模型,對(duì)往年30粒紅松籽仁樣品進(jìn)行蛋白質(zhì)定量預(yù)測(cè),其中往年MLLE降維方法的優(yōu)化參數(shù)為:n-components=4,n-neighbors=50,得到MAE=0.43%。由此可見,采用本研究方法對(duì)紅松籽仁蛋白質(zhì)進(jìn)行定量分析是可行的,該MLLE+SVR模型具有一定的適用性,并且預(yù)測(cè)結(jié)果是可靠的、穩(wěn)定的。
參考文獻(xiàn):
[1] 馬文強(qiáng),張 漫,李忠新,等. 基于近紅外光譜的核桃仁蛋白質(zhì)含量檢測(cè)分析[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2017,48(S1):407-411.
[2] 劉 潔,李小昱,王 為,等. 基于近紅外光譜的板栗蛋白質(zhì)檢測(cè)方法研究[C]//汪慰華,朱 明,傅澤田,等. 中國(guó)農(nóng)業(yè)工程學(xué)會(huì)2011年學(xué)術(shù)年會(huì)論文集. 重慶:中國(guó)農(nóng)業(yè)工程學(xué)會(huì),2011:1653-1656.
[3] 汪慶平,黎其萬(wàn),董寶生,等. 近紅外光譜法快速測(cè)定山核桃品質(zhì)性狀的研究[J].西南農(nóng)業(yè)學(xué)報(bào),2009,22(3):873-875.
[4] 蔣大鵬,張冬妍,李丹丹,等. 基于近紅外的松子蛋白質(zhì)品質(zhì)分類處理[J].計(jì)算技術(shù)與自動(dòng)化,2018,37(3):180-184.
[5] 仇遜超,曹 軍. 近紅外光譜波段優(yōu)化在東北松子蛋白質(zhì)定量檢測(cè)中的應(yīng)用[J].現(xiàn)代食品科技,2016,32(11):303-309.
[6] 劉麗娜,馬世偉,芮 玲. 基于可信賴性和連續(xù)性的流形降維效果評(píng)價(jià)方法[J].計(jì)算機(jī)應(yīng)用研究,2018,35(6):1707-1711.
[7] 黃建軍,李雪梅,滕宏泉. 基于偏最小二乘法的黃土濕陷性評(píng)價(jià)模型[J].災(zāi)害學(xué),2021,36(2):60-64.
[8] 趙思?jí)簦诤晖?,高冠勇,? 花生蛋白組分及其亞基含量近紅外分析檢測(cè)方法[J].光譜學(xué)與光譜分析,2021,41(3):912-917.
[9] 方 彥,王漢寧. 近紅外光譜法在玉米粗蛋白含量測(cè)定研究中的應(yīng)用[J].甘肅農(nóng)業(yè)大學(xué)學(xué)報(bào),2004,39(1):32-35.
[10]邵學(xué)廣,寧 宇,劉鳳霞,等. 近紅外光譜在無(wú)機(jī)微量成分分析中的應(yīng)用[J].化學(xué)學(xué)報(bào),2012,70(20):2190-2114.
[11]王培培,張德全,陳 麗,等. 近紅外光譜法預(yù)測(cè)羊肉化學(xué)成分的研究[J].核農(nóng)學(xué)報(bào),2012,26(3):500-504.
[12]TSENKOVA R, KOVACS Z, KUBOTA Y. Aquaphotomics: near infrared spectroscopy and water states in biological systems[J]. Subcell Biochem,2015,71:189-210.
[13]曹 璞,潘 濤,陳星旦. 小型近紅外玉米蛋白質(zhì)成分分析儀器設(shè)計(jì)的波段選擇[J].光學(xué)精密工程,2007,15(12):1952-1958.
[14]TSUCHIKAWA S, KOBORI H. A review of recent application of near infrared spectroscopy to wood science and technology[J]. Journal of Wood Science,2015,61(3):213-220.
[15]張怡卓,蘇耀文,李 超,等. 蒙古櫟抗彎彈性模量多模型共識(shí)的近紅外檢測(cè)方法[J].林業(yè)工程學(xué)報(bào),2016,1(6):17-22.
[16]張 銀,周孟然. 然近紅外光譜分析技術(shù)的數(shù)據(jù)處理方法[J].紅外技術(shù),2007,29(6):345-348.
[17]TIAN H, LI M, WANG Y, et al. Optical wavelength selection for portable hemoglobin determination by near-infrared spectroscopy method[J]. Infrared Physics and Technology, 2017,86:98-102.
[18]CORTES V, RODRIGUEZ A, BLASCO J, et al.Prediction of the level of astringency in persimmon using visible and near-infrared spectroscopy[J]. Journal of Food Engineering,2017,204(7):27-37.
[19]張素蘭,黃金龍,秦 林,等. 基于高光譜特征的松材線蟲嶺回歸估測(cè)模型研究[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2019,50(4):196-202.
[20]沈廣輝,曹瑤瑤,劉 馨,等. 近紅外高光譜成像結(jié)合特征波長(zhǎng)篩選識(shí)別小麥赤霉病癟粒[J].江蘇農(nóng)業(yè)學(xué)報(bào),2021,37(2):509-516.
[21]曹立源,范勤勤,黃敬英. 基于特征選擇和XGBoost優(yōu)化的術(shù)中低體溫預(yù)測(cè)[J].數(shù)據(jù)采集與處理,2022,37(1):134-146.
[22]LOPEZ E, GONZALEZ D, AGUADO J V, et al. A manifold learning approach for integrated computational materials engineering[J]. Archives of Computational Methods in Engineering, 2018,25(1):59-68.
(責(zé)任編輯:張震林)