王俊,許多寬,肖勇2,王勇,陳志華2,陳維建
(1.四川省煙草公司德陽市公司,四川 德陽 618400;2.中國煙草總公司四川省公司,成都 610041)
基于化學(xué)指標(biāo)的煙葉產(chǎn)區(qū)正交偏最小二乘判別分析
王俊1,許多寬1,肖勇2,王勇1,陳志華2,陳維建1
(1.四川省煙草公司德陽市公司,四川 德陽 618400;2.中國煙草總公司四川省公司,成都 610041)
為構(gòu)建基于化學(xué)指標(biāo)的不同產(chǎn)區(qū)煙葉的模式識(shí)別模型,收集2003—2007年5個(gè)年度四川、云南和福建3省份共計(jì)1262份烤煙樣品的21種化學(xué)指標(biāo),并進(jìn)行正交偏最小二乘判別分析(OPLS-DA)。結(jié)果表明,基于21種化學(xué)指標(biāo)所構(gòu)建的OPLS-DA模型顯著可靠,模型參數(shù)R2X、R2Y和Q2值分別為0.429、0.702和0.627;模型提取出2個(gè)預(yù)測(cè)主成分,對(duì)四川、云南和福建3省未知煙樣識(shí)別正確率分別為76.67%、93.33%和93.33%?;诨瘜W(xué)指標(biāo)的煙葉產(chǎn)區(qū)OPLS-DA模型,可以有效識(shí)別不同產(chǎn)區(qū)煙葉樣品,篩選出各產(chǎn)區(qū)特征指標(biāo)并解釋產(chǎn)區(qū)間差異。
烤煙;化學(xué)指標(biāo);正交偏最小二乘;判別分析
開發(fā)特色優(yōu)質(zhì)煙葉對(duì)于打造中式卷煙核心技術(shù),提高中式卷煙市場(chǎng)競(jìng)爭(zhēng)力具有重要意義。不同煙葉產(chǎn)區(qū)光照、降水、溫度和土壤等生態(tài)條件差異較大,所生產(chǎn)的煙葉往往具有不同的品質(zhì)和風(fēng)格特征[1-4],連同品種和栽培措施的差異[5-6],形成了生產(chǎn)特色優(yōu)質(zhì)煙葉的客觀條件。自“特色優(yōu)質(zhì)煙葉開發(fā)”作為《煙草行業(yè)中長期科技發(fā)展規(guī)劃綱要(2006―2020年)》的重大專項(xiàng)實(shí)施以來,圍繞煙葉品質(zhì)與環(huán)境關(guān)系、煙葉品質(zhì)區(qū)劃相關(guān)研究頗多,包括相關(guān)[7]、聚類[8-9]、因子[10]、判別[11-14]、模糊數(shù)學(xué)[15]、灰色關(guān)聯(lián)[16]、人工神經(jīng)網(wǎng)絡(luò)[17]等多種統(tǒng)計(jì)方法被運(yùn)用。但由于各個(gè)化學(xué)指標(biāo)間關(guān)系的不確定性與復(fù)雜性,導(dǎo)致這些統(tǒng)計(jì)方法很難系統(tǒng)性地建立煙葉的特征化學(xué)指標(biāo)識(shí)別模型[18-19],或模型識(shí)別率低[18]。因此,本研究基于煙葉化學(xué)指標(biāo)進(jìn)行正交偏最小二乘判別分析(Orthogonal Partial Least Squares Regression Discriminant Analysis,OPLS-DA)構(gòu)建不同產(chǎn)區(qū)煙葉的高效模式識(shí)別模型,探索不同產(chǎn)區(qū)煙葉之間的化學(xué)指標(biāo)差異,并進(jìn)行解釋和預(yù)測(cè)分析,為辨別煙葉產(chǎn)地、理解和分析煙葉質(zhì)量和風(fēng)格特色的形成提供幫助和參考。
1.1 煙葉樣品
收集整理了“中國煙草科學(xué)技術(shù)數(shù)據(jù)庫”[20]中2003—2007年5個(gè)年度四川、云南和福建3省份的全部烤煙樣品信息,共計(jì)1262份,其中,四川278份、云南691份、福建293份。煙草品種包括K326、K346、NC82、翠碧1號(hào)、紅花大金元、云煙85和云煙87。煙葉等級(jí)包括B2F、C2F、C3F和X2F。研究中,分別從3個(gè)省份各隨機(jī)抽取30個(gè)煙樣,構(gòu)成含有 90個(gè)煙樣的檢測(cè)集數(shù)據(jù),用于驗(yàn)證模型的有效性。剩余的 1172個(gè)煙樣作為構(gòu)建模型的訓(xùn)練集數(shù)據(jù)。
1.2 煙葉化學(xué)成分指標(biāo)
煙葉化學(xué)指標(biāo)數(shù)據(jù)來源于“中國煙草科學(xué)技術(shù)數(shù)據(jù)庫”,指標(biāo)共21種,包括:水溶性總糖、總植物堿、蛋白質(zhì)、總氮、還原糖、總揮發(fā)酸、總揮發(fā)堿、氮堿比、糖堿比、鉀氯比、石油醚提取物總量、醚提取物中性總量、醚提取物酸性總量、醚提取物堿性總量、pH、鉀、氯、硝酸根、硫酸根、灰分和水溶性灰分堿度。
1.3 正交偏最小二乘分析
偏最小二乘判別(Partial Least Squares Regression Discriminant Analysis, PLS-DA)是基于PLS回歸方法,主要反映預(yù)測(cè)變量和因變量之間的線性關(guān)系,是一種有監(jiān)督分類方法。它基于X變量構(gòu)建Y變量的預(yù)測(cè)模型,并根據(jù)X變量新的預(yù)測(cè)集數(shù)據(jù)預(yù)測(cè)Y變量。其公式如下:
①式中為X變量均值;為X變量的得分矩陣,是對(duì)X變量的概括;P′為X變量的載荷矩陣,是對(duì)變量重要性的描述;E為X變量剩余殘差矩陣,度量預(yù)測(cè)值和原始值之間的偏差;為Y變量的均值;U為Y變量的得分矩陣,是對(duì)Y變量的概括;′為Y變量的載荷矩陣,是對(duì)變量重要性的描述;F為X變量剩余殘差矩陣,度量預(yù)測(cè)值和原始值之間的偏差;H為總剩余殘差矩陣。
當(dāng)X變量是光譜數(shù)據(jù)、過程數(shù)據(jù)等,X變量中系統(tǒng)的變異可能同Y變量不是線性相關(guān),即X變量中的這種變異正交在X[21]。雖然正交在X的變異可以由一個(gè) PLS模型來處理,但模型解釋性不強(qiáng)。正交偏最小二乘判別(Orthogonal Partial Least Squares Regression Discriminant Analysis, OPLS-DA)是在偏最小二乘判別分析(PLS-DA)基礎(chǔ)上發(fā)展的算法[21],相較于PLS-DA而言,將X變量中的系統(tǒng)變異分解為兩部分,即同Y線性相關(guān)的部分和同Y正交。隨著正交變異組分的增加,將提供更多的解釋性和減少結(jié)果的誤差[22-23]。
1.4 數(shù)據(jù)預(yù)處理方法
對(duì)21種化學(xué)指標(biāo)原始數(shù)據(jù)進(jìn)行Logit轉(zhuǎn)換,調(diào)整數(shù)據(jù)正態(tài)性;通過Pareto縮放,使數(shù)據(jù)中心化和無量綱化;將化學(xué)指標(biāo)交叉乘積作為虛擬變量[24]。
1.5 統(tǒng)計(jì)軟件
采用 SIMCA13(Umetrics AB,Sweden)和Minitab17(TechMax,USA)統(tǒng)計(jì)軟件進(jìn)行統(tǒng)計(jì)分析。
2.1 煙葉化學(xué)指標(biāo)差異性分析
對(duì)3個(gè)省份煙葉樣品的21種化學(xué)指標(biāo)進(jìn)行統(tǒng)計(jì)分析,結(jié)果見表1。可以看出,四川省煙葉醚提取物中性總量(5.71 mg/g)、醚提取物堿性總量(3.24 μg/g)顯著低于云南和福建兩地;水溶性總糖(32.28%)和硝酸根(0.20%)顯著高于其余兩地;總揮發(fā)酸(0.19%)、總揮發(fā)堿(0.29%)和pH(5.39)介于云南和福建之間。云南省煙葉水溶性總糖(29.87%)、還原糖(24.83%)、總揮發(fā)酸(0.11%)和糖堿比(9.97)顯著低于四川和福建兩地;總揮發(fā)堿(0.30%)、石油醚提取物總量(5.46%)、pH(5.46)、灰分(11.31%)顯著高于四川和福建兩地。福建省煙葉總氮(1.96%)、總揮發(fā)堿(0.24%)、pH(5.34)、氯(0.27%)顯著低于四川和云南兩地;總揮發(fā)酸(0.28%)、鉀氯比(17.83)、鉀(2.74%)和硫酸根(1.72%)顯著高于四川和云南兩地;水溶性總糖(31.15%)介于四川和云南兩地之間。總植物堿、蛋白質(zhì)和水溶性灰分堿度在四川、云南和福建3個(gè)省份的煙樣中無顯著差異。綜上所述,3個(gè)省份所產(chǎn)煙葉在多個(gè)化學(xué)指標(biāo)上存在顯著差異,是各省份煙葉風(fēng)格差異的物質(zhì)基礎(chǔ)。
2.2 煙葉化學(xué)指標(biāo)OPLS-DA模型
表2為煙葉化學(xué)指標(biāo)OPLS-DA模型的統(tǒng)計(jì)結(jié)果,表明通過訓(xùn)練集 1172個(gè)樣品構(gòu)建的模型篩選出了 2個(gè)預(yù)測(cè)主成分和 9個(gè)正交主成分,而R2X=0.429,表明該11個(gè)主成分對(duì)X變量變異的解釋能力為42.90%(其中預(yù)測(cè)主成分5.30%,正交主成分37.70%);R2Y=0.702,表明模型中2個(gè)預(yù)測(cè)主成分對(duì)Y變量變異的解釋能力為70.20%;Q2=0.627,表明模型中2個(gè)預(yù)測(cè)主成分對(duì)不同產(chǎn)區(qū)的煙葉樣品的預(yù)測(cè)能力為62.70%。綜合來看,模型擬合較好。
圖1為基于21種化學(xué)指標(biāo)構(gòu)建的四川、云南和福建3個(gè)煙區(qū)煙葉OPLS-DA模型第1、2主成分得分圖??梢钥闯?,各個(gè)煙區(qū)樣品群體內(nèi)有明顯的聚集趨勢(shì),且3個(gè)煙區(qū)的樣品群體彼此之間能夠較好的分離。其中,橫坐標(biāo)為第1主成分得分,表明通過第1主成分可以將四川煙樣同云南和福建的區(qū)分開;縱坐標(biāo)為第2主成分得分,表明通過第2主成分可以將福建煙樣同四川和云南的區(qū)分開。
2.3 模型檢驗(yàn)
采用CV-ANOVA(交叉驗(yàn)證方差分析)檢驗(yàn)了模型的可靠性,結(jié)果(F=99.80,P=0)表明該模型統(tǒng)計(jì)上顯著有效。將訓(xùn)練集 1172個(gè)樣品作為驗(yàn)證集樣品回驗(yàn)?zāi)P妥R(shí)別正確率,結(jié)果可以看出(表3),模型對(duì)3個(gè)煙區(qū)樣品識(shí)別的正確率平均為94.45%,其中四川正確率為88.71%,云南正確率為97.43%,福建正確率為92.40%。
表1 不同省份間煙葉化學(xué)指標(biāo)差異分析Table 1 Statistical results of chemical measurements of tobacco in different provinces
表2 OPLS-DA模型的統(tǒng)計(jì)結(jié)果Table 2 OPLS-DA model performance statistics
圖1 OPLS-DA模型第1、2主成分得分圖Fig. 1 Score plot of 1st versus 2nd components in OPLS-DA
進(jìn)一步用檢測(cè)集 90個(gè)樣品檢測(cè)模型識(shí)別正確率,結(jié)果可以看出(表4),模型對(duì)3個(gè)煙區(qū)樣品識(shí)別的正確率平均為 87.78%,其中四川正確率為76.67%,云南正確率為 93.33%,福建正確率為93.33%。
表3 OPLS-DA模型驗(yàn)證集數(shù)據(jù)識(shí)別率Table 3 Accuracy of OPLS-DA model by validation set
表4 OPLS-DA模型檢測(cè)集數(shù)據(jù)識(shí)別率Table 4 Accuracy of OPLS-DA model by test set
2.4 煙葉特征化學(xué)指標(biāo)篩選
圖2為OPLS-DA模型第1、2主成分載荷圖,表示了第1、2主成分中的各個(gè)化學(xué)指標(biāo)與不同煙區(qū)的相關(guān)性大小,即圖中X變量同Y變量越靠近,表示其相關(guān)性越高。圖3為OPLS-DA模型的VIP(Variable Importance for the Projection)圖,VIP值越大,表示各種化學(xué)指標(biāo)對(duì)于解釋變量的貢獻(xiàn)越大、與產(chǎn)區(qū)差異的相關(guān)性越高。
從圖3中可以篩選出8個(gè)VIP值大于1.5、對(duì)建模貢獻(xiàn)率較大的化學(xué)指標(biāo),結(jié)合圖2和圖3可以發(fā)現(xiàn)煙葉總揮發(fā)酸(X6)和硝酸根(X18)2個(gè)化學(xué)指標(biāo)同四川相關(guān)性高;灰分(X20)、醚提取物中性總量(X12)和醚提取物堿性總量(X14)3個(gè)化學(xué)指標(biāo)同云南相關(guān)性高;鉀氯比(X10)、鉀(X16)、硫酸根(X19)3個(gè)化學(xué)指標(biāo)同福建相關(guān)性高。由表1可以看出,通過OPLS-DA模型篩選的特征物質(zhì),在產(chǎn)區(qū)間差異顯著,具有統(tǒng)計(jì)學(xué)意義,可以作為產(chǎn)區(qū)特征化學(xué)指標(biāo)。
圖2 OPLS-DA模型第1、2主成分載荷圖Fig. 2 Lording scatter plot of 1st versus 2nd components in OPLS-DA
圖3 OPLS-DA模型VIP值Fig. 3 TheVIPplot of OPLS-DA
張毅[18]采用分類-決策樹方法Mining Tree模型分析了湖南、河南、福建和云南4省煙葉樣品的21個(gè)化學(xué)指標(biāo),提取各煙區(qū)特征化學(xué)指標(biāo)數(shù)量為8個(gè)、6個(gè)、5個(gè)和9個(gè),樣本量越大的煙區(qū)特征指標(biāo)越多,且部分所篩選指標(biāo)在各煙區(qū)間存在重疊,如4個(gè)煙區(qū)特征指標(biāo)都包括鉀和硝酸根。本研究構(gòu)建的OPLS-DA模型分別提取了2個(gè)、3個(gè)和3個(gè)指標(biāo)作為四川、云南和福建特征化學(xué)指標(biāo),特征指標(biāo)數(shù)量與樣本容量不相關(guān),并且所提取的特征化學(xué)指標(biāo)具有唯一性,各個(gè)煙區(qū)不存在重疊。本研究提取的云南、福建煙葉特征化學(xué)指標(biāo)與上述Mining Tree模型提取的特征指標(biāo)有異同,說明模型篩選的特征指標(biāo)只是相對(duì)的特征指標(biāo),對(duì)于不同的煙區(qū)煙葉和分析模型,特征化學(xué)指標(biāo)會(huì)有所差異。
對(duì)所構(gòu)建的OPLS-DA模型進(jìn)行交叉驗(yàn)證時(shí),驗(yàn)證集數(shù)據(jù)(n=1172)識(shí)別率為94.45%,測(cè)試集數(shù)據(jù)(n=90)識(shí)別率為87.78%,遠(yuǎn)高于文獻(xiàn)[18]中21.15%水平。在四川、云南和福建同為清香型煙葉產(chǎn)區(qū),且各產(chǎn)區(qū)內(nèi)產(chǎn)地間差異較大(如四川包括3個(gè)二級(jí)煙草種植區(qū)劃[25],煙葉包括清香型和中間香型)的背景下,OPLS-DA模型表現(xiàn)良好。研究中,將模型運(yùn)用于河南、湖南和云南這種產(chǎn)區(qū)間煙葉風(fēng)格差異明顯,以及玉溪、攀枝花和龍巖這種產(chǎn)地內(nèi)煙葉風(fēng)格差異較小時(shí),結(jié)果表明模型擬合效果表現(xiàn)更好,未知樣品識(shí)別正確率達(dá)100%。同時(shí),適當(dāng)增大訓(xùn)練集樣本量,有助于于提高模型精度和可靠性[24]。此外,該模型還可以引入煙葉品種、等級(jí)、經(jīng)緯度、土壤理化指標(biāo)、氣象因子等變量,為明確不同產(chǎn)區(qū)煙葉風(fēng)格特色、形成不同風(fēng)格特色煙葉的區(qū)域定位和定向生產(chǎn)技術(shù)提供更系統(tǒng)的參考。
OPLS-DA模型有效地從21種化學(xué)指標(biāo)中篩選出了云南、四川和福建3個(gè)烤煙產(chǎn)區(qū)煙葉的唯一特征指標(biāo),通過提取的預(yù)測(cè)主成分和正交主成分,對(duì)不同產(chǎn)區(qū)煙葉之間化學(xué)指標(biāo)的差異進(jìn)行了解釋和預(yù)測(cè),這為進(jìn)一步理解和分析不同生態(tài)條件煙葉質(zhì)量和風(fēng)格特色的形成提供了新的思路和方法。
[1] 韓錦峰,汪耀富,楊素勤. 干旱脅迫對(duì)烤煙化學(xué)成分和香氣物質(zhì)含量的影響[J]. 中國煙草,1994(1):35-38.
[2] 韋成才,馬英明,艾綏龍,等. 陜南烤煙質(zhì)量與氣候關(guān)系研究[J]. 中國煙草科學(xué),2004(3):38-41.
[3] 王淑芳,王愛忠,奕雙. 熱量條件分析與最佳移栽期探討[J]. 煙草科技,1991(2):4l-44.
[4] 程昌新,盧秀萍,許自成,等. 基因型和生態(tài)因素對(duì)煙草香氣物質(zhì)含量的影響[J]. 中國農(nóng)學(xué)通報(bào),2005,21(11):137-139.
[5] 楊鐵釗. 煙草育種學(xué)[M]. 北京:中國農(nóng)業(yè)出版社,2003.
[6] 中國農(nóng)業(yè)科學(xué)院煙草研究所. 中國煙草栽培學(xué)[M]. 上海:上??茖W(xué)技術(shù)出版社,2005:113-115.
[7] 于建軍,邵惠芳,劉艷芳,等. 四川涼山烤煙葉片巨豆三烯酮含量與生態(tài)因子的關(guān)系[J]. 生態(tài)學(xué)報(bào),2009,29(4):1668-1674.
[8] 劉雷,王俊,雷強(qiáng),等. 涼山和宜賓烤煙煙葉中特征揮發(fā)性物質(zhì)的聚類分析與產(chǎn)地識(shí)別[J]. 煙草科技,2013,46(7):58-62.
[9] 王鵬澤,劉鵬飛,來苗,等. 因子、聚類及判別分析在煙葉風(fēng)格特色評(píng)價(jià)中的應(yīng)用[J]. 中國煙草科學(xué),2015,36(2):20-25.
[10] 于建軍,代惠娟,李愛軍,等. 鄂西南烤煙主要化學(xué)成分因子分析及綜合評(píng)價(jià)[J]. 甘肅農(nóng)業(yè)大學(xué)學(xué)報(bào),2008,43(1):98-101.
[11] 畢淑峰,朱顯靈,馬成澤. 逐步判別分析在中國烤煙香型鑒定中的應(yīng)用[J]. 熱帶作物學(xué)報(bào),2006,27(4):104-107.
[12] 杜文,易建華,譚新良,等. 基于近紅外光譜的煙葉SIMCA模式識(shí)別[J]. 中國煙草科學(xué),2009,15(5):1-5.
[13] LIU L,HUANG Y B,WANG J,et al. Study on Discriminating Flue-Cured Tobacco by Volatile Compounds Related to Geographical Origin and Cultivar[J]. Asian Journal of Chemistry, 2013, 25: 7587-7592.
[14] 施豐成,李東亮,馮廣林,等. 基于近紅外光譜的PLSDA算法判別烤煙煙葉產(chǎn)地[J]. 煙草科技,2013,46(4):56-59.
[15] 王子芳,秦建成,羅云云,等. 基于模糊數(shù)學(xué)方法的煙葉品質(zhì)評(píng)價(jià)[J]. 土壤通報(bào),2008,39(2):349-353.
[16] 唐力為,顧會(huì)戰(zhàn),吳紹軍,等. 廣元市植煙土壤養(yǎng)分與其煙葉品質(zhì)的灰色關(guān)聯(lián)分析[J]. 貴州農(nóng)業(yè)科學(xué),2013,47(7):67-72.
[17] 邵惠芳,許自成,李東亮,等. 基于BP神經(jīng)網(wǎng)絡(luò)建立烤煙感官質(zhì)量的預(yù)測(cè)模型[J]. 中國煙草學(xué)報(bào),2011,17(1):19-25.
[18] 張毅,李強(qiáng),王政,等. 一種基于分類-回歸決策樹的烤煙產(chǎn)區(qū)識(shí)別模型[J]. 中國煙草學(xué)報(bào),2014,20(6):28-33.
[19] SADEGHI-BAZARGANI H, BANGDIWALA S I, MOHAMMAD K, et al. Compared application of the new OPLS-DA statistical model versus partial least squares regression to manage large numbers of variables in an injury case-control study[J]. Scientific Research and Essays, 2011, 6(20): 4369-4377.
[20] 國家煙草專賣局科教司.中國煙草科學(xué)技術(shù)數(shù)據(jù)庫[DB/OL]. (2003-08-05)[2016-03-21]. http://sjk.ztri.com. cn/tobacco/index.jsp.
[21] TRYGG J, WOLD S. Orthogonal Projections to Latent Structures (OPLS)[J].Journal of Chemometrics, 2002, 16(3): 119-128.
[22] ERIKSSON L, JOHANSSON E, WOLD N, et al. Multiand Megavariate Data Analysis: Advanced Applications and Method Extensions(1st ed.)[M]. Umetrics AB; Umea: 2006.
[23] TRYGG J. Prediction and Spectral Profile Estimation in Multivariate Calibration[J]. Journal of Chemometrics, 2004, 18(18): 166-172.
[24] 李東亮. 數(shù)據(jù)處理方法及其在煙草質(zhì)量評(píng)價(jià)中的應(yīng)用[M]. 鄭州:鄭州大學(xué)出版社,2014.
[25] 中國煙草總公司鄭州煙草研究院,中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)資源與農(nóng)業(yè)區(qū)劃研究所. 中國煙草種植區(qū)劃[M]. 北京:科學(xué)出版社,2009.
The OPLS-DA Model of Tobacco Producing Areas Based on Chemical Measurements
WANG Jun1, XU Duokuan1, XIAO Yong2, WANG Yong1, CHEN Zhihua2, CHEN Weijian1
(1. Sichuan Tobacco Corporation Deyang branch, Deyang, Sichuan 618400, China; 2. China National Tobacco Corporation Sichuan Branch, Chengdu 610041, China)
In order to construct the pattern recognition model of tobacco producing areas based on chemical measurements, 21 chemical measurements from 1262 samples of flue-cured tobacco were collected from 2003 to 2007, and were used to construct a OPLS-DA model. The results showed that the OPLS-DA model was highly significant with the following model performance statistics (R2X=0.429,R2Y=0.702,Q2= 0.627). The OPLS-DA of the training set gave a model with two Y-predictive components, and gave the correct rate of 76.67%, 93.33% and 93.33% to distinguish samples from Sichuan, Yunnan and Fujian tobacco producing areas. The OPLS-DA model based on chemical measurements can recognize tobacco samples from different producing areas, and can be used in screening for biomarkers for different areas and providing interpretations for regional difference of tobacco samples.
flue-cured tobacco; chemical measurements; OPLS; discriminant analysis
TS41+1
1007-5119(2017)01-0091-06
10.13496/j.issn.1007-5119.2017.01.016
公益性行業(yè)(農(nóng)業(yè))科研專項(xiàng)“煙草增香減害關(guān)鍵技術(shù)研究與示范”(201203091);中國煙草總公司四川省公司“德陽雪茄煙移栽期研究”(201505)
王 ?。?986-),男,碩士,主要從事煙草化學(xué)相關(guān)研究。E-mail:599187325@qq.com
2016-05-10
2016-08-15