基于級(jí)聯(lián)分類的復(fù)烤片煙產(chǎn)地預(yù)測(cè)方法研究

2022-08-12 08:01:14帖金鑫何文苗李石頭郝賢偉李永生張立立鐘永健畢一鳴

輕工學(xué)報(bào) 2022年4期

帖金鑫，何文苗，李石頭，郝賢偉，李永生，張立立，鐘永健，畢一鳴

浙江中煙工業(yè)有限責(zé)任公司技術(shù)中心，浙江杭州 310008

0 引言

產(chǎn)地是一種在特定生態(tài)氣候、土壤及種植方式下反映煙葉綜合品質(zhì)的屬性標(biāo)簽，也是影響煙葉品質(zhì)的重要因素。從農(nóng)業(yè)角度看，產(chǎn)地溯源、原產(chǎn)地認(rèn)定、法定保護(hù)等有助于農(nóng)產(chǎn)品價(jià)格與品質(zhì)區(qū)分。從煙草工業(yè)領(lǐng)域角度看，煙葉產(chǎn)地屬性研究有助于工業(yè)企業(yè)深入了解各產(chǎn)區(qū)煙葉相似性及差異[1-2]。近紅外光譜分析技術(shù)具有快速、簡(jiǎn)便、準(zhǔn)確率高、成本低等特點(diǎn)，在農(nóng)產(chǎn)品的定性定量分析中得到了廣泛的應(yīng)用[3-6]。但近紅外模型的準(zhǔn)確度依賴樣本數(shù)量規(guī)模及樣本的代表性，實(shí)際研究中近紅外模型的深度學(xué)習(xí)往往需要投入大量的精力，而大量采集近紅外數(shù)據(jù)并不容易實(shí)現(xiàn)。施豐成等[7]利用近紅外光譜對(duì)四川、云南、重慶、福建4個(gè)產(chǎn)區(qū)煙葉分別建立產(chǎn)地判別模型，對(duì)各個(gè)產(chǎn)區(qū)內(nèi)驗(yàn)證集樣本預(yù)測(cè)精度大于90%。孫文蘋[8]提出了一種改進(jìn)的KNN算法對(duì)未知煙葉樣品進(jìn)行分類，提高了產(chǎn)區(qū)分類的正確率。束茹欣等[9]基于主成分分析及Fisher準(zhǔn)則建立了煙葉生態(tài)產(chǎn)區(qū)和風(fēng)格特征的投影分析模型，以生態(tài)產(chǎn)區(qū)模型的分析結(jié)果闡釋了煙葉香型風(fēng)格劃分的合理性，取得了較好的結(jié)果。陳琦等[10]利用近紅外分析結(jié)合元素分析對(duì)產(chǎn)業(yè)產(chǎn)地進(jìn)行預(yù)測(cè)，近紅外模型預(yù)測(cè)產(chǎn)地準(zhǔn)確率75%，結(jié)合元素分析方法產(chǎn)地識(shí)別準(zhǔn)確率提高到96%。白雁等[11]利用近紅外光譜結(jié)合聚類分析法對(duì)不同區(qū)域連翹的鑒別研究結(jié)果表明，近紅外光譜可以全面地反映連翹的整體質(zhì)量信息，利用近紅外聚類分析法對(duì)連翹進(jìn)行產(chǎn)區(qū)鑒別是可行的。

我國(guó)地域遼闊，不同產(chǎn)地間的生態(tài)差異很大，煙葉的品質(zhì)風(fēng)格也千差萬(wàn)別。隨著產(chǎn)地?cái)?shù)目的增大，判別模型的復(fù)雜度升高，上述研究中模型精度隨之下降[12]?，F(xiàn)有分類方法主要用于識(shí)別類別差異最大的樣本或者某一類別較多的樣本，預(yù)測(cè)精度受限。如果依據(jù)人工經(jīng)驗(yàn)，給定一個(gè)合理的方向(中間層)，有助于在小樣本量下實(shí)現(xiàn)層級(jí)分類。為解決多產(chǎn)地識(shí)別中分類模型復(fù)雜度高、預(yù)測(cè)精度低的問(wèn)題，本文擬提出一種基于級(jí)聯(lián)分類的復(fù)烤片煙產(chǎn)地預(yù)測(cè)方法，該方法首先通過(guò)近紅外光譜判斷樣本的香型屬性并構(gòu)建香型模型作為中間層，再使用線性判別分析(LDA)或偏最小二乘分析(Partial Least Squares, PLS)方法對(duì)每種香型的產(chǎn)地進(jìn)行細(xì)分，即在單一香型框架下構(gòu)建產(chǎn)地模型進(jìn)行產(chǎn)地預(yù)測(cè)，以期將多產(chǎn)地判定的復(fù)雜問(wèn)題進(jìn)行分解，降低算法的復(fù)雜度，進(jìn)而實(shí)現(xiàn)多產(chǎn)地鑒別的目標(biāo)。

1 樣本的獲取

本文所使用樣本為全國(guó)主要煙葉產(chǎn)區(qū)的復(fù)烤片煙樣本，共計(jì)232個(gè)，由浙江中煙工業(yè)有限責(zé)任公司提供。將樣本按照煙草行業(yè)標(biāo)準(zhǔn)《煙草及煙草制品試樣的制備和水分測(cè)定烘箱法》(YC/T 31—1996)[13]制備成煙末樣本(粒徑≥40目，水分含量5%～7%)，密封保存。取適量煙末放入樣品杯中(約占杯高度的1/3)，取一固定質(zhì)量砝碼放置在樣品上方，使其自然壓實(shí)后，旋轉(zhuǎn)樣品杯，進(jìn)行近紅外掃描。近紅外光譜由Antaris型傅里葉變換近紅外光譜儀(美國(guó)Therom Fisher公司產(chǎn))采集，采集范圍為10 000～4000 cm-1，光譜分辨率為8 cm-1；掃描次數(shù)為72次。為避免散射影響，近紅外光譜進(jìn)行了Savitzky-Golay(SG)平滑和標(biāo)準(zhǔn)正態(tài)校正處理(SNV)[14]。

取194個(gè)復(fù)烤片煙樣本近紅外光譜數(shù)據(jù)作為建模樣本，另取38個(gè)復(fù)烤片煙近紅外光譜數(shù)據(jù)作為測(cè)試樣本，建模及測(cè)試樣本信息如表1所示。

表1 建模及測(cè)試樣本信息

2 基于級(jí)聯(lián)分類的產(chǎn)地預(yù)測(cè)

2.1 產(chǎn)地預(yù)測(cè)思路

產(chǎn)地判定模型必須對(duì)每一類別都找出其獨(dú)有特征，類別數(shù)增多會(huì)導(dǎo)致部分類別特征波數(shù)因重疊而被誤判。專家利用感官評(píng)價(jià)對(duì)煙葉的產(chǎn)區(qū)風(fēng)格進(jìn)行判斷時(shí)，除少數(shù)風(fēng)格識(shí)別度較高的產(chǎn)區(qū)外，一般不直接捕捉其特定信息，而是采取循序漸進(jìn)的方式，先確定一個(gè)大致范圍，排除干擾后再在這個(gè)范圍內(nèi)確定該樣本所屬產(chǎn)區(qū)。受此啟發(fā)，本文提出一種基于級(jí)聯(lián)分類的復(fù)烤片煙產(chǎn)地預(yù)測(cè)方法，構(gòu)建一個(gè)中間層(香型判定)，利用中間層先將所有樣本分類，再在每一個(gè)子類中進(jìn)行產(chǎn)區(qū)判定，以避免類別過(guò)多導(dǎo)致的模型復(fù)雜度升高及判定結(jié)果不理想。

本文提出的級(jí)聯(lián)分類模型流程示意圖見圖1。其中香型模型作為中間層，將香型模型下的產(chǎn)地模型作為第二層。香型模型將所有樣本歸類，其差異表現(xiàn)為大區(qū)域內(nèi)的風(fēng)格差異，如香韻、煙氣狀態(tài)等，采用三維數(shù)據(jù)給定標(biāo)簽，即清香[1 0 0]，中間香[0 1 0]，濃香[0 0 1]，這種三維香型體系可在避免香型加和性的同時(shí)綜合反映樣本的香型。采用PLS分析方法進(jìn)行香型模型建模[15]，三維香型標(biāo)簽作為Y，根據(jù)PLS的預(yù)測(cè)值在3個(gè)維度上表征樣本香型風(fēng)格，這種量化形式有助于判斷目標(biāo)樣本是否能明確地被判定為三類中的某一類。

圖1 級(jí)聯(lián)分類模型的流程示意圖

第二層產(chǎn)地模型為每個(gè)香型風(fēng)格下的細(xì)分歸類，其差異表現(xiàn)為相近產(chǎn)地樣本的品質(zhì)差異，如地方性雜氣等特點(diǎn)。第二層模型采用LDA或者PLS方法進(jìn)行建模，輸出結(jié)果為最終的預(yù)測(cè)產(chǎn)地。

模型涉及的算法通過(guò)Matlab 7.14平臺(tái)實(shí)現(xiàn)，其中，LDA計(jì)算程序由Matlab的classify函數(shù)執(zhí)行，在計(jì)算前用譜回歸方法對(duì)數(shù)據(jù)進(jìn)行降維[16]。其他算法由作者編程實(shí)現(xiàn)。

在PLS建模中，需要通過(guò)選擇合適的潛變量數(shù)來(lái)避免模型欠定和過(guò)擬合。本文使用了Haaland提出的統(tǒng)計(jì)檢驗(yàn)方法選擇合適的潛變量數(shù)，通過(guò)計(jì)算交叉驗(yàn)證預(yù)測(cè)殘量誤差平方和(Prediction Error Sum of Squares, PRESS)，利用F檢驗(yàn)，當(dāng)PRESS最小值不顯著時(shí)，選擇最少的潛在變量數(shù)[17]。

2.2 香型模型構(gòu)建

香型模型構(gòu)建的關(guān)鍵問(wèn)題是其合理性。如果香型模型判斷錯(cuò)誤，則樣本將被分到不屬于其產(chǎn)地的大類中，從而導(dǎo)致誤判。因此，香型模型構(gòu)建必須有一定的理論支持和很高的判別正確率。文中采用定量分析中常用的交叉驗(yàn)證方式，利用抽樣-建模-統(tǒng)計(jì)的方式考查香型模型的正確率及穩(wěn)定性。對(duì)數(shù)據(jù)中香型模型的精度進(jìn)行考查，未通過(guò)人工感官方式剔除樣本，對(duì)每種香型隨機(jī)抽取70%數(shù)據(jù)作為單次抽樣中的訓(xùn)練集，其余30%作為驗(yàn)證集，進(jìn)行一次建模分析。重復(fù)實(shí)驗(yàn)100次，確保每個(gè)樣本都多次被選入測(cè)試集，每次抽樣后，用PLS方法進(jìn)行建模，對(duì)該次抽樣中的測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)，多次抽樣實(shí)驗(yàn)中間層模型的訓(xùn)練集及測(cè)試集正確率結(jié)果見圖2。由圖2可以看出，訓(xùn)練集平均正確率高達(dá)93%(標(biāo)準(zhǔn)差為2.3%)，測(cè)試集正確率高達(dá)88%(標(biāo)準(zhǔn)差為4.9%)，實(shí)驗(yàn)結(jié)果與王一丁等[18]關(guān)于近紅外光譜可以預(yù)測(cè)香型的結(jié)論一致，也說(shuō)明了本文提出的中間層模型與專家經(jīng)驗(yàn)判定結(jié)果相符，可用于預(yù)測(cè)復(fù)烤片煙產(chǎn)地屬性。

圖2 多次抽樣實(shí)驗(yàn)香型模型的訓(xùn)練集及測(cè)試集正確率

基于上述合理性分析的結(jié)果，將所有訓(xùn)練集樣本使用PLS方法進(jìn)行香型建模，模型輸出香型指數(shù)預(yù)測(cè)值，未出現(xiàn)兩種香型指數(shù)同時(shí)高于0.5或者單個(gè)香型指數(shù)遠(yuǎn)高于1的情況，表明使用清香型、中間香型、濃香型3個(gè)維度，可以較好地概括樣本的香型情況，不存在模型外推情況。在給出三維的香型指數(shù)后，按如下規(guī)則確定香型：若三維中有某一維指數(shù)值大于0.5，則以該維代表的香型作為樣本香型；若三維指數(shù)均不大于0.5，則將該樣本定為中間香型。模型的預(yù)測(cè)規(guī)則與傳統(tǒng)經(jīng)驗(yàn)中“非清非濃即為中”的準(zhǔn)則相符。三維標(biāo)簽的優(yōu)點(diǎn)在于，可以將中間香型突出和3種香型均不突出的樣本在香型建模的環(huán)節(jié)體現(xiàn)出來(lái)。中間香型樣本分布廣泛，如果僅通過(guò)一種標(biāo)簽標(biāo)注，可能使得樣本間的物質(zhì)差異(光譜差異)無(wú)法體現(xiàn)，導(dǎo)致模型的可解釋性降低?；赑LS方法的香型模型中3種香型的回歸系數(shù)如圖3所示。由圖3可以看出，3種香型在10 000～6000 cm-1區(qū)域內(nèi)有顯著的差異，在6000～4000 cm-1區(qū)域內(nèi)，清香型和中間香型也有若干典型的吸收區(qū)域，說(shuō)明了近紅外光譜對(duì)煙葉香型的差異有較好的反應(yīng)。在級(jí)聯(lián)分類模型中，以該香型模型對(duì)38個(gè)測(cè)試樣本的香型進(jìn)行預(yù)測(cè)。

圖3 香型模型中3種香型的回歸系數(shù)圖

2.3 產(chǎn)地模型構(gòu)建

在第二層(產(chǎn)地模型)構(gòu)建時(shí)，考慮到部分省份中有可能存在一種以上的不同香型，因此，在香型模型中分別予以考慮，不同產(chǎn)地的香型屬性分布如表2所示。分別用LDA和PLS方法進(jìn)行產(chǎn)地預(yù)測(cè)建模，在LDA方法中，對(duì)訓(xùn)練集中每一類賦予一個(gè)類別標(biāo)簽；在PLS方法中，根據(jù)每一香型下的產(chǎn)地類別數(shù)，構(gòu)建一個(gè)產(chǎn)地類別數(shù)的向量，每個(gè)向量中僅有一個(gè)數(shù)值為1，表征特定的產(chǎn)地，其他元素均為0。在本文中，清香型、中間香型和濃香型產(chǎn)地標(biāo)簽的維數(shù)分別為二維、六維和四維。

表2 不同產(chǎn)地的香型屬性分布表

以LDA方法為例，細(xì)分香型下的產(chǎn)地模型回歸系數(shù)如圖4所示。對(duì)于清香型煙葉，共有四川和云南兩類標(biāo)簽，通過(guò)該回歸系數(shù)與光譜進(jìn)行計(jì)算，得到建模數(shù)據(jù)中的判定值。對(duì)每個(gè)測(cè)試樣本，根據(jù)其模型計(jì)算的數(shù)值及判定確定是屬于四川還是云南。同樣由中間香型樣本的訓(xùn)練數(shù)據(jù)給出閾值，根據(jù)閾值對(duì)測(cè)試樣本進(jìn)行產(chǎn)地分類。濃香型也是同樣的步驟。

圖4 細(xì)分香型下的產(chǎn)地模型回歸系數(shù)(LDA方法)

3 產(chǎn)地預(yù)測(cè)結(jié)果與分析

將本文的級(jí)聯(lián)分類模型與傳統(tǒng)的LDA模型和PLS模型進(jìn)行對(duì)比，多種方法對(duì)測(cè)試樣本的產(chǎn)地預(yù)測(cè)結(jié)果(僅列舉部分預(yù)測(cè)結(jié)果有差異的樣本)見表3，預(yù)測(cè)結(jié)果統(tǒng)計(jì)見表4。

由表3和表4可知，傳統(tǒng)的LDA模型預(yù)測(cè)的正確率為83.33%，在云南煙葉與四川煙葉辨別中出現(xiàn)較多錯(cuò)誤，主要原因是兩省接壤在氣候上有一定的相似之處；傳統(tǒng)的PLS模型預(yù)測(cè)的正確率為72.22%，誤判樣本中主要為山東和廣西樣本，與感官評(píng)吸專家認(rèn)為山東和廣西的香韻不典型有關(guān)。本文的方法引入了香型模型作為中間層，再使用LDA或PLS方法進(jìn)行產(chǎn)地預(yù)測(cè)，基于LDA方法的級(jí)聯(lián)分類模型預(yù)測(cè)正確率為94.44%，對(duì)絕大多數(shù)樣本均表現(xiàn)良好，僅有的2個(gè)誤判樣本也都判別為地理上的臨近產(chǎn)區(qū)；基于PLS方法的級(jí)聯(lián)分類模型預(yù)測(cè)正確率為86.11%，錯(cuò)誤樣本主要來(lái)自廣西等香韻特征不典型產(chǎn)區(qū)，說(shuō)明中間層的引入使得兩種模型的準(zhǔn)確率都得到了較大提高。

表3 多種模型對(duì)測(cè)試樣本的產(chǎn)地預(yù)測(cè)結(jié)果

表4 多種模型在測(cè)試樣本中的預(yù)測(cè)結(jié)果統(tǒng)計(jì)

4 結(jié)論

本文提出了一種基于級(jí)聯(lián)分類的復(fù)烤片煙產(chǎn)地預(yù)測(cè)方法，并將其用于復(fù)烤片煙的產(chǎn)地預(yù)測(cè)，該方法首先通過(guò)近紅外光譜判斷樣本的香型屬性并構(gòu)建香型模型作為中間層，再使用LDA或PLS方法在單一香型框架下構(gòu)建產(chǎn)地模型進(jìn)行產(chǎn)地預(yù)測(cè)。該級(jí)聯(lián)分類模型將原始的多產(chǎn)地分類問(wèn)題分解為若干個(gè)少產(chǎn)地分類問(wèn)題，從而大大降低了模型的復(fù)雜度。實(shí)際應(yīng)用結(jié)果表明，通過(guò)引入香型模型作為中間層，基于LDA的分類模型預(yù)測(cè)準(zhǔn)確率由原來(lái)的83.33%提升至94.44%；基于PLS的分類模型預(yù)測(cè)準(zhǔn)確率由72.22%提升至86.11%。在有限樣本數(shù)據(jù)和不引入新的模型參數(shù)的條件下，本文的級(jí)聯(lián)分類模型可以有效地降低復(fù)烤片煙的產(chǎn)地誤判比例。