帖金鑫,何文苗,李石頭,郝賢偉,李永生,張立立,鐘永健,畢一鳴
浙江中煙工業(yè)有限責(zé)任公司 技術(shù)中心,浙江 杭州 310008
產(chǎn)地是一種在特定生態(tài)氣候、土壤及種植方式下反映煙葉綜合品質(zhì)的屬性標(biāo)簽,也是影響煙葉品質(zhì)的重要因素。從農(nóng)業(yè)角度看,產(chǎn)地溯源、原產(chǎn)地認(rèn)定、法定保護(hù)等有助于農(nóng)產(chǎn)品價(jià)格與品質(zhì)區(qū)分。從煙草工業(yè)領(lǐng)域角度看,煙葉產(chǎn)地屬性研究有助于工業(yè)企業(yè)深入了解各產(chǎn)區(qū)煙葉相似性及差異[1-2]。近紅外光譜分析技術(shù)具有快速、簡(jiǎn)便、準(zhǔn)確率高、成本低等特點(diǎn),在農(nóng)產(chǎn)品的定性定量分析中得到了廣泛的應(yīng)用[3-6]。但近紅外模型的準(zhǔn)確度依賴樣本數(shù)量規(guī)模及樣本的代表性,實(shí)際研究中近紅外模型的深度學(xué)習(xí)往往需要投入大量的精力,而大量采集近紅外數(shù)據(jù)并不容易實(shí)現(xiàn)。施豐成等[7]利用近紅外光譜對(duì)四川、云南、重慶、福建4個(gè)產(chǎn)區(qū)煙葉分別建立產(chǎn)地判別模型,對(duì)各個(gè)產(chǎn)區(qū)內(nèi)驗(yàn)證集樣本預(yù)測(cè)精度大于90%。孫文蘋[8]提出了一種改進(jìn)的KNN算法對(duì)未知煙葉樣品進(jìn)行分類,提高了產(chǎn)區(qū)分類的正確率。束茹欣等[9]基于主成分分析及Fisher準(zhǔn)則建立了煙葉生態(tài)產(chǎn)區(qū)和風(fēng)格特征的投影分析模型,以生態(tài)產(chǎn)區(qū)模型的分析結(jié)果闡釋了煙葉香型風(fēng)格劃分的合理性,取得了較好的結(jié)果。陳琦等[10]利用近紅外分析結(jié)合元素分析對(duì)產(chǎn)業(yè)產(chǎn)地進(jìn)行預(yù)測(cè),近紅外模型預(yù)測(cè)產(chǎn)地準(zhǔn)確率75%,結(jié)合元素分析方法產(chǎn)地識(shí)別準(zhǔn)確率提高到96%。白雁等[11]利用近紅外光譜結(jié)合聚類分析法對(duì)不同區(qū)域連翹的鑒別研究結(jié)果表明,近紅外光譜可以全面地反映連翹的整體質(zhì)量信息,利用近紅外聚類分析法對(duì)連翹進(jìn)行產(chǎn)區(qū)鑒別是可行的。
我國(guó)地域遼闊,不同產(chǎn)地間的生態(tài)差異很大,煙葉的品質(zhì)風(fēng)格也千差萬(wàn)別。隨著產(chǎn)地?cái)?shù)目的增大,判別模型的復(fù)雜度升高,上述研究中模型精度隨之下降[12]?,F(xiàn)有分類方法主要用于識(shí)別類別差異最大的樣本或者某一類別較多的樣本,預(yù)測(cè)精度受限。如果依據(jù)人工經(jīng)驗(yàn),給定一個(gè)合理的方向(中間層),有助于在小樣本量下實(shí)現(xiàn)層級(jí)分類。為解決多產(chǎn)地識(shí)別中分類模型復(fù)雜度高、預(yù)測(cè)精度低的問(wèn)題,本文擬提出一種基于級(jí)聯(lián)分類的復(fù)烤片煙產(chǎn)地預(yù)測(cè)方法,該方法首先通過(guò)近紅外光譜判斷樣本的香型屬性并構(gòu)建香型模型作為中間層,再使用線性判別分析(LDA)或偏最小二乘分析(Partial Least Squares, PLS)方法對(duì)每種香型的產(chǎn)地進(jìn)行細(xì)分,即在單一香型框架下構(gòu)建產(chǎn)地模型進(jìn)行產(chǎn)地預(yù)測(cè),以期將多產(chǎn)地判定的復(fù)雜問(wèn)題進(jìn)行分解,降低算法的復(fù)雜度,進(jìn)而實(shí)現(xiàn)多產(chǎn)地鑒別的目標(biāo)。
本文所使用樣本為全國(guó)主要煙葉產(chǎn)區(qū)的復(fù)烤片煙樣本,共計(jì)232個(gè),由浙江中煙工業(yè)有限責(zé)任公司提供。將樣本按照煙草行業(yè)標(biāo)準(zhǔn)《煙草及煙草制品 試樣的制備和水分測(cè)定 烘箱法》(YC/T 31—1996)[13]制備成煙末樣本(粒徑≥40目,水分含量5%~7%),密封保存。取適量煙末放入樣品杯中(約占杯高度的1/3),取一固定質(zhì)量砝碼放置在樣品上方,使其自然壓實(shí)后,旋轉(zhuǎn)樣品杯,進(jìn)行近紅外掃描。近紅外光譜由Antaris型傅里葉變換近紅外光譜儀(美國(guó)Therom Fisher公司產(chǎn))采集,采集范圍為10 000~4000 cm-1,光譜分辨率為8 cm-1;掃描次數(shù)為72次。為避免散射影響,近紅外光譜進(jìn)行了Savitzky-Golay(SG)平滑和標(biāo)準(zhǔn)正態(tài)校正處理(SNV)[14]。
取194個(gè)復(fù)烤片煙樣本近紅外光譜數(shù)據(jù)作為建模樣本,另取38個(gè)復(fù)烤片煙近紅外光譜數(shù)據(jù)作為測(cè)試樣本,建模及測(cè)試樣本信息如表1所示。
表1 建模及測(cè)試樣本信息
產(chǎn)地判定模型必須對(duì)每一類別都找出其獨(dú)有特征,類別數(shù)增多會(huì)導(dǎo)致部分類別特征波數(shù)因重疊而被誤判。專家利用感官評(píng)價(jià)對(duì)煙葉的產(chǎn)區(qū)風(fēng)格進(jìn)行判斷時(shí),除少數(shù)風(fēng)格識(shí)別度較高的產(chǎn)區(qū)外,一般不直接捕捉其特定信息,而是采取循序漸進(jìn)的方式,先確定一個(gè)大致范圍,排除干擾后再在這個(gè)范圍內(nèi)確定該樣本所屬產(chǎn)區(qū)。受此啟發(fā),本文提出一種基于級(jí)聯(lián)分類的復(fù)烤片煙產(chǎn)地預(yù)測(cè)方法,構(gòu)建一個(gè)中間層(香型判定),利用中間層先將所有樣本分類,再在每一個(gè)子類中進(jìn)行產(chǎn)區(qū)判定,以避免類別過(guò)多導(dǎo)致的模型復(fù)雜度升高及判定結(jié)果不理想。
本文提出的級(jí)聯(lián)分類模型流程示意圖見圖1。其中香型模型作為中間層,將香型模型下的產(chǎn)地模型作為第二層。香型模型將所有樣本歸類,其差異表現(xiàn)為大區(qū)域內(nèi)的風(fēng)格差異,如香韻、煙氣狀態(tài)等,采用三維數(shù)據(jù)給定標(biāo)簽,即清香[1 0 0],中間香[0 1 0],濃香[0 0 1],這種三維香型體系可在避免香型加和性的同時(shí)綜合反映樣本的香型。采用PLS分析方法進(jìn)行香型模型建模[15],三維香型標(biāo)簽作為Y,根據(jù)PLS的預(yù)測(cè)值在3個(gè)維度上表征樣本香型風(fēng)格,這種量化形式有助于判斷目標(biāo)樣本是否能明確地被判定為三類中的某一類。
圖1 級(jí)聯(lián)分類模型的流程示意圖
第二層產(chǎn)地模型為每個(gè)香型風(fēng)格下的細(xì)分歸類,其差異表現(xiàn)為相近產(chǎn)地樣本的品質(zhì)差異,如地方性雜氣等特點(diǎn)。第二層模型采用LDA或者PLS方法進(jìn)行建模,輸出結(jié)果為最終的預(yù)測(cè)產(chǎn)地。
模型涉及的算法通過(guò)Matlab 7.14平臺(tái)實(shí)現(xiàn),其中,LDA計(jì)算程序由Matlab的classify函數(shù)執(zhí)行,在計(jì)算前用譜回歸方法對(duì)數(shù)據(jù)進(jìn)行降維[16]。其他算法由作者編程實(shí)現(xiàn)。
在PLS建模中,需要通過(guò)選擇合適的潛變量數(shù)來(lái)避免模型欠定和過(guò)擬合。本文使用了Haaland提出的統(tǒng)計(jì)檢驗(yàn)方法選擇合適的潛變量數(shù),通過(guò)計(jì)算交叉驗(yàn)證預(yù)測(cè)殘量誤差平方和(Prediction Error Sum of Squares, PRESS),利用F檢驗(yàn),當(dāng)PRESS最小值不顯著時(shí),選擇最少的潛在變量數(shù)[17]。
香型模型構(gòu)建的關(guān)鍵問(wèn)題是其合理性。如果香型模型判斷錯(cuò)誤,則樣本將被分到不屬于其產(chǎn)地的大類中,從而導(dǎo)致誤判。因此,香型模型構(gòu)建必須有一定的理論支持和很高的判別正確率。文中采用定量分析中常用的交叉驗(yàn)證方式,利用抽樣-建模-統(tǒng)計(jì)的方式考查香型模型的正確率及穩(wěn)定性。對(duì)數(shù)據(jù)中香型模型的精度進(jìn)行考查,未通過(guò)人工感官方式剔除樣本,對(duì)每種香型隨機(jī)抽取70%數(shù)據(jù)作為單次抽樣中的訓(xùn)練集,其余30%作為驗(yàn)證集,進(jìn)行一次建模分析。重復(fù)實(shí)驗(yàn)100次,確保每個(gè)樣本都多次被選入測(cè)試集,每次抽樣后,用PLS方法進(jìn)行建模,對(duì)該次抽樣中的測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè),多次抽樣實(shí)驗(yàn)中間層模型的訓(xùn)練集及測(cè)試集正確率結(jié)果見圖2。由圖2可以看出,訓(xùn)練集平均正確率高達(dá)93%(標(biāo)準(zhǔn)差為2.3%),測(cè)試集正確率高達(dá)88%(標(biāo)準(zhǔn)差為4.9%),實(shí)驗(yàn)結(jié)果與王一丁等[18]關(guān)于近紅外光譜可以預(yù)測(cè)香型的結(jié)論一致,也說(shuō)明了本文提出的中間層模型與專家經(jīng)驗(yàn)判定結(jié)果相符,可用于預(yù)測(cè)復(fù)烤片煙產(chǎn)地屬性。
圖2 多次抽樣實(shí)驗(yàn)香型模型的訓(xùn)練集及測(cè)試集正確率
基于上述合理性分析的結(jié)果,將所有訓(xùn)練集樣本使用PLS方法進(jìn)行香型建模,模型輸出香型指數(shù)預(yù)測(cè)值,未出現(xiàn)兩種香型指數(shù)同時(shí)高于0.5或者單個(gè)香型指數(shù)遠(yuǎn)高于1的情況,表明使用清香型、中間香型、濃香型3個(gè)維度,可以較好地概括樣本的香型情況,不存在模型外推情況。在給出三維的香型指數(shù)后,按如下規(guī)則確定香型:若三維中有某一維指數(shù)值大于0.5,則以該維代表的香型作為樣本香型;若三維指數(shù)均不大于0.5,則將該樣本定為中間香型。模型的預(yù)測(cè)規(guī)則與傳統(tǒng)經(jīng)驗(yàn)中“非清非濃即為中”的準(zhǔn)則相符。三維標(biāo)簽的優(yōu)點(diǎn)在于,可以將中間香型突出和3種香型均不突出的樣本在香型建模的環(huán)節(jié)體現(xiàn)出來(lái)。中間香型樣本分布廣泛,如果僅通過(guò)一種標(biāo)簽標(biāo)注,可能使得樣本間的物質(zhì)差異(光譜差異)無(wú)法體現(xiàn),導(dǎo)致模型的可解釋性降低?;赑LS方法的香型模型中3種香型的回歸系數(shù)如圖3所示。由圖3可以看出,3種香型在10 000~6000 cm-1區(qū)域內(nèi)有顯著的差異,在6000~4000 cm-1區(qū)域內(nèi),清香型和中間香型也有若干典型的吸收區(qū)域,說(shuō)明了近紅外光譜對(duì)煙葉香型的差異有較好的反應(yīng)。在級(jí)聯(lián)分類模型中,以該香型模型對(duì)38個(gè)測(cè)試樣本的香型進(jìn)行預(yù)測(cè)。
圖3 香型模型中3種香型的回歸系數(shù)圖
在第二層(產(chǎn)地模型)構(gòu)建時(shí),考慮到部分省份中有可能存在一種以上的不同香型,因此,在香型模型中分別予以考慮,不同產(chǎn)地的香型屬性分布如表2所示。分別用LDA和PLS方法進(jìn)行產(chǎn)地預(yù)測(cè)建模,在LDA方法中,對(duì)訓(xùn)練集中每一類賦予一個(gè)類別標(biāo)簽;在PLS方法中,根據(jù)每一香型下的產(chǎn)地類別數(shù),構(gòu)建一個(gè)產(chǎn)地類別數(shù)的向量,每個(gè)向量中僅有一個(gè)數(shù)值為1,表征特定的產(chǎn)地,其他元素均為0。在本文中,清香型、中間香型和濃香型產(chǎn)地標(biāo)簽的維數(shù)分別為二維、六維和四維。
表2 不同產(chǎn)地的香型屬性分布表
以LDA方法為例,細(xì)分香型下的產(chǎn)地模型回歸系數(shù)如圖4所示。對(duì)于清香型煙葉,共有四川和云南兩類標(biāo)簽,通過(guò)該回歸系數(shù)與光譜進(jìn)行計(jì)算,得到建模數(shù)據(jù)中的判定值。對(duì)每個(gè)測(cè)試樣本,根據(jù)其模型計(jì)算的數(shù)值及判定確定是屬于四川還是云南。同樣由中間香型樣本的訓(xùn)練數(shù)據(jù)給出閾值,根據(jù)閾值對(duì)測(cè)試樣本進(jìn)行產(chǎn)地分類。濃香型也是同樣的步驟。
圖4 細(xì)分香型下的產(chǎn)地模型回歸系數(shù)(LDA方法)
將本文的級(jí)聯(lián)分類模型與傳統(tǒng)的LDA模型和PLS模型進(jìn)行對(duì)比,多種方法對(duì)測(cè)試樣本的產(chǎn)地預(yù)測(cè)結(jié)果(僅列舉部分預(yù)測(cè)結(jié)果有差異的樣本)見表3,預(yù)測(cè)結(jié)果統(tǒng)計(jì)見表4。
由表3和表4可知,傳統(tǒng)的LDA模型預(yù)測(cè)的正確率為83.33%,在云南煙葉與四川煙葉辨別中出現(xiàn)較多錯(cuò)誤,主要原因是兩省接壤在氣候上有一定的相似之處;傳統(tǒng)的PLS模型預(yù)測(cè)的正確率為72.22%,誤判樣本中主要為山東和廣西樣本,與感官評(píng)吸專家認(rèn)為山東和廣西的香韻不典型有關(guān)。本文的方法引入了香型模型作為中間層,再使用LDA或PLS方法進(jìn)行產(chǎn)地預(yù)測(cè),基于LDA方法的級(jí)聯(lián)分類模型預(yù)測(cè)正確率為94.44%,對(duì)絕大多數(shù)樣本均表現(xiàn)良好,僅有的2個(gè)誤判樣本也都判別為地理上的臨近產(chǎn)區(qū);基于PLS方法的級(jí)聯(lián)分類模型預(yù)測(cè)正確率為86.11%,錯(cuò)誤樣本主要來(lái)自廣西等香韻特征不典型產(chǎn)區(qū),說(shuō)明中間層的引入使得兩種模型的準(zhǔn)確率都得到了較大提高。
表3 多種模型對(duì)測(cè)試樣本的產(chǎn)地預(yù)測(cè)結(jié)果
表4 多種模型在測(cè)試樣本中的預(yù)測(cè)結(jié)果統(tǒng)計(jì)
本文提出了一種基于級(jí)聯(lián)分類的復(fù)烤片煙產(chǎn)地預(yù)測(cè)方法,并將其用于復(fù)烤片煙的產(chǎn)地預(yù)測(cè),該方法首先通過(guò)近紅外光譜判斷樣本的香型屬性并構(gòu)建香型模型作為中間層,再使用LDA或PLS方法在單一香型框架下構(gòu)建產(chǎn)地模型進(jìn)行產(chǎn)地預(yù)測(cè)。該級(jí)聯(lián)分類模型將原始的多產(chǎn)地分類問(wèn)題分解為若干個(gè)少產(chǎn)地分類問(wèn)題,從而大大降低了模型的復(fù)雜度。實(shí)際應(yīng)用結(jié)果表明,通過(guò)引入香型模型作為中間層,基于LDA的分類模型預(yù)測(cè)準(zhǔn)確率由原來(lái)的83.33%提升至94.44%;基于PLS的分類模型預(yù)測(cè)準(zhǔn)確率由72.22%提升至86.11%。在有限樣本數(shù)據(jù)和不引入新的模型參數(shù)的條件下,本文的級(jí)聯(lián)分類模型可以有效地降低復(fù)烤片煙的產(chǎn)地誤判比例。