王天旺 解立明 劉文 王欣
摘要:提出了一種基于改進魯棒多分類SVM的煙葉顏色等級分類方法,將煙葉圖像顏色轉(zhuǎn)為HSV空間。該方法提取煙葉上、中、下三個區(qū)域一、二、三階顏色矩作為分類特征,改進SVM分類器對各色組離群訓(xùn)練樣本的約束,減少依賴,提高分類模型對樣本分類的精確度。在改善SVM二分類器的基礎(chǔ)上采用一對多的多分類策略,實現(xiàn)煙葉顏色6個等級的識別判斷。試驗結(jié)果表明,改進魯棒性SVM方法下所訓(xùn)練模型對未來煙葉顏色等級的識別率比HL-SVM方法的識別率高6.29%。
關(guān)鍵詞:煙葉顏色分級;支持向量機;分類模型;魯棒性
0 引言
近年來,基于煙葉圖像特征分級的研究已經(jīng)有大量文獻報道[1-3],在圖像特征基礎(chǔ)上,提取煙葉顏色特征,運用神經(jīng)網(wǎng)絡(luò)[1]、支持向量機(SVM)[2-3]等分類方法對煙葉進行分級,取得了一定的效果。研究結(jié)果顯示,SVM模型相較神經(jīng)網(wǎng)絡(luò)模型,表現(xiàn)出了更好的泛化能力。然而SVM模型也存在問題,如SVM模型易受訓(xùn)練樣本的影響,對離群訓(xùn)練樣本數(shù)據(jù)比較敏感,存在分類性能不穩(wěn)定的問題。鑒于此,有學(xué)者提出了一種基于Hinge代價函數(shù)的魯棒SVM方法(即HL-SVM)[4],改善離群樣本對SVM分類模型的影響。但此方法只對訓(xùn)練樣本中離群程度輕的影響約束有效,而約束離群程度大的訓(xùn)練樣本則會導(dǎo)致所得分類模型的泛化能力降低。
煙葉各顏色等級的顏色特征存在相關(guān)性,特別是雜色組(即K色組)與其他色組的顏色特征的相關(guān)性極高,導(dǎo)致在顏色特征空間存在樣本遠離其K色組群,分布到其他色組群區(qū)域的情況。
因此,在煙葉顏色等級分類中,不可避免地存在離群程度大的訓(xùn)練樣本點。為此,本文在提取煙葉顏色三階矩作為顏色特征的基礎(chǔ)上,基于改進SVM方法,提出一種煙葉顏色等級分類方法,有效提高分類模型對未來樣本的識別正確率。
1 煙葉分割與特征提取
根據(jù)我國發(fā)布的42級烤煙國家分級標準[5],煙葉顏色是煙葉分級的重要指標,表征煙葉的成熟度和品質(zhì)。目前,42級標準中依據(jù)成熟程度將煙葉分為檸檬黃色組(L)、橘黃色組(F)、紅棕色組(R)、微帶青組(V)、黃青色組(GY)、雜色組(K)6個等級。
使用CCD攝像機采集到的煙葉圖像是RGB顏色圖像,R、G、B三個分量是帶有亮度信息的顏色分量,它們之間存在很高的相關(guān)性,且亮度容易受到采集環(huán)境影響,不利于用作分級參數(shù)。HSV顏色模型用色度(H)、飽和度(S)、明度(V)三個分量表示顏色,它符合人類觀察顏色的視覺和心理特點,與人工判斷顏色的角度一致。此外,明度(V)單獨表示亮度信息,與色度和飽和度不具有相關(guān)性。因此,本文在獲取煙葉RGB圖像后,將煙葉圖像的顏色空間轉(zhuǎn)換為HSV空間,并分別在其分量中提取之后用作分類特征。
本文先利用GrabCut算法[6]提取圖像中的煙葉區(qū)域,再計算煙葉區(qū)域的顏色矩作為分類特征。顏色矩[7]是由Stricker和Orengo提出的一種非常簡單而有效的顏色特征。此顏色矩可表征圖像中任何顏色的分布狀況。此外,由于顏色分布信息主要集中在低階矩中,采用顏色的一階矩、二階矩和三階矩就足以表達圖像顏色分布。
一階顏色矩采用一階原點矩,反映圖像整體顏色程度,其具體計算如下:
式中:N為圖像煙葉區(qū)域像素總數(shù)量;j為顏色空間分量(如HVS中,j=1,2,3,分別表示H、V、S分量);pij表示第j個像素的第i個顏色分量。
二階顏色矩采用二階中心距平方根,反映圖像顏色分布范圍,其具體計算如下:
三階顏色矩采用三階中心距立方根,反映圖像顏色分布對稱性,其具體計算如下:
與顏色直方圖相比,該方法另一個好處在于無須對特征進行向量化。因此,圖像顏色矩一共只需要6個分量(色度和飽和度2個顏色分量,每個分量上3個低階矩),與其他顏色特征相比,非常簡潔。該方法的優(yōu)點在于不需要顏色空間向量化,特征向量維數(shù)低,在后續(xù)分類中可以避免數(shù)據(jù)“分類災(zāi)難”[8]問題。
根據(jù)42級烤煙國家分級標準,不同顏色等級煙葉上部、中部和下部具有不同顏色特征,因此顏色特征提取時將其分為上、中、下三個區(qū)域,并針對三個區(qū)域的H分量和S分量計算其一、二、三階顏色矩,構(gòu)成{e上H? σ上H? s上H? e上S? σ上S
s上S? e中H? σ中H? s中H? e中S? σ中S? s中S? e下H? σ下H? s下H? e下S? σ下S? s下S}特征向量。
2 基于改進魯棒性SVM的煙葉顏色等級分類模型
支持向量機(SVM)是一種機器學(xué)習(xí)的分類技術(shù),通過選擇和函數(shù)將輸入特征向量映射到高維空間,并在該空間構(gòu)造最優(yōu)分類超平面,達到分類目的。
相對大數(shù)據(jù)領(lǐng)域中普遍應(yīng)用的神經(jīng)網(wǎng)絡(luò)方法,SVM在訓(xùn)練樣本較少的情況下,其所得分類模型(即分類超平面)具有較好的泛化能力,未來樣品測試正確率高。但是,SVM也存在缺點,如SVM存在分類性能不穩(wěn)定、對訓(xùn)練樣本數(shù)據(jù)比較敏感的問題[9]。
在研究中,煙葉各顏色組的顏色特征具有一定相關(guān)性。其中,煙葉K色組的顏色特征與其他色組(F組、L組、R組、V組、GY組)的顏色特征相關(guān)性極高,導(dǎo)致各色組訓(xùn)練樣本在顏色特征空間分布的相對關(guān)系會隨訓(xùn)練樣本的不同而改變,使得SVM分類超平面較為敏感、不夠穩(wěn)定,從而影響分類的準確性。
在通過如上方法獲得煙葉顏色特征的基礎(chǔ)上,可改善SVM的魯棒性能,提高分類模型穩(wěn)定性和分類準確度,其整個分類模型訓(xùn)練和測試流程如圖1所示。
2.1? ? 改進魯棒性SVM
為了改善SVM的敏感性,文獻[4]中的HL-SVM方法引入正則化項,對分類超平面敏感性樣本點進行約束,其基本原理如下:假設(shè)煙葉訓(xùn)練樣本的集合為{xm,ym}M m=1,其中,ym∈{-1,1}表示類別標號,xm表示顏色特征向量。依據(jù)HL-SVM的優(yōu)化方程如下:
其中,wTxi+b=0表示分類超平面,λ>0為正則化參數(shù),函數(shù)[]+=max[0,1-yi(wTxi+b)]在優(yōu)化方程中用以懲罰如圖2中(b)(c)和(d)位置的影響分類超平面穩(wěn)定性和準確性較大的樣本,提高分類模型(即分類超平面)訓(xùn)練樣本的分類準確度,效果如圖2(3)所示。但是,由于(c)和(d)位置樣本離其群較遠,通過此方法懲罰則會導(dǎo)致分類超平面發(fā)生較大變化,降低其對未來樣本分類的準確性,效果如圖3(3)所示。
鑒于煙葉各色組的顏色特征存在相關(guān)性,特別是K色組與其他色組存在較大相關(guān)性,在顏色特征空間不僅存在如(b)位置的樣本,還必然存在(c)和(d)位置的樣本。
因此,本文采用改進的分類模型的優(yōu)化方程如下:
ηi判斷樣本是否為(c)和(d)位置離群樣本。如果是,則ηi=0,去除其對應(yīng)樣本參與分類超平面的計算,從而確保分類超平面穩(wěn)定性和準確性;如果不是,對剩余樣本進一步進行計算。0<μ<1,用于決定不參與獲得超平面樣本的概率?;诖耍商岣咚梅诸惓矫娴姆€(wěn)定性和對未來樣本測試的準確性,效果如圖2(2)和圖3(2)所示。
2.2? ? 魯棒性多分類SVM
SVM和相關(guān)的魯棒性SVM都是二分類器,顏色等級具有6個類別。因此,需要選擇合適的多分類策略來實現(xiàn)煙葉顏色的多級分類功能。目前,存在一對一(OAO)[10]和一對多(OAA)[11]兩種多分類策略。在OAO中,待訓(xùn)練樣本要遍歷所有二分類器,會產(chǎn)生一部分無效投票,從而降低識別精度;而OAA在訓(xùn)練時依次把某個類別樣本歸為一類,其他剩余樣本歸為另一類,可實現(xiàn)更有效的分類。因此,在二分類基礎(chǔ)上采用OAA多分類策略實現(xiàn)煙葉顏色等級6級分類。
3 試驗結(jié)果與分析
試驗采集了2019年云南玉溪煙葉,分別為上部B1F、B1K、B1R、…、B3V、B4F、B4L,中部C1F、CIL、C1F、C2L、…、CX1K、CX2K,下部X1F、X2L、…、X4F、X4L,共分檸檬黃色組(L)、橘黃色組(F)、紅棕色組(R)、微帶青組(V)、黃青色組(GY)、雜色組(K)6個顏色等級,并采集到顏色圖像459張。各色組中共選300張作為測試樣本,剩余的159張作為未來的測試樣本。依據(jù)圖4的流程,先利用GrabCut算法將圖像中煙葉區(qū)域提取出來,以減少非煙葉區(qū)域?qū)ζ漕伾卣魈崛‘a(chǎn)生的影響;再提取煙葉上、中、下三部的9個顏色特征:
{e上H? σ上H? s上H? e上S? σ上S? s上S? e中H? σ中H? s中H? e中S? σ中S? s中S? e下H? σ下H? s下H? e下S? σ下S? s下S}
首先,對9個特征分別作歸一化處理,作為訓(xùn)練分類模型輸入?yún)?shù);之后,設(shè)定式(5)中參數(shù)為0.5,并利用訓(xùn)練樣本和式(5)獲得其分類模型(即分類超平面);最后,依據(jù)分類模型判斷159個未來樣本所屬顏色等級,其結(jié)果如圖4所示。
為了驗證本文方法所得分類模型對煙葉顏色等級分類的適用性,以上述9個顏色特征作為訓(xùn)練分類模型輸入,并用HL-SVM方法[4]和本文方法的訓(xùn)練樣本與未來測試樣本結(jié)果進行比較,結(jié)果如表1所示。
表1結(jié)果顯示,本文方法所得分類模型對訓(xùn)練樣本的識別率89.33%略微低于HL-SVM方法的結(jié)果90.33%,但對未來測試樣本,其識別率要比HL-SVM方法的識別率高6.29%。此結(jié)果表明本文方法所得分類模型的泛化能力較為優(yōu)越,對未來樣本分類的正確性相對較高,更適合實際使用。同時,其結(jié)果還表明本文方法在抗擊離群樣本對分類模型的影響方面具有一定的優(yōu)越性。依據(jù)上述公式可判斷,訓(xùn)練樣本識別率降低是由于離群樣本沒有參與獲取分類模型但參與了識別率統(tǒng)計導(dǎo)致,但未來測試樣本識別率提高,說明本文方法有效降低了離群訓(xùn)練樣本的影響,提高了分類模型的準確性。
4 結(jié)語
基于改進魯棒性SVM的煙葉顏色等級分類方法研究表明,在HSV顏色空間中煙葉顏色一階矩、二階矩和三階矩能很好地體現(xiàn)煙葉顏色特征,并有利于顏色等級分類。本文改進的SVM分類方法能有效降低離群樣本影響,提高未來樣本識別率??偠灾疚囊罁?jù)構(gòu)建改進SVM分類方法以及采用顏色特征,得出煙葉顏色等級分類模型,相較其他SVM分類器所得模型,其能得到較為準確的煙葉顏色等級識別判斷,為實現(xiàn)基于計算機視覺煙葉智能化、自動化分級提供了科學(xué)依據(jù)。
[參考文獻]
[1] 顧金梅,吳雪梅,龍曾宇,等.基于BP神經(jīng)網(wǎng)絡(luò)的煙葉顏色自動分級研究[J].中國農(nóng)機化學(xué)報,2016,37(4):110-114.
[2] 楊帆,申金媛.基于BPSO和SVM的烤煙煙葉圖像特征選擇方法研究[J].湖北農(nóng)業(yè)科學(xué),2015,54(2):449-452.
[3] 姚學(xué)練,賀福強,平安,等.基于PCA-GA-SVM的煙葉分級方法[J].煙草科技,2018,51(12):98-105.
[4] CHRISTMANN A,STEINWART I.On Robustness Properties of Convex Risk Minimization Methods for Pattern Recognition[J].Journal of Machine Learning Research,2004(5):1007-1034.
[5] 聶和平,李銳.烤煙分級國家標準培訓(xùn)教材[M].北京:中國標準出版社,2004.
[6] KOHLI P,TORR P H S.Dynamic Graph Cuts for Efficient Inference in Markov Random Fields[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(12):2079-2088.
[7] NAVABI M S,BROOGHANI Z A.Content-Based Image Retrieval through Combined Data of Color Moment and Texture[J].International Journal of Computer Science and Network Security(IJCSNS),2017,17(1):94-104.
[8] MYAKALWAR A K,SPEGAZZINI N,ZHANG C,et al.Less is More:Avoiding the LIBS Dimensionality Curse through Judicious Feature Selection for Explosive detection[J].Scientific Reports, 2015,5(1):13169.
[9] DEMIDOVA L,KLYUEVA I,SOKOLOVA Y,et al.Intellectual Approaches to Improvement of the Classification Decisions Quality on the Base of the SVM Classifier[J].Procedia Computer Science,2017,103:222-230.
[10] HUANG J,HU X G,GENG X.An Intelligent Fault Diagnosis Method of High Voltage Circuit Breaker Based on Improved EMD Energy Entropy and Multi-class Support Vector Machine[J].Electric Power Systems Research,2011,81(2):400-407.
[11] XU J H.An Extended One-versus-rest Support Vector Machine for Multi-label Classification[J].Neurocomputing,2011,74(17):3114-3124.
收稿日期:2020-11-27
作者簡介:王天旺(1971—),男,云南玉溪人,工程師,研究方向:電氣自動化、軟件開發(fā)。