黃瓊 楊紅云 萬穎
摘要: 針對水稻種子相似度高、識別困難等問題,提出一種線性判別分析(Linear discriminant analysis,LDA)和貝葉斯分類(Bayes)相結(jié)合的分類識別方法,以提高水稻種子分類識別速度和識別準(zhǔn)確率。通過對4類水稻種子(楚粳7號、馬壩油粘、玉楊糯、玉針香)的圖像進(jìn)行裁剪和分割等預(yù)處理操作,提取出水稻種子圖像的顏色特征、幾何特征和紋理特征。利用線性判別分析、主成分分析、因子分析和局部線性嵌入對特征數(shù)據(jù)進(jìn)行分析降維,并分別選擇Bayes、K-鄰近、支持向量機(jī)、多層感知機(jī)分類器對原始特征數(shù)據(jù)和降維數(shù)據(jù)進(jìn)行分類識別研究。為提高模型泛化能力,通過圖像增強(qiáng)技術(shù)對稻種原始數(shù)據(jù)集進(jìn)行樣本擴(kuò)充,利用圖像增強(qiáng)技術(shù)模擬多種環(huán)境對水稻種子圖片數(shù)據(jù)集進(jìn)行增強(qiáng)處理,結(jié)果顯示,基于數(shù)據(jù)增強(qiáng)后的LDA_Bayes模型運(yùn)行時(shí)間為0.019 s,識別準(zhǔn)確率為99.4%。與其他模型比較,該模型具有更強(qiáng)的魯棒性和適用性,能高效地分類識別不同環(huán)境下的水稻種子,可為水稻種子分類識別提供一種新方法。
關(guān)鍵詞: 水稻種子;線性判別;Bayes;分類識別
中圖分類號: S126;S511 文獻(xiàn)標(biāo)識碼: A 文章編號: 1000-4440(2021)01-0008-08
Classification and recognition method of rice seeds based on feature data
HUANG Qiong1, YANG Hong-yun2, WAN Ying1
(1.College of Computer and Information Engineering, Jiangxi Agricultural University, Nanchang 330045, China;2.College of Software, Jiangxi Agricultural University, Nanchang 330045, China)
Abstract: Aiming at the problems of high similarity and difficult identification of rice seeds, a classification and identification method which combined linear discriminant analysis (LDA) and Bayesian classification (Bayes) was proposed to improve the identification speed and accuracy of rice seed classification. By performing pre-processing operations such as cropping and segmentation on the images of four types of rice seeds (Chujing No.7, Maba Younian, Yuyangnuo and Yuzhenxiang), the color characteristics, geometric and texture features of rice seed images were extracted. Linear discriminant analysis, principal component analysis, factor analysis and locally linear embedding were used to analyze and reduce the dimensionality of the feature data, and Bayes, K-nearest neighbors, support vector machine, multilayer perceptron classifiers were selected respectively to conduct classification and identification research on the original feature data and dimensionality reduced data. To improve the generalization ability of the model, image enhancement technology was used to extend the original data set of rice seed image samples and to simulate multiple environments to enhance the image data set of rice seeds. The results showed that the running time of LDA_Bayes model based on data enhancement was 0.019 s and the recognition accuracy rate was 99.4%. Compared with other models, LDA_Bayes model shows stronger robustness and applicability, it can classify and recognize rice seeds in different environments efficiently and provide a new method for rice seed classification and identification.
Key words: rice seeds;linear discrimination;Bayes;classification and recognition
水稻種子是農(nóng)業(yè)生產(chǎn)的基本生產(chǎn)資料,不同品種的水稻在抗病性、生長環(huán)境及產(chǎn)量收益方面存在差異性,種子純度是衡量水稻種子質(zhì)量的主要指標(biāo),而水稻種子的正確分類識別可以有效保證水稻種子的純度。目前,水稻種子分類方法如形態(tài)鑒定法、苯酚染色法等都是靠人工識別,這些方法存在耗時(shí)長、精度低、易受人的主觀影響等弊端,識別速度無法滿足實(shí)際要求。人工識別水稻品種比較困難,每年會(huì)因品種識別錯(cuò)誤和純度差造成巨大的經(jīng)濟(jì)損失。為了保證水稻種子純度、減少其他種子混雜、提高選種育種的質(zhì)量、保證農(nóng)業(yè)正常生產(chǎn),需要解決如何快速準(zhǔn)確地分類識別日益增長的水稻品種的問題。機(jī)器視覺具有效率高、耗時(shí)短、客觀性強(qiáng)等優(yōu)點(diǎn),利用機(jī)器視覺對水稻種子進(jìn)行識別可以彌補(bǔ)人工識別的不足,是水稻種子品種識別的可行方法。
目前,國內(nèi)外對水稻種子品種的識別研究主要通過仿生鼻、光譜儀、圖像[1-2]來獲取水稻種子的特征參數(shù)。徐賽等[3]利用PEN電子鼻采集水稻種子樣品氣味數(shù)據(jù)結(jié)合BP(反向傳播)神經(jīng)網(wǎng)絡(luò)對不同水稻種子進(jìn)行分類識別,分類準(zhǔn)確率為90%。李輝等[4]利用激光誘導(dǎo)擊穿光譜數(shù)據(jù)結(jié)合BP神經(jīng)網(wǎng)絡(luò)對水稻品種進(jìn)行識別,識別率可達(dá)92.4%。Hai[5]提取水稻種子的高光譜特征并與幾何特征結(jié)合,利用支持向量機(jī)(SVM)和隨機(jī)森林(RF)對數(shù)據(jù)進(jìn)行分類,分類精度為84%。Fabiyi等[6]從高分辨率RGB(紅-綠-藍(lán))圖像和高光譜圖像中提取水稻種子的圖像特征,利用RF分類器對特征數(shù)據(jù)進(jìn)行分類,可以有效提高種子純度。鄧小琴等[7]融合水稻種子的光譜特征、紋理特征和幾何特征,建立PLSDA分類模型,訓(xùn)練精度為99.33%。以上方法通過PEN電子鼻、高光譜和圖像提取的特征數(shù)據(jù)相結(jié)合,利用分類器對水稻種子進(jìn)行識別,分類模型識別率較高,但PEN電子鼻和光譜儀的成本過高,不利于推廣。利用圖像獲取水稻種子參數(shù)的方法容易實(shí)現(xiàn),便于推廣,李冬[8]通過對水稻種子的幾何特征進(jìn)行主成分分析(PCA),采用余弦相似度對種子進(jìn)行鑒別,準(zhǔn)確率為88%。鄭宇[9]采用檢測算法自動(dòng)提取水稻種子的13個(gè)幾何特征,利用Bayes判別法建立水稻種子分類模型,識別正確率可達(dá)90%。上述方法只單一地提取了水稻種子圖像的幾何特征,忽略了如顏色、紋理等其他特征參數(shù)對分類帶來的影響。李秀昊等[10]將提取的水稻種子顏色和形狀特征融合,利用SVM對水稻種子進(jìn)行分類,準(zhǔn)確率可達(dá)99.5%,運(yùn)行時(shí)間為0.165 s。黃星奕等[11]提出把水稻種子圖像的形狀特征和顏色特征結(jié)合,通過貝葉斯分類器,識別正確率可達(dá)88.3%。Hong等[12]通過提取水稻種子圖像的全局特征和局部特征,采用隨機(jī)森林分類器對水稻種子圖像進(jìn)行分類,準(zhǔn)確率為90.54%,以上方法忽略了多類型特征帶來的冗余性會(huì)造成識別準(zhǔn)確率下降的問題。Liu等[13]采用水稻的顏色和幾何特征,利用神經(jīng)網(wǎng)絡(luò)對PCA后的特征向量進(jìn)行識別,平均識別率為84.83%。
為了降低水稻種子的識別成本,選擇從圖像上來獲取水稻種子的特征參數(shù)。針對單一特征的水稻識別方法帶來的信息丟失問題,采用水稻種子圖像的顏色、幾何及紋理特征,多種特征使原始數(shù)據(jù)包含了更多有效信息。針對相似水稻種子品種識別效率低的問題,利用運(yùn)行速度快、識別準(zhǔn)確率高的Bayes模型對數(shù)據(jù)進(jìn)行分類識別。采用LDA(線性判別分析)算法對特征分析降維,去除原始數(shù)據(jù)中的無用信息和融合多特征數(shù)據(jù)的顯著信息,解決了多特征帶來的數(shù)據(jù)冗余問題,提高了識別模型性能。作為對比,試驗(yàn)將原始數(shù)據(jù)和PCA、因子分析(FA)、LDA、局部線性嵌入(LLE)降維數(shù)據(jù)用于Bayes、K-鄰近(KNN)、SVM、多層感知機(jī)(MLP)分類模型中進(jìn)行研究,通過圖片增強(qiáng)技術(shù)豐富數(shù)據(jù)集的多樣性來提高LDA_Bayes模型的適應(yīng)能力,最后證明基于圖像增強(qiáng)的LDA_Bayes模型能夠優(yōu)化傳統(tǒng)的Bayes模型,提高水稻種子品種的識別效率,為水稻品種識別提供新方法。
1 材料與方法
1.1 試驗(yàn)材料
試驗(yàn)選取4類水稻種子(圖1)樣本進(jìn)行研究,品種為楚粳7號、馬壩油粘、玉楊糯、玉針香,每類水稻種子選取成熟且顆粒飽滿的樣本500粒。選用佳能EOS 60D型數(shù)碼相機(jī)(分辨率為5 184像素×3 456像素)在水稻種子正上方進(jìn)行垂直拍攝。圖像處理和分析在中央處理器(CPU)為Intel(R) Core(TM) i5-6200U、內(nèi)存為8 G的計(jì)算機(jī)上進(jìn)行。將水稻種子原始圖像裁剪為分辨率為1 616像素×720像素,進(jìn)行圖像分割處理,使用高斯模糊對圖像進(jìn)行降噪。
1.2 數(shù)據(jù)增強(qiáng)
為提高模型泛化能力,采用多種算法模擬不同測試環(huán)境對圖像數(shù)據(jù)集進(jìn)行增強(qiáng),使訓(xùn)練模型能夠?qū)W習(xí)到更多圖片的像素信息。試驗(yàn)通過隨機(jī)調(diào)節(jié)水稻種子圖像的亮度、對比度、色度和增強(qiáng)圖像的銳化程度將水稻種子樣本數(shù)量擴(kuò)充到原來的4倍。增強(qiáng)樣例如圖2所示。
1.3 提取圖像特征
為了使試驗(yàn)具有全面性,提取水稻種子圖像的顏色通道(R、G、B)、正交投影面積、正交投影周長、長軸長、短軸長、二階矩、熵、對比度、反分差矩陣共11個(gè)特征向量作為水稻種子品種識別的特征數(shù)據(jù)。
1.3.1 顏色特征 顏色特征具有良好的魯棒性,是能體現(xiàn)水稻種子類別的重要特征參數(shù)。RGB顏色空間是生活中常用的一種顏色空間模型,本研究通過計(jì)算水稻種子圖像的R、G、B 3個(gè)分量的平均值作為顏色特征數(shù)據(jù)。
1.3.2 幾何特征 本研究通過閾值算法對水稻種子圖像進(jìn)行分割,利用水稻種子圖像的區(qū)域和邊緣特性提取幾何特征。
正交投影面積:計(jì)算分割后的水稻種子圖像區(qū)域所包含的像素點(diǎn)的總和。
正交投影周長:通過Sobel算子計(jì)算圖像梯度,與Canny算法相結(jié)合,提取水稻種子圖像的邊緣,計(jì)算邊緣像素點(diǎn)的和。
長軸長、短軸長:通過外接矩陣框計(jì)算水稻種子2個(gè)端點(diǎn)的最長距離為長軸長,垂直于長軸的直線距離為短軸長。
1.3.3 紋理特征 紋理特征是一種用來描述圖像表面性質(zhì)的全局特征。試驗(yàn)通過提取水稻種子灰度共生矩陣紋理(GLCM)[14-15]的4個(gè)經(jīng)典統(tǒng)計(jì)量:二階矩(ASM)、熵(ENT)、對比度(CON)、反差分矩陣(IDM),將其作為紋理特征向量,計(jì)算方法分別如公式(1)、公式(2)、公式(3)和公式(4)所示。二階矩反映圖像的均勻性,值越大,說明圖像灰度分布越均勻;熵是描述圖像的信息量,值越大,說明圖像的元素分布越分散;對比度用于衡量圖像局部灰度變化程度,值越大,說明圖像的邊緣越銳利;反差分矩陣用于測量紋理的清晰程度,值越大,說明圖像紋理越清晰和易于描述。
式中,P(i,j)表示灰度圖像中坐標(biāo)為(i,j)的像素點(diǎn)的灰度值。
1.4 方法描述
1.4.1 LDA算法 LDA算法[16]是一種有監(jiān)督的機(jī)器學(xué)習(xí),它的主要思想是把數(shù)據(jù)投影到低維空間,讓屬于一類的數(shù)據(jù)分布得更加緊密,使不同類的數(shù)據(jù)點(diǎn)更加分散,具有計(jì)算速度快的優(yōu)點(diǎn)。該算法的流程如下:
Step1:設(shè)數(shù)據(jù)集有M個(gè)類別:D1,D2,...,Di。計(jì)算每類樣本的類內(nèi)散度矩陣Sw:
式中,Siw表示第i類樣本的類內(nèi)散度矩陣,N表示第i類樣本的樣本數(shù),mi表示第i類樣本的總體均值,Xk表示第i類樣本的第k個(gè)特征向量。
Step2:計(jì)算各類樣本之間的類間散度矩陣Sb:
式中,Sijb表示第i類樣本與第j類樣本之間的類間散度矩陣,mj表示第j類樣本的總體均值。
Step3:計(jì)算每個(gè)類別LDA轉(zhuǎn)化矩陣WL的矩陣值。提取矩陣值中最大的d個(gè)特征值和與其對應(yīng)的特征向量,得到投影矩陣:
式中,WL是LDA的轉(zhuǎn)換矩陣,S-1w表示該樣本類內(nèi)散度矩陣的逆矩陣,Sb表示該樣本的類間散度矩陣。
Step4:每個(gè)樣本可通過公式(8)轉(zhuǎn)化為新的樣本集,則為降維后的數(shù)據(jù)集:
式中,y表示新的數(shù)據(jù)集,x表示每個(gè)樣本的特征值。
1.4.2 Bayes分類器 Bayes分類器[17-18]的原理是已知各個(gè)類別在樣本空間中出現(xiàn)的先驗(yàn)概率和某個(gè)類別中特征向量X出現(xiàn)的條件概率密度,計(jì)算該類別在X出現(xiàn)的條件下,每個(gè)樣本屬于各個(gè)類別的概率,最后將樣本分配到概率最大的那類數(shù)據(jù)集中。其計(jì)算流程如圖3所示。
1.4.3 方法步驟 本研究提出基于LDA和Bayes相結(jié)合的模型(LDA_Bayes)對水稻種子的特征數(shù)據(jù)進(jìn)行分類識別,步驟如下:
Step1:對水稻種子原始圖像進(jìn)行裁剪、分割、增強(qiáng)等預(yù)處理;Step2:提取水稻種子圖像的顏色特征、幾何特征、紋理特征共11個(gè)特征向量;Step3:采用LDA降維算法將水稻種子的11維特征向量降維到2維;Step4:采用Bayes分類器對降維后80%的數(shù)據(jù)進(jìn)行分類訓(xùn)練,20%的數(shù)據(jù)用于測試識別;Step5:將試驗(yàn)?zāi)P团c原始數(shù)據(jù)、增強(qiáng)數(shù)據(jù)和15類組合模型進(jìn)行對比研究,采用精確率、召回率、準(zhǔn)確率、F1作為評價(jià)指標(biāo)。
2 結(jié)果與分析
2.1 原始數(shù)據(jù)集分類結(jié)果
表1為11個(gè)特征向量在KNN、SVM、Bayes、MLP[19-20]分類器上的分類結(jié)果,可以看出Bayes模型運(yùn)行時(shí)間最短,為0.016 s,測試準(zhǔn)確率高達(dá)97.3%,說明Bayes分類器相較于其他3種分類器更適合試驗(yàn)數(shù)據(jù)分類。
2.2 降維數(shù)據(jù)分析與分類結(jié)果
2.2.1 數(shù)據(jù)降維分析可視化 為了驗(yàn)證LDA特征降維的有效性,試驗(yàn)還利用PCA、FA、LLE[21-24]降維方法對水稻種子圖像的顏色、幾何、紋理等11個(gè)特征向量進(jìn)行分析降維,將水稻種子的11維特征融合降到2維,經(jīng)PCA降維后數(shù)據(jù)的第1主成分貢獻(xiàn)率為98.41%,第2主成分貢獻(xiàn)率為1.45%,累積貢獻(xiàn)率為99.86%,從圖4a可以看出,各樣本之間重疊部分較大。經(jīng)LDA降維后的數(shù)據(jù)第1判別因子的貢獻(xiàn)為69.86%,第2判別因子的貢獻(xiàn)率為26.73%,累積貢獻(xiàn)率為96.59%,從圖4c可以看出,樣本之間分布的距離較大,重疊部分少。從圖4b、4d可以看出,用FA、LLE對數(shù)據(jù)降維后,樣本分布較為密集,樣本之間的間距小。
2.2.2 降維數(shù)據(jù)分類結(jié)果比較 為了驗(yàn)證LDA_Bayes模型的高效性,試驗(yàn)利用降維數(shù)據(jù)進(jìn)行KNN、SVM、MLP模型分類識別。
表2為原始水稻種子特征數(shù)據(jù)經(jīng)過PCA降維后結(jié)合KNN、SVM、Bayes、MLP分類器處理的試驗(yàn)結(jié)果,可以看出,PCA降維是從特征的協(xié)方差角度進(jìn)行考慮的,適合保持樣本內(nèi)在信息的數(shù)據(jù)降維,試驗(yàn)數(shù)據(jù)經(jīng)過PCA降維后縮短了各模型的運(yùn)行時(shí)間,但測試準(zhǔn)確率并沒有提高,說明PCA降維不適合處理本研究數(shù)據(jù)。
表3為原始水稻種子特征數(shù)據(jù)經(jīng)過FA降維后結(jié)合KNN、SVM、Bayes、MLP分類器處理的試驗(yàn)結(jié)果,可以看出,與原始數(shù)據(jù)的運(yùn)行時(shí)間和測試準(zhǔn)確率相比,分類效率不僅沒有提高,反而降低,所以該降維方法不適用于本研究數(shù)據(jù)降維。
表4為原始水稻種子特征數(shù)據(jù)經(jīng)過LDA降維后結(jié)合KNN、SVM、Bayes、MLP分類器處理的試驗(yàn)結(jié)果,可以看出,與原始數(shù)據(jù)(表1)相比,LDA_KNN的測試準(zhǔn)確率提高了10.4百分點(diǎn),LDA_SVM的測試準(zhǔn)確率提高了21.5百分點(diǎn),LDA_Bayes的測試準(zhǔn)確率提高了2.3百分點(diǎn),LDA_MLP的測試準(zhǔn)確率提高了16.6百分點(diǎn),說明LDA對試驗(yàn)數(shù)據(jù)降維時(shí)能夠最大限度地區(qū)分不同類樣本,在從高維空間降維到低維空間時(shí)可以最大限度地減少重要特征信息的丟失,提高歸類能力。
表5為原始水稻種子特征數(shù)據(jù)經(jīng)過LLE降維后結(jié)合KNN、SVM、Bayes、MLP分類器處理的試驗(yàn)結(jié)果,可以看出,LLE適合分布均勻且密集的數(shù)據(jù),適合流形數(shù)據(jù)的降維,試驗(yàn)數(shù)據(jù)經(jīng)過LLE降維后測試準(zhǔn)確率并沒有提高,說明LLE降維方法不適合處理本研究數(shù)據(jù)。
綜上所述,PCA、FA、LLE 3種降維方法沒有實(shí)現(xiàn)水稻種子有效信息的綜合提取。利用LDA算法對水稻種子特征數(shù)據(jù)降維后結(jié)合4種分類器處理的試驗(yàn)結(jié)果表明,該算法能夠集中提取特征數(shù)據(jù)中的有效信息,摒棄無用信息,所以LDA算法降維比其他降維方法更適用于本研究中水稻種子的特征數(shù)據(jù)。試驗(yàn)數(shù)據(jù)經(jīng)過KNN、SVM、MLP、Bayes分類器進(jìn)行分類訓(xùn)練的識別結(jié)果表明,Bayes能快速準(zhǔn)確地對本研究中的4類水稻種子進(jìn)行分類識別。在原始數(shù)據(jù)和經(jīng)降維處理的16種分類模型中,LDA_Bayes模型在水稻種子分類識別中的運(yùn)行時(shí)間為0.013 s,測試準(zhǔn)確率為99.6%,相較于原始數(shù)據(jù),縮短了運(yùn)行時(shí)間,提高了測試準(zhǔn)確率、精確率、召回率和F1等評價(jià)指標(biāo),說明該模型具有高效性和可行性。
2.3 進(jìn)行數(shù)據(jù)增強(qiáng)后的試驗(yàn)
表6為水稻種子特征數(shù)據(jù)增強(qiáng)前后結(jié)合LDA_Bayes模型的試驗(yàn)結(jié)果,可看出增強(qiáng)后數(shù)據(jù)集的運(yùn)行時(shí)間為0.019 s,訓(xùn)練準(zhǔn)確率為99.4%,相較于原始數(shù)據(jù)集的訓(xùn)練準(zhǔn)確率有所提高,測試準(zhǔn)確率為99.4%,相較于原始數(shù)據(jù)集的測試準(zhǔn)確率輕微下降,其原因?yàn)橛駰钆春陀襻樝?類樣本特征過于相似,通過對數(shù)據(jù)的擴(kuò)充使數(shù)據(jù)量已經(jīng)使模型的數(shù)據(jù)信息達(dá)到飽和,因此通過增加訓(xùn)練數(shù)據(jù)集的方法難以提高識別準(zhǔn)確率。
3 討論
圖像特征提取是圖像分類識別的重要步驟,只進(jìn)行單一的圖像特征提取會(huì)丟失部分有效特征,如熊利榮等[25]只將水稻種子圖像的幾何特征結(jié)合Bayes分類器進(jìn)行識別,平均識別準(zhǔn)確率為81.4%,而本研究采取了易于反映圖像顯著信息的顏色特征、幾何特征以及紋理特征,通過Bayes對11個(gè)特征向量進(jìn)行分類識別,測試識別準(zhǔn)確率為97.3%。
特征數(shù)據(jù)過多會(huì)造成數(shù)據(jù)的冗余性,產(chǎn)生干擾信息,降低分類準(zhǔn)確率。如黃星奕等[11]提取水稻種子的顏色特征和形狀特征等13個(gè)特征參數(shù),利用貝葉斯分類器對原始數(shù)據(jù)進(jìn)行分類,識別正確率為88.3%。通過降維可以解決數(shù)據(jù)冗余性問題、去除干擾信息和提高識別準(zhǔn)確率,因此降維方法的選擇是提高分類模型性能的關(guān)鍵。相較于無監(jiān)督學(xué)習(xí)的PCA算法,LDA屬于監(jiān)督學(xué)習(xí),在降維過程中可以使用類別的先驗(yàn)知識經(jīng)驗(yàn)選擇分類性能最好的投影方向;FA利用相關(guān)性對特征進(jìn)行降維,能夠保存原始數(shù)據(jù)所存在的重要信息,但是不能像LDA一樣摒棄一些對分類具有干擾的信息;相較于LLE只能適用于流形數(shù)據(jù)的局限性,采用基于線性數(shù)據(jù)處理的LDA算法更適用于本研究數(shù)據(jù)。因此本試驗(yàn)選取LDA算法對數(shù)據(jù)進(jìn)行分析,將數(shù)據(jù)從高維空間最大區(qū)分化地降到低維空間,有效融合了原始數(shù)據(jù)中的顯著特征,提高了識別效率。
分類模型的選擇是提高識別效率的關(guān)鍵,常用的分類模型有KNN、SVM、MLP。KNN是通過計(jì)算數(shù)據(jù)間的距離進(jìn)行分類,對類別分類狀況敏感,分類識別結(jié)果易受K值影響;SVM更適用于二分類算法,對大規(guī)模的數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí)計(jì)算復(fù)雜度高,效率不高;MLP需要多次迭代,耗時(shí)長,會(huì)降低識別效率。因此Bayes運(yùn)行時(shí)間短和識別效率高的優(yōu)點(diǎn)更適合本研究數(shù)據(jù)分類。 在特定場景和實(shí)際應(yīng)用中,往往很難收集滿足各種條件的數(shù)據(jù)用于訓(xùn)練和測試,因此本研究通過調(diào)節(jié)亮度、對比度、色度和銳化程度來豐富數(shù)據(jù)庫種類以解決測試環(huán)境過于單一的問題,提高實(shí)際測試的魯棒性。試驗(yàn)結(jié)果表明,基于圖像增強(qiáng)的LDA_Bayes模型具有更強(qiáng)的泛化能力和適應(yīng)性,能進(jìn)一步提高水稻種子識別率和運(yùn)行效率,可以為后期的在線實(shí)時(shí)識別水稻種子系統(tǒng)提供基礎(chǔ)。
本研究的對象是楚粳7號、馬壩油粘、玉楊糯和玉針香4類水稻種子,為提高試驗(yàn)?zāi)P偷目煽啃?,將在后期的研究中加入其他品種的水稻種子。本研究下一步將對水稻種子的其他特征參數(shù)和特征降維方法作進(jìn)一步研究,實(shí)現(xiàn)易于推廣且效率高的在線實(shí)時(shí)識別水稻種子的系統(tǒng)。
4 結(jié)論
試驗(yàn)提取水稻種子圖像的顏色特征、幾何特征、紋理特征等共11個(gè)特征向量并采用PCA、FA、LDA、LLE 4種算法進(jìn)行特征數(shù)據(jù)的分析降維,選擇KNN、MLP、SVM、Bayes分類器進(jìn)行數(shù)據(jù)增強(qiáng)前后分類識別的對比驗(yàn)證,結(jié)果表明:
(1)LDA降維算法可以有效地對水稻種子圖像所提取的11個(gè)特征參數(shù)進(jìn)行降維,降維后的結(jié)果能夠從多種特征中去除不同水稻種子之間相似的無用特征,準(zhǔn)確提取和融合顯著特征。相較于傳統(tǒng)的Bayes模型,LDA_Bayes模型在測試準(zhǔn)確率和運(yùn)行速度上都有所提升。
(2)通過圖像增強(qiáng)技術(shù)模擬了實(shí)際生活中的多種檢測環(huán)境,增強(qiáng)了圖像樣本的魯棒性,結(jié)果表明,基于圖像增強(qiáng)的LDA_Bayes模型的訓(xùn)練準(zhǔn)確率為99.4%,測試準(zhǔn)確率為99.4%,運(yùn)行時(shí)間為0.019 s,說明數(shù)據(jù)增強(qiáng)能夠有效增強(qiáng)模型的泛化能力和適應(yīng)性,使該模型能在實(shí)際應(yīng)用中高效識別種子,滿足普遍推廣和在線識別的要求。
參考文獻(xiàn):
[1] MEBATSION H K,PALIWAL J,JAYAS D S. Automatic classification of non-touching cereal grains in digital images using limited morphological and color features[J]. Computer&Electronics in Agriculture,2013,90(90):99-105.
[2] CHOUDHARY R,PALIWAL J. Classification of cereal grains using wavelet, morphological, colour, and textural features of non-touching kernel images[J]. Biosystems Engineering, 2008,99(3):330-337.
[3]徐 賽,周志艷,羅錫文. 常規(guī)稻與雜交稻谷的仿生電子鼻分類識別[J].農(nóng)業(yè)工程學(xué)報(bào),2014,30(9):133-139.
[4] 李 輝,王陽恩,劉 慶,等. 分段激光誘導(dǎo)擊穿光譜的水稻種子識別[J].激光雜志,2017,38(2):8-12.
[5] HAI V. Spatial and spectral features utilization on a hyperspectral imaging system for rice seed varietal purity inspection[C]//MACIEJ P,AGNIESZKA T.2016 IEEE RIVF International Conference on Computing & Communication Technologies.Hanoi:IEEE,2016(10):169-174.
[6] FABIYI S,HAI V,TACHTATZIS C,et al. Varietal classification of rice seeds using RGB and hyperspectral images[J]. IEEE Access,2020,8:22493-22505.
[7] 鄧小琴,朱啟兵,黃 敏. 融合光譜、紋理及形態(tài)特征的水稻種子品種高光譜圖像單粒鑒別[J].激光與光電子學(xué)進(jìn)展,2015,52(2):128-134.
[8] 李冬. 基于圖像的稻花香水稻種子鑒別方法的研究[D].大慶:黑龍江八一農(nóng)墾大學(xué),2018.
[9] 鄭 宇. 基于機(jī)器視覺的稻谷種子特征提取與品種識別方法研究[D].武漢:華中農(nóng)業(yè)大學(xué),2009.
[10]李秀昊,馬 旭,李澤華,等. 基于特征融合和SVM的稻谷品種識別[J].中國農(nóng)機(jī)化學(xué)報(bào),2019,40(7):97-102.
[11]黃星奕,李 劍,姜 松. 基于計(jì)算機(jī)視覺的稻谷品種識別技術(shù)的研究[J].江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版),2004,25(2):102-104.
[12]HONG P, HAI T,LAN L. Comparative study on vision based Rice seed varieties identification[C]//NGUYEN L M,NGUYEN T T.2015 Seventh International Conference on Knowledge and Systems Engineering. Ho Chi Minh City:IEEE, 2015,11(7):377-382.
[13]LIU Z Y,CHENG F,YING Y B,et al. Identification of rice seed varieties using neural network[J].Journal of Zhejiang University Science B, 2005,6(11):53-58.
[14]BARALDI A,PARMIGGIANI F. An investigation of the textural characteristics associated with GLCM matrix statistical parameters[J]. IEEE Transactions on Geoscience and Remote Sensing, 1995, 33(2): 293-304.
[15]HARALICK R M, SHANMNGAM K, DINSTEIN I. Texture feature forimage classification[J].IEEE Transactions on Systems, Manand Cybernetics, 1973, 3 (6) :768-780.
[16]章萬鋒. 基于PCA與LDA的說話人識別研究[D].杭州:浙江大學(xué),2004.
[17]周志華. 機(jī)器學(xué)習(xí)[M]. 北京:清華大學(xué)出版社, 2016.
[18]NIKITA E,NIKITAS P. Sex estimation: a comparison of techniques based on binary logistic, probit and cumulative probit regression, linear and quadratic discriminant analysis, neural networks, and nave Bayes classification using ordinal variables[J]. International Journal of Legal Medicine,2020,134(3):1213-1225.
[19]FAYYAZI S,ABBASPOURFARD M H,ROHANI A,et al. Identification and classification of three Iranian rice varieties in mixed bulks using image processing and MLP neural network[J]. International Journal of Food Engineering,2017,13(5).
[20]ZANATY E A. Support vector machines (SVMs) versus Multilayer perception (MLP) in data classification[J]. Egyptian Informatics Journal,2012,13(3):177-183.
[21]彭彥昆,趙 芳,李 龍,等. 利用近紅外光譜與PCA-SVM識別熱損傷番茄種子[J].農(nóng)業(yè)工程學(xué)報(bào),2018,34(5):159-165.
[22]梁曉瑩,田光杰. 基于混合特征LLE融合與SVM的質(zhì)量異常模式識別[J].組合機(jī)床與自動(dòng)化加工技術(shù),2020(3):55-59,64.
[23]劉開南,馮新?lián)P,邵 超. 一種面向圖像分類的流形學(xué)習(xí)降維算法[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(8):210-213,229.
[24]高惠璇. 應(yīng)用多元統(tǒng)計(jì)分析[M]. 北京:北京大學(xué)出版社, 2005.
[25]熊利榮,鄭 宇. 基于形態(tài)學(xué)的稻谷種子品種識別[J].糧油加工,2010(6):45-48.
(責(zé)任編輯:陳海霞)
收稿日期:2020-06-29
基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目(61562039)
作者簡介:黃 瓊(1997-),女,江西贛州人,碩士研究生,主要從事圖形圖像處理研究。(E-mail)406274397@qq.com
通訊作者:楊紅云,(E-mail)nc_yhy@163.com