程 瑩 許亞男 侯浩楠 寧翠玲 楊成民 董學會 曹海祿 孫 群*
(1.中國農(nóng)業(yè)大學 農(nóng)學院/農(nóng)業(yè)農(nóng)村部農(nóng)作物種子全程技術(shù)研究北京創(chuàng)新中心/ 北京市作物遺傳改良重點實驗室,北京 100193; 2.承德恒德本草農(nóng)業(yè)科技有限公司,河北 承德067000; 3.中國醫(yī)學科學院 藥用植物研究所,北京 100193; 4.恒德本草(北京)農(nóng)業(yè)科技有限公司,北京 100070)
種子和種苗是中藥材生產(chǎn)的物質(zhì)基礎(chǔ),與農(nóng)作物種子相比,中藥材種子的生產(chǎn)、加工過程還處于相對粗放的階段,種子質(zhì)量已成為限制中藥材規(guī)范化種植的關(guān)鍵因素之一。《中華人民共和國種子法》管理范圍涵蓋農(nóng)作物和林木的種子,但納入其中的中藥材品種數(shù)量很少。我國人工栽培的中藥材有300多種,大部分藥用植物尚未建立種子質(zhì)量檢測標準和種子生產(chǎn)加工規(guī)程,其中具備全程質(zhì)控體系的品種很少。目前,中藥材種子質(zhì)量管理遠落后于農(nóng)作物種子,存在種源混雜、凈度低、成熟度不一致、發(fā)芽率低、出苗慢且不整齊等諸多問題,種子成為中藥材生產(chǎn)最薄弱的環(huán)節(jié),成為制約中藥材規(guī)范化生產(chǎn)和發(fā)展的“瓶頸”。其中,凈度是判定種子質(zhì)量的重要指標之一,農(nóng)作物種子質(zhì)量標準中種子凈度≥99.0%,相關(guān)行業(yè)標準或地方標準對中藥材種子凈度均要求≥95.0%,中藥材種子人工引種馴化時間短,野生性較強,良種繁育技術(shù)研究不夠,凈度遠低于農(nóng)作物種子的要求,且不同藥材不同批次間種子凈度差異極大。凈度分析是對樣品中凈種子、其他植物種子和雜質(zhì)的檢測分析,一般人工借助于放大鏡、風選凈度儀、鑷子和雙倍目測鏡等進行逐粒觀察和分離鑒定,流程較為繁瑣冗長。對于小粒中藥材種子來說,雜質(zhì)外形與中藥材種子相似,采用傳統(tǒng)方法進行凈度分析的難度大于大粒種子,存在耗時、繁瑣等問題。因此,亟需一種成本低、快速且高效的鑒定方法,以改進傳統(tǒng)小粒中藥材種子凈度檢測方法存在的不足,便于小粒中藥材種子生產(chǎn)、加工規(guī)范化管理。
機器視覺技術(shù)近年來發(fā)展迅速,是一種計算機技術(shù)和圖像識別處理技術(shù)相結(jié)合的多領(lǐng)域新型交叉技術(shù),具有計算能力強、價格低、非破壞性和高效率等特點,該技術(shù)可獲取種子圖像信息,包括種子顏色、尺寸和紋理等信息,已廣泛應(yīng)用于種子發(fā)芽率的識別、種子質(zhì)量分類、品種鑒別、純度和凈度識別等方面。機器視覺技術(shù)應(yīng)用于中藥材種子凈度提升方面的研究尚未見報道。本研究以黃芩、桔梗、黃芪、紫蘇和柴胡等5種大宗常用小粒中藥材種子為試驗材料,采用機器視覺技術(shù)獲取凈種子、其他植物種子及所含雜質(zhì)的圖像及物理信息,通過2種不同算法的比較,建立5種中藥材種子凈度快速檢測模型,旨在探究應(yīng)用機器視覺技術(shù)對小粒中藥材種子進行快速檢測,以期為實際生產(chǎn)中小粒中藥材種子凈度快速、高效檢測提供參考。
Scutellaria
baicalensis
Georgi)、桔梗(Platycodon
grandiflorum
(Jacq.) A. DC.)、黃芪(Astragalus
membranaceus
(Fisch.) Bge.)、紫蘇(Perilla
frutescens
(L.) Britt.)、柴胡(Bupleulum
chinense
DC.)種子,2020年從河北省安國市中藥材批發(fā)市場上收集。檢測儀器:Microtek MiCardWizard掃描儀(上海中晶科技有限公司),種子自動化分析系統(tǒng)(PhenoSeed,中國農(nóng)業(yè)大學種子科學與技術(shù)研究中心與南京智農(nóng)云芯大數(shù)據(jù)科技有限公司共同研發(fā))。1
.2
.1
傳統(tǒng)種子凈度測定參照GB/T 2930.1—2017《草種子檢驗規(guī)程 扦樣》扦取樣品,測定凈度。采用“四分法”分取樣品,得到5 g種子樣品。
凈度=凈種子質(zhì)量/(凈種子質(zhì)量+ 其他植物種子質(zhì)量+雜質(zhì)質(zhì)量)×100%
(1)
1
.2
.2
圖像掃描及種子物理指標提取從每種中藥材中隨機選取500粒凈種子,500粒其他植物種子和雜質(zhì),凈種子、其他植物種子和雜質(zhì)之間留有一定空隙,整齊排列,使用掃描儀進行掃描(圖1),圖片保存為tif無損格式,分辨率為300 dpi。使用PhenoSeed對每粒凈種子、其他植物種子和雜質(zhì)進行物理指標的提取,顏色指標包括R
(紅色值,Red)、G
(綠色值,Green)、B
(藍色值,Blue)、H
(色相,Hue)、S
(飽和度,Saturation)、V
(明度,Value)、L
(明度,Luminosity)、a
(從洋紅色至綠色的范圍)、b
(從黃色至藍色的范圍)、Gray(灰度),尺寸指標包括長度(Length)、寬度(Width)、長寬比(L
/W
Ratio)、投影面積(Area)、周長(Perimeter)、圓度(Roundness),紋理指標包括Gray、R
、G
和B
這4個分量下的對比度(Contrast)、相異性(Dissimilarity)、同質(zhì)性(Homogeneity)、能量(Energy)、自相關(guān)(Correlation)、角二階矩(ASM)、熵(Entropy),共計54個物理指標。其他種子掃描和提取方式相同。 Other seeds scanning and extracting methods are the same.圖1 黃芩凈種子、其他植物種子和雜質(zhì)圖片掃描(a)與數(shù)據(jù)提取(b)過程Fig.1 Processes of image scanning (a) and data extracting (b) of Scutellariabaicalensis Georgi purity seeds, seeds of other plants and impurities
1
.2
.3
凈度計算及校正根據(jù)1.2.2中選取的500粒凈種子、500粒其他植物種子及所含雜質(zhì),分別稱取其總質(zhì)量。計算得到每粒凈種子、其他植物種子和雜質(zhì)質(zhì)量,此處將其他植物種子及所含雜質(zhì)視作一類樣本(命名為0),凈種子作為另一類樣本(命名為1),兩者比值(單粒0類樣本質(zhì)量/單粒1類樣本質(zhì)量)得到換算系數(shù),3次重復。
1
.2
.4
多層感知器網(wǎng)絡(luò)(Multilayer perceptron network,MLP)多層感知器的結(jié)構(gòu)類似于一套級聯(lián)的感知器,將一組輸入向量映射到一組輸出向量,輸入與輸出之間可以多層加權(quán)連接,對事物和環(huán)境具有很強的自學習、自適應(yīng)、聯(lián)想記憶和并行處理等能力。
通過相關(guān)性分析和主成分分析可對54個物理指標進行特征指標的提取,避免冗余信息對建模效果的干擾,可提高建模速率和模型穩(wěn)定性,之后對不同特征指標下建模效果進行顯著性分析。這些指標作為MLP的輸入層神經(jīng)元,其他植物種子和雜質(zhì)(0)和凈種子(1)作為輸出結(jié)果,最后能建立凈種子、其他植物種子及所含雜質(zhì)的分類模型(圖2)。本研究通過IBM SPSS Statistics 21.0進行MLP建模分析。訓練集∶測試集∶保持集的樣本比例為2∶1∶1;訓練集和測試集共600粒種子、其他植物種子及所含雜質(zhì),保持集是不參與模型訓練的樣本集,從剩余的400粒種子、其他植物種子及所含雜質(zhì)中隨機組合,將保持集樣本質(zhì)量凈度設(shè)置成75.0%、80.0%、85.0%、90.0%、95.0%和100.0%,用于最終網(wǎng)絡(luò)的獨立評估。其中單隱藏層和輸出層激活函數(shù)分別為雙曲正切和Softmax。
圖2 多層感知器網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Multilayer perceptron network topology
1
.2
.5
二元邏輯回歸(Binary Logistic Regression, BLR)二元邏輯回歸是1種以二分類變量為因變量的線性回歸分析方法,本研究使用IBM SPSS Statistics 21.0軟件根據(jù)54個指標和特征指標進行BLR凈度預(yù)測模型的建立,模型樣本集設(shè)定同1.2.4。
(2)
式中:C
為種子凈度第i
種情況的概率;對于第i
種情況,X
是第j
個變量;d
是第j
個變量的系數(shù)。C
為“0”和“1”,0是指其他植物種子及所含雜質(zhì),1是指凈種子,同1.2.3。通過Microsoft Excel 2016和IBM SPSS Statistics 21.0軟件,進行MLP和BLR建模分析,之后運用單因素方差分析對模型準確率進行分析比較。
中藥材種子采收過程中會混入碎葉片、秸稈、小土粒和其他植物種子等,凈度分析表明黃芩種子混雜的主要是其他植物種子、小石塊和碎葉片,桔梗種子混雜的主要是碎葉片和秸稈,黃芪種子混雜的主要是蕎麥種子、秸稈和小土粒,紫蘇種子混雜的主要是碎葉片、小土粒,柴胡種子中混雜的主要是其他植物種子和小土粒。
P
<0.01),其中Length、Width、Area、Perimeter、Roundness、H
與凈度均呈極顯著正相關(guān),相關(guān)系數(shù)范圍為0.350~0.895;L/W
Ratio、R
、G
、B
、L
、a
、b
、S
、V
、Gray與凈度均呈極顯著負相關(guān),相關(guān)系數(shù)范圍為-0.844~-0.082。選用尺寸和顏色指標(不含標準差)建立的MLP模型最優(yōu),訓練集和測試集準確率均為100.0%。2)桔梗種子:桔梗與凈度相關(guān)系數(shù)較高的指標有7個,分別是Length、Area、Perimeter、R
、G
、B
、Gray,其中Length、Area、Perimeter與凈度均呈極顯著正相關(guān)(P
<0.01),相關(guān)系數(shù)范圍為0.515~0.762;R
、G
、B
、Gray均與凈度呈極顯著負相關(guān)(P
<0.01),相關(guān)系數(shù)范圍為-0.851~-0.782。采用這7個特征指標建立的MLP模型,測試集準確率最高,為99.3%。3)黃芪種子:黃芪的尺寸和顏色指標(包含標準差)均與凈度呈顯著或極顯著相關(guān)(P
<0.05),相關(guān)系數(shù)范圍為-0.634~0.733,共26個指標。采用這26個指標建立的MLP模型較優(yōu),訓練集和測試集準確率分別為99.9%和99.6%。4)紫蘇和柴胡種子:紫蘇和柴胡絕大多數(shù)指標與凈度呈顯著或極顯著相關(guān)(P
<0.05),共50個尺寸、顏色和紋理指標,紫蘇和柴胡相關(guān)系數(shù)分別分布在-0.649~0.830和-0.554~0.571。這50個指標進行MLP建模,訓練集和測試集準確率最高,分別是99.6%和99.4%。根據(jù)2.2中篩選得到的特征指標,保證訓練集和測試集樣本數(shù)分別是400和200粒,其中凈種子數(shù)量300粒,其他植物種子及所含雜質(zhì)共300粒,對比在不同指標下BLR和MLP這2種模型建模效果。從表2可知,黃芩、桔梗、黃芪、紫蘇和柴胡種子基于54個指標和特征指標(表1)建立的MLP模型訓練集和測試集準確率>96.0%。黃芩、桔梗、黃芪和紫蘇種子基于54個指標和特征指標(表1)建立的BLR模型訓練集和測試集準確率≥97.0%;而柴胡基于54個指標和特征指標(表1)建立的BLR模型測試集準確率≤93.1%。綜合而言,特征指標建模效果優(yōu)于全部指標建模效果,同時MLP模型穩(wěn)定性更優(yōu)于BLR模型穩(wěn)定性。
根據(jù)1.2.3換算系數(shù)的計算方式,即兩者比值(單粒0類樣本質(zhì)量/單粒1類樣本質(zhì)量)得到換算系數(shù)。黃芩、桔梗、黃芪、紫蘇和柴胡的換算系數(shù)分別是0.49、0.39、0.67、0.09和0.48。
質(zhì)量凈度=1類樣本數(shù)量/(1類樣本數(shù)量+ 0類樣本數(shù)量×換算系數(shù))×100%
(3)
利用公式(3)進行數(shù)量凈度與質(zhì)量凈度的換算,將75.0%、80.0%、85.0%、90.0%、95.0%和100.0%質(zhì)量凈度分別帶入模型中進行檢驗,將實際凈度與預(yù)測凈度做擬合曲線。對于黃芩種子而言,根據(jù)16個特征指標進行MLP建模,該模型對6個梯度種子凈度預(yù)測效果均較好,回歸曲線的決定系數(shù)(R
)達到0.999 9;桔梗種子根據(jù)7個關(guān)聯(lián)指標進行MLP建模,對凈度預(yù)測的回歸曲線R
達到0.999 6;黃芪種子26個指標MLP模型對凈度的擬合曲線R
達到0.991 4;對于紫蘇和柴胡種子而言,根據(jù)50個關(guān)聯(lián)指標建模,MLP對種子凈度預(yù)測效果較好,R
分別達到0.997 1和0.999 8,見圖3。R
>0.99(BLR擬合結(jié)果未展示);這2種模型算法結(jié)構(gòu)不復雜,操作簡單,不要求使用人員具備專業(yè)知識背景;2種算法建模和預(yù)測過程均耗時較短,MLP和BLR分別耗時20.63和22.69 s。同時,研究所使用的 PhenoSeed軟件是由本實驗室與南京智農(nóng)云芯大數(shù)據(jù)科技有限公司共同研發(fā),可實現(xiàn)尺寸、顏色和紋理等54個物理指標自動化提取,本研究中黃芩、桔梗和黃芪種子使用尺寸顏色關(guān)聯(lián)指標進行建模,模型準確率≥97.5%,并未采用紋理指標參與模型的建立,這是考慮到應(yīng)用可行性,目前許多加工設(shè)備主要基于尺寸顏色指標進行加工處理,比如風篩清選機和色選機等。此外,本研究首次提出以數(shù)量進行種子凈度計算的概念,而非GB/T 2930.2—2017《草種子檢驗規(guī)程 凈度分析》以凈種子質(zhì)量占比計算凈度,模型的樣本集包括訓練集、測試集和保持集,均基于樣本數(shù)量進行數(shù)據(jù)分析,從而建立凈度快速檢測模型,但這2種方式計算的凈度之間存在一個換算系數(shù),而該系數(shù)會隨不同的中藥材種子發(fā)生改變,并不具備普適性?;诒狙芯克岢龅膬舳瓤焖贆z測模型,后續(xù)將深入研發(fā)集凈度、生活力和純度等方面于一體的自動化檢測系統(tǒng)。R
>0.99。綜上,以特征指標建立MLP模型可用于小粒中藥材種子的凈度快速檢測。表2 5種中藥材種子凈度檢測模型的識別準確率
Table 2 Discrimination accuracy of seed clarity detection models for five Chinese medicinal plants %
指標Features中藥材Chinese medicinalplantsBLR模型 BLR modelMLP模型 MLP model訓練集Training set測試集Testing set訓練集Training set測試集Testing set黃芩100.0100.099.999.9桔梗100.098.099.598.854個指標54 features黃芪100.097.0100.0100.0紫蘇100.097.099.499.2柴胡100.090.699.597.1黃芩100.0100.0100.0100.0桔梗100.097.599.499.3特征指標Characteristicfeatures黃芪100.099.0100.0100.0紫蘇100.098.099.599.6柴胡100.093.199.496.5
圖3 MLP模型對5種中藥材種子凈度擬合效果Fig.3 Fitting effect of MLP model on seed clarity of 5 kinds of Chinese medicinal plants