趙 偉, 何 俊, 劉泉澄, 侯森林, 鄧 琥
(1.西南科技大學(xué) 信息工程學(xué)院,四川 綿陽 621010; 2.西南科技大學(xué) 四川天府新區(qū)創(chuàng)新研究院,四川 成都 610299)
中藥材傳統(tǒng)經(jīng)驗鑒別法在鑒別產(chǎn)地時,對個人能力依賴較大,缺乏客觀性。隨著科技的進(jìn)步,現(xiàn)代鑒別方法因能客觀反映藥材的內(nèi)部質(zhì)量而被廣泛應(yīng)用于中草藥鑒別[1,2]。近年來,太赫茲技術(shù)也被用于中藥材檢測,眾多學(xué)者還將機(jī)器學(xué)習(xí)與太赫茲光譜結(jié)合[3~9]實現(xiàn)中藥材的鑒別,劉燕德等人[6]利用標(biāo)準(zhǔn)正態(tài)變量變換和主成分分析(principal component analysis,PCA)及支持向量機(jī)(support vector machine,SVM)3種算法結(jié)合太赫茲光譜,實現(xiàn)了對4種貝母的識別;Liang J等人[7]利用PCA-SVM粒子群優(yōu)化(particle swarm optimization,PSO)算法對模型進(jìn)行參數(shù)優(yōu)化,實現(xiàn)了對黃芩的產(chǎn)地鑒別;Yang S等人[8]將全波段的太赫茲吸收光譜作為卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的輸入量,實現(xiàn)了對3種產(chǎn)地咖啡豆的識別;Pan S等人[9]利用改進(jìn)的杜鵑搜索(cuckoo search,CS)算法SPCS和SVM算法結(jié)合太赫茲光譜,實現(xiàn)了對3種年限人參的識別精度。
上述識別模型具有較高的識別率,但卻缺乏普適性,即不能處理未知藥材名稱的產(chǎn)地識別問題。本文依據(jù)中醫(yī)藥的整體觀思想選取了0.2~1.5 THz全波段的數(shù)據(jù)進(jìn)行分析,提出了將太赫茲光譜結(jié)合機(jī)器學(xué)習(xí)的中藥材產(chǎn)地識別方法。
本文使用的太赫茲時域光譜(THz-time-domain spectrum,THz-TDS)系統(tǒng)如圖1所示,系統(tǒng)由飛秒激光器(MaiTai,Spectra-Physics)和THz-TDS儀組成。激光器的中心波長為800 nm,帶寬為10 nm,經(jīng)立方體分束器分為泵浦光和探測光,當(dāng)泵浦光照射光導(dǎo)天線時可產(chǎn)生太赫茲脈沖,其通過不同樣品[17]后可產(chǎn)生不同的THz-TDS,THz-TDS儀為美國Zomega公司的Z-3型THz-TDS系統(tǒng),該系統(tǒng)光譜范圍是0.1~2.5 THz,Z-3系統(tǒng)設(shè)置掃描開始時間為50 ps,掃描長度為60 ps,掃描速度為0.122 mm/s,為了減少水分對光譜的干擾,將Z-3THz-TDS儀放置在密封箱中,在實驗期間通入干燥空氣,將相對濕度控制在4 %RH以下,并將重復(fù)4次掃描獲得到的平均光譜作為一次有效的THz-TDS,經(jīng)傅里葉變換及Dorney等人[10]提出的光學(xué)參數(shù)提取方法可以得到其太赫茲吸收光譜。
圖1 透射式THz-TDS系統(tǒng)光路原理
實驗所用中藥材由綿陽市食品藥品檢驗所提供,其中附片有江油、云南、漢中3種產(chǎn)地,其余6種藥材為:大黃(甘肅和青海2種產(chǎn)地)、黨參、陳皮、麥冬、天麻,實驗前先將樣品干燥3 h,然后粉碎并過200目篩網(wǎng),之后將壓片機(jī)的壓力設(shè)置為5 T,壓力保持時間為3 min,壓制成直徑約13 mm,厚度約1 mm的圓片。附片每種產(chǎn)地壓制35片,共計105片,采集樣品正反兩面的太赫茲光譜,共得到210組附片的太赫茲吸收光譜數(shù)據(jù);而其他品種藥材各壓制5片,共計30片,共得到60組太赫茲吸收光譜數(shù)據(jù)。
采用Python 3.7中的Sklearn學(xué)習(xí)庫實現(xiàn)隨機(jī)森林(random forest,RF)[11]、SVM和偏最小二乘判別分析(partial least square discriminant analysis,PLS-DA)等模型的建立,其操作較為便捷。其中,SVM采用線性核(linear kernel)函數(shù),SVM的懲罰參數(shù)、RF的基分類器數(shù)量、PLS-DA的主成分?jǐn)?shù)均通過繪制學(xué)習(xí)率曲線獲得最佳值。另外,為保證訓(xùn)練的準(zhǔn)確度,利用train_test_split()函數(shù)將不同產(chǎn)地附片的210組光譜按7︰3比例隨機(jī)劃分為訓(xùn)練集和測試集。
本文中的模糊判別分析(fuzzy discriminant analysis,F(xiàn)DA)算法是在給定標(biāo)準(zhǔn)庫情況下,利用最大隸屬度原則將待識別對象分類到對應(yīng)標(biāo)準(zhǔn)庫的方法。
1)樣本庫和細(xì)節(jié)點特征庫[12]
將附片每種產(chǎn)地的50組原始吸收系數(shù)數(shù)據(jù)作為樣本庫。每種產(chǎn)地附片在每個頻率采樣點下的特征均值和標(biāo)準(zhǔn)差,用A(i)表示第i種產(chǎn)地藥材的特征均值,C(i)表示第i種產(chǎn)地藥材的標(biāo)準(zhǔn)差,即
A(i)=[mi1,…,mij,…,miN]
C(i)=[ci1,…,cij,…,ciN]
(1)
2)細(xì)節(jié)特征匹配
假設(shè)細(xì)節(jié)點特征庫中包含B種產(chǎn)地的附片,現(xiàn)對待測樣本Q的模糊判別過程做進(jìn)一步說明,假設(shè)待識別藥材吸收光譜記為FQ,則FQ=[fQ1,…,fQj,…,fQN]。若待測藥材被分類器預(yù)測為第i種藥材,則將待測光譜與細(xì)節(jié)點特征庫中的第i種產(chǎn)地藥材匹配,但由于樣品厚度、系統(tǒng)噪聲等因素的影響,F(xiàn)Q不可能恒等于第i種藥材的均值矢量A(i),而是以高斯分布的形式分布在A(i)附近。計算待測樣本屬于中藥材r的隸屬度drj,則
(2)
其中,隸屬度drj在0~1之間。求得待測藥材與細(xì)節(jié)點特征庫中某種產(chǎn)地隸屬度后,根據(jù)最大隸屬度原則以及設(shè)定的閾值即可驗證分類結(jié)果是否正確,若隸屬度大于設(shè)定閾值則分類結(jié)果正確并將其輸出,否則分類錯誤輸出結(jié)果為:未知藥材。其識別流程如圖2所示。
圖2 3種模型的識別流程
本文將等錯誤率(equal error rate,EER)處的值,即誤識率(FAR)和拒誤率(FRR)相等處的值設(shè)定為識別模型的閾值。FAR=(NFA/NIRA)×100 %,其中,NIRA為類間測試的總次數(shù),而類間測試集由不同品種的中藥材樣本組成,NFA為錯誤接受的樣本數(shù)。FRR=(NFR/NGRA)×100 %,NGRA為類內(nèi)測試的總次數(shù),而類內(nèi)測試集由不同產(chǎn)地的附片樣本組成,NFR為錯誤拒絕的樣本數(shù)。
在進(jìn)行類內(nèi)測試實驗時,隨著閾值的增大,錯誤拒絕的樣本數(shù)量越來越多,即待測光譜必須與目標(biāo)光譜高度相似才能被正確識別;而對于類間測試實驗,隨著閾值的增大,錯誤接受的樣本數(shù)量越來越少,其他藥材的光譜本就與附片光譜差異較大,更容易被識別為非附片藥材。因此,將EER作為識別模型的閾值,此時識別模型在對類內(nèi)樣本的識別和對類間的樣本識別,其錯誤率均最低且相等,如圖3。
圖3 FAR/FRR—閾值曲線示意
識別準(zhǔn)確率A(Accuracy)是識別正確樣本與總樣本的比例,A=((TP+TN)/(TP+FP+TN+FN))×100 %。其中,TP為真陽性,TN為真陰性,F(xiàn)P為假陽性,F(xiàn)N為假陰性。
由于1.5 THz后信噪比變差,所以僅研究了0.2~1.5 THz波段的吸收光譜。圖4(a)~(c)為來自于漢中、江油、云南3種產(chǎn)地附片各70組太赫茲吸收光譜;在與附片相同的檢測系統(tǒng)及條件下檢測其余6種藥材,得到的60組太赫茲原始吸收光譜如圖4(d)所示,將其與部分附片光譜數(shù)據(jù)作為類間測試集的樣本;從圖中可以看出,僅靠吸收系數(shù)的大小難以區(qū)分不同產(chǎn)地的附片藥材,而使用機(jī)器學(xué)習(xí)可能是實現(xiàn)中藥材產(chǎn)地鑒別的關(guān)鍵。
圖4 樣品的太赫茲吸收光譜
3.2.1 識別模型的建立與對比分析
本文將所有附片70 %的太赫茲吸收光譜數(shù)據(jù)作為輸入量輸入到SVM識別模型、RF識別模型、PLS-DA中進(jìn)行訓(xùn)練。各分類器最佳參數(shù)值如表1所示。
表1 3種分類器的最佳參數(shù)
根據(jù)表2可繪制出如圖5所示的3種模型在不同閾值下的識別準(zhǔn)確率,從其中可以看出,PLS-DA結(jié)合FDA(PLS-DA-FDA)模型的準(zhǔn)確率在任何閾值下均是最高的。
表2 3種識別模型的類內(nèi)測試實驗結(jié)果
圖5 3種模型在不同閾值下的識別準(zhǔn)確率
將類內(nèi)測試集(即未知產(chǎn)地的附片)的63個測試樣本輸入識別模型,同時將從附片中隨機(jī)抽取10個樣本(3漢中+3江油+4云南)和其余6種藥材各10組光譜組成類間測試集輸入3種識別模型。圖6中類內(nèi)測試集對應(yīng)FAR曲線,類間測試集對應(yīng)FRR曲線,同一識別模型的2條曲線的交點稱作EER點,將其所對應(yīng)的值設(shè)定為識別模型在確認(rèn)分類結(jié)果時的閾值。從圖中可以看出,PLS-DA-FDA模型的EER最低約2 %,優(yōu)于其他模型,此時閾值為0.16。
圖6 FAR/FRR—閾值曲線
3.2.2 PLS-DA-FDA模型的實驗結(jié)果
將分類模型的閾值設(shè)置為0.16。從表3中可以看出,該模型對未知產(chǎn)地的附片平均準(zhǔn)確率為95.23 %,訓(xùn)練集準(zhǔn)確率為95.89 %。
表3 PLS-DA-FDA模型的類內(nèi)測試實驗結(jié)果
PLS-DA-FDA模型進(jìn)行類間測試,從附片的每種產(chǎn)地中隨機(jī)抽取共計10個樣本,與其余6種藥材各10個測試樣本,共計70個樣本組成類間測試集,并將其輸入模型進(jìn)行驗證,其結(jié)果如圖7所示,其中“☆”表示真實標(biāo)簽,“●”表示預(yù)測標(biāo)簽,從圖中可看出,僅有2個其他品種的藥材被誤識為漢中制附片,未知藥材名稱時的識別準(zhǔn)確率為97.14 %。
圖7 PLS-DA-FDA模型在類間測試集上的識別結(jié)果
用6種非附片的其他藥材和附片的太赫茲光譜數(shù)據(jù)來檢驗?zāi)P蛯︻愰g樣本的識別,用附片的數(shù)據(jù)驗證模型對3種產(chǎn)地的鑒別能力。結(jié)果表明:太赫茲光譜結(jié)合PLS-DA和模糊判別方法是實現(xiàn)附片產(chǎn)地快速識別的有效方法。