機(jī)器學(xué)習(xí)結(jié)合太赫茲光譜的附片產(chǎn)地鑒別*

2023-02-02 05:07:22劉泉澄侯森林

傳感器與微系統(tǒng) 2023年1期

趙偉，何俊，劉泉澄，侯森林，鄧琥

(1.西南科技大學(xué) 信息工程學(xué)院，四川綿陽 621010； 2.西南科技大學(xué) 四川天府新區(qū)創(chuàng)新研究院,四川成都 610299)

0 引言

中藥材傳統(tǒng)經(jīng)驗鑒別法在鑒別產(chǎn)地時，對個人能力依賴較大，缺乏客觀性。隨著科技的進(jìn)步，現(xiàn)代鑒別方法因能客觀反映藥材的內(nèi)部質(zhì)量而被廣泛應(yīng)用于中草藥鑒別[1,2]。近年來，太赫茲技術(shù)也被用于中藥材檢測，眾多學(xué)者還將機(jī)器學(xué)習(xí)與太赫茲光譜結(jié)合[3～9]實現(xiàn)中藥材的鑒別，劉燕德等人[6]利用標(biāo)準(zhǔn)正態(tài)變量變換和主成分分析(principal component analysis,PCA)及支持向量機(jī)(support vector machine,SVM)3種算法結(jié)合太赫茲光譜，實現(xiàn)了對4種貝母的識別；Liang J等人[7]利用PCA-SVM粒子群優(yōu)化(particle swarm optimization,PSO)算法對模型進(jìn)行參數(shù)優(yōu)化，實現(xiàn)了對黃芩的產(chǎn)地鑒別；Yang S等人[8]將全波段的太赫茲吸收光譜作為卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的輸入量,實現(xiàn)了對3種產(chǎn)地咖啡豆的識別；Pan S等人[9]利用改進(jìn)的杜鵑搜索(cuckoo search,CS)算法SPCS和SVM算法結(jié)合太赫茲光譜，實現(xiàn)了對3種年限人參的識別精度。

上述識別模型具有較高的識別率，但卻缺乏普適性，即不能處理未知藥材名稱的產(chǎn)地識別問題。本文依據(jù)中醫(yī)藥的整體觀思想選取了0.2～1.5 THz全波段的數(shù)據(jù)進(jìn)行分析，提出了將太赫茲光譜結(jié)合機(jī)器學(xué)習(xí)的中藥材產(chǎn)地識別方法。

1 材料與方法

1.1 太赫茲時域光譜系統(tǒng)

本文使用的太赫茲時域光譜(THz-time-domain spectrum,THz-TDS)系統(tǒng)如圖1所示，系統(tǒng)由飛秒激光器(MaiTai，Spectra-Physics)和THz-TDS儀組成。激光器的中心波長為800 nm，帶寬為10 nm，經(jīng)立方體分束器分為泵浦光和探測光，當(dāng)泵浦光照射光導(dǎo)天線時可產(chǎn)生太赫茲脈沖，其通過不同樣品[17]后可產(chǎn)生不同的THz-TDS，THz-TDS儀為美國Zomega公司的Z-3型THz-TDS系統(tǒng)，該系統(tǒng)光譜范圍是0.1～2.5 THz，Z-3系統(tǒng)設(shè)置掃描開始時間為50 ps，掃描長度為60 ps，掃描速度為0.122 mm/s，為了減少水分對光譜的干擾，將Z-3THz-TDS儀放置在密封箱中，在實驗期間通入干燥空氣，將相對濕度控制在4 %RH以下，并將重復(fù)4次掃描獲得到的平均光譜作為一次有效的THz-TDS，經(jīng)傅里葉變換及Dorney等人[10]提出的光學(xué)參數(shù)提取方法可以得到其太赫茲吸收光譜。

圖1 透射式THz-TDS系統(tǒng)光路原理

1.2 樣品來源與制備

實驗所用中藥材由綿陽市食品藥品檢驗所提供，其中附片有江油、云南、漢中3種產(chǎn)地，其余6種藥材為：大黃(甘肅和青海2種產(chǎn)地)、黨參、陳皮、麥冬、天麻，實驗前先將樣品干燥3 h，然后粉碎并過200目篩網(wǎng)，之后將壓片機(jī)的壓力設(shè)置為5 T，壓力保持時間為3 min，壓制成直徑約13 mm，厚度約1 mm的圓片。附片每種產(chǎn)地壓制35片，共計105片，采集樣品正反兩面的太赫茲光譜，共得到210組附片的太赫茲吸收光譜數(shù)據(jù)；而其他品種藥材各壓制5片，共計30片，共得到60組太赫茲吸收光譜數(shù)據(jù)。

2 算法原理

2.1 分類算法

采用Python 3.7中的Sklearn學(xué)習(xí)庫實現(xiàn)隨機(jī)森林(random forest,RF)[11]、SVM和偏最小二乘判別分析(partial least square discriminant analysis,PLS-DA)等模型的建立，其操作較為便捷。其中，SVM采用線性核(linear kernel)函數(shù)，SVM的懲罰參數(shù)、RF的基分類器數(shù)量、PLS-DA的主成分?jǐn)?shù)均通過繪制學(xué)習(xí)率曲線獲得最佳值。另外，為保證訓(xùn)練的準(zhǔn)確度，利用train_test_split()函數(shù)將不同產(chǎn)地附片的210組光譜按7︰3比例隨機(jī)劃分為訓(xùn)練集和測試集。

2.2 模糊判別分析算法

本文中的模糊判別分析(fuzzy discriminant analysis，F(xiàn)DA)算法是在給定標(biāo)準(zhǔn)庫情況下，利用最大隸屬度原則將待識別對象分類到對應(yīng)標(biāo)準(zhǔn)庫的方法。

1)樣本庫和細(xì)節(jié)點特征庫[12]

將附片每種產(chǎn)地的50組原始吸收系數(shù)數(shù)據(jù)作為樣本庫。每種產(chǎn)地附片在每個頻率采樣點下的特征均值和標(biāo)準(zhǔn)差，用A(i)表示第i種產(chǎn)地藥材的特征均值,C(i)表示第i種產(chǎn)地藥材的標(biāo)準(zhǔn)差,即

A(i)=[mi1,…,mij,…,miN]

C(i)=[ci1,…,cij,…,ciN]

(1)

2)細(xì)節(jié)特征匹配

假設(shè)細(xì)節(jié)點特征庫中包含B種產(chǎn)地的附片，現(xiàn)對待測樣本Q的模糊判別過程做進(jìn)一步說明，假設(shè)待識別藥材吸收光譜記為FQ，則FQ=[fQ1,…,fQj,…,fQN]。若待測藥材被分類器預(yù)測為第i種藥材，則將待測光譜與細(xì)節(jié)點特征庫中的第i種產(chǎn)地藥材匹配，但由于樣品厚度、系統(tǒng)噪聲等因素的影響，F(xiàn)Q不可能恒等于第i種藥材的均值矢量A(i),而是以高斯分布的形式分布在A(i)附近。計算待測樣本屬于中藥材r的隸屬度drj，則

(2)

其中，隸屬度drj在0～1之間。求得待測藥材與細(xì)節(jié)點特征庫中某種產(chǎn)地隸屬度后，根據(jù)最大隸屬度原則以及設(shè)定的閾值即可驗證分類結(jié)果是否正確，若隸屬度大于設(shè)定閾值則分類結(jié)果正確并將其輸出，否則分類錯誤輸出結(jié)果為：未知藥材。其識別流程如圖2所示。

圖2 3種模型的識別流程

2.3 分類模型閾值的選擇與模型評價

本文將等錯誤率(equal error rate,EER)處的值，即誤識率(FAR)和拒誤率(FRR)相等處的值設(shè)定為識別模型的閾值。FAR=(NFA/NIRA)×100 %，其中，NIRA為類間測試的總次數(shù)，而類間測試集由不同品種的中藥材樣本組成，NFA為錯誤接受的樣本數(shù)。FRR=(NFR/NGRA)×100 %，NGRA為類內(nèi)測試的總次數(shù)，而類內(nèi)測試集由不同產(chǎn)地的附片樣本組成，NFR為錯誤拒絕的樣本數(shù)。

在進(jìn)行類內(nèi)測試實驗時，隨著閾值的增大，錯誤拒絕的樣本數(shù)量越來越多，即待測光譜必須與目標(biāo)光譜高度相似才能被正確識別；而對于類間測試實驗，隨著閾值的增大，錯誤接受的樣本數(shù)量越來越少，其他藥材的光譜本就與附片光譜差異較大，更容易被識別為非附片藥材。因此，將EER作為識別模型的閾值，此時識別模型在對類內(nèi)樣本的識別和對類間的樣本識別，其錯誤率均最低且相等，如圖3。

圖3 FAR/FRR—閾值曲線示意

識別準(zhǔn)確率A(Accuracy)是識別正確樣本與總樣本的比例，A=((TP+TN)/(TP+FP+TN+FN))×100 %。其中，TP為真陽性，TN為真陰性，F(xiàn)P為假陽性，F(xiàn)N為假陰性。

3 結(jié)果與分析

3.1 太赫茲光譜分析

由于1.5 THz后信噪比變差，所以僅研究了0.2～1.5 THz波段的吸收光譜。圖4(a)～(c)為來自于漢中、江油、云南3種產(chǎn)地附片各70組太赫茲吸收光譜；在與附片相同的檢測系統(tǒng)及條件下檢測其余6種藥材，得到的60組太赫茲原始吸收光譜如圖4(d)所示，將其與部分附片光譜數(shù)據(jù)作為類間測試集的樣本；從圖中可以看出，僅靠吸收系數(shù)的大小難以區(qū)分不同產(chǎn)地的附片藥材，而使用機(jī)器學(xué)習(xí)可能是實現(xiàn)中藥材產(chǎn)地鑒別的關(guān)鍵。

圖4 樣品的太赫茲吸收光譜

3.2 建立識別模型

3.2.1 識別模型的建立與對比分析

本文將所有附片70 %的太赫茲吸收光譜數(shù)據(jù)作為輸入量輸入到SVM識別模型、RF識別模型、PLS-DA中進(jìn)行訓(xùn)練。各分類器最佳參數(shù)值如表1所示。

表1 3種分類器的最佳參數(shù)

根據(jù)表2可繪制出如圖5所示的3種模型在不同閾值下的識別準(zhǔn)確率，從其中可以看出,PLS-DA結(jié)合FDA(PLS-DA-FDA)模型的準(zhǔn)確率在任何閾值下均是最高的。

表2 3種識別模型的類內(nèi)測試實驗結(jié)果

圖5 3種模型在不同閾值下的識別準(zhǔn)確率

將類內(nèi)測試集(即未知產(chǎn)地的附片)的63個測試樣本輸入識別模型，同時將從附片中隨機(jī)抽取10個樣本(3漢中+3江油+4云南)和其余6種藥材各10組光譜組成類間測試集輸入3種識別模型。圖6中類內(nèi)測試集對應(yīng)FAR曲線，類間測試集對應(yīng)FRR曲線，同一識別模型的2條曲線的交點稱作EER點，將其所對應(yīng)的值設(shè)定為識別模型在確認(rèn)分類結(jié)果時的閾值。從圖中可以看出，PLS-DA-FDA模型的EER最低約2 %，優(yōu)于其他模型，此時閾值為0.16。

圖6 FAR/FRR—閾值曲線

3.2.2 PLS-DA-FDA模型的實驗結(jié)果

將分類模型的閾值設(shè)置為0.16。從表3中可以看出,該模型對未知產(chǎn)地的附片平均準(zhǔn)確率為95.23 %,訓(xùn)練集準(zhǔn)確率為95.89 %。

表3 PLS-DA-FDA模型的類內(nèi)測試實驗結(jié)果

PLS-DA-FDA模型進(jìn)行類間測試，從附片的每種產(chǎn)地中隨機(jī)抽取共計10個樣本，與其余6種藥材各10個測試樣本，共計70個樣本組成類間測試集，并將其輸入模型進(jìn)行驗證，其結(jié)果如圖7所示，其中“☆”表示真實標(biāo)簽，“●”表示預(yù)測標(biāo)簽，從圖中可看出，僅有2個其他品種的藥材被誤識為漢中制附片，未知藥材名稱時的識別準(zhǔn)確率為97.14 %。

圖7 PLS-DA-FDA模型在類間測試集上的識別結(jié)果

4 結(jié) 論

用6種非附片的其他藥材和附片的太赫茲光譜數(shù)據(jù)來檢驗?zāi)Ｐ蛯︻愰g樣本的識別，用附片的數(shù)據(jù)驗證模型對3種產(chǎn)地的鑒別能力。結(jié)果表明：太赫茲光譜結(jié)合PLS-DA和模糊判別方法是實現(xiàn)附片產(chǎn)地快速識別的有效方法。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看