葉青 馮振乾 朱彥陳 杜建強(qiáng)
摘 ?要:為提高人們的中醫(yī)藥文化素養(yǎng),克服人們對(duì)中藥飲片認(rèn)知依賴專家經(jīng)驗(yàn)的問題,探索計(jì)算機(jī)視覺技術(shù)識(shí)別中藥飲片的可行性,文章建立了包含60種常用中藥飲片的數(shù)據(jù)庫,構(gòu)建一種用于中藥飲片圖像識(shí)別的輕量化卷積神經(jīng)網(wǎng)絡(luò)模型(ConvFormer),并與常用的圖像識(shí)別算法進(jìn)行了實(shí)驗(yàn)對(duì)比。實(shí)驗(yàn)結(jié)果表明,該文提出的ConvFormer模型優(yōu)于常用的幾種圖像識(shí)別算法,模型經(jīng)過微調(diào)后識(shí)別準(zhǔn)確率可達(dá)98.4%,可為中藥飲片圖像識(shí)別提供可靠的技術(shù)支撐。
關(guān)鍵詞:中藥飲片;高低頻提取;輕量化卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):TP391.4 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A ? 文章編號(hào):2096-4706(2023)14-0001-07
Intelligent Screening of Decoction Pieces of Traditional Chinese Medicine Based on Deep Learning
YE Qing, FENG Zhenqian, ZHU Yanchen, DU Jianqiang
(College of Computer Science, Jiangxi University of Chinese Medicine, Nanchang ?330004, China)
Abstract: To improve people's literacy of traditional Chinese medicine culture and overcome the problem that people's cognition of TCM decoction pieces depends on expert experience, and explore the feasibility of computer vision technology to identify TCM decoction pieces. In this paper, a database containing 60 commonly used TCM decoction pieces is established, and a lightweight convolutional neural network model (ConvFormer) is constructed for TCM decoction pieces image recognition, and experimental comparisons are conducted with commonly used image recognition algorithms. The experimental results show that the ConvFormer model proposed in this paper is superior to several commonly used image recognition algorithms. After fine-tuning, the recognition accuracy of the model can reach 98.4%, providing reliable technical support for image recognition of TCM decoction pieces.
Keywords: TCM decoction piece; high and low frequency extraction; lightweight convolutional neural network
0 ?引 ?言
中藥飲片是在傳統(tǒng)中醫(yī)藥理論的指導(dǎo)下,根據(jù)辨證論治和臨床制劑的需要,對(duì)中藥材進(jìn)行加工的炮制品。隨著國家大力提倡發(fā)展中醫(yī)藥事業(yè),人們?cè)絹碓街匾曋嗅t(yī)藥對(duì)健康飲食保健的影響,因此對(duì)中藥飲片的需求量也日益增加,市場(chǎng)上出現(xiàn)摻偽摻假、飲片炮制不合理、農(nóng)藥殘留等現(xiàn)象,嚴(yán)重危害使用者的健康安全[1]。傳統(tǒng)鑒別中藥飲片的方法依賴于專業(yè)人員的視覺感官和長期積累的相關(guān)經(jīng)驗(yàn),這種鑒別方法效率低下,且容易受外界因素的干擾。人工智能圖像處理技術(shù)的快速發(fā)展使得現(xiàn)代計(jì)算機(jī)技術(shù)與傳統(tǒng)中醫(yī)藥的結(jié)合成為新的發(fā)展方向。國家藥監(jiān)局發(fā)布的《國家藥監(jiān)局關(guān)于促進(jìn)中藥傳承創(chuàng)新發(fā)展的實(shí)施意見》中指出,要促進(jìn)現(xiàn)代信息技術(shù)在中藥生產(chǎn)中的應(yīng)用[2]。國務(wù)院辦公廳關(guān)于印發(fā)《“十四五”中醫(yī)藥發(fā)展規(guī)劃》中同樣指出,要加快中藥材自動(dòng)化智能化水平[3]。越來越多的政策推動(dòng)中醫(yī)藥領(lǐng)域應(yīng)用大數(shù)據(jù)、人工智能等新一代“智能”技術(shù)。因此,將深度學(xué)習(xí)人工智能技術(shù)合理運(yùn)用到中藥飲片的鑒定鑒別上,可在一定程度上替代人工完成中藥飲片的種類智能化識(shí)別,甚至是對(duì)于同一種類不同形態(tài)的質(zhì)量甄別,提高人們對(duì)中藥飲片的認(rèn)知,促進(jìn)中醫(yī)藥文化的傳承與發(fā)展。
根據(jù)相關(guān)文獻(xiàn)進(jìn)行統(tǒng)計(jì)與分析,使用計(jì)算機(jī)視覺技術(shù)對(duì)中藥飲片進(jìn)行鑒定尚未形成規(guī)?;?yīng)。相較于人臉識(shí)別,對(duì)中藥飲片的識(shí)別研究還比較少,但大體來說主要分為兩種:1)使用傳統(tǒng)的圖像識(shí)別算法。該類算法首先進(jìn)行顏色紋理形狀的特征提取,然后使用機(jī)器學(xué)習(xí)分類器進(jìn)行分類。2)使用深度學(xué)習(xí)算法。該類算法能夠自動(dòng)提取圖像的高層語義特征并進(jìn)行分類。傳統(tǒng)的圖像識(shí)別算法在進(jìn)行特征提取時(shí),針對(duì)某一種特征的提取效果明顯,而對(duì)其他特征的提取效果較差,泛化性較弱。常見的傳統(tǒng)中藥飲片識(shí)別算法如圖1所示。謝樹瑩[4]使用顏色直方圖對(duì)飲片中的黃柏、當(dāng)歸等五種常見飲片的顏色特征進(jìn)行提取,并使用支持向量機(jī)完成對(duì)這5種飲片的辨色識(shí)別。錢丹丹[5]使用計(jì)算機(jī)視覺技術(shù)分別對(duì)大棗飲片的顏色、大小、缺陷特征進(jìn)行提取,并使用樸素貝葉斯模型完成了對(duì)飲片質(zhì)量的分類。陳仕妍[6]通過綜合不同顏色特征向量,實(shí)現(xiàn)了常見20種飲片的識(shí)別分類。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,一些研究人員嘗試將VGGNet、GoogleNet等網(wǎng)絡(luò)模型應(yīng)用于飲片識(shí)別中,并取得了較好的識(shí)別精度。王健慶[7]證明了GoogleNet深度學(xué)習(xí)模型對(duì)中藥飲片的識(shí)別性能優(yōu)于HOG特征算法。陳雁[8]使用BMFnet-WGAN網(wǎng)絡(luò)完成了不同復(fù)雜環(huán)境下對(duì)飲片的識(shí)別,平均識(shí)別精度為85.9%。
本文構(gòu)建了江西中醫(yī)藥大學(xué)中藥飲片資源數(shù)據(jù)庫,創(chuàng)新性提出輕量級(jí)神經(jīng)網(wǎng)絡(luò)模型ConvFormer,使用數(shù)據(jù)增強(qiáng)、遷移學(xué)習(xí)微調(diào)的方法實(shí)現(xiàn)了98.4%的識(shí)別精度,同時(shí)對(duì)傳統(tǒng)圖像識(shí)別算法和幾種常見卷積神經(jīng)網(wǎng)絡(luò)模型的識(shí)別效果進(jìn)行對(duì)比,證明了本文所提網(wǎng)絡(luò)模型的識(shí)別效果更好。
1 ?輕量級(jí)神經(jīng)網(wǎng)絡(luò)
輕量級(jí)神經(jīng)網(wǎng)絡(luò)脫胎于卷積神經(jīng)網(wǎng)絡(luò),在早期的神經(jīng)網(wǎng)絡(luò)應(yīng)用中,人們不太注重網(wǎng)絡(luò)的參數(shù)量和計(jì)算量,往往會(huì)使整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)過于冗余,運(yùn)算速度較慢。輕量級(jí)神經(jīng)網(wǎng)絡(luò)的提出能夠使整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)在保持原有精度的情況下,使模型的參數(shù)量和復(fù)雜度進(jìn)一步降低,并且能夠部署在移動(dòng)設(shè)備上進(jìn)行識(shí)別應(yīng)用。MobileNet網(wǎng)絡(luò)是輕量級(jí)神經(jīng)網(wǎng)絡(luò)的主要代表之一,MobileNet輕量級(jí)網(wǎng)絡(luò)是在VGG網(wǎng)絡(luò)的基本結(jié)構(gòu)上,使用深度可分離結(jié)構(gòu)構(gòu)建而成的,通過寬度因子和圖像分辨率因子控制模型和輸入圖像的大小,相較于原始VGG網(wǎng)絡(luò)計(jì)算量明顯減少。深度可分離結(jié)構(gòu)如圖2所示。
卷積神經(jīng)網(wǎng)絡(luò)通過普通卷積層對(duì)前一層的特征圖進(jìn)行卷積,獲得圖像的抽象局部特征,卷積神經(jīng)網(wǎng)絡(luò)通過將特征圖一層一層地卷積最終獲得高級(jí)語義信息,實(shí)現(xiàn)物體的分類識(shí)別。卷積神經(jīng)網(wǎng)絡(luò)中第L-1層的特征圖F大小為DF × DF × M,普通卷積層K的大小為DK × DK × M × N,利用普通卷積層K對(duì)特征圖F進(jìn)行卷積計(jì)算,獲得特征圖G的計(jì)算量大小為DK × DK × M × N × DF × DF。MobileNet神經(jīng)網(wǎng)絡(luò)中的深度可分離卷積由Depthwise卷積層和Pointwise卷積層組成,Depthwise卷積層的尺寸大小為DK × DK × 1 × M,Pointwise卷積層的尺寸大小為1 × 1 × M × N,因此對(duì)特征圖F進(jìn)行深度可分離卷積計(jì)算,獲得特征圖G的計(jì)算量大小為DK × DK × M × DF × DF + M × N × DF × DF。計(jì)算量減少為原來的。因此,深度可分離結(jié)構(gòu)能夠有效降低網(wǎng)絡(luò)模型參數(shù),提高運(yùn)算效率。
2 ?材料和設(shè)備
2.1 ?實(shí)驗(yàn)材料
目前在圖像識(shí)別領(lǐng)域尚未建立關(guān)于中藥飲片的權(quán)威數(shù)據(jù)庫,本文選用的60種常用中藥飲片均采集于江西中醫(yī)藥大學(xué)岐黃國醫(yī)書院。每味飲片為歧黃國醫(yī)書院選用道地藥材,使用傳統(tǒng)中醫(yī)藥炮制技術(shù)進(jìn)行炮制,在中藥炮制專家的鑒定下,符合《中華人民共和國藥典》中飲片質(zhì)量標(biāo)準(zhǔn)規(guī)定。根據(jù)所選飲片的形狀和外觀紋理特征,將60種常見中藥飲片分為顆粒、段、切片、塊四類:
1)顆粒狀。蠶砂、覆盆子、蒺藜、使君子、王不留行。
2)段狀。白英、當(dāng)歸、黨參、膽南星、蓽茇、紫草、葛根、鉤藤、黃柏、牛膝、太子參、檀香、制遠(yuǎn)志、土茯苓、續(xù)斷。
3)切片狀。白芍、白芷、白術(shù)、拔契、檳榔、川穹、丹參、大血藤、防風(fēng)、佛手、黑附片、紅景天、紅參片、黃芪、雞血藤、姜半夏、桔梗、木通、苧麻根。
4)塊狀。大腹皮、刀豆殼、茯苓、龜板、海桐皮、雞內(nèi)金、焦山楂、焦神曲、連翹、木瓜、藕節(jié)炭、三棱、射干、升麻、生地、柿子蒂、熟地、松節(jié)、梔子炭、制川烏。部分中藥飲片圖像如圖3所示。
2.2 ?實(shí)驗(yàn)設(shè)備
本文設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)模型甄別中藥飲片的硬件設(shè)備分為采集設(shè)備和電腦硬件設(shè)備。采集飲片圖像信息的是華為P30手機(jī)、佳能850D型相機(jī)。電腦硬件設(shè)備為宏碁臺(tái)式電腦(包含英特爾12代酷睿i9主機(jī)、Win 10操作系統(tǒng))和22英寸顯示器,內(nèi)置4塊NVIDIA Tesla k80型顯卡、64 G運(yùn)行內(nèi)存、1 024 G固態(tài)硬盤,運(yùn)行軟件選用PyCharm2021。
3 ?實(shí)驗(yàn)方法
3.1 ?中藥飲片資源數(shù)據(jù)庫
通過圖像采集設(shè)備采集60種常用中藥飲片的圖像信息,對(duì)各種飲片圖像進(jìn)行人工標(biāo)記,共得到12 719張圖像,并確保每種飲片的圖像數(shù)量大于120。本文所用的中藥飲片圖像數(shù)據(jù)均由高分辨率
設(shè)備采集,每張圖像數(shù)據(jù)的分辨率為5 290 × 3 400,
并且后期由中藥飲片鑒定專家對(duì)每張圖像數(shù)據(jù)進(jìn)行檢查,確保每種飲片標(biāo)注信息準(zhǔn)確無誤,飲片細(xì)節(jié)信息能夠清晰完整保留。對(duì)處理后的中藥飲片圖像數(shù)據(jù)進(jìn)行歸類,建立符合規(guī)范的中藥飲片資源數(shù)據(jù)庫。
3.2 ?圖像預(yù)處理
中藥飲片圖像數(shù)據(jù)在采集時(shí)由于不同的光照亮度強(qiáng)弱問題,容易形成一些無關(guān)信息的干擾。在進(jìn)行模型訓(xùn)練之前,先對(duì)飲片圖像數(shù)據(jù)進(jìn)行預(yù)處理,消除采集過程中光照亮度問題帶來的干擾。由于在采集飲片時(shí)使用的是傳統(tǒng)的RGB三通道模式,而RGB模式中R通道、G通道、B通道之間關(guān)聯(lián)性較強(qiáng),且每個(gè)通道都存儲(chǔ)有亮度信息,更容易受周圍環(huán)境的影響。HSI色彩空間從人類的視覺角度出發(fā),使用色調(diào)、色飽和度、亮度來描述顏色信息,將亮度信息與其他參數(shù)信息分隔開來,因此使用HSI色彩空間可減少飲片周圍亮度信息帶來的影響。其中,RGB轉(zhuǎn)換為HSI的過程如式(1)至式(4)所示:
(1)
(2)
(3)
I = (R + G + B)/3 ? ? ? ? ? ? ? ? ? ? (4)
其中,R、G、B分別表示RGB顏色空間中的R、
G、B三個(gè)通道值,H、S、I分別表示HSI色彩空間中的色調(diào)值、飽和度值、亮度值。通過上述公式可以將飲片圖像數(shù)據(jù)轉(zhuǎn)變?yōu)镠SI色彩空間的圖像數(shù)據(jù),然后將變換后的圖像數(shù)據(jù)作為顏色特征輸入到模型中進(jìn)行識(shí)別。
神經(jīng)網(wǎng)絡(luò)模型需要大量的圖像數(shù)據(jù)進(jìn)行訓(xùn)練,因此在進(jìn)行飲片識(shí)別之前,需要先將圖像數(shù)據(jù)進(jìn)行增強(qiáng),增加訓(xùn)練樣本的數(shù)量,然后再輸入到神經(jīng)網(wǎng)絡(luò)中,這樣可以減少模型過擬合帶來的風(fēng)險(xiǎn),使模型的魯棒性更強(qiáng)。飲片圖像數(shù)據(jù)共計(jì)12 719張,在進(jìn)行特征提取之前,我們先將飲片圖像數(shù)據(jù)進(jìn)行裁剪操作、水平翻轉(zhuǎn)操作和HSI色彩空間操作,將圖像數(shù)量變?yōu)樵瓉淼?倍。
3.3 ?模型設(shè)計(jì)
3.3.1 ?模型架構(gòu)
本文構(gòu)建的網(wǎng)絡(luò)模型如圖4所示,其中包含輸入層、圖像數(shù)據(jù)預(yù)處理層、Conv層、TCB層、PoolFormer層和輸出分類層。其中輸入層用于飲片的批量輸入,在輸出分類層輸出批量輸入飲片的種類名稱。圖像數(shù)據(jù)預(yù)處理層會(huì)將批量輸入的飲片圖像數(shù)據(jù)轉(zhuǎn)換為色彩空間圖像數(shù)據(jù),經(jīng)過裁剪、翻轉(zhuǎn)操作,擴(kuò)充原來數(shù)據(jù)集的數(shù)量。Conv層的步長為2,作用為初步提取飲片的特征,將提取的特征傳入TCB層中。通過三個(gè)TCB模塊,將初步提取的飲片特征逐層抽象。PoolFormer層更加偏好于全局特征,然而在前面三個(gè)TCB模塊特征提取時(shí)會(huì)有一些特征信息遺失,因此PoolFormer層與Conv層之間的短連接,能夠?qū)⒊醪教崛〉奶卣骱蚑CB抽象的特征同時(shí)輸入到PoolFormer層中,使得該層處理的特征信息更加全面。
3.3.2 ?特征提取
現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)算法和Transformer算法對(duì)飲片的特征提取都存有不足。卷積神經(jīng)網(wǎng)絡(luò)由于受卷積核感受野的限制,在進(jìn)行特征提取時(shí)偏好局部信息。Transformer偏好于長距離信息的特性使得模型的參數(shù)量比較大,識(shí)別速度比較慢。因此本文創(chuàng)新性地提出一種輕量級(jí)神經(jīng)網(wǎng)絡(luò)ConvFormer算法,通過將卷積神經(jīng)網(wǎng)絡(luò)和Transformer相結(jié)合,將兩者的優(yōu)勢(shì)互補(bǔ),使模型更加適用于中藥飲片的識(shí)別,輕量級(jí)的結(jié)合使網(wǎng)絡(luò)參數(shù)量更少,識(shí)別速度更快。ConvFormer算法模型在低頻特征中使用TCB模塊(雙通道卷積模塊)提取飲片的紋理形狀等淺層特征,在高頻特征中使用PoolFormer模塊強(qiáng)化低頻特征中提取的紋理形狀特征,同時(shí)減少模型的參數(shù)量計(jì)算,提高識(shí)別速度。
所提出的低頻特征提取為TCB模塊,如圖5(a)所示,該特征提取模塊由兩個(gè)特征提取模塊并行組成。一個(gè)分支使用改進(jìn)的SeNet模塊提取通道信息,另一個(gè)分支使用大尺度卷積核提取空間信息,將兩分支提取的特征進(jìn)行相加運(yùn)算,可以實(shí)現(xiàn)通道特征與空間特征的互補(bǔ)。改進(jìn)的SeNet模塊將原有的全連接層去除,使用DWConv進(jìn)行特征信息交互,減少了全連接帶來的數(shù)據(jù)冗余。另一分支使用大尺度卷積核提取空間特征,主要用于關(guān)注圖像中哪一部分更加重要,同時(shí)空間信息的提取補(bǔ)充了通道關(guān)注不到的細(xì)節(jié)信息。通道特征提取與空間特征提取分開進(jìn)行,實(shí)現(xiàn)在對(duì)飲片通道特征信息和空間特征信息進(jìn)行捕獲的同時(shí)減少參數(shù)量。多次堆疊執(zhí)行TCB模塊能夠快速編碼更多的特征信息。
所提出的高頻特征提取為PoolFormer模塊,如圖5(b)所示,該模塊采用Transformer中的MetaFormer框架,將原有框架中的Attention模塊變?yōu)楸疚闹械腃hannel Pool模塊。Transformer原網(wǎng)絡(luò)框架使用Attention模塊導(dǎo)致整個(gè)模型計(jì)算量大,運(yùn)行緩慢。Attention模塊的作用是實(shí)現(xiàn)全局特征之間的信息通信,本文PoolFormer通過兩個(gè)殘差子模塊分步實(shí)現(xiàn)高頻特征對(duì)全局特征的提取抽象,第一個(gè)模塊為LayerNorm+Channel Pool,主要作用是對(duì)之前提取的特征圖進(jìn)行通道信息之間的混合通信,第二個(gè)模塊為LayerNorm+Mlp,目的是在混合通道信息之間添加線性空間信息。相較于原有的Attention模塊,修改后的PoolFormer模塊可以實(shí)現(xiàn)同樣效果且參數(shù)量大大減少,運(yùn)算速度加快。
3.4 ?模型訓(xùn)練
ConvFormer模型使用中藥飲片資源數(shù)據(jù)庫中的飲片圖像數(shù)據(jù)進(jìn)行識(shí)別,按照7:2:1的比例將飲片數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。本文首先在最優(yōu)超參數(shù)的選取上進(jìn)行實(shí)驗(yàn),確定最佳的初始學(xué)習(xí)率和批尺寸。根據(jù)選取的超參數(shù),對(duì)比了兩種不同的遷移學(xué)習(xí)方法與未遷移的ConvFormer網(wǎng)絡(luò)模型性能優(yōu)劣。同時(shí),以傳統(tǒng)的機(jī)器學(xué)習(xí)方法KNN和HOG+SVM、深度學(xué)習(xí)方法ResNet50、GoogleNet、MobileNet作為對(duì)照組進(jìn)行實(shí)驗(yàn),對(duì)比了每種算法的識(shí)別準(zhǔn)確率和參數(shù)量。
4 ?結(jié)果與分析
4.1 ?選定最優(yōu)超參數(shù)
本文構(gòu)建的網(wǎng)絡(luò)模型在進(jìn)行訓(xùn)練時(shí)受初始學(xué)習(xí)率和批尺寸的影響,不同的學(xué)習(xí)率和批尺寸會(huì)以不同的步調(diào)尋找全局最優(yōu)解,學(xué)習(xí)率是模型梯度下降的步長,決定了搜索全局最優(yōu)解的快慢;批尺寸為模型每次進(jìn)行訓(xùn)練時(shí)的樣本數(shù)量,決定著模型尋求最優(yōu)解的方向。因此,選取合適的學(xué)習(xí)率和批尺寸對(duì)實(shí)驗(yàn)結(jié)果有很大的影響。本文選取的學(xué)習(xí)率為0.1、0.01、0.001、0.000 1,批尺寸為4、8、16、32、64、128、256,將不同的學(xué)習(xí)率與批尺寸進(jìn)行組合實(shí)驗(yàn),觀察實(shí)驗(yàn)結(jié)果的準(zhǔn)確率變化情況,從而確定最優(yōu)的組合方式。實(shí)驗(yàn)結(jié)果如圖6所示。
從圖6中可以得出,當(dāng)batchsize增大時(shí),模型的準(zhǔn)確率先升高后降低;在每個(gè)batchsize中,準(zhǔn)確率會(huì)隨著learning rate的減小而快速找到模型的全局最優(yōu)解。learningrate越大,模型準(zhǔn)確率產(chǎn)生的波動(dòng)越大。以learningrate=0.01為例,模型的準(zhǔn)確率會(huì)因batchsize過小而陷入局部最優(yōu)解,隨著batchsize變得過大而難以收斂。綜上,本文選取的最佳初始學(xué)習(xí)率為0.000 1,批尺寸為16。
4.2 ?不同模型識(shí)別效果對(duì)比
不同模型在中藥飲片上的識(shí)別結(jié)果如表1所示。從表1中可以看出,相較于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)算法,傳統(tǒng)的機(jī)器學(xué)習(xí)識(shí)別算法效果較差。在傳統(tǒng)機(jī)器學(xué)習(xí)算法中,將特征提取和特征分類分離的HOG+SVM方法效果明顯優(yōu)于直接在特征空間中分類的KNN方法。在深度學(xué)習(xí)算法中,本文提出的ConvFormer算法效果最好,準(zhǔn)確率最高可達(dá)96.6%。相較于MobileNet網(wǎng)絡(luò),雖然參數(shù)量有所增加,但準(zhǔn)確率大幅提升。與GoogleNet、ResNet50網(wǎng)絡(luò)相比,ConvFormer方法不僅準(zhǔn)確率小幅提升,而且在參數(shù)量大小上明顯減少,這表明本文提出的改進(jìn)模型能夠明顯提升中藥飲片的識(shí)別率,并且在模型大小上降低了對(duì)內(nèi)存的消耗,識(shí)別速度更快,魯棒性更佳。
本文同時(shí)對(duì)比了使用遷移學(xué)習(xí)與未使用遷移學(xué)習(xí)的ConvFormer算法,在實(shí)驗(yàn)中使用遷移學(xué)習(xí)有助于模型更快地收斂。在遷移學(xué)習(xí)的兩種方法中,固定權(quán)重的遷移學(xué)習(xí)發(fā)生了負(fù)遷移,我們推測(cè)固定權(quán)重將先驗(yàn)知識(shí)固定,模型進(jìn)行新的飲片圖像識(shí)別時(shí)囿于原有知識(shí),造成準(zhǔn)確率降低的現(xiàn)象。在微調(diào)遷移學(xué)習(xí)中,模型的準(zhǔn)確率相較于未遷移時(shí)明顯提高,經(jīng)分析可知,在模型進(jìn)行測(cè)試時(shí),將測(cè)試中學(xué)習(xí)到的新知識(shí)添加到原有的知識(shí)庫中,不斷地更新先驗(yàn)知識(shí),使模型更加適用于該種類的鑒別。
4.3 ?飲片識(shí)別準(zhǔn)確率對(duì)比
本文進(jìn)一步測(cè)試了網(wǎng)絡(luò)上各種復(fù)雜背景下中藥飲片在改進(jìn)模型上的識(shí)別效果。網(wǎng)絡(luò)上獲取的圖片相較于本文使用的數(shù)據(jù)集圖像分辨率更低,明亮度不一,圖像內(nèi)雜物、修飾物較多。將收集到的網(wǎng)絡(luò)上中藥飲片作為測(cè)試數(shù)據(jù)集,獲得其識(shí)別率,如表2所示為網(wǎng)絡(luò)上收集到的中藥飲片識(shí)別準(zhǔn)確率。
從表2中可以看出,在識(shí)別熟地、生地、焦神曲類飲片時(shí),因它們的外觀、顏色相似導(dǎo)致識(shí)別率較低;黃芪、白芍、桔梗類飲片在顏色和紋理方面具有一定的相似性,網(wǎng)絡(luò)模型仍能夠?qū)⑵溆行ёR(shí)別出來。太子參、鉤藤、黃柏、檀香類段狀飲片,外觀差異較大,識(shí)別效果較好。綜合觀之,本文提出的網(wǎng)絡(luò)模型在面對(duì)新的復(fù)雜背景時(shí),噪聲較多的飲片仍具有較好的識(shí)別率,模型泛化能力較強(qiáng)。
5 ?結(jié) ?論
本文總結(jié)了傳統(tǒng)中藥飲片識(shí)別常用的方法,傳統(tǒng)中藥飲片識(shí)別將特征提取與特征分類分離,雖然可以針對(duì)不同的類型設(shè)計(jì)具體的特征提取方式,但是這種方式泛化能力較弱,常常會(huì)存在不同類型中藥飲片識(shí)別準(zhǔn)確率較低的問題。在深度學(xué)習(xí)方法中使用卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)提取特征并進(jìn)行特征分類,這種方式對(duì)背景單一、形態(tài)差別較大、圖像屬性相似的中藥飲片識(shí)別準(zhǔn)確率尚佳,但也存在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)困難,較長的網(wǎng)絡(luò)結(jié)構(gòu)導(dǎo)致梯度彌散的現(xiàn)象。
本文提出的ConvFormer算法,針對(duì)中藥飲片種類多、每種飲片圖像數(shù)量少、飲片圖像受光照亮度強(qiáng)弱因素影響等問題,改進(jìn)了現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)和Transformer方法對(duì)飲片特征提取不足的問題。該算法采用高低頻特征提取的方式,更加關(guān)注提取飲片的細(xì)節(jié)特征,減少了參數(shù)量,使模型可以更加輕便、快捷地針對(duì)中藥飲片進(jìn)行識(shí)別。在圖像預(yù)處理環(huán)節(jié),使用HSI色彩空間代替?zhèn)鹘y(tǒng)的RGB顏色空間,解決了飲片圖像受光照強(qiáng)度因素干擾的問題。
此外,對(duì)本文提出的網(wǎng)絡(luò)模型進(jìn)行最優(yōu)超參數(shù)選取實(shí)驗(yàn),通過不同的超參數(shù)組合實(shí)驗(yàn),選取最優(yōu)的網(wǎng)絡(luò)超參數(shù)。同時(shí)采用傳統(tǒng)識(shí)別方法、深度學(xué)習(xí)方法與提出的網(wǎng)絡(luò)模型進(jìn)行對(duì)比實(shí)驗(yàn),得出了本文提出的新型網(wǎng)絡(luò)模型識(shí)別準(zhǔn)確率優(yōu)于其他方法。通過遷移學(xué)習(xí)對(duì)比實(shí)驗(yàn),驗(yàn)證了遷移學(xué)習(xí)微調(diào)能夠提高模型在中藥飲片識(shí)別上的有效性。最后,收集網(wǎng)絡(luò)中復(fù)雜背景下的中藥飲片圖像進(jìn)行測(cè)試,驗(yàn)證了本文提出的方法在面對(duì)復(fù)雜背景下的中藥飲片時(shí),仍能有效提取圖像中的飲片細(xì)節(jié)特征,具有較高的識(shí)別率,模型泛化性能較強(qiáng)。
綜上,本文提出的新型圖像識(shí)別方法具有廣泛的應(yīng)用前景,在面對(duì)復(fù)雜背景下的中藥飲片時(shí),能夠關(guān)注飲片細(xì)節(jié)信息有效地進(jìn)行識(shí)別。該算法在外觀、顏色相似的飲片識(shí)別中還存在不足之處,后續(xù)的研究將會(huì)更加關(guān)注外觀相似中藥飲片的細(xì)分類識(shí)別。
參考文獻(xiàn):
[1] 張靜.探討中藥飲片抽檢情況及市場(chǎng)現(xiàn)狀 [J].食品安全導(dǎo)刊,2021(23):185-186.
[2] 王青云.《國家藥監(jiān)局關(guān)于促進(jìn)中藥傳承創(chuàng)新發(fā)展的實(shí)施意見》發(fā)布 [J].中醫(yī)藥管理雜志,2021,29(1):129.
[3] 佚名.“十四五”中醫(yī)藥發(fā)展規(guī)劃 [J].江蘇中醫(yī)藥,2022,54(5):1-9.
[4] 謝樹瑩,周明,周金海.基于OpenCV的中藥飲片“辨色”識(shí)別研究 [J].時(shí)珍國醫(yī)國藥,2018,29(2):510-512.
[5] 錢丹丹,周金海.基于計(jì)算機(jī)視覺的中藥飲片檢測(cè)與分級(jí)研究 [J].時(shí)珍國醫(yī)國藥,2019,30(1):203-205.
[6] 陳仕妍,盧文彪,王鳳梅.基于顏色匹配模板的中藥飲片圖像識(shí)別 [J].中國實(shí)驗(yàn)方劑學(xué)雜志,2020,26(6):158-162.
[7] 王健慶,戴愷,李子柔.基于深度學(xué)習(xí)的中藥飲片圖像識(shí)別研究 [J].時(shí)珍國醫(yī)國藥,2020,31(12):2930-2933.
[8] 陳雁,鄒立思.基于BMFnet-WGAN的中藥飲片智能甄別 [J].中國實(shí)驗(yàn)方劑學(xué)雜志,2021,27(15):107-114.
作者簡介:葉青(1968—),女,漢族,江西南昌人,教授,碩士,研究方向:數(shù)據(jù)挖掘、中醫(yī)藥信息學(xué);馮振乾(1997—),男,漢族,河南新鄉(xiāng)人,碩士研究生在讀,研究方向:圖像處理;通訊作者:朱彥陳(1980—),男,漢族,江西南昌人,副教授,碩士,研究方向:圖像處理;杜建強(qiáng)(1968—),男,漢族,江西南昌人,教授,博士,研究方向:數(shù)據(jù)挖掘、中醫(yī)藥信息學(xué)。