拱健婷,李 莉,鄒慧琴,徐 東,王大仟,叢 悅,劉長利
(1.北京市衛(wèi)生局臨床藥學研究所 北京 100035;2.首都醫(yī)科大學附屬北京中醫(yī)醫(yī)院 北京 100010;3.北京中醫(yī)藥大學中藥學院 北京 102488;4.首都醫(yī)科大學中醫(yī)藥學院 北京 100069)
當歸為傘形科植物當歸Angelica sinensis(Oliv.)Diels.的干燥根[1],始載于《神農(nóng)本草經(jīng)》[2],為常用的名貴大宗藥材,素有“十藥九歸”之稱,臨床上多用于治療血瘀證、血虛證,為“血中之圣藥”[3]。當歸是衛(wèi)計委公示的“藥食兩用”品種之一[4],也是保健品、化妝品、飲品、香料的原料,市場需求量大,是產(chǎn)銷量位居第二的大宗中藥商品[5]。隨著其需求的增長和價格的提高,當歸混偽品也日漸增多,近年來筆者發(fā)現(xiàn)市場上部分藥材因名稱與當歸相似而混為當歸藥用,如云南野當歸(Angelica sp.)、歐當歸(Levi sticum officinaleKoch.)和華中前胡(Peucedanum medicum)混作當歸。這些植物在根莖形態(tài)上與正品當歸十分類似,但在藥效方面相差甚遠[6,7],嚴重影響用藥安全,因此快速有效鑒別當歸真?zhèn)纬蔀楫攧罩薄?/p>
已有許多報道采用性狀鑒別法、紫外光譜法、薄層色譜法、分子技術(shù)等對當歸進行鑒別[7-10],取得了一定的成效,但是仍存在易受人為主觀因素影響、樣品制備復雜、特征信息較少、結(jié)果難量化、成本高、溶劑污染等局限。近紅外光譜(Near Infrared Spectrum;NIRS)技術(shù)是正在迅速發(fā)展的一種綠色分析技術(shù),具有快速、價廉、無損等特點,與化學計量學結(jié)合,廣泛用于農(nóng)業(yè)、食品、化學和石油化工、制藥等領(lǐng)域的定性和定量分析[11],被美、歐、日、韓、澳大利亞等國家藥典納入附錄內(nèi)容[12]。近紅外光譜既能全面地反映中藥的整體信息,在苦參[13]、大黃[14]、板藍根[15]、三七[16]等中藥真?zhèn)舞b別中近紅外技術(shù)已經(jīng)得到了很好的應用。此外,近紅外技術(shù)結(jié)合化學計量方法PCA[12,13]、偏最小二乘判別分析[13,17]、ANN[14]、SVM[15]等能夠?qū)崿F(xiàn)當歸產(chǎn)地、產(chǎn)期[18]及不同部位[17]的精細鑒別。本研究將NIRS 技術(shù)與GBDT 結(jié)合應用于當歸藥材真?zhèn)蔚目焖勹b別,旨在建立一種快速、準確、便捷的當歸真?zhèn)闻袆e模型,規(guī)范當歸藥材市場。
表1 樣品信息表
本試驗中的樣品分別于2017年10月至2017年12月期間采集,其中來自不同產(chǎn)地的正品當歸5 批次共112份,偽品當歸云南野當歸、歐當歸、華中前胡各1批次,共計47份。
全部樣品均由北京市臨床藥學研究所李莉研究員鑒定,其編號、基原植物、產(chǎn)地信息如表1所示,樣品均保存于北京市臨床藥學研究所202實驗室。
1.2.1 儀器
NIR-M-R2 型近紅外光譜儀(揚光綠能),配備InGaAs 檢測器光譜采集范圍900-1 700 nm,共228 個變量,采用Hadamard 模式進行掃描。
1.2.2 光譜采集
樣品從頭部1 cm 處進行切割獲得斷面,將光纖探頭垂直于樣品頭部斷面獲取近紅外光譜信息。為減小實驗誤差,每個樣品測定3 次,將各次測定得到的光譜曲線加和取平均得到各樣品的數(shù)據(jù)曲線用于后續(xù)數(shù)據(jù)分析。
1.2.3 方法學考察
按照樣品測定方法操作,在同一背景下對同一樣品進行6 次掃描,求得228 個波長下吸光度的標準偏差為0.000 56-0.004 3,光譜的均方差0.000 051-0.003 9,儀器穩(wěn)定性良好。
取同一份樣品,按照樣品測定方法操作,采集其切割0、1、2、3、4、5、6 h 后樣品斷面的光譜數(shù)據(jù),求得不同吸收波長下RSD 為0.007 9-0.87%,樣品在6 h 內(nèi)相對穩(wěn)定。
1.3.1 預處理
由于儀器首尾噪聲較大使得光譜前端和后端有較明顯的噪聲,為避免低信噪比對分析的影響,本實驗截取961-1 655 nm 波長范圍內(nèi)的光譜數(shù)據(jù)作為下一步分析的數(shù)據(jù),以初步去除兩端噪聲干擾。
1.3.2 軟件
本研究中PCA 在PAST 3.0 軟件上完成,其余算法GBDT、SVM、ANN、隨機森林(Random forest;RF)均由Python 2.7實現(xiàn)。
本試驗采集到的近紅外光譜數(shù)據(jù)如圖1 所示,整體來看,當歸及偽品的NIRS 曲線變化趨勢和特征吸收基本一致,無法直接鑒別當歸真?zhèn)?。從平均光譜圖(圖1b)可以看出,當歸與華中前胡、歐當歸、云南野當歸樣品的光譜曲線吸收率存在區(qū)別,平均吸收率大小依次為華中前胡>云南野當歸>歐當歸>當歸,這一差異為當歸真?zhèn)蔚蔫b別奠定了數(shù)據(jù)基礎(chǔ)。但是由于儀器測量的波長范圍局限,更多地得到的是芳烴、甲基、亞甲基、次甲基、水、胺等的合頻和倍頻吸收峰,信號強度低且峰譜寬,同一波段是樣品多種信息的疊加,譜峰重疊嚴重使得對當歸及偽品的光譜進行直接分辨較為困難,因此有必要借助化學計量學算法做進一步分析。
961-1 655 nm 間有198 個變量,數(shù)據(jù)量大且相鄰波段之間的相關(guān)性強,造成信息的冗余,選用適當?shù)姆椒ㄌ蕹幌嚓P(guān)變量十分必要。PCA 目的是降維,消除相互重疊的信息部分,實現(xiàn)用少數(shù)關(guān)鍵變量代替全光譜,降低模型運算量和復雜度、提高模型穩(wěn)定性和預測準確性[19]。PCA 通過提取198 個指標相關(guān)矩陣內(nèi)部相關(guān)信息,剔除原始數(shù)據(jù)中高度冗余的變量,使數(shù)目較少的新變量成為原變量的線性組合,而且新變量能最大限度的表征原變量的數(shù)據(jù)結(jié)構(gòu)特征[20]。
圖1 當歸、華中前胡、歐當歸、云南野當歸的近紅外原始光譜(1a)和平均光譜(1b)
圖2 當歸、華中前胡、歐當歸、云南野當歸主成分分析得分圖
表2 三種算法的性能比較
對所有樣品的光譜數(shù)據(jù)進行主成分分析可知,第一主成分(Principle Component 1,PC1)和第二主成分(PC2)的貢獻率分別為97.78%、1.99%,表明PC1 和PC2 已能夠表達99%以上的原始光譜信息。由圖2可知,當歸與華中前胡、歐當歸、云南野當歸主成分二維投影圖中存在交叉無法有效分類,這是因為當歸與偽品均為傘形科植物,化學成分較相似,其中當歸與云南野當歸重疊部分最多,與二者同屬當歸屬親緣關(guān)系較華中前胡、歐當歸近有關(guān)。若要進一步準確鑒別當歸及偽品需對光譜數(shù)據(jù)進行進一步處理。
2.3.1 GBDT、SVM、ANN模型比較
GBDT 算法由Jerome Friedman[21,22]于2001 年提出,可用于分類和回歸,通過集成多個弱學習器CART回歸樹最終組合成一個強學習器。GBDT 每一次迭代是為了減少上一個模型的擬合殘差,并在殘差減少的梯度方向上建立新的CART回歸樹。本文所建判別模型基于Python-Sklearn 工具包實現(xiàn),實驗中所用的計算機配置為Intel Core-i3處理器,2.2GHz主頻,4 GB內(nèi)存。GBDT 參數(shù)采用網(wǎng)格搜索方法最終尋找到的最優(yōu)參數(shù)為:樹數(shù)量為1500、學習率0.01、最大深度為6、一階正則項系數(shù)為0.3、二階正則項系數(shù)為0.4、損失函數(shù)為交叉熵損失函數(shù)。
為驗證提出的分類模型的優(yōu)越性,將該模型與SVM、ANN 構(gòu)建的模型進行比較。同樣采用網(wǎng)格搜索方法尋找最優(yōu)參數(shù),最終SVM 分類模型參數(shù)為:核函數(shù)為RBF(徑向基核函數(shù)),核函數(shù)系數(shù)為0.1,懲罰項系數(shù)C 為100,最大迭代次數(shù)為120 次;ANN 分類模型參數(shù)為:輸入層神經(jīng)元228 個、隱藏層神經(jīng)元10 個、輸出層神經(jīng)元4 個、學習率0.4、激活函數(shù)為sigmoid函數(shù)。
將正品當歸作為正類,其它為負類,分類器在測試數(shù)據(jù)集上的預測或正確或錯誤,設(shè)置4 種情況出現(xiàn)的樣本數(shù)量如下:TP 將正類預測為正類的數(shù)量,F(xiàn)N 為將正類預測為負類的數(shù)量,F(xiàn)P為將負類預測為正類的數(shù)量,TN 為將負類預測為負類的數(shù)量。這四個量可以導出幾個重要的量化評估指標——準確率、召回率以及F度量,用于評價分類算法的性能。
表3 GBDT分類模型準確率
表4 SVM分類模型準確率
表5 ANN分類模型準確率
3種算法的預測結(jié)果見表2,梯度提升決策樹無論是精確度、準確率、召回率還是F值都比另外兩種算法要好,由于需要迭代生成很多棵樹,所以訓練模型的時間略長于SVM;SVM 效果次之,并且在訓練模型的過程中只需要尋找懲罰項系數(shù)、核函數(shù)類型、核函數(shù)系數(shù)、迭代次數(shù)等幾個參數(shù),所以耗時比另外兩個模型要短;ANN 得到的效果最差,這是因為神經(jīng)網(wǎng)絡模型需要大量的數(shù)據(jù)樣本做支撐,從而用來訓練模型參數(shù)、學習各個特征之間的相關(guān)關(guān)系,而本課題的樣本量較小,所以導致訓練效果最差,并且ANN 需要尋找的網(wǎng)絡參數(shù)量比較大,導致耗時最長。
隨機抽取76 份當歸、10 份華中前胡、10 份歐當歸、11 份云南野歸作為訓練集建立判別模型,剩余的37 份當歸、5 份華中前胡、5 份歐當歸、5 份云南野歸作為測試集以評估所建模型的性能,GBDT 鑒別結(jié)果如表3 所示,所建立的分類模型對當歸的真?zhèn)斡休^好的鑒別效果。訓練集與測試集總體判別率分別為94.39%、90.38%,其中GBDT 模型對華中前胡的識別率達到100%。GBDT 識別模式下當歸部分樣品發(fā)生誤判,但單組判別準確率也大于90%,可見利用GBDT建立的分類模型能夠有效鑒別當歸與其混偽品。
2.3.2 RF優(yōu)化模型
特征選擇是指從原始特征集中選擇使某種評估標準最優(yōu)的特征子集,以使在該最優(yōu)特征子集上所構(gòu)建的分類或回歸模型達到與特征選擇前近似甚至更好的預測精度,同時篩除低信息量的冗余特征,達到降低訓練模型所需時間、增強模型魯棒性的目的。RF是Leo Breiman 于2001 年將Bagging 集成學習理論與隨機子空間方法相結(jié)合而提出的一種機器學習算法[23-25]。RF 具有準確度高、學習速度快、對噪聲和異常值有較好的容忍性,對高維數(shù)據(jù)分類問題具有良好的可擴展性和并行性[26]。它集成多棵決策樹的預測,在決策樹構(gòu)建過程中,樹的每個結(jié)點都是以一定原則度量變量重要性,這一過程實際上就是一個特征選擇過程[27]。
表6 特征光譜判別模型準確率
采用RF 來度量各個特征波長的重要性,步驟如下:①從159 個樣本中隨機有放回抽取N(本文設(shè)置為全量樣本的70%,即112 個)個樣本,并且隨機從198個特征波長中隨機選擇M(本文設(shè)置為總特征的40%,即79 個)個特征波長,構(gòu)成一個樣本子集。重復此過程100 次,得到100 個樣本子集;②對100 個樣本子集單獨訓練決策樹模型,設(shè)置每棵決策樹深度為6,不做任何剪枝操作,按照Gini 指數(shù)最小原則進行特征分裂,直到該節(jié)點下的所有樣本都屬于同一類或者達到設(shè)置的最大深度;③將生成的100 個決策樹組成隨機森林,按照多棵樹分類器投票決定最終的分類結(jié)果。同時,統(tǒng)計生成每棵樹時所使用的特征波長頻次,累加求取均值后得到每個特征波長使用的頻次,按照使用頻次對198個特征進行從大到小排序。
最終,選擇前20個頻次高的特征波長作為最重要的特征子集,它們分別是:976 nm、1 016 nm、1 492 nm、1 511 nm、1 521 nm、1 528 nm、1 550 nm、1 573 nm、1 576 nm、1 580 nm、1 586 nm、1 598 nm、1 611 nm、1 621 nm、1 624 nm、1 636 nm、1 640 nm、1 646 nm、1 649 nm、1 655 nm。
近紅外光譜振動倍頻區(qū)有豐富的基團結(jié)構(gòu)信息,一些含有C-H、N-H、O-H 和S-H 化學鍵的化合物會產(chǎn)生吸收,除在1 400 nm-1 800 nm 之間產(chǎn)生一級倍頻,往往還會分別在900 nm-1 200 nm 和780 nm-900 nm 譜帶內(nèi)產(chǎn)生二級倍頻和三級倍頻,反映的是中藥化學成分的綜合信息[28]。如本文中970 nm和1 450 nm附近的吸收峰主要是由于樣本細胞中水對光譜吸收引起的,分別為O-H 伸縮振動的二級倍頻和一級倍頻;在1 200 nm 附近的吸收峰與N-H 鍵有關(guān)。RF 篩選出的特征波長均處于一級倍頻、二級倍頻區(qū),且從圖1 可以看出,1 400 nm-1 655 nm 范圍內(nèi)當歸的吸光度與華中前胡、歐當歸、云南野當歸吸光度的差異較大有利于當歸真?zhèn)蔚蔫b別,因此將RF 所篩選的20 個特征波長用于建立特征光譜判別模型。
2.3.3 近紅外特征光譜判別模型的建立
為了建立基于近紅外特征光譜的當歸真?zhèn)闻袆e模型,將所分析出的20 個特征波長作為GBDT 的輸入,所得模型的判別效果見表6。相比于原始光譜,特征光譜判別模型所用到的光譜變量大大減少,建模過程得到了簡化,特征光譜所建模型判別準確率雖有所下降,但訓練集與預測集的正確率仍均高于85%。對4 類樣本進行分析,當歸單組訓練集和測試集判別準確率分別達到了97.37%和91.89%,因此所建立的特征光譜判別模型也能夠較好地實現(xiàn)當歸的真?zhèn)舞b別。
在當歸真?zhèn)闻袆e研究中發(fā)現(xiàn),PCA 判別分析時區(qū)分效果不佳,這表明傳統(tǒng)的線性模式識別方法PCA 難以滿足鑒別準確性的要求,需要采用更先進的模式識別相關(guān)理論和算法來提高近紅外光譜技術(shù)的識別能力。本文采用GBDT、SVM、ANN 三種非線性方法進行建模分析,識別準確率在訓練集和測試集上均大于80%優(yōu)于PCA。本研究結(jié)果顯示近紅外光譜技術(shù)能有效地識別當歸及偽品光譜特征差異,并結(jié)合GBDT、SVM、ANN 模式識別理論建立了判別模型,為當歸及偽品鑒別提供了一種準確而快速的新方法。
近紅外光譜雖然信息量大,但由于當歸及其混偽品為近緣植物具多種相同成分,使得NIR 光譜圖非常相似,不能簡單以峰位、峰形進行直接分類,選擇合適的數(shù)據(jù)處理方法提取到特征信息也是分類鑒別的關(guān)鍵。相較于NIR 分析常用的建模方法ANN 和SVM,本文嘗試引入一種基于多特征GBDT 的分類方法,利用RF 篩選變量并調(diào)整參數(shù)訓練出最佳預測模型。通過3 種模型判別結(jié)果的對比,可以看出,GBDT 模型性能優(yōu)良,具有較高的預測準確率和很好的適用性,可應用于當歸的定性判別分析。然而,針對當歸偽品,所建立的判別模型存在誤判現(xiàn)象,分析其原因可能是由于偽品較難收集,本研究建立模型的偽品數(shù)量有限。有待于在今后實踐中擴大校正集和預測集樣本容量,完善數(shù)據(jù)庫以優(yōu)化模型。
本文旨在建立一個快速、簡便、無損的當歸定性判別模型,以藥材斷面進行光譜的采集較選擇粉末簡便、耗時短。目前已有文獻報道采集枸杞子表面近紅外漫反射光譜實現(xiàn)產(chǎn)地快速識別,基于主根橫斷面近紅外光譜實現(xiàn)西洋參和人參的快速篩查[29,30],以上證明采集藥材的斷面、表面光譜進行定性鑒別是可行的。此外,市場上存在一些貴重藥材摻偽現(xiàn)象,如冬蟲夏草、野山參、鹿茸、西洋參、川貝等,此類藥材價格昂貴,充分發(fā)揮NIR 非破壞性的優(yōu)勢進行直接鑒別研究具有現(xiàn)實意義。我國幅員遼闊,中藥品種繁多,“同名異物”和“同物異名”的現(xiàn)象依然存在,即使在今天,中藥品種混淆的問題亦有出現(xiàn),如“關(guān)木通”導致馬兜鈴酸腎病事件[31],香港“白英”和“尋骨風”混淆導致病人患上腎衰竭和尿道癌[32]。如何運用現(xiàn)代科學的理論知識和技術(shù)方法來快速、簡便、準確地鑒定中藥品種,保證臨床療效,是一個迫切的課題。近紅外光譜技術(shù)能夠提中藥品種識別的速度和識別能力,滿足基層現(xiàn)場快速鑒別的需要。充分發(fā)揮近紅外自身優(yōu)勢,通過對中藥材的大樣本量分析,建立穩(wěn)健的近紅外模型,結(jié)合云計算和互聯(lián)網(wǎng)等現(xiàn)代手段,以在全國范圍內(nèi)建立近紅外中藥品種識別模型網(wǎng)絡系統(tǒng),應用于產(chǎn)地、加工炮制、運輸、儲存、流通各個環(huán)節(jié),從而解決目前存在的品種混亂問題,對中藥規(guī)范化管理具有重要意義。中藥鑒定是一門與時俱進的學問,應在傳統(tǒng)經(jīng)驗鑒別的基礎(chǔ)上引入現(xiàn)代科學的理論知識和技術(shù)方法使中藥鑒定更為快捷、科學,推動我國中藥現(xiàn)代化進程。