沙晗,劉淑明,王慧,田雪梅,2,王耘*(.北京中醫(yī)藥大學(xué) 中藥學(xué)院 中藥信息工程研究中心,北京 02488;2.北京中醫(yī)藥大學(xué) 生命科學(xué)學(xué)院,北京 02488)
“五味”是中藥藥性理論的重要組成部分,具體是指“酸”“苦”“甘”“辛”“咸”[1-2]。相較于藥性中的“四氣”和“歸經(jīng)”,其重要程度雖略有不足,但依然對于臨床遣方用藥、功效比類歸屬、藥性學(xué)術(shù)研究等具有重要意義。
目前,研究者以“五味”為研究目標(biāo),進(jìn)行了大量的探索,積累了寶貴的經(jīng)驗。湯學(xué)軍等[3]探索了中藥稀土元素含量分別與“五味”之“辛”“甘”“苦”的關(guān)聯(lián)性,結(jié)果發(fā)現(xiàn)“辛”味中藥的稀土元素含量明顯高于“苦”“甘”味中藥,以鑭系元素最為顯著。另有學(xué)者認(rèn)為“五味”的根源在于物質(zhì)成分,得出“酸”味中藥含有更多鞣質(zhì)、有機(jī)酸等成分[4-5];此外,研究者從味覺受體的角度發(fā)現(xiàn),味覺第一受體家族(T1Rs家族)的T1R2/T1R3以異源二聚體的形式作為甘味受體,可與許多甘味物質(zhì)相結(jié)合[6];而苦味受體家族(TAS2Rs)家族能與多味“苦”性中藥成分作用等[7]。
上述相關(guān)研究均在一定程度上豐富了“五味”學(xué)說,為揭示其科學(xué)內(nèi)涵提供了依據(jù)。但不可忽視的是依然存在著些許局限:① 研究往往是基于單味、幾十味中藥的小樣本量分析,缺乏說服力,不具有普適性;② 中藥作為分子集合體系,是一個復(fù)雜系統(tǒng),而僅以元素、單一或少數(shù)物質(zhì)成分及其靶點效應(yīng)作為整個中藥的表征尚有待考證,部分代替整體,忽視中藥的宏觀整體性,易產(chǎn)生以偏概全的結(jié)論。基于以上思考,本研究以藥性是中藥的固有屬性為基本出發(fā)點,秉承宏觀整體論的觀念,以“五味”之“甘”為研究對象,結(jié)合大樣本量的中藥拉曼檢測對其進(jìn)行統(tǒng)計分析,并建立識別模型并進(jìn)行評價篩選,以期得到甘味的整體量化表征和識別模型,豐富“五味”學(xué)說,促進(jìn)中醫(yī)藥理論現(xiàn)代化發(fā)展。
SEED 3000近紅外拉曼光譜儀(上海如海光電公司);220V不銹鋼壓片模具(天津中世沃克有限公司);RS-FS1801中藥材超微粉碎機(jī)(廣州榮事達(dá)有限公司);DZF-6020真空干燥箱(上海一恒有限公司)。
純水(屈臣氏有限公司)。巴戟天、大棗、當(dāng)歸、甘草、防風(fēng)、黃芪、山藥、鹿茸、金銀花、麥冬、艾葉、大黃、防己、枸骨葉、麻黃、羌活、益母草等中藥共計330種(甘味中藥139種,非甘味中藥191種)均由安國市桓榮中藥材有限公司提供,且所有藥材經(jīng)鑒定均符合2020年版《中國藥典》規(guī)定,并出具鑒定報告。
330種中藥材采用超純水洗凈,去除表面灰塵等雜質(zhì)。然后放置于真空干燥箱中26℃恒溫干燥1 h后,利用超微粉碎機(jī)打成粉末[8],再利用220 V不銹鋼壓片模具進(jìn)行壓片以備檢測。
激光器:Seabreeze Laser;激光器類型:板載激光器;中心波長:785 nm;功率:120 mW;光譜儀:XS11639-B40090157;積分時間:7000 ms;平均采集次數(shù):3次;平均模式:硬件平均;拉曼位移200~3000 cm-1;基線處理lamdba:10 000,order:2;平滑濾鏡lamdba:20,order:2。
中藥材經(jīng)樣品預(yù)處理后,將壓片放置于樣品臺進(jìn)行檢測,采用連續(xù)掃描收集、激光自動模式,共計采集10次[9]。計算每味中藥10次拉曼譜圖的平均譜圖[10],作為該中藥最終拉曼譜圖,并將其以1 cm-1為單位進(jìn)行數(shù)字量化處理。
2.4.1 專屬性考察 以當(dāng)歸、冰片、枸杞子、山藥、天花粉等為例進(jìn)行專屬性考察。此外,將功率調(diào)至0 mW,采集得到空白譜圖。專屬性結(jié)果見圖1,表明不同中藥因性質(zhì)的差異表現(xiàn)出各異的拉曼譜圖,且峰形良好,對中藥進(jìn)行拉曼檢測無明顯熒光干擾。
圖1 中藥拉曼譜圖專屬性考察Fig 1 Raman spectra specificity of TCM
2.4.2 精密度考察 以部分中藥如川牛膝、艾葉、杜仲、黨參等開展拉曼光譜儀精密度考察。經(jīng)樣品預(yù)處理后,先后放置于樣品臺進(jìn)行6次拉曼光譜平行檢測,記錄中藥拉曼譜圖的特征拉曼位移點(cm-1)及其所對應(yīng)的峰強(qiáng)(I),并計算RSD值。同時,對拉曼譜圖進(jìn)行逆峰位匹配檢索,計算譜圖相似度。結(jié)果RSD值均小于3.0%,相似性大于89.25%,表明拉曼光譜儀精密度良好。
2.4.3 重復(fù)性考察 以不同地區(qū)(河南、河北、寧夏、山東、安徽)生產(chǎn)的山藥、枸杞、茯苓等進(jìn)行重復(fù)性考察。先后進(jìn)行拉曼檢測,記錄中藥拉曼譜圖的特征拉曼位移點(cm-1)及其所對應(yīng)的峰強(qiáng)(I),并計算RSD值。同時進(jìn)行逆峰位匹配檢索,計算譜圖相似度。RSD值均小于3.3%,相似度大于87.35%,結(jié)果表明重復(fù)性良好。
基于“2.3”項下數(shù)據(jù)收集方法,得到139種甘味中藥與191種非甘味中藥的最終拉曼譜圖數(shù)據(jù),并對甘味與非甘味中藥的拉曼譜圖進(jìn)行統(tǒng)計比較。結(jié)果發(fā)現(xiàn)甘味中藥組在拉曼位移200~3000 cm-1內(nèi)的拉曼散射強(qiáng)度普遍低于非甘味中藥組,且具有顯著性差異。以上結(jié)果表明,中藥的拉曼譜圖在一定程度上與“五味”中的“甘”具有密切的相關(guān)性。因此,量化后的中藥拉曼譜圖可作為甘味的整體量化表征。
通過平均基尼系數(shù)降低度(MDG)對譜圖數(shù)據(jù)進(jìn)行特征篩選,篩選得到MDG>0.033的前1000的拉曼位移及其峰強(qiáng)數(shù)據(jù)如I2833、I2810、I2557、I2835、I2142、I2187等,部分結(jié)果見圖2。MDG值越高,說明該數(shù)據(jù)對于甘味中藥組與非甘味中藥組分類越重要,而特征篩選結(jié)果表明對于區(qū)分中藥甘味與非甘味的重要拉曼數(shù)據(jù)主要集中在譜圖的后半段1600~3000 cm-1。
圖2 基于MDG的特征篩選Fig 2 Feature selection based on MDG
甘味中藥組與非甘味中藥組的拉曼譜圖表現(xiàn)出顯著性差異,本文基于這種差異建立甘味的辨識模型。為得到良好的識別模型,在軟件Orange 3.29.4中以“2.5”項下篩選出的與甘味密切相關(guān)的前100~1000特征拉曼數(shù)據(jù)為基準(zhǔn)用于辨識模型的構(gòu)建:分別利用MDG前100、200 … 900、1000的拉曼數(shù)據(jù),結(jié)合人工神經(jīng)網(wǎng)絡(luò)(ANN)、隨機(jī)森林(RF)、支持向量機(jī)(SVM)、貝葉斯網(wǎng)絡(luò)(NN)算法,經(jīng)參數(shù)自動尋優(yōu)法建立針對中藥甘味的識別模型,并基于十折交叉驗證的準(zhǔn)確率(CA)、AUC和精確度等進(jìn)行模型評價篩選。
評價結(jié)果表明MDG前100至前1000的拉曼數(shù)據(jù)所建模型中,均以RF模型表現(xiàn)出最佳的識別效果,其準(zhǔn)確率和精確度大于0.803,AUC均大于0.865,普遍優(yōu)于支持向量機(jī)(SVM)模型,后者的準(zhǔn)確率普遍在79.1%~79.4%,AUC在83.1%~85.0%。其中,NN模型的準(zhǔn)確率與RF模型準(zhǔn)確率和精確度基本一致,但從AUC而言,RF模型普遍高于貝葉斯模型,后者AUC在0.833~0.847。ANN模型效果較差,準(zhǔn)確率和精確度在73.0%~76.7%,低于其他模型。綜上,RF模型展現(xiàn)出最佳的識別效果。
與此同時,以RF模型為最優(yōu)模型,經(jīng)縱向比對發(fā)現(xiàn)利用MDG前300拉曼數(shù)據(jù)所建RF模型的綜合效果最佳(具體參數(shù)見表1)。隨著模型中拉曼數(shù)據(jù)的增加,模型的準(zhǔn)確率和AUC整體呈下降趨勢,隨機(jī)森林模型AUC和準(zhǔn)確率趨勢圖分別見圖3和圖4。
圖3 RF模型準(zhǔn)確率趨勢圖Fig 3 Accuracy of RF models
圖4 RF模型的AUC趨勢圖Fig 4 AUC trend chart of RF model
表1 MDG排名前300拉曼數(shù)據(jù)各模型的評價參數(shù)Tab 1 Evaluation parameters of models for top 300 Raman data of MDG
當(dāng)以MDG前600的拉曼數(shù)據(jù)建立模型時,RF模型準(zhǔn)確率最高為81.8%,但其所對應(yīng)的AUC相對較低為0.873;當(dāng)以MDG前300的拉曼數(shù)據(jù)建立模型時,AUC為最高值0.883,具有最好的識別效果,且其對應(yīng)的準(zhǔn)確率為81.5%,與最高準(zhǔn)確率81.8%僅相差3%,既保證了良好的識別效果,又具有較高的準(zhǔn)確率?;贛DG前300拉曼數(shù)據(jù)的RF模型,可實現(xiàn)對甘味與非甘味中藥的高效、準(zhǔn)確辨識。
本研究是以甘味為中藥的固有屬性為基本出發(fā)點,擴(kuò)大分析樣本量以得到更加準(zhǔn)確可靠、普遍適用的結(jié)論。在研究中按2020年版《中國藥典》所記錄的“五味”為準(zhǔn),凡記錄有“甘”“微甘”(兼有亦包括在內(nèi))統(tǒng)一記作甘味中藥組。拉曼光譜是為分子振動散射光譜,而絕大多數(shù)的中藥可看作是由分子所構(gòu)成的集合體系,因此,中藥拉曼譜圖是在分子層面對中藥分子集合的整體反映,與傳統(tǒng)中醫(yī)藥的整體觀念相契合,能夠在分子水平作為中藥的整體性表征[11-12]。
相較于其他光譜而言,拉曼光譜易受熒光效應(yīng)的干擾[13],致使噪聲較大,在研究中,為最大程度避免熒光效應(yīng)的干擾,采取如下做法:① 在樣品預(yù)處理時,將藥材洗凈,去除表面灰塵、沾染物等雜質(zhì);② 由于中藥的熒光波長一般大多產(chǎn)生在紫外區(qū)域,選定近紅外中心波長785 nm可在一定程度上有效減少熒光效應(yīng)的干擾[13-14];③采取連續(xù)采集模式,延長激光對樣品的照射時間,利用“光致漂白”效應(yīng)最大程度降低熒光干擾[13,15]。同時后繼的數(shù)據(jù)分析中,特征篩選是在多樣品測試結(jié)果基礎(chǔ)上總結(jié)、篩選得到具有規(guī)律性的信號,而噪聲大多無規(guī)律可循。因此,通過特征篩選亦可有效降低噪聲數(shù)據(jù)的干擾。
本文在對大批量甘味與非甘味中藥進(jìn)行拉曼檢測前,分別選取不同的中藥進(jìn)行了專屬性試驗、精密度和重復(fù)性試驗,以確保試驗條件并非僅適用于特定的某一味中藥,而是對330味中藥具有普適性。
由于中藥拉曼光譜數(shù)據(jù)高維、非線性、非正態(tài)等特點,合適的數(shù)據(jù)分析方法十分關(guān)鍵。相較于特征提取方法——線性判別(LDA)和主成分分析(PCA)[16-17],基于MDG的特征篩選同樣可將高維數(shù)據(jù)轉(zhuǎn)變?yōu)榈途S數(shù)據(jù),快速篩選得到與甘味最為相關(guān)的拉曼數(shù)據(jù),此外,其不受數(shù)據(jù)分布限制,在去除冗雜數(shù)據(jù)的同時保留原有屬性,不易產(chǎn)生過擬合結(jié)果[18]。綜上考慮選擇MDG進(jìn)行特征篩選。
根據(jù)量子電動力學(xué)理論,斯托克斯(STKS)拉曼譜峰的強(qiáng)度(I)計算公式[15]進(jìn)行計算。由于中藥是一個復(fù)雜的分子體系,其散射強(qiáng)度是每味中藥所有分子相互疊加、影響后的整體表現(xiàn)。甘味中藥與非甘味中藥的物質(zhì)基礎(chǔ)不同,其相互影響、疊加后的分子振動-轉(zhuǎn)動能級有所差異,以及甘味中藥整體分子體系極化率和偶極矩變化小,致使極化率張量分量αij隨簡正坐標(biāo)的變化率βαij/βQk較低,從而產(chǎn)生低強(qiáng)度的拉曼譜圖,是甘味中藥與非甘味中藥拉曼譜圖具有顯著性差異的根本原因。在此基礎(chǔ)上,甘味中藥與非甘味中藥的拉曼譜圖差異表明了中藥拉曼光譜與五味之“甘”的相關(guān)聯(lián)系,亦是利用拉曼光譜辨識甘味中藥的基本依據(jù)。
本研究以“五味”之“甘”為研究對象,在中藥拉曼光譜檢測、量化表征以及特征篩選的基礎(chǔ)上所建立的RF模型表現(xiàn)出較好的識別效果,尤以MDG前300拉曼數(shù)據(jù)所建RF模型最佳。通過大批量中藥拉曼光譜檢測,其結(jié)果更具說服力。
本研究通過大批量中藥拉曼光譜的檢測,對甘味與非甘味中藥的拉曼光譜進(jìn)行比較分析和識別模型的構(gòu)建、評價。相較于非甘味中藥,甘味中藥呈現(xiàn)出低強(qiáng)度的拉曼散射,具有顯著性差異;中藥拉曼譜圖與藥性甘味具有顯著相關(guān)性,可作為甘味整體量化表征,結(jié)合RF算法高效、準(zhǔn)確地進(jìn)行辨識分析。