梁浩 紀徐維晟 王獻瑞 王耘
摘要 從中藥的整體性出發(fā),開展中藥拉曼譜圖與其寒熱藥性的相關性分析,并對中藥寒熱藥性進行統(tǒng)計判別研究。本研究選取寒涼性中藥109種、溫熱性中藥128種,共計237種中藥;經(jīng)樣品前處理后,利用如海光電SEED 3000近紅外拉曼光譜儀進行檢測,得到每味中藥的拉曼譜圖;并對量化后的中藥拉曼數(shù)據(jù)進行特征篩選和統(tǒng)計檢驗,篩選出與寒熱藥性密切相關的特征拉曼位移及其峰強,然后基于5種算法進行寒熱藥性的判別建模。經(jīng)比較分析發(fā)現(xiàn),相較于其他模型,隨機森林(RF)模型展現(xiàn)出最佳的效果,對測試集判別的正確率高于90%,曲線下面積(AUC)和精確度大于0.90。本研究基于大樣本量中藥的分析,中藥的拉曼數(shù)據(jù)與其寒熱藥性之間具有顯著的相關性,可作為藥性表征指標,結合RF算法進行寒熱藥性的判別分析。
關鍵詞 中藥;拉曼光譜;藥性;寒熱;隨機森林;判別分析;特征篩選
Discrimination of Cold and Heat Medicinal Properties Based on Raman Spectroscopy of TCM Drugs
LIANG Hao1,JI Xuweisheng1,2,WANG Xianrui1,WANG Yun1
(1 Research Center of TCM-Information Engineering,School of Chinese Materia Medica,Beijing University of Chinese Medicine,Beijing 102488,China; 2 School of Life Sciences,Beijing University of Chinese Medicine,Beijing 102488,China)
Abstract From the holistic view of traditional Chinese medicine(TCM),this study carried out a correlation analysis between the Raman spectra of TCM drugs and cold-heat medicinal properties and conducted a statistical discrimination analysis of the cold-heat medicinal properties of TCM drugs.A total of 237 TCM drugs were selected,including 109 cold and 128 heat ones.After sample pre-treatment,Raman spectra of TCM drugs were obtained by using SEED 3000 near-infrared Raman spectrometer(Oceanhood,China),and the characteristic Raman shifts and peak intensities closely related to the cold-heat medicinal properties were screened out by the characteristics screening and statistical test of the quantified Raman data of TCM drugs.The discriminant modeling of cold-heat medicinal properties was carried out based on five algorithms.Compared with other models,the random forest(RF) model showed the optimal results,with the correct rate of the test set higher than 90% and an AUC and precision greater than 0.90.Based on the analysis of a large sample size of TCM drugs,the findings of this study suggest that there is a significant correlation between the Raman data of TCM drugs and their cold-heat medicinal properties,which can be used as the characterization index of medicinal properties and facilitate the discriminant analysis of cold-heat medicinal properties combined with RF algorithm.
Keywords TCM drugs; Raman spectroscopy; Medicinal properties; Cold-heat; Random forest; Discriminant analysis; Characteristics screening
中圖分類號:R282文獻標識碼:Adoi:10.3969/j.issn.1673-7202.2023.01.011
中藥四氣是中藥藥性理論的重中之重,是闡釋中藥作用療效和指導臨床用藥的首要綱領[1-2]。其主要包括寒、熱、溫、涼4種藥性,其中寒為凉之甚,而熱為溫之極[3]。寒與涼或溫與熱僅在強弱程度上具有差異而沒有本質上的區(qū)別。因此,從四性的屬性本質而言,四氣又常以寒熱二性概之。本研究所指寒性中藥包括寒性、涼性,所指熱性中藥包括熱性、溫性。
由于對中藥寒熱藥性的現(xiàn)代化認知尚未完全、成熟[4-6],利用現(xiàn)代的科學知識體系和技術方法對寒熱藥性進行分析以揭示其科學內(nèi)涵依然是必要的,更是創(chuàng)新寒熱藥性,豐富藥性理論,實現(xiàn)中醫(yī)藥理論現(xiàn)代化的現(xiàn)實需要。為此,相關研究學者結合自身所長,從多角度、多方面對寒熱藥性進行分析且取得了一定的成果。有研究從物質基礎的角度,探討寒熱藥性與其所含蛋白質、多糖及單糖等初生物質的相關性,以進行寒熱藥性的物質基礎研究[7-9]。基于生物效應,有研究通過大鼠灌胃中藥水煎液以及檢測53項生物效應指標來分析寒熱藥性,結果表明肝琥珀酸脫氫酶(Succinate Dehydrogenase,SDH)為寒熱藥性判別的重要生物指標,且寒熱藥性與能量代謝有密切關聯(lián)[10-11]。有研究基于多種溶劑中藥提取液的紫外圖譜進行中藥成分的相似性分析,進而預測中藥的寒熱藥性,結果發(fā)現(xiàn)石油醚溶劑提取液的紫外圖譜數(shù)據(jù)識別效果最好,準確率為0.77[12-13]。樊鳳杰等[14]基于23味中藥提取液的熒光光譜數(shù)據(jù)構建了局部線性嵌入算法-隨機森林(Random Forest,RF)判別模型,正確率高達96%。此外,還有從分子能量狀態(tài)、化合物分子描述符等其他角度進行寒熱藥性的研究[15-16]。
上述研究均在一定程度上豐富了寒熱藥性內(nèi)容,為揭示其科學內(nèi)涵做出了重大貢獻,但依然具有局限性。首先,寒熱藥性的研究是基于小樣本量的分析,并不具有普適性;其次,以中藥的不同溶劑提取液開展寒熱藥性研究,忽視了中藥的宏觀整體性,易產(chǎn)生以偏概全的結論。本研究從中藥的宏觀整體性出發(fā),秉承整體論的觀念,結合大樣本量的中藥拉曼檢測對寒熱藥性開展研究,以追求更加準確、可靠的分析。
拉曼光譜為分子振動散射光譜,與分子振動—轉動能級有關,是在分子層面對中藥的整體反映,與傳統(tǒng)中醫(yī)藥的整體觀念相契合,能夠在分子水平作為中藥的整體性表征[17-18]。因此,本研究選用拉曼譜圖作為中藥的整體性表征,并在此基礎上,通過特征篩選及統(tǒng)計檢驗開展中藥拉曼譜圖數(shù)據(jù)及其寒熱藥性的相關性分析,并結合多種算法對中藥寒熱藥性進行統(tǒng)計判別研究。
1 儀器與試藥
1.1 儀器與試劑 SEED近紅外拉曼光譜儀(上海如海光電公司,型號:SEED);YP-2TS型壓片機(天津中世沃克有限公司,型號:YP-2TS);RS-FS1801中藥材超微粉碎機(廣州榮事達有限公司,型號:RS-FS1801);DZF-6020真空干燥箱(上海一恒有限公司,型號:DZF-6020)。
1.2 試劑 純水(屈臣氏有限公司,貨號:hs6303);色譜級甲醇(Fisher公司,美國,貨號:j2009001);
1.3 分析樣品 白芍、百合、車前子、防己、虎杖、女貞子、功勞木、番瀉葉、白扁豆、干姜、月季花、白附子等共計237種中藥(寒性109種,熱性128種)全部由安國市桓榮中藥材有限公司提供,且所有藥材均符合2015版《中華人民共和國藥典》的規(guī)定,并出具鑒定報告。
2 方法
2.1 樣品預處理 所有中藥材采用屈臣氏超純水洗凈,去除表面灰塵等雜質。然后放置于真空干燥箱中26 ℃恒溫干燥1 h。對于根莖、果實類等形狀規(guī)則的中藥材,垂直于自然生長方向橫切,得到新露平坦的切面以備檢測,而葉、花類以及全草等形狀不規(guī)則的中藥材利用榮事達粉碎機打粉[19];利用220 V不銹鋼壓片模具進行壓片處理;女貞子等顆粒類中藥材則采用配套敞口器皿盛放并利用壓片模具壓實以備檢測。
2.2 檢測條件 激光器:Seabreeze Laser;激光器類型:板載激光器;中心波長:785 nm;功率:120 mW;光譜儀:XS11639-B40090157;積分時間:7 000 ms;平均采集次數(shù):3次;平均模式:硬件平均;拉曼位移200~3 200 cm-1;基線處理lambda:10 000,order:2;平滑濾鏡lambda:20,order:2。
2.3 數(shù)據(jù)采集 中藥材經(jīng)樣品預處理后,將壓片或器皿放置于樣品臺,隨機選取10個不同的部分依次進行檢測,采用連續(xù)掃描收集、激光自動模式,共計采集10次[20]。計算每味中藥10次拉曼譜圖數(shù)據(jù)的平均值[21],作為該中藥的最終譜圖,并將其進行數(shù)字化處理。
2.4 專屬性實驗 以刺五加、白附子、白芍等為例進行專屬性考察。此外,將功率調(diào)至0 mW,采集得到“空白”譜圖。結果表明不同中藥因性質的差異進而得到各異的拉曼譜圖,峰形良好,對中藥進行拉曼檢測無明顯熒光干擾。見圖1。
2.5 精密度實驗 以中藥土木香、苦木、桑葉、垂盆草進行精密度考察。經(jīng)樣品預處理后,同日內(nèi)先后放置于樣品臺上,于中藥壓片或器皿的同一部位進行6次拉曼光譜平行檢測,記錄中藥拉曼譜圖的特征拉曼位移點(cm-1)及其所對應的峰強(I),并計算相對標準偏差(Relative Standard Deviation,RSD)。同時,對拉曼譜圖進行逆峰位匹配檢索,計算其相似度。結果表明RSD值小于3.00%,相似度大于86%。拉曼光譜儀用于中藥檢測精密度良好。
2.6 重現(xiàn)性實驗 以不同地區(qū)(河南、河北、安徽、江蘇、湖南)的中藥冰片、杏仁、當歸等進行重現(xiàn)性考察。5份不同產(chǎn)地的杏仁,編號為X1-X5;當歸切片,編號為D1-D5;另取5塊冰片,編號為B1-B5;先后進行拉曼檢測,記錄中藥拉曼譜圖的特征拉曼位移點(cm-1)及其所對應的峰強(I),并計算RSD值。同時進行逆峰位匹配檢索,計算其相似度。結果表明重復性RSD值小于4.5%,相似性大于85%,重現(xiàn)性良好。見圖2。
2.7 數(shù)據(jù)預處理及模型構建 按“2.3”項下數(shù)據(jù)采集方式,得到237味中藥的拉曼譜圖,并以1 cm-1為單位進行譜圖數(shù)據(jù)量化處理,每味中藥得到3 000個拉曼位移數(shù)據(jù),建立237味中藥的拉曼位移數(shù)據(jù)集,然后基于平均基尼指數(shù)降低度(Mean Decrease Gini,MDG)進行初步特征篩選,得到與寒熱藥性密切相關的特征拉曼位移及其峰強,并通過SPSS 18.0非參數(shù)統(tǒng)計檢驗的二次篩選得到寒熱藥組具有顯著性差異的拉曼位移及其峰強。進一步結合RF、支持向量機(Support Vector Machine,SVM)、邏輯回歸(Logistic Regression,LR)、貝葉斯網(wǎng)絡(Bayesian Network,NB)、人工神經(jīng)網(wǎng)絡(Artificial Neural Network,ANN)算法對寒熱藥性進行建模判別研究。
3 結果
3.1 特征篩選 通過MDG-RF模型對中藥拉曼數(shù)據(jù)進行初步特征篩選,選取重要性排名靠前的700個拉曼位移及其峰強數(shù)據(jù),如I2157、I2483、I1029、I1031、I1196等。見圖3。然后通過SPSS 18.0對上述700個特征拉曼位移及其峰強進行統(tǒng)計檢驗,結果表明寒、熱藥性組在693個拉曼位移處的拉曼峰強差異均有統(tǒng)計學意義(均P<0.05),僅1%差異無統(tǒng)計學意義。見表1。經(jīng)初步篩選后的拉曼位移主要集中在800~2 500 cm-1,在此范圍內(nèi),寒性中藥相比于熱性中藥,表現(xiàn)出更強的拉曼散射。
3.2 判別模型的建立與評價 在數(shù)據(jù)分析軟件Orange 3.29.3中,基于“2.1”特征篩選和非參數(shù)秩和檢驗得到的結果,分別以MDG排名前200、300、600、700的中藥拉曼數(shù)據(jù)(剔除寒熱藥性無顯著性差異的拉曼位移及峰強),結合RF、SVM等多種算法建立寒熱藥性的判別模型。此外,經(jīng)參數(shù)自動尋優(yōu)在十折交叉驗證基礎上,通過準確率、F1值、曲線下面積(Area Under the Curve,AUC)、召回率和精確度等進行模型評價。見表2~5。
4 討論
拉曼圖譜包含大量數(shù)據(jù)信息,具有高維度、非正態(tài)、非線性、整體統(tǒng)計分布不明確等特點[22]。因此在中藥拉曼譜圖數(shù)據(jù)分析中,線性判別分析(Linear Discriminant Analysis,LDA)和主成分分析(Principal Component Analysis,PCA)受限于數(shù)據(jù)的高斯分布,會掩蓋原有數(shù)據(jù)信息,難以實現(xiàn)研究目的[23-24]。而基于MDG的RF特征篩選不受高斯分布影響,可有效、大幅度降低數(shù)據(jù)維度,篩選得到與寒熱藥性密切相關的特征拉曼數(shù)據(jù),并能去除冗雜數(shù)據(jù),保留數(shù)據(jù)的原有信息,不易產(chǎn)生過擬合的結果。綜上考慮選擇該方法進行初步特征篩選。另外,MDG反映的是某一特征對樣本分類的重要程度,其值越高,貢獻度越大[25]。在本研究中,以MDG的大小排序,作者擬選取前20%(前600個,MDG>0.037)的拉曼位移及其對應的峰強。然而,從統(tǒng)計分析的角度,選取出的特征拉曼數(shù)據(jù)不一定在寒熱藥性組中存在差異。為此,作者基于中藥拉曼數(shù)據(jù)非正態(tài)、方差非齊性的特點,采用非參數(shù)秩和檢驗分析初步篩選得到的拉曼數(shù)據(jù)是否在寒熱藥性組間存在顯著差異,以進一步佐證中藥寒熱藥性與其拉曼譜圖的相關性研究。結果表明中藥的寒熱藥性與其拉曼譜圖存在顯著的相關性。
拉曼光譜檢測中,經(jīng)常會受到熒光效應的干擾[26]。在對中藥進行拉曼檢測時,為抑制熒光效應,作者采取了如下做法:1)選定激發(fā)光中心波長785 nm。中藥熒光檢測的激發(fā)光波長大多位于紫外區(qū)如山藥330 nm、沙苑子410 nm、熟地黃470 nm等[27],而中心波長785 nm的激發(fā)光為近紅外激光(760~830 nm)可在一定程度上抑制樣品的熒光效應;2)中藥采用屈臣氏純水清洗,去除表面灰塵等雜質,避免表面雜質熒光效應的干擾;3)采取連續(xù)掃描采集的模式,延長照射時間,以達到抑制熒光干擾的效果[26,28]。
本研究從中藥的整體性出發(fā),以中藥拉曼譜圖作為中藥在分子層面上的整體性表征。從哲學思想整體與部分的角度考慮,認為并非所有拉曼數(shù)據(jù)均與寒熱藥性存在顯著的相關性,正如在DNA序列結構中存在編碼區(qū)與非編碼區(qū)[29],僅編碼區(qū)進行轉錄、翻譯。為此,本研究對中藥拉曼譜圖數(shù)據(jù)進行特征篩選,以期得到與寒熱藥性最為相關的拉曼信息,并采用非參數(shù)秩和檢驗對初步篩選到的非正態(tài)拉曼數(shù)據(jù)進行二次篩選以保證所得中藥拉曼數(shù)據(jù)與寒熱藥性具有顯著相關性。與此同時,剔除寒熱藥性組間無顯著性差異的拉曼位移及峰強。在此基礎上開展寒熱藥性建模評價。
在本研究中,AUC值越高,代表該模型對寒熱藥性的分類效果越顯著,準確率越大表示預測結果與真實情況越接近,精確度表示測試集中實際為寒性的中藥被預測為寒性的概率。基于表2~5中各模型參數(shù)的比較,可知LR模型效果最差,準確率和精確度在73.0%~74.3%,且AUC均小于其他4種模型;SVM、NN、NB模型效果相似,能夠有效判別寒熱藥性,AUC均大于0.80,準確率和精密度均高于80.0%;相較于上述模型,RF模型對于寒熱藥性判別具有最佳效果,準確率和精密度高達90%,AUC大于0.90,故在本研究中選擇RF模型對數(shù)據(jù)建模。縱向比較發(fā)現(xiàn),分別以特征篩選得到重要性排名前200、300、600、700的拉曼數(shù)據(jù)進行建模,其RF模型效果雖沒有顯著性差異,但以重要性排名前600(無顯著性差異剔除)的拉曼數(shù)據(jù)所建模型各參數(shù)最佳。
結果表明相較于其他模型,RF模型表現(xiàn)出最佳的效果,且縱向比較來看,以特征篩選的前200、300、600、700拉曼數(shù)據(jù)進行建模,其模型效果雖沒有顯著性差異,但前600數(shù)據(jù)所建模型的AUC、準確率或精確度等均較佳。且考慮到為降低單一拉曼數(shù)據(jù)的測定誤差對模型造成不穩(wěn)定的影響,可以降低其在拉曼數(shù)據(jù)中的權重比例,因此,以特征篩選前600的拉曼數(shù)據(jù)進行寒熱藥性判別分析是一個不錯的選擇。
此外,本研究所建立的最優(yōu)RF模型,相較于已報道的相關模型依然具有明顯的優(yōu)勢[7-9,12-14]。首先,從樣本量來講,本研究是在大批量中藥拉曼光譜檢測基礎上進行的,其結果更具有說服力;其次,從分子層面作為中藥的整體性表征以及篩選與寒熱藥性密切相關的拉曼參數(shù)更符合實際情況,契合中醫(yī)藥的整體觀念。最后,本研究基于特征篩選前600的拉曼數(shù)據(jù)所建立的RF模型,其AUC、準確率、精確度均大于0.90,優(yōu)于絕大多數(shù)已報道的寒熱藥性判別模型。
5 結論
本研究秉承中醫(yī)藥的整體觀念,通過大樣本量中藥的拉曼光譜檢測,以中藥拉曼譜圖作為中藥在分子層面上的整體性表征,篩選與寒熱藥性密切相關的中藥拉曼數(shù)據(jù),從而進行建模評價。研究結果證明中藥拉曼數(shù)據(jù)與其寒熱藥性之間具有顯著的相關性,可以作為寒熱藥性表征指標,并結合最優(yōu)模型RF進行寒熱藥性的判別分析。
利益沖突聲明:無。
參考文獻
[1]李豐衣,李筠,趙艷玲,等.中藥藥性的現(xiàn)代研究概況[J].中醫(yī)雜志,2009,50(6):562.
[2]王伽伯,金城,肖小河,等.中藥藥性研究回顧與思考[J].中華中醫(yī)藥雜志,2008,23(7):573.
[3]郭永勝,黃書婷,李良松.中藥四氣理論的起源與形成探析[J].中醫(yī)雜志,2020,61(16):1405-1409.
[4]周煒煒,隋峰,張淼,等.寒熱性中藥成分調(diào)節(jié)棕色脂肪細胞中UCP1的藥性分子機制研究[J].時珍國醫(yī)國藥,2020,31(12):2858-2860.
[5]金李,谷幫杰,李傳芝,等.中藥寒熱藥性與其現(xiàn)代藥理作用關聯(lián)研究[J].亞太傳統(tǒng)醫(yī)藥,2020,16(6):161-163.
[6]王躍溪,呂誠.中藥寒熱藥性研究進展概述[J].世界中西醫(yī)結合雜志,2019,14(7):889-893.
[7]陳永新,李峰,黃愛云.40種中藥脂類含量與中藥寒熱性相關性研究[J].中醫(yī)藥信息,2011,28(1):10-11.
[8]王薇,周正禮,李健,等.20種中藥初生物質含量與藥性相關性分析[J].山東中醫(yī)藥大學學報,2010,34(2):99-102.
[9]周正禮,李峰,李靜文.20種中藥糖含量與寒熱藥性關系的Fisher判別分析[J].世界科學技術-中醫(yī)藥現(xiàn)代化,2010,12(4):558-561.
[10]黃麗萍,彭淑紅,蒙曉芳,等.6種寒性中藥對大鼠肝臟能量代謝的影響[J].中國中藥雜志,2009,34(24):3255-3258.
[11]黃麗萍,彭淑紅,胡強,等.6味熱性中藥對大鼠骨骼肌能量代謝相關因子的影響[J].中華中醫(yī)藥雜志,2010,25(2):228-230.
[12]魏國輝,張豐聰,付先軍,等.中藥成分相似性量化建模及寒熱藥性預測分析[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2020,4(5):75-83.
[13]WEI G,F(xiàn)U X,WANG Z.Multisolvent Similarity Measure of Chinese Herbal Medicine Ingredients for Cold-Hot Nature Identification[J].J Chem Inf Model,2019,59(12):5065-5073.
[14]樊鳳杰,軒鳳來,白洋,等.基于三維熒光光譜特征的中藥藥性模式識別研究[J].光譜學與光譜分析,2020,40(6):1763-1768.
[15]陶欣,李冰冰,吳高松,等.6種寒熱屬性中藥短期及長期干預對小鼠機體脂質及能量代謝影響的對比研究[J].中國中藥雜志,2022,47(7):1904-1912.
[16]謝歡歡,陳晨,王鵬.基于科屬分類下的中藥物象-藥性相關性研究概述[J].中華中醫(yī)藥雜志,2017,32(8):3620-3622.
[17]曹露,朱嘉森,管艷艷,等.拉曼光譜技術在藥物分析領域的研究進展[J].光散射學報,2019,31(2):101-111.
[18]ESMONDE-WHITE KA,CUELLAR M,UERPMANN C,et al.Raman spectroscopy as a process analytical technology for pharmaceutical manufacturing and bioprocessing[J].Anal Bioanal Chem,2017,409(3):637-649.
[19]史芳芳,周孟焦,崔仕遠,等.涪城麥冬的拉曼光譜分析[J].中醫(yī)藥導報,2020,26(9):34-36,48.
[20]劉影,汪曉娟,劉龍.拉曼光譜在三七中藥識別中應用[J].海峽藥學,2020,32(8):60-62.
[21]鄧家剛,劉進,覃潔萍,等.20種活血化瘀中藥提取物的紅外光譜分析及其與藥性相關性的初步探討[J].光譜實驗室,2010,27(2):741-744.
[22]Saletnik A,Saletnik B,Puchalski C.Overview of Popular Techniques of Raman Spectroscopy and Their Potential in the Study of Plant Tissues[J].Molecules,2021,26(6):1537.
[23]Gurian E,Di Silvestre A,Mitri E,et al.Repeated double cross-validation applied to the PCA-LDA classification of SERS spectra:a case study with serum samples from hepatocellular carcinoma patients[J].Anal Bioanal Chem,2021,413(5):1303-1312.
[24]杜晶,趙黎明.主成分分析應用于綜合評價的局限性[J].內(nèi)蒙古農(nóng)業(yè)大學學報:社會科學版,2007,9(6):125-127,130.
[25]Raschka S.Python Machine Learning [M].Birmingham:Packt Publishing,2015:109-143.
[26]王歡,王永志,趙瑜,等.拉曼光譜中熒光抑制技術的研究新進展綜述[J].光譜學與光譜分析,2017,37(7):2050-2056.
[27]林文碩.麻黃湯紅外光譜與若干單味中藥拉曼光譜研究[D].福州:福建師范大學,2008:123.
[28]朱自瑩,顧仁傲,陸天虹,等.拉曼光譜在化學中的應用[M].沈陽:東北大學出版社,1997:31-38.
[29]GYRFFY B,PONGOR L,BOTTAI G,et al.An integrative bioinformatics approach reveals coding and non-coding gene variants associated with gene expression profiles and outcome in breast cancer molecular subtypes[J].Br J Cancer,2018,118(8):1107-1114.
(2021-10-19收稿 本文編輯:吳珊)
基金項目:國家自然科學基金項目(81973495)——基于吸引子的中藥有效成分群辨識與作用機理解析方法研究作者簡介:梁浩(1998.01—),男,碩士研究生在讀,研究方向:中藥信息融合,E-mail:20200935108@bucm.edu.cn通信作者:王耘(1973.02—),男,博士,教授,博士研究生導師,研究方向:中藥信息融合和系統(tǒng)中藥學,E-mail:wangyun@bucm.edu.cn