陶益,陳林,朱菲,潘美玲
浙江工業(yè)大學 藥學院,浙江 杭州 310014
1928 年,印度科學家Raman 根據(jù)激發(fā)光子在分子表面發(fā)生非彈性散射的現(xiàn)象,提出了拉曼光譜分析技術,用來獲取分子結構及化學官能團信息[1]。拉曼光譜分析技術彌補了紅外光譜在非極性分子檢測上的缺陷,提供的譜圖分辨率高、峰形尖銳,并因其快速、便攜及無損等檢測優(yōu)點,在食品、化纖、納米材料、藝術、考古等多個領域廣泛應用[2-4]。在醫(yī)藥領域,拉曼光譜分析技術也有所應用,但多為化學藥成分檢測[5],在中藥領域的應用仍然處于摸索階段。本文從拉曼光譜的圖譜預處理、峰歸屬、特征波段提取及深度學習算法等角度,總結了拉曼光譜分析技術在礦物藥鑒別、中藥產(chǎn)地分類、含量測定、中成藥生產(chǎn)過程軌跡和終點控制中的應用,并對5G和人工智能視域下拉曼光譜分析技術在中藥制藥過程質量控制中的應用進行展望。
單色光照射非離子結構的物體時,并非所有的光都發(fā)生瑞利散射,有一小部分光會因為被照射物體中分子振動和轉動而改變發(fā)射波長,這部分改變發(fā)射波長的光形成的光譜圖就是拉曼光譜。包括波長變長的斯托克斯拉曼散射和波長變短的反斯托克斯拉曼散射。利用拉曼譜圖的特征峰進行快速定性分析,通過人工智能算法進行準確定量分析。
與液質聯(lián)用相比,拉曼光譜分析技術檢測無損、快速和便攜,尤其對于貴重或是帶包裝的待測品,在保證待測樣品完整性的同時,又節(jié)省檢測時間。而液質聯(lián)用前處理復雜、液相條件優(yōu)化耗時且儀器昂貴不易挪動。
與近紅外光譜相比,拉曼光譜是散射光譜,信號較弱,光譜為40~4000 cm-1,主要用于研究非極性基團與骨架的對稱振動,可測水溶液;而近紅外光譜是吸收光譜,是由含氫原子團伸縮振動的倍頻及合頻吸收產(chǎn)生,光譜為4000~12 800 cm-1,信號較強,主要用于研究極性基團的非對稱振動,不適用于水溶液的測定。拉曼光譜和近紅外光譜在實際應用中可以互補。
拉曼光譜原始譜圖在去電噪聲、雜散光及樣品背景后,需要進行基線矯正和預處理。常用的光譜預處理方法:1)平滑處理,可以消除噪音,包括廂車平均法、移動窗口平均法和Salvitzky-colay 法(SG);2)基線校正,通過一階(first derivative,F(xiàn)D)/二階(second derivative,SD)導數(shù)法可以分辨重疊峰、弱峰;3)多元散射矯正(multiple scatter correction,MSC),能消除待測物顆粒分布不均勻和大小不同產(chǎn)生的散射,也有降低基線偏移的能力,并且不會降低信噪比;4)標準正態(tài)變量校正(standard normal variate correction,SNV),用來校正樣品因顆粒散射而引起的光譜誤差,以上預處理方法常常組合使用。
中藥拉曼光譜特征峰的歸屬一直是一個難題,一般是通過搜索文獻或與對照品進行比對歸屬,費時費力,構建中藥拉曼數(shù)據(jù)庫刻不容緩。建立中藥拉曼數(shù)據(jù)庫有2 個挑戰(zhàn):1)中藥飲片種類基數(shù)龐大,有效成分復雜,對照品不足[6]。2)中藥成分中同分異構體較多,同一分子在構象上的差異也會使得拉曼光譜有所不同,使部分特征峰的位置發(fā)生偏移。針對這一問題,Liang 等[7]提出,將拉曼圖譜預處理上傳至云端之后,采用深度學習方法進行識別,提取關鍵特征峰進行匹配,方便檢索者進行拉曼峰指認。拉曼光譜分析技術的云架構平臺見圖1。采用手持式或便攜式拉曼光譜儀器采集中藥生產(chǎn)過程中間體拉曼光譜數(shù)據(jù),之后,將拉曼光譜數(shù)據(jù)通過5G 網(wǎng)絡上傳到云平臺,并分配給深度學習模型以執(zhí)行數(shù)據(jù)訓練、自學習和參數(shù)優(yōu)化,最后對生產(chǎn)過程軌跡和終點控制進行實時反饋。深度學習算法和拉曼光譜的融合將為中藥生產(chǎn)智慧化發(fā)展提供強有力的技術支撐和保障。
圖1 拉曼光譜分析技術的云平臺架構
為了建立有效、可靠的模型,需要對拉曼光譜特征波段進行提取,主要波段提取方法包括競爭性自適應重加權算法(competitive adaptive reweighted sampling,CARS)、連續(xù)投影算法(successive projection algorithm,SPA)、無信息變量消除法(uninformative variable elimination,UVE)和間隔偏最小二乘法(synergy interval partial least squares,siPLS)[8]。
眾所周知,拉曼光譜在進行中藥多成分混合物分析時會產(chǎn)生大量的振動光譜數(shù)據(jù),需要采用機器學習算法進行建模,主要機器學習算法包括偏最小二乘回歸(PLSR)、極限學習機(ELM)、支持向量機(SVM)、人工神經(jīng)網(wǎng)絡(ANN)、卷積神經(jīng)網(wǎng)絡(CNN)等。
2006年,Hinton等[9]采用預訓練方法解決了神經(jīng)網(wǎng)絡只能得到局部最優(yōu)化的問題,將隱含層推動到了7 層,神經(jīng)網(wǎng)絡真正意義上有了“深度”,由此揭開了深度學習的熱潮,隨后的深度信念網(wǎng)絡(DBN)、遞歸神經(jīng)網(wǎng)絡(RNN)、長短期記憶人工神經(jīng)網(wǎng)絡(LSTM)等才逐漸出現(xiàn)。CNN 是目前運用較多的深度學習算法,包括卷積運算、池化運算、全連接運算和識別運算這4 個基本運算單元。拉曼光譜數(shù)據(jù)無需進行預處理,可以直接進行CNN 建模輸出結果。有文獻報道CNN比傳統(tǒng)的PLSR、SVM、ELM 等機器學習算法的建模效果更好,尤其是CNN在其模型架構中采用了共享權重濾波器和池化層,使模型具有更高的特異性和敏感性[10]。
拉曼光譜在中藥礦物藥鑒別方面應用較多[11]。硇砂是氯化物類鹵砂族礦物鹵砂,分為白硇砂和紫硇砂兩類,具有消積軟堅、化腐生肌的功效。白硇砂又常與白礬、硼砂混淆,有研究者把拉曼光譜和另外2種光譜技術(X射線衍射和近紅外光譜)結合起來,用于硇砂的快速鑒別[12]。白硇砂和紫硇砂的特征譜段都為1800~70 cm-1,白硇砂有5 個明顯的特征峰和3 個氯化銨的較弱特征峰;紫硇砂主要含有氯化鈉,表現(xiàn)為(345±7)cm-1處有寬型強峰。利用這些特征峰可以在混淆品中區(qū)分出白硇砂和紫硇砂。
除了氯化物類礦物藥,中藥中的硫酸鹽類礦物藥種類繁多,容易混淆。雷咪等[13]對6種含硫酸鹽礦物藥(白礬、膽礬、綠礬、石膏、玄精石、芒硝)及其炮制品進行了拉曼光譜鑒別。首先采用矢量歸一化法對拉曼圖譜進行預處理,再建立聚類模型,選擇一階導數(shù)和9 點平滑來減弱干擾、消除噪音。除了膽礬和綠礬因自身不同程度的顏色而具有強度不一的熒光干擾,僅能微弱區(qū)分之外,拉曼光譜在其他礦物藥及其炮制品的快速區(qū)分上表現(xiàn)出色。此外,有報道采用拉曼光譜分析技術對白礬、枯礬及其偽品(銨明礬)進行了快速鑒別,白礬在990、974 cm-1有強吸收峰,而偽品無974 cm-1吸收峰[14]。
碳酸鹽類礦物藥是中藥礦物藥的重要組成部分。明晶等[15]采用拉曼光譜技術對4 種碳酸鈣類礦物藥(魚腦石、鵝管石、花蕊石、南寒水石)進行區(qū)分,采用一階導數(shù)、多元散射校正和17 點平滑對拉曼光譜圖進行預處理,消除干擾。然后,選擇特征波段,使用Ward算法進行聚類分析,發(fā)現(xiàn)魚腦石和鵝管石未被區(qū)分,通過建立PLSR 模型進行區(qū)分,模型預測準確率達到90%。
部分礦物藥由于含有As、Hg、Pb 等有毒元素,需要進行準確鑒別。有報道采用拉曼光譜分析技術對朱砂、輕粉、雄黃、信石、密陀僧、鉛丹及硫黃7 種毒性礦物藥進行鑒別,發(fā)現(xiàn)這7種毒性礦物藥拉曼光譜特征峰峰形尖銳,差異顯著,可以用來快速鑒別這7種毒性礦物藥[16]。
除了礦物類中藥,拉曼光譜技術在植物類中藥的鑒別中也發(fā)揮了重要作用。姜黃是姜科多年生草本植物姜黃的根莖,在抗腫瘤方面受到國內(nèi)外學者的高度重視。董晶晶等[17]使用拉曼光譜技術采集姜黃拉曼圖譜,進行二階求導,得到8 個較強的特征峰,對這些峰進行歸屬發(fā)現(xiàn),其與已知的姜黃含有的碳水化合物、姜黃素類化合物、β-谷甾醇和脂肪酸是相符的,可以用于姜黃的快速鑒定。
中藥芍藥以其根入藥,有赤芍和白芍之分,兩者功效差異很大。白芍養(yǎng)血柔肝,赤芍清熱涼血。黃浩等[18]采用共聚焦顯微拉曼對赤芍、白芍的飲片和藥材水煎湯劑進行比較,對圖譜進行簡單的5 點平滑處理后扣除熒光背景,發(fā)現(xiàn)有5 組拉曼信號在白芍藥材湯劑和飲片湯劑中同時存在,另有2 個拉曼光譜發(fā)生了頻移,從637、1636 cm-1頻移至633、1633 cm-1,剩余在于飲片中的拉曼峰則未曾在白芍藥材中見到重疊。赤芍與白芍的拉曼光譜差異較大,783、847、1091 cm-1等拉曼峰僅出現(xiàn)在白芍飲片湯劑的拉曼光譜中,而734、836、1072 cm-1等拉曼峰僅存在于赤芍飲片湯劑的拉曼光譜中,這表明共聚焦顯微拉曼可以用于赤芍和白芍飲片湯劑的鑒別和區(qū)分。
人參是中國傳統(tǒng)的滋補佳品,在韓國、美國及中國東北等地均有分布。Edwards等[19]對不同產(chǎn)地的人參進行拉曼光譜分析發(fā)現(xiàn),西洋參在1600、1003 cm-1都有拉曼峰,而高麗參僅在1600 cm-1有拉曼峰,中國人參僅在1003 cm-1有拉曼峰。因此,通過拉曼光譜可以對人參的產(chǎn)地進行識別。
黃芪是豆科植物膜莢黃芪和蒙古黃芪的干燥根,對心腦血管、消化、免疫等多種系統(tǒng)都有保護作用,還能降低血糖、抗腫瘤。黃浩等[20]采用拉曼光譜分析技術結合主成分回歸(PCR)和偏最小二乘回歸-判別分析(PLSR-DA)判別模型對5 個產(chǎn)地的黃芪進行分類,該模型對于未知產(chǎn)地黃芪飲片的識別準確度達到100%。上述例子說明拉曼光譜結合PLSRDA可以實現(xiàn)黃芪產(chǎn)地的快速識別。
拉曼光譜不但可用于定性分析,而且可以進行定量分析。陳龍等[21]對siPLS 算法的區(qū)間數(shù)進行改進,將區(qū)間數(shù)減少到10,加快了最佳譜段選取過程;采用內(nèi)部交叉和外部驗證交叉驗證方法,其中預測系數(shù)(R2)更接近1,交叉驗證均方差(RMSECV)和外部驗證均方差(RMSEP)更小,模型效果更好。該模型RMSEP 為0.259,R2為0.977 9,為5種CaCO3類礦物藥(魚腦石、鵝管石、花蕊石、南寒水石、鐘乳石)的拉曼定量分析提供了可靠的方法。此外,該團隊還采用相同的方法對紫石英中氟化鈣含量進行測定[22]。
在中藥制藥過程中,實時獲取產(chǎn)品關鍵質量屬性對中成藥的質量控制非常重要。將工業(yè)生產(chǎn)設備通過光纖探頭耦合到拉曼光譜儀,可以實現(xiàn)中藥生產(chǎn)過程控制。靳磊等[8]使用便攜式拉曼光譜儀結合CARS-PLSR 建模,采集葡萄糖、麥芽糖、何首烏多糖及黨參多糖的拉曼特征峰,對穩(wěn)心顆粒中的總糖類成分進行含量測定,并據(jù)此對穩(wěn)心顆粒提取工藝中多糖的生產(chǎn)過程軌跡變化進行監(jiān)控,模型R2達到97.43%,接近于1。
水解是山羊角生產(chǎn)過程中的關鍵工藝步驟之一。有研究者建立了基于CNN 的在線拉曼光譜定量校準模型,用于山羊角水解過程的終點監(jiān)測[10,23]。在建立PLSR模型時,首先采用實驗設計方法對拉曼光譜的預處理方法進行優(yōu)化,包括SG平滑、一階導數(shù)和二階導數(shù)基線校正、散射校正和歸一化。同時,比較肯納德-斯通(KS)算法和基于聯(lián)合X-Y 距離的樣本集劃分(SPXY)算法對校正集模型的影響。PLSR 模型的RMSEP 為0.759 9,R2為0.988 4,而CNN 模型的RMSEP 為2.579 3,R2為0.987 0,上述結果說明,CNN 模型和PLSR 模型的預測能力相當,這可能和數(shù)據(jù)量太少有關。一般來說,基于CNN 的深度學習模型在大數(shù)據(jù)的建模中會優(yōu)于常規(guī)的機器學習算法。
拉曼光譜分析技術在中藥鑒定、產(chǎn)地分類方面的應用較多,而在中藥制藥過程控制領域的應用仍然較少,這可能有以下原因:1)拉曼光譜檢測靈敏度較低,受熒光干擾嚴重。近年發(fā)展出的表面增強拉曼光譜(SERS)、針尖增強拉曼等,不但能削弱熒光物質的干擾,而且使檢測限降低至10-18mol·L-1,能夠完成痕量檢測[24-25],這將拓展拉曼光譜在中藥制藥過程中的應用。例如,楊方等[26]采用SERS技術,以Au 膜-Ag 納米顆粒為基底,采用785 nm 激光器為激發(fā)光源,避免了熒光的干擾,測定不同年份的陳皮煎劑。通過峰的歸類發(fā)現(xiàn),7 年及以上陳皮在808、884、1132、1212 cm-1多出4處拉曼峰,可以用來鑒別陳皮年份。2)中藥制造企業(yè)內(nèi)部網(wǎng)絡無法支撐工業(yè)互聯(lián)網(wǎng)場景下的海量數(shù)據(jù)實時傳輸和網(wǎng)絡同步,亟須進行基礎網(wǎng)絡升級改造,提升網(wǎng)絡傳輸帶寬。5G 具備大帶寬、低時延、海量連接的網(wǎng)絡特性,能夠提供端到端毫秒級時延和接近100%的高可靠性通信保障,滿足工業(yè)大數(shù)據(jù)傳輸需求和即時處理需求。因此,隨著5G技術的日益成熟,拉曼光譜技術在中藥制藥領域中的應用障礙將被掃清。拉曼光譜分析技術將為中藥智能制造提供強有力的手段,為中藥制藥過程的智慧化奠定堅實的基礎。