寧榮華,粟暉,周丹丹,姚志湘,2,3*
(1 廣西科技大學,生物與化學工程學院,廣西 柳州 545006;2 廣西科技大學,廣西糖資源綠色加工重點實驗室,廣西 柳州 545006;3 廣西蔗糖產業(yè)協同創(chuàng)新中心,廣西 南寧,530004)
拉曼和紅外等分子振動轉動光譜信息豐富,具有更好的選擇性。拉曼光譜非破壞、非接觸性測量優(yōu)勢,結合多組分分析方法,已經顯示出低成本、高通量的顯著優(yōu)勢,在多組分體系的定性定量分析正在越來越引起關注[1]。例如De Beer等人[2]將拉曼光譜應用于過程分析中水相懸浮液的定量在線監(jiān)測。Castro等人[3]采用拉曼光譜對花生油摻假進行定性定量分析。Jone等人[4]利用拉曼光譜完成了止痛藥中活性藥物成分(API)(乙酰水楊酸、布洛芬和撲熱息痛)的定性分析和定量分析。
多變量統(tǒng)計分析方法中,ICA近年來頗受重視[5]。ICA作為盲信號處理方法,與PCA和PLS等化學計量學常采用的二次建模方法相比,從原理上說,沒有先驗知識要求,有可能實現直接建模,使得建模工作量具有本質上的縮減。ICA根據源信號的統(tǒng)計獨立性恢復出體系各個獨立組分[6]。ICA在光譜領域的應用案例逐漸增多,包括拉曼[7]、中紅外[8]、三維熒光[9-10]、色譜[11]、核磁共振[12]等。例如Garcia等人[13]將ICA應用于三維熒光來分析面包面團的成分,得到的3個信號均有相應的最大熒光匹配。Clément等人[14]組合ICA-ML、ICA-JADE和FastICA三種方法,并結合拉曼光譜進行低濃度稀釋混合物的組分識別。Monakhova等人[15]使用新的ICA算法(SNICA)對復合混合物的紫外光譜進行源成分的分離,得到了估計譜和參考譜之間接近1的相關系數,證明了SNICA算法可以有效地恢復復合混合物中各成分的純成分光譜。
盡管直接ICA分離多組分混合光譜取得了令人感興趣的結果,但是直接ICA技術還存在一些問題。姚志湘等人[16]前期針對ICA自身的隨機性,如信號分量的分離順序不一致或幅值和源信號不一致等提出了解決方案。但是在重疊性較強的信號源,采用ICA算法直接分離效果仍然不盡人意,近期又論證了ICA性能難以提升的根本原因是源信號對統(tǒng)計獨立偏離導致,提出將測量值映射到高維導數空間,很好地實現了四種丁醇異構體紅外光譜的分離[17]。前期工作表明,改進的ICA分離可以在先驗信息缺乏的前提下,實現混合信號中各個組分真實光譜的純化分離,即不需要明確知道各個組分的含量,僅通過直接測量到的混合光譜,就可以獲得體系中各個組分的真實光譜。而以往通過多元曲線分辨來實現該目的,必須知道各個混合光譜中各組分的確定含量,這無疑大大地增加了建模成本[18]。
本文針對藥物反向工程的實際需求,選取布洛芬、硬脂酸、聚乙烯吡咯烷酮K30、淀粉和蔗糖五種組分復配體系,非破壞性采集體系的拉曼光譜,采用求導、ICA分離,逐級剔除分量后再分離的DSCS-ICA分離方法,進行組成判斷,實現處方成分剖析。
多組分混合光譜X可認為是一個向量集,由源信號S,即各個組分的純光譜構成的向量集,與各組分含量A構成[17]:
X=A·S(1)
S=[s1,s2,…,sn];A=[aij],元素aij是第i個樣品中第j個組分的含量;X是測量到的混合光譜,X=[x1,x2,….,xn]。
FastICA是一種常用的ICA算法,通過找出分離矩陣W,求解獨立分量(IC):
IC=W·X=W·A·S
(2)
其中W是A的逆矩陣,即W=A-1,當I=W·A(I是單位矩陣)時,則有:
IC=S
(3)
源光譜實現分離。FastICA算法得到的分離矩陣W可以實現分量的提取。
但是,ICA分離存在一個前提,即S集中各個分量需要是正交獨立的,而實際分量往往不滿足該條件,無法得到無偏的正確分量。這是ICA在實際應用中會出現程度不同的偏差的根本原因。
前期的工作表明,將原始測量光譜映射至高階導數空間,可以滿足源信號正交要求,從而得到令人滿意的W矩陣,實現源信號的無偏分解[17]。但是對于小型或便攜式光譜儀采集的拉曼數據,由于受到噪聲和取樣點的限制,超過二階的求導比較困難[19]。因此,本研究進一步提出了通過低階求導的DSCS-ICA算法。
FastICA以及改進策略的求解目標都是W。真正可用的W矩陣對于光譜的不同波段和不同階數的導數都是一致的。那么,可以引申出一個新的策略。在某個波段上,某個組分與其他組分具有更大的差異,配合一階導或二階導,可以使得該組分源信號與其他組分的集合趨近正交。去除某個波段上得到的無偏分離量,將剩余的分量繼續(xù)在另一個波段上分離,直至所有的組分分離完成。
DSCS-ICA算法求導表達如下,式(1)寫成式(4)[17]:
X(i,λ)=A(i,j)·S(λ,j)
(4)
混合光譜中的每個譜x(λ)是由每個純成分在各種貢獻下的總和:
x(λ)=a1s1(λ)+a2s2(λ)+…
(5)
x(λ)的n階導數:
d(n)x(λ)=a1d(n)s1(λ)+a2d(n)s2(λ)+…
(6)
其中S(n)=[d(n)s1(λ),d(n)s2(λ),…],因此:
X(n)=A·S(n)
(7)
DSCS-ICA算法的具體步驟如下:
步驟1:直接采集光譜信號,將原始數據構成矩陣混合光譜X,對X進行白化預處理去除矩陣混合光譜間的相關性,然后進行主成分分析(PCA)判斷組成,再對X進行一階求導,得到X(1),ICA分離得到分離矩陣W1,解出獨立分量(ICS),如式(2)。
步驟2:求出ICs與源光譜間的相關系數r,若相關系數r中有達到0.99以上的分量,則從混合光譜X中剔除相關系數r為0.99以上的對應ICS,得到一個新的混合光譜Xi(例:X1=X-IC1),重復步驟1,依次分離出各分量。
步驟3:若步驟2中相關系數r均小于0.99,則調整計算的光譜波段,重復步驟1~步驟2。
步驟4:直到最后兩個組分,至少有一個ICS的相關系數r達到0.99以上,則終止算法。
本文對于混合信號分離效果的評價標準是一階計算結果的相關系數r,其原理已表達在早期工作文獻中[16]。
儀器:智能拉曼光譜儀(型號ExR610,西派特(北京)有限公司)。
試劑:布洛芬(AR,國藥集團化學試劑有限公司),蔗糖(AR,羅恩試劑有限公司),硬脂酸(AR,國藥集團化學試劑有限公司),聚乙烯吡咯烷酮K30(AR,國藥集團化學試劑有限公司),紅薯淀粉(食品級)。
采集布洛芬、聚乙烯吡咯烷酮K30、硬脂酸、蔗糖和紅薯淀粉的拉曼數據。依照市售布洛芬膠囊的成分,按表1比例制備了12份布洛芬膠囊樣本,并采集其光譜。采集參數為:積分時間9 s;中心波長532 nm;功率等級9;采集光譜范圍:200 cm-1~3400 cm-1,平行采集3點1次,取平均值。
表1 布洛芬膠囊樣本中各組分所占比例表Table.1 The proportion table of each component inIbuprofen Capsule samples
分別采用FastICA和DSCS-ICA法對12份膠囊樣本的混合光譜數據矩陣進行分離,以相關系數r判斷分離效果。
布洛芬(AR)、蔗糖(AR)、聚乙烯吡咯烷酮K30(AR)、硬脂酸(AR)和紅薯淀粉(食品級)五種組分在200 cm-1~ 3400 cm-1范圍內的3200個數據點,如圖1所示。
圖1 五種組分的拉曼光譜。(a) 蔗糖;(b) 淀粉;(c) 聚乙烯吡咯烷酮K30;(d) 硬脂酸;(e) 布洛芬Fig.1 Raman spectra of five pure components.(a) Sucrose;(b) Starch;(c) Polyvinylpyrrolidone K30;(d) Stearic Acid;(e) Ibuprofen
從圖1可以看到,五種組分的全段拉曼光譜間存在差異,但在各個波段上組分間都有重疊,不滿足ICA統(tǒng)計獨立假設[20]。求出五種組分間的相關系數r,見表2,可以看出組分間均存在一定的統(tǒng)計相關性。其中,布洛芬與淀粉、蔗糖和硬脂酸間均偏離正交要求,而淀粉和蔗糖的拉曼光譜間的相關系數r為0.8322,相似度較大。
表2 五種組分拉曼光譜之間的相關系數rTable.2 The correlation coefficientr between the Raman spectra of the five components
采用FastICA2.5[6]對12份膠囊樣本的全段混合光譜矩陣(200 cm-1~3400 cm-1)進行分離得到五個IC,表3記錄了ICS與源光譜的相關系數r。在表3中,從整體來看五個IC的r值均小于0.95,其中淀粉對應分量的r值是0.6989,布洛芬對應分量的r值為0.7863,說明光譜如果存在顯著的重疊部分,FastICA算法無法得到可靠的結果。
調整計算波段,選取260 cm-1~1700 cm-1波段1440個數據點進行光譜處理,FastICA2.5分離效果有較大改善,見表3,相關系數r均大于0.91,但分離結果仍然與真實的純光譜存在顯著差異。
表3 FastICA2.5算法解出的ICS與源光譜間的相關系數rTable.3 The correlation coefficient r between ICS and the source spectrum solved by FastICA2.5 algorithm
在圖2中繪制了源光譜和區(qū)間選取FastICA 2.5分離解出的各分量的歸一化對比圖。對照源光譜,圖2 (b)中布洛芬分量在波段1100 cm-1~1300 cm-1范圍存在明顯失真,硬脂酸分量在波段300 cm-1~1700 cm-1范圍內顯著失真。
圖2 FastICA2.5算法解出的分量與源光譜歸一化對比圖。(a)源光譜;(b)FastICA2.5算法解出的分量Fig.2 Normalized comparison diagram of the component solved by FastICA2.5 algorithm and the source spectrum.(a)Source spectrum;(b) The component solved by FastICA2.5 algorithm
進一步采用本文提出的DSCS-ICA算法,選取260 cm-1~1700 cm-1波段數據作為矩陣混合光譜X,依照2.2中DSCS-ICA算法的分離步驟,先對X進行白化預處理,其次進行PCA分析判斷組成為5,然后對X進行一階求導,ICA分離得到5個分量,求出各分量與源光譜的相關系數r,其中IC3和IC4具有最大的確定性,相關系數r均達到了0.993以上,分別對應淀粉(r=0.9940)和硬脂酸(r=0.9936)。但是布洛芬對應的分量相關系數從0.9881減小到0.9845,聚乙烯吡咯烷酮K30(r=0.9598)和蔗糖(r=0.9691)對應分量的相關系數也不理想。
接下來從矩陣混合光譜X中剔除淀粉分量和硬脂酸分量得到新的矩陣混合光譜X1,對矩陣混合光譜X1進行一階導,ICA分離得到3個分量,其中對應布洛芬的IC相關系數最大為0.9945;從矩陣混合光譜X1中剔除布洛芬分量得到X2,對X2進行一階導,ICA分離得到2個分量,其中聚乙烯吡咯烷酮K30具有最大確定性,與其對應的IC間的相關系數r高達0.9982,與蔗糖對應的IC間相關系數r為0.9831。除蔗糖外,采用DSCS-ICA算法分離出的其他4個分量與其對應源光譜的相關系數>0.99,說明可顯著確定體系組成,與FastICA2.5相比,其分離效果有了顯著改善,結果具有較好的可靠性。結果見表4。
表4 DSCS-ICA算法解出的ICS與源光譜間的相關系數rTable.4 The correlation coefficientr between ICS and the source spectrum solved by DSCS-ICA algorithm
接下來從矩陣混合光譜X中剔除淀粉分量和硬脂酸分量得到新的矩陣混合光譜X1,對矩陣混合光譜X1進行一階導,ICA分離得到3個分量,其中對應布洛芬的IC相關系數最大為0.9945;從矩陣混合光譜X1中剔除布洛芬分量得到X2,對X2進行一階導,ICA分離得到2個分量,其中聚乙烯吡咯烷酮K30具有最大確定性,與其對應的IC間的相關系數r高達0.9982,與蔗糖對應的IC間相關系數r為0.9831。除蔗糖外,采用DSCS-ICA算法分離出的其他4個分量與其對應源光譜的相關系數>0.99,說明可顯著確定體系組成,與FastICA相比,其分離效果有了顯著改善,結果具有較好的可靠性。
將DSCS-ICA法的結果歸一化,并與源光譜歸一化結果作圖對比,如圖3。從圖可以看出,DSCS-ICA法解出的分量峰形與源光譜基本吻合,硬脂酸和布洛芬的峰形不再出現顯著失真,基線明顯改善,說明DSCS-ICA可以有效的進行組分判斷。
圖3 DSCS-ICA算法解出的分量與源光譜歸一化對比圖。(a)源光譜;(b)DSCS-ICA算法解出的分量Fig.3 Normalized comparison diagram of the component solved by DSCS-ICA algorithm and the source spectrum.(a)Source spectrum;(b) The component solved by DSCS-ICA algorithm
圖4為FastICA2.5法和DSCS-ICA法解出的布洛芬分量與其對應的源光譜對比。
圖4 布洛芬分量與其源光譜的歸一化對比圖。(a) 布洛芬源光譜;(b) FastICA2.5算法分離的布洛芬分量;(c) DSCS-ICA算法分離的布洛芬分量Fig.4 Normalized comparison of Ibuprofen component and its source spectrum.(a) Ibuprofen source spectroscopy; (b) Ibuprofen component separated by FastICA2.5 algorithm;(c) Ibuprofen component separated by DSCS-ICA algorithm
從整體上看,DSCS-ICA法解出的布洛芬分量的光譜與真實純組分源光譜已經具有良好的一致性,而FastICA2.5分離的布洛芬分量的光譜在拉曼位移1132 cm-1、1299 cm-1和1442 cm-1左右都存在較大的差異;從局部放大1096 cm-1~1146 cm-1和1428 cm-1~1448 cm-1區(qū)域可以看出DSCS-ICA法獲得的分量與真實純組分源光譜之間的差異較小,而FastICA2.5得到的分量與真實純組分源光譜間失真明顯。結果表明DSCS-ICA算法改善了目前多采用的FastICA2.5的分離性能。
拉曼光譜具有豐富的信息,譜峰具有一定的獨立性,對于混合拉曼光譜,采用本文提出的求導、ICA分離,逐級剔除分量后再分離的DSCS-ICA方法,相比直接FastICA2.5具有更好的分離效果。本文通過對布洛芬膠囊的拉曼光譜進行分析,發(fā)現采用FastICA2.5法解出源光譜的近似估計與源光譜間的相關系數r均小于0.95,而采用DSCS-ICA法解出源光譜的近似估計與源光譜間的相關系數r達到了0.99以上,證明了當源光譜存在顯著重疊時,采用DSCS-ICA法能提高FastICA2.5的分離性能,實現了重疊光譜的有效分離。DSCS-ICA法對于拉曼光譜的分離結果具有可靠性和良好的對應性。采用DSCS-ICA法可用于原研藥處方成分剖析,為仿制藥的反向研發(fā)提供了一種有效手段,本方法也適用于其他光譜的多組分定性分析。