楊 培,陳 瑾,吳春穎,詹雪艷,2*,臧恒昌
(1.北京中醫(yī)藥大學 中藥學院,北京 102488;2.北京市科委 中藥生產過程控制與質量評價北京市重點實驗室,北京 102400;3.山東大學 藥學院,山東 濟南 250012)
近紅外光譜(Near infrared spectroscopy,NIRS)技術具有快速、無損、樣品無需復雜的前處理和可進行多組分同時分析等優(yōu)點,被廣泛用于過程分析[1-3]。藥物制劑過程按規(guī)??煞譃樾≡?、中試和生產過程。來源于小試過程中的樣本所建立的近紅外定量模型通常用于預測同規(guī)模的小試樣本。由于儀器、環(huán)境、樣品光譜背景等因素的影響[4],不同規(guī)模制劑過程中樣本間光譜差異的分散程度不同,導致小試制劑過程中建立的模型難以直接應用到中試或大生產中。但若直接采集中試或生產上的近紅外數(shù)據(jù)建模,需要多批次重復制劑累積變異樣本以擴大NIR定量模型的適用范圍,造成人力、物力和時間成本的耗費。模型傳遞是通過一定數(shù)量的傳遞樣本,采用數(shù)學方法在不同條件下的檢測信號之間尋求一種變換關系,來增強光譜數(shù)據(jù)間的通用性和可比性[4-5],使特定條件下建立的模型能夠應用于新條件。模型傳遞的數(shù)據(jù)處理方法主要有3種類型:①基于光譜背景校正,如分段直接校正法(Direct standardization,DS)[6-7]、正交信號校正法(Orthogonal signal correction,OSC)[8]、直接正交信號校正法(Direct orthogonal signal correction,DOSC)[9]等;②基于模型預測值校正,如斜率/截距校正(Slope-bias correction,SBC)[10-11]法;③基于模型系數(shù)校正,即模型更新(Model update,MU)[5,12]。
本課題組[13]前期提出了將正交投影技術結合斜率/截距校正法(DOSC-SBC)的模型傳遞方法,在金銀花水提和醇沉2個制劑過程中實現(xiàn)了綠原酸近紅外定量模型在不同批次間的傳遞。然而,DOSC-SBC方法用于預測光譜背景差異很大的樣本時(如不同制劑尺度下的樣本),難以取得好的校正效果。因此,本研究在前期研究基礎上改進了DOSC-SBC方法,以小試和中試條件下流化床制粒過程中采集的多批次樣本為研究對象,提出了以代表性中試樣本為指導的正交投影技術(Directed direct orthogonal signal correction,DDOSC)結合SBC的方法(DDOSC-SBC)來實現(xiàn)水分近紅外定量模型由小試到中試的跨尺度傳遞。
正交投影技術將光譜X矩陣向參考值Y矩陣投影,找到X中正交光譜得分矩陣T的權重矩陣W和載荷矩陣P,最大程度的去除與Y正交的光譜信息(XDOSC=X-TnewP′=X-XWP′),增強光譜矩陣X與參考值Y的相關性,再根據(jù)Xnew,DOSC=Xnew-XnewWP′來校正未知樣本光譜。
DOSC算法能去除光譜中的偶然誤差,有效減少樣本光譜由溫度、批次波動引入的變異,但難以識別光譜中的系統(tǒng)誤差,可能會過擬合導致預測值偏向一方[14],結合斜率/截距校正(SBC)法對原預測值進行校正,能夠提高近紅外定量模型的預測準確度。
與DOSC相同,DDOSC可能會放大系統(tǒng)誤差,影響預測結果。本文以代表性樣本的預測結果為指導,通過判斷其初始預測值與參考值是否呈線性關系,結合SBC方法求出其函數(shù)關系,對待傳遞樣本的預測值進行校正以提高模型的預測準確度。
藥用糊精(來源于C1、C2、C3、C4 四個不同廠家);羥丙甲纖維素(HPMC,安徽山河藥用輔料股份有限公司);SMA LGL 002小試流化床制粒機和SMA LGL 040中試流化床制粒機(山東新馬制藥裝備有限公司);MicroNIRTMPAT-U近紅外光譜分析儀(美國,VIAVI公司)。
以藥用糊精為原料,HPMC為粘合劑,分別在小試和中試條件下模擬藥物流化床制粒過程。在該制劑過程中,使用近紅外光譜儀在線實時采集NIR光譜數(shù)據(jù),同時通過流化床取樣口裝置進行取樣,依據(jù)《中國藥典》2015版中烘干法測定樣品水分含量。每批制劑干燥100 min,干燥前期水分變化快,采樣間隔短,后期水分變化趨勢減緩,采樣間隔延長,每批制劑采集35個樣本,去除采樣過程中的異常樣本,分別在小試和中試條件下重復制劑,不同批次樣本信息見表1。
表1 小試與中試所有批次數(shù)據(jù)采集情況Table 1 Data acquisition of all batches of small-test and pilot-test
使用C1、C2、C3 三個廠家的小試Ⅰ~Ⅲ批為建模樣本,采用Kennard-Stone(KS)方法[15-16]將其劃分出71個建模樣本,光譜經(jīng)DOSC預處理,以水分含量為化學參考值,進行偏最小二乘回歸(Partial least squares regression,PLSR)建立NIR定量模型,以剩余30個樣本為內部驗證集,小試Ⅳ批為小試外部測試集,將同樣來源于C1、C2、C3廠家的中試Ⅰ~Ⅲ批作為中試測試集A,將來源于C4廠家的中試Ⅳ和Ⅴ批作為中試外部測試集B。用相關系數(shù)(R)、標準偏差與預測標準偏差的比值(Ratio of performance to standard deviate,RPD)[1]以及預測相對誤差(Relative standard error of prediction,RSEP)為指標評價模型的預測性能。R是對模型擬合效果的整體評價,其值越接近于1,表明模型擬合效果越好。RPD越大,模型越穩(wěn)健、分辨力越強。RSEP越小,預測結果越準確,通常要求過程分析中RSEP<10%。
本實驗所涉及數(shù)據(jù)處理均在Unscrambler(Version 9.7,挪威CAMO公司)、MATLAB(Version 7.0,美國Math Works公司)以及SIMCA-P(Version 13.0,瑞典Umetrics公司)上完成。
小試71個建模樣本的PC1-PC2主成分空間分布圖見圖1A,兩個主成分達到98.3%的光譜解釋率,將小試建模集按水分含量由大到小編號,在PC1方向上,水分含量從右向左依次遞減,說明PC1包含了水分的主要信息,橢圓區(qū)域為小試建模集95%置信區(qū)間,圖1B中的5個中試批次大多數(shù)樣本落在了橢圓臨界線外,說明僅從光譜角度來看,小試建模樣本和中試測試樣本近紅外光譜差異大,中試樣本的光譜變異程度超出了小試建模集的范圍,小試模型難以直接應用于中試樣本。
將小試71個建模樣本經(jīng)DOSC預處理建立PLS定量模型,對其它批次進行預測(表2)。結果顯示,小試模型對內部驗證集和來源不同的小試外部驗證Ⅳ批預測結果良好,說明DOSC預處理方法能有效減少小試樣本中原料來源不同和批次間的光譜差異。
表2 小試NIR定量模型經(jīng)DOSC方法對其它批次的預測結果Table 2 Results of test sets predicted by the small-test NIR quantitative model with DOSC method
對于光譜背景差異較大的中試A、B兩個測試集,小試模型預測的水分RSEP值分別達到了51.04%和26.64%(表2),超出了NIR定量模型所能接受的最大誤差限度。
小試建模集經(jīng)DOSC校正前后的光譜對比圖見圖2A,密集的原始光譜(實線)經(jīng)DOSC校正后(虛線)變得分散,含水量不同的樣本間光譜區(qū)別度增大。中試測試集以中試Ⅱ批為例,經(jīng)DOSC校正后的光譜形狀相對于原始光譜完全失真(圖2B),而通常來講,DOSC方法應在維持光譜形狀的前提下使吸光度更加分散[17],這說明小試建模集的DOSC正交光譜校正參數(shù)不適用于光譜背景變異大的中試測試集。
本文使用KS算法分別從中試測試集A和B中挑選出1/5數(shù)量的代表性樣本(A中挑選20個,B中挑選13個),以其光譜為指導,對剩余的中試測試樣本進行DDOSC光譜背景校正。校正后的中試Ⅱ批光譜維持了原光譜的形狀(圖2C),避免了圖2B經(jīng)DOSC校正后光譜失真的現(xiàn)象,說明相比DOSC,DDOSC方法能夠更加有效地校正中試測試集光譜干擾信息。
中試兩測試集經(jīng)DDOSC預處理后,由小試模型預測的RSEP值分別高達108.75%和100.04%,預測誤差反而增大。圖3A和B分別呈現(xiàn)了兩個測試集的預測值與參考值的相關關系圖,其中虛線代表預測值與參考值相等(y=x)的直線。圖中樣本點全部落在了y=x直線的下方,預測值均大于相應的參考值,原因可能是正交投影技術在應用過程中難以去除光譜中的系統(tǒng)誤差,故小試建模樣本經(jīng)DOSC校正后的光譜仍保留了部分小試條件引入的系統(tǒng)誤差,而中試測試樣本光譜經(jīng)DDOSC校正后仍保留了部分中試條件下的系統(tǒng)誤差,最終導致預測結果偏向一側。
表3 中試測試集A和B經(jīng)DDOSC方法和DDOSC-SBC方法的預測結果Table 3 Results of pilot-test sets A and B predicted by the model with DDOSC or DDOSC-SBC
表4 兩中試測試集經(jīng)DOSC-SBC和MU模型傳遞方法得到的預測結果Table 4 Results of two pilot-test sets predicted by the model with DOSC-SBC or MU method
以測試集A為例,以其代表性樣本為指導(圖3A中圓點樣本),得到測試集A初始預測值與參考值的線性函數(shù)關系(圖3A中實線),結果顯示,先前所劃分出的代表性樣本分布基本可涵蓋剩余樣本,所求出的函數(shù)方程具有代表性。經(jīng)SBC方法對預測值校正后,本來偏向y=x直線一側的樣本點落在了y=x直線附近(圖3C),原預測值中的系統(tǒng)誤差得到改善,校正后的RSEP值由原本的108.75%降至4.90%(表3)。同理,預測集B經(jīng)DDOSC-SBC處理后預測值與參考值的相關關系如圖3D所示,其RSEP值也由100.04%降至3.99%(表3),預測準確度顯著提高。
為確定本方法效果的可比性,本研究將上述從中試測試集中挑選的代表性樣本分別用于DOSC-SBC和模型更新(表4)。結果顯示,測試集A和B經(jīng)DOSC-SBC校正后,RSEP值分別降至18.76%和15.81%,準確度有所提升,但仍超出10%的誤差限度。2個測試集經(jīng)DOSC-SBC校正后的預測值與參考值的相關關系圖與只經(jīng)DOSC的對比見圖4,經(jīng)SBC校正后,由DOSC產生的預測值偏向一側的現(xiàn)象基本改善,但仍難以解決預測值分布寬的問題,表5中兩測試集由DDOSC-SBC得到的初始預測值()與參考值的線性函數(shù)(r2)可達到0.99以上,而DOSC-SBC的r2在0.88左右,也可推斷DOSC-SBC的校正效果不如DDOSC-SBC明顯。使用MU方法后,兩測試集預測的RSEP分別為5.66%和3.63%(表4),預測結果與DDOSC-SBC相當,但該方法總是需要重新建立模型,且當建模樣本數(shù)量大而測試集代表性樣本數(shù)量小時,重新建立模型耗時較長,且模型系數(shù)難以取得好的校正效果。DDOSC-SBC可根據(jù)代表性樣本的初始預測值與參考值的線性關系來預判測試樣本的初始預測值是否適用SBC方法校正,在實際應用中更有指導意義。
表5 中試兩個測試集分別對經(jīng)DOSC和DDOSC處理后的預測值進行SBC的函數(shù)方程Table 5 The function equations of test set A and B acquired with SBC method after the spectrum processed by DOSC or DDOSC
針對DOSC方法校正光譜背景變異大的待測樣本時出現(xiàn)“光譜失真”的問題,本文提出DDOSC方法,利用代表性的變異樣本有指導地校正待測樣本的光譜,并通過SBC方法對經(jīng)DDOSC校正后的初始預測結果中仍保留的系統(tǒng)誤差進行校正,在流化床制粒過程小試樣本水分近紅外定量模型預測中試樣本的應用中取得了很好的效果。與DOSC-SBC相比,DDOSC-SBC方法能夠有效避開當制劑規(guī)模擴大時中試測試集光譜背景變異增大而導致的預測結果差的問題,更好地校正小試尺度下水分NIR定量模型對中試樣本的預測,實現(xiàn)小試模型向中試制劑過程的傳遞,為今后NIR定量模型擴大應用提供了解決方案,促進NIR光譜技術在制劑過程中由實驗室向中試以及生產過程中的應用。