畢夢舟 張娜
(北京工業(yè)大學環(huán)境與生命學部 北京 100124)
阿爾茨海默?。ˋlzheimer's Disease,AD),也稱作老年癡呆癥,是一種漸進且不可逆轉(zhuǎn)神經(jīng)退行性疾病,主要癥狀為記憶和認知功能障礙及生活自理能力喪失,成為嚴重危害中老年人生命健康的頭號公敵。因此,抗AD藥物研發(fā)成為腦醫(yī)藥領(lǐng)域的刻不容緩的研究課題[1-2]。雙特異性酪氨酸磷酸化調(diào)節(jié)激酶1A(Dual-Specificity Tyrosine Phosphorylation Regulated Kinase 1A,DYRK1A)因磷酸化多種蛋白底物而參與神經(jīng)系統(tǒng)的發(fā)育過程,已成為重要的抗老年癡呆的治療靶點[3]。然而,目前尚無相關(guān)治療藥物上市。因此,靶向DYRK1A 的抗神經(jīng)退行性疾病藥物的研發(fā),具有重要的學術(shù)意義和潛在的臨床應用價值。
迄今為止,已報道的DYRK1A 的ATP 競爭性抑制劑多為芳香雜環(huán)類化合物,如噻唑類、吲哚類、吡啶類、嘧啶類等[4-5]。但多數(shù)抑制劑存在選擇性較差、毒副作用大及成藥性低等其他缺陷,阻礙其進一步成為候選藥物,因此,兼具高活性及優(yōu)類藥性的新型DYRK1A抑制劑具有重要的臨床應用價值及良好的應用前景。目前,關(guān)于DYRK1A 抑制劑研究主要集中在新型化合物的優(yōu)化及篩選方面,而相關(guān)的構(gòu)效關(guān)系研究較少,進而影響抑制活性的結(jié)構(gòu)因素也尚不明確,導致新型抑制劑優(yōu)化中存在一定的盲目性和隨機性。
定量結(jié)構(gòu)-活性關(guān)系(Quantitative Structure-Activity Relationships,QSAR)模型是將化合物的結(jié)構(gòu)與其生物活性定量相關(guān)聯(lián)的方法,識別與性質(zhì)密切相關(guān)的結(jié)構(gòu)特征,在現(xiàn)代創(chuàng)新藥物研發(fā)領(lǐng)域發(fā)揮重要的作用[6-7]。然而,目前DYRK1A抑制劑的構(gòu)效關(guān)系研究局限于單一骨架的某類化合物,所構(gòu)建的模型僅識別出某類活性基團且適用范圍有限[8]。因此,構(gòu)建基于多分子骨架抑制劑的構(gòu)效關(guān)系模型,識別多樣性的藥效分子描述符,可為新型優(yōu)化提供結(jié)構(gòu)素材及理論指導,具有重要的學術(shù)意義。
該文綜合考慮化合物骨架多樣性及其抑制活性的廣度,選取了文獻報道的117 個DYRK1A 雜環(huán)類抑制劑,運用遺傳算法與多元線性回歸法相結(jié)合的方法,構(gòu)建基于分子描述符的QSAR 模型,揭示影響化合物抑制活性的結(jié)構(gòu)特征,為新型DYRK1A 抑制劑的發(fā)現(xiàn)提供了重要的理論支持。
從文獻中收集的117 個雜環(huán)化合物,包括苯并噻唑類,6-氮雜吲哚類及苯并吡咯類,其pIC50值(pIC50=logIC50)作為模型構(gòu)建的因變量。數(shù)據(jù)集的pIC50值范圍為4.444~8.523,表明數(shù)據(jù)集化合物的生物活性值分布較為廣泛且范圍合理。并將該數(shù)據(jù)集以3∶1的比例分為訓練集(89)和測試集(28),分別用于模型構(gòu)建及性能預測。運用DRAGON 7.0[9]軟件計算所有化合物分子描述符,去除具有高度自相關(guān),最終得到634個分子描述符作為QSAR模型的自變量。
基于上述篩選所得分子描述符,采用軟件QSARINs 2.2.2[10]中GA 與MLR 相結(jié)合方法,自動挑選變量個數(shù)及最佳變量并進行多元線性回歸,建立QSAR 模型,其中種群大小、突變率、遺傳數(shù)分別設置為200、20、2 000,并針對模型進行基于QUIK準則和多標準決策的篩選及排序。
采用內(nèi)部驗證和外部驗證方法分別對模型的穩(wěn)健性及預測能力進行評價。其中,內(nèi)部驗證采用留一法交叉驗證方法,外部驗證則是基于模型對外部測試集的預測值與實驗值比較。以交叉驗證系數(shù)Q2和相關(guān)系數(shù)R2作為評價標準,當兩者均大于0.5時,說明模型具有良好的穩(wěn)健性和預測能力。
在OECD 準則[11]的指導下,針對研究所建立的QSAR 預測模型需要存在一個具有明顯意義的適用域(Applicability Domain,AD)來度量模型預測值是否在AD的范圍內(nèi),這也是驗證QSAR預測模型是否可靠的重要標準之一。在初始化合物變量環(huán)境里,利用杠桿值和標準化模型確定AD 值?;衔锏母軛U距離被描述為帽值(hat values,h),警示杠桿值h*是衡量QSAR預測模型準確性的重要參數(shù)。當h<h*時,可認為數(shù)據(jù)集化合物在正常范圍內(nèi);當h>h*時,則認為有個別數(shù)據(jù)集化合物被判定為異常值。標準殘差值也是判定效應離散區(qū)間的重要參數(shù),一般情況下標準殘差的邊界數(shù)值是±3。當數(shù)據(jù)集化合物的標準殘差值在-3 到3 之間時,可被認定為正常值。
運用GA 與MLR 相結(jié)合的方法產(chǎn)生了100 個QSAR模型,并基于QUIK準則和MCDM進行自相關(guān)性模型的剔除及打分排序,最終獲得含4 個分子描述符的QSAR模型。由表1可知,影響芳香雜環(huán)類抑制劑活性的結(jié)構(gòu)因素包括矩陣描述符SpAD_B(m),自相關(guān)描述符GATS5m,功能組計數(shù)描述符nCb-和原子對描述符B02[C-O]。該研究中最優(yōu)模型的訓練集化合物數(shù)量與分子描述符數(shù)量的比例約為22,符合訓練集化合物的數(shù)量與QSAR模型所用分子描述符數(shù)量的比例應大于等于5這一規(guī)則。同時,這4個描述符中的任意兩個描述符的相關(guān)性均小于0.7,表明這些描述符相互獨立,多重共線性的問題并不顯著。
表1 最優(yōu)QSAR 模型的分子描述符、相關(guān)系數(shù)及其化學意義
內(nèi)部和外部驗證的統(tǒng)計學參數(shù)Q2和R2均大于0.5,說明最優(yōu)模型具有較高的可靠性和預測能力?;谀P偷幕钚灶A測值和實驗值的散點圖,實驗值與預測值均勻分布在擬合線附近且無明顯偏差,說明所建立的最優(yōu)QSAR 模型具有良好的穩(wěn)定性和預測性,見圖1(a)。
圖1 最優(yōu)模型預測能力評價及適用域分析圖
圖2 與分子描述符相關(guān)的DYRK1A抑制劑
圖1(b)所示為最優(yōu)模型適用域結(jié)果,該模型的預測活性標準化殘差在-3 到3 之間。由圖可知,無論是訓練集還是測試集化合物都不存在效應異常值,均在AD 范圍內(nèi)。值得注意的是,訓練集化合物(114)的帽值大于杠桿閾值(h*=0.169),說明此數(shù)據(jù)點為結(jié)構(gòu)異常值。從結(jié)構(gòu)上看,可能因其4 號位為氫原子而其他相同公共骨架化合物的4號位為芳香環(huán)而導致結(jié)構(gòu)上出現(xiàn)差異,但其誤差僅為-0.191 5,說明此模型具有較為可靠的預測能力。
由表1 可知,SpAD_B(m)是基于Burden 矩陣絕對偏差值的分子量加權(quán),與抑制活性正相關(guān),此值的增加則會提高化合物的抑制活性。GATS5m表示基于拓撲距離為5的Geary自相關(guān)的分子量加權(quán),與抑制活性呈負相關(guān)。nCb-描述符是指苯環(huán)(sp2雜化狀態(tài))上取代基的數(shù)目,與抑制活性呈負相關(guān),即化合物中苯環(huán)上取代基越多,其DYRK1A 抑制活性越弱。如不含苯環(huán)的化合物24(IC50=0.093 8 μm),其抑制活性優(yōu)于含有取代苯的化合物33(IC50=3.86 μm)。負相關(guān)系數(shù)B02[CO]則表示拓撲距離小于2 的C-O 鍵的存在與否,即化合物中存在拓撲距離小于2 的C-O 鍵,則其DYRK1A抑制活性越小。例如:不含C-O鍵的化合物105(IC50=0.01 μm),其抑制活性是含有C-O 鍵的化合物108(IC50=0.233 μm)的23倍。故綜上可知,以上4個描述符被識別為影響化合物DYRK1A抑制活性的關(guān)鍵因素。
該研究運用遺傳算法(GA)和多元線性回歸(MLR)相結(jié)合的方法,構(gòu)建了具有較高可靠性和預測能力的DYRK1A 雜環(huán)類抑制劑QSAR 模型,且識別出了與抑制活性相關(guān)的藥效分子描述符,為新型DYRK1A抑制劑的優(yōu)化提供了結(jié)構(gòu)素材及理論指導。