藥物從最初的開發(fā)到實驗室研究,再經(jīng)過層層審批及大量的臨床試驗驗證,到最終獲得批準上市,整個過程復(fù)雜而漫長[1]。隨著上市藥物數(shù)量的逐年增加,在幫助人們抵御越來越多疾病的同時,如何有效利用藥物研發(fā)過程中產(chǎn)生的數(shù)據(jù)和資料,從中挖掘更多潛在有用的知識變得越來越重要。相比其他在研藥物,上市藥物具有藥效明確、藥理毒理作用明晰等優(yōu)點,如能有效利用上市藥物的相關(guān)信息,則能夠助力醫(yī)藥事業(yè)的發(fā)展。早在2013年,哈特曼[2]等人就對各國藥物的上市情況進行過分析,對政府審批的流程提出了優(yōu)化意見,從而大大提升了此后藥物審批的效率;馮金[3]等人從產(chǎn)業(yè)的視角對全球的上市抗ED藥物相關(guān)技術(shù)進行梳理,為企業(yè)制定競爭策略提供指導(dǎo),有效提升了企業(yè)的技術(shù)競爭力;上海藥物研究所毛艷艷[4]等在技術(shù)難度、銷售市場等方面對全球的上市抗腫瘤藥進行研究,客觀描繪了現(xiàn)今腫瘤藥物的研發(fā)形勢,為藥物研發(fā)工作提供了參考和幫助。
然而藥物相關(guān)信息來源廣、內(nèi)容分散、形式多樣,怎樣在紛雜的數(shù)據(jù)中快速挖掘到用的信息,學(xué)者們在方法學(xué)上進行了不少嘗試。凱斯西儲大學(xué)的Rong Xu[5]通過提取論文摘要中的“藥物-疾病”對發(fā)現(xiàn)藥物與疾病之間潛在的關(guān)聯(lián)關(guān)系,從而發(fā)現(xiàn)了藥物更多的適應(yīng)癥;Quoc-Chinh Bui[6]等人通過挖掘文本中包含藥物名稱的語句和訓(xùn)練支持向量機分類器,發(fā)現(xiàn)了藥物與藥物間的相互作用;中南大學(xué)的胡德華[7]等人通過構(gòu)建數(shù)據(jù)立方體探查“疾病-基因-藥物”之間的多維關(guān)系,為疾病的精準治療提供了新的方向。
心絞痛是一種常見的由冠狀動脈供血不足導(dǎo)致的缺血性心臟病[8]。2017年出版的《中國衛(wèi)生和計劃生育統(tǒng)計年鑒》顯示,我國醫(yī)院出院患者疾病轉(zhuǎn)歸數(shù)據(jù)中,心絞痛的疾病構(gòu)成逐年遞增,在2016年達1.08%[9],心絞痛已對我國人民的生命健康構(gòu)成了巨大威脅。本文通過計量學(xué)手段以及數(shù)據(jù)挖掘的方法,對抗心絞痛上市藥物所蘊含的潛在信息進行探究,為今后藥物信息的使用提供參考。
藥物的研發(fā)過程也是科學(xué)和技術(shù)不斷發(fā)展的過程,科學(xué)研究的新進展常常通過發(fā)表論文的形式體現(xiàn)。技術(shù)因為不同于基礎(chǔ)研究的經(jīng)濟特征,需要通過申請專利加以保護。傳統(tǒng)研究多局限于論文或?qū)@墨I的單一知識載體,往往忽略了科學(xué)和技術(shù)的特異性和互動性,只有科學(xué)和技術(shù)協(xié)同發(fā)展才能最終保證藥物的順利研發(fā)及上市。本文選取科睿唯安 Clarivate Analytics旗下的Cortellis數(shù)據(jù)庫,以“angina”為主題詞進行檢索,共檢索出抗心絞痛上市藥物51種,并以此為基礎(chǔ)檢索PubMed數(shù)據(jù)庫、藥智專利數(shù)據(jù)庫和全球上市藥物數(shù)據(jù)庫。PubMed數(shù)據(jù)庫是美國醫(yī)學(xué)圖書館(NLM)下屬國家生物技術(shù)信息中心(NCBI)開發(fā)的文摘型數(shù)據(jù)庫,是目前公認的權(quán)威生物醫(yī)學(xué)文獻檢索工具。以藥物通用名作為物質(zhì)名及其同義詞或補充概念進行檢索,共得到論文89 594篇;藥智專利數(shù)據(jù)庫涵蓋中美歐等多個國家或地區(qū)的專利數(shù)據(jù),將藥物名稱與專利進行關(guān)聯(lián),按藥物名稱進行檢索后共得到相關(guān)專利8 474項。
分別對論文數(shù)據(jù)進行以下處理。
將PubMed文獻數(shù)據(jù)和藥智專利數(shù)據(jù)進行清洗、統(tǒng)計,得到文獻的“年度-數(shù)量”信息及“年度-累計量”信息,并計算文獻增長率,繪制增長曲線。
測度不同研發(fā)階段論文和專利的知識貢獻的差異,計算每篇論文和每項專利與其對應(yīng)的上市藥物之間的時間跨度。
其中,論文-藥品時間跨度:Y1=論文發(fā)表年-藥物上市年,專利-藥品時間跨度:Y2=專利公開年-藥物上市年。將論文和專利按照一定規(guī)則進行分類,其中論文按照Web of Science(WOS)的學(xué)科分為104類,專利則按照申請內(nèi)容分為化合物、藥品衍生物、醫(yī)藥中間體、晶型、制劑、組合物、用途、制備方法、診斷與分析化驗、給藥裝置、生物技術(shù)和生物藥12類。其中化合物,即新分子實體(New Molecular Entity,NME)專利是該上市藥物的核心專利,其他類型專利為非核心專利。之后計算不同學(xué)科論文的時間跨度分布和不同類型專利的時間跨度分布。
利用PubChem系統(tǒng)標引論文文本中同時出現(xiàn)的疾病、物質(zhì)和基因/蛋白質(zhì)等主題詞,并構(gòu)建抗心絞痛上市藥物(以下簡稱為“藥物”)與其他物質(zhì)、疾病、基因/蛋白質(zhì)的共現(xiàn)頻次矩陣。以“藥物-物質(zhì)”共現(xiàn)矩陣為例,aij表示第i行藥物與第j列物質(zhì)的共現(xiàn)頻次,即第i行藥物與第j列物質(zhì)共在aij篇學(xué)術(shù)論文中被同時提及。然后將共現(xiàn)的物質(zhì)按照共現(xiàn)的頻次進行排序,頻次最高者的秩數(shù)為1,頻次次高者的秩數(shù)為2。以此類推,將“藥物-物質(zhì)”的頻次矩陣轉(zhuǎn)換為秩數(shù)矩陣,bij表示第i行藥物與第j列物質(zhì)的共現(xiàn)頻次秩次。利用相同方法得到“藥物-疾病”以及“藥物-基因/蛋白質(zhì)”的共現(xiàn)秩數(shù)矩陣。多維標度分析(MDS)是一種對高維數(shù)據(jù)進行降維處理將其轉(zhuǎn)化為低維數(shù)據(jù),并仍保留數(shù)據(jù)之間相互關(guān)系的一種分析方法[10]。上述的秩次矩陣可表現(xiàn)為如下形式:
歐式距離的計算公式為:
計算各樣本間的距離,將秩次矩陣轉(zhuǎn)變?yōu)榫嚯x矩陣:
根據(jù)樣品間的距離可以獲得樣品在空間中的相對位置關(guān)系,可以將這n個樣本映射到某一p維空間中,從而盡可能保留樣本間的相似性。當p=2或p=3時,可以將樣本間的關(guān)系通過可視化展示[11]。若兩者在文本中共現(xiàn)的頻次越高,其共現(xiàn)的秩數(shù)越低,在可視化后空間上的距離也就越近。利用該方法繪制藥物-物質(zhì)/疾病/基因關(guān)聯(lián)圖譜。
對檢索結(jié)果進行清洗統(tǒng)計后得到上市藥物共50種,相關(guān)專利共8 474項,相關(guān)論文共67 841篇。圖1是論文累積量的年度變化曲線,圖2是專利累積量的年度變化曲線,圖3是藥物上市累積量的年度變化曲線。上市藥物數(shù)量在1994年達到總量的一半,而論文數(shù)量和專利數(shù)量則分別在1992年左右和2005年達到總量的一半。由圖1和圖3可知,上市藥物數(shù)量與相關(guān)論文量增長曲線呈平穩(wěn)的S型增長,在1992年左右達到增長速率的峰值,隨后逐年放緩。圖2中,相關(guān)專利量由于專利審查的周期限制,除了近兩年專利數(shù)量統(tǒng)計尚不完全和曲線幾近持平外,相關(guān)專利的數(shù)量一直呈較快的J型增長。
圖1 論文累積量年度變化曲線
圖2 專利累積量年度變化曲線
圖3 上市藥品累積量年度變化曲線
按照時間跨度,論文及專利的分布情況如圖4所示。
論文中顏色較深的條帶分布在-4至18之間,即藥物上市前4年到藥物上市后8年,峰值出現(xiàn)在12處,即藥物上市第12年;專利中顏色較深的條帶集中于-2至23,即藥物上市前2年到藥物上市后23年,峰值出現(xiàn)在8處,即藥物上市第8年。
圖4 專利和論文的整體時間跨度分布
在論文的階段/時間跨度分布圖(圖5)中可以明顯地觀察到,在論文集中的兩個大類——“心臟和心血管系統(tǒng)”和“藥理學(xué)和藥劑學(xué)”中均可以看到兩個明顯的波峰,第一個峰值出現(xiàn)在藥物上市前25年左右,第二個峰值持續(xù)時間較長,從上市前4年持續(xù)到上市后15年。
另外,在上市前5年間“毒物學(xué)”研究出現(xiàn)了小幅增長,而“化學(xué),分析”在藥物上市20年后才開始出現(xiàn)明顯增長。
在專利的階段/時間跨度分布圖(圖6)中,核心專利“化合物”的明顯增幅出現(xiàn)在藥物上市前3年左右,“藥品衍生物”則在藥物上市后才開始增長,“制備方法”類集中了最多數(shù)量的專利,而“制劑”的研究一直都是專利申請的熱點。
圖5 不同學(xué)科論文的時間跨度分布
圖6 不同類型專利的時間跨度分布
為了能夠更加精準地發(fā)現(xiàn)上市藥物與物質(zhì)、疾病、基因之間的潛在關(guān)系,將抗心絞痛上市藥物中新的分子實體(共28種)按照作用通路劃分為鈣通道調(diào)節(jié)劑(14種)和G蛋白偶聯(lián)受體調(diào)節(jié)劑(4種)兩個類別,將不能分為這兩類的藥物歸入其他。
2.3.1 鈣通道調(diào)節(jié)劑
在鈣通道調(diào)節(jié)劑與物質(zhì)的共現(xiàn)圖譜(圖7)中,作用于鈣通道的抗心絞痛藥物在二維的平面空間內(nèi)擁成一簇。其中位于藥物中心位置的是Calcium(鈣),Nicardipine(鹽酸尼卡地平)、Diltiazem(鹽酸地爾硫卓)、Nisoldipine(尼索地平)、Amlodipine(苯磺酸氨氯地平)、尼群地平(Nitrendipine)等點緊鄰中心分布,Acetylcholine(氯化乙酰膽堿)、Norepinephrine(去甲腎上腺素)、“1,2-Dihydropyridine”(1,2-二氫吡啶)、“1,4-Dihydropyridine”(1,4-二氫吡啶)等點則散落在四周。圖8是藥物與疾病的共現(xiàn)圖。從圖8可以看出,Hypertension(高血壓)、Hypotension(低血壓)、Diabetes Mellitus(糖尿病)、Tachycardia(心動過速)、Ischemia(缺血性疾病)等疾病與藥物混雜分布,Heart Failure(心力衰竭)、Myocardial Infarction(心肌梗死)、Kidney Diseases(腎臟疾病)、Stroke(腦卒中)等疾病環(huán)繞分布在其周圍,Headache(頭痛)、Hypertrophy、Left Ventricular(左心室肥厚)、Coronary Artery Disease(冠狀動脈疾病)、Arrhythmias、Cardiac(心律失常)、Atherosclerosis(動脈粥樣硬化)等分布在最外周。在鈣通道調(diào)節(jié)劑與基因/蛋白質(zhì)的共現(xiàn)圖譜(圖9)中,Renin(血管緊張肽原酶)、Calcium voltage-gated channel subunit alpha1 F(電壓依賴性鈣通道α1F)和insulin(胰島素)是與作用于鈣通道的抗心絞痛藥物關(guān)聯(lián)最近的3種蛋白。
2.3.2 G蛋白偶聯(lián)受體調(diào)節(jié)劑
作用于G蛋白偶聯(lián)受體的抗心絞痛藥物因數(shù)量較少,聚類效果不及鈣通道調(diào)節(jié)藥物明顯,但仍能看出相聚成群的趨勢。圖10中Propranolol(鹽酸普萘洛爾)、Norepinephrine(去甲腎上腺素)等位于藥物較近區(qū)域,圖11中Heart Failure(心力衰竭)、Arrhythmias、Cardiac(心律失常)和Hypertension(高血壓)位于藥物中心區(qū)內(nèi),圖12中Renin(血管緊張肽原酶)和Calcium voltage-gated channel subunit alpha1 F(電壓依賴性鈣通道α1F)依然是與抗心絞痛藥物最相關(guān)的蛋白。
2.3.3 其他
與前兩類藥物根據(jù)共現(xiàn)關(guān)系自動構(gòu)成藥物集落相比,其他作用通路的藥物在可視化效果圖中的分布相對松散,與之共現(xiàn)的物質(zhì)、疾病、基因/蛋白質(zhì)散落在平面內(nèi),聚類趨勢不明顯(圖13至圖15)。
圖7 鈣通道調(diào)節(jié)劑與物質(zhì)的共現(xiàn)圖
圖8 鈣通道調(diào)節(jié)劑與疾病的共現(xiàn)圖
圖9 鈣通道調(diào)節(jié)劑與基因/蛋白質(zhì)的共現(xiàn)圖
圖10 G蛋白偶聯(lián)受體調(diào)節(jié)劑與物質(zhì)的共現(xiàn)圖
圖11G蛋白偶聯(lián)受體調(diào)節(jié)劑與疾病的共現(xiàn)圖
圖12 G蛋白偶聯(lián)受體調(diào)節(jié)劑與基因/蛋白質(zhì)的共現(xiàn)圖
圖13 其他類藥物與物質(zhì)的共現(xiàn)圖
圖14 其他類藥物與疾病的共現(xiàn)圖
圖15 其他類藥物與基因/蛋白質(zhì)的共現(xiàn)圖
藥物上市數(shù)量的變化可以體現(xiàn)出醫(yī)藥研發(fā)過程中重心的轉(zhuǎn)變[12],論文發(fā)表周期短則能夠快速反映學(xué)科的發(fā)展過程。通過比較藥物數(shù)量與論文數(shù)量、專利數(shù)量的增長曲線,可以看出論文數(shù)量的增長模式與藥物數(shù)量的增長模式更為接近。與此同時,通過對抗心絞痛藥物的初始研發(fā)機構(gòu)(Originator)進行統(tǒng)計發(fā)現(xiàn),絕大多數(shù)藥物均由企業(yè)開發(fā),企業(yè)在研發(fā)過程中更傾向于通過申請專利來聲明知識的歸屬,所以專利數(shù)量的改變可用于預(yù)測藥物未來的上市情況。J型曲線也叫“快速增長型曲線”。專利數(shù)量的大幅度增長必然會帶動上市藥物數(shù)量的增長,讓我們看到了抗心絞痛領(lǐng)域藥物的發(fā)展?jié)摿Α?/p>
在不同的研發(fā)階段,論文與專利對于上市藥物的知識貢獻度是不同的,貢獻的知識內(nèi)容也有一定的差別。此前有學(xué)者研究發(fā)現(xiàn),實現(xiàn)從基礎(chǔ)研究到應(yīng)用研究的轉(zhuǎn)化平均需要12年[13]。我們可以利用不同學(xué)科論文的階段分布圖定位藥物上市前12年左右(即分布圖的時間軸定位在-12左右的位置時)和哪些類型的基礎(chǔ)研究能為藥物的上市提供知識基礎(chǔ)。我們發(fā)現(xiàn),除“心臟和心血管系統(tǒng)”與“藥理學(xué)和藥劑學(xué)”外,“生物化學(xué)與分子生物學(xué)”“生理學(xué)”“化學(xué),藥物”“化學(xué),分析”“毒物學(xué)”等基礎(chǔ)學(xué)科也可為藥物的研發(fā)提供知識基礎(chǔ);專利類型的階段分布情況可以提示我們在不同的時間階段應(yīng)如何制定專利保護策略、如何進行藥物非核心專利的研究與申請,才能更好地保護藥物的知識產(chǎn)權(quán)。
分析藥物-物質(zhì)-疾病-基因關(guān)聯(lián)的核心是抽取藥物與物質(zhì)、疾病、基因/蛋白質(zhì)之間的共現(xiàn)關(guān)系。我們認為,共現(xiàn)頻次越高,兩者之間的相關(guān)性就越大,因此可幫助我們發(fā)現(xiàn)潛在的治療心絞痛的藥物和藥物新適應(yīng)癥及候選基因或靶點。在“藥物-物質(zhì)”共現(xiàn)圖譜中,治療心絞痛藥物常與治療冠心病、高血壓、充血性心力衰竭等疾病的尼群地平,以及治療原發(fā)性高血壓、腦動脈硬化癥的藥物尼卡地平等共現(xiàn),說明這些藥物具有相似的藥理作用,可以揭示尼群地平、尼卡地平等在治療心絞痛中可能具有的潛在作用。在藥物-疾病共現(xiàn)圖譜中,治療心絞痛藥物除與如心肌梗死、心力衰竭等其他心臟疾病共現(xiàn)外,也與高血壓、糖尿病等疾病多次共現(xiàn),應(yīng)考慮已上市藥物的其他適應(yīng)癥及多疾病患者的聯(lián)合用藥問題。在藥物-基因/蛋白質(zhì)共現(xiàn)圖譜中,血管緊張肽原酶和電壓依賴性鈣通道α1F可能是與疾病最相關(guān)的蛋白。此外,本文在制作共現(xiàn)矩陣時仍保留抗心絞痛藥物-其他抗心絞痛藥物、抗心絞痛藥物-心絞痛疾病、鈣通道調(diào)節(jié)類藥物-鈣元素之間的共現(xiàn)關(guān)系,通過觀察已有明確聯(lián)系的藥品-物質(zhì)對、藥品-疾病對是否在共現(xiàn)圖譜中位于較近且居中的位置判斷此方法是否可行。由圖7至圖15可知,已知的藥品-物質(zhì)對、藥品-疾病對均在較為靠近的核心區(qū)域,以上理論得到了驗證。對于經(jīng)過多維標度分析后可視化的圖形來說,越接近核心區(qū)域越有可能尋找到潛在的治療心絞痛的藥物和上市藥物更多的適應(yīng)癥,以及發(fā)現(xiàn)藥物的作用靶標。
本文的理論基礎(chǔ)是認為專利和論文中能夠記錄上市藥物相關(guān)的絕大多數(shù)信息,但上市藥物與產(chǎn)業(yè)聯(lián)系緊密,承載知識的載體不局限于專利和論文,所以很難單從專利和論文的角度全面揭示行業(yè)。因此,在今后的研究中應(yīng)選取多種類型的數(shù)據(jù)源,從而更為全面地為行業(yè)進行畫像。
隨著科學(xué)研究的不斷深入,對藥物相關(guān)知識發(fā)現(xiàn)的需求不斷增加,情報學(xué)方法和技術(shù)的發(fā)展也面臨著巨大的機遇與挑戰(zhàn),以往的回溯性研究不能滿足科研工作者的情報需求。本文利用“藥物-論文-專利”的聯(lián)系以及文本挖掘方法,對上市抗心絞痛藥物的潛在信息進行探究。下一步的工作是要試圖發(fā)現(xiàn)“科學(xué)-技術(shù)-產(chǎn)品”間的轉(zhuǎn)化模式,為科研布局及政策制定提供決策支持服務(wù),并通過服務(wù)成果縮短轉(zhuǎn)化路徑和轉(zhuǎn)化時長,促進科學(xué)的發(fā)展。