,,
隨著科學(xué)研究進(jìn)入數(shù)據(jù)密集型范式,科學(xué)大數(shù)據(jù)不僅僅是科學(xué)研究的結(jié)果,也成為科學(xué)研究活動的基礎(chǔ)和起點[1]。
為促進(jìn)臨床數(shù)據(jù)共享,WHO臨床試驗注冊平臺于2015年8月發(fā)布了關(guān)于支持臨床試驗數(shù)據(jù)共享的聲明,國際醫(yī)學(xué)期刊編輯委員會于2016 年1月20日發(fā)布了關(guān)于臨床試驗數(shù)據(jù)共享的建議。中國臨床試驗注冊中心亦決定從2016年3月14日起,要求公開原始數(shù)據(jù)(包括原始記錄數(shù)據(jù)和研究計劃書)共享計劃、數(shù)據(jù)保存和管理規(guī)劃、在知情同意書中加入公開原始數(shù)據(jù)內(nèi)容[2],旨在進(jìn)一步推動臨床試驗透明化,履行醫(yī)學(xué)研究者的社會責(zé)任。
新藥研發(fā)具有復(fù)雜程度高、周期長、投入高、成功率低等特點,平均每5 000~10 000 個化學(xué)或生物分子中可篩選出250個先導(dǎo)化合物進(jìn)入臨床前研究階段,最終僅有1個能獲批上市。1種新藥從發(fā)現(xiàn)到成功上市通常需要10~15 年[3],平均投資13.95億美元[4]。
研發(fā)過程中,從藥物發(fā)現(xiàn)到新藥申請,從臨床前試驗到上市后的臨床效果評價,無不建立在翔實而可靠的科學(xué)數(shù)據(jù)基礎(chǔ)上。有效的數(shù)據(jù)挖掘和模型開發(fā)需要有代表性的、經(jīng)過處理的大數(shù)據(jù)集,但是以往按照嚴(yán)格的臨床試驗指南產(chǎn)生的高質(zhì)量臨床前安全數(shù)據(jù)由于項目特點、知識產(chǎn)權(quán)保護(hù)或競爭優(yōu)勢保護(hù)等原因而不會公開,僅有少量上市藥物的安全性數(shù)據(jù)有時會以概要的形式發(fā)布[5]。因此獲得并共享高質(zhì)量、高賦值的新藥研發(fā)數(shù)據(jù)存在較多障礙。而破解這一難題,是提高藥物研發(fā)效率的關(guān)鍵。為此,本文介紹并分析了歐洲制藥工業(yè)聯(lián)合會支持的2個藥理學(xué)、毒理學(xué)數(shù)據(jù)共享平臺的解決方案,為我國新藥研發(fā)數(shù)據(jù)共享平臺建設(shè)提供參考。
我國對新藥研發(fā)平臺建設(shè)高度重視,“十一五”期間啟動了“重大新藥創(chuàng)制專項”,在全國范圍內(nèi)布局15 個“綜合性新藥研究開發(fā)技術(shù)大平臺”,旨在全面提升我國的新藥創(chuàng)制能力[6]。如國家十一五“重大新藥創(chuàng)制”科技重大專項——“ 精神藥物新藥臨床評價研究技術(shù)平臺”獲得了2008-2020年的滾動支持。目前該平臺建立了精神藥物臨床試驗協(xié)作網(wǎng),由具有較高精神疾病診療和科研水平的單位自愿聯(lián)合組成學(xué)術(shù)團(tuán)體,實現(xiàn)了電子化數(shù)據(jù)管理并獲國際認(rèn)可[7]。但該平臺不直接涉及任何一項具體臨床試驗的實施,只是一個純粹的學(xué)術(shù)協(xié)作網(wǎng)絡(luò)。
科技部于2003年將科學(xué)數(shù)據(jù)共享工程作為重大項目立項,2010年國家人口與健康科學(xué)數(shù)據(jù)共享平臺面向社會開放提供服務(wù)[8],目前該平臺已有20T的科學(xué)數(shù)據(jù)在線開放。
其中,由中國醫(yī)學(xué)科學(xué)院藥物研究所負(fù)責(zé)的藥學(xué)科學(xué)數(shù)據(jù)中心,在國家科技基礎(chǔ)條件平臺項目的支持下,成為實質(zhì)上的國家藥物研發(fā)共享平臺[9]。
藥學(xué)科學(xué)數(shù)據(jù)中心作為國家人口與健康科學(xué)數(shù)據(jù)共享平臺的重要組成部分,目前提供數(shù)10個藥學(xué)數(shù)據(jù)庫的資源共享,包括藥物靶點數(shù)據(jù)庫、藥用天然提取物活性庫、中國天然產(chǎn)物化學(xué)成分庫、虛擬化合物庫、藥物分析方法數(shù)據(jù)庫、中藥及天然產(chǎn)物質(zhì)量控制庫等數(shù)據(jù)庫等藥物研發(fā)類數(shù)據(jù)庫,以及藥物資源類數(shù)據(jù)庫、藥品使用類數(shù)據(jù)庫、藥事管理類數(shù)據(jù)庫等,為開展“創(chuàng)新藥物研究”專題服務(wù)奠定了基礎(chǔ)。
為確保數(shù)據(jù)資源量,增強(qiáng)服務(wù)創(chuàng)新藥物研發(fā)的能力,平臺定期征集、整合數(shù)據(jù)實體,匯交到藥學(xué)數(shù)據(jù)中心進(jìn)行初篩、分類、標(biāo)識,制作對應(yīng)元數(shù)據(jù)并在平臺門戶網(wǎng)站共享。
國家人口與健康科學(xué)數(shù)據(jù)共享服務(wù)平臺藥學(xué)數(shù)據(jù)中心主頁如圖1所示。
圖1國家人口與健康科學(xué)數(shù)據(jù)共享服務(wù)平臺藥學(xué)數(shù)據(jù)中心主頁
其中,“新藥研發(fā)動態(tài)數(shù)據(jù)庫”“新藥動態(tài)”信息定期發(fā)布?!靶滤幯邪l(fā)動態(tài)數(shù)據(jù)庫”整合國外多個著名新藥研發(fā)數(shù)據(jù)庫中的信息,包括Thomson Integrity、CORTELLIS、Pharmaproject等藥物信息數(shù)據(jù)庫,PubMED、Embase等文摘數(shù)據(jù)庫,Elsevier Sciencedirect、Springer 等全文數(shù)據(jù)庫,Thomson Innovation、Derwent Innovation Index等專利數(shù)據(jù)庫;“新藥動態(tài)”每月發(fā)布國外特別是美國FDA新審批的新分子實體藥物和生物制品藥物信息,總結(jié)歸納藥物的研發(fā)歷程,系統(tǒng)梳理藥物理化特性、合成路線、細(xì)胞試驗信息、動物試驗信息、Ⅰ期、Ⅱ期、Ⅲ期臨床試驗信息、審批上市信息,使國內(nèi)科研人員能及時了解國外藥物審批動態(tài)及研發(fā)歷程。
可見,當(dāng)前我國新藥研發(fā)知識服務(wù)都是源于各種數(shù)據(jù)庫中可直接利用的知識和信息,權(quán)威、可靠的藥物研發(fā)初始數(shù)據(jù)尚無共享利用渠道,尚未提供知識識別和知識推理服務(wù)[10],距離新藥研發(fā)數(shù)據(jù)多學(xué)科、多層次和多級別共享的目標(biāo)還有很大差距。從實踐結(jié)果看,近10年來各種基金資助的數(shù)據(jù)平臺很多,但達(dá)到預(yù)期目的并投入使用的寥寥無幾。
FDA 2000-2012年的回溯性綜述報告顯示,在藥物研發(fā)的所有階段,毒性相關(guān)的副作用一直是新的候選藥物夭折、影響新藥開發(fā)的主要原因[11],因此需要在藥物研發(fā)的臨床前階段更早預(yù)測其安全性。各種預(yù)測模型的質(zhì)量在不斷改進(jìn),但預(yù)測的可靠性仍然有待提高,如心血管毒性很多要到大規(guī)模的Ⅲ期臨床試驗才能發(fā)現(xiàn)。分析、探究之前失敗的原因有助于改進(jìn)新藥臨床開發(fā)效率及其安全性[12]。
2010年,在創(chuàng)新藥物計劃的驅(qū)動下 ,歐洲制藥工業(yè)協(xié)會聯(lián)合會(EFPIA)啟動了eTOX項目,其全稱是“用于計算機(jī)毒性預(yù)測專家系統(tǒng)開發(fā)的整合生物信息學(xué)和化學(xué)信息學(xué)方法 ”。由11所院校、6家中小企業(yè)和13個制藥公司組成公-私聯(lián)盟,共同建立了eTOXsys平臺,包括數(shù)據(jù)庫整合和全部預(yù)測模型,旨在實現(xiàn)知識共享,為候選新藥的設(shè)計提供新的工具。其目標(biāo)是從論文或PDF文檔中提取和共享13家制藥公司毒理學(xué)研究部門產(chǎn)生的臨床前毒性研究數(shù)據(jù),并利用這些數(shù)據(jù)建立一個翔實的數(shù)據(jù)庫,作為藥物研發(fā)參照數(shù)據(jù)源,即通過類似的結(jié)構(gòu)和/或效果比較早期評估候選藥物的潛在毒性,以及進(jìn)行預(yù)測模型訓(xùn)練。目前平臺提供13家制藥公司的逾4 000項研究,對應(yīng)1 400多個化合物。
eTOX數(shù)據(jù)庫除包括藥理學(xué)安全性、藥代動力學(xué)、藥效學(xué)、藥物分布、生殖毒性和致癌性研究數(shù)據(jù)以及之前的各種毒物基因組學(xué)和毒理學(xué)項目外,還從文獻(xiàn)和公開出版物中篩選可用于eTOX的數(shù)據(jù)、工具、方法或者討論。這些經(jīng)過篩選的數(shù)據(jù)存儲于eTOXlibrary,對公眾開放[13-15]。其成功運行有以下幾個原因。
eTOX臨床前研究數(shù)據(jù)共享的主要障礙之一是如何將參與項目的制藥公司數(shù)千個充分劑量毒性研究中的臨床前數(shù)據(jù)整合成公眾可以利用的數(shù)據(jù)源,以及從生物醫(yī)學(xué)文獻(xiàn)中進(jìn)行文本挖掘。2010年以前,這些專有信息都由每個制藥公司各自擁有。eTOX使這些信息轉(zhuǎn)化為機(jī)讀數(shù)據(jù),并且在保護(hù)知識產(chǎn)權(quán)和敏感信息保密的前提下,在聯(lián)盟內(nèi)共享。由每個公司確定所擁有數(shù)據(jù)的敏感性分級、是否提供給eTOX、數(shù)據(jù)是否需要保護(hù)、是否自由分享。
各參與機(jī)構(gòu)提供的數(shù)據(jù)按敏感性分為公開、非保密、保密、非共享4級(表1)。
表1 eTOX項目的數(shù)據(jù)敏感性分級
傳統(tǒng)報告經(jīng)過公司內(nèi)部審查,由公司自己或者提交給合同研究組織(CRO)進(jìn)行數(shù)據(jù)提取。每個EFPIA伙伴都有權(quán)修訂CROs的工作,進(jìn)行質(zhì)量檢查,然后分別將文檔上傳給可靠的關(guān)系數(shù)據(jù)庫服務(wù)商。數(shù)據(jù)庫服務(wù)商收到數(shù)據(jù)后,把數(shù)據(jù)傳到內(nèi)部產(chǎn)品數(shù)據(jù)庫,或者將保密信息存儲到獨立的數(shù)據(jù)庫。之后按照統(tǒng)一的數(shù)據(jù)納入標(biāo)準(zhǔn)和指導(dǎo)原則進(jìn)行質(zhì)量確認(rèn)和糾錯,保證不同公司數(shù)據(jù)格式的一致性。進(jìn)入eTOX數(shù)據(jù)庫后,確認(rèn)新的術(shù)語并加入該項目開發(fā)的術(shù)語管理工具—人工處理優(yōu)選術(shù)語(術(shù)語盡量標(biāo)準(zhǔn)化以增加互操作性,確保整體統(tǒng)一)。
每個EFPIA伙伴需每月提交“報告跟蹤”工作表,每份報告都包括物質(zhì)ID號、報告ID號、信息質(zhì)量評估結(jié)果、報告進(jìn)入eTOX數(shù)據(jù)的提取過程、保密分級、上傳給CRO/Lhasa有限公司的時間、在數(shù)據(jù)庫的公開時間等詳細(xì)信息。
為保護(hù)知識產(chǎn)權(quán),由私立非盈利性組織Lhasa公司維護(hù)保密性數(shù)據(jù),基于其信譽(yù)保證安全共享。eTOX數(shù)據(jù)庫模式由其開發(fā),包含多個數(shù)據(jù)模塊:化學(xué)數(shù)據(jù)模塊如結(jié)構(gòu)、id、藥理學(xué)作用等,研究設(shè)計信息模塊如種系、族株、性別、劑量,毒物代謝動力學(xué)模塊如劑量、Tmax、Cmax,一般毒性作用信息模塊如劑量、死亡率、體重,臨床化學(xué)發(fā)現(xiàn)模塊如劑量、臨床化學(xué)參數(shù),臨床血液學(xué)發(fā)現(xiàn)模塊如劑量、血液學(xué)參數(shù),組織病理學(xué)發(fā)現(xiàn)模塊如劑量、影響的器官、影響的動物,ADME模塊如吸收、分別、CYP450 、代謝產(chǎn)物、排泄平衡和清除信息。
2.3.1 構(gòu)建統(tǒng)一的臨床前藥物發(fā)現(xiàn)標(biāo)準(zhǔn)本體
統(tǒng)一的本體是與其他數(shù)據(jù)庫實現(xiàn)互操作的基礎(chǔ)。eTOX參照國際統(tǒng)一命名法和診斷標(biāo)準(zhǔn)努力使其術(shù)語具有兼容性,將逐字術(shù)語轉(zhuǎn)換成聯(lián)合體使用的標(biāo)準(zhǔn)術(shù)語。迄今為止,共有800多萬個自然術(shù)語被指定為優(yōu)選術(shù)語,意味著eTOX 數(shù)據(jù)庫中97%的逐字術(shù)語已經(jīng)標(biāo)準(zhǔn)化。這項龐大的工作是獲得高質(zhì)量和可用數(shù)據(jù)的保證。
創(chuàng)建指南和數(shù)據(jù)處理工具,建立本體標(biāo)準(zhǔn),使eTOX數(shù)據(jù)庫內(nèi)容與OntoBrowser 工具的受控詞表相兼容。兼容映射和處理工作是允許對eTOX數(shù)據(jù)庫內(nèi)容進(jìn)行高質(zhì)量交叉參照分析的必要條件。
具體做法是由一個本體管理核心團(tuán)隊負(fù)責(zé)分配不同的本體模塊,利用諾華公司開發(fā)的基于網(wǎng)絡(luò)的本體管理工具OntoBrowser(開放源代碼),處理代碼表和本體生成/映射/管理,對從傳統(tǒng)報告中提取的術(shù)語進(jìn)行綜合處理。進(jìn)入eTOX數(shù)據(jù)庫的新術(shù)語被轉(zhuǎn)入OntoBrowser工具,使其與本體映射,隨后由有審批權(quán)限的科學(xué)家檢查和確認(rèn)每個特別的映射,最后將優(yōu)選的詞匯整合進(jìn)eTOX數(shù)據(jù)庫,因此用戶可以同時看到自然詞匯和優(yōu)選術(shù)語。
通用本體是eTOX 項目成功的關(guān)鍵,構(gòu)建了本領(lǐng)域稀缺的臨床前藥物發(fā)現(xiàn)標(biāo)準(zhǔn)本體。這些努力使共享的數(shù)據(jù)質(zhì)量可信、一致,進(jìn)而根據(jù)內(nèi)容產(chǎn)生可靠的、能夠交叉參照和開放類似定量結(jié)構(gòu)-活性關(guān)系(QSAR)或其他預(yù)測模型。
2.3.2 提供以建模為目的的數(shù)據(jù)分析
eTOX數(shù)據(jù)庫的主要目的是通過數(shù)據(jù)分析建立預(yù)測藥物誘發(fā)毒性的計算機(jī)模型,允許進(jìn)行精確的結(jié)構(gòu)、亞結(jié)構(gòu)和結(jié)構(gòu)相似性檢索與挖掘。然而共享的毒理學(xué)研究數(shù)據(jù)最初并不是為產(chǎn)生預(yù)測模型而設(shè)計的,各種發(fā)現(xiàn)、觀察的數(shù)據(jù)集用于模型構(gòu)建有3個困難:一是對某些遺傳生物學(xué)性質(zhì)需要之前的觀察條件參照,如是否在非常高的劑量觀察的、動物數(shù)量是否有意義、效果是否顯著不同于對照組、動物是否瀕死等;二是不同劑量、不同動物或不同的給藥途徑觀察到的性質(zhì)不能直接比較;三是大多數(shù)明顯的表型 (如膽汁郁積)可能有多個毒性機(jī)制,不能簡單地被單個模型覆蓋。
2.3.3 建立數(shù)據(jù)預(yù)測系統(tǒng)eTOXsys
eTOXsys是整合各種工具、數(shù)據(jù)庫的網(wǎng)絡(luò)軟件平臺,由分子網(wǎng)絡(luò)GmbH開發(fā)。通過統(tǒng)一的用戶交互界面,允許用戶使用預(yù)測模型和數(shù)據(jù)庫進(jìn)行候選藥物危險識別和風(fēng)險評估。系統(tǒng)由4個主要部分組成,接受用戶關(guān)于毒理學(xué)終點預(yù)測查詢(由預(yù)測服務(wù)提供)和數(shù)據(jù)庫檢索(eTOX數(shù)據(jù)庫服務(wù)提供),收集來自web服務(wù)器的結(jié)果并反饋給終端用戶。
終端用戶可以對數(shù)據(jù)庫進(jìn)行查詢和結(jié)果預(yù)測,并進(jìn)一步細(xì)化和分析。eTOXsys界面允許進(jìn)行基于化學(xué)的檢索和基于毒性的檢索。圖2顯示鹽酸丙咪嗪檢索結(jié)果的詳細(xì)信息。
2.3.4 決策支持與模型預(yù)測
為改善新藥發(fā)現(xiàn)中的決策支持,確保eTOX項目數(shù)據(jù)共享的價值,從EFPIA合作伙伴中收集了毒理學(xué)家和藥物化學(xué)家在其日常工作中面臨的共同決策,并列出潛在的假設(shè)驅(qū)動(單一或多個參數(shù))對數(shù)據(jù)庫內(nèi)容的查詢。
圖2 藥物毒性數(shù)據(jù)詳細(xì)信息[13]
化合物毒理學(xué)相關(guān)性質(zhì)的計算機(jī)模型預(yù)測是eTOXsys的主要功能之一,即根據(jù)公開的大量毒理學(xué)相關(guān)終點數(shù)據(jù)進(jìn)行建模。盡管當(dāng)前版本尚未包括用傳統(tǒng)報告數(shù)據(jù)產(chǎn)生的模型,但利用體內(nèi)數(shù)據(jù)的策略已被細(xì)化,eTOXsys的建模技術(shù)已經(jīng)用于根據(jù)公開數(shù)據(jù)產(chǎn)生的大量的毒理學(xué)相關(guān)終點預(yù)測。圖3顯示eTOXsys毒性相關(guān)預(yù)測模型的請求結(jié)果??赡艿哪P鸵詫蛹墭涞男问浇M織在一起。
圖3 eTOXsys毒性相關(guān)預(yù)測模型的請求結(jié)果[13]
近年來,雖然新藥的批準(zhǔn)數(shù)量增加有限,但新藥研發(fā)數(shù)據(jù)的規(guī)模、維度和復(fù)雜性都在不斷增加,且存儲于不同的公共或?qū)S袛?shù)據(jù)庫中。不同數(shù)據(jù)源的有效關(guān)聯(lián)可以發(fā)現(xiàn)隱藏的關(guān)系并改進(jìn)研究策略,然而由于數(shù)據(jù)格式的差異、需要單獨的接口和查詢機(jī)制、不同資源描述符和標(biāo)識符之間缺乏一致性,以及缺少簡單的關(guān)聯(lián)機(jī)制,使從這些異源性數(shù)據(jù)收集相關(guān)而全面的信息、挖掘知識變得更加復(fù)雜。
為解決這一難題,利用語義Web技術(shù)集成來自不同來源的數(shù)據(jù),構(gòu)建統(tǒng)一接口的平臺,提供可訪問的、結(jié)構(gòu)良好的數(shù)據(jù)和有用的分析,將使藥物發(fā)現(xiàn)研究者受益匪淺。
Open PHACTS是一個創(chuàng)新藥物知識管理項目,由歐洲制藥工業(yè)協(xié)會聯(lián)合會(EFPIA)、多所歐洲大學(xué)和中小企業(yè)合作完成(http://www.openphacts.org/consortium),聚焦于應(yīng)用語義Web技術(shù)獲得不同來源、不同類別的數(shù)據(jù),挖掘現(xiàn)有知識和在新藥發(fā)現(xiàn)中產(chǎn)生新的假設(shè)。通過整合各種公開可用的生物分子、藥理學(xué)和物理化學(xué)數(shù)據(jù)源,Open PHACTS成為以有意義和可再現(xiàn)的方式響應(yīng)結(jié)構(gòu)化、定義良好的查詢的最新藥物發(fā)現(xiàn)平臺,便于科學(xué)家訪問和處理多源數(shù)據(jù),進(jìn)行藥物發(fā)現(xiàn)研究[16]。
圖4通過對多巴胺受體藥物發(fā)現(xiàn)項目的化學(xué)物質(zhì)的全面鑒定(A)、與疾病相關(guān)的抗表皮生長因子受體(ErbB)信號傳導(dǎo)通路中所有靶標(biāo)活性化合物的鑒定(B)和評估維生素D代謝通路中的靶標(biāo)以輔助維生素新類似物的設(shè)計3個檢索案例,說明 Open PHACTS如何在藥物發(fā)現(xiàn)過程中挖掘已有知識和發(fā)現(xiàn)新的假設(shè)。
圖4 Open PHACTS 平臺(橙色)可檢索的關(guān)聯(lián)數(shù)據(jù)庫及提供的信息(包括進(jìn)一步通過外部數(shù)據(jù)庫BLAST 進(jìn)行序列相似性檢索及訪問專有數(shù)據(jù)庫)[16]
在數(shù)據(jù)挖掘和模型預(yù)測中,數(shù)據(jù)質(zhì)量的重要性不言而喻,只有嚴(yán)謹(jǐn)準(zhǔn)確的數(shù)據(jù)才能進(jìn)行可靠的挖掘、產(chǎn)生有價值的結(jié)論和有效的預(yù)測。
臨床數(shù)據(jù)共享并非簡單的行政命令就能解決,其中所涉及的知識產(chǎn)權(quán)問題、數(shù)據(jù)質(zhì)量問題、能否建立精確的受控詞表等問題,是能否實現(xiàn)有效數(shù)據(jù)共享的關(guān)鍵。
本文介紹的2個制藥行業(yè)新藥研發(fā)數(shù)據(jù)共享的成功案例值得參考借鑒。
eTOX正在變成制藥領(lǐng)域獲取全身毒性報告的最大、最相關(guān)的臨床前數(shù)據(jù)庫,可以預(yù)見未來該成果將被更廣泛地推廣和應(yīng)用。其建立的新藥研發(fā)數(shù)據(jù)共享機(jī)制和質(zhì)量控制模式值得我們參考。
迄今為止,我國各種數(shù)據(jù)平臺建設(shè)中的信息孤島現(xiàn)象仍未消除。近年來,由國家、省、市、各部委資助的各種疾病大數(shù)據(jù)平臺、精準(zhǔn)醫(yī)學(xué)平臺紛紛上馬,但是多源異構(gòu)數(shù)據(jù)的質(zhì)量標(biāo)準(zhǔn)是否已經(jīng)建立并普及、平臺能否互聯(lián)互通仍然存疑;藥物研發(fā)數(shù)據(jù)資源的共享開放、協(xié)同應(yīng)用通道仍未打通,統(tǒng)一歸口的藥物研發(fā)數(shù)據(jù)共享機(jī)制尚未建立;平臺研發(fā)、語義本體研究依然各行其是,人力物力投入巨大,但是達(dá)到預(yù)期目的、能夠投入使用的數(shù)據(jù)平臺卻寥寥無幾。
2016年,為規(guī)范和推動健康醫(yī)療大數(shù)據(jù)融合共享、開放應(yīng)用,消除信息孤島,國務(wù)院辦公廳發(fā)布了“關(guān)于促進(jìn)和規(guī)范健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導(dǎo)意見”,提出圍繞重大疾病臨床用藥研制、藥物產(chǎn)業(yè)化共性關(guān)鍵技術(shù)等需求,建立藥物副作用預(yù)測、創(chuàng)新藥物研發(fā)數(shù)據(jù)融合共享機(jī)制[17]。2018年3月17日,我國《科學(xué)數(shù)據(jù)管理》正式發(fā)布,明確加強(qiáng)科學(xué)數(shù)據(jù)全生命周期管理,按照“開放為常態(tài)、不開放為例外”的共享理念,把確保數(shù)據(jù)安全放在首要位置,突出科學(xué)數(shù)據(jù)共享利用。
在國家政策的保障和指導(dǎo)下,在執(zhí)行層面上,建議建立藥物研發(fā)平臺注冊制度,無論是國家級的資助平臺項目,還是省、地、市級的資助項目,凡獲得立項者,必須在國家統(tǒng)一的平臺注冊,注冊內(nèi)容應(yīng)包括負(fù)責(zé)單位、負(fù)責(zé)人、參與單位、建設(shè)目標(biāo)、擬采用的技術(shù)標(biāo)準(zhǔn)、完成時間等,并定期匯報進(jìn)展和完成情況,不注冊者不予結(jié)項,使全國上下的平臺研發(fā)處于統(tǒng)一標(biāo)準(zhǔn)和規(guī)范之下,避免重復(fù)、無序研究。在保護(hù)知識產(chǎn)權(quán)和敏感信息保密的前提下,制定醫(yī)藥數(shù)據(jù)的分類、分級標(biāo)準(zhǔn),消除行業(yè)的信息共享壁壘,建設(shè)互聯(lián)互通的藥物研發(fā)數(shù)據(jù)平臺,促進(jìn)軍地健康醫(yī)療數(shù)據(jù)規(guī)范銜接、互通共享、協(xié)同應(yīng)用。
數(shù)據(jù)質(zhì)量是當(dāng)前我國藥物研發(fā)領(lǐng)域面臨的嚴(yán)峻問題,沒有質(zhì)量保證的大數(shù)據(jù)就沒有利用價值。
2016年,國家食品藥品監(jiān)督局對藥物臨床試驗數(shù)據(jù)的自查核查發(fā)現(xiàn),逾80%的新藥臨床數(shù)據(jù)涉假(造假行為包括修改或編造受試者信息、試驗數(shù)據(jù)、試驗記錄、試驗藥物信息),以市場購買藥品替代自行研制的試驗用藥品,以其他方式使用虛假試驗用藥品,隱瞞、棄用或以其他方式選擇性使用試驗數(shù)據(jù),瞞報或漏報可能與臨床試驗用藥相關(guān)的嚴(yán)重不良事件等,破壞了藥物臨床試驗數(shù)據(jù)的真實性[18-19]。
2015年一項對我國公開發(fā)表的新藥臨床藥動學(xué)試驗數(shù)據(jù)質(zhì)量的調(diào)查顯示,在同一藥物品種的生物等效性試驗中,報道的藥動學(xué)參數(shù)存在巨大差異,最大達(dá)到400倍之多[18]。
臨床試驗是創(chuàng)新藥從基礎(chǔ)實驗進(jìn)入人體研究的開端,其結(jié)果直接關(guān)系到后續(xù)臨床試驗的方案設(shè)計及安全性、有效性結(jié)論。據(jù)其得出的研究結(jié)論與生命健康息息相關(guān),因而臨床試驗數(shù)據(jù)的準(zhǔn)確性至關(guān)重要。
現(xiàn)階段我國藥物研發(fā)的臨床試驗數(shù)據(jù)存在質(zhì)量、誠信和技術(shù)等不同層面的問題,要開展基于大數(shù)據(jù)的知識挖掘和模型預(yù)測、實現(xiàn)有效的數(shù)據(jù)共享,還任重道遠(yuǎn)。
國外的醫(yī)學(xué)數(shù)據(jù)質(zhì)量亦不樂觀。由于網(wǎng)絡(luò)普及,用戶可以多渠道獲取數(shù)據(jù)和集成信息,致使劣質(zhì)信息產(chǎn)生和傳播的風(fēng)險達(dá)到空前的水平[20]。
臨床數(shù)據(jù)的爆炸性增長伴生了大量的劣質(zhì)數(shù)據(jù)、垃圾數(shù)據(jù),嚴(yán)重降低了醫(yī)療大數(shù)據(jù)的價值密度。如果不加甄別地使用,將會導(dǎo)致源于數(shù)據(jù)的知識和決策的失誤。
2014年7月,面對越來越多的科學(xué)數(shù)據(jù)造假,本著對科學(xué)數(shù)據(jù)質(zhì)量的重視與負(fù)責(zé),《科學(xué)》雜志聘請了美國統(tǒng)計協(xié)會的7位科學(xué)家組成數(shù)據(jù)編輯委員會,專門負(fù)責(zé)論文的數(shù)據(jù)審查工作,通過可重復(fù)試驗和驗證科學(xué)數(shù)據(jù)推進(jìn)科學(xué)進(jìn)步[21]。
臨床試驗數(shù)據(jù)共享不但需要解決知識產(chǎn)權(quán)保護(hù)問題、利益分配問題、平臺建立問題,還需要特別關(guān)注數(shù)據(jù)的質(zhì)量問題。 因此我國必須加強(qiáng)數(shù)據(jù)監(jiān)管,加強(qiáng)學(xué)術(shù)誠信建設(shè),有效提高和確保藥物研發(fā)數(shù)據(jù)的可靠性。
當(dāng)前我國為新藥研發(fā)提供的知識服務(wù)都是源于可直接利用的知識和信息,整合多個數(shù)據(jù)庫,尚未進(jìn)行知識識別和知識推理[10]。
隨著人工智能的發(fā)展,藥物研發(fā)數(shù)據(jù)平臺建設(shè)應(yīng)向智能預(yù)測、知識推理發(fā)展,應(yīng)具備融合多源數(shù)據(jù)進(jìn)行藥物知識發(fā)現(xiàn)的能力,提高藥物知識發(fā)現(xiàn)的效率和成功率,縮短藥物研發(fā)周期,減少經(jīng)濟(jì)成本。
為實現(xiàn)新藥研發(fā)數(shù)據(jù)的有效共享,我國應(yīng)建立數(shù)據(jù)平臺研發(fā)注冊制度,避免重復(fù)、無序研究;以國家藥品數(shù)據(jù)中心為核心,建立藥物標(biāo)準(zhǔn)本體庫;采取切實可行措施,加強(qiáng)數(shù)據(jù)質(zhì)量監(jiān)管;組織多學(xué)科合作,借助人工智能,融合多源異構(gòu)文本資源,研發(fā)具備知識預(yù)測和發(fā)現(xiàn)的藥學(xué)知識庫,為我國新藥研發(fā)提供高效的解決方案。