,
近年,藥物安全問題日益凸顯。一方面,臨床上由于對藥物副作用的認(rèn)識不足而導(dǎo)致的藥物治療錯誤、急慢性中毒、與藥物相關(guān)的發(fā)病率和病死率升高、藥物的濫用與錯用等問題頻繁出現(xiàn);另一方面,由于臨床試驗的長期性、復(fù)雜性,批準(zhǔn)上市藥物的副作用反饋有延遲,導(dǎo)致早期難以預(yù)測藥物副作用,如羅非昔布1999年5月由FDA批準(zhǔn)上市,直至2004年方因其心血管危害性召回。因此,及時發(fā)現(xiàn)藥物副作用成為備受關(guān)注的話題。
目前具有藥物副作用關(guān)聯(lián)知識的數(shù)據(jù)庫均存在問題。如SRS(Spontaneous Reporting System)、FAERS(FDA Adverse Event Reporting System)等自發(fā)報告型數(shù)據(jù)庫的數(shù)據(jù)來源不夠權(quán)威,存在過度報告、數(shù)據(jù)不全、重復(fù)申報等局限性;SIDER (Side Effect Resource)數(shù)據(jù)僅涉及FDA批準(zhǔn)的藥物,數(shù)據(jù)是通過簡單的模式匹配從文本中提取的,可靠性較差,而且臨床試驗中因素錯綜復(fù)雜,不能完全確定不良反應(yīng)是由該藥物引起的;European Medicines Agency等大型數(shù)據(jù)庫涉及內(nèi)容過多,無專門的藥物副作用檢索,使用效果不佳;還有個別數(shù)據(jù)庫存在不向公眾公開,不及時更新等問題。因此,用文本挖掘方法從自由文本中準(zhǔn)確、全面探測藥物副作用,以充實藥物副作用數(shù)據(jù)庫十分必要。
最近大量基于文本挖掘的生物醫(yī)學(xué)知識發(fā)現(xiàn)研究成果表明[1],文本挖掘可成功地應(yīng)用于基因位點、蛋白通路、疾病等生物醫(yī)學(xué)實體之間的關(guān)系探測,說明用文本挖掘方法預(yù)測和補充擴展現(xiàn)有數(shù)據(jù)庫的藥物副作用數(shù)據(jù)也是可行的,而且使用文本挖掘研究藥物副作用,更快捷,耗時耗資更少。但是,用文本挖掘技術(shù)從自由文本中提取藥物副作用的實現(xiàn)并不僅僅依賴于文本挖掘傳統(tǒng)的共現(xiàn)聚類分析等,還要結(jié)合復(fù)雜的自然語言處理工具。本文就當(dāng)前最新生物醫(yī)學(xué)文本挖掘技術(shù)在藥物研究領(lǐng)域中的相關(guān)研究成果和主要方法進行了調(diào)查和分析,并對未來發(fā)展做出展望。
筆者就PubMed/MEDLINE中用文本挖掘技術(shù)從自由文本中提取藥物副作用的方法進行了調(diào)研。檢索策略為(“Data Mining”[Majr] OR “Natural Language Processing”[Majr]) AND (“adverse effects”[Subheading] OR “chemically induced”[Subheading]) AND (“0001/01/01”[PDAT]:“2014/12/31”[PDAT]),檢索時間為2015年6月11日,共檢索到71篇相關(guān)文獻。第一篇文獻出現(xiàn)于2003年,Trick WE等報告了首次將自然語言處理技術(shù)用于從中央靜脈導(dǎo)管插入術(shù)后病歷報告中識別副作用[2]。至今,從自由文本中自動提取藥物副作用信息的相關(guān)研究尚處于發(fā)展階段。從圖1的擬合曲線看,文獻數(shù)量隨時間推移幾乎呈指數(shù)趨勢上升,但尚未達到峰值,可見該領(lǐng)域仍具有廣大的研究空間。
以下從挖掘流程、挖掘/提取方法、結(jié)果評價和現(xiàn)有工具軟件4方面歸納總結(jié)用文本挖掘技術(shù)提取藥物副作用的研究現(xiàn)狀。
圖1 文本挖掘技術(shù)探測藥物副作用的文獻年代分布
用文本挖掘技術(shù)從自由文本中提取藥物副作用一般包括識別命名實體(Named Entity Recognization,NER)和探測藥物—疾病關(guān)系(Chemical Disease Relation,CDR)2項子任務(wù)。識別命名實體是在生物醫(yī)學(xué)數(shù)據(jù)中識別具有特定意義的實體,并將其歸類到預(yù)定義的類別,其難度在于現(xiàn)階段藥物命名實體數(shù)量的爆炸性增長、藥物命名實體構(gòu)詞形式的多樣性和低規(guī)律性及藥物命名規(guī)則不統(tǒng)一[3];探測藥物—疾病關(guān)系面臨的難題是選擇與整合合適的方法,從而準(zhǔn)確而全面地識別出更多的藥物—疾病關(guān)系。
根據(jù)已有文獻可知,用文本挖掘技術(shù)從自由文本中提取藥物副作用分為數(shù)據(jù)獲取、構(gòu)建詞典、數(shù)據(jù)清洗和處理(段落和句子或詞語水平的切分)、藥物副作用提取、結(jié)果評價和反饋5個環(huán)節(jié)(圖2)。
圖2用文本挖掘技術(shù)從自由文本中提取藥物副作用的主要流程
2.2.1 數(shù)據(jù)獲取
可用于文本挖掘的數(shù)據(jù)資源包括病人的健康檔案、電子病歷(Electronic Health Record,EHR)、醫(yī)療病例報告、研究論文、專利、博客、論壇以及新聞報道等多種形式[4],具體可分為以下四大類。一是電子病歷,通常包括人口統(tǒng)計學(xué)、病史、藥物過敏、免疫狀態(tài)、實驗室測試結(jié)果、放射學(xué)圖像、生命體征等多種信息,對分析患者的治療效果最有價值。有研究證實可利用EHR早期預(yù)警藥物副作用[5]。但獲得完整的電子病歷困難,而且其高度異質(zhì)性和非結(jié)構(gòu)化限制了它的使用。EHR的可獲得性及資料完整性并不易實現(xiàn)。二是研究論文,主要是MEDLINE收錄的生物醫(yī)學(xué)文獻,數(shù)據(jù)回溯到1946年并可免費檢索,同時全文獲得和自然語言處理是難題。三是社會媒體,其來源廣泛,可獲得性強,但是存在病人表述不準(zhǔn)、用語不規(guī)范、報告角度與專業(yè)人員不對口、虛假報告等問題,對數(shù)據(jù)清洗和處理提出挑戰(zhàn)。四是Web 數(shù)據(jù),如搜索記錄等,存在與社交網(wǎng)絡(luò)類似的問題。還有藥物產(chǎn)品標(biāo)簽(Daily-Med Website可下載電子版藥物標(biāo)簽)、臨床試驗、自發(fā)報告等可作為藥物副作用提取的數(shù)據(jù)源。
2.2.2 構(gòu)建詞典
詞典質(zhì)量影響藥物副作用提取結(jié)果,其價值在于通過基于字符串匹配或字符串相似等算法識別自由文本中出現(xiàn)的藥物和疾病實體。詞典通常來自多個標(biāo)準(zhǔn)術(shù)語資源,目前常用于構(gòu)建詞典的術(shù)語集[4-5]如表1所示。除此之外,NCBO(The National Center for Biomedical Ontology)的 BioPortal (http://bioportal.bioontology.org/)是最全面的生物醫(yī)學(xué)開放存儲庫,整合匯集了441種生物醫(yī)學(xué)本體資源(包括以下大部分術(shù)語集),可提供Web瀏覽和檢索。
表1 常用術(shù)語集簡介
2.2.3 數(shù)據(jù)清洗及標(biāo)準(zhǔn)化處理
數(shù)據(jù)清洗和標(biāo)準(zhǔn)化處理通常是借助一定的軟件工具和計算機語言實現(xiàn),涉及到句子切分、標(biāo)準(zhǔn)化、詞性分類、詞形還原及詞干化、上下文消歧等工作,目的是使詞典能夠更為準(zhǔn)確地匹配出相應(yīng)的藥物和疾病實體。常用軟件工具有Stanford Parser和Link Grammar Parser。詞形還原和詞性標(biāo)準(zhǔn)及詞干化的工具有Stanford CoreNLP,NLTK(python包),Specialist NLP Tools,Tree Tagger,European Languages Lemmatiser,CST's Lemmatiser,WMTrans Lemmatiser等。
Stanford Parser是斯坦福大學(xué)開發(fā)的自然語言處理軟件,主要基于優(yōu)化的概率,運用上下文無關(guān)文法和詞匯化依存句法分析方法,生成句法結(jié)構(gòu)樹以及句子中各成分之間的依存關(guān)系[6]。Link Grammar Parser依據(jù)語法和形態(tài)規(guī)則對句子進行分析,并輸出其句法結(jié)構(gòu),它包含一組鏈接字對的標(biāo)簽集合以及結(jié)構(gòu)樹,也可以生成Stanford風(fēng)格的句子的依存結(jié)構(gòu)。近期研究表明,Specialist NLP Tools對于詞形還原和詞干化的效果較好,準(zhǔn)確率較高[7]。
2.2.4 實體識別方法和關(guān)系抽取算法
2.2.4.1 實體識別方法
從清洗后的數(shù)據(jù)中識別命名實體的常用方法包括基于規(guī)則、基于詞典和基于機器學(xué)習(xí)的方法,在實際使用中通常會將幾種方法結(jié)合,以獲得更好的識別效果。
基于規(guī)則的方法,即依據(jù)特定規(guī)則識別命名實體,這些規(guī)則描述了自由文本中使用的語法、句法、詞匯、形態(tài)以及書寫的特點長期形成的模式?;谝?guī)則的命名實體識別系統(tǒng)通常依賴于正則表達式組合和由領(lǐng)域?qū)<以O(shè)計的規(guī)則。因為對專家知識的依賴,這種命名實體識別系統(tǒng)缺乏可擴展性和適應(yīng)性。徐博等采用基于上下文模板的方法,從PubMed中構(gòu)建的豐富的藥物詞典,不僅可識別出Drugbank中已有藥名,甚至還能識別該庫中沒有的藥物[8]。Tikk D等使用基于規(guī)則的方法和條件隨機場方法進行了藥物提取[9]。
基于詞典的方法,依賴于現(xiàn)有的字典識別自由文本中的命名實體,通常是基于字符串匹配或字符串相似的算法。其性能取決于底層術(shù)語資源的全面性及算法性能。何林娜等人綜合運用基于詞典的方法和條件隨機場方法,利用PubMed信息構(gòu)建了藥物詞典,并利用特征耦合泛化等方法對詞典進行去噪,獲得了較好的F值[10]。
基于機器學(xué)習(xí)的方法,適用于不同的學(xué)習(xí)算法訓(xùn)練模式,但它需要人工注釋語料庫。機器學(xué)習(xí)模型的性能取決于文本特征的辨別力以及算法[11]。條件隨機場(CRF)是最常用的技術(shù),其識別生物醫(yī)學(xué)實體效果較好[12]。
2.2.4.2 藥物及其副作用關(guān)系抽取方法
從自由文本中識別出藥物實體和疾病實體之后,提取藥物及其副作用的基本方法可以分為基于規(guī)則、基于統(tǒng)計學(xué)和基于機器學(xué)習(xí)的方法。
基于規(guī)則/模式的方法通常是利用生物學(xué)實體的一般知識并結(jié)合語言結(jié)構(gòu)尋找文本中明確陳述的關(guān)系,如“A effect B”等。更為復(fù)雜的方法是結(jié)合語義知識和詞性分類來解釋,還涉及到停止詞去除、否定詞探測、詞義消歧、時間推理等利用人工輔助規(guī)則。Rong Xu等利用Stanford Parser生成語法樹,從中提取出語法模式,并利用該模式識別出更多包含藥物副作用的句子[13]。
基于機器學(xué)習(xí)的方法,借鑒了詞性分類、語法切分、術(shù)語頻次等方法及語法的上下文知識,通常效果較好,其局限性依然是需要大量的人工注釋。機器學(xué)習(xí)常用算法有支持向量機(SVM)、貝葉斯模型、隱馬爾科夫模型(HMM)、條件隨機場(CRFs)和最大熵[12],實際應(yīng)用中也常與標(biāo)準(zhǔn)化最小二乘法分類、特征向量提取、logistic回歸、十迭交叉驗證等算法結(jié)合以獲得更好的效果。Yang等[14]比較了不同的機器學(xué)習(xí)算法,綜合運用樸素貝葉斯、決策樹和支持向量機方法,從致編者的信中提取不良藥物反應(yīng)。Christian M Rochefort等[15]運用logistic回歸和AUC曲線等方法實現(xiàn)了醫(yī)院流行的3種不良事件的自動檢測。
基于統(tǒng)計學(xué)的方法,可以是基于共同出現(xiàn)的頻次,即通過共現(xiàn)頻次排序消除薄弱關(guān)聯(lián);也可結(jié)合列聯(lián)表和相似性系數(shù),通過ROC曲線確定閾值進行評價;還可以進行聚類分析和網(wǎng)絡(luò)分析。在自發(fā)報告系統(tǒng)中探測藥物不良反應(yīng),主要是利用失衡分析方法(Disproportionality Analysis,DPA)。通過某藥物與其可疑的不良反應(yīng)之間的共現(xiàn)次數(shù)來預(yù)測二者的關(guān)聯(lián)[16]。
2.2.5 結(jié)果評價和反饋
為了更好地評價藥物副作用提取系統(tǒng)或者提取結(jié)果的優(yōu)劣,需要確定指標(biāo)對結(jié)果進行評價。首先,需找到可作為評價金標(biāo)準(zhǔn)的數(shù)據(jù)集,即經(jīng)評判、公認(rèn)的正確提取的藥物—副作用關(guān)系對的集合。目前研究者通常從國際性相關(guān)比賽公布的訓(xùn)練集或語料庫中尋找。如EU-ADR (Exploring and Understanding Adverse Drug Reactions)、 Biocreative Challenge,i2b2 NLP Challenge,ADE-EXT Corpus等比賽發(fā)布了一些利用計算機技術(shù)結(jié)合文本挖掘技術(shù)從各種數(shù)據(jù)源(病歷、文獻等)中自動提取藥物副作用的任務(wù),并提供了手工標(biāo)注的金標(biāo)準(zhǔn)和相對公平的評價標(biāo)準(zhǔn),供科研人員使用。
常用的評價指標(biāo)主要有F值,受試者特征曲線ROC(Receiver Operating Characteristic,ROC)和曲線下面積(Area Under Curve,AUC)。
F值是通過準(zhǔn)確率(Precision)和召回率(Recall)來綜合評價提取結(jié)果,其計算公式為:F=2×Precision×Recall/(Precision+Recall)。其中,準(zhǔn)確率是指提取出來的正確的(真實的)藥物-副作用對占提取出來的所有的藥物—副作用對的百分比,召回率(又稱查全率)是指提取出來的正確的(真實的)藥物—副作用對占所有的應(yīng)提取出來的藥物—副作用對的百分比。F值越高(越接近于1)表示效果越好,目前運用較廣。
ROC和AUC是考量評價分類器的指標(biāo)。在ROC 空間中,橫坐標(biāo)對應(yīng)于FPR(假陽性率,即負(fù)類被錯誤判斷為正類的百分比),縱坐標(biāo)是TPR(真陽性率,即正類被正確地判斷為正類的百分比)。對于二分類問題,通過設(shè)定一個閾值,將實例分類到正類或者負(fù)類(如大于閾值劃分為正類)。那么變化閾值并根據(jù)不同的閾值進行分類,根據(jù)分類結(jié)果可計算得到ROC空間中相應(yīng)的點,連接這些點就形成ROC曲線。ROC 曲線經(jīng)過(0,0)和(1,1),(0,0)和(1,1)連線形成的ROC 可看作一個隨機分類器。一般情況下,這個曲線都應(yīng)該處于(0, 0)和(1, 1)連線的上方。ROC 可直觀表示分類器的表現(xiàn),而AUC可量化標(biāo)志分類器的好壞。通常,AUC的值介于0.5-1.0之間,AUC值越大越好。
經(jīng)評價后的結(jié)果可用于反饋、調(diào)整藥物副作用提取方法,直到達到較滿意的效果為止。
目前,網(wǎng)絡(luò)上有很多可用的命名實體識別工具[6],為研究者提供了便利,但功能均不完善,或者只針對某種數(shù)據(jù)類型,使用時需結(jié)合計算機及數(shù)據(jù)庫知識進行拓展(表2)。
表2 現(xiàn)有命名實體識別相關(guān)工具
除了表2中的命名實體識別相關(guān)工具,還有整合工具Pubtator,它是一個基于Web的生物醫(yī)學(xué)實體關(guān)系的提取系統(tǒng),不僅可從生物醫(yī)學(xué)文獻數(shù)據(jù)庫(MEDLINE)中提取生物實體(主要是基因、疾病、化學(xué)物質(zhì)),還能將他們之間的關(guān)系提取出來。該系統(tǒng)與PubMed連接,可以直接在該網(wǎng)站檢索,每天實時更新標(biāo)注記錄。當(dāng)然,該系統(tǒng)目前的控測僅限于PubMed摘要部分,未來期待通過更精準(zhǔn)的文本挖掘算法,實現(xiàn)對全文內(nèi)實體的定位與關(guān)系的探測[17]。
綜上所述,利用文本挖掘技術(shù)發(fā)現(xiàn)藥物及其副作用研究還有一些問題亟待解決,未來仍有較大發(fā)展空間。首先,該領(lǐng)域需要大量研究數(shù)據(jù),包括研究數(shù)據(jù)的選擇、詞典的選擇和訓(xùn)練集測試集的選擇等。選擇數(shù)據(jù)源時考慮到數(shù)據(jù)結(jié)構(gòu)的異質(zhì)性和數(shù)據(jù)的質(zhì)量、可靠度、完整性和可獲得性,研究人員應(yīng)結(jié)合課題和實際情況收集盡量完善、真實、結(jié)構(gòu)化的數(shù)據(jù),為數(shù)據(jù)的清洗和處理做準(zhǔn)備。其次,文本挖掘算法、偏倚和混雜因素都有可能影響算法的性能和提取效果,而計算機相關(guān)研究人員可能更注重于算法的改良,文本挖掘研究人員似乎更青睞于研究方法的創(chuàng)新,二者融合是該研究發(fā)展的必然趨勢。只有融會貫通才能提供更準(zhǔn)確、更有借鑒意義的藥物預(yù)警信息。再次,現(xiàn)階段研究人員定制的方法和算法多半是針對某一特定數(shù)據(jù)源、數(shù)據(jù)庫和語料庫的,研究算法和方法的通用性和可移植性不高,這是未來發(fā)展應(yīng)當(dāng)關(guān)注并解決的問題。最后,通過文本挖掘方法檢測到的藥物不良反應(yīng)信號可作為警告信息,其確認(rèn)仍然應(yīng)該通過適當(dāng)?shù)呐R床試驗評估獲得支持。