齊磊 齊瑩瑩 堯玉恒
關(guān)鍵詞:電子病歷;臨床表型;標(biāo)準(zhǔn)化;語料收集
中圖法分類號:TP391 文獻(xiàn)標(biāo)識(shí)碼:A
1引言
當(dāng)前,生物醫(yī)學(xué)領(lǐng)域的非結(jié)構(gòu)化文本形式提供的數(shù)據(jù)量呈爆炸式增長。有效識(shí)別生物醫(yī)學(xué)實(shí)體,是提取非結(jié)構(gòu)化文本中隱藏的生物醫(yī)學(xué)知識(shí),并將其轉(zhuǎn)化為結(jié)構(gòu)化格式的前提。因此,BioNER(生物命名實(shí)體識(shí)別)任務(wù)具有重要的研究價(jià)值。其中,基于人類表型本體(HPO)的表型識(shí)別非常重要。
1.1生物醫(yī)學(xué)命名實(shí)體識(shí)別
隨著以非結(jié)構(gòu)化文本形式提供的數(shù)據(jù)量呈爆炸式增長,截至2022年3月,PubMed中已經(jīng)收錄了3300多萬份生物醫(yī)學(xué)相關(guān)的文獻(xiàn)。其中包含生物醫(yī)學(xué)、健康和臨床科學(xué)方面的知識(shí),生物醫(yī)學(xué)方面的命名實(shí)體識(shí)別(BioNER)變得越來越重要[1]。由于目前沒有對這些科學(xué)方面的知識(shí)進(jìn)行自動(dòng)處理,因此大部分信息仍隱藏在文本的細(xì)節(jié)之中,無法進(jìn)一步使用或分析。因此,自然語言處理(NLP)和文本挖掘方法被用于從此類出版物中提取信息。而命名實(shí)體識(shí)別(NER,也稱為實(shí)體識(shí)別或?qū)嶓w提取)是信息提?。ㄎ谋痉治觯┑淖尤蝿?wù),旨在發(fā)現(xiàn)和分類文本中的特定實(shí)體?!懊麑?shí)體”一詞是1996年在第六屆消息理解會(huì)議(MUC)上創(chuàng)造的,當(dāng)時(shí)從非結(jié)構(gòu)化文本中提取信息成為一個(gè)重要問題。
在語言領(lǐng)域,命名實(shí)體識(shí)別涉及自動(dòng)掃描非結(jié)構(gòu)化文本以定位“實(shí)體”,用于術(shù)語規(guī)范化和分類,如人名、組織(包括公司、非營利組織等)、位置(包括城市、國家、河流等)或日期和時(shí)間;在生物醫(yī)學(xué)領(lǐng)域,實(shí)體分為基因/蛋白質(zhì)、藥物、代謝物、疾病、組織、器官、毒素、食物等類別。因此,科研工作者如果不借助工具,需要人為查詢數(shù)百萬個(gè)非結(jié)構(gòu)化文本語料庫以查找目標(biāo)信息,故自動(dòng)化的BioNER無疑已成為研究中的非常重要的工具。有效識(shí)別生物醫(yī)學(xué)實(shí)體,是提取非結(jié)構(gòu)化文本中隱藏的生物醫(yī)學(xué)知識(shí),并將其轉(zhuǎn)化為結(jié)構(gòu)化格式的前提。因此,BioNER任務(wù)具有重要的研究價(jià)值。
1.2人類表型本體(HPO)
在遺傳學(xué)中,表型是生物體可觀察到的特征或特征的集合。生物體的表型源于兩個(gè)基本因素,即基因型以及環(huán)境因素的影響。這兩個(gè)因素都會(huì)互相影響,從而會(huì)進(jìn)一步影響表型。而“臨床表型”是醫(yī)生在診斷中或者病人在檢查中所描述的相關(guān)癥狀及狀態(tài)說明。所述測量或臨床觀察能夠與臨床條件或者疾病的狀況相關(guān)聯(lián)。
為了對臨床表型進(jìn)行更規(guī)范化的整理,2008年國際生物醫(yī)藥組織OBO聯(lián)盟成員德國柏林夏洛特(Charité)醫(yī)學(xué)院聯(lián)合Monarch Initiative啟動(dòng)了第一個(gè)人類表型術(shù)語本體數(shù)據(jù)庫HPO(Human? Phenotype Ontology)項(xiàng)目[2]。利用該在線數(shù)據(jù)庫,可便捷瀏覽、查詢生物醫(yī)療領(lǐng)域的專業(yè)術(shù)語,聚集疾病、表型、模型生物、基因等大量結(jié)構(gòu)化的語義數(shù)據(jù)。人類表型本體論(HPO)提供了在人類疾病中遇到的表型異常的標(biāo)準(zhǔn)化詞匯表。每個(gè)術(shù)語在HPO描述了一種表型異常,如房間隔缺損等。目前,HPO包含超過13000個(gè)術(shù)語和超過156000個(gè)遺傳疾病注釋。迄今為止,HPO已被國際20余家頂級科研機(jī)構(gòu)廣泛應(yīng)用于人類遺傳學(xué)的臨床診斷研究。以上人類表型數(shù)據(jù)庫都是英文數(shù)據(jù)庫。目前,國內(nèi)還缺乏針對臨床表型統(tǒng)一的結(jié)構(gòu)化和規(guī)范化的數(shù)據(jù)庫標(biāo)準(zhǔn)。2015年年底,由國內(nèi)臨床、遺傳咨詢、分子生物學(xué)領(lǐng)域知名人士自愿組織、共同發(fā)起成立了中文人類表型標(biāo)準(zhǔn)用語聯(lián)盟(CHPO,The Chinese Human? Phenotype Ontology Consortium),他們對國外已有的HPO詞條進(jìn)行翻譯優(yōu)化,從而形成了中國的HPO數(shù)據(jù)庫,給中國的電子病歷臨床術(shù)語標(biāo)準(zhǔn)化提供了條件。
2中英文臨床表型的在線Web預(yù)測系統(tǒng)
目前,中英文領(lǐng)域都開發(fā)出了針對生物醫(yī)學(xué)文獻(xiàn)和電子病歷來對其中的臨床表型術(shù)語進(jìn)行標(biāo)準(zhǔn)化的方法。但是這些方法大多基于源代碼,不便于用戶使用。我們希望把該算法的中英文版本向臨床醫(yī)生或者科研工作者進(jìn)行推廣應(yīng)用,從而幫助推進(jìn)中英文臨床表型相關(guān)研究的發(fā)展。
中英文臨床表型的在線Web預(yù)測系統(tǒng)基于Django的框架,通過Python腳本控制電子病歷或者相關(guān)生物醫(yī)學(xué)文本的網(wǎng)頁端獲取、服務(wù)器后臺(tái)的HPO標(biāo)準(zhǔn)化預(yù)測、數(shù)據(jù)庫查詢以及預(yù)測結(jié)果報(bào)告的返回和頁面展示等功能?,F(xiàn)從服務(wù)器界面和實(shí)現(xiàn)功能兩個(gè)方面介紹中英文臨床表型的在線Web預(yù)測系統(tǒng)。
2.1在線Web預(yù)測系統(tǒng)界面
在線Web預(yù)測系統(tǒng)的主界面的導(dǎo)航欄中包含Home,TeamtoIntroduce,Download,PatientManage?ment,Server,Contact,Help等條目,這些條目可以跳轉(zhuǎn)到新的標(biāo)簽頁或者跳轉(zhuǎn)到頁面的相應(yīng)位置。Home欄目主要介紹了標(biāo)準(zhǔn)化系統(tǒng)任務(wù)的摘要,對整個(gè)任務(wù)進(jìn)行了總結(jié)和概括;Download欄目儲(chǔ)存了在線Web預(yù)測系統(tǒng)所有程序的源代碼、數(shù)據(jù)集、訓(xùn)練好模型的二進(jìn)制文件以及說明文檔等;Patient Management欄目可以對預(yù)測病歷的歷史結(jié)果進(jìn)行展示和調(diào)取;Help欄目可以對在線Web預(yù)測系統(tǒng)的使用進(jìn)行圖文結(jié)合的介紹和說明;Server欄目則是在線Web預(yù)測系統(tǒng)的核心部分,即預(yù)測輸入信息入口。
2.2在線Web預(yù)測系統(tǒng)實(shí)現(xiàn)的功能
在線Web預(yù)測系統(tǒng)實(shí)現(xiàn)的主要功能包括三塊,即在線預(yù)測功能、報(bào)告展示功能以及HPO樹狀結(jié)構(gòu)圖展示功能。
在線預(yù)測功能就是Server欄目的預(yù)測輸入信息的入口,需要輸入用戶的姓名以及身份證號碼用于驗(yàn)證用戶的真實(shí)性,防止惡意爬蟲的爬取和攻擊,保證服務(wù)器資源的合理利用以及服務(wù)器的安全性。接下來,用戶可以手動(dòng)輸入電子病歷或者生物醫(yī)學(xué)文獻(xiàn)的文本,或者選擇上傳以電子病歷或者生物醫(yī)學(xué)文獻(xiàn)文本為主要內(nèi)容的txt文檔。在線Web預(yù)測系統(tǒng)會(huì)自動(dòng)判別輸入的文本語言是中文還是英文,據(jù)此選擇相應(yīng)的模型進(jìn)行預(yù)測,減少了用戶進(jìn)行選擇的參數(shù)。以上步驟完成之后,就可以點(diǎn)擊提交,后臺(tái)程序會(huì)自動(dòng)識(shí)別輸入的語言來選擇模型,并調(diào)用相關(guān)程序進(jìn)行HPO標(biāo)準(zhǔn)化,之后在線Web預(yù)測系統(tǒng)會(huì)展示出完整的預(yù)測報(bào)告。
報(bào)告展示功能主要對輸入的電子病歷或生物醫(yī)學(xué)文獻(xiàn)文本和標(biāo)準(zhǔn)化輸出的結(jié)果進(jìn)行規(guī)范化展示。其中,第一欄是輸入的電子病歷或生物醫(yī)學(xué)文獻(xiàn)原始文本;第二欄是預(yù)測的結(jié)果展示,結(jié)果主要以表格的形式從6個(gè)方面進(jìn)行展示,包括預(yù)測短語文本在原始文本中的開始位置、結(jié)束位置以及預(yù)測短語文本、標(biāo)準(zhǔn)化HPO、標(biāo)準(zhǔn)化HPO的名稱和預(yù)測的概率值(該值越大表明預(yù)測的結(jié)果越可信)。預(yù)測結(jié)果展示預(yù)測短語文本在原始文本中的開始位置和結(jié)束位置,可以方便用戶在原文中找到相應(yīng)的位置,可以結(jié)合上下文語境來判斷預(yù)測短語是否分割得準(zhǔn)確。預(yù)測的結(jié)果同時(shí)展示了預(yù)測短語文本和對應(yīng)標(biāo)準(zhǔn)化HPO的名稱,可以讓用戶對預(yù)測的結(jié)果進(jìn)行再次判斷,從而判斷預(yù)測結(jié)果是否可靠;第三欄是預(yù)測概率值,能夠以數(shù)據(jù)的形式向用戶直觀展示預(yù)測的可信度,供用戶參考。
HPO樹狀結(jié)構(gòu)圖展示功能主要用于可視化HPO的樹狀層級結(jié)構(gòu),使用了JavaScript語言進(jìn)行編寫,能夠?qū)崿F(xiàn)網(wǎng)頁與用戶進(jìn)行交互的操作,可以通過點(diǎn)擊模型預(yù)測出的HPO字段來展示該HPO對應(yīng)的祖先節(jié)點(diǎn)的樹狀結(jié)構(gòu)和孩子節(jié)點(diǎn)的樹狀結(jié)構(gòu)。當(dāng)懸浮在樹狀結(jié)構(gòu)的HPO上時(shí),會(huì)以彈窗形式展示HPO的編號和對應(yīng)名稱等詳細(xì)信息,幫助用戶篩選預(yù)測HPO的祖先節(jié)點(diǎn)或孩子節(jié)點(diǎn)是否有著更恰當(dāng)?shù)腍PO標(biāo)準(zhǔn)化術(shù)語。
3基于用戶反饋的臨床表型語料收集的Web交互系統(tǒng)
雖然已有模型在臨床術(shù)語標(biāo)準(zhǔn)化任務(wù)方面取得了不錯(cuò)的效果,但是若要讓模型不斷優(yōu)化和進(jìn)步,仍然需要付出更多的努力。為了模型訓(xùn)練,要標(biāo)注大量的語料,通過對比研究發(fā)現(xiàn),訓(xùn)練語料的多少對模型有著非常重要的影響。而我們知道,語料標(biāo)注的代價(jià)是巨大的,并且臨床表型術(shù)語相關(guān)的語料又很匱乏,英文僅包含HPO,GSC+和68?ID語料庫,中文更是沒有相關(guān)的HPO注釋的語料。因此,如何減少標(biāo)注的成本,一直是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)者需要面對的一大難題。由于序列數(shù)據(jù)的復(fù)雜性較高,標(biāo)注的工作更加困難,針對以上問題暫時(shí)沒有更好的解決方法。針對標(biāo)注語料不足的問題,近年來學(xué)者們提出了不少方法,如利用自訓(xùn)練算法構(gòu)建訓(xùn)練語料。為此,我們開發(fā)了基于用戶反饋的臨床表型語料收集的Web交互系統(tǒng),目的在于克服現(xiàn)有技術(shù)的不足。我們開發(fā)了一種基于用戶反饋的訓(xùn)練語料收集方法,代價(jià)比較小,卻能達(dá)到更好的效果。
基于用戶反饋的臨床表型語料收集的Web交互系統(tǒng)主要包括三個(gè)部分,即標(biāo)準(zhǔn)化模塊、用戶反饋結(jié)果、語料庫重新訓(xùn)練(圖1)。主要流程如下:首先用戶通過Server欄目的預(yù)測板塊輸入需要預(yù)測的文本,這些文本通過txt的形式保存到服務(wù)器,接下來服務(wù)器把該txt文件作為標(biāo)準(zhǔn)化模型的輸入經(jīng)過模型預(yù)測后返回給用戶預(yù)測的結(jié)果。當(dāng)用戶接收到信息之后,會(huì)根據(jù)信息結(jié)果的不同進(jìn)行判斷,并且產(chǎn)生不同的操作,即如果返回結(jié)果正確,用戶會(huì)通過點(diǎn)擊勾選預(yù)測結(jié)果前面的方框來進(jìn)行選擇;反之,如果判斷返回的預(yù)測結(jié)果錯(cuò)誤或者不符合預(yù)期,用戶則不會(huì)點(diǎn)擊勾選預(yù)測結(jié)果前面的方框。通過JavaScript實(shí)現(xiàn)的與用戶交互的功能,能夠使得用戶把預(yù)測正確的結(jié)果保存到服務(wù)器的數(shù)據(jù)庫上。保存到數(shù)據(jù)庫的信息主要包括用戶的ID、用戶輸入的文本、預(yù)測的時(shí)間以及相應(yīng)的語料標(biāo)注結(jié)果。
通過基于用戶反饋的臨床表型語料收集的Web交互系統(tǒng),我們可以將標(biāo)準(zhǔn)化模塊和用戶以及語料庫形成完整的、不斷增加訓(xùn)練語料庫提升模型效果的閉環(huán)系統(tǒng),即標(biāo)準(zhǔn)化模塊進(jìn)行標(biāo)準(zhǔn)化結(jié)果的預(yù)測反饋給用戶,用戶基于JavaScript交互反饋給服務(wù)器形成更大的語料庫,而該擴(kuò)充的語料庫又可以進(jìn)一步進(jìn)行訓(xùn)練,從而提升模型的魯棒性及效果。通過不斷循環(huán),該閉環(huán)系統(tǒng)更能夠最大限度地發(fā)揮出標(biāo)準(zhǔn)化模型的性能,并且為其他相關(guān)研究者提供更多的HPO標(biāo)注語料,從而促進(jìn)相關(guān)領(lǐng)域的發(fā)展。
4結(jié)語
本文開發(fā)了中英文電子病歷臨床表型標(biāo)準(zhǔn)化Web系統(tǒng),并且建立了基于用戶反饋的語料收集系統(tǒng)。通過基于用戶反饋的臨床表型語料收集的Web交互系統(tǒng),我們可以將標(biāo)準(zhǔn)化模型和用戶以及語料庫形成完整的、不斷增加訓(xùn)練語料庫,從而建立具有模型效果的閉環(huán)系統(tǒng)。通過不斷循環(huán),該閉環(huán)系統(tǒng)能夠最大限度地發(fā)揮出標(biāo)準(zhǔn)化模型的性能,并且為其他相關(guān)研究者提供更多的HPO標(biāo)注語料,減少了數(shù)據(jù)集不足的問題,以促進(jìn)領(lǐng)域的發(fā)展。
作者簡介:
齊磊(1997—),碩士,研究方向:自然語言處理。
齊瑩瑩(1991—),本科,護(hù)師,研究方向:護(hù)理學(xué)。
堯玉恒(1983—),碩士,工程師,研究方向:教育信息化與云計(jì)算。