于彤 賈李蓉 劉靜 楊碩 董燕 朱玲
摘要:中醫(yī)藥學(xué)語言系統(tǒng)(TCMLS)是由中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所聯(lián)合全國(guó)13家中醫(yī)藥科研單位和高等院校于2002年開始研制的大型術(shù)語系統(tǒng)。它是在統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(UMLS)的基礎(chǔ)上,根據(jù)中醫(yī)藥領(lǐng)域的語言特點(diǎn)及學(xué)科體系特色,采用本體(ontology)的設(shè)計(jì)理念和方法研制而成。經(jīng)過10余年的發(fā)展,TCMLS的技術(shù)體系日趨成熟,相關(guān)研究也越來越深入和系統(tǒng)化。通過回顧TCMLS的發(fā)展歷程,對(duì)相關(guān)研究文獻(xiàn)進(jìn)行綜述,分析存在的問題和未來的發(fā)展方向。
關(guān)鍵詞:中醫(yī)藥;語言系統(tǒng);中醫(yī)藥學(xué)語言系統(tǒng);本體
中醫(yī)藥學(xué)經(jīng)過幾千年的發(fā)展,在臨床實(shí)踐和醫(yī)學(xué)研究過程中產(chǎn)生了大量的概念和術(shù)語。朝代更迭、語言變遷、地域差異、學(xué)科融合等多種因素的綜合影響,使中醫(yī)藥學(xué)術(shù)語體系變得極為復(fù)雜。針對(duì)中醫(yī)藥文本中大量存在的同物異名、同名異物等現(xiàn)象,中醫(yī)藥工作者往往無法做出正確判斷。通過建立一個(gè)完整、準(zhǔn)確的語言系統(tǒng),能夠有效處理詞義模糊、一詞多義、一義多詞等復(fù)雜的語言現(xiàn)象,可以解決長(zhǎng)期困擾中醫(yī)藥信息化領(lǐng)域的術(shù)語使用不規(guī)范、術(shù)語組織不系統(tǒng)、信息檢索效能低下等問題。為此,中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所(以下簡(jiǎn)稱“信息所”)聯(lián)合全國(guó)13家中醫(yī)藥科研單位和高等院校,從2002年開始研制中醫(yī)藥學(xué)語言系統(tǒng)(traditional Chinese medicine languagesystem,TCMLS)。本文回顧了TCMLS的發(fā)展歷程,對(duì)相關(guān)研究文獻(xiàn)進(jìn)行綜述,分析存在的問題和發(fā)展方向,為中醫(yī)藥學(xué)語言系統(tǒng)的研究、編制和使用人員提供參考。
1概述
TCMLS原名為中醫(yī)藥一體化語言系統(tǒng)。它是參照統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(LMLS),根據(jù)中醫(yī)藥領(lǐng)域的語言特點(diǎn)及學(xué)科體系特色,采用本體(ontology)的設(shè)計(jì)理念和方法研制而成的大型術(shù)語系統(tǒng)。其目的在于利用現(xiàn)代信息技術(shù),逐步建立規(guī)范化的中醫(yī)藥術(shù)語體系,從而支持中醫(yī)藥信息資源的合理組織和有效檢索。
TCMLS主要包括語義網(wǎng)絡(luò)(semanticnetwork)和基礎(chǔ)詞庫(kù)兩大部分。其中,語義網(wǎng)絡(luò)定義了中醫(yī)藥領(lǐng)域最基本的語義類型(semantictype)和語義關(guān)系(semantic relation),構(gòu)成TCMLS的頂層框架?;A(chǔ)詞庫(kù)則以概念為單位對(duì)中醫(yī)藥術(shù)語進(jìn)行系統(tǒng)梳理和準(zhǔn)確詮釋,建立科學(xué)合理的概念分類體系以及概念之間的語義關(guān)系。經(jīng)過10余年的研發(fā),TCMLS的技術(shù)體系日趨完善,建立了成熟的術(shù)語采集系統(tǒng);組建了由300多名專家組成的術(shù)語加工團(tuán)隊(duì);收錄了約12萬個(gè)概念、30萬個(gè)術(shù)語和127萬條語義關(guān)系,涵蓋了中醫(yī)藥學(xué)科體系及與之相關(guān)的生物、化工、哲學(xué)等學(xué)科的專業(yè)術(shù)語,在文獻(xiàn)檢索、文本挖掘、術(shù)語集成等方面得到了實(shí)際應(yīng)用。
2中醫(yī)藥學(xué)語言系統(tǒng)發(fā)展歷程
從20世紀(jì)90年代開始,本體技術(shù)在醫(yī)學(xué)領(lǐng)域得到廣泛應(yīng)用,在知識(shí)獲取、知識(shí)管理和信息檢索等方面發(fā)揮了積極的作用。UMLS是其中的一個(gè)代表性本體,它集合了來自100多個(gè)詞表中的100多萬個(gè)概念,用于提高計(jì)算機(jī)“理解”醫(yī)學(xué)信息的能力,促進(jìn)醫(yī)學(xué)信息系統(tǒng)之間的互操作。注意到UMLS在醫(yī)學(xué)領(lǐng)域取得的成功,中醫(yī)藥工作者開始考慮將本體技術(shù)引入中醫(yī)藥領(lǐng)域,以中醫(yī)藥學(xué)科為主導(dǎo)且遵循中醫(yī)藥發(fā)展思路,研發(fā)基于本體的大型術(shù)語系統(tǒng)。2002年,信息所聯(lián)合全國(guó)13家單位正式啟動(dòng)了TCMLS的建設(shè)工作。TCMLS從建立之初到目前為止,大體經(jīng)歷了3個(gè)階段。
2.1建設(shè)初始階段(2002—2005年)
在建設(shè)初期,尹愛寧等提出了建立TCMLS的方法學(xué),制定了TCMLS的技術(shù)標(biāo)準(zhǔn)。Zhou XZ等則從信息技術(shù)角度提出了TCMLS的技術(shù)方案。這些研究為TCMLS的建設(shè)給出了科學(xué)合理的頂層設(shè)計(jì)和路線圖,為其長(zhǎng)期健康發(fā)展奠定了基礎(chǔ)。在此階段,各單位加工人員采用單機(jī)版的Protege軟件分別加工各自的部分,再由信息所統(tǒng)一匯總。這一加工模式促成了多單位數(shù)百人協(xié)同共建,但所加工的數(shù)據(jù)難免有所重復(fù)和矛盾。
2.2迅速成長(zhǎng)階段(2005—2009年)
從2005年開始,基于萬維網(wǎng)(Web)的加工平臺(tái)成功部署并投入使用。各單位加工人員得以在統(tǒng)一的網(wǎng)絡(luò)平臺(tái)上協(xié)同共建,免去了數(shù)據(jù)匯總的環(huán)節(jié)。基于網(wǎng)絡(luò)的協(xié)作方式顯著提升了加工效率,使TCMLS的規(guī)模得以迅速增長(zhǎng)。但加工人員的主觀性和專業(yè)水平差異等因素造成TCMLS的數(shù)據(jù)存在很多質(zhì)量問題,因此數(shù)據(jù)質(zhì)量保證和數(shù)據(jù)清洗技術(shù)成為研究重點(diǎn)之一。在系統(tǒng)建設(shè)的同時(shí),學(xué)者們也針對(duì)系統(tǒng)設(shè)計(jì)和架構(gòu)等問題進(jìn)行了反復(fù)研討,提出了一系列調(diào)整和改進(jìn)方案。
2.3穩(wěn)定發(fā)展階段(2009—2014年)
經(jīng)過上一階段的大規(guī)模數(shù)據(jù)加工,TCMLS已收集了現(xiàn)代中醫(yī)藥文獻(xiàn)中出現(xiàn)的大部分概念和術(shù)語,其數(shù)據(jù)增量開始逐年放緩。在2009年,信息所與維思比科技(北京)有限公司合作,在成熟的商業(yè)軟件的基礎(chǔ)上,搭建了更為穩(wěn)定的網(wǎng)絡(luò)加工平臺(tái)。在完成平臺(tái)改造和數(shù)據(jù)清洗等工作之后,TCMLS系統(tǒng)的數(shù)據(jù)質(zhì)量得以顯著提升。隨著TCMLS的發(fā)展成熟,其在文獻(xiàn)檢索、文本挖掘、術(shù)語集成等諸多方面的應(yīng)用研究漸趨活躍。TCMLS的設(shè)計(jì)理念和成功經(jīng)驗(yàn),也在中醫(yī)古籍語言系統(tǒng)、傳統(tǒng)針灸知識(shí)體系語義網(wǎng)絡(luò)等系統(tǒng)的建設(shè)中得以推廣。
3中醫(yī)藥學(xué)語言系統(tǒng)相關(guān)研究
中醫(yī)藥術(shù)語系統(tǒng)具有鮮明的語言、文化和學(xué)科特色,沒有現(xiàn)成的解決方案可以照搬。在TCMLS的建設(shè)中,從中醫(yī)藥特點(diǎn)和需求出發(fā),開展了許多創(chuàng)新性的研究工作。下面從方法學(xué)研究、標(biāo)準(zhǔn)化研究、分析與評(píng)價(jià)研究以及應(yīng)用研究等方面,對(duì)相關(guān)文獻(xiàn)進(jìn)行綜合分析。
3.1方法學(xué)研究
學(xué)者們針對(duì)TCMLS的建設(shè),開展了系統(tǒng)性的方法學(xué)研究。尹愛寧等提出“復(fù)雜度約定與限定方法”“多學(xué)科交融與碰撞方法”以及“本體論與詮釋論關(guān)聯(lián)應(yīng)用方法”等3種方法,為TCMLS的設(shè)計(jì)和構(gòu)建提供了新思路和新方法。尹愛寧等還完成了TCMLS的頂層設(shè)計(jì),包括概念分類框架、語義類型以及語義關(guān)系等內(nèi)容。方青、曾召、謝琪也針對(duì)TCMLS的設(shè)計(jì)理念、設(shè)計(jì)原則、系統(tǒng)架構(gòu)和構(gòu)建方法開展了研究和討論。
學(xué)者們還針對(duì)TCMLS所涉及的信息科學(xué)方法與技術(shù)開展了研究。Zhou XZ等、方青提出了TCMLS的技術(shù)方案,包括系統(tǒng)架構(gòu)、數(shù)據(jù)存儲(chǔ)、概念編碼方式、編輯工具、查詢服務(wù)等內(nèi)容。湯萌芽研發(fā)了基于Web的TCMLS加工平臺(tái),支持多單位大量人員的協(xié)同加工。Mao YX等針對(duì)TCMLS的管理和維護(hù)開展研究,提出了基于子本體模型的本體演化方法,以支持大型本體的重用。崔蒙等研究如何通過自動(dòng)化方法逐步提升TCMLS的數(shù)據(jù)質(zhì)量,提出了基于語義網(wǎng)絡(luò)的數(shù)據(jù)清洗策略。
3.2標(biāo)準(zhǔn)化研究
為協(xié)調(diào)多機(jī)構(gòu)大量人員的編審工作,需要建立科學(xué)合理的技術(shù)標(biāo)準(zhǔn)。早在2003年,尹愛寧等就為TCMLS制定了包括收詞原則、收詞標(biāo)準(zhǔn)、一級(jí)類目、語義類型、語義關(guān)系在內(nèi)的技術(shù)標(biāo)準(zhǔn)。這項(xiàng)標(biāo)準(zhǔn)在系統(tǒng)建立過程中發(fā)揮了重要作用。但其適用范圍僅限于TCMLS,其他中醫(yī)藥本體均不完全符合這套標(biāo)準(zhǔn),由此造成本體系統(tǒng)之間的異構(gòu)性??梢?,為使一套技術(shù)規(guī)范具有廣泛的影響力和約束力,需要在權(quán)威的標(biāo)準(zhǔn)化組織的框架下開展工作。
鑒于此,信息所于2008年,代表我國(guó)向國(guó)際標(biāo)準(zhǔn)化組織(ISO)健康信息學(xué)技術(shù)委員會(huì)(TC 215)提出了技術(shù)規(guī)范“Health informatics Semanticnetwork
framework of traditional Chinesemedicine language system”的項(xiàng)目提案,致力于在ISO框架下推進(jìn)TCMLS語義網(wǎng)絡(luò)框架的國(guó)際標(biāo)準(zhǔn)化工作。該項(xiàng)目于2012年得到成功立項(xiàng),于2013年3月形成草案并進(jìn)入評(píng)審和投票環(huán)節(jié),并于2014正式發(fā)布。它在多術(shù)語系統(tǒng)融合、術(shù)語服務(wù)以及術(shù)語系統(tǒng)互操作等領(lǐng)域?qū)l(fā)揮基礎(chǔ)性作用。
3.3分析與評(píng)價(jià)研究
學(xué)者們針對(duì)TCMLS各方面進(jìn)行分析與評(píng)價(jià)研究,以期發(fā)現(xiàn)其中存在的問題,促進(jìn)TCMLS的發(fā)展與完善。例如,賈李蓉等對(duì)TCMLS中語義類型的使用情況進(jìn)行分析,找出不合理的語義類型并建議刪去。楊陽等、賈李蓉、曹莉等針對(duì)TCMLS語義關(guān)系進(jìn)行了深入的分析和探討。賈李蓉還建議對(duì)TCMLS語義關(guān)系進(jìn)行調(diào)整,如增加“開竅于……”“與……相表里”等中醫(yī)特有的語義關(guān)系。李莎莎指出TCMLS分類框架存在問題,提出了分類指導(dǎo)原則以及改進(jìn)的分類框架,使TCMLS詞庫(kù)分類更加合理。賈李蓉等從術(shù)語的收詞范圍、術(shù)語完整性等方面對(duì)基礎(chǔ)詞庫(kù)進(jìn)行了分析,提出了改進(jìn)意見。
2012年,賈李蓉等針對(duì)TCMLS開展了較為全面、系統(tǒng)的評(píng)價(jià)研究。結(jié)果表明,該系統(tǒng)學(xué)科分類非常合理,語義分類基本合理,系統(tǒng)完整性較好,但語義關(guān)聯(lián)的準(zhǔn)確性較差??梢?,TCMLS設(shè)計(jì)合理且具有相當(dāng)規(guī)模,適合開展應(yīng)用研究,其數(shù)據(jù)質(zhì)量問題可在實(shí)際使用中逐步完善。
另外,謝琪、曾召等先后對(duì)TCMLS與UMLS進(jìn)行比較分析。結(jié)果表明,TCMLS雖然借鑒了UMLS的設(shè)計(jì)方法,但其結(jié)構(gòu)和內(nèi)容均有鮮明的中醫(yī)藥特色,從而充分肯定了TCMLS的獨(dú)特性和創(chuàng)造性。
3.4應(yīng)用研究
TCMLS作為中醫(yī)藥學(xué)規(guī)模最大的本體,在中醫(yī)藥信息化的發(fā)展中發(fā)揮著重要的作用。如何利用如此大規(guī)模的術(shù)語資源成為現(xiàn)階段研究的重點(diǎn)問題。TCMLS在文獻(xiàn)檢索、文本語義關(guān)系發(fā)現(xiàn)、術(shù)語集成等方面已經(jīng)取得了實(shí)際應(yīng)用,初步驗(yàn)證了TCMLS的實(shí)用性。
3.4.1文獻(xiàn)檢索 TCMLS能解決中醫(yī)藥學(xué)中同一概念具有不同表達(dá)形式、同一種表達(dá)形式表達(dá)意思不同的問題,從而改進(jìn)文獻(xiàn)檢索的效果。賈李蓉等研發(fā)了基于TCMLS的中醫(yī)藥文獻(xiàn)檢索服務(wù)平臺(tái),它能提供術(shù)語檢索、文獻(xiàn)檢索及互聯(lián)網(wǎng)資源檢索等服務(wù)。該平臺(tái)利用TCMLS的術(shù)語信息實(shí)現(xiàn)了同義檢索、相關(guān)概念檢索等高級(jí)功能,提升了檢索結(jié)果的全面性和準(zhǔn)確性。
3.4.2文本語義關(guān)系發(fā)現(xiàn) 在中醫(yī)藥文獻(xiàn)中蘊(yùn)含著大量的關(guān)聯(lián)性知識(shí),體現(xiàn)為概念之間的關(guān)聯(lián)關(guān)系。若能實(shí)現(xiàn)從文獻(xiàn)中自動(dòng)抽取語義關(guān)系的技術(shù),則可大幅提升知識(shí)獲取的效率。陶金火等、張小剛、于彤等開展了基于TCMLS從文本中發(fā)現(xiàn)語義關(guān)系的一系列嘗試。挖掘出來的語義關(guān)系可與TCMLS的語義關(guān)系相結(jié)合,得到更為全面、準(zhǔn)確的語義關(guān)系,從而擴(kuò)充TCMLS的數(shù)據(jù)。
3.4.3術(shù)語集成 術(shù)語系統(tǒng)的應(yīng)用實(shí)踐表明,單個(gè)術(shù)語系統(tǒng)往往難以滿足科研或臨床應(yīng)用的需求,多術(shù)語系統(tǒng)的融合已成為實(shí)現(xiàn)術(shù)語系統(tǒng)實(shí)用化的先決條件之一。鑒于此,于彤等采用本體技術(shù)研發(fā)中醫(yī)藥術(shù)語集成系統(tǒng),將TCMLS、中醫(yī)古籍語言系統(tǒng)等多個(gè)術(shù)語系統(tǒng)集成在同一個(gè)平臺(tái)中,通過Web提供一站式的術(shù)語信息檢索與訪問服務(wù),支持語言學(xué)家對(duì)語義網(wǎng)絡(luò)進(jìn)行歸納、瀏覽和比較研究。
4中醫(yī)藥學(xué)語言系統(tǒng)發(fā)展方向
TCMLS已趨于成熟并取得成功應(yīng)用,但仍存在許多值得研究的問題。例如,隨著TCMLS系統(tǒng)規(guī)模的擴(kuò)大,如何對(duì)本體進(jìn)行有效管理?如何通過自動(dòng)化方法提升TCMLS的數(shù)據(jù)質(zhì)量,逐步實(shí)現(xiàn)數(shù)據(jù)規(guī)范化?TCMLS等中醫(yī)藥本體皆自成體系、互不兼容,如何實(shí)現(xiàn)各系統(tǒng)之間的關(guān)聯(lián)、協(xié)調(diào)與融合?現(xiàn)就TCMLS加工及應(yīng)用2個(gè)方面討論其研究思路及發(fā)展方向。
4.1大規(guī)模本體工程協(xié)作
TCMLS是由全國(guó)多家單位、數(shù)百名領(lǐng)域?qū)<液献骷庸さ拇笮捅倔w系統(tǒng),如何支持多機(jī)構(gòu)的大規(guī)模協(xié)作始終是一個(gè)重要的技術(shù)問題。TCMLS建設(shè)之初,使用Protege進(jìn)行加工。Protege是由斯坦福大學(xué)研制的一款本體編輯軟件,具有開源免費(fèi)、安裝方便、用戶界面友好等優(yōu)點(diǎn),因此得到了廣泛使用。但它是一款單機(jī)版的軟件,需要各單位人員分別加工,再將數(shù)據(jù)統(tǒng)一匯總,這一加工方式導(dǎo)致數(shù)據(jù)合并時(shí)出現(xiàn)大量重復(fù)和不匹配的問題。隨著系統(tǒng)規(guī)模逐漸擴(kuò)大,這個(gè)問題變得越來越嚴(yán)重。
2005年,浙江大學(xué)研發(fā)了基于Web的TCMLS加工工具,使各單位人員可以通過網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)同步加工,從而提升了加工效率和數(shù)據(jù)的一致性。此后,網(wǎng)絡(luò)化加工工具經(jīng)過多次升級(jí),與之配套的審校機(jī)制也不斷完善,形成了相對(duì)成熟的虛擬協(xié)作模式。
在未來的研究中,可將單機(jī)版Protege與Web平臺(tái)相結(jié)合,進(jìn)一步優(yōu)化大規(guī)模本體工程的協(xié)作模式。未來可實(shí)現(xiàn)TCMLS的模塊化,使用Protege開發(fā)獨(dú)立的本體模塊,使用Web平臺(tái)維護(hù)共享的本體框架。用戶可將個(gè)人開發(fā)的本體模塊導(dǎo)入Web平臺(tái)中,與共享本體相融合;也可從平臺(tái)中導(dǎo)出本體模塊,通過Protege進(jìn)行編輯、推理和查詢。簡(jiǎn)單知識(shí)組織系統(tǒng)(simple knowledge organizationsystem,SKOS)為本體在Web上的發(fā)布和交換提供了一項(xiàng)推薦標(biāo)準(zhǔn),能支持上述目標(biāo)的實(shí)現(xiàn)。將TCMLS轉(zhuǎn)換為SKOS本體,為在Web平臺(tái)上完成本體發(fā)布、導(dǎo)入導(dǎo)出、本體融合等任務(wù)奠定了基礎(chǔ)。
4.2推進(jìn)中醫(yī)藥學(xué)語言系統(tǒng)實(shí)際應(yīng)用
TCMLS在中醫(yī)藥信息化中具有巨大的應(yīng)用潛力。中醫(yī)藥領(lǐng)域已積累了大量的數(shù)據(jù)庫(kù)和海量文獻(xiàn),但僅提供簡(jiǎn)單的檢索功能。如何基于TCMLS整合中醫(yī)藥數(shù)字資源,建立一站式知識(shí)服務(wù)平臺(tái),面向中醫(yī)藥工作者和社會(huì)大眾提供完整、準(zhǔn)確、智能的知識(shí)服務(wù),是TCMLS應(yīng)用研究的核心問題。
近年來,谷歌知識(shí)圖譜(Google knowledgegraph)的巨大成功,使“知識(shí)圖譜”成為知識(shí)服務(wù)領(lǐng)域的新的研發(fā)熱點(diǎn)。TCMLS的大型語義網(wǎng)絡(luò)為構(gòu)建大型中醫(yī)藥知識(shí)圖譜奠定了基礎(chǔ)。在今后的研究中,可基于TCMLS將中醫(yī)藥領(lǐng)域主要的術(shù)語系統(tǒng)和數(shù)據(jù)庫(kù)集成在一起,形成以“語義網(wǎng)絡(luò)”為骨架的大型知識(shí)圖譜。知識(shí)圖譜是TCMLS的一種自然的擴(kuò)充,其知識(shí)內(nèi)容更加豐富,因此更具服務(wù)價(jià)值。
在知識(shí)圖譜的基礎(chǔ)上,可進(jìn)一步搭建語義維基系統(tǒng),面向網(wǎng)絡(luò)用戶提供百科全書式的知識(shí)服務(wù);并參考維基用戶的編輯結(jié)果和反饋意見,不斷完善和豐富TCMLS的內(nèi)容,進(jìn)而實(shí)現(xiàn)一站式的知識(shí)檢索服務(wù),為用戶提供異構(gòu)數(shù)據(jù)庫(kù)和文獻(xiàn)庫(kù)的統(tǒng)一檢索。在此基礎(chǔ)上,可逐步實(shí)現(xiàn)知識(shí)推薦、知識(shí)地圖、知識(shí)問答、決策支持、關(guān)系推理等高級(jí)服務(wù)。
5小結(jié)
TCMLS是基于本體技術(shù)研制的大型術(shù)語系統(tǒng),它對(duì)中醫(yī)藥領(lǐng)域的概念和術(shù)語進(jìn)行了系統(tǒng)梳理,為中醫(yī)藥術(shù)語規(guī)范化提供了基礎(chǔ)性工具。目前,TCMLS已初具規(guī)模,其應(yīng)用推廣工作也在穩(wěn)步進(jìn)行之中。TCMLS的建立是一項(xiàng)創(chuàng)新性工作,對(duì)于中醫(yī)藥術(shù)語標(biāo)準(zhǔn)化以及信息數(shù)字化的實(shí)現(xiàn)具有重大意義。TCMLS的成功表明,本體能很好地處理中醫(yī)藥領(lǐng)域中各種復(fù)雜的語言現(xiàn)象,是構(gòu)建中醫(yī)藥術(shù)語系統(tǒng)的有效手段。在國(guó)內(nèi)外尚缺乏構(gòu)建本體的成熟流程、方法和技術(shù)規(guī)范的情況下,TCMLS也為本體工程方法學(xué)的發(fā)展與完善做出了貢獻(xiàn)。