梁昊,吳佳澤,段倫慧,彭清華,胡志希,6,周小青
1.湖南中醫(yī)藥大學中醫(yī)學院,長沙 410208
2.湖南中醫(yī)藥大學中西醫(yī)結合學院,長沙 410208
3.中國中醫(yī)藥信息學會中醫(yī)診斷信息分會,北京 100700
4.世界中醫(yī)藥學會聯合會中醫(yī)診斷學專業(yè)委員會,北京 100020
5.國際數字醫(yī)學會數字中醫(yī)藥分會,長沙 410208
6.中國中西醫(yī)結合學會標準化技術專業(yè)委員會,北京 100700
7.世界中醫(yī)藥學會聯合會翻譯專業(yè)委員會,北京 100020
為了促進中醫(yī)藥及民族醫(yī)藥的國際化,方便在學術科研、教育教學及經濟貿易等領域的溝通交流,中國官方及中醫(yī)藥國際組織一直致力于中醫(yī)藥標準化和規(guī)范化。術語規(guī)范,尤其是中醫(yī)藥英語術語規(guī)范,是中醫(yī)藥標準化進程中最基礎、最亟待解決的問題[1]。得益于謝竹藩、帥學忠、李照國等前輩們的不懈努力,多部術語標準先后出版并廣泛傳播。人民衛(wèi)生出版社(PMPH)制定的《中醫(yī)英語術語(內部草案)》、世界衛(wèi)生組織(WHO)制定的《WHO International Standard Terminologies on Traditional Medicine in the Western Pacific Region》和世界中醫(yī)藥學會聯合會(WFCMS)制定的《International Standard Chinese-English Basic Nomenclature of Chinese Medicine》是當前知曉度和應用率最高的3 個術語標準[2-3]。然而,近幾年在閱讀文獻和教學中發(fā)現,學生、中醫(yī)從業(yè)者、科研工作者對中醫(yī)術語標準的知曉度和使用頻率不高[4]。中英文的中醫(yī)/中西醫(yī)結合類學術期刊投稿指南鮮有要求投稿時注意術語規(guī)范或推薦使用已經發(fā)布的術語標準。中醫(yī)學作為一個偏傳統的學科,尚缺乏標準化和規(guī)范化意識,在術語使用上較為隨意。究其原因,當前這些術語大部分為紙質版或電子書形式,不利于查找[5];另外,3 個標準也有差異,雖各有千秋,但也有一些局限性和片面性[6]。因此,我們基于以上術語標準建設中醫(yī)藥術語中英對照數據集,合并詞義相同的術語,研究術語差異和建立術語查詢系統,為建立更權威、合理、全面的中醫(yī)藥術語數據庫打下基礎。
所有數據來源于人民衛(wèi)生出版社(PMPH)制定的《中醫(yī)英語術語(內部草案)》、世界衛(wèi)生組織(WHO)制定的《WHO International Standard Terminologies on Traditional Medicine in the Western Pacific Region》[7]和世界中醫(yī)藥學會聯合會(WFCMS)制定的《International Standard Chinese-English Basic Nomenclature of Chinese Medicine》[8]。獲得所有中醫(yī)術語的字段,并進行合并。
原始數據為WHO、PMPH、WFCMS 3 個標準的書籍或電子文檔。把原始數據通過OCR 和PDF轉化工具整理成規(guī)范的數據表(dataframe)格式,命名為WHO.csv、PMPH.csv、WFCMS.csv。將每個數據表每條記錄均以術語的中文簡體名稱作為唯一字段方便進行數據合并,使用Python 的pandas包對數據進行合并和清洗。最終合并的數據表字段為:ID、中文簡體、中文繁體、拼音、WHO 英文術語、PMPH 英文術語、WFCMS 英文術語、術語的英文解釋(基于WHO 標準)、類別編碼、類別名稱。共整理數據16 189 條,其中WHO 術語3262 條,PMPH 術語6848 條,WFCMS 術語6079 條(圖1)。最終合并為8975 條。
圖1 數據采集和處理方法流程
為了便于進行歸類,我們基于《中華人民共和國國家標準GB/T 13745-2009 學科分類與代碼》[9]進行了更進一步分類(表1)。部分分類下沒有條目,是為了以后填充術語而暫時保留。文檔編碼為UTF-8,針對生僻字或數據合并后可能出現的亂碼,根據原始數據進行修正。每條數據的繁體中文和拼音均使用計算機自動生成,為了避免多音字錯誤,對一些常見多音字進行了拼音修正。對于某個標準中沒有的英文術語,保持該字段為空。只有WHO 標準提供了術語的英文解釋,對于WHO 中沒有的術語條目,術語的英文解釋字段為空。所有方名、藥名均為實體詞首字母大寫,所有簡寫均為大寫字母,所有穴位名均為大寫字母;其余英文術語均為小寫。數據集采集和處理由吳佳澤完成(7 年編程經驗,在 GitHub 擁有 10 項開源項目,榮獲 Arctic Code Vault Contributor,https://github.com/BillEliot)。
表1 術語分類表
本數據集包含1 張數據表。表中有10 個字段,包括ID、中文簡體、中文繁體、拼音、WHO 英文術語、PMPH 英文術語、WFCMS 英文術語、術語的英文解釋、類別編碼、類別名稱。每個類別的數據量如表1。
以中醫(yī)術語“關格”為例,表2 全面展示了該術語的中英文術語名稱和英文解釋。歸類以類別編碼和類別名稱表示,可根據表1 歸類對應。
表2 中醫(yī)藥術語中英對照數據集樣本展示
在通過Python 完成數據合并后,我們依靠人工核對的方式對數據進行修正。由2 人首先對數據對應性問題進行核查,保證無串行、錯位等現象;然后對照源數據對數據轉化中出現的亂碼分別進行修復;重點核對生僻字和多音字條目的拼音。對于源數據中本身就是亂碼,無法進行核實的,暫時保留,待以后通過其他途徑核查條目確認后再進行修改。對于名稱不同,但意思相同的術語,暫不合并,全部視為不同記錄,予以保留。同時,以Vue.js+Django 為基礎框架搭建了在線檢索網站(https://medai.vip)。在網站中檢索術語時,若使用者發(fā)現錯誤的條目,可以直接點報錯(圖2),我們在系統后臺定期進行修正。質控人員為梁昊(本科畢業(yè)于湖南中醫(yī)藥大學醫(yī)學英語專業(yè),從事中醫(yī)英譯工作10 年)和周小青(曾任世界中醫(yī)藥學會聯合會翻譯專業(yè)委員會副會長,長期從事中醫(yī)英譯工作)。
圖2 中醫(yī)術語中英對照查詢系統術語報錯演示
本數據集以csv 文件為存儲格式,使用者可以使用主流的數據管理及統計軟件來對數據進行修改和查看,尤其方便利用Python 和R 語言對術語進行文本分析和處理。同時,基于本數據集搭建了術語檢索系統(https://www.medai.vip),可以在該網站上隨時檢索術語。任何組織和個人可以以非商業(yè)目的使用本數據集,如搭建自己的術語庫或術語檢索系統。
國內目前未見相似中英對照中醫(yī)術語數據集。隨著中醫(yī)在全球的發(fā)展,國家對發(fā)展中醫(yī)藥的支持,國外對中醫(yī)的了解需求日益增加。但由于種種原因的限制,不能及時查閱到中醫(yī)術語對應的英文,導致國內外中醫(yī)愛好者、學習者在學習交流的過程中,存在交流障礙,限制了中醫(yī)對外發(fā)展及中醫(yī)的對外交流。本數據集的公開,方便了中醫(yī)從業(yè)者查詢術語,促進了中醫(yī)術語的規(guī)范化應用,有利于學術交流和中醫(yī)的繼承發(fā)揚。同時,標準化的術語也方便了中醫(yī)藥信息化建設,尤其是在HIS、電子病歷系統、醫(yī)學數據分析系統中,讓數據更加整潔,避免產生垃圾數據,減少不必要的數據清洗工作。與此同時,中醫(yī)藥領域開源的數據集稀少,不利于科學研究的開展和共享,本數據集的發(fā)布也是中醫(yī)藥開源模式的一次嘗試,希望同行能夠分享更多數據集,促進中醫(yī)藥的開放與發(fā)展。