張文奕 盧喆 宋雪姣
【摘要】臨床醫(yī)療英語屬于科技英語的一個分支。對醫(yī)學(xué)生而言,學(xué)習(xí)和掌握臨床醫(yī)療英語應(yīng)用文語言特點與寫作技巧尤其重要。在我國將語料庫技術(shù)與專門用途英語相結(jié)合的研究正方興未艾。在簡述二者結(jié)合的必要性和重要性的基礎(chǔ)上,探討臨床醫(yī)療英語應(yīng)用文語料庫的創(chuàng)建原則、建庫步驟與建設(shè)方法。
【關(guān)鍵詞】臨床醫(yī)療英語 應(yīng)用文語料庫 建設(shè)方法作為一種科技文體,臨床醫(yī)療英語具有嚴(yán)謹(jǐn)規(guī)范、邏輯嚴(yán)密、客觀簡明的語言特色,其遣詞造句、語法結(jié)構(gòu)具有獨特的詞匯體系和句法特征。隨著全球化的進(jìn)程,醫(yī)學(xué)生必需具有國際化的學(xué)術(shù)視野,經(jīng)常了解國內(nèi)外領(lǐng)域的最新動態(tài),不動查閱醫(yī)學(xué)文獻(xiàn)。在本科階段,對醫(yī)學(xué)生而言,學(xué)習(xí)和掌握臨床醫(yī)療英語應(yīng)用文語言特點與寫作技巧尤其重要。因此,建設(shè)臨床醫(yī)療英語應(yīng)用文語料庫,開展基于醫(yī)療英語的醫(yī)療行業(yè)英語語言的研究更具有緊迫性。語料庫不同于電子文檔或數(shù)據(jù)庫,語料庫的建設(shè)有特定的研究目的和具體用途,臨床醫(yī)療英語應(yīng)用文語料庫主要用于研究臨床醫(yī)療英語詞匯,分析臨床醫(yī)療英語應(yīng)用文語言特點,完善和開發(fā)相關(guān)教材等。
一、臨床醫(yī)療英語應(yīng)用文語料庫創(chuàng)建原則
臨床醫(yī)療英語應(yīng)用文語料庫的總體建庫原則是建立一個能全面反映臨床醫(yī)療英語語言事實的語料庫。該語料庫的建設(shè)應(yīng)遵循隨機抽樣法、內(nèi)容真實性、語料代表性、庫容適度性等原則。
1.隨機抽樣
語料庫是在隨機采樣的基礎(chǔ)上收集的有代表性的真實語言材料的集合,是語言運用的樣本。因此,臨床醫(yī)療英語應(yīng)用文語料庫在語料抽樣范圍和主題覆蓋方面都力求取得平衡,在收集語料時按比例分層抽樣,需要考慮到每一主題類型的抽樣比例,在分布上應(yīng)盡可能均勻。主題涵蓋禮儀文書、求職文書、醫(yī)務(wù)文件、公務(wù)文書和科研文書五個方面。
2.真實性
真實性是建設(shè)語料庫的基本前提,無此前提,語料庫就不能反映真實的語言面貌,基于語料庫的研究及得出的結(jié)論也必然是毫無意義的。具體而言,一要收集實際使用中的文本,而不能是研究者杜撰的;二要收集符合條件的文本,不符合的一律剔除。為了確保語料的真實性,應(yīng)以復(fù)印、掃描或拍照等方式收集最原始的語料,從源頭上保證語料的真實性。
3.代表性
語料庫的代表性,即研究中所使用的語料是否能夠代表我們需要研究的語言。它對建成語料庫應(yīng)用語言研究結(jié)果的可信度至關(guān)重要,這是建設(shè)臨床醫(yī)療英語應(yīng)用文語料庫的首要原則,是區(qū)分語料庫與語料檔案庫的重要標(biāo)準(zhǔn)。一個語料庫是否有代表性首先要看語料庫所代表的總體??傮w而言,臨床醫(yī)療英語應(yīng)用文語料庫代表的往往是理論上有限而實際上無限的總體?,F(xiàn)實中建庫者不可能將所有的臨床醫(yī)療英語應(yīng)用文語料全部收集起來。為了提高語料的代表性,必須借助統(tǒng)計學(xué)抽樣方法,確保建立的語料庫中的語料樣本能最大限度地反映總體的特征。
4.庫容適度性
語料庫規(guī)模并不是越大越好??傮w而言,10萬詞次的語料庫可以滿足音韻學(xué)研究,形態(tài)學(xué)研究的語料庫需要達(dá)到50萬詞次,而句法學(xué)研究則需要50萬到100萬詞次的語料庫。我校建設(shè)的臨床醫(yī)療英語應(yīng)用文語料庫初步庫容為50萬詞,各主題均占20%,約10萬字。該語料庫具有開放性、動態(tài)性和擴容性的特點,爭取在語料庫初步建成3年之后進(jìn)一步擴展到100萬詞。
二、臨床醫(yī)療英語應(yīng)用文語料庫建庫步驟
臨床醫(yī)療英語應(yīng)用文語料庫的建庫步驟主要涉及語料的來源、采集、整理、標(biāo)注、統(tǒng)計等內(nèi)容。具體說來臨床醫(yī)療應(yīng)用文語料庫的建設(shè)要經(jīng)歷下列18道工序:語料庫設(shè)計、確定語料收集范圍、先導(dǎo)語料采集取樣論證、編制語料收集要求和工作流程、培訓(xùn)語料采集人員、語料正式采集、回收語料并分類保存、紙質(zhì)語料文本轉(zhuǎn)為txt文本、校對、語料清潔整理、抽檢語料樣本、對所有文本進(jìn)行文件頭部元信息標(biāo)注、校對、分詞、語料標(biāo)注和詞性賦碼、校對、復(fù)查抽檢、對語料進(jìn)行統(tǒng)計分析等。
三、建設(shè)方法
1.建立語料庫
建立語料庫涉及到文本的掃描、錄入和反復(fù)校對。每個取樣存為一個單獨文件,文件名以學(xué)科領(lǐng)域等因素命名。完成文本的數(shù)字化后進(jìn)行文本整理,它是語料庫建庫的關(guān)鍵環(huán)節(jié),涉及文本的備份、文本的清潔整理、語料元信息的標(biāo)注等環(huán)節(jié)。整理后的文本要進(jìn)行文本加工,文本加工涉及分詞、詞性標(biāo)注及其他語言信息標(biāo)注等環(huán)節(jié)。在臨床醫(yī)療英語應(yīng)用文語料庫中,標(biāo)注主要包括頭部元信息標(biāo)注和詞性標(biāo)注。元信息主要包括:文本說明信息(序號、文本分類等)、文獻(xiàn)信息(作者、時間、標(biāo)題等)、文本結(jié)構(gòu)信息(章節(jié)、段落等)等。元信息標(biāo)注是后期語料庫檢索、查詢、分析、構(gòu)建子語料庫的重要依據(jù)和條件。臨床醫(yī)療英語應(yīng)用文語料庫的最終標(biāo)注格式是XML。即可擴展標(biāo)記語言。它具有跨平臺的優(yōu)勢,一般用于數(shù)據(jù)存儲。
2.實現(xiàn)檢索軟件的自動抽取
為了能夠抽取研究者感興趣的語言單位,需要運用自動檢索工具,這些工具為可單獨運行的檢索軟件。單語純文本語料庫支持WordSmith、AntConc、Editplus等檢索工具對文本各種信息和語言特色的檢索分析。
四、可能遇到的問題和解決辦法
臨床醫(yī)療英語應(yīng)用文語料庫的建設(shè)重點是語料庫的代表性,即語料能否代表所要研究的語言。語料庫的代表性主要涉及語料庫的設(shè)計容量、語料來源以及取樣的平衡。解決辦法是在具體語料采集環(huán)節(jié)之前要進(jìn)行取樣論證,根據(jù)設(shè)計容量和語料來源、獲得途徑、著作權(quán)法等相關(guān)法律法規(guī)明確取樣準(zhǔn)則和標(biāo)準(zhǔn)。然后根據(jù)取樣準(zhǔn)則進(jìn)行隨機簡單抽樣、先導(dǎo)分析并進(jìn)而制定臨床醫(yī)療英語應(yīng)用文語料庫的工作計劃和工作流程。建設(shè)難點是語料庫的標(biāo)注。即把表示各種語言特征的附碼添加到相應(yīng)的語言成分上,以便于計算機對特定語料進(jìn)行識別和提取。標(biāo)注工作的加工深度直接影響整個語料庫的質(zhì)量和應(yīng)用價值。解決辦法為實施標(biāo)注工作前確定標(biāo)注環(huán)境、工具、標(biāo)注內(nèi)容和規(guī)則、制定標(biāo)注標(biāo)記集等,確保語料標(biāo)注的一致性和準(zhǔn)確性。限于篇幅,筆者將另文贅述。
臨床醫(yī)療英語應(yīng)用文語料庫的建設(shè)和相關(guān)研究,一方面,可提升語料庫研究在國內(nèi)專業(yè)領(lǐng)域理論研究基礎(chǔ)。另一方面,可以通過在臨床醫(yī)學(xué)領(lǐng)域的應(yīng)用,有利于解決該領(lǐng)域國內(nèi)外科研技術(shù)交流中的語言障礙,提升本領(lǐng)域的學(xué)術(shù)交流合作。此外,也可促進(jìn)臨床醫(yī)學(xué)在詞典編纂、術(shù)語研究、語篇分析、文本資料分析、教材編寫和語言教學(xué)等方面發(fā)展,此領(lǐng)域的研究工作具有重要的理論和現(xiàn)實意義。
參考文獻(xiàn):
[1]楊惠中.語料庫語言學(xué)導(dǎo)論[M].上海:上海外語教育出版社,2002.
[2]Kennedy.G.An Introduction to Corpus Linguistics[M].London:Addison Wesley Longman Limited,1998.187.
[3]梁茂成.語料庫英語教程[M].北京:外語教學(xué)與研究出版社,2010.37.
[4]何安平.語料庫輔助英語教學(xué)入門(修訂版)[M].北京:外語教學(xué)與研究出版社,2017.204.
課題項目:臨床醫(yī)療應(yīng)用文語料庫建設(shè)和研究;項目類別:2016年中青年項目;項目編號:ZQN2016-10。