羅永勝 傅順
摘 要:各式各樣的語料庫已經(jīng)建立,然而沒有一個自上而下的分類體系。文章在已有語料庫類型的基礎(chǔ)上總結(jié)出語料庫分類視角和標準,并討論了語料庫類型學對醫(yī)學英語教學與研究的啟示。
關(guān)鍵詞:語料庫;分類;視角與標準;醫(yī)學英語教學
中圖分類號:G642 文獻標志碼:A 文章編號:2096-000X(2018)15-0105-03
Abstract: Various corpora have been established, but there is no top-down classification system. Based on the existing corpus types, this paper summarizes the perspective and standards of corpus classification, and discusses the implications of corpus typology for medical English teaching and research.
Keywords: corpus; classification; perspective and standard; medical English teaching
語料庫類型學研究已經(jīng)相當成熟,幾乎任何一本語料庫介紹方面的著作或者論文都會涉及到語料庫的分類問題。比如Sinclair(1991:23)根據(jù)語料來源和用途將語料庫分為兩種:一是樣本語料庫(Sample Corpora),二是監(jiān)控語料庫(Monitor Corpora)。Kennedy(2000:19-23)根據(jù)不同標準將語料庫分為通用語料庫(General Corpora)和專用語料庫(Specialized Corpora);書面語料庫(Written Corpora)和口語語料庫(Spoken Corpora);抽樣文本語料庫(Sample-text Corpora)和全文本語料庫(Full-text Corpora);原語語料庫(Raw Corpora)和標注語料庫(Parsed Corpora);靜態(tài)語料庫(Static Corpora)和動態(tài)語料庫(Dynamic Corpora);歷時語料庫(Diachronic Corpora)和共時語料庫(Synchronic Corpora)。楊惠中(2002:29)則將語料庫分為通用語料庫、專用語料庫、口語語料庫、學生英語語料庫、平行語料庫等五種。何安平(2004:3-4)則把語料庫分為原始語料庫,賦碼語料庫,平行語料庫,學習者語料庫,網(wǎng)格式語料庫。秦洪武,王克非(2014:2-7)區(qū)分了歷史語料庫與歷時語料庫。不難看出,這些分類沒有統(tǒng)一的標準和體系,也沒有形成共識,只是對已有的語料庫類型進行命名,沒有從頂層設(shè)計上對語料庫進行一個基于類型學的系統(tǒng)分類。此外我們在對近15年我國醫(yī)學英語語料庫研究現(xiàn)狀也發(fā)現(xiàn)類似的問題:各式各樣的醫(yī)學英語語料庫已經(jīng)建立,但是沒有自上而下的分類體系。本文擬在已有語料庫類型的基礎(chǔ)上總結(jié)出語料庫分類標準,然后談?wù)劯鞣N類型的語料能夠給醫(yī)學英語教學研究帶來什么樣的啟示。
一、語料庫的分類視角和標準
任何事物的分類,必然有一個標準。標準的前提是視角。視角不一樣,標準就不一樣。比如目前世界上有幾十億人口,如何對這些人進行分類?根據(jù)膚色來分,可以把人分為白色人種,黑色人種,黃色人種和棕色人種。黑、白、黃、棕四種顏色是分類的標準,而膚色是視角。根據(jù)年齡來分,可以把人分為嬰幼兒,少年人,青年人,中年人,老年人。年齡是視角,而年齡的大小則是標準。根據(jù)國別來分,可以把人分為中國人,美國人,英國人等等。國別就是視角,而個人所屬的國籍就是標準。目前語料庫的分類基本上沒有區(qū)分視角和標準兩個概念。大部分語料庫的著作中只是描述了語料庫的類型,但是并沒有說清楚分類的視角和標準是什么。比如Sinclair(1991),何安平(2002),他們在自己的著作中詳細地描述了各種類型的語料庫及其特點——盡管從這些分類中,我們可以看出作者的分類視角和標準,但是他們并沒有討論分類的視角和標準是什么。
(一)語料庫的分類視角
根據(jù)Sinclair(1991),Kennedy(2000),楊惠中(2002),何安平(2004),Mayer(2008),秦洪武,王克非(2014)等對語料庫的分類,我們至少可以總結(jié)出以下語料庫分類視角:第一、語料庫的語料來源。語料源自何處?源于英國英語,美國英語,加拿大英語,中國英語,印度英語,還是香港英語?第二、語料庫的收集方式;語料是如何收集起來的?通過抽樣分析還是全文分析?第三、語料庫的語料庫處理程度。語料收集好之后,如何處理?處理到什么程度?第四,語料庫主要用途。用于語言學習,還是用于語言監(jiān)控?是用于分析一門語言的一般特征?還是用于分析某一特殊語言現(xiàn)象?第五、語料庫語料層次。產(chǎn)出語料的人員水平如何?是外語學習者還是本族語使用者?第六、語料庫時間屬性。語料庫是按照共時原則收集的還是按照歷時原則收集的?收集的語料是什么時期的?第七、語料庫包含語言的種類。語料庫包含幾種語言?一種、兩種,還是三種或者更多?第八、語料庫語言形式載體,語料是口語的,還是書面語的,或者說多模態(tài)的?第九、語料庫的規(guī)模。語料庫里面包含有多少詞語?幾百萬、幾千萬,還是10億以上?
很容易看出,語料庫分類的視角實際上就是制定分類標準的起點。從某一視角出發(fā),可以提出各種各樣的問題。這些問題的答案就是語料庫分類的標準。視角不一樣,問題的起點就不一樣,得出的標準就不一樣。而標準不一樣,語料庫類型就不一樣。同一個語料庫,從不同的視角出發(fā),可以是不同類型的語料庫。之所以判斷某一語料庫屬于某一類型,是因為該語料庫具有該視角下的特點。這一特點是和標準相吻合的。
(二)語料庫的分類標準
每一種視角都是一個分類標準的起點。根據(jù)2.1中的9個分類視角,我們可以制定各種各樣的分類標準。下面我們就來討論各個視角下的分類標準。
第一、語料來源。任何語料必定有一個產(chǎn)出的來源,比如語料來源于什么國家,來源于什么樣的學科,來源于什么樣的人。根據(jù)來源于什么國家,將語料庫分為英國國家語料庫,美國國家語料庫,中國國家語料庫,加拿大英語語料庫等等。目前有名的語料庫,有英國國家語料庫(BNC),美國國家語料庫(ANC)等等。根據(jù)語料來源于什么學科,我們可以把語料庫分為醫(yī)學英語語料庫,科技英語語料庫,學術(shù)英語語料庫等等,目前世界上已經(jīng)建立了各個學科的語料庫。還有一些語料庫直接以語料產(chǎn)出者命名。如,莎士比亞作品語料庫,中國英語學習者英語語料庫等等,魯迅作品語料庫等等。大部分語料庫都是以語料庫來源來命名的。
第二、語料收集方式。語料庫收集方式一般有兩種,一種是抽樣收集法,另一種是全文收集法。前者叫做抽樣文本(Sample-text)語料庫,如早期的BRON和LOB語料庫,主要采取隨機或者分層抽樣的方法收集語料,以保證語料庫的代表性;后者叫做全文本(Full-text)語料庫,如莎士比亞英語語料庫,《紅樓夢》漢英平行語料庫等等。前者存在一個代表性問題,后者則不存在。
第三、語料處理程度。語料按照一定的標準和原則收集起來之后,通常會根據(jù)不同的研究目的對語料進行處理,比如進行詞性、語音、語義、語法、語用、語篇等各個層面的語言信息進行賦碼標注,以期對某種語言現(xiàn)象展開系統(tǒng)研究。處理的程度不一樣,也可以導(dǎo)致語料庫類型不一樣。從這一視角出發(fā),按照是否標注或者賦碼的標準,目前主要有兩種語料庫:原始語料庫和賦碼語料庫。前者只是按照既定的原則匯編相關(guān)語料,如ICAME Collection of English Language Corpora,沒有經(jīng)過賦碼處理;后者則經(jīng)過相關(guān)的賦碼處理,如已作詞性賦碼的BROWN和LOB(何安平,2004:3-4)
第四、主要用途。從用途出發(fā),根據(jù)使用范圍的大小,語料庫可以分為兩類:通用語料庫和專用語料庫。通用語料庫主要用于語言監(jiān)控和一門語言整體上的把控,以及大型詞典編撰等,通常是大型和超大型的語料庫,早期的有BROWN、LOB等,后來的BNC、ANC、COBUILD等。專用語料庫指用于某種特殊目的的語料庫,如JDEST學術(shù)英語語料庫,用于研究學術(shù)英語;Helsimki Corpus of Historical用于研究古英語;CLEC用于研究中國學生英語;MEC,用于研究醫(yī)學英語等。隨著語料庫語言學的發(fā)展,通用英語語料庫規(guī)模越來越大,而專用英語語料庫則是品種越來越多。
第五、語言層次。這里主要是指語料產(chǎn)出者的整體語言水平或者說語言熟練程度和把控程度,主要分類標準是看語料的產(chǎn)出者是母語使用者還是外語使用者。根據(jù)這一標準,通常也可以分為兩種:學習者語料庫和母語語料庫。母語語料庫語料來源主要本族語語言使用者,各個國家所建立監(jiān)控語料庫和特殊用途語料庫都可以屬于這個范疇,如北京大學現(xiàn)代漢語語料庫,伯明翰大學的COBUILD語料庫等;而學習者語料庫主要用于研究中介語特征,如中國英語學習者語料庫,中國英語學習者口語語料庫等等。前者所代表的語言水平較高,而后者所代表的語言水平較低,且參差不齊,主要用于研究二語習得者的語言發(fā)展軌跡。
第六、時空屬性。時空是目前宇宙任何事物都無法擺脫的一個屬性。任何一個問題都可以從發(fā)展的視角來看,也可以從靜止的視角來看,可以從歷時的視角來看,也可以從共時的視角來看。語料庫作為語言研究重要工具和對象,也可以從時空的視角出發(fā),根據(jù)語料是收集各個歷時時期的,還是某一特殊歷史時期的,可以分為共時語料庫和歷時語料庫。共時語料庫主要收集某一時期的語料庫,用于研究某一時期的語言特征,如BROWN語料庫就收集美國1961年的書面語;而歷時語料庫則收集一定時間跨度的語料,如Helsinki Corpus of English Texts收集了公元700-1700年之間的文本,主要用于研究語言的變化規(guī)律(Kennedy 2000:22)。
第七、語言種類。語料庫可以由一種語言構(gòu)成,也可以由兩種語言構(gòu)成,甚至還可以由多種語言構(gòu)成。根據(jù)語料庫所包含語言種類的多少,可以將語料庫分為單語語料庫、雙語平行語料庫,多語平行語料庫。單語語料庫顧名思義就只包含一種語言的語料庫,目前世界上大多數(shù)語料庫都是這種,主要用于研究某一語言的特征和規(guī)律。而雙語平行語料庫則主要用于兩種語言之間對比研究和翻譯研究,如用于研究翻譯的《紅樓夢》漢英平行語料庫。也有多語語料庫,但是目前很少見,如聯(lián)合國平行語料庫,就包含了五種語言。
第八、形式載體。任何一種思想都可以通過多種形式載體表現(xiàn)出來。語言只是思想的一種表達方式。即便是語言載體,也有多種形式如口語、書面語以及多模態(tài)。多模態(tài)是目前比較流行的一個術(shù)語,各種表達模式綜合在一起,就是多模態(tài)的表達形式。根據(jù)這一標準,語料庫可分為口語語料庫和筆語語料庫多模態(tài)語料庫。目前筆語語料庫比較多,大部分語料庫都是屬于這一類型;口語語料庫相對少一點,但是發(fā)展迅速,代表性的有美國英語口語語料庫(CSAE),中國英語學習者口語語料庫等等。多模態(tài)語料庫比較晚才出現(xiàn),但是也有不少成果,國外的有CHIL、NESPOLE、IFADV等[1],國內(nèi)的有SCCSD[2],這些成果為多模態(tài)語料庫語言學的構(gòu)建奠定了基礎(chǔ)。
第九、語料庫規(guī)模。任何一個語料庫所包含詞匯數(shù)量都是可以計算的,語料庫的規(guī)模就是指語料庫所包含詞匯的數(shù)量。目前似乎沒有學者討論過如何根據(jù)語料庫的規(guī)模對語料庫進行分類,但是筆者檢索知網(wǎng),通過規(guī)模來命名的語料庫大體有三種微型語料庫、小型語料庫和大型語料庫。由于現(xiàn)代信息技術(shù)發(fā)達,我們可以把100萬詞次以內(nèi)的語料庫稱之為微型語料庫,百萬到千萬級別的叫做小型語料庫,億級以上的叫做大型語料庫,10億級以上的叫做巨型語料庫,如IWEB Corpus已經(jīng)有140億詞次。
從以上語料庫分類討論可以看出,目前語料庫類型已經(jīng)比較完備,而且數(shù)量眾多,隊伍龐大。每一個語料庫都有可能具備以上9個視角中范疇下一個特征。比如中國英語學習者語料庫(CLEC),語料來源于中國英語學習者、通過采抽樣的方法收集、有賦碼、語言層次不高、只是收集了某一時期的學生作文、主要針對中國英語學習者的中介語研究、所含語言只有一種、規(guī)模不大只有100萬詞次。毋庸置疑,各種語料庫分類視角和分類標準實際上就是描述語料庫語言特征的理論基礎(chǔ)。只有自上而下地制定各種分類視角和分類標準,語料庫才有可能得到系統(tǒng)的描述,真正系統(tǒng)的語料庫語言學才能夠建立起來。
二、對學醫(yī)學英語教學的啟示
隨著醫(yī)學英語教學與研究的興起,醫(yī)學英語已經(jīng)成為了一種特殊的語言研究對象。各種類型的醫(yī)學英語語料庫也已經(jīng)陸續(xù)建立起來了。未來的醫(yī)學院校大學英語總體上來說會轉(zhuǎn)向醫(yī)學英語。隨著中學生的英語水平越來越高,大學通識英語課程有可能在醫(yī)科大學中消失。那么醫(yī)科大學的大學英語教什么,如何教就成為醫(yī)學院校亟待解決的問題。語料庫的分類體系可以給這些問題帶來啟示。
首先,可以參照語料庫的分類體系構(gòu)建醫(yī)學英語語料庫的分類體系,在此基礎(chǔ)之上建立各種各樣的醫(yī)學英語語料庫,然后開展各種醫(yī)學英語語料庫在醫(yī)學英語教學中的應(yīng)用研究。任何一個學科的本身都是一個巨大的知識體系,當我們把醫(yī)學英語作為一個獨立的研究對象單獨挑選出來的時候,它本身就可以構(gòu)成一個獨立的學科。這個獨立的學科所研究的對象就是所有的醫(yī)學英語。而醫(yī)學是一個體系龐大的學科門類,各個分支學科都有自己獨特語言特征,因此可以根據(jù)語料庫來源構(gòu)建各種分支學科的醫(yī)學英語語料庫。如護理英語語料庫,醫(yī)院會話英語語料庫,神經(jīng)外科英語語料庫等等。醫(yī)學作為一個整體,也有許多在語言上區(qū)別于非醫(yī)學學科門類的特征,因此還可以建立通用醫(yī)學英語語料庫,與專用醫(yī)學英語語料庫區(qū)分開來。此外還可以建立中國醫(yī)學生學生作文語料庫,醫(yī)學生畢業(yè)論文語料庫,醫(yī)學英文原版教材語料庫,等等??偠灾梢詤⒄找陨戏诸愺w系,建立各種醫(yī)學英語語料庫,給醫(yī)學英語教學研究奠定語料基礎(chǔ)。
其次,可以在醫(yī)學英語語料庫體系的基礎(chǔ)上建立醫(yī)學英語課程群。醫(yī)學英語語料庫體系構(gòu)建起來之后,就可以在此基礎(chǔ)上構(gòu)建大學醫(yī)學英語課程體系。比如在通用醫(yī)學英語語料庫的基礎(chǔ)上,可以構(gòu)建大學通識醫(yī)學英語課程,主要講授醫(yī)學英語的一般發(fā)展規(guī)律和醫(yī)學英語中最常見的語言現(xiàn)象和詞匯。這些詞匯和語言現(xiàn)象都可以通過語料庫統(tǒng)計找到。在護理英語語料庫的基礎(chǔ)上,可以開始護理英語課程,學習護理英語中最常見的語言現(xiàn)象和規(guī)律,為進一步通過英語學習護理專業(yè)知識打下基礎(chǔ)。當然也可以在醫(yī)學人文英語語料庫的基礎(chǔ)上開設(shè)醫(yī)學人文英語課程,在醫(yī)學學術(shù)英語語料庫的基礎(chǔ)上開設(shè)醫(yī)學學術(shù)英語課程。
最后,可以直接在各種醫(yī)學英語語料庫的基礎(chǔ)上編寫醫(yī)學英語教材,并直接利用醫(yī)學英語語料庫來開展醫(yī)學英語課堂教學活動。在大數(shù)據(jù)時代,僅僅依賴一些所謂經(jīng)典的文章很難反映一門學科的語言特征。醫(yī)學英語課程的主要目的不是為了醫(yī)學知識和技能的學習,而是為了掌握醫(yī)學英語語言特征,以為更好地學習醫(yī)學知識和技能服務(wù)。因此能夠體現(xiàn)醫(yī)學英語整體語言特征的學習材料才是最好的學習材料。而醫(yī)學英語語料庫結(jié)合大數(shù)據(jù)分析軟件和技術(shù),是最能體現(xiàn)語言整體特征的學習材料,可以體現(xiàn)醫(yī)學英語最普通的特征。經(jīng)典文獻結(jié)合醫(yī)學英語語料庫編寫出來的教材一定能夠更加幫助學生醫(yī)學語言知識,從而更好地服務(wù)醫(yī)學專業(yè)學習。同時,醫(yī)學英語語料庫也可以借助語料庫檢索工具,直接用于醫(yī)學英語課堂教學,讓學生從最真實的語料中體驗語言的規(guī)律。
三、結(jié)束語
任何一門學科的建立都要從定義研究對象開始。對象定義好后,就是對研究對象進行分類。只有分類系統(tǒng)化才能夠使得整個學科建設(shè)體系化。只要對研究對象進行分類就必須建立分類標準,而任何標準的建立都必須有一個視角。本文從視角和標準出發(fā),自上而下地對語料庫進行了一個較為系統(tǒng)的分類。認為語料庫至少可以從語料來源,語料處理程度,主要用途等等9個方面來建立分類標準。并在此基礎(chǔ)上,提出來構(gòu)建相應(yīng)的醫(yī)學英語語料庫分類體系,在醫(yī)學英語語料庫體系的基礎(chǔ)上開展大學英語英語課程體系、編寫醫(yī)學英語教材、開展醫(yī)學英語課堂教學設(shè)想。希望本文能夠?qū)?gòu)建真正意義上的語料庫語言學體系和醫(yī)學英語學科體系帶來啟發(fā)。
參考文獻:
[1]John Sinclair. Corpus Concordance Collocation[M].Oxford: Oxford University Press.1991.
[2]Jenny Thomas & Mick Short. Using Corpora for language Research [M].Beijing: Foreign Language Teaching and Research Press.2001.
[3]Grame Kennedy. An Introduction to Corpus Linguistics[M]. Beijing: Foreign Language Teaching and Research Press. 2000.
[4]Charles F. Meyer. English Corpus Linguistics: An Introduction[M]. Shanghai: Shanghai Foreign Language Education Press. 2008.
[5]秦洪武,王克非.歷史語料庫:類型、研制與應(yīng)用[J].外語與外語教學,2014(04):1-7.
[6]何安平.語料庫語言學與英語教學[M].北京:外語教學與研究出版社,2004.
[7]楊惠中.語料庫語言學導(dǎo)論[M].上海:上海外語教育出版社,2002.