北京外國語大學(xué) 黃俊 編譯
杰弗里·利奇的語料庫研究之路
北京外國語大學(xué) 黃俊 編譯
編者按
2014年8月19日,英國學(xué)術(shù)院院士、著名語言學(xué)家蘭卡斯特大學(xué)榮休教授Geoffrey Leech病逝,享年78歲。
Leech教授一生在英語語法、語義學(xué)、語用學(xué)、文體學(xué)、語料庫語言學(xué)等諸多方面都作出了杰出貢獻(xiàn),是一位具有世界影響的語言學(xué)家。
Leech教授與中國有著不解之緣。他于1994年受聘為北京外國語大學(xué)名譽教授,并多次來華講學(xué)。
Leech教授早年畢業(yè)于英國倫敦大學(xué)學(xué)院(University College London),并參與了Randolph Quirk教授主持的著名的“英語用法調(diào)查”(Survey of English Usage)項目。Leech教授整個學(xué)術(shù)生涯都十分注重對真實語用的描寫,注重對意義的研究。他主要完成或合作完成的代表作有:《英語語法大全》(A Comprehensive Grammar of the English Language,1985)、《語義學(xué)》(Semantics,1974)、《語用學(xué)原理》(Principles of Pragmatics,1983)、《小說的文體》(Style in Fiction,1981/2007)和“英國國家語料庫”(British National Corpus,BNC,1994)。
《英語語法大全》,俗稱“夸克語法”,長期以來是我國語法教學(xué)界的權(quán)威基準(zhǔn);《語義學(xué)》中列舉的7種意義已成為語言學(xué)方向?qū)W生的專業(yè)常識;《語用學(xué)原理》中提出的“禮貌原則”是禮貌研究的重要基石;《小說的文體》是文體學(xué)領(lǐng)域當(dāng)仁不讓的第一教材;“英國國家語料庫”是近20年來語料庫領(lǐng)域的業(yè)界標(biāo)桿。若一位語言學(xué)者擁有一項重要代表作就可稱為知名語言學(xué)家的話,Geoffrey Leech則名副其實稱得上世界級語言學(xué)家。況且這里舉出的不過是他等身著述之一隅。
學(xué)術(shù)而外,Leech教授最為人稱道的是其為人平易謙和,真可謂學(xué)者典范。
本期特設(shè)紀(jì)念專欄,深切緬懷Geoffrey Leech教授。
本文編譯自《利奇應(yīng)用語言學(xué)自選集》一書的前言,感謝外語教學(xué)與研究出版社授權(quán)編譯。
1936年1月16日,利奇出生于英格蘭西部的格洛斯特。他的父親在格洛斯特附近的圖克斯伯里(Tewkesbury)小鎮(zhèn)擔(dān)任銀行經(jīng)理。中學(xué)時期,利奇就讀于有四百多年歷史的圖克斯伯里文法學(xué)校。之后,利奇曾在英國皇家空軍服役兩年。
利奇從小就對語言感興趣,進(jìn)入大學(xué)之前他的夢想是學(xué)習(xí)法語。非常巧合的是,當(dāng)時倫敦大學(xué)學(xué)院(University College London,UCL)的英語教授A.H.Smith在圖克斯伯里附近有一所鄉(xiāng)間別墅,周末經(jīng)常來度假,利奇的父親在酒館里喝酒時認(rèn)識了這位教授。應(yīng)利奇父親的請求,Smith教授在自己的別墅中給了利奇一次入學(xué)面試的機(jī)會。利奇在交談中表示希望學(xué)習(xí)法語,Smith教授卻給了他一個學(xué)習(xí)英語的機(jī)會。終于,1956年利奇在UCL正式開始了他的求學(xué)之路。
本科階段,利奇對課程中的語言部分尤其感興趣,選擇了當(dāng)時被稱作“B大綱”的課程計劃。該大綱中包含了大量的語言課程,尤以古代語言為重。它要求學(xué)生學(xué)習(xí)全本《貝奧武甫》(Beowulf)原著,選修古英語、中古英語、古挪威語、英語語言學(xué)和語音學(xué)等課程。其中,語音學(xué)由UCL的資深教授、著名的語音學(xué)家A.C.Gimson 和 J.D.O’Connor講授。期間,利奇也曾聆聽過英國第一位語言學(xué)教授J.R.Firth有關(guān)“語境論”的系列講座和著名語音學(xué)家Daniel Jones有關(guān)“音素”的系列講座。利奇于1959年本科畢業(yè),同時獲得了UCL英語語言文學(xué)專業(yè)學(xué)士學(xué)位。
本科畢業(yè)后,利奇留在UCL攻讀碩士學(xué)位,并對現(xiàn)代語言學(xué)產(chǎn)生了興趣。遺憾的是語言學(xué)當(dāng)時在英國影響不大,英語系沒有老師可以在這個領(lǐng)域給他提供充分的指導(dǎo),他只能研究與語言學(xué)相關(guān)的其他課題。1959年,傳播學(xué)在UCL得到重視。學(xué)院舉辦了一次傳播學(xué)的跨學(xué)科研討會,還成立了一個新的傳播學(xué)研究中心(Communication Research Centre,CRC)。但是這個中心的工作開展得并不順利。既沒有足夠的經(jīng)費,也缺乏研究人員。另外,學(xué)者們對于傳播學(xué)的定義和研究方法有很大分歧。
在CRC開展研究工作的只有英語系的三名研究生,利奇便是其中之一。他們研究公共傳播中的語言使用,利奇負(fù)責(zé)的課題是電視廣告中的語言使用。因為不確定應(yīng)該使用何種方法,也沒有人指導(dǎo),他們的進(jìn)展非常緩慢。利奇的信心因此備受打擊,他決定離開大學(xué),開始在一所中學(xué)任教。接下來的18個月中,他住在倫敦附近的一個外遷安置房,一邊教著英語,一邊在業(yè)余時間盡量維持碩士課題的研究工作。
1962年1月1日,利奇的課題獲得了一項來自ATV商業(yè)電視公司的助研金。盡管每年只有750英鎊,不及他教書的收入,利奇還是欣然接受了。他放棄了教職,全職投入到學(xué)術(shù)研究中去。但是他仍然需要面對研究方法方面的困擾。這時,Randolph Quirk即將從杜倫大學(xué)回到UCL英語系。他通過利奇的導(dǎo)師得知CRC面臨研究方法方面的困難,于是建議他們學(xué)習(xí)美國的“新語言學(xué)”。他認(rèn)為這可以為描寫電視中的廣告語言提供最好的分析方法。當(dāng)時Quirk推薦的書籍現(xiàn)在大部分已經(jīng)被人們遺忘,比如Paul Roberts、W.Nelson Francis、A.A.Hill和James Sledd的英語句法。這些書都是美國結(jié)構(gòu)主義語言學(xué)的產(chǎn)物。我們知道后來喬姆斯基的生成語法取代結(jié)構(gòu)主義成為美國語言學(xué)的主流。
1962年夏天,UCL英語系有一個助理講師的職位出現(xiàn)了空缺。系主任Smith教授有意讓利奇接手這個職位,但是他把決定權(quán)給了剛剛回到UCL英語系的Quirk教授,讓他審核利奇是否有資格出任。面試之前利奇未曾見過Quirk教授,但是對他的聲望卻早有耳聞,他懷著忐忑的心情來到面試地點。等待他的將是怎樣的命運呢?讓利奇感到驚喜的是Quirk教授非常熱情地接待了他,而他的表現(xiàn)也令Quirk教授感到滿意,最終他獲得了這個職位。
開始執(zhí)教之后利奇接到了一個重要任務(wù),為一年級的學(xué)生設(shè)計和講授一系列修辭學(xué)的講座。之前,這門課程主要講授古典文學(xué)的修辭傳統(tǒng),學(xué)生普遍認(rèn)為這是英語系開設(shè)的最枯燥無味的課程。英語系給了利奇最大的自由,他可以用自己認(rèn)為妥當(dāng)?shù)娜魏畏绞街v授這門課程。利奇大膽改革,拋棄了之前傳統(tǒng)修辭學(xué)的視角,選擇從現(xiàn)代語言學(xué)的角度解釋文學(xué)語言,尤其是詩歌的語言。
同時,利奇繼續(xù)研究他的碩士課題,并于1963年完成了他的碩士論文《商業(yè)電視廣告的語言》(The Language of Commercial Television Advertising)。Quirk教授看好利奇的學(xué)術(shù)潛力,給了他很多幫助和鼓勵。當(dāng)時Quirk教授正在編輯一套叢書《朗文英國語言叢書》(Longman English Language Series)。他鼓勵利奇在他碩士論文的基礎(chǔ)上進(jìn)一步拓展,更為全面地闡述廣告語言,并寫成專著加入他正在編輯的叢書出版。1966年,利奇完成并出版了這部著作,書名是《廣告英語:英國廣告的語言學(xué)研究》(English in Advertising: A Linguistic Study of Advertising in Great Britain)。
相比廣告英語,利奇更為感興趣的課題是從現(xiàn)代語言學(xué)的角度研究文學(xué)語言。這不僅體現(xiàn)在他新開設(shè)的修辭學(xué)課程當(dāng)中,也是他寫作另一部專著的動機(jī),那就是1969年出版的《英語詩歌的語言學(xué)指南》(A Linguistic Guide to English Poetry)。這本書同樣得到了Quirk教授的鼓勵,是《朗文英國語言叢書》中的一部。
利奇在UCL英語系擔(dān)任助理講師和講師期間(1962-1969)主要建樹表現(xiàn)在三個學(xué)術(shù)領(lǐng)域,語域(廣告語言)和文學(xué)語體是其中兩個。另外一個便是語義學(xué)。
1963年,M.A.K.Halliday被任命為CRC的主任,成為利奇的領(lǐng)導(dǎo)。之后不久Halliday成為UCL的語言學(xué)教授,并建立了語言學(xué)系。在Halliday的影響下,利奇開始對語義學(xué)產(chǎn)生興趣。Halliday研究語義的基礎(chǔ)是“情景”和“語境”,這與他的老師J.R.Firth的“情景語境”有關(guān)。利奇則另辟蹊徑,試圖創(chuàng)立融合成分分析法和邏輯語義學(xué)的新理論。
1964-1965年利奇作為哈克尼斯研究學(xué)者(Harkness Fellow)在美國麻省理工學(xué)院訪學(xué)一年。在那里,他的主要興趣是語言學(xué)。當(dāng)時的麻省理工學(xué)院是全世界語言學(xué)研究的發(fā)動機(jī),以喬姆斯基的轉(zhuǎn)換生成語法為代表的形式主義語言學(xué)在那里占據(jù)統(tǒng)治地位。盡管利奇對轉(zhuǎn)換生成語法不能全盤接受,但是他在MIT接觸到了很多有用的語言學(xué)思想。
回國之后,利奇繼續(xù)語義學(xué)領(lǐng)域的探索,但是并不順利。他在英國語文學(xué)會宣讀了一篇語義學(xué)的論文,會上他的新語義學(xué)理論招致了一些懷疑和反對。之后他把文稿發(fā)給劍橋大學(xué)的John Lyons,試圖在剛創(chuàng)刊的Journal of Linguistics上面發(fā)表,也遭到了冷遇。后來,利奇把他的語義學(xué)理論寫成了一部專著,但還是沒有能夠發(fā)表。于是他打算以這部專著為基礎(chǔ)撰寫博士論文。從1965年到1969年,利奇繼續(xù)思考和發(fā)展他的語義學(xué)理論,直到最后寫成了題為《現(xiàn)代英語中位置、時間和情態(tài)的語義學(xué)研究方法》(An Approach to the Semantics of Place, Time and Modality in Modern English)的博士論文。這篇論文經(jīng)過修改之后于1969年正式出版為《朗文語言學(xué)文庫》中的一部專著——《論英語的語義描述》(Towards a Semantic Description of English)。
在UCL英語系任教期間,利奇還非常幸運地成為“英語用法調(diào)查”(Survey of English Usage,SEU)語料庫項目的重要成員。SEU對利奇的學(xué)術(shù)生涯產(chǎn)生了重大影響,這一影響比MIT的影響更為實際,更加持久。SEU研究中心由Randolph Quirk于1959年建立,隸屬于UCL英語系。它早期最主要的任務(wù)就是編纂和分析包含大量現(xiàn)代英語文本的語料庫。它的重要成員還包括David Crystal、Jan Svartvik和Sidney Greenbaum。這三人都是英語語言學(xué)領(lǐng)域中的知名專家。后來Quirk、利奇、Svartvik和Greenbaum四人合作,在SEU研究的基礎(chǔ)上撰寫了《當(dāng)代英語語法》(A Grammar of Contemporary English, GCE),于1972年由朗文出版公司出版。
1969年利奇成功申請了蘭卡斯特大學(xué)的高級講師職位。這所新大學(xué)位于英格蘭北部,倫敦西北大約240英里處。到蘭卡斯特大學(xué)就任時,利奇晉升為英語Reader(相當(dāng)于副教授)。在那之后,蘭卡斯特大學(xué)一直是利奇的家,直到他去世。
初到蘭卡斯特的幾年,利奇仍然花了大量的時間與Quirk、Greenbaum和Svartvik一起合作撰寫《當(dāng)代英語語法》。他還繼續(xù)了語義學(xué)方面的研究,1971年出版了《意義和英語動詞》(Meaning and the English Verb),1974年出版了《語義學(xué)》(Semantics)。
1975年利奇和Svartvik合作出版了《英語交際語法》(A Communicative Grammar of English)。這本語法書提出了較為新穎的語法觀。他們認(rèn)為語法需要為學(xué)習(xí)者服務(wù),需要服務(wù)于“交際”的目的。為了達(dá)到這一目的,語言的形式和結(jié)構(gòu)必須與它們的意義和用法相聯(lián)系。這本書是利奇發(fā)行量最大的一部著作。
利奇初到蘭卡斯特時,這所大學(xué)成立只有5年時間,正處在迅速發(fā)展的時期,新的學(xué)科、新的院系、新的建筑不斷地涌現(xiàn)。在英語系,利奇領(lǐng)導(dǎo)的語言學(xué)學(xué)科取得了迅猛的發(fā)展,1974年升級成為語言學(xué)與現(xiàn)代英語系。它和另外兩個系一起組成了新的英語學(xué)院。新系成立的時候,利奇晉升為語言學(xué)與現(xiàn)代英語教授。同時,蘭卡斯特大學(xué)開設(shè)了語言學(xué)本科專業(yè),躋身第一批授予語言學(xué)學(xué)士學(xué)位的大學(xué)。
早在1970年,語言學(xué)系還沒有成立之時,就有幾個年輕的語言學(xué)者聚到一起,商量如何讓蘭卡斯特大學(xué)在世界語言學(xué)地圖上劃出自己的位置。在利奇的倡導(dǎo)下,他們決定開發(fā)一個英國英語的計算機(jī)語料庫,使之與布朗大學(xué)的美國英語語料庫媲美。那時,布朗大學(xué)語料庫的開發(fā)剛剛完成,是世界上第一個現(xiàn)代英語的計算機(jī)語料庫。他們設(shè)想中的“蘭卡斯特語料庫”跟布朗大學(xué)語料庫規(guī)模相當(dāng),包含一百萬詞以上的不同語域的書面英語。在領(lǐng)導(dǎo)這個項目的過程中,利奇花費了很多心血,但是進(jìn)展卻非常緩慢,他們碰到了很多困難。他們的計算機(jī)設(shè)備非常簡陋。雖然從朗文等出版商和英國學(xué)術(shù)院獲得了一些經(jīng)費,但是很快就用完了。還有他們不得不面對的版權(quán)問題,幾乎成了一個無法逾越的障礙。到1976年,利奇準(zhǔn)備放棄整個項目。這時,Jan Svartvik以前的學(xué)生,一位名叫Stig Johansson的瑞典學(xué)者提出把這個項目遷到挪威,在那里完成語料庫的開發(fā),因為他剛剛在那里晉升為教授,可以提供充足的研究經(jīng)費。1978年,在蘭卡斯特、奧斯陸和卑爾根三所大學(xué)的共同努力之下,這個英國英語語料庫終于完成了。它被稱作蘭卡斯特-奧斯陸/卑爾根語料庫(the Lancaster-Oslo/Bergen Corpus),或者LOB語料庫(the LOB Corpus)。LOB語料庫面世之后,在全世界得到了廣泛的應(yīng)用,其地位與布朗語料庫不相上下。
LOB語料庫面世的前一年,也就是1977年,利奇和幾位英語專家(包括Randolph Quirk、Jan Svartvik、W.Nelson Francis和Stig Johansson)在奧斯陸開會,成立了“國際現(xiàn)代及中古英語計算機(jī)文檔庫”協(xié)會(the International Computer Archive of Modern and Medieval English, ICAME)。這個機(jī)構(gòu)的目標(biāo)是發(fā)展和推廣計算機(jī)語料庫在英語研究中的使用。讓人匪夷所思的是,最初成立這個機(jī)構(gòu)的動機(jī)竟是為LOB語料庫掃清版權(quán)方面的障礙。1976年,倫敦的出版商和作家經(jīng)紀(jì)人們似乎商量好要和蘭卡斯特大學(xué)的語料庫項目作對,他們再三拒絕免費授權(quán),要求蘭卡斯特大學(xué)為每一篇2000詞的樣本支付費用。后來利奇他們發(fā)現(xiàn),為了說服這些出版商和版權(quán)所有者免費授權(quán)給他們,更有效的辦法是從挪威的地址給他們寫信,而且寫信人的身份是“國際現(xiàn)代及中古英語計算機(jī)文檔庫”協(xié)會(ICAME)秘書長,這比以一個國內(nèi)學(xué)者的身份從蘭卡斯特的地址寫信有效得多。成立ICAME解決了LOB語料庫的版權(quán)問題。更重要的是ICAME作為一個推廣語料庫研究的機(jī)構(gòu)其事業(yè)也越來越興旺。它每年召開一次會議,有專門的刊物(ICAME Journal),在卑爾根大學(xué)有它的信息傳遞中心,為世界各地的研究者提供語料庫、軟件和相關(guān)文獻(xiàn)。ICAME見證了語料庫從一開始遭到鄙視到后來成為主流研究方法的歷史過程,這種轉(zhuǎn)變既發(fā)生在計算語言學(xué)領(lǐng)域,也發(fā)生在英語語言研究領(lǐng)域。目前只有理論語言學(xué)的某些流派對計算機(jī)語料庫的作用持懷疑態(tài)度。
1977年利奇完成了語言學(xué)與現(xiàn)代英語系系主任的三年任期。之后,他和蘭卡斯特大學(xué)達(dá)成協(xié)議,只花一半時間為大學(xué)工作,另一半時間則用于研究自己感興趣的課題。這個協(xié)議持續(xù)了八年時間。利奇利用這八年的時間完成了很多自己滿意的研究,發(fā)表了很多專著,也得以發(fā)展他在計算機(jī)方面的興趣。
利奇繼續(xù)在語言意義方面進(jìn)行探索,這一時期他更關(guān)注語用學(xué)。他在1980年出版了專著《語義學(xué)和語用學(xué)探索》(Explorations in Semantics and Pragmatics),1983年又出版了《語用學(xué)原理》(Principles of Pragmatics),其中廣為人知的部分是關(guān)于禮貌的理論闡述。文體學(xué)方面,他和蘭卡斯特的同事Mick Short合作于1981年出版了具有重要影響的《小說的文體:英語小說的語言學(xué)導(dǎo)論》(Style in Fiction: A Linguistic Introduction to English Fictional Prose)。這部著作受到了廣泛的好評,利奇自己也認(rèn)為這是他比較滿意的一部作品。
從1978年開始,利奇和Quirk、Greenbaum、Svartvik一起開始準(zhǔn)備《當(dāng)代英語語法》的第二版?!懂?dāng)代英語語法》第一版于1972年問世之后,關(guān)于語法的學(xué)術(shù)思想以及英語語法的知識有了很大的發(fā)展,而且學(xué)術(shù)界發(fā)表了很多關(guān)于這本書的評論,對它的優(yōu)點和缺點都有深入的探討。作者們覺得有必要出一個新版。準(zhǔn)備過程中,他們發(fā)現(xiàn)整本書都需要重寫,不僅需要改變原書的結(jié)構(gòu),而且需要納入很多新的SEU研究成果。就這樣,《當(dāng)代英語語法》的第二版演變成了一部新書。這就是1985年朗文出版公司出版的《英語語法大全》(AComprehensive Grammar of the English Language, CGEL)。
《英語語法大全》的出版把利奇送到了他學(xué)術(shù)生涯的頂峰。這本書產(chǎn)生了巨大的影響,被視為英語語法的權(quán)威之作。它的出版給利奇帶來了巨大的榮譽,1987年利奇當(dāng)選為英國學(xué)術(shù)院院士,同年他被隆德大學(xué)(University of Lund)授予榮譽博士學(xué)位。1988年利奇成為他的母校UCL的研究員,1989年他當(dāng)選為歐洲科學(xué)院院士(member of the Academia Europaea)。
20世紀(jì)70年代末,計算機(jī)英語語料庫的標(biāo)注和自動處理成為利奇最感興趣的研究課題。他和蘭卡斯特大學(xué)計算機(jī)系的負(fù)責(zé)人一起建立了“英語計算語言學(xué)研究中心”(Unit for Computer Research on the English Language,UCREL),開展與語料庫相關(guān)的計算機(jī)技術(shù)方面的研究。從那時起直到利奇退休,UCREL團(tuán)隊一直是他工作的重心。
1978年LOB語料庫完成研發(fā)之后,利奇的團(tuán)隊幸運地從社會科學(xué)研究協(xié)會獲得一筆研究經(jīng)費,課題是語料庫的自動語法標(biāo)注。具體而言就是為語料庫中的每一個詞都加上一個標(biāo)簽,說明它的詞性。為了達(dá)到這個目的,他們需要編寫復(fù)雜的計算機(jī)程序。他們與奧斯陸大學(xué)Stig Johansson的團(tuán)隊合作,于1983年完成了這個項目。他們合作開發(fā)的軟件CLAWS1是第一個使用統(tǒng)計算法的詞性標(biāo)注軟件,其算法和隱馬爾可夫模型(Hidden Markov Model)相似。這個算法由利奇團(tuán)隊的成員Ian Marshall發(fā)現(xiàn),它使得計算機(jī)自動標(biāo)注的準(zhǔn)確率由77%上升到96%。這是一個很大的突破。他們的做法是,把已經(jīng)標(biāo)注好的布朗語料庫用作訓(xùn)練語料庫,讓CLAWS1從布朗語料庫學(xué)習(xí)頻率信息,然后應(yīng)用到對LOB語料庫的自動標(biāo)注中。用今天的術(shù)語來說,布朗語料庫是訓(xùn)練語料庫,而LOB語料庫則是測試語料庫。這種區(qū)分訓(xùn)練語料庫和測試語料庫的方法由利奇的團(tuán)隊首先使用,如今已經(jīng)成為語料庫自然語言處理的基本方法。
1983年利奇的團(tuán)隊從科學(xué)和工程研究協(xié)會(the Science and Engineering Research Council)獲得資助。這次他們需要面對一項更具挑戰(zhàn)性的課題,即語料庫的自動句法標(biāo)注(automatic parsing)。首先,他們需要手工對語料庫進(jìn)行句法標(biāo)注,用來充當(dāng)訓(xùn)練語料庫。第一個完成句法標(biāo)注的語料庫是由蘭卡斯特大學(xué)的學(xué)者Geoffrey Sampson制作的,被稱作“樹庫”(Treebank)。盡管蘭卡斯特大學(xué)最早建立樹庫,并使用Treebank這個詞,但是他們在語料庫的自動句法標(biāo)注這個課題上進(jìn)展卻非常緩慢。到1990年,只有13%的LOB語料通過統(tǒng)計的方法獲得了準(zhǔn)確的句法標(biāo)注。他們?nèi)狈Ω笠?guī)模的樹庫,更好的句法模型,更強(qiáng)大的計算機(jī)設(shè)備。
事實上直到今天,對任意文本的準(zhǔn)確自動句法標(biāo)注仍然是一個未被攻占的學(xué)術(shù)高地。利奇他們也知道只靠自己團(tuán)隊的力量不足以解決這個難題。1987年,IBM托馬斯?沃森研究中心(the IBM Thomas J.Watson Research Center)的Fred Jelinek找到利奇要求與他們合作。當(dāng)時IBM是自然語言處理技術(shù)的領(lǐng)路人,它擁有最先進(jìn)的語音識別技術(shù)、最前沿的統(tǒng)計方法、超過三億詞的電子文本庫。利奇的團(tuán)隊和IBM開展合作,在80年代末開發(fā)出了三百萬詞以上規(guī)模的大型樹庫,可以為自動句法標(biāo)注提供更充足的統(tǒng)計信息。因為資金和數(shù)據(jù)都來源于IBM,利奇的團(tuán)隊不能自由地與別人分享他們研制出的樹庫,也不能自由地發(fā)表研究成果。20世紀(jì)90年代,他們在樹庫方面的研究被賓夕法尼亞大學(xué)Mitchell Marcus的團(tuán)隊超過。今天更多人知道的是Penn Treebank,而不是IBM/Lancaster Treebank。利奇團(tuán)隊與IBM的合作產(chǎn)生了一部論文集《統(tǒng)計驅(qū)動的計算機(jī)英語語法》(Statistically-Driven Computer Grammars of English: The IBM/Lancaster Approach),由Rodopi出版社于1993年出版。
20世紀(jì)90年代,UCREL不斷地獲得項目經(jīng)費,語料庫技術(shù)的研究進(jìn)入黃金時期,繼詞性標(biāo)注之后,語義標(biāo)注、回指標(biāo)注、平行語料庫對齊等課題相繼涌現(xiàn)。由于IBM公司在1991年遭遇財務(wù)困境,他們終止了與利奇團(tuán)隊的合作。但是同一時期UCREL不乏其他的合作者,比如電信商ART Kyoto、朗文出版集團(tuán)、牛津大學(xué)出版社等。與企業(yè)合作減輕了競爭公共研究經(jīng)費帶來的尷尬,但是這種商業(yè)性質(zhì)的合作也給他們帶來了巨大的壓力。不論研究過程中出現(xiàn)什么樣的困難,他們需要按時提交成果。此外,在發(fā)表和使用研究成果方面,他們也受到諸多限制。
利奇領(lǐng)導(dǎo)的最大的一個合作項目就是英國國家語料庫(British National Corpus,BNC)項目。他們的合作者包括三家出版社、牛津大學(xué)和英國國家圖書館。項目過程中利奇團(tuán)隊承受了巨大的壓力和困難,最終超時一年完成了這個語料庫。BNC的容量超過一億單詞,它既包括口語語料也包括書面語語料,是目前世界上最具代表性的當(dāng)代英語語料庫之一。BNC的開發(fā)是一個巨大的成就,很多國家效仿BNC開始了本國語言語料庫的開發(fā)。
20世紀(jì)90年代,國際上出現(xiàn)一股語料庫熱潮,英語之外很多其他語種也開始建立語料庫并進(jìn)行標(biāo)注。利奇和他的同事Roger Garside、Tony McEnery一起參與了歐洲委員會資助的研究。他們和歐洲大陸的研究者合作,開發(fā)了英語、法語和西班牙語平行翻譯語料庫。利奇還參與了EAGLES(Expert Advisory Group on Language Engineering Standards)的工作,擔(dān)任多個委員會的主席和多個文件的主筆。他參與起草了歐洲語言語料庫標(biāo)注的指導(dǎo)原則。從1993年到1999年,利奇參與了三個此類項目,分別與詞性標(biāo)注、句法標(biāo)注、對話標(biāo)注有關(guān)。
20世紀(jì)80年代中期,利奇對計算機(jī)語料庫的熱愛幾近癡迷。他把幾乎全部時間都投入到這方面的研究,同時也從中獲得了極大的精神滿足。在他自己看來,這有幾個方面的原因。首先,與其他學(xué)者合作開展研究對文科出身的利奇來說是一種新奇的體驗。其次,在一個快速發(fā)展的全新領(lǐng)域開辟道路、引領(lǐng)潮流讓利奇感到振奮。第三,通過語料庫研究,UCREL在自然語言處理領(lǐng)域建立了一定的聲望,并與世界各地的語料庫研究者建立了廣泛的聯(lián)系。目前,一個語料庫語言學(xué)的研究者共同體已在世界范圍內(nèi)建立起來,基于語料庫的研究方法在語言學(xué)的各個領(lǐng)域被廣泛接受和應(yīng)用。
當(dāng)然,語料庫研究也有它的缺點。很大一部分工作是單調(diào)乏味、耗時費力的辛苦活,而不是挑戰(zhàn)智力的研究。長期從事這樣的工作讓利奇無暇他顧,只能把以前的一些研究興趣,比如文體學(xué)、語用學(xué),束之高閣。同時,為了保障研究經(jīng)費,利奇還不得不花時間與贊助商周旋。
很長一段時間,語料庫語言學(xué)只有一兩個期刊可以發(fā)表文章,研究成果多以論文集的方式成書出版。與語料庫研究早期階段的各種突破形成對比,到后來要想取得進(jìn)展變得非常困難。利奇還有一個擔(dān)心,就是總體而言這個領(lǐng)域的發(fā)展非常迅猛,UCREL對于保持曾經(jīng)擁有的領(lǐng)先地位感到力不從心。語料庫方面的資源和軟件擴(kuò)散得非常迅速,UCREL的優(yōu)勢喪失得很快,大有被其他團(tuán)隊超過之勢。在美國、英國、或者其他地方,已經(jīng)有大學(xué)院系或者研究團(tuán)隊在資金、設(shè)備、人員方面超過了UCREL。UCREL已成為大池塘中的小魚。利奇對于語料庫技術(shù)的熱愛漸漸退去,把興趣轉(zhuǎn)向使用語料庫研究語言本身。
從1986至1997年利奇編輯了四本論文集,分別是《英語教學(xué)與研究中的計算機(jī)》(Computers in English Language Teaching and Research,1986),《英語的計算分析》(The Computational Analysis of English,1987),《計算機(jī)中的英語口語》(Spoken English on Computer,1995),以及《語料庫標(biāo)注》(Corpus Annotation,1997)。這四本論文集均由朗文出版公司出版。利奇60歲生日時收到了一份意外的禮物,他的同事Mick Short和Jenny Thomas為了慶祝他的生日,編輯出版了一個論文集《用語料庫研究語言》(Using Corpora for Language Research,1996)。
利奇于2001年12月31日正式退休,成為蘭卡斯特大學(xué)的榮休教授。退休以后利奇的生活并未發(fā)生大的變化,語言學(xué)與現(xiàn)代英語系保留了他的辦公室。在那里,他繼續(xù)開展研究,指導(dǎo)博士生,并經(jīng)常到國外參會、講學(xué)。
德國南部弗萊堡大學(xué)和慕尼黑大學(xué)的兩位學(xué)者Christian Mair和Marianne Hundt在90年代中期研發(fā)了兩個新的語料庫。它們的規(guī)模和取樣標(biāo)準(zhǔn)與Brown和LOB語料庫相同,只是選取的語料來自1991和1992年的出版物。因為它們是由弗萊堡大學(xué)研發(fā)的,所以稱作“Freiburg-Brown語料庫”和“Freiburg-LOB語料庫”,或作Frown和FLOB語料庫。利奇與這兩位德國學(xué)者開展了合作。
從1998年開始,在他的助手Nick Smith的協(xié)助下,利奇開展了一項新的語料庫研究。他通過比較LOB和FLOB,兩個分別代表1961年和1991年英國英語書面語的語料庫,試圖發(fā)現(xiàn)這30年間英國英語書面語的語法變化軌跡。這正是利奇擅長從事的研究——英語語言的描寫。這個研究得到了藝術(shù)與人文科學(xué)研究理事會(Arts and Humanities Research Board,AHRB)的支持。
后來,利奇從利華休姆基金(Leverhulme Trust)獲得資助,并與Nick Smith以及Paul Rayson開展合作,繼續(xù)進(jìn)行現(xiàn)代英語語法變化的研究。他們計劃研發(fā)與Brown和LOB設(shè)計理念相同的一系列可比語料庫。這一類語料庫也被稱作“布朗家族語料庫”。他們完成了一個1931年英國英語書面語的語料庫,取名為B-LOB語料庫(意思是before LOB)。他們還開始了1901年英國英語書面語語料庫的研發(fā),但至今尚未完成。通過比較這些語料庫,研究者可以發(fā)現(xiàn)從20世紀(jì)初到21世紀(jì)初的一百年間英國英語語法發(fā)生的變化,這是一個宏大的研究設(shè)想。
盡管利奇沒有能夠在有生之年完成他的全部設(shè)想,他在這個新領(lǐng)域的探索仍然卓有成效、碩果累累。通過語料庫研究語法歷時變化的課題也成為語料庫語言學(xué)研究中的新熱點。2009年劍橋大學(xué)出版社出版了《當(dāng)代英語中的變化:語法研究》(Change in Contemporary English: A Grammatical Study)。這部著作集中呈現(xiàn)了利奇晚年關(guān)于現(xiàn)代英語語法變化的研究成果。
通信地址:100089 北京市北京外國語大學(xué)中國外語教育研究中心/北京市北京外國語大學(xué)英語學(xué)院