西南財(cái)經(jīng)大學(xué) 劉 霞 韓光菊
提要:國(guó)內(nèi)外學(xué)術(shù)英語(yǔ)研究受到了越來(lái)越多的重視,學(xué)者們構(gòu)建了多個(gè)學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù),但其中經(jīng)濟(jì)管理相關(guān)學(xué)科的語(yǔ)料并不多,而且目前并未有經(jīng)過(guò)語(yǔ)步標(biāo)注的大型語(yǔ)料庫(kù)。DEAP是首個(gè)經(jīng)過(guò)語(yǔ)步標(biāo)注的大型學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù),包含了不同學(xué)科的子庫(kù),EconDEAP經(jīng)濟(jì)學(xué)學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)就是其中之一。本文介紹了EconDEAP語(yǔ)料庫(kù)的語(yǔ)料來(lái)源、語(yǔ)料采集、文本清理等,尤其對(duì)語(yǔ)步結(jié)構(gòu)的標(biāo)注和校對(duì)進(jìn)行了詳細(xì)說(shuō)明,最后探討了該語(yǔ)料庫(kù)對(duì)學(xué)術(shù)英語(yǔ)教學(xué)與研究的意義。
隨著國(guó)內(nèi)外學(xué)術(shù)界對(duì)ESP寫(xiě)作教學(xué)與研究的重視日益增加,語(yǔ)料庫(kù)ESP研究在過(guò)去10年間越來(lái)越多。3本語(yǔ)料庫(kù)專(zhuān)刊以及4本ESP專(zhuān)刊在Web of Science數(shù)據(jù)庫(kù)中共檢索到2009—2018年發(fā)表的文章1,309篇,語(yǔ)料庫(kù)ESP相關(guān)研究達(dá)到249篇,占了近20%,其中,絕大部分是語(yǔ)料庫(kù)學(xué)術(shù)英語(yǔ)研究。
相較于其他的數(shù)據(jù)源,語(yǔ)料庫(kù)對(duì)學(xué)術(shù)英語(yǔ)研究有著無(wú)可比擬的優(yōu)勢(shì)。首先,語(yǔ)料庫(kù)提供了大量且真實(shí)的語(yǔ)言數(shù)據(jù),以從數(shù)據(jù)中總結(jié)規(guī)律,完善或驗(yàn)證理論,從而達(dá)到更加科學(xué)的研究目的。其次,隨著計(jì)算機(jī)技術(shù)的發(fā)展,語(yǔ)料庫(kù)分析技術(shù)層出不窮,這些技術(shù)為研究者更加高效地分析語(yǔ)料庫(kù)數(shù)據(jù)提供了便利。
構(gòu)建語(yǔ)料庫(kù)是語(yǔ)料庫(kù)研究的基礎(chǔ)。國(guó)內(nèi)外構(gòu)建了很多ESP專(zhuān)用英語(yǔ)語(yǔ)料庫(kù),其中大部分是學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)(見(jiàn)表1)。表1列舉的學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)中,有10億級(jí)的語(yǔ)料庫(kù),如Google scholar語(yǔ)料庫(kù)和維基百科語(yǔ)料庫(kù),但相關(guān)人員沒(méi)有對(duì)語(yǔ)料進(jìn)行科學(xué)取樣,更沒(méi)有平衡各個(gè)學(xué)科和體裁。其余的語(yǔ)料庫(kù)均屬于百萬(wàn)級(jí)的,絕大部分包含了經(jīng)濟(jì)學(xué)或管理學(xué)學(xué)科的語(yǔ)料,但經(jīng)管類(lèi)的語(yǔ)料總詞數(shù)不到百萬(wàn),更重要的是,這些語(yǔ)料沒(méi)有進(jìn)行語(yǔ)步標(biāo)注。
表1 現(xiàn)有學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)概況
John Swales 在1981年首次提出語(yǔ)步分析法(move analysis),至今,該方法仍是學(xué)術(shù)英語(yǔ)研究中影響最大、使用最多的研究方法,Swales(2004)仍是近10年語(yǔ)料庫(kù)ESP研究被引用最多的文獻(xiàn)。該方法認(rèn)為學(xué)術(shù)論文一般由引言(Introduction)、方法(Methods)、結(jié)果(Results) 和討論(Discussion)四大部分構(gòu)成,因此被稱(chēng)為IMRD模型。語(yǔ)步分析的目的是“為了通過(guò)分析語(yǔ)篇結(jié)構(gòu),弄清楚語(yǔ)類(lèi)是如何通過(guò)語(yǔ)步和小步被組織起來(lái)并實(shí)現(xiàn)交際目的”(Bhatia 1993:13)。了解并掌握語(yǔ)類(lèi)的語(yǔ)篇組織結(jié)構(gòu),能極大提高作者寫(xiě)作時(shí)篇章的組織能力,增加讀者在閱讀時(shí)對(duì)語(yǔ)篇連貫的整體把握(Swales 1990:190)。只是,語(yǔ)步分析法過(guò)度依賴(lài)手工標(biāo)注,很難進(jìn)行大規(guī)模的語(yǔ)篇分析,即便是Swales(1981)的開(kāi)創(chuàng)性研究也僅分析了48篇學(xué)術(shù)論文的引言部分,就得出了著名的CARS(Creating A Research Space)模型。如果能結(jié)合語(yǔ)料庫(kù)與語(yǔ)步分析法,一方面,能夠客觀地發(fā)現(xiàn)語(yǔ)言特征在語(yǔ)篇內(nèi)部的分布(梁茂成、劉霞 2014);另一方面,通過(guò)分析大量真實(shí)的經(jīng)過(guò)科學(xué)抽樣的語(yǔ)料,能夠印證Swales(1990)關(guān)于語(yǔ)步由特有的語(yǔ)言特征實(shí)現(xiàn)的思想,為下一步研究語(yǔ)步和語(yǔ)言特征的關(guān)系奠定了基礎(chǔ)。此外,由機(jī)器自動(dòng)切分語(yǔ)步已經(jīng)成為可能(劉霞2017),但在建模之前,仍然需要大規(guī)模人工標(biāo)注過(guò)語(yǔ)步的語(yǔ)料作為學(xué)習(xí)語(yǔ)料。經(jīng)過(guò)語(yǔ)步標(biāo)注的DEAP語(yǔ)料庫(kù),能夠?yàn)橄乱徊綄?shí)現(xiàn)多個(gè)學(xué)科語(yǔ)篇自動(dòng)切分提供大量的學(xué)習(xí)語(yǔ)料。
EconDEAP共收錄了74 種國(guó)際經(jīng)濟(jì)學(xué)期刊在2015—2018 年發(fā)表的研究論文631篇,其中研究論文525篇,綜述以及觀點(diǎn)性的論文101篇,書(shū)評(píng)5篇,總?cè)萘考s為650 萬(wàn)詞。
EconDEAP語(yǔ)料庫(kù)的創(chuàng)建包括語(yǔ)料的搜集、語(yǔ)篇的人工標(biāo)注,以及兩次校對(duì)。其中,語(yǔ)料的搜集和語(yǔ)篇的標(biāo)注由某財(cái)經(jīng)大學(xué)的7位經(jīng)濟(jì)學(xué)方向的研究生完成。他們來(lái)自經(jīng)濟(jì)學(xué)方向6個(gè)不同的二級(jí)學(xué)科,包括金融學(xué)、財(cái)政學(xué)、稅收學(xué)、保險(xiǎn)學(xué)、經(jīng)濟(jì)統(tǒng)計(jì)學(xué)和產(chǎn)業(yè)經(jīng)濟(jì)學(xué)。然后由3位英語(yǔ)專(zhuān)業(yè)的研究生校對(duì)語(yǔ)篇格式,最后由研究者本人進(jìn)行所有語(yǔ)料語(yǔ)篇結(jié)構(gòu)標(biāo)注方面的校對(duì)。
語(yǔ)料庫(kù)的代表性是語(yǔ)料庫(kù)建設(shè)者需要關(guān)注的首要問(wèn)題。語(yǔ)料庫(kù)的代表性是指一個(gè)語(yǔ)料庫(kù)在多大程度上能夠代表一種語(yǔ)言或語(yǔ)言變體中各種不同的語(yǔ)言現(xiàn)象(Biber 1993)。本語(yǔ)料庫(kù)的代表性主要體現(xiàn)在學(xué)科、體裁和時(shí)效性三個(gè)方面。
首先,國(guó)內(nèi)外對(duì)經(jīng)濟(jì)學(xué)的學(xué)科分類(lèi)目前仍存在較大爭(zhēng)議(樊綱 2001)。本語(yǔ)料庫(kù)的創(chuàng)建是為了服務(wù)于國(guó)內(nèi)經(jīng)濟(jì)學(xué)學(xué)術(shù)英語(yǔ)的教學(xué)與科研,故我們選擇了教育部2013年《學(xué)位授予和人才培養(yǎng)學(xué)科目錄》中的學(xué)科分類(lèi),確定了經(jīng)濟(jì)學(xué)一級(jí)學(xué)科“理論經(jīng)濟(jì)學(xué)”(代碼0201)下設(shè)的5個(gè)二級(jí)學(xué)科(政治經(jīng)濟(jì)學(xué)、經(jīng)濟(jì)史、EconDEAP經(jīng)濟(jì)學(xué)學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)的創(chuàng)建西方經(jīng)濟(jì)學(xué)、世界經(jīng)濟(jì)學(xué)、人口資源與環(huán)境經(jīng)濟(jì)學(xué))和“應(yīng)用經(jīng)濟(jì)學(xué)”(代碼0202)下設(shè)的13個(gè)二級(jí)學(xué)科(國(guó)民經(jīng)濟(jì)學(xué)、區(qū)域經(jīng)濟(jì)學(xué)、財(cái)政學(xué)、金融學(xué)、產(chǎn)業(yè)經(jīng)濟(jì)學(xué)、國(guó)際貿(mào)易學(xué)、勞動(dòng)經(jīng)濟(jì)學(xué)、經(jīng)濟(jì)統(tǒng)計(jì)學(xué)、數(shù)量經(jīng)濟(jì)學(xué)、國(guó)防經(jīng)濟(jì)學(xué)、保險(xiǎn)學(xué)、金融工程、稅收學(xué)),共計(jì)18個(gè)二級(jí)學(xué)科,作為經(jīng)濟(jì)學(xué)學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)涵蓋的學(xué)科方向。但以國(guó)內(nèi)的經(jīng)濟(jì)學(xué)學(xué)科分類(lèi)為指導(dǎo)建庫(kù),就要面臨如何確定每個(gè)學(xué)科對(duì)應(yīng)的國(guó)際全文期刊的問(wèn)題。我們根據(jù)美國(guó)科學(xué)情報(bào)研究所(Institute for Scientific Information,簡(jiǎn)稱(chēng)ISI)編制的Web of Science引文數(shù)據(jù)庫(kù)中的期刊引文報(bào)告(Journal Citation Report,簡(jiǎn)稱(chēng)JCR),選擇了經(jīng)濟(jì)學(xué)方向綜合影響因子最高的前100本期刊,再參考國(guó)內(nèi)某財(cái)經(jīng)大學(xué)提供的經(jīng)濟(jì)學(xué)各個(gè)二級(jí)學(xué)科的期刊目錄,并由參與數(shù)據(jù)搜集的經(jīng)濟(jì)學(xué)方向的研究生請(qǐng)教為他們授課的教授,共同確定了這18個(gè)經(jīng)濟(jì)學(xué)二級(jí)學(xué)科各自最權(quán)威的期刊3—5本(詳見(jiàn)表2)。從表2可以看出,有些經(jīng)濟(jì)學(xué)的綜合性權(quán)威期刊,如Quarterly Journal of Economics會(huì)出現(xiàn)在多個(gè)二級(jí)學(xué)科。在選擇文章時(shí),我們請(qǐng)同學(xué)們根據(jù)各自的研究背景,閱讀標(biāo)題和摘要,判斷該論文的內(nèi)容是否屬于這個(gè)二級(jí)學(xué)科,以示區(qū)分。
其次,為了盡可能平衡語(yǔ)料的體裁,同時(shí)又體現(xiàn)經(jīng)濟(jì)學(xué)學(xué)科的實(shí)際特點(diǎn),我們預(yù)先請(qǐng)每位同學(xué)搜集45篇論文,其中,研究論文25篇,觀點(diǎn)性論文15篇,書(shū)評(píng)5篇,但同學(xué)們?cè)谒鸭倪^(guò)程中反饋大部分期刊沒(méi)有書(shū)評(píng),而觀點(diǎn)性論文不容易區(qū)分,后期審校時(shí)發(fā)現(xiàn)不少觀點(diǎn)性論文仍為研究論文,因此出現(xiàn)了表1中觀點(diǎn)性論文較少,書(shū)評(píng)極少的現(xiàn)象,這也從一定程度上代表了經(jīng)濟(jì)學(xué)期刊論文發(fā)表的現(xiàn)狀。最后,為了體現(xiàn)語(yǔ)料的時(shí)效性,我們只選取了2015—2018(主要為2016—2018年)出版的論文,見(jiàn)表2。
表2 經(jīng)濟(jì)學(xué)學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)來(lái)源期刊
(待續(xù))
(續(xù)表)
(待續(xù))
(續(xù)表)
目標(biāo)期刊確定后,語(yǔ)料的收集相對(duì)容易,只需要按照目標(biāo)期刊,從數(shù)據(jù)庫(kù)檢索并下載即可。但下載的PDF格式的論文,若批量轉(zhuǎn)換為純文本格式進(jìn)行人工標(biāo)注,在純文本格式下閱讀文本再標(biāo)注就有極大的困難,且會(huì)影響標(biāo)注結(jié)果。于是我們參考Swales(1990)提出的學(xué)術(shù)論文的宏觀結(jié)構(gòu)IMRD模型,結(jié)合經(jīng)濟(jì)學(xué)學(xué)術(shù)語(yǔ)篇的實(shí)際結(jié)構(gòu),預(yù)先確定了大部分語(yǔ)篇共有的原型結(jié)構(gòu),制作成WORD模板,并高亮顯示開(kāi)關(guān)閉符,方便同學(xué)們直接將原文每個(gè)部分的語(yǔ)言文字內(nèi)容復(fù)制粘貼到對(duì)應(yīng)的開(kāi)關(guān)閉符中。該模板既包括了語(yǔ)篇的元信息,如journal、title、authors and affiliations、correspondence、appendix,也包含了經(jīng)濟(jì)學(xué)學(xué)術(shù)語(yǔ)篇原型結(jié)構(gòu)的幾個(gè)語(yǔ)步結(jié)構(gòu)信息,如:abstract、keywords、introduction、methods、model、results、robustness、conclusion、references。這種復(fù)制粘貼的方式,雖然比下載后批量轉(zhuǎn)換費(fèi)時(shí)間,但是避免了因?yàn)闆](méi)有語(yǔ)料標(biāo)注經(jīng)驗(yàn)而在純文本中進(jìn)行手工標(biāo)注出現(xiàn)的錯(cuò)誤,也避免了容易遺漏開(kāi)始符或關(guān)閉符的問(wèn)題。而且批量轉(zhuǎn)換后的論文,仍然需要人工刪除頁(yè)眉、頁(yè)腳、頁(yè)碼,以及圖表。復(fù)制粘貼的時(shí)候,可以選擇不復(fù)制這些需要?jiǎng)h除的內(nèi)容。此外,我們選擇了復(fù)制網(wǎng)頁(yè)版論文,而不是PDF,因?yàn)閺?fù)制后者,其行尾會(huì)自動(dòng)生成換行符。網(wǎng)頁(yè)版的論文還會(huì)有一個(gè)文章目錄,方便定位到文章的每一個(gè)部分。對(duì)于沒(méi)有網(wǎng)頁(yè)版的論文,則在Sci-Hub網(wǎng)頁(yè)上打開(kāi)全文進(jìn)行復(fù)制,Sci-Hub網(wǎng)頁(yè)上的論文復(fù)制時(shí)會(huì)失去原文應(yīng)有的段尾換行符,將所有復(fù)制的內(nèi)容合并為一段,于是我們選擇了一段一段地復(fù)制,或者完整復(fù)制過(guò)來(lái)再分段的方式搜集語(yǔ)料。需要注意的是,我們預(yù)先確定的模板包含的語(yǔ)步結(jié)構(gòu)碼只是代表了大部分語(yǔ)篇共同具有的語(yǔ)步結(jié)構(gòu),即學(xué)術(shù)語(yǔ)篇的原型結(jié)構(gòu),但不能忽略經(jīng)濟(jì)學(xué)學(xué)術(shù)語(yǔ)篇結(jié)構(gòu)的特異性,正如Devitt(2015)所言,語(yǔ)類(lèi)能力是共同的,但實(shí)際語(yǔ)篇中的語(yǔ)類(lèi)應(yīng)用是特異性的,語(yǔ)類(lèi)研究既要發(fā)現(xiàn)語(yǔ)篇中共同的原型結(jié)構(gòu),也不能忽略單個(gè)語(yǔ)篇的特異性。為了既體現(xiàn)每一個(gè)語(yǔ)篇的語(yǔ)步結(jié)構(gòu),又有一個(gè)方便歸類(lèi)的原型結(jié)構(gòu),我們采用了兩級(jí)標(biāo)注碼。例如,如果原文語(yǔ)篇內(nèi)部的標(biāo)題是Methods and data,我們用
語(yǔ)料在搜集完成后,經(jīng)歷了兩次人工校對(duì)。首先由3位英語(yǔ)專(zhuān)業(yè)的研究生對(duì)語(yǔ)料的格式進(jìn)行校對(duì),主要校對(duì)由于公式導(dǎo)致的換行或者句子不完整問(wèn)題。有的同學(xué)在語(yǔ)料搜集時(shí),原文中單獨(dú)成行的公式,沒(méi)有用#E替換,直接選擇跳過(guò)該公式,導(dǎo)致句子不完整,且自動(dòng)分段。于是我們統(tǒng)一使用正則表達(dá)式[w|:|)|,]s* 檢索以上情況,再由人工逐篇判斷該換行符是否屬于原文,如不是,則刪除換行符,并補(bǔ)充#E和句號(hào)或逗號(hào),讓句子保持完整,如將The specification takes the following form:修改為T(mén)he specification takes the following form:#E.。句號(hào)或逗號(hào)根據(jù)上下文進(jìn)行判斷。
校對(duì)完語(yǔ)料格式之后,由研究者批量整理校對(duì)標(biāo)注碼。首先,使用PowerGrep批量檢索所有語(yǔ)料中的開(kāi)關(guān)閉符,判斷開(kāi)關(guān)閉符的數(shù)量是否一致,對(duì)于不一致的,到原文中進(jìn)行修改。其次,在每個(gè)文本中,分別檢索語(yǔ)步結(jié)構(gòu)的標(biāo)注碼,對(duì)于明顯不正確的進(jìn)行修改。
有了EconDEAP經(jīng)濟(jì)學(xué)學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù),研究者能夠進(jìn)行ESP領(lǐng)域的三個(gè)主要研究方面:(1)以Swales(2004)為中心的基于語(yǔ)步分析法的ESP體裁分析研 究;(2)以Simpson-Vlach & Ellis(2010)和Gardner & Davies(2013)為 代表,關(guān)注并優(yōu)化學(xué)術(shù)英語(yǔ)跨學(xué)科的通用核心詞表;(3)由Cortes(2004)、Biberet al.(2006)和Hyland(2008)引導(dǎo)的基于語(yǔ)料庫(kù)的方法,探索學(xué)術(shù)英語(yǔ)語(yǔ)言的學(xué)科差異性研究,并與已經(jīng)建成的醫(yī)學(xué)(馮欣等 2017)、生命科學(xué)(彭工 2018)、語(yǔ)言學(xué)(布占廷等 2018)、軍事學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)(馬曉雷等 2018)進(jìn)行對(duì)比研究。在教學(xué)方面,EconDEAP語(yǔ)料庫(kù)的創(chuàng)建為經(jīng)濟(jì)學(xué)學(xué)術(shù)英語(yǔ)寫(xiě)作的教與學(xué)提供了豐富的語(yǔ)言材料,結(jié)合上述的研究結(jié)論,經(jīng)濟(jì)學(xué)學(xué)術(shù)英語(yǔ)寫(xiě)作的教授和學(xué)習(xí),可以既關(guān)注經(jīng)濟(jì)學(xué)學(xué)術(shù)英語(yǔ)的通用核心詞表,也可以對(duì)比各個(gè)二級(jí)學(xué)科特有的語(yǔ)言現(xiàn)象,利用語(yǔ)料庫(kù)中的語(yǔ)步標(biāo)注信息,關(guān)注這些通用的和特有的語(yǔ)言現(xiàn)象在語(yǔ)篇內(nèi)部的變化。此外,有了大量經(jīng)過(guò)語(yǔ)步標(biāo)注的語(yǔ)料,為下一步構(gòu)建模型,為實(shí)現(xiàn)語(yǔ)步的自動(dòng)分析以及機(jī)器的自動(dòng)標(biāo)注奠定了基礎(chǔ)。
作為DEAP學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)的一個(gè)子庫(kù),EconDEAP經(jīng)濟(jì)學(xué)學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)嚴(yán)格按照預(yù)先制定的統(tǒng)一規(guī)范,在建庫(kù)過(guò)程中,我們得到了多位專(zhuān)家教授的指導(dǎo),同時(shí)與其他子庫(kù)的建設(shè)者共同協(xié)商,以確保子庫(kù)之間的可比性。經(jīng)過(guò)期刊的選擇、語(yǔ)料的搜集與清理、語(yǔ)步的人工標(biāo)注,以及兩次人工校對(duì),我們最終構(gòu)建了國(guó)內(nèi)外首個(gè)經(jīng)過(guò)語(yǔ)步標(biāo)注的經(jīng)濟(jì)學(xué)學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)。該語(yǔ)料庫(kù)與其他學(xué)科的語(yǔ)料庫(kù)一起,將由中國(guó)外語(yǔ)與教育研究中心語(yǔ)料庫(kù)語(yǔ)言學(xué)團(tuán)隊(duì)統(tǒng)一發(fā)布在語(yǔ)料云網(wǎng)站(www.corpuscloud.cn)及BFSU CQPweb平臺(tái)(http://114.251.154.212/cqp/)),供語(yǔ)言研究者、語(yǔ)言教師、學(xué)生、科研人員免費(fèi)使用。