北京外國語大學(xué)/北京理工大學(xué) 閆鵬飛
北京理工大學(xué) 謝文龍
提要:基于學(xué)術(shù)英語研究的理論價值和實(shí)踐意義,本文詳細(xì)介紹了MatDEAP材料科學(xué)學(xué)術(shù)英語語料庫的建庫目標(biāo)、語料來源、目標(biāo)語類、語料采集及清理原則和方法等,并探討了該語料庫的應(yīng)用前景。
學(xué)術(shù)英語作為“學(xué)術(shù)人員為推進(jìn)學(xué)科發(fā)展而進(jìn)行知識構(gòu)建、信息交流與學(xué)術(shù)傳播所使用的英語變體”(衛(wèi)乃興 2016:271),具有重要的語言學(xué)地位和理論研究價值。首先,學(xué)術(shù)話語參與者的專業(yè)身份、所述命題的特有屬性以及話語行為的約定功能,均突顯學(xué)術(shù)英語的情境范疇和交際維度,是典型的受限語言(Firth 1968:98-112)。以學(xué)術(shù)英語中頗具代表性的科學(xué)文本為例,Harris(1991:18-21)明確指出,科學(xué)語言(science languages)作為一種子語言(sublanguage),其語法特征與整體語言語法(the grammar of the whole language)之間只是同宗、同源,并非子集與全集的關(guān)系。除細(xì)節(jié)差異外,科學(xué)語言的語法特征表現(xiàn)出諸多特有屬性,如特定的詞匯類型及搭配傾向、有限的句子類型及依存關(guān)系。Sinclair(2004:69-72)在對文本結(jié)構(gòu)的論述中也提及,語言活動大多具有目的性,依靠受限于語境(即語境共現(xiàn))的一整套特定形式以表述、構(gòu)建完整的意義與功能,并據(jù)此倡導(dǎo)開展各種具體語境中的語言變體研究。而基于語域變異分析路徑,Biber(2012:18-34)則指出,語域?qū)τ诿鑼懪c探究詞語搭配、短語序列、語法形式以及相互之間的結(jié)構(gòu)關(guān)聯(lián)和型式互動至關(guān)重要。例如,書面學(xué)術(shù)語篇中的介詞短語大體表現(xiàn)為相對固定的功能詞序列及其中嵌套的可填充多種實(shí)詞型式的語法槽位,并進(jìn)而呈現(xiàn)出與名詞短語的對接傾向,由此構(gòu)成這一語域突顯的詞匯語法局部特征。由此可見,學(xué)術(shù)英語對于探究情境意義構(gòu)建具有重要的理論價值。
科學(xué)研究和學(xué)術(shù)交流的國際化趨勢對專業(yè)人員尤其是大學(xué)生的學(xué)術(shù)交際能力提出了很高要求,也由此突顯了學(xué)術(shù)英語研究的教學(xué)應(yīng)用價值和實(shí)踐指導(dǎo)意義??v觀世界知名的三大科技文獻(xiàn)檢索系統(tǒng)SCI、EI和ISTP,90%以上的文獻(xiàn)是用英文撰寫發(fā)表。其中,最具代表性和權(quán)威性的SCI所收錄的英文文獻(xiàn)占比更是高達(dá)95%以上。在英語作為國際學(xué)術(shù)通用語的背景下,專業(yè)人員的學(xué)術(shù)交際能力突出體現(xiàn)為遵守學(xué)術(shù)共同體行為規(guī)范,善于從英文文獻(xiàn)中汲取學(xué)術(shù)前沿信息并能夠?qū)⒆陨砜蒲邪l(fā)現(xiàn)用英文撰寫與發(fā)表。學(xué)術(shù)話語作為專業(yè)人員的“集體社會活動”(Hyland 2004:148),其交際意圖、篇章組織和語言形式必然呈現(xiàn)互動性、規(guī)約性和指向性。首先,學(xué)術(shù)語篇的交互意圖不只表現(xiàn)于專業(yè)信息的傳遞和客觀命題的論述,還體現(xiàn)為話語主體的“立場”和“介入”(Hyland 2005:176),即學(xué)術(shù)立場與主觀視角的建構(gòu)。其次,基于交際意圖和科學(xué)思維,學(xué)術(shù)話語的篇章組織一定程度上呈現(xiàn)出部分共性結(jié)構(gòu)與模式,如研究論文的IMRD結(jié)構(gòu)(Introduction、Methods、Results和Discussion)及其引言部分的CARS模式(Create-a-Research-Space,即確定研究領(lǐng)域—基于文獻(xiàn)回顧指出研究空間—明確研究目標(biāo)并占據(jù)此研究空間)(Swales 1990:134;Swales & Feak 1994:174)。當(dāng)然,由于研究對象和范式的不同,各個學(xué)科的學(xué)術(shù)語篇所采用的語步結(jié)構(gòu)和組織策略也存在差異。例如,能源工程領(lǐng)域研究論文傾向于將研究結(jié)果和討論歸為一體,其中所含“結(jié)果報道、解釋和評價”三個語步呈現(xiàn)整體循環(huán)模式而非單向線性軌跡(Ye 2019)。最后,學(xué)術(shù)語篇的語言特征除反映客觀命題和專業(yè)信息外,更指向旨在構(gòu)建的交際意圖和立場態(tài)度,并具體表現(xiàn)為詞匯、短語、語法、句法、語義等多維度特征的聚類傾向。例如,材料科學(xué)領(lǐng)域研究論文的引言部分傾向于綜合使用第一人稱復(fù)數(shù)形式we、指示代詞、形容詞與名詞作定語的復(fù)雜短語、無主被動式、be動詞作主動詞的句式和程度意義副詞等多種語言手段,以期拉近與讀者之間的距離,極力突出自身話語主體地位的同時又嘗試較為低調(diào)、客觀地表述所持觀點(diǎn)。鑒于上述學(xué)術(shù)文本的特有內(nèi)涵與屬性,作為高等教育重要組成部分的大學(xué)英語,順應(yīng)學(xué)術(shù)交流國際化趨勢并滿足學(xué)生學(xué)業(yè)發(fā)展切實(shí)需求,其側(cè)重點(diǎn)應(yīng)該調(diào)整至學(xué)術(shù)英語(孫有中、李莉文 2011;葉云屏 2013;蔡基剛 2014;衛(wèi)乃興 2016),瞄準(zhǔn)其中的交際功能、語篇組織和語言特征開展教學(xué),以高效培養(yǎng)學(xué)生的學(xué)術(shù)交際能力,持續(xù)助力其專業(yè)學(xué)習(xí)與科研實(shí)踐。
對于學(xué)術(shù)語篇的交際功能、語篇組織和語言特征研究,尤其是涉及不同學(xué)科領(lǐng)域的對比分析,內(nèi)省數(shù)據(jù)顯然先天不足,而語料庫作為可靠的數(shù)據(jù)源,其所包含的大量、真實(shí)且具有較好代表性的語言樣本,為語言觀察、描寫及概括提供了可靠依據(jù)。一定程度上講,基于語料庫中的言語事實(shí)和從言語事實(shí)中歸納出來的語言理論將逐漸成為主流(梁茂成 2010)。因此,對于學(xué)術(shù)英語研究而言,基于大批量文本和計算機(jī)技術(shù)的數(shù)據(jù)挖掘及語言學(xué)解讀毋庸置疑是其主要路徑和發(fā)展方向之一。已有的學(xué)術(shù)英語研究較多涉及語言學(xué)(如Yang & Allison 2003;Lorés 2004;Liang 2015)、醫(yī)學(xué)(如Nwogu 1997;Skelton & Edwards 2000;許家金2017)、生物化學(xué)(如Kanoksilapatham 2005)、生物醫(yī)學(xué)(如Saber 2012;Kanoksilapatham 2015)、社會學(xué)(如Brett 1994)、教育學(xué)(如Basturkmen 2009)、電氣工程(如Hyland 2008),計算機(jī)科學(xué)(如Posteguillo 1999)、軟件工程(如Kanoksilapatham 2015)、能源工程(如Ye 2019)等,而涉及材料科學(xué)領(lǐng)域尤其是基于較大批量語料的實(shí)證研究相對較少。鑒于材料科學(xué)的基礎(chǔ)性、前沿性和交叉性,也為推動這一學(xué)科領(lǐng)域的學(xué)術(shù)英語教學(xué)與研究,我們創(chuàng)建了MatDEAP材料科學(xué)學(xué)術(shù)英語語料庫。本文將詳細(xì)介紹其建庫目標(biāo)、語料采集方案、文本清理原則及方法等,并探討其應(yīng)用方向和實(shí)踐意義。
在北京外國語大學(xué)中國外語與教育研究中心DEAP學(xué)術(shù)英語語料庫(Database of English for Academic Purposes)的總體框架下,MatDEAP材料科學(xué)學(xué)術(shù)英語語料庫旨在創(chuàng)建能夠較好代表材料科學(xué)學(xué)科領(lǐng)域及其研究方向、選自SCI高影響因子英文國際期刊、涵蓋研究論文等主要語類的全文語料庫,以期深度助力學(xué)術(shù)英語教學(xué)與研究。初步建成的MatDEAP語料庫源自材料科學(xué)6大學(xué)科方向及領(lǐng)域的18種高影響因子英文國際期刊,包括研究論文、綜述文章、通訊文章、快報和前瞻性文章5種語類,共計901個文本、庫容5,249,032詞次(見表1)。
表1 MatDEAP材料科學(xué)學(xué)術(shù)英語語料庫構(gòu)成
(待續(xù))
(續(xù)表)
依據(jù)建庫目標(biāo),首先,MatDEAP材料科學(xué)學(xué)術(shù)英語語料庫須能夠較好反映這一學(xué)科的專業(yè)內(nèi)涵,體現(xiàn)這一學(xué)科的研究特色。本項(xiàng)目依據(jù)國務(wù)院學(xué)位委員會第六屆學(xué)科評議組編寫的《學(xué)位授予和人才培養(yǎng)一級學(xué)科簡介》,對標(biāo)其中0805材料科學(xué)與工程學(xué)科內(nèi)涵和范圍,確定材料物理與化學(xué)、材料學(xué)、材料加工工程、高分子材料與工程、資源循環(huán)科學(xué)與工程5大學(xué)科方向。此外,鑒于近些年納米材料研究的前沿性和交叉性,并經(jīng)由北京理工大學(xué)材料學(xué)院部分專業(yè)教授和博士生提供專業(yè)咨詢,本項(xiàng)目在上述學(xué)科方向基礎(chǔ)上增列納米材料科學(xué)這一熱點(diǎn)領(lǐng)域,由此構(gòu)成材料科學(xué)的6大學(xué)科方向及領(lǐng)域(見表1)。
其次,MatDEAP語料庫須能夠較好代表這一學(xué)科權(quán)威、主流的學(xué)術(shù)交流渠道和知識構(gòu)建形式。本項(xiàng)目依據(jù)Web of Science 2017年期刊引文報告、期刊簡介及征稿范圍,并經(jīng)專業(yè)人士提供指導(dǎo),針對每個學(xué)科方向及領(lǐng)域選取3種高影響因子英文國際期刊,最終確定18種語料來源期刊,涵蓋Nature、Elsevier、ACS(American Chemical Society)、Wiley和RSC(Royal Society of Chemistry)5大知名出版商(見表1)。
基于前期調(diào)研,本項(xiàng)目語料采集聚焦上述期刊所收錄的5種主要語類,中英文名稱及編碼分別為研究論文(research article,簡稱RA)、綜述文章(review article,簡稱RV)、包含快訊和短訊在內(nèi)的通訊文章(communication,簡稱CM)、快報(letter,簡稱LT)和前瞻性文章(perspective,簡稱PP)。其中,不同出版商和學(xué)術(shù)期刊對研究論文的語類標(biāo)簽不盡一致,具體包括research article、research paper、original research article、full-length paper以 及 部 分 期刊中的article等。本語料庫創(chuàng)建過程中將上述標(biāo)簽統(tǒng)一為研究論文(research article)。目標(biāo)語類不包括占比極小或不具代表性的評論文章(comment)、進(jìn)展報告(progress report)、專題文章(feature article)、新聞觀點(diǎn)(news、views)等。除此之外,目標(biāo)語類也不包括以下3 種類型:(1)文本長度明顯較短,如全文不超過5段內(nèi)容且沒有劃分語篇結(jié)構(gòu);(2)全文沒有引用或提供參考文獻(xiàn);(3)文本中個別語篇結(jié)構(gòu)簡略表述為一兩句話。例如,部分期刊文章的研究方法部分為All experimental details are included in the Supporting Information,而Supporting Information通常為PDF、Excel、圖片或視頻格式,其中所含信息不便于或無法進(jìn)行有效采集。
本項(xiàng)目在語料采集過程中遵循最大程度全文原則,即盡可能保留全部文本信息,但不包括參考文獻(xiàn)、附件形式的Supporting Information及其他附加信息如Rights and Permissions、About This Article、Further Reading等。
鑒于筆者所在學(xué)校圖書館購買了建庫涉及的所有數(shù)據(jù)庫,為了保證語料采集效率和質(zhì)量,本項(xiàng)目通過網(wǎng)頁鏈接直接抓取所需文章,一定程度上規(guī)避了PDF文件在格式轉(zhuǎn)換過程中可能出現(xiàn)的亂碼、錯行等問題。同時,為了規(guī)避網(wǎng)頁中的噪聲,語料采集流程進(jìn)一步細(xì)化為按照表2所列語篇結(jié)構(gòu)逐一復(fù)制至本地。
表2 MatDEAP期刊文章所含語篇結(jié)構(gòu)類型
除文章題目、作者及所屬單位、摘要和關(guān)鍵詞外,不同數(shù)據(jù)庫、英文期刊和語篇類型所包含的語篇結(jié)構(gòu),既有共性成分,也有局部差異。例如,實(shí)證研究論文正文從內(nèi)容屬性上講,基本包括引言、研究方法、結(jié)果(及討論)、結(jié)論等語篇結(jié)構(gòu),但各個部分的具體標(biāo)簽和組合方式也呈現(xiàn)明顯差異。例如,Nature Materials所收錄研究論文的引言部分標(biāo)記為Main,而非傳統(tǒng)的Introduction。語料庫檢索還發(fā)現(xiàn),研究方法的語篇標(biāo)簽大體可分為材料與方法(materials and methods)、實(shí)驗(yàn)部分(experimental section)和實(shí)驗(yàn)建模(experimental modelling)三類,體現(xiàn)了這一學(xué)科知識構(gòu)建的不同范式和路徑,即以實(shí)驗(yàn)為主導(dǎo)的歸納研究、交叉驗(yàn)證和模型構(gòu)建。除共有語篇結(jié)構(gòu)外,所采集文本依據(jù)期刊格式要求和具體交際意圖也凸顯部分非特有結(jié)構(gòu),如文章亮點(diǎn)(Highlights)、專業(yè)術(shù)語(Nomenclature)、廣義研究價值(Broader Context)、研究應(yīng)用(Applications)、觀點(diǎn)/展望(Outlook/Perspective)等。
依照上述最大程度全文原則和語料抓取流程,本項(xiàng)目以實(shí)際采集時間為準(zhǔn),選取各個期刊最新的卷及(或)期,其中不包括特刊與專刊,根據(jù)文章發(fā)表時間由近及遠(yuǎn)采集50余篇目標(biāo)語類文本;與此同時,詳細(xì)記錄各個文本的學(xué)科方向、來源期刊、出版商、文章題目、語篇類型、URL地址等,最終匯總生成Excel元信息表。
所采集期刊文章按照“學(xué)科方向_期刊序號_語類及編號”格式統(tǒng)一命名,以簡明標(biāo)記文本主要外部屬性,從而便于后續(xù)批量提取特定類別。例如,“MPC_J1_RA10”指材料物理與化學(xué)這一學(xué)科方向第1本期刊中的第10篇研究論文;“MSS_J2_RV05”指材料學(xué)方向第2本期刊中的第5篇綜述文章;“NMS_J3_CM02”指納米材料科學(xué)方向第3本期刊中的第2篇通訊文章。
語料庫建設(shè)較多采用的純文本格式對于文本修飾、圖形符號、特殊字符的顯示存在一定局限性,因此本項(xiàng)目在語料清理過程中遵循最大程度原文原則,盡可能保留期刊文章中的結(jié)構(gòu)信息和專業(yè)內(nèi)容。
第一,公式符號相對而言是理工科學(xué)術(shù)語篇的主要特點(diǎn)之一,也是文本清理的最大難點(diǎn)。對于公式符號的處理,本項(xiàng)目未采取直接整體刪除的方式,而是通過批量排查和人工核對,在保證語法準(zhǔn)確、句法結(jié)構(gòu)和語義表述相對完整的同時,替換或簡化圖形格式及特異字符,以最大程度地保留專業(yè)信息。以數(shù)學(xué)公式為例,若是圖片格式,依據(jù)其單復(fù)數(shù)替換為FORMULA或FORMULAS;若是文本格式,依據(jù)其句法功能保留結(jié)構(gòu)信息、簡化函數(shù)參數(shù)或替換特異符號。數(shù)學(xué)公式具有多重句法功能,既可單獨(dú)作主句,也可作賓語從句、同位語從句或表語從句;既可充當(dāng)主語,也可充當(dāng)賓語、同位語、或與介詞搭配構(gòu)成狀語和定語成分。數(shù)學(xué)公式的多重句法功能詳見圖1檢索等號“=”生成的部分索引行。
圖1 數(shù)學(xué)公式的多重句法功能:以檢索“=”為例
第二,除公式符號外,圖表與表格的清理過程也盡可能保留部分專業(yè)信息。材料科學(xué)期刊文章中的圖表表格主體部分多為圖片,格式無法復(fù)制、內(nèi)容無法采集,因此只能保留標(biāo)題及注釋。
第三,材料科學(xué)學(xué)術(shù)語篇中的文獻(xiàn)引用標(biāo)記大多采用數(shù)字編排格式。為了用于可能的文獻(xiàn)引用、言據(jù)性和評價意義研究,本項(xiàng)目語料采集及清理過程中保留了文中引用標(biāo)記。但是,考慮到文中引用尤其是處于句中非標(biāo)點(diǎn)符號位置的數(shù)字標(biāo)記對于連續(xù)文本的形式分割和結(jié)構(gòu)異化,以及由此可能導(dǎo)致的語料檢索時型式無法匹配、詞性賦碼和句法剖析等語料標(biāo)注時精度無法保證等諸多問題,后續(xù)實(shí)證分析或許需要依據(jù)具體研究目的及語料加工程度對之進(jìn)行批量刪除。
第四,文本清理過程中還發(fā)現(xiàn)部分網(wǎng)頁導(dǎo)讀指示語,諸如“Open in figure viewer PowerPoint”“Download high-res image (1MB)”“Download full-size image”“(see details in Supporting information)”“Supporting information is available from the Wiley Online Library or from the author.”“(For interpretation of the references to colour in this figure legend,the reader is referred to the web version of this article.)”等。期刊排版提供的上述指示語旨在引導(dǎo)讀者更好了解所讀文獻(xiàn)的部分細(xì)節(jié)和附加信息,并非期刊文章旨在傳遞的專業(yè)信息和構(gòu)建的學(xué)科知識,因此也最大程度地予以清除。最后,本項(xiàng)目對于語料中的其他問題如非正常斷行與換行、標(biāo)點(diǎn)符號編碼不一致等也進(jìn)行了批量排查和替換。
總之,本項(xiàng)目語料清理遵循最大程度原文原則,人工排查和批量檢索相結(jié)合,并具體表現(xiàn)為“發(fā)現(xiàn)問題—觀察索引行—編寫正則式—提取目標(biāo)項(xiàng)—解決問題”的N次循環(huán),力求保留所采集語料的結(jié)構(gòu)信息和專業(yè)內(nèi)容。當(dāng)然,語料清理尤其是涉及特定學(xué)科領(lǐng)域的專業(yè)文獻(xiàn),難免存在疏漏和不當(dāng),還懇請后續(xù)使用MatDEAP的專家學(xué)者、專業(yè)人士諒解并指正。
作為北京外國語大學(xué)中國外語與教育研究中心DEAP學(xué)術(shù)英語語料庫的重要組成部分,MatDEAP材料科學(xué)學(xué)術(shù)英語語料庫對學(xué)術(shù)英語理論研究與教學(xué)實(shí)踐具有重要的價值和意義。首先,MatDEAP提供了新的對比視角。不論作為參照庫抑或觀察庫,MatDEAP可用于開展學(xué)科之間以及學(xué)科內(nèi)部的語類對比研究,也可用于基于作者國別屬性或語言能力的對比分析,如中外學(xué)者、專家與新手學(xué)術(shù)文本特征研究。其次,MatDEAP提供了新的研究維度。后續(xù)研究可聚焦這一學(xué)科領(lǐng)域特定的微觀語言特征和語篇組織策略,也可推進(jìn)探究諸多語篇互動背后的交際目的與功能,并最終嘗試歸納這一學(xué)科相較于其他學(xué)科而言共有和特有的知識構(gòu)建特征與方式。最后,基于語料庫語言學(xué)研究范式的形式分析和意義解讀,MatDEAP可呈現(xiàn)與這一學(xué)科顯著共現(xiàn)的詞匯、短語、語法、句法和語篇特征以及在此基礎(chǔ)之上的語義和功能傾向,從而為學(xué)術(shù)英語教學(xué)提供語言形式、意義和功能均較為典型的真實(shí)材料。