于 麗
(黑龍江大學(xué) 應(yīng)用外語學(xué)院, 黑龍江 哈爾濱 150080)
目前被人們熟知的大規(guī)模英語語料庫有布朗家族(BROWN)、柯林斯-伯明翰大學(xué)國際語言資料庫(COBUILD)、英語國家語料庫(BNC)、美國當代英語語料庫(COCA)等。國內(nèi)較為有代表性的大規(guī)模語料庫有上海交通大學(xué)的中國英語學(xué)習者語料庫(CLEC)、中國學(xué)習者英語口語語料庫(COLSEC)、科技英語語料庫(JDEST),北京外國語大學(xué)的中國學(xué)生英語口筆語語料庫(SWECCL)、漢英對應(yīng)語料庫等。除了大型語料庫外,研究者依據(jù)自身的需要建立的各類小型語料庫也很多,例如,秦建華的美劇字幕語料庫[1]、林美珍的教學(xué)競賽視頻語料庫[2]和李德超等的英語旅游文本類比語料庫[3]等?;谡Z料庫的研究方法已被學(xué)界廣泛接受、認同,研究領(lǐng)域涉及詞典編撰、語言教學(xué)、翻譯、話語分析等多個領(lǐng)域。
從現(xiàn)有的語料庫來看,雖然語料的選取對不同的學(xué)科門類都有所涉及,但限于研究的目的不同,缺少服務(wù)于學(xué)科英語教學(xué)的學(xué)科英語語料庫,尤其是缺少以學(xué)科群為單位建立的語料庫。為此,本研究立足服務(wù)于學(xué)科英語教學(xué),建立以語言學(xué)、心理學(xué)、社會學(xué)與人類學(xué)英語為學(xué)科群的學(xué)科英語語料庫。
語料庫是一種以取樣的方式建立起來的文本或語音信息轉(zhuǎn)寫的集合,用以代表某一特定的語言、語言變體或其他語言范疇?;谡Z料庫的研究是一種通過大量真實的語言材料揭示語言使用規(guī)律的研究,具有概率性和對比參照性。概率性體現(xiàn)為語言選擇的傾向性,以概率的方式表達;對比參照性,是指某一個單獨的概率沒有現(xiàn)實意義,只有在與其他數(shù)值相參照的情況下,才能揭示語言使用的基本規(guī)律。也就是說,研究某一語料庫的語言使用情況,應(yīng)該同時具有一個對比參照語料庫。
從學(xué)科英語語料庫的研究來看,對比可以從多層次展開,根據(jù)國家教育部學(xué)位授予和人才培養(yǎng)學(xué)科目錄(2011年),可以是學(xué)科門類間、同一級別的學(xué)科間、各級別學(xué)科內(nèi)的次級學(xué)科間、學(xué)科群內(nèi)的學(xué)科間等的對比參照。語言學(xué)、心理學(xué)、社會學(xué)和人類學(xué)英語研究的根本目的是為學(xué)科群英語及隸屬學(xué)科英語教學(xué)提供語言學(xué)參考路徑。學(xué)科間的對比參照可以揭示學(xué)科語言的本體特征。但是如果將研究置于教育機制內(nèi)*伯恩斯坦(1990)提出教育機制,認為教育機制包括知識產(chǎn)出域、語境重構(gòu)域和再生產(chǎn)域的實踐,對知識的產(chǎn)生、傳播進行社會學(xué)闡釋。,以服務(wù)于語言教學(xué)為目的,則學(xué)科間的對比參照、確定學(xué)科語言的本體特征只是研究的第一步。對比理應(yīng)進一步發(fā)生在教育機制內(nèi)的知識產(chǎn)出域、語境重置域和再生產(chǎn)域間,形成“學(xué)科語言本體特征-語言教學(xué)內(nèi)容-學(xué)習者產(chǎn)出語言”之間的對比參照,診斷教學(xué)內(nèi)容,調(diào)整教學(xué)話語。為此,以服務(wù)于教學(xué)為根本目的,學(xué)科英語的研究應(yīng)立足于知識產(chǎn)出域,建立語言學(xué)、心理學(xué)、社會學(xué)和人類學(xué)英語語料庫,揭示學(xué)科群英語及其隸屬學(xué)科的本體特征;建立相關(guān)學(xué)科語境重構(gòu)域和知識產(chǎn)出域內(nèi)的英語語料庫;進行教育機制的各實踐域間對比研究;建構(gòu)學(xué)科英語教學(xué)的教學(xué)話語。
通過知識產(chǎn)出域英語語料庫的建設(shè),發(fā)現(xiàn)語言學(xué)、心理學(xué)、社會學(xué)和人類學(xué)英語的本體特征,是后續(xù)研究的基本參照。為此,筆者試從建庫意義、語料選擇的理據(jù)、語料庫的結(jié)構(gòu)與語料來源、語料的整理與標注、標注的準確與一致性等方面逐一論證,對語料庫建設(shè)和后續(xù)統(tǒng)籌進行規(guī)劃,為系列研究提供總體參照。
語言學(xué)、心理學(xué)、社會學(xué)和人類學(xué)分屬于不同的學(xué)科門類,4個學(xué)科在研究方法上相互借鑒,研究內(nèi)容上相互交叉,研究結(jié)果互為佐證,相互促動,并在學(xué)科知識發(fā)展的過程中,突破了原有的學(xué)科界限,形成了交叉學(xué)科和邊緣學(xué)科。四者在知識體系分化的同時,也出現(xiàn)了綜合化的趨勢,具有高度相關(guān)性,在實際研究和應(yīng)用中具有典型的學(xué)科群特征。語言識解經(jīng)驗、學(xué)科在知識體系上的分化與綜合必然體現(xiàn)語言詞匯語法層面選擇概率的趨同與變異。
以學(xué)科群為單位進行語言研究,建立語料庫,并對語料進行系統(tǒng)的語法和語義標注,具有幾方面的意義:能夠揭示學(xué)科群的語言本體特征,深化人們對學(xué)科群語言本體的認識;能夠揭示學(xué)科群內(nèi)隸屬學(xué)科的語言本體特征,深化人們對每個學(xué)科語言本體的認識;對學(xué)科群及其隸屬學(xué)科語言特征的認知,可以加強學(xué)科間的交流和溝通,促進各學(xué)科共同發(fā)展;對語言本體的認知能夠直接服務(wù)于語言教學(xué),使教學(xué)大綱、教材等的設(shè)計和編寫更有針對性和理據(jù)性。
學(xué)科的本質(zhì)是知識分類體系,與知識的生產(chǎn)聯(lián)系在一起[4]。語言學(xué)、心理學(xué)、社會學(xué)和人類學(xué),雖然從學(xué)科的劃分來看,分別隸屬于文學(xué)類、教育學(xué)類和法學(xué)類,但在學(xué)科知識體系的產(chǎn)生、發(fā)展過程中形成了心理語言學(xué)、社會語言學(xué)、人類社會學(xué)、社會心理學(xué)和心理人類學(xué)等多個交叉學(xué)科,當然其學(xué)科歸屬也就存在著不確定性。在學(xué)科知識出現(xiàn)分化與綜合趨勢的同時,用于識解相關(guān)學(xué)科經(jīng)驗的語言及學(xué)科英語詞匯的選擇自然會在所屬群內(nèi)既體現(xiàn)共性,也體現(xiàn)學(xué)科的個體性特征。
學(xué)科英語是識解學(xué)科經(jīng)驗的功能變體,它可以用語場、語旨和語式進行具體說明:語場是物理、生物、社會科學(xué)等領(lǐng)域的知識及其延伸、傳播和探究;語旨涉及講話者與受話者的關(guān)系,包含專家、學(xué)習者、外行3個群體,講話者和受話者可以同屬于一個群體,也可以隸屬于不同的群體;語式涉及語音或書寫,即口語與書面語[5]140。在語場,也就是學(xué)科領(lǐng)域相同的情況下,語旨和語式兩個變量構(gòu)成的不同的組合關(guān)系所產(chǎn)生的話語都屬于該學(xué)科話語的范疇。
一個完整的學(xué)科話語語料庫,理論上應(yīng)該包括系統(tǒng)內(nèi)的所有話語。但在研究實踐中很難一次涉及所有話語范疇,多是優(yōu)先選擇某一話語范疇。語料的選取服務(wù)于研究需要。研究語言學(xué)、心理學(xué)、社會學(xué)和人類學(xué)英語的目的是揭示學(xué)科群及其隸屬學(xué)科英語的語言本體特征,為高校學(xué)科英語課程的設(shè)置和教學(xué)提供語言學(xué)參考路徑,即建庫的根本目的是高校的英語教育。
伯恩斯坦在20世紀90年代提出教育機制(Pedagogic device),將知識的產(chǎn)生與傳播關(guān)聯(lián)起來,認為教育機制包括知識產(chǎn)出域、語境重構(gòu)域和知識再生產(chǎn)域3個領(lǐng)域的實踐,說的是在社會機制調(diào)節(jié)下知識的產(chǎn)生、傳播過程。知識產(chǎn)出域內(nèi)的實踐是新知識的建構(gòu)、改進和定位;語境重構(gòu)域內(nèi)的實踐是對知識產(chǎn)出域內(nèi)話語的選擇、轉(zhuǎn)用(approriated)和轉(zhuǎn)化(transform),使其成為教學(xué)話語,能夠在知識再生產(chǎn)域內(nèi)被傳授和學(xué)習;知識再生產(chǎn)域是教學(xué)實踐發(fā)生的場所[6]206。語境重構(gòu)域和知識再生產(chǎn)域?qū)χR的轉(zhuǎn)化與傳播,以大學(xué)、專門科研機構(gòu)和科學(xué)學(xué)會等知識產(chǎn)出域的知識為前提。語言識解及學(xué)科語言識解經(jīng)驗,既包括學(xué)科知識本身,即語場、經(jīng)驗意義,也必然涉及知識的傳播與交流,即語旨、人際意義。也就是說,教育機制的每一個實踐域,語言都同時識解知識本體和域內(nèi)的人際關(guān)系。即使學(xué)科知識體系相同,域內(nèi)的人際關(guān)系不同,也會產(chǎn)生不同的語言表征形式。學(xué)科語言教育是使學(xué)習者在專業(yè)學(xué)習和職業(yè)崗位等不同語域中能夠用英語有效地進行交流[7]。即學(xué)習者學(xué)習的目的是能夠在知識產(chǎn)出域有效地交流,掌握相關(guān)學(xué)科知識產(chǎn)出域的知識表征方式。每一個學(xué)科知識的傳播,都受教育機制組織的制約。能夠被傳授的語言知識也必然來自知識產(chǎn)出域。為此,以服務(wù)語言教學(xué)為根本目的,語料庫中的語料應(yīng)優(yōu)先選自知識產(chǎn)出域。
知識產(chǎn)出域內(nèi)專家與專家之間的知識傳播與交流,以語式為依據(jù),又可進一步分為口語和書面語。依據(jù)語類,口頭交流中有學(xué)術(shù)報告、交流研討等;書面語涉及到專著、研究報告、學(xué)術(shù)論文等?;趯W(xué)科群語料庫研究的目的和特征,綜合考慮語料選擇的可比性、時代性、代表性、交叉學(xué)科的學(xué)科歸屬性等特征,在語式和語類的選擇上,最權(quán)威的語料是書面語中的學(xué)術(shù)論文。這是因為:
(1) 語類的共享性,所選語料應(yīng)該是各個學(xué)科話語范疇都有所涵蓋的語類,而不應(yīng)該是某一學(xué)科獨特的語類;
(2) 語料的共時性,在眾多語類中,學(xué)術(shù)論文的時效性優(yōu)于專著,同時可避免不同學(xué)科經(jīng)典教材由于出版時間帶來的語言風格上的時代差異;
(3) 學(xué)科的歸屬性,選擇發(fā)表于綜合學(xué)術(shù)期刊的學(xué)術(shù)論文,可以有效規(guī)避語料的學(xué)科主觀歸類;
(4) 語言學(xué)、心理學(xué)、社會學(xué)和人類學(xué)英語語料庫是學(xué)科群性質(zhì)的語料庫,研究的重點是對學(xué)科群及其隸屬學(xué)科語言本體的認識,而不是單個學(xué)科內(nèi)分支學(xué)科之間的異同,選擇綜合類期刊可以使語料的學(xué)科覆蓋面相對全面,更具有學(xué)科代表性;
(5) 在語料庫容量相對固定的情況下,選擇學(xué)術(shù)期刊為語料,可涉及多個專家學(xué)者,在一定程度上降低單一作者寫作風格的影響。
語言學(xué)、心理學(xué)、社會學(xué)和人類學(xué)英語語料庫預(yù)計總庫容量為至少100萬詞,包括4個子庫,分別為語言學(xué)英語語料庫、心理學(xué)英語語料庫、社會學(xué)英語語料庫和人類學(xué)英語語料庫,它們互為參照,每個容量為至少25萬詞。為減少期刊的個性化要求對語言選擇的影響,同時確保所選期刊的質(zhì)量、學(xué)科覆蓋面、語言的共時性和真實性、樣本抽取的隨機性,每個學(xué)科的語料選自5個影響因子較高的綜合類英文期刊,每個期刊選擇2013—2017年5年間的論文,每年隨機抽選1篇文章,即每個學(xué)科25篇文章。期刊具體選擇見表1所示。
表1 語料庫結(jié)構(gòu)與語料來源
語料的整理與標注是語料庫建設(shè)的關(guān)鍵環(huán)節(jié),是信息檢索、統(tǒng)計的依據(jù)。
語料庫中的語料文章通過“獨秀咨詢”獲得,均是PDF格式,需要轉(zhuǎn)換為純文本格式。由于研究的對象是單一文字模態(tài),在文本轉(zhuǎn)換過程中,需去除文章中的表格和插圖等非文字信息。另外,因是研究文章知識建構(gòu)中詞匯和語法層的選擇特征,在文本整理過程中,僅保存文章標題和正文兩部分信息,其他諸如作者、期刊來源、出版日期等元信息均以子庫和命名的方式體現(xiàn)。例如,語言學(xué)子庫又以期刊類別為依據(jù)分為English Language and Linguistics,Journal of English Linguistics,J. Linguistics, Language and Linguistics和Lingua 5個子庫。期刊子庫內(nèi)文章以作者和出版日期命名,例如,Saina Wuyun(2016)。
在整理的基礎(chǔ)上,對文本進行進一步的清理。首先,借助“文本整理器”對文字符號(全角—半角)、空格段落(多余的空格、跳格等)和標點符號等信息進行初步清理。而后,再進行逐一人工清理,確保文本的整潔,以利于信息檢索的準確。文本文件保存為UTF-8格式。
語料庫的標注是給語料添加解釋性語言信息的過程,是對語料庫的增值[7]49。語言學(xué)、心理學(xué)、社會學(xué)和人類學(xué)英語語料庫建設(shè)的目的是揭示學(xué)科群及其隸屬學(xué)科的語言本體特征。早在1989年韓禮德就在SomeGrammaticalProblemsinScientificEnglish中提出導(dǎo)致科學(xué)語篇難以理解的7個特征:連鎖定義、技術(shù)分類、特殊表達、詞匯密度、句法歧義、語法隱喻和語義非連續(xù)性[8]。這7個特征既是科學(xué)語篇的共性特征,也是不同學(xué)科之間異同的對比點。因韓禮德對特殊表達和語法隱喻的解釋中存在交叉,鑒于語法隱喻在科學(xué)語篇中的特殊地位,避免贅述,所以在分析標注中對其只探討固定的語法表達。
(1) 連鎖定義。是一系列術(shù)語之間的互相界定,即a is defined as an x which has feature y which is called b[9]164(對術(shù)語a的理解必須基于對術(shù)語x、y和b的理解)。
(2) 技術(shù)分類。是知識體系的組織方式,分為兩類:部分—整體關(guān)系,b is a part of y;上下義關(guān)系[9]164,a is a kind of x。
(3) 特殊表達。是一個學(xué)科獨有的技術(shù)語法,而非術(shù)語。這種特殊表達包括兩種類型:一個領(lǐng)域特有的固定表達,這個表達只能被整體界定,不能通過構(gòu)成它的詞語得到解釋,例如在數(shù)學(xué)中,solving the open sentence over D[9]166; 語法隱喻。
(4) 詞匯密度。是依據(jù)一個語法結(jié)構(gòu)中詞匯(實意詞)的緊密程度,衡量語篇信息密度的方式。
(5) 句法歧義。表現(xiàn)為在名詞詞組和小句層面的語義模糊。這種歧義主要來自小句層面和詞組級階的隱喻綜合體。例如,Higher productivity means more supporting services[9]169。既可以理解為“高產(chǎn)帶來更多的支持性服務(wù)”,也可以理解為“高產(chǎn)源自更多的支持性服務(wù)”,這是因為序列通過小句體現(xiàn),而關(guān)系詞轉(zhuǎn)為動詞、致使邏輯關(guān)系模糊,又引發(fā)小句層面句法歧義。再如,對于名詞詞組the announcement of Mary’s acceptance[9]171,沒有辦法確定是“瑪麗接受”還是“瑪麗被接受”。
(6) 語法隱喻。是在從語義成分到詞匯語法結(jié)構(gòu)配置的體現(xiàn)過程中出現(xiàn)的[10],表現(xiàn)為語義層與詞匯語法層配置的錯位。在語篇中體現(xiàn)為語法隱喻的基本類型和隱喻綜合體。語法隱喻的基本類型分為13類:屬性轉(zhuǎn)為實體、過程轉(zhuǎn)為實體、環(huán)境成分轉(zhuǎn)為實體、關(guān)系詞轉(zhuǎn)為實體、過程轉(zhuǎn)為屬性、環(huán)境成分轉(zhuǎn)為屬性、關(guān)系詞轉(zhuǎn)為屬性、環(huán)境成分轉(zhuǎn)為過程、關(guān)系詞轉(zhuǎn)為過程、關(guān)系詞轉(zhuǎn)為環(huán)境成分、[無]轉(zhuǎn)為實體、[無]轉(zhuǎn)為過程和實體轉(zhuǎn)為[擴展][11]41-42。任何基本類型語法隱喻的發(fā)生,都可能影響整個小句,進而影響整個小句復(fù)合體,在級階和地位上的置換都幾乎不可避免地包括許多其他置換,形成對語法結(jié)構(gòu)的重新構(gòu)型,產(chǎn)生語法隱喻綜合體[12]80。
(7) 語義非連續(xù)性。是作者所做的語義跳躍,指一個語篇中首次被提及的新信息,被預(yù)設(shè)為已知信息,作為理解另一個新信息的起點。作者或許并沒有明示過程之間的邏輯關(guān)系,需要讀者通過推理得出結(jié)論[9]177。
語料標注依據(jù)上述7點逐一展開,標注中除詞匯密度中的詞性利用TreeTagger軟件自動標注外,其他6點特征均借助UAM 2.0 手工標注完成,建立連鎖定義、專門分類、特殊表達、語法隱喻、句法歧義、語義非連續(xù)性6個層次的標注系統(tǒng)和相應(yīng)的賦碼方案。
對于人工標注而言,因其中涉及大量的語義標注,準確性和一致性只能是相對的。具體方案如下:
全員培訓(xùn),掌握7個維度的內(nèi)含意義,商討、制定每個維度、每個類別的識別標準。
依據(jù)識別標準, 學(xué)科負責人任選學(xué)科內(nèi)一篇文章試標注, 同時記錄標注過程中的不確定成分。
學(xué)科負責人之間交換文章,再次獨立標注,同樣記錄標注過程中的不確定成分。這一過程重復(fù)進行三次,直到每一個負責人完成4個學(xué)科4篇文章的標注工作。
對標注中出現(xiàn)的不同之處,標注者提供各自的理由,通過集體討論,確定最終標準。同時匯集標注中存在的問題,逐一討論,解決。
在前期準備的基礎(chǔ)上,對各學(xué)科文本進行獨立標注,隨時記錄不確定成分。每完成一篇文本的標注,組織交流研討,保證問題能夠及時解決,確保標注的相對準確和一致。
前期語料庫建設(shè)的主要目的是揭示學(xué)科群及其隸屬學(xué)科的語言本體特征,為高校學(xué)科英語的課程設(shè)計、設(shè)置和教學(xué)提供一個語言學(xué)的參考路徑。后續(xù)研究工作應(yīng)從兩個維度展開:
通過訪談的形式,咨詢各學(xué)科領(lǐng)域的權(quán)威、專家、學(xué)者,在綜合考慮時代性、個體語言風格等因素的基礎(chǔ)上,確定學(xué)科內(nèi)最具代表性的專著、教材等語言材料。
語境重構(gòu)域以對語言知識進行語境重構(gòu)的學(xué)科英語教材為語料,分為本科、碩士和博士3個級別。知識再生產(chǎn)域語料包括課堂教學(xué)話語和學(xué)習者產(chǎn)出的語言材料。學(xué)習者產(chǎn)出的語料庫選擇用英語完成的畢業(yè)論文或相關(guān)摘要,同樣分為本科、碩士和博士3個級別,目的在于揭示語境重構(gòu)域內(nèi)學(xué)科語言知識體系的發(fā)展趨向和知識再生產(chǎn)域內(nèi)學(xué)習者學(xué)科語言知識體系的發(fā)展情況,與知識產(chǎn)出域的語料庫共同形成一個相對學(xué)科英語視域的教育機制。
如果說前期的研究是學(xué)科群內(nèi)隸屬學(xué)科間的對比參照, 后續(xù)的研究則側(cè)重通過學(xué)科內(nèi)3個子庫的互為參照, 形成系統(tǒng), 理清這4個學(xué)科英語的知識體系, 確認語境重構(gòu)域內(nèi)教材設(shè)計是否體現(xiàn)學(xué)科英語本體特征, 了解學(xué)習者學(xué)科英語發(fā)展狀況, 有針對性地反饋語境重構(gòu)域和知識再生產(chǎn)域的實踐, 避免單獨研究某一個域內(nèi)的話語而得出盲目的結(jié)論。 以服務(wù)于教育為根本目的的研究, 必然是教育機制內(nèi)各實踐域的遞歸參照過程。