楊柳
摘 要:通過縱向比較自建語料庫WECNEM(2009-2012)、中國學習者語料庫CLEC(1996-2002)和中國口筆語語料庫中的筆語庫WECCL(-2005),以及橫向對比上述三個中介語語料庫和英語本族語寫作語料庫NESSIE(-2012),并對我國大學生英語寫作的詞匯特征進行研究發(fā)現(xiàn),大學生詞匯運用確實存在穩(wěn)定化的趨勢,這也是石化的前兆。但目前的非英語專業(yè)學生詞匯應用相關數(shù)據(jù)比十年前有明顯提高,與WECCL的英語專業(yè)學生相當;三個中介語語料庫在詞匯豐富度、平均詞長和句長上具有共性,均低于本族語庫;常用詞分布模型表明,第1000至3000詞的使用是大學生二語習得中的一個關鍵點。
關鍵詞:大學生英語寫作;詞匯特征;語料庫;二語習得;中介語;石化
中圖分類號: I106 文獻標志碼: A 文章編號:16720539(2013)06009806
寫作,作為外語學習五大基本技能之一,是考察二語學習者中介語發(fā)展的重要方面。Connor(1984)[1]提出詞匯特征更能反映母語和二語寫作的差異。Read(2000)[2]曾詳細探討一篇好的作文應當具備的詞匯特征。我國對二語寫作詞匯的探索與中介語研究的發(fā)展相一致。中介語假說(Interlanguage Hypothesis) [3]在中國自1992年開始成為學者研究和討論的中心議題之一 [4]。目前的研究更趨于跨學科、應用語料庫等新工具、注重實證 [5,6,7]。但仍比較缺少縱向研究(Longitudinal study)。王海華等指出“近幾十年來,對二語寫作中詞匯使用特點的研究引起了越來越多研究者的興趣。然而針對詞匯豐富性在中國英語學習者寫作中的歷時研究尚未存在。” [8] “歷時研究”即中介語領域中的“縱向研究”(1),此類研究中,語料積累是難點。在計算機技術被引入語言研究之前,很多學者嘗試用人工記錄的方法積累語料。20世紀90年代初期,國際英語學習者語料庫(International Corpus of Learner English)開始籌建,自此國內(nèi)外已建成了一批頗有影響的學習者語料庫 [9]。本文嘗試以非英語專業(yè)學生為對象,基于自建語料庫和其它學習者語料庫及本族語語料庫,進行縱橫兩個角度的對比分析,追蹤學習者中介語寫作中詞匯特征的變化發(fā)展。
一、研究方案設計
(一)研究思路
中介語的特性之一就是母語的詞條、規(guī)則和次系統(tǒng)傾向保留在與目的語相關的中介語中,不管學習者的年齡有多大,也不管學習者接受的解釋和指導有多少,這種傾向都不會改變,這就是中介語的石化 [10] 。石化現(xiàn)象按其性質可分為暫時穩(wěn)定化和永久性石化兩種。實際上不能稱暫時穩(wěn)定化為石化,它是產(chǎn)生石化的預兆。對于中等水平的二語學習者而言,談到石化似乎言之尚早,與之更為密切相關的是穩(wěn)定化。通過對非英語專業(yè)學生寫作詞匯的穩(wěn)定化趨勢進行追蹤、分析,可以發(fā)現(xiàn)中介語發(fā)展的特點,從而提出相應的對策。
具體說來,本文在以往同類研究的基礎上更進一步,嘗試利用多個語料庫進行縱橫兩個維度的探索。橫向上,以三個涵蓋不同時期語料的學習者語料庫與本族語語料庫作對比,從中發(fā)現(xiàn)中國學習者寫作詞匯的特點及和本族語的差距。三個學習者語料庫的語料具有互補性,從而可以預期綜合得出的代表中介語的數(shù)據(jù)更加客觀,結論更有說服力??v向上,三個學習者語料庫彼此進行比較,由于三個語料庫收集的是不同時期的語料,它們之間的對比就可以勾勒出我國英語學習者寫作詞匯發(fā)展的一幅宏觀圖景,反映整體英語水平的變遷以及英語教學的成效。
(二)本研究使用的語料庫
本文所使用的語料庫為自建非英語專業(yè)學生寫作語料庫(Written English Corpus of Non-English Majors)、中國學習者語料庫(Chinese Learner English Corpus)、中國學生英語口筆語語料庫(Spoken and Written English Corpus of Chinese Learners),和NESSIE Corpus Version 1(Native English Speakers Similarly- and Identically-prompted Essays)。其中前三個為中介語語料庫,第四個為代表本族語的參照庫。
自建非英語專業(yè)學生寫作語料庫(WECNEM)為2011年教育部人文社科青年項目成果之一,容量約為50萬詞,全部進行了詞性標注,主要包括兩個子庫,2009級學生作文庫和2011級學生作文庫。作文均為課后作業(yè),不限完成時間,所有語料產(chǎn)出時間為2009年至2012年。該庫的特點是規(guī)模相對較小,但優(yōu)勢是語料新鮮,并且兩個子庫分別對同一批受試在大學一二年級產(chǎn)出的作文進行了為期兩年的積累,適合進行縱向研究。
中國學習者語料庫(CLEC)是國家社科基金“九五”歸化項目的成果,從1996年開始籌集,至2003年正式出版,其中包括大學一、二年級非英語專業(yè)學生的作業(yè)209, 043詞次,是我國最早一批中介語語料庫,產(chǎn)出了大量成果。受試對象水平與自建語料庫(WECNEM)相當,適合縱向比較不同歷史時期同一水平二語學習者的語言發(fā)展特點。此次作為對比的數(shù)據(jù)主要來自CLEC中的子庫ST3和ST4,分別代表四級和六級水平的非英語專業(yè)學生。
中國學生英語口筆語語料庫(WECCL)系南京大學“211工程”二期子項目,其書面語料主要從國內(nèi)9所不同層次的高校英語專業(yè)1~4年級的學生中采集。[11]該庫代表了較高水平的二語學習者,與WECNEM和CLEC的語料對比,可通過觀察中級水平和高級水平學生的不同表現(xiàn),探索中介語在不同階段的發(fā)展情況。
NESSIE corpus 1.0版是一個約18萬詞次規(guī)模的英美本族語者英語作文語料庫。其中所收文本主要是英美本族語者依照中國四六級、四八級作文題所撰寫的英語作文。也有部分語料文本取自BAWE、MICSUP等英美大學生語料庫中話題近似的文本(2)。該庫的優(yōu)勢是作為對照庫,其語料的主題與我國的學習者語料庫較為接近,這一點十分難得,可使對照結果更為準確。
(三)文獻檢索參數(shù)
1.標準化型次比、平均詞長和句長標準差
我們使用Wordsmith 3.0對WECNEM的語料的基本信息進行統(tǒng)計,其中包括類符/形符比(Type/Token ratio,簡稱TTR,中文亦稱型次比),標準化類符/型符比(Standard type/Token ratio,簡稱STTR)(3),平均詞長(Average word length),以及句長標準差(Standard sentence length)。繼而與三個對照庫進行對比。值得一提的是,CLEC、WECCL和WECNEM的語料分別屬于2002年之前,2005年之前和2009至2012年之間。在時間上,三個語料庫形成了一個縱向對比,為研究中國學習者中介語的發(fā)展提供了較長時間跨度的參考數(shù)據(jù)。
2.常用詞分布模型
建立WECNEM的常用詞分布模型,與對照庫進行比較。這一目標,可以通過詞表分析(Word list)來實現(xiàn)。在對語料庫文本進行的統(tǒng)計分析中,詞表功能和語篇統(tǒng)計功能把語料庫中出現(xiàn)的所有“類符”(4)統(tǒng)計列表。通常可以直觀地提供三種信息:類符總數(shù),每個類符的頻數(shù),每個類符的頻率[12]。結合第一步中統(tǒng)計的其他基本信息,就能夠得到語料庫的詞頻分布圖,繪制常用詞分布模型,借助它來了解二語學習者中介語詞語的使用情況。
二、研究結果及分析
(一)標準化型次比、平均詞長和句長標準差
首先,根據(jù)檢索方案,運用WordSmith Tools 3.0、AntConc3.2等語料庫檢索軟件對WECNEM進行分析,得到數(shù)據(jù)如下(參見圖1)。
繼而,我們把自建庫和其他對比庫的主要數(shù)據(jù)列表對比,結果見表1。
圖1 WECNEM基本數(shù)據(jù)
表1 四語料庫基本數(shù)據(jù)對比表
如表1所示,就標準型次比而言,本族語語料庫最高,英語專業(yè)的學生次之,自建庫與CLEC中的ST4,即六級水平學生相仿,但高于該庫中的四級學生。至于平均詞長和句長,本族語都明顯高于學習者語料庫。就三個學習者語料庫之間進行對比,則發(fā)現(xiàn)自建庫中的學生和CLEC中的六級水平學生(ST4)更傾向于使用長句,甚至高于專業(yè)學生(WECCL),CLEC中的四級學生(ST3)的平均句長最短;至于平均詞長,除本族語使用者外,專業(yè)學生的數(shù)據(jù)最高,繼而是自建庫,CLEC中的四、六級學生相仿,并無明顯差異。
由于語料庫代表的是宏觀數(shù)據(jù),因此我們可以從這些基本信息中看到每個庫所代表的群體寫作的一些整體趨勢和相互之間的差異。首先,除英語專業(yè)的平均詞長與本族語接近外,三個學習者庫的數(shù)據(jù)說明了大學生群體使用的中介語具有一些共性——在詞匯豐富度、平均詞長和句長上均低于本族語。
此外,自建庫的三個指標均明顯高于CLEC中四級和六級水平的非英語專業(yè)學生,標準型次比和平均句長也高于專業(yè)學生??紤]到自建庫與CLEC和WECCL的兩個明顯差異,即語料覆蓋面和語料產(chǎn)出的時間,我們做兩點說明:第一,自建庫只包含一所工科院校非英語專業(yè)學生的語料,因此只能說明這所院校學生的三個指標高于CLEC與WECCL所代表的平均水平;第二,自建庫包含的語料產(chǎn)出時間段主要集中在2010年至2012年,而CLEC的語料則屬于1996年至2002年,之間存在十年左右的跨度。由此可以推斷,經(jīng)過這十年的英語教學探索與改革和學生學習方式改變,目前學生寫作使用的中介語詞匯更接近本族語。
(二)常用詞分布模型
根據(jù)詞表(Wordlist),我們分別計算出三個學習者語料庫和一個本族語語料庫使用的前100、500、1000、3000和5000的詞型和詞次比例,得到其在整個庫中的分布(6),據(jù)此我們做出四個語料庫的詞匯分布對比圖。為了便于說明,我們?nèi)匀话袰LEC中代表四級和六級水平的ST3、ST4分開計算,具體結果參見圖2。
圖2 常用詞分布對比圖
從圖2可以看出,自建庫和代表專業(yè)學生的WECCL兩條曲線數(shù)值相近;CLEC中四級和六級水平學生的兩條曲線數(shù)值相近;并且這四條線的發(fā)展趨勢(斜率變化)十分相似。代表本族語的淺色線條的發(fā)展趨勢(斜率變化)則與它們明顯不同。
在桂詩春、楊惠中的研究[11]中,他們發(fā)現(xiàn),對本族語語料庫BROWN和LOB等而言,最常用的5000詞的使用頻次占整個庫的90%以下,相反“CLEC有一個鮮明的特點,即積累詞型頻數(shù)的百分比比較大,而占的積累詞次數(shù)也大”(97.6%)。他們對此現(xiàn)象的解讀是,“這更進一步說明中國學習者詞匯量有限,他們掌握的詞匯量比較少,而使用面卻比較寬”,“很多詞都在超量使用”。在本文的研究中,我們對三個中介語和一個本族語語料庫的比較,卻似乎得出一些不同的結論:
第一,本族語語料庫NESSIE中的累計詞頻數(shù)在四個庫中居中,并不像BROWN、LOB等低于所有學習者語料庫。對此,筆者認為,NESSIE、BROWN與LOB等語料庫并不同質。布朗語料庫(Brown Corpus)包括500個美語樣本,每個樣本約2000字,涵蓋報道、社論、傳記等15個類別,庫容100萬詞(7)。作為BROWN的對照庫的LOB(Lancaster-Oslo/Bergen)完全遵循BROWN的標準,樣本選自英國英語文本(8)。而NESSIE,如前文介紹,是英美本族語者,主要為大學生的英語作文語料庫,以議論文為主,庫容只有18萬。因此不難理解BROWN和LOB累計詞頻數(shù)為什么相對較低,其原因是因為其庫容大、題材多。相反,NESSIE的檢測結果說明,就議論文寫作而言,本族語大學生作者使用的詞匯主要就是最常用的5000詞(94.40%)。
第二,代表英語專業(yè)的WECCL和自建庫WECNEM的常用詞覆蓋率最高,分別為97.6%和97.9%,與本族語大學生寫作者(NESSIE)相對接近。
第三,CLEC中的ST3和ST4二者的常用詞覆蓋率相似,約為87%,反而是四個庫中中最低的,這似乎與之前的中國學習者超量使用常用詞的說法不符。
針對以上第二條、第三條兩個發(fā)現(xiàn),我們需要做更詳盡的分析。首先,前5000常用詞累計頻次高本身并不能說明這5000個詞被過度使用。詞頻分布曲線的變化可以揭示出其中規(guī)律。從圖2可以觀察到,代表中介語的四條曲線盡管數(shù)值不同,但變化趨勢幾乎完全一致,前500詞的斜率最大,之后越來越小,也就是說,前500詞的使用次數(shù)最多,覆蓋面最大,之后排位的詞在總詞量里面所占比重很小。而本族語曲線的斜率在500詞之后明顯大于中介語曲線,這意味著對本族語庫而言,常用詞分布相對平均,除了最常用的500詞外,詞表中的500至5000詞也占有相應比例(29.8%)。因此,中介語使用者存在著高頻使用前500詞的現(xiàn)象,這與“中國學習者超量使用常用詞”的說法不矛盾,只是更加細化。
此外,分別代表四、六級英語水平的ST3和ST4的前5000詞覆蓋率最低,約為87%。從絕對值上看,ST3和ST4使用了更多的前5000詞以外的詞匯,但這并不代表這兩個庫的學生使用詞匯的豐富度高于專業(yè)庫和自建庫中的非英語專業(yè)學生。查閱ST3和ST4兩庫的詞表,可以看到其使用的前5000詞后出現(xiàn)了error, energy,cancel,cast等常用詞,這說明ST3和ST4兩庫的學生除過量使用某些常用詞外,可能還存在對某些常用詞使用不足的問題。這與現(xiàn)實中非英語專學生大量背單詞但語用能力較低、作文使用生僻詞、出現(xiàn)錯誤搭配等現(xiàn)象相一致。
我們進一步列出圖2中每個詞匯標志量覆蓋率增加的百分比,就會更加清晰地看到中介語庫和本族語庫的差距。
表2 詞匯覆蓋率增加比
從表2可以看出,中介語詞匯覆蓋率的增幅持續(xù)遞減,本族語詞匯覆蓋率的增幅也在減少,但是幅度小于中介語,并且至第3000詞時,其覆蓋率增幅大于前1000詞,說明對本族語使用者而言,前3000詞的使用都較為均衡。換言之,我國大學生在寫作時與本族語的差距之一就體現(xiàn)在常用詞第1000至第3000詞的使用上。
三、研究結論及建議
(一)研究結論
本研究主要有三點結論:首先,盡管水平不同,語料產(chǎn)出時間不同,但我國大學生進行英文寫作使用的詞匯存在一些中介語的共性特征,如在詞匯豐富度、平均詞長和句長上均低于本族語;其次,2009年至2012年產(chǎn)生的語料比1996年至2002年產(chǎn)生的語料在上述三個方面以及常用詞分布上更接近于本族語,說明目前大學生的寫作詞匯在中介語持續(xù)體上向目標語更加靠近;最后,CLEC中的六級水平學生的詞匯使用數(shù)據(jù)并沒有比四級水平的學生有明顯提高,自建庫中的三個子庫的數(shù)據(jù)也無明顯變化,說明大學生在英文寫作中,其詞匯運用確實存在穩(wěn)定化的趨勢,是石化的前兆。
(二)英語教學及研究建議
綜上,本文對于英語教學及研究主要有三點建議:
第一,我國的英語教學長期以來受到“耗時低效”的批評,但本文以數(shù)據(jù)為根據(jù)說明與十年前相比,當前的大學生英語詞匯習得能力確有顯著提高,因此建議進行更加細致深入的研究,總結我國近年英語教學中的積極因素,而非一味否定。第二,要正視中介語石化現(xiàn)象,重視穩(wěn)定化階段。根據(jù)Selinker的觀點,中介語石化不可避免。本文印證了詞匯習得的穩(wěn)定化趨勢,在英語教學及研究中如何推遲穩(wěn)定化比如何避免石化更具有現(xiàn)實意義。第三,微觀上,本文發(fā)現(xiàn)常用詞第1000至3000詞可能是學生習得寫作詞匯的關鍵點,可以預期從此點著手對延緩詞匯石化會有顯著效果??梢?,與傳統(tǒng)方法相比,基于語料庫的研究變抽象為具體,在英語教學與研究中有廣闊的應用前景,將產(chǎn)生重大的影響。
注釋:
(1)“縱向研究”是指在一段相對長的時間內(nèi)對同一個或同一批被試進行重復的研究,定義引自http://baike.baidu.com/view/1351133.htm.
(2)引自許家金博士在語料庫語言學在線上的介紹(參見http://www.corpus4u.org/forum/showthread.php?t=8507介紹)
(3)每一個在語料庫中首次單獨出現(xiàn)的詞形稱為類符(type),而同一個詞在語料庫中出現(xiàn)的次數(shù)稱為該詞的頻數(shù),又稱為該詞的形符(token)。類符和形符二者的比率在一定程度上反映了語料庫詞匯的豐富度。STTR,即每千字的類符/型符比則可在每個語料庫的容量相差巨大時做出標準化的比較。
(4) “類符”,即“詞型”,是type的不同譯法;“形符”,即“詞次”,是token的不同譯法。
(5)由于NESSIE語料庫目前由于版權問題尚無法下載文本,這里取同質語料庫LOCNESS的數(shù)據(jù)替代。
(6)具體計算方法參見桂詩春、楊惠中的《中國學習者英語語料庫》, 上海外語教育出版社, 2004.
(7)BROWN 語料庫簡介參見http://bulba.sdsu.edu/docwiki/BrownCorpus.
(8)LOB 語料庫簡介參見 http://en.wikipedia.org/wiki/Lancaster-Oslo-Bergen_Corpus.
參考文獻:
[1]Connor, U. A study of cohesion and coherence in ESL students writing [J]. International Journal of Human Communication, 1984 ,(17):301-316.
[2]Read J.Assessing Vocabulary[M].Cambridge:Cambridge University Press,2000:200-205.
[3]Selinker,L.Interlanguage[J].International Review of Applied Linguistics,1972,(10):209-211.
[4]戴煒棟,周大軍.中國的二語習得研究:回顧、現(xiàn)狀與前瞻[J].外國語,2005,(6):62-70.
[5]趙金銘.漢語作為第二語言教學:理念與模式[J].世界漢語教學,2008,(1):93-107.
[6]楊連瑞,李紹鵬.國外二語習得個體差異研究的新進展[J].外語學刊,2009,(5):147-151.
[7]何蓮珍.中國非英語專業(yè)大學生自主學習能力的培養(yǎng)路徑之探索[J].中國外語:中英文版,2011,(5):18-24.
[8]王海華,周祥.非英語專業(yè)大學生寫作中詞匯豐富性變化的歷時研究[J].外語與外語教學,2012,(2):40-44.
[9]文秋芳,王立非,梁茂成.中國學生英語口筆語語料庫[M].1.0修訂版.北京:外語教學與研究出版社出版社,2009.1-5.
[10]楊惠中.語料庫語言學導論[M].上海:上海外語教育出版社,2004:168-341.
[11]桂詩春,楊惠中.中國學習者英語語料庫[M].上海:上海外語教育出版社,2004:16-17.
責任編輯:劉玉邦