畢成
[摘 ? ? ? ? ? 要] ?將近些年語料庫語言學(xué)中針對口筆語的研究方法遷移至高職EGP寫作的評估中,以云南能源職業(yè)技術(shù)學(xué)院2018級全體學(xué)生作文組建的語料庫為研究對象,通過分析對比相關(guān)數(shù)據(jù),從整體上對當(dāng)前云南能源職業(yè)技術(shù)學(xué)院乃至同類型的高職院校學(xué)生的英語寫作能力有進(jìn)一步了解,填補高職院校在EGP寫作語料庫研究方面的短板,并為下一步的EGP教學(xué)改革提供一定的量化依據(jù)。
[關(guān) ? ?鍵 ? 詞] ?寫作;語料庫;量化研究
[中圖分類號] ?G712 ? ? ? ? ? ? ? ? [文獻(xiàn)標(biāo)志碼] ?A ? ? ? ? ? ? ? ? ? ?[文章編號] ?2096-0603(2020)41-0064-02
一、引言
(一)語料庫語言學(xué)研究現(xiàn)狀
20世紀(jì)60年代初,語料庫語言學(xué)便已問世。國外學(xué)者M(jìn)eyer認(rèn)為“語料庫語言學(xué)主要是一種語言研究方法,而不是語言學(xué)中的一個獨立的研究范式”[1]。而在國內(nèi),何中清和彭宣維認(rèn)為“它以大量真實的語言數(shù)據(jù)為研究對象,進(jìn)行多層次和全方位研究,揭示語言現(xiàn)象隱含的普遍規(guī)律,它的出現(xiàn)對語言研究產(chǎn)生了巨大影響”[2]。在經(jīng)歷半個多世紀(jì)的發(fā)展后,當(dāng)前的語料庫語言學(xué)已成為一個計算機(jī)科學(xué)與語言學(xué)交叉發(fā)展的熱點領(lǐng)域。
(二)選題意義
對學(xué)生寫作質(zhì)量的評估是一個極為重要的研究熱點,但絕大多數(shù)高職院校教師仍在使用人工逐一審閱和定性描述的方法對學(xué)生作文進(jìn)行評估,很難面向同行或?qū)W生給出令人信服、標(biāo)準(zhǔn)規(guī)范化的質(zhì)量評估結(jié)論。所以,將語料庫理論和研究方法引入高職院校英語寫作教學(xué)中,在微觀方面可為教師的教學(xué)工作提供更好的“診斷”手段,為學(xué)生自主學(xué)習(xí)提供更好的指導(dǎo)。在宏觀層面,基于量化數(shù)據(jù)的評估結(jié)論也可為學(xué)校乃至教育主管部門提供更好的英語教學(xué)改革依據(jù),讓教學(xué)改革做到“對癥下藥”“有的放矢”。
二、研究設(shè)計
(一)語料庫建設(shè)
本項目以云南能源職業(yè)技術(shù)學(xué)院2018級全體學(xué)生的客觀寫作材料為研究對象,以語料庫為研究方法,得出相關(guān)的標(biāo)志性參數(shù),并參考中國學(xué)習(xí)者英語語料庫(CLEC)、布朗語料庫(Brown Corpus)同類型數(shù)據(jù)參數(shù),以此得出對比結(jié)論。
首先,項目組通過機(jī)輔寫作軟件采集云南能源職業(yè)技術(shù)學(xué)院2018級全體學(xué)生的作文共2670篇,40多萬個英文單詞。因為本項目的目的是對學(xué)生的寫作質(zhì)量進(jìn)行評估,在語料收集完畢后,我們對語料進(jìn)行了處理,把作文中相關(guān)性較小的內(nèi)容,如標(biāo)題以及人名等刪除。其次,我們利用Free CLAWS web tagger在線詞性標(biāo)注軟件,依據(jù)UCREL CLAWS5 Tagset的標(biāo)準(zhǔn)對語料內(nèi)容進(jìn)行標(biāo)注,把語料庫的詞性(POS)標(biāo)注出來,最終將云南能源職業(yè)技術(shù)學(xué)院2018級學(xué)生作文庫命名為YVIET2018。
(二)數(shù)據(jù)分析
完成語料庫的標(biāo)注與處理之后,我們利用Wordsmith3.0對觀察語料庫YVIET2018與參照語料庫CLEC、Brown Corpus的數(shù)據(jù)進(jìn)行提取。
1.標(biāo)準(zhǔn)化類形符比(STTR)
形符(token)是指語料庫中的一切單詞,包括反復(fù)運用過的單詞,即語料庫中所有單詞的總數(shù)。類符(type)是指語料庫中一切不反復(fù)的單詞的總數(shù)。類形符比(TTR, type-token ratio),是指語料中呈現(xiàn)的類符與形符的比率,它標(biāo)志著語料庫中詞匯的多樣性或者詞匯的豐沛度(lexical density)。但語料庫體量的大小對TTR值有一定的影響,所以我們采用標(biāo)準(zhǔn)化類符形符比(STTR, standardized type-token ratio),即大小為1000詞的連續(xù)多個語料庫的平均類形符比,以此對比不相同的多個語料庫的類形符比差異,參數(shù)更加可信。由此,我們得出了3個語料庫的STTR值。YVIET2018的數(shù)據(jù)是38.37,CLEC是32.8,而Brown是39.04,說明在詞匯豐沛度方面,云南能源職業(yè)技術(shù)學(xué)院2018級學(xué)生的整體情況優(yōu)于國內(nèi)英語學(xué)習(xí)者的平均水平,在寫作中更加善于使用多樣化的詞匯表達(dá),更加接近源自英語母語國家的語料庫BROWN的水平。
2.詞匯密度(lexical density)
詞匯密度這一概念最早由Ure提出。他認(rèn)為詞匯密度的計算公式為實詞數(shù)除以詞匯總數(shù)所得百分比[3]。而Halliday認(rèn)為語法詞反映的是句子的流暢度和表達(dá)清晰度(explicitness)以及可預(yù)測性(predictability)[4]。而詞匯詞反映的是文本所含的信息量(information load)。
所以,我們使用Wordsmith3.0對三個語料庫的標(biāo)注結(jié)果進(jìn)行了檢索和統(tǒng)計。因檢索結(jié)果過于復(fù)雜龐大,這里不再詳細(xì)列出。我們檢索了名詞(Noun)、動詞(Verb)、形容詞(Adjective)、副詞(Adverbial)四大類詞。YVIET2018語料庫的實詞密度為59.39%,其次是CLEC語料庫,為53.28,而最小的是BROWN語料庫,為48.93%。綜合來看,YVIET2018語料庫實詞比例明顯過多,說明云南能源職業(yè)技術(shù)學(xué)院2018級學(xué)生在寫作技巧上仍有明顯的短板,雖然文本承載的信息量豐富,但這樣的文本會給讀者在理解文本信息時帶來困難,不善于使用虛詞,文本的清晰度與流暢度稍差一些。因為BROWN語料庫所收集的語料均來自美國,故而在文本信息量和清晰度、流暢度平衡度方面是三者中最好的。
3.高頻詞(high frequency words)
在語料庫語言學(xué)的分析方法中,頻率是一種非常重要的研究手段。Sinclair(1991:31)提出,語料庫中高頻詞的分布較為穩(wěn)定,因此頻率排序的任何顯著變化都有可能具有重要意義[5]。而Laviosa指出,高頻詞(“l(fā)ist head”or “high frequency words”)是一個詞匯出現(xiàn)的次數(shù)與特定語料庫所有形符的比例不少于0.01%[6]。在本研究中,我們通過Wordsmith3.0對三個語料庫的詞頻進(jìn)行了檢索和統(tǒng)計。根據(jù)這一結(jié)果我們得出,高頻詞數(shù)量最多的語料庫是YVIET2018,其累計占比為68.83%,是三個語料庫中最多的,而BROWN語料庫僅有高頻詞85項,占比38.81%,是三者中最少的,而CLEC語料庫介于兩者之間,這符合項目組的預(yù)期值。數(shù)據(jù)結(jié)果表明YVIET2018語料庫詞匯重復(fù)率是最高的,說明云南能源職業(yè)技術(shù)學(xué)院2018級的學(xué)生寫作用詞較為單調(diào)。BROWN語料庫的詞匯重復(fù)率是最低的,語料用詞相對復(fù)雜,符合英語口筆語用詞中避免重復(fù)而多用替換的原則。
4.詞長(word-length)
對文本而言,文體正式程度往往與復(fù)雜詞匯的數(shù)量成正比,即文體越正式,復(fù)雜詞匯數(shù)量也就越多,反之亦然。為此,我們統(tǒng)計了三個語料庫的詞長。我們出乎意料地發(fā)現(xiàn)YVIET2018語料庫的平均詞長高于CLEC和BROWN,達(dá)到了4.80,BROWN語料庫為4.48,CLEC語料庫僅為4.07。但經(jīng)我們仔細(xì)觀察分析發(fā)現(xiàn),就7個字母以上的單詞而言,YVIET2018的詞匯數(shù)量遠(yuǎn)遠(yuǎn)少于BROWN。由統(tǒng)計結(jié)果我們可以得出,云南能源職業(yè)技術(shù)學(xué)院2018級的學(xué)生在寫作過程中對復(fù)雜詞有偏好,但這樣會使作文文體過于正式和嚴(yán)肅,并給讀者理解信息帶來一定困難甚至偏差。
5.平均句長(mean sentence length)
平均句長統(tǒng)計的是語料庫中每一個句子中平均包含的詞匯數(shù)量,這一指標(biāo)能夠在一定程度上反映句子的復(fù)雜度。通常來說,長句中包含的信息量更多,邏輯關(guān)系更復(fù)雜,對作者和讀者的寫作能力與理解能力要求都比較高。這里,我們統(tǒng)計出3個語料庫的平均句長和句長標(biāo)準(zhǔn)差2個數(shù)據(jù),YVIET2018的平均句長為17.88,比起CLEC的14.75,更加接近BROWN的19.47,說明云南能源職業(yè)技術(shù)學(xué)院2018級學(xué)生作文的句子復(fù)雜度更大,句子較為復(fù)雜。但YVIET2018的句長標(biāo)準(zhǔn)差為12.87高于CLEC的10.47,也說明云南能源職業(yè)技術(shù)學(xué)院2018級學(xué)生的作文水平個體差異是更加明顯的,個體之間的水平差距比較大。
三、結(jié)語
通過本次項目,我們以語料庫語言學(xué)為研究方法,使用wordsmith等工具,深入調(diào)查研究了云南能源職業(yè)技術(shù)學(xué)院2018級學(xué)生的寫作情況,并得出了量化數(shù)據(jù)為支撐的對比結(jié)論,并將借此結(jié)論在下一步的大學(xué)英語教學(xué)中開展相關(guān)教學(xué)實驗。這對我校乃至高職院校的大學(xué)英語教學(xué)都是一次十分有益的嘗試。但受限于項目組能力等其他客觀因素,未能對學(xué)生作文的寫作語境、讀者反饋等環(huán)節(jié)領(lǐng)域開展深入研究。在下一步的研究中,我們還將持續(xù)擴(kuò)展云南能源職業(yè)技術(shù)學(xué)院學(xué)生作文語料庫,開展歷時性語料庫研究。
參考文獻(xiàn):
[1]張新杰.國內(nèi)語料庫語言學(xué)研究:回顧與展望:基于核心期刊24年文獻(xiàn)的統(tǒng)計分析[J].西安外國語大學(xué)學(xué)報,2017(6):36-41.
[2]何中清,彭宣維.英語語料庫研究綜述:回顧、現(xiàn)狀與展望[J].外語教學(xué),2011(1):6-11.
[3]李德超,王克非.漢英同傳中詞匯模式的語料庫考察[J].現(xiàn)代外語,2012(4):409-415.
[4]吳菲.國內(nèi)外英語語料庫的建設(shè)和發(fā)展評論[J].山東外語教學(xué),2007(6):28-31.
[5]王天劍.基于語料庫的中國《政府工作報告》英語本詞匯特征研究[J].當(dāng)代外語研究,2010(6):39-43.
[6]趙秋榮,王克非.英譯漢翻譯語言的階段性特點:基于歷時類比語料庫的考察[J].中國翻譯,2013(3):15-19.
編輯 馮永霞