楊洋
馬來(lái)西亞博特拉大學(xué)
張飛
廣東培正學(xué)院
張善富
玉溪師范學(xué)院
【提 要】本文在梳理詞匯豐富性測(cè)量維度的發(fā)展脈絡(luò)基礎(chǔ)上,總結(jié)了過(guò)往文獻(xiàn)中測(cè)量詞匯豐富性的維度、方法和指標(biāo)及其適用范圍和優(yōu)缺點(diǎn)。此外,本文總結(jié)了可以自動(dòng)計(jì)算這些維度和指標(biāo)的計(jì)算機(jī)軟件或系統(tǒng)。最后,本文嘗試提出測(cè)量詞匯豐富性的未來(lái)研究方向:一是在理論和操作方面從新的思路或角度研究能夠更全面反映英語(yǔ)寫(xiě)作水平的詞匯豐富性測(cè)量方法;二是考慮基于中國(guó)英語(yǔ)學(xué)習(xí)者寫(xiě)作語(yǔ)料庫(kù)通過(guò)因子分析、路徑分析、比較分析、判別分析等途徑梳理出一套適合測(cè)量中國(guó)英語(yǔ)學(xué)習(xí)者詞匯水平的指標(biāo)模型。
詞匯豐富性(lexicalrichness)從狹義上講是指語(yǔ)言使用者或?qū)W習(xí)者所產(chǎn)出的詞匯多樣性,從廣義上講是指詞匯的復(fù)雜程度和范圍。在英語(yǔ)作為外語(yǔ)的教學(xué)背景下,詞匯豐富性是英語(yǔ)水平的一個(gè)重要指標(biāo)(Malvern&Richards2013;張會(huì)平2020),它們之間存在顯著的相關(guān)性(Treffers-Daller,Parslow&Williams2018;Xie&Shen 2015)。
較早的詞匯豐富性研究主要關(guān)注以下四個(gè)方面:詞匯密度(lexicaldensity)、詞匯復(fù)雜度(lexical sophistication)、詞匯變化度(lexical variation)和詞匯獨(dú)特性(lexical originality)。與此不同,Engber(1995)認(rèn)為詞匯錯(cuò)誤(lexical errors)也是詞匯豐富性的一個(gè)重要維度,并認(rèn)為測(cè)量詞匯豐富性應(yīng)該考慮有錯(cuò)誤的詞匯變化、無(wú)錯(cuò)誤的詞匯變化以及詞匯錯(cuò)誤的比例。
Read(2000)在其專著中解釋了將詞匯錯(cuò)誤作為衡量詞匯豐富性維度的必要性。同時(shí)他還指出詞匯獨(dú)特性在衡量英語(yǔ)寫(xiě)作中詞匯豐富性時(shí)具有不穩(wěn)定性。所以,Read(2000)認(rèn)為好的英語(yǔ)寫(xiě)作應(yīng)該具備以下四個(gè)特點(diǎn):1)較高比例的詞匯詞(lexicalword);2)恰當(dāng)使用適合主題和文風(fēng)的低頻詞;3)豐富的詞匯量:不重復(fù)使用有限的詞匯;4)較少的詞匯錯(cuò)誤。這些特征正是Read所主張的詞匯豐富性的四個(gè)維度:詞匯密度、詞匯復(fù)雜度、詞匯變化度和詞匯錯(cuò)誤。
Daller、Milton和Treffers-Daller(2007)等學(xué)者在其專著中提出了“詞匯空間”的概念,并詳細(xì)闡述了詞匯知識(shí)的維度。他們將詞匯知識(shí)劃分為三個(gè)維度:詞匯寬度(lexicalbreadth)、詞匯深度(lexicaldepth)和詞匯流暢度(lexical fluency)。按照各維度的含義,上述一些衡量詞匯豐富性的維度可以劃分到詞匯寬度和詞匯深度兩個(gè)維度中,而詞匯流暢度反映的是語(yǔ)言學(xué)習(xí)者能夠以多快的速度從其記憶中檢索并使用一個(gè)單詞。然而,一些學(xué)者對(duì)相同的詞匯豐富性測(cè)量維度提出了不同的測(cè)量方法。有些學(xué)者用一篇作文中不同單詞的數(shù)量(numberofdifferentwords;NDW)來(lái)衡量詞匯變化度。而有些學(xué)者,如Astridya(2018)用類符(type)數(shù)和型符(token)數(shù)的比值來(lái)反映詞匯變化度。還有學(xué)者在測(cè)量同一詞匯豐富性維度時(shí),提出了不同的指標(biāo)。鑒于此,本文將系統(tǒng)梳理以往詞匯豐富性研究文獻(xiàn)中出現(xiàn)的測(cè)量維度、方法以及指標(biāo)。
第二語(yǔ)言或外語(yǔ)學(xué)習(xí)者的英語(yǔ)詞匯知識(shí)可以從以下三個(gè)方面來(lái)評(píng)價(jià)(Dalleretetal.2007)。一方面是詞匯廣度,它描述了一個(gè)學(xué)習(xí)者能掌握多少詞匯,其表現(xiàn)形式就是詞匯密度、詞匯變化度和詞匯獨(dú)特性。第二個(gè)方面是詞匯深度,它與學(xué)習(xí)者對(duì)詞匯的掌握程度有關(guān),表現(xiàn)在詞匯復(fù)雜度和詞匯錯(cuò)誤的比例兩個(gè)維度。第三個(gè)方面是詞匯流暢度。
詞匯密度是指一篇文章中實(shí)詞或詞匯詞的數(shù)量占總單詞數(shù)量的比例(于涵靜2017),通常用來(lái)衡量文本的信息容量和閱讀難度(金秋、高媛媛2022)。這里的詞匯詞可以簡(jiǎn)單理解為名詞、動(dòng)詞、形容詞和副詞。詞匯密度代表著信息含量程度:一篇文章的詞匯密度越大,代表著這篇文章能夠相對(duì)傳遞更多的信息。詞匯密度計(jì)算公式如下:
詞匯復(fù)雜度指的是語(yǔ)言學(xué)習(xí)者在其口語(yǔ)或書(shū)面語(yǔ)產(chǎn)出中使用復(fù)雜或高級(jí)詞匯的程度。不同的學(xué)者在計(jì)算詞匯復(fù)雜度時(shí)所使用的指標(biāo)和詞頻表或者對(duì)“復(fù)雜詞”的界定并不相同。Linnarud(1986)和Hyltenstam(1988)用一篇文章中復(fù)雜詞匯詞數(shù)量(Nslex)與總詞匯數(shù)量(Nlex)的比值來(lái)計(jì)算詞匯復(fù)雜度。這種計(jì)算方法在“詞匯復(fù)雜性分析器”(LexicalComplexityAnalyzer)(Lu 2012)中用“詞匯復(fù)雜度I”表示,其計(jì)算公式如下:
Laufer&Nation(1995)提出了詞頻概貌來(lái)分析詞匯復(fù)雜度。通過(guò)詞頻概貌,可以導(dǎo)出一篇文章中所有類符在以下四個(gè)詞表中的分布:最常用1000詞表、次常用1000詞表、學(xué)術(shù)詞表以及不在上述三個(gè)詞表中的單詞詞表——表外詞表。Laufer將后兩個(gè)詞表中的詞匯看做復(fù)雜詞匯,用復(fù)雜詞匯類符數(shù)除以總類符數(shù)來(lái)計(jì)算詞匯復(fù)雜度,這種計(jì)算指標(biāo)被稱作“詞匯復(fù)雜度II”,其計(jì)算公式如下:
還有一些學(xué)者用寫(xiě)作中特定詞性詞匯的復(fù)雜程度來(lái)衡量詞匯豐富性,比如動(dòng)詞復(fù)雜度指標(biāo)是將最常用200動(dòng)詞之外的動(dòng)詞認(rèn)定為復(fù)雜動(dòng)詞,用復(fù)雜動(dòng)詞類符數(shù)與總動(dòng)詞類符數(shù)的比例來(lái)計(jì)算動(dòng)詞復(fù)雜度。為了消除這種計(jì)算方式中樣本量的影響,Wolfe-Quintero、Inagaki&Kim(1998)等改進(jìn)了動(dòng)詞復(fù)雜度的計(jì)算方式,并提出了新的動(dòng)詞復(fù)雜度指標(biāo)。各動(dòng)詞復(fù)雜度指標(biāo)計(jì)算公式如下:
詞匯變化度是詞匯豐富性的核心,反映了語(yǔ)言學(xué)習(xí)者的詞匯知識(shí)在語(yǔ)言運(yùn)用中的范圍。詞匯變化度有以下測(cè)量方法:不同單詞的數(shù)量、型次比(Type-TokenRatio;TTR)以及參數(shù)D等。
2.3.1 不同單詞數(shù)量及其變型
衡量一篇文章詞匯變化度的基本方法是不同單詞的數(shù)量(NumberofDifferentWord;NDW),也就是類符數(shù)。然而,NDW的一個(gè)關(guān)鍵問(wèn)題是它嚴(yán)重依賴于文本的長(zhǎng)度。為了消除這一弊端,以往文獻(xiàn)中出現(xiàn)了幾種標(biāo)準(zhǔn)化的NDW指標(biāo)。例如,“NDW-50”計(jì)算一篇文章的前50個(gè)單詞中的類符數(shù)?!癗DW-ER50”(NDW-期望隨機(jī)50詞)是從一篇文章中隨機(jī)選取50個(gè)單詞,選取10次,然后求10次的平均類符數(shù)?!癗DW-ES50”(NDW-期望序列50詞)是從一篇文章中隨機(jī)截取10個(gè)50詞的序列片段,然后計(jì)算10個(gè)片段的平均類符數(shù)。
2.3.2 型次比及其變型
詞匯變化度的另一個(gè)經(jīng)典測(cè)量方法就是“類符-型符比”(Type-TokenRatio;TTR),也叫型次比,即一篇文章中類符(T)數(shù)量與型符(N)數(shù)量的比值。然而,有研究表明,TTR是詞匯變化度“一個(gè)并不令人滿意的測(cè)量方法”(Covington&McFall2010:94),因?yàn)樗鼘?duì)文本的長(zhǎng)度很敏感,所以用TTR來(lái)反映詞匯變化度并不可靠(Lu2012)。
為了避免TTR對(duì)文本長(zhǎng)度的敏感性,Johnson(1944)提出了“平均片段TTR”(Mean SegmentalTTR;MSTTR),該方法將文本分成一定數(shù)量的等值長(zhǎng)度片段,并計(jì)算所有片段的平均TTR。MSTTR有效地解決了TTR的樣本量敏感性問(wèn)題(朱慧敏、劉艷梅2021),但會(huì)造成數(shù)據(jù)的浪費(fèi)。為了解決這一問(wèn)題,Covington&McFall(2010)提出了“移動(dòng)平均TTR”(Moving AverageTTR;MATTR)的概念,其計(jì)算原理如下:首先選擇一個(gè)“窗口值”(windowsize),即移動(dòng)片段的長(zhǎng)度,例如50個(gè)單詞。然后計(jì)算第1-50、2-51、3-52……個(gè)單詞片段的TTR值,以此類推,直到文本結(jié)束。最后,MATTR的值就是這些移動(dòng)片段TTR的平均值。
TTR雖是詞匯變化度研究中的經(jīng)典測(cè)量方法,由于其局限性,很多學(xué)者提出了不同的校正指標(biāo),比如“平方根TTR”(RootTTR;RTTR)、“校正TTR”(CorrectedTTR;CTTR)、“對(duì)數(shù)TTR”(BilogarithmicTTR;LogTTR)以 及“Uber指標(biāo)”等。TTR及其幾種校正變型的計(jì)算公式如下:
TTR的其他一些變型嘗試考察文中某一類詞的詞匯變化程度,如“詞匯詞變化度”(lexical wordvariation)和特定詞性的詞匯變化度。詞匯詞變化度即一篇文章中詞匯詞類符數(shù)與詞匯詞型符數(shù)的比例;動(dòng)詞變化度(verbvariation)即一篇文章的動(dòng)詞類符數(shù)除以動(dòng)詞型符數(shù)。同樣的,為了消除樣本量大小的影響,動(dòng)詞變化度這一指標(biāo)也得到了校正:“平方動(dòng)詞變化度”(squared verbvariation)和“校正動(dòng)詞變化度”(corrected verbvariation)。上述指標(biāo)計(jì)算公式如下:
2.3.3 參數(shù)D及其變型
除上述指標(biāo)外,參數(shù)D采用曲線擬合的方法(curvefittingapproach)來(lái)測(cè)量詞匯變化度。之后,參數(shù)D得到了進(jìn)一步的改進(jìn),新的方法可以通過(guò)一個(gè)名為vocd(Mckee,Malvern&Richards 2000)的計(jì)算機(jī)軟件自動(dòng)計(jì)算參數(shù)值。Mckee等(2000)提出的參數(shù)也被稱為vocd-D(?i?ková 2012)。
然而,vocd-D還是受到了一些學(xué)者的質(zhì)疑。比如McCarthy和Jarvis(2007,2010)對(duì)vocd-D提出了兩點(diǎn)質(zhì)疑:一是vocd-D會(huì)受文本長(zhǎng)度的影響;二是vocd-D和他們提出的另一個(gè)詞匯變化度指標(biāo)HD-D高度重合,卻沒(méi)有HD-D精確和穩(wěn)定。HD-D是計(jì)算一篇作文中每個(gè)類符在一個(gè)隨機(jī)抽取的42詞樣本中出現(xiàn)它的型符的概率。
2.3.4 MTLD
上述詞匯變化度的測(cè)量方法與指標(biāo)都沒(méi)有考慮到文章的內(nèi)部結(jié)構(gòu)(?i?ková2012)。為了填補(bǔ)這一空白,McCarthy&Jarvis(2010)引入了“文本詞匯多樣性測(cè)度”(MeasureofTextual LexicalDiversity;MTLD)。其原理是計(jì)算具有特定TTR值的連續(xù)字串的平均長(zhǎng)度。
Engber(1995)引入了“詞匯錯(cuò)誤”這一術(shù)語(yǔ)作為衡量詞匯豐富性的另一個(gè)維度。她從詞匯密度、詞匯變化度、不含詞匯錯(cuò)誤的詞匯變化度和詞匯錯(cuò)誤百分比四個(gè)維度來(lái)研究詞匯豐富性。桂詩(shī)春和楊惠中(2003)也認(rèn)為詞匯錯(cuò)誤是研究外語(yǔ)寫(xiě)作的重要維度,經(jīng)過(guò)深入分析中國(guó)英語(yǔ)學(xué)習(xí)者的作文,他們將中國(guó)英語(yǔ)學(xué)習(xí)者所犯的詞匯錯(cuò)誤分為詞性錯(cuò)誤、動(dòng)詞短語(yǔ)錯(cuò)誤、名詞短語(yǔ)錯(cuò)誤、代詞錯(cuò)誤等10個(gè)大類、52種錯(cuò)誤類型。
詞匯獨(dú)特性衡量語(yǔ)言學(xué)習(xí)者或使用者與其寫(xiě)作小組其他成員的寫(xiě)作表現(xiàn),具體指一篇作文中特有詞匯數(shù)量的比例。它是用一篇文章中沒(méi)有出現(xiàn)在同一組其他作文中的特有詞匯所占的百分比來(lái)衡量的。然而,Reed(2000)認(rèn)為詞匯獨(dú)特性并不是研究學(xué)習(xí)者詞匯水平的一個(gè)維度。因此,詞匯獨(dú)特性的實(shí)用性和通用性不強(qiáng)。其計(jì)算公式如下:
詞匯流暢度表示語(yǔ)言學(xué)習(xí)者在給定時(shí)間內(nèi)的寫(xiě)作中產(chǎn)出的詞匯數(shù)量(Goodfellow,Lamy&Jones2002)。它反映了語(yǔ)言學(xué)習(xí)者在必要時(shí)是否能快速地從其記憶中檢索到所需詞匯的含義和形式。簡(jiǎn)單來(lái)講,在限時(shí)作文考試中,詞匯流暢度可以用作文長(zhǎng)度即單詞數(shù)來(lái)衡量。
本文并沒(méi)有窮盡過(guò)往文獻(xiàn)中出現(xiàn)的所有詞匯豐富性指標(biāo),比如Laufer&Nation提出的詞匯密度指標(biāo)是計(jì)算詞匯詞類符數(shù)與總類符數(shù)的比值。由于這些指標(biāo)在近幾年的文獻(xiàn)中已很少使用,本文未做贅述。上文中提到的指標(biāo)總結(jié)在下表1中。
表1 詞匯豐富性測(cè)量維度、方法與指標(biāo)
經(jīng)過(guò)文獻(xiàn)梳理可知,詞匯豐富性研究中出現(xiàn)了詞匯密度、詞匯復(fù)雜度、詞匯變化度、詞匯錯(cuò)誤、詞匯獨(dú)特性和詞匯流暢度等測(cè)量維度。其中,詞匯流暢度和詞匯獨(dú)特性具有很大的使用局限性。詞匯流暢度僅適用于限時(shí)寫(xiě)作中;詞匯獨(dú)特性依賴于同組其他作文,僅限同一組作文間相互比較,在近幾年的詞匯豐富性研究中鮮有提及。前四個(gè)維度是目前詞匯豐富性研究中的主流測(cè)量維度,即Read(2000)所主張的詞匯豐富性測(cè)量模型。
在Read(2000)所主張的詞匯豐富性測(cè)量模型中,詞匯密度也受到過(guò)很多學(xué)者的質(zhì)疑。例如,Malvernetal.2004)認(rèn)為詞匯密度作為評(píng)估寫(xiě)作水平的指標(biāo)并不是特別適宜,路小飛(Lu 2012)和?i?ková(2012)認(rèn)為詞匯密度和寫(xiě)作質(zhì)量關(guān)系不大,但是這些都不影響詞匯密度作為一個(gè)重要的的詞匯豐富性測(cè)量維度(張曉東、任嬌嬌2018)。此外,詞匯密度還可以用來(lái)區(qū)分口語(yǔ)和書(shū)面語(yǔ)、區(qū)分不同體裁的作文、反映譯者風(fēng)格(朱珊2021)、衡量翻譯質(zhì)量(王金銓、于香、吳萬(wàn)能2021)以及在話語(yǔ)分析中區(qū)分不同的語(yǔ)式(程喜2021)。
詞匯復(fù)雜度是詞匯深度的重要維度之一,如果說(shuō)詞匯密度和變化度測(cè)量的是語(yǔ)言學(xué)習(xí)者掌握詞匯的“量”,詞匯復(fù)雜度測(cè)量的則是詞匯掌握的“質(zhì)”(王華2021)。詞匯復(fù)雜度各指標(biāo)中對(duì)“復(fù)雜”詞匯的認(rèn)定都是基于詞匯使用頻率,即使用頻率較高的詞匯被認(rèn)定為基礎(chǔ)詞匯,使用頻率較低的詞匯被認(rèn)定為“高級(jí)”或“復(fù)雜”詞匯。然而,這一基本理念也并非公允:有些高頻詞也不容易掌握,有些低頻詞反而易學(xué)易用。理論觀點(diǎn)和實(shí)證研究都表明,頻率并不是學(xué)習(xí)和使用一個(gè)單詞的難易程度的唯一決定因素。到底什么樣的詞匯才算“復(fù)雜”,這是一個(gè)詞匯復(fù)雜度研究需要考慮的問(wèn)題。
詞匯變化度是詞匯豐富性研究的核心,是學(xué)者們最為關(guān)注的一個(gè)維度,所以文獻(xiàn)中詞匯變化度的測(cè)量方法和指標(biāo)最為豐富。正是由于詞匯變化度的測(cè)量指標(biāo)紛繁復(fù)雜,在研究中要慎重選擇指標(biāo)的使用。TTR雖為眾多指標(biāo)的基礎(chǔ),但其基本變型對(duì)文本長(zhǎng)度過(guò)于敏感,需慎重選擇。根據(jù)不同指標(biāo)的原理和計(jì)算方法可知,MATTR、MTLD和HD-D的值相對(duì)獨(dú)立于文本長(zhǎng)度,也是最近文獻(xiàn)中較多使用的幾個(gè)指標(biāo)。盡管如此,需要指出的是大部分關(guān)于詞匯變化度指標(biāo)和文本長(zhǎng)度的關(guān)系研究使用的是2000詞左右的長(zhǎng)文本,而中國(guó)英語(yǔ)學(xué)習(xí)者作文長(zhǎng)度一般在100-400詞之間。對(duì)于哪些指標(biāo)更適用于這類短文本,還需要做進(jìn)一步的研究。
最后,相比于上述三個(gè)維度,詞匯錯(cuò)誤是較晚提出的一個(gè)詞匯豐富性研究維度。目前詞匯豐富性研究文獻(xiàn)中,詞匯錯(cuò)誤的研究比重并不高。詞匯豐富性的研究多為量化研究,缺少較為深入的詞匯質(zhì)性分析,而詞匯錯(cuò)誤正是從質(zhì)性角度深入研究詞匯習(xí)得的一個(gè)重要方向。
目前,詞匯豐富性的大部分指標(biāo)都可以通過(guò)計(jì)算機(jī)軟件或系統(tǒng)自動(dòng)計(jì)算。比如,通過(guò)上傳作文文本,“詞匯復(fù)雜性分析器”可以計(jì)算并導(dǎo)出表1中詞匯密度和詞匯復(fù)雜度所有指標(biāo)的值以及除參數(shù)D和MTLD外詞匯變化度其他的指標(biāo)值。vocd-D和MTLD可以通過(guò)CohMetrix自動(dòng)計(jì)算;通過(guò)CHILDES系統(tǒng)中的CLAN軟件也可以計(jì)算vocd-D?;谠~頻概貌而設(shè)計(jì)的Vocabprofile和Range除了可以生成詞頻概貌外,還可以計(jì)算詞匯密度和詞匯復(fù)雜度。WordSmithTools和AntConc可以計(jì)算詞匯密度和詞匯變化度。結(jié)合WordSmith Tools和Vocabprofile則可以計(jì)算詞匯獨(dú)特性。
盡管詞匯豐富性的測(cè)量維度、方法和指標(biāo)經(jīng)過(guò)多年的研究和發(fā)展已較為豐富和成熟,但這些方法和指標(biāo)均各有利弊。詞匯豐富性的測(cè)量在理論和操作方面還需要新的研究思路或角度。比如,近幾年有些學(xué)者(如Grabchak,Zhang&Zhang2013;Rajput,Ahuga&Riyal2018)提出了基于“熵”的(entropy-based)詞匯豐富性測(cè)量方法?;陟氐姆椒ú粌H考慮詞匯的變化性,還考慮類符在一篇作文中的分布是否均衡,這樣就能更全面地反映語(yǔ)言學(xué)習(xí)者在寫(xiě)作中的詞匯水平。但新方法的提出需要在理論和操作層面對(duì)其信度和效度進(jìn)行充分的研究論證。
此外,由于詞匯豐富性的測(cè)量指標(biāo)紛繁復(fù)雜,在對(duì)中國(guó)英語(yǔ)學(xué)習(xí)者語(yǔ)言能力的研究中,對(duì)詞匯豐富性的測(cè)量指標(biāo)的使用存在著不統(tǒng)一的現(xiàn)象。例如,李璇(2021)從詞匯密度、詞匯復(fù)雜度、詞匯變化度和詞匯獨(dú)特性四個(gè)維度對(duì)中國(guó)大學(xué)生英語(yǔ)寫(xiě)作中的詞匯進(jìn)行了研究,并使用標(biāo)準(zhǔn)化TTR指標(biāo)來(lái)計(jì)算詞匯變化度。然而,其他學(xué)者如萬(wàn)麗芳(2010)和張亞(2021),在研究詞匯豐富性時(shí)沒(méi)有考慮詞匯密度和詞匯獨(dú)特性兩個(gè)維度,而是研究了詞匯錯(cuò)誤,而且他們使用Uber指標(biāo)來(lái)測(cè)量詞匯變化度。因此,在將來(lái)的研究中,可以考慮基于中國(guó)英語(yǔ)學(xué)習(xí)者寫(xiě)作語(yǔ)料庫(kù)通過(guò)因子分析、路徑分析、比較分析、判別分析等途徑梳理一套適合測(cè)量中國(guó)英語(yǔ)學(xué)習(xí)者詞匯水平的指標(biāo)模型。