劉英蘋(大連民族學(xué)院 外國語言文化學(xué)院,遼寧 大連 116600)
基礎(chǔ)英語語料庫中的詞匯篇際詞匯重復(fù)率
劉英蘋
(大連民族學(xué)院 外國語言文化學(xué)院,遼寧 大連 116600)
文章以基礎(chǔ)英語教材語料庫為基礎(chǔ),在大量的統(tǒng)計計算和程序運行的支持下,著重研究了英語專業(yè)基礎(chǔ)英語語料庫中的篇際詞匯重復(fù)率及其分布的特點,并分析了其對基礎(chǔ)英語詞匯教學(xué)及學(xué)習(xí)的影響。
語篇詞匯量輸入;篇際詞匯重復(fù)率;基礎(chǔ)英語語料庫
詞匯是語言交際的基礎(chǔ),是語言習(xí)得的根本所在。研究表明,在英語學(xué)習(xí)過程中,學(xué)習(xí)者所遇到的困難有很大程度上是跟詞匯相關(guān)的,正如Nation (1990)指出的那樣,“語言學(xué)習(xí)者感到,學(xué)習(xí)者接受和使用語言的困難源自于他們的詞匯量不夠”。然而,Nation和Waring (1997) 的研究卻表明,2000-3000個詞匯就足夠讓外語學(xué)習(xí)者說和寫了。那么就我國的大學(xué)英語教學(xué)大綱而言,當(dāng)學(xué)生完成了300個小時的英語學(xué)習(xí)后,他們的詞匯量應(yīng)該從高中時期的2000個增長到4200個,而英語專業(yè)的學(xué)生應(yīng)該達到10000-20000個。
近年來,國內(nèi)外學(xué)者對于詞匯輸入頻率和詞匯習(xí)得的關(guān)系作出了一系列的研究。心理語言學(xué)家就詞匯輸入頻率在詞匯習(xí)得中的作用的研究表明,學(xué)習(xí)者習(xí)得語言的先后順序取決于該語言成分在輸入中出現(xiàn)的頻率高低(Waner-Gough & Hatch 1975:302), 語言知識只有被學(xué)習(xí)者消化吸收才能進入大腦長期記憶,才能起到催化語言語言習(xí)得的作用,而能被吸收的語言知識在語言輸入中必須有足夠的復(fù)現(xiàn)率和突顯性 (Delosh & McDaniel 1996: 1140; Van Pattern 1996:54)。研究者同時指出,詞頻是一種暫時的,也是一種動態(tài)的狀態(tài),一個低頻詞經(jīng)過適當(dāng)?shù)闹貜?fù)也會產(chǎn)生高頻詞的效應(yīng)。因此,重復(fù)對促進低頻詞向高頻詞的過渡作用很大。
篇際詞匯重復(fù)率指同一詞匯在不同篇章里重復(fù)率。它是影響英語詞匯習(xí)得的一個重要因素,它直接影響到詞匯及其語法、句法、語義、語法的習(xí)得程度。適當(dāng)?shù)钠H詞匯重復(fù)率可以促進詞匯習(xí)得,而與此同時,如果詞匯的篇際重復(fù)率不能達到一定數(shù)量,它就將成為詞匯習(xí)得過程中的一大障礙。因此,保證篇際復(fù)率就成為英語學(xué)習(xí)者和教學(xué)者在詞匯習(xí)得和教學(xué)中必須重視而又往往忽視的重要一個因素。經(jīng)實驗研究表明,文章中只出現(xiàn)一次的詞被學(xué)習(xí)者記住的概率低于0.15(Herman et al 1987;Kachroo 1962; Saragi et al. 1978)。據(jù)此,Rott(1999:592)認為,一個單詞在文章重出現(xiàn)6次就足以被學(xué)習(xí)者記住,而Nation (1990)提出,要想長期記憶一個單詞,同一個單詞需要在不同的篇章內(nèi)重復(fù)5-15次。
詞匯輸入頻率即重復(fù)率的重要性也引起了國內(nèi)研究者的注意,關(guān)于篇際詞匯重復(fù)率的研究也給詞匯習(xí)得和教學(xué)帶來了新的思路和方法。然而,如何在教材編寫重科學(xué)體現(xiàn)詞匯的重復(fù)率,至今尚未得到有效的解決。究其原因,主要是以往的研究大都是定性研究,缺乏數(shù)據(jù)的支持,因而沒有起到太大的現(xiàn)實意義。本研究采用定量和定性相結(jié)合的方式,采用計量語言學(xué)的方法,以大量的語料為依據(jù)來對基礎(chǔ)英語語料庫中的詞匯輸入頻率進行研究。
(一)研究問題
文章以上海外語教育出版社出版的英語專業(yè)基礎(chǔ)英語教材《綜合英語》一冊到四冊為基礎(chǔ)形成的基礎(chǔ)英語教材語料庫(JYJCC)為研究對象,以計算機輔助的語料自動分析和數(shù)理統(tǒng)計為主要手段,得出以下結(jié)論:(1)語料庫中重復(fù)一次的詞匯 (Hapax legomena)即篇際詞匯重復(fù)率為零的單詞的分布特征。(2)篇際詞匯重復(fù)率為5-15次的單詞的分布特征。(3)語料庫重任意兩篇語篇的詞匯重復(fù)率。(4)多次重復(fù)詞匯的統(tǒng)計和構(gòu)成分析。
(二)研究手段
文章研究所基于的語料全部取自第一手英文資料,一律保持原文的風(fēng)貌。內(nèi)容廣泛,涉及戰(zhàn)爭與和平科技與倫理、競爭與合作、人類與自然、愛情與友誼等課題,總單詞量為126 817。JYJCC的內(nèi)容量較大,超過了10萬字,因此具有總體的統(tǒng)計特征。JYJCC 是以四冊《綜合英語》教材為內(nèi)容,語篇長度大約在450-2000字之間。我們將語料庫根據(jù)字數(shù)分成四個子語料庫:
表1.MEEC 數(shù)據(jù)
(一)基礎(chǔ)英語語篇詞匯量分布
表2. MEEC詞匯數(shù)據(jù)
圖1 為MEEC4個子語料庫的詞匯量分布直方圖。我們可以看出,曲線大體上成正態(tài)分布。由于每個子語料庫的抽樣數(shù)量足夠大,而且詞匯量為正態(tài)分布曲線,因此下面的公式可用來推斷基礎(chǔ)英語語篇詞匯量95%的可能范圍:
P = M ± t0.025*S
在本公式中,P為語篇詞匯量,M為平均值,t0.025是常量,為1.96,而S指標準差。
這樣可以得知,長度在 400-2000單詞之間任意一基礎(chǔ)英語語篇詞匯量 95%的區(qū)間估計為:MEEC1:276.92±39.453×1.96=199-354 。 MEEC2:334.44±40.393×1.96=255-414 。 MEEC3:463.69±49.023×1.96=395-560 。 MEEC4:461.25±48.928×1.96=365-559
(二)基礎(chǔ)英語 Hapax 的分布
每個子語料庫中都有很大一部分單詞只出現(xiàn)一次,沒有在任何另外一個語篇里出現(xiàn),也就是說他們的篇際詞匯重復(fù)率是零。我們叫這些單詞為 Hapax (篇際詞匯重復(fù)率為零的詞)。根據(jù)對各個子語料庫中 Hapax分布的規(guī)律研究不難發(fā)現(xiàn)當(dāng)累積token 數(shù)增加時,Hapax 所占的比例逐漸減少,但仍然占很大的一個比率。當(dāng)累積token數(shù)為20000時,1-4子語料庫中的Hapax的比率分別為總詞匯量的42.17%,40.25%,41.63%和41.19%。當(dāng)累積token數(shù)為50000時,Hapax的比率分別為總詞匯量的41.58%,8.83%,42.40% 和39.22%;當(dāng)累積token數(shù)為60,000時,1-4子語料庫中的Hapax的比率分別為總詞匯量的41.18%,38.18%,41.77%,和 39.43%; 而當(dāng)累積token數(shù)為75,000時,這個比率分別是40.67%, 37.78%,41.92%
和39.14%。
表3 .Hapax 在各個子語料庫中的整體分布
(三)任意兩篇語篇的詞匯重復(fù)率
在每個子語料庫中,我們隨機抽取 n/2(n=每子語料庫中的樣本數(shù))對樣本進行詞匯比較,每個樣本只被抽取一次,比較的結(jié)果如表4:
表4. 各個子語料庫中任意兩篇樣本的詞匯重復(fù)
從上表可以看出,各個子語料庫中的詞匯重復(fù)中數(shù)分別為: 65.59,92.31,124.80,156.99。最小重復(fù)數(shù)分別為: 325,357和104;而最大重復(fù)數(shù)為103145226及250。在上面我們提到過每個子語料庫的詞匯量中數(shù)分別:276.92,334.44,463.69和547.25 (見表2)在這些數(shù)據(jù)的基礎(chǔ)上,我們就可以運用下面的公式得到每個子語料庫中任意抽取的兩篇語篇樣本的詞匯重復(fù)率。
MR: 詞匯重復(fù)率。MVR: 詞匯重復(fù)中數(shù)。MVS: 詞匯量中數(shù)
各子語料庫的詞匯重復(fù)率:MEEC1: 65.59/276.92=0.23686。MEEC2:92.31/334.44=0.27601。MEEC3:124.80/ 463.69=0.26914。MEEC4:156.99/547.25=0.28687
再次利用SPSS軟件,我們發(fā)現(xiàn)四個子語料庫的重復(fù)率直方圖都接近正態(tài)分布,這樣,再次利用公式1, 我們就有95%的把握相信,在四個子語料庫中任意抽取的兩篇基礎(chǔ)英語語篇重復(fù)的詞匯數(shù)量分別為:MEEC1: 69.59±15.882×1.96=28-156。MEEC2: 92.31±17.183×1.96=58-125。MEEC3 : 124.80±28.776×1.96=68-181。MEEC4: 156.99±29.459×1.96=99-214。
從以上數(shù)據(jù)可以看出,在基礎(chǔ)英語語料庫中,任意抽取的長度為500字左右的兩篇樣本,它們的詞匯重復(fù)大約在28-156字左右;而長度為1000字左右的兩篇則大約有58-125個詞匯的重復(fù);長度為1500字左右的兩篇樣本,它們的詞匯重復(fù)大約在68-181字左右;長度在2000字左右的兩篇樣本大約有99-214個字的重復(fù)。
由上可知,一個單詞只有在不同的篇章內(nèi)重復(fù)5-15次或者更多次才能被語言習(xí)得者長期記憶。那么,在基礎(chǔ)英語教材中,這些重復(fù)率在5-15次及15次以上的詞匯的構(gòu)成又是如何呢?拿語料庫2為例,我們發(fā)現(xiàn)一些高頻詞如:the, a, of, this 等的詞匯重復(fù)率極高,基本在每篇文檔中都有重復(fù)。如a 它在子語料庫2中的重復(fù)率高達385次。另外,阿拉伯?dāng)?shù)字,人名和地名的重復(fù)率也都很高,如子語料庫2中數(shù)字1有1次的重復(fù)率。相反,和醫(yī)學(xué)、哲學(xué)、生化等有關(guān)的詞匯有著相對較低的重復(fù)率。如在子語料庫1中,如 perpendicular, pew, rajah, riposte 等詞分別只有1次到2次的重復(fù)率。而在子語料庫2中,如cylinder, deck, deviation, dock, scraper等詞也只重復(fù)了1-3次。
基于以上對基礎(chǔ)英語詞匯量分布和篇際詞匯重復(fù)率的分析不難看出,英語專業(yè)基礎(chǔ)英語學(xué)習(xí)階段的學(xué)習(xí)者詞匯缺乏的主要原因之一是由于單詞篇際詞匯重復(fù)率過低。研究中我們發(fā)現(xiàn),各個語料庫中只出現(xiàn)一次的單詞在累積詞匯中占有很大比例。具有5-15次篇際重復(fù)的詞匯則占累積詞匯的很小一部分。任意兩個長度相同的語篇的詞匯重復(fù)率很小。這一結(jié)果對于詞匯教學(xué)和專業(yè)英語教材編寫具有重要的啟示作用。
在自然語篇中,高比例的零重復(fù)詞匯為使教材編寫難度增加。如果一本教材一冊有10000個單詞,總詞匯量大約為4800個,但是這些詞匯有一半的篇際詞匯重復(fù)為零,而詞匯習(xí)得所需滿足的重復(fù)5-15次的以上的篇際重復(fù)次數(shù)中,如果選擇10為習(xí)得一個單詞所需的篇際重復(fù)次數(shù),那么在這本教材中只有約276的詞匯能達到10 或10次以上的篇際重復(fù)率。據(jù)統(tǒng)計結(jié)果,當(dāng)累積篇際單詞數(shù)達到300000也就是說30篇1000單詞的課文才有大約2000詞匯達到10次和10次以上的篇際重復(fù)。一般的基礎(chǔ)英語教學(xué)根本達不到這樣的單詞輸入量。因此,只靠基礎(chǔ)英語課教學(xué)來滿足詞匯重復(fù)率是不現(xiàn)實的。這有待專業(yè)英語教師和研究者共同努力。
除了教材的改良,教師的教學(xué)方法也對提高詞匯的篇際重復(fù)率有著很大的影響,對于低頻詞的反復(fù)訓(xùn)練以達到提高篇際詞匯重復(fù)率是英語專業(yè)教師的主要任務(wù)之一。
H313
A
1673-2219(2011)07-0158-04
2011-01-29
大連民族學(xué)院青年科研基金“基礎(chǔ)英語教材語料庫中的篇際詞匯重復(fù)率研究”項目的階段性成果(項目編號2009A404)。
劉英蘋(1981-),女,吉林通化人,大連民族學(xué)院外語學(xué)院講師,碩士,研究方向為語料庫語言學(xué)與翻譯。
[1]Delosh E & A Mc Daniel . The role of order information in free recall: Application to the word-frequency effect [J].Journal of Experimental Psychology,1996,(22).
[2]Kachroo, J.N. Report on an Investigation in to the Teaching of Vocabulary in the First Year of English Bulletin of the Central Institute of English.[M].Oxford:Oxford University Press,1962.
[3]Nagy, W. E., Herman, P. A., & Anderson, R. C. Learning word meanings form context during normal reading[J]. American Educational Research Journal,1987,(24).
[4]Nation. P.Teaching and learning vocabulary[M].New York: Newbury house,1990.
[5]Nation, P. & Waring, R. Vocabulary size, text coverage and word lists. In N.Schmitt & M. McCarthy (Eds.), Vocabulary:description, acquisition, and pedagogy[M].Cambridge. UK: Cambridge University Press,1997.
[6]Rott, S. The effect of exposure frequency on intermediate language learners’incidental vocabulary acquisition through reading.[J].SSLA 1999,(1).
[7]Van Patten B. Input Processing and Grammar Instruction [M].New York: Ablex,1996.
[8]黃仁杰.新編科技英語分級詞匯[Z].上海交通大學(xué)出版社,1987.
[9]周世界.語言統(tǒng)計學(xué)[M].大連海事大學(xué)出版社,2004.
(責(zé)任編校:周欣)