崔維霞 王均松
(1.西安外國(guó)語(yǔ)大學(xué),陜西西安 710061;2.西北工業(yè)大學(xué),陜西西安 710129)
詞表研究不僅是語(yǔ)言研究的重要組成部分,而且在外語(yǔ)教學(xué)領(lǐng)域也具有重要的應(yīng)用價(jià)值。相關(guān)研究表明[1-3],并不是所有詞匯都具有同樣的重要性。根據(jù)齊夫定律(ZiPf's Law),在一個(gè)自然語(yǔ)言的語(yǔ)料庫(kù)中,一個(gè)詞的出現(xiàn)頻數(shù)和這個(gè)詞在這個(gè)語(yǔ)料庫(kù)中的排名成反比,第n 常見(jiàn)詞的出現(xiàn)頻率是最常見(jiàn)詞出現(xiàn)頻率的1/n。比如,在Brown 語(yǔ)料庫(kù)中,“the”是最常見(jiàn)的單詞,它在這個(gè)語(yǔ)料庫(kù)中出現(xiàn)的頻率為每百萬(wàn)詞69 971 次,居于第二位的單詞“of”的頻率為每百萬(wàn)詞36 411 次,約為“the”出現(xiàn)頻率的1/2,而居于第三位的“and”每百萬(wàn)詞出現(xiàn)28 852次,約為“the”出現(xiàn)頻率的1/3。盡管這種比例不是十分精確,但卻能夠在總體上體現(xiàn)出語(yǔ)言使用的規(guī)律或特征。統(tǒng)計(jì)結(jié)果顯示,Brown 語(yǔ)料庫(kù)詞表中前135 個(gè)詞匯就占了整個(gè)語(yǔ)料庫(kù)的50%,前1000 個(gè)詞匯的覆蓋率為72%,前3000 個(gè)詞匯的覆蓋率為84%。也就是說(shuō),在自然文本語(yǔ)料庫(kù)中,少量的高頻詞所占的比例很高,而低頻詞的數(shù)目雖然多,但是覆蓋率相對(duì)較低。顯然,詞匯習(xí)得的順序也要遵循自然語(yǔ)言的規(guī)律,首先學(xué)習(xí)頻率較高的詞匯,然后學(xué)習(xí)頻率較低的詞匯,最大程度地減輕記憶負(fù)擔(dān),提高學(xué)習(xí)效率。
然而,對(duì)處于不同階段和不同層次水平的學(xué)習(xí)者來(lái)說(shuō),詞匯的重要性是不同的。詞頻的高低并不是唯一的選詞標(biāo)準(zhǔn),了解哪些參數(shù)會(huì)影響詞匯在詞表中的位置和順序,顯然對(duì)于課程設(shè)置、教材編寫(xiě)和詞典編纂等方面有很大的幫助。因此,詞表的創(chuàng)建和研究具有重要的理論價(jià)值和實(shí)踐思義。
詞表的研制與開(kāi)發(fā)歷史悠久,早在計(jì)算機(jī)出現(xiàn)之前,各國(guó)學(xué)者就開(kāi)始手工創(chuàng)建用于編制工具書(shū)和指導(dǎo)語(yǔ)言教學(xué)的詞頻表,如德國(guó)學(xué)者凱定(F.W.Kaeding)1898 年編寫(xiě)的《德語(yǔ)頻率詞典》、中國(guó)教育家陳鶴琴1928 年編制的《語(yǔ)體文應(yīng)用字匯》以及美國(guó)的教育心理學(xué)家桑代克(Thorndike)1932 年出版的《教師兩萬(wàn)詞詞匯手冊(cè)》等。這些詞表與今天計(jì)算機(jī)生成的詞表無(wú)異,甚至可以說(shuō)是今天詞表的前身。自20 世紀(jì)50 年代以來(lái),隨著計(jì)算機(jī)技術(shù)的不斷進(jìn)步和語(yǔ)料庫(kù)語(yǔ)言學(xué)的迅速發(fā)展,國(guó)內(nèi)外學(xué)者對(duì)于詞表研究表現(xiàn)出極大興趣,并且取得了豐碩的成果。
在當(dāng)今的眾多詞表中,韋斯特(M.West)1953年公布的通用英語(yǔ)詞匯表(general service list,簡(jiǎn)稱GSL)最具代表性和影響力[4],該詞表是基于一個(gè)500 萬(wàn)詞規(guī)模的語(yǔ)料庫(kù)建成的,詞表中列出了英語(yǔ)中使用頻率最高、覆蓋面最廣的2000 個(gè)詞匯,掌握這些詞匯的學(xué)習(xí)者能夠聽(tīng)懂90%~95%的口語(yǔ)對(duì)話,看懂80%~85%的日常語(yǔ)篇。該詞匯表的公布對(duì)當(dāng)時(shí)的詞匯教學(xué)影響巨大,被稱作“20 世紀(jì)外語(yǔ)教學(xué)和詞匯研究最有創(chuàng)新思義的成果之一”[5]。另外一個(gè)享有較高聲譽(yù)的是新西蘭維多利亞大學(xué)從事語(yǔ)言學(xué)及應(yīng)用語(yǔ)言學(xué)研究的考克斯黑德(Avreil Coxhead)于2000 年創(chuàng)制的學(xué)術(shù)詞匯表[6](academic word list,簡(jiǎn)稱AWL),包括570 個(gè)詞族、3112 個(gè)詞項(xiàng)。這570 個(gè)詞族是在剔除韋斯特的2000 個(gè)通用詞族及專屬特定學(xué)術(shù)領(lǐng)域的詞匯之后獲得的,各學(xué)科共有的常用詞匯。該詞匯表包含了學(xué)術(shù)交流中實(shí)用頻率最高的詞匯,因此在國(guó)際上得到了廣泛的認(rèn)可。
而在國(guó)內(nèi),早在20 世紀(jì)80 年代,上海交通大學(xué)楊惠中和黃人杰1982 年通過(guò)對(duì)自建的上海交通大學(xué)科技英語(yǔ)語(yǔ)料庫(kù)語(yǔ)料(簡(jiǎn)稱JDEST)比較、統(tǒng)計(jì)和篩選,研究出基于該庫(kù)的正序詞表、詞頻詞匯表和十個(gè)分專業(yè)詞匯表,為確定大學(xué)英語(yǔ)教學(xué)大綱的詞匯表提供了可靠的量化依據(jù)[7]。近年來(lái),專業(yè)領(lǐng)域語(yǔ)料庫(kù)的迅速發(fā)展為編制特點(diǎn)鮮明的專業(yè)英語(yǔ)教學(xué)詞表提供了有利的條件。如海軍航空工程學(xué)院曾依靠JDEST語(yǔ)料庫(kù)和英語(yǔ)國(guó)家語(yǔ)料庫(kù),結(jié)合自身的教學(xué)目的,篩選確定了3000 個(gè)復(fù)用式詞匯作為詞匯教學(xué)的重點(diǎn),收到了顯著的教學(xué)效果。嚴(yán)明于2010 年在黑龍江大學(xué)建設(shè)的商務(wù)英語(yǔ)語(yǔ)料庫(kù)(HUBEC)的基礎(chǔ)上開(kāi)發(fā)了一系列的商務(wù)專業(yè)英語(yǔ)詞匯表,包括“商務(wù)英語(yǔ)專業(yè)參考詞匯表”“商務(wù)英語(yǔ)專業(yè)基礎(chǔ)參考詞匯表”“商務(wù)英語(yǔ)專業(yè)術(shù)語(yǔ)參考詞匯表”“商務(wù)英語(yǔ)專業(yè)縮寫(xiě)詞表”,這些詞表的創(chuàng)建對(duì)于商務(wù)英語(yǔ)教學(xué)具有重要的指導(dǎo)價(jià)值[8]。
綜上所述,國(guó)內(nèi)外學(xué)者在詞表方面的研究和探索為外語(yǔ)學(xué)習(xí)者和英語(yǔ)教師提供了極大的幫助,同時(shí)也為教材編寫(xiě)、課程內(nèi)容設(shè)計(jì)、測(cè)試開(kāi)發(fā)以及詞典編纂提供了必要的參考依據(jù),詞表的開(kāi)發(fā)與利用具有重要的現(xiàn)實(shí)思義和指導(dǎo)作用。本文以考克斯黑德的學(xué)術(shù)英語(yǔ)詞匯表為例探討基于語(yǔ)料庫(kù)的詞表開(kāi)發(fā)與研制應(yīng)遵循的原則和步驟。
在詞表創(chuàng)建之前首先要明確詞表的使用對(duì)象和研究目標(biāo),這將對(duì)詞表開(kāi)發(fā)和應(yīng)用中的一系列決策產(chǎn)生重要的影響。詞表設(shè)計(jì)者要從使用者的實(shí)際需求出發(fā),考慮使用者的范圍、層次和水平,因?yàn)椴煌氖褂谜邔?duì)詞表的期望和需求是不同的。比如,初級(jí)學(xué)習(xí)者和高級(jí)學(xué)習(xí)者需求的詞表一定是有所不同的,專業(yè)技術(shù)人員和非專業(yè)技術(shù)人員需求的詞表也必然存在較大差異。此外,詞表的設(shè)計(jì)也不能脫離詞表具體的使用目的或用途,詞表在語(yǔ)言教學(xué)、課程設(shè)置、文本分析、語(yǔ)言測(cè)試等方面有廣泛的應(yīng)用,在詞表創(chuàng)建時(shí)要結(jié)合具體的研究目的有針對(duì)性地制定設(shè)計(jì)方案??伎怂购诘聞?chuàng)建學(xué)術(shù)英語(yǔ)詞表的目標(biāo)是幫助學(xué)習(xí)者解決在閱讀學(xué)術(shù)類文章時(shí)遇到的由于學(xué)術(shù)詞匯缺乏而造成的困難。學(xué)術(shù)詞匯頻繁出現(xiàn)在各專業(yè)領(lǐng)域的學(xué)術(shù)性文本中,雖然不能傳遞主要的學(xué)術(shù)信息,但是在表達(dá)學(xué)術(shù)觀點(diǎn)、闡釋研究活動(dòng)、解釋研究結(jié)果時(shí)經(jīng)常用到。雖然有學(xué)者質(zhì)疑創(chuàng)建一個(gè)涵蓋各學(xué)科的學(xué)術(shù)詞表的可行性,但是大量的實(shí)驗(yàn)結(jié)果顯示該詞表有良好的普適性,包括了很多以往語(yǔ)言教學(xué)中被忽視的重要學(xué)術(shù)詞匯,具有重要的價(jià)值。
語(yǔ)料庫(kù)是指“按照一定的語(yǔ)言學(xué)原則運(yùn)用隨機(jī)抽樣的方法,收集自然出現(xiàn)的連續(xù)的語(yǔ)言運(yùn)用文本或話語(yǔ)片段而建成的具有一定容量的大型電子文庫(kù)”[9]。自計(jì)算機(jī)語(yǔ)料庫(kù)出現(xiàn)以來(lái),絕大多數(shù)的詞表都建立在語(yǔ)料庫(kù)的基礎(chǔ)之上。語(yǔ)料庫(kù)的選擇和詞表研制的目標(biāo)緊密相關(guān),語(yǔ)料庫(kù)的構(gòu)成必須能夠滿足詞表使用者的需求。如果要為青少年學(xué)習(xí)者設(shè)計(jì)詞表,那么語(yǔ)料庫(kù)就必須最大限度地包括青少年經(jīng)常遇到和使用語(yǔ)言的典型用法。研究者可以選擇已有的語(yǔ)料庫(kù)來(lái)創(chuàng)建詞表,但是現(xiàn)有的語(yǔ)料庫(kù)大多根據(jù)設(shè)計(jì)者當(dāng)時(shí)的需求設(shè)計(jì),不一定能完全滿足現(xiàn)有研究的需求。比如,英國(guó)國(guó)家英語(yǔ)語(yǔ)料庫(kù)(簡(jiǎn)稱BNC)是一個(gè)庫(kù)容為1 億詞匯的大型平衡語(yǔ)料庫(kù),但是該語(yǔ)料庫(kù)的口語(yǔ)部分比較小(1000 萬(wàn)詞),而且收集的語(yǔ)料都是英式成人英語(yǔ),語(yǔ)體較為正式。
另一方面,詞表研究者也可以根據(jù)需要來(lái)自建語(yǔ)料庫(kù),隨著語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展和各種檢索軟件的出現(xiàn),個(gè)人通過(guò)自建語(yǔ)料庫(kù)來(lái)研制詞表已經(jīng)成為潮流和趨勢(shì)。創(chuàng)建學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)是考克斯黑德詞表研究的一個(gè)首要任務(wù),因?yàn)楫?dāng)時(shí)沒(méi)有合適的學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)可供選擇。在充分考慮代表性和典型性的基礎(chǔ)上,考克斯黑德建成了一個(gè)350 萬(wàn)詞的學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù),該語(yǔ)料庫(kù)分為人文、經(jīng)濟(jì)、法律和科學(xué)4 個(gè)大類,然后又細(xì)分為28 個(gè)同樣大小的學(xué)科小類。每一類中長(zhǎng)短文本的比例基本相當(dāng),而且文本的來(lái)源也十分廣泛,包括教科書(shū)、期刊文章以及操作手冊(cè)等。盡管如此,仍有學(xué)者批評(píng)其子庫(kù)的容量較?。ú蛔?3 萬(wàn)詞),不能滿足所選詞匯出現(xiàn)在所有學(xué)科子類中的要求。但是,總體來(lái)講,學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)可以較好地代表當(dāng)時(shí)最新的學(xué)術(shù)英語(yǔ)書(shū)面語(yǔ),是創(chuàng)建學(xué)術(shù)英語(yǔ)詞表的一個(gè)理想選擇。
在討論詞頻統(tǒng)計(jì)單位之前,首先要區(qū)分幾個(gè)語(yǔ)料庫(kù)語(yǔ)言學(xué)中使用的相關(guān)術(shù)語(yǔ)。在語(yǔ)料庫(kù)語(yǔ)言學(xué)中常見(jiàn)的詞頻統(tǒng)計(jì)單位包括形符(token)、類符(word tyPe)、詞項(xiàng)(lemma)以及詞族(word family)。形符是一個(gè)語(yǔ)言單位,類似于我們?nèi)粘Uf(shuō)的“詞”,類符指不重復(fù)計(jì)算的形符數(shù),在文本中重復(fù)出現(xiàn)的形符只能記作一個(gè)類符,類符/形符比是衡量文本中詞匯密度的常用方法。詞項(xiàng)是由一個(gè)基礎(chǔ)詞(base word)與它的詞類相同的屈折形式(inflected forms)構(gòu)成的一系列單詞,例如動(dòng)詞access這個(gè)詞項(xiàng)就由基礎(chǔ)詞access和它的屈折形式accesses、accessed 和accessing構(gòu)成,而詞族涵蓋的范圍更廣,不僅包括基礎(chǔ)詞及其屈折形式,還包括一系列的明顯派生詞,如accessible、inaccessible、accessibility等。
在詞表的研制過(guò)程中,詞頻統(tǒng)計(jì)單位的選擇和研究的目的密切相關(guān)。總體來(lái)講,以接受知識(shí)為目標(biāo)的詞表研制通常以詞族為統(tǒng)計(jì)單位,假設(shè)學(xué)習(xí)者能夠理解詞族中的一兩個(gè)詞匯,那么理解詞族中其他成員就不會(huì)有很大的困難,因?yàn)樵~族中的成員無(wú)論是在形式上還是在思義上都是密切相關(guān)的。而在以產(chǎn)出知識(shí)為目標(biāo)的詞表研究中,詞族單位并不適用,因?yàn)榧词鼓軌蛘_使用詞族中的某個(gè)詞匯,并不思味著能夠正確使用詞族中的其他成員,因此詞項(xiàng)或類符應(yīng)當(dāng)是理想的詞頻統(tǒng)計(jì)單位。而考克斯黑德創(chuàng)建學(xué)術(shù)詞表的興趣主要在于學(xué)術(shù)文本的閱讀,所以選取詞族作為詞頻統(tǒng)計(jì)的單位。但某些時(shí)候?qū)W習(xí)者也需要產(chǎn)出學(xué)術(shù)詞匯,尤其是在寫(xiě)作的過(guò)程中,因此也有人提出以詞項(xiàng)作為詞頻統(tǒng)計(jì)的單位。在具體的操作過(guò)程中可以考慮分別以類符、詞項(xiàng)和詞族為統(tǒng)計(jì)單位制作詞表,然后加以比較,選擇最佳的詞頻統(tǒng)計(jì)單位。
詞頻(word frequency)是詞表選詞時(shí)一個(gè)非常重要的指標(biāo),出現(xiàn)頻率越高的詞匯在詞表中的位置就越靠前,相反出現(xiàn)頻率越低的詞匯在詞表中的位置就越靠后。但這并不思味著詞頻是唯一的參照標(biāo)準(zhǔn)。在具體的實(shí)踐中,詞表的設(shè)計(jì)者通常把詞匯的跨文本分布情況(range)和詞頻綜合加以考慮。
考克斯黑德在學(xué)術(shù)詞匯表選詞時(shí)制定了以下三個(gè)原則:(1)特定出現(xiàn)的領(lǐng)域:詞族須為韋斯特編制的GSL前2000 詞匯外的詞匯;(2)詞匯的跨文本分布情況:詞族必須在該語(yǔ)料庫(kù)4 個(gè)子庫(kù)中至少出現(xiàn)10 次,并出現(xiàn)于28 小類中至少15 小類;(3)詞頻:詞族在語(yǔ)料庫(kù)中最低詞頻為100 次。按照這個(gè)標(biāo)準(zhǔn),考克斯黑德編制完成了包括570 個(gè)詞族的“學(xué)術(shù)詞匯表”,根據(jù)這些詞族在學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)中出現(xiàn)頻率的高低,考克斯黑德進(jìn)一步將這些詞分成10 個(gè)子表:前9 個(gè)子表各包括60 個(gè)詞族,第10 個(gè)子表含30 個(gè)詞族??伎怂购诘轮詫⒃~頻放在跨文本分布之后是因?yàn)樵~頻會(huì)受到文本篇幅較長(zhǎng)和主題相關(guān)詞的影響。例如,在《柯林斯COBUILD英語(yǔ)詞典(第二版)》中,Yemeni和Lithuanian 被標(biāo)記為高頻詞,可能就是因?yàn)樵撛~典所借助的語(yǔ)料庫(kù)中包含了大量來(lái)自20 世紀(jì)90 年代初報(bào)紙的材料。
此外,在創(chuàng)建詞表時(shí)經(jīng)常會(huì)遇到一些特殊的詞匯,比如復(fù)合詞、專有名詞、縮略詞、外來(lái)詞等,它們是否應(yīng)該被錄人詞表是設(shè)計(jì)者必須要考慮的問(wèn)題。辨別哪些詞匯可以列人詞表,哪些詞匯應(yīng)當(dāng)排除在詞表之外,或者列人某個(gè)單獨(dú)的詞表時(shí)應(yīng)遵循的一個(gè)主要原則就是學(xué)習(xí)負(fù)擔(dān)原則。該原則的主要內(nèi)容是,如果一個(gè)詞匯不需要先前的知識(shí)(如專有名詞)就可以理解其思義,或者從先前的知識(shí)可以推導(dǎo)出其思義(如一些詞匯的屈折形式或明顯復(fù)合詞),那么就不應(yīng)當(dāng)列人詞表中作為詞條。對(duì)于明顯復(fù)合詞來(lái)說(shuō),既可以參照BNC語(yǔ)料庫(kù)詞表的做法把它們單獨(dú)列人一個(gè)詞表,也可以歸到復(fù)合詞中出現(xiàn)頻率較低的那個(gè)詞匯的詞族中,例如lifesPan這個(gè)復(fù)合詞就可以歸到sPan 這個(gè)詞條中,作為它的詞族成員。但需要特別注思的是很多復(fù)合詞并非明顯復(fù)合詞,復(fù)合詞的思義并不能通過(guò)其組成部分詞匯的思義推導(dǎo)出來(lái),(如doughnut、ladybird、walkman 等),這些詞匯應(yīng)當(dāng)納人到詞表中。專有名詞包括特定的人名、地名、機(jī)構(gòu)名稱等,在選詞時(shí)通常被歸到一個(gè)單獨(dú)的列表中。但是國(guó)名、國(guó)民的總稱以及國(guó)家使用的語(yǔ)言則納人到普通名詞表中,這是因?yàn)榇祟悓S忻~要比其他的專有名詞更多依賴讀者的先驗(yàn)知識(shí)。此外,這類詞表存在的一個(gè)很大的問(wèn)題就在于其中相當(dāng)一部分詞匯(如Smith、Bill、Fanny、Bush 等)既是專有名詞又是普通名詞,這在文本分析時(shí)需要特別關(guān)注。外來(lái)詞和縮略詞也是詞表研制過(guò)程中經(jīng)常遇到的詞匯,前者通常被納人到詞表中,而后者則往往被排除在詞表之外單獨(dú)列表??伎怂购诘抡J(rèn)為在以上幾類詞匯中,專有名詞大多與主題密切相關(guān),不能與常用的學(xué)術(shù)詞匯等同視之,因此將此類詞匯排除在詞表之外。
詞表一旦建成就可以對(duì)其效度和適用性進(jìn)行評(píng)估。詞表一般在其來(lái)源的語(yǔ)料庫(kù)中測(cè)試結(jié)果良好,但是真正的測(cè)試或評(píng)估必須在一個(gè)獨(dú)立的語(yǔ)料庫(kù)中進(jìn)行。最理想的情況是,這個(gè)獨(dú)立的語(yǔ)料庫(kù)與來(lái)源語(yǔ)料庫(kù)類型相同、大小相似、內(nèi)容卻不同。還有一種方法就是將來(lái)源語(yǔ)料庫(kù)分為兩個(gè)子庫(kù),然后分別抽取詞表并進(jìn)行比較。為了驗(yàn)證該詞表的可靠性和準(zhǔn)確性,考克斯黑德使用了兩個(gè)不同的語(yǔ)料庫(kù)對(duì)學(xué)術(shù)英語(yǔ)詞表進(jìn)行測(cè)試,一個(gè)是非學(xué)術(shù)的小說(shuō)文本語(yǔ)料庫(kù),另一個(gè)則是學(xué)術(shù)文本語(yǔ)料庫(kù)。測(cè)試結(jié)果顯示,該詞表在非學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)的覆蓋率較低,僅為2%;而在學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)的覆蓋率約為10%,這說(shuō)明學(xué)術(shù)英語(yǔ)詞表不是一個(gè)通用詞表而是一個(gè)專業(yè)詞表。與之前的詞匯表相比,學(xué)術(shù)英語(yǔ)詞匯表在學(xué)術(shù)用途英語(yǔ)教學(xué)方面具有突出優(yōu)勢(shì)和重要思義。但是關(guān)于該學(xué)術(shù)英語(yǔ)詞匯表,學(xué)者們也有一些不同思見(jiàn)。吳瑾和王同順基于上海交大科技英語(yǔ)語(yǔ)料庫(kù)(JDEST)從詞匯的覆蓋率、頻率等角度考察和分析該詞表在科技英語(yǔ)教學(xué)領(lǐng)域的適用性[10]。研究結(jié)果表明,AWL所包含的570 個(gè)學(xué)術(shù)詞族雖然總體上也同樣適用于自然與理工學(xué)科,但由于Coxhead 學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)在所選專業(yè)方面的側(cè)重,AWL中有57 個(gè)詞族的子表位置相對(duì)于它們?cè)谝訨DEST為基礎(chǔ)產(chǎn)生的子表位置有顯著差異。據(jù)此,建議在科技英語(yǔ)教學(xué)中參考研究結(jié)果,根據(jù)學(xué)生所學(xué)專業(yè),對(duì)AWL中57 個(gè)詞族所在子表的順序和內(nèi)容做適當(dāng)調(diào)整。
通用英語(yǔ)詞表自韋斯特提出之后,適用性一直非常好。但是隨著信息時(shí)代的到來(lái),語(yǔ)言變化的速度越來(lái)越快。在過(guò)去60 年中,各個(gè)行業(yè),尤其是IT行業(yè)的發(fā)展催生了很多新的詞匯(如web、e-mail、Internet等),并逐漸演變?yōu)槿粘=浑H中頻繁使用的核心詞匯;而有些詞匯隨著時(shí)間的推移使用頻率越來(lái)越低,變得陳舊過(guò)時(shí),但這些變化大多沒(méi)有在該詞表中得以體現(xiàn)。為了及時(shí)反映語(yǔ)言發(fā)展的最新動(dòng)態(tài),有必要對(duì)該詞表進(jìn)行維護(hù)和升級(jí)。另一方面,隨著語(yǔ)料分析和索引工具的不斷完善和強(qiáng)大,可以考慮在詞表中適當(dāng)增加一些其他數(shù)據(jù),如搭配、分布、覆蓋率等信息輔助語(yǔ)言教學(xué)和研究。
詞表的研制和設(shè)計(jì)與研究目的密切相關(guān),沒(méi)有一個(gè)終極詞表可以滿足研究者的所有需要。根據(jù)不同的研究目的可以研制各種類型的專用詞表,滿足不同人群的需要。比如,提供一個(gè)面向兒童學(xué)習(xí)外語(yǔ)的詞表將會(huì)非常實(shí)用;同樣,創(chuàng)建各個(gè)專業(yè)領(lǐng)域的詞表(如法律、商務(wù)、醫(yī)學(xué)、旅游等)也會(huì)給該領(lǐng)域的從業(yè)人員和學(xué)習(xí)者提供巨大的幫助。但是無(wú)論創(chuàng)建何種類型的詞表,都要首先考慮兩個(gè)最基本的問(wèn)題:一是基于什么類型的語(yǔ)料庫(kù)來(lái)研制當(dāng)前的詞表? 二是選詞的標(biāo)準(zhǔn)除了詞匯的跨文本分布情況和詞頻之外是否還有其他的標(biāo)準(zhǔn)可以參照?效度和適用性如何?
詞表創(chuàng)建的歷史非常悠久,迄今為止詞表研究在課程設(shè)置、語(yǔ)言教學(xué)、詞典編纂等諸多領(lǐng)域已經(jīng)取得了豐碩的成果。隨著計(jì)算機(jī)技術(shù)的進(jìn)步和語(yǔ)料庫(kù)語(yǔ)言學(xué)的興起與發(fā)展,基于語(yǔ)料庫(kù)的詞表研究已經(jīng)成為當(dāng)前的主流和趨勢(shì)。本文以Coxhead 的學(xué)術(shù)詞表為例討論了基于語(yǔ)料庫(kù)的詞表創(chuàng)建應(yīng)遵循的原則和步驟,主要包括明確詞表創(chuàng)建的目的或目標(biāo),選擇或自建合適的語(yǔ)料庫(kù),確定詞頻統(tǒng)計(jì)單位,制定詞匯選取標(biāo)準(zhǔn)以及對(duì)詞表進(jìn)行評(píng)估與測(cè)試五個(gè)方面。但需要注思的是這幾個(gè)方面并非是孤立的,而是相互聯(lián)系相互影響的統(tǒng)一整體。其中詞表創(chuàng)建的目的和目標(biāo)是基礎(chǔ),語(yǔ)料庫(kù)的選擇、選詞的標(biāo)準(zhǔn)、詞頻單位的確定都要和研究目的緊密結(jié)合,受其制約;反過(guò)來(lái),正確的選擇、合理的評(píng)估與測(cè)試可以促使設(shè)計(jì)者不斷修改和完善現(xiàn)有的詞表,更好地實(shí)現(xiàn)詞表創(chuàng)建的目標(biāo)。