摘 要:英語高頻詞匯研究屬詞匯分析的一部分,在語言研究和教學實踐中極具實用意義。本文介紹高頻詞匯的概念、采集原理及使用《英語詞匯分析工具》軟件采集英語高頻詞匯的方法。
關(guān)鍵詞:英語;詞匯分析;高頻詞匯;英語詞匯分析工具
一、 引言
詞匯在英語語言研究和教學工作中是重要的組成部分,高頻詞匯因使用頻繁而受到普遍重視。根據(jù)關(guān)注目標不同衍生出各類英語高頻詞匯,如考試類的高考高頻詞匯和托福高頻詞匯,技術(shù)專業(yè)類的如商務(wù)英語高頻詞匯、新聞英語高頻詞匯、化工英語高頻詞匯等等。這些英語高頻詞匯面向?qū)ο蟛煌~匯組成差異明顯,研究高頻詞匯可以幫助教師更多地關(guān)注這類詞匯的相關(guān)信息、更好地把握教學重點和更高效地訓練學生應(yīng)對能力,提升教學質(zhì)量。
二、 高頻詞匯概念和采集一般步驟
高頻詞匯通常是指在語言交流中使用率較高的詞匯,或某領(lǐng)域使用較普遍的詞匯。它是以交流材料為計數(shù)單位,經(jīng)過對許多批次材料詞匯詞頻統(tǒng)計,篩選出由頻數(shù)較高詞匯組成的一批詞匯。一份材料無論某詞匯出現(xiàn)多少次,其詞頻計數(shù)僅算1次,而頻數(shù)為100的詞匯是指在所有統(tǒng)計材料中有100份材料含有該詞匯。高頻詞匯共同特征是對材料的較高總體覆蓋率,如商務(wù)英語高頻詞匯對各種商務(wù)文書類具較高的覆蓋率,考試高頻詞匯考到的概率較大。因此,僅對一篇材料進行詞頻統(tǒng)計或?qū)⑺胁牧辖M成一個大文件做詞頻統(tǒng)計均不適合用于高頻詞匯采集。本文以考試高頻詞匯的采集為例,介紹采集的技術(shù)要點和一般步驟。
考試高頻詞匯指在特定考試中按考試批次統(tǒng)計出現(xiàn)頻數(shù)較高的詞匯(覆蓋率較高)。如對20批次考試試卷進行詞頻統(tǒng)計,某詞匯在14批次考試試卷中含有,則該詞匯的統(tǒng)計頻數(shù)為14,考試覆蓋率70%,該詞匯應(yīng)屬于考試高頻詞匯。考試高頻詞匯的采集首先要收集足夠批次考試試卷(統(tǒng)計學稱之為采樣的樣本量)。受考試時長和篇幅的限制,每次考試所含詞匯數(shù)量十分有限,如果用于統(tǒng)計的試卷批次數(shù)量過少則高頻詞匯采集將失去意義,考試批次越多,高頻詞匯采集工作就價值越高。采集的主要工作是制作詞頻統(tǒng)計數(shù)據(jù)表和各頻數(shù)段詞匯表,該工作一般用專用軟件在計算機上完成,詞頻統(tǒng)計數(shù)據(jù)可幫助快速框定高頻詞匯的范圍,合并框定范圍內(nèi)各頻數(shù)段詞匯表就完成了高頻詞匯的初始采集工作。高頻詞匯范圍框定一般有兩種方式,一種方式是以詞匯數(shù)量規(guī)模進行框定,如根據(jù)詞頻數(shù)由高到低選取2000個詞匯;另一種方式是按考試覆蓋率框定,如超過半數(shù)考試含有的詞匯(考試批次覆蓋率50%)。
經(jīng)上述工作形成的高頻詞匯初始詞表的后處理是除去(Excluded Words)一些不應(yīng)包含在其中的詞匯,包括專有名詞(如U.S.A./Mrs./April)、數(shù)詞(如three/second/nineteenth)、感嘆詞(如yeah/oh/ha)、無法歸類詞(如er/th/wh)、字母符號(如a/b/l)、計量詞(如km/vol./p.)、縮寫(如b.c./a.m./ie)、代詞(如your/her)、介詞(如of/as)等等,最終完成高頻詞匯詞表。
三、 采集工具與操作
《英語詞匯分析工具》是南通大學李冬研制的英語詞匯數(shù)據(jù)采集工具,該軟件功能十分豐富,2017版除了對原有功能優(yōu)化外,首次推出了小程序功能,為以后功能不斷地豐富創(chuàng)造了條件。目前含有的小程序已達10余種,其中“txt多試卷”小程序是專門為高頻詞匯采集設(shè)計,可以完成多批次材料的詞頻統(tǒng)計和對應(yīng)詞匯表生成工作。該小程序通過連續(xù)、多次導入各批次試卷(或材料),采集詞匯進行詞頻統(tǒng)計,生成包含各頻數(shù)段詞匯數(shù)據(jù)及對應(yīng)的詞匯表,操作十分便捷。它也適用于各專業(yè)類高頻詞匯采集(如商務(wù)英語、化工英語、醫(yī)學英語等等)。
軟件操作:啟動軟件后(見圖1)在小程序調(diào)用輸入框直接輸入小程序名“txt多試卷”,點擊“運行”按鈕啟動該程序。
圖1
進入該小程序操作界面后循環(huán)進行下面4個步驟完成多批次試卷數(shù)據(jù)采集:1在彈出的窗口中點擊“打開文件”;2選擇導入試卷;3勾取“繼續(xù)導入試卷”復選框準備下一輪采集;4回到采集初始界面(完成一份試卷數(shù)據(jù)采集循環(huán))。經(jīng)過N次循環(huán)完成N份試卷的數(shù)據(jù)采集后點擊“完成”按鈕結(jié)束循環(huán),顯示統(tǒng)計數(shù)據(jù)和各頻數(shù)段詞匯表。
圖2
打開程序生成的數(shù)據(jù)文件,只要根據(jù)自身情況框定高頻詞匯范圍、去除上述少量無關(guān)詞,高頻詞匯表就完成了。
四、 結(jié)語
高頻詞匯(highfrequency word)一直是英語學習者詞匯學習關(guān)注的焦點。英語教師往往希望根據(jù)自身教學情況獲得適合自己教學需要的特定高頻詞匯表,但是,高頻詞匯清晰的概念、采集方法及輔助工具均未見報道。本文通過介紹高頻詞匯采集及相關(guān)技術(shù),以期推動各類高頻詞匯研究,滿足相關(guān)人士的需要。
參考文獻:
[1]何華清,陳文存.大學生英語高頻詞匯水平實證研究[N].西華師范大學學報:哲學社會科學版,2008(2):43-47.
[2]苗麗霞.非英語專業(yè)學生基礎(chǔ)階段高頻詞匯水平發(fā)展研究[N].寧波大學學報:教育科學版,2010(2):116-210.
作者簡介:
李夢圓,江蘇省泰州市,江蘇泰州學院外國語學院。