吳云芳 胡章樹(shù) 王迎蘭
分級(jí)閱讀,是指根據(jù)兒童的身心發(fā)展規(guī)律,給不同的兒童提供適合其閱讀水平的文本讀物。文本閱讀難度分級(jí),是對(duì)于給定的文本,根據(jù)其中的詞語(yǔ)、句法、語(yǔ)義、篇章等特征,計(jì)算機(jī)自動(dòng)判斷其閱讀難度,進(jìn)而推薦給適合的讀者。早在2011年,國(guó)務(wù)院就頒布《中國(guó)兒童發(fā)展綱要(2011—2020年)》,提出“推廣面向兒童的圖書分級(jí)制,為不同年齡的兒童提供適合其年齡特點(diǎn)的圖書,為兒童家長(zhǎng)選擇圖書提供建議和指導(dǎo)”的要求。
教育部于2019年頒布了《義務(wù)教育常用詞表》(以下簡(jiǎn)稱《義務(wù)詞表》)(蘇新春 2019),由專家學(xué)者歷經(jīng)多年潛心研制而成。不同于前人主要依靠專家人工評(píng)定的方法,面向漢語(yǔ)分級(jí)閱讀,本文研制的現(xiàn)代漢語(yǔ)分級(jí)詞表主要基于大規(guī)模語(yǔ)料庫(kù)的統(tǒng)計(jì)分析,遵循詞語(yǔ)在實(shí)際語(yǔ)料中的使用規(guī)律,采用計(jì)算機(jī)自動(dòng)處理與人工審核相結(jié)合的方式。本文分級(jí)詞表構(gòu)建努力追求的目標(biāo)是:
1) 主要依據(jù)大規(guī)模語(yǔ)料的統(tǒng)計(jì)分析;
2) 盡可能地由計(jì)算機(jī)自動(dòng)處理,將專家的人工勞動(dòng)減到最少;
3) 構(gòu)建流程透明化、規(guī)范化,總體上可復(fù)現(xiàn);
4) 詞表能夠快速地構(gòu)建,能夠隨時(shí)代便捷地迭代更新。
本文構(gòu)建的分級(jí)詞表主要依據(jù)大規(guī)模語(yǔ)料庫(kù)的詞頻分析。早在20世紀(jì)30年代,葉圣陶先生就指出了詞匯量化對(duì)課本編輯的重要意義(賴華強(qiáng) 2006):“如果把目前通行的書報(bào)作為依據(jù),統(tǒng)計(jì)其中每個(gè)詞的出現(xiàn)次數(shù),把得票最多的若干詞組織在課本里頭,我想,讀了這課本的人固然不能夠就去閱讀《五經(jīng)》或者《史》《漢》,但是看看《申報(bào)周刊》,或者《現(xiàn)代十國(guó)論》,該不會(huì)有‘面熟陌生’的憾事了。”20世紀(jì)60年代,呂叔湘先生指出:“關(guān)于詞的出現(xiàn)頻率的研究就很重要。西方國(guó)家特別是美國(guó)幾十年前就有人做這種統(tǒng)計(jì)。這種材料對(duì)編教科書編詞典都很有用處?!保ㄙ嚾A強(qiáng) 2006)2019年頒布的《義務(wù)教育常用詞表》也將詞頻高低作為詞表分級(jí)的主要依據(jù)之一。
下文我們將介紹分級(jí)詞表所依據(jù)的語(yǔ)料庫(kù)、選詞的基本原則、構(gòu)建的基本流程,并分析詞表的詞語(yǔ)分布狀況。期望本文所構(gòu)建的分級(jí)詞表能服務(wù)于漢語(yǔ)分級(jí)閱讀,成為專家詞表的有益補(bǔ)充。
文本難度的自動(dòng)分級(jí)、分級(jí)詞表的構(gòu)建都需要以大規(guī)模的分級(jí)語(yǔ)料庫(kù)為基礎(chǔ),因此我們構(gòu)建了較大規(guī)模的漢語(yǔ)分級(jí)閱讀語(yǔ)料庫(kù),包括教材語(yǔ)料庫(kù)和童書語(yǔ)料庫(kù)。
教材語(yǔ)料庫(kù)。通過(guò)不同的途徑,包括網(wǎng)絡(luò)檢索和人工錄入等方式,我們搜集了國(guó)內(nèi)多個(gè)出版社的中小學(xué)語(yǔ)文教材課文,包括部編版、人教版、北師大版、蘇教版等多種版本,對(duì)文本進(jìn)行了格式處理和文字核對(duì)。配合漢語(yǔ)分級(jí)閱讀系統(tǒng)的程序?qū)嶒?yàn),去除了其中的詩(shī)歌和文言文。
童書語(yǔ)料庫(kù)。主要通過(guò)人工錄入的方式,整理了約400本經(jīng)典的兒童圖書。進(jìn)一步根據(jù)教育部《中小學(xué)生閱讀指導(dǎo)目錄(2020年版)》以及《愛(ài)閱小學(xué)圖書館基本配備書目》2018年版為每一本圖書賦予了一個(gè)級(jí)別標(biāo)簽。
網(wǎng)頁(yè)文本語(yǔ)料。此外,通過(guò)搜索引擎,從超大規(guī)模網(wǎng)絡(luò)文本中抽取出了所有詞語(yǔ),將之作為本文詞表構(gòu)建的重要參考。
在初始語(yǔ)料的基礎(chǔ)上,利用自動(dòng)分詞軟件pkuseg(Luoet al. 2019)對(duì)所有文本進(jìn)行了分詞和詞性標(biāo)注,進(jìn)而對(duì)漢語(yǔ)詞匯運(yùn)用情況進(jìn)行了統(tǒng)計(jì)分析。上述不同語(yǔ)料庫(kù)的字頻、詞頻統(tǒng)計(jì)信息請(qǐng)見(jiàn)表1所示。
表1 三種語(yǔ)料的字?jǐn)?shù)與詞數(shù)信息
依據(jù)三種不同的語(yǔ)料庫(kù),構(gòu)建了三個(gè)按照詞頻降序排列的詞語(yǔ)列表(如表2所示),這些是進(jìn)行分級(jí)詞表構(gòu)建的原始素材。
表2 三種語(yǔ)料前10位高頻詞語(yǔ)
教材文本、童書語(yǔ)料、網(wǎng)頁(yè)語(yǔ)料面向不同的閱讀對(duì)象,關(guān)注不同的內(nèi)容主題,在語(yǔ)言使用、詞匯運(yùn)用上存在差異。為了考察不同語(yǔ)料在詞語(yǔ)使用上的異同,我們統(tǒng)計(jì)了不同語(yǔ)料之間的斯皮爾曼(Spearman)相關(guān)系數(shù),如表3、表4所示。斯皮爾曼系數(shù)反映了兩個(gè)變量之間的相關(guān)性:0.8—1.0表示極強(qiáng)相關(guān),0.6—0.8表示強(qiáng)相關(guān),0.4—0.6表示中等程度相關(guān),0.2—0.4表示弱相關(guān),0.0—0.2表示極弱相關(guān)或不相關(guān)。
表3 前90%詞語(yǔ)
表4 前80%詞語(yǔ)
上述統(tǒng)計(jì)結(jié)果與人們的直觀認(rèn)識(shí)相符合,我們可以觀察到:
1) 教材文本與童書語(yǔ)料在詞匯運(yùn)用上極強(qiáng)相關(guān),提示兩者可以合并考察;
2) 網(wǎng)頁(yè)語(yǔ)料與教材文本、童書語(yǔ)料弱相關(guān),這說(shuō)明教材文本、童書語(yǔ)料的詞語(yǔ)使用與網(wǎng)頁(yè)語(yǔ)料存在較大差距,提示在分級(jí)詞表構(gòu)建中需要合理收入部分網(wǎng)頁(yè)詞語(yǔ),以滿足生活閱讀的實(shí)際需求。
3) 網(wǎng)頁(yè)語(yǔ)料、童書語(yǔ)料的相關(guān)性大于網(wǎng)頁(yè)語(yǔ)料、教材文本的相關(guān)性,說(shuō)明在詞語(yǔ)運(yùn)用規(guī)范方面:教材>童書>網(wǎng)頁(yè)。
分級(jí)詞表構(gòu)建要回答的第一個(gè)問(wèn)題是:一共要收錄多少詞語(yǔ)呢?
《義務(wù)教育常用詞表》一共收錄了15114個(gè)詞目,按照學(xué)段劃分為四級(jí)。面向?qū)ν鉂h語(yǔ)教學(xué),《國(guó)際中文教育中文水平等級(jí)標(biāo)準(zhǔn)》(2021) 收錄了三等九級(jí)共11092個(gè)詞目。而早期的《漢語(yǔ)水平詞匯與漢字等級(jí)大綱》(1992) 僅收錄了8822個(gè)詞語(yǔ)。
青少年兒童認(rèn)識(shí)多少詞就能滿足閱讀需求呢?我們對(duì)教材、童書、網(wǎng)頁(yè)語(yǔ)料中的高頻詞語(yǔ)進(jìn)行了統(tǒng)計(jì)分析,不同語(yǔ)料中的詞頻分布都符合齊夫定律(Zipf)定律。三種語(yǔ)料中高頻詞的累加頻率分布如表5所示。
表5 三種語(yǔ)料詞語(yǔ)的累加頻率分布
雖然三種語(yǔ)料的總詞匯量差別巨大,但是累加頻率的詞匯量分布大體相當(dāng)。具體而言,14350個(gè)詞語(yǔ)覆蓋到教材語(yǔ)料的90%,14552個(gè)詞語(yǔ)覆蓋到童書語(yǔ)料的86%,14991個(gè)詞語(yǔ)覆蓋到網(wǎng)頁(yè)語(yǔ)料的87%。由此推知,1.4萬(wàn)—1.5萬(wàn)詞匯量就基本能夠滿足閱讀需求,因此我們初步選擇 1.5萬(wàn)個(gè)候選詞語(yǔ)進(jìn)入分級(jí)詞表。
《義務(wù)教育常用詞表》按照學(xué)段設(shè)定的分級(jí)詞表稍顯粗略,每級(jí)詞表包含太多詞語(yǔ)而不具區(qū)分性,例如二級(jí)詞包含5503個(gè)詞語(yǔ),三級(jí)詞包含5975個(gè)詞語(yǔ)。本文依年級(jí)區(qū)分,劃分為七級(jí)詞表,一—六級(jí)分別對(duì)應(yīng)1—6年級(jí),七級(jí)對(duì)應(yīng)初中階段。后期研究中,根據(jù)需要可以將一—二級(jí)詞語(yǔ)合并為第一學(xué)段,三—四級(jí)合并為第二學(xué)段,五—六級(jí)合并為第三學(xué)段,初中為第四學(xué)段。
按照由易到難、循序漸進(jìn)的原則,并參考前人的成果,各級(jí)詞表數(shù)目初步設(shè)定為:一級(jí)600,二級(jí)1200,三級(jí)1800,四級(jí)2400,五級(jí)2800,六級(jí)3200,七級(jí)3600,總計(jì)1.56萬(wàn)個(gè)詞語(yǔ)。
本文的分級(jí)詞表構(gòu)建基于大規(guī)模語(yǔ)料庫(kù),將詞頻作為劃分詞語(yǔ)難度等級(jí)的主要依據(jù)。
網(wǎng)頁(yè)語(yǔ)料反映了語(yǔ)言在現(xiàn)實(shí)生活中的真實(shí)運(yùn)用情況,教材文本是專家們精心編選的名著作品,童書是對(duì)教材文本的有益補(bǔ)充與拓展。根據(jù)表3、表4的統(tǒng)計(jì)分析,教材和童書在詞匯使用上高度相關(guān),為了擴(kuò)大語(yǔ)料規(guī)模,選詞時(shí)將兩者合并考察。但網(wǎng)頁(yè)語(yǔ)料與教材文本差異很大,考慮到詞匯學(xué)習(xí)的語(yǔ)言交際與應(yīng)用功能,分級(jí)詞表應(yīng)適當(dāng)選擇部分網(wǎng)頁(yè)詞語(yǔ)作為補(bǔ)充。例如,“手機(jī)”和“超市”在日常生活中使用頻繁,在網(wǎng)頁(yè)語(yǔ)料的頻率詞表中,“手機(jī)”排位第26,“超市”排位第760。但是,這兩個(gè)詞在教材語(yǔ)料中的出現(xiàn)頻率都非常低(在人教版教材中均沒(méi)有出現(xiàn),在北師大版教材中都僅出現(xiàn)1次)。這提示我們,在重點(diǎn)關(guān)注教材語(yǔ)料詞語(yǔ)的同時(shí),需要兼顧網(wǎng)頁(yè)語(yǔ)言的實(shí)際應(yīng)用情況。
網(wǎng)頁(yè)詞匯對(duì)教材語(yǔ)料的補(bǔ)充體現(xiàn)在兩個(gè)方面:(1) 對(duì)于一些高頻使用的新詞,補(bǔ)充進(jìn)分級(jí)詞表;(2) 對(duì)于一些在網(wǎng)頁(yè)中使用頻繁,而在教材語(yǔ)料中出現(xiàn)次數(shù)較少的詞語(yǔ),降低其難度級(jí)別。
經(jīng)過(guò)多次嘗試,我們制定了選詞規(guī)則:每級(jí)候選詞=90%教材童書詞語(yǔ)+10%網(wǎng)頁(yè)語(yǔ)料詞語(yǔ)。對(duì)教材童書語(yǔ)料和網(wǎng)頁(yè)語(yǔ)料的詞語(yǔ)按照出現(xiàn)頻率分別從高到低排序,根據(jù)前文所設(shè)定的分級(jí)詞語(yǔ)數(shù)目,選定一個(gè)頻率斷點(diǎn),即得到一—七級(jí)的候選詞語(yǔ)列表。在具體選詞過(guò)程中,從低到高逐級(jí)選擇,每級(jí)先教材童書語(yǔ)料再網(wǎng)頁(yè)語(yǔ)料。
分級(jí)詞表數(shù)據(jù)庫(kù)以“級(jí)別”為單位來(lái)組織詞語(yǔ)。對(duì)于詞表中的每一條詞目,設(shè)定三個(gè)字段:詞語(yǔ),詞頻,語(yǔ)料來(lái)源,如表6所示。
表6 一級(jí)詞語(yǔ)呈現(xiàn)示例
詞語(yǔ)是分級(jí)詞表呈現(xiàn)的主要對(duì)象。不同于前人詞表,分級(jí)詞表將如實(shí)列出詞語(yǔ)在語(yǔ)料庫(kù)中出現(xiàn)的頻率。詞語(yǔ)的難易度是個(gè)相對(duì)的序列問(wèn)題,級(jí)別的區(qū)分只是人為的一種劃定。給定“詞頻”,對(duì)于詞語(yǔ)的使用狀況就有了清晰的顯示,在同一個(gè)級(jí)別下對(duì)于詞語(yǔ)難度也有了一定的區(qū)分,還便于后期的其他應(yīng)用。給定“語(yǔ)料來(lái)源”,明示了選詞的來(lái)源,由于網(wǎng)絡(luò)詞匯變化較快,依據(jù)“語(yǔ)料來(lái)源”,將來(lái)可以快速更新網(wǎng)絡(luò)詞語(yǔ)。
本文的分級(jí)詞表構(gòu)建盡可能應(yīng)用了計(jì)算機(jī)程序來(lái)自動(dòng)處理,以減少專家的人工勞動(dòng)。面向中小學(xué)閱讀和學(xué)習(xí),分級(jí)詞表規(guī)模有限,要盡量收錄有價(jià)值的學(xué)習(xí)型詞語(yǔ);而對(duì)于具有能產(chǎn)性、類推性的詞語(yǔ),則不宜收錄?;诖笠?guī)模語(yǔ)料庫(kù)的頻率詞表,利用程序進(jìn)行了預(yù)處理,批量刪除了一些不宜收入的詞語(yǔ)。
候選詞語(yǔ)是基于語(yǔ)料利用自動(dòng)分詞軟件切分得到的詞語(yǔ),但可能存在一些非詞的分詞碎片。還有一些片段,從自然語(yǔ)言處理的角度被當(dāng)作了“詞”,但不是學(xué)習(xí)意義上的詞語(yǔ)。因此,利用《現(xiàn)代漢語(yǔ)詞典》第5版(以下簡(jiǎn)稱《現(xiàn)漢》)對(duì)詞語(yǔ)進(jìn)行了過(guò)濾,即刪除了那些不在《現(xiàn)漢》中的詞語(yǔ)。但是,人工觀察詞表發(fā)現(xiàn),《現(xiàn)漢》收詞嚴(yán)格(或者是所依據(jù)的電子版本不完全、有遺漏),有些常用的詞語(yǔ)并沒(méi)有收錄。因此,我們進(jìn)一步依據(jù)北京大學(xué)的《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》(俞士汶 1998,以下簡(jiǎn)稱《語(yǔ)法詞典》)進(jìn)行補(bǔ)充,將雖然沒(méi)有在《現(xiàn)漢》中出現(xiàn)但是出現(xiàn)在《語(yǔ)法詞典》的部分詞收入分級(jí)詞表。
操作中,我們編寫程序刪除了“同時(shí)”不在《現(xiàn)漢》和《語(yǔ)法詞典》中的語(yǔ)言片段,部分刪除的非詞如表 7所示。對(duì)于教材童書中的“非詞”直接刪除;而對(duì)于網(wǎng)頁(yè)語(yǔ)料中的“非詞”則添加一個(gè)刪除標(biāo)記,等待進(jìn)一步人工審核,以保留部分新詞補(bǔ)充到分級(jí)詞表中。
表7 基于《現(xiàn)漢》和《語(yǔ)法詞典》刪除的“非詞”示例
因分級(jí)詞表主要收錄語(yǔ)文詞而不收錄地名、人名等專有名詞,故我們編寫計(jì)算機(jī)程序,根據(jù)詞性標(biāo)記刪除了詞表中的人名、地名、時(shí)間詞、數(shù)詞等。
組合疊加詞數(shù)量眾多,可以類推產(chǎn)生,也不宜收入分級(jí)詞表,故我們編寫計(jì)算機(jī)程序,刪除了以下類型的組合疊加詞。
1) 由趨向動(dòng)詞結(jié)尾組成的組合詞,趨向動(dòng)詞包括“來(lái)、去、上、下、進(jìn)、出、回、過(guò)、起、開(kāi)、到”,例如“出來(lái)” “看到” “想起” “走進(jìn)” “拿出”等。
2) 刪除重疊詞,例如“慢慢” “深深” “靜靜” “輕輕”等。
3) 刪除“一月”“二月”“星期一”“星期二”這樣的時(shí)間數(shù)詞組合形式。
我們希望通過(guò)網(wǎng)頁(yè)語(yǔ)料來(lái)補(bǔ)充一些新出現(xiàn)的、高頻使用的詞語(yǔ)。新出現(xiàn)的詞語(yǔ)絕大多數(shù)是兩字詞或者三字詞,因此我們編寫程序刪除了網(wǎng)頁(yè)語(yǔ)料中的單字詞。
按照上文分級(jí)詞表規(guī)模和等級(jí)的初步設(shè)定,我們根據(jù)網(wǎng)頁(yè)語(yǔ)料的詞頻表收錄了約 15600*10% =1560個(gè)詞語(yǔ)。將網(wǎng)頁(yè)詞語(yǔ)加入分級(jí)詞表需要分外小心,仔細(xì)斟酌。
經(jīng)過(guò)上述程序的批量預(yù)處理后,在網(wǎng)頁(yè)詞頻表中未在《現(xiàn)漢》和《語(yǔ)法詞典》中出現(xiàn)的語(yǔ)言片段被添加了刪除標(biāo)記,專有名詞、組合疊加詞、單字詞已被刪除。而后,課題組聘請(qǐng)了一位漢語(yǔ)詞匯語(yǔ)義專家對(duì)網(wǎng)頁(yè)語(yǔ)料中的高頻詞語(yǔ)進(jìn)行了仔細(xì)篩選,又經(jīng)本文作者多遍審核,選出約 2000個(gè)候選詞語(yǔ)加入詞表。
由表 8可以看出,擬擴(kuò)充分級(jí)詞表的網(wǎng)絡(luò)詞語(yǔ)主要有兩種。一種是應(yīng)用廣泛、關(guān)涉現(xiàn)代科技的一些詞語(yǔ),例如“手機(jī)”“視頻” “微信”“下載”等,這些詞語(yǔ)可能未在教材童書語(yǔ)料中出現(xiàn),但應(yīng)作為新詞補(bǔ)充進(jìn)分級(jí)詞表。另一種是生活交際中的常用詞語(yǔ),例如“公司” “圖片” “英語(yǔ)” “作文”等,這些詞語(yǔ)在教材童書語(yǔ)料中出現(xiàn)次數(shù)少,但由于在網(wǎng)頁(yè)語(yǔ)料中高頻出現(xiàn),將降低其難度級(jí)別列入分級(jí)詞表。
表8 高頻網(wǎng)絡(luò)詞語(yǔ)示例
本文基于大規(guī)模語(yǔ)料庫(kù)的詞頻分析來(lái)構(gòu)建分級(jí)詞表,也充分借鑒、參考了前人的研究成果。蘇新春教授歷經(jīng)多年編著的《義務(wù)詞表》,凝聚了豐富的專家知識(shí),為我們提供了很好的參照和基礎(chǔ)。
我們將目前階段的分級(jí)詞表候選詞與《義務(wù)詞表》做了對(duì)比分析,結(jié)果如下:
兩個(gè)詞表共有詞:8987,占比:8987/15600=57.6%。
在分級(jí)詞表但不在《義務(wù)詞表》中的詞:6613,占比6613/15600=42.4%。
在《義務(wù)詞表》但不在分級(jí)詞表中的詞:5238,其中成語(yǔ)有 2238 個(gè),成語(yǔ)占比 2238/ 5238=42.7%。
分級(jí)詞表的候選集中有6613個(gè)詞語(yǔ)未出現(xiàn)在《義務(wù)詞表》中,對(duì)這些詞語(yǔ),我們聘請(qǐng)專家進(jìn)行了仔細(xì)的人工審核,刪除了以下類型的詞語(yǔ)共計(jì)2273個(gè):
1) 一些組合詞,如“心中”“大樹(shù)”等;
2) 一些不常用或者表義不清的單字詞,如“備”“稟”“昂”等;
3) 一些重疊詞,如“安安靜靜”“匆匆忙忙”等;
4) 一些口語(yǔ)色彩明顯的詞,如“行不通” “夠嗆” “吊死”等。
在《義務(wù)詞表》但不在分級(jí)詞表中的詞語(yǔ)有5238個(gè),其中42.7%是成語(yǔ)。《義務(wù)詞表》利用專家的經(jīng)驗(yàn)知識(shí)收錄了一些成語(yǔ),而大多成語(yǔ)在真實(shí)語(yǔ)言運(yùn)用中并未頻繁出現(xiàn),因此未能進(jìn)入分級(jí)詞表的候選詞集。為了文化傳承和書面語(yǔ)言的學(xué)習(xí),我們認(rèn)為分級(jí)詞表需要增加收錄部分成語(yǔ)。
因此,對(duì)于在《義務(wù)詞表》而不在分級(jí)詞表中的2238個(gè)成語(yǔ),我們?cè)诮滩耐瘯Z(yǔ)料中進(jìn)行了檢索,共出現(xiàn)有1081個(gè)成語(yǔ)。對(duì)這1081個(gè)成語(yǔ),專家人工進(jìn)行了甄別并標(biāo)記了難度等級(jí),將其中1032個(gè)成語(yǔ)補(bǔ)充收錄至分級(jí)詞表。表 9是分級(jí)詞表中的部分成語(yǔ)及其分級(jí)。
表9 增加的部分成語(yǔ)示例
教育部制定的《義務(wù)教育語(yǔ)文課程標(biāo)準(zhǔn)》(2011年版) 列出了“識(shí)字、寫字教學(xué)基本字表”,包含300個(gè)漢字,明確指出“這些字應(yīng)作為第一學(xué)段教科書中識(shí)字、寫字教學(xué)的基本內(nèi)容”。同時(shí)列出了“義務(wù)教育語(yǔ)文課程常用字表”,包含常用漢字 3500個(gè)。漢字是通過(guò)詞語(yǔ)承載的,中小學(xué)生在學(xué)習(xí)詞語(yǔ)的同時(shí)也即學(xué)習(xí)了漢字。根據(jù)課程標(biāo)準(zhǔn),我們進(jìn)一步對(duì)分級(jí)詞表的候選詞做出了調(diào)整。
基本字表中的300個(gè)漢字按規(guī)定應(yīng)該在第一學(xué)段掌握。經(jīng)程序統(tǒng)計(jì),基本字表中有 18 個(gè)漢字在候選詞表中沒(méi)有出現(xiàn),分別是:
我們對(duì)候選詞表進(jìn)行了人工調(diào)整,規(guī)則如下:1) 在高級(jí)別的詞表中查找包含上述字首次出現(xiàn)的詞語(yǔ),將其調(diào)整到第一學(xué)段;2) 級(jí)別調(diào)整時(shí),優(yōu)先調(diào)整入距離相近的級(jí)別,再結(jié)合人工經(jīng)驗(yàn)知識(shí)加以判斷。表 10列出了根據(jù)上述規(guī)則所做的一些詞語(yǔ)的級(jí)別 調(diào)整。
表10 根據(jù)基本字表的部分詞語(yǔ)的級(jí)別調(diào)整
是否存在“詞不越字”的規(guī)則呢?即第一學(xué)段詞表中包含的字不能超越基本字表中的字。我們對(duì)候選一二級(jí)詞表進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)這樣的字共有 1555 個(gè),全部刪除顯然不合適,因此這條規(guī)則不適用。
在義務(wù)教育階段,應(yīng)該掌握常用字表中的 3500 個(gè)字。對(duì)應(yīng)到分級(jí)詞表,這3500個(gè)字應(yīng)該被一—七級(jí)詞語(yǔ)全部覆蓋。
經(jīng)程序統(tǒng)計(jì),常用字表一2500字中有74個(gè)在候選詞表中沒(méi)有出現(xiàn),分別是:
常用字表二1000字中有226個(gè)在候選詞表中沒(méi)有出現(xiàn),分別是:
可以看到,未出現(xiàn)的主要是一些筆畫繁雜、使用頻率極低的字,以及一些姓氏用字(前期處理中刪除了專有名詞)。另外,由于語(yǔ)料中詞頻分布的長(zhǎng)尾效應(yīng),對(duì)低頻的詞語(yǔ),頻率因素的重要性降低。因此,我們檢索了包含上述漢字的部分詞語(yǔ),人工調(diào)整到分級(jí)詞表中。
從教材童書語(yǔ)料的詞表中,共找到包含上述300個(gè)字的詞語(yǔ) 289 個(gè),人工增加到六級(jí)或七級(jí)詞表中,少數(shù)高頻出現(xiàn)的姓氏用字增加到了三、四、五級(jí)中。例如下面是新增加的一些詞語(yǔ),其中涵蓋了需要學(xué)習(xí)的常用字:
但教材童書語(yǔ)料的詞表中,仍有以下漢字未包含(刪除了專有名詞):
主要是三類漢字:大寫的數(shù)字、化學(xué)元素名稱、人名用字。我們進(jìn)而人工將大寫數(shù)字加入了六級(jí)詞表,將化學(xué)元素名稱、人名用字加入了七級(jí)詞表。
經(jīng)過(guò)上述一系列處理,分級(jí)詞表的構(gòu)建基本完成。下文將對(duì)分級(jí)詞表的詞語(yǔ)進(jìn)行分析。
詞表一共收錄了14459個(gè)詞語(yǔ),各級(jí)詞語(yǔ)數(shù)目如表 11所示。其中,語(yǔ)料來(lái)源為網(wǎng)頁(yè)語(yǔ)料的詞語(yǔ)數(shù)為1420個(gè),占比9.8%,與最初的設(shè)定基本相符。
表11 分級(jí)詞表中各級(jí)詞語(yǔ)數(shù)目
表12列出了不同音節(jié)的詞語(yǔ)數(shù)目,其中雙音節(jié)詞占比72.61%;四音節(jié)詞語(yǔ)數(shù)占比9.25%,絕大多數(shù)為成語(yǔ);而三音節(jié)詞占比最低。
表12 不同音節(jié)的詞語(yǔ)數(shù)目
本文所構(gòu)建的分級(jí)詞表,與《義務(wù)詞表》的最大區(qū)別是:基于大規(guī)模語(yǔ)料庫(kù)由計(jì)算機(jī)半自動(dòng)構(gòu)建,詞語(yǔ)的選擇與等級(jí)的設(shè)定都以語(yǔ)料的客觀使用為依據(jù)。其優(yōu)點(diǎn)是構(gòu)建快速,方便重現(xiàn),更新便捷;而缺點(diǎn)則是缺少專家人工的精雕細(xì)琢。為了更好地理解兩表的異同,我們將所構(gòu)建的分級(jí)詞表與《義務(wù)詞表》進(jìn)行了比較分析。
表 13顯示了兩個(gè)詞表在收詞數(shù)目上的不同。兩詞表詞語(yǔ)規(guī)模大體相當(dāng),《義務(wù)詞表》詞目數(shù)略多于分級(jí)詞表,兩詞表共有詞為10032個(gè),約占三分之二。
表13 分級(jí)詞表與《義務(wù)詞表》收詞數(shù)目的比較
分級(jí)詞表的年級(jí)分級(jí)可以映射到《義務(wù)詞表》的學(xué)段,即一—二級(jí)映射第一學(xué)段,三—四級(jí)為第二學(xué)段,五—六級(jí)為第三學(xué)段,七級(jí)(初中)為第四學(xué)段。以分級(jí)詞表為基準(zhǔn),我們考察了兩個(gè)詞表不同學(xué)段收詞數(shù)的差異,如表 14所示。可以看到,一、二學(xué)段共有詞比例較高,分別為93.9%和83.3%;而隨著學(xué)段升高,共有詞比例逐漸降低,第四學(xué)段的共有詞比例低于50%。這顯示,在基于頻率的分級(jí)詞表中,使用頻率越高的詞與專家的經(jīng)驗(yàn)認(rèn)知更為一致,而頻率較低的詞與人工經(jīng)驗(yàn)的判別就存在較大差別。
表14 兩詞表不同學(xué)段的共有詞
我們進(jìn)一步比較了兩個(gè)詞表在不同學(xué)段上詞語(yǔ)的差異。從表 15可以觀察到,不同學(xué)段的最大值都在混淆表的對(duì)角線上,這顯示了兩個(gè)詞表的分級(jí)相關(guān)性較高。
表15 分級(jí)詞表與《義務(wù)詞表》的分級(jí)混淆表
漢語(yǔ)作為第二語(yǔ)言的對(duì)外漢語(yǔ)教學(xué)與漢語(yǔ)作為母語(yǔ)的中小學(xué)教學(xué)存在差別,但在詞匯學(xué)習(xí)、詞匯等級(jí)劃分上有共通性,都遵循循序漸進(jìn)、由易到難的基本原則。因此,我們以廣泛使用的《漢語(yǔ)水平詞匯與漢字等級(jí)大綱》(以下簡(jiǎn)稱《漢語(yǔ)水平詞匯》)(1992)為基礎(chǔ),比較了分級(jí)詞表與對(duì)外漢語(yǔ)詞表的共同性與差異性。
分級(jí)詞表收錄詞語(yǔ)14459個(gè),劃分為一—七級(jí);《漢語(yǔ)水平詞匯》收錄詞語(yǔ)8822個(gè),劃分為甲、乙、丙、丁四級(jí)。兩個(gè)詞表總詞匯量差別較大,等級(jí)劃分也不一致,圖1展示了分級(jí)詞表一—四級(jí)詞語(yǔ)與《漢語(yǔ)水平詞匯》甲、乙、丙、丁四級(jí)的對(duì)應(yīng)關(guān)系。
圖1 分級(jí)詞表一—四級(jí)與《漢語(yǔ)水平詞匯》甲、乙、丙、丁四級(jí)的對(duì)應(yīng)關(guān)系
令人驚喜的是,主要基于使用頻率制定的分級(jí)詞表,與專家制定的對(duì)外漢語(yǔ)詞表存在較好的對(duì)應(yīng)關(guān)系。其中,一級(jí)詞與甲級(jí)詞很好對(duì)應(yīng),映射比例為388/562=69%;二級(jí)詞與乙級(jí)詞映射比例最高;三級(jí)詞與乙+丙級(jí)詞對(duì)應(yīng);四級(jí)詞的對(duì)應(yīng)則較為分散。隨著詞級(jí)的升高,分級(jí)詞表中有更多詞語(yǔ)在《漢語(yǔ)水平詞匯》中沒(méi)有被收錄。
本文基于大規(guī)模語(yǔ)料庫(kù)的統(tǒng)計(jì),采用計(jì)算機(jī)程序處理與專家人工審核相結(jié)合的方式,半自動(dòng)構(gòu)建了漢語(yǔ)分級(jí)詞表。詞語(yǔ)的選擇與分級(jí)主要依據(jù)詞語(yǔ)的使用頻率,有數(shù)可依、更新快捷。統(tǒng)計(jì)分析顯示,我們所構(gòu)建的分級(jí)詞表與《義務(wù)詞表》、對(duì)外漢語(yǔ)詞表都呈現(xiàn)較大的相關(guān)性。本文所構(gòu)建的分級(jí)詞表可應(yīng)用于漢語(yǔ)分級(jí)閱讀的系統(tǒng)研制、中小學(xué)語(yǔ)文教學(xué)以及對(duì)外漢語(yǔ)詞匯教學(xué)中。我們將在漢語(yǔ)分級(jí)閱讀網(wǎng)站(http://www.chinesepku.com/)上發(fā)布此數(shù)據(jù),供業(yè)界與學(xué)界免費(fèi)使用。誠(chéng)然,相比于專家人工積多年心血構(gòu)建的詞表,本文構(gòu)建的分級(jí)詞表還顯得比較粗糙,還需不斷地完善改進(jìn)。