王鴻濱
(北京語言大學(xué) 漢語國際教育研究院/漢語國際教育學(xué)部,北京 100083)
閱讀和分級閱讀(Leveled Reading)(1)“分級閱讀”還有其他的翻譯方法,例如Graded Reading、Classification of Reading、Level Reading等。是二語習(xí)得中閱讀能力培養(yǎng)的重要部分,目前已在國內(nèi)外英語閱讀教學(xué)中得到了廣泛應(yīng)用,從閱讀推廣實(shí)踐的最終成效來看,國外閱讀推廣早已蔚然成風(fēng),歐美等發(fā)達(dá)國家已在不同層面、通過不同方式,培育社會閱讀習(xí)慣、推動國民閱讀并形成了諸如“閱讀優(yōu)先”“閱讀起跑線計(jì)劃”“公共圖書計(jì)劃”“分級閱讀”等影響廣泛的閱讀品牌。此外,技術(shù)積累和開發(fā)功不可沒。例如被廣泛使用的藍(lán)思分級標(biāo)準(zhǔn)已經(jīng)有30年積累,隨著信息網(wǎng)絡(luò)以及各類智慧平臺的出現(xiàn),目前出現(xiàn)了一批運(yùn)用藍(lán)思分級標(biāo)準(zhǔn)致力于用數(shù)據(jù)驅(qū)動教育發(fā)展,開拓閱讀領(lǐng)域的公司。例如Meta Metrics公司成立了互動式的“藍(lán)思專業(yè)發(fā)展工作坊”(Lexile Professional development workshops) ,根據(jù)美國全國教學(xué)大綱 Common Core State標(biāo)準(zhǔn)和藍(lán)思分級之間的關(guān)系,計(jì)算了課內(nèi)教材的文本難度(在閱讀教學(xué)上將文本難度和學(xué)生能力進(jìn)行75%理解程度上的匹配),學(xué)生在獲取自己的閱讀能力分值后,在網(wǎng)絡(luò)系統(tǒng)內(nèi)輸入分值,使用“覓書” (Find a Book) 搜索引擎,會產(chǎn)生難度呈降序排列的書單以供他們選擇。Meta Metrics公司還與教育部門及考試中心合作創(chuàng)建了評價體系,與PISA、PIRLS和NAEP等閱讀測試建立了合作關(guān)系,試題發(fā)布和施測之前,閱讀文章和閱讀理解題目都要經(jīng)過藍(lán)思分值測算,學(xué)生的閱讀理解得分也可轉(zhuǎn)換為藍(lán)思分值和其他的閱讀分級的分值。(2)羅德紅,余婧.美國藍(lán)思分級閱讀框架:差異化閱讀教學(xué)和測評工具[J].現(xiàn)代中小學(xué)教育,2013,(10).Renaissance公司,目前有用于測評的Star Assessment,通過測試可以將孩子的閱讀能力進(jìn)行量化;還有承接測評產(chǎn)品的Accelerated Reader,通過他們自己的一套分級體系測出文本閱讀難度,與之前測評的學(xué)生閱讀能力匹配,保證學(xué)生讀到最適合自己的文字。Newsela主要研發(fā)新聞分級閱讀,其底層標(biāo)準(zhǔn)仍然是藍(lán)思分級,核心技術(shù)點(diǎn)是有一部分機(jī)器輔助新聞改寫,例如同樣的主題以不同的閱讀難度提供給相應(yīng)理解能力的孩子;Lightsail則是致力于iPad 端的個性化圖書館,(3)Lightsail目前在中國的業(yè)務(wù)通常是跟相對高端的輔導(dǎo)班以及國際學(xué)校合作。基于藍(lán)思分級,可以在線看書。
國外有眾多的分級閱讀學(xué)習(xí)資源網(wǎng)站,其推薦的分級書目多為開放式,各分級體系本身不對其所評估定級的圖書數(shù)量做出限制,推薦書目不斷更新,截至2017年3月,Lexile網(wǎng)站已經(jīng)為267520部圖書進(jìn)行了難度測量,且仍在每月更新;GRL已對超過5萬種圖書進(jìn)行了分級;再如美國1萬多所學(xué)校采用的分級閱讀學(xué)習(xí)網(wǎng)站:Raz-Kids和Reading A-Z(Raz-Kids plus),(4)www.raz-kids.com是美國著名的付費(fèi)網(wǎng)站www.learninga-z.com旗下產(chǎn)品之一,作為輔助教師指導(dǎo)學(xué)生的課外閱讀工具。Raz內(nèi)容涉及科學(xué)、生物、歷史等知識,題材包含經(jīng)典童話、寓言傳說、數(shù)學(xué)啟蒙、英文美文、日常生活故事、還有識物認(rèn)知、自然地理、世界人文等學(xué)科知識。其閱讀內(nèi)容的難易程度是根據(jù)全文詞匯數(shù)、高頻詞詞匯數(shù)與比例、低頻詞詞匯數(shù)與比例、句子長度、句子復(fù)雜度、句式、插圖信息量、思想深度、主題等多個角度,將整個閱讀體系從零基礎(chǔ) aa(看圖認(rèn)單詞)至z(小學(xué)5年級)分為27個級別, 對應(yīng)美國3~12歲的孩子。(5)據(jù)統(tǒng)計(jì),美國有80%的公立學(xué)校將它作為首選教材;在北美(美國/加拿大),有超過50%的小學(xué)都在使用它作為英語閱讀課教材。這種高效的分級方法是基于成熟的分級標(biāo)準(zhǔn)體系及讀物難易度測查的計(jì)算機(jī)技術(shù)。相比英語國家成熟的閱讀體系、“海量”的分級讀物,目前我國漢語分級讀物的建設(shè)主要為各大出版社基于分級閱讀理念編寫的分級讀物,利用這種方式開展分級閱讀,由于讀物編寫、出版周期較長,也就造成了分級讀物數(shù)量上的不足。由于缺乏可行的讀物難易度評價體系,我國分級閱讀推薦的書目則較少,且多為封閉性的書單。例如,2011年,“新閱讀研究所”組織專家研制的面向我國中小學(xué)生的推薦閱讀書目表——《中國小學(xué)生基礎(chǔ)閱讀書目》共推薦100種,2015年“親近母語研究院”(Hug Chinese)發(fā)布了小學(xué)階段分級閱讀書目《中學(xué)生閱讀行動指南》共推薦153種,2017年,北京語言大學(xué)出版社推出的漢語國際教育領(lǐng)域首部《留學(xué)生漢語分級閱讀指南》共推薦基本書目172種,擴(kuò)展書目91種,我國現(xiàn)有的漢語讀物根本不能滿足學(xué)習(xí)者的需求,為學(xué)習(xí)者推薦的書目不足,將直接導(dǎo)致可供學(xué)習(xí)者選擇的分級讀物數(shù)量不足。
隨著科技的發(fā)展,漢語國際教育優(yōu)質(zhì)學(xué)習(xí)資源和專利產(chǎn)品層出不窮,特別是“互聯(lián)網(wǎng)+”的國際漢語教學(xué)資源與智慧教育平臺因其卓越的功能,其成果受到國際漢語教育者的歡迎。在漢語國際教育的閱讀和閱讀教學(xué)領(lǐng)域,針對通用型漢語國際教育用學(xué)習(xí)字源和語料,已有的且開發(fā)較為完善的智能分析工具(分級及難度評價系統(tǒng))有3個——“中文助教TM”“國際漢語教材編寫指南”和“漢語文本指難針”,而在商務(wù)漢語閱讀教學(xué)中,分級閱讀應(yīng)用還相對較少,建立一套基于文本難易度,適用于漢語國際教育用商務(wù)漢語分級體系,能夠?yàn)椴煌降膶W(xué)習(xí)者推薦符合其水平的讀物,幫助學(xué)習(xí)者高效提高閱讀能力。本文將以經(jīng)貿(mào)類材料為例,從特點(diǎn)、指標(biāo)及依據(jù)、使用及實(shí)測等方面對“國際漢語教材編寫指南”和“漢語文本指難針”這兩套漢語文本難度測查系統(tǒng)進(jìn)行對比分析,為商務(wù)漢語分級體系的建立提供一定參考。
“中文助教”(Chinese TATM),是由美國斯坦福大學(xué)資助、儲誠志博士為編寫《漢語風(fēng)》教材而開發(fā)設(shè)計(jì)的工具軟件,主要用于幫助中文教師編寫、修改、評估教材和教學(xué)輔助材料。(6)王葆華.“中文助教”軟件在美國問世[J].世界漢語教學(xué),2005,(3).編寫成套教材或準(zhǔn)備臨時性的教學(xué)輔助材料都會涉及很多費(fèi)時費(fèi)力且易出錯的工作,“中文助教”都能迅速方便地完成,主要功能包括:字詞注音、自動分詞、生詞(字)標(biāo)注和字詞分析等。
“漢語文本指難針”是由中山大學(xué)開發(fā)的一款在線工具,它基于大規(guī)模“國際漢語教材語料庫”建立,用于漢語作為第二語言教學(xué)的文本難度在線評估。作為“語言數(shù)據(jù)網(wǎng)(LanguageData.net)”的一個功能分支,其主要功能包括:文本定級、詞匯反饋和例句查詢。(7)金檀,李百川,林星彤,郭凱.“漢語文本指難針”產(chǎn)品介紹與使用說明[EB/OL].http://languagedata.net/ce/,2017-03-15.“漢語文本指難針”從漢字、詞匯、語法方面對文本難度進(jìn)行分析,并提供文本難度LD值、文本等級劃分及大綱等級3種參考信息。文本定級指依照《國際漢語教學(xué)通用課程大綱》的定級標(biāo)準(zhǔn),對所測文本進(jìn)行分級;詞匯反饋是指根據(jù)《漢語國際教育用音節(jié)漢字詞匯等級劃分》的詞匯等級信息,對所測文本的詞匯等級進(jìn)行標(biāo)注,了解詞匯難度分布情況;例句反饋依據(jù)“全球漢語教材庫”的大規(guī)模教材信息數(shù)據(jù),精選全球漢語教材庫中最具代表性的教材數(shù)據(jù),能夠?qū)崿F(xiàn)通過詞匯查詢例句的功能。
《國際漢語教材編寫指南》(www.cltguides.com)是孔子學(xué)院總部/國家漢辦“孔子學(xué)院發(fā)展規(guī)劃(2012~2020)”重大課題。該課題對全球5000余冊國際漢語教材、3000余萬字語料庫進(jìn)行了定量分析,在此基礎(chǔ)上,依據(jù)《國際漢語教學(xué)通用課程大綱》《漢語水平考試大綱》(新HSK考試大綱)、《漢語國際教育用音節(jié)漢字詞匯等級劃分》等標(biāo)準(zhǔn),獲取了漢字、詞匯、語法、場景、話題、交際任務(wù)、文化知識、典型例句、練習(xí)等之間的內(nèi)在聯(lián)系,使之構(gòu)成了國際漢語教學(xué)的實(shí)用資源。它以實(shí)用資源、熱點(diǎn)新聞作為基礎(chǔ),借助講義、教輔教材編寫工具,支持教師編寫符合學(xué)習(xí)者認(rèn)知水平和學(xué)習(xí)等級的個性化教學(xué)資料,并可進(jìn)行實(shí)時分析、評價。
國際漢語教學(xué)文本材料的編寫是教學(xué)資源建設(shè)的重要內(nèi)容,《國際漢語教材編寫指南》創(chuàng)新性地采用人工智能、大數(shù)據(jù)、多媒體網(wǎng)絡(luò)以及知識庫技術(shù),將資源、工具有機(jī)地集成為智能性平臺,從而動態(tài)地、有針對性地解決國際漢語教材本土化的難題,為國際漢語教學(xué)一線的廣大教師提供科學(xué)、有效的服務(wù)。截至到目前,全球186個國家和地區(qū)的漢語教師利用該平臺的資源和工具自行編寫的講義、教輔和教材等成果已達(dá)6萬6千余份,不僅可為老師提供便利、節(jié)省時間, 也能從多方面幫助教師提高其質(zhì)量。目前,“國際漢語教材編寫指南”評價工具是孔子學(xué)院總部研發(fā)的這一大型實(shí)用網(wǎng)絡(luò)應(yīng)用平臺的一部分,為教師編寫教案提供了豐富的實(shí)用教學(xué)資源。它既支持在線操作,又有單機(jī)版軟件。
因?yàn)闈h語與英語不同,在英語書面語中,詞與詞之間有空格作為自然分界符,而漢語詞匯之間則沒有一個形式上的分界符,這也就意味著我們必須要利用一定的方法對漢語文本進(jìn)行有效的分詞處理。傳統(tǒng)人工分詞的方式耗時巨大,且主觀性強(qiáng),較為低效。隨著計(jì)算機(jī)技術(shù)的發(fā)展,許多科研院校、技術(shù)人員都對漢語自動分詞技術(shù)進(jìn)行了研究,并將該技術(shù)應(yīng)用于搜索引擎、機(jī)器翻譯等領(lǐng)域。自動分詞系統(tǒng)運(yùn)算速度快、精確度高,能夠大大提高工作質(zhì)量和效率。目前使用較為廣泛、認(rèn)可度較高的漢語分詞系統(tǒng)有THULAC、LTP、NLPIR漢語分詞系統(tǒng)、Jieba等。
THULAC(THU Lexical Analyzer for Chinese)是由清華大學(xué)自然語言處理與社會人文計(jì)算實(shí)驗(yàn)室研制推出的漢語詞法分析工具,它基于人民日報語料庫等原始語料,由大規(guī)模人工分詞和詞性標(biāo)注中文語料庫(約含5800萬字)訓(xùn)練而成,主要功能為漢語分詞和詞性標(biāo)注。
LTP(語言技術(shù)平臺,Language Technology Platform)是哈工大社會計(jì)算與信息檢索研究中心開發(fā)的漢語語言處理系統(tǒng),語料來源于哈工大信息檢索研究中心漢語依存樹庫(HIT-CIR Chinese Dependency Treebank)和哈工大信息檢索研究中心同義詞詞林?jǐn)U展版(HIT-CIR Tongyici Cilin Extended)。(8)哈工大-訊飛語言云.哈工大-訊飛語言云分詞服務(wù)[EB/OL].http://www.ltp-cloud.com/intro/#cws_how.2017-03-15.LTP的分詞模塊基于機(jī)器學(xué)習(xí)框架,能夠有效解決歧義問題。
NLPIR漢語分詞系統(tǒng)又名ICTCLAS,其全稱是“大數(shù)據(jù)搜索與挖掘共享平臺”(http://ictclas.nlpir.org/downloads),其主要功能包括漢語分詞、詞性標(biāo)注、用戶詞典等,除此之外,NLPIR還具有新詞發(fā)現(xiàn)與自適應(yīng)分詞功能和關(guān)鍵詞識別功能。該平臺集分詞標(biāo)注、實(shí)體抽取、詞頻統(tǒng)計(jì)、文本分類、情感分析、關(guān)鍵詞提取、文本聚類、語義信息抽取等為一體,能夠全方位多角度滿足應(yīng)用者對大數(shù)據(jù)文本的處理需求。NLPIR是嚴(yán)格按照內(nèi)置程序嚴(yán)格切分而未考慮詞義范圍,因此經(jīng)由計(jì)算機(jī)分詞后仍有大量超綱詞需要人工校對。由于NLPIR演示平臺根據(jù)新浪RSS feed摘要,(9)RSS是一個全文化瀏覽器,只需把博客的地址或者 RSS feed 輸入到頁面唯一的輸入框里,點(diǎn)擊后,全文化的 Feed 就生成了,同時,頁面還會生成了相應(yīng)的訂閱按鈕。利用NLPIR的精準(zhǔn)網(wǎng)絡(luò)采集系統(tǒng)實(shí)時抓取新浪最新的新聞(每次刷新均會重新抓取)的運(yùn)作特質(zhì),在前期調(diào)研中,我們曾利用這一軟件與各類《大綱》進(jìn)行比對時發(fā)現(xiàn),真超綱詞反而可以準(zhǔn)確切分,但偽超綱詞(即大綱中無,但其構(gòu)詞語素可獨(dú)立成詞,且詞義相當(dāng)于語素義疊加的詞)則需要做二次切分,人工劃入相對應(yīng)的大綱等級中。雖然NLRIP功能非常強(qiáng)大,可以正確切分大部分詞語,但仍有一些錯誤,其中,超綱詞和同形詞部分就需要進(jìn)行人工干預(yù)。
Jieba(結(jié)巴)分詞的主要功能包括漢語分詞和自定義詞典,它支持3種分詞模式:精確模式、全模式和搜索引擎模式。精確模式,適合文本分析;全模式,速度快,但不能解決歧義;搜索引擎模式在精確模式的基礎(chǔ)上,對長詞進(jìn)行二次切分,適用于搜索引擎分詞。
雖然上述4種工具的自動分詞準(zhǔn)確率均能達(dá)到98%以上,但在實(shí)際操作中,仍然需要結(jié)合人工校對進(jìn)一步提高準(zhǔn)確率,最大程度地保證分詞效果以及后續(xù)詞匯數(shù)量及其等級信息統(tǒng)計(jì)的準(zhǔn)確性。
上述各類國際漢語教育資源平臺的輔助定量分析功能,均通過量化的教育資源評估體系,為漢語國際教師提供教學(xué)和教材編寫與評價方面的技術(shù)指導(dǎo)和服務(wù),并為該領(lǐng)域研究者提供研究成果轉(zhuǎn)換和評價依據(jù),不但為漢語教師編寫教學(xué)材料服務(wù),也提高了教師編寫教學(xué)材料的效率和質(zhì)量。
評價功能主要基于對字詞的分析,其依據(jù)為所測文本用詞的SVL常用度和HSK等級信息。其中,SVL常用度是通過對一個大型語料庫的計(jì)算分析得出的,該語料庫由中國大陸、臺灣、香港等地的各種當(dāng)代(1980~2002)漢語語料抽樣構(gòu)成。
“漢語文本指難針”從漢字、詞匯、語法方面對文本難度進(jìn)行分析,并提供難度LD值、文本等級劃分及大綱等級等參考信息。在評價漢字、詞匯難度時,“漢語文本指難針”依照《漢語國際教育用音節(jié)漢字詞匯等級劃分》,對文本漢字、詞匯等級進(jìn)行標(biāo)注;在語法方面,則采用“平均句長”作為衡量語法難度的標(biāo)準(zhǔn)。
“漢語文本指難針” 在文本定級功能中,依照《國際漢語教學(xué)通用課程大綱》的定級標(biāo)準(zhǔn),將所有課文分為了三等六級。其中,“等級劃分”中包含“初級”“中級”“高級”;“大綱等級”這一指標(biāo)中則按照一至六級進(jìn)行劃分。通過測查,“漢語文本指難針”還會向用戶提供一個數(shù)值在1.0~4.0之間的數(shù)值作為文本難度值,即難度LD值。LD值與文本難度成正比,LD值越高,則說明所測文本難度越大,反之說明文本難度越小。除此之外,該平臺還支持LD值與文本定級的對應(yīng),其對應(yīng)關(guān)系表1所示。
表1 難度LD值與文本定級對應(yīng)表
此外,“漢語文本指難針”還有一項(xiàng)“漢語字詞檔案”功能,能夠?qū)ξ谋緷h字、詞匯、句子進(jìn)行分析,并在線提供分析結(jié)果。這一功能同樣依據(jù)《漢語國際教育用音節(jié)漢字詞匯等級劃分》,在漢字方面,能夠分析得出文本漢字等級,并計(jì)算出文本的字?jǐn)?shù)、字種數(shù)、各等級漢字分布、累計(jì)分布率、每句分布率和每句累計(jì)分布率;在詞匯方面,也提供上述數(shù)據(jù),如詞數(shù)、詞種數(shù)、各等級詞匯分布、累計(jì)分布率、每句分布率和每句累計(jì)分布率;在句子方面,該平臺則采用句子總數(shù)、句子所含漢字?jǐn)?shù)、句子所含詞語數(shù),以及所含漢字?jǐn)?shù)、詞語數(shù)的最小值、最大值、平均值、標(biāo)準(zhǔn)差等指標(biāo)進(jìn)行分析。分析操作流程如下所示(以下均選取北京語言大學(xué)漢語學(xué)院經(jīng)貿(mào)系本科三年級(上)留學(xué)生所使用的經(jīng)貿(mào)綜合課教材《第一課 老外在中國》進(jìn)行演示):
首先,在“漢語字詞檔案”初始界面(http://www.languagedata.net/clpat/)將所要分析的文本輸入至“文章”文本框中,輸入驗(yàn)證碼。分詞是測查漢語預(yù)料詞匯難度中至關(guān)重要的一步,在輸出分析結(jié)果之前,“漢語字詞檔案”會對用戶所輸入的文本進(jìn)行分詞處理,由于分詞的準(zhǔn)確率直接影響著詞匯難度測查結(jié)果的準(zhǔn)確性, 為了保證分詞結(jié)果的精確性,該平臺基于哈工大訊飛語言云分詞系統(tǒng)(即語言技術(shù)平臺,LTP),首先進(jìn)行一輪自動分詞,并將分詞結(jié)果進(jìn)行反饋(機(jī)器自動以“/”對詞語切分結(jié)果進(jìn)行標(biāo)示)。我們以北京語言大學(xué)漢語學(xué)院經(jīng)貿(mào)系本科三年級留學(xué)生所使用的《商務(wù)漢語綜合》(上)第一課《老外在中國》第一部分“企業(yè)高管康立晨”為例:
圖1 《商務(wù)漢語綜合》(三上)自動切詞結(jié)果顯示(頁面局部)
雖然LTP分詞系統(tǒng)準(zhǔn)確率已經(jīng)很高,但仍達(dá)不到100%,因此,為了保證數(shù)據(jù)處理的準(zhǔn)確性,“漢語字詞檔案”還提供了分詞校對頁面,用戶可在“自動切詞結(jié)果”頁面對分詞結(jié)果進(jìn)行人工校對和修正。
最后,提交文本及經(jīng)校對的分詞結(jié)果后,系統(tǒng)會對文本漢字、詞語、句子進(jìn)行分析,提供相關(guān)分析數(shù)據(jù),并支持txt格式漢字、詞語列表下載。(10)語言數(shù)據(jù)網(wǎng).國際漢語字詞檔案在線分析[EB/OL].http://www.languagedata.net/clpat/2016-10-28.見表2、表3、表4。
表2 漢字檔案分析
表3 詞語檔案分析
表4 句子檔案分析
“國際漢語教材編寫指南” 評價工具從漢字、詞匯、課文、語法4個角度對文本難度進(jìn)行測查,并依據(jù)《國際漢語教學(xué)通用課程大綱》和《漢語水平考試大綱》,列出了16項(xiàng)教材評價參數(shù)和指標(biāo),用于對已出版教材及用戶自編教材、講義等材料的分析和評價,以檢驗(yàn)教材實(shí)際難度,以及是否符合《國際漢語教學(xué)通用課程大綱》,能否對接新漢語水平考試等問題。
在漢字難度評價中,“國際漢語教材編寫指南” 評價工具統(tǒng)計(jì)及計(jì)算的指標(biāo)包括字次、字種、各等級累計(jì)分布和編入比例;在詞匯難度評價中,涉及的指標(biāo)有詞次、詞種、各等級詞等級累計(jì)分布和編入比例;評價課文時,該系統(tǒng)會根據(jù)用戶設(shè)定計(jì)算平均每課生詞數(shù)、平均每課生詞密度和平均句長;而語法方面,則按照用戶標(biāo)注的語法點(diǎn)計(jì)算平均每課語法點(diǎn)數(shù)。另外,“國際漢語教材編寫指南”評價工具還通過統(tǒng)計(jì)大規(guī)模教材得出了不同等級的教材各項(xiàng)統(tǒng)計(jì)指標(biāo)的難度參考區(qū)間,用戶可以將所測各指標(biāo)數(shù)據(jù)與參考區(qū)間數(shù)值進(jìn)行對比,以幫助掌握文本難度情況。
另外,“國際漢語教材編寫指南”評價工具還依據(jù)《國際漢語教學(xué)通用課程大綱》的定級標(biāo)準(zhǔn),通過統(tǒng)計(jì)大規(guī)模教材得出了不同等級的教材各項(xiàng)統(tǒng)計(jì)指標(biāo)的難度參考區(qū)間(見表5),用戶可以將所測得的各指標(biāo)數(shù)據(jù)與參考區(qū)間數(shù)值進(jìn)行對比,以幫助掌握文本難度情況。在使用“國際漢語教材編寫指南”評價工具對文本進(jìn)行難度評價時,考慮到了文本適用對象和適用水平的問題,將文本劃分為成人和少兒兩類,兩類之下又各自分為初級、中級、高級三等。由于不同適用對象、不同適用水平的文本,各個指標(biāo)的難度參考區(qū)間不同,測查前,用戶需自行勾選所測文本的適用對象和適用水平。
表5 適用對象、適用水平、參考指標(biāo)、參考區(qū)間對照表(11)孔子學(xué)院總部/國家漢辦(2017)國際漢語教材編寫指南[EB/OL].http://www.cltguides.com/user/analysis!input.action/2017-03-15.
“漢語文本指難針”從漢字、詞匯、語法方面對文本難度進(jìn)行分析,并提供文本難度LD值、文本等級劃分及大綱等級等參考信息。在評價漢字、詞匯難度時,“漢語文本指難針”以《漢語國際教育用音節(jié)漢字詞匯等級劃分》為依據(jù);而在文本定級功能中,則依照《國際漢語教學(xué)通用課程大綱》的定級標(biāo)準(zhǔn),將所有課文分為了三等六級。其中,“等級劃分”中包含“初級”“中級”“高級”;“大綱等級”這一指標(biāo)中則按照一至六級進(jìn)行劃分。通過測查,“漢語文本指難針”還會向用戶提供一個數(shù)值在1.0~4.0之間的數(shù)值作為文本難度值,即難度LD值。LD值與文本難度成正比,LD值越高,則說明所測文本難度越大,反之說明文本難度越小。除此之外,該平臺還支持LD值與文本定級的對應(yīng),其對應(yīng)關(guān)系如下表6所示。
表6 難度LD值與文本定級對應(yīng)表
“漢語文本指難針”在進(jìn)入系統(tǒng)頁面(http://languagedata.net/editor/)后,無需登錄可直接進(jìn)行測查,只需將所需測查的文本輸入或復(fù)制粘貼至“文章”文本框中,系統(tǒng)自動得出分析結(jié)果,向用戶提供難度LD值、等級劃分、大綱等級、漢字難度、詞匯難度和平均句長6項(xiàng)數(shù)據(jù),并通過難度LD值使用指引圖直觀地出標(biāo)示所測文本的難度水平。見表7和圖2。
表7 原文難度分析結(jié)果
圖2 難度LD值使用指引圖
如文本難度測查結(jié)果與預(yù)期相符,或與文本編寫要求相符,不需修改,則可以點(diǎn)擊“生成詞表”查看分詞結(jié)果及詞匯等級統(tǒng)計(jì)結(jié)果(如圖3)。用戶如需查看各等級詞匯情況,可勾選上方“超綱詞”“高級詞”“中級詞”等選項(xiàng),系統(tǒng)便會將不同等級的詞匯用不同的顏色標(biāo)注出來,如在上一步文本難度測查結(jié)果與預(yù)期或與文本編寫要求不相符,需要對原文進(jìn)行修改,修改完成后,點(diǎn)擊“文本定級”按鈕,便能得到修改后文本的難度測查結(jié)果。
圖3 漢語文本指南針 “生成詞表”界面(局部)
“國際漢語教材編寫指南”評價工具在使用前需要進(jìn)行注冊,注冊并登錄成功后,進(jìn)入評價工具頁面(http://www.cltguides.com/user/analysis!input.action)。
要注意的是,“國際漢語教材編寫指南”評價工具要求在上傳的文本中對文本標(biāo)題、課文、生詞、語法點(diǎn)進(jìn)行標(biāo)注,例如:標(biāo)題需要在標(biāo)題文字前增加“[title]”,則識別為標(biāo)題,讀取本行;課文要在內(nèi)容文字前增加“[content] ”,則識別為內(nèi)容,讀取本行或本段;生詞要在生詞文字前增加“[word]”,則識別為生詞;語法點(diǎn)需在語法點(diǎn)文字前增加“[grammar]”,則識別為語法點(diǎn)。上述標(biāo)注需在上傳教材文本前完成。
系統(tǒng)根據(jù)其測查標(biāo)準(zhǔn)及用戶自定測查項(xiàng)目得出測查結(jié)果,并依照該系統(tǒng)的難度參考區(qū)間對所測文本各項(xiàng)指標(biāo)難度進(jìn)行評價,如表8、表9所示(本演示僅標(biāo)注文章標(biāo)題及內(nèi)容,未標(biāo)注生詞及語法點(diǎn))。同時,“國際漢語教材編寫指南”評價工具還支持將測查數(shù)據(jù)在線生成圖表,如圖4所示(以漢字等級分布、漢字等級累計(jì)分布兩項(xiàng)指標(biāo)為例),參考區(qū)間為95.73%~99.5%,1~6級字等級累計(jì)分布98.56%。
表8 《商務(wù)漢語綜合》(三上)評價結(jié)果
表9 評價結(jié)果顯示
圖4 漢字等級分布
在用戶體驗(yàn)方面,通過上文所述操作方法可以看出,“漢語文本指難針”和“國際漢語教材編寫指南”這兩套評價工具系統(tǒng)的操作難度都不高,操作步驟清晰,便于上手。作為在線工具,這兩套系統(tǒng)的運(yùn)算速度也較快,在使用中沒有出現(xiàn)網(wǎng)頁卡頓、等候時間過長等現(xiàn)象。
首先,在對文本的詞匯等級進(jìn)行測查時,分詞是不可回避的問題,就目前的技術(shù)水平而言,許多漢語分詞工具的技術(shù)、算法等已經(jīng)相當(dāng)成熟,大部分常用的漢語分詞工具分詞準(zhǔn)確率都能夠達(dá)到98%以上,如清華大學(xué)的THULAC、哈工大的LTP、NLPIR漢語分詞系統(tǒng)、Jieba等,但這些分詞工具都不能夠保證100%的準(zhǔn)確率,為了確保測查結(jié)果的準(zhǔn)確性,用戶有必要對分詞結(jié)果進(jìn)行人工校對。在這一方面,“漢語文本指難針”在得出測查結(jié)果之前,必經(jīng)步驟便是系統(tǒng)自動分詞結(jié)果進(jìn)行人工校對,而“國際漢語教材編寫指南”評價工具則不提供人工校對功能。
其次,“國際漢語教材編寫指南”評價工具在測查過程中采用的是上傳文本文檔的形式,并要求用戶按照系統(tǒng)格式要求對文本的標(biāo)題、內(nèi)容、生詞、語法點(diǎn)等進(jìn)行標(biāo)注,“漢語文本指難針”則直接在頁面文本框輸入文本即可。相比較而言,針對小批量測查,“國際漢語教材編寫指南”評價工具操作比較繁瑣,國際漢語教材編寫指南”則相對簡便,但如進(jìn)行大批量測查,由于前者無需重復(fù)操作,測查過程和結(jié)果相對后者而言,會更加簡單清晰。但“國際漢語教材編寫指南”評價工具上傳文本的大小有限制,文件需控制在1M以內(nèi),如需要測查的文本篇幅特別長,仍然需要重復(fù)操作。
再者,“國際漢語教材編寫指南”評價工具在上傳文本時,僅支持Microsoft Office Word 97~2003文檔(即.doc格式文本文檔),不支持.txt、.docx、.pdf格式文檔,而由于軟件升級,Microsoft Office Word 97~2003文檔已不是當(dāng)前最常用、最主流的文檔格式,Microsoft Office Word 2003版本以上用戶、PDF用戶需先將文本轉(zhuǎn)換為Microsoft Office Word 97~2003文檔才能進(jìn)行測查,增加不必要的工作量,建議升級或增加所支持的文本格式,方便用戶使用。
另外,“國際漢語教材編寫指南”評價工具因在進(jìn)行測查之前需要先登錄,系統(tǒng)可以識別用戶,也能夠保存用戶上傳的教材,同時也提供單機(jī)版,方便在脫網(wǎng)環(huán)境下使用;“漢語文本指難針”則不支持保存教材,更偏向在線的即時測查。
我們在前文提到,“中文助教TM”的語料難度測查主要依靠對文本詞匯等級的標(biāo)注。仇鑫奕對“中文助教TM”的語料難度測查效果進(jìn)行了考察,發(fā)現(xiàn)該工具在標(biāo)注文本詞匯等級時,由于其本身的分詞系統(tǒng)分詞精確度不夠高,常常因分詞失誤導(dǎo)致詞匯等級標(biāo)注錯誤,這也影響了該工具文本難度測查結(jié)果。例如:“……你的耳朵長到哪里去了?”中,該軟件將“耳朵長”劃分為一個詞,而實(shí)際上,這里應(yīng)該為名詞“耳朵”+動詞“長”;又如“第二天下午放學(xué)……”中,該軟件將“二天”劃分為一個詞,但應(yīng)當(dāng)為數(shù)詞“二”+名詞“天”。(12)仇鑫奕.“中文助教TM”的語料難度測量問題和改進(jìn)建議[J].中國教育信息化,2010,(23).
“國際漢語教材編寫指南”評價工具在測查中會分別計(jì)算出漢字、詞匯、句子等各項(xiàng)指標(biāo)的數(shù)值,并依據(jù)表2的難度參考區(qū)間對各項(xiàng)指標(biāo)做出“偏低”“合理”或“偏高”的評價。例如,根據(jù)該工具的標(biāo)準(zhǔn),高級成人教材1~6級詞累計(jì)分布的參考區(qū)間為64.92%~79.19%,假如測得一篇課文該項(xiàng)高于79.19%,系統(tǒng)會標(biāo)注“偏高”,在64.92%~79.19%之間標(biāo)注“合理”,低于64.92%標(biāo)注“偏低”,其他指標(biāo)的難度評價均為如此??梢钥闯?,“國際漢語教材編寫指南”評價工具對文本難度的評價雖然較“中文助教TM”更加全面,但仍不夠系統(tǒng),我們可以用它測得漢字、詞匯、句子等的難度,但無法將這些難度值進(jìn)行整合,也不能得知整個文本綜合的難度值或等級信息。
“漢語文本指難針”是幾款工具中唯一能夠?qū)h字、詞匯、句子等各項(xiàng)測查指標(biāo)進(jìn)行整合和計(jì)算,進(jìn)而得到一個明確的難度值和參考等級的。因此,我們利用該工具對我們調(diào)研中所測得語言難度控制最好的《卓越商務(wù)漢語教程高級閱讀》進(jìn)行了試測,以檢驗(yàn)該工具是否適用于商務(wù)類語料,試測結(jié)果如下表10:
表10 “漢語文本指難針”對《卓越商務(wù)漢語教程高級閱讀》課文試測結(jié)果
由上表可知,“漢語文本指難針”根據(jù)《國際漢語教學(xué)通用課程大綱》的定級標(biāo)準(zhǔn),將《卓越商務(wù)漢語教程高級閱讀》的15篇課文均歸為中高級,其中中等四級僅2篇,高等的13篇中,五級8篇,六級3篇,整體難度均較高。這與教材課文的實(shí)際難度相符,但是該工具給出的難度值和等級劃分是相對于通用型語料而言的,也就是說,我們無法通過“漢語文本指難針”準(zhǔn)確測得一篇商務(wù)漢語文本在商務(wù)漢語語料中的等級,這也是本文提出希望建立商務(wù)類漢語讀物分級標(biāo)準(zhǔn)的原因之一。
為了檢驗(yàn)“漢語文本指難針”和“國際漢語教材編寫指南”評價工具文本難度測查的準(zhǔn)確度,并進(jìn)一步觀察這兩套系統(tǒng)是否適合應(yīng)用于漢語國際教育用商務(wù)漢語語料難度的測查,本文選取北京語言大學(xué)漢語學(xué)院經(jīng)貿(mào)系本科三年級留學(xué)生所使用的《商務(wù)漢語綜合》(上、下)兩冊課本中的課文進(jìn)行試測,結(jié)果如下表11、表12、表13、表14:
表11 “漢語文本指難針”三年級上冊課文試測結(jié)果
表12 “漢語文本指難針”三年級下冊課文試測結(jié)果
表13 “國際漢語教材編寫指南”評價工具三年級上冊課文試測結(jié)果
表14 “國際漢語教材編寫指南”評價工具三年級下冊課文試測結(jié)果
由上文試測結(jié)果可以看出,用“漢語文本指難針”進(jìn)行測試,兩冊教材課文難度LD值界于2.50~3.88之間,等級劃分均為中等、高等難度,等級劃分均為四級至六級,其中,測定為四級的有6篇,五級6篇,六級7篇。根據(jù)“國際漢語教材編寫指南”評價工具的評價結(jié)果,三年級上冊課文漢字指標(biāo)一項(xiàng)難度合理,一項(xiàng)偏低;詞匯指標(biāo)一項(xiàng)偏高,一項(xiàng)合理;課文平均句長合理。三年級下冊漢字指標(biāo)一項(xiàng)難度合理,一項(xiàng)偏低;詞匯指標(biāo)一項(xiàng)偏高,一項(xiàng)合理;課文平均句長偏高。
由于“漢語文本指難針”沒有為所測得數(shù)值提供一個可參考的難度區(qū)間,我們不能夠從漢字難度、詞匯難度和平均句長的數(shù)據(jù)中判斷出教材難度是否合理,但從難度LD值、等級劃分、大綱等級三項(xiàng)指標(biāo)的測查結(jié)果來看,三年級上、下兩冊教材的課文實(shí)際難度與測查所得難度基本相符?!皣H漢語教材編寫指南”評價工具與前者不同,它為用戶提供了數(shù)值參考區(qū)間,但不提供等級信息,從上下兩冊教材漢字、詞匯、課文平均句長的各項(xiàng)數(shù)據(jù)來看,兩冊教材根據(jù)該系統(tǒng)的評價結(jié)果,漢字難度都偏低、詞匯難度都偏高,下冊課文難度偏高。
通過觀察兩套系統(tǒng)詞匯測查結(jié)果,我們發(fā)現(xiàn),被系統(tǒng)標(biāo)注為超綱詞的詞匯中,有很多為商務(wù)詞匯,如:“合資、擇業(yè)、產(chǎn)業(yè)革命、經(jīng)銷、供應(yīng)、開銷”等。由于“漢語文本指難針”和“國際漢語教材編寫指南”評價工具在詞匯測查中依據(jù)的大綱均為通用型大綱,大綱本身詞匯商務(wù)特點(diǎn)不明顯,因此,部分對于商務(wù)漢語學(xué)習(xí)者而言未必是超綱詞的詞匯在測查中被劃入超綱詞范圍,這使得測查結(jié)果對于商務(wù)漢語學(xué)習(xí)者而言精確度有所降低。
綜上所述,“國際漢語教材編寫指南”評價工具和“漢語文本指難針”根據(jù)其適用范圍的不同,功能各有側(cè)重,其中最適合用于分級讀物建設(shè)的是“漢語文本指難針”。
一般而言,商務(wù)漢語學(xué)習(xí)者以大學(xué)生、商務(wù)人士、相關(guān)領(lǐng)域研究人員居多,其母語閱讀水平應(yīng)當(dāng)已處于較高的水平,因此,在探討商務(wù)類漢語分級讀物語料難易度測查標(biāo)準(zhǔn)的過程中,我們可以將影響兒童閱讀難易度的因素排除在外,如插圖、字體、間距等,主要關(guān)注詞匯、語法等客觀因素?!皾h語文本指難針”和美國藍(lán)思框架閱讀的分級都采取了類似的做法,二者都是利用計(jì)算機(jī)技術(shù)對讀物詞匯、語法難度等客觀因素進(jìn)行測試,并在整合各項(xiàng)難度的基礎(chǔ)上得到一個讀物整體的難度值,以此作為分級依據(jù)。這種分級方式分級效率高且結(jié)果科學(xué),值得我們借鑒。
在功能側(cè)重方面,“漢語文本指難針”主要功能為文本定級、詞匯反饋和例句查詢,而“國際漢語教材編寫指南”評價工具的定位則更偏向于輔助教材的編寫。換言之,“漢語文本指難針”更適用于用戶對文本難度沒有把握,對文本進(jìn)行測查的情況,“國際漢語教材編寫指南”評價工具則更適用于用戶已大致了解文本等級水平,對文本難度進(jìn)行復(fù)核和檢驗(yàn)的情況。
但是,作為以通用型漢語國際教育大綱為依據(jù)的難度測查工具,由于通用型大綱本身的局限性,兩套系統(tǒng)在測查商務(wù)漢語語料時,雖然測查結(jié)果仍保持了一定的準(zhǔn)確度,但其用于詞匯分級的商務(wù)詞匯遠(yuǎn)不能實(shí)現(xiàn)對商務(wù)漢語語料進(jìn)行精確分級的需求,這就會造成兩個結(jié)果:
一是,用戶通過這兩套系統(tǒng)對商務(wù)漢語語料進(jìn)行測查時,會出現(xiàn)超綱詞偏多的情況,使系統(tǒng)誤認(rèn)為該文本詞匯難度偏大,也就造成了對于商務(wù)漢語學(xué)習(xí)者而言,文本的實(shí)際難度與系統(tǒng)測查所得難度不符的問題;
二是,大量商務(wù)詞匯被歸為超綱詞,而現(xiàn)有系統(tǒng)又缺乏這些超綱的商務(wù)詞匯的等級信息,會出現(xiàn)商務(wù)漢語語料分級精確度與通用型漢語語料相比較低的問題。
基于核心知識庫,從互聯(lián)網(wǎng)、教材數(shù)據(jù)庫中獲取特定領(lǐng)域相關(guān)數(shù)據(jù),開發(fā)面向漢語學(xué)習(xí)者的初級、中級、高級不同層次的學(xué)習(xí)文本素材庫及相關(guān)文化產(chǎn)品勢在必行。我們認(rèn)為,應(yīng)當(dāng)借鑒現(xiàn)有資源編寫平臺文本分級定量評價方法的基礎(chǔ)上,重點(diǎn)研究動態(tài)、開放的備選素材獲取、分析及加工方法,并且探索以“學(xué)”為導(dǎo)向的學(xué)習(xí)資源生成方法,建立一個基于文本難易度,適用于漢語國際教育的商務(wù)漢語學(xué)習(xí)資源文本庫,能夠借助移動互聯(lián)技術(shù)、學(xué)習(xí)分析技術(shù),捕獲、匯聚、分析各類信息,構(gòu)建學(xué)習(xí)者信息模型,為學(xué)習(xí)者提供突破時空限制的智慧教育服務(wù)。例如用戶上傳文本后,學(xué)習(xí)資源平臺會給出待分析文本在后臺資源(語料)庫中的難度位置,并向用戶推薦資源庫中與待分析文本中漢字、詞匯、語法距離最近的文章,得到一個用于閱讀訓(xùn)練的排序文本集。該學(xué)習(xí)資源文本庫(集)一方面可以輔助學(xué)生進(jìn)行原文閱讀,另一方面還可以最大限度地拓展與之交互的有效閱讀空間。具體設(shè)想是由專業(yè)的團(tuán)隊(duì)制定一套文本分級測定程序,包含閱讀能力中所有可以量化的客觀要素(漢字、詞匯、語法等),并以分值的方式(通過漢語可讀性公式)體現(xiàn)圖書的等級和閱讀者的閱讀水平,并將之進(jìn)行技術(shù)關(guān)聯(lián)。見圖5。
圖5 基于智慧教育平臺的漢語分級閱讀標(biāo)準(zhǔn)研制路徑
這方面還有以下基礎(chǔ)研究有待開展:
首先,參考學(xué)界對商務(wù)詞匯的界定及商務(wù)漢語大綱詞匯,從測查得到的超綱詞中抽出屬于商務(wù)詞匯的部分。再基于已有的商務(wù)漢語大綱和商務(wù)漢語教材為商務(wù)詞匯標(biāo)注等級,并通過測查語料范圍的擴(kuò)大逐步擴(kuò)大詞庫容量,以使商務(wù)漢語閱讀詞匯部分的分級結(jié)果更加精確,滿足教師及學(xué)習(xí)者的閱讀、研究需求。
其次,任何一個文本分級系統(tǒng)如要實(shí)現(xiàn)高效、精確的分級,都離不開計(jì)算機(jī)技術(shù)的輔助和支持,商務(wù)漢語語料的難度測查和分級亦是如此。因此,在建立商務(wù)漢語分級閱讀體系的過程中,要重視利用計(jì)算機(jī)技術(shù)開發(fā)有關(guān)功能模塊。例如,與清華大學(xué)THULAC、哈工大LTP、NLPIR漢語分詞系統(tǒng)、Jieba等已較為成熟的漢語分詞工具團(tuán)隊(duì)展開合作,完成分級體系的詞匯模塊等。
最后,一個成熟的系統(tǒng)必然要有良好的用戶體驗(yàn),以網(wǎng)絡(luò)智慧教育平臺形式的分級系統(tǒng)為例,網(wǎng)站設(shè)計(jì)要簡明清晰,注意在細(xì)節(jié)處提升用戶使用的舒適度,同時,網(wǎng)站信息和技術(shù)要及時更新優(yōu)化。建議設(shè)立專門的用戶反饋渠道,以及時發(fā)現(xiàn)并解決系統(tǒng)出現(xiàn)的問題,使系統(tǒng)運(yùn)行流暢。