劉 瀟
(武漢大學(xué)外國(guó)語(yǔ)學(xué)院,湖北武漢420072)
進(jìn)入信息社會(huì)后,人們可閱讀到的文本呈現(xiàn)爆炸式的增長(zhǎng)。在外語(yǔ)教學(xué)領(lǐng)域,《歐洲語(yǔ)言共同參考框架:學(xué)習(xí)、教學(xué)、評(píng)估》(CECR)中提倡使用真實(shí)語(yǔ)料作為教學(xué)材料。而根據(jù)前蘇聯(lián)心理學(xué)家維果茨基(Vygotsky,1978)的最近發(fā)展區(qū)理論(Zone of Proximal Development)假設(shè)和美國(guó)語(yǔ)言學(xué)家克拉申(Krashen,1989)的語(yǔ)言學(xué)習(xí)輸入i/i+1理論(The input hypotheses),教學(xué)材料應(yīng)當(dāng)稍高于學(xué)習(xí)者當(dāng)前水平,才能達(dá)到最佳效果。但是,對(duì)于教學(xué)者和自學(xué)外語(yǔ)的學(xué)生而言,在繁多的資料中選取難度合適的文本,需要大量的時(shí)間與精力,他們迫切需要有力的工具以提高選取閱讀材料的效率。
為滿(mǎn)足這一需求,必須采用量化的方法,高效率地評(píng)估文本的困難程度,即易讀度(readability,也譯作易讀性)①對(duì)應(yīng)的法語(yǔ)單詞為lisibilité。國(guó)內(nèi)相關(guān)文章多采用“易讀性”這一譯法?!耙鬃x性”也更為貼近外語(yǔ)單詞本義。但為強(qiáng)調(diào)對(duì)文本易讀程度的量化測(cè)量,此文中主要采用“易讀度”這一譯法。。美國(guó)早在上世紀(jì)20年代就開(kāi)始致力于相關(guān)研究,并將總結(jié)出的易讀度公式運(yùn)用于英語(yǔ)教學(xué)、新聞、軍事等多個(gè)領(lǐng)域,以確保相關(guān)行業(yè)的文本更易為大眾所理解。2007年以來(lái),這一課題也引起國(guó)內(nèi)英語(yǔ)教學(xué)、對(duì)外漢語(yǔ)和新聞等領(lǐng)域的學(xué)者越來(lái)越多的關(guān)注②根據(jù)中國(guó)知網(wǎng)的“學(xué)術(shù)趨勢(shì)”功能中的“學(xué)術(shù)關(guān)注度”對(duì)“易讀性”和“易讀度”兩個(gè)詞條的反饋,可以看到,具有這兩個(gè)關(guān)鍵詞的文本的收錄量之和在2007年之后有較大幅度上升。。
本文試圖對(duì)易讀度在英語(yǔ)、漢語(yǔ)和法語(yǔ)三個(gè)語(yǔ)種的國(guó)內(nèi)外研究方法和成果進(jìn)行綜述,并將重點(diǎn)放在教學(xué)領(lǐng)域。在第二部分中,分別介紹國(guó)外的英語(yǔ)和法語(yǔ)易讀度研究的歷史、發(fā)展和應(yīng)用情況;第三部分則將目光轉(zhuǎn)向國(guó)內(nèi),概覽英語(yǔ)教學(xué)界和漢語(yǔ)學(xué)者在易讀度上的成果;最后總結(jié)目前研究存在的問(wèn)題,嘗試預(yù)測(cè)這一領(lǐng)域的發(fā)展趨勢(shì)。
與語(yǔ)言學(xué)研究的其他分支相似,美國(guó)學(xué)者在文本易讀度方面的研究走在前列,也最為成熟。最早的研究始于上世紀(jì)20年代萊弗利和普萊西(Lively&Pressey,1923)對(duì)教材詞匯難度的考察。相關(guān)研究的內(nèi)容主要集中在兩個(gè)方面:影響易讀度的因素和易讀度的測(cè)定方法。與之相關(guān)的還有語(yǔ)料的選取,以及評(píng)估測(cè)量結(jié)果的方法等問(wèn)題,本文暫不討論。
從研究方法的演變,到研究工具的發(fā)展,文本難度研究大致可分為三個(gè)階段(Thomas Fran?ois,2012):
(1)20世紀(jì)20至70年代,易讀度的主流研究方法一直是由沃格爾和沃什伯恩(Vogel&Washburne)在1928年所提出的多元線(xiàn)性回歸模型。研究者將詞匯和語(yǔ)法作為區(qū)分文本難度的特征,選用單詞長(zhǎng)度(或測(cè)量Dale-Chall等常用詞表之外單詞所得到的生疏詞比例)及句長(zhǎng)等2(或3)個(gè)變量,通過(guò)手工抽樣或(50年代之后逐漸采用的)機(jī)器輔助統(tǒng)計(jì)的方式測(cè)出變量值,按其與易讀度的相關(guān)度為每個(gè)變量賦以權(quán)重并相加,構(gòu)建出上千個(gè)易讀度公式。
以弗雷奇(Flesch)在1948年提出的Flesch Reading Ease為例:
其中,wl(word length)=每個(gè)單詞的平均音節(jié)數(shù),sl(sentence length)=每個(gè)句子的平均單詞數(shù)。
該公式算出的分?jǐn)?shù)取值區(qū)間為0-100。分?jǐn)?shù)越低,說(shuō)明文章越難。其數(shù)值對(duì)應(yīng)的難度參照表如下:
(表 1)
Flesch Reading Ease和Flesch-Kincaid Grade Level是得到最為廣泛應(yīng)用的兩個(gè)公式。二者都采用單詞和句子長(zhǎng)度作為語(yǔ)義和句法復(fù)雜度的依據(jù),均被內(nèi)置于Microsoft Office Word軟件。后者更是美國(guó)國(guó)防部使用的標(biāo)準(zhǔn)文本難度測(cè)量公式。
此外,較常用的公式還有:Gunning-Fog Score,Coleman-Liau Index,Automated Readability Index(ARI),SMOG Index,Dale-Chall Readability Formula,F(xiàn)ry Readability Formula,Spache,F(xiàn)ORCAST 等。它們的預(yù)測(cè)變量都采用了傳統(tǒng)的一個(gè)詞匯因素加一個(gè)句法因素的形式,提出的時(shí)間較早,介于40年代末和60年代末之間。這些公式至今仍是易讀度應(yīng)用的主要工具。
以上易讀度公式具有顯著優(yōu)點(diǎn):使用起來(lái)十分便捷,所需的變量也易于獲取。但其缺點(diǎn)同樣明顯:對(duì)文本難度的評(píng)估被過(guò)度簡(jiǎn)化。2~3個(gè)變量遠(yuǎn)不足以表達(dá)文本的復(fù)雜程度。詞長(zhǎng)等因素本身與易讀度的關(guān)聯(lián)也有爭(zhēng)議。因此,必須引入新的思路和技術(shù)來(lái)評(píng)估文本難度。
(2)20世紀(jì)80至90年代,Kintsh、Vipond和Kemper等認(rèn)知心理學(xué)專(zhuān)家對(duì)傳統(tǒng)方法進(jìn)行了批評(píng),認(rèn)為這些公式采用的僅僅是文本表層的特征,忽略了文本真實(shí)的復(fù)雜度。他們指出:在閱讀時(shí),讀者不僅對(duì)文章進(jìn)行詞匯的辨認(rèn)和語(yǔ)法的解讀,還需從概念上理解文本背后的涵義。鑒于此,他們提出了許多基于語(yǔ)義和篇章等認(rèn)知心理學(xué)領(lǐng)域因素的特征,如概念本身的難度(虛詞的比例、人稱(chēng)代詞、同形多義詞的數(shù)量),概念密度(小句的數(shù)量),回指的密度以及彼此的距離,近義詞或邏輯聯(lián)結(jié)詞,相鄰句子之間的相似度,詞匯覆蓋度(即兩句之間相同的名詞/論元/詞干的數(shù)量)等等。
然而,他們的研究并沒(méi)有提升難度區(qū)分的準(zhǔn)確率,無(wú)法證明其相對(duì)于傳統(tǒng)方法的優(yōu)越性,反而因方法復(fù)雜常需手工統(tǒng)計(jì),難以實(shí)踐而未得到廣泛采用。在這一時(shí)期,易讀度研究的發(fā)展陷入停滯和低潮。
(3)20世紀(jì)90年代至今,隨著越來(lái)越多學(xué)科與計(jì)算機(jī)和信息領(lǐng)域相交叉,自然語(yǔ)言處理技術(shù)不斷成熟,相關(guān)研究成果也被應(yīng)用到易讀度研究中。其中絕大多數(shù)的研究針對(duì)英語(yǔ)文本難度。研究者總體上對(duì)相關(guān)技術(shù)在實(shí)現(xiàn)更準(zhǔn)確的文本難度量化評(píng)估中的作用持審慎的樂(lè)觀態(tài)度。
這些新方法有如下幾個(gè)特點(diǎn):(1)采用機(jī)器學(xué)習(xí)技術(shù);(2)引入包括語(yǔ)義和篇章類(lèi)型的更多變量,以建立復(fù)雜的模型;(3)需要大量文本作為數(shù)據(jù)庫(kù)。
Foltz等學(xué)者在1998年最早引入了潛在語(yǔ)義分析技術(shù)(Latent Semantic Analysis,縮寫(xiě)為L(zhǎng)SA)①1988年由S.T.Dumais等人提出的一種新的信息檢索代數(shù)模型,它使用統(tǒng)計(jì)計(jì)算的方法對(duì)大量的文本集進(jìn)行分析,從而提取出詞與詞之間潛在的語(yǔ)義結(jié)構(gòu),用來(lái)表示詞和文本,達(dá)到消除詞之間的相關(guān)性和簡(jiǎn)化文本向量實(shí)現(xiàn)降維的目的。以分析文本的連貫性。他們將文本作為大量不同特征值構(gòu)成的向量空間,處理為許多數(shù)據(jù)的集合,實(shí)現(xiàn)分析比對(duì)。Si和Callan于2001年最早將易讀度問(wèn)題歸為自然語(yǔ)言分類(lèi)的一個(gè)子問(wèn)題,從而將它與人工智能和機(jī)器學(xué)習(xí)領(lǐng)域聯(lián)系起來(lái)。從此,多元線(xiàn)性回歸不再是測(cè)量易讀度的唯一數(shù)學(xué)模型,樸素貝葉斯、支撐向量機(jī)(SVM)等算法成為了這個(gè)領(lǐng)域的有力工具。
與傳統(tǒng)的易讀度公式相比,他們使用的變量更多,建立的統(tǒng)計(jì)模型更為復(fù)雜。目前,這一新方法還未明顯建立起相對(duì)于傳統(tǒng)公式的優(yōu)勢(shì),但他們提供了將認(rèn)知心理學(xué)家提出的新變量與傳統(tǒng)變量結(jié)合起來(lái)的可能,找到了該領(lǐng)域發(fā)展的突破口。
美國(guó)政府一直大力支持易讀度相關(guān)研究和將其成果推廣應(yīng)用。卡耐基-梅隆大學(xué)的語(yǔ)言技術(shù)學(xué)院正開(kāi)展的基于網(wǎng)絡(luò)文本的REAP(READer-specific Practice)項(xiàng)目就得益于美國(guó)教育部的支持。它能對(duì)閱讀者進(jìn)行預(yù)先測(cè)驗(yàn),再有針對(duì)性地推薦適合對(duì)象閱讀水平的文本。經(jīng)過(guò)匹茲堡大學(xué)英語(yǔ)學(xué)院的教學(xué)實(shí)驗(yàn),該系統(tǒng)被認(rèn)為能較好地融入正常的教學(xué)計(jì)劃中,取得了階段性成功(Feeney&Heilman,2008)。
商用方面,易讀度研究在母語(yǔ)教學(xué)領(lǐng)域的應(yīng)用最為常見(jiàn)。MetaMetrics公司開(kāi)發(fā)的藍(lán)思閱讀測(cè)評(píng)系統(tǒng)(Lexile Framework)就是其中的成功案例。他們通過(guò)計(jì)算大樣本的教材難度,為每個(gè)年級(jí)提出了必讀文本難度和擴(kuò)展文本難度分值,推動(dòng)了兒童分級(jí)閱讀的專(zhuān)業(yè)合作與指導(dǎo)(羅德紅、余婧,2013)。除英語(yǔ)外,該公司的閱讀評(píng)測(cè)系統(tǒng)還有西班牙語(yǔ)版。2009年,他們還與托??荚嚕═OEFL)的研發(fā)和主辦機(jī)構(gòu)——美國(guó)教育考試服務(wù)中心(ETS)合作,將托??荚囬喿x部分的分?jǐn)?shù)聯(lián)入藍(lán)思測(cè)評(píng)系統(tǒng)。
美國(guó)孟菲斯大學(xué)(University of Memphis)的Coh-Metrix系統(tǒng)則側(cè)重于文本的連貫性。在二語(yǔ)習(xí)得領(lǐng)域,它所采用的Coh-Metrix L2 Reading Index的表現(xiàn)優(yōu)于傳統(tǒng)易讀度公式,但59%的分類(lèi)準(zhǔn)確度在實(shí)踐中仍不能讓人滿(mǎn)意(Crossley&al.,2011)。
此外,在軍事、新聞、保險(xiǎn)等領(lǐng)域,易讀度研究也發(fā)揮著作用,用以確保相關(guān)文本更易為大眾所理解。如美國(guó)馬薩諸塞州保險(xiǎn)委員會(huì)規(guī)定保險(xiǎn)單的易讀度用Flesch Reading Ease公式計(jì)算得分應(yīng)不低于50,而明尼蘇達(dá)州則要求不低于40(晏生宏、黃莉,2005)。
直到1956年,法語(yǔ)世界才通過(guò)André Conquet的著作《易讀度》(La lisibilité)接觸到這一領(lǐng)域。在20世紀(jì)50至60年代,Kandel、Moles和Landsheere改造Flesch Reading Ease以適應(yīng)法語(yǔ)文本。最早的原創(chuàng)公式是Henry在1975年提出的。隨后,Cornaire在1988年將Henry的公式應(yīng)用于FLE教學(xué)。Uitdenbogerd在2005年針對(duì)母語(yǔ)為英語(yǔ)的法語(yǔ)學(xué)生構(gòu)建了自己的易讀度公式,將兩種語(yǔ)言的詞匯相似度作為變量之一(Fran?ois,2009)。
近年來(lái),比利時(shí)魯汶天主教大學(xué)的Fran?ois(2012)致力于利用語(yǔ)言自動(dòng)處理技術(shù)提高文本易讀度的準(zhǔn)確度,并應(yīng)用于FLE領(lǐng)域②他的研究面向的對(duì)象是母語(yǔ)非特定某種語(yǔ)言、非為特定目的學(xué)習(xí)法語(yǔ)(FOS)的成年人。。Fran?ois采取由教學(xué)專(zhuān)家預(yù)先按照《歐洲語(yǔ)言共同參考框架:學(xué)習(xí)、教學(xué)、評(píng)估》(CECR)標(biāo)準(zhǔn)分類(lèi)③《歐洲語(yǔ)言共同參考框架:學(xué)習(xí)、教學(xué)、評(píng)估》(C E C R)中將語(yǔ)言學(xué)習(xí)者的能力分為A 1、A 2、B 1、B 2、C 1、C 2,共6級(jí)。此外,還可加入A 1+、A 2+、B 1+,細(xì)化為 9個(gè)等級(jí)。的法語(yǔ)教材作為語(yǔ)料,通過(guò)機(jī)器學(xué)習(xí)和文本挖掘的方法對(duì)406個(gè)變量進(jìn)行實(shí)驗(yàn)。他確認(rèn)傳統(tǒng)所采用的詞匯變量(尤其是常用詞表之外的單詞所占比例)仍是最佳特征值,證明語(yǔ)言自動(dòng)處理技術(shù)引入的基于LSA的變量和詞類(lèi)等變量對(duì)準(zhǔn)確評(píng)估文本易讀度的效果顯著;而短語(yǔ)和多元模型等變量則并不比傳統(tǒng)公式采用的變量更有效。他的實(shí)驗(yàn)結(jié)果顯示:實(shí)現(xiàn)較好的文本難度自動(dòng)評(píng)估所需的特征值數(shù)目遠(yuǎn)超傳統(tǒng)公式。通過(guò)對(duì)47個(gè)特征值(包含傳統(tǒng)特征及語(yǔ)言自動(dòng)處理技術(shù)所發(fā)掘的新特征)的最優(yōu)運(yùn)用,能得到比傳統(tǒng)方式高15%的準(zhǔn)確度。在統(tǒng)計(jì)模型方面,Boosting方法④Boosting(增強(qiáng))方法是一種集成學(xué)習(xí)的分類(lèi)方法,反復(fù)使用多個(gè)準(zhǔn)確度較低的弱分類(lèi)器,在每次迭代中增加被分類(lèi)錯(cuò)誤樣本的權(quán)重,最終分類(lèi)器通過(guò)對(duì)多個(gè)弱分類(lèi)器結(jié)果按不同加權(quán)投票建立。和SVM方法效率最高,而前者在屢次迭代過(guò)程中花費(fèi)時(shí)間過(guò)長(zhǎng),因此采用SVM方法。
這兩種方法也是目前機(jī)器學(xué)習(xí)領(lǐng)域廣泛認(rèn)定具有較好效果的模型。最終模型在將語(yǔ)料根據(jù)CECR標(biāo)準(zhǔn)分為6類(lèi)和9類(lèi)難度時(shí)取得了準(zhǔn)確率49%和35%的最佳效果,大致相當(dāng)于未經(jīng)專(zhuān)業(yè)訓(xùn)練的普通人進(jìn)行難度分類(lèi)判斷時(shí)的結(jié)果。盡管這樣的表現(xiàn)離實(shí)際應(yīng)用還有較大差距,但這也正反映出研究的困難度。
在2.1中,我們看到:美國(guó)的英語(yǔ)文本難度研究已取得不少成果,在較多領(lǐng)域進(jìn)入應(yīng)用層面,具有借鑒意義。但這些方案主要面向的是以英語(yǔ)為母語(yǔ)的讀者,針對(duì)的是美國(guó)人的閱讀能力和特點(diǎn),不能將這些公式和工具簡(jiǎn)單照搬到面向二語(yǔ)習(xí)得者的英語(yǔ)教學(xué)及其他語(yǔ)種的易讀度測(cè)量中。王晶(2010)對(duì)不同水平的中國(guó)英語(yǔ)學(xué)習(xí)者進(jìn)行閱讀測(cè)試,發(fā)現(xiàn)大多數(shù)學(xué)生對(duì)測(cè)試所選用的6篇文本的難度排序和實(shí)際閱讀能力的表現(xiàn)不符合Flesch Reading Ease公式的預(yù)測(cè)結(jié)果??梢?jiàn),中國(guó)學(xué)習(xí)英語(yǔ)的閱讀者需要適合自身特點(diǎn)的軟件和工具。
在我國(guó)英語(yǔ)教學(xué)領(lǐng)域,林錚(1995)最早對(duì)國(guó)外易讀度研究進(jìn)行了綜述。此后,李紹山(2000)、晏生宏(2005)、章辭(2010)等也開(kāi)始關(guān)注這一課題。目前,國(guó)內(nèi)已自主開(kāi)發(fā)了以下三款自動(dòng)測(cè)量英語(yǔ)文本難度的軟件,但尚未得到大規(guī)模應(yīng)用。
福建師范大學(xué)外國(guó)語(yǔ)學(xué)院開(kāi)發(fā)了ERDA軟件,分中學(xué)版和大學(xué)版兩個(gè)版本。采用的公式中選取詞匯和句法兩個(gè)變量。詞匯按習(xí)得的順序分等級(jí),中學(xué)版按年級(jí)數(shù)分為6個(gè)等級(jí),大學(xué)版根據(jù)教委頒布的大綱分為8個(gè)等級(jí)。句長(zhǎng)按單詞數(shù)分為4個(gè)類(lèi)型。不同等級(jí)的詞匯、句子類(lèi)型分別乘以給定的系數(shù),結(jié)果介于 0-10之間(林錚,1995)。
重慶大學(xué)的ERMS系統(tǒng)以Flesch Reading Ease為計(jì)算公式。它將詞匯分為大學(xué)前、英語(yǔ)四級(jí)、英語(yǔ)六級(jí)、研究生四個(gè)等級(jí)建立以大學(xué)英語(yǔ)教學(xué)大綱詞匯表為基礎(chǔ)的詞庫(kù)。詞庫(kù)具有開(kāi)放性,可更新。除統(tǒng)計(jì)句子數(shù)、總音節(jié)數(shù)、總詞數(shù)后利用公式得出分?jǐn)?shù)外,該軟件還可通過(guò)類(lèi)符/詞符比統(tǒng)計(jì)詞匯密度(晏生宏、黃莉,2005)。
解放軍外國(guó)語(yǔ)學(xué)院的IRMS系統(tǒng)則未采用傳統(tǒng)的易讀度公式,采用了自然語(yǔ)言處理技術(shù)。邢富坤、程?hào)|元(2007,2008)基于信息計(jì)算開(kāi)發(fā)的原理,通過(guò)對(duì)語(yǔ)篇信息量、詞熵、句熵的統(tǒng)計(jì),進(jìn)行易讀度測(cè)量。其成果比上述兩款軟件具有更強(qiáng)的普遍適用性,易于轉(zhuǎn)換為其他語(yǔ)種的易讀度測(cè)量工具。
劉海清(2013)則呼吁學(xué)者對(duì)公安等特殊行業(yè)的英語(yǔ)教材開(kāi)發(fā)有針對(duì)性的易讀性軟件。然而,受語(yǔ)料庫(kù)大小、相關(guān)理論研究水平和易讀度研究難度等條件制約,目前易讀度研究主要針對(duì)的都是有較大樣本量的普通閱讀者。在普通易讀度研究取得重大進(jìn)展前,此類(lèi)特殊需求很可能會(huì)長(zhǎng)期無(wú)法得到滿(mǎn)足。
此外,我國(guó)英語(yǔ)教學(xué)專(zhuān)家也注意使用國(guó)外開(kāi)發(fā)的文本難度測(cè)量軟件。2008年7月27日,外語(yǔ)教學(xué)與研究出版社在北京舉辦了“全國(guó)高等學(xué)校英語(yǔ)教師教育與發(fā)展系列研修班”第4期——“語(yǔ)料庫(kù)在外語(yǔ)教學(xué)中的應(yīng)用”。許家金向教師介紹的實(shí)用軟件中,就包含了日本早稻田大學(xué)的Laurence Antony開(kāi)發(fā)的Ant Word Profiler。王正勝(2010)也發(fā)文介紹了這款軟件的使用方法。然而,這款軟件僅能用于統(tǒng)計(jì)常用詞表在文本中的分布情況,尚不能測(cè)量并評(píng)估文本的具體難度。
也有一些研究者運(yùn)用文本易讀度公式和軟件來(lái)研究英語(yǔ)閱讀教學(xué)。蔣晶晶(2009)運(yùn)用6種易讀度公式評(píng)估英語(yǔ)分級(jí)考試CEPT文本中出現(xiàn)的詞匯難度情況,認(rèn)為Flesch-Kincaid Grade Level公式最為可信。辜向東和關(guān)曉仙(2003)對(duì)CET閱讀測(cè)試和大學(xué)英語(yǔ)閱讀教材進(jìn)行了易讀度抽樣研究。李安心(2012)利用Ant Word Profiler和SPSS軟件對(duì)高考英語(yǔ)湖南卷的閱讀理解進(jìn)行了文本難度因素分析。王麗(2011)利用Office Word軟件自帶的Flesch Reading Ease公式對(duì)高職英語(yǔ)教材中的閱讀材料做了抽樣分析。
陳炎龍和張志明(2010)則對(duì)傳統(tǒng)的易讀性公式進(jìn)行了批評(píng),認(rèn)為它們雖然容易施行,但計(jì)算值過(guò)于集中,不利于進(jìn)行等級(jí)劃分。作為改善,他們提出以詞匯為特征值,建立文本分類(lèi)時(shí)常用到的向量空間模型。這樣的方法符合國(guó)際易讀度研究?jī)A向于采用自然語(yǔ)言處理技術(shù)的新趨勢(shì)。
目前我國(guó)英語(yǔ)界學(xué)者對(duì)易讀度的研究成果較豐富,不僅有對(duì)國(guó)外開(kāi)發(fā)的傳統(tǒng)公式的借鑒和應(yīng)用,更有自主創(chuàng)新,部分最近成果符合國(guó)際上采用自然語(yǔ)言處理技術(shù)的新趨勢(shì)。但在應(yīng)用和分析文本難度時(shí),被廣泛使用的仍是國(guó)外的傳統(tǒng)公式,我國(guó)自主研發(fā)的幾款軟件在推廣方面仍有不足。另外,在研發(fā)易讀度工具時(shí),缺少統(tǒng)一的、大規(guī)模的英語(yǔ)教材語(yǔ)料庫(kù)支持。這些都有待在今后研究中得到改善。
和法語(yǔ)以及其他外語(yǔ)相似,漢語(yǔ)易讀度研究起步較晚,成果也較少。早期研究直接借鑒英語(yǔ)的易讀度公式,逐漸開(kāi)始構(gòu)擬原創(chuàng)的易讀度模型。研究對(duì)象也從是母語(yǔ)閱讀者開(kāi)始,慢慢擴(kuò)展到面向外國(guó)的二語(yǔ)教學(xué)領(lǐng)域。
在新聞?lì)I(lǐng)域,臺(tái)灣學(xué)者于宗先在1959年最早應(yīng)用Flesch Reading Ease易讀公式,但僅為直接照搬,未考慮漢語(yǔ)與英語(yǔ)的差異。1970年,陳世敏改良了Gunning-Fog Score。在同時(shí)或稍早時(shí)候,留美學(xué)者楊孝溁也進(jìn)行了中文易讀性公式的構(gòu)擬。這些探索都受到英語(yǔ)文本難度公式啟發(fā),并將其改良,應(yīng)用于漢語(yǔ)。他們的共性是只考慮了字或詞的簡(jiǎn)單特征,忽略了文本的復(fù)雜程度(黃敏,2010)。
陳阿林和張素(1999)模擬人工神經(jīng)網(wǎng)絡(luò),建立了漢語(yǔ)的閱讀難度量化計(jì)算模型。該模型考慮了平均句字長(zhǎng)、平均句詞長(zhǎng)、全體詞集使用度、全體句子使用頻度、文體等變量。其中文體變量由人工取值。
在兒童母語(yǔ)閱讀領(lǐng)域,接力兒童分級(jí)閱讀研究中心發(fā)布的中國(guó)兒童分級(jí)閱讀指導(dǎo)手冊(cè)(2010版)中雖然提到,該手冊(cè)參考了國(guó)外分級(jí)閱讀理論,但實(shí)質(zhì)上仍然是由專(zhuān)家人工完成難度分級(jí)。
對(duì)外漢語(yǔ)教學(xué)中,王蕾(2005)通過(guò)多元線(xiàn)性回歸的方式,以漢語(yǔ)水平是初、中級(jí)的日韓留學(xué)生的完形填空成績(jī)?yōu)檎Z(yǔ)料建立了一個(gè)可讀性公式,其中考慮了簡(jiǎn)單詞的比例、虛詞數(shù)和分句數(shù)這三個(gè)變量。郭望皓(2009)考察了漢語(yǔ)句子難度與字、詞難度的關(guān)系,并利用CRITIC加權(quán)法得到一組8個(gè)以《漢語(yǔ)水平詞匯與漢字等級(jí)大綱(修訂本)》為難度劃分,利用現(xiàn)有的字、詞難度等級(jí)來(lái)預(yù)測(cè)句子難度的公式。江少敏(2009)將易讀度的研究層面從宏觀轉(zhuǎn)向微觀,在句子層面研究難度分級(jí)。他基于對(duì)留學(xué)生和小學(xué)生的問(wèn)卷調(diào)查,建構(gòu)了一套度量公式并制作了對(duì)應(yīng)的軟件。
由于漢語(yǔ)和英語(yǔ)、法語(yǔ)等歐洲語(yǔ)言在形態(tài)、語(yǔ)法上有極大差異,在漢語(yǔ)易讀度研究上,需要更多的創(chuàng)新精神,能借鑒的工具有限。另外,受限于目前中文自然語(yǔ)言處理的整體水平,相關(guān)的研究和應(yīng)用較少。相對(duì)于對(duì)外漢語(yǔ)教學(xué)領(lǐng)域的學(xué)者,兒童分級(jí)閱讀方面的教學(xué)專(zhuān)家更缺乏量化評(píng)估的嘗試。
目前,我國(guó)法語(yǔ)教學(xué)界尚無(wú)文本易讀度方面的研究。雖然上海外語(yǔ)教育出版社從2005年起陸續(xù)出版了根據(jù)歐盟通行的CECR標(biāo)準(zhǔn)分類(lèi)的法語(yǔ)分級(jí)注釋讀物叢書(shū),但并不是基于量化的易讀度研究基礎(chǔ)上評(píng)定難度,而是采用專(zhuān)家人工分類(lèi)的方式。
為填補(bǔ)這一領(lǐng)域的空白,研究者可一方面關(guān)注法語(yǔ)世界在易讀度和文本處理方面的最新研究成果,另一方面從中國(guó)法語(yǔ)教學(xué)界使用的教材和分類(lèi)標(biāo)準(zhǔn)、中國(guó)學(xué)生學(xué)習(xí)法語(yǔ)(尤其是閱讀時(shí))普遍的難點(diǎn)等方面著手,收集教材課文、課外閱讀材料、學(xué)生閱讀測(cè)試結(jié)果等資料,建立包含各級(jí)難度文章的語(yǔ)料庫(kù),測(cè)試詞匯、句法等因素對(duì)學(xué)生理解文章難度的影響,為研究打下基礎(chǔ)。
作為新興領(lǐng)域,易讀度有廣闊的社會(huì)應(yīng)用前景,涉及到文本閱讀的各個(gè)層面。它能有助于教材編寫(xiě)者高效、客觀地評(píng)價(jià)教材,提高教材的選材效率和編寫(xiě)水平;能提高教師選擇更適合學(xué)生水平的真實(shí)語(yǔ)料(尤其是網(wǎng)絡(luò)文本)的效率;能輔助學(xué)生自主選擇課外閱讀文本,并對(duì)其閱讀能力提供反饋和評(píng)估;能幫助作者(特別是科普作家和兒童作家)提高文本的可讀性,促進(jìn)作品的傳播;能輔助降低新聞報(bào)道、技術(shù)手冊(cè)、科技文獻(xiàn)、法律文本等的難度,以確保相關(guān)文本更易為大眾所理解。
目前,在英語(yǔ)之外,漢語(yǔ)、法語(yǔ)等語(yǔ)種的易讀度研究較為滯后。國(guó)際上得到最廣泛應(yīng)用的傳統(tǒng)易讀度公式還是上世紀(jì)50至60年代的產(chǎn)物,所選用的用于測(cè)量文本難度的變量(如詞長(zhǎng)、句長(zhǎng)等)相對(duì)粗疏,不足以反映文本本身的復(fù)雜程度,準(zhǔn)確率離實(shí)際應(yīng)用還有較大差距,仍有很大的改進(jìn)空間。
可見(jiàn),文本的易讀度是一個(gè)復(fù)雜的問(wèn)題,需要教學(xué)法專(zhuān)家、語(yǔ)言學(xué)專(zhuān)家與計(jì)算機(jī)專(zhuān)家、認(rèn)知心理學(xué)家建立跨領(lǐng)域的深入合作,以取得貼近實(shí)際應(yīng)用需要的成果。
首先,需建立難度分類(lèi)準(zhǔn)確、包含大量各類(lèi)文本、且符合實(shí)際教學(xué)等工作需要的語(yǔ)料庫(kù)。目前文本易讀度的語(yǔ)料來(lái)源較單一,多為課文,可能導(dǎo)致結(jié)果對(duì)教學(xué)材料的過(guò)擬合,即僅能對(duì)作為樣本的語(yǔ)料進(jìn)行有效分類(lèi),影響對(duì)生活中報(bào)刊、說(shuō)明文等其他類(lèi)型文本的難度判定。另外,由于分類(lèi)越多越易出錯(cuò),為取得較好的分類(lèi)效果,部分研究?jī)H將文本分為易、中、難三類(lèi),難以貼合實(shí)際運(yùn)用的需要。
其次,為取得這一領(lǐng)域的突破,離不開(kāi)自然語(yǔ)言處理技術(shù)的支持。受當(dāng)前相關(guān)技術(shù)發(fā)展的制約,目前在綜合考察影響文本難度的變量時(shí),體現(xiàn)出強(qiáng)烈的“詞匯主義”傾向,對(duì)跨詞匯、跨句子的文本關(guān)聯(lián)性及句法復(fù)雜度等因素缺乏有效的統(tǒng)計(jì)方法,甚至不作考量。研究者需注意吸收句法分析、自動(dòng)摘要等自然語(yǔ)言處理技術(shù)的新成果,綜合各種影響文本難度的因素,對(duì)易讀度進(jìn)行更全面的研究。
此外,外語(yǔ)教學(xué)是易讀度的重要應(yīng)用領(lǐng)域,但相較于母語(yǔ)教學(xué),對(duì)二語(yǔ)習(xí)得方面的易讀度研究受到的關(guān)注更是嚴(yán)重不足。由于作為目標(biāo)語(yǔ)的英語(yǔ)、法語(yǔ)和作為母語(yǔ)的漢語(yǔ)差異巨大,時(shí)態(tài)、詞型變化等語(yǔ)法特征給中國(guó)學(xué)生帶來(lái)的難度明顯大于其對(duì)歐洲學(xué)生的影響。應(yīng)將這些差異帶入易讀度研究中,予以逐一驗(yàn)證。
[1]Vygotsky Lev Semyonovich.Mind in Society:The Development of Higher Psychological Processes[M].Cambridge,Mass:Harvard University Press,1978.
[2]Krashen S.D.We Acquire Vocabulary and Spelling by Reading:Additional Evidence for the Input Hypothesis[J].The Modern Language Journal,1989,(4).
[3]Lively Bertha A.,Pressey S.L.A method for measuring the“vocabulary burden”of textbooks[J].Educational administration and supervision,1923,(9).
[4]Fran?ois Thomas.Modèles statistiques pour l’estimation automatique de la difficulté de textes de FLE,Rencontre des êtudiants Chercheurs en Informatique pour le Traitement Automatique des Langues(RECITAL 2009)[EB/OL].http://cental.fltr.ucl.a(chǎn)c.be/team/tfrancois/articles/Francois 2009b.pdf.
[5]Fran?ois Thomas.Thèse:Les Apportsdu Traitement Automatique du Langageàla Lisibilitédu Fran?ais Langue ètrangère[D].Louvain-la-Neuve:Université catholique de Louvain,2012.
[6]Fran?ois Thomas,F(xiàn)airon C.Les apports du TAL à la lisibilité du fran?ais langue étrangère[J].Traitement Automatique des Langues(TAL),2013,(1).
[7]Feeney,Heilman.Automatically Generating and Validating Reading-Check Questions[J].Intelligent Tutoring Systems Lecture Notes in Computer Science,2008,(5091).
[8]Crossley&al.Text readability and intuitive simplification:A comparison of readability formulas[J].Reading in a Foreign Language,2011,(1).
[9]晏生宏,黃莉.英文易讀度測(cè)量程序開(kāi)發(fā)探索[J].重慶大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2005,(2).
[10]羅德紅,余婧.兒童分級(jí)閱讀研究的中美對(duì)比分析[J].圖書(shū)館,2013,(2).
[11]林錚.英文易讀度的測(cè)定[J].外語(yǔ)教學(xué)與研究,1995,(4).
[12]李紹山.易讀性研究概述[J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2000,(4).
[13]章辭.英文易讀性研究:回顧與反思[J].湖南工程學(xué)院學(xué)報(bào):社會(huì)科學(xué)版,2010,(3).
[14]邢富坤,程?hào)|元,等.英文文本難度自動(dòng)測(cè)量系統(tǒng)的研制與開(kāi)放[J].現(xiàn)代教育技術(shù),2008,(6).
[15]邢富坤.基于信息計(jì)算的英語(yǔ)易讀性研究及IRMS應(yīng)用系統(tǒng)開(kāi)發(fā)[D].北京:中國(guó)人民解放軍外國(guó)語(yǔ)學(xué)院,2007.
[16]王正勝.英語(yǔ)文本易讀性測(cè)量軟件AntWordProfiler的使用[J].外語(yǔ)藝術(shù)教育研究,2010,(4).
[17]蔣晶晶.CEPT閱讀文本易讀度分析及詞匯檢測(cè)工具的開(kāi)發(fā)[D].長(zhǎng)沙:湖南大學(xué),2009.
[18]辜向東,關(guān)曉仙.CET閱讀測(cè)試與大學(xué)英語(yǔ)閱讀教材易讀度抽樣研究[J].西安外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2003,(3).
[19]李安心.高考英語(yǔ)湖南卷閱讀理解文本難度因素分析[D].長(zhǎng)沙:湖南師范大學(xué),2012.
[20]王麗.高職英語(yǔ)教材中閱讀材料易讀度的抽樣分析[J].遼寧高職學(xué)報(bào),2011,(8).
[21]劉海清.公安行業(yè)英語(yǔ)教材易讀性研究述評(píng)[J].牡丹江教育學(xué)院學(xué)報(bào),2013,(4).
[22]陳炎龍,張志明.基于向量空間模型的英文文本難度判定[J].電腦知識(shí)與技術(shù),2010,(12).
[23]黃敏.漢語(yǔ)特質(zhì)與中文新聞易讀性公式研究[J].新聞與傳播研究,2010,(4).
[24]陳阿林,張素.中文閱讀難度模型及易讀性公式探索[J].計(jì)算機(jī)科學(xué),1999,(11).
[25]王蕾.初中級(jí)日韓留學(xué)生文本可讀性公式初探[D].北京:北京語(yǔ)言大學(xué),2005.
[26]郭望皓.對(duì)外漢語(yǔ)文本易讀性公式研究[D].上海:上海交通大學(xué),2010.
[27]江少敏.句子難度度量研究[D].廈門(mén):廈門(mén)大學(xué),2009.
[28]王晶.驗(yàn)證易讀性程式是否適合中國(guó)英語(yǔ)學(xué)習(xí)者[D].上海:華東師范大學(xué),2010.