杜馭炎 項凝霜
摘 ? 要: 自然語言計算工具Coh-Metrix可用于分析文本可讀性。相對操作更簡便的Coh-Metrix TEA從計算結(jié)果中提取6個文本可讀性相關(guān)指征:敘事性、句法簡約性、單詞具體性、指稱銜接、深層銜接和Grade Level數(shù)值。利用該工具對大學英語教材閱讀文本分析后發(fā)現(xiàn):四冊書之間難度基本呈現(xiàn)梯度遞進,但單冊內(nèi)部變化趨勢無規(guī)律;選材難度偏低,體裁多樣性不足;文本可讀性指征間存在一定的相關(guān)性。
關(guān)鍵詞: 大學英語教材 ? 文本可讀性 ? Coh-Metrix
1.研究背景
教材是教學過程中的重要因素之一。近年我國大學英語教學實施較大改革,優(yōu)化教材選擇自然備受重視,教材相關(guān)的研究覆蓋面得以擴大,研究數(shù)量快速增加。但教材評估方面的研究相對缺乏[1](16-19),對讀寫類教材中閱讀篇章的研究視角較為單一,如僅考查語篇難易度或僅以篇章詞匯特點作為研究目標[2](39-42)[3](69-73+78)[4](7-10)。不可否認,造成這種現(xiàn)象的原因之一是研究工具的局限性。
教師和教材編寫者選材的主要依據(jù)是代表文本難易度的Grade Level數(shù)值,即檢測文本可讀性的弗萊士-金凱德年級水平數(shù)值。然而,參照該數(shù)值為學習者選擇合適的閱讀材料并非易事[5]。Grade Level數(shù)值是由對傳統(tǒng)的文本難度維度計算得出的,包括句長、詞長等,評估的指標具有局限性。這種局限性讓教師和教材編寫者認定不同體裁的文章閱讀難度可能相似,文本的可理解性(comprehension)似乎與文章體裁關(guān)聯(lián)不大[5]。然而,決定文本“可理解性”的因素遠不止詞長和句長等,只憑借傳統(tǒng)的淺層的難度衡量指標評估文本可讀性已遠遠不夠[5]。評測文本可讀性的全新計算工具應運而生。
二十一世紀初,由美國孟菲斯大學McNamara教授領(lǐng)銜的團隊設計開發(fā)出自然語言計算工具Coh-Metrix,可生成11個模塊、共106項的文本語言表征指標,用來檢測文本的銜接性和連貫性[6](193-202)[7]。該團隊隨后從上述語言表征指標中提取用于文本可讀性主成分分析的五個特征,開發(fā)Coh-Metrix Text Easability Assessor(簡稱Coh-Metrix TEA)工具,可檢測的指標包括敘事性(Narrativity),句法簡約性(Syntactic Simplicity)、單詞具體性(Word Concreteness)、指稱銜接(Referential Cohesion)和深層銜接(Deep Cohesion)[8](223-234),同時能計算出Grade Level數(shù)值。該工具能直觀明了地為使用者顯示這些維度,允許輸入一段不超過1000詞的英語短文,并快速獲得文本的可讀性信息,且配有信息化的視覺插圖和簡短的結(jié)果解釋[9](72-95)。由于Coh-Metrix工具相較于Grade Level數(shù)值在檢測文本可讀性方面具有顯著優(yōu)勢,近年來利用該工具進行的閱讀和寫作文本研究與日俱增[10](119-135)[11](58-65)[12](208-210+205)。本研究將利用Coh-Metrix工具從多維度分析大學英語教材中的閱讀篇章文本的可讀性,探究目前國內(nèi)大學英語教材的閱讀篇章選材的特點并判斷是否科學合理。
2.研究方法
市面上廣泛使用的大學英語教材中,由浙江大學編著、2012年出版的《新編大學英語綜合教程》(第3版)具有一定的代表性,因此本研究選用該套教材四冊學生用書的閱讀篇章作為研究對象。
該套書每冊十個單元,每個單元包含In-class Reading和After-class Reading兩篇閱讀文章。先將全套教材的80篇課文每篇的標題、作者姓名、語言文化知識點注釋、課后詞匯表、課后思考題等信息去除,再經(jīng)過掃描、校對等多道工序后轉(zhuǎn)換成準確的電子文本,共得到80個純文本文件。每冊的20個文件為一組,分別命名為Book 1, Book 2, Book 3, Book 4。每冊內(nèi)部的第1至第10單元分別標注為U1、U2……U10,In-class Reading標注為A,After-class Reading標注為B,即U1-A對應為第一單元In-class Reading。研究中使用Coh-Metrix TEA工具(http://tea.cohmetrix.com/)對80個文本依次進行檢測計算,對不符合計算條件的文本(單詞數(shù)超過1000)轉(zhuǎn)用輔助支撐工具Coh-Metrix 3.0版本(http://tool.cohmetrix.com/)進行測量,從所得結(jié)果中選取體現(xiàn)難易度、體裁、句法、詞匯、篇章結(jié)構(gòu)銜接性和內(nèi)在邏輯連貫性6個維度的突出變量進行分析評估文本可讀性。計算得出的數(shù)據(jù)再導入統(tǒng)計計算網(wǎng)站http://vassarstats.net/進行相關(guān)處理,得到變量之間的相關(guān)性等重要數(shù)值。本研究主要探討的問題為:一、四冊教材中閱讀篇章難易度的特點如何;二、代表性文本可讀性指征的特點如何;三、文本可讀性指征間的相互關(guān)系如何。
3.結(jié)果與討論
3.1教材中閱讀篇章難易度的特點
用Coh-Metrix TEA工具對80個文本進行計算處理后得到如下結(jié)果。圖1和圖2直觀地呈現(xiàn)了四冊書中體現(xiàn)文本難易度的Grade Level數(shù)值大小及變化趨勢。
由圖1可見,冊與冊之間基本呈現(xiàn)難度由低到高的梯度變化,Book4的Grade Level數(shù)值雖略低于Book3數(shù)值,但差距并不顯著,可視為符合難度逐冊遞進的合理趨勢。然而圖2中的四條曲線的趨勢走向雜亂無章,除代表Book1的曲線勉強呈現(xiàn)小幅波動的線性上升走勢外,其余三條曲線毫無規(guī)律可言。表明這套教材單冊內(nèi)部的閱讀材料難易程度并未體現(xiàn)逐級增加的梯度,反映了國內(nèi)現(xiàn)行的大學英語教材存在的典型問題,即教學材料的選擇缺少量化數(shù)據(jù)指標,主要依靠教師個人語言能力和教學經(jīng)驗篩選閱讀材料,欠缺科學性依據(jù)和指導[13](30-31)。
接下來重點解讀圖2中的凸顯數(shù)據(jù)。Book4的U3-A和U5-B顯然是整套教材Grade Level數(shù)值最高的兩個文本,分別為13.4和13.1。兩篇文章主題分別為“Gender Roles from a Cultural Perspective”和“Athletes Should Not Be Role Models”,前者為傳遞信息的說明型文章,后者為表達觀點的議論型文章。兩篇文章題材均較為嚴肅,通篇不乏30個單詞以上的長句及類似consciousness, responsibility, achievements等抽象性長單詞,且被動句較多。這些綜合性因素都削弱了文本的可理解性。相對應的是,Book2的U5-B和Book4的U10-A又達到了可讀性曲線的最低谷,數(shù)值分別為2.6和3.0,大致等同于美國二、三年級小學生的閱讀水平。兩篇文章的主題分別為“Dreams That Came True”和“The Immortal Bard”,共同點是敘事性體裁,人物對話頻繁,短句多且句法簡單,抽象性名詞少而實詞多,從詞匯和句法角度看可理解性的確很高。由于這些凸顯數(shù)據(jù)涉及文章的題材與體裁,而不同題材或體裁的文章詞匯與句法特點差異顯著,題材與體裁可能與文本可讀性相關(guān),顯然Grade Level數(shù)值解釋不了這些問題。
3.2代表性文本可讀性指征的特點
本研究的80個文本經(jīng)過Coh-Metrix TEA或Coh-Metrix工具測量后,得到以下6個變量:Grade Level數(shù)值,敘事性,句法簡約性,單詞具體性,指稱銜接,深度銜接。我們著重觀察Grade Level和敘事性兩個指征的特點。
圖3顯示的是不同數(shù)值段的Grade Level分別對應的文章篇數(shù)。集中分布在6-9和9-12兩個數(shù)值段的文章數(shù)量高達54篇,說明絕大多數(shù)篇章難易度約等于美國中學生的閱讀水平。分布于數(shù)值段12以上的篇數(shù)僅為3篇,說明達到美國大學生及以上閱讀水平的文章寥寥無幾。剩余23份文本的Grade Level數(shù)值在6以下,大致相當于美國小學生的閱讀水平。圖4顯示的是不同數(shù)值段的敘事性指征分布對應的文章篇數(shù)。27.5%的閱讀材料敘事性低于0.5,敘事性較強的閱讀材料數(shù)量占40%,剩余32.5%的閱讀篇章敘事性中等。
以上數(shù)據(jù)表明,我國大學英語教材閱讀選材基本以美國中學生閱讀水平為參照,所選閱讀材料中敘事性體裁文章占比偏多。相對于說明性、勸說性和描述性等類型的語篇,敘事性語篇更偏向日常口語化,這樣的選材標準對培養(yǎng)具有國際視野和更高綜合文化素養(yǎng)的大學生是非常不利的。在信息技術(shù)飛速發(fā)展以至于高度全球化的今天,大學生要閱讀的英語文本遠不止故事類的敘事性文章,更多應接觸的是純正英文文字資訊,如新聞、專業(yè)相關(guān)的學術(shù)文獻、生活技能類的說明書等閱讀素材,甚至瀏覽國外高校網(wǎng)站。學生英語學習僅達到美國中學生閱讀水平,且體裁多樣性不足,完全達不到能流利閱讀并較好理解上述素材的要求。
3.3文本可讀性指征間的相互關(guān)系
經(jīng)過Coh-Metrix TEA或Coh-Metrix工具測量后獲取的6個變量分別用V1到V6對應指代:V1 - Grade Level數(shù)值,V2 - 敘事性,V3 - 句法簡約性,V4 - 單詞具體性,V5 - 指稱銜接,V6 - 深度銜接。將所有變量數(shù)據(jù)導入VassarStats網(wǎng)站中的Matrix of Intercorrelations模塊進行典型相關(guān)分析,四冊書各變量間的相關(guān)系數(shù)(r)計算結(jié)果見表1。其中每個變量對應的觀測值(observations)均為80個。
關(guān)于相關(guān)系數(shù)的聯(lián)系強度,相關(guān)系數(shù)的絕對值小于或等于0.39被認為低相關(guān),介于0.40和0.69被認為中等相關(guān),大于或等于0.70為高相關(guān)[14]。從計算結(jié)果可以看出,存在高相關(guān)的變量僅為V1和V2,呈現(xiàn)負相關(guān)。相關(guān)性其次的是V1和V3,以及V2和V5,相關(guān)強度中等。前者為負相關(guān),后者為正相關(guān)。其余變量間則呈現(xiàn)低相關(guān)或極低相關(guān)。值得注意的是,變量間的相關(guān)關(guān)系并非簡單的因果關(guān)系,兩者間是否或如何互相影響從相關(guān)系數(shù)中無法得到解釋。
表1的數(shù)據(jù)說明,閱讀篇章的文本Grade Level數(shù)值越高,敘事性數(shù)值越低,即敘事性較強的文體(如記敘文)文本難度相對較低。此外,從某種程度來說,文本Grade Level數(shù)值越高,句法簡約性越低,即難度越大的文本,句子表現(xiàn)為越復雜的結(jié)構(gòu)。敘事性數(shù)值越高的文本對應的指稱銜接數(shù)值越高,即敘事性越強的文體,句子間、段落間或全文內(nèi)的顯性銜接越緊密。這些顯性銜接表現(xiàn)為上下文用詞和觀點上的重疊(overlap),重疊關(guān)聯(lián)度越大文本信息越容易理解,讀者閱讀則會越輕松。這些數(shù)據(jù)在一定程度上解釋了體現(xiàn)文本難易度的Grade Level數(shù)值與篇章題材或體裁的相關(guān)性。
圖5 ? Book2, U5-B文章“Dreams That Came True”的文本可讀性指征數(shù)據(jù)
以Book2 U5-B文章“Dreams That Came True”為例。圖5為將文本輸入Coh-Metrix TEA工具后得出的文本可讀性相關(guān)指征計算結(jié)果,以橫向柱狀圖呈現(xiàn)。還計算出了Grade Level數(shù)值2.6,并配有簡短的結(jié)果解釋。該文體裁為敘事性強的短篇故事,話題較為輕松,較多地使用具體的、比較熟悉日常的實詞,句子結(jié)構(gòu)相對簡單,用詞和觀點有不少重疊,種種特點使得文章可視化特征更強,更易于理解。
4.結(jié)語
大學英語教材閱讀材料的選擇并非易事,卻是教學三要素的重要內(nèi)容之一。本研究顯示,單從閱讀篇章文本難易度角度看,《新編大學英語綜合教程》(第3版)四冊學生用書之間基本呈現(xiàn)梯度遞進的選材方式。然而,每冊內(nèi)部各單元的閱讀篇章并未呈現(xiàn)梯度遞進,Grade Level數(shù)值的趨勢變化曲線雜亂無章,毫無規(guī)律可言。雖然學界有觀點認為同一冊教材內(nèi)部的課文難度系數(shù)應保持穩(wěn)定[15](109-113),但是該套教材單冊內(nèi)部的難度指標變化依然未達到要求。
篇章的難易度指征Grade Level數(shù)值不是衡量文本可讀性的唯一標準,除了傳統(tǒng)的衡量指征句長和詞長外,文本可讀性還與體裁、顯性語言銜接性、深層邏輯連貫性等方面存在一定關(guān)聯(lián)。通過重點研究代表性的文本可讀性指征得出結(jié)論,當前大學英語教材選材難度偏低,體裁不夠全面,不能很好地實現(xiàn)讓學生擁有較強的英語實際應用能力這一目標。
更全面的文本可讀性指征的衡量可以由Coh-Metrix這一自然語言計算工具實現(xiàn),使文本可讀性測量更加量化具體、科學合理。本文的第三個研究問題發(fā)現(xiàn),這些指征間存在一定的相關(guān)聯(lián)系。敘事性較強的文體(如記敘文)文本難度相對較低;從某種程度來說,難度越大的文本一定程度上表現(xiàn)出越復雜的句子結(jié)構(gòu),敘事性越強的文體,句子或段落間的顯性銜接越緊密。
現(xiàn)階段大學英語教學改革中,教學材料的選擇是決定改革成效的首要環(huán)節(jié)。對于大學英語教師和教材編寫者來說,教材閱讀篇章的選擇除了保證難易度的合理梯度遞進之外,還要綜合考慮可讀性的其他相關(guān)指征。
參考文獻:
[1]楊港,陳堅林.2000年以來高校英語教材研究的現(xiàn)狀與思考[J].外語與外語教學,2013(2).
[2]辜向東,關(guān)曉仙.CET閱讀測試與大學英語閱讀教材易讀度抽樣研究[J].西安外國語學院學報,2003(3).
[3]李華東,吳楠,杜馭炎.大學英語教材學術(shù)詞匯覆蓋率研究——以《新編大學英語綜合教程》為例[J].杭州電子科技大學學報(社會科學版),2019(5).
[4]項凝霜,杜馭炎.大學通用學術(shù)英語教材學術(shù)詞匯覆蓋率研究[J].海外英語,2020(7).
[5]Snow C. Reading for Understanding: Toward an R&D Program in Reading Comprehension[M]. Santa Monica, CA: RAND Corporation, 2002.
[6]Graesser A, D McNamara, M Louwerse & Z Cai. Coh-Metrix: Analysis of Text on Cohesion and Language[J]. Behavior Research Methods, Instruments & Computers, 2004(36).
[7]McNamara D S, M M Louwerse & A C Graesser. Coh-Metrix: Automated Cohesion and Coherence Scores to Predict Text Readability and Facilitate Comprehension[R]. Grant Pro-
posal. Retrieved October 10th, 2005, at http: //cohmetrix. memphis.edu/cohmetrixpr/archive/Coh-MetrixGrant.pdf.
[8]Graesser A C, D S McNamara & J M Kulikowich. Coh-Metrix: Providing Multilevel Analyses of Text Characteristics[J]. Educational Researcher, 2011(5).
[9]Dowell N M M, A Graesser & Z Cai. Language and Discourse Analysis with Coh-Metrix: Applications from Edu-
cational Material to Learning Environments at Scale[J]. Journal of Learning Analytics, 2016(3).
[10]Crossley S A & D S McNamara. Computational Assessment of Lexical Differences in L1 and L2 Writing[J]. Journal of Second Language Writing, 2009(2).
[11]江進林.Coh-Metrix工具在外語教學與研究中的應用[J].中國外語,2016(5).
[12]潘筱.大學英語精讀教材與CET4閱讀材料易讀性的比較[J].文教資料,2019(2).
[13]文旭,莫啟楊.框架與話語理解[J].外文研究,2013(1).
[14]Grimm L. Statistical Applications for the Behavioral Sciences[M]. Hoboken, New Jersey: John Wiley & Sons,1993.
[15]陶麗,王臘寶.新一代大學英語教材的需求分析與反思[J].外語學刊,2013(6).
基金項目:2018年浙江省教育廳一般科研項目“基于Coh-Metrix文本語言測量工具的高考英語作文文本特征研究”(Y201840182);杭州電子科技大學2018年度高等教育教學改革研究一般項目“Coh-Metrix工具在大學英語精讀課寫作教學中的應用探究”(YBJG201862)。
通訊作者:杜雙炎