長久以來,英語教學中始終存在“以考定教、以練代學”的現(xiàn)象,而不科學的“考”和不合理的“練”,使得學生兩極分化較為嚴重,同時英語教學的社會效益也受到普遍的質疑和詬病。隨著《義務教育英語課程標準(2022年版)》(以下簡稱《新課標》)的頒布,“立德樹人”成為英語課程的根本任務(教育部,2022)。作為落實課程目標的措施之一,《新課標》對“教—學—評”一體化提出明確要求,“教—學—評”一體化成為英語教學的研究重點(教育部,2022)。為了落實這一要求,山東省教育科學研究院初中英語學科與外語教學與研究出版社研發(fā)中心深度合作,于2022年8月啟動了山東省初中英語階段性測試與評價的研究與實踐項目(以下簡稱“測評項目”)。該測評項目旨在研究“為學習的評價”(assessment for learning)、“作為學習的評價”(assessment as learning)和“對學習的評價”(assessment of learning)三者之間的平衡關系,強化教師的評價意識,探索不同類型的測評手段,以期構建科學的測評體系。
測評項目第一階段著力于研究“對學習的評價”。項目組依據(jù)《新課標》撰寫了初中階段三個年級的測試框架,命制了三個年級的期末試題,并在全省范圍內進行試測。通過試測的各項數(shù)據(jù),項目組對全省初中英語教學狀況有了較為全面的了解。其中,項目組重點分析了七年級數(shù)據(jù),在參加試測的5765名學生中,未達到七年級學業(yè)質量要求的學生比例高達45.15%,標準差為23.71,說明七年級學生的兩極分化已經(jīng)非常嚴重,且在八、九年級出現(xiàn)加大趨勢。針對這一現(xiàn)象,測評項目第二階段將新一屆七年級學生作為主要研究對象。項目組以“為學習的評價”為重點,結合“作為學習的評價”和“對學習的評價”,追蹤研究整個七年級學生的學習過程。“為學習的評價”是落實“教—學—評”一體化的前提條件,旨在定位學生的實際水平和學習問題,從而便于教師制訂教學計劃,規(guī)劃課程體系,通過及時、有效的反饋,有針對性地對學生進行差異化和個性化教學。
最終,項目組制訂了貫穿七年級整個學年的工作計劃(實驗思路和規(guī)劃邏輯源自:Krashen,1985;Black & Wiliam,1998;Wiggins,1998;Hattie & Timperley,2007),包括入學、第一學期期末和七年級學年末三次測試,以及定期的問卷調查、訪談等具體措施。入學診斷測試(為學習的評價)是為了收集和分析測評數(shù)據(jù),發(fā)現(xiàn)七年級學生學習問題的根源,有針對性地提出教學建議和改進措施。第一學期期末和七年級學年末測試(對學習的評價)則是通過數(shù)據(jù)驗證教學改進措施的效果,為下一步教學策略的調整和教學規(guī)劃提供依據(jù)。
2023年9月,項目組在A、B、C三市對部分七年級學生進行了入學診斷測試。其中,A市參與學校14所、班級28個、學生1380人,B市參與學校25所、班級46個、學生2283人,C市參與學校20所、班級54個、學生2467人。參與測試的學校共計59所、班級128個、學生6130人。命題者依據(jù)《新課標》二級學業(yè)質量要求命制試題,在優(yōu)診學平臺上進行測試,測試學生在英語各項技能上的表現(xiàn)。測試結果見表1。
如表1所示,參與測試的學生總體未能達到二級學業(yè)質量要求。從標準差數(shù)據(jù)來看,學生整體上不僅未能達到小學畢業(yè)的學業(yè)要求,分化現(xiàn)象也比較嚴重。雖然此次測試只涉及山東省十六個地級市中的三個市,數(shù)據(jù)采集來源不夠全面,但測試涵蓋了三個市的每個區(qū)縣,且參加測試學校的教學質量分別代表本地強、中、弱三個層次,因此測試結果能在一定程度上反映七年級學生英語學習的整體狀況。
表1所列的各項技能測試中,不合格的人數(shù)占比分別為:“綜合能力”72%,“聽力”69%,“閱讀”63%,“語言知識運用”58%,“寫作”64%,“口語”52%。具體到各項技能中不同微技能的數(shù)據(jù),不合格的人數(shù)占比分別為:聽力中“獲取關鍵細節(jié)”48%、“聽懂指令和步驟”54%、“推斷隱含信息”71%;閱讀中“獲取細節(jié)信息”28%、“理解大意”30%、“理解要點”56%、“推測詞義”62%;語言知識運用中“名詞單復數(shù)和所有格”20%、“常用詞匯”44%、“簡單句”53%、“常用時態(tài)”70%;寫作中“詞數(shù)”36%、“詞匯運用”47%、“銜接連貫”52%、“行文規(guī)范”58%、“內容表達”60%、“語法運用”79%;口語中“朗讀能力”37%、“描述能力”42%、“互動能力”75%、“節(jié)奏重音”19%、“詞匯語法”36%、“語音語調”53%、“流利度”55%。在各項微技能數(shù)據(jù)中,不合格人數(shù)占比最高的分別是聽力中的“推斷隱含信息”(71%),閱讀中的“推測詞義”(62%),語言知識運用中的“常用時態(tài)”(70%),寫作中的“語法運用”(79%),以及口語中的“互動能力”(75%)。
綜合分析測試數(shù)據(jù),可以看到學生語言知識點的不合格比例相對較低,但在語篇整體理解、邏輯關系,以及完整表達、語用能力方面,不合格比例大幅上升。這些現(xiàn)象說明,七年級學生的英語基礎薄弱,語言知識呈現(xiàn)出離散的“點”狀態(tài),缺乏完整的語言表達能力。項目組通過問卷和訪談,發(fā)現(xiàn)學生很少系統(tǒng)接觸其他英語素材,對英語學習普遍存在畏懼心理,甚至產生厭學情緒。
針對入學測試的結果,項目組決定以英語原版閱讀為基點,啟動教學改進實驗。實驗以理解假說(the comprehension hypothesis)為理論依據(jù)。該理論的核心觀點是當理解了所聽到或所讀到的內容時,就習得了語言;而對詞匯、語法等語言技能的掌握,是不斷獲得可理解性輸入的結果。與之相對,目前英語教學遵循的是技能培養(yǎng)假說(the skill-building hypothesis)理論,其核心觀點是學習語言首先要學習語法規(guī)則、記憶詞匯,然后通過口頭或書寫不斷練習,并通過糾正錯誤提高語言能力。這兩種理論對語言能力形成的原因持有不同觀點。后者認為,要通過系統(tǒng)的聽、說、讀、寫等訓練,才能達到形成語言能力的目的。而前者認為,聽、說、讀、寫等語言技能是經(jīng)過大量可理解性輸入(comprehensible input)之后自然習得的結果。在二語習得理論體系中,理解假說理論正在被越來越多的語言學習者所接受,也有越來越多的教育工作者在教學實踐中運用該理論。
教學改進實驗將理解假說作為理論依據(jù),目的是驗證該理論在英語教學中的實際效果,落實《新課標》對學生英語閱讀量的要求。該項目旨在系統(tǒng)研究評價對教學的導向和規(guī)劃作用,充分發(fā)揮評價對教學的反撥效能,以評促學,探索實現(xiàn)“教—學—評”一體化的實施路徑。綜合入學測試數(shù)據(jù)和學生具體學情,項目組為教學改進實驗配置了系列原版讀物,包括《大貓》四年級和五年級系列、《多維閱讀》四級至七級系列、《書蟲》入門級系列,以及《書蟲》校園版系列等。結合學校現(xiàn)行的教學體系,項目組制訂了為期一年的實施方案。方案要求以入學診斷測試為起點,根據(jù)測試數(shù)據(jù)和具體學情制訂教學計劃。方案強調素養(yǎng)導向,要求教學遵從差異化教學(differentiated instruction)原則,以學生興趣為出發(fā)點,以師生充分互動為條件,尊重學生的個體差異,讓學生通過自然閱讀提高語言能力。方案要求每個班級每周至少設置一節(jié)閱讀課,讀物的級別、種類由學生自主選擇,閱讀速度由學生自主掌控。教師要保證學生閱讀過程的連續(xù)、完整,并根據(jù)學生的需求提供及時的反饋和幫助。此外,方案建議打破以教材為主、統(tǒng)一推進教學進度的傳統(tǒng)做法,鼓勵教師因材施教,以原版閱讀為主,學生達到二級要求之后再進入教材內容的學習。
加入教學改進實驗的學校包括A市14所學校的27個班級,B市8所學校的25個班級,以及C市18所學校的23個班級。受教育政策和績效考核等因素影響,所有實驗班級均選擇以教材內容為主、以原版閱讀內容為輔的實施方案。實驗于2023年10月陸續(xù)啟動,在常規(guī)教學的基礎上,實驗班級每周設置了一節(jié)閱讀課,學生按照同質原則被分為數(shù)個小組,可以自主選擇讀物種類。學生的選擇從《大貓》到《書蟲》校園版,涵蓋配置讀物的所有級別。在學生閱讀的過程中,教師鼓勵學生在理解內容的基礎上反復聽并模仿讀物附帶的音頻,同時指導學生用句子摘抄、思維導圖、概要總結等不同方法記錄學習成果。根據(jù)閱讀進度,實驗班級不定期開展讀書交流活動,如短劇表演、獨白朗誦、片段分享等。
七年級第一學期結束后,在學校正常的期末測試之外,項目組組織了第一學期期末診斷測試。此次測試有非實驗班級主動申請參加,其中A市參與學校14所、班級27個、學生1311人;B市參與學校34所、班級59個、學生2790人;C市參與學校20所、班級50個、學生2232人。參與測試的學校共計68所、班級136個、學生6333人。命題者依據(jù)《新課標》七年級語言技能內容要求和三級學業(yè)質量標準要求,結合本學期學習內容命制試題,在優(yōu)診學平臺上進行測試,測試學生在英語各項技能上的表現(xiàn)。測試結果如表2所示。
表2所列的各項技能測試中,不合格的人數(shù)占比分別為“綜合能力”57%,“聽力”42%,“閱讀”76%,“語言知識運用”37%,“寫作”56%,“口語”29%。具體到各項技能中不同微技能的數(shù)據(jù),不合格的人數(shù)占比分別為聽力中“理解大意”27%、“獲取關鍵細節(jié)”47%;閱讀中“獲取細節(jié)信息”52%、“理解大意”38%、“理解要點”73%;語言知識運用中“主謂一致”18%、“常用時態(tài)”40%、“簡單句和并列句”41%、“常用詞塊”26%、“常用功能詞”29%、“常用形容詞”17%、“常用動詞”24%、“常用名詞”31%;寫作中“詞數(shù)”33%、“詞匯運用”44%、“銜接連貫”47%、“行文規(guī)范”45%、“內容表達”54%、“語法運用”55%;口語中“朗讀能力”23%、“描述能力”27%、“互動能力”40%、“節(jié)奏重音”12%、“詞匯語法”34%、“語音語調”33%、“流利度”27%。在各項微技能數(shù)據(jù)中,不合格人數(shù)占比最高的分別是聽力中的獲取關鍵細節(jié)(47%),閱讀中的“理解要點”(73%),語言知識運用中的“簡單句和并列句”(41%),寫作中的“語法運用”(55%),以及口語中的“互動能力”(40%)。
比較兩次測試的數(shù)據(jù),“語言知識運用”和“口語”兩項從不合格到達到要求,其他各項雖未達到合格線,但相較于入學測試,各項成績均有不同程度的提高,標準差數(shù)值也出現(xiàn)了不同程度的降低。然而,“閱讀”一項成績較入學測試出現(xiàn)了下降,閱讀中“理解要點”的不合格比例下降幅度尤其明顯。根據(jù)此次測試的結果,項目組通過問卷、訪談等形式進行更為廣泛和深入的調研。綜合調研結果,學生對故事類英語讀物普遍表現(xiàn)出較高的興趣,對解決閱讀中的困難表現(xiàn)出較強的主動意愿。與之相對,學生對教材內容學習的態(tài)度比較消極,對測試抱有抵觸情緒。受英語基礎和閱讀時間等因素影響,整體而言,學生的閱讀進度較慢,閱讀量未能達到預期水平。此外,讀物的篇幅和內容與測試語篇差異較大,閱讀的策略和技巧不同,學生尚未適應測試中閱讀理解的考查方式,這些都對成績產生影響。雖然測試數(shù)據(jù)不夠理想,但總體上看,學生的厭學情緒大幅改善,學習英語的興趣顯著提高,主動學習的態(tài)度更加積極。
本次測試是項目組組織的最后一次診斷測試。為保證測試數(shù)據(jù)前后比較的可靠性,本次測試對象只包括完成了前兩次測試的學生。由于教育政策變化等因素,本次測試A市參與學校1所、班級2個、學生102人;B市參與學校29所、班級49個、學生2244人;C市參與學校16所、班級34個、學生1426人。參與測試的學校共計46所、班級85個、學生3772人。命題者依據(jù)《新課標》七年級語言技能內容要求和三級學業(yè)質量標準要求,結合本學期學習內容命制試題,在優(yōu)診學平臺上進行測試,測試學生在英語各項技能上的表現(xiàn)。測試結果如表3所示。
表3所列的各項技能測試中,不合格的人數(shù)占比分別為“綜合能力”60%,“聽力”45%,“閱讀”60%,“語言知識運用”57%,“寫作”60%,“口語”34%。具體到各項技能中不同微技能的數(shù)據(jù),不合格的人數(shù)占比分別為聽力中“理解大意”26%、“獲取關鍵細節(jié)”51%;閱讀中“獲取細節(jié)信息”33%、“理解大意”35%、“理解要點”61%;語言知識運用中“主謂一致”78%、“常用時態(tài)”55%、“簡單句和并列句”36%、“常用詞塊”39%、“常用功能詞”54%、“常用形容詞”53%、“常用動詞”40%、“常用名詞”39%;寫作中“詞數(shù)”42%、“詞匯運用”41%、“銜接連貫”48%、“行文規(guī)范”53%、“內容表達”60%、“語法運用”60%;口語中“朗讀能力”22%、“描述能力”49%、“互動能力”33%、“節(jié)奏重音”13%、“詞匯語法”55%、“語音語調”29%、“流利度”39%。在各項微技能數(shù)據(jù)中,不合格人數(shù)占比最高的分別是聽力中的“獲取關鍵細節(jié)”(51%),閱讀中的“理解要點”(61%),語言知識運用中的“主謂一致”(78%),寫作中的“內容表達”(60%),以及口語中的“詞匯語法”(55%)。
依據(jù)測量等值技術,本次測試的轉換數(shù)據(jù)與第二次測試數(shù)據(jù)的變化值如表4所示。
分析效應量的絕對值,綜合能力、聽力、閱讀、語言知識運用四項技能均接近0.5,說明學生在這四個方面的進步幅度較大。寫作小于0.2,說明學生寫作能力的提升較為有限??谡Z為負數(shù),說明學生的口頭表達仍存在嚴重問題。結合數(shù)據(jù)變化與相應調研結果,教學改進實驗整體上取得了顯著效果。學生在學習興趣、表達意愿方面進步明顯,與他人合作、分享的意識顯著增強,語言能力也得到了不同程度的提升。但是,由于學生閱讀時間的局限性較大,閱讀量距離《新課標》要求仍有較大差距。此外,學生表達性技能的培養(yǎng)需要更加深入的研究和更具針對性的專項措施,以充分發(fā)揮“作為學習的評價”的功能,從而逐步提高學生的語言運用能力。
測評項目結合評價理論與教學實踐,揭示了評價對促進英語教學的關鍵作用。通過評價診斷問題,根據(jù)數(shù)據(jù)反饋、調整教學,在一定程度上實現(xiàn)了“教—學—評”一體化的要求。研究表明,診斷性評價有助于發(fā)現(xiàn)學生學習問題的根源,形成性評價能夠引導學習的改進,總結性評價可以衡量目標的達成度。評價不僅是診斷手段,更是推進教學改革的重要措施。研究者應深化對英語教學評價的研究,發(fā)展多元的評價方式,探索基于數(shù)據(jù)的個性化教學實踐。教師應進一步提升綜合評價設計與實施的專業(yè)能力,建構科學的評價體系,將《新課標》對“教—學—評”一體化的要求落到實處。
Black, P. & Wiliam, D. 1998. Assessment and classroom learning [J]. Assessment in Education: Principles, Policy & Practice, 5(1), 7—74.
Hattie, J. & Timperley, H. 2007. The power of feedback [J]. Review of Educational Research, 77(1): 81—112.
Krashen, S. D. 1985. The input hypothesis: Issues and implications [M]. New York, NY: Longman.
Wiggins, G. P. 1998. Educative assessment: Designing assessments to inform and improve student performance [M]. California, CA: Jossey-Bass.
教育部. 2022. 義務教育英語課程標準(2022年版)[S]. 北京: 北京師范大學出版社.
張濤 山東省教育科學研究院初中英語教研員,山東省教育學會外語教學研究專業(yè)委員會秘書長。