姚繼軍
2020年10月13日,中共中央、國務(wù)院印發(fā)了《深化新時代教育評價改革總體方案》(以下簡稱《總體方案》),提出“到2035年,基本形成富有時代特征、彰顯中國特色、體現(xiàn)世界水平的教育評價體系”。自此,我國以教育評價改革為突破口,開啟了新時代教育綜合改革的新征程。
《總體方案》直面當(dāng)前教育改革與發(fā)展過程中的問題和矛盾,提出“提高教育評價的科學(xué)性、專業(yè)性、客觀性”的原則要求。這既是對當(dāng)前教育評價過程中存在問題的回應(yīng),也指明了教育評價改革的必由之路。就全球的教育改革而言,基于科學(xué)證據(jù)進(jìn)行決策與改革已經(jīng)成為世界主要發(fā)達(dá)國家的共識。在這一過程中,如何實現(xiàn)更為科學(xué)有效的評價,是教育循證改革(Evidence-Based Reform)的核心任務(wù)和目標(biāo)。本文通過分析西方國家循證改革過程中的教育評價變革,力圖為我國教育評價的改革提供可以“攻玉”的“他山之石”。
循證教育研究的“執(zhí)牛耳者”、美國霍普金斯大學(xué)教授Robert Slavin,在2002年發(fā)表《循證教育政策:轉(zhuǎn)變教育實踐與研究》一文,認(rèn)為在既往的教育改革中,由于缺少嚴(yán)謹(jǐn)?shù)目茖W(xué)證據(jù),從而使一些看上去熱鬧無比的改革,實際上只是“流行時尚”和“品位特征”的改變,這種變化猶如鐘擺來回往復(fù)卻并非科學(xué)和技術(shù)的進(jìn)步。[1]
在缺失嚴(yán)謹(jǐn)科學(xué)證據(jù)的情況下,人們往往只能根據(jù)經(jīng)驗、情懷來進(jìn)行決策和選擇教育教學(xué)策略,這難免會帶來誤判和效率低下等問題。20世紀(jì)80年代,興起于臨床醫(yī)學(xué)領(lǐng)域的循證醫(yī)學(xué)(Evidence-Based Medicine),著力于對“最佳證據(jù)”的追求,這樣的思路及方法迅速向其他社會科學(xué)領(lǐng)域滲透,形成了席卷全球的“循證思潮”。1996年,Hargreaves首次提出了“循證教育學(xué)”(Evidence-Based Education)的概念,認(rèn)為教育學(xué)的研究和實踐也應(yīng)該像循證醫(yī)學(xué)一樣,嚴(yán)格遵守循證研究證據(jù),來改進(jìn)教育實踐。[2]20世紀(jì)末到21世紀(jì)初,這樣的理念受到了西方學(xué)界與官方的廣泛認(rèn)可。各國政府、學(xué)術(shù)組織、研究者和實踐者們,采取了大量的行動推進(jìn)循證教育的研究和實踐,在這一背景下,教育循證改革取得了顯著成效。
就教育循證改革的本質(zhì)而言,循證改革是將教育政策制訂和教育實踐建構(gòu)于“最佳證據(jù)”基礎(chǔ)之上的一種努力,它要求在進(jìn)行教育改革時,首先要收集和獲得足夠的科學(xué)證據(jù),在進(jìn)行科學(xué)評價之后再實施具體的教育干預(yù)、對策或政策。在這一過程中,最關(guān)鍵的要素是證據(jù)本身的質(zhì)量,這就對教育評價的科學(xué)性和專業(yè)性提出了更高要求。我國的國情、教情雖有別于其他發(fā)達(dá)國家,但這種立足于科學(xué)證據(jù)的教育發(fā)展與改進(jìn)思路,仍對我國有重要的借鑒價值。在未來相當(dāng)長的一段時間內(nèi),我國都面臨著推進(jìn)教育高質(zhì)量發(fā)展、實現(xiàn)教育現(xiàn)代化、建設(shè)教育強(qiáng)國的艱巨任務(wù)。這無疑會對科學(xué)決策和科學(xué)育人提出更高的標(biāo)準(zhǔn),要求我們在尊重科學(xué)規(guī)律的基礎(chǔ)上,運用科學(xué)手段,實現(xiàn)科學(xué)發(fā)展。
教育評價的變革既是教育循證改革的內(nèi)容,又是推動教育循證改革不斷深化的重要力量,在教育循證改革過程中扮演著重要角色,其自身也受教育循證改革的影響進(jìn)而不斷變革。
為教育改革提供“最佳證據(jù)”是循證改革背景下教育評價的核心任務(wù)。這意味著教育評價為教育實踐提供的證據(jù),必須要滿足一定的標(biāo)準(zhǔn)與要求,以確保證據(jù)的有效性。以美國為例,該國在《每個學(xué)生都成功法案》(Every Student Succeeds Act,ESSA)中,以聯(lián)邦法律的形式定義了證據(jù)的強(qiáng)度,包括:強(qiáng)證據(jù)(strong evidence),指最少有一個良好設(shè)計或應(yīng)用的實驗研究;中等強(qiáng)度證據(jù)(moderate evidence),指最少有一個良好設(shè)計或應(yīng)用的準(zhǔn)實驗研究;有前景的證據(jù)(promising evidence),指最少有一個良好設(shè)計或應(yīng)用,在統(tǒng)計上控制選擇偏誤的相關(guān)性研究。在這些證據(jù)中,實驗研究和準(zhǔn)實驗研究被給予了更多的關(guān)注,甚至被定義為評價和研究中的“金標(biāo)準(zhǔn)”。這是因為,相對于簡單的數(shù)據(jù)描述和相關(guān)性研究,實驗研究能夠較好地控制混淆變量,進(jìn)而更好地揭示因果關(guān)系。
循證改革對證據(jù)的高標(biāo)準(zhǔn),在很大程度上是通過更為科學(xué)規(guī)范的評價流程和方法來實現(xiàn)的。以美國有效教學(xué)策略網(wǎng)(簡稱WWC,網(wǎng)址為:http://ies.ed.gov/ncee/wwc/)為例,該網(wǎng)站為美國教育科學(xué)研究所直接管理的教育證據(jù)網(wǎng)站,通過對各種教育項目、產(chǎn)品、實踐及政策進(jìn)行評估,免費向公眾提供教育的“最佳證據(jù)”。除此之外,該網(wǎng)站還頒布了證據(jù)評價的手冊,詳細(xì)闡釋了相關(guān)評價的流程和方法。相比傳統(tǒng)的基于經(jīng)驗的評價而言,這些流程和方法更加嚴(yán)謹(jǐn)縝密,對評價樣本的篩選和處理更嚴(yán)格,更能夠保證評估結(jié)果的穩(wěn)健性。近二十年來,包括WWC在內(nèi)的諸多循證教育機(jī)構(gòu)和研究者,通過不斷完善證據(jù)評價的方法和流程,不但構(gòu)建循證教育學(xué)的方法體系及評價標(biāo)準(zhǔn),而且使相關(guān)評價更為科學(xué)、嚴(yán)謹(jǐn)與專業(yè),為教育的決策者與實踐者提供了大量科學(xué)證據(jù),促進(jìn)了教育循證改革的不斷深化。
人們之所以對循證改革寄予厚望,很大程度上是因為循證改革在一開始,就具有鮮明的“理實結(jié)合”特征。它通過專業(yè)的研究和評價,為實踐工作者提供具有操作性的證據(jù),從而完成優(yōu)化教育政策和改進(jìn)教育教學(xué)的使命。例如,2007年歐盟委員會教育、視聽及文化執(zhí)行署(Education,Audiovisual and Culture Executive Agency,EACEA)針對PISA評價中所發(fā)現(xiàn)的問題,啟動了“為了學(xué)生學(xué)業(yè)的領(lǐng)導(dǎo)力改進(jìn)”項目(Leadership Improvement for Student Achieve?ment,LISA)。這個項目聯(lián)合學(xué)術(shù)界和實踐界的力量,共同探究學(xué)校領(lǐng)導(dǎo)力與成績之間的關(guān)系、作用機(jī)制及學(xué)校領(lǐng)導(dǎo)的改進(jìn)之路。同時該項目基于科學(xué)的評價,不但發(fā)現(xiàn)了實踐中存在的問題,而且通過進(jìn)一步的證據(jù)收集和評價,為實踐的改進(jìn)提供了扎實的科學(xué)證據(jù),實現(xiàn)了教育研究、教育政策和教育教學(xué)實踐的良性互動。[3]173在循證改革背景下,有很多的評價通過干預(yù)實驗的方式實施,這同樣促進(jìn)了學(xué)界和實踐界的合作。以美國約翰斯·霍普金斯大學(xué)Slavin教授和Madden教授發(fā)起的“為了所有人的成功”(Success for All,SFA)項目為例,該項目通過與學(xué)校合作,在學(xué)校實施以提高學(xué)生學(xué)業(yè)表現(xiàn)為目的的干預(yù)實驗,并通過持續(xù)的評價給學(xué)校提供綜合性的改進(jìn)建議,推進(jìn)學(xué)校層面的改革,提高學(xué)生的成績。
在教育循證改革的背景下,世界發(fā)達(dá)國家高度重視證據(jù)的權(quán)威性和普適性:一方面,發(fā)起并推進(jìn)了諸如PISA這樣的國際監(jiān)測評估項目,以獲得跨國評估數(shù)據(jù),進(jìn)而比較不同文化背景和制度框架下教育體系的運作,為各國政府提供反思、干預(yù)和完善教育政策的線索;[4]另一方面,各國均高度重視對國際評估證據(jù)的應(yīng)用。以德國為例,2006年德國各聯(lián)邦文教部長聯(lián)席會議頒布了《教育監(jiān)測全局戰(zhàn)略》,該戰(zhàn)略將PISA、TIMSS、PIRLS、TALIS等國際大規(guī)模教育評價的結(jié)果作為“全局戰(zhàn)略”的支柱之一,與德國國內(nèi)的學(xué)業(yè)水平評價、學(xué)校評估及國家教育發(fā)展評價結(jié)果一起,“為所有州的循證式教育政策奠定共同基石”。[3]174這樣的舉措,使該國內(nèi)部的教育改革能夠得到更廣范圍的證據(jù)支持,從而在充分吸收他國經(jīng)驗的基礎(chǔ)上,更為順利和有效地實施。
無論是教育的實踐改進(jìn),還是教育政策的制定與完善,都需要“言之有理”且“言之有據(jù)”。西方國家的教育循證改革為改進(jìn)我國的教育評價工作,提供了有益借鑒。
就我國當(dāng)前的教育評價工作而言,雖然在科學(xué)化水平上有了長足的進(jìn)步,但毋庸諱言的是,依然存在著大量不嚴(yán)謹(jǐn)、不科學(xué)的現(xiàn)象。樹立教育評價的證據(jù)意識,要求評價主體無論在評價指標(biāo)的設(shè)定、評價的實施,還是結(jié)果的分析過程中,都必須堅持“基于證據(jù)”的理念,將評價的隨意性降到最低。與此同時,還應(yīng)當(dāng)嚴(yán)格把控證據(jù)的質(zhì)量,著力尋找和納入具有更高信度和效度的證據(jù),進(jìn)而為教育改革與實踐提供更為穩(wěn)健的評價結(jié)果。
教育評價的結(jié)果是否科學(xué)、是否可靠、是否有效,很大程度上取決于評價主體的專業(yè)能力和水準(zhǔn)。就我國現(xiàn)狀而言,掌握前沿方法技術(shù)的評估機(jī)構(gòu)和人員仍然不足,尤其缺少類似WWC這樣的具備研制、修訂證據(jù)標(biāo)準(zhǔn)及評價流程的專業(yè)機(jī)構(gòu)。因此,在整合當(dāng)前力量,組建和壯大證據(jù)收集、分析和評價的專業(yè)機(jī)構(gòu)的同時,加大對評價專業(yè)人才的培養(yǎng)和培訓(xùn)力度,同樣是改進(jìn)我國教育評價工作的當(dāng)務(wù)之急。
西方教育循證改革極大地推進(jìn)了學(xué)術(shù)研究和教育實踐的結(jié)合,除了建立證據(jù)數(shù)據(jù)庫,向所有人公布經(jīng)評估獲得的有效證據(jù)外,很多國家還通過立法規(guī)定,教育改革與決策必須有科學(xué)證據(jù)支撐,這就在制度層面保證了研究證據(jù)的使用和轉(zhuǎn)化。而以實驗干預(yù)的方式進(jìn)行評價,并以評價的結(jié)果推動學(xué)校改進(jìn)和政策完善,則更是研究和實踐相互結(jié)合、相互促進(jìn)的有效途徑。這些有效的方法,對轉(zhuǎn)變我國教育評價方式,形成評價與實踐雙向促進(jìn)的教育改革與發(fā)展機(jī)制,具有重要的參考價值。
需要指出的是,循證背景下的教育評價雖然高度重視證據(jù)的獲得和使用,但這并不意味著這樣的評價是無涉價值的。Biesta認(rèn)為,價值是教育實踐不可或缺的組成部分,證據(jù)需要經(jīng)過價值的過濾,才能避免教育改革過程中出現(xiàn)價值和證據(jù)的二元對立。[5]正因如此,Whitehurst認(rèn)為循證教育(Evidence-Based Education)應(yīng)該由“實證證據(jù)”(包括以科學(xué)基礎(chǔ)研究和實證信息)和“專業(yè)智慧”(包括個人經(jīng)歷和共識)兩部分構(gòu)成。[6]這意味著,在教育評價過程中,既要高度重視證據(jù),也不能被證據(jù)牽著鼻子走,必須堅持立德樹人、全面發(fā)展的價值導(dǎo)向,通過充分發(fā)揮科學(xué)評價指揮棒的作用,提高教育治理的水平,辦好人民滿意的教育。