一種新的學習評估：學習段評估述評

2017-01-09 21:57楊志紅

高教探索 2016年12期

楊志紅

摘要：緣于對傳統(tǒng)總結(jié)性評估的不足、評估“用戶”們的觀點以及教師的評估的優(yōu)勢，學習段評估孕育而生。學習段評估的本質(zhì)就是將教師的判斷也用于報告學生的成就，并與學習性評估相結(jié)合，既實現(xiàn)其客觀評定的目的，又達成其促進學習的愿景。在運用和開發(fā)的過程中，特定的評估方法和模式保證了教師的評估的信度和效度，以及評估強化學習的功能。

關(guān)鍵詞：學習段評估；教師的評估；學習性評估

“對學生的學習進行評估，并對成績進行記錄和報告不僅是教育的基本組成部分，也是學生個人經(jīng)歷的重要且必要的成分。”[1]為了確保評估能夠反映現(xiàn)代教育的重要成果，體現(xiàn)公平性、可靠性，發(fā)揮其促進學習的積極作用，學習段評估（assessment of learning，也有學者譯作“對學習的評價”及“學習的評估”）在世界多個國家和地區(qū)發(fā)展起來。本文從緣起、原理和方法三個方面對其展開論述，以期對當前我國學生的學習評估改革起到一定的推動作用，為教師進行評估提供一定的借鑒。

一、學習段評估興起的背景

學習段評估緣起于傳統(tǒng)總結(jié)性評估的不足、評估“用戶”們的觀點以及教師的評估的優(yōu)勢。

研究者對總結(jié)性評估的批判主要集中在外部測試的使用，尤其是對基于單一的測試結(jié)果評價學生、教師、學校等外部“高利害”測試表示了擔憂。早在20世紀90年代，美國研究者就已獲得大量的研究證據(jù)，表明頻繁的“高利害”測試對課程和教學會產(chǎn)生負面影響，并且逐漸意識到測試和考試的低可靠性。[2]21世紀初期，英國評估改革小組（the Assessment Reform Group）就相關(guān)文獻進行了系統(tǒng)性綜述，結(jié)果不僅發(fā)現(xiàn)測試對學生的學習動機有不良影響，而且進一步確認了測試對教師和教學的負面影響。[3]具體表現(xiàn)為：第一，當通過測試具有高利害性時，教師就會采取知識傳遞的教學風格，這種風格有利于那些喜歡通過程式化掌握信息的方式的學習的學生，卻不利于偏愛創(chuàng)造性學習方式的學生。第二，外部測試對課程有限制性的影響，這會導致測試時只關(guān)注科目內(nèi)容，而犧牲了學生的創(chuàng)造性、個性及社會性發(fā)展。第三，“高利害”測試通常會導致學生將大量的時間用于練習測試，高度關(guān)注學生的測試表現(xiàn)，而忽略其它成就。第四，教師能有效地訓練學生通過測試，即使當學生沒有掌握測試預(yù)期測量的理解能力或高階思維能力的情況下，學生也能通過考試。第五，教師自身進行的評估也主要關(guān)注評估的終結(jié)性功能，而不是評估的學習促進功能。據(jù)此，很明顯，基于純粹外部測試的總結(jié)性評估導致實際教學內(nèi)容（即測試題目所體現(xiàn)的內(nèi)容）與當今多變性、技術(shù)性世界對學生獲取和評價信息、理解性學習以及終身學習的能力素養(yǎng)要求之間的不匹配性，窄化了學習觀。同時，也抑制了學習性評估在實踐中的運用和發(fā)展，阻礙了評估對學習的改善功能。

評估信息的使用者——家長、學生、教師、高等教育機構(gòu)和雇主對總結(jié)性評估的看法在一定程度上對其發(fā)展走向具有重要的影響。研究表明，家長更關(guān)心評估信息能幫助兒童取得更大的進步，而不是其排名。同時，他們希望總結(jié)性評估能涵括更為廣泛的學習成果，并認為教師實施的總結(jié)性評估更有利于學生學習動機的激發(fā)和自尊的發(fā)展。[4]學生一方面認為，總結(jié)性評估是必要的，另一方面，他們又關(guān)心多樣化的學習經(jīng)驗，要求評估內(nèi)容的多樣性。而且，他們指出，教師的判斷存在偏見，但是清晰的評估標準和教師們之間的合作可以減少該類偏見，重要的是，教師進行的總結(jié)性評估能為學生提供自我評估的機會，發(fā)展自主學習能力。[5]教師非常關(guān)注總結(jié)性評估內(nèi)容的全面性，而不只是方便于測試的內(nèi)容，并且認為，有效的評估實踐要能為學生提供評估自身學習的機會，發(fā)展獨立學習能力。然而，教師既不信任其他教師的判斷，也不信任測試分數(shù)，因為存在為了通過考試而強化訓練的嫌疑。[6]高等教育機構(gòu)和雇主指出，他們用以選拔學生的依據(jù)不只是學生已取得的測試成就，還需要有關(guān)學生是否有能力進行學習和對學習負責的信息，以便他們能從將來的學習或培訓中獲得收益，堅持學習。當然，高等教育機構(gòu)也不信任教師的評估，因為教師為了提高學生的入學機會會自行夸張分數(shù)。[7]上述評估信息用戶們的較為一致的觀點就是，希望總結(jié)性評估能涵括更多的學習成果，不能只依靠測試這種評估方式，并要求發(fā)揮總結(jié)性評估改進學習的用處。而且，教師進行的總結(jié)性評估有其有利的一面，但存在信度問題，然而，卻也有改進的辦法。

通常認為，評價服務(wù)于某一目的的評估的有效性有四個指標：效度、信度、影響和資源。對于任何評估而言，其首要的特質(zhì)是有效性，即確實評估了其預(yù)期評估的內(nèi)容。其次，評估必須提供可靠的資料數(shù)據(jù)，尤其是對于“高利害”評估而言。而且，鑒于教育系統(tǒng)成分的相互依賴性，還要考慮評估對系統(tǒng)內(nèi)其它要素的影響。當然，評估的成本也是必須考慮的因素，要考慮成本與收益的適度平衡，有的評估可能要耗費大量的金錢和師生的時間。根據(jù)這四個特質(zhì)，對通過教師進行的總結(jié)性評估和通過測試進行的總結(jié)性評估進行比較，發(fā)現(xiàn)前者的優(yōu)勢要明顯強于后者。具體比較情況見表1。[8]

能反映課程的完整的目標；沒有考試的焦慮以及不用進行測試訓練，學生可在常規(guī)學習中展示其所能；效度取決于教學中提供的機會。

被認為不可靠和存在偏見；所做判斷要求調(diào)解；經(jīng)過適當?shù)呐嘤柲軌蜻_到與測試相似的可靠水平。

反映和加強所教學的內(nèi)容；能運用學習性評估的證據(jù)；為學生提供自我評估的機會。

因為額外的責任，可能增加教師的負擔；培訓和調(diào)節(jié)要素；較少的外部測試意味著更少使用商業(yè)測試；學生的學習時間增加；教師的時間從準備測試中解放出來。

通過測試的總結(jié)性評估

全部目標的一個樣本；被評估的目標的一個樣本；確?；谕瑯拥脑囶}和任務(wù)對所有的學生做出判斷。

抽樣意味著有很大比例的學生會被歸錯類；需要一定的外部任務(wù)或測試確保學校之間比較的自信。

導致訓練測試的內(nèi)容，教學測試技巧，引發(fā)課堂評估的終結(jié)性氛圍；學校確保所有的學生都學習認證機構(gòu)規(guī)定的具體內(nèi)容。

占用大量的教學和學習時間；學校實施外部測試需要大量的成本；分離了評估者和教師的角色。

基于上述研究結(jié)論，英國的哈倫（Wynne Harlen）對傳統(tǒng)的終結(jié)性評估進行了改造，創(chuàng)生了評估的新形態(tài)——“學習段評估”（assessment of learning）。學習段評估認為，應(yīng)該將教師的判斷也用作對學生學習進行報告和認證的基礎(chǔ)，以確保對外部測試的信心。同時，將學習性評估（assessment for learning，即以促進學生的學習為目的）融入其中，這既實現(xiàn)了學習段評估促進學習的功能，又迎合了當今教育改革的意圖：加強真實情境中的學習和評估。這消解了測試的消極影響，迎合了評估信息用戶們的需要，充分發(fā)揮了教師的評估的優(yōu)勢。當前，英國、中國香港、澳大利亞、新西蘭、美國等國家和地區(qū)都在踐行學習段評估理念，尤其是在英國，幾乎各教育階段的、高利害或低利害的評估中都將教師的評估整合其中。

二、學習段評估的原理和方法

自學習段評估理念提出以來，對其進行了不同的定義。新西蘭教育督察辦公室（The Education Review Office）認為，學習段評估就是在規(guī)定的時間（given time）總結(jié)和報告學生成就的過程，其中，應(yīng)該給教師、學校管理者、家長和學生提供有關(guān)學生進步和成就的可靠和合理的信息。[9]這是一個較為寬泛的定義，如果將其脫離具體的學習段評估背景，會使人誤認為這就是傳統(tǒng)的總結(jié)性評估。加拿大曼尼托巴省協(xié)同其他地區(qū)合作開發(fā)了“加拿大西北部教育合作草案”，明確提出運用學習段評估。他們認為，學習段評估是一種用來確認學生的所知、展示他們是否實現(xiàn)了課程成果、證實他們的能力、并且就學生將來的安置做出決定的策略，并向家長、其他教育者、學生自身、雇主等提供成就證據(jù)。[10]這個定義將學習段評估看作是一種策略，基本明確了評估內(nèi)容，既有知識、也包括技能、能力等，這有別于傳統(tǒng)的總結(jié)性評估對知識的關(guān)注。但是，這個定義沒有完全體現(xiàn)學習段評估的特質(zhì)，且操作性不強，教師難于實施。

據(jù)此，可以給學習段評估下一個更為具體、全面的描述性定義。學習段評估，是依據(jù)課程標準中的宏觀目標以及與宏觀目標相一致的具體課時目標，綜合運用包括測試在內(nèi)的多種手段收集有關(guān)學生學習成果的證據(jù)，并根據(jù)課程表現(xiàn)標準和學生標準分別對其進行分析和解釋。一方面，實現(xiàn)其在特定的時間總結(jié)學生成就的目的，以向家長、教師、學生、學校管理者、雇主等報告學生達成的學業(yè)水平，其中，教師的判斷占有極其重要的地位；另一方面，實現(xiàn)其及時改善學習的目的。總之，從傳統(tǒng)總結(jié)性評估到學習段評估的概念進化，體現(xiàn)了從“通過考試選拔人才”的“擇優(yōu)篩選”到“為每個學生的學習負責”的“全民問責”的評估改革走向。

（一）學習段評估的兩大目的

學習段評估兼具鑒別、報告學生學業(yè)成就和促進學生學習兩大目的。這兩大目的彼此交融，不可分割。

1.鑒別、報告學生學業(yè)成就

該目的有時亦稱為“認證目的”，著眼于通過多種手段、尤其強調(diào)運用教師的判斷檢測學生是否達到了一定課程標準所規(guī)定的寬泛的目標要求，進而將此結(jié)果報告給家長、教師、學生、高等教育機構(gòu)和雇主等，以此證明學生的學業(yè)水平。

2.促進學生學習

學習段評估與教師進行的學習性評估相結(jié)合，開發(fā)了清晰、具體的課時目標以及相關(guān)的評估標準，這有利于學生明確努力的方向和目標，并根據(jù)評估標準完成學習任務(wù)，判斷已取得的學習成就。同時，這也有助于教師把握學生學習圖景，及時解釋評估結(jié)果，提供描述性反饋，從而幫助學生明確下一步的學習計劃，這能極大地激發(fā)學生的學習動機，激勵其付出更多的學習努力，讓學生相信通過自身的努力可以取得學業(yè)上的進步，進而形成能力成長型的心理動機。同時，學習段評估也給學生提供了參與自我評估、同伴評估的機會，有利于深化其對學習目標、評估標準的認識，提升其對學習過程的自我認識、自我監(jiān)控和自我調(diào)節(jié)能力。最后，學習段評估要求學生和教師合作，從學習性評估中挑選合適的證據(jù)用于報告學習成就，這可以深化學生對一般性評估標準的理解，掌控總體性學習目標，最終促使學生將評估信息看作是一種學習助益，而非一種標示優(yōu)劣的標簽。

（二）學習段評估的過程和特點

1.學習段評估的過程

學習段評估體現(xiàn)了新的評估理念，實施時應(yīng)理解并運用其中的關(guān)鍵環(huán)節(jié)，才能發(fā)揮其應(yīng)有的效能，實現(xiàn)上述兩個目的。關(guān)于學習段評估的過程，見圖1。[11]

根據(jù)圖1，可以看出學習段評估包括四個環(huán)節(jié)：通過測試、任務(wù)或常規(guī)教學活動，生成證據(jù)；挑選、總結(jié)證據(jù)；根據(jù)課程標準，判斷成就；報告成就。

第一個環(huán)節(jié)：通過測試、任務(wù)或教學活動，生成證據(jù)。與傳統(tǒng)的總結(jié)性評估的唯一測試證據(jù)來源不同，在學習段評估中，學業(yè)成就判斷的證據(jù)來源于測試、序列常規(guī)教學活動或特定任務(wù)。其中，一定的測試和特定的任務(wù)可保證評估的信度，這仍然是學習段評估所需要的。同時，教師的常規(guī)教學活動也是證據(jù)來源，它可以提高評估的效度，學生也因此參與評估。教師和學生首先理解、掌握一般性學習目標（例如，發(fā)展調(diào)查技能），將其分解為許多具體的課時目標，并據(jù)此設(shè)計學習活動，實現(xiàn)課時目標，從而最終達成總體性目標。同時，教師將學習性評估融入日常教學，設(shè)計評估標準和任務(wù)，通過多種方法進行學習評估，或?qū)⒃u估活動與學習活動整合起來，互為彼此；學生也進行自我評估和同伴評估，從而生成了全面的學習成就證據(jù)，如知識和技能性目標、情感性目標、問題解決和其它高階思維技能等。一方面，教師和學生借助學習性評估，利用這些證據(jù)，實現(xiàn)具體課時目標；另一方面，有些證據(jù)將被師生挑選出來，用文件夾收集好，用于特定時間段的成就報告。

第二個環(huán)節(jié)：挑選、總結(jié)證據(jù)。在學習段評估中，用來報告成就的證據(jù)所涉及的是一般性學習目標，而非具體的某一學習目標。在報告成就的規(guī)定時間，教師和學生從第一個評估環(huán)節(jié)生成的、源于常規(guī)教學活動的證據(jù)中挑選出最適合于報告成就的證據(jù)，并采取一定的方式，就有關(guān)學生一般性目標的發(fā)展情況，對這些證據(jù)進行總結(jié)。在此需要注意的是，從與具體學習目標相關(guān)的判斷到與一般學習目標相關(guān)的判斷并不是一個簡單的判斷相加的過程。

第三個環(huán)節(jié)：解釋證據(jù)，判斷成就。為了確保教師的評估的信度，需要根據(jù)適用于所有學生的評估標準對挑選、總結(jié)出來的證據(jù)進行解釋，從而做出基于標準的判斷。而如果教師受具體學生的情況影響，按照學生參照標準進行解釋，則會造成偏見。因此，需要采取某些有效的方法對教師的成就判斷進行一定的調(diào)節(jié)。最后，報告成就。

2.學習段評估的特點

基于上述分析，可以概括出學習段評估的主要特點。第一，學習段評估以教師的判斷為基礎(chǔ)或以外部測試為基礎(chǔ)或以兩者的結(jié)合為基礎(chǔ)，而不像傳統(tǒng)的總結(jié)性評估只借助測試獲得的證據(jù)對學業(yè)成就進行判斷，在確保信度的同時，也提高了評估的效度。第二，學習段評估并不是作為常規(guī)學習的一部分的循環(huán)活動，只是在需要對成就進行報告時才進行評估。傳統(tǒng)的總結(jié)性評估相當頻繁，幾乎每個教學單元或每周結(jié)束時都要進行，這給教與學造成了嚴重的負面影響。而學習段評估只在規(guī)定的時間進行，其中的“段”為某一課程結(jié)束時，或?qū)W年結(jié)束時，或中考和高考時，其它時間盡量借助評估促進學習。第三，學習段評估既實現(xiàn)了總結(jié)、報告學習的目的，又實現(xiàn)了促進學習的目的，這與傳統(tǒng)的總結(jié)性評估將鑒別和選拔作為唯一目的不同，它迎合了所有的評估都有促進學習的功能的理念。第四，學習段評估與學習性評估相結(jié)合，為學生提供了自我評估的機會，這是有效的評估的一個重要標準。而在傳統(tǒng)的總結(jié)性評估中，學生幾乎被置身于評估之外。第五，學習段評估與寬泛目標的成就相關(guān)，這些目標通常以一般化的術(shù)語進行表述。

（三）學習段評估的機制和方法

深入理解學習段評估的過程和特點，發(fā)現(xiàn)其蘊藏著兩個關(guān)鍵機制：教師的評估和學習性評估。

1.教師的評估

所謂教師的評估指的是，教師有計劃、系統(tǒng)地收集證據(jù)，并基于他們的專業(yè)判斷，對他們的學生的學習成就做出推斷，并在規(guī)定的時間報告成就。此處，收集證據(jù)的方式的“系統(tǒng)性”遠不及測試的要求嚴密，其證據(jù)來源于常規(guī)學習、項目報告、具體的作業(yè)、實地任務(wù)或展示等。而且，教師的評估局限于對自己的學生的評估。[12]然而，雖然教師的評估的效度要優(yōu)于測試和考試的效度，但在某些情況下，與測試和考試的信度相比，其評估信度較低。而且，任務(wù)（即證據(jù)來源）和標準（證據(jù)據(jù)此轉(zhuǎn)化為等級、分數(shù)）的具體化程度是影響其信度的兩個主要因素。影響方式是，通過具體程度不同的任務(wù)和標準相結(jié)合形成的不同評估方法來影響其信度，評估方法不同，效度和信度也不同。據(jù)此，可以通過教師的評估方法來提升評估信度，并確保效度。

將任務(wù)和標準兩個維度結(jié)合，可形成1、2、3、4四大領(lǐng)域的評估方法，具體見圖2。

首先，關(guān)于教師的評估的效度與評估方法的關(guān)系。對于教師的評估而言，評估任務(wù)的具體化程度是將其包含在評估系統(tǒng)的核心原因，任務(wù)越具體，評估中能體現(xiàn)的學習成果越少，教師的評估就失去了其效度意義。而且，如果沒有限制完成任務(wù)的條件，只是將教室轉(zhuǎn)化為考試場所，并因此失去了教師評估時使用常規(guī)學習活動的優(yōu)勢，那么具體化任務(wù)也沒有任何意義。在領(lǐng)域1和領(lǐng)域2的評估方法中，任務(wù)被高度具體化，效度取決于選擇評估項目設(shè)計時制定的任務(wù)以及標準與任務(wù)的匹配度，而不是教師。在領(lǐng)域3的評估方法中，任務(wù)和標準都具有一般化，教師雖然控制證據(jù)的來源，但是，由于標準的非具體性，造成了教師選擇任務(wù)的困境。然而，在領(lǐng)域4中，具體化的標準能幫助教師選擇評估任務(wù)，實現(xiàn)評估的高效度。因此，領(lǐng)域4的評估方法能夠有效地保證教師的評估的效度。

其次，關(guān)于教師的評估的信度與評估方法的關(guān)系。領(lǐng)域1的評估方法的任務(wù)和標準都高度具體化，這種評估方法可以提供可靠的數(shù)據(jù)資料。但是，此時，教師擔當?shù)慕巧枪芾砗蛯嵤┧酥贫ǖ脑u估工具，也即實施外部測試，而非自己在進行學習段評估。在領(lǐng)域3評估方法中，任務(wù)和標準都不具體，采用這類評估方法，其評估信度特別低。如，最初在Vermont和Texas實施的檔案袋系統(tǒng)即屬于此領(lǐng)域的方法，教師自由選擇置于檔案袋中的內(nèi)容，并根據(jù)一定目標的實現(xiàn)程度，評價學業(yè)。這種低信度歸因于任務(wù)和借用一般化術(shù)語表述的標準之間缺乏匹配性，以及教師運用標準的不一致性。因此，人們試圖通過具體化任務(wù)的手段（領(lǐng)域2）來提高其信度，但這仍然無法將信度提高到足以用來報告?zhèn)€體成就的水平，而且，這種方法有可能會導致教師和學生只關(guān)注那些規(guī)定的任務(wù)的風險。然而，在領(lǐng)域4的評估方法中，標準非常細致、具體，而任務(wù)卻極為一般、寬泛。運用此領(lǐng)域內(nèi)的評估方法進行評估，其信度特別高?！爸黝}輪廓”是其中一種具體的方式。其它的研究也證實，當標準被具體化時，教師就可以做出高信度的判斷。因此，領(lǐng)域4的評估方法有利于教師的評估的高信度。

由此，領(lǐng)域4中的評估方法，即評估標準的高度具體、清晰和任務(wù)的一般化能為教師的評估的信度和效度提供基本的保證，是教師進行學習段評估的基本方法。因此，用于進行學習段評估的方法不僅有傳統(tǒng)的測試或考試，教師可以根據(jù)領(lǐng)域4中有關(guān)對標準和任務(wù)的要求，創(chuàng)生出許多具體的評估方法，用于評估學習產(chǎn)品和學習過程，如，展覽品、表現(xiàn)、展示、表演、檔案袋等。

然而，需要注意的是，具體的評估標準只為可靠的教師的評估提供了潛能，其仍可能會產(chǎn)生偏見。這主要是緣于教師可能對評估標準理解不透徹，或標準本身不夠清晰，致使其將與學生表現(xiàn)無關(guān)的信息等因素考慮在內(nèi)，從而影響了評估的信度。因此，需要對教師的評估進行調(diào)節(jié)。調(diào)節(jié)的原則是，讓教師在評估過程中承擔更多的責任，以及給予教師更多的機會對評估過程和評估產(chǎn)品進行調(diào)節(jié)。當前，評估調(diào)節(jié)的主要方式有：調(diào)整分數(shù)，教師協(xié)議，運用范例，開發(fā)實踐團體。然而，實踐中運用最多的是教師個體使用范例對自身的評估進行調(diào)節(jié)，以提高評估的信度。

2.學習性評估

學習段評估要實現(xiàn)促進學習的目的，理論上而言，這需要追問兩個問題：用于報告成就的證據(jù)能被用來幫助學習嗎？用于幫助學習的證據(jù)能被用來報告成就嗎？

首先，第一個問題：用于報告成就的證據(jù)能被用來幫助學習嗎？傳統(tǒng)的用于報告成就的證據(jù)通常來源于測試，一般以分數(shù)或等級的形式呈現(xiàn)結(jié)果，信息極具籠統(tǒng)性，而且也無法及時獲得。而能起到幫助學習的作用的證據(jù)需具備細致性、及時性。于是，布萊克等提出了以下總結(jié)性評估的形成性使用的方法：運用測試題目使學生鞏固理解和幫助復習；讓學生參與設(shè)置試卷問題；讓學生給自己和他人的測試打分等。[13]然而，這些情況只發(fā)生于教師控制的評估中。當然，教師也可以通過和學生討論已評分的試卷的方式使用外部測試，或從評估成績中看出學生能力發(fā)展的變化，并據(jù)此制定下學期的教學計劃。學生可以在教師的指引下，學會利用評估的結(jié)果進行反思。但是，在實踐中，這幾乎不會發(fā)生，實際上也很少發(fā)生，因為這種評估通常都發(fā)生于某一個學段結(jié)束時，距離下一次的教學和學習或許還有一段時間，教師可能并不會真正根據(jù)評估結(jié)果設(shè)計教學，學生也已經(jīng)不在校園，無法及時反思、利用。即使教師運用測試對學習進行反饋，也有嚴重的局限性，會出現(xiàn)“為了測試而教”的危險，以及以頻繁收集的用以報告成就的證據(jù)代替用以幫助學習的證據(jù)。

英國評估改革小組提出的學習性評估的十個原則為判斷評估是否具有幫助學習的功能提供了標準：它是關(guān)注學生怎樣學習嗎？它是結(jié)構(gòu)性的嗎？它能激發(fā)動機嗎？它能促進對目標和標準的理解嗎？它能幫助學生知道如何改善嗎？它能發(fā)展自我評估的能力嗎？它意識到所有的教育成就嗎？[14]顯然，服務(wù)于報告成就的證據(jù)無法滿足這些標準，當然，也就無法達成幫助學習的目的。

其次，第二個問題：用于幫助學習的證據(jù)能被用來報告成就嗎？用于幫助學習的證據(jù)主要源自課堂上常規(guī)的持續(xù)性活動，是有關(guān)于學生個體的具體課時目標的成就，對證據(jù)進行解釋并做出判斷的標準則是學生參照和與具體目標相關(guān)的標準參照。而用以報告成就的證據(jù)則與宏觀的學習目標相關(guān)，對其進行解釋并做出判斷則必須基于與這些宏觀學習目標相關(guān)聯(lián)的、適用于所有學生的標準。但是，具體課時目標與宏觀目標之間具有內(nèi)在的一致性，可以根據(jù)學生具體課時目標的達成情況來推測其一般性目標的實現(xiàn)度。據(jù)此，只要對用做幫助學生學習的證據(jù)進行適度總結(jié)，并基于用于所有學生的標準，對其進行重新解釋，那么，此證據(jù)也可用以總結(jié)、報告成就。也就是說，用于幫助學習的證據(jù)能被用來報告成就。

在學習段評估中，實現(xiàn)將用于促進學習的證據(jù)來報告成就的思路就是，將學習性評估與學習段評估相結(jié)合，平時進行學習性評估，需要對學習成就進行總結(jié)、報告時，再進行學習段評估。在實踐中的具體操作過程見圖3。[15]

用于總結(jié)、報告成就的證據(jù)和促進學習的證據(jù)都來源于序列相關(guān)的學習活動，即圖表中的a、b、c、d等。學習活動左邊的箭頭表示來源于活動的證據(jù)與具體的課時目標之間的關(guān)系，學習性評估循環(huán)使用這些證據(jù)幫助學習，以便達成具體的課時目標。學生在學習性評估循環(huán)中扮演重要的角色，他們需要理解學習目標和質(zhì)量標準的操作性意義，以便進行自我評估和同伴評估；教師也會及時提出針對個體學生的反饋建議，改進教學計劃。據(jù)此實現(xiàn)評估改進學習的作用。

學習活動右邊的箭頭表示將證據(jù)用于報告成就。但是，并不是所有來源于學習活動的證據(jù)都將用于總結(jié)、報告成就，教師和學生將共同從學習性評估生成的證據(jù)中挑選出最適合的證據(jù)，然后，對其進行綜合思考和概括，才能用于報告成就。挑選的方法為：基于評估標準與成就水平的對應(yīng)性，通過檢視學生學業(yè)成就最有可能達到、明顯不能達到、明顯能達到的水平的相應(yīng)評估標準，就能挑選出最佳證據(jù)。這個過程給學生提供了參與評估的機會，他們逐漸理解了那些與具體課時目標具有內(nèi)在統(tǒng)一性的寬泛目標，同時，也有助于深化其對具體學習目標的理解，從而促進他們的學習。由于挑選證據(jù)的目的是為了體現(xiàn)成就報告時學生達到的水平，而不是說明一段時間的學習后學生取得的進步，因此，需要對挑選證據(jù)的過程和結(jié)果進行一定的調(diào)節(jié)，以防止因為將與評估標準無關(guān)的信息考慮在內(nèi)而造成對標準進行不同的解釋或偏見。

3.證據(jù)雙重使用的案例。[16]在8年級學生的科學課堂上，學生正在學習不同的材料傳遞熱能的情況。在一段時間，他們在調(diào)查被用于制作物體表層的不同材料的隔離特點，教師提供給他們金屬容器，他們將水放在該容器內(nèi)，并用布將該容器外部包裹好。將溫度計置于水中，用來測量這個裝有水的容器的溫度變化。但是，要設(shè)計這個調(diào)查，需要做出幾個決定，如：放入容器內(nèi)的水的起始溫度為多少？在溫暖的實驗室而不是在寒冷的室外進行這個調(diào)查能獲得有用的結(jié)果嗎？如何確保比較是公平的？做出這些決定需要學生運用有關(guān)傳導的知識、知道熱能傳遞的其它方式，還需要學生明白如何進行公正的比較。

在他們進行計劃時，教師引導他們注意設(shè)計調(diào)查時應(yīng)該關(guān)注他們資料收藏夾中收藏的一份材料，這是在他們的前期討論中產(chǎn)生的。當學生計劃和實施他們的調(diào)查時，教師觀察他們的行動，并且傾聽他們的討論，偶爾也會要求小組學生解釋他們做某事的理由。在就他們的發(fā)現(xiàn)進行報告的階段，教師有更多的機會收集證據(jù)，并將其用于幫助學生理解熱能是如何傳遞的，以及發(fā)展學生的探究技能。

因此，在上課期間，教師會通過提問、通過要求學生給出論述和行動的正當理由、通過要求學生解釋調(diào)查計劃的某一部分如何幫助其實現(xiàn)目標來回應(yīng)其所聽到的和看到的，以引起對所做決定的再次思考。換句話說，教師正在使用證據(jù)幫助學生學習。教師也會對學生所要求的幫助做好記錄，以便在隨后的學習中能進一步跟蹤。

在學年結(jié)束時，必須對學生取得的成就進行報告，此時，教師審查那些來自本節(jié)課以及其它科學課的證據(jù)。教師對來自具體活動的證據(jù)進行整合、總結(jié)、思考，以便對每個學生的一般性概念和探究技能的發(fā)展水平形成一個總體性判斷。在對此進行準備的時候，教師給學生時間檢查他們各自的資料夾，就如何收集和使用證據(jù)獲得結(jié)論以及結(jié)果的解釋，要求學生對他們后面的調(diào)查和以前的調(diào)查進行比較，然后，挑選出最好的學習例子。

通過提供課堂時間給學生挑選證據(jù)，教師就能和個體學生進行交談，以確保他們理解了挑選證據(jù)的標準，并正確地使用。然后，教師對照標準（criteria，描述性的）檢查這些證據(jù)，這些標準對應(yīng)著相應(yīng)的成就報告水平（standard，判斷性的）。最后，部門領(lǐng)導對這個結(jié)果進行審查。在部門調(diào)節(jié)會議上，對作為樣本的三個學生所收集的證據(jù)進行了討論。

三、對我國評估制度改革的啟示

在真正直面英國等國家教育界聲勢浩大的學業(yè)評估轉(zhuǎn)向時，不難看出，轉(zhuǎn)向所帶來的主要沖擊在于評估理念，但這種沖擊似乎并沒有產(chǎn)生預(yù)期的效果。這種結(jié)果與預(yù)期的偏離主要源于根深蒂固的競爭性評估目的的存在，無論是基于常模參照，還是基于標準參照，無論是以考試為手段，還是以日常作業(yè)為途徑，評估都帶有競爭性的特質(zhì)。在競爭性評估體制下，反饋直接指向的是等級性學習成果，而不是學習過程，對評估信度的高度重視致使自我評估和同伴評估無法實施，評估設(shè)計的窄化和為了測試的教學將注意力抽離了對學習者的進步的關(guān)注，通過事先設(shè)置的獎勵來激發(fā)學習者動機的方法與基于社會建構(gòu)主義理論的學習性評估理念相違背，競爭性評估的巨大資源需求也很可能會擠壓用于學習性評估的資源。由此，遮蔽了教師的評估和學習性評估功能的正常發(fā)揮，難于從根本上實現(xiàn)評估促進學習的目的。但無論如何，英國的學生學習評估向前邁進了一大步，很多經(jīng)驗值得我們吸納、借鑒。

第一，倡導學習性評估理念，借助評估改善學生的學習。評估的最終目的應(yīng)是促進學生的學習，而不是獲得有關(guān)學生學業(yè)成就判斷的結(jié)果。根據(jù)布萊克和威廉等人對形成性評估的研究結(jié)果，英國評估改革小組提出了學習性評估思想，利用評估促進學習，認為評估領(lǐng)域的未來應(yīng)該是“為了學習的評估”，而不是“對學習的評估”?；诖嗽u估思想，哈倫等人提出的學習段評估理念，即以促進學習為主要目的，只在必要時對學生的學業(yè)進行認證和報告。此評估理念關(guān)注學生全方位學業(yè)成就的發(fā)展，重視學生能力的提升，更重要的是，它重視學生內(nèi)部動機的養(yǎng)成，發(fā)展學生的自我調(diào)節(jié)學習能力，形成自主學習觀念。就我國目前的學習評估現(xiàn)狀來看，總結(jié)性評估相當頻繁，“月考”現(xiàn)象嚴重，而且，評估方式還是以考試為主。然而，這只是對學生的學業(yè)成就進行判斷，評估的目的在于得到一個評分，而不是促進學生的學習。而且，評估內(nèi)容只能關(guān)注學生對事實性知識的掌握、學生的知識廣度和結(jié)果的可比性，而無法顧及其它的學習成果，如批判性思維、創(chuàng)新能力、解決問題的能力等其它高階思維能力，這是我國需要進一步予以改善的地方。

第二，將教師的評估納入學生學業(yè)成就認證和報告的體系內(nèi)，將總結(jié)性評估與教師的日常教學相結(jié)合。通過對比教師進行的總結(jié)性評估和通過測試進行的總結(jié)性評估，英國研究者發(fā)現(xiàn)前者的總體性優(yōu)勢要強于后者，而且前者的不足也可以通過評估方法、專家調(diào)節(jié)、教師培訓等方式得以補救，據(jù)此，將教師的評估也用作學生學業(yè)成就的報告。學習段評估理念采納了此做法，為了向各評估信息的使用者報告學業(yè)成就，用于獲取證據(jù)的方式不僅有測試和考試，還有教師在日常教學中通過各種方式，如表演、展示等收集的有關(guān)學生各個方面的學習證據(jù)，兩者結(jié)合起來共同用于報告學生的學業(yè)成就，以使評估更為公平、合理、全面。反觀我國用于報告學生學業(yè)成就的評估，還是以通過考試收集的證據(jù)為主導進行判斷。雖然，自新課改以來，各個學科課程標準中都提出鼓勵教師在課堂上采用各種方式進行學習評估，但是，一方面，基于教師和學生本身的評估素養(yǎng)，實踐中很難真正實施，而且，課程標準中的評估實施只是以建議的形式呈現(xiàn)，只是一個理念，缺乏操作性；另一方面，即使教師采取不同的方式進行了學習評估，也沒將其評估結(jié)果納入學生學業(yè)成就的報告中。對此，我們需要給予一定的關(guān)注，進行適當?shù)恼{(diào)整，在一定的程度上使用教師的評估，以實現(xiàn)真正的評估公平和可信。

參考文獻：

[1]Harlen，W..On the relationship between assessment for formative and summative purpose[M]// Gardner，J.Assessment and learning.London：Sage，2006b.

[2]Satterly，D..Quality in external assessment[M]//Harlen，W.Enhancing Quality in Assessment.London：Paul Chapman.1994.

[3]ARG（Assessnment Reform Group）Testing，Motivation and learning[Z].Cambridge：University of Cambridge Faculty of Education，2002：2-7.

[4]Hutchinson，C.，Pirie，M..‘Views of Scottish parents about waht matters in learning and assessmnet. Paper presented at the ASF Seminar，July.2005.

高教探索2016年12期

高教探索的其它文章: 大學跨學科合作的學科整合機制及其模式選擇; 高校創(chuàng)新團隊建設(shè)的必要性及組織優(yōu)勢分析; 我國高等院?？冃ьA(yù)算評價研究; 學習動機對大學生學習投入的影響：人際互動的中介效應(yīng); 應(yīng)用型高校實踐教學質(zhì)量評價指標體系研究; 研究型大學人文通識課到課率與課堂因素關(guān)系探究