劉鐵川 王閃閃 尤晨晨
〔摘要〕由于傳統(tǒng)的教師評(píng)價(jià)方法忽略了學(xué)生的起點(diǎn)及背景因素對(duì)學(xué)習(xí)成果的影響,增值評(píng)價(jià)引起了國(guó)內(nèi)外教育工作者的廣泛重視。然而,在研究和實(shí)踐中增值評(píng)價(jià)方法的局限也日益明顯,尤其美國(guó)統(tǒng)計(jì)協(xié)會(huì)關(guān)于增值評(píng)價(jià)使用的聲明引起了普遍關(guān)注。本文結(jié)合近年來(lái)國(guó)內(nèi)外增值評(píng)價(jià)研究的最新觀點(diǎn),分析了使用增值評(píng)價(jià)模型評(píng)價(jià)教師效能時(shí)的優(yōu)勢(shì)與不足,并給出了實(shí)踐應(yīng)用時(shí)的一些建議。
〔關(guān)鍵詞〕教師效能;增值評(píng)價(jià);高利害;問(wèn)責(zé)制
〔中圖分類號(hào)〕G451.1 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1671-2684(2018)07-0011-05
一、引言
傳統(tǒng)教師評(píng)價(jià)方式極少考慮學(xué)生基線水平,過(guò)分依賴于平均分、優(yōu)秀率、及格率、排名、上線率等單一的、終結(jié)性的指標(biāo)。然而,很多影響學(xué)生最終學(xué)業(yè)成就的因素不受教師或?qū)W校控制,如家庭背景、社會(huì)經(jīng)濟(jì)地位等。因此,傳統(tǒng)的教師評(píng)價(jià)方式極易挫傷教師的教學(xué)積極性,誤導(dǎo)教師忽略學(xué)習(xí)基礎(chǔ)差的學(xué)生,造成學(xué)校之間搶奪生源等惡劣影響。
事實(shí)上學(xué)生成績(jī)是學(xué)生個(gè)人、學(xué)校、教育政策系統(tǒng)等多個(gè)層次上的多種因素相互作用的結(jié)果。增值評(píng)價(jià)模型(Value-Added Models,VAM)可準(zhǔn)確區(qū)分不同層面、不同因素對(duì)學(xué)生學(xué)業(yè)發(fā)展所起的作用,并得出各個(gè)因素所做的貢獻(xiàn)[1],因此在近年來(lái)的教育效能研究中引起廣泛重視。目前增值性評(píng)價(jià)的主要統(tǒng)計(jì)方法有概要統(tǒng)計(jì)模型(描述統(tǒng)計(jì)分析)、多元線性回歸分析(將學(xué)生或?qū)W校層面的各種影響因素納入到統(tǒng)計(jì)模型中加以分析)和多水平分析模型(通常將學(xué)生水平作為第一層,學(xué)校水平作為第二層)。雖然統(tǒng)計(jì)方法不同,但基本思路都是:增值=輸出值-輸入值。這里的輸入和輸出指的都是標(biāo)準(zhǔn)化測(cè)試成績(jī),對(duì)所有的學(xué)校和學(xué)生使用相同的程序,再使用復(fù)雜的統(tǒng)計(jì)模型得出教師的增值分?jǐn)?shù)。VAM中納入了更多的影響學(xué)業(yè)成就的因素,使用較復(fù)雜的量化模型來(lái)分析教師對(duì)學(xué)生的標(biāo)準(zhǔn)化測(cè)驗(yàn)成績(jī),因此比其他評(píng)價(jià)方式得到的結(jié)果更具客觀性和權(quán)威性[2]。
英美國(guó)家率先引入增值評(píng)價(jià)模型來(lái)評(píng)價(jià)教師效能,由威廉·桑德斯(William L.Sanders)教授及其團(tuán)隊(duì)創(chuàng)立的田納西州增值評(píng)價(jià)系統(tǒng)(Ten-nessee Value-Added Assessment System,TVAAS)是最早的也是目前發(fā)展比較完善、應(yīng)用廣泛的增值評(píng)價(jià)系統(tǒng)。緊隨美國(guó)之后,1967年的“普洛登報(bào)告”使教育公平問(wèn)題受到高度重視,這是英國(guó)增值評(píng)價(jià)的起點(diǎn)。國(guó)際上關(guān)于教師增值性評(píng)價(jià)在廣度和深度上進(jìn)行了大量的模型理論探討和實(shí)證研究,在合理利用其優(yōu)勢(shì)的同時(shí)也在逐步完善和修正它的不足之處,而且越來(lái)越重視它在教師評(píng)價(jià)中的地位。在“力爭(zhēng)上游”(Race to the Top)教改計(jì)劃“再投資法案”(Reinvestment Act)“教師獎(jiǎng)勵(lì)基金”(Teacher Incentive Fund)等政策的支持下,更多的學(xué)校把VAM納入到教師評(píng)價(jià)框架中。經(jīng)濟(jì)合作與發(fā)展組織(OECD)主導(dǎo)的教育系統(tǒng)國(guó)際指標(biāo)項(xiàng)目(INES)也考慮將“增值”評(píng)價(jià)方法納入到國(guó)際教育指標(biāo)系統(tǒng),以增強(qiáng)國(guó)際間學(xué)校效能的比較指標(biāo)的效度,并于2008 年出版了專題報(bào)告《測(cè)量學(xué)習(xí)成果的改進(jìn):評(píng)價(jià)學(xué)校增值的最佳實(shí)踐》,擬在成員國(guó)范圍內(nèi)推廣教育增值評(píng)價(jià)方法。
國(guó)內(nèi)關(guān)于教師增值性評(píng)價(jià)的研究起步較晚,進(jìn)展緩慢,理論研究不多,大多是對(duì)國(guó)外教師增值性評(píng)價(jià)研究現(xiàn)狀的述評(píng)[3]。我國(guó)2001年起陸續(xù)有學(xué)者研究田納西增值評(píng)價(jià)體系、增值在國(guó)外的應(yīng)用及對(duì)我國(guó)的啟示等。2009年后,相關(guān)的實(shí)證研究增多,從大量相關(guān)研究中足以看出我國(guó)學(xué)者對(duì)增值評(píng)價(jià)的研究熱情和增值評(píng)價(jià)在我國(guó)應(yīng)用的趨勢(shì)。比較有代表性的有王家美等人以江西省上饒市30所高級(jí)中學(xué)語(yǔ)文學(xué)科的評(píng)估為例做的增值評(píng)估的實(shí)證研究[4];熊志權(quán)和楊煌(2016)以珠海市香洲區(qū)4年的實(shí)踐為例,進(jìn)行了增值評(píng)價(jià)的背景意義、實(shí)踐效果以及研究困惑的研究;彭湃就教育效能實(shí)證研究的前沿方法進(jìn)行了系統(tǒng)的研究[5]。
增值評(píng)價(jià)方法的發(fā)展,尤其是評(píng)價(jià)教師效能的使用,已經(jīng)在教育領(lǐng)域引起了廣泛的關(guān)注并且成為了研究熱點(diǎn)。邊玉芳稱增值評(píng)價(jià)為一種綠色升學(xué)率理念下的發(fā)展性學(xué)校評(píng)價(jià)模式。2000年我國(guó)香港特區(qū)政府開(kāi)始以增值評(píng)價(jià)法為基礎(chǔ)建立香港學(xué)校增值資料系統(tǒng)(School Value Added Information System,SVAIS),每年為學(xué)校的發(fā)展提供年度研究報(bào)告。劉娟等人指出,基于增值評(píng)價(jià)的理念開(kāi)展學(xué)校效能評(píng)價(jià),對(duì)于推進(jìn)綠色評(píng)價(jià)模式發(fā)展,科學(xué)、客觀地評(píng)價(jià)學(xué)校教育教學(xué)成效具有重要意義[6]。VAM的優(yōu)勢(shì)得到了普遍認(rèn)同,然而其用于高利害決策時(shí)的局限很多教育工作者并未有深刻認(rèn)識(shí)。
二、應(yīng)用增值評(píng)價(jià)面臨的問(wèn)題
本研究主要圍繞美國(guó)統(tǒng)計(jì)協(xié)會(huì)(ASA)聲明的內(nèi)容進(jìn)行展開(kāi)論述,通過(guò)介紹國(guó)內(nèi)外VAM的最新研究現(xiàn)狀,細(xì)致分析其存在的局限,并給出教師效能評(píng)價(jià)中使用VAM時(shí)的一些建議,期待能引起相應(yīng)教育研究與實(shí)踐工作者的重視。
ASA聲明內(nèi)容主要體現(xiàn)在以下幾個(gè)方面。
(1)ASA支持用以提升教育質(zhì)量的數(shù)據(jù)、統(tǒng)計(jì)模型和實(shí)驗(yàn)設(shè)計(jì)的明智使用。
(2)VAMs是復(fù)雜的統(tǒng)計(jì)模型,需要高水平的統(tǒng)計(jì)專業(yè)人員來(lái)發(fā)展這個(gè)模型和解釋他們的結(jié)果。
(3)使用VAMs估計(jì)方法應(yīng)附有精確的方法、假設(shè)的討論及模型局限性,尤其是將VAMs使用在相關(guān)性特別高的高利害目的中時(shí)。
(4)應(yīng)該在質(zhì)量改進(jìn)方面看待VAMs。VAMs能夠把歸因于該評(píng)估系統(tǒng)的效應(yīng)同歸因于個(gè)別教師、教師資格教育或者學(xué)校的效應(yīng)區(qū)分出來(lái)。大部分的VAM研究發(fā)現(xiàn)在測(cè)驗(yàn)分?jǐn)?shù)中教師占這些變異的1%~14%,而在系統(tǒng)水平條件下教學(xué)質(zhì)量有很大提升空間。如果僅通過(guò)他們的VAMs分?jǐn)?shù)排名,教師可能意外地降低教學(xué)質(zhì)量。
(一)增值評(píng)價(jià)的誤差分析
1.使用時(shí)達(dá)不到理想條件
VAM的典型做法是使用回歸模型的形式預(yù)測(cè)來(lái)自不同背景(包括先前的測(cè)驗(yàn)分?jǐn)?shù))的學(xué)生的標(biāo)準(zhǔn)測(cè)驗(yàn)得分或者增長(zhǎng),在模型中包括教過(guò)這個(gè)學(xué)生的教師。如果一名教師的學(xué)生相對(duì)于其他有相似起點(diǎn)的學(xué)生有更高的成就增長(zhǎng),那么該教師就有一個(gè)高的增值得分。
在理想條件下,VAM所使用的測(cè)試內(nèi)容應(yīng)該在廣度和深度上完整測(cè)量學(xué)生成就。然而,在實(shí)踐中沒(méi)有測(cè)驗(yàn)滿足這個(gè)嚴(yán)格的標(biāo)準(zhǔn)。增值評(píng)價(jià)最終能否改善或者破壞教師評(píng)價(jià)效果取決于VAM指標(biāo)能否精確識(shí)別個(gè)別教師對(duì)學(xué)生學(xué)習(xí)的影響并因此提供教師效能的可靠測(cè)量。在技術(shù)和實(shí)施方面,VAM能夠做到這一點(diǎn)必須滿足幾個(gè)條件。
(1)反映出學(xué)生成績(jī)的測(cè)驗(yàn)?zāi)軌蚝芎玫販y(cè)量學(xué)生的學(xué)習(xí),學(xué)生的實(shí)際成就沿著一個(gè)垂直量表,能夠全面表現(xiàn)出測(cè)量相等時(shí)間間隔的可能成就。
(2)校內(nèi)或校際間學(xué)生隨機(jī)分配給教師,即分配給一名教師的學(xué)生群體的學(xué)習(xí)條件及特征和分配給其他教師的沒(méi)有本質(zhì)區(qū)別。
(3)用來(lái)測(cè)量增長(zhǎng)的這段時(shí)期教師是惟一影響學(xué)生學(xué)習(xí)的因素。
當(dāng)然,這樣的假設(shè)不成立,測(cè)量學(xué)習(xí)增長(zhǎng)的誤差的程度和把他們歸因于一個(gè)特定教師的程度取決于他們多大程度上違反了這些條件以及統(tǒng)計(jì)方法多大程度上能夠補(bǔ)救這些問(wèn)題。一個(gè)學(xué)生一段時(shí)期給定一個(gè)科目的學(xué)生成績(jī)除了和個(gè)別教師有關(guān)外,還和很多因素都有關(guān)系:學(xué)校因素,例如班級(jí)規(guī)模、所選課程、教學(xué)時(shí)間、可用的專家、導(dǎo)師、書(shū)籍、計(jì)算機(jī)、實(shí)驗(yàn)室和其他資源;之前的教師和學(xué)校,其他現(xiàn)在的教師之間專業(yè)學(xué)習(xí)和協(xié)同計(jì)劃的機(jī)會(huì);同伴文化和成績(jī);家庭因素,例如父母協(xié)助家庭作業(yè)、保障飲食和住宿的能力、身體或者精神上的支持或虐待等;個(gè)體學(xué)生需要、健康和出勤率。鑒于所有這些對(duì)學(xué)習(xí)影響的因素,教師在學(xué)生成就變化中只占很小的比例也不足為奇了,一般估計(jì)低于10%。
2.模型調(diào)整不足引起的誤差
ASA指出從班級(jí)差異水平計(jì)算VAM分?jǐn)?shù),在回歸模型中通過(guò)背景變量是無(wú)法解釋的。這些班級(jí)差異水平可能是來(lái)自不包括在模型中的其他因素(例如,班級(jí)規(guī)模、教授特殊需求學(xué)生或者有接受課外輔導(dǎo)的學(xué)生)。作為教師貢獻(xiàn)的一種測(cè)量,VAM分?jǐn)?shù)的效度取決于采用的特定的回歸模型多大程度上能夠調(diào)整那些產(chǎn)生系統(tǒng)影響的其他因素、偏差和教師的VAM分?jǐn)?shù)。例如,天才學(xué)生或者在測(cè)驗(yàn)分?jǐn)?shù)中表現(xiàn)收益更少的殘疾人,如果模型不能準(zhǔn)確地考慮到他們的情況,可能導(dǎo)致有偏差的VAM分?jǐn)?shù)。
即使使用連續(xù)幾年的數(shù)據(jù)計(jì)算并且在最好的條件下建模,VAM分?jǐn)?shù)本身還是有很大的標(biāo)準(zhǔn)誤,從而使排名不穩(wěn)定。一方面結(jié)合連續(xù)幾年的VAM可以減少VAM得分的標(biāo)準(zhǔn)誤。另一方面,當(dāng)一個(gè)模型系統(tǒng)地低估那些工作在特定的環(huán)境或者服務(wù)特定類型學(xué)生的教師效能時(shí),多年的數(shù)據(jù)對(duì)引起的問(wèn)題并不起作用,因?yàn)橄到y(tǒng)低估將會(huì)出現(xiàn)在每一年的數(shù)據(jù)中。
3.隨機(jī)誤差
隨機(jī)誤差意味著增值測(cè)量隨時(shí)間的不同而產(chǎn)生的不穩(wěn)定性。例如,假期前的分?jǐn)?shù)不能預(yù)測(cè)學(xué)生假期后的分?jǐn)?shù)(假期是否學(xué)習(xí))。如果VAM偏差很大或者不可靠,可能導(dǎo)致錯(cuò)誤的人事決策和資源分配,可能阻止有教師擇業(yè)意向的人進(jìn)入這個(gè)行業(yè)。盡管從統(tǒng)計(jì)學(xué)家的觀點(diǎn)來(lái)看VAM測(cè)量有可接受的屬性,對(duì)從業(yè)人員而言其復(fù)雜的計(jì)算和固有的變化性能夠降低表面效度。以Corcoran 為代表的悲觀主義論認(rèn)為,VAM測(cè)量缺乏透明度并且不精確,所以關(guān)于VAM測(cè)量顯著提高教學(xué)效能和專業(yè)質(zhì)量的潛能顯然是被夸大了。信度是指研究的方法、條件和結(jié)果的可重復(fù)性、可驗(yàn)證性。一些偶然誤差,例如標(biāo)準(zhǔn)化考試測(cè)量誤差、學(xué)生考試期間生病、某一年分配給教師的生源差別大等可以解釋教師增值的不穩(wěn)定。研究發(fā)現(xiàn),學(xué)校增值在不同學(xué)科間一致性程度較低,基于同一屆學(xué)生計(jì)算的學(xué)校增值在不同年份中缺乏穩(wěn)定性。
(二)問(wèn)責(zé)制下的增值評(píng)價(jià)
1.濫用的后果
Margaret Wu在針對(duì)把學(xué)生的測(cè)驗(yàn)分?jǐn)?shù)和教師問(wèn)責(zé)聯(lián)系起來(lái)這種現(xiàn)象明確指出了統(tǒng)計(jì)濫用的后果。他指出教師問(wèn)責(zé)制不能通過(guò)學(xué)生測(cè)驗(yàn)分?jǐn)?shù)來(lái)建立,因?yàn)橥茢嗍遣孪攵皇亲C據(jù),而且推斷總是有誤差的。即使控制了學(xué)生的社會(huì)經(jīng)濟(jì)地位,仍然有學(xué)校控制之外的其他因素。對(duì)于一個(gè)有學(xué)習(xí)困難的學(xué)生,即使它的誤差很小,但是用于評(píng)價(jià)教師也是無(wú)效的,因?yàn)榕c教師表現(xiàn)關(guān)系不大。單獨(dú)使用統(tǒng)計(jì)推斷不能用作任何高利害決策,因?yàn)闇y(cè)量得到的是團(tuán)體效應(yīng)而不是個(gè)體效應(yīng),且統(tǒng)計(jì)推斷并不意味著采用大量的例子,而是在缺乏其他證據(jù)的時(shí)候來(lái)提供支持的證據(jù)。
2.用于決策還是篩選
VAM可能是表現(xiàn)得相對(duì)有用的指標(biāo),能夠分離出非常高或非常低表現(xiàn)的教師。校長(zhǎng)可以充分利用這種信息作為一個(gè)早期預(yù)警信號(hào)或者在極端情況下作為解雇的理由。然而對(duì)大量教師來(lái)說(shuō),VAM作為工作績(jī)效指標(biāo)的使用又是另外一件事情。鑒于VAM固有的不穩(wěn)定性,在高利害系統(tǒng)使用VAM需要保守的設(shè)計(jì),比如懲罰和獎(jiǎng)勵(lì)只針對(duì)那些明顯非常高或非常低的表現(xiàn),以及統(tǒng)計(jì)一個(gè)不確定性的可接受的低水平。一個(gè)滿足這些保守標(biāo)準(zhǔn)的VAM系統(tǒng)最后只用在極端的案例中,而對(duì)大部分的教師只能提供很小的反饋。這就引出一個(gè)問(wèn)題:除了能夠識(shí)別出最差的教師外,VAM還能為校長(zhǎng)和其他教育工作者做什么[7]?
三、質(zhì)量改進(jìn)和增值模型
(一)加強(qiáng)公眾對(duì)增值評(píng)價(jià)的統(tǒng)計(jì)數(shù)據(jù)的了解
對(duì)于VAM分?jǐn)?shù)是怎么來(lái)的,為什么能夠用來(lái)評(píng)價(jià)教師對(duì)學(xué)生成績(jī)?cè)鲩L(zhǎng)的貢獻(xiàn),我們要讓被評(píng)價(jià)的教師理解這種評(píng)價(jià)方式。可以通過(guò)開(kāi)發(fā)和改進(jìn)用于教育的統(tǒng)計(jì)模型,在設(shè)計(jì)實(shí)驗(yàn)和解釋統(tǒng)計(jì)結(jié)果中提供指導(dǎo),應(yīng)用專業(yè)知識(shí)幫助指導(dǎo)存在不確定性時(shí)的判斷。VAM是復(fù)雜的統(tǒng)計(jì)模型,需要高水平的統(tǒng)計(jì)專業(yè)知識(shí),尤其是當(dāng)VAM成為高利害問(wèn)責(zé)制的一部分時(shí)需要使用良好的統(tǒng)計(jì)實(shí)踐進(jìn)行解釋,包括模型假設(shè),模型與數(shù)據(jù)的吻合程度如何,模型各方面估計(jì)的靈敏性以及報(bào)告估計(jì)精度的方法,如置信區(qū)間或標(biāo)準(zhǔn)誤等。當(dāng)然不能完全單純依賴于統(tǒng)計(jì)數(shù)據(jù),VAM分?jǐn)?shù)在統(tǒng)計(jì)特性上足夠良好不代表就是完美的,我們也要結(jié)合使用其他工具。
(二)結(jié)合使用其他評(píng)價(jià)工具
增值使用的一個(gè)重大轉(zhuǎn)變是作為一個(gè)“篩選過(guò)程”。增值測(cè)量可以用來(lái)最初識(shí)別表現(xiàn)有問(wèn)題的教師,但是最后決定表現(xiàn)則應(yīng)該是基于收集的其他信息(例如課堂觀察)。篩選方法能夠避免數(shù)據(jù)缺失問(wèn)題和解決教育者對(duì)增值測(cè)量的其他擔(dān)憂,比如增值可以作為防止無(wú)度和可提高信度的制衡系統(tǒng)的一部分[8]。教師增值可能不能完全考慮學(xué)生追蹤數(shù)據(jù)(學(xué)生轉(zhuǎn)入和轉(zhuǎn)出班級(jí)),這樣結(jié)果就更不穩(wěn)定。因此可以把教師作為教師團(tuán)隊(duì)中的一員來(lái)評(píng)價(jià),即合作教學(xué)的增值評(píng)價(jià)方法,因其包含更多的學(xué)生信息而避免了數(shù)據(jù)追蹤問(wèn)題,能夠減少系統(tǒng)和隨機(jī)誤差,還可促進(jìn)每一個(gè)團(tuán)隊(duì)內(nèi)的教師之間的合作和協(xié)調(diào)。另外還可以結(jié)合使用學(xué)校校長(zhǎng)觀察和同行評(píng)議[9],或者選擇能得到及時(shí)的反饋信息從而有助于提高教學(xué)質(zhì)量的課堂觀察。
(三)增值評(píng)價(jià)學(xué)校等級(jí)和學(xué)生層次的應(yīng)用建議
大部分的增值研究關(guān)注小學(xué),對(duì)中學(xué)和高中教師有一定的挑戰(zhàn)性[10],因?yàn)樵谛W(xué)階段都是同一名教師參與學(xué)生大部分的學(xué)習(xí)時(shí)間,因此,更容易把閱讀和數(shù)學(xué)成績(jī)歸因于該教師。蒂莫西·羅杰斯通過(guò)研究指出,中學(xué)教育中應(yīng)用到的增值測(cè)量技術(shù)與用來(lái)測(cè)量高等教育增值的比較增值法(CVA)類似,并且高等教育增值測(cè)量需要更加復(fù)雜的技術(shù)。張文靜等人用增值法做了教師變量對(duì)小學(xué)四年級(jí)數(shù)學(xué)成績(jī)的影響的研究[11];杜屏和楊中超基于我國(guó)西部五省農(nóng)村初級(jí)中學(xué)學(xué)校效能調(diào)研數(shù)據(jù)的實(shí)證分析,在分析學(xué)校效能差異基礎(chǔ)上進(jìn)一步提出了學(xué)校是通過(guò)學(xué)校生源質(zhì)量、教育教學(xué)水平、辦學(xué)基本條件共同作用的[12];呂菲(2014)和杜慶(2015)對(duì)增值評(píng)價(jià)法在高職教師專業(yè)發(fā)展中的應(yīng)用做了一個(gè)理論的分析;谷明非(2014)對(duì)本科生學(xué)業(yè)成績(jī)?cè)鲋翟u(píng)價(jià)的可行性分析中發(fā)現(xiàn),將增值評(píng)價(jià)應(yīng)用于本科生學(xué)業(yè)成績(jī)?cè)u(píng)價(jià)的可行性比中小學(xué)評(píng)價(jià)的可行性小得多。當(dāng)在學(xué)校間比較標(biāo)準(zhǔn)測(cè)驗(yàn)的學(xué)生表現(xiàn)時(shí)要考慮到學(xué)習(xí)內(nèi)容,增值的概念在高等教育研究者和學(xué)校間存在頗多爭(zhēng)議,盡管學(xué)校對(duì)學(xué)生學(xué)習(xí)有重大責(zé)任,但是也受學(xué)??刂浦獾膶W(xué)生動(dòng)機(jī)、學(xué)業(yè)投入、大學(xué)準(zhǔn)備度和職業(yè)抱負(fù)的影響。當(dāng)增值排名的結(jié)果對(duì)學(xué)校有一個(gè)深遠(yuǎn)的影響時(shí),我們提醒利益相關(guān)者謹(jǐn)慎解釋增值分?jǐn)?shù)以及學(xué)生學(xué)習(xí)和學(xué)校效能之間的關(guān)系[13]。
國(guó)內(nèi)許多學(xué)校班級(jí)之間存在明顯的分層現(xiàn)象,如普通班、重點(diǎn)班、特優(yōu)班等,那么增值性評(píng)價(jià)是否同樣適用?標(biāo)準(zhǔn)化考試中的“天花板效應(yīng)”即高分群體增值不明顯,這就可能引導(dǎo)教師更關(guān)注那些低分群體。這也有助于生源較差的學(xué)校找到自信,只是如何對(duì)高起點(diǎn)的學(xué)校進(jìn)行增值評(píng)價(jià)又成了一個(gè)問(wèn)題。
(四)妥善解釋增值分?jǐn)?shù)結(jié)果
原則上每一名教師每一年有一個(gè)真實(shí)的增值分?jǐn)?shù),但是我們從未看過(guò)“真”分?jǐn)?shù),而是在合理分?jǐn)?shù)范圍內(nèi)的單一估計(jì)。合理增值分?jǐn)?shù)的范圍——置信區(qū)間——能使得許多教師的分?jǐn)?shù)區(qū)間或者排名大大重疊。因此,我們不能輕易識(shí)別許多教師真實(shí)的增值分?jǐn)?shù)。當(dāng)基于增值對(duì)教師進(jìn)行分類時(shí)可能出現(xiàn)兩種解釋性的錯(cuò)誤:對(duì)在某種百分比之上但是卻被錯(cuò)誤地歸類為之下的教師的“假識(shí)別”(false identifications);對(duì)實(shí)際上在某種百分比之下但是被錯(cuò)誤歸類為之上的“假非識(shí)別(false non-identifications)”。錯(cuò)誤識(shí)別教師為閾值之下對(duì)教師是有風(fēng)險(xiǎn)的,但是不能識(shí)別真正的無(wú)效教師對(duì)學(xué)生是有風(fēng)險(xiǎn)的。通過(guò)以下程序可以鑒定真實(shí)的增值分?jǐn)?shù)對(duì)分類的潛在錯(cuò)誤的貢獻(xiàn)有多不確定。首先,指定你愿意忍受的錯(cuò)誤程度,你希望識(shí)別的教師群體;然后確定誤識(shí)別的分?jǐn)?shù);最后,指定這一年和下一年增值分?jǐn)?shù)之間的相關(guān)[14]。大多數(shù)現(xiàn)實(shí)世界中的設(shè)置,不確定的程度將導(dǎo)致相當(dāng)大的教師錯(cuò)誤分類比例。
我們需要進(jìn)一步了解包括增值測(cè)量技術(shù)性能的大量信息,比如這些測(cè)量如何應(yīng)用于實(shí)踐,包括學(xué)生對(duì)教師的分配、更激勵(lì)性的數(shù)據(jù)收集的目標(biāo)和結(jié)合其他測(cè)量等。是否和怎樣使用VAM取決于實(shí)際情況,如政策靈活性和選擇的反響、信息的相關(guān)性、測(cè)驗(yàn)知識(shí)和技巧的重要性以及VAM的花費(fèi)、系統(tǒng)計(jì)算增值和收集其他信息的能力等[15]。
四、總結(jié)
我們不能集中關(guān)注VAM的已知缺陷而認(rèn)可其他教師評(píng)價(jià)的方法,沒(méi)有評(píng)價(jià)工具是完美的,每一種評(píng)價(jià)體系都是各種不完美的測(cè)量組合而成。對(duì)于教師表現(xiàn)的測(cè)量,挑戰(zhàn)在于如何提取并結(jié)合從其他工具得到的信息[16]。我國(guó)學(xué)者胡詠梅也看到了美國(guó)教師評(píng)價(jià)的新趨勢(shì),對(duì)相對(duì)評(píng)價(jià)、增值評(píng)價(jià)與課堂觀察評(píng)價(jià)的融合進(jìn)行了分析[17]。盡管結(jié)合多種測(cè)量工具會(huì)使測(cè)驗(yàn)結(jié)果信效度更高,但是考慮到涉及的方法越多,程序越繁瑣,因此,應(yīng)當(dāng)謹(jǐn)慎選擇測(cè)評(píng)工具。因?yàn)橐蛛x出影響學(xué)生學(xué)業(yè)成績(jī)的教師層面的因素并且原始分?jǐn)?shù)要轉(zhuǎn)化為標(biāo)準(zhǔn)測(cè)驗(yàn)分?jǐn)?shù)才具有可比性,所以本土化教育增值評(píng)價(jià)的研究趨勢(shì)涉及兩個(gè)方面的統(tǒng)計(jì)技術(shù),一是多層線性模型,二是等值技術(shù)。
最后,增值評(píng)價(jià)在我國(guó)不管用于高利害目的還是低風(fēng)險(xiǎn)目的,都沒(méi)有相應(yīng)的法律條文明確它的使用。教育研究者對(duì)VAM的重視,教育和評(píng)估項(xiàng)目信效度的法律義務(wù)需要教育決策者進(jìn)行進(jìn)一步研究。與此同時(shí),社會(huì)科學(xué)工作者也應(yīng)該拿出更多關(guān)于VAM信效度和它的潛在使用的有說(shuō)服力的證據(jù)。對(duì)于公共決策者,實(shí)施高利害決策的建議是不成熟的。不管它在法律上是否是站得住腳的,VAM作為一個(gè)工具對(duì)教育改革都有相當(dāng)大的局限性[18]。總之,我們的最終目的不是評(píng)價(jià),而是要提高教學(xué)質(zhì)量。
參考文獻(xiàn)
[1]邊玉芳,王燁暉. 增值評(píng)價(jià):學(xué)校辦學(xué)質(zhì)量評(píng)估的一種有效途徑[J]. 教育學(xué)報(bào),2013(1):43-48.
[2]American Statistical Association. ASA statement on using value-added models for educational assessment[M]. Alexandria:VA,2014.
[3]邊玉芳,孫麗萍. 教師增值性評(píng)價(jià)的進(jìn)展及在我國(guó)應(yīng)用的建議[J]. 教師教育研究,2015(1):014.
[4]王家美,戴海琦,周延.教育增值評(píng)估的實(shí)證研究——以江西省上饒市 30 所高級(jí)中學(xué)語(yǔ)文學(xué)科的評(píng)估為例[J]. 中國(guó)考試,2009(9):3-9.
[5]彭湃,胡詠梅. 學(xué)校增值的一致性與穩(wěn)定性——基于多水平追蹤數(shù)據(jù)的實(shí)證研究[J]. 教育研究,2015, 36(7):73-80.
[6]劉娟,高振華,盧志舟,馬春環(huán),李鵬,增值評(píng)價(jià)在學(xué)校效能評(píng)價(jià)中的應(yīng)用[J].教育測(cè)量與評(píng)價(jià),2015(10):18-22.
[7]Corcoran S,Goldhaber D.Value added and its uses:Where you stand depends on where you sit[J]. Education,2013, 8(3):418-434.
[8]Harris D N,Herrington C D. Editors Introduction:The Use of Teacher Value-Added Measures in Schools New Evidence,Unanswered Questions,and Future Prospects[J]. Educational Researcher,2015, 44(2):71-76.
[9]Harris D N. Clear away the smoke and mirrors of value-added[J]. Phi Delta Kappan,2010, 91(8):66-69.
[10]Harris D,Anderson A.Does value-added work better in elementary than in secondary grades?[M]Washington,DC:Carnegie Knowledge Network,2013.
[11]張文靜,辛濤,康春花.教師變量對(duì)小學(xué)四年級(jí)數(shù)學(xué)成績(jī)的影響:一個(gè)增值性研究[J]. 教育學(xué)報(bào),2010(2):69-76.
[12]杜屏,楊中超.農(nóng)村初級(jí)中學(xué)學(xué)校效能的增值性評(píng)價(jià)——基于我國(guó)西部五省調(diào)研數(shù)據(jù)的實(shí)證分析[J]. 北京師范大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2011(6):91-97.
[13]Liu O L. Value-added assessment in higher education:A comparison of two methods[J]. Higher Education,2011, 61(4):445-461.
[14]Raudenbush S W,Jean M. How should educators interpret value-added scores?What We Know Series:Value-Added Methods and Applications. Knowledge Brief 1[J]. Carnegie Foundation for the Advancement of Teaching,2012.
[15]Loeb S. How can value-added measures be used for teacher improvement?What We Know Series:Value-Added Methods and Applications. Knowledge Brief 13[J]. Carnegie Foundation for the Advancement of Teaching,2013.
[16]Ballou D,Springer M G. Using Student Test Scores to Measure Teacher Performance Some Problems in the Design and Implementation of Evaluation Systems[J]. Educational Researcher,2015, 44(2):77-86.
[17]胡詠梅,施世珊. 相對(duì)評(píng)價(jià),增值評(píng)價(jià)與課堂觀察評(píng)價(jià)的融合——美國(guó)教師評(píng)價(jià)的新趨勢(shì)[J]. 比較教育研究,2014(8):008.
[18]Pullin D. Legal Issues in the Use of Student Test Scores and Value-added Models(VAM)to Determine Educational Quality[J]. education policy analysis archives,2013, 21(6):06.
(作者單位:1.贛南師范大學(xué)教育科學(xué)學(xué)院,贛州,341000;2.南昌大學(xué)體育與教育學(xué)院,南昌,330000)