戚利萍
標(biāo)準(zhǔn)化測試和國家教育評(píng)估體系是學(xué)校管理的重要形式,是政府部門與社會(huì)公眾監(jiān)督學(xué)校管理的一項(xiàng)重要手段,它們關(guān)系到教育體制改革的進(jìn)展,并且通常本身就是改革前進(jìn)的推動(dòng)力。[1]在全球化的形勢下,各類國家教育評(píng)估呈迅速發(fā)展的趨勢,尤其是對(duì)小學(xué)和初中階段的數(shù)學(xué)和語言等學(xué)科的評(píng)估。資料顯示,從1995年到2005年,開展國家教育評(píng)估的發(fā)達(dá)國家總數(shù)從28個(gè)增加到67個(gè),翻了一倍以上。盡管發(fā)達(dá)國家仍然保持領(lǐng)先地位,開展國家教育評(píng)估的發(fā)展中國家的總數(shù)也從28個(gè)增長到51個(gè),幾乎翻了一倍,[2]然而,國家教育評(píng)估的開展仍存在地區(qū)性差異,美國高質(zhì)量的教育水平和先進(jìn)的評(píng)估體系無疑有著重要的借鑒意義。事實(shí)上,隨著全球化的發(fā)展,“國際參照物已被認(rèn)為是取得進(jìn)步的基礎(chǔ)……只有通過國際參照,各國才能清楚了解各自教育體制的強(qiáng)勢和相對(duì)弱勢,并辨明前進(jìn)的方向”。[3]本文以美國教育為例,探討美國國家教育進(jìn)展評(píng)估的主要模式,以及標(biāo)準(zhǔn)化測試在美國的發(fā)展歷程和深遠(yuǎn)影響。
美國國家教育進(jìn)展評(píng)估(NAEP)是由美國教育部下屬的國家教育統(tǒng)計(jì)中心(NCES)進(jìn)行的一項(xiàng)針對(duì)學(xué)生學(xué)習(xí)進(jìn)展的階段性評(píng)估。[4]評(píng)估結(jié)果的發(fā)布又稱國家讀書報(bào)告卡,被政策制定者,各州和各地區(qū)的教育者及校長、教師和家長們用于指導(dǎo)教育管理。從1969年起,該評(píng)估已經(jīng)在閱讀、數(shù)學(xué)、科學(xué)、寫作、歷史、地理和其它學(xué)科定期進(jìn)行。對(duì)世界史和外語的評(píng)估預(yù)計(jì)在2012年開始。NAEP通過向國家、州和地區(qū)領(lǐng)導(dǎo)人提供學(xué)生學(xué)習(xí)的客觀信息而成為國家評(píng)估和教育發(fā)展不可或缺的一部分。只有與學(xué)術(shù)成績有關(guān)的信息才被收集到此項(xiàng)目中去,它確保為涉及的學(xué)生和家庭信息保密。[5]NAEP是美國唯一針對(duì)學(xué)生在各科領(lǐng)域?qū)W習(xí)的國家性、持續(xù)的評(píng)估。[6]
美國最初的教育潮流是對(duì)兒童和奴隸進(jìn)行家庭教育,后逐漸發(fā)展為對(duì)兒童進(jìn)行學(xué)校教育。美國獨(dú)立戰(zhàn)爭后,人們對(duì)教育的重視普遍增加,認(rèn)為年輕一代需要在新的合眾國內(nèi)接受教育。然而,全國各地區(qū)的教育卻存在極大的差異。隨著學(xué)校在美國國內(nèi)發(fā)展的失衡,建立某種類型的州級(jí)教育體制的重要性日益凸顯。為了能夠了解各地區(qū)的教育質(zhì)量,學(xué)校主管在自己管轄區(qū)內(nèi)進(jìn)行測試,但目的只是獲取學(xué)生的信息,不與其他地區(qū)作比較。
美國使用評(píng)估概念的傳統(tǒng)是在基礎(chǔ)教育實(shí)踐領(lǐng)域中產(chǎn)生的。在基礎(chǔ)教育領(lǐng)域中,評(píng)估這個(gè)概念是對(duì)大規(guī)??荚図?xiàng)目的一種事實(shí)描述。[7]NAEP這一類大規(guī)模評(píng)估的主要目標(biāo)與重心并非個(gè)體的表現(xiàn),而是集體的績效。評(píng)估的主要工具是標(biāo)準(zhǔn)化和客觀化考試,目的在于迅速而有效地獲得概要性的與學(xué)??冃в嘘P(guān)的統(tǒng)計(jì)數(shù)據(jù)。
NAEP的國家級(jí)評(píng)估主要有兩大類,即主要評(píng)估(the main assessments)和長期趨勢評(píng)估 (long-term trend assessments)。前者從4年級(jí)、8年級(jí)和12年級(jí)的學(xué)生中抽樣評(píng)估,后者的評(píng)估對(duì)象從9歲、13歲和17歲的學(xué)生中抽樣。選擇上述年級(jí)和年齡,是因?yàn)樗鼈兇砹藢W(xué)術(shù)發(fā)展過程中的關(guān)鍵期(critical juncture)。
州級(jí)評(píng)估允許各州自己監(jiān)測在閱讀、數(shù)學(xué)、寫作和科學(xué)等學(xué)科方面的進(jìn)展。和所有其它類型的NAEP評(píng)估一樣,州級(jí)評(píng)估并不提供個(gè)體學(xué)生或?qū)W校的分?jǐn)?shù)。各州可以將自己學(xué)生的知識(shí)和技能與其它州或和國家標(biāo)準(zhǔn)進(jìn)行比較。[8]州級(jí)評(píng)估的程序與國家級(jí)評(píng)估的程序相同,主要針對(duì)4年級(jí)和8年級(jí)的學(xué)生,而不針對(duì)12年級(jí)的學(xué)生。1988年,NAEP只報(bào)告全國層面的學(xué)術(shù)進(jìn)步。同年國會(huì)通過立法授權(quán)了一項(xiàng)自愿進(jìn)行的試驗(yàn)性州級(jí)評(píng)估,允許各州篩選代表性的學(xué)生樣本參加州級(jí)評(píng)估。試驗(yàn)性州級(jí)評(píng)估在1990年、1992年和1994年進(jìn)行。從1996年評(píng)估開始,各州不再將評(píng)估定性為“試驗(yàn)性的”。
州級(jí)評(píng)估的一次巨大變革發(fā)生在2001年,當(dāng)年通過了美國《中小學(xué)教育法案》,即《不讓一個(gè)孩子掉隊(duì)法案》。法案要求所有接受政府I號(hào)資金的州必須參加每兩年一次的4年級(jí)和8年級(jí)的州級(jí)閱讀和數(shù)學(xué)評(píng)估。而其它科目(如科學(xué)和寫作)的州級(jí)評(píng)估仍為自愿參加。
TUDA的目的主要是探析通過NAEP報(bào)告各地區(qū)公立學(xué)校學(xué)生成績的可行性。根據(jù)聯(lián)邦法律的授權(quán),一些選定城市地區(qū)對(duì)抽樣學(xué)生的數(shù)學(xué)、閱讀、科學(xué)和寫作進(jìn)行了評(píng)估。TUDA最先于2002年在5座城市地區(qū)進(jìn)行,即亞特蘭大、芝加哥、休斯敦、洛杉磯和紐約。后又增加了波斯頓和圣地亞哥等5座城市地區(qū)。[9]到2009年,測試地區(qū)已達(dá)到15個(gè)。哥倫比亞區(qū)既進(jìn)行州級(jí)評(píng)估又進(jìn)行城市地區(qū)的試驗(yàn)性評(píng)估。TUDA的測試過程與國家級(jí)評(píng)估和州級(jí)評(píng)估相同。
高 中成績 單 研 究 (High School Transcript Study,HSTS)。此項(xiàng)研究于1982年由國家教育統(tǒng)計(jì)中心開展,針對(duì)當(dāng)時(shí)正在實(shí)施的主要課程改革提供高中生有關(guān)課程選修模式的信息,以及課程選修模式和成果之間的關(guān)系。高中成績報(bào)告單也提供學(xué)生在12年級(jí)的模式,為NAEP提供衡量的資料。隨著最近公布的2005年研究,HSTS提供給教育界超過10年的寶貴結(jié)論。
朗讀能力研究(Oral Reading Study)。此項(xiàng)評(píng)估的目的在于提供學(xué)生朗讀流利程度的信息,以及審查朗讀精確度、速度、流暢性和整體閱讀理解能力之間的關(guān)系。閱讀理解能力的檢驗(yàn)歷來只通過學(xué)生書面或口頭回答關(guān)于閱讀理解問題的選擇,檢驗(yàn)這些回答有助于了解學(xué)生的閱讀能力和思考文本的能力。然而,學(xué)生的朗讀表現(xiàn)可以使研究人員有機(jī)會(huì)審查如準(zhǔn)確性和措辭方面的信息,而這些是無法從問題回答中直接獲悉的。
美國特許學(xué)校(America’s Charter School)。 美國特許學(xué)校是公立學(xué)校的另一個(gè)選擇,可以接受被分配到普通公立學(xué)校的學(xué)生。雖然特許學(xué)校與其他公立學(xué)校之間有許多相似之處,但它們在一些重要方面有所不同,如學(xué)生人數(shù)的構(gòu)成和它們的位置。舉例來說,相對(duì)于其他公立學(xué)校,特許學(xué)校四年級(jí)的學(xué)生中比例較高的是黑人。
技術(shù)為基礎(chǔ)的評(píng)估項(xiàng)目(The Technology-Based Assessment,TBA)。TBA是由國家教育統(tǒng)計(jì)中心于2000—2003年為NAEP而開展的項(xiàng)目。該項(xiàng)目旨在探討如何利用科技(特別是計(jì)算機(jī))來提高教育評(píng)估的質(zhì)量和效率。目前幾乎全國所有學(xué)校都配備了電腦,學(xué)生們使用電腦的次數(shù)也越來越多,該研究旨在考查學(xué)生在基于電腦和紙面的數(shù)學(xué)、寫作評(píng)估方面的表現(xiàn)。TBA有五個(gè)組成部分,包括3項(xiàng)實(shí)證研究(數(shù)學(xué)在線研究、寫作在線研究和利用高科技解決問題研究)、一個(gè)概念文件(電腦適性測驗(yàn)),以及網(wǎng)上學(xué)校和教師問卷部分——此項(xiàng)研究已經(jīng)投入使用。
國家印第安教育研究(The National Indian Education Study,NIES)。這項(xiàng)研究的目的是為了描述在美國的印第安人和阿拉斯加學(xué)生的學(xué)習(xí)狀況,以幫助這些地區(qū)的學(xué)生達(dá)到《不讓一個(gè)孩子落后法案》所規(guī)定的要求。研究由印第安教育辦公室(OIE)贊助,由美國教育部下屬的國家教育資料中心開展。負(fù)責(zé)制訂研究計(jì)劃的是一個(gè)由來自全國各地的美洲印第安和阿拉斯加本地教育家和研究人員組成的技術(shù)小組。
標(biāo)準(zhǔn)化測試在美國的發(fā)展可追溯到二戰(zhàn)時(shí)期,為了對(duì)新征士兵的知識(shí)和技能進(jìn)行有效評(píng)估,心理學(xué)家和人力資源專家設(shè)計(jì)了不同類型可以準(zhǔn)確有效評(píng)估知識(shí)和技能的測試。測試隨后被不斷完善以增強(qiáng)其有效性和程序的可靠性。戰(zhàn)后,這些設(shè)計(jì)測試的專業(yè)人員成為設(shè)計(jì)美國學(xué)校各類測試的專家。標(biāo)準(zhǔn)化測試設(shè)計(jì)仔細(xì),對(duì)考試結(jié)果進(jìn)行認(rèn)真檢驗(yàn)和嚴(yán)格的質(zhì)量控制,可以提供可靠、有效的學(xué)生學(xué)習(xí)信息,經(jīng)過不斷改良和完善,很快推廣到全國各學(xué)校,在美國占統(tǒng)治地位,并被很多國家廣泛利用。
但國家標(biāo)準(zhǔn)測試在美國的最初推廣并非一帆風(fēng)順。美國教育長期以來由各州,而不是聯(lián)邦政府負(fù)責(zé),美國學(xué)校歷來在內(nèi)容和管理上存在多樣化的特征,各州擁有自己制定教學(xué)政策的權(quán)利,因而實(shí)行全國性的統(tǒng)一測試幾乎是不可能的。然而事實(shí)上,由于美國社會(huì)的高度流動(dòng)性,教師的流動(dòng)促進(jìn)了課程與教學(xué)方法的相似性,并且美國大多數(shù)學(xué)校使用的教材都由少數(shù)幾家出版商出版發(fā)行,因此各州學(xué)校實(shí)際上都在遵循一個(gè)相似的課程與教學(xué)模式。到了二十世紀(jì)六十年代,隨著美國聯(lián)邦政府在教育中地位的日益增強(qiáng),針對(duì)美國缺乏有關(guān)學(xué)生學(xué)業(yè)信息的現(xiàn)狀,開展一項(xiàng)全國性學(xué)生學(xué)業(yè)成績評(píng)估體系被提上日程。由于美國憲法規(guī)定教育是各州的職責(zé)范圍,反對(duì)者們認(rèn)為建立全國性的評(píng)估體系是聯(lián)邦政府試圖擴(kuò)張?jiān)谥莺偷胤浇逃系臋?quán)力。最終,心理學(xué)家、教育家泰拉爾夫·勒教授,統(tǒng)計(jì)學(xué)家約翰·塔基教授等人設(shè)計(jì)了一項(xiàng)研究計(jì)劃,定期對(duì)美國國內(nèi)幾所樣本學(xué)校中的學(xué)生樣本,而不是全國所有學(xué)生進(jìn)行測試,每四年對(duì)相似樣本進(jìn)行重復(fù)檢測,結(jié)果以不記名的方式報(bào)告;評(píng)估結(jié)果并不用于州與州之間的比較,而是按不同區(qū)域進(jìn)行報(bào)告。至1969年,美國各州教育委員會(huì)(ECS)接管了評(píng)估體系的管理,教育界的重心才真正轉(zhuǎn)向評(píng)估體系的發(fā)展和實(shí)施。1983年ETS接替ECS,成立項(xiàng)目政策委員會(huì),并將項(xiàng)目更名為國家教育進(jìn)展評(píng)估。
隨著教育的不斷發(fā)展和改革,標(biāo)準(zhǔn)化測試和國家級(jí)評(píng)估對(duì)美國社會(huì)的影響日益增加,美國社會(huì)掀起了一股提高國家標(biāo)準(zhǔn)的運(yùn)動(dòng)。2001年出臺(tái)的《不讓一個(gè)孩子掉隊(duì)法案》規(guī)定,美國各州必須確立各自的教育標(biāo)準(zhǔn),以及與之相配套的教材、考試制度和評(píng)估模式,不遵守法案要求的州和學(xué)校將無法獲得聯(lián)邦政府的財(cái)政支持。法案還規(guī)定各州必須在四年級(jí)和八年級(jí)進(jìn)行NAEP的閱讀、數(shù)學(xué)和科學(xué)測試,并將測試結(jié)果與各州自己的測試結(jié)果相對(duì)比,如果兩個(gè)結(jié)果產(chǎn)生較大差距,則該州必須解釋產(chǎn)生差距的原因。標(biāo)準(zhǔn)化測試作為可靠的測量工具,不僅可以準(zhǔn)確提供學(xué)生的學(xué)習(xí)信息,對(duì)學(xué)校和教師來說也意味著一項(xiàng)新的考驗(yàn)。沒有達(dá)到NAEP測試目標(biāo)的學(xué)校和教師將被監(jiān)督并要求改進(jìn),因此教師將更關(guān)注學(xué)生的學(xué)習(xí)情況并對(duì)學(xué)習(xí)較差的學(xué)生進(jìn)行有針對(duì)性的輔導(dǎo)。
標(biāo)準(zhǔn)化測試不斷改進(jìn)和發(fā)展,目前已被運(yùn)用于幾乎所有的國際教育考試,進(jìn)一步推動(dòng)了各國國家教育評(píng)估的發(fā)展。比如,多米尼加共和國在美國國際開發(fā)署(USAID)的資助下與教育評(píng)估研究聯(lián)盟攜手開展了一項(xiàng)長期評(píng)估。一些拉美和非洲國家也在聯(lián)合國教科文組織的資助下開展起地區(qū)性的評(píng)估項(xiàng)目。[10]創(chuàng)建于1994年的拉美教育質(zhì)量評(píng)估聯(lián)合會(huì)如今已發(fā)展到19個(gè)成員,創(chuàng)建于1990年的南非和東非教育質(zhì)量監(jiān)督聯(lián)盟如今也發(fā)展到15個(gè)成員國家,其中7個(gè)國家參加了1995年至1997年的第一次評(píng)估,14個(gè)國家參加了2000年至2003年的評(píng)估研究。過去,一些中央教育集權(quán)的國家發(fā)展國家測試體系的目的主要是為了選拔可以繼續(xù)深造的學(xué)生,而不是用于評(píng)估課程的設(shè)置和實(shí)行情況。[11]隨著時(shí)代的變化,如今的重點(diǎn)更多的在于利用測試和評(píng)估來判斷教育體系的完善性以達(dá)到預(yù)期的結(jié)果。[12]在這樣一種新形勢下,國家級(jí)與州級(jí)教育體系對(duì)國家評(píng)估和測試的影響之間的區(qū)別就不那么明顯了。以最發(fā)達(dá)的國家為例,不論是教育權(quán)力高度集中的法國,還是教育權(quán)力高度分散到州的美國,所有發(fā)達(dá)國家都開展了大量的國際化標(biāo)準(zhǔn)測試和國家教育評(píng)估。盡管各州的組織結(jié)構(gòu)和教育機(jī)構(gòu)有差異,但開展測試和評(píng)估的動(dòng)力和壓力是一致的。這一發(fā)展趨勢直接影響到不同類別的教育系統(tǒng)——從以教室教育為基礎(chǔ)的法國教育制度到證書考試廣泛的美國教育制度。
但標(biāo)準(zhǔn)化測試也不可避免地存在一些缺點(diǎn),如過多的選擇題無法全面反映那些由手寫答案才能反映出的考生素質(zhì)。此外,由于學(xué)校和教師過多地重視統(tǒng)一考試的結(jié)果,教學(xué)中的生動(dòng)性、創(chuàng)造性減少,取而代之的是應(yīng)試教育的泛濫。教師們主要關(guān)注的不再是教育本身,而是如何幫助學(xué)生達(dá)到標(biāo)準(zhǔn)化測試的要求。目前的許多標(biāo)準(zhǔn)化測試已開始注意增加論述題、作文題等主觀題型的數(shù)量。瑕不掩瑜,相信標(biāo)準(zhǔn)化測試的高效性、可靠性將使其在未來繼續(xù)發(fā)揮不可替代的優(yōu)勢。
[1]Baker,D.P.,and G.K.LeTendre.National Differences,Global Similarities:World Culture and the Future of Schooling[M].Stanford,CA:Stanford University Press,2005.
[2] [10]Kamens,D.H.and Mcneely,C.L.Globalization and the Growth of International Educational Testing and National Assessment [J].Comparative Education Review,2010,(01):5-25.
[3]OECD (Organization for Economic Cooperation and Development).Education at a Glance,2006[J].Paris:OECD,2006:18.
[4] [9]National Assessment of Educational Progress.http://en.wikipedia.org/wiki/National_Assessment_of_Educa tional_Progress.2010.4.
[5]http://nces.ed.gov/nationsreportcard/worldhistory/and.http://nces.ed.gov/nationsreportcard/foreignlang/.
[6]National Assessment of Educational Progress.http://www2.ed.gov/programs/naep/index.html.
[7]周廷勇.美國高等教育評(píng)估的演變及其新發(fā)展[J].復(fù)旦教育論壇,2009,7,(3):22.
[8]http://nces.ed.gov/nationsreportcard/about/state.asp.
[11]Eckstein,M.,and H.Noah.Secondary School Examinations [M].New Haven,CT:Yale University Press,1993:102.
[12]Travers,K.,and I.Westbury,eds.The IEA Study of Mathematics I:Analysis of Mathematics Curricula[M].New York:Pergamon,1989:58.