熊志權,李自立
(1.華南師范大學物理與電信工程學院,廣東 廣州 510631;2.珠海市香洲區(qū)教育局教研室,廣東 珠海 519070)
2013年6月教育部頒布了《關于推進中小學教育質(zhì)量綜合評價改革的意見》,要求建立以學生發(fā)展為核心、科學多元的中小學教育質(zhì)量評價制度,切實扭轉(zhuǎn)以單純測試成績和升學率評價中小學教育質(zhì)量的傾向,構(gòu)建一套體現(xiàn)素質(zhì)教育要求的“綠色評價”體系?!皽y試+同步問卷”這一方式除了看傳統(tǒng)的測試分數(shù),還通過問卷關注獲取分數(shù)付出多少成本,能尋找區(qū)域?qū)W業(yè)質(zhì)量形成途徑和付出的代價,這種評價方式便于操作,評價結(jié)果的解釋通俗易懂,能較好地引導區(qū)域?qū)W業(yè)質(zhì)量評價進入“綠色GDP”時代。
當前,評價一個區(qū)域、一所學校學業(yè)質(zhì)量的好壞,公眾的眼光普遍聚焦在測試成績排名和升學率的評價上,這種以單一紙筆測驗分數(shù)來衡量學校質(zhì)量的傾向至今還沒有得到根本扭轉(zhuǎn),也沒有因為新課程的實施而得到改觀,主要表現(xiàn)在:評價內(nèi)容上注重知識領域,漠視學生感情態(tài)度和個性發(fā)展;評價方式注重靜態(tài)結(jié)果而忽視學校的起點和努力程度;評價結(jié)果過分強調(diào)甄別而輕視診斷和改進?!俺煽儓蟾鎲巍焙唵蔚厝〈嗽u價的結(jié)果,測試分數(shù)的誤用濫用屢見不鮮,這些問題嚴重遮蔽了教育的豐富內(nèi)涵,制約了學生社會責任感、創(chuàng)新精神和實踐能力的培養(yǎng),要解決這些突出問題,適應經(jīng)濟社會和教育事業(yè)發(fā)展的新形勢,必須大力推進區(qū)域?qū)W業(yè)質(zhì)量評價改革。不僅要把學業(yè)成績、學習動力、學習方法和學習生活品質(zhì)等都作為學業(yè)質(zhì)量的重要組成部分,還要把學生睡眠時間、在校時間、課后作業(yè)量和體育鍛煉時間等納入評價的范圍。
學生是有差異的,學校間同樣存在差異。學生的學習活動并非只有高低之別,還有個性化特點和傾向的不同,也即學習風格的迥異,如果用測試分數(shù)粗暴地一刀切去評價學校的學業(yè)質(zhì)量,總會存在一些誤判。[1]當測試成績偏低時,不能武斷地認定教師沒有教好,依據(jù)單一因素不能判別學校學業(yè)質(zhì)量的優(yōu)劣。有數(shù)據(jù)顯示,家庭背景、性別差異、遺傳基因都會影響學生的學業(yè)成績,而這些因素學校卻無法去改變。
另一方面,有些考得較差的學校往往都會歸咎于生源不好,那么究竟什么樣的生源能決定測試成績?生源在其中起多大的作用?生源的哪些方面起了作用?經(jīng)濟條件、獨生子女、家庭文化背景、家長學歷水平等這些生源背景到底多大程度上影響學業(yè)質(zhì)量,這些需要我們巧妙地設計問卷,并和測試成績相結(jié)合來分析,以便于進行基于數(shù)據(jù)證明的理性回應。
知識的獲取是需要計算成本的。以測試分數(shù)論英雄,不關注學生成長,不看育人過程只看測試結(jié)果,不重視分數(shù)獲取過程中產(chǎn)生的附加教育結(jié)果,并且,學生獲取學業(yè)分數(shù)也有不同的途徑,有的學校的測試分數(shù)是依靠教師加班加點,犧牲學生休息、鍛煉和睡眠時間獲得的,有些學校壓縮非測試科目課時獲取測試成績,有些學科的測試分數(shù)是教師誘逼學生在總量一定的課后學習時間多占時間去獲取的,這些分數(shù)形成途徑千差萬別,付出的代價也各不相同,考慮成本的分數(shù)能改變學校之間過度競爭和不斷惡化的教育生態(tài)環(huán)境。
只看測驗分數(shù)的評價腐蝕課程實施,導致教師所傳授的內(nèi)容被限制在一個狹小的空間或囿于測試內(nèi)容,教師不得不把生動的課堂變?yōu)閱我坏膽嚳继?,剝奪了學生學習比測試內(nèi)容更重要的東西的機會。
為什么區(qū)域內(nèi)學校間的測試成績會有顯著差異?為什么有些學生測試成績好,而大多數(shù)測試成績一般?有些學生測試成績卻很差?為什么有些學校測試成績低分層面會越來越大?這些差異能夠用學校文化、家庭背景、學校資源、教學行為的差異來解釋嗎?僅僅有測驗結(jié)果的評價就是用分數(shù)來解釋分數(shù),做分數(shù)之間的數(shù)學轉(zhuǎn)換游戲,并不能真正分析學校問題的癥結(jié)所在,也達不到改進教學、促進學校發(fā)展的目的。要回答這些問題,我們通過問卷收集證據(jù),便于學校尋找努力方向,也能使政策制定者對教育質(zhì)量做出科學推斷并決策。
劉堅等人認為,從數(shù)據(jù)挖掘的微觀層面來看,學業(yè)質(zhì)量分析的首要功能是了解一所學校、一個區(qū)域的整體情況,但除此之外,它還能幫助我們了解不同子群體之間存在的差異,如不同的性別、不同家庭經(jīng)濟情況的學生間的差異,更進一步,它還可以回答造成這些差異的原因,以確定彌補這些差異的政策和辦法。[2]單純的測試成績并不具有實際的意義,重要的是找出測試成績與影響因素之間的關系,使人們能夠?qū)y試分數(shù)做出深度的解讀。學業(yè)質(zhì)量是多層次綜合、多因素累加的結(jié)果,多層次是指成績是由學生個人、家庭、學校以及教育系統(tǒng)多個層面共同作用的結(jié)果,多因素累加是指學生學習參與度、家庭社會背景、教師能力、學校風氣和教育政策等因素共同作用的結(jié)果,多層次和多因素構(gòu)成的學業(yè)質(zhì)量均隱含了豐富的教育信息。
學業(yè)評價絕非簡單的一個測試分數(shù),當前的評價和反饋簡單粗糙,大量有用信息沒有充分利用。學業(yè)質(zhì)量評價希望通過學業(yè)評價本身的規(guī)約,無限逼近學業(yè)本真的存在。學業(yè)有可見部分和不可見部分:學業(yè)中可以被觀察、測量和評定的是可見部分,如測試分數(shù);不可見部分則是隱含的、通過推算和估量的,需要通過大量問卷引導出來。這兩個部分在學業(yè)質(zhì)量評價中同樣不可或缺,問卷與測試分數(shù)相結(jié)合能使學業(yè)質(zhì)量的可見部分與不可見部分相互解釋和驗證,便于挖掘數(shù)據(jù)背后的教育價值。
“測試+同步問卷”不僅體現(xiàn)了學業(yè)水平,同時還包含學習能力、情感興趣等因素,引導學校注重內(nèi)涵發(fā)展。區(qū)域?qū)W業(yè)質(zhì)量評價為全市教學提供診斷和決策,找出妨礙區(qū)域?qū)W業(yè)質(zhì)量提升的主要因素,做出影響學校成績差異的因素分析,并提出改進意見與措施,引導學校回歸到對人的教育的本源上來。
“測試+同步問卷”能促進學校進行精細化評價與管理,根據(jù)雙向細目表中的雙向要求,對知識掌握水平和能力層次結(jié)構(gòu)進行精細化的評價與分析,通過問卷,對不能測量的認知領域進行精細化評價與反饋。當今,信息技術已經(jīng)達到研究者要什么數(shù)據(jù)就有什么數(shù)據(jù)的水平,學業(yè)質(zhì)量進行精細評價在技術上不存在障礙,精細化評價能發(fā)現(xiàn)細微的教學問題并提出針對性的改進措施,把教育導向卓越。
“測試+同步問卷”能提高教育行政部門和業(yè)務部門的指導水平。現(xiàn)代教育研究決策不能僅僅靠權威和經(jīng)驗,更不能憑習慣和直覺,教師要學會使用數(shù)據(jù)來解釋教育現(xiàn)象,從數(shù)據(jù)中發(fā)現(xiàn)教育規(guī)律,這樣才能經(jīng)得起檢驗。教研員對數(shù)據(jù)要有敏銳性,倡導利用數(shù)據(jù)分析來改善教學,要開展基于證據(jù)的教學研究與指導,利用數(shù)據(jù)進行科學闡述和合理解釋。問卷和測試相結(jié)合,在教學效益導向中,能計算投入與產(chǎn)出的有效性,促使學校用較低的成本達到同樣的結(jié)果,這需要教師改進教學方法,把課堂教學效益發(fā)揮到最大。
問卷是教育評價中最常用的收集信息的一種方法,所獲得的信息能用來進行定量分析,利用問卷了解師生對教學工作的反映。珠海市統(tǒng)一測試中,每一份試卷的最前面設置了同步常規(guī)問卷和同步學科問卷,同步的目的是為了使“問卷內(nèi)容”與“測試內(nèi)容”相適應,問卷內(nèi)容要為測試內(nèi)容服務,不能隨意設置,設置問卷之前應該有預先的邏輯假設和教育猜想,每次問卷突出一個主題。問卷均以選擇題形式呈現(xiàn),數(shù)據(jù)出來后對假設和猜想進行論證和分析,充分地解釋分數(shù)的意義。表1是同步常規(guī)問卷編制的基本內(nèi)容。
紙筆測驗只能對三維目標中的知識與技能進行較好的評價,過程與方法在某些科目中可以體現(xiàn),情感目標則無法企及。學科同步問卷是學科教研員根據(jù)某個學段的教學需要,有針對性地選擇問題進行問卷設置,沒有統(tǒng)一的格式和內(nèi)容要求。問卷設置的基本原則是不能用紙筆考試測量的學科領域可以用問卷的形式進行。如2013年7月珠海市七年級英語測試中的學科問卷,采集了學生對英語的興趣、學習英語的習慣、英語語音方面的主觀感受等情況,彌補了紙筆考試的缺陷。也可以根據(jù)英語學科的問卷結(jié)果,把具有高相關的某些選項的學生進行類聚,結(jié)合學生的測試成績進行相關分析,進一步探究影響英語測試成績的因素。也可以將各選擇項賦值,將選項數(shù)據(jù)化后判定學校英語教學的實際情況。
每次測試后的評價結(jié)果將按兩個方面反饋給學校。一是常規(guī)的成績反饋,測試結(jié)果反饋給學校不再是單科的某個分數(shù),我們把測試成績標準化并指數(shù)化,提供全市各類常模,便于學校自主診斷與改進。評價結(jié)果多元等級呈現(xiàn),根據(jù)學科雙向細目表中按知識和能力結(jié)構(gòu)進行反饋,方便學校發(fā)現(xiàn)學科教學中的細節(jié)問題,更好地反哺教學,可從多維度觀察、評價與分析某所學校的優(yōu)點和弱點,將高利害的分數(shù)變成群體大致位置和學校個性化成績報表,把測試帶來的副作用降到最低。
表1 同步常規(guī)問卷編制的基本內(nèi)容
單純的測試成績反饋是無法達到對人的全面理解的,我們把問卷結(jié)果數(shù)據(jù)化,形成標準指數(shù)和常模,測試成績不能解釋的部分用問卷的形式來表現(xiàn),問卷結(jié)果和測試成績相結(jié)合相互解釋與佐證,能大致反映出一所學校的辦學行為和育人目標。
如果評價方式簡單,只有卷面測試的分數(shù),缺少相關因素分析,那么測試結(jié)果就會淪陷為高利害的排序工具。同步問卷與測試成績相結(jié)合能進行大量的相關分析,也只有進行相關分析才能彰顯問卷的價值和意義,促進家長和社會對教育的理解。例如,為了獲取學生成績與學業(yè)負擔之間的關系,我們設置問卷做相關分析,圖1是珠海市七年級約3萬名學生的測試成績與學業(yè)負擔的關系圖。
圖1 中橫坐標是學業(yè)負擔指數(shù),主要調(diào)查學生的客觀學習負擔和主觀學習感受,是通過學生的睡眠時間、家庭作業(yè)量、在校學習時間和參加文化課補習情況等因素構(gòu)成,賦值統(tǒng)計后,綜合形成的“學業(yè)負擔指數(shù)”,縱坐標是測試成績,由語文、數(shù)學、英語三科的總分構(gòu)成。我們發(fā)現(xiàn),成績并不是隨著學業(yè)負擔加重而增加的,學業(yè)負擔達到一定程度后成績上升的趨勢會趨緩,如果學業(yè)負擔過重,成績會不理想。大數(shù)據(jù)統(tǒng)計說明一個道理:學生要有一定的學業(yè)負擔的,但不能過重,所謂減負,是需要減輕學生過重的學業(yè)負擔。
問卷調(diào)查結(jié)果的真實性要低于訪談和測驗,學業(yè)質(zhì)量評價是對學生學業(yè)達到的水平進行以群體為對象的質(zhì)量評價。[3]區(qū)域?qū)W業(yè)質(zhì)量評價的目的是要改進教學政策,對教育系統(tǒng)的整體評價,并將評價結(jié)果反饋給各學校,方便學校進行自主評價?;谶^程的真實性評價是我區(qū)評價發(fā)展的主要趨勢,教研室提供各類數(shù)據(jù)常模,下移評價重心,激活微觀主體,學校根據(jù)常模和本學校數(shù)據(jù)對照,找出自己的差距并做自主診斷,旨在引導學校自主評價。評價要充分地相信校長,依靠校長自主辦學,以校為本,教研室在評價過程中的功能定位是為各學校做高端的技術服務,包括命題、問卷設計、統(tǒng)計、分析等測量技術支持,同樣,學校對每個教學班和學生也可以開出個性化的“學習處方”。
目前,我們設計的問卷僅僅局限于學生在考場臨場回答,為了拓展珠海市學業(yè)評價的內(nèi)容,還要逐步開發(fā)校長訪談、教師問卷、家長問卷等來進行補充,通過全方位問卷更加全面準確地采集學業(yè)質(zhì)量的形成途徑和測試分數(shù)付出的代價。如收集學校特征、校長辦學思想、教學環(huán)境、招生政策、生源流失、家庭教育、親子關系、家長教育子女風格等因素,更加完善對學業(yè)質(zhì)量評價結(jié)果的科學解釋。如在2013年七年級第一學期期末測試時我們設置學生問卷:“本學期,你們班的綜合實踐活動課,是否被其他教師所占用?”表2是統(tǒng)計結(jié)果。
圖1 珠海市七年級學生測試成績與學業(yè)負擔關系圖
結(jié)果顯示,珠海市屬各學校間對綜合實踐活動課程的開設情況有顯著差異,公辦和民辦學校間也存在顯著差異,甚至,我們發(fā)現(xiàn)同一所學校班級間的課程開設也有較大的區(qū)別。那么要詳細地分析結(jié)果產(chǎn)生的原因,我們還需要對校長訪談和教師問卷來深入剖析,是校長對課程的執(zhí)行力不夠還是師資配備短缺?是任課教師擅自更改課程內(nèi)容還是綜合實踐活動課程資源有限?公辦和民辦學校之間課程執(zhí)行力差異是不是由于辦學體制原因決定的?如何才能促進學校更好地開足開齊國家課程?這些猜想和假設都有待進一步分析研究,最終提供詳實的數(shù)據(jù)和案例供教育行政決策。
決定學業(yè)質(zhì)量的因素非常多,這些因素相互交叉、互相關聯(lián),我們通過同步問卷也只能找出一部分影響學業(yè)質(zhì)量的相關因素,并且這些因素影響學業(yè)的程度到底有多大,哪些是主要因素,哪些是次要因素,哪些是無關因素,如何將這些因素一并考慮來綜合評價學校的教學質(zhì)量,這都需要我們長期不懈地研究并及時調(diào)整。我們現(xiàn)在只研究了學校測試成績相當?shù)那闆r下,控制測試分數(shù)這個變量的前提下來分析各學校的問卷結(jié)果,并給出相應學校的綜合判定。但是,測試成績相差較大的學校如何控制這些變幻莫測的變量并尋找它們之間的關系,即學業(yè)背景和學業(yè)負擔如何加權處理進行綜合評價,這是我們迫切需要解決的問題。
如表3所示,我們以學業(yè)負擔的某個指標為例,立才學校測試成績整體偏低,但學生睡眠時間較長,能否說明立才學校的學業(yè)質(zhì)量是綠色的?立才學校的教育經(jīng)驗值不值得推廣?同樣是公辦學校的珠海七中和南屏中學,測試分數(shù)差異顯著,學生睡眠時間也有較大差異,那么,在測試成績和學生睡眠時間兩個重要指標上,我們怎么綜合分析這兩個學校的教學結(jié)果?睡眠時間對測試分數(shù)的影響程度究竟有多大?都是我們面臨的艱巨而敏感的任務。況且,學業(yè)負擔因人、因教學方式而異,同樣的任務與內(nèi)容,對有些人是負擔,對另一些人可能就不是;對于同一個人而言,采用一種學習方式和教學方式是負擔,采用另一種可能就不是。[4]那么,通過問卷獲取的“學生學業(yè)負擔過重”是不是客觀存在的事實?是學生主觀感受還是學校的教學行為引起的?這都是我們后續(xù)將要努力研究的內(nèi)容。
我們的研究都是在試題和試卷編制科學的基礎上進行的,即測試分數(shù)能精確反映學生認知水平和能力等第,如果大前提失去信度,所有的統(tǒng)計和推斷都將失去價值,甚至背道而馳。因此,命題教師要努力研究基于課程標準的命題策略。課程標準是國家對基礎教育課程的基本規(guī)范的質(zhì)量要求,規(guī)范了學業(yè)評價的設計理念,提供了評價的維度框架,限定了內(nèi)容范圍和認知要求,基于課程標準的學業(yè)質(zhì)量評價是進行國家層面教育質(zhì)量監(jiān)控的客觀要求。如果根據(jù)與課程標準不一致的評價結(jié)果而做出教育推論與決策,這種失去效度的評價對學校和學生都是極大的不公平。
但是,課程標準的文本表述過于粗放和籠統(tǒng),只提供了內(nèi)容標準而未清晰地表述學生的預期學習結(jié)果,命題教師不能準確界定學生學習結(jié)果所涉及的行為動詞的確切含義,這不僅影響教師對課程標準的執(zhí)行,更影響試題編制工作。從課程標準到評價標準是一個艱難而復雜的過程,吸引了很多教師在不曲解課標政策的同時對其進行二次開發(fā),用來滿足學業(yè)質(zhì)量評價方面的試題編制與開發(fā)的需要。[5]▲
[1]熊志權,李自立.差異化考試的內(nèi)涵與價值[J].基礎教育課程,2013(4):74-76.
[2]劉堅,劉紅云,張珊珊.數(shù)據(jù)能告訴我們什么——兼談學業(yè)質(zhì)量分析的內(nèi)涵與要點[J].人民教育,2008(12):36-39.
[3]王蕾.大規(guī)模考試和學業(yè)質(zhì)量評價[M].北京:高等教育出版社,2011.
[4]喬錦忠.“減負”新路徑[J].人民教育,2013(21):33.
[5]楊向東.課堂評價促進學生的學習和發(fā)展[M].上海:華東師范大學出版社,2012.
表2 對課程的執(zhí)行力情況調(diào)查結(jié)果統(tǒng)計
表3 不同學校間睡眠時間與測試成績結(jié)果統(tǒng)計