黃玉平 何以建
前言
如何通過對學(xué)業(yè)成績的分析來反映學(xué)校的管理水平和教師的業(yè)務(wù)表現(xiàn),去除考試命題,閱卷,學(xué)生臨場表現(xiàn),班級差異,學(xué)生基礎(chǔ)等干擾因素,形成公平合理的評價標(biāo)準(zhǔn),一直是教育管理部門關(guān)注的技術(shù)問題。
本文給出的研究成果:基于正態(tài)化標(biāo)準(zhǔn)分的二十層回歸分析方法,有效地解決了評估學(xué)校和教師教學(xué)成績的標(biāo)準(zhǔn)問題。
一、現(xiàn)狀分析
(一)均分排位變化分析法
此方法適用于相同基礎(chǔ)的各地市之間的終結(jié)性比較,不論各地市的教育起點如何,直接用測試結(jié)果的均分進行排名,名次高低代表各地市教育水平的高低。例如,2017年,A市某項測試的均分位列全省第一,因此代表著A市2017年在某項的教育水平全省第一。這種分析法優(yōu)點是:容易理解,容易計算,缺點是:很粗糙,不科學(xué),反應(yīng)慢,只反映結(jié)果,不反映進步程度。
(二)均分對比分析法
將同一個群體同一個科目兩次考試的均分進行直接對比,由于可能受到兩次考試難度不同,導(dǎo)致均分差異過大,另外標(biāo)準(zhǔn)差不同,也會使均分直接對比受到較大的影響,從而影響比較的效果。
用回歸分析來處理兩次考試的成績,是一個值得嘗試的方法。
下圖是某市2017屆文科畢業(yè)生高考總分與中考總分的回歸分析,具有較高的相關(guān)性,其線性相關(guān)的判定指數(shù)為0.644,畢竟經(jīng)過了三年時間,中間已經(jīng)有太多的因素對成績產(chǎn)生影響。
這種方法的判定指數(shù)不到七成,還有三成多不能解釋的因素,誤差太大,還不適合直接用于分析學(xué)校和教師的教育質(zhì)量。
如果將第一次考試均分相同的一批學(xué)生的第二次考試成績進行比較,可以橫向比較出進步還是退步的學(xué)校。這種方法提供了橫向比較的參照物,說服力大大地增強了。
在上表中,以中考總分第4層次為例,三個學(xué)校中考總分均分相差不到1分,高考文科總分差距最高為5分,能比較出高低。
經(jīng)過一段時間的使用,發(fā)現(xiàn)這種方法的五個問題:第一,某些學(xué)校獨占了某個均分層次,沒有橫向?qū)Ρ鹊膶W(xué)校,因此無法評價,例如上表中中考總分第一層次,只有A1校有學(xué)生,無法反映成績的相對高低;第二,無法反映這個均分層次是否整體偏好或偏差,無法與其它層次進行比較,使評價有可能產(chǎn)生偏差;第三,一個學(xué)校均分各層次之間的比較結(jié)果能否相加,缺乏依據(jù);第四,相同層次的各學(xué)校的中考總分均分不相同,直接看文科總分不夠科學(xué);第五,不直觀,不能直接看出結(jié)果,效率低。
(三)簡單標(biāo)準(zhǔn)分對比分析法
簡單標(biāo)準(zhǔn)分的處理:通過利用與均分的差距比上標(biāo)準(zhǔn)差得到的Z分?jǐn)?shù),再進行線性變換(100Z+500),得到平均分為500,標(biāo)準(zhǔn)差為100的簡單標(biāo)準(zhǔn)分。通過變換,有效地消除了均分和標(biāo)準(zhǔn)差不同的影響。
簡單標(biāo)準(zhǔn)分的使用,可以使同一次考試不同科目之間,同一科目不同考試之間都可以進行比較,準(zhǔn)確性有了較大的提高。
這種方法的問題在于:由于試題命制目的不同,兩次考試的區(qū)分度也不同,觀察散點圖可以看出,兩者之間的關(guān)系與二次曲線接近,如果直接比較,仍存在一定誤差,影響評價的精確性。
如果采用回歸分析,理論上可以找到期望函數(shù),從而得到比較基準(zhǔn)。但是多次試驗的結(jié)果發(fā)現(xiàn)兩個問題:第一,這種二次回歸誤差很大,不容易解釋原因;第二,計算上沒有線性回歸方便。
(四)正態(tài)化標(biāo)準(zhǔn)分對比分析法
將考試成績轉(zhuǎn)化為正態(tài)化標(biāo)準(zhǔn)分,是一種巨大的進步,它能較好地將不同的考試造成的偏態(tài)經(jīng)過轉(zhuǎn)換,變形為正態(tài)分布,從而較好地消除不同考試區(qū)分部位與區(qū)分能力的不同。目前國際上公認(rèn)的標(biāo)準(zhǔn)正態(tài)化處理共有五種算法,其中rankit算法在SPSS軟件中自帶,因此為實際使用提供了可行性。
將兩次成績轉(zhuǎn)轉(zhuǎn)換為正態(tài)化標(biāo)準(zhǔn)分以后,直接進行比較的誤差還是不小的。
如果對全體學(xué)生兩次正態(tài)化標(biāo)準(zhǔn)分的直接進行回歸分析,回歸效率提高了,但是殘差還是不小。原因是:特別優(yōu)秀的班級和特別弱的班級對學(xué)生成績的影響體現(xiàn)出來了。
下圖是某市2017年屆文科畢業(yè)生文科總分標(biāo)準(zhǔn)分(正態(tài)化)與中考總分標(biāo)準(zhǔn)分(正態(tài)化)之間的線性回歸分析,判定指數(shù)是0.706,從散點圖上觀察,一些數(shù)據(jù)偏離回歸直線較多,受到學(xué)生個體與班級的干擾很大,不適合直接用于評價各校和各班的教育質(zhì)量。
二、解決方案
珠海市教育研究院高中教育研究室經(jīng)過多年研究,不斷改進,于2012年正式定型,形成了目前的“基于標(biāo)準(zhǔn)正態(tài)化的二十層回歸分析法”。
要真實反映教育的質(zhì)量,須要進行前后的對比,不能只看目前的現(xiàn)狀;
兩次考試由于命題等因素的影響,區(qū)分度不同,導(dǎo)致原始成績反映學(xué)生真實水平的程度不同,須進行標(biāo)準(zhǔn)化處理。如果對兩次考試只是采用簡單的標(biāo)準(zhǔn)化處理,雖然解決了兩次考試的標(biāo)準(zhǔn)差不同問題,但是沒有解決兩次考試對于不同層次學(xué)生能力的區(qū)分度不同問題,例如水平性考試關(guān)注的是學(xué)生能否及格,對于學(xué)生是否優(yōu)秀并不關(guān)注,因此試題更多的是基礎(chǔ)型,多數(shù)學(xué)生能夠獲得較高的成績,但是少數(shù)基礎(chǔ)比較弱的學(xué)生,則成績較弱,整體成績呈現(xiàn)為負(fù)偏態(tài)(均分低于中位數(shù));而能力型考試關(guān)注的是學(xué)生是否具有較高的核心素養(yǎng)和學(xué)科能力,對思維和綜合能力考查的試題較多,考試的結(jié)果是多數(shù)學(xué)生考分不能及格,而能力較強的學(xué)生能夠突出表現(xiàn),整體成績呈現(xiàn)為正偏態(tài)(均分高于中位數(shù)),兩次考試簡單標(biāo)準(zhǔn)分明顯不是線性相關(guān)關(guān)系。
由于都是線性變換,最后很有可能兩次考試的標(biāo)準(zhǔn)分之間存在非線性相關(guān),例如二次相關(guān)等,容易產(chǎn)生較大的誤差,也不能進行分班分層的計算。經(jīng)過反復(fù)試驗和思考,現(xiàn)采用標(biāo)準(zhǔn)正態(tài)化處理,采用國際通用的rankit算法,對兩次考試成績進行標(biāo)準(zhǔn)正態(tài)化轉(zhuǎn)換,解決了兩次考試考查側(cè)重點不同和區(qū)分度不同帶來的困擾。
對兩次考試成績的正態(tài)化標(biāo)準(zhǔn)分進行相關(guān)性分析,發(fā)現(xiàn)相關(guān)性大大提高,對所有學(xué)生的兩次正態(tài)化標(biāo)準(zhǔn)分進行線性回歸分析,得到的判定指數(shù)達到了0.7。
每一個學(xué)校或班級,經(jīng)過一段時間的教學(xué),都容易產(chǎn)生分化,最低分與最高分之間差距巨大。用均分為代表一個學(xué)校或班級成績,目的是反映群體的集中趨勢,由于群體內(nèi)各數(shù)據(jù)權(quán)重相同,均分很容易受到較特殊數(shù)據(jù)的影響,導(dǎo)致發(fā)生偏離,從而使分析效果下降。
在實踐的過程中發(fā)現(xiàn),各學(xué)校對基礎(chǔ)非常敏感,不同基礎(chǔ)的學(xué)校之間的比較數(shù)據(jù),除非發(fā)生了反轉(zhuǎn),否則說服力不強。
同一批對象同一個科目兩次考試之間的成績存在非常明顯的相關(guān)關(guān)系,采用標(biāo)準(zhǔn)正態(tài)化轉(zhuǎn)換之后,發(fā)現(xiàn)這種相關(guān)關(guān)系進一步提高。
如果以學(xué)校均分為對象,進行兩次考試的正態(tài)化標(biāo)準(zhǔn)分進行回歸分析,獲得如下的結(jié)果:兩次成績成線性相關(guān),判定指數(shù)為0.95。學(xué)校內(nèi)部班級的差異已經(jīng)被消減,反映出在學(xué)校差異較小的情況下,兩次考試的正態(tài)化標(biāo)準(zhǔn)分之間呈現(xiàn)高度線性相關(guān)。
以學(xué)校為對象的正態(tài)化標(biāo)準(zhǔn)的回歸分析中,由于各校人數(shù)差異較大,使得較小的學(xué)校數(shù)據(jù)權(quán)重較大,影響回歸結(jié)論。
通過對數(shù)據(jù)的觀察,我們發(fā)現(xiàn):學(xué)校之間表現(xiàn)差異非常大,班級之間的差異也非常大,如果用一個均分表達一個學(xué)校的成績,其中受到這些差異因素的干擾太多,從而較大地影響了兩次考試之間的回歸分析效果。
如果將全市基礎(chǔ)相近的學(xué)生作為一個群體,分析它們兩考正態(tài)化標(biāo)準(zhǔn)分的均分之間的相關(guān)關(guān)系,能夠具體有以下優(yōu)點:第一,均分代表性增加;第二,各層次群體權(quán)重相近;第三,每個層次包括多所學(xué)校,能較好地消除學(xué)校差異對回歸結(jié)果的影響,使回歸分析結(jié)果更準(zhǔn)確;第四,采用正態(tài)化標(biāo)準(zhǔn)分,有效地減小不同考試命題造成的差異性。
下表是某市2017年高考文科總分與中考總分二十層回歸分析的結(jié)果:
三、操作步驟
(一)對齊
兩次考試,人群是不完全相同的,做質(zhì)量分析只能針對兩次考試都參加的學(xué)生,因此將兩個表格對齊,是第一個步驟。中考和高考的成績表都有身份證號字段,用它做為連接兩個表格的共同字段,只有身份證號相同的數(shù)據(jù),才能保留下來。采用數(shù)據(jù)庫的處理方法,能較快地對齊兩個表格。為了今后復(fù)查,保留原始表格。
(二)合并
將兩個對齊的表格合并成為同一張表,須將兩個表格中相同的字段保留,例如:學(xué)校,身份證號,姓名等。同時,要將兩張表中,兩次考試的所有成績都保留下來,重復(fù)的字段名,如語文、英語等,須分別改為中考語文、中考英語和高考語文、高考英語或類似的字段。
合并的表格,將首先按考試類別進行分類和排序,即文科和理科兩類。學(xué)生類別中,只留下文科和理科兩類,其它類如音樂、美術(shù)和體育等,都不進行集中處理,直接從表格刪除。
合并這個環(huán)節(jié)的人工操作是不可少的。
(三)二十層分組
不同的分層,如果各層之間差距不是特別大,不影響統(tǒng)計結(jié)果。
將合并后文理合在一起的表格,按中考總分的高低排序,等量分為二十層,因有同分?jǐn)?shù)學(xué)生,保持每層數(shù)量盡量相近,優(yōu)先高分組。增加一個字段:二十層。給每個學(xué)生標(biāo)注層次號:1,2,…,20。
(四)標(biāo)準(zhǔn)正態(tài)化
將分出二十層的表格,按文科和理科分為兩張表,分別取名為:20XX年高考中考合并分層文(理)科表。
對中考五個科目和高考四個單科進行標(biāo)準(zhǔn)正態(tài)化處理,并分別增加相應(yīng)字段。
將兩考的單科標(biāo)準(zhǔn)分分別合并后,再根據(jù)rankit算法,對中考總分和高考的文科總分(理科總分)進行標(biāo)準(zhǔn)正態(tài)化處理,增加字段:中考總分標(biāo)準(zhǔn)分,文科總分標(biāo)準(zhǔn)分(理科總分標(biāo)準(zhǔn)分)。
(五)回歸分析
下面以文科總分為例,說明回歸分析的方法:
按二十層,分別計算各層的文科總分標(biāo)準(zhǔn)分的平均分和中考總分標(biāo)準(zhǔn)分的平均分;
將二十組數(shù)據(jù)進行回歸分析,以中考總分標(biāo)準(zhǔn)分為橫坐標(biāo),文科總分標(biāo)準(zhǔn)分為縱坐標(biāo),求出回歸方程和判定指數(shù),并標(biāo)出來(如 );
將每個學(xué)生的中考總分標(biāo)準(zhǔn)分代入回歸方程的橫坐標(biāo),計算出每個學(xué)生文科總分標(biāo)準(zhǔn)分的期望值;
將每個學(xué)生的文科總分標(biāo)準(zhǔn)分減去它的期望值,得到比較值,即殘差;
分別計算每個學(xué)校每個層次的比較值(殘差)的平均值;
計算每個學(xué)校的比較值(殘差)的平均值。殘差的標(biāo)準(zhǔn)差為100左右,結(jié)合學(xué)校的人數(shù),用標(biāo)準(zhǔn)誤的方式,可以評判斷學(xué)校進步或退步的幅度。
文科綜合與中考總分進行回歸分析。
理科綜合與中考總分進行回歸分析。
語文,數(shù)學(xué)(文科數(shù)學(xué)與理科數(shù)學(xué)),英語三科分別與中考相應(yīng)科目回歸分析。
四、應(yīng)用舉例
下面是2017年某市各校文科總分與中考總分二十層回歸分析的結(jié)果(正態(tài)化標(biāo)準(zhǔn)分):
各校進步或退步,在總計這里顯示了,如A10學(xué)校,總計平均進步了22分,其中各批次都顯示超過了期望值,因此表現(xiàn)非常突出;A3學(xué)校,總計平均退步了12分,其中八個層次中有六個層次都是負(fù)分,意味著比期望值低,這樣與那些進步的學(xué)校差距就非常大了,說明整體水平不高。另外A1學(xué)校,總計平均進步了2分,但是其中第一個層次退步了8分,且這個層次是中考水平最高的,只有這一所學(xué)校有這一層次的學(xué)生,說明該校的優(yōu)生培養(yǎng)較弱,還有提升空間。
表中對18所學(xué)校各個層次都進行了分析,針對性強。這個表只顯示了各層次平均分與期望的比較,沒有加上人數(shù)的影響,須結(jié)合各層次人數(shù),才能掌握各校主要的得分或失分層次。
在上表中,可以發(fā)現(xiàn),為總體進步貢獻最大的學(xué)校是A18和A10兩校,而A9則拖的后腿是最大的。其中A1校總體是進步,但是它的前兩層,卻是退步的,說明它對優(yōu)秀生的培養(yǎng),還有提高空間。
如果配合各科的分析,更能發(fā)現(xiàn)具體的問題。
上表中,A2??偡诌M步了14分,但是單科分析發(fā)現(xiàn),主要貢獻是文科英語,文科數(shù)學(xué)也有正貢獻,而文科語文則負(fù)了6分,文科綜合也負(fù)了3分,這樣學(xué)科的情況清楚,有利于進一步的工作。類似的,A5校總分進步了13分,單科分析中發(fā)現(xiàn),其中文科語文也負(fù)了3分。
繼續(xù)分析A2校和A5校的文科語文的二十層,看看是哪些層次造成的影響。
在上表中,A2校的文科語文在十二個層次中七個層次是負(fù)分的,而且負(fù)分值較大,特別是第三層和第四層及第六層,差距較大。說明多數(shù)學(xué)生的語文學(xué)習(xí)存在問題。
A5校的語文出現(xiàn)負(fù)分的層次是第六層,第十層,第十一層,第二層,第十五層,主要是中下學(xué)生存在退步現(xiàn)象,有可能是教學(xué)中對基礎(chǔ)的問題關(guān)注不夠或解決不徹底。
五、結(jié)束語
采用本文辦法,實現(xiàn)了增值評價。這種方法,可以將每個學(xué)校、每個班級的每個層面的教學(xué)成果在這兩次考試成績上定量地測量出來。其中遠(yuǎn)高于期望值的學(xué)校和班級,可能有與眾不同的教育方法,值得特別關(guān)注,其中符合黨和國家教育方向,符合學(xué)生的終身發(fā)展需要,符合學(xué)生實際情況的教育措施,應(yīng)該及時總結(jié)和推廣;對于其中遠(yuǎn)低于期望值的學(xué)校和班級,可能存在學(xué)校管理上的松懈和粗糙,校風(fēng)不正,師德不良,教師不敬業(yè),專業(yè)水平不高等諸多問題,須問責(zé)談話,認(rèn)真整改,切實找出問題,改正教風(fēng),端正態(tài)度。作為行政管理部門,應(yīng)思考如何針對這些學(xué)校的問題,改進培訓(xùn)和支教的方式方法,幫助這類學(xué)校逐步改進工作方法,不斷取得進步。
參考文獻:
[1]劉娟,高振華,盧志舟,馬春環(huán),李鵬. 增值評價在學(xué)校效能評價中的應(yīng)用【J】.教育測量與評價,2015(10):48-52.
[2]萬兵濤,許志勇,汪曉銀. 教學(xué)質(zhì)量增值評價中數(shù)學(xué)模型的選擇與應(yīng)用【J】.考試研究,2019(1):98-104.