劉昕
(教育部考試中心,北京 100084)
統(tǒng)計(jì)分析在高考改革中的應(yīng)用與反思
劉昕
(教育部考試中心,北京 100084)
對(duì)高考數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析發(fā)端于20世紀(jì)80年代,為提升我國(guó)考試的科學(xué)化水平奠定了基礎(chǔ)。此后經(jīng)歷了題庫(kù)建設(shè)以及標(biāo)準(zhǔn)分?jǐn)?shù)制度的起伏,一些問(wèn)題至今未能很好解決。隨著測(cè)量統(tǒng)計(jì)工具和技術(shù)的發(fā)展,以及我國(guó)公民對(duì)考試科學(xué)化的認(rèn)知程度,考試數(shù)據(jù)的統(tǒng)計(jì)分析將在考試改革中發(fā)揮更大的作用。
恢復(fù)高考;高考改革;教育測(cè)量;教育統(tǒng)計(jì);統(tǒng)計(jì)分析
1977年,被“文革”中斷10年的高考得以恢復(fù)。人們歡欣鼓舞,看到了國(guó)家的未來(lái)和希望。
20世紀(jì)70年代末,改革的熱潮在各行各業(yè)興起。大學(xué)里逐漸聘請(qǐng)了一些國(guó)外的專(zhuān)家教授講授現(xiàn)代化知識(shí)和信息。一位美籍臺(tái)灣教授在北京師范大學(xué)講課,他的夫人順便在心理系開(kāi)設(shè)了心理與教育測(cè)量課。受這位老師課程的影響,心理系的師生分析了當(dāng)時(shí)高考與以現(xiàn)代心理與教育測(cè)量理論為指導(dǎo)的考試之間的優(yōu)劣,向教育部主管部門(mén)提出對(duì)傳統(tǒng)高考進(jìn)行標(biāo)準(zhǔn)化改革的倡議。
標(biāo)準(zhǔn)化考試改革就是用教育測(cè)量理論和現(xiàn)代化技術(shù)手段對(duì)傳統(tǒng)考試的改革。教育測(cè)量的學(xué)科基礎(chǔ)是心理和教育統(tǒng)計(jì)學(xué)。因此,對(duì)考試數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析和解釋是標(biāo)準(zhǔn)化考試改革的重要內(nèi)容。
對(duì)考試數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析和解釋對(duì)于傳統(tǒng)考試來(lái)說(shuō)著實(shí)是個(gè)新事物。在這之前,考試與數(shù)字相聯(lián)系的不過(guò)是100分制、5分制,如果有運(yùn)算不過(guò)就是計(jì)算一個(gè)平均分。教育測(cè)量理論提出要計(jì)算試題的難度、區(qū)分度,試卷的信度、效度等等,這些計(jì)算超出了初等數(shù)學(xué)的范疇,要用到統(tǒng)計(jì)學(xué)的概念和方法,例如正態(tài)分布、概率等。在當(dāng)時(shí),由于改革的提倡者歷數(shù)了傳統(tǒng)考試的種種弊端,因此如果在考試中引入“新法”,儼然就是“進(jìn)步”和“革命”。當(dāng)時(shí)能夠談一談考試統(tǒng)計(jì)分析的人都感覺(jué)很自豪,而不熟悉統(tǒng)計(jì)分析的考試工作者都覺(jué)得自己有很大差距,得抓緊學(xué)習(xí),有些人則對(duì)標(biāo)準(zhǔn)化考試產(chǎn)生了畏懼心理。
20世紀(jì)80年代初,全國(guó)教育統(tǒng)計(jì)與測(cè)量研究會(huì)成立,配合教育部考試改革在全國(guó)舉辦了多次研討會(huì)和培訓(xùn)班。1986年,在江西師范大學(xué)舉辦的研討交流會(huì)上,天津市一位小學(xué)校長(zhǎng)發(fā)言說(shuō),他們學(xué)習(xí)了教育測(cè)量與統(tǒng)計(jì)理論就落實(shí)到行動(dòng)上,如果哪個(gè)班的學(xué)生考試成績(jī)是正態(tài)分布,就給那個(gè)班的老師表?yè)P(yáng)和獎(jiǎng)勵(lì)。其實(shí)正態(tài)分布是大規(guī)模數(shù)據(jù)的自然分布,正態(tài)分布的曲線是倒鐘形,均值附近的人數(shù)最多,離開(kāi)均值越遠(yuǎn)的人數(shù)越少。這位小學(xué)校長(zhǎng)所說(shuō)的校內(nèi)考試以正態(tài)分布來(lái)評(píng)定教師的做法,在今天看來(lái)很荒謬,但在當(dāng)時(shí)成為經(jīng)驗(yàn)在會(huì)上交流,沒(méi)有人提出反對(duì),因?yàn)榻y(tǒng)計(jì)分析對(duì)大家來(lái)說(shuō)都是新事物。
20世紀(jì)80年代,大家學(xué)習(xí)和研究統(tǒng)計(jì)分析的熱情很高,國(guó)外專(zhuān)家來(lái)講學(xué)的活動(dòng)也很多,但是對(duì)于專(zhuān)家講的內(nèi)容,翻譯員不能理解和正確翻譯,數(shù)學(xué)系教授和略懂測(cè)量學(xué)的研究者英語(yǔ)水平不夠,也不能翻譯。因此當(dāng)時(shí)國(guó)外專(zhuān)家的講學(xué)活動(dòng)經(jīng)常處于比較尷尬的狀態(tài)。
這些例子真實(shí)反映了考試改革初期,教育和考試工作者的學(xué)習(xí)熱情以及對(duì)于教育統(tǒng)計(jì)理論和方法的陌生。之后,北京師范大學(xué)、華南師范大學(xué)、華東師范大學(xué)等高校的教師陸續(xù)編著了《教育統(tǒng)計(jì)學(xué)》,并開(kāi)設(shè)了教育統(tǒng)計(jì)、教育測(cè)量的課程。
教育測(cè)量和教育統(tǒng)計(jì)是建立于20世紀(jì)初的學(xué)科,曾經(jīng)于20世紀(jì)30年代由西方傳入我國(guó),在當(dāng)時(shí)的教育界也掀起了“新法考試”的熱潮,那些在當(dāng)時(shí)就學(xué)習(xí)和接觸過(guò)教育統(tǒng)計(jì)與測(cè)量的老先生也熱情地舉辦研究性的學(xué)習(xí)班。高考標(biāo)準(zhǔn)化改革的試點(diǎn)工作就是在這種學(xué)習(xí)和探索的環(huán)境中開(kāi)始的。
1984年,教育部決定委托廣東進(jìn)行高考標(biāo)準(zhǔn)化試驗(yàn)。4年后即1988年,近60位專(zhuān)家參加了對(duì)廣東標(biāo)準(zhǔn)化試驗(yàn)的評(píng)估。負(fù)責(zé)這個(gè)項(xiàng)目的研究者沒(méi)有辜負(fù)期望。首先,選擇適用的公式計(jì)算了試題的難度、區(qū)分度;對(duì)多項(xiàng)選擇題各被選項(xiàng)得分情況進(jìn)行了數(shù)據(jù)分析;對(duì)試卷的難度、信度、誤差進(jìn)行了計(jì)算和分析;以圖、表、數(shù)據(jù)描述考生成績(jī)分布狀態(tài)、各分?jǐn)?shù)段考生頻率。與學(xué)科命題人員密切配合,正確使用測(cè)量指標(biāo)評(píng)價(jià)了試題試卷的質(zhì)量,為后續(xù)對(duì)學(xué)生和教學(xué)進(jìn)行評(píng)價(jià)做了準(zhǔn)備。其次,將考試的原始分?jǐn)?shù)進(jìn)行了標(biāo)準(zhǔn)化轉(zhuǎn)換。結(jié)合我國(guó)高考工作的實(shí)際,開(kāi)始采用的是線性轉(zhuǎn)換的方法,針對(duì)實(shí)際操作中遇到的問(wèn)題,又采用正態(tài)化方法轉(zhuǎn)換的探索。第三,開(kāi)展試卷試題的等值研究,嘗試建立省級(jí)常模。
廣東高考標(biāo)準(zhǔn)化考試的試驗(yàn),首次在一個(gè)正規(guī)的大規(guī)??荚囍?,依據(jù)測(cè)量學(xué)原理選擇統(tǒng)計(jì)公式計(jì)算了各項(xiàng)測(cè)驗(yàn)指標(biāo),使定量分析貫穿于考試的始終。這種分析可以幫助命題教師有效地控制和提高試題試卷質(zhì)量,可以發(fā)現(xiàn)考試實(shí)施中其他環(huán)節(jié)的誤差,有效地促進(jìn)了我國(guó)考試的科學(xué)化水平。
廣東標(biāo)準(zhǔn)化考試試驗(yàn)研究的難點(diǎn)在于統(tǒng)計(jì)公式的適用性。西方國(guó)家測(cè)驗(yàn)試題基本都是0、1計(jì)分的多項(xiàng)選擇題,其統(tǒng)計(jì)公式都是建立在0、1計(jì)分的基礎(chǔ)上。我國(guó)高考試題之前多為問(wèn)答題、計(jì)算題等主觀性試題。標(biāo)準(zhǔn)化改革后各學(xué)科試題增加了以多項(xiàng)選擇題、是非題為主的客觀性試題,但是各學(xué)科的題型比例不同,英語(yǔ)科的選擇題最多,占80%~90%,數(shù)學(xué)科最少,占30%左右。而且在有些學(xué)科中,多項(xiàng)選擇題的賦分值也不同,有的1題1分,有的1題4分。全盤(pán)照搬西方的統(tǒng)計(jì)公式計(jì)算就會(huì)發(fā)生誤差,造成形式上的科學(xué)而實(shí)質(zhì)上的不科學(xué)。廣東標(biāo)準(zhǔn)化考試試驗(yàn)組在這個(gè)問(wèn)題上非常謹(jǐn)慎,查閱資料,實(shí)際測(cè)試,與命題教師和測(cè)量專(zhuān)家切磋研討,充分注意了公式的應(yīng)用條件,最后確定了使用的公式和計(jì)算方法,并在研究報(bào)告中給出了應(yīng)注意的問(wèn)題和利弊分析。
廣東標(biāo)準(zhǔn)化考試統(tǒng)計(jì)分析的結(jié)果能否正式向全國(guó)推廣使用,事關(guān)重大。教育部考試中心派出專(zhuān)家調(diào)研小組,于1988年4月和5月到廣東進(jìn)行考察,對(duì)廣東高考標(biāo)準(zhǔn)化改革試驗(yàn)進(jìn)行評(píng)估。專(zhuān)家小組對(duì)廣東高考各科技術(shù)指標(biāo)進(jìn)行了重新計(jì)算,對(duì)所用公式進(jìn)行了推導(dǎo),對(duì)得出的結(jié)論進(jìn)行了重新驗(yàn)證。評(píng)價(jià)報(bào)告認(rèn)真求實(shí),指出問(wèn)題,同時(shí)提出修改建議。專(zhuān)家小組與廣東的研究人員進(jìn)一步探討,形成了比較科學(xué)和適用于我國(guó)高考的統(tǒng)計(jì)分析方案的初步模型。
在廣東開(kāi)展標(biāo)準(zhǔn)化考試改革試驗(yàn)的同時(shí),全國(guó)各地開(kāi)展了多種形式的標(biāo)準(zhǔn)化考試?yán)碚摵头椒ǖ呐嘤?xùn)班和研討會(huì)。當(dāng)時(shí)宣傳標(biāo)準(zhǔn)化考試?yán)碚摰膬蓚€(gè)巨頭是“北派”北京師范大學(xué)心理系的張厚粲教授和“南派”廣東外國(guó)語(yǔ)學(xué)院院長(zhǎng)桂詩(shī)春教授。北京師范大學(xué)心理系是最早發(fā)表文章用教育測(cè)量學(xué)觀點(diǎn)考察傳統(tǒng)考試弊端的研究團(tuán)隊(duì);桂詩(shī)春教授根據(jù)語(yǔ)言測(cè)量學(xué)的理論,在英語(yǔ)教學(xué)與考試中應(yīng)用統(tǒng)計(jì)與測(cè)量的方法,具有理論與實(shí)際結(jié)合的優(yōu)勢(shì)。華東師范大學(xué)數(shù)理統(tǒng)計(jì)系的茆詩(shī)松教授、周紀(jì)鄉(xiāng)教授,上海師范大學(xué)數(shù)學(xué)系李偉明教授從數(shù)理統(tǒng)計(jì)的角度為研究的科學(xué)性、嚴(yán)謹(jǐn)性做了大量工作。當(dāng)時(shí)積極參加測(cè)量統(tǒng)計(jì)研究的還有鄭日昌教授、馮伯麟教授、謝小慶教授、張敏強(qiáng)教授、戴海崎教授、扈濤教授、黃光揚(yáng)教授等以及教育部考試中心的專(zhuān)業(yè)人員。在全國(guó)廣泛開(kāi)展研究的基礎(chǔ)上,教育部考試中心對(duì)全國(guó)各級(jí)負(fù)責(zé)高考的管理干部進(jìn)行了系統(tǒng)培訓(xùn),并編寫(xiě)了考試管理干部培訓(xùn)教材,于1990年8月出版《標(biāo)準(zhǔn)化考試》《考試的教育測(cè)量學(xué)基礎(chǔ)》《考試的統(tǒng)計(jì)分析方法》《計(jì)算機(jī)在考試管理中的應(yīng)用》4本培訓(xùn)用書(shū),奠定了我國(guó)高考標(biāo)準(zhǔn)化考試的統(tǒng)計(jì)分析基本規(guī)范的基礎(chǔ)。
為進(jìn)行考試數(shù)據(jù)的統(tǒng)計(jì)分析,教育部考試中心自1988年起對(duì)高考數(shù)據(jù)進(jìn)行考生答題情況抽樣和考生總體綜合信息數(shù)據(jù)采集。抽樣數(shù)據(jù)采集采取的是分層隨機(jī)抽樣,根據(jù)抽樣數(shù)據(jù)對(duì)試題的難度、區(qū)分度、答題反應(yīng)情況進(jìn)行分析,對(duì)試卷進(jìn)行信度分析??忌木C合信息來(lái)源于各省考生報(bào)考時(shí)采集的男女、城鄉(xiāng)等信息和考試結(jié)果的各科目分?jǐn)?shù)和總分。綜合信息一方面可以作為對(duì)抽樣統(tǒng)計(jì)結(jié)論的校驗(yàn),另一方面可以得出考生總體和分類(lèi)群體的數(shù)據(jù),為相關(guān)工作服務(wù)。抽樣數(shù)據(jù)、綜合信息數(shù)據(jù)分析結(jié)果形成常規(guī)報(bào)告,反饋給命題教師以改進(jìn)下一次的命題工作,更好地控制試題試卷質(zhì)量,同時(shí)提供給教育教學(xué)部門(mén)供相關(guān)人員參考。
除上述考試數(shù)據(jù)的統(tǒng)計(jì)分析外,考試的研究人員還開(kāi)展了其他諸多研究,例如,對(duì)不同的信度公式適用性的分析,用因素分析的方法對(duì)試卷內(nèi)容效度進(jìn)行分析,高考選拔預(yù)測(cè)效度分析,主觀題評(píng)分誤差控制,分?jǐn)?shù)轉(zhuǎn)換,等值的經(jīng)典測(cè)量理論研究,等值的項(xiàng)目反應(yīng)理論單參數(shù)和多參數(shù)的研究,多元統(tǒng)計(jì)在誤差計(jì)算和效度上的研究,概化理論對(duì)誤差分析的研究,等等。隨著考試數(shù)據(jù)的統(tǒng)計(jì)分析越來(lái)越受到我國(guó)考試工作者的重視,對(duì)考試數(shù)據(jù)統(tǒng)計(jì)分析的研究越來(lái)越深入,我國(guó)在考試領(lǐng)域的研究水平與國(guó)外的差距逐漸縮小。
3.1 題庫(kù)和標(biāo)準(zhǔn)分?jǐn)?shù)制度的發(fā)展歷程
經(jīng)過(guò)幾年研究和試驗(yàn),原國(guó)家教委決定在普通高等學(xué)校招生全國(guó)統(tǒng)一考試中全面推廣標(biāo)準(zhǔn)化考試,并于1989年6月27日發(fā)布《普通高等學(xué)校招生全國(guó)統(tǒng)一考試標(biāo)準(zhǔn)化實(shí)施規(guī)劃》(以下簡(jiǎn)稱(chēng)《實(shí)施規(guī)劃》)。
《實(shí)施規(guī)劃》的第一階段是在全國(guó)各省實(shí)現(xiàn)機(jī)器閱卷。這一步的關(guān)鍵是各學(xué)科按教育測(cè)量學(xué)的要求命題,試卷中應(yīng)有一定比例的選擇題,這樣試題評(píng)閱才可以交給機(jī)器完成。這一階段進(jìn)展順利,評(píng)卷質(zhì)量得到監(jiān)控,命題和考務(wù)管理水平有所提高,考試的科學(xué)化、現(xiàn)代化和規(guī)范化水平有所提升。
《實(shí)施規(guī)劃》的第二階段是建立題庫(kù)和標(biāo)準(zhǔn)分?jǐn)?shù)制度。經(jīng)過(guò)這一階段,考試的各個(gè)環(huán)節(jié)得到嚴(yán)格的、科學(xué)的統(tǒng)一規(guī)范,標(biāo)準(zhǔn)化考試改革的目標(biāo)得以實(shí)現(xiàn)。第二階段的任務(wù)技術(shù)含量要求高,因此給統(tǒng)計(jì)與測(cè)量工作提出了更高的要求。
首先談?lì)}庫(kù)。對(duì)題庫(kù)的認(rèn)知與應(yīng)用隨考試改革的深入而變化。以當(dāng)時(shí)從國(guó)外學(xué)習(xí)的信息和認(rèn)識(shí)水平來(lái)看,題庫(kù)是貯存題目的圖書(shū)館。題目按內(nèi)容、題型、難度、區(qū)分度等指標(biāo)存放在題庫(kù)中,可以根據(jù)組成試卷的要求從題庫(kù)中抽取題目。題庫(kù)中應(yīng)該存有大量的、經(jīng)過(guò)試測(cè)的合格題目備用。由于建立一個(gè)題庫(kù)所需要的人力、物力支出巨大,高考這樣具有高社會(huì)關(guān)注度的考試,試測(cè)本身就存在問(wèn)題,而且每次考試之后,題目馬上曝光,不能再進(jìn)入題庫(kù)反復(fù)使用,建題庫(kù)的經(jīng)濟(jì)成本巨大。實(shí)際上,國(guó)外考試機(jī)構(gòu)在高關(guān)注度的考試中,組卷也并不完全依賴(lài)題庫(kù)。因此在20世紀(jì)90年代,建立題庫(kù)這個(gè)任務(wù)也就慢慢淡化和轉(zhuǎn)變?yōu)榍袑?shí)追求試題試卷質(zhì)量。在高考各個(gè)科目(英語(yǔ)除外)建立題庫(kù)的任務(wù)最終沒(méi)能按原定目標(biāo)實(shí)現(xiàn)。
再談建立標(biāo)準(zhǔn)分?jǐn)?shù)制度。建立標(biāo)準(zhǔn)分?jǐn)?shù)制度雖然在理論上沒(méi)有題庫(kù)那么深?yuàn)W和復(fù)雜,但是由于其涉及的是考試分?jǐn)?shù),社會(huì)關(guān)注度高,考試工作者和相關(guān)領(lǐng)導(dǎo)同志也十分謹(jǐn)慎。按照《實(shí)施規(guī)劃》,建立標(biāo)準(zhǔn)分制度的實(shí)施步驟為:1989年,廣東繼續(xù)進(jìn)行建立常模、轉(zhuǎn)換標(biāo)準(zhǔn)分的試驗(yàn);1990年,提出建立全國(guó)常模、轉(zhuǎn)換標(biāo)準(zhǔn)分試驗(yàn)方案并開(kāi)始試驗(yàn);1992年在總結(jié)全國(guó)及廣東建立常模、轉(zhuǎn)換標(biāo)準(zhǔn)分試驗(yàn)經(jīng)驗(yàn)的基礎(chǔ)上,制定建立常模、轉(zhuǎn)換標(biāo)準(zhǔn)分實(shí)施方案;1993—1995年,建立全國(guó)及各?。ㄗ灾螀^(qū)、直轄市)各類(lèi)考生常模,并使用標(biāo)準(zhǔn)分。
1994年4月18日,《國(guó)家教委辦公廳關(guān)于頒發(fā)〈普通高等學(xué)校招生全國(guó)統(tǒng)一考試建立標(biāo)準(zhǔn)分?jǐn)?shù)制度實(shí)施方案〉的通知》正式發(fā)布,再一次明確在高考中實(shí)行標(biāo)準(zhǔn)分制度的決心,并將實(shí)施進(jìn)程調(diào)整為1996—1997年完成。
實(shí)施標(biāo)準(zhǔn)分對(duì)考試工作者提出了非常高的要求。教育部考試中心成立了專(zhuān)門(mén)小組,組織專(zhuān)家制定等值與分?jǐn)?shù)轉(zhuǎn)換方案,命制試題、施測(cè),接收各省傳輸數(shù)據(jù),進(jìn)行計(jì)算和分析,下發(fā)方案和結(jié)果,并組織科學(xué)調(diào)查,完善方案,編寫(xiě)宣傳手冊(cè),舉辦培訓(xùn)班進(jìn)行推廣宣傳。1994年以后,教育部考試中心對(duì)各省的考試實(shí)施開(kāi)展質(zhì)量評(píng)審,把標(biāo)準(zhǔn)分轉(zhuǎn)換作為一個(gè)重要環(huán)節(jié)進(jìn)行考察、評(píng)估,以此大力推進(jìn)標(biāo)準(zhǔn)分?jǐn)?shù)制度。承接試驗(yàn)任務(wù)或是進(jìn)行內(nèi)部模擬試驗(yàn)的省份,首先要培訓(xùn)工作人員,同時(shí)省級(jí)考試機(jī)構(gòu)還配備專(zhuān)門(mén)設(shè)備,提高分?jǐn)?shù)處理的精度和速度,更重要的是還要做好面向社會(huì)的宣傳。
標(biāo)準(zhǔn)分?jǐn)?shù)制度從1985年開(kāi)始在廣東試點(diǎn),1989年正式推行,至1997年陸續(xù)推廣到海南、河南、陜西、廣西、山東、福建6省,共計(jì)有82萬(wàn)考生參加了高考標(biāo)準(zhǔn)分制度的改革,占1997年考生總數(shù)的近1/3。但是由于推行標(biāo)準(zhǔn)分?jǐn)?shù)制度難度較大,實(shí)行標(biāo)準(zhǔn)分?jǐn)?shù)制度改革的省份沒(méi)有再擴(kuò)大,到2001年有兩省退出。2002年開(kāi)始,不再?gòu)?qiáng)行推廣標(biāo)準(zhǔn)分?jǐn)?shù)制度,實(shí)行何種分?jǐn)?shù)制度由各省自行選擇。目前,只有海南省在堅(jiān)持使用標(biāo)準(zhǔn)分。
3.2 標(biāo)準(zhǔn)分?jǐn)?shù)制度沒(méi)有推廣的原因分析
建立標(biāo)準(zhǔn)分?jǐn)?shù)制度是考試標(biāo)準(zhǔn)化的一個(gè)重要環(huán)節(jié),但是在我國(guó)高考這項(xiàng)高利害考試中,標(biāo)準(zhǔn)分?jǐn)?shù)制度沒(méi)有能按計(jì)劃推行,分析原因是多方面的。
在標(biāo)準(zhǔn)分?jǐn)?shù)制度推廣過(guò)程中,各省在內(nèi)部模擬進(jìn)行分?jǐn)?shù)轉(zhuǎn)換的過(guò)程中也提出了不少問(wèn)題。例如,考生分?jǐn)?shù)分布不是正態(tài)而采用正態(tài)化轉(zhuǎn)換是否帶來(lái)誤差的問(wèn)題;各科考試分?jǐn)?shù)分布方差不同如何進(jìn)行總分相加的問(wèn)題;日語(yǔ)、俄語(yǔ)等小語(yǔ)種考生分?jǐn)?shù)是單獨(dú)轉(zhuǎn)換還是與文、理科考生一起轉(zhuǎn)換的問(wèn)題;錄取時(shí)對(duì)有些類(lèi)別考生照顧性加分如何處理的問(wèn)題,等等。為此,教育部考試中心成立了專(zhuān)家小組專(zhuān)門(mén)調(diào)研解決這些問(wèn)題。專(zhuān)家小組與有關(guān)省的考試工作者多次研討,計(jì)算分析,對(duì)方案進(jìn)行修正和補(bǔ)充說(shuō)明。例如,詳細(xì)規(guī)定了缺考與零分在統(tǒng)計(jì)時(shí)如何處理;通過(guò)計(jì)算轉(zhuǎn)換前后分?jǐn)?shù)的全距與方差,確定政策性照顧加分的合適范圍,等等。這些工作促進(jìn)了問(wèn)題的解決和統(tǒng)計(jì)工作的完善,但是有些涉及到考試政策的問(wèn)題卻無(wú)法得到有效解決。例如,小語(yǔ)種問(wèn)題。在每年的高考中,東北3省的日語(yǔ)、俄語(yǔ)試卷難度相對(duì)于考生水平要低,因此考生的平均分要比考英語(yǔ)的平均分高很多,在用原始分合成各科總分時(shí),日語(yǔ)、俄語(yǔ)考生比英語(yǔ)考生要占便宜。在分?jǐn)?shù)轉(zhuǎn)換時(shí),如果日語(yǔ)、俄語(yǔ)考生與英語(yǔ)考生一起轉(zhuǎn)換外語(yǔ)分?jǐn)?shù),則他們的優(yōu)勢(shì)就更強(qiáng);如果日語(yǔ)、俄語(yǔ)考生單獨(dú)轉(zhuǎn)換外語(yǔ)分?jǐn)?shù),則向小語(yǔ)種考生政策傾斜的意圖就沒(méi)有體現(xiàn)出來(lái)。同樣的問(wèn)題也出現(xiàn)在語(yǔ)文、數(shù)學(xué)、歷史、政治等9個(gè)學(xué)科之間。一次考試之后,各學(xué)科的平均分和標(biāo)準(zhǔn)差不同,就單獨(dú)一科來(lái)說(shuō)其平均分、標(biāo)準(zhǔn)差各年度也不同。在由多科分?jǐn)?shù)合成一個(gè)總分時(shí),平均分高的、標(biāo)準(zhǔn)差大的學(xué)科其對(duì)總分的作用就大,因此在不同年度,各學(xué)科在總分中的作用是不同的、不穩(wěn)定的。解決的辦法應(yīng)該是由專(zhuān)家和決策者,在各科的分?jǐn)?shù)轉(zhuǎn)換之后給各學(xué)科確定一個(gè)合理的平均分、標(biāo)準(zhǔn)差或權(quán)重。但現(xiàn)實(shí)情況是,模糊不定的標(biāo)準(zhǔn)社會(huì)可以接受,要公開(kāi)化、明確化,就有了極大的難度。如果重新制定標(biāo)準(zhǔn),參與決策的就要包括教育部、地方政府以至更高行政部門(mén)。
上述各科成績(jī)合成總分的不合理問(wèn)題還可以通過(guò)另外一個(gè)途徑解決,即分科目制定錄取標(biāo)準(zhǔn),各科錄取分?jǐn)?shù)線由招生學(xué)校確定。但是如果在高考中實(shí)行這樣的分科劃線錄取,涉及招生制度改革,其決策部門(mén)是教育部有關(guān)單位。統(tǒng)計(jì)分析工作人員只能建議而不可能決策。
原定的標(biāo)準(zhǔn)分?jǐn)?shù)制度中包含等值工作。這比各省將原始分通過(guò)正態(tài)化轉(zhuǎn)換為標(biāo)準(zhǔn)分更進(jìn)了一步。教育部考試中心通過(guò)等值計(jì)算使跨年度的高考分?jǐn)?shù)得以換算,并將結(jié)果下發(fā)各省,各省可以用于參考或把標(biāo)準(zhǔn)分調(diào)整為等值后的分?jǐn)?shù)。但是這個(gè)工作也進(jìn)行得不理想。當(dāng)時(shí)等值工作由科研人員進(jìn)行,采用一部分人先后使用兩張?jiān)嚲?,或兩部分不同年份的學(xué)生使用同一張?jiān)嚲淼姆椒ㄟM(jìn)行。因?yàn)?,高考試題是絕密等級(jí),上級(jí)領(lǐng)導(dǎo)規(guī)定命題人員不得介入等值工作。因此科研人員組織教師模擬高考試卷命制等值試題,組織選點(diǎn),抽樣,保密測(cè)試,上傳數(shù)據(jù)和計(jì)算,報(bào)告計(jì)算結(jié)果,基本達(dá)到了實(shí)戰(zhàn)需要。但是由于這個(gè)過(guò)程是“模擬”的,雖然最大限度靠近了真實(shí)高考,仍不能報(bào)告給各省配合各省的分?jǐn)?shù)轉(zhuǎn)換。標(biāo)準(zhǔn)分?jǐn)?shù)制度中的等值分?jǐn)?shù)也就隨原始分的淡化不再進(jìn)行了。
以上例舉的統(tǒng)計(jì)分析工作涉及超越技術(shù)的、與政策相關(guān)的、跨部門(mén)的問(wèn)題,需要有足夠的權(quán)威部門(mén)來(lái)協(xié)調(diào),這是推進(jìn)改革的必要保證。由于缺乏這樣的權(quán)威部門(mén),標(biāo)準(zhǔn)分?jǐn)?shù)制度沒(méi)能抓住最好的時(shí)機(jī)推進(jìn),考試改革的重點(diǎn)逐步由考試的標(biāo)準(zhǔn)化、科學(xué)化,轉(zhuǎn)向重視能力考查、考試科目改革、考試安全性、統(tǒng)一考試分省命題等。
分?jǐn)?shù)的等值與轉(zhuǎn)換對(duì)于考試的科學(xué)化、標(biāo)準(zhǔn)化意義重大,雖未推行,但之前的探索會(huì)成為今后有益的借鑒。相信隨著考試改革的深化,這項(xiàng)制度會(huì)重提議事日程。
在考試中利用教育統(tǒng)計(jì)分析的方法,進(jìn)行試題的難度、區(qū)分度和試卷的信度計(jì)算,對(duì)多項(xiàng)選擇題的答案選擇情況進(jìn)行分析,用以提高考試的質(zhì)量,這已成為大多數(shù)考試的慣例。一些質(zhì)量較高的考試還利用統(tǒng)計(jì)分析的方法,監(jiān)控主觀題的評(píng)分誤差,用統(tǒng)計(jì)分析的方法協(xié)助發(fā)現(xiàn)考場(chǎng)作弊,用統(tǒng)計(jì)分析的理論指導(dǎo)轉(zhuǎn)換標(biāo)準(zhǔn)分,用統(tǒng)計(jì)分析的方法研究試卷的效度,研究試題的偏差(對(duì)不同背景考生的公平性),研究考試各環(huán)節(jié)的誤差,這些環(huán)節(jié)都推動(dòng)我國(guó)考試走向科學(xué)化、規(guī)范化。
在使用慣用的統(tǒng)計(jì)分析方法時(shí),應(yīng)該注意統(tǒng)計(jì)方法與統(tǒng)計(jì)公式的使用條件。由于我國(guó)高考的高利害性,試題不可能進(jìn)行試測(cè),不可能在兩次考試中使用一些相同試題,因此國(guó)外考試機(jī)構(gòu)常用的等值方法不可能照搬,建立題庫(kù)的模型需結(jié)合我國(guó)實(shí)際情況進(jìn)行研究開(kāi)發(fā)等。
對(duì)考試數(shù)據(jù)開(kāi)展的統(tǒng)計(jì)分析,從一個(gè)側(cè)面反映了20世紀(jì)末高考的標(biāo)準(zhǔn)化改革。隨著測(cè)量統(tǒng)計(jì)工具和技術(shù)的發(fā)展,以及我國(guó)公民對(duì)考試科學(xué)化的認(rèn)知程度,我國(guó)在考試領(lǐng)域追趕國(guó)際領(lǐng)先水平的節(jié)奏必將加快。
Applications and Reflections on Statistical Analysis in the College Entrance Examination Reform
LIU Xin
(National Education Examinations Authority,Beijing 100084,China)
Statistical analysis on the College Entrance Examination data originated in the 1980’s of the 20th century, laying groundwork for enhancing the scientific level of examinations in China.It has experienced ups and downs thereafter in the construction of item banks as well as the standard score system,ending up with some problems yet to be solved.With the development of statistical tools and techniques as well as our citizens’awareness of scientific examination development,statistical analysis of examination data will play a greater role in the examination reform.
Resumption of the College Entrance Examination;College Entrance Examination Reform;Educational Measurement;Educational Statistics;Statistical Analysis
G405
A
1005-8427(2017)01-0032-5
10.19360/j.cnki.11-3303/g4.2017.01.006
(責(zé)任編輯:陳睿)
劉昕(1947—),女,原教育部考試中心《中國(guó)考試》雜志社主編,研究員。