廖先祥 莫海浪
關于教育測量理論,好像離我們很遠,所以我們都不太去關心它、研究它,認為那是專家們的事。但是,考試卻離我們很近,對于我們中小學教師而言,它一直伴隨著我們,直到我們離開教學崗位。每一次考試,我們好像都只是關心考什么,怎么才能讓學生考得好,得到多少分數(shù),班級排名第幾……僅此而已。其實,我們對考試的了解遠遠不夠,甚至有時會被“現(xiàn)象”蒙蔽,以為真的就像我們想象的那樣。當然,任何事物都有一個由初級到高級,由粗到細,逐步發(fā)展,精益求精的過程,關于考試也是如此。真正關心、懂得考試的人,他會從考試的現(xiàn)象、結果里看到很多很多隱藏在它背后的東西。在后面的文中你可以了解到,關于“考試”,今天已經(jīng)發(fā)展到了什么程度。
我們不講太“理論”的東西,讓我們就從身邊的問題開始認識和了解吧。
問題1:我們的考試真的公平嗎?
考試,在大多數(shù)人的眼里都被認為是一種最公平的評價方式,是“天然公平”的,所謂“考試面前人人平等”。考生如果因考試成績不好而被拒絕入學或錄用,大多不會有什么怨言,他們會首先從自己身上找原因,認為自己學識不深、能力低,頂多也是怪自己考試時發(fā)揮不正常。有時問題確實如此。但還有一些深層次的問題:我們很少去質(zhì)詢這項考試是否可信、是否有效以及處理考試結果的方式方法是否科學合理等等。
假設有下面一個簡單的“考試”,我們來分析一下這次考試的深層次問題。
填空(每題10分,滿分100分)
1.2+5=( );
2.9-6=( );
3.3+( )=14;
4.比3大9的數(shù)是( );
5.比12少1的數(shù)是( );
6.和6相差4的數(shù)是( );
7.一隊小朋友排隊做操,小冬前面有7個人,后面有5個人,這隊一共有( )人;
8.哥哥有4塊糖,弟弟有8塊糖,弟弟給哥哥( )塊糖,兩人的糖就一樣多了;
9.一條路長9米,在這條路上每隔1米插一面彩旗,共能插( )面彩旗;
10.一個數(shù),十位上的數(shù)是1,個位上的數(shù)比十位上的數(shù)多7,這個數(shù)是( )。
顯然,這10道題我們是由易到難依次排下來的,也就是說,后面一道題總比前面一道題難。有一個極端的案例:孩子A做對了前面的1-5題,孩子B做對了后面的6-10題,他們的得分都是50分。你怎么看待這個考試結果?如果在平時,你不去分析題目的難易度,一定會說:“啊,這兩孩子成績一樣,他們在同一個水平上呢!”可是,現(xiàn)在你還認為他們的水平是一樣的嗎?如果你就是那個B孩子,而我就是那個A孩子,關于我們的能力與水平的評價,你有什么想要說的?
當然,這只是一個極端的例子,我們很少遇到。
就這次“考試”,我們再討論一個問題:老師,為什么每道題目不分難易,賦分都是10分呢?如果在平時,你的回答可能會是這樣的:“因為滿分是100分,只有10道題,而且都是填空題,它們屬同一類題,只能按平均分,每題10分了?!蔽腋銈冋f出了題目有難易的問題以后,你也許會感覺到這樣賦分有點不公平了,因為題目的難度不同,賦分值也應該不同才對,否則遇上上面那樣極端的例子,對孩子真的是不公平的,你不認為是這樣嗎?
事實上,在平時我們命題的過程中,往往同一種題型中的每道題,賦分基本相同,如填空題、選擇題等。
也許你會提出反對意見:“也不全是呀,在平時命題中,同一份試卷里也有些是2分一題,有些是4分一題,有些是6分題,還有些是8分題、12分題,甚至有些是50分一題的呢?!笔堑模覀兇_實發(fā)現(xiàn)有這種情況,但問題是,你是根據(jù)什么來確定題目賦分的差距的?
上面的情況在下面這張圖中都真實地出現(xiàn)了,即有的題目難度不同賦分卻相同,有的題目難度相同賦分卻不同,題目賦分差距沒有更充分的理由。這是一次真實的大型考試試題難度及賦分分布表,其中每題賦分及其難度系數(shù)如下:第1-14題以及18題,每題2分,難度系數(shù)從0.4到0.8左右的都有;第15-16題,每題3分,難度系數(shù)分別是0.6和0.4;第17題10分,第19-24題每題4分,難度系數(shù)從0.5到接近0.8;第25題50分,難度系數(shù)與第1、3、9、10題卻非常接近!
可能你會說:“容易的題目賦分那么高,是因為想給那些基礎比較差的學生送點分,不至于讓考試成績那么難看,這叫‘送分題。其實呀,你都不知道,有時送分題還不一定能送得出去呢,他們就是不會做!”
這就是我們平時的考試,我們平時看到的多數(shù)情況下的考試。而且我們都會在不同程度上用這個考試成績來評價學生的學習水平和能力,評價老師們的教學水平,評價學校的教學水平和質(zhì)量。
我們并不是想說目前的考試不好,而是想發(fā)現(xiàn)其中的奧秘,想知道該怎樣做才能讓我們的考試更具有可信性、有效性和科學性,從而使我們對學生的學業(yè)測評所下的結論更貼近真實。
問題2:我們考試的依據(jù)是什么?
說起考試,在我國可謂歷史悠久,自隋朝的科舉考試算起,已有一千多年歷史。這一千多年來,我們已經(jīng)將考試的功能與應用進行了大大的拓展,在國內(nèi)外都有大量的專家學者對考試進行研究,得出了很多“理論化”的成果。比如大家所熟知的、已被廣泛運用于中小學的學科考試,就可歸入“古典測量理論”或“經(jīng)典測量理論”。
人們認為,要想了解一個人在某些問題上的知識、能力水平如何,就要有意識地提出一些問題給他去解答,然后通過他解答這些問題的實際情況來評判他的能力和知識水平,這就是“考試”。
專門研究考試的專家們認為,如果通過考試能知道一個人的知識、能力或某種特質(zhì)的水平,那么考試所得分數(shù)就是他在這方面水平的表現(xiàn)。雖然他們的真實水平在一定范圍和條件內(nèi)是不會改變的,但是,由于考試時會受到很多因素的影響,會存在一定的誤差,所以,考試所得分數(shù)不能完全看成是他真實水平的表現(xiàn);又因為那個誤差是隨機出現(xiàn)的,于是專家們想出了一個數(shù)學公式,用這個公式把他的真實水平分數(shù)從考試所得的分數(shù)中分離出來,這就是X=T+E這個公式的由來。這個公式表明,在一次考試中,一個人的真實水平等于這次考試所得分數(shù)與這次考試誤差值的和,X代表真實水平的分數(shù),T是考試所得分數(shù),E則是考試誤差值。由于E是隨機出現(xiàn)的,每次考試所出現(xiàn)的誤差值E有正有負:當E值為正值時,說明這次考試卷面成績低于他的真實水平,也就是我們平時所說的“沒有發(fā)揮出真正水平”;如果E值為負值時,卷面成績高于他的真實水平,就是我們平時所說的“超水平發(fā)揮”了。由此我們知道了,無論是“沒有發(fā)揮出真正水平”還是“超水平發(fā)揮”,考試都不是一個人真實水平的全部表現(xiàn)。
比如,我們用一組如下的試題對一年級的小學生進行兩位數(shù)以內(nèi)的加減法進行掌握和運用水平的測試。
假若某一學生在這次考試中所得分數(shù)是95分,那么,他的真實分數(shù)就應該被表述成這樣一個式子:X=95+E。即學生的真實分數(shù)X對我們來說還是一個未知數(shù),我們只是知道了我們所看到的學生的卷面分數(shù)95分,因為我們并不知道那個考試誤差值E具體是多少。要是在平時,我們已經(jīng)將這個95分等同于這位學生的真實分數(shù)了,其實不應該是!
那我們要怎樣做才能得到考生的真實分數(shù)呢?于是,專家們又做了一個假設:若一個人的某種心里特質(zhì)(比如上面的小學一年級學生兩位數(shù)以內(nèi)的加減法運算能力)可以用平行的測驗方法反復測驗足夠多的次數(shù)來獲得,那么他的這些測驗所得分數(shù)的平均值就會接近于他的真實分數(shù)。利用這個假設,如果我們對小學一年級學生兩位數(shù)以內(nèi)的加減法運算進行足夠多次的反復測驗(如下表),那么,計算出這個學生的這些考試所得分數(shù)的平均成績,這個平均成績就相當接近他的真實分數(shù)了。
這樣求得的學生的真實分數(shù),專家們有一個說法,叫真分數(shù)理論。
真分數(shù)理論是最早實現(xiàn)數(shù)學形式化的測量理論。它興起于十九世紀末;到二十世紀三十年代趨于成熟,形成比較完整的體系;到二十世紀五十年代格里克森的著作使其具有完備的數(shù)學理論形式;到1968年洛德和諾維克出版《心理測驗分數(shù)的統(tǒng)計理論》一書,將經(jīng)典真分數(shù)理論發(fā)展至顛峰狀態(tài),并實現(xiàn)了向現(xiàn)代測量理論的轉換。人們將以真分數(shù)理論(True Score Theory)為核心理論假設的測量理論和方法體系,統(tǒng)稱為經(jīng)典測驗理論(Classical Test Theory,CTT)。我們平時的考試就是以這一理論為依據(jù)進行的,只不過在現(xiàn)實的應用中我們并沒有像理論中所要求的那么嚴格和嚴密而已。
(責編 白聰敏)