谷青松
(上海工程技術大學外國語學院 上海 201620)
四項單選題是客觀測試中應用最廣的一種題型。它由題干(stem)和選擇項(option、response或alternative)這兩部分組成。選擇項中有答案(answer、correct option或key)和干擾項(distractor)。J.B.Heaton曾提出六大命題原則,其中第一條規(guī)定“每道題應只有一個正確答案,不能出現(xiàn)兩個或兩個以上答案?!痹谒捻梿芜x題測試的評分中,選中答案得分,選中干擾項不得分,但不扣分。由于這種測試客觀性強,信度高,加上可以通過機器閱卷節(jié)省大量時間、人力和物力,因此被廣泛應用于各種語言類和非語言類的測試。
就像任何一種測試題型都不會十全十美一樣,四項單選題也會有這樣那樣的不足之處。對四項單選題來講,猜測因素的存在是一個不可忽視的弱點。四項單選題測試中的猜測包括盲目猜測和根據(jù)不完全知識排除干擾項的猜測。不管哪種猜測,都會不同程度地給測試結(jié)果增加“水分”,降低測試的效度。四項單選題設計的初衷是鼓勵猜測的,但鼓勵的并不是盲目猜測。實際上,只要四項單選題默認和鼓勵猜測,這種客觀測試就肯定比主觀測試存在更多的“運氣”成分。
盲目猜測因素的大小可以用盲目猜對概率(Randomness of Answering Correctly)來衡量。本文從現(xiàn)場實驗、數(shù)學計算和軟件分析三個方面,對四項單選題中盲目猜對概率進行量化分析,用數(shù)據(jù)說明這種盲目猜測因素對測試結(jié)果的負面影響,從而引起測試命題者的重視。
筆者曾經(jīng)在班上做過一個實驗。先讓每個學生在沒有題目的情況下,隨意寫出20個四項單選題的答案,五個一組,如“ADCDB、BCDBA、DACAD、BCACD”,收上來。然后,剔除當中“不太真實”的答案,如全選A、B、C或D的,或者某一組全選A、B、C或D的。接著,從這些答案中任意挑一份作為正確答案進行批改,記錄成績,重復做幾次,記錄成績。最后,對多次記錄下的成績進行統(tǒng)計,結(jié)果如下:
從表1可以看出,五次成績平均得分的均值為4.37,與20道四項單選題的概率得分5很接近,說明盲目猜測的結(jié)果從整體上“很不理想”,屬意料之中;但是,10-15分人數(shù)平均占全班人數(shù)4.14%,說明“運氣好”的學生還是“大有人在”;另外,5-10分人數(shù)平均占全班人數(shù)27.24%,接近三分之一的學生的得分大大高于概率得分5,說明盲目猜測在四項單選題測試中的影響不容忽視。
表1:盲目猜測的得分統(tǒng)計
因此,四項單選題測試中盲目猜對概率通常被習慣地公認為1/4。
為了更加方便、更加直觀地了解四項單選題中盲目猜對概率統(tǒng)計情況,筆者利用Microsoft Office軟件中的Excel做了一個統(tǒng)計模板。
表2包含兩個主要區(qū)域:(1)隨機盲目答題區(qū)域(A1:V101);(2)結(jié)果統(tǒng)計區(qū)域(A103:AC114)。B1:U1 是 20 個預先給定的答案,用數(shù)值表示。V1:V101顯示答對的個數(shù)(表中對A13:V90區(qū)域進行了隱藏),用SUMPRODUCT函數(shù)表達,如 V1=SUMPRODUCT(N(B1:U1=$B$1:$U$1)),V2=SUMPRODUCT(N(B2:U2=$B$1:$U$1)),V101=SUMPRODUCT(N(B101:U101=$B$1:$U$1))。B2:U100是100個“考生”隨機盲目答題區(qū),每個單元格用RAND函數(shù)表達,只要點擊一下任何行或列之間的分割線,該區(qū)域的所有數(shù)據(jù)都會隨機更新,如點擊一下B列和C列之間的分割線,就出現(xiàn)表3的結(jié)果。
表2:四項單選題中盲目猜對概率統(tǒng)計(1)
表3 四項單選題中盲目猜對概率統(tǒng)計(2)
B104:AC104中的數(shù)據(jù)也是隨機變化的。B104=MAX(V2:V101),C104=MIN(V2:V101)。D104:AC104 對不同分數(shù)段的人數(shù)進行統(tǒng)計,如H104=COUNTIF(V2:V101,4),Z104=SUM(H104:J104)。B105:AC113是9次隨機數(shù)據(jù)的數(shù)值,可以任意插入行進行添加,數(shù)據(jù)越多,統(tǒng)計結(jié)果越有說服力。B114:AC114是10次隨機數(shù)據(jù)的平均值,如B114=AVERAGE(B104:B113)。
該模板中的核心數(shù)據(jù)就是B114:AC114中隨機數(shù)據(jù)的平均值。從表3中可以看出以下幾個重要的信息:
(1)最高分可達11分,平均值為10,大略有1.5%的“中獎”概率;
(2)最低分不是0分就是1分,但得0分的只占約0.4%,而得1分的占2.8%,說明只要瞎猜就能得分;
(3)得12分以上的人數(shù)為0,說明猜測本身是有難度的;
(4)得分相對集中在4分、5分、6分,分別占20%、19%、17%,都接近常規(guī)概率25%;
(5)得分在4~6的占55%,得分在3~7的占80%,充分說明猜測因素的存在可謂“觸目驚心”。
從以上的量化分析可以看出,四項單選題測試中盲目猜對概率是不容忽視的。為了保證測試的效度,命題者應該慎重考慮四項單選題的使用數(shù)量,盡量嘗試多項多選題。