四項單選題中盲目猜對概率的量化分析

2021-03-26 13:48:20谷青松

科教導刊·電子版 2021年1期

谷青松

（上海工程技術大學外國語學院上海 201620）

1 四項單選題中盲目猜測因素

四項單選題是客觀測試中應用最廣的一種題型。它由題干（stem）和選擇項（option、response或alternative）這兩部分組成。選擇項中有答案（answer、correct option或key）和干擾項（distractor）。J.B.Heaton曾提出六大命題原則，其中第一條規(guī)定“每道題應只有一個正確答案，不能出現(xiàn)兩個或兩個以上答案?！痹谒捻梿芜x題測試的評分中，選中答案得分，選中干擾項不得分，但不扣分。由于這種測試客觀性強，信度高，加上可以通過機器閱卷節(jié)省大量時間、人力和物力，因此被廣泛應用于各種語言類和非語言類的測試。

就像任何一種測試題型都不會十全十美一樣，四項單選題也會有這樣那樣的不足之處。對四項單選題來講，猜測因素的存在是一個不可忽視的弱點。四項單選題測試中的猜測包括盲目猜測和根據(jù)不完全知識排除干擾項的猜測。不管哪種猜測，都會不同程度地給測試結(jié)果增加“水分”，降低測試的效度。四項單選題設計的初衷是鼓勵猜測的，但鼓勵的并不是盲目猜測。實際上，只要四項單選題默認和鼓勵猜測，這種客觀測試就肯定比主觀測試存在更多的“運氣”成分。

2 四項單選題中盲目猜對概率的量化

盲目猜測因素的大小可以用盲目猜對概率（Randomness of Answering Correctly）來衡量。本文從現(xiàn)場實驗、數(shù)學計算和軟件分析三個方面，對四項單選題中盲目猜對概率進行量化分析，用數(shù)據(jù)說明這種盲目猜測因素對測試結(jié)果的負面影響，從而引起測試命題者的重視。

2.1 現(xiàn)場實驗

筆者曾經(jīng)在班上做過一個實驗。先讓每個學生在沒有題目的情況下，隨意寫出20個四項單選題的答案，五個一組，如“ADCDB、BCDBA、DACAD、BCACD”，收上來。然后，剔除當中“不太真實”的答案，如全選A、B、C或D的，或者某一組全選A、B、C或D的。接著，從這些答案中任意挑一份作為正確答案進行批改，記錄成績，重復做幾次，記錄成績。最后，對多次記錄下的成績進行統(tǒng)計，結(jié)果如下：

從表1可以看出，五次成績平均得分的均值為4.37，與20道四項單選題的概率得分5很接近，說明盲目猜測的結(jié)果從整體上“很不理想”，屬意料之中；但是，10-15分人數(shù)平均占全班人數(shù)4.14%，說明“運氣好”的學生還是“大有人在”；另外，5-10分人數(shù)平均占全班人數(shù)27.24%，接近三分之一的學生的得分大大高于概率得分5，說明盲目猜測在四項單選題測試中的影響不容忽視。

表1：盲目猜測的得分統(tǒng)計

2.2 數(shù)學計算

因此，四項單選題測試中盲目猜對概率通常被習慣地公認為1/4。

2.3 軟件分析

為了更加方便、更加直觀地了解四項單選題中盲目猜對概率統(tǒng)計情況，筆者利用Microsoft Office軟件中的Excel做了一個統(tǒng)計模板。

表2包含兩個主要區(qū)域：（1）隨機盲目答題區(qū)域（A1:V101）；（2）結(jié)果統(tǒng)計區(qū)域（A103:AC114）。B1:U1 是 20 個預先給定的答案，用數(shù)值表示。V1:V101顯示答對的個數(shù)（表中對A13:V90區(qū)域進行了隱藏），用SUMPRODUCT函數(shù)表達，如 V1=SUMPRODUCT(N(B1:U1=$B$1:$U$1))，V2=SUMPRODUCT(N(B2:U2=$B$1:$U$1))，V101=SUMPRODUCT(N(B101:U101=$B$1:$U$1))。B2:U100是100個“考生”隨機盲目答題區(qū)，每個單元格用RAND函數(shù)表達，只要點擊一下任何行或列之間的分割線，該區(qū)域的所有數(shù)據(jù)都會隨機更新，如點擊一下B列和C列之間的分割線，就出現(xiàn)表3的結(jié)果。

表2：四項單選題中盲目猜對概率統(tǒng)計（1）

表3 四項單選題中盲目猜對概率統(tǒng)計（2）

B104:AC104中的數(shù)據(jù)也是隨機變化的。B104=MAX(V2:V101)，C104=MIN(V2:V101)。D104:AC104 對不同分數(shù)段的人數(shù)進行統(tǒng)計，如H104=COUNTIF(V2:V101,4)，Z104=SUM(H104:J104)。B105:AC113是9次隨機數(shù)據(jù)的數(shù)值，可以任意插入行進行添加，數(shù)據(jù)越多，統(tǒng)計結(jié)果越有說服力。B114:AC114是10次隨機數(shù)據(jù)的平均值，如B114=AVERAGE(B104:B113)。

該模板中的核心數(shù)據(jù)就是B114:AC114中隨機數(shù)據(jù)的平均值。從表3中可以看出以下幾個重要的信息：

（1）最高分可達11分，平均值為10，大略有1.5%的“中獎”概率；

（2）最低分不是0分就是1分，但得0分的只占約0.4%，而得1分的占2.8%，說明只要瞎猜就能得分；

（3）得12分以上的人數(shù)為0，說明猜測本身是有難度的；

（4）得分相對集中在4分、5分、6分，分別占20%、19%、17%，都接近常規(guī)概率25%；

（5）得分在4～6的占55%，得分在3～7的占80%，充分說明猜測因素的存在可謂“觸目驚心”。

3 結(jié)語

從以上的量化分析可以看出，四項單選題測試中盲目猜對概率是不容忽視的。為了保證測試的效度，命題者應該慎重考慮四項單選題的使用數(shù)量，盡量嘗試多項多選題。