關(guān)于“考試”，我們了解多少？

2015-06-16 06:22:13廖先祥莫海浪

廣西教育·D版 2015年5期

廖先祥+莫海浪

前面我們已經(jīng)知道了一份試卷需要符合一定的可靠性和有效性要求，否則用這份試卷來考查學生就沒有太大的意義，反而會加重學生的學習負擔。但是，終究我們是需要考試的，在中小學，我們或者把它作為學生畢業(yè)評判的依據(jù)，或者把它作為學生升學的依據(jù)，或者把它作為了解學生單元學習目標是否達成的依據(jù)，等等。也就是說，我們所命制的試題，要起到判別和篩選的作用，要具有與測試目的相符的區(qū)分學生不同水平的功能。

問題5：我們所用的試卷能否區(qū)分出學生的不同學業(yè)水平？

在經(jīng)典測量（考試）理論里，區(qū)分度是我們特別關(guān)注的一個重要指標。區(qū)分度又叫鑒別力，用以表示試題對學生實際學業(yè)水平的區(qū)分程度。做同一道試題，如果實際水平高的學生得分高，實際水平低的學生得分低，就說明這道題具有良好的區(qū)分度。圖1中“按分數(shù)的特性曲線（S）”是某次考試第10題（即項目10）學生不同能力水平所能答對該題的概率圖，從左到右，它說明隨著學生能力的變化，學生答對該題的可能性在增大。對于一道題的檢測如此，對于一份試卷的區(qū)分度檢測與此大同小異。圖2的“測試特性曲線”就是我們組織某次自治區(qū)大型考試時數(shù)學卷所表現(xiàn)出來的區(qū)分度水平曲線圖。所以說，試題的區(qū)分度是我們編制試卷篩選試題和評價試題質(zhì)量的一個重要依據(jù)。

在經(jīng)典測量理論中，區(qū)分度常用D來表示。研究教育測量的專家們煞費苦心地設計出計算區(qū)分度的好多種方法，其中有一種常用的方法，叫做鑒別指數(shù)法。鑒別指數(shù)法先將考生測驗所得成績按從高到低排序，再按照一定的比例分出高分組與低分組（一般按成績前27%與后27%的考生的成績分組），并計算出高分組和低分組在某道或某些試題上通過率的差，用這個差值來確定這道或這些試題的區(qū)分度，即D值。在互聯(lián)網(wǎng)上，關(guān)于鑒別指數(shù)的文章可謂汗牛充棟，我們很容易找到計算D值的公式和例子。但是，因為這種方法只使用高分組和低分組的數(shù)據(jù)，浪費了中間超過三分之一的數(shù)據(jù)，所以，其所得結(jié)果其實并不夠準確。為此，教育測量專家們又想出了一種更適合在大規(guī)模的測驗或標準化測驗中采用的方法，這就是相關(guān)系數(shù)法。相關(guān)系數(shù)指的是題目與效標的相關(guān)度。由于效標分數(shù)不容易取得，我們常以考生總分作為效標，下面就是專家們給出的一個叫“Pearson相關(guān)系數(shù)”的計算公式：

“Pearson相關(guān)系數(shù)”的計算公式已經(jīng)廣泛應用于各種類型的測試分析。這個公式看上去很復雜，但其實它是操作最簡單的一種方法。我們不需要懂得公式里各個字母的含義，只需在計算機里安裝一個“SPSS”軟件，點幾次鼠標，就可以求出各題與總分的相關(guān)系數(shù)（以下稱“題總相關(guān)”），即各題的“r”值了。下面我們以2014年柳州市的中考語文試卷為例，用SPSS軟件來計算各道試題的題總相關(guān)系數(shù)。

第一步：把每個學生的每道題的得分輸入或?qū)氲絊PSS軟件中，如圖3。

圖3

第二步：在SPSS菜單中選取“分析”→“度量”→“可靠性分析”，如圖4。

圖4

第三步：把左邊的代表各小題的變量名都選放到右邊項目欄中，如圖5；然后點擊統(tǒng)計量按鈕，出現(xiàn)如圖6的窗口。

圖5

第四步：

在圖6中，用鼠標勾選“如果項已刪除則進行度量（A）”選項后，點擊繼續(xù)，回到上一窗口，然后點擊“確定”即可。

第五步：在軟件的輸出查看器中，可以查看各題的題總相關(guān)系數(shù)，如圖7。

圖7

細心的你可能已經(jīng)發(fā)現(xiàn)，上面的操作跟前面討論信度時的操作差別不大。我們把各題的題總相關(guān)系數(shù)單獨列表，如表1。

表1

各題的題總相關(guān)系數(shù)求出來以后，接下來的問題，就是判斷相關(guān)系數(shù)多大的題才算是具有良好的區(qū)分度。我們可以參考一位叫艾伯爾的測驗專家給出的判斷指標，見表2。

表2

由表1和表2可以看出，上面那份語文試卷的絕大部分試題的區(qū)分度都是優(yōu)良的、令人滿意的，只有第3、6、8題的分值較低，區(qū)分度不夠理想。

最后，我們需要對區(qū)分度作出幾點說明：第一，當區(qū)分度的值介于-1至1之間時，一般來說，數(shù)值越大，區(qū)分度越好；如果數(shù)值小于0，說明題目本身可能存在問題。第二，區(qū)分度是有相對性的，它與計算方法、考生能力、試題難度甚至考生數(shù)量等都有關(guān)系。舉個例子，同一道試題，如果在全市中考中有良好的區(qū)分度，但用來測試一個能力水平較高的群體時，它的區(qū)分度有可能會很低。第三，對試題的區(qū)分度進行評價，并沒有一定的標準，艾伯爾的表格只是一個常用的參照。如果要求很嚴謹，還可以對各題的題總相關(guān)系數(shù)進行統(tǒng)計顯著性檢驗，或者換一種方法進行計算。能在不同算法中都獲得良好評價的試題，其區(qū)分度一定是理想的。測量專家告訴我們，對大規(guī)模測試，相關(guān)系數(shù)法是多數(shù)情況下首選的方法。第四，通常我們篩選試題時，都要考慮測驗的目的、功能以及考生群體的總體水平，而區(qū)分度作為篩選試題的重要指標，并不是唯一的標準。正如前面例子當中，柳州市的中考語文試卷同時承擔了初中生畢業(yè)與升學兩項測試功能，出現(xiàn)個別區(qū)分度不甚理想的試題是正常和允許的。第五，通常一道試題對不同分數(shù)段人群都有區(qū)分能力，并且會對某個能力水平的人群有較強的區(qū)分能力。一份試卷亦然，一份試卷是由若干道試題組合而成，前面的圖2便是整份試卷的區(qū)分度圖形。不過，如果簡單地用“試卷的區(qū)分度”這一概念去評價一份試卷，就顯得比較粗糙了。

問題6：怎樣衡量試題的難易程度和整份試卷的難易程度？

我們希望一份試卷具有很高的信度，能夠比較全面地考查出我們想要考查的內(nèi)容，還能讓我們看出哪些考生處在什么水平，把考生的學業(yè)水平逐個地甄別出來，理想的做法當然是出很多道試題，每一道試題有不同的難度，從很容易到很難，然后再看看考生能做到哪一道試題、做對到哪一道試題，這樣我們就很容易甄別出他們的不同學業(yè)水平了。然而，新的問題又出現(xiàn)了：我們該怎樣衡量試題的難易程度呢？endprint

比如我們在一次對廣西普通高中部分高三學生（樣本為14 575人）進行英語水平測試時有這樣兩道題：

22.— I use your dictionary for a while？

—Yes，of course.

A.May B.Must C.Need D.Will

24.—Oh，Susan，you look very beautiful in this new skirt！

—

A.No，not so beautiful. B.I dont think so.

C.Of course not. D.Thank you.

這兩道題中究竟哪道題難一些呢？其難度相差有多大，我們又該如何判斷呢？

難度是指考生做試題時所遇到的困難程度。一道試題，如果大部分考生都能順利做對，試題的難度就小；如果大部分考生都不能做對，試題的難度就大。你可能會問，一道試題究竟難到什么程度，或者這道試題比那道試題究竟難了還是容易了，應該有一個衡量的標準吧？是的，在經(jīng)典測量理論里，通常以一個數(shù)值來定量地刻畫試題的難易程度，并用字母P表示，P就是試題的難度系數(shù)，簡稱難度（不同的書里有時用不同的字母表示）。

測量學的專家們給出的試題難度的計算方法不止一種，如通過率法、極端分組法等，甚至在測量多項選擇題的難度時還要作出相應的校正。而在各種算法中，最為常用也最好理解的難度計算公式是P=.其中[x] 是全體考生在某試題上的平均得分，xmax是該試題的賦分值。比如：有一道考查一年級學生兩位數(shù)以內(nèi)加減法運算能力的應用題，題目賦分是5分，10名學生做該題分別得出了下面的分數(shù)，見表3。

表3

根據(jù)表3，我們可以求出10名學生在該題上的平均得分[x] ==3.6。由于該題賦分為5分，于是我們就可以用上面給出的公式求出這道題的難度值P==0.72。

對于一道試題來說，賦分值是一定的，學生越容易得分，平均得分就越高，P值也就越大。所以說，試題難度系數(shù)越大，表示這道題越容易。如果所有學生都得了滿分，題目難度值就是1；如果所有學生都沒得分，題目難度值就是0。

也許你又要反駁我們了：“你們這個例子太理想化了，哪里會只有10名學生參加考試呀？一個年級說不定有幾百個學生呢。退一步說，即便是10名學生，我換10名學生來做，題目的難度未必就是0.72?！笔堑模阋呀?jīng)看出來了，一道題的難度與參加考試的學生群體是緊密相關(guān)的，離開考試對象談試題難度是沒有意義的，這就是經(jīng)典測量理論中關(guān)于難度這一指標的局限性。我們會在后續(xù)的項目反應理論的相關(guān)內(nèi)容中再來談談這個問題。不過在實際運用中，由于每次考試的考生群體是事先確定的，這便可以保證試題難度的相對穩(wěn)定了。

我們再來討論一個問題。假定在上面的例子中，我們同時算出了另外兩道題的難度值分別為0.82和0.92，也就是說，有三道題，其難度值分別是0.72、0.82、0.92，那么是不是可以斷定第一、第二題的難度之差與第二、第三題的難度之差是相等的呢？這是個很有意思的問題。三道題的難度依次相差0.10，但是卻不能下這個結(jié)論。實際上，難度指標P只是表示了試題的相對難度順序，卻不能指出難度差異的大小，我們可以說，第一題最難，第三題最容易，僅此而已。如果需要更多的信息，首先得把它轉(zhuǎn)成等距量表才能作進一步分析。關(guān)于什么是等距量表、怎么分析，這就不是我們今天要討論的內(nèi)容了。

我們分析試題的難度，目的是篩選題目。那么，要多大難度才算是好的試題呢？這取決于考試的目的和性質(zhì)。值得一提的是，難度和區(qū)分度是密切相關(guān)的。例如，一道題如果學生都做對了或都做錯了，難度P是1或0，也就無法區(qū)分學生的學業(yè)水平了，試題的區(qū)分度是0。表4顯示了試題的區(qū)分度與難度的關(guān)系。

由表4可以看出，難度過大或過小的題，其區(qū)分度都不夠理想；題目難度越接近0.50，它的潛在區(qū)分度就越大。

整份試卷的難度，同樣可以用公式P=算出來，只不過其中的[x] 是全體考生的平均成績，xmax是該份試卷的滿分值。當然，和一道試題的難度一樣，試卷的難度同樣跟考生群體有關(guān)。

（責編白聰敏）endprint

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

關(guān)于“考試”，我們了解多少？

關(guān)于“考試”，我們了解多少？