關(guān)于“考試”，我們了解多少？

2015-05-11 15:31:12廖先祥莫海浪

廣西教育·D版 2015年4期

廖先祥+莫海浪

在第二個問題中，我們已經(jīng)知道了什么是真分?jǐn)?shù)理論，平時我們的考試就是以它為理論依據(jù)實施的。真分?jǐn)?shù)理論有時也叫經(jīng)典測量理論（Classical Test Theory，CTT），它有三個理論假設(shè)：第一，真分?jǐn)?shù)具有不變性；第二，誤差是完全隨機的；第三，卷面分?jǐn)?shù)是真分?jǐn)?shù)與誤差分?jǐn)?shù)的和。其實，經(jīng)典測量理論的內(nèi)容并不只是前面我們所講的這些，在這個框架下，它的內(nèi)容可豐富呢。

問題3：你知道我們考試的信度是怎么回事嗎？

在很多人的眼里，考試并不是問題，“不就是做題嘛”。但問題是，我們要利用考試考出來的成績對考生進(jìn)行評價，進(jìn)而對學(xué)校、班級或其他團(tuán)體等進(jìn)行評價。如果是這樣，我們就不得不提出這樣一個問題了：“這次考試到底有多大可信性？”或者如此表述：“這次考試所得到的成績能代表考生的真實水平嗎？其可靠性達(dá)到了怎樣的程度？”如果這次考試的可靠性不夠高，那么用這樣的考試成績作為評價用的數(shù)據(jù)就有點兒“不靠譜”，我們不能讓考生被“不靠譜”的數(shù)據(jù)“冤枉”。

還記得我們在上文中提到的“小學(xué)一年級學(xué)生兩位數(shù)以內(nèi)的加減法運算能力”測驗嗎？我們?yōu)榱说玫綄W(xué)生的真實能力水平，前后進(jìn)行了60次同樣內(nèi)容的測驗（題目不同）。這在經(jīng)典測量理論（CTT）里叫做“平衡測驗”，其目的是使我們所獲得的考試成績更可信、成績更真實，進(jìn)而保證我們的評價更可靠。然而，這只是理論上的做法，在現(xiàn)實中我們不可能做那么多次測驗才進(jìn)行評價，這樣的代價實在太大了！哪怕就是平時的測驗，做兩次都很難，更不用說做那么多次同樣內(nèi)容的測驗了。至于中高考，從來都是一次過。那么，我們有沒有別的什么方法可以解決這個可信性、可靠性的問題呢？答案是肯定的。那些專門研究教育測量學(xué)的專家們已經(jīng)為我們提供了各種各樣的解決辦法，比如采用相關(guān)法進(jìn)行重測信度（Test-retest Re-liability）、復(fù)本信度（Equivalent-forms Re-liability）、分半信度（Split-half Reliability）的估計等。另外，克倫巴赫（Cronbach）α系數(shù)、荷伊特信度（Hoyt，1941）以及庫德和理查遜（G.F.Kuder & M.W.Richardson，1937）提出的兩個公式K-R20公式和K-R21公式等都是進(jìn)行信度估計的重要方法。

什么是重測信度呢？所謂重測信度，又叫再測信度，就是把同一（群）考生、同一個測驗在不同的時間里測量兩次，然后計算這兩次測驗成績的相關(guān)系數(shù)，這個系數(shù)就叫做重測信度。

什么是復(fù)本信度呢？復(fù)本信度就是以兩個等值但題目不同的測驗（復(fù)本，就是平時我們所說的備用卷；若相同的人用正卷和備用卷測驗的結(jié)果一樣，那么這兩份試卷就是等值的）來考查同一個群體（考生），然后求得這批考生在這兩次測驗中所得分?jǐn)?shù)的相關(guān)系數(shù)，這個相關(guān)系數(shù)就叫復(fù)本信度。

什么是分半信度呢？分半信度是指在測驗后將測驗試題分成相等的兩組（兩半），通常采用奇偶分組方法，即將測驗題目按照題號的奇數(shù)和偶數(shù)分成兩半，然后計算這兩組題目得分之間的相關(guān)系數(shù)，這個系數(shù)就叫分半信度。

無論是重測信度、復(fù)本信度還是分半信度，這些名詞聽起來都是一些很專業(yè)的東西。不過，在科學(xué)很發(fā)達(dá)的今天，我們一般都能毫不費力地利用各種計算機軟件將它們快速測算出來。

例如，我們利用IRT統(tǒng)計分析軟件ConQuest version 2.0對2013年柳州市中考試卷的信度進(jìn)行計算分析，得到各科的克倫巴赫（Cronbach）α系數(shù)：語文=0.90，數(shù)學(xué)=0.93，英語=0.93，物理=0.93，化學(xué)=0.93，思品=0.87，歷史=0.92。

其實，求克倫巴赫（Cronbach）α系數(shù)還可以用SPSS軟件來測算。為了計算2014年柳州市中考數(shù)學(xué)試卷的克倫巴赫（Cronbach）α系數(shù)，我們使用了這個SPSS軟件，過程如下：

第一步：把每個學(xué)生每道題的得分輸入或?qū)氲絊PSS軟件中，如圖1。

第二步：在SPSS菜單中選取“分析”→“度量”→“可靠性分析”，如圖2。

第三步：在選取“可靠性分析”確定后出現(xiàn)如圖3的選項窗口，這時把左邊的各題變量都選放到右邊的項目欄中，模型選項取“α”，如圖3。

第四步：點擊“統(tǒng)計量”按鈕，出現(xiàn)如圖4的窗口，鉤選相應(yīng)選項后點擊“繼續(xù)”。在回到上一窗口后點擊“確定”即可。

第五步：在軟件的查看器中就可以查看到“可靠性統(tǒng)計量”克倫巴赫（Cronbach）α系數(shù)了。如圖5中的“可靠性統(tǒng)計量”，我們發(fā)現(xiàn)2014年柳州市中考數(shù)學(xué)的α系數(shù)，即信度為0.92。

現(xiàn)在，信度系數(shù)求出來了，可是，這個系數(shù)到底要多大才能說明這份試卷的測驗結(jié)果具有足夠的可靠性呢？我們可以參考下面這個表格來下結(jié)論：

信度高低與克倫巴赫

（Cronbach）α系數(shù)關(guān)系對照表

由此看來，2014年柳州市中考數(shù)學(xué)試卷的測試信度較高，這份試卷是十分可信的，用它來作測試，結(jié)果是十分可靠的，能夠測出我們要考查的學(xué)生的真實雙基水平。

解決了考試的信度問題，下面便是考試的“效度”問題了。

問題4：我們?nèi)绾沃揽荚嚨慕Y(jié)果是否有效、效度如何？

信度只是幫助我們解決了考試結(jié)果的可信程度的問題，卻不能幫助我們解決考試結(jié)果是否有效、效度如何的問題。那什么是效度呢？考試的效度指的是考試結(jié)果的有效性程度，也就是已經(jīng)測量得到的東西與我們想要測量的東西是否相符、符合的程度有多大。比如，我們本想通過對一篇短文的分析來了解學(xué)生對某種文體的理解和掌握水平，但是在命題時我們卻問了大量有關(guān)作者生平、寫作思想、人生態(tài)度、對短文所描述情境的感悟以及對字、詞、句的分析等，很顯然，這樣的考試，其分?jǐn)?shù)不能有效地反映出學(xué)生對某種文體的理解和掌握水平。又比如，我們?yōu)榱丝疾槠吣昙墝W(xué)生對正、負(fù)數(shù)的理解能力，于是，命制了下面這份測試題。

一、選擇題（每小題8分，共32分）

1.有一組數(shù)據(jù)：-1，0，+，-1.732，-3.14，106，-。下列說法中，正確的選項是（）。

A.正數(shù)有1個 B.負(fù)數(shù)有2個

C.正數(shù)有3個 D.負(fù)數(shù)有4個

2.如果水位升高5m時水位變化記作+5m，那么水位下降3m時水位變化記作（）。

A.+3m B.+2m

C.-2m D.-3m

3.下列說法正確的是（）。

A.負(fù)數(shù)是小于0的數(shù)

B.不是正數(shù)的數(shù)一定是負(fù)數(shù)

C.正數(shù)是不小于0的數(shù)

D.不是負(fù)數(shù)的數(shù)一定是正數(shù)

4.向東行進(jìn)-30米表示的意義是

（）。

A.向東行進(jìn)30米

B.向東行進(jìn)-30米

C.向西行進(jìn)30米

D.向西行進(jìn)-30米

二、填空題（每空8分，共48分）

5.甲、乙兩人同時從A地出發(fā)，如果向南走48m，記作+48m，那么：

（1）A地的距離在數(shù)學(xué)上可標(biāo)記為

。

（2）乙向北走32m，記為。

（3）甲走了+28m，表示甲向方向走了28m。

（4）此時此刻，甲乙兩人的距離為

。

6.某種藥品的說明書上標(biāo)明保存溫度是（20±2）℃，由此可知：

（1）這種藥物保存溫度不能高于

℃。

（2）這種藥物保存溫度范圍只有

℃。

三、解答題（共20分）

7.2014年我國全年平均降水量比上年減少24mm，2013年比上年增長8mm，2012年比上一年減少20mm。用正數(shù)和負(fù)數(shù)表示這三年我國全年平均降水量比上年的增長量。

那么，這份試題能否測出七年級學(xué)生對正、負(fù)數(shù)的理解能力呢？如果能的話，它的有效程度怎樣？要回答這樣一個問題，測量學(xué)的專家們給出了三種方式的回答，提出了三種類別的效度：一是內(nèi)容效度（Content Validity），指的是測驗的試題對想要測驗的內(nèi)容的代表性程度；二是結(jié)構(gòu)效度（Construct Validity），指的是測驗結(jié)果與測驗的理論假設(shè)之間的一致性程度；三是效標(biāo)關(guān)聯(lián)效度（Criterion-related Validity），又稱實證效度，指的是測驗的結(jié)果與某種外在效標(biāo)之間的一致性程度，一般用測驗分?jǐn)?shù)與效標(biāo)之間的相關(guān)系數(shù)表示。

在日常的教學(xué)中，我們的考試以檢測知識為主，比較容易獲得較高的內(nèi)容效度，因此，我們對這一類測驗也往往更加關(guān)注它們的內(nèi)容效度。內(nèi)容效度，在實際操作中有時也叫“知識覆蓋面”。我們在命題時為了提高測驗的內(nèi)容效度，往往先羅列出考試范圍內(nèi)的所有內(nèi)容，然后再盡可能多地對所羅列的內(nèi)容設(shè)定相關(guān)的試題，具體操作步驟如下：第一，確定考試總體內(nèi)容，并列出有關(guān)知識與技能的分類板塊；第二，進(jìn)一步細(xì)化考試內(nèi)容，并根據(jù)其重要性確定各內(nèi)容的加權(quán)比例，作出盡可能詳細(xì)的描述；第三，確定每道題所測的知識與技能，將題目的分類歸屬與上述所列考試內(nèi)容進(jìn)行比較；第四，結(jié)合考試內(nèi)容，計算試題所包含的考試內(nèi)容比例、內(nèi)容板塊所占比例、分值所占內(nèi)容量值比例，綜合評估內(nèi)容效度。以下是柳州市對2014年中考數(shù)學(xué)內(nèi)容效度的評估：

《中考說明》所列知識點136個，考核了123個，占90.4%；出自課本的有103分，占到總分的85.8%；在各個板塊內(nèi)容賦分比例中，數(shù)與代數(shù)部分占56分，空間與圖形部分占52分，統(tǒng)計與概率部分占12分，其賦分比例是14∶13∶3；如果按照學(xué)年內(nèi)容比，則七年級24分，八年級48分，九年級48分，學(xué)年內(nèi)容的比例是1∶2∶2。

通常，我們在命題前會預(yù)先公布該年度的筆試考試的內(nèi)容范圍，然后根據(jù)這一考試范圍研制命題雙向細(xì)目表，同時根據(jù)考試內(nèi)容范圍進(jìn)行題目的命制，在命制完題目后，再對照雙向細(xì)目表描述試題所包含的內(nèi)容，最后計算試題所含內(nèi)容占雙向細(xì)目表中的考試范圍內(nèi)容比例。另外，我們還會根據(jù)實際授課的課時比例，統(tǒng)計試題分值的分布比例，以觀察考試值分量是否合理。還有另一個也是非常重要的評價內(nèi)容，那就是試題與學(xué)科課程板塊分布是否合理。

對于中小學(xué)教師來說，我們能把握好內(nèi)容效度也基本能滿足平時對學(xué)生考試的要求了。

（責(zé)編白聰敏）

關(guān)于“考試”，我們了解多少？

關(guān)于“考試”，我們了解多少？