廖先祥+莫海浪
在第二個問題中,我們已經(jīng)知道了什么是真分?jǐn)?shù)理論,平時我們的考試就是以它為理論依據(jù)實施的。真分?jǐn)?shù)理論有時也叫經(jīng)典測量理論(Classical Test Theory,CTT),它有三個理論假設(shè):第一,真分?jǐn)?shù)具有不變性;第二,誤差是完全隨機的;第三,卷面分?jǐn)?shù)是真分?jǐn)?shù)與誤差分?jǐn)?shù)的和。其實,經(jīng)典測量理論的內(nèi)容并不只是前面我們所講的這些,在這個框架下,它的內(nèi)容可豐富呢。
問題3:你知道我們考試的信度是怎么回事嗎?
在很多人的眼里,考試并不是問題,“不就是做題嘛”。但問題是,我們要利用考試考出來的成績對考生進(jìn)行評價,進(jìn)而對學(xué)校、班級或其他團(tuán)體等進(jìn)行評價。如果是這樣,我們就不得不提出這樣一個問題了:“這次考試到底有多大可信性?”或者如此表述:“這次考試所得到的成績能代表考生的真實水平嗎?其可靠性達(dá)到了怎樣的程度?”如果這次考試的可靠性不夠高,那么用這樣的考試成績作為評價用的數(shù)據(jù)就有點兒“不靠譜”,我們不能讓考生被“不靠譜”的數(shù)據(jù)“冤枉”。
還記得我們在上文中提到的“小學(xué)一年級學(xué)生兩位數(shù)以內(nèi)的加減法運算能力”測驗嗎?我們?yōu)榱说玫綄W(xué)生的真實能力水平,前后進(jìn)行了60次同樣內(nèi)容的測驗(題目不同)。這在經(jīng)典測量理論(CTT)里叫做“平衡測驗”,其目的是使我們所獲得的考試成績更可信、成績更真實,進(jìn)而保證我們的評價更可靠。然而,這只是理論上的做法,在現(xiàn)實中我們不可能做那么多次測驗才進(jìn)行評價,這樣的代價實在太大了!哪怕就是平時的測驗,做兩次都很難,更不用說做那么多次同樣內(nèi)容的測驗了。至于中高考,從來都是一次過。那么,我們有沒有別的什么方法可以解決這個可信性、可靠性的問題呢?答案是肯定的。那些專門研究教育測量學(xué)的專家們已經(jīng)為我們提供了各種各樣的解決辦法,比如采用相關(guān)法進(jìn)行重測信度(Test-retest Re-liability)、復(fù)本信度(Equivalent-forms Re-liability)、分半信度(Split-half Reliability)的估計等。另外,克倫巴赫(Cronbach)α系數(shù)、荷伊特信度(Hoyt,1941)以及庫德和理查遜(G.F.Kuder & M.W.Richardson,1937)提出的兩個公式K-R20公式和K-R21公式等都是進(jìn)行信度估計的重要方法。
什么是重測信度呢?所謂重測信度,又叫再測信度,就是把同一(群)考生、同一個測驗在不同的時間里測量兩次,然后計算這兩次測驗成績的相關(guān)系數(shù),這個系數(shù)就叫做重測信度。
什么是復(fù)本信度呢?復(fù)本信度就是以兩個等值但題目不同的測驗(復(fù)本,就是平時我們所說的備用卷;若相同的人用正卷和備用卷測驗的結(jié)果一樣,那么這兩份試卷就是等值的)來考查同一個群體(考生),然后求得這批考生在這兩次測驗中所得分?jǐn)?shù)的相關(guān)系數(shù),這個相關(guān)系數(shù)就叫復(fù)本信度。
什么是分半信度呢?分半信度是指在測驗后將測驗試題分成相等的兩組(兩半),通常采用奇偶分組方法,即將測驗題目按照題號的奇數(shù)和偶數(shù)分成兩半,然后計算這兩組題目得分之間的相關(guān)系數(shù),這個系數(shù)就叫分半信度。
無論是重測信度、復(fù)本信度還是分半信度,這些名詞聽起來都是一些很專業(yè)的東西。不過,在科學(xué)很發(fā)達(dá)的今天,我們一般都能毫不費力地利用各種計算機軟件將它們快速測算出來。
例如,我們利用IRT統(tǒng)計分析軟件ConQuest version 2.0對2013年柳州市中考試卷的信度進(jìn)行計算分析,得到各科的克倫巴赫(Cronbach)α系數(shù):語文=0.90,數(shù)學(xué)=0.93,英語=0.93,物理=0.93,化學(xué)=0.93,思品=0.87,歷史=0.92。
其實,求克倫巴赫(Cronbach)α系數(shù)還可以用SPSS軟件來測算。為了計算2014年柳州市中考數(shù)學(xué)試卷的克倫巴赫(Cronbach)α系數(shù),我們使用了這個SPSS軟件,過程如下:
第一步:把每個學(xué)生每道題的得分輸入或?qū)氲絊PSS軟件中,如圖1。
第二步:在SPSS菜單中選取“分析”→“度量”→“可靠性分析”,如圖2。
第三步:在選取“可靠性分析”確定后出現(xiàn)如圖3的選項窗口,這時把左邊的各題變量都選放到右邊的項目欄中,模型選項取“α”,如圖3。
第四步:點擊“統(tǒng)計量”按鈕,出現(xiàn)如圖4的窗口,鉤選相應(yīng)選項后點擊“繼續(xù)”。在回到上一窗口后點擊“確定”即可。
第五步:在軟件的查看器中就可以查看到“可靠性統(tǒng)計量”克倫巴赫(Cronbach)α系數(shù)了。如圖5中的“可靠性統(tǒng)計量”,我們發(fā)現(xiàn)2014年柳州市中考數(shù)學(xué)的α系數(shù),即信度為0.92。
現(xiàn)在,信度系數(shù)求出來了,可是,這個系數(shù)到底要多大才能說明這份試卷的測驗結(jié)果具有足夠的可靠性呢?我們可以參考下面這個表格來下結(jié)論:
信度高低與克倫巴赫
(Cronbach)α系數(shù)關(guān)系對照表
由此看來,2014年柳州市中考數(shù)學(xué)試卷的測試信度較高,這份試卷是十分可信的,用它來作測試,結(jié)果是十分可靠的,能夠測出我們要考查的學(xué)生的真實雙基水平。
解決了考試的信度問題,下面便是考試的“效度”問題了。
問題4:我們?nèi)绾沃揽荚嚨慕Y(jié)果是否有效、效度如何?
信度只是幫助我們解決了考試結(jié)果的可信程度的問題,卻不能幫助我們解決考試結(jié)果是否有效、效度如何的問題。那什么是效度呢?考試的效度指的是考試結(jié)果的有效性程度,也就是已經(jīng)測量得到的東西與我們想要測量的東西是否相符、符合的程度有多大。比如,我們本想通過對一篇短文的分析來了解學(xué)生對某種文體的理解和掌握水平,但是在命題時我們卻問了大量有關(guān)作者生平、寫作思想、人生態(tài)度、對短文所描述情境的感悟以及對字、詞、句的分析等,很顯然,這樣的考試,其分?jǐn)?shù)不能有效地反映出學(xué)生對某種文體的理解和掌握水平。又比如,我們?yōu)榱丝疾槠吣昙墝W(xué)生對正、負(fù)數(shù)的理解能力,于是,命制了下面這份測試題。
一、選擇題(每小題8分,共32分)
1.有一組數(shù)據(jù):-1,0,+,-1.732,-3.14,106,-。下列說法中,正確的選項是( )。
A.正數(shù)有1個 B.負(fù)數(shù)有2個
C.正數(shù)有3個 D.負(fù)數(shù)有4個
2.如果水位升高5m時水位變化記作+5m,那么水位下降3m時水位變化記作( )。
A.+3m B.+2m
C.-2m D.-3m
3.下列說法正確的是( )。
A.負(fù)數(shù)是小于0的數(shù)
B.不是正數(shù)的數(shù)一定是負(fù)數(shù)
C.正數(shù)是不小于0的數(shù)
D.不是負(fù)數(shù)的數(shù)一定是正數(shù)
4.向東行進(jìn)-30米表示的意義是
( )。
A.向東行進(jìn)30米
B.向東行進(jìn)-30米
C.向西行進(jìn)30米
D.向西行進(jìn)-30米
二、填空題(每空8分,共48分)
5.甲、乙兩人同時從A地出發(fā),如果向南走48m,記作+48m,那么:
(1)A地的距離在數(shù)學(xué)上可標(biāo)記為
。
(2)乙向北走32m,記為 。
(3)甲走了+28m,表示甲向 方向走了28m。
(4)此時此刻,甲乙兩人的距離為
。
6.某種藥品的說明書上標(biāo)明保存溫度是(20±2)℃,由此可知:
(1)這種藥物保存溫度不能高于
℃。
(2)這種藥物保存溫度范圍只有
℃。
三、解答題(共20分)
7.2014年我國全年平均降水量比上年減少24mm,2013年比上年增長8mm,2012年比上一年減少20mm。用正數(shù)和負(fù)數(shù)表示這三年我國全年平均降水量比上年的增長量。
那么,這份試題能否測出七年級學(xué)生對正、負(fù)數(shù)的理解能力呢?如果能的話,它的有效程度怎樣?要回答這樣一個問題,測量學(xué)的專家們給出了三種方式的回答,提出了三種類別的效度:一是內(nèi)容效度(Content Validity),指的是測驗的試題對想要測驗的內(nèi)容的代表性程度;二是結(jié)構(gòu)效度(Construct Validity),指的是測驗結(jié)果與測驗的理論假設(shè)之間的一致性程度;三是效標(biāo)關(guān)聯(lián)效度(Criterion-related Validity),又稱實證效度,指的是測驗的結(jié)果與某種外在效標(biāo)之間的一致性程度,一般用測驗分?jǐn)?shù)與效標(biāo)之間的相關(guān)系數(shù)表示。
在日常的教學(xué)中,我們的考試以檢測知識為主,比較容易獲得較高的內(nèi)容效度,因此,我們對這一類測驗也往往更加關(guān)注它們的內(nèi)容效度。內(nèi)容效度,在實際操作中有時也叫“知識覆蓋面”。我們在命題時為了提高測驗的內(nèi)容效度,往往先羅列出考試范圍內(nèi)的所有內(nèi)容,然后再盡可能多地對所羅列的內(nèi)容設(shè)定相關(guān)的試題,具體操作步驟如下:第一,確定考試總體內(nèi)容,并列出有關(guān)知識與技能的分類板塊;第二,進(jìn)一步細(xì)化考試內(nèi)容,并根據(jù)其重要性確定各內(nèi)容的加權(quán)比例,作出盡可能詳細(xì)的描述;第三,確定每道題所測的知識與技能,將題目的分類歸屬與上述所列考試內(nèi)容進(jìn)行比較;第四,結(jié)合考試內(nèi)容,計算試題所包含的考試內(nèi)容比例、內(nèi)容板塊所占比例、分值所占內(nèi)容量值比例,綜合評估內(nèi)容效度。以下是柳州市對2014年中考數(shù)學(xué)內(nèi)容效度的評估:
《中考說明》所列知識點136個,考核了123個,占90.4%;出自課本的有103分,占到總分的85.8%;在各個板塊內(nèi)容賦分比例中,數(shù)與代數(shù)部分占56分,空間與圖形部分占52分,統(tǒng)計與概率部分占12分,其賦分比例是14∶13∶3;如果按照學(xué)年內(nèi)容比,則七年級24分,八年級48分,九年級48分,學(xué)年內(nèi)容的比例是1∶2∶2。
通常,我們在命題前會預(yù)先公布該年度的筆試考試的內(nèi)容范圍,然后根據(jù)這一考試范圍研制命題雙向細(xì)目表,同時根據(jù)考試內(nèi)容范圍進(jìn)行題目的命制,在命制完題目后,再對照雙向細(xì)目表描述試題所包含的內(nèi)容,最后計算試題所含內(nèi)容占雙向細(xì)目表中的考試范圍內(nèi)容比例。另外,我們還會根據(jù)實際授課的課時比例,統(tǒng)計試題分值的分布比例,以觀察考試值分量是否合理。還有另一個也是非常重要的評價內(nèi)容,那就是試題與學(xué)科課程板塊分布是否合理。
對于中小學(xué)教師來說,我們能把握好內(nèi)容效度也基本能滿足平時對學(xué)生考試的要求了。
(責(zé)編 白聰敏)