語言測試中區(qū)別度的統(tǒng)計與應(yīng)用

2010-12-11 10:44:20周世界

大連海事大學(xué)學(xué)報(社會科學(xué)版) 2010年6期

關(guān)鍵詞：標準分區(qū)別試卷

周世界

(大連海事大學(xué) 外國語學(xué)院,遼寧大連 116026)

語言測試中區(qū)別度的統(tǒng)計與應(yīng)用

周世界

(大連海事大學(xué) 外國語學(xué)院,遼寧大連 116026)

在闡述語言統(tǒng)計學(xué)和測試學(xué)的基礎(chǔ)上,以具體的語言測試結(jié)果為例對區(qū)別度進行分析,指出統(tǒng)計方法是檢驗區(qū)別度的有效方法,并論述區(qū)別度在常模參照語言測試中的適用和功能.

語言測試;區(qū)別度;常模參照

一、引言

對語言測試結(jié)果進行統(tǒng)計分析是衡量教學(xué)質(zhì)量的重要手段,而對語言測試試卷進行預(yù)測是保證測試質(zhì)量的重要途徑.評價一份試卷的好壞既要衡量試卷的整體質(zhì)量,又要評價構(gòu)成試卷的個體題目質(zhì)量.評判總體質(zhì)量一般要分析試卷的效度和信度,而評價試卷的個體題目質(zhì)量則需要統(tǒng)計其難度和區(qū)別度.其中,區(qū)別度是衡量試卷個體題目質(zhì)量的重要指標.

區(qū)別度,顧名思義,是語言測試中區(qū)分考生語言能力的尺度,反過來講,就是語言能力水平不同的考生對題目的反應(yīng)存在的差異.針對試卷中的某一題目,如果語言能力高的考生得分高而語言能力低的考生得分低,說明該題的區(qū)別度高;如果語言能力高和語言能力低的考生得分相當,說明該題的區(qū)別度低或沒有區(qū)別度;如果語言能力高的考生得分低而語言能力低的考生得分高,則該題的區(qū)別度是負值,說明該題存在很大的問題,需要引起高度的重視.因此,如何衡量題目的區(qū)別度構(gòu)成測試理論研究中,特別是教育統(tǒng)計學(xué)中的重要課題.本文旨在基于語言統(tǒng)計學(xué)和測試學(xué),以一次具體的測試為例,講述測量題目區(qū)別度的不同統(tǒng)計方法,進而闡述區(qū)別度在測試中的應(yīng)用及其功能.

二、區(qū)別度的統(tǒng)計方法

從上述區(qū)別度的定義可以看出,如果題目區(qū)別度高,則語言能力高的考生得分高,語言能力低的考生得分低;如果題目區(qū)別度低,則語言能力高與低的考生得分相當;如果題目區(qū)別度為負值,則語言能力低的考生得分高,而語言能力高的考生得分低.因此,保證測試題目的質(zhì)量就是要保持上述第一種區(qū)別度,提高第二種區(qū)別度,杜絕第三種區(qū)別度的出現(xiàn).要做到這一點,首先要統(tǒng)計出每個測試題目的區(qū)別度,然后針對每一種情況作出不同的處理.

計算測試題目的區(qū)別度,往往在試卷設(shè)計好之后、正式考試之前進行.在一合理的小范圍內(nèi)(目的是保密),按照考生的語言能力,從高、中、低組中隨機抽取一定數(shù)量的考生(本研究隨機抽取了30名考生)進行預(yù)測.

本次測試的內(nèi)容根據(jù)大學(xué)英語教學(xué)大綱的總體要求而設(shè),一共有86道題,其中前85題為客觀題,涉及聽力、閱讀、語法與結(jié)構(gòu)、改錯和完形填空,第86題為寫作題.

預(yù)測結(jié)束后,考生的詳細得分都被匯總到一張表格中.其中,行代表每位考生的得分情況,列以T1～T86標注,代表第1～86題,最后一列為每位考生在86道題目上的總成績.依據(jù)每位考生總成績的高低排序,把得分最高的前10名考生定義為高分組,得分最低的后10名考生定義為低分組,其他考生為中分組.

一個有區(qū)別度的題目應(yīng)該與整個測試的走向一致,也就是說得分高的考生要比得分低的考生有較高的可能答對該題目,否則此題目就不能反映考生的語言能力.

在高分組和低分組人數(shù)確定之后(中分組不參與計算),分別計算出每一道題目上高分組的得分(H)和低分組的得分(L),然后按照公式 D=H/ (H+L)計算出每題的區(qū)別度(D).例如,本預(yù)測中的第7題(T7),高分組得8分,低分組得4分,那么它的區(qū)別度為

按照這種計算方法,區(qū)別度的取值范圍在0～1之間,越接近1說明區(qū)別度越高,越接近0說明區(qū)別度越低.Grant Henning認為,依據(jù)這種方法計算出的可接受區(qū)別度區(qū)間應(yīng)在0.67～1之間.因此,第7題的區(qū)別度0.67被認為是較低的可接受度.

計算題目區(qū)別度的另外一個公式是在得出高低兩組實際得分的基礎(chǔ)上,分別計算出它們的答對率PH(高分組答對率=高分組答對的人數(shù)/高分組總?cè)藬?shù))和 PL(低分組答對率=低分組答對的人數(shù)/低分組總?cè)藬?shù)),然后套入公式 D=PH-PL計算,得出區(qū)別度.例如第7題的區(qū)別度為

按照這種計算方法,區(qū)別度的取值范圍在-1到+1之間,越接近+1說明區(qū)別度越高,越接近-1說明區(qū)別度越低.

以上兩種區(qū)別度計算方法的優(yōu)點是方法簡便,但容易受到極端值(極大值或極小值)的影響.隨著計算機和統(tǒng)計軟件的不斷發(fā)展,更加可靠的統(tǒng)計手段不斷涌現(xiàn),其中,獨立T檢驗就是一種很實用的方法.在SPSS中調(diào)用成績匯總表,運行獨立T檢驗后輸出每一道題的T-值.表1是經(jīng)簡化的輸出結(jié)果.

T-值越大說明區(qū)別度越高,T-值越小說明區(qū)別度越低.在統(tǒng)計學(xué)上,0.05被稱做顯著性水平,它是一個分水嶺.如果某題的顯著性小于0.05,說明高分組和低分組之間在該題上具有顯著性差異;如果某題的顯著性大于0.05,則說明該題在高分組和低分組之間即使有差異,也沒有達到統(tǒng)計學(xué)意義上的顯著水準.當題目的顯著性從0.05逐漸增大到接近1時,該題在高分組與低分組之間便沒有任何差異.

表1 經(jīng)簡化的輸出結(jié)果

在表1中,第一組包括第 T34、T27、T45、T54、T7、T41、T67題,它們的 T-值都大于2,顯著性水平都小于0.05,說明高分組和低分組的考生在這些題目上的反應(yīng)具有顯著性差異.換句話說,這些題目的區(qū)別度高,具有很強的區(qū)別功能.

表1中的第二組包括第 T14、T50、T31、T39、T58、T74、T77題,T-值從0.493逐漸減少到0,而顯著性水平則從0.628逐漸增大到1,說明高分組和低分組之間的差異越來越小,直至顯著性達到1時,沒有了任何區(qū)別度.

表1中的第三組包括第T69、T80、T56、T46、T3題,T-值為負數(shù),表明這部分題存在著嚴重的問題,說明語言能力高的考生在做這部分題時的成績沒有語言能力差的考生好,出現(xiàn)了匪夷所思的情況.

經(jīng)過以上的統(tǒng)計分析,試卷中的每一個題目都按照T-值的大小被刻畫成不同的區(qū)別度.對于區(qū)別度高的題目,在預(yù)測后將被保留下來用于正式考題中,因為它們具有很高的區(qū)別功能,能有效地反映出考生的不同語言能力.對于區(qū)別度低的題目則需要進一步修改或刪減以提高它們的區(qū)別度.根據(jù)測試實踐,這類題目一般都過于簡單,無論語言能力高或低的考生都能做對.而對于T-值呈現(xiàn)為負值的題目,則需要替換,這類題目往往因為太難,所有考生都不能做對.但是,在長期的考試中,語言能力低的考生可能養(yǎng)成了猜題的習(xí)慣,他們的猜測準確率高于語言能力高的考生,所以造成這種局面.

三、區(qū)別度的適用

區(qū)別度是衡量試卷個體題目的重要指標,但不是唯一的指標.區(qū)別度只有和難度結(jié)合起來才能保證試卷的質(zhì)量.但是,區(qū)別度和難度是兩個相互補充又相互矛盾的統(tǒng)一體.區(qū)別度和難度哪個被優(yōu)先考慮,取決于測試的目的和類型.根據(jù)測試目的的不同,測試分為常模參照測試和標準參照測試兩種類型.常模參照測試用于離散考生的成績,進而劃分考生的語言能力,以預(yù)測不同語言水平考生的未來能力;而標準參照測試則用于評價不同語言能力的考生是否達到教學(xué)大綱的要求,以測量考生在當前是否掌握了教學(xué)大綱所規(guī)定的內(nèi)容.

在常模參照測試(如現(xiàn)行大學(xué)英語四、六級考試)中,區(qū)別度優(yōu)先于難度.如果把表1當做試題庫,用來設(shè)計常模參照測試,設(shè)計者首先對"區(qū)別度(T-值)"一列從大到小排序,如表2第二列所示.區(qū)別度大的題目將被選中,而區(qū)別度小或沒有區(qū)別度的題目,特別是區(qū)別度為負值的題目將不被選中.按照區(qū)別度從大到小備選出題目之后,參照難度變量(如表2第三列所示)確定最終的測試題目.例如,對于T54、T7、T45題,相同的區(qū)別度都達到了統(tǒng)計學(xué)上的顯著性水準,但是它們的"難度系數(shù)FV=答對人數(shù)/總?cè)藬?shù)"卻不同.FV值越大,說明題目越簡單;FV值越小,說明題目越難.如果考生的語言總體能力低,則T54將被采用,因為該題的難度系數(shù)值(0.789)大,說明難度小,更適合于這類考生;如果考生的語言總體能力高,則宜采用T45,該題的難度系數(shù)值(0.450)小,說明該題目的難度大.

表2 常模參照測試中的區(qū)別度與難度

表2介紹了常模參照測試設(shè)計時遵循的原則:區(qū)別度優(yōu)先于難度.如果把同樣的試題庫用以設(shè)計標準參照測試,那么設(shè)計順序則是難度優(yōu)先于區(qū)別度.因為經(jīng)常以期末考試形式出現(xiàn)的標準參照測試依據(jù)的是教學(xué)大綱,它要求有較高的答對率或通過率,當測試答對率高到一定程度(如70%～90%)時,題目的區(qū)別度就會大幅度下降,直至沒有區(qū)別度.因此,在設(shè)計標準參照測試試卷時,設(shè)計者首先對"難度"(FV值)一列變量進行從大到小排序(如表3第三列所示),備選出難度適合的題目后,再對區(qū)別度參數(shù)進行排序(如表3中第二列所示).

表3 標準參照測試中的區(qū)別度與難度

表3中,T67和 T50題、T7和 T77題、T45和T58題,它們分別有相同的難度 0.630、0.500、0.450,但是 T67、T7和T45題的區(qū)別度更大,因此, T67、T7和T45題被選中的可能性更大.

由此,區(qū)別度和難度是衡量試卷題項的兩個重要因素.對于不同類型和不同目的的測試,只有合理解決了區(qū)別度和難度之間的優(yōu)先關(guān)系,才能達到測試的真正目標,進而保證測試的信度和效度.

四、區(qū)別度的功能

區(qū)別度能夠區(qū)分考生的語言能力,經(jīng)過區(qū)別度的離散過程后,不同語言能力水平的考生成績會形成一種自然界中常見的模型,稱做常態(tài)分布或正態(tài)分布.其左右對稱,呈一倒立的鐘形,如圖1所示.

圖1中,橫坐標代表所有考生的成績,分數(shù)從左向右逐漸增大,縱坐標表示得到某個分數(shù)的總?cè)藬?shù).圖形的中間部位最高,說明大多數(shù)考生的成績主要集中在這一區(qū)域.左右兩端呈現(xiàn)逐漸減小的趨勢,說明低分段(左側(cè))或高分段(右側(cè))的考生數(shù)量逐漸減少.

不同的測試,總分設(shè)定不同.無論原始試卷滿分多少,都可通過公式 z=(x-x )/sd把所有考生的實際成績轉(zhuǎn)化為標準分(用z表示).依據(jù)這個公式,當考生的成績等于所有考生的平均成績時,其標準分等于0,即 x-x=0;當考生的實際成績高于平均分時,標準分為正數(shù),即 x-x >0;當考生的實際成績低于平均分時,標準分為負數(shù).經(jīng)過公式轉(zhuǎn)化后的成績被標注在橫坐標軸上,便構(gòu)成了圖1中顯示的"標準分"一項,即-3,-2,-1,0,1,2,3.

圖1 區(qū)別度的常態(tài)分布

標準分呈現(xiàn)負數(shù)或零的現(xiàn)象很難被常人所理解,因而在實際的測試中,往往通過另外一個公式,將標準分進行二次轉(zhuǎn)換,形成標準化分數(shù).不同的測試制度采用不同的標準化轉(zhuǎn)換公式,現(xiàn)行大學(xué)英語四、六級考試采用"標準化分數(shù)=500+70X標準分"的轉(zhuǎn)換公式.其中,500為平均成績,70為標準差.例如,某考生在百分制測試中的實際成績經(jīng)過轉(zhuǎn)化后標準分等于1,那么,其成績報告單中所顯示的標準化分數(shù)為570(=500+70X1).如果某考生的標準分為-1,那么成績報告單上所顯示的標準化分數(shù)為430(=500+70X(-1)).

在標準分為[-3,+3]的區(qū)間內(nèi),大學(xué)英語四、六級測試的標準化分數(shù)區(qū)間為290～710,即成績報告中的最低分為290分,最高分為710分.這個區(qū)間能夠解釋99.74%的考試成績,幾乎囊括了所有考生.

通過區(qū)別度的分化,經(jīng)標準分或標準化分數(shù)的體現(xiàn),不同語言能力的考生被刻畫在相對位置上.如果某考生在本次大學(xué)英語四級考試中的成績報告為640分,那么其在本次考試中的標準分為2.當標準分為2時,在圖形的右側(cè)切去3.9%面積,如圖1所示.這說明該考生的語言能力位于3.9%的最優(yōu)秀學(xué)生之中,語言能力很高.當然,如果成績報告為360分,則標準分為-2,說明該考生位于語言能力最差的3.9%人之中.

總之,區(qū)別度的最終功能在于把測試成績離散成標準正態(tài)分布模型,反映出不同語言能力考生在所有考生中的相對位置.

[1]HENNING G.A guide to language testing[M].Boston: Heinle&Heinle Publishers,1987.

[2]BACHMAN L F.Fundamental considerations in language testing[M].Oxford:Oxford University Press,1990.

[3]BACHMAN L F.Statistical analyses for language assessment[M].Cambridge:Cambridge University Press,2004.

[4]BROWN J D,HUDSON T.Criterion-referenced language testing[M].Cambridge:Cambridge University Press, 2002.

[5]EMBERTSON S E,REISE S P.Item response theory for psychologists[M].New Jersey:Lawrence Erlbaum Associates,Inc.,2000.

[6]周世界.語言統(tǒng)計學(xué)[M].大連:大連海事大學(xué)出版社, 2004.

Statistics and applications of discrimination in language test

ZHOU Shi-jie

(School of Foreign Languages,Dalian Maritime Univ., Dalian 116026,China)

Based on linguistic statistics and language testing, with a specific language test as example,the paper analyzed the discrimination.It pointed out that statistics are a valid measure to the discrimination.Then it expounded the applications and function of the discrimination in the norm-referenced language test.

language test;discrimination;norm-reference

1671-7041(2010)06-0099-04

H31

2010-06-25

周世界(1967-),男,山東淄博人,教授; E-mail:solyzhou@hotmail.com

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

語言測試中區(qū)別度的統(tǒng)計與應(yīng)用

一、引 言

二、區(qū)別度的統(tǒng)計方法

三、區(qū)別度的適用

四、區(qū)別度的功能

一、引言

三、區(qū)別度的適用

四、區(qū)別度的功能