• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      科利法在教育測量中的應(yīng)用

      2020-11-04 11:38:10郭東威丁根宏
      關(guān)鍵詞:科利系統(tǒng)誤差信度

      郭東威,丁根宏

      (1. 周口師范學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,河南 周口 466000;2. 河海大學(xué)理學(xué)院,江蘇 南京 211100)

      在教育測量中,有一些測驗(yàn)難以用客觀的方法打分,往往會(huì)受到評分者主觀因素的影響而產(chǎn)生較大誤差,比如對競賽論文、作文及藝術(shù)作品等的評分.評分誤差從廣義上可以分為系統(tǒng)誤差、隨機(jī)誤差和人為誤差.系統(tǒng)誤差是指由評分者評分風(fēng)格引起的恒定有規(guī)律的偏差,總是以一定的大小和方向偏離真分?jǐn)?shù).例如,有的評分者非常嚴(yán)格,評分普遍偏低;有的評分者較為寬松,評分普遍偏高;有的評分者的評分區(qū)分度較大,而有的評分者的評分區(qū)分度較小.隨機(jī)誤差是指由評分者不確定因素引起的無規(guī)律的偏差,評分大小和方向均是完全隨機(jī)地偏離真分?jǐn)?shù).人為誤差是指評分者有意提高或降低評分.從信度的角度來說,系統(tǒng)誤差對評分者之間的信度影響較小,也就是對被試的等級影響不大,但是會(huì)造成評分不準(zhǔn)確,不能客觀反應(yīng)被試的水平;隨機(jī)誤差和人為誤差對評分者之間的信度一般影響較大,容易造成評分的不一致.為了公平評判被試的水平,通常由多個(gè)評分者對被試進(jìn)行評分.如果每個(gè)被試都有相同的評分者進(jìn)行評分,也就是評分矩陣是完整的,并且評分者之間的信度較高,那么可以用傳統(tǒng)法(直接取均分法)作為被試的終評成績.這樣的終評成績雖然存在誤差,但是依據(jù)分值大小化為等級,可以較好地反應(yīng)被試者在被試群體中的相對水平.在大型競賽或考試中,受多種客觀因素的制約,如被試人數(shù)眾多、評分者數(shù)量有限、評閱時(shí)間限制等,上述理想的評閱方案一般行不通,通常是每個(gè)被試隨機(jī)分配給幾個(gè)評分者進(jìn)行評分,也就是說評分矩陣是殘缺不全的.在這種情況下,即使評分者之間的信度很高,也不易直接對原始評分取均值作為被試的終評成績,因?yàn)檫@樣的終評成績由于系統(tǒng)誤差的影響既不能很好地反映被試的客觀水平,也不能科學(xué)地反映被試的相對水平(等級).

      國內(nèi)外應(yīng)用多種方法對主觀型評分做了大量的研究.1993年WIGGLESWORTH[1]的研究表明評分者之間的變異是測量誤差的主要來源之一.盡管評分者經(jīng)過培訓(xùn)并遵守評分量表的規(guī)則,但是不同的評分者對同一被試的評分依然不一致,甚至有時(shí)差異很大[2-3].在經(jīng)典測量理論(CTT)的基礎(chǔ)上發(fā)展起來了概化理論(GT),該理論通過方差分析等技術(shù),從多個(gè)側(cè)面進(jìn)行量化分析來估計(jì)不同誤差對測量分?jǐn)?shù)的影響[4-6].2002年我國學(xué)者嚴(yán)芳等[7]介紹了用結(jié)構(gòu)方程模型來估計(jì)概化理論中的評分者信度.Rasch模型是項(xiàng)目反應(yīng)理論的基本模型之一,田青源[8]、王躍武等[9]應(yīng)用Rasch模型研究了主觀評分中評分者的信度.陳菊詠[10]、馬春燕[11]分別利用LONGFORD方法對評分者信度及異常分?jǐn)?shù)進(jìn)行了研究.此外,還有其他一些方法,可以參看文獻(xiàn)[12-15].

      本文主要研究系統(tǒng)誤差、人為誤差及評委誤判在殘缺評分型競賽中的影響.如作文競賽、大學(xué)生數(shù)學(xué)建模競賽等,這類大型競賽不僅重視成績(分?jǐn)?shù)),以測驗(yàn)被試的絕對水平,而且還很看重等級(名次),用來評出獲獎(jiǎng)?wù)?為了較好地測量被試的客觀水平,本研究采用體育競技排名方法科利法對被試進(jìn)行評價(jià).實(shí)例分析表明,該方法對被試進(jìn)行評價(jià)具有無偏性及較好的穩(wěn)定性.所謂無偏性是指被試的終評成績(或等級)僅與各評分者對被試的排名有關(guān),不受原始評分系統(tǒng)誤差的影響.穩(wěn)定性是指當(dāng)某一個(gè)或幾個(gè)原始分?jǐn)?shù)出現(xiàn)異常時(shí),不至于導(dǎo)致終評等級嚴(yán)重偏離客觀情況.穩(wěn)定性好的評判方法,能夠有效減小人為誤差及評委誤判造成的不公平,盡可能保證評判結(jié)果的科學(xué)性.

      1 評分者信度的計(jì)算方法

      評分者信度是度量帶有主觀判斷成分的測量可靠與否的重要指標(biāo),包括評分者內(nèi)信度(intra-rater reliability)和評分者間信度(inter-rater reliability).評分者內(nèi)信度是指單個(gè)評分者對同一組被試的答卷進(jìn)行兩次評分的一致性程度[16].考察評分者內(nèi)信度通常需要同一評分者對答卷先進(jìn)行一次評分,然后間隔一定時(shí)間后以隨機(jī)順序?qū)ζ渲匦略u分,兩組評分之間的相關(guān)系數(shù)即為評分者內(nèi)信度.評分者間信度是指多個(gè)評分者對同一批被試的答卷進(jìn)行評分的一致性程度[3].本文主要應(yīng)用評分者間信度進(jìn)行分析,信度越高表示評分者對被試的評判越一致.

      1.1 積差相關(guān)法

      如果被試答卷是由兩位評分者按照各自的評分標(biāo)準(zhǔn)進(jìn)行評分,則評分者間信度可以用每份答卷的2個(gè)分?jǐn)?shù)之間的積差相關(guān)系數(shù)來表示.一般要求在成對的受過訓(xùn)練的評分者之間平均相關(guān)系數(shù)達(dá)到0.90以上,才認(rèn)為評分是客觀的[3].假設(shè)A、B 2個(gè)評分者對n份答卷進(jìn)行評分,評分向量分別為X=(x1,x2,…,xn)和Y=(y1,y2,…,yn),xi和yi分別表示評分者A和B對i答卷的評分,那么積差相關(guān)系數(shù)的計(jì)算公式可表示為

      (1)

      由于積差相關(guān)系數(shù)不具有等距單位,因此不能直接進(jìn)行加減算術(shù)運(yùn)算.若需要將測量中幾部分的積差相關(guān)系數(shù)綜合成一個(gè)總的系數(shù)來表示多個(gè)評分者間的整體信度時(shí),可以用統(tǒng)計(jì)學(xué)家費(fèi)舍(Fisher)的Zr轉(zhuǎn)換法,轉(zhuǎn)換公式為

      (2)

      然后求出Zr的均值,最后再利用式(2)的反函數(shù)求出多個(gè)評分者間的整體信度.

      使用積差相關(guān)法要滿足以下幾個(gè)條件:評分是連續(xù)性數(shù)據(jù);每個(gè)評分者的評分總體服從正態(tài)分布或接近正態(tài)分布,至少是單峰對稱的分布;評分者的評分相互獨(dú)立;兩組分?jǐn)?shù)之間呈線性關(guān)系;被試數(shù)量不少于30.

      1.2 等級相關(guān)法

      等級相關(guān)是指評分者對答卷以等級的方式進(jìn)行評判時(shí),各評判等級次序之間的相關(guān).根據(jù)評分者多少可以分為斯皮爾曼(Spearman)二列等級相關(guān)及肯德爾和諧系數(shù)(the Kendall’s coefficient of concordance)多列等級相關(guān).

      1.2.1 斯皮爾曼等級相關(guān) 斯皮爾曼等級相關(guān)適用于度量2個(gè)評分者以等級方式評判同一組答卷的一致性程度.計(jì)算斯皮爾曼等級相關(guān)系數(shù)時(shí)不要求評判等級呈正態(tài)分布,也不要求被試數(shù)量大于等于30,相對積差相關(guān)要求較低,因此使用范圍較廣.計(jì)算斯皮爾曼等級相關(guān)系數(shù)的公式為

      (3)

      其中,rtt表示2個(gè)評分者之間的信度系數(shù)(等級相關(guān)系數(shù));Di表示i答卷的2個(gè)等級之差;n表示被試人數(shù).

      1.2.2 肯德爾和諧系數(shù) 當(dāng)有2個(gè)以上評分者以等級方式對同一組被試進(jìn)行評判時(shí),表示評分者評判等級之間的一致性程度的量稱為肯德爾和諧系數(shù)(評分者間信度).

      單個(gè)評分者對所有被試的評判沒有相同等級時(shí),肯德爾和諧系數(shù)計(jì)算公式為

      (4)

      其中,rtt表示評分者之間的信度系數(shù)(肯德爾和諧系數(shù));K表示評分者人數(shù);Ri表示K個(gè)評分者對i答卷評判的等級之和;n表示被試人數(shù).

      當(dāng)單個(gè)評分者對所有被試的評判有相同等級時(shí),肯德爾和諧系數(shù)計(jì)算公式可校正為

      (5)

      其中,m表示相同等級的個(gè)數(shù),其余變量的含義與式(4)中相同.

      1.3 克龍巴赫α系數(shù)法

      當(dāng)K(K≥3)個(gè)評分者以連續(xù)性評分的方式對同一組n個(gè)被試進(jìn)行評判時(shí),評分者間的信度可以用克龍巴赫α系數(shù)來估計(jì),計(jì)算公式為

      (6)

      2 科利法在教育測量中的應(yīng)用

      為了克服勝率法的缺陷,WESLEY COLLEY根據(jù)拉普拉斯的“繼承法則”(rule of succession)對其進(jìn)行了改進(jìn),即

      (7)

      假設(shè)上式為一等式,代入式(7),得

      或?qū)憺?/p>

      (8)

      根據(jù)科利評分ri的大小可以確定各被試的等級.由于科利評分ri∈(0,1),不符合人們習(xí)慣的百分制表示法,不過可以用多種方法把它轉(zhuǎn)化為百分制分?jǐn)?shù).比如:

      (3)由于科利評分ri∈(0,1),因此最簡單的方法可以直接用100乘以科利分.

      利用科利法對被試進(jìn)行等級排名是無偏的,即評判的結(jié)果僅利用被試與被試在直接比較情況下的優(yōu)劣(等級)信息,而不直接利用原始評分.無偏性在一定程度上增強(qiáng)了評判結(jié)果的穩(wěn)定性,即當(dāng)被試由多個(gè)評分者評判,出現(xiàn)個(gè)別異常分?jǐn)?shù)時(shí),由于不直接利用原始分?jǐn)?shù)做最終的評判,減小了原始分?jǐn)?shù)對終評的影響,使得終評等級不會(huì)出現(xiàn)較大偏差,在下一節(jié)“實(shí)例分析及比較”中可以明顯看出“穩(wěn)定性”的效果.

      3 實(shí)例分析及比較

      本節(jié)以H高校大學(xué)生數(shù)學(xué)建模競賽為例來說明科利法的有效性.競賽論文30篇,評分者5人.為了實(shí)驗(yàn)的可靠性,30篇論文的主題(問題)完全一樣,選擇的5位評分者均為外校教授或副教授職稱,并多次參加全國大學(xué)生數(shù)學(xué)建模競賽的評閱工作,具有豐富的閱卷經(jīng)驗(yàn).5位評分者均收到這30篇論文及完全一樣的評分標(biāo)準(zhǔn),且論文上沒有作者信息只有編號,按百分制評分.各評分者原始評分及對應(yīng)等級見表1.

      表1 原始評分及對應(yīng)等級

      被試個(gè)數(shù)n=30,可以用Shapiro-Wilk檢驗(yàn)(W檢驗(yàn))來檢驗(yàn)各評分者的評分是否服從正態(tài)分布,檢驗(yàn)結(jié)果見表2.結(jié)果表明5位評分者的評分在顯著性水平0.10下均服從正態(tài)分布.

      表2 Shapiro-Wilk檢驗(yàn)結(jié)果

      5位評分者評分的均值及標(biāo)準(zhǔn)差見表3.

      表3 評分均值及標(biāo)準(zhǔn)差

      用Hartley檢驗(yàn)法對5位評分者的評分進(jìn)行方差齊性檢驗(yàn),計(jì)算結(jié)果為

      3.474 4>H1-0.05(5,29)≈2.78,

      即在顯著性水平α=0.05下,認(rèn)為5位評分者的評分方差有顯著差異.由于方差有顯著差異,因此無法用方差分析來檢驗(yàn)均值是否有顯著差異,但是從表3可以看出,5位評分者評分均值的極差為7.34,說明本次的評分存在一定的系統(tǒng)誤差,其中評委2和4均分較大,評委1、3、5均分較小,評委1和3方差較大,而評分者2和4的方差較小.

      由表1中的數(shù)據(jù)用3種方法計(jì)算評分者信度,結(jié)果見表4.

      3種方法計(jì)算結(jié)果均在0.95以上,說明評分者信度較高,評判結(jié)果具有較高的一致性.

      表4 評分者信度

      基于以上對評分者評分的均值、方差及信度的分析,可以認(rèn)為論文的等級由標(biāo)準(zhǔn)分(Z分?jǐn)?shù))法來確定是比較科學(xué)的,具有較強(qiáng)的可信度.為方便表述,稱之為“標(biāo)準(zhǔn)等級”.事實(shí)上,由傳統(tǒng)法(取原始評分均值)排名與按照標(biāo)準(zhǔn)分均值排名的結(jié)果僅有稍微差別,見表5,表中斜體加黑標(biāo)出的即為有差異的結(jié)果.

      表5 傳統(tǒng)法與標(biāo)準(zhǔn)分法等級比較

      從表5中可以看出傳統(tǒng)法容易出現(xiàn)等級相同的現(xiàn)象,例如論文18、19、28的等級排名均為8.

      下面以實(shí)驗(yàn)來分析系統(tǒng)誤差、隨機(jī)誤差及人為誤差對殘缺型評分的影響.首先將表1中每篇論文隨機(jī)去掉2個(gè)分?jǐn)?shù),但是最終要保證每個(gè)評分者都評閱18篇論文,結(jié)果見表6.

      表6 殘缺評分表

      下面分兩類實(shí)驗(yàn)來比較不同評判方法結(jié)果的穩(wěn)定性.第一類是縱向?qū)嶒?yàn):隨機(jī)選擇一個(gè)評分進(jìn)行不同變異(相當(dāng)于評分者評分時(shí)誤判、故意提高或降低分?jǐn)?shù)),然后根據(jù)傳統(tǒng)法、標(biāo)準(zhǔn)分法及科利法分別確定被試等級,并與表5中的“標(biāo)準(zhǔn)等級”進(jìn)行比較,計(jì)算斯皮爾曼等級相關(guān)系數(shù).記符號xij表示評委j對論文i的評分.不妨選擇評分x13,3做實(shí)驗(yàn),依次將x13,3=71變異為60、65、75、80、85、90.計(jì)算斯皮爾曼等級相關(guān)系數(shù),結(jié)果見表7.

      表7 斯皮爾曼等級相關(guān)系數(shù)

      相關(guān)系數(shù).

      第二類是橫向?qū)嶒?yàn):隨機(jī)選擇個(gè)別評分進(jìn)行變異.進(jìn)行5組實(shí)驗(yàn),變異情況分別為:變異1:x12,1=69→86,x21,4=81→70;變異2:x8,5=81→70,x18,3=82→65;變異3:x7,3=95→80;變異4:x24,4=64→75;變異5:x18,3=76→60,x23,3=60→80.3種評判方法的結(jié)果與“標(biāo)準(zhǔn)等級”比較的斯皮爾曼等級相關(guān)系數(shù)見表8.

      表8 斯皮爾曼等級相關(guān)系數(shù)

      由表7及表8斯皮爾曼等級相關(guān)系數(shù)可知,由于評分誤差的存在,3種評判方法的結(jié)果與“標(biāo)準(zhǔn)等級”均有差異,尤其是傳統(tǒng)方法評判的結(jié)果偏差最大.無論是在正常情況下還是變異之后,由r2A>r1A說明在殘缺評分情況下系統(tǒng)誤差會(huì)給傳統(tǒng)方法的評判結(jié)果帶來較大偏差,由r3A>r2A>r1A說明科利法的評判結(jié)果要比傳統(tǒng)法及標(biāo)準(zhǔn)分法更客觀合理.2個(gè)表中r3A分別均在0.99及0.98以上,說明科利法較傳統(tǒng)法及標(biāo)準(zhǔn)分法更穩(wěn)定,即當(dāng)個(gè)別分?jǐn)?shù)出現(xiàn)異常時(shí),依然可以得出較客觀的評判結(jié)果.

      4 結(jié)束語

      在殘缺型主觀評分測量中,傳統(tǒng)法及標(biāo)準(zhǔn)分法的評判結(jié)果受評分誤差影響較大,尤其是傳統(tǒng)法.科利法的評判結(jié)果是無偏的,它僅用到被試與被試之間直接比較的等級信息,而不直接利用原始評分,因此降低了系統(tǒng)誤差及個(gè)別異常分?jǐn)?shù)對評判結(jié)果的影響,具有較好的穩(wěn)定性.

      猜你喜歡
      科利系統(tǒng)誤差信度
      山東科利機(jī)電工程有限公司
      山東科利機(jī)電工程有限公司
      《廣東地區(qū)兒童中醫(yī)體質(zhì)辨識量表》的信度和效度研究
      基于ADS-B的航空器測高系統(tǒng)誤差評估方法
      基于Bagging模型的慣導(dǎo)系統(tǒng)誤差抑制方法
      存在系統(tǒng)誤差下交叉定位系統(tǒng)最優(yōu)交會(huì)角研究
      科技成果評價(jià)的信度分析及模型優(yōu)化
      體育社會(huì)調(diào)查問卷信度檢驗(yàn)的方法學(xué)探索——基于中文核心體育期刊163篇文章分析
      中文版腦性癱瘓兒童生活質(zhì)量問卷的信度
      基于奇異譜的精密離心機(jī)空氣軸承主軸回轉(zhuǎn)系統(tǒng)誤差分析
      泽普县| 上思县| 合江县| 云南省| 西乌珠穆沁旗| 余姚市| 通河县| 革吉县| 雷州市| 淳安县| 唐海县| 静海县| 万年县| 黎川县| 吉隆县| 麻江县| 盐亭县| 安顺市| 类乌齐县| 岫岩| 丹棱县| 犍为县| 四平市| 安庆市| 富裕县| 海晏县| 拜城县| 玛纳斯县| 宜川县| 大英县| 永城市| 武冈市| 蚌埠市| 习水县| 临夏县| 梁山县| 资源县| 二手房| 烟台市| 贵南县| 礼泉县|