• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      網(wǎng)絡(luò)雙評(píng)過(guò)程中作文評(píng)分誤差以及評(píng)分者效應(yīng)的分析——以大規(guī)模英語(yǔ)考試作文評(píng)分為例

      2015-07-05 12:11:10李美娟劉紅云
      中國(guó)考試 2015年2期
      關(guān)鍵詞:被試評(píng)分標(biāo)準(zhǔn)效度

      李美娟 劉紅云

      1 問(wèn)題提出

      1.1 英語(yǔ)寫作評(píng)分概述

      主觀題是大型考試必不可少的題型,其可以測(cè)量被試對(duì)某個(gè)概念的理解、掌握以及應(yīng)用概念解決問(wèn)題的過(guò)程,而不是簡(jiǎn)單的再認(rèn)或者猜測(cè)[1],但被試在主觀題上的得分往往通過(guò)評(píng)分者依據(jù)既定的標(biāo)準(zhǔn)進(jìn)行評(píng)定,由于每個(gè)評(píng)分者不同的個(gè)性特點(diǎn)可能會(huì)使得評(píng)分存在誤差,從而影響考試結(jié)果的客觀和公平。這種現(xiàn)象也就是所謂的評(píng)分者效應(yīng)(Rater Effect)。評(píng)分者效應(yīng),如評(píng)分的準(zhǔn)確性(Accuracy/Inaccuracy)、嚴(yán)厲度(Harshness/Leniency)和集中度(Centrality/Extremism)常常被認(rèn)為是評(píng)分者評(píng)分的系統(tǒng)變異[2][3]。換句話講,評(píng)分者效應(yīng)與評(píng)定量尺的結(jié)構(gòu)無(wú)關(guān),與被試的能力無(wú)關(guān),但卻會(huì)影響評(píng)定的效度[4]。

      以表現(xiàn)性為基礎(chǔ)的語(yǔ)言評(píng)價(jià)已經(jīng)越來(lái)越引起研究者們的注意,這種考試要求被試在現(xiàn)實(shí)生活中使用學(xué)到的知識(shí)和技能[5],不論是GRE,TOEFL,還是國(guó)內(nèi)四六級(jí)英語(yǔ)考試,或者初高中或者大學(xué)的升學(xué)考試,作文題是考查學(xué)生寫作能力高低普遍采用的題型,但是評(píng)分過(guò)程必然會(huì)出現(xiàn)評(píng)分者效應(yīng)。被試在特定寫作任務(wù)的獲得高分的概率不僅決定于被試的寫作能力,而且可能受以下幾個(gè)因素的影響①寫作任務(wù)的特征;②評(píng)分者的個(gè)人特質(zhì);③評(píng)分時(shí)的特定情境;④學(xué)生的背景特征以及對(duì)寫作任務(wù)或者問(wèn)題的興趣;⑤不同影響因素的交互作用。這些因素引起的評(píng)分變異就是評(píng)分者效應(yīng),所以有很多研究則關(guān)注評(píng)分者效應(yīng)對(duì)評(píng)定結(jié)果的影響以及對(duì)于校正評(píng)分者效應(yīng)的統(tǒng)計(jì)模型的發(fā)展。一些研究者強(qiáng)調(diào)原始分?jǐn)?shù)和概化理論的應(yīng)用,而更多的研究者現(xiàn)在則關(guān)注潛在特質(zhì)模型的應(yīng)用[6]。除了在分析方法和模型上的考慮外,在評(píng)分過(guò)程中目前大規(guī)模測(cè)試往往采用雙評(píng)的評(píng)分模式以降低評(píng)分者帶來(lái)的影響,然而雙評(píng)的評(píng)分模式并沒有從本質(zhì)上消除評(píng)分者效應(yīng),同時(shí)又可能會(huì)帶來(lái)評(píng)分趨中等一些負(fù)面效應(yīng)。

      1.2 評(píng)分效應(yīng)模型

      評(píng)分者效應(yīng)的測(cè)量模型有三類,基于經(jīng)典測(cè)量理論(CTT)基礎(chǔ)上的評(píng)分效應(yīng)模型,基于概化理論(GT)的評(píng)分效應(yīng)模型和基于IRT的評(píng)分效應(yīng)模型。

      1.2.1 基于CTT和GT的評(píng)分效應(yīng)模型

      CTT將被試得分的總變異分解為真分?jǐn)?shù)的變異和隨機(jī)誤差的變異。分析評(píng)分者效應(yīng)時(shí),通常只能通過(guò)計(jì)算評(píng)分者之間的一致性來(lái)進(jìn)行判定。其中數(shù)據(jù)收集的設(shè)計(jì)方式不同,誤差和信度系數(shù)的定義則不同。CTT最大的缺點(diǎn)就是題目和測(cè)驗(yàn)指標(biāo)的樣本依賴性,很難預(yù)測(cè)被試對(duì)特定的題目的作答情況,對(duì)不同形式評(píng)價(jià)的比較很困難,也沒有辦法計(jì)算測(cè)驗(yàn)結(jié)構(gòu)不同水平的測(cè)量誤差的變化[6]。另外,CTT下的很多的統(tǒng)計(jì)模型假設(shè)測(cè)量具有等距性。但是,許多里克特量表或者成就測(cè)驗(yàn)的原始分?jǐn)?shù)都是順序的,導(dǎo)致被試能力或者題目難度的有效比較就變得很困難。

      與CTT相比,Cronbach等人的GT將方差分析的技術(shù)引入信度的研究,允許對(duì)不同來(lái)源的誤差進(jìn)行深入分析,如題目本身,評(píng)分者誤差等。GT將這些被視為誤差的無(wú)關(guān)變量引入測(cè)量模型,用統(tǒng)計(jì)方法分別估計(jì)出這些因素或者因素之間的交互作用對(duì)測(cè)驗(yàn)分?jǐn)?shù)的影響。雖然GT中G研究中得到的方差變異可以用來(lái)優(yōu)化未來(lái)的實(shí)驗(yàn)設(shè)計(jì),而D研究可以

      其中,pnijk代表評(píng)分者j在評(píng)分標(biāo)準(zhǔn)i上對(duì)被試的作文評(píng)定為k等級(jí)的概率;pnijk-1代表評(píng)分者j在評(píng)分標(biāo)準(zhǔn)i上對(duì)被試的作文評(píng)定為k-1等級(jí)的概率;θn代表被試的寫作能力;βi表示評(píng)分標(biāo)準(zhǔn)的難度;αj表示評(píng)分者j的寬嚴(yán)度;τk表示評(píng)定量表模型(Rating Scale Model)或者分步記分模型(Partial Credit Model)中被試得分從等級(jí)k-1到k的等級(jí)難度(step difficulty)[9]。MFRM是一個(gè)潛在特質(zhì)模型,是在兩側(cè)面Rasch模型的被試側(cè)面和項(xiàng)目側(cè)面的基礎(chǔ)上增加了評(píng)分者側(cè)面,并將評(píng)定的觀測(cè)值轉(zhuǎn)化為logits值。評(píng)定量尺模型假設(shè)每個(gè)題目或者標(biāo)準(zhǔn)的評(píng)定量尺是相同的,而分步記分模型(PCM)則假設(shè)每個(gè)題目或者標(biāo)準(zhǔn)均可以有自己獨(dú)立的評(píng)分結(jié)構(gòu)。

      Weigle(1998)研究發(fā)現(xiàn),沒有經(jīng)驗(yàn)的評(píng)分者可能會(huì)更嚴(yán)格或者缺乏評(píng)分的一致性[10]。但是,基于評(píng)分表現(xiàn)的Rasch分析和經(jīng)驗(yàn)反饋又可能使評(píng)分更加一致??傊?,基于個(gè)體特征的評(píng)分者差異是很難將各種誤差的變異最小化。但是GT對(duì)原始分?jǐn)?shù)進(jìn)行分析,并沒有從根本上解決測(cè)驗(yàn)結(jié)果的樣本依賴性,另外GT也假設(shè)測(cè)量具有等距性。CTT和GT在考慮題目難度、測(cè)量誤差指標(biāo)時(shí),并沒考慮到被試能力的差異,所以它們對(duì)于信度的估計(jì)都可被描述為在所有能力水平上的一個(gè)平均信度。

      1.2.2 基于IRT的多面Rasch模型

      基于IRT的評(píng)分者效應(yīng)模型主要有多面Rasch模型、對(duì)多面Rasch校正的階層評(píng)分者模型(Hierarchical Rater Model,HRM[7])和評(píng)委束模型(Rater Bundle Model,RBM[8])。其中應(yīng)用最廣泛和最簡(jiǎn)潔的是多側(cè)面測(cè)量模型(MFRM),其他兩種模型僅限于理論上的探討,在實(shí)際中上沒有廣泛應(yīng)用。

      MFRM是在以IRT為基礎(chǔ)的單參數(shù)Rasch模型的基礎(chǔ)上發(fā)展來(lái)的,以下是用來(lái)分析寫作任務(wù)的多側(cè)面Rasch模型:通過(guò)一般背景變量預(yù)測(cè)的,精細(xì)的挑選和高強(qiáng)度的培訓(xùn)不足以使評(píng)分者的評(píng)分等價(jià)。對(duì)評(píng)分者個(gè)體特征的統(tǒng)計(jì)上的校正可以確保分?jǐn)?shù)的可靠性[11]。MFRM從統(tǒng)計(jì)上對(duì)被試的能力進(jìn)行校正,整個(gè)連續(xù)體測(cè)量單位相同,模型中的參數(shù)估計(jì)獨(dú)立,即被試的能力估計(jì)與題目的特征、評(píng)分者的評(píng)價(jià)沒有關(guān)系,題目的難度和評(píng)分者的寬嚴(yán)度與數(shù)據(jù)收集設(shè)計(jì)的其他面的分布特征沒有關(guān)系。由于logits具有可加性,不同側(cè)面的logits可以進(jìn)行比較。該模型一方面可以提高主觀評(píng)分的信度,另一方面還可以提供給評(píng)分者更多的信息。

      1.3 研究目的

      目前大規(guī)??荚囍械淖魑脑u(píng)分大多采用網(wǎng)絡(luò)雙評(píng)的技術(shù),在評(píng)分過(guò)程中通過(guò)一定的技術(shù)手段控制評(píng)分者之間的一致性以及評(píng)分者內(nèi)部的一致性[11]。本研究通過(guò)對(duì)某大型英語(yǔ)考試作文評(píng)價(jià)中的評(píng)分者效應(yīng)分析,考查目前網(wǎng)絡(luò)雙評(píng)過(guò)程中影響評(píng)分者效度的因素,并為更好地估計(jì)被試的寫作能力提供一定的方法,進(jìn)一步拓展國(guó)內(nèi)使用MFRM在主觀題分析應(yīng)用的范圍,就作文評(píng)分培訓(xùn)以及網(wǎng)絡(luò)雙評(píng)過(guò)程中應(yīng)該關(guān)注的問(wèn)題提供一些建議。

      2 研究方法

      2.1 樣本描述性統(tǒng)計(jì)

      隨機(jī)抽取參加某大型英語(yǔ)寫作考試的2 427名學(xué)生,其中男生936名(38.6%),女生1 491名(61.4%)。這些學(xué)生的作文由57個(gè)評(píng)分員隨機(jī)閱評(píng),每篇作文隨機(jī)由2名評(píng)分者評(píng)分,評(píng)分者評(píng)價(jià)作文的篇數(shù)為8~601篇。

      2.2 作文評(píng)分過(guò)程及評(píng)定量表

      某大型英語(yǔ)水平測(cè)試的寫作考試中,要求所有學(xué)生根據(jù)同一題目寫一篇文章。作文完成后,不作任何改動(dòng)掃描到電腦中,將每篇作文隨機(jī)分給2名評(píng)分員,該作文的總分為11分。

      對(duì)于該英語(yǔ)作文的評(píng)分,評(píng)分者將從內(nèi)容(information),語(yǔ)言(gracture),結(jié)構(gòu)(mechanics),長(zhǎng)度(length),和連貫性(coherence)五個(gè)維度分別對(duì)每篇作文進(jìn)行評(píng)價(jià),其中,對(duì)內(nèi)容和語(yǔ)言的評(píng)價(jià)采用4點(diǎn)計(jì)分量表,對(duì)結(jié)構(gòu)采用3點(diǎn)計(jì)分量表進(jìn)行評(píng)價(jià),對(duì)長(zhǎng)度的評(píng)價(jià)采用二級(jí)計(jì)分量表,文章連貫性則采用3點(diǎn)計(jì)分量表進(jìn)行評(píng)價(jià)。

      2.3 分析方法

      由于本研究中5個(gè)評(píng)定量表具有各自的評(píng)定標(biāo)準(zhǔn),所以本研究采用的是以分步計(jì)分模型(PCM)為基礎(chǔ)的三側(cè)面多面Rasch模型,其中三個(gè)側(cè)面分別是被試的英語(yǔ)寫作能力,評(píng)分者的寬嚴(yán)度和評(píng)分標(biāo)準(zhǔn)的難度。

      本研究采用Facets3.62.0[12]軟件,該程序采用無(wú)條件極大似然估計(jì)法(Unconditional Maximum Likelihood)對(duì)MFRM中的各個(gè)參數(shù)進(jìn)行估計(jì),其中每個(gè)側(cè)面都進(jìn)行了校正,并且每個(gè)側(cè)面的分析都是與其他側(cè)面獨(dú)立的。為了建立logit量尺的原點(diǎn),以及使模型得到識(shí)別,本研究將評(píng)分者側(cè)面,評(píng)分標(biāo)準(zhǔn)側(cè)面的均值固定為0,另外一個(gè)模型識(shí)別的限制條件就是評(píng)分等級(jí)的系數(shù)之和限定為0,并按照慣例,被試側(cè)面非中心化。

      3 分析結(jié)果

      3.1 整體擬合指標(biāo)

      根據(jù)Linacre&Wright(2008)的標(biāo)準(zhǔn),較好模型擬合的條件是大于等于2的(絕對(duì))標(biāo)準(zhǔn)化殘差不超過(guò)5%,大于等于3的(絕對(duì))標(biāo)準(zhǔn)化殘差不超過(guò)1%。本研究數(shù)據(jù)結(jié)果顯示,大于等于2的(絕對(duì))標(biāo)準(zhǔn)化殘差占5%,大于等于3的(絕對(duì))標(biāo)準(zhǔn)化殘差占1.2%[12]。

      模型假設(shè)殘差為正態(tài)分布,當(dāng)模型的參數(shù)得到精確的估計(jì)時(shí),殘差的均值為0。如果數(shù)據(jù)與模型越擬合,標(biāo)準(zhǔn)化殘差的均值越接近0,樣本標(biāo)準(zhǔn)差的期望值也越接近1.0,數(shù)據(jù)結(jié)果顯示,標(biāo)準(zhǔn)化殘差的均值為0,樣本標(biāo)準(zhǔn)差的期望值為1,并且模型的卡方值不顯著(固定卡方=24844.3,p>0.05)??傊?,從以上幾種指標(biāo)來(lái)看,模型的整體擬合較好。

      另外,估計(jì)得到的原始分?jǐn)?shù)的誤差是(0.4/1.0)2×100%=16%,說(shuō)明模型所能解釋變異比例是(1-0.16)×100%=84% 。

      3.2 對(duì)被試參數(shù),評(píng)分者參數(shù),和評(píng)分標(biāo)準(zhǔn)的校正

      圖1將評(píng)分標(biāo)準(zhǔn),評(píng)分標(biāo)準(zhǔn)的等級(jí)難度和被試能力以及評(píng)分者的寬嚴(yán)度放在同一個(gè)量尺上進(jìn)行比較,從而為評(píng)分標(biāo)準(zhǔn)的調(diào)整和改進(jìn)提供依據(jù)。

      圖1中,第一欄為被試的寫作能力分布,從上到下表示被試能力從高到低;第二欄為評(píng)分者的寬嚴(yán)程度,從上向下表示評(píng)分者的寬嚴(yán)程度從嚴(yán)到寬;從圖中可以看出,評(píng)分者寬嚴(yán)度的測(cè)量全距為5.33logits,占了被試寫作能力17.1logits測(cè)量全距的1/3,評(píng)分者之間的一致性影響了評(píng)分者的評(píng)價(jià)信度。第三欄為評(píng)分標(biāo)準(zhǔn)的難度分布,從上向下表示評(píng)分標(biāo)準(zhǔn)的難度從難到易,被試在連貫性上獲得高分較難,在內(nèi)容上獲得高分較容易;第四欄到第八列分別為四個(gè)評(píng)定標(biāo)準(zhǔn)(內(nèi)容,語(yǔ)言,結(jié)構(gòu),連貫性)的等級(jí)難度,從上到下表示等級(jí)難度從難到易,圖中的橫線代表(等級(jí)+0.5)的logits值,在最左側(cè)縱向的一列是這幾個(gè)統(tǒng)計(jì)量共用的logits量尺,可以將不同統(tǒng)計(jì)量進(jìn)行比較。

      3.2.1 評(píng)分者測(cè)量

      圖1表明評(píng)分者之間的一致性較差。評(píng)分者的logits測(cè)量值是-1.99~3.34,均值為0.00,標(biāo)準(zhǔn)誤為0.16,其中分離指標(biāo)為6.27,表明評(píng)分者的變異是測(cè)量誤差的6.27倍,分離信度為0.98,固定的卡方值3989.4(df=56,p<0.01),表明評(píng)分者之間的一致性很差,其中433號(hào)評(píng)分者嚴(yán)厲度水平最高,416號(hào)和441號(hào)評(píng)分者的嚴(yán)厲度水平最低。

      Linacre(2002)建議,把 0.5和 1.5作為 infit和outfit的下限和上限[13],其他研究者則建議使用更加嚴(yán)格的范圍,以0.7(或者0.75)和1.3作為其上限和下限[14]。本研究以0.5和1.5作為infit和outfit的下限和上限,從整體上來(lái)看,7%的評(píng)分者的infit小于0.5,這些評(píng)分者自身的一致性過(guò)好,分別是評(píng)分者431,465,459,468;8.8%的評(píng)分者的infit大于1.5,這些評(píng)分者自身的一致性過(guò)差,5個(gè)評(píng)分者分別是438,473,460,421,415;8.8%的評(píng)分者的outfit小于0.5,說(shuō)明這些評(píng)分者出現(xiàn)了評(píng)分者趨同現(xiàn)象,分別是 436,445,459,431,466,467,444;22.8%的outfit大于1.5,表明評(píng)分者之間的一致性很差,這些評(píng)分者分別是 442,438,411,421,460,473,402,417,410,441,415,428,416。

      圖1 被試參數(shù)、評(píng)分者參數(shù)和評(píng)分標(biāo)準(zhǔn)參數(shù)的校正圖

      3.2.2 評(píng)分標(biāo)準(zhǔn)的測(cè)量結(jié)果

      表2中列出了每個(gè)標(biāo)準(zhǔn)的logits測(cè)量值,5個(gè)標(biāo)準(zhǔn)之間的差異均顯著(t檢驗(yàn)),說(shuō)明5個(gè)標(biāo)準(zhǔn)的難度是不同的,具體來(lái)講,被試在連貫性量表獲得高分的難度要大,在內(nèi)容量表獲得高分的難度要小。文章信息的outfit大于2.0,說(shuō)明5個(gè)評(píng)分標(biāo)準(zhǔn)并不是單維,推翻了Rasch模型的假設(shè)。從固定的卡方值顯著(固定卡方=22901.5,p<0.01)、分離信度為1.00,可以看出五個(gè)標(biāo)準(zhǔn)的難度是不一致的,分離指標(biāo)79.79說(shuō)明評(píng)分標(biāo)準(zhǔn)的變異是測(cè)量誤差的79.79倍。

      表3列出了每個(gè)評(píng)分標(biāo)準(zhǔn)的測(cè)量情況,其中包括模型分析的等級(jí)分?jǐn)?shù)頻數(shù),頻數(shù)所占百分比,實(shí)際的平均測(cè)量值,期望測(cè)量值,outfit值,以及PCM模型為基礎(chǔ)的等級(jí)難度參數(shù)估計(jì)值、標(biāo)準(zhǔn)誤。檢測(cè)評(píng)定量表的效度一個(gè)重要的指標(biāo)就是評(píng)定等級(jí)的平均測(cè)量值。這個(gè)值是特定評(píng)定等級(jí)條件下的被試能力測(cè)量值的均值。隨著評(píng)定等級(jí)越高,平均測(cè)量值越大。另一個(gè)重要的指標(biāo)是每個(gè)評(píng)定等級(jí)下的outfit指數(shù),其將被試能力的平均測(cè)量值與Rasch模型估計(jì)的期望值進(jìn)行比較,兩者差異越大,outfit的值越大,往往這個(gè)值不能大于2.0。評(píng)定量尺效度還可以通過(guò)等級(jí)難度的排序來(lái)判斷,等級(jí)難度應(yīng)該隨著評(píng)定等級(jí)的增加而增加。并且等級(jí)難度的差異值應(yīng)該大于1.4小于5個(gè)logits。當(dāng)k+1到k的等級(jí)難度大于k到k-1等級(jí)難度1.4以上logits時(shí),從理論上講,可以將評(píng)定量表視為獨(dú)立的二級(jí)計(jì)分題目,也就是說(shuō),評(píng)定等級(jí)具有較好的區(qū)分度[15]。如果相鄰的兩個(gè)等級(jí)難度的差值大于5個(gè)logits,這種情況可能導(dǎo)致信息丟失,這時(shí)需要更多的等級(jí)[15]。

      從表3可以看出,用于分析內(nèi)容評(píng)定量表每個(gè)等級(jí)分?jǐn)?shù)的頻數(shù)分布差異較大,并且等級(jí)分?jǐn)?shù)0,1,2的outfit值均大于2,并且0到1的等級(jí)難度值與1到2的等級(jí)難度的差值遠(yuǎn)遠(yuǎn)大于5,因此,該量表的質(zhì)量較差,測(cè)量效度也很低。將標(biāo)準(zhǔn)1的0,1,2三個(gè)評(píng)分等級(jí)進(jìn)行合并,從表3可以看出,等級(jí)分?jǐn)?shù)0的outfit大于2,說(shuō)明這個(gè)等級(jí)的劃分還是存在問(wèn)題。另外,圖2~圖6表示每個(gè)評(píng)分標(biāo)準(zhǔn)的概率曲線,從表3和圖2~圖6可以看出,語(yǔ)言、結(jié)構(gòu)、長(zhǎng)度和連貫性量表質(zhì)量較好,評(píng)定效度較高。

      表1 評(píng)分者擬合指數(shù)概況

      表2 評(píng)定量表的整體測(cè)量結(jié)果

      圖2 內(nèi)容量表的概率曲線

      圖3 語(yǔ)言量表的概率曲線

      圖4 結(jié)構(gòu)量表的概率曲線

      圖5 長(zhǎng)度量表的概率曲線

      圖6 連貫性量表的概率曲線

      3.3 交互作用分析

      3.3.1 評(píng)分者和被試的交互作用

      從整體上來(lái)講,被試和評(píng)分者的交互作用不顯著(固定卡方=3424,p>0.05)。從個(gè)體水平上來(lái)講,仍有30個(gè)評(píng)分者和被試存在交互作用,從圖7中可以看出,評(píng)分者對(duì)被試能力的高估或者低估與被試能力的分布是沒有關(guān)系的。

      3.3.2 評(píng)分者和評(píng)分標(biāo)準(zhǔn)的交互作用

      從表4中可以看出,固定的卡方值顯著,從整體上講,評(píng)分者和評(píng)分標(biāo)準(zhǔn)的交互作用顯著,從個(gè)體水平上講,有124(43.5%)的觀測(cè)值和期望值存在顯著的差異顯著(t≥2 和 t≤2),其中58個(gè)差異值是正的,即評(píng)分者評(píng)分較嚴(yán)厲,66個(gè)差異值是負(fù)的,即評(píng)分者評(píng)分較寬松。對(duì)于評(píng)分者來(lái)講,評(píng)分者具有的

      差異值個(gè)數(shù)的范圍是1~5,其中評(píng)分者412,433,415具有5個(gè)顯著的差異值,評(píng)分者406,407,415,416,424,434,443具有4個(gè)顯著的差異值。評(píng)分者對(duì)四個(gè)評(píng)分標(biāo)準(zhǔn)嚴(yán)厲或者寬松的程度相當(dāng),信息(14 vs.12),gracture(8 vs.9),文章結(jié)構(gòu)(15 vs.17),文章連貫性(12 vs.13),而對(duì)長(zhǎng)度(9 vs.15),則表現(xiàn)為評(píng)分寬松的評(píng)分者較多。

      表3 評(píng)定量表的測(cè)量情況

      表4 交互作用的整體測(cè)量情況

      圖7 評(píng)分者對(duì)被試能力的高估或者低估的散點(diǎn)圖

      3.3.3 評(píng)分者,被試和評(píng)分標(biāo)準(zhǔn)的交互作用

      表4中,固定的卡方值不顯著,從整體上來(lái)講,被試,評(píng)分者和評(píng)分標(biāo)準(zhǔn)的交互作用不顯著,從個(gè)體水平上來(lái)講,43個(gè)評(píng)分者和被試,評(píng)分標(biāo)準(zhǔn)存在交互作用。279個(gè)顯著差異值中,內(nèi)容最多(162),連貫性(20),語(yǔ)言(49),長(zhǎng)度(7),結(jié)構(gòu)(46)。由于個(gè)體水平上被試,評(píng)分者,和評(píng)分標(biāo)準(zhǔn)的詳細(xì)結(jié)果過(guò)于煩瑣,本研究將不再詳述。

      3.4 性別偏差分析

      從表5中可以看出,性別分離指數(shù)為1,分離信度為0,說(shuō)明評(píng)分者對(duì)于男生和女生的嚴(yán)厲度并不存在偏差。

      表5 性別偏差的測(cè)量結(jié)果

      4 討論

      表現(xiàn)性評(píng)價(jià)中關(guān)于評(píng)分者行為的許多研究都很關(guān)注評(píng)分者變異,這些變異與評(píng)分者自身的特征有關(guān),與被試的表現(xiàn)無(wú)關(guān)[3]。本研究中評(píng)分者之間的寬嚴(yán)度存在顯著差異,約22.8%的評(píng)分者評(píng)分之間的一致性較差,約3.5%的評(píng)分者評(píng)分一致性過(guò)高,出現(xiàn)評(píng)分趨同現(xiàn)象;影響評(píng)分者寬嚴(yán)度的因素有很多,例如,是否受過(guò)專業(yè)的培訓(xùn),個(gè)人的特質(zhì),態(tài)度,背景變量特征,工作壓力以及評(píng)價(jià)的目的等等。評(píng)分者自身的不一致也是影響作文評(píng)分信度和效度的重要因素,評(píng)分者內(nèi)部一致性的分析結(jié)果表明約90%的評(píng)分者自身的一致性均較高,但仍有8.8%的評(píng)分者自身一致性很差,約2%的評(píng)分者出現(xiàn)評(píng)分自身一致性過(guò)高的情況;評(píng)分者可能認(rèn)為她/他必須為其他評(píng)分者提供標(biāo)準(zhǔn),對(duì)被試寫作能力的評(píng)價(jià)波動(dòng)較小,導(dǎo)致“評(píng)分者自身一致性過(guò)高”,而有些評(píng)分者未受過(guò)培訓(xùn),喜歡質(zhì)疑被試,尤其在兩個(gè)被試能力相近的時(shí)候,導(dǎo)致“評(píng)分者自身一致性過(guò)差”。另外,評(píng)分者對(duì)評(píng)分標(biāo)準(zhǔn)理解的不同導(dǎo)致被試在不同評(píng)分標(biāo)準(zhǔn)上獲得高分的難易程度不同,被試在連貫性量表獲得高分相對(duì)較難,在內(nèi)容量表獲得相對(duì)容易。

      MFRM允許進(jìn)行偏差的分析,即模型中多個(gè)側(cè)面交互作用的分析,例如,評(píng)分者和被試、評(píng)分者和評(píng)分標(biāo)準(zhǔn)、以及評(píng)分者、被試、評(píng)分標(biāo)準(zhǔn)三者的交互作用。本研究中,評(píng)分者對(duì)被試能力的高估或者低估與被試能力的分布是沒有關(guān)系的,也就是說(shuō),評(píng)分者并沒有低估高能力被試,高估低能力被試;Thomas Eckes(2008)使用two-mode聚類分析技術(shù)對(duì)評(píng)分者和評(píng)分標(biāo)準(zhǔn)進(jìn)行聯(lián)合分類,結(jié)果發(fā)現(xiàn),6種不同類型的評(píng)分者具有不同的評(píng)分準(zhǔn)則[16],具體來(lái)講,評(píng)分者并不會(huì)將注意平均放在每個(gè)評(píng)分標(biāo)準(zhǔn)上,并且評(píng)分者的背景變量可以部分解釋評(píng)分準(zhǔn)則之間的差異,本研究中,評(píng)分者對(duì)信息、語(yǔ)言、文章結(jié)構(gòu)、文章連貫性四個(gè)評(píng)分標(biāo)準(zhǔn)嚴(yán)格或者寬松的程度相當(dāng),而對(duì)于長(zhǎng)度,較多的評(píng)分者評(píng)分寬松。

      許多研究發(fā)現(xiàn),偏差分析對(duì)于評(píng)分者的培訓(xùn)很有意義,評(píng)分者不同的寬嚴(yán)度,獨(dú)特的反應(yīng)模式,評(píng)分者之間的一致性,評(píng)定的效度是通過(guò)培訓(xùn)可以提高的[10]。Myford和Wolfe提出,MRFM可以提供每個(gè)側(cè)面,每個(gè)評(píng)分者的評(píng)分模式,這樣就可以幫助我們提供給評(píng)分者更加精確的個(gè)人反饋,并且?guī)椭麄兞私馊绾问褂迷u(píng)定量表,進(jìn)而提高評(píng)分的效度[17]。但是也有研究發(fā)現(xiàn)評(píng)分者培訓(xùn)并不能按照預(yù)期有效減少評(píng)分者的變異,即使經(jīng)過(guò)大量的培訓(xùn)[18]或者提供個(gè)體評(píng)分的反饋,評(píng)分者的變異并不會(huì)明顯減少[19],因此不僅要通過(guò)對(duì)評(píng)分者的培訓(xùn)提高評(píng)分信度,還要通過(guò)統(tǒng)計(jì)模型對(duì)評(píng)分者效應(yīng)進(jìn)行校正,進(jìn)而實(shí)現(xiàn)評(píng)分的客觀性。

      本研究對(duì)如何改善和提高英語(yǔ)寫作評(píng)分的效度有著十分重要的意義。首先,可以通過(guò)對(duì)評(píng)分量表的修改進(jìn)一步提高測(cè)量工具的效度,其次,考察單個(gè)評(píng)分者的表現(xiàn)情況有利于評(píng)分者的選拔,以及對(duì)評(píng)分不準(zhǔn)確的評(píng)分者進(jìn)行進(jìn)一步的培訓(xùn)或者替換,另外,具有高風(fēng)險(xiǎn)的大規(guī)模測(cè)試,可以通過(guò)模型對(duì)評(píng)分者,評(píng)分標(biāo)準(zhǔn)進(jìn)行校正,確??荚嚨目陀^性和公平性。

      [1] 李中權(quán),孫曉敏,張厚粲,張立松.多面Rasch模型在主觀題評(píng)分培訓(xùn)中的應(yīng)用[J].中國(guó)考試(研究版),2008(1):26-31.

      [2] Myford.C.M.,Wolfe.E.W.Detecting and measuring rater effects using many-facet Rasch measurement:part I[J].Journal of Applied Measurement,2003,4(4):386.

      [3] Eckes T.Examining rater effects in TestDaF writing and speaking performance assessments:A many-facet Rasch analysis[J].Language Assessment Quarterly,2005,2(3):197-221.

      [4] Bachman L.F.Statistical analyses for language assessment[M].2004,Cambridge Univ Pr.

      [5] Kondo-Brown,K.A FACETS analysis of rater bias in measuring Japanese second language writing performance[J].Language Testing,2002,19(1):3.

      [6] Sudweeks.R.R,Reeve.S.,Bradshaw.W.S.A comparison of generalizability theory and many-facet Rasch measurement in an analysis of college sophomore writing[J].Assessing Writing,2004,9(3):239-261.

      [7] Patz.R.J.,Junker.B.W.,Johnson,M.S.,Mariano,L.T.The hierarchical rater model for rated test items and its application to largescale educational assessment data[J].Journal of Educational and Behavioral Statistics,2002,27(4):341.

      [8] Wilson.M.,Hoskens.M.The rater bundle model[J].Journal of Educational and Behavioral Statistics,2001,26(3):283.

      [9] Eckes,T.Many-facet Rasch measurement.Reference supplement to the manual for relating language examinations to the Common European Framework of Reference for Languages:Learning,teaching,assessment[C].Strasbourg:Council of Europe,Language Policy Division,2009.

      [10] Weigle.S.C.Using FACETS to model rater training effects[J].Language Testing,1998,15(2):263.

      [11] Lunz,M.E.,Wright,B.D.,Linacre,J.M.Measuring the impact of judge severity on examination scores[J].Applied Measurement in Education,1990,3(4):331-345.

      [12] Linacre,J.M.,Wright,B.D.A user’s guide to FACETS:Raschmodel computer programs[C].Computer software manual.Retrieved May 28,2008,from http://www.winsteps.com/aftp/facets.pdf.

      [13] Linacre,J.M.What do infit and outfit,mean-square and standardized mean[J].Rasch Measurement Transactions,2002,16(2):878.

      [14] Bond,T.G.,Fox,C.M.Applying the Rasch model:Fundamental measurement in the human sciences[J].Lawrence Erlbaum,2007.

      [15] Linacre.J.M.Investigating judge local independence[J].Rasch Measurement Transactions,1997,11(1):546-547.

      [16] Eckes,T.Rater types in writing performance assessments:a classification approach to rater variability[J].Language Testing,2008,25(2):155.

      [17] Myford,C.M,Wolfe.E.W.Detecting and measuring rater effects using many-facet 17 Rasch measurement:Part II[J].Journal of Applied Measurement,2004(5):189-227.

      [18] Barrett,S.The impact of training on rater variability[J].International Education Journal,2001,2(1):49-58.

      [19] Elder,C.,Knoch.U.,Barkhuizen.G.,Von Randow.J.Individual Feedback to Enhance Rater Training:Does It Work?[J].Language Assessment Quarterly,2005,2(3):175-196.

      猜你喜歡
      被試評(píng)分標(biāo)準(zhǔn)效度
      多級(jí)計(jì)分測(cè)驗(yàn)中基于殘差統(tǒng)計(jì)量的被試擬合研究*
      慈善募捐規(guī)制中的國(guó)家與社會(huì):兼論《慈善法》的效度和限度
      永遠(yuǎn)的格紋
      優(yōu)雅(2017年11期)2017-11-11 08:59:21
      初高中英語(yǔ)作文評(píng)分標(biāo)準(zhǔn)初探
      海峽兩岸高考語(yǔ)文作文評(píng)分標(biāo)準(zhǔn)的比較研究
      被看重感指數(shù)在中國(guó)大學(xué)生中的構(gòu)念效度
      針對(duì)TOPIK評(píng)分標(biāo)準(zhǔn)的韓國(guó)語(yǔ)寫作教育
      外語(yǔ)形成性評(píng)估的效度驗(yàn)證框架
      Positive Solu tions of Non linear Ellip tic Prob lem in a Non-Sm ooth Planar Dom ain
      民族雜居區(qū)大專生學(xué)習(xí)社會(huì)化現(xiàn)狀的調(diào)查與分析
      谷城县| 乌兰察布市| 平江县| 锦州市| 云霄县| 会泽县| 贡嘎县| 玉山县| 启东市| 柞水县| 海城市| 房产| 肥西县| 盐山县| 秭归县| 若尔盖县| 思茅市| 乌什县| 舞钢市| 务川| 调兵山市| 阳谷县| 房产| 哈密市| 正定县| 连山| 怀集县| 梓潼县| 马龙县| 呼图壁县| 陵水| 马龙县| 灵山县| 八宿县| 崇州市| 汶上县| 夏邑县| 壤塘县| 兴海县| 赫章县| 额尔古纳市|