• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      《國(guó)際中文教師證書》面試信度研究

      2021-09-15 02:17:03李亞男王艾琳王之嶺
      華文教學(xué)與研究 2021年2期
      關(guān)鍵詞:面試信度

      李亞男 王艾琳 王之嶺

      [關(guān)鍵詞] 《國(guó)際中文教師證書》面試;多側(cè)面Rasch模型;信度

      [摘 要] 面試是一種廣泛應(yīng)用的評(píng)價(jià)技術(shù),面試的成績(jī)受多方面影響。多側(cè)面Rasch模型(MFRM)可對(duì)影響成績(jī)的多個(gè)側(cè)面(參數(shù))進(jìn)行分析,因而適用于面試的信度研究。本文對(duì)2019年某次《國(guó)際中文教師證書》面試中12位考官給128位考生在5個(gè)打分項(xiàng)上的分?jǐn)?shù)進(jìn)行了MFRM分析,研究發(fā)現(xiàn):考官在面試打分過(guò)程中能夠有效區(qū)分不同水平的考生;考官打分寬嚴(yán)度雖存在顯著差異,但對(duì)考生打分不會(huì)產(chǎn)生決定性影響;考官自身打分一致性總體上處在可接受的范圍,但也存在一定程度的趨中現(xiàn)象;考官在不同打分項(xiàng)上給出的分?jǐn)?shù)存在顯著差異,在“試講”這一打分項(xiàng)上打分最嚴(yán)。

      0. 引言

      面試是一種人員評(píng)價(jià)技術(shù),其考察方式直觀、靈活,具有良好的效度,因而被廣泛應(yīng)用于各類人才選拔。吳志明等(1997)將面試定義為評(píng)委通過(guò)與考生面對(duì)面的交談,或?qū)⒑笳咧糜谝欢ㄇ榫持羞M(jìn)行觀察,從而了解、考察考生是否滿足條件要求的一種人員評(píng)價(jià)技術(shù)。面試評(píng)價(jià)的過(guò)程是復(fù)雜而間接的:首先應(yīng)試者對(duì)測(cè)量潛在知識(shí)結(jié)構(gòu)或技能的項(xiàng)目或任務(wù)做出回答;然后評(píng)分者根據(jù)評(píng)分標(biāo)準(zhǔn),按照對(duì)潛在結(jié)構(gòu)的理解,對(duì)應(yīng)試者的表現(xiàn)做出評(píng)價(jià);最后,根據(jù)評(píng)分者的評(píng)分估計(jì)考生的能力(丁樹良,羅芬,涂東波等,2012)。因而,面試成績(jī)將受到評(píng)分者(考官)、試題(打分項(xiàng))、評(píng)分標(biāo)準(zhǔn)等多種因素的影響,對(duì)測(cè)試信效度提出了更高的要求。

      本研究使用多側(cè)面Rasch模型對(duì)某次《國(guó)際中文教師證書》面試考官的打分?jǐn)?shù)據(jù)進(jìn)行分析,試圖探究:考官在面試過(guò)程中能否有效區(qū)分考生能力?打分寬嚴(yán)度、評(píng)分標(biāo)準(zhǔn)、考試時(shí)間等因素對(duì)考官打出的分?jǐn)?shù)會(huì)產(chǎn)生什么影響?這些影響考試信度的各因素之間是否有交互作用?希望通過(guò)以上問(wèn)題的分析結(jié)果,為考官培訓(xùn)和考試改進(jìn)等提供一點(diǎn)建議。

      1. 研究背景

      1.1《國(guó)際中文教師證書》面試

      《國(guó)際中文教師證書》考試是由教育部中外語(yǔ)言交流合作中心主辦的一項(xiàng)標(biāo)準(zhǔn)化考試。考試通過(guò)對(duì)中文教學(xué)基礎(chǔ)、中文教學(xué)方法、教學(xué)組織與課堂管理、中華文化與跨文化交際、職業(yè)道德與專業(yè)發(fā)展等五個(gè)方面的考查,評(píng)價(jià)考生是否具備國(guó)際中文教師能力??荚嚢üP試和面試兩部分,筆試成績(jī)合格者方能報(bào)名參加面試。筆試、面試均合格者,可獲得證書。

      面試著重考查考生綜合運(yùn)用各種方法設(shè)計(jì)教學(xué)方案、組織實(shí)施教學(xué)過(guò)程、完成教學(xué)任務(wù)以及用外語(yǔ)輔助教學(xué)的能力,同時(shí)考查考生的溝通交際、心理素質(zhì)、教姿教態(tài)等基本職業(yè)素養(yǎng)。面試采用結(jié)構(gòu)化面試和情景模擬相結(jié)合的方法,考生經(jīng)過(guò)30分鐘的準(zhǔn)備后,需在25分鐘內(nèi),根據(jù)試卷內(nèi)容進(jìn)行說(shuō)課、試講,并回答考官提出的問(wèn)題。

      面試采取考官小組評(píng)分的方式,每小組由三名考官組成,分別為主考官、考官和外語(yǔ)考官。所有考官均為具有多年教學(xué)經(jīng)驗(yàn)、副教授以上職稱或博士以上學(xué)歷的高校教師,均參加過(guò)考前培訓(xùn)并通過(guò)了考核。面試過(guò)程中,考官小組按照統(tǒng)一的指導(dǎo)語(yǔ)、時(shí)間安排和標(biāo)準(zhǔn)化流程,根據(jù)試卷內(nèi)容對(duì)考生進(jìn)行提問(wèn),在“說(shuō)課”“試講”“中文問(wèn)答”“外語(yǔ)水平”和“總體印象”等5個(gè)打分項(xiàng)上給考生表現(xiàn)進(jìn)行打分。

      1.2 多側(cè)面Rasch模型

      在一項(xiàng)面試中,為提高考試信度,開發(fā)者會(huì)使用多種方式,如隨機(jī)匹配考生和考試題目、對(duì)考官進(jìn)行考前培訓(xùn)、對(duì)同一考生進(jìn)行多考官評(píng)分、報(bào)告成績(jī)?nèi)《嗫脊倬档取Q芯拷Y(jié)果表明,經(jīng)過(guò)培訓(xùn),考官評(píng)分的內(nèi)部一致性①會(huì)有所提升,但仍存在顯著的寬嚴(yán)度②差異(丁樹良,羅芬,涂東波等,2012;Weigle, 1998)。評(píng)分過(guò)程中,會(huì)產(chǎn)生一些考官效應(yīng),如趨中效應(yīng)③、光環(huán)效應(yīng)④及偏差⑤等(范鵬,2017;劉耀中,2009;張潔,2014;Myford & Wolfe,2003;Myford & Wolfe,2004)。因而,要提高面試的信度,就要對(duì)這些影響因素進(jìn)行研究和處理。

      多側(cè)面Rasch模型(Many-Facet Rasch Model,以下簡(jiǎn)稱MFRM),最早由Linacre在1989年提出,是單參數(shù)Rasch模型的延伸。單參數(shù)Rasch模型處理的測(cè)驗(yàn)情境中,只有被試特質(zhì)參數(shù)和項(xiàng)目難度參數(shù)。而在面試中,考生在題目上得到某一特定分值的概率,不僅取決于考生自身能力的高低和題目難度的大小,也受到考官對(duì)評(píng)分標(biāo)準(zhǔn)的理解程度和評(píng)分寬嚴(yán)程度等因素的影響。MFRM在單參數(shù)Rasch模型基礎(chǔ)上,引入了更多可能對(duì)考試成績(jī)產(chǎn)生影響的參數(shù)(也叫側(cè)面),如考官特質(zhì)、評(píng)分標(biāo)準(zhǔn)等,因而更適用于面試的信度研究。

      MFRM在分析某個(gè)側(cè)面對(duì)考試成績(jī)的影響時(shí),能夠剔除其他因素的影響,將此側(cè)面的影響單獨(dú)剝離出來(lái),從而可以使研究者更好地理解每個(gè)側(cè)面對(duì)考試成績(jī)是如何產(chǎn)生影響的。在進(jìn)行MFRM分析時(shí),所有側(cè)面的相關(guān)數(shù)據(jù)都會(huì)通過(guò)線性邏輯斯蒂克方程轉(zhuǎn)換到一個(gè)量表模型(scaling model)上,因而其估計(jì)出來(lái)的側(cè)面值(如考生能力值、考官寬嚴(yán)度)是在一個(gè)等距量表上的,每個(gè)側(cè)面值擁有相同的單位,可以相互比較。另外,MFRM還可以通過(guò)偏差/交互分析(Bias/Interaction Analysis)偵測(cè)各因素之間可能存在的交互效應(yīng),進(jìn)而探究某個(gè)側(cè)面在不同情境下對(duì)考試成績(jī)的影響模式,如考官給不同性別的考生打分時(shí)的寬嚴(yán)程度變化。這將有助于提高考試的信度,讓決策更加公平。

      2. 研究方法

      2.1 數(shù)據(jù)來(lái)源

      MFRM分析要求相互比較的個(gè)體之間存在聯(lián)結(jié)(Linacre,2012)。在本研究中,我們以不同評(píng)分小組中的同一考官作為聯(lián)結(jié)點(diǎn),選取同一考官給不同考生的打分?jǐn)?shù)據(jù),以達(dá)到比較多位考官、考生的目的。數(shù)據(jù)來(lái)源于2019年的某次面試,通過(guò)以共同考官為聯(lián)結(jié)點(diǎn)的方式,抽取了符合MFRM分析要求的12位考官的打分?jǐn)?shù)據(jù),由這12位考官打分的考生共有128位,考官打分?jǐn)?shù)據(jù)包括說(shuō)課分、試講分、中文問(wèn)答分、外語(yǔ)水平分和總體印象分共5項(xiàng)??脊侔搭愋头譃橹骺脊?人(編號(hào)為1A、2A、3A、4A)、考官4人(編號(hào)為1B、2B、3B、4B)、外語(yǔ)考官4人(編號(hào)為1C、2C、3C、4C),考生編號(hào)為1至128號(hào)。12位考官平均教齡為21.83年(SD=7.95),其中11位女性,1位男性。128位考生中包括女性115人,男性13人。抽取方案如表1所示,每一組考官都與其他組考官存在一個(gè)或以上的相同考官,如通過(guò)主考官3A,考官3A、4B、4C、1B、3C等5位考官可以相互比較,考生1-30號(hào)與45-58號(hào)共44位考生也可以相互比較。另外,一次面試通常會(huì)持續(xù)兩到四天,考生是按事先抽簽決定的時(shí)間段(批次)參加考試的,考官可以選擇參加一天或者多天的面試,每天的面試時(shí)間約8小時(shí)(上午4小時(shí),下午4小時(shí)),考慮到工作時(shí)長(zhǎng)可能對(duì)打分產(chǎn)生些許影響,我們?cè)谑占瘮?shù)據(jù)時(shí)也收集了考官打分?jǐn)?shù)據(jù)產(chǎn)生的時(shí)間。

      2.2 數(shù)據(jù)處理

      要探究面試過(guò)程中考官能否有效區(qū)分考生能力這一問(wèn)題,在MFRM分析前我們定義了三個(gè)側(cè)面,首先是“考生”側(cè)面,每位考生會(huì)得到三位考官在五個(gè)打分項(xiàng)上給出的分?jǐn)?shù),通過(guò)這些分?jǐn)?shù)可估計(jì)出考生能力值;第二個(gè)側(cè)面是“考官”,每位考官在面試過(guò)程中會(huì)給多位考生打分,通過(guò)分析考官打出的所有分?jǐn)?shù),可得出每位考官自身的打分一致性、考官之間打分一致性、是否存在光環(huán)效應(yīng)、以及不同考官之間的打分寬嚴(yán)差異;第三個(gè)側(cè)面是“打分項(xiàng)”,考官會(huì)在說(shuō)課、試講、中文問(wèn)答、外語(yǔ)水平和總體印象這五個(gè)打分項(xiàng)上給出分?jǐn)?shù),通過(guò)分析每個(gè)打分項(xiàng)上所有考官給出的分?jǐn)?shù),可以得到不同打分項(xiàng)的難易度(考官打分高低)。

      將上述三個(gè)側(cè)面的數(shù)據(jù)進(jìn)行估值和模型建立,用到的計(jì)算公式如下:

      目前,研究者在MFRM分析時(shí)使用較多的統(tǒng)計(jì)軟件是Facets,本研究使用的是Facets 3.83.2① (Linacre,2020)。

      3. 研究結(jié)果與討論

      本研究的結(jié)果分析和討論主要從以下三個(gè)方面展開:一為總體分析,即三個(gè)側(cè)面的總體分布情況,是數(shù)據(jù)的可視化、總結(jié)性表達(dá);二為分側(cè)面分析,分別從考生、考官、打分項(xiàng)三個(gè)側(cè)面,進(jìn)行側(cè)面內(nèi)的分析和討論;三為交互分析,分析各個(gè)側(cè)面之間的交互關(guān)系和不同情境對(duì)考官打分寬嚴(yán)度的影響。

      數(shù)據(jù)分析結(jié)果包括兩個(gè)主要部分:個(gè)體統(tǒng)計(jì)量和層面統(tǒng)計(jì)量。個(gè)體統(tǒng)計(jì)量主要包括度量值(measure)、擬合統(tǒng)計(jì)量(fit statistics)和擬合統(tǒng)計(jì)量轉(zhuǎn)化而來(lái)的標(biāo)準(zhǔn)Z值(Z standard)。層面統(tǒng)計(jì)量主要包括分隔系數(shù)(Separation)、信度(Reliability)、層度系數(shù)(Stara)和卡方檢驗(yàn)(chi-square)。除此之外,在考官側(cè)面,還用到了評(píng)分者間一致性系數(shù)(Inter-rater)進(jìn)行考官間一致性的分析。

      3.1 總體分析

      總體分析主要說(shuō)明本研究定義的三個(gè)側(cè)面在統(tǒng)一量表上的分布情況。如圖1所示,第一列的“Measr”代表的是MFRM分析的度量值(measure),單位是“l(fā)ogits”,它是三個(gè)側(cè)面的共同標(biāo)準(zhǔn),每個(gè)側(cè)面中的個(gè)體(如考生127號(hào)、考官3B)都在這個(gè)統(tǒng)一量尺上有確定的值??忌鷤?cè)面的度量值代表考生的能力值,考官側(cè)面的度量值代表考官的打分寬嚴(yán)度,打分項(xiàng)側(cè)面的度量值代表打分項(xiàng)得分的難易度,也就是考官在這一打分項(xiàng)上給出分?jǐn)?shù)的高低。每個(gè)側(cè)面在MFRM分析中是有方向性的,可以正向發(fā)揮作用(用 “+”號(hào)表示),也可以反向發(fā)揮作用(用“-”號(hào)表示)。在教育領(lǐng)域中,通常的慣例是“能力為正向,其他方面為反向”(Linacre,2012)。據(jù)此,本研究中的考生側(cè)面是正向的,考官和打分項(xiàng)這兩個(gè)側(cè)面是反向的。

      考生能力值由大到小自上而下排列,位于最上方的127號(hào)考生能力值最高,位于最下方的84號(hào)考生能力值最低,考生的能力基本呈正態(tài)分布??脊俅蚍謱拠?yán)度由嚴(yán)至寬自上而下排列,考官3B位于最上方,說(shuō)明他在評(píng)分過(guò)程中最為嚴(yán)厲,給考生的打分最低;考官1A和1C位于最下方,說(shuō)明他們?cè)谠u(píng)分過(guò)程中最為寬松,給考生打分最高。打分項(xiàng)根據(jù)考官給出的分?jǐn)?shù)由低至高排列,“試講”位于最上方,說(shuō)明這一打分項(xiàng)最難,考官打分最嚴(yán)格,給出的分?jǐn)?shù)最低;“總體印象”位于最下方,說(shuō)明這一打分項(xiàng)最容易,考官打分最寬松,給出的分?jǐn)?shù)最高。

      3.2 分側(cè)面分析

      分側(cè)面分析主要說(shuō)明本研究定義的每一個(gè)側(cè)面的內(nèi)部情況,主要包括側(cè)面內(nèi)個(gè)體的度量值、個(gè)體的擬合統(tǒng)計(jì)量、每個(gè)側(cè)面的層面統(tǒng)計(jì)量。在考官側(cè)面,還包括評(píng)分者間一致性系數(shù)。分側(cè)面將用到以下幾個(gè)指標(biāo)進(jìn)行分析。

      擬合統(tǒng)計(jì)量用于分析各側(cè)面中的每個(gè)個(gè)體與模型之間的擬合程度。MFRM使用均方擬合統(tǒng)計(jì)量(Chi-square fit statistics)和標(biāo)準(zhǔn)Z值(ZStd)來(lái)表示數(shù)據(jù)和模型的擬合程度。擬合統(tǒng)計(jì)量包括加權(quán)均方擬合統(tǒng)計(jì)量(Infit Mnsq)和未加權(quán)均方擬合統(tǒng)計(jì)量(Outfit Mnsq),因后者更易受到個(gè)別值的影響,一般以前者作為判斷個(gè)體是否擬合模型的依據(jù)(張潔,2014)。一般認(rèn)為,0.5-1.5是Infit Mnsq的可接受范圍。而對(duì)于高風(fēng)險(xiǎn)測(cè)試,應(yīng)采取更嚴(yán)格的控制(Linacre,2012;孫曉敏、張厚粲,2006)。因此,本研究選用0.8-1.2的嚴(yán)格范圍(Linacre,2012),Infit Mnsq大于1.2為不擬合,小于0.8為過(guò)度擬合。ZStd是由Infit Mnsq轉(zhuǎn)化而來(lái)的符合正態(tài)分布的標(biāo)準(zhǔn)值。Linacre(2012)指出,|ZStd|≥2.6可作為數(shù)據(jù)與模型不擬合及過(guò)度擬合高度顯著的指標(biāo)。

      層面統(tǒng)計(jì)量主要包括分隔系數(shù)(Separation)、信度(Reliability)、層度系數(shù)(Stara)和卡方檢驗(yàn)(chi-square),用于分析該側(cè)面中個(gè)體之間的差異大小。分隔系數(shù)(Separation)標(biāo)志著測(cè)量分?jǐn)?shù)整體的有效性,如果來(lái)自考生的真實(shí)變異與來(lái)自測(cè)量誤差的變異相等,則分隔系數(shù)等于1(孫曉敏、薛剛,2008)。一般認(rèn)為,分隔系數(shù)大于2,意味著個(gè)體間有明顯差異(Myford & Wolfe,2004; Linacre,2012),數(shù)值越大,說(shuō)明有越大的把握認(rèn)為該層面?zhèn)€體之間存在顯著的差異。信度(Reliability)說(shuō)明了在總觀測(cè)變異中真實(shí)變異所占的比例(孫曉敏、張厚粲,2006)。信度值的取值范圍在0到1之間,越接近于0,說(shuō)明該側(cè)面?zhèn)€體之間差異越小;越接近于1,說(shuō)明該側(cè)面?zhèn)€體之間差異越大。通過(guò)分隔系數(shù)可以把側(cè)面內(nèi)的個(gè)體分成幾層,用層度值(Strata)表示,其計(jì)算方法為Strata=(4*Separation+1)/3(Myford &Wolfe, 2000)??ǚ綑z驗(yàn)(chi-square)用于統(tǒng)計(jì)樣本的實(shí)際觀測(cè)值與理論推斷值之間的偏離程度,數(shù)值越大,說(shuō)明有越大的把握認(rèn)為該層面?zhèn)€體之間存在顯著的差異。

      評(píng)分者間一致性系數(shù)(Inter-rater)包括Exact Agreement Expected %(以下簡(jiǎn)稱Expected %)和Exact Agreement Observed %(以下簡(jiǎn)稱Observed %),其中Expected %是MFRM估算出的、在每個(gè)考官都獨(dú)立打分的情況下,考官組之間的一致性評(píng)分占所有評(píng)分的比例; Observed %則是考官組在實(shí)際打分過(guò)程中所出現(xiàn)的一致性評(píng)分在所有評(píng)分中所占的比例。如果Observed %與Expected %數(shù)值相近,則說(shuō)明在打分過(guò)程中考官是獨(dú)立打分的。如果Observed %數(shù)值高于Expected %數(shù)值,則說(shuō)明考官在打分過(guò)程中有意與其他考官達(dá)成一致(Linacre,2012)。

      3.2.1 考生側(cè)面

      考生側(cè)面代表的是考生的能力水平,在MFRM分析中是正向的。如表2所示,樣本中能力值最高的考生為127號(hào),其度量值為1.20 logits,84號(hào)考生能力值最低,度量值為-1.44 logits,考生的能力跨度為2.64 logits??忌鷤?cè)面的分隔系數(shù)為4.48,信度值為0.95,卡方值為2435.4,接受各考生能力度量值在統(tǒng)計(jì)上全部相同這一假設(shè)的概率p<0.001。這說(shuō)明考分的差異具有顯著意義,且該差異絕大部分可由考生的被考查能力得到解釋。從考官打分角度說(shuō),就是考官能夠區(qū)分考生的能力水平??忌鷤?cè)面的層度值為6.30,說(shuō)明考生能力水平最少可分為6級(jí)。

      從考生個(gè)體的角度來(lái)看,|ZStd|≥2.6的考生有23位,其中12人的Infit MnSq高于1.2,表現(xiàn)為不擬合,11人的Infit MnSq低于0.8,表現(xiàn)為過(guò)度擬合。不擬合的原因一方面可能跟不同考官對(duì)同一考生的評(píng)分不一致程度高有關(guān),另一方面可能是由于不同打分項(xiàng)測(cè)查的是作為一名合格的國(guó)際中文教師在不同方面的能力,而考生在不同方面的能力水平并不一致。過(guò)度擬合則說(shuō)明考官給考生的評(píng)定過(guò)于一致,可能有考官間一致性過(guò)強(qiáng)或評(píng)分趨中的問(wèn)題。后面我們還將分別對(duì)考生和考官、考生和打分項(xiàng)進(jìn)行偏差/交互分析,尋找考生數(shù)據(jù)不擬合的原因。

      3.2.2 考官側(cè)面

      面試的主觀性使得多個(gè)考官之間的評(píng)分一致性成為面試?yán)碚摵蛯?shí)踐中長(zhǎng)期關(guān)注的一個(gè)重要問(wèn)題。經(jīng)典測(cè)量理論中的評(píng)分者信度只能提供多個(gè)考官之間的一致性信息,而MFRM則可以對(duì)考官個(gè)體的寬嚴(yán)程度、自身評(píng)分一致性、與其他考官的一致性、與各因素之間的交互/偏差等多個(gè)角度進(jìn)行分析。以下將從考官的打分寬嚴(yán)度、自身一致性和考官間一致性進(jìn)行分析。

      考官側(cè)面代表的是考官打分情況,在MFRM分析中是反向的。從表3的考官度量值可以看出考官打分寬嚴(yán)度,考官3B打分最嚴(yán),其度量值為0.17 logits, 考官1A打分最松,其度量值為-0.20 logits??脊賯?cè)面的分隔系數(shù)為3.45,信度為0.92,卡方值為125.9,接受考官的評(píng)分寬嚴(yán)程度在統(tǒng)計(jì)上全部相同這一假設(shè)的概率p<0.001。這說(shuō)明考官打分的寬嚴(yán)度有顯著的差異??脊俚膶拠?yán)跨度為0.37 logits,考生能力跨度(2.64 logits)是考官寬嚴(yán)跨度的7.14倍。通常認(rèn)為,考生能力跨度在考官寬嚴(yán)跨度4倍以上時(shí),考官在寬嚴(yán)度上的差異總體上不會(huì)對(duì)考生的成績(jī)產(chǎn)生決定性的影響(何蓮珍,張潔,2008;張新玲,曾用強(qiáng),2009)。所以,雖然此次考官打分寬嚴(yán)度有顯著差異,但不會(huì)對(duì)考生成績(jī)?cè)斐商笥绊憽?/p>

      考官打分的自身一致性可依據(jù)Infit MnSq值進(jìn)行分析,這里的“一致性”并不是指不同考官之間需要達(dá)成相互一致,而是指某一位考官是否能夠?qū)λ锌忌3址€(wěn)定的打分寬嚴(yán)程度。如表3所示,從考官個(gè)體角度來(lái)看,|ZStd|≥2.6的考官有4位,其中2A、3B兩位考官的Infit MnSq高于1.2,表現(xiàn)為不擬合,說(shuō)明他們?cè)诖蚍诌^(guò)程中自身穩(wěn)定性較差;3A、4B兩位考官的Infit MnSq低于0.8,表現(xiàn)為過(guò)度擬合,說(shuō)明他們?cè)诖蚍诌^(guò)程中給出的分?jǐn)?shù)差異太小,存在一定的趨中性,也許是采用了“安全策略”,在打分過(guò)程中僅僅使用了少數(shù)幾個(gè)等級(jí)分?jǐn)?shù)對(duì)不同表現(xiàn)的考生進(jìn)行評(píng)分。

      除了考官自身一致性,我們又根據(jù)三人考官小組對(duì)同一批考生的打分情況分析了考官間評(píng)分的一致性,結(jié)果如表4所示。

      表4為考官組(分組情況見表1)內(nèi)的三位考官之間的評(píng)分一致性系數(shù),第三列為Expected %,即MFRM估計(jì)的獨(dú)立打分時(shí)的一致性打分占比,第四列為Observed %實(shí)際打分中的一致性打分占比,第五列為前兩列差值。從中可以看出2、3、5、7組的Observed %值均比Expected %值高百分之十幾,這與考官在面試中并不是完全被要求獨(dú)立打分的情況相吻合。根據(jù)打分要求,考官在打分過(guò)程中可以對(duì)考生的表現(xiàn)進(jìn)行一定程度的討論,因而Observed %值往往會(huì)高于Expected %值。同時(shí),如表3所示,這幾組的考官也大都表現(xiàn)出了穩(wěn)定的自身一致性。第4組和第6組考官的Observed %均與Expected %數(shù)值相近,說(shuō)明這兩組的考官在打分中偏向于獨(dú)立打分,但也有可能是與2A、3B兩位考官打分過(guò)程中自身穩(wěn)定性較差有關(guān)。第1組考官的Observed %值遠(yuǎn)大于其Expected %值,差值達(dá)到了40.3%,遠(yuǎn)遠(yuǎn)大于其他組,這可能與3A、4B兩位考官打分過(guò)程中存在一定的趨中性有關(guān)。第4組和第6組體現(xiàn)出來(lái)的打分獨(dú)立性和自身穩(wěn)定性之間的因果關(guān)系,有待進(jìn)一步討論,可能是由于考官們未按照要求進(jìn)行一定程度的討論導(dǎo)致考官評(píng)分穩(wěn)定性較差,也可能是評(píng)分不穩(wěn)定的考官無(wú)法與評(píng)分穩(wěn)定的考官達(dá)成一致,因而使評(píng)分者一致性系數(shù)呈現(xiàn)出獨(dú)立打分的狀態(tài)。第1組考官打分也是如此,可能是考官間的過(guò)度討論使得組內(nèi)考官均給出了趨中性的打分,也可能是由于三位考官各自打分的趨中性使得組內(nèi)評(píng)分者一致性系數(shù)過(guò)高。未來(lái)可針對(duì)此問(wèn)題進(jìn)行進(jìn)一步研究。

      3.2.3 打分項(xiàng)側(cè)面

      打分項(xiàng)側(cè)面代表的是各打分項(xiàng)的難易度情況,也就是考官在不同打分項(xiàng)上的打分高低情況,在MFRM分析中是反向的。根據(jù)表5所示,在排除了不同考官寬嚴(yán)程度差異、考生能力差異的影響后,考官打分最嚴(yán)格的是“試講”這一項(xiàng),度量值為0.26 logits,最寬松的是“總體印象”這一項(xiàng),度量值為-0.14 logits。打分項(xiàng)側(cè)面的總體跨度為0.40 logits,分隔系數(shù)為5.70,信度為0.97,卡方值為308.5,接受各打分項(xiàng)的難度在統(tǒng)計(jì)上全部相同這一假設(shè)的概率為p<0.001,說(shuō)明考官在“說(shuō)課”“試講”“中文問(wèn)答”“外語(yǔ)水平”“總體印象”這五個(gè)打分項(xiàng)上的寬嚴(yán)程度有明顯差異,“試講”最嚴(yán)格,其次是“外語(yǔ)水平”“說(shuō)課”和“中文問(wèn)答”,考官對(duì)“總體印象”這一項(xiàng)的打分偏慷慨。

      打分項(xiàng)側(cè)面的Infit MnSq值代表了某打分項(xiàng)的考官打分一致程度,從表5可以看出,“說(shuō)課”和“總體印象”的|Zstd|≥2.6,Infit MnSq低于0.8,表現(xiàn)為顯著的過(guò)度擬合,說(shuō)明考官在對(duì)這兩項(xiàng)打分時(shí)存在過(guò)度一致的情況,這可能與“說(shuō)課”的程式化和“總體印象”比較容易趨中性給分有關(guān)?!爸形膯?wèn)答”的|Zstd|≥2.6,Infit MnSq高于1.2,數(shù)據(jù)呈現(xiàn)顯著的不擬合,說(shuō)明考官在這一打分項(xiàng)存在較大分歧,這可能是考官對(duì)“中文問(wèn)答”的評(píng)分細(xì)則的理解和尺度把握不同有關(guān),也可能是由于考官對(duì)這一部分參考答案的理解和側(cè)重有所不同所致?!霸囍v”“ 外語(yǔ)水平”這兩項(xiàng)則擬合較好,說(shuō)明考官在這兩個(gè)打分項(xiàng)上總體來(lái)講能恰當(dāng)?shù)匕芽忌絽^(qū)分開。

      為進(jìn)一步探究考官在每個(gè)打分項(xiàng)的打分質(zhì)量,我們又分別計(jì)算了考生在這五個(gè)打分項(xiàng)上的分隔系數(shù)和信度,以考察考官在不同打分項(xiàng)上對(duì)考生的區(qū)分能力如何。如表6所示,在各打分項(xiàng)上接受考生能力度量值在統(tǒng)計(jì)上全部相同這一假設(shè)的概率p均小于0.001,也就是說(shuō),每個(gè)打分項(xiàng)上考生的差異均具有顯著意義,且該差異絕大部分可由考生的被考察能力得到解釋,這就說(shuō)明考官在所有打分項(xiàng)上均能有效地區(qū)分考生能力??脊僭凇霸囍v”這一項(xiàng)上至少能將考生能力水平分為9層,區(qū)分能力最強(qiáng);在“外語(yǔ)水平”和“總體印象”這兩項(xiàng)上均可以將考生能力水平分出6個(gè)以上的層次,區(qū)分能力較強(qiáng);在“說(shuō)課”和“中文問(wèn)答”這兩項(xiàng)上將考生能力水平都是僅分為4個(gè)層次,區(qū)分能力相對(duì)較弱。“說(shuō)課”的區(qū)分能力較弱可能與前文提到的“說(shuō)課”具有較強(qiáng)的程式化有關(guān),“中文問(wèn)答”的區(qū)分能力較弱的原因,我們將在后面的偏差分析中進(jìn)一步討論。

      3.3 偏差/交互分析

      在用MFRM進(jìn)行考試信度研究時(shí),實(shí)際考試數(shù)據(jù)若完全符合假設(shè),則與模型出現(xiàn)不擬合的偏差應(yīng)該是完全隨機(jī)的,但在實(shí)際面試中各側(cè)面是極可能發(fā)生交互作用的,從而導(dǎo)致實(shí)際考試分?jǐn)?shù)偏離模型預(yù)測(cè)的分?jǐn)?shù)。這就有必要通過(guò)偏差分析來(lái)找到各側(cè)面的偏差所在,相當(dāng)于進(jìn)行項(xiàng)目功能差異(differential item functioning, DIF)研究,并通過(guò)交互分析來(lái)找到各側(cè)面之間的交互關(guān)系。本研究分析了考生、考官和打分項(xiàng)三個(gè)側(cè)面之間的交互關(guān)系,并關(guān)注了考官在考生性別、考試時(shí)間等兩個(gè)情境下是否會(huì)產(chǎn)生系統(tǒng)性的打分寬嚴(yán)度變化。分析結(jié)果如表7所示。

      考官和考生之間顯著偏差的數(shù)量為1,占所有交互總數(shù)(384)的0.26%。除考官3C在給119號(hào)考生打分時(shí)出現(xiàn)了與往常打分寬嚴(yán)略有不同的情況之外,無(wú)其他偏差情況。根據(jù)McNamara(1996)的觀點(diǎn),顯著偏差占比在5%以下,屬于可接受的范圍。關(guān)于測(cè)量誤差的假設(shè)檢驗(yàn)p=1.00,說(shuō)明此次偏差很可能是偶然情況。也就是說(shuō),總體上考官能夠有效、一致地區(qū)分不同能力考生,不存在偏差。

      考官和打分項(xiàng)在交互總數(shù)為60的情況下,顯著偏差為11個(gè),占到了18.3%,大于McNamara提出的5%的范圍。關(guān)于測(cè)量誤差的假設(shè)檢驗(yàn)p<0.001,說(shuō)明偏差并非偶然產(chǎn)生。在11個(gè)顯著偏差中,“中文問(wèn)答”的偏差占到了6個(gè)。結(jié)合表6的打分項(xiàng)分隔系數(shù)和層度系數(shù)看,“中文問(wèn)答”的分隔系數(shù)、層度系數(shù)均相對(duì)較低,說(shuō)明考官在打分項(xiàng)上的給分確實(shí)存在偏差。這可能是由于評(píng)分細(xì)則的可操作性不足,或考官對(duì)參考答案的理解有偏差所致。另外,在分析考官和打分項(xiàng)交互作用時(shí),我們還會(huì)綜合考官側(cè)面數(shù)據(jù)來(lái)檢查考官打分是否存在光環(huán)效應(yīng)。如果考官側(cè)面的Infit MnSq小于1且Outfit MnSq大于1,同時(shí)考官與打分項(xiàng)的交互作用顯著,則可認(rèn)為存在光環(huán)效應(yīng)(Myford& Wolfe,2004;Farrokhi & Esfandiari,2011)。雖然這里考官和打分項(xiàng)交互作用顯著,但表3所示的考官側(cè)面數(shù)據(jù)中卻沒有Infit MnSq小于1且Outfit MnSq大于1的情況,所以還是可以說(shuō)明考官在打分過(guò)程中并不存在光環(huán)效應(yīng)。

      考生和打分項(xiàng)在交互總數(shù)為640的情況下,顯著偏差為108個(gè),占到了16.9%,大于McNamara提出的5%的范圍。關(guān)于測(cè)量誤差的假設(shè)檢驗(yàn)p<0.001,也說(shuō)明偏差并非偶然產(chǎn)生。顯著偏差中,除“總體印象”的偏差數(shù)量較少外,其余打分項(xiàng)偏差數(shù)量較多,且分布較平均。這說(shuō)明考生在各打分項(xiàng)所代表的國(guó)際中文教師應(yīng)具備的各方面能力上,水平發(fā)展并不均衡,而由于“總體印象”的給分是在綜合考量其他4個(gè)打分項(xiàng)基礎(chǔ)上給出的分?jǐn)?shù),且考官在打分時(shí)可能會(huì)存在較大趨中性,因而顯著偏差較少。

      在考官和考試時(shí)間、考官和考生性別之間的偏差/交互分析中,都沒有發(fā)現(xiàn)顯著的差異,即考官的打分寬嚴(yán)度不會(huì)隨著工作時(shí)間長(zhǎng)度的變化產(chǎn)生一致的變化趨勢(shì),考官在給不同性別的考生打分時(shí)也不會(huì)產(chǎn)生一致的變化趨勢(shì)。對(duì)考生而言,不論他們?cè)谝惶熘械哪膫€(gè)批次參加面試,也不論他們是男性還是女性,考官都能夠一視同仁地根據(jù)他們的面試表現(xiàn)進(jìn)行打分,考生得到了公平的對(duì)待。

      4. 結(jié)論

      此次MFRM分析結(jié)果表明:在該次面試中,考官能夠有效地區(qū)分不同水平的考生,考官的打分寬嚴(yán)度存在顯著差異,但該差異不會(huì)對(duì)考生成績(jī)產(chǎn)生決定性的影響;考官打分的自身一致性總體上處在可接受范圍,存在一定程度的趨中現(xiàn)象;大部分考官小組內(nèi)部的三位考官之間打分一致性略高于獨(dú)立打分時(shí)的一致性,與考試打分流程要求相吻合??脊僭诓煌蚍猪?xiàng)上對(duì)考生的區(qū)分能力存在差異,在“試講”這一項(xiàng)上打分最嚴(yán),對(duì)考生水平的區(qū)分效果最好,在“總體印象”這一項(xiàng)上打分最慷慨,但也都能夠較好地區(qū)分考生水平;考官在評(píng)分時(shí)不存在光環(huán)效應(yīng),基本做到了性別公平,打分穩(wěn)定性不受考試時(shí)間的影響。

      本次研究發(fā)現(xiàn)可為考官培訓(xùn)和考生能力培養(yǎng)了提供了一些參考意見。部分考官的打分一致性不高,在面試評(píng)分標(biāo)準(zhǔn)、細(xì)則以及試題參考答案的理解和把握上存在一定程度的偏差,不能在打分過(guò)程中有效區(qū)分考生能力水平。為改善這一狀況,一方面需要對(duì)考官有針對(duì)性地加強(qiáng)考前培訓(xùn)和考后反饋,另一方面需要考試開發(fā)者對(duì)評(píng)分標(biāo)準(zhǔn)和試題參考答案等進(jìn)行一定的調(diào)整和優(yōu)化。根據(jù)考生和打分項(xiàng)的偏差分析結(jié)果顯示,考生在國(guó)際中文教師能力的各個(gè)方面上發(fā)展并不均衡,可有針對(duì)性地加強(qiáng)提高相應(yīng)能力的培養(yǎng),盡量做到全面發(fā)展。

      [參考文獻(xiàn)]

      丁樹良,羅 芬,涂冬波 2012 項(xiàng)目反應(yīng)理論新進(jìn)展專題研究[M]. 北京:北京師范大學(xué)出版社.

      范 鵬 2017 大規(guī)??荚嚲W(wǎng)上評(píng)卷中趨中評(píng)分的成因探析[J]. 中國(guó)輕工教育(5).

      何蓮珍,張 潔 2008 多層面Rasch模型下大學(xué)英語(yǔ)四,六級(jí)考試口語(yǔ)考試(CET-SET)信度研究[J]. 現(xiàn)代外語(yǔ)31(4).

      孔子學(xué)院總部/國(guó)家漢辦 2016 國(guó)際中文教師證書考試大綱[M]. 北京:人民教育出版社.

      劉耀中 2009 人員選拔面試中的暈輪效應(yīng)[J]. 心理科學(xué)32(6).

      孫曉敏,薛 剛 2008 多面Rasch模型在結(jié)構(gòu)化面試中的應(yīng)用[J].心理學(xué)報(bào)(9).

      孫曉敏,張厚粲 2006 國(guó)家公務(wù)員結(jié)構(gòu)化面試中評(píng)委偏差的IRT分析[J].心理學(xué)報(bào)38(4).

      吳志明,張厚粲,楊立謙 1997 結(jié)構(gòu)化面試中的評(píng)分一致性問(wèn)題初探[J].應(yīng)用心理學(xué)(02).

      曾秀芹,孟慶茂 1999 項(xiàng)目功能差異及其檢測(cè)方法[J]. 心理科學(xué)進(jìn)展17(002).

      張 潔 2014 語(yǔ)言測(cè)試研究中的多層面Rasch模型——原理簡(jiǎn)介和研究綜述[J]. 外語(yǔ)測(cè)試與教學(xué)000(3).

      張新玲,曾用強(qiáng) 2009 讀寫結(jié)合寫作測(cè)試任務(wù)在大型考試中的構(gòu)念效度驗(yàn)證[J]. 解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào)32(001).

      Farrokhi, F. & R. Esfandiari 2011 A many-facet Rasch Model to detect halo effect in three types of raters [J]. Theory and Practice in Language Studies 1(11).

      Linacre, J. M. 2012 Many-Facet Rasch Measurement: Facets Tutorial [EB/OL] https://www.winsteps.com/tutorials.htm

      McNamara, T. F. 1996 Measuring Second Language Performance[M]. London: Longman.

      Myford, C. M. & E. W. Wolfe 2000 Monitoring Sources of Variability within the Test of Spoken English Assessment System [R] (TOEFL Research Report NO. 65) Princeton, NJ: Educational Testing Service.

      ——— 2003 Detecting and measuring rater effects using many-facet Rasch measurement: Part I. [J]. Journal of Applied Measurement 4(4).

      ——— 2004 Detecting and measuring rater effects using many-facet Rasch measurement: Part II [J]. Journal of applied measurement 5(2).

      Weigle, S. C. 1998 Using FACETS to model rater training effects[J]. Language Testing 15(2).

      猜你喜歡
      面試信度
      《廣東地區(qū)兒童中醫(yī)體質(zhì)辨識(shí)量表》的信度和效度研究
      如何指導(dǎo)大學(xué)生提高面試技能
      考試周刊(2016年76期)2016-10-09 08:13:25
      科技成果評(píng)價(jià)的信度分析及模型優(yōu)化
      體育社會(huì)調(diào)查問(wèn)卷信度檢驗(yàn)的方法學(xué)探索——基于中文核心體育期刊163篇文章分析
      耳鳴殘疾問(wèn)卷中文版的信度和效度檢驗(yàn)及其臨床應(yīng)用
      中文版腦性癱瘓兒童生活質(zhì)量問(wèn)卷的信度
      翻譯測(cè)試的評(píng)分員信度研究*——TEM8 翻譯項(xiàng)目評(píng)分員問(wèn)卷調(diào)查記略
      皮山县| 天峨县| 台中市| 含山县| 汾西县| 宝坻区| 周口市| 东乡族自治县| 右玉县| 五华县| 彩票| 太和县| 合肥市| 梨树县| 济源市| 武鸣县| 独山县| 伊金霍洛旗| 灌阳县| 永平县| 旺苍县| 汕尾市| 班戈县| 宝丰县| 叙永县| 汝阳县| 南乐县| 邵武市| 南和县| 晋中市| 修武县| 巩义市| 进贤县| 乌苏市| 婺源县| 承德市| 平远县| 五指山市| 上饶市| 大英县| 蒲江县|