計(jì)算機(jī)輔助口試評(píng)分穩(wěn)定性歷時(shí)研究
——以PRETCO口試為例

2021-04-30 08:38:24楊志強(qiáng)李志芳董曼霞

外國(guó)語(yǔ)文 2021年2期

關(guān)鍵詞：分?jǐn)?shù)段口試評(píng)分標(biāo)準(zhǔn)

楊志強(qiáng) 李志芳董曼霞

(1.重慶科技學(xué)院外國(guó)語(yǔ)學(xué)院，重慶 401331/廣東外語(yǔ)外貿(mào)大學(xué) 外國(guó)語(yǔ)言學(xué)及應(yīng)用語(yǔ)言學(xué)研究中心，廣東廣州 510420；2.陸軍軍醫(yī)大學(xué) 基礎(chǔ)醫(yī)學(xué)院外語(yǔ)教研室，重慶 400038；3.四川外國(guó)語(yǔ)大學(xué) 商務(wù)英語(yǔ)學(xué)院，重慶 400031)

0 引言

外語(yǔ)口語(yǔ)能力是外語(yǔ)水平的直接表現(xiàn)。隨著英語(yǔ)口語(yǔ)越來(lái)越受到重視，參加口試的考生逐年增多，人工實(shí)考及評(píng)分已經(jīng)無(wú)法滿足操作需求。近20年來(lái)，計(jì)算機(jī)技術(shù)和測(cè)試?yán)碚摰牟粩喟l(fā)展及融合，突顯了計(jì)算機(jī)輔助考試的優(yōu)勢(shì)，如信度高、節(jié)約費(fèi)用、考試時(shí)間靈活、便于組織等(曾用強(qiáng), 2011)。因此，該技術(shù)已廣泛應(yīng)用于大規(guī)?？荚噷?shí)踐中(金力，2011)，包括TOFEL機(jī)考、CET口試、TEM口試以及高等學(xué)校英語(yǔ)應(yīng)用能力口語(yǔ)考試(Practical English Test for College-Oral，簡(jiǎn)稱PRETCO口試)等。PRETCO口試是由國(guó)家高等學(xué)校英語(yǔ)應(yīng)用能力考試委員會(huì)于2005年開(kāi)始實(shí)施的口語(yǔ)考試，該考試是以人機(jī)對(duì)話方式進(jìn)行的計(jì)算機(jī)輔助考試(劉鴻章等, 2010)。由于計(jì)算機(jī)輔助口試自動(dòng)評(píng)分技術(shù)還不成熟，目前仍采用人工評(píng)分。人工主觀評(píng)分容易出現(xiàn)誤差，所以有必要對(duì)評(píng)分的信度進(jìn)行研究(Myford et al., 2004)。此外，評(píng)分員的評(píng)分可能隨著時(shí)間的進(jìn)展發(fā)生變化(Myford et al., 2004)，而且評(píng)分的穩(wěn)定性直接關(guān)系評(píng)分的質(zhì)量、評(píng)分員的遴選，以及考試的信度、效度和公平性等(趙海燕等, 2018)，因此，對(duì)評(píng)分員的穩(wěn)定性進(jìn)行研究具有重要的實(shí)際意義。雖然近年來(lái)有關(guān)口語(yǔ)測(cè)試評(píng)分信度展開(kāi)的研究日益增多(何蓮珍等, 2008；劉建達(dá), 2010；Attali, 2016；Kang et al.， 2019)但這些研究都只對(duì)單次的評(píng)分作了分析，沒(méi)有對(duì)評(píng)分的穩(wěn)定性進(jìn)行歷時(shí)研究。為此，本文擬基于PRETCO口試連續(xù)五次的評(píng)分結(jié)果，調(diào)查評(píng)分員評(píng)分的穩(wěn)定性，以期為PRETCO口試的評(píng)分提供一些啟示，同時(shí)為其他高風(fēng)險(xiǎn)計(jì)算機(jī)輔助口試，如CET口試、TEM口試的評(píng)分或評(píng)分培訓(xùn)提供一些參考。

1 文獻(xiàn)回顧

國(guó)外有關(guān)口語(yǔ)測(cè)試的研究起步早，覆蓋廣，如口語(yǔ)測(cè)試的構(gòu)念(Luoma, 2004)、口語(yǔ)測(cè)試的效度驗(yàn)證(Knoch et al. 2018)、口試的任務(wù)(Frost et al., 2020)、口試評(píng)分標(biāo)準(zhǔn)(Fulcher, 1996; Khabbazbashi et al., 2020)、受試的特征(Nakatsuhara, 2011)、評(píng)分培訓(xùn)及評(píng)分員對(duì)考生口試表現(xiàn)的影響(Kang et al, 2019)、口試的評(píng)分效度研究(Lumley et al., 1995；Elder et al., 2005；Attali, 2016)，等等。其中，有關(guān)口試評(píng)分的研究占多數(shù)。雖然評(píng)分員的評(píng)分是動(dòng)態(tài)變化的(Myford et al., 2004)，但大部分研究只對(duì)單次的評(píng)分進(jìn)行了分析。目前，僅有個(gè)別文獻(xiàn)采用現(xiàn)代測(cè)試方法，比如基于項(xiàng)目反應(yīng)理論的多層面Rasch模型，對(duì)口試評(píng)分進(jìn)行了歷時(shí)分析(Lumley et al., 1995；Bonk et al., 2003；Kim, 2015)，然而這些研究的結(jié)果存在差異。Lumley 等(1995)分析了四名評(píng)分員三次職業(yè)英語(yǔ)口試(Speaking subtest of Occupational English Test)的評(píng)分結(jié)果，發(fā)現(xiàn)評(píng)分員評(píng)分的嚴(yán)厲度隨著時(shí)間發(fā)生了變化，且寬嚴(yán)度變化的趨勢(shì)不盡相同；Bonk等(2003)基于對(duì)某校本英語(yǔ)口試兩輪評(píng)分結(jié)果的分析，發(fā)現(xiàn)評(píng)分員的嚴(yán)厲度差異較大，而且不穩(wěn)定，評(píng)分員的內(nèi)部一致性隨著其評(píng)分經(jīng)驗(yàn)的積累不斷加強(qiáng)；Kim(2015)通過(guò)采用定性的研究方法，對(duì)比了新、中、老口試評(píng)分員的三次評(píng)分行為，發(fā)現(xiàn)三組評(píng)分員歷次的評(píng)分能力存在差異，新評(píng)分員改進(jìn)較慢，中評(píng)分員通過(guò)不斷培訓(xùn)得以不斷改進(jìn)，老評(píng)分員則相對(duì)較為穩(wěn)定。

雖然國(guó)內(nèi)有文獻(xiàn)對(duì)口語(yǔ)測(cè)試的評(píng)分進(jìn)行了研究(何蓮珍等, 2008；劉建達(dá), 2010)，但這些研究同樣只對(duì)評(píng)分員某次的評(píng)分進(jìn)行分析。截至目前，國(guó)內(nèi)尚無(wú)文獻(xiàn)從歷時(shí)的角度探討口試評(píng)分的穩(wěn)定性。因此，本文將以此為出發(fā)點(diǎn)，基于多層面Rasch模型和Myford等(2009)寫(xiě)作評(píng)分漂移研究的框架，從評(píng)分員嚴(yán)厲度、準(zhǔn)確度以及集中趨勢(shì)三個(gè)方面對(duì)PRETCO口試的評(píng)分穩(wěn)定性進(jìn)行分析與研究。其中，評(píng)分員嚴(yán)厲度是指評(píng)分的寬嚴(yán)度，評(píng)分員準(zhǔn)確度是指相對(duì)于其他評(píng)分員評(píng)分均衡性，集中趨勢(shì)是指評(píng)分員高頻率使用中間分?jǐn)?shù)段(Myford et al., 2004)。

2 研究方法

2.1評(píng)分員及閱卷量

由于本研究中PRETCO口試閱卷點(diǎn)每次評(píng)閱的數(shù)量不統(tǒng)一，評(píng)分員的數(shù)量不定，一般在10--20人之間，評(píng)分員分別來(lái)自15所不同的高校。本研究所選取的五次PRETCO口試閱卷結(jié)果共涉及到6525份，其中第一次為1493份，第二次為1356份，第三次為1351份，第四次為870份，第五次為1455份，參加閱卷任務(wù)的評(píng)分員共45名。每位考生的口語(yǔ)由兩名評(píng)分員進(jìn)行評(píng)分，因此總閱卷數(shù)為13050份。本研究評(píng)分員R0、R1和R2連續(xù)參加了五次閱卷任務(wù)，評(píng)分員R4、R5和R6連續(xù)參加了前四次閱卷任務(wù)，其具體信息見(jiàn)表1：

表1 評(píng)員基本情況

2.2 PRETCO口試及其評(píng)分標(biāo)準(zhǔn)

RRETCO口語(yǔ)考試形式為人機(jī)對(duì)話，主要由朗讀、問(wèn)答、翻譯(漢譯英)以及口頭陳述四部分任務(wù)組成，整個(gè)考試過(guò)程約為20分鐘(《高等學(xué)校英語(yǔ)應(yīng)用能力考試大綱》修訂組, 2016)。每次PRETCO口試會(huì)采用2--4套平行試題，每項(xiàng)任務(wù)總分為4分，采用七級(jí)記分制(0,1,2,2.5,3,3.5,4)，為方便計(jì)算，本研究將其轉(zhuǎn)換為1,2,3,4,5,6,7七個(gè)等級(jí)。“朗讀”主要從語(yǔ)音、語(yǔ)調(diào)以及流利程度三方面進(jìn)行評(píng)分(見(jiàn)表2)；“問(wèn)答”“翻譯”和“陳述”主要從內(nèi)容、表達(dá)、語(yǔ)言三方面進(jìn)行評(píng)分(見(jiàn)表3)。兩位評(píng)分員分別獨(dú)立對(duì)考生四項(xiàng)任務(wù)的表現(xiàn)進(jìn)行評(píng)分，然后再根據(jù)每個(gè)任務(wù)的得分算出口試總分。如果兩者評(píng)分出現(xiàn)等級(jí)差異，由第三位高級(jí)評(píng)分員(評(píng)分組長(zhǎng))進(jìn)行仲裁，重新進(jìn)行整體評(píng)分。

表2 朗讀任務(wù)評(píng)分標(biāo)準(zhǔn)

表3 陳述評(píng)分標(biāo)準(zhǔn)

注：(1)由于FACETS要求使用整數(shù)數(shù)據(jù)，所以本文將所有原始分?jǐn)?shù)換算成相應(yīng)的七個(gè)等級(jí)(1,2,3,4,5,6,7)；(2)囿于篇幅，而且考慮到問(wèn)答、翻譯和陳述都是從內(nèi)容、表達(dá)、語(yǔ)言三方面進(jìn)行評(píng)分，故只列出其中一種評(píng)分標(biāo)準(zhǔn)

2.3 數(shù)據(jù)分析依據(jù)

本研究基于多層面Rasch模型，采用FACETS軟件(版本3.71.3)(Linacre, 2013)對(duì)歷次PRETCO口試評(píng)分結(jié)果進(jìn)行分析。模型包括四個(gè)層面，考生能力、評(píng)分員、口試的四項(xiàng)任務(wù)以及評(píng)分次序。鑒于PRETCO 四項(xiàng)任務(wù)具體的評(píng)分標(biāo)準(zhǔn)不一致，所以本研究采用多層面Rasch模型中分部記分模型(Partial Credit Model)(Bonk et al.，2003)。此外，以往研究忽略了數(shù)據(jù)鏈接(connectivity)的重要性(Wind et al.，2018)而探究評(píng)分員歷時(shí)評(píng)分的穩(wěn)定性需要鏈接(link)歷次評(píng)分的數(shù)據(jù)。本研究中評(píng)分員R0五次評(píng)分的各項(xiàng)指標(biāo)，比如嚴(yán)厲度和加權(quán)均方擬合度都在合理的范圍，所以選用該評(píng)分員的總體評(píng)分作為鏈接數(shù)據(jù)，以觀察另外五位評(píng)分員(R1、R2、R3、R4和R5)評(píng)分的穩(wěn)定性。同時(shí)，本研究借鑒Myford和Wolfe(2009)對(duì)于評(píng)分員寫(xiě)作評(píng)分漂移研究的框架，從評(píng)分員嚴(yán)厲度、準(zhǔn)確度以及集中趨勢(shì)三個(gè)方面對(duì)PRETCO口試的評(píng)分穩(wěn)定性進(jìn)行歷時(shí)分析與研究。

首先，對(duì)于嚴(yán)厲度的穩(wěn)定性，傳統(tǒng)方法是采用分離模型和交互模型計(jì)算各個(gè)時(shí)間段的嚴(yán)厲度logit值，然后進(jìn)行顯著性檢驗(yàn)(Myford et al., 2009)。然而，由于交互模型存在混合測(cè)量誤差(Dobria, 2011)，所以本研究未采用該方法計(jì)算評(píng)分員嚴(yán)厲度穩(wěn)定性的偏差，而是將評(píng)分員在每次評(píng)分中視作不同的評(píng)分員，可以根據(jù)評(píng)分員的logit值直接觀察評(píng)分員嚴(yán)厲度的變化。其次，關(guān)于評(píng)分員評(píng)分準(zhǔn)確度的歷時(shí)變化，可以基于評(píng)分員的點(diǎn)二列相關(guān)系數(shù)(rSR-ROR，即Point-biserial Correlation或 Point Measure)進(jìn)行判斷(Myford et al., 2004)。檢驗(yàn)評(píng)分員準(zhǔn)確度的變化趨勢(shì)需要根據(jù)公式(一)將相關(guān)系數(shù)轉(zhuǎn)化為Fisher’s Z值，然后再通過(guò)Z檢驗(yàn)(公式二)來(lái)判斷評(píng)分員評(píng)分準(zhǔn)確度的穩(wěn)定性是否具有統(tǒng)計(jì)意義上的顯著性(Myford et al., 2009)。

公式(二)

最后，關(guān)于集中趨勢(shì)的穩(wěn)定性，歷次評(píng)分閾值(Threshold)的標(biāo)準(zhǔn)差可以用作判斷集中趨勢(shì)穩(wěn)定性的參數(shù)。所謂閾值是指相鄰分?jǐn)?shù)段概率曲線的交叉值(Bond et al., 2015)。本研究基于Rasch的混合模型(Hybrid Model 2)(Myford et al., 2004)，通過(guò)計(jì)算單個(gè)評(píng)分員每次評(píng)分中對(duì)各項(xiàng)任務(wù)評(píng)分標(biāo)準(zhǔn)的使用情況，然后根據(jù)評(píng)分員每次評(píng)分閾值的標(biāo)準(zhǔn)差來(lái)判斷其評(píng)分集中趨勢(shì)的波動(dòng)情況。分?jǐn)?shù)段之間閾值離散程度越大，表明評(píng)分越集中。本研究在評(píng)分結(jié)束后對(duì)評(píng)分員進(jìn)行了半結(jié)構(gòu)式訪談，主要問(wèn)題為“你是如何閱朗讀/問(wèn)答/翻譯/陳述任務(wù)的？”“你認(rèn)為你歷次的評(píng)分是否穩(wěn)定？”“哪些因素可能會(huì)影響評(píng)分的穩(wěn)定性？”等。研究者對(duì)訪談錄了音并轉(zhuǎn)寫(xiě)為文字，最后根據(jù)Given(2008)的歸納法對(duì)訪談內(nèi)容進(jìn)行分析和歸納。

3 研究結(jié)果

文章從評(píng)分員的嚴(yán)厲度、準(zhǔn)確度和集中趨勢(shì)三個(gè)方面報(bào)告評(píng)分員歷次評(píng)分的穩(wěn)定性。

3.1 評(píng)分員嚴(yán)厲度的穩(wěn)定性

為了探討評(píng)分員嚴(yán)厲度的穩(wěn)定性，本研究分別將評(píng)分員R0的評(píng)分作為鏈接數(shù)據(jù)，以觀察另外五位評(píng)分員的評(píng)分表現(xiàn)。通過(guò)FACETS的運(yùn)算，五次評(píng)分總體評(píng)分嚴(yán)厲度logit的均值為0.41，標(biāo)準(zhǔn)差為0.43logits。評(píng)分員R2在第四次出現(xiàn)了明顯的偏差，logit值為0.53，而第五次的logit值為-0.41(見(jiàn)圖1)，相差0.94logits，大于兩個(gè)標(biāo)準(zhǔn)差。其次，評(píng)分員R3第一次和第二次評(píng)分的偏差較大，分別為0.55logits和1.06logits，相差0.51logits，大于一個(gè)標(biāo)準(zhǔn)差。

圖1 評(píng)分員評(píng)分嚴(yán)厲度的穩(wěn)定性對(duì)比(logit)

評(píng)分員R1、R4和R5評(píng)分的嚴(yán)厲度較為穩(wěn)定，波動(dòng)較小，嚴(yán)厲度最高值和最低值之差分別為0.27logits、0.38logits和0.36logits，均小于1個(gè)標(biāo)準(zhǔn)差(S.D.=0.43logits)。

3.2 評(píng)分員準(zhǔn)確度的穩(wěn)定性

表4中rSR-ROR為評(píng)分員每次評(píng)分的點(diǎn)二列相關(guān)系數(shù)值，ZSR-RORc，SR-RORb為檢驗(yàn)評(píng)分員準(zhǔn)確度穩(wěn)定性的Z值。rSR-ROR可以判斷評(píng)分員的評(píng)分與其他評(píng)分員評(píng)分的一致性，如果評(píng)分員rSR-ROR的值越大，則表示該評(píng)分員的一致性越好，不存在隨機(jī)性(Myford et al., 2004; 劉建達(dá) 2010)。

表4 評(píng)分員準(zhǔn)確度穩(wěn)定性相關(guān)數(shù)據(jù)統(tǒng)計(jì)

由表4可知，評(píng)分員五次評(píng)分的rSR-ROR值位于0.59-0.81之間，評(píng)分員歷次評(píng)分中和其他評(píng)分員一致性較好，但所有ZSR-RORc，SR-RORb值中，大于1.96或小于-1.96的次數(shù)為五次，其中評(píng)分員R3評(píng)分的準(zhǔn)確性波動(dòng)不明顯，Z值均小于1.96或大于-1.96(p<0.05)；評(píng)分員R1、R4和R5各出現(xiàn)一次顯著性的波動(dòng)(Z值分別為4.04、11.68和2.93，p<0.05)；評(píng)分員R2出現(xiàn)兩次波動(dòng)，第三次評(píng)分準(zhǔn)確性明顯高于第一次，而第四次評(píng)分又明顯低于第一次(Z值分別為6.52和-8.18, p<0.05。由此可以看出，所有評(píng)分員歷次評(píng)分的準(zhǔn)確性均不穩(wěn)定，其中四位評(píng)分員出現(xiàn)了五次明顯的波動(dòng)，僅占評(píng)分員閱卷總次數(shù)的22.7%。

3.3 評(píng)分員集中趨勢(shì)的穩(wěn)定性

相鄰閾值的差一般要求大于1.0 logit，但不超過(guò)5.0 logits (Linacre, 2002)。由表5可見(jiàn)，大多數(shù)評(píng)分員評(píng)分閾值的差位于1.0-5.0 logits 之間，閾值的標(biāo)準(zhǔn)差位于2.1-4.0logits之間。歷次PRETCO口試的總體評(píng)分較為穩(wěn)定，多數(shù)評(píng)分員總體不存在明顯的集中趨勢(shì)。然而，評(píng)分員R5第一次評(píng)分沒(méi)有使用分?jǐn)?shù)段1和分?jǐn)?shù)段7，而且分?jǐn)?shù)段3、4、5的使用率達(dá)到90%，因此該評(píng)分員第一次的評(píng)分較為集中；評(píng)分員R3歷次評(píng)分中分?jǐn)?shù)段3、4、5之間的閾值差較小，均小于1.0 logit；評(píng)分員R2第二次、第三次和第五次評(píng)分中分?jǐn)?shù)段5、6、7之間的閾值差較小，同樣小于1.0 logit。這兩位評(píng)分員可能對(duì)上述幾個(gè)分?jǐn)?shù)段難以把握或理解出現(xiàn)偏差。

表5 評(píng)分員四項(xiàng)任務(wù)總體閱卷量(%)及閾值(logits)

通過(guò)對(duì)單項(xiàng)任務(wù)的分析可知，評(píng)分員閱讀任務(wù)歷次評(píng)分中閾值的標(biāo)準(zhǔn)差位于3.9-8.6logits之間(見(jiàn)表6)，明顯高于其四項(xiàng)任務(wù)總體評(píng)分閾值的標(biāo)準(zhǔn)差。以評(píng)分員R1為例，其朗讀任務(wù)歷次評(píng)分的閾值標(biāo)準(zhǔn)差分別為6.8、5.3、8.6、7.4和5.4 (logits)。評(píng)分員R1、R2、R4和R5的歷次評(píng)分都過(guò)多地使用了分?jǐn)?shù)段4和分?jǐn)?shù)段5，評(píng)分員R3則過(guò)多地使用了分?jǐn)?shù)段5和分?jǐn)?shù)段6，比例多數(shù)超過(guò)70%，評(píng)分員R3第三次的使用頻率甚至達(dá)到90%。由此可見(jiàn)，評(píng)分員在閱讀任務(wù)的歷次評(píng)分中都存在明顯的集中趨勢(shì)。

表6 評(píng)分員朗讀任務(wù)閱卷量及閾值

對(duì)于評(píng)分員其他任務(wù)的歷次評(píng)分，問(wèn)答任務(wù)都不存在集中現(xiàn)象。翻譯和陳述任務(wù)歷次評(píng)分中，個(gè)別評(píng)分員偶爾會(huì)出現(xiàn)集中趨勢(shì)現(xiàn)象，比如評(píng)分員R1在第一次的陳述評(píng)分中出現(xiàn)了集中趨勢(shì)。需要指出的是，評(píng)分員在五次翻譯和陳述評(píng)分中，分?jǐn)?shù)段7的使用率非常低，平均每次的使用率為0.13次和0.33次。

4 討論

4.1 評(píng)分員嚴(yán)厲度穩(wěn)定性

數(shù)據(jù)顯示多數(shù)評(píng)分員評(píng)分嚴(yán)厲度的總體趨于穩(wěn)定，評(píng)分員歷次評(píng)分中寬嚴(yán)度變化的趨勢(shì)卻不盡相同，這與Lumley等(1995)的研究發(fā)現(xiàn)相似。評(píng)分員評(píng)分嚴(yán)厲度總體波動(dòng)不大，原因可能是：(1)評(píng)分員不斷熟悉評(píng)分標(biāo)準(zhǔn)，比如評(píng)分員在每次評(píng)分前都接受培訓(xùn)并認(rèn)真學(xué)習(xí)評(píng)分標(biāo)準(zhǔn)；(2)評(píng)分員評(píng)分時(shí)結(jié)合了教學(xué)和評(píng)分經(jīng)驗(yàn)，比如評(píng)分員R1根據(jù)考生的語(yǔ)音、語(yǔ)調(diào)、斷句和流利度推斷考生的口語(yǔ)水平。但數(shù)據(jù)同樣顯示，評(píng)分員R2和R3分別在第四次和第二次評(píng)分中出現(xiàn)了明顯的波動(dòng)，這與Kim(2015)的研究結(jié)果不一致，即使是有經(jīng)驗(yàn)的評(píng)分員，其評(píng)分也可能會(huì)出現(xiàn)波動(dòng)。雖然評(píng)分員R2閱卷經(jīng)驗(yàn)豐富，而且每次都認(rèn)真接受評(píng)分培訓(xùn)，但依然在第四次出現(xiàn)了明顯的偏差。通過(guò)對(duì)評(píng)分員R2的訪談得知，該評(píng)分員的歷次評(píng)分都嚴(yán)格按照評(píng)分標(biāo)準(zhǔn)進(jìn)行閱卷，不應(yīng)該存在明顯的波動(dòng)。為了究其原因，研究者同時(shí)對(duì)比了相鄰兩次考試的評(píng)分結(jié)果(第四次和第五次)。第四次評(píng)分的總量較少，當(dāng)時(shí)考試只使用了兩套試題，評(píng)分員R2只評(píng)閱了第一套試題的考生，其余評(píng)分員所閱考生均使用了兩套試題。通過(guò)對(duì)兩套試題的分析得知，其難度存在顯著差異，比如第一套試題朗讀任務(wù)的易讀度為76.5，明顯比第二套(易讀度為65.6)(1)*根據(jù)Flesh易讀度參考量表，易讀度值越高，篇章難度越低。*簡(jiǎn)單，所以試題難度不同可能會(huì)影響評(píng)分員評(píng)分的穩(wěn)定性。對(duì)于評(píng)分員R3，其評(píng)分的嚴(yán)厲度也出現(xiàn)了較為明顯的波動(dòng)。通過(guò)訪談得知，該評(píng)分員第二次閱卷時(shí)除了正常教學(xué)和承擔(dān)一定的行政工作外，還要準(zhǔn)備博士研究生的考試，當(dāng)時(shí)閱卷出現(xiàn)波動(dòng)可能和壓力大、身心疲憊有關(guān)。由此可見(jiàn)，“平行試題”中某些題型可能存在難度差異，影響評(píng)分員評(píng)分的嚴(yán)厲度。評(píng)分員評(píng)分時(shí)的身心狀態(tài)也會(huì)影響評(píng)分結(jié)果。

4.2 評(píng)分員準(zhǔn)確度穩(wěn)定性

評(píng)分員單次評(píng)分和其他評(píng)分員的一致性較好，但歷時(shí)來(lái)看，五位評(píng)分員的準(zhǔn)確度都不太穩(wěn)定，其中四位評(píng)分員共出現(xiàn)五次明顯的波動(dòng)。評(píng)分員R2出現(xiàn)兩次顯著的波動(dòng)，評(píng)分員R1、R4和R5分別出現(xiàn)一次顯著的波動(dòng)。原因可能來(lái)自兩方面，首先評(píng)分員閱卷隊(duì)伍不穩(wěn)定性。雖然每次閱卷員的數(shù)量為10—20名左右，但參加五次評(píng)分的評(píng)分員只有三名，即評(píng)分員R0、R1和R2，連續(xù)參加四次評(píng)分的評(píng)分員也只有三名，即評(píng)分員R3、R4和R5。出于公平性和實(shí)際情況的考量，閱卷員來(lái)自不同的高校，而且每次可能會(huì)有個(gè)別新評(píng)分員加入評(píng)分隊(duì)伍。由于評(píng)分員評(píng)分的準(zhǔn)確度涉及和其他評(píng)分員評(píng)分的一致性，故評(píng)分員隊(duì)伍不穩(wěn)定可能會(huì)導(dǎo)致評(píng)分員準(zhǔn)確度出現(xiàn)波動(dòng)；其次，評(píng)分的準(zhǔn)確度的穩(wěn)定性可能和考生的水平相關(guān)。由于每次報(bào)考PRETCO口試的學(xué)校和學(xué)生存在變化，不同批次考生的口語(yǔ)水平會(huì)存在一定的差異，從一定程度上可能會(huì)影響評(píng)分員評(píng)分的穩(wěn)定性。

4.3 評(píng)分員集中趨勢(shì)穩(wěn)定性

評(píng)分員歷次的總體評(píng)分不存在明顯的集中趨勢(shì)，但評(píng)分員R5第一次評(píng)分的集中趨勢(shì)較為明顯，分?jǐn)?shù)段3、4、5的使用次數(shù)占其評(píng)分總數(shù)的90%。該評(píng)分員可能第一次參加PRETCO口試評(píng)分，對(duì)評(píng)分標(biāo)準(zhǔn)的把握不準(zhǔn)確，四項(xiàng)任務(wù)均沒(méi)有使用分?jǐn)?shù)段1和分?jǐn)?shù)段7。由此可見(jiàn)，新評(píng)分員隨著評(píng)分經(jīng)驗(yàn)的積累，其評(píng)分會(huì)逐漸改進(jìn)(Kim, 2015)。雖然歷次總體評(píng)分的集中趨勢(shì)不明顯，但所有評(píng)分員朗讀任務(wù)的歷次評(píng)分卻均呈現(xiàn)明顯的集中趨勢(shì)，主要集中在分?jǐn)?shù)段4、5、6。一方面，原因可能是朗讀任務(wù)的評(píng)分標(biāo)準(zhǔn)存在問(wèn)題。Linacre(2002)指出，如果某分?jǐn)?shù)段的使用頻率低于10次，那么該分?jǐn)?shù)段需要修改或者與相鄰分?jǐn)?shù)段合并。另一方面，評(píng)分員評(píng)分時(shí)可能結(jié)合了評(píng)分標(biāo)準(zhǔn)以外的參數(shù)，比如教學(xué)或閱卷經(jīng)驗(yàn)。以評(píng)分員R1為例，該評(píng)分員在評(píng)閱朗讀任務(wù)時(shí)會(huì)根據(jù)考生能否讀準(zhǔn)較難詞匯(比如單詞circumstances)來(lái)判斷其朗讀水平是否屬于高分?jǐn)?shù)段。問(wèn)答任務(wù)歷次的評(píng)分都不存在集中趨勢(shì)，這可能和該題型的計(jì)分方式有關(guān)，問(wèn)答任務(wù)的答案相對(duì)“封閉”(《高等學(xué)校英語(yǔ)應(yīng)用能力考試大綱》修訂組, 2016)，只需計(jì)算考生答對(duì)的數(shù)量即可，該題型沒(méi)有翻譯或陳述任務(wù)“開(kāi)放”。翻譯和陳述任務(wù)對(duì)分?jǐn)?shù)段7的使用頻率非常低，這可能和評(píng)分員對(duì)該分?jǐn)?shù)段描述語(yǔ)的理解偏差有關(guān)(楊志強(qiáng) 等, 2016)。通過(guò)訪談得知，由于分?jǐn)?shù)段7為最高分?jǐn)?shù)段，象征各項(xiàng)任務(wù)的最高水平，評(píng)分員認(rèn)為考生的回答需要接近完美才能獲得該分?jǐn)?shù)，因此評(píng)分員在翻譯和陳述任務(wù)的評(píng)分中對(duì)該分?jǐn)?shù)的使用較少。

5 結(jié)語(yǔ)

本文采用定量為主，訪談為輔的方法對(duì)PRETCO口試連續(xù)五次的評(píng)分進(jìn)行分析，探討了評(píng)分員的嚴(yán)厲度、評(píng)分準(zhǔn)確度以及集中趨勢(shì)三個(gè)方面的穩(wěn)定性及其背后的原因。結(jié)果發(fā)現(xiàn)：多數(shù)評(píng)分員歷次總體評(píng)分的嚴(yán)厲度比較穩(wěn)定，其中一位評(píng)分員某次評(píng)分的嚴(yán)厲度波動(dòng)明顯；所有評(píng)分員歷次評(píng)分的準(zhǔn)確度均不穩(wěn)定，但顯著波動(dòng)的次數(shù)占比不高；評(píng)分員歷次總體評(píng)分不存在明顯的集中趨勢(shì)，雖然新評(píng)分員第一次的總體評(píng)分較為集中，但隨著該評(píng)分員評(píng)分經(jīng)驗(yàn)的不斷積累，其評(píng)分質(zhì)量逐漸改進(jìn)；評(píng)分員個(gè)別口試任務(wù)，比如“朗讀”任務(wù)的歷次評(píng)分均呈現(xiàn)集中趨勢(shì)，且朗讀、翻譯和陳述三項(xiàng)任務(wù)個(gè)別分?jǐn)?shù)段使用次數(shù)過(guò)少，比如陳述任務(wù)分?jǐn)?shù)段7，這些評(píng)分標(biāo)準(zhǔn)本身可能存在問(wèn)題，需要改進(jìn)?；诖?，本研究對(duì)計(jì)算機(jī)輔助口試以及PRETCO口試的評(píng)分及其改進(jìn)提出一些參考性的建議。

(1)使用有經(jīng)驗(yàn)的評(píng)分員并保持評(píng)分員隊(duì)伍的穩(wěn)定性。無(wú)論是計(jì)算機(jī)輔助口試還是PRETCO口試，其評(píng)分都應(yīng)盡量使用有教學(xué)經(jīng)驗(yàn)和評(píng)分經(jīng)驗(yàn)的評(píng)分員，他們能夠結(jié)合多方面因素進(jìn)行綜合評(píng)分，以保證評(píng)分的內(nèi)部一致性。此外，應(yīng)保持評(píng)分員隊(duì)伍相對(duì)穩(wěn)定，以增強(qiáng)評(píng)分的外部一致性，提高歷次評(píng)分的信度和穩(wěn)定性。(2)加強(qiáng)對(duì)評(píng)分員的培訓(xùn)。如果是新評(píng)分員，應(yīng)充分利用評(píng)分培訓(xùn)加強(qiáng)其對(duì)評(píng)分標(biāo)準(zhǔn)和所評(píng)考生總體水平的把握，同時(shí)增強(qiáng)新老評(píng)分員之間的交流，幫助新評(píng)分員改進(jìn)評(píng)分質(zhì)量。即使有經(jīng)驗(yàn)的評(píng)分員，也有可能出現(xiàn)評(píng)分偏差。每次閱卷前，無(wú)論是經(jīng)驗(yàn)豐富的評(píng)分員還是新評(píng)分員，都需要認(rèn)真接受培訓(xùn)。另外，在閱卷過(guò)程中可以組織閱卷員結(jié)合考生的答題情況和評(píng)分標(biāo)準(zhǔn)進(jìn)行討論，從而加強(qiáng)閱卷員對(duì)評(píng)分標(biāo)準(zhǔn)的理解。(3)提高口試試題的效度。通過(guò)對(duì)PRETCO口試題目的分析可以看出，試題的難度可能不一致。為了確保歷次考試的公平性，需要對(duì)平行試題進(jìn)行質(zhì)量分析，比如計(jì)算朗讀任務(wù)的易讀度，或者通過(guò)專家判斷以及試測(cè)，降低其他口試任務(wù)難度的差異。(4)改進(jìn)評(píng)分標(biāo)準(zhǔn)中描述語(yǔ)的質(zhì)量。評(píng)分標(biāo)準(zhǔn)是考試構(gòu)念的體現(xiàn)，評(píng)分標(biāo)準(zhǔn)描述語(yǔ)須簡(jiǎn)單、明了，沒(méi)有歧義(曾用強(qiáng), 2011)。本研究發(fā)現(xiàn)，歷次評(píng)分中朗讀任務(wù)第一個(gè)分?jǐn)?shù)段、翻譯和陳述任務(wù)第七個(gè)分?jǐn)?shù)段的使用頻次極低。鑒于現(xiàn)實(shí)評(píng)分的需要，不能簡(jiǎn)單將這些分?jǐn)?shù)段和相鄰的分?jǐn)?shù)段合并。因此，有必要對(duì)這些分?jǐn)?shù)段的描述語(yǔ)進(jìn)行改寫(xiě)，以確保評(píng)分員理解的準(zhǔn)確性和一致性，防止出現(xiàn)理解偏差(楊志強(qiáng) 等, 2016)。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

計(jì)算機(jī)輔助口試評(píng)分穩(wěn)定性歷時(shí)研究——以PRETCO口試為例