楊志強(qiáng) 李志芳 董曼霞
(1.重慶科技學(xué)院 外國(guó)語(yǔ)學(xué)院,重慶 401331/廣東外語(yǔ)外貿(mào)大學(xué) 外國(guó)語(yǔ)言學(xué)及應(yīng)用語(yǔ)言學(xué)研究中心,廣東 廣州 510420;2.陸軍軍醫(yī)大學(xué) 基礎(chǔ)醫(yī)學(xué)院外語(yǔ)教研室,重慶 400038;3.四川外國(guó)語(yǔ)大學(xué) 商務(wù)英語(yǔ)學(xué)院,重慶 400031)
外語(yǔ)口語(yǔ)能力是外語(yǔ)水平的直接表現(xiàn)。隨著英語(yǔ)口語(yǔ)越來(lái)越受到重視,參加口試的考生逐年增多,人工實(shí)考及評(píng)分已經(jīng)無(wú)法滿足操作需求。近20年來(lái),計(jì)算機(jī)技術(shù)和測(cè)試?yán)碚摰牟粩喟l(fā)展及融合,突顯了計(jì)算機(jī)輔助考試的優(yōu)勢(shì),如信度高、節(jié)約費(fèi)用、考試時(shí)間靈活、便于組織等(曾用強(qiáng), 2011)。因此,該技術(shù)已廣泛應(yīng)用于大規(guī)??荚噷?shí)踐中(金力,2011),包括TOFEL機(jī)考、CET口試、TEM口試以及高等學(xué)校英語(yǔ)應(yīng)用能力口語(yǔ)考試(Practical English Test for College-Oral,簡(jiǎn)稱PRETCO口試)等。PRETCO口試是由國(guó)家高等學(xué)校英語(yǔ)應(yīng)用能力考試委員會(huì)于2005年開(kāi)始實(shí)施的口語(yǔ)考試,該考試是以人機(jī)對(duì)話方式進(jìn)行的計(jì)算機(jī)輔助考試(劉鴻章 等, 2010)。由于計(jì)算機(jī)輔助口試自動(dòng)評(píng)分技術(shù)還不成熟,目前仍采用人工評(píng)分。人工主觀評(píng)分容易出現(xiàn)誤差,所以有必要對(duì)評(píng)分的信度進(jìn)行研究(Myford et al., 2004)。此外,評(píng)分員的評(píng)分可能隨著時(shí)間的進(jìn)展發(fā)生變化(Myford et al., 2004),而且評(píng)分的穩(wěn)定性直接關(guān)系評(píng)分的質(zhì)量、評(píng)分員的遴選,以及考試的信度、效度和公平性等(趙海燕 等, 2018),因此,對(duì)評(píng)分員的穩(wěn)定性進(jìn)行研究具有重要的實(shí)際意義。雖然近年來(lái)有關(guān)口語(yǔ)測(cè)試評(píng)分信度展開(kāi)的研究日益增多(何蓮珍等, 2008;劉建達(dá), 2010;Attali, 2016;Kang et al., 2019)但這些研究都只對(duì)單次的評(píng)分作了分析,沒(méi)有對(duì)評(píng)分的穩(wěn)定性進(jìn)行歷時(shí)研究。為此,本文擬基于PRETCO口試連續(xù)五次的評(píng)分結(jié)果,調(diào)查評(píng)分員評(píng)分的穩(wěn)定性,以期為PRETCO口試的評(píng)分提供一些啟示,同時(shí)為其他高風(fēng)險(xiǎn)計(jì)算機(jī)輔助口試,如CET口試、TEM口試的評(píng)分或評(píng)分培訓(xùn)提供一些參考。
國(guó)外有關(guān)口語(yǔ)測(cè)試的研究起步早,覆蓋廣,如口語(yǔ)測(cè)試的構(gòu)念(Luoma, 2004)、口語(yǔ)測(cè)試的效度驗(yàn)證(Knoch et al. 2018)、口試的任務(wù)(Frost et al., 2020)、口試評(píng)分標(biāo)準(zhǔn)(Fulcher, 1996; Khabbazbashi et al., 2020)、受試的特征(Nakatsuhara, 2011)、評(píng)分培訓(xùn)及評(píng)分員對(duì)考生口試表現(xiàn)的影響(Kang et al, 2019)、口試的評(píng)分效度研究(Lumley et al., 1995;Elder et al., 2005;Attali, 2016),等等。其中,有關(guān)口試評(píng)分的研究占多數(shù)。雖然評(píng)分員的評(píng)分是動(dòng)態(tài)變化的(Myford et al., 2004),但大部分研究只對(duì)單次的評(píng)分進(jìn)行了分析。目前,僅有個(gè)別文獻(xiàn)采用現(xiàn)代測(cè)試方法,比如基于項(xiàng)目反應(yīng)理論的多層面Rasch模型,對(duì)口試評(píng)分進(jìn)行了歷時(shí)分析(Lumley et al., 1995;Bonk et al., 2003;Kim, 2015),然而這些研究的結(jié)果存在差異。Lumley 等(1995)分析了四名評(píng)分員三次職業(yè)英語(yǔ)口試(Speaking subtest of Occupational English Test)的評(píng)分結(jié)果,發(fā)現(xiàn)評(píng)分員評(píng)分的嚴(yán)厲度隨著時(shí)間發(fā)生了變化,且寬嚴(yán)度變化的趨勢(shì)不盡相同;Bonk等(2003)基于對(duì)某校本英語(yǔ)口試兩輪評(píng)分結(jié)果的分析,發(fā)現(xiàn)評(píng)分員的嚴(yán)厲度差異較大,而且不穩(wěn)定,評(píng)分員的內(nèi)部一致性隨著其評(píng)分經(jīng)驗(yàn)的積累不斷加強(qiáng);Kim(2015)通過(guò)采用定性的研究方法,對(duì)比了新、中、老口試評(píng)分員的三次評(píng)分行為,發(fā)現(xiàn)三組評(píng)分員歷次的評(píng)分能力存在差異,新評(píng)分員改進(jìn)較慢,中評(píng)分員通過(guò)不斷培訓(xùn)得以不斷改進(jìn),老評(píng)分員則相對(duì)較為穩(wěn)定。
雖然國(guó)內(nèi)有文獻(xiàn)對(duì)口語(yǔ)測(cè)試的評(píng)分進(jìn)行了研究(何蓮珍 等, 2008;劉建達(dá), 2010),但這些研究同樣只對(duì)評(píng)分員某次的評(píng)分進(jìn)行分析。截至目前,國(guó)內(nèi)尚無(wú)文獻(xiàn)從歷時(shí)的角度探討口試評(píng)分的穩(wěn)定性。因此,本文將以此為出發(fā)點(diǎn),基于多層面Rasch模型和Myford等(2009)寫(xiě)作評(píng)分漂移研究的框架,從評(píng)分員嚴(yán)厲度、準(zhǔn)確度以及集中趨勢(shì)三個(gè)方面對(duì)PRETCO口試的評(píng)分穩(wěn)定性進(jìn)行分析與研究。其中,評(píng)分員嚴(yán)厲度是指評(píng)分的寬嚴(yán)度,評(píng)分員準(zhǔn)確度是指相對(duì)于其他評(píng)分員評(píng)分均衡性,集中趨勢(shì)是指評(píng)分員高頻率使用中間分?jǐn)?shù)段(Myford et al., 2004)。
由于本研究中PRETCO口試閱卷點(diǎn)每次評(píng)閱的數(shù)量不統(tǒng)一,評(píng)分員的數(shù)量不定,一般在10--20人之間,評(píng)分員分別來(lái)自15所不同的高校。本研究所選取的五次PRETCO口試閱卷結(jié)果共涉及到6525份,其中第一次為1493份,第二次為1356份,第三次為1351份,第四次為870份,第五次為1455份,參加閱卷任務(wù)的評(píng)分員共45名。每位考生的口語(yǔ)由兩名評(píng)分員進(jìn)行評(píng)分,因此總閱卷數(shù)為13050份。本研究評(píng)分員R0、R1和R2連續(xù)參加了五次閱卷任務(wù),評(píng)分員R4、R5和R6連續(xù)參加了前四次閱卷任務(wù),其具體信息見(jiàn)表1:
表1 評(píng)員基本情況
RRETCO口語(yǔ)考試形式為人機(jī)對(duì)話,主要由朗讀、問(wèn)答、翻譯(漢譯英)以及口頭陳述四部分任務(wù)組成,整個(gè)考試過(guò)程約為20分鐘(《高等學(xué)校英語(yǔ)應(yīng)用能力考試大綱》修訂組, 2016)。每次PRETCO口試會(huì)采用2--4套平行試題,每項(xiàng)任務(wù)總分為4分,采用七級(jí)記分制(0,1,2,2.5,3,3.5,4),為方便計(jì)算,本研究將其轉(zhuǎn)換為1,2,3,4,5,6,7七個(gè)等級(jí)。“朗讀”主要從語(yǔ)音、語(yǔ)調(diào)以及流利程度三方面進(jìn)行評(píng)分(見(jiàn)表2);“問(wèn)答”“翻譯”和“陳述”主要從內(nèi)容、表達(dá)、語(yǔ)言三方面進(jìn)行評(píng)分(見(jiàn)表3)。兩位評(píng)分員分別獨(dú)立對(duì)考生四項(xiàng)任務(wù)的表現(xiàn)進(jìn)行評(píng)分,然后再根據(jù)每個(gè)任務(wù)的得分算出口試總分。如果兩者評(píng)分出現(xiàn)等級(jí)差異,由第三位高級(jí)評(píng)分員(評(píng)分組長(zhǎng))進(jìn)行仲裁,重新進(jìn)行整體評(píng)分。
表2 朗讀任務(wù)評(píng)分標(biāo)準(zhǔn)
表3 陳述評(píng)分標(biāo)準(zhǔn)
注:(1)由于FACETS要求使用整數(shù)數(shù)據(jù),所以本文將所有原始分?jǐn)?shù)換算成相應(yīng)的七個(gè)等級(jí)(1,2,3,4,5,6,7);(2)囿于篇幅,而且考慮到問(wèn)答、翻譯和陳述都是從內(nèi)容、表達(dá)、語(yǔ)言三方面進(jìn)行評(píng)分,故只列出其中一種評(píng)分標(biāo)準(zhǔn)
本研究基于多層面Rasch模型,采用FACETS軟件(版本3.71.3)(Linacre, 2013)對(duì)歷次PRETCO口試評(píng)分結(jié)果進(jìn)行分析。模型包括四個(gè)層面,考生能力、評(píng)分員、口試的四項(xiàng)任務(wù)以及評(píng)分次序。鑒于PRETCO 四項(xiàng)任務(wù)具體的評(píng)分標(biāo)準(zhǔn)不一致,所以本研究采用多層面Rasch模型中分部記分模型(Partial Credit Model)(Bonk et al.,2003)。此外,以往研究忽略了數(shù)據(jù)鏈接(connectivity)的重要性(Wind et al.,2018)而探究評(píng)分員歷時(shí)評(píng)分的穩(wěn)定性需要鏈接(link)歷次評(píng)分的數(shù)據(jù)。本研究中評(píng)分員R0五次評(píng)分的各項(xiàng)指標(biāo),比如嚴(yán)厲度和加權(quán)均方擬合度都在合理的范圍,所以選用該評(píng)分員的總體評(píng)分作為鏈接數(shù)據(jù),以觀察另外五位評(píng)分員(R1、R2、R3、R4和R5)評(píng)分的穩(wěn)定性。同時(shí),本研究借鑒Myford和Wolfe(2009)對(duì)于評(píng)分員寫(xiě)作評(píng)分漂移研究的框架,從評(píng)分員嚴(yán)厲度、準(zhǔn)確度以及集中趨勢(shì)三個(gè)方面對(duì)PRETCO口試的評(píng)分穩(wěn)定性進(jìn)行歷時(shí)分析與研究。
首先,對(duì)于嚴(yán)厲度的穩(wěn)定性,傳統(tǒng)方法是采用分離模型和交互模型計(jì)算各個(gè)時(shí)間段的嚴(yán)厲度logit值,然后進(jìn)行顯著性檢驗(yàn)(Myford et al., 2009)。然而,由于交互模型存在混合測(cè)量誤差(Dobria, 2011),所以本研究未采用該方法計(jì)算評(píng)分員嚴(yán)厲度穩(wěn)定性的偏差,而是將評(píng)分員在每次評(píng)分中視作不同的評(píng)分員,可以根據(jù)評(píng)分員的logit值直接觀察評(píng)分員嚴(yán)厲度的變化。其次,關(guān)于評(píng)分員評(píng)分準(zhǔn)確度的歷時(shí)變化,可以基于評(píng)分員的點(diǎn)二列相關(guān)系數(shù)(rSR-ROR,即Point-biserial Correlation或 Point Measure)進(jìn)行判斷(Myford et al., 2004)。檢驗(yàn)評(píng)分員準(zhǔn)確度的變化趨勢(shì)需要根據(jù)公式(一)將相關(guān)系數(shù)轉(zhuǎn)化為Fisher’s Z值,然后再通過(guò)Z檢驗(yàn)(公式二)來(lái)判斷評(píng)分員評(píng)分準(zhǔn)確度的穩(wěn)定性是否具有統(tǒng)計(jì)意義上的顯著性(Myford et al., 2009)。
公式(二)
最后,關(guān)于集中趨勢(shì)的穩(wěn)定性,歷次評(píng)分閾值(Threshold)的標(biāo)準(zhǔn)差可以用作判斷集中趨勢(shì)穩(wěn)定性的參數(shù)。所謂閾值是指相鄰分?jǐn)?shù)段概率曲線的交叉值(Bond et al., 2015)。本研究基于Rasch的混合模型(Hybrid Model 2)(Myford et al., 2004),通過(guò)計(jì)算單個(gè)評(píng)分員每次評(píng)分中對(duì)各項(xiàng)任務(wù)評(píng)分標(biāo)準(zhǔn)的使用情況,然后根據(jù)評(píng)分員每次評(píng)分閾值的標(biāo)準(zhǔn)差來(lái)判斷其評(píng)分集中趨勢(shì)的波動(dòng)情況。分?jǐn)?shù)段之間閾值離散程度越大,表明評(píng)分越集中。本研究在評(píng)分結(jié)束后對(duì)評(píng)分員進(jìn)行了半結(jié)構(gòu)式訪談,主要問(wèn)題為“你是如何閱朗讀/問(wèn)答/翻譯/陳述任務(wù)的?”“你認(rèn)為你歷次的評(píng)分是否穩(wěn)定?”“哪些因素可能會(huì)影響評(píng)分的穩(wěn)定性?”等。研究者對(duì)訪談錄了音并轉(zhuǎn)寫(xiě)為文字,最后根據(jù)Given(2008)的歸納法對(duì)訪談內(nèi)容進(jìn)行分析和歸納。
文章從評(píng)分員的嚴(yán)厲度、準(zhǔn)確度和集中趨勢(shì)三個(gè)方面報(bào)告評(píng)分員歷次評(píng)分的穩(wěn)定性。
為了探討評(píng)分員嚴(yán)厲度的穩(wěn)定性,本研究分別將評(píng)分員R0的評(píng)分作為鏈接數(shù)據(jù),以觀察另外五位評(píng)分員的評(píng)分表現(xiàn)。通過(guò)FACETS的運(yùn)算,五次評(píng)分總體評(píng)分嚴(yán)厲度logit的均值為0.41,標(biāo)準(zhǔn)差為0.43logits。評(píng)分員R2在第四次出現(xiàn)了明顯的偏差,logit值為0.53,而第五次的logit值為-0.41(見(jiàn)圖1),相差0.94logits,大于兩個(gè)標(biāo)準(zhǔn)差。其次,評(píng)分員R3第一次和第二次評(píng)分的偏差較大,分別為0.55logits和1.06logits,相差0.51logits,大于一個(gè)標(biāo)準(zhǔn)差。
圖1 評(píng)分員評(píng)分嚴(yán)厲度的穩(wěn)定性對(duì)比(logit)
評(píng)分員R1、R4和R5評(píng)分的嚴(yán)厲度較為穩(wěn)定,波動(dòng)較小,嚴(yán)厲度最高值和最低值之差分別為0.27logits、0.38logits和0.36logits,均小于1個(gè)標(biāo)準(zhǔn)差(S.D.=0.43logits)。
表4中rSR-ROR為評(píng)分員每次評(píng)分的點(diǎn)二列相關(guān)系數(shù)值,ZSR-RORc,SR-RORb為檢驗(yàn)評(píng)分員準(zhǔn)確度穩(wěn)定性的Z值。rSR-ROR可以判斷評(píng)分員的評(píng)分與其他評(píng)分員評(píng)分的一致性,如果評(píng)分員rSR-ROR的值越大,則表示該評(píng)分員的一致性越好,不存在隨機(jī)性(Myford et al., 2004; 劉建達(dá) 2010)。
表4 評(píng)分員準(zhǔn)確度穩(wěn)定性相關(guān)數(shù)據(jù)統(tǒng)計(jì)
由表4可知,評(píng)分員五次評(píng)分的rSR-ROR值位于0.59-0.81之間,評(píng)分員歷次評(píng)分中和其他評(píng)分員一致性較好,但所有ZSR-RORc,SR-RORb值中,大于1.96或小于-1.96的次數(shù)為五次,其中評(píng)分員R3評(píng)分的準(zhǔn)確性波動(dòng)不明顯,Z值均小于1.96或大于-1.96(p<0.05);評(píng)分員R1、R4和R5各出現(xiàn)一次顯著性的波動(dòng)(Z值分別為4.04、11.68和2.93,p<0.05);評(píng)分員R2出現(xiàn)兩次波動(dòng),第三次評(píng)分準(zhǔn)確性明顯高于第一次,而第四次評(píng)分又明顯低于第一次(Z值分別為6.52和-8.18, p<0.05。由此可以看出,所有評(píng)分員歷次評(píng)分的準(zhǔn)確性均不穩(wěn)定,其中四位評(píng)分員出現(xiàn)了五次明顯的波動(dòng),僅占評(píng)分員閱卷總次數(shù)的22.7%。
相鄰閾值的差一般要求大于1.0 logit,但不超過(guò)5.0 logits (Linacre, 2002)。由表5可見(jiàn),大多數(shù)評(píng)分員評(píng)分閾值的差位于1.0-5.0 logits 之間,閾值的標(biāo)準(zhǔn)差位于2.1-4.0logits之間。歷次PRETCO口試的總體評(píng)分較為穩(wěn)定,多數(shù)評(píng)分員總體不存在明顯的集中趨勢(shì)。然而,評(píng)分員R5第一次評(píng)分沒(méi)有使用分?jǐn)?shù)段1和分?jǐn)?shù)段7,而且分?jǐn)?shù)段3、4、5的使用率達(dá)到90%,因此該評(píng)分員第一次的評(píng)分較為集中;評(píng)分員R3歷次評(píng)分中分?jǐn)?shù)段3、4、5之間的閾值差較小,均小于1.0 logit;評(píng)分員R2第二次、第三次和第五次評(píng)分中分?jǐn)?shù)段5、6、7之間的閾值差較小,同樣小于1.0 logit。這兩位評(píng)分員可能對(duì)上述幾個(gè)分?jǐn)?shù)段難以把握或理解出現(xiàn)偏差。
表5 評(píng)分員四項(xiàng)任務(wù)總體閱卷量(%)及閾值(logits)
通過(guò)對(duì)單項(xiàng)任務(wù)的分析可知,評(píng)分員閱讀任務(wù)歷次評(píng)分中閾值的標(biāo)準(zhǔn)差位于3.9-8.6logits之間(見(jiàn)表6),明顯高于其四項(xiàng)任務(wù)總體評(píng)分閾值的標(biāo)準(zhǔn)差。以評(píng)分員R1為例,其朗讀任務(wù)歷次評(píng)分的閾值標(biāo)準(zhǔn)差分別為6.8、5.3、8.6、7.4和5.4 (logits)。評(píng)分員R1、R2、R4和R5的歷次評(píng)分都過(guò)多地使用了分?jǐn)?shù)段4和分?jǐn)?shù)段5,評(píng)分員R3則過(guò)多地使用了分?jǐn)?shù)段5和分?jǐn)?shù)段6,比例多數(shù)超過(guò)70%,評(píng)分員R3第三次的使用頻率甚至達(dá)到90%。由此可見(jiàn),評(píng)分員在閱讀任務(wù)的歷次評(píng)分中都存在明顯的集中趨勢(shì)。
表6 評(píng)分員朗讀任務(wù)閱卷量及閾值
對(duì)于評(píng)分員其他任務(wù)的歷次評(píng)分,問(wèn)答任務(wù)都不存在集中現(xiàn)象。翻譯和陳述任務(wù)歷次評(píng)分中,個(gè)別評(píng)分員偶爾會(huì)出現(xiàn)集中趨勢(shì)現(xiàn)象,比如評(píng)分員R1在第一次的陳述評(píng)分中出現(xiàn)了集中趨勢(shì)。需要指出的是,評(píng)分員在五次翻譯和陳述評(píng)分中,分?jǐn)?shù)段7的使用率非常低,平均每次的使用率為0.13次和0.33次。
數(shù)據(jù)顯示多數(shù)評(píng)分員評(píng)分嚴(yán)厲度的總體趨于穩(wěn)定,評(píng)分員歷次評(píng)分中寬嚴(yán)度變化的趨勢(shì)卻不盡相同,這與Lumley等(1995)的研究發(fā)現(xiàn)相似。評(píng)分員評(píng)分嚴(yán)厲度總體波動(dòng)不大,原因可能是:(1)評(píng)分員不斷熟悉評(píng)分標(biāo)準(zhǔn),比如評(píng)分員在每次評(píng)分前都接受培訓(xùn)并認(rèn)真學(xué)習(xí)評(píng)分標(biāo)準(zhǔn);(2)評(píng)分員評(píng)分時(shí)結(jié)合了教學(xué)和評(píng)分經(jīng)驗(yàn),比如評(píng)分員R1根據(jù)考生的語(yǔ)音、語(yǔ)調(diào)、斷句和流利度推斷考生的口語(yǔ)水平。但數(shù)據(jù)同樣顯示,評(píng)分員R2和R3分別在第四次和第二次評(píng)分中出現(xiàn)了明顯的波動(dòng),這與Kim(2015)的研究結(jié)果不一致,即使是有經(jīng)驗(yàn)的評(píng)分員,其評(píng)分也可能會(huì)出現(xiàn)波動(dòng)。雖然評(píng)分員R2閱卷經(jīng)驗(yàn)豐富,而且每次都認(rèn)真接受評(píng)分培訓(xùn),但依然在第四次出現(xiàn)了明顯的偏差。通過(guò)對(duì)評(píng)分員R2的訪談得知,該評(píng)分員的歷次評(píng)分都嚴(yán)格按照評(píng)分標(biāo)準(zhǔn)進(jìn)行閱卷,不應(yīng)該存在明顯的波動(dòng)。為了究其原因,研究者同時(shí)對(duì)比了相鄰兩次考試的評(píng)分結(jié)果(第四次和第五次)。第四次評(píng)分的總量較少,當(dāng)時(shí)考試只使用了兩套試題,評(píng)分員R2只評(píng)閱了第一套試題的考生,其余評(píng)分員所閱考生均使用了兩套試題。通過(guò)對(duì)兩套試題的分析得知,其難度存在顯著差異,比如第一套試題朗讀任務(wù)的易讀度為76.5,明顯比第二套(易讀度為65.6)(1)*根據(jù)Flesh易讀度參考量表,易讀度值越高,篇章難度越低。*簡(jiǎn)單,所以試題難度不同可能會(huì)影響評(píng)分員評(píng)分的穩(wěn)定性。對(duì)于評(píng)分員R3,其評(píng)分的嚴(yán)厲度也出現(xiàn)了較為明顯的波動(dòng)。通過(guò)訪談得知,該評(píng)分員第二次閱卷時(shí)除了正常教學(xué)和承擔(dān)一定的行政工作外,還要準(zhǔn)備博士研究生的考試,當(dāng)時(shí)閱卷出現(xiàn)波動(dòng)可能和壓力大、身心疲憊有關(guān)。由此可見(jiàn),“平行試題”中某些題型可能存在難度差異,影響評(píng)分員評(píng)分的嚴(yán)厲度。評(píng)分員評(píng)分時(shí)的身心狀態(tài)也會(huì)影響評(píng)分結(jié)果。
評(píng)分員單次評(píng)分和其他評(píng)分員的一致性較好,但歷時(shí)來(lái)看,五位評(píng)分員的準(zhǔn)確度都不太穩(wěn)定,其中四位評(píng)分員共出現(xiàn)五次明顯的波動(dòng)。評(píng)分員R2出現(xiàn)兩次顯著的波動(dòng),評(píng)分員R1、R4和R5分別出現(xiàn)一次顯著的波動(dòng)。原因可能來(lái)自兩方面,首先評(píng)分員閱卷隊(duì)伍不穩(wěn)定性。雖然每次閱卷員的數(shù)量為10—20名左右,但參加五次評(píng)分的評(píng)分員只有三名,即評(píng)分員R0、R1和R2,連續(xù)參加四次評(píng)分的評(píng)分員也只有三名,即評(píng)分員R3、R4和R5。出于公平性和實(shí)際情況的考量,閱卷員來(lái)自不同的高校,而且每次可能會(huì)有個(gè)別新評(píng)分員加入評(píng)分隊(duì)伍。由于評(píng)分員評(píng)分的準(zhǔn)確度涉及和其他評(píng)分員評(píng)分的一致性,故評(píng)分員隊(duì)伍不穩(wěn)定可能會(huì)導(dǎo)致評(píng)分員準(zhǔn)確度出現(xiàn)波動(dòng);其次,評(píng)分的準(zhǔn)確度的穩(wěn)定性可能和考生的水平相關(guān)。由于每次報(bào)考PRETCO口試的學(xué)校和學(xué)生存在變化,不同批次考生的口語(yǔ)水平會(huì)存在一定的差異,從一定程度上可能會(huì)影響評(píng)分員評(píng)分的穩(wěn)定性。
評(píng)分員歷次的總體評(píng)分不存在明顯的集中趨勢(shì),但評(píng)分員R5第一次評(píng)分的集中趨勢(shì)較為明顯,分?jǐn)?shù)段3、4、5的使用次數(shù)占其評(píng)分總數(shù)的90%。該評(píng)分員可能第一次參加PRETCO口試評(píng)分,對(duì)評(píng)分標(biāo)準(zhǔn)的把握不準(zhǔn)確,四項(xiàng)任務(wù)均沒(méi)有使用分?jǐn)?shù)段1和分?jǐn)?shù)段7。由此可見(jiàn),新評(píng)分員隨著評(píng)分經(jīng)驗(yàn)的積累,其評(píng)分會(huì)逐漸改進(jìn)(Kim, 2015)。雖然歷次總體評(píng)分的集中趨勢(shì)不明顯,但所有評(píng)分員朗讀任務(wù)的歷次評(píng)分卻均呈現(xiàn)明顯的集中趨勢(shì),主要集中在分?jǐn)?shù)段4、5、6。一方面,原因可能是朗讀任務(wù)的評(píng)分標(biāo)準(zhǔn)存在問(wèn)題。Linacre(2002)指出,如果某分?jǐn)?shù)段的使用頻率低于10次,那么該分?jǐn)?shù)段需要修改或者與相鄰分?jǐn)?shù)段合并。另一方面,評(píng)分員評(píng)分時(shí)可能結(jié)合了評(píng)分標(biāo)準(zhǔn)以外的參數(shù),比如教學(xué)或閱卷經(jīng)驗(yàn)。以評(píng)分員R1為例,該評(píng)分員在評(píng)閱朗讀任務(wù)時(shí)會(huì)根據(jù)考生能否讀準(zhǔn)較難詞匯(比如單詞circumstances)來(lái)判斷其朗讀水平是否屬于高分?jǐn)?shù)段。問(wèn)答任務(wù)歷次的評(píng)分都不存在集中趨勢(shì),這可能和該題型的計(jì)分方式有關(guān),問(wèn)答任務(wù)的答案相對(duì)“封閉”(《高等學(xué)校英語(yǔ)應(yīng)用能力考試大綱》修訂組, 2016),只需計(jì)算考生答對(duì)的數(shù)量即可,該題型沒(méi)有翻譯或陳述任務(wù)“開(kāi)放”。翻譯和陳述任務(wù)對(duì)分?jǐn)?shù)段7的使用頻率非常低,這可能和評(píng)分員對(duì)該分?jǐn)?shù)段描述語(yǔ)的理解偏差有關(guān)(楊志強(qiáng) 等, 2016)。通過(guò)訪談得知,由于分?jǐn)?shù)段7為最高分?jǐn)?shù)段,象征各項(xiàng)任務(wù)的最高水平,評(píng)分員認(rèn)為考生的回答需要接近完美才能獲得該分?jǐn)?shù),因此評(píng)分員在翻譯和陳述任務(wù)的評(píng)分中對(duì)該分?jǐn)?shù)的使用較少。
本文采用定量為主,訪談為輔的方法對(duì)PRETCO口試連續(xù)五次的評(píng)分進(jìn)行分析,探討了評(píng)分員的嚴(yán)厲度、評(píng)分準(zhǔn)確度以及集中趨勢(shì)三個(gè)方面的穩(wěn)定性及其背后的原因。結(jié)果發(fā)現(xiàn):多數(shù)評(píng)分員歷次總體評(píng)分的嚴(yán)厲度比較穩(wěn)定,其中一位評(píng)分員某次評(píng)分的嚴(yán)厲度波動(dòng)明顯;所有評(píng)分員歷次評(píng)分的準(zhǔn)確度均不穩(wěn)定,但顯著波動(dòng)的次數(shù)占比不高;評(píng)分員歷次總體評(píng)分不存在明顯的集中趨勢(shì),雖然新評(píng)分員第一次的總體評(píng)分較為集中,但隨著該評(píng)分員評(píng)分經(jīng)驗(yàn)的不斷積累,其評(píng)分質(zhì)量逐漸改進(jìn);評(píng)分員個(gè)別口試任務(wù),比如“朗讀”任務(wù)的歷次評(píng)分均呈現(xiàn)集中趨勢(shì),且朗讀、翻譯和陳述三項(xiàng)任務(wù)個(gè)別分?jǐn)?shù)段使用次數(shù)過(guò)少,比如陳述任務(wù)分?jǐn)?shù)段7,這些評(píng)分標(biāo)準(zhǔn)本身可能存在問(wèn)題,需要改進(jìn)?;诖?,本研究對(duì)計(jì)算機(jī)輔助口試以及PRETCO口試的評(píng)分及其改進(jìn)提出一些參考性的建議。
(1)使用有經(jīng)驗(yàn)的評(píng)分員并保持評(píng)分員隊(duì)伍的穩(wěn)定性。無(wú)論是計(jì)算機(jī)輔助口試還是PRETCO口試,其評(píng)分都應(yīng)盡量使用有教學(xué)經(jīng)驗(yàn)和評(píng)分經(jīng)驗(yàn)的評(píng)分員,他們能夠結(jié)合多方面因素進(jìn)行綜合評(píng)分,以保證評(píng)分的內(nèi)部一致性。此外,應(yīng)保持評(píng)分員隊(duì)伍相對(duì)穩(wěn)定,以增強(qiáng)評(píng)分的外部一致性,提高歷次評(píng)分的信度和穩(wěn)定性。(2)加強(qiáng)對(duì)評(píng)分員的培訓(xùn)。如果是新評(píng)分員,應(yīng)充分利用評(píng)分培訓(xùn)加強(qiáng)其對(duì)評(píng)分標(biāo)準(zhǔn)和所評(píng)考生總體水平的把握,同時(shí)增強(qiáng)新老評(píng)分員之間的交流,幫助新評(píng)分員改進(jìn)評(píng)分質(zhì)量。即使有經(jīng)驗(yàn)的評(píng)分員,也有可能出現(xiàn)評(píng)分偏差。每次閱卷前,無(wú)論是經(jīng)驗(yàn)豐富的評(píng)分員還是新評(píng)分員,都需要認(rèn)真接受培訓(xùn)。另外,在閱卷過(guò)程中可以組織閱卷員結(jié)合考生的答題情況和評(píng)分標(biāo)準(zhǔn)進(jìn)行討論,從而加強(qiáng)閱卷員對(duì)評(píng)分標(biāo)準(zhǔn)的理解。(3)提高口試試題的效度。通過(guò)對(duì)PRETCO口試題目的分析可以看出,試題的難度可能不一致。為了確保歷次考試的公平性,需要對(duì)平行試題進(jìn)行質(zhì)量分析,比如計(jì)算朗讀任務(wù)的易讀度,或者通過(guò)專家判斷以及試測(cè),降低其他口試任務(wù)難度的差異。(4)改進(jìn)評(píng)分標(biāo)準(zhǔn)中描述語(yǔ)的質(zhì)量。評(píng)分標(biāo)準(zhǔn)是考試構(gòu)念的體現(xiàn),評(píng)分標(biāo)準(zhǔn)描述語(yǔ)須簡(jiǎn)單、明了, 沒(méi)有歧義(曾用強(qiáng), 2011)。本研究發(fā)現(xiàn),歷次評(píng)分中朗讀任務(wù)第一個(gè)分?jǐn)?shù)段、翻譯和陳述任務(wù)第七個(gè)分?jǐn)?shù)段的使用頻次極低。鑒于現(xiàn)實(shí)評(píng)分的需要,不能簡(jiǎn)單將這些分?jǐn)?shù)段和相鄰的分?jǐn)?shù)段合并。因此,有必要對(duì)這些分?jǐn)?shù)段的描述語(yǔ)進(jìn)行改寫(xiě),以確保評(píng)分員理解的準(zhǔn)確性和一致性,防止出現(xiàn)理解偏差(楊志強(qiáng) 等, 2016)。