吳 泓 霖
(教育部考試中心,北京 100084)
口語能力是交際語言能力的重要組成部分,對口語能力的測試也一直是語言測試研究的重點(diǎn)和熱點(diǎn)。口語測試屬于行為表現(xiàn)評估(performance assess-ment),傳統(tǒng)上以面試型口試為主,也稱為直接型口語測試(direct speaking tests),由一位或多位考官對一位或多位考生進(jìn)行面對面的口語測試[1]。這種測試方式20世紀(jì)50年代發(fā)源于美國,并得到了廣泛應(yīng)用,其主要優(yōu)點(diǎn)在于真實性,能夠反映出現(xiàn)實生活中口語交際的特點(diǎn)。但是,它也有明顯的缺點(diǎn),包括測試效率較低、經(jīng)濟(jì)成本較高、測試標(biāo)準(zhǔn)難以統(tǒng)一、對考官的能力和經(jīng)驗要求較高等。隨著口語測試研究和實踐的發(fā)展,半直接型口語測試(semi-direct speaking tests)開始出現(xiàn),通過播放錄音指令、提供試題冊或其他“非真人考官參與”的方式進(jìn)行口試,極大地提高了口語測試的效率,因此該測試方式迅速地發(fā)展起來。后來,計算機(jī)技術(shù)和非直接型口語測試相結(jié)合,產(chǎn)生了基于計算機(jī)的口語測試(computer-based speaking tests),簡稱為機(jī)考口試。它是一種將考試內(nèi)容以計算機(jī)形式呈現(xiàn),將考生作答以電子形式記錄下來并進(jìn)行評分的口語測試方式[2]。與面試型口試相比,機(jī)考口試具有多種優(yōu)勢,包括不同場次的測試標(biāo)準(zhǔn)和流程一致、測試效率高、評分信度高、可實現(xiàn)自動評分等。
目前依然采用面試型口試的考試并不多,機(jī)考口試已經(jīng)成為主流的口語測試方式,包括國外的托福網(wǎng)考、培生學(xué)術(shù)英語考試、領(lǐng)思考試,國內(nèi)的大學(xué)英語四、六級考試等高利害考試。此外,國內(nèi)有些省市(比如廣東省和上海市)還在高考英語中實施了機(jī)考口試,并將分?jǐn)?shù)計入高考總分。
口語測試一般采用的題型都是主觀題,因此需要有評分員對考生表現(xiàn)進(jìn)行評判。在面試型口試中,大部分情況下由考官擔(dān)任評分員,在口試現(xiàn)場對考生表現(xiàn)進(jìn)行評分,即評分過程和考生作答同時進(jìn)行;在機(jī)考口試中,一般先通過計算機(jī)考試系統(tǒng)收集考生作答錄音,再另外組織評分員進(jìn)行評閱,即評分過程和考生作答從時間和空間上分離。
口語測試有不同的評分方式,而且對各種評分方式的定義也存在差別。通過文獻(xiàn)梳理,本研究認(rèn)為常見的口試評分方式可分為整體評分(holistic scoring)、分項評分(analytic scoring)、任務(wù)評分(part scoring)三種[3]。整體評分指評分員基于對考生整場口試表現(xiàn)的總體印象,按照評分標(biāo)準(zhǔn)給出一個分?jǐn)?shù),如香港英語口試。分項評分指評分員基于考生整場口試的表現(xiàn),從評分標(biāo)準(zhǔn)(即口語能力的各個方面)給出若干項分?jǐn)?shù),然后根據(jù)各項評分標(biāo)準(zhǔn)上的分?jǐn)?shù)算出最后得分,如大學(xué)英語四、六級考試的口試。此外,口語測試往往包含多項任務(wù),為了在評分過程中更好地體現(xiàn)任務(wù)特征,有時評分員會基于考生在每項任務(wù)上的具體表現(xiàn),結(jié)合評分標(biāo)準(zhǔn)分別給出分?jǐn)?shù),然后根據(jù)各項任務(wù)上的分?jǐn)?shù)算出最后得分[4],即任務(wù)評分,如托福口試。任務(wù)評分還可以進(jìn)一步分為任務(wù)整體評分(每項任務(wù)只有一個整體評分標(biāo)準(zhǔn))和任務(wù)分項評分(每項任務(wù)有多項評分標(biāo)準(zhǔn))。
以往研究表明,不同的評分方式會影響評分員評分[5]。整體評分和分項評分是行為表現(xiàn)評估中最常采用的評分方式,因此有不少關(guān)于兩者的對比研究[6],而針對任務(wù)評分的研究則相對較少[7]。另外,有關(guān)評分方式的對比研究多見于寫作測試,而關(guān)于口試評分方式的研究相對較少。
本研究參考中國英語能力等級量表,設(shè)計了分項評分和任務(wù)評分兩種方式,分項評分以考生整場口試的綜合表現(xiàn)為評分依據(jù),任務(wù)評分以考生在每項口試任務(wù)上的具體表現(xiàn)為評分依據(jù)。采用多面Rasch分析、概化分析、描述性統(tǒng)計分析和相關(guān)分析等方法,從評分員、評分標(biāo)準(zhǔn)、考生能力三個層面,對分項評分和任務(wù)評分進(jìn)行綜合對比分析,以探索兩種評分方式在實際應(yīng)用中的區(qū)別和聯(lián)系。
多面Rasch分析主要應(yīng)用于主觀性評價的客觀化分析[8],是進(jìn)行評分效應(yīng)研究的重要手段。在口試評分研究中,多面Rasch分析認(rèn)為測試結(jié)果受評分員、評分標(biāo)準(zhǔn)、考生能力三者共同影響,并將這三者放在同一能力量尺上進(jìn)行比較,從而不僅可以估計評分員嚴(yán)厲程度的差異,并能夠校正這種差異對測試結(jié)果的影響,還能夠分析評分標(biāo)準(zhǔn)和考生能力不同所導(dǎo)致的差異。
經(jīng)典測量理論可以通過信度系數(shù)來衡量測試結(jié)果的穩(wěn)定性程度,以及反映測試過程中所存在的隨機(jī)誤差大小程度[9],但卻無法有效地分離各種誤差的來源,這是其在實際應(yīng)用中的缺陷之一。概化理論用“概化系數(shù)”代替經(jīng)典測量理論中的信度指標(biāo),指一項測試的受試者得分的平均分在所有條件下概括的精確性,或者從樣本到可接受的觀察全域的概括程度[10]。針對經(jīng)典測量理論無法有效分離各種測量誤差的缺點(diǎn),概化理論通過方差分析將各類誤差的方差進(jìn)行了分離,從而可以直接比較不同方差成分的大小。此外,概化理論不僅能夠?qū)χ餍?yīng)進(jìn)行評估,還能對交互作用效應(yīng)進(jìn)行評估,這一估算各項方差成分相對大小的過程,被稱為概化理論的概化研究階段或者G研究階段。此外,概化理論還可以通過實驗性分析模擬出不同條件下概化系數(shù)的變化情況,為設(shè)計決策提供參考,這個過程被稱為概化理論的決策研究階段或者D研究階段。
本研究主要從定量角度回答以下3個問題:
(1)兩種評分方式對整體統(tǒng)計分析結(jié)果有何影響?
(2)兩種評分方式對評分員嚴(yán)厲程度、評分標(biāo)準(zhǔn)使用、考生能力區(qū)分有何影響?
(3)兩種評分方式對考試分?jǐn)?shù)差異來源有何影響?
本評分研究(針對某試驗性機(jī)考口試)包含4項測試任務(wù):朗讀短文、聽錄音后回答問題、閱讀短文后發(fā)表評論、兩人討論。其中前三項任務(wù)由考生獨(dú)立完成,最后一項為交互性任務(wù),由考生隨機(jī)配對完成。
為了從地域、學(xué)科、水平等方面保證樣本的代表性,參加本次機(jī)考口試的考生來自11所高校,地域上涵蓋華北、華東、中南、西南片區(qū),專業(yè)上覆蓋綜合類、理工、政法、財經(jīng)等學(xué)科類型,有效樣本共925份。
本研究設(shè)計了兩種評分方式:分項評分和任務(wù)評分。分項評分根據(jù)考生整場口試的表現(xiàn),分別從5項評分標(biāo)準(zhǔn)上進(jìn)行打分,包括語音清晰度、語法準(zhǔn)確度、內(nèi)容相關(guān)度、語篇連貫度、策略靈活度。任務(wù)評分根據(jù)考生在每項口試任務(wù)上的具體表現(xiàn)進(jìn)行打分:朗讀短文任務(wù)包括語音語調(diào)一項評分標(biāo)準(zhǔn),回答問題任務(wù)包括詞匯語法、口頭敘述兩項評分標(biāo)準(zhǔn),發(fā)表評論任務(wù)包括語法語篇、口頭論述、表達(dá)策略三項評分標(biāo)準(zhǔn),兩人討論任務(wù)包括詞匯句法、口頭互動、討論策略三項評分標(biāo)準(zhǔn)。兩種評分方式每項評分標(biāo)準(zhǔn)的打分區(qū)間均為0~4分(不設(shè)半分),考生總分為各項評分標(biāo)準(zhǔn)或任務(wù)得分之和,因此分項評分滿分為20,任務(wù)評分滿分為36。
本次機(jī)考口試評分共有32名評分員參加,來自東北某省份的985高校。他們都有豐富的口試閱卷經(jīng)驗,連續(xù)參加近3年大規(guī)??谠嚨脑u分工作(如大學(xué)英語四、六級機(jī)考口試)。評分員先采用分項評分,再采用任務(wù)評分。為避免評分員差異對研究結(jié)果造成影響,采用任務(wù)評分時,每位評分員都需要評閱所有4項任務(wù)。
評分時采用雙評的方式,即每位考生的作答都由兩位評分員評閱,兩人所給總分的平均分為考生最終成績。當(dāng)兩位評分員所給分?jǐn)?shù)差異超過閾值時,則由評分組長進(jìn)行仲裁。采用分項評分時,各項評分標(biāo)準(zhǔn)分差閾值為4分;采用任務(wù)評分時,朗讀短文任務(wù)分差閾值為1分,回答問題任務(wù)分差閾值為2分,其余兩項任務(wù)分差閾值均為3分。此外,由于采用雙評的方式,考生最終成績有可能不是整數(shù)。
為便于進(jìn)行更加深入的數(shù)據(jù)分析,本次評分還從考生作答樣本中抽取了30份代表不同口語水平的錨卷,將其隨機(jī)派送給32位評分員,每位評分員都需要用兩種評分方式評閱每份錨卷。
本研究采用SPSS 20軟件進(jìn)行描述性統(tǒng)計分析和相關(guān)分析,數(shù)據(jù)來源為全體考生樣本(925份);采用FACETS軟件進(jìn)行多面Rasch分析,使用了包括評分員、評分標(biāo)準(zhǔn)、考生三個側(cè)面的測量模型[11];采用EduG 6.1軟件進(jìn)行概化分析。多面Rasch分析和概化分析的數(shù)據(jù)來源為錨卷樣本(30份)。此外,在評分工作結(jié)束之后,筆者還對評分員進(jìn)行了訪談。
采用分項評分時,考生總分平均分為11.44,得分率為57.20%,標(biāo)準(zhǔn)差為2.52。考生在各項評分標(biāo)準(zhǔn)上的得分率最高的是語音清晰度(59.75%),最低的是語法準(zhǔn)確度(55.25%)。
采用任務(wù)評分時,考生總分平均分為20.59,得分率為57.19%,標(biāo)準(zhǔn)差為3.84??忌?項任務(wù)上的得分率最高的是朗讀短文(60.25%),最低的是回答問題(55.25%)??忌诟魅蝿?wù)所包含的評分標(biāo)準(zhǔn)上的得分率最高的是語音語調(diào)(60.25%),最低的是詞匯語法(54.75%)。
對比兩種評分方式的總分得分率可以看到兩者幾乎是一樣的。具體到各項評分標(biāo)準(zhǔn)上的得分率,雖然兩種評分方式各不相同,但大致可以看出考生在語音等方面表現(xiàn)較好,而在語法等方面表現(xiàn)稍遜一籌。
分項評分內(nèi)部相關(guān)性(即各分項之間的相關(guān)程度)見表1。從中可以看出,分項評分的內(nèi)部相關(guān)性在0.60到0.71之間(p<0.01),說明評分員能較好地將各項評分標(biāo)準(zhǔn)區(qū)分開,并沒有出現(xiàn)明顯的“暈輪效應(yīng)”[12]。
表1 分項評分內(nèi)部相關(guān)性
任務(wù)評分內(nèi)部相關(guān)性(即各項任務(wù)之間的相關(guān)程度)見表2。從中可以看出,任務(wù)評分的內(nèi)部相關(guān)性較低,介于0.39到0.48之間(p<0.01),這說明各項任務(wù)考查了考生不同方面的口語能力,而且評分員能將不同任務(wù)的考查目標(biāo)比較清晰地區(qū)分開[13]。
表2 任務(wù)評分內(nèi)部相關(guān)性
進(jìn)一步分析可知,兩種評分方式在總分上的相關(guān)性為0.75(p<0.01),說明采用不同的評分方式對考生得分產(chǎn)生了一定的影響。雖然前文提到兩種評分方式的總分得分率幾乎相同,但在對考生口語能力的排序上還是存在一定差異的。
1.評分員側(cè)面
分項評分的評分員側(cè)面統(tǒng)計結(jié)果顯示,32位評分員的嚴(yán)厲程度不一。17號和21號評分員最嚴(yán)厲(1.47 logits),28號評分員最寬松(-1.16 logits),最嚴(yán)厲和最寬松評分員之間嚴(yán)厲程度相差2.63 logits。所有評分員平均嚴(yán)厲程度為0 logits,標(biāo)準(zhǔn)差為0.68,其中有16位評分員的嚴(yán)厲程度小于0 logits,評卷尺度偏寬松。此外,分隔信度(reliability=0.95)、卡方系數(shù)(chi-square=596.7,p=0)、分隔比率(separation=4.22)也都表明評分員的嚴(yán)厲程度有顯著差異。但所有評分員的加權(quán)均方擬合度(Infit Mnsq)都在可接受的擬合值范圍之內(nèi)(平均分±2SD)(McNamara, 1996),表明評分員評分具有良好的內(nèi)部一致性,即每位評分員自身的嚴(yán)厲程度保持穩(wěn)定,評分結(jié)果可信。
任務(wù)評分的評分員側(cè)面統(tǒng)計結(jié)果顯示,32位評分員采用任務(wù)評分時嚴(yán)厲程度也不一致。29號評分員最嚴(yán)厲(1.17 logits),11號評分員最寬松(-0.92 logits),最嚴(yán)厲和最寬松評分員之間嚴(yán)厲程度相差2.09 logits。評分員平均嚴(yán)厲程度為0 logits,標(biāo)準(zhǔn)差為0.45,有17位評分員的嚴(yán)厲程度小于0 logits,評卷尺度偏寬松。此外,分隔信度(reliability=0.95)、卡方系數(shù)(chi-square=607.2,p=0)、分隔比率(separation=4.24)也都表明評分員的嚴(yán)厲程度有顯著差異。所有評分員的加權(quán)均方擬合度(Infit Mnsq)都在可接受的擬合值范圍之內(nèi),表明評分員評分內(nèi)部一致性良好,評分結(jié)果可信。
對比兩種評分方式下的分隔比率,分項評分(separation=4.22)和任務(wù)評分(separation=4.24)十分接近,說明兩種模式下評分員之間都存在嚴(yán)厲程度的差別,而且這種差別很接近,從多面Rasch的分析結(jié)果暫時看不出區(qū)別,需要進(jìn)行概化分析才能比較出結(jié)果。
2.評分標(biāo)準(zhǔn)側(cè)面
根據(jù)Rasch模型的估算,采用分項評分時,在各項評分標(biāo)準(zhǔn)中難度最高的是語法準(zhǔn)確度(0.44 logits),最低的是語音清晰度(-0.50 logits),兩者相差0.94 logits,平均難度為0 logits,標(biāo)準(zhǔn)差為0.30。采用任務(wù)評分時,在各項評分標(biāo)準(zhǔn)中難度最高的是表達(dá)策略(0.20 logits),最低的是語音語調(diào)(-0.38 logits),兩者相差0.58 logits,平均難度為0 logits,標(biāo)準(zhǔn)差為0.17。標(biāo)準(zhǔn)差和難度差異的對比表明,任務(wù)評分各項標(biāo)準(zhǔn)之間難度差異小于分項評分。
多面Rasch分析還顯示,無論使用哪種評分方式,評分員使用2分和3分的頻率都是最高的,分項評分時評分員使用2分和3分的比例為77%,任務(wù)評分時該比例為79%,表明評分員打分時的趨中現(xiàn)象比較明顯,這與以往有關(guān)評分標(biāo)準(zhǔn)的研究結(jié)論一致[14]。此外,除了趨中,這其實也反映出考生群體無論在整體口語能力還是在口語能力的不同側(cè)面上均呈現(xiàn)“中間大、兩頭小”的特點(diǎn),該現(xiàn)象符合一般的語言學(xué)習(xí)規(guī)律。
3.考生側(cè)面
錨卷樣本共包含30位考生。多面Rasch分析顯示,采用分項評分時,12號考生口語水平最高(5.77 logits),20號考生口語水平最低(-2.13 logits),兩者相差7.90 logits,說明考生口語水平有明顯差異??忌骄芰χ禐?.28 logits,標(biāo)準(zhǔn)差為2.17。分隔信度(reliability=1.00)、卡方系數(shù)(chi-square=5903.1,p=0)、分隔比率(separation=14.22)表明分項評分能較好地區(qū)分不同層次口語水平的考生。采用任務(wù)評分時,12號考生口語水平最高(3.79 logits),20號考生口語水平最低(-1.66 logits),兩者相差5.45 logits,考生平均能力值為0.63 logits,標(biāo)準(zhǔn)差為1.44,這些都表明考生口語水平有明顯差異,但差異程度不如分項評分。分隔信度(reliability=1.00)、卡方系數(shù)(chi-square=6203.1,p=0)、分隔比率(separation=14.46)表明任務(wù)評分也能較好地區(qū)分不同層次口語水平的考生。
概化理論可以從宏觀的角度對分?jǐn)?shù)差異來源進(jìn)行分析和對比。根據(jù)概化理論,測試結(jié)果的分?jǐn)?shù)差異(即方差)有多種來源。具體到口語測試,分?jǐn)?shù)差異分別來自評分員嚴(yán)厲程度、評分標(biāo)準(zhǔn)設(shè)置、考生能力等因素,以及這些因素的相互作用。因此,本研究基于錨卷樣本的數(shù)據(jù),通過評分員、評分標(biāo)準(zhǔn)、考生的完全交叉設(shè)計,用概化分析統(tǒng)計了方差來源(見表3)。概化理論包括概化研究(G研究)和決策研究(D研究)兩種,出于研究目的,本文只進(jìn)行概化研究。
表3 方差來源統(tǒng)計結(jié)果
方差來源的統(tǒng)計結(jié)果顯示,從占總方差的比重(占比)來看,兩種評分方式最大的方差來源都是考生能力差異,說明考生能力差異是分?jǐn)?shù)差異最主要的來源。采用分項評分時,考生能力差異占總方差的53.3%;采用任務(wù)評分時,考生能力差異占總方差的39.8%??梢钥闯?,考生能力差異在分項評分中所占方差比重大于任務(wù)評分,說明分項評分對考生口語能力差異的區(qū)分程度高于任務(wù)評分。兩種評分方式第二大方差分量都是評分員、評分標(biāo)準(zhǔn)、考生之間的交互效應(yīng)及其他隨機(jī)誤差,任務(wù)評分中的占比(37.5%)高于分項評分中的占比(29.3%),說明任務(wù)評分的評分誤差大于分項評分。
其他方差來源所占比重相對較小。分項評分中評分員和考生的交互效應(yīng)占總方差的8.5%,而任務(wù)評分中只占3.8%,表明在不同評分員對同一考生的評分嚴(yán)厲程度差異方面,分項評分大于任務(wù)評分。分項評分中評分員嚴(yán)厲程度差異占總方差的4.2%,而任務(wù)評分中評分員嚴(yán)厲程度差異占總方差的3.0%,表明評分員對分項評分的影響大于對任務(wù)評分的影響。分項評分中評分員和評分標(biāo)準(zhǔn)交互效應(yīng)在總方差中的占比(2.4%)小于任務(wù)評分中相應(yīng)的占比(6.7%),表明不同評分員在對同一標(biāo)準(zhǔn)的嚴(yán)厲程度差異方面分項評分小于任務(wù)評分。分項評分中評分標(biāo)準(zhǔn)和考生的交互效應(yīng)在總方差中的占比(1.2%)小于任務(wù)評分對應(yīng)的占比(9.2%),表明同一考生在不同評分標(biāo)準(zhǔn)上體現(xiàn)出來的能力差異方面分項評分也小于任務(wù)評分。
評分工作結(jié)束之后,筆者對評分員進(jìn)行了訪談,進(jìn)一步了解他們對兩種不同評分方式的使用感受,以及對評分方式設(shè)計的建議等。
在使用感受方面,評分員普遍認(rèn)為分項評分更有利于從整體上評價考生的口語能力。在實際評分過程中,他們一般先對考生整體口語水平進(jìn)行基本判斷,而分項評分比較符合他們的評分習(xí)慣。由于評分員經(jīng)常參與大學(xué)英語四、六級機(jī)考口試的評分工作,對分項評分方式更加熟悉,因此工作效率更高。此外,雖然以往研究指出分項評分可能忽略考生在不同任務(wù)上表現(xiàn)不均的情況[15],但有評分員認(rèn)為自己在評分時會考慮任務(wù)完成度,當(dāng)有些考生在個別任務(wù)上表現(xiàn)明顯不同于其他任務(wù)時,評分員會進(jìn)行綜合考慮,再給出分?jǐn)?shù)。
在設(shè)計建議方面,對于本研究中的任務(wù)評分,部分評分員認(rèn)為它實際上也是一種分項評分,但和任務(wù)結(jié)合更加緊密。有的評分員認(rèn)為,任務(wù)評分更加凸顯任務(wù)設(shè)計的特點(diǎn),評分過程更加聚焦,對于有些考查綜合技能的任務(wù),例如回答問題(聽、說結(jié)合)和發(fā)表評論(讀、說結(jié)合),這種評分方式增加了口語能力之外的因素對任務(wù)表現(xiàn)造成的影響,可能會對綜合能力較弱的考生不利。還有的評分員指出,由于任務(wù)評分的過程更加聚焦、精細(xì),當(dāng)使用不同的試卷時,試卷差異給考生表現(xiàn)帶來的影響可能會更加顯著,這將給命題帶來更大的挑戰(zhàn),特別是要謹(jǐn)慎評估考生對每個任務(wù)話題的熟悉程度,否則考生可能會因為在個別任務(wù)上表現(xiàn)不佳而明顯影響整體得分。
此外,有評分員認(rèn)為,雙評的方式很大程度上會導(dǎo)致趨中現(xiàn)象,因為評分員都想避免自己的分?jǐn)?shù)與他人相差過大而導(dǎo)致仲裁。也有評分員建議,雙評是一種很好的評分質(zhì)量監(jiān)控手段,但其分差閾值不宜設(shè)置太小,否則評分趨中現(xiàn)象很可能更加明顯。
基于多種數(shù)據(jù)分析結(jié)果和評分員訪談,關(guān)于分項評分和任務(wù)評分兩種方式的對比研究主要有以下發(fā)現(xiàn):
在分?jǐn)?shù)可比性方面,雖然兩種評分方式的總分得分率基本一樣,對考生整體口語水平的排序存在一定差異。這種差異可能主要來源于評分標(biāo)準(zhǔn)設(shè)置上的差異:首先,分項評分有5項標(biāo)準(zhǔn),任務(wù)評分則有9項標(biāo)準(zhǔn),相比較而言任務(wù)評分對口語能力不同方面的區(qū)分更為細(xì)致;其次,分項評分的5項標(biāo)準(zhǔn)區(qū)別明顯,而任務(wù)評分的9項標(biāo)準(zhǔn)中有些比較接近,比如語法和口頭表達(dá)方面的標(biāo)準(zhǔn)就有6項,這使得語法和口頭表達(dá)方面的分?jǐn)?shù)在任務(wù)評分中占了較大的比重。
在評分員一致性方面,兩種評分方式下評分員評分都具有良好的內(nèi)部一致性,但評分員之間也存在嚴(yán)厲程度不一致的問題,這與以往大部分研究結(jié)論類似[16]。總體而言,分項評分時評分員的嚴(yán)厲程度差異大于任務(wù)評分。這可能是因為分項評分的標(biāo)準(zhǔn)數(shù)量比任務(wù)評分少,所以評分員嚴(yán)厲程度差異所造成的影響更加明顯。
在評分標(biāo)準(zhǔn)方面,兩種評分方式的各項標(biāo)準(zhǔn)難度都存在差異,但分項評分各項標(biāo)準(zhǔn)之間的難度差異比任務(wù)評分大。在評分標(biāo)準(zhǔn)的使用上,兩種評分方式都存在明顯的趨中現(xiàn)象,2分和3分使用最為頻繁,且明顯高于其他分?jǐn)?shù)。這可能有三方面原因:首先,評分標(biāo)準(zhǔn)區(qū)間較小,評分員只能從0~4分的區(qū)間里選擇分?jǐn)?shù),可選項不多,造成中間的兩個分?jǐn)?shù)使用頻率較高。其次,由于采用了雙評的方式,為了避免分差過大而進(jìn)行仲裁,有些評分員便從策略上傾向于打中間分?jǐn)?shù)。最后,大部分考生的口語表現(xiàn)處于中間水準(zhǔn),因此中間分?jǐn)?shù)段使用頻率比較高。至于主要原因是哪種,還需要利用定性研究等方法進(jìn)一步探析。
在考生能力測量方面,考生口語水平差異在分項評分的總分變化中所占的比例高于任務(wù)評分,說明分項評分對不同層次口語水平的考生區(qū)分程度優(yōu)于任務(wù)評分。在訪談中,有評分員提到,分項評分依據(jù)的是考生在整場口試中的表現(xiàn),而任務(wù)評分依據(jù)的只是考生在具體任務(wù)上的表現(xiàn),因此分項評分收集到的考生表現(xiàn)的依據(jù)相對更加充分,對考生能力的區(qū)分也更加準(zhǔn)確。
從本研究的結(jié)果上看,分項評分在考生整體口語能力區(qū)分程度和測試結(jié)果的準(zhǔn)確程度上都優(yōu)于任務(wù)評分。此外,不同于以往的一些研究[17],本研究中分項評分各項標(biāo)準(zhǔn)沒有出現(xiàn)明顯的“暈輪效應(yīng)”。這可能是因為評分員都有豐富的口試評分經(jīng)驗,而且對分項評分方式很熟悉,又經(jīng)過了周密的培訓(xùn),所以能清楚地區(qū)分各項標(biāo)準(zhǔn)的評判重點(diǎn)。
本研究的不足之處在于任務(wù)評分設(shè)計相對復(fù)雜,每個任務(wù)都包含了分項評分標(biāo)準(zhǔn),而非針對任務(wù)采用整體評分。在今后的研究中,可按任務(wù)設(shè)計整體評分標(biāo)準(zhǔn),再與分項評分進(jìn)行對比,以更全面、深入地探析不同評分方式的特點(diǎn)。