大學(xué)英語(yǔ)配對(duì)口語(yǔ)測(cè)試中評(píng)分員傾向?qū)υu(píng)分行為的影響

2012-05-08 09:10:05史天化

大理大學(xué)學(xué)報(bào) 2012年2期

關(guān)鍵詞：外向一致性偏差

史天化

（福建工程學(xué)院外語(yǔ)系，福州 350108）

大學(xué)英語(yǔ)配對(duì)口語(yǔ)測(cè)試中評(píng)分員傾向?qū)υu(píng)分行為的影響

史天化

（福建工程學(xué)院外語(yǔ)系，福州 350108）

多面Rasch模型（MFRM）被運(yùn)用來(lái)分析大學(xué)英語(yǔ)配對(duì)口語(yǔ)測(cè)試中評(píng)分員傾向?qū)υu(píng)分寬嚴(yán)度和一致性的影響。采用SPSS和MFRM分析4名有經(jīng)驗(yàn)的評(píng)分員對(duì)10對(duì)考生的評(píng)價(jià)數(shù)據(jù)，結(jié)果表明不同性格特征的評(píng)分員在寬嚴(yán)度方面存在差異，內(nèi)向的比外向的評(píng)分員更嚴(yán)格；而內(nèi)、外向評(píng)分員在自身一致性方面沒(méi)有明顯的差別。

多面Rasch模型；配對(duì)口語(yǔ)評(píng)分；評(píng)分傾向

在語(yǔ)言測(cè)試領(lǐng)域，對(duì)口語(yǔ)評(píng)分的研究一直是口試研究的重點(diǎn)之一。我國(guó)外語(yǔ)教學(xué)中很多考試也都包含口語(yǔ)測(cè)試部分，以檢查考生口語(yǔ)表達(dá)能力。其中，評(píng)分的信度如何，評(píng)分是否合理、公平等問(wèn)題是語(yǔ)言教學(xué)和測(cè)試研究的重點(diǎn)課題之一。目前，口語(yǔ)研究多側(cè)重于3人以上的小組測(cè)試模式，比如Berry〔1〕，Ockey〔2〕等，很少有對(duì)雙人配對(duì)口語(yǔ)測(cè)試中個(gè)性因素對(duì)評(píng)分影響的研究。本研究以英語(yǔ)在中國(guó)高校作為一門重要公共必修課為背景，結(jié)合新建應(yīng)用型本科院校的特點(diǎn)，以某工科院校非英語(yǔ)專業(yè)大學(xué)生為實(shí)驗(yàn)對(duì)象，對(duì)雙人配對(duì)口語(yǔ)測(cè)試中評(píng)分員傾向?qū)υu(píng)分影響進(jìn)行實(shí)證研究。

一、相關(guān)研究

在過(guò)去二十多年里，國(guó)外諸多學(xué)者專家們，如Iwashita〔3〕，Orr〔4〕，Lyn May〔5〕，等等，就不同配對(duì)模式，學(xué)生外語(yǔ)水平，性格情感特征，學(xué)生學(xué)習(xí)風(fēng)格偏好與學(xué)生性別，專業(yè)及母語(yǔ)類型等因素對(duì)口語(yǔ)產(chǎn)出產(chǎn)生的影響進(jìn)行了一系列的研究。相比國(guó)外，國(guó)內(nèi)在外語(yǔ)教學(xué)中的口語(yǔ)測(cè)試和口語(yǔ)測(cè)試領(lǐng)域的研究都要晚得多。目前影響最廣的大學(xué)英語(yǔ)四、六級(jí)考試和高校英語(yǔ)專業(yè)四、八級(jí)考試長(zhǎng)久以來(lái)并不包含口語(yǔ)測(cè)試部分，直至1994年英語(yǔ)專業(yè)四級(jí)考試才開(kāi)始進(jìn)行錄音口試試點(diǎn)（文秋芳〔6〕），1999年大學(xué)英語(yǔ)四、六級(jí)考試才開(kāi)始有條件的口語(yǔ)測(cè)試（考生筆試成績(jī)達(dá)到一定分?jǐn)?shù)才有資格參加）。而在口語(yǔ)測(cè)試領(lǐng)域，研究課題主要來(lái)自國(guó)外研究的啟發(fā)和國(guó)內(nèi)口語(yǔ)測(cè)試的實(shí)踐，包括測(cè)試形式（盛越，管博〔7〕），口試真實(shí)性（鄒申〔8〕）以及大學(xué)英語(yǔ)口試（熊敦禮等〔9〕）和英語(yǔ)專業(yè)四級(jí)考試（文秋芳）的效度等。

二、研究問(wèn)題

口語(yǔ)評(píng)分屬主觀性評(píng)分，往往通過(guò)讓考生完成一項(xiàng)指定任務(wù)，展示其在問(wèn)題解決中的推理、判斷和表達(dá)等方面的技能，然后評(píng)分員依據(jù)既定的標(biāo)準(zhǔn)對(duì)考生的表現(xiàn)進(jìn)行綜合評(píng)定。其中，評(píng)分者的個(gè)人特征，如知識(shí)背景、經(jīng)驗(yàn)閱歷、情緒高低、疲勞程度以及性格特征等都會(huì)對(duì)評(píng)分的信度、效度產(chǎn)生影響。這就是測(cè)試中所謂的評(píng)分者偏差。Skehan〔10〕提出，在配對(duì)口語(yǔ)中，口語(yǔ)評(píng)分是多重因素互相影響的結(jié)果，這些因素包括考生之間、任務(wù)特點(diǎn)、評(píng)分標(biāo)準(zhǔn)以及評(píng)分員等。如圖1所示，examiners（評(píng)分員）和task characteristics（任務(wù)特點(diǎn)）會(huì)影響到受試的performance（表現(xiàn)），而評(píng)分員又按照評(píng)分標(biāo)準(zhǔn)進(jìn)行評(píng)分，最終得出考生的口語(yǔ)成績(jī)。雖然圖型很簡(jiǎn)單，但是在實(shí)際操作過(guò)程中卻很復(fù)雜。

依據(jù)Skehan的口語(yǔ)評(píng)分模型，本研究要探討的研究問(wèn)題是：①內(nèi)、外向評(píng)分員在配對(duì)口語(yǔ)測(cè)試的評(píng)分過(guò)程中評(píng)分寬嚴(yán)度是否有差異？②內(nèi)、外向評(píng)分員能否保持自身一致性？

圖1 Skehan口語(yǔ)評(píng)分?jǐn)U展模型

三、研究設(shè)計(jì)

（一）實(shí)驗(yàn)對(duì)象

共有20名學(xué)生參加該實(shí)驗(yàn)，年齡為19～21歲，系福建某學(xué)院一年級(jí)學(xué)生，從3個(gè)工科專業(yè)中隨機(jī)挑選出來(lái)?？忌蝿?wù)設(shè)計(jì)按照學(xué)院期末口語(yǔ)考試模式。首先，考生2人1組，共10組，接著從12個(gè)備選題目中抽取試題，準(zhǔn)備3分鐘，然后要求考生依據(jù)題目要求在3～5分鐘時(shí)間內(nèi)完成口語(yǔ)對(duì)話?？忌目谡Z(yǔ)產(chǎn)出全部通過(guò)計(jì)算機(jī)口語(yǔ)考試系統(tǒng)自動(dòng)錄音。20名考生的音頻文件全部轉(zhuǎn)寫為文本文件。

（二）評(píng)分

評(píng)分員是4位具有副教授職稱，有口語(yǔ)評(píng)分經(jīng)驗(yàn)的大學(xué)英語(yǔ)專業(yè)教師。其中性格偏內(nèi)向和外向各2人，其內(nèi)、外向人格傾向和特征事先經(jīng)“艾森克人格問(wèn)卷量表”檢測(cè)。評(píng)分員依據(jù)語(yǔ)言準(zhǔn)確性和范圍，話語(yǔ)的長(zhǎng)度和連貫性，語(yǔ)言靈活性和適切性以及兩人的交互等5個(gè)方面對(duì)20名考生進(jìn)行評(píng)分。

四、結(jié)果和討論

本實(shí)驗(yàn)采用SPSS和Rasch模型（Linacre〔11〕）對(duì)數(shù)據(jù)進(jìn)行分析。Rasch模型可以看作是包含考生能力和項(xiàng)目難度層面的雙層模型。該模型是丹麥數(shù)學(xué)家Rasch提出的，以其統(tǒng)計(jì)上的優(yōu)點(diǎn)和參數(shù)估計(jì)的便利性而著稱。多面Rasch模型可以獨(dú)立估計(jì)評(píng)分者寬嚴(yán)程度、考生能力和項(xiàng)目難度等，校正主觀評(píng)分中各因素對(duì)評(píng)分結(jié)果的影響，提高評(píng)分結(jié)果的信度。以上因素在模型中都被設(shè)定為獨(dú)立的參數(shù)，以logits（洛基量尺）作為單位。本研究采用此模型，分析在配對(duì)口語(yǔ)測(cè)試中評(píng)分員性格特征對(duì)評(píng)分寬嚴(yán)度和一致性產(chǎn)生的影響及評(píng)估員的評(píng)分偏差問(wèn)題。

（一）評(píng)分者的寬嚴(yán)度與一致性

根據(jù)表1，第三列為評(píng)分寬嚴(yán)度（使用洛基量尺），大多數(shù)學(xué)者認(rèn)為評(píng)分嚴(yán)格度在-2～+2之間是可接受的范圍。

表1 評(píng)分者寬嚴(yán)度Facets估計(jì)

表1顯示，4位評(píng)分員的評(píng)分嚴(yán)格度都在可接受范圍。其中評(píng)分者D的logit值為-0.39，是最寬松的評(píng)分者，評(píng)分者B的logit值為0.88，是最嚴(yán)格的評(píng)分者。評(píng)分者B和D之間的差異為1.27個(gè)logits。第五列為內(nèi)適合度均方，反映評(píng)分員評(píng)分行為自身一致性的信息。通常Rasch模型容許評(píng)分者的一致性在一定范圍內(nèi)波動(dòng)，但是某個(gè)評(píng)分者如果波動(dòng)的幅度過(guò)大，則說(shuō)明該評(píng)分者評(píng)分穩(wěn)定性差，缺乏一致性。通常專家們認(rèn)為在0.8～1.2之間是可接受的（Davies〔12〕等）。Fit（適合度）值小于0.8或者大于1.2都表示該評(píng)分者在評(píng)分過(guò)程中沒(méi)有能夠正確地使用評(píng)分標(biāo)準(zhǔn)，缺乏自身一致性。從表1中看出，評(píng)分員A的Fit值小于0.8，則表明該評(píng)分員在評(píng)分過(guò)程中小于模型預(yù)期的變化幅度。也就是說(shuō)該評(píng)分者在評(píng)分過(guò)程中使用了安全策略，自身表現(xiàn)出過(guò)度的一致性，未能對(duì)考生作出很好的區(qū)別和區(qū)分；而評(píng)分員C的Fit值為1.44，說(shuō)明該評(píng)分員評(píng)分的變異性大于模型預(yù)期的變異程度。表明該評(píng)分員在評(píng)分過(guò)程中變異過(guò)大，自身缺乏一致性。因此，評(píng)分員A和C都缺乏自身一致性；而評(píng)分員B和D的Fit值處在0.8～1.2之間，其自身一致性較好。第六列為標(biāo)準(zhǔn)差（Standard Error），是評(píng)分者寬嚴(yán)度估計(jì)值的標(biāo)準(zhǔn)差，0.10表明了該估計(jì)值的精確程度。

（二）評(píng)分偏差

表2列出了4位評(píng)分者的評(píng)分與考生實(shí)際口語(yǔ)能力之間的偏差。由于篇幅所限，在此只列出前五位和最后五位。

表2 偏差分析

表2中第三列為模型對(duì)考生能力的預(yù)估，第四列是考生的所得分?jǐn)?shù)，第五列是模型經(jīng)過(guò)分析后得出的考生應(yīng)得的分?jǐn)?shù)，第六列為均值，第七列是偏差值，第八列是誤差，最后一列是顯示偏差度的Z分?jǐn)?shù)。偏差度的可接受范圍是-2～+2，大于+2表示該評(píng)分員評(píng)分時(shí)過(guò)于嚴(yán)格，比如評(píng)分員A在評(píng)價(jià)五號(hào)受試時(shí)，偏差度的Z分?jǐn)?shù)為2.07，表明該評(píng)分偏差較大，屬無(wú)效評(píng)分。除此以外，其他的評(píng)分都是在統(tǒng)計(jì)上有意義的分?jǐn)?shù)。從表2中可以看出，前五位考生的期望值均大于觀察值，說(shuō)明這5位考生的實(shí)際能力均高于他們的實(shí)際得分，即評(píng)分員評(píng)分過(guò)于嚴(yán)格。而后五位的期望值均低于觀察值，評(píng)分員過(guò)于寬松。以19號(hào)考生為例，模型對(duì)該考生的能力評(píng)估為0.32，而實(shí)際分?jǐn)?shù)為3分，這一分?jǐn)?shù)比模型對(duì)該考生預(yù)期的分?jǐn)?shù)2.7高，這表明評(píng)分員D在評(píng)分時(shí)有些寬松，存在偏差。

總之，評(píng)分員的性格特征會(huì)對(duì)評(píng)分過(guò)程產(chǎn)生影響，通常內(nèi)向的比外向的評(píng)分員更嚴(yán)格，而在評(píng)分一致性上，內(nèi)、外向的評(píng)分員并沒(méi)有表現(xiàn)出明顯的差別。

五、結(jié)語(yǔ)

本研究在配對(duì)口語(yǔ)評(píng)分中引入多面Rasch模型，分析了內(nèi)向和外向評(píng)分員在評(píng)分過(guò)程中的評(píng)分偏差、寬嚴(yán)度及一致性問(wèn)題，為以后口語(yǔ)測(cè)試中評(píng)分員的培訓(xùn)提供借鑒和依據(jù)，進(jìn)而為傾向于犯不同類型的評(píng)分者偏差的評(píng)分員提供有針對(duì)性的培訓(xùn)和反饋。不過(guò)這個(gè)問(wèn)題還需要從評(píng)分員評(píng)分過(guò)程中的認(rèn)知方面作進(jìn)一步探討，詳細(xì)地了解評(píng)分員在口語(yǔ)評(píng)分過(guò)程中關(guān)注的那些具體評(píng)分標(biāo)準(zhǔn)以及一些非評(píng)分標(biāo)準(zhǔn)相關(guān)的信息。因此，以后研究中可以采用有聲思維等方法從信息處理的方面繼續(xù)深入研究。

〔1〕Berry V.A study of the interaction between individual personality differences and oral performance test facets〔J〕. Unpublished doctoral dissertation，2004（1）：25.

〔2〕Ockey G J.Is the oral interview superior to the group oral?〔J〕Working Papers on Language Acquisition and Education，2009，17：165-167.

〔3〕Iwashita N.The validity of the paired interview in oral performance assessment〔J〕.Melbourne Papers in Language Testing，1998（5）：51-65.

〔4〕Orr M.The FCE Speaking test：using rater reports to help interpret test scores〔J〕.System，2002（30）：143-154.

〔5〕May L.Assessment of oral proficiency in EAP programs：A case forpairinteraction〔J〕.Language and Communication Review，2009（9）：13-19.

〔6〕文秋芳.英語(yǔ)口語(yǔ)測(cè)試與教學(xué)〔M〕.上海：上海外語(yǔ)教育出版社，2000.

〔7〕盛越，管博.配對(duì)形式在口語(yǔ)考試中的作用：從劍橋第一證書(shū)口試看配對(duì)形式的作用〔J〕.蘭州鐵道學(xué)院學(xué)報(bào)：社會(huì)科學(xué)版，2000，19（5）：130-131.

〔8〕鄒申.試論口語(yǔ)測(cè)試的真實(shí)性〔J〕.外語(yǔ)界，2001（3）：74-78.

〔9〕熊敦禮，陳玉紅，劉澤華，等.大學(xué)英語(yǔ)大規(guī)模錄音口語(yǔ)測(cè)試研究〔J〕.外語(yǔ)教學(xué)與研究，2002，34（4）：283-287.

〔10〕Skehan P.A cognitive approach to language learning〔M〕.Oxford：Oxford University Press，1998：172.

〔11〕Linacre J M.A User's Guide to FACETS：Rasch-Model Computer Program〔M〕.Chicago：MESA Press，2005：59-61.

〔12〕Davies.Dictionary of Language Testing〔M〕.Cambridge：Cambridge University Press，1999.

（責(zé)任編輯黨紅梅）

Influence of Rater Orientation on Rating in Paired Oral Test

SHI Tianhua
（Department of Foreign Languages,Fujian University of Technology,Fuzhou 350108,China）

Many-Facet Rasch Model（MFRM）was adopted to investigate whether rater personality types had observable effect on the severity and internal self-consistency of rating.Four experienced raters and 10 paired candidates were selected and evaluation data were analyzed by SPSS and MFRM.The results showed that raters with different personality types had rated differently: introverted raters were more severe than extroverted ones;and in terms of the self-consistency in rating,there were no significant difference between them.

Many-Facet Rasch Model;paired oral scoring;rating bias

G642.475

1672-2345（2012）02-0040-04

2010年福建工程學(xué)院教育科學(xué)規(guī)劃課題（GB-K-10-18）

2011-12-10

史天化，講師，主要從事語(yǔ)言測(cè)試和二語(yǔ)習(xí)得研究.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

大學(xué)英語(yǔ)配對(duì)口語(yǔ)測(cè)試中評(píng)分員傾向?qū)υu(píng)分行為的影響

一、相關(guān)研究

二、研究問(wèn)題

三、研究設(shè)計(jì)

四、結(jié)果和討論

五、結(jié)語(yǔ)

一、相關(guān)研究

二、研究問(wèn)題

四、結(jié)果和討論

五、結(jié)語(yǔ)