大學(xué)英語口語測試中評分員效度研究

2016-11-07 11:16:42王顯濤

文教資料 2016年19期

關(guān)鍵詞：一致性

王顯濤

摘 ? ?要：在大學(xué)英語配對口語測試過程當(dāng)中，有關(guān)評分寬嚴(yán)度與一致性常會受到多面Rasch模型（MFRM）的影響，發(fā)揮出一定作用。本次研究通過SPSS與MFRM分析的方法，將10對考生作為研究對象，依靠4名經(jīng)驗評分員對口試加以有效評價。結(jié)果顯示，具有各異性格特點的評分員對寬嚴(yán)度方面的評價是不同的，相較于外向型評分員，內(nèi)向型更加嚴(yán)格;表現(xiàn)在一致性方面的差異卻微乎其微。

關(guān)鍵詞：多面Rasch模型 ? ?評分員效度 ? ?寬嚴(yán)度 ? ?一致性

作為口試中的重要目標(biāo)，口語評分是其中主要的測試環(huán)節(jié)。在我國現(xiàn)有外語考試當(dāng)中，口語方面的測驗必不可少，旨在對學(xué)生的口語表達(dá)水平加以檢驗。在這過程當(dāng)中，在評分的信度、合理性、公平性方面的問題可謂教學(xué)研究的焦點和關(guān)鍵。以當(dāng)前情況來看，一般超過3人的小組形式測試最為常見，而專門的雙人配對口語測試卻十分稀少，并將個性因素作為影響評分方面的探究重點。本文基于我國高校英語課程公共必修的屬性特征，與新建應(yīng)用型本科院校特征緊密聯(lián)系，以實證方式研究在雙人配對的口語測試中，評分員表現(xiàn)出的傾向行為。

1.研究英語口語測試當(dāng)中評分員效度的重要價值意義

充分利用《大學(xué)英語課程教學(xué)要求（試行）》中的規(guī)定，在學(xué)生口語能力訓(xùn)練方面有如下規(guī)定，包括語音和語調(diào)、表達(dá)連續(xù)性、溝通交流技能等幾點。在借鑒和利用以往實踐研究經(jīng)驗和環(huán)境條件的基礎(chǔ)上，能夠?qū)崿F(xiàn)的任務(wù)內(nèi)容涵蓋了：①短文的朗誦、②情節(jié)的復(fù)述、③依圖講話、④結(jié)合視頻短片的要求、⑤即興演講、⑥溝通交流、⑦分組探討。

顯然，①②顯示出較弱的交際特征，以考查學(xué)生語音語調(diào)為目的;而③④⑤目標(biāo)的交際性特征也不顯著，著重對學(xué)生連續(xù)性表達(dá)技能加以考察;最后兩個則顯示出很強(qiáng)的交際性特征，依照準(zhǔn)備的情節(jié)與內(nèi)容進(jìn)行表達(dá)和反應(yīng)。所以，本次研究測試可以將這三個方面劃分成三類：依次為A、B、C，便于比較不同目標(biāo)下的測試效度差異情況，從而找到能夠?qū)W(xué)生語音語調(diào)、表達(dá)連續(xù)性、溝通交流技能均予以檢驗的口語測試任務(wù)設(shè)定，并予以推廣。

1.1研究價值意義

作為一類主觀性評分，口語評分旨在引導(dǎo)學(xué)生按照一定指標(biāo)要求完成相應(yīng)任務(wù)，將其中表現(xiàn)全部顯示出來，了解具有的分析、判斷及表達(dá)能力，隨后依靠評分員實施綜合分?jǐn)?shù)評價。在此過程中，參與評分人員具有的個人特點非常重要，比如：經(jīng)驗情況、文化水平、情緒態(tài)度及疲勞狀況等因素，在評分信度、效度當(dāng)中均會有所干擾[1]，由此造成測試中產(chǎn)生評分偏差。學(xué)者Skehan指出，造成配對口語評分產(chǎn)生偏差的原因主要為多重因素互相影響造成，其中涵蓋任務(wù)目標(biāo)特征、考生、評分員各自間及評分要求的差異影響。

回顧以往二十多年，來自國外的Iwashita，Orr，Lyn May等專家都對配對模式各異、外語水平、性格差異及學(xué)生愛好、語言類型等方面給口語造成的影響情況加以研究，而我國則起步較晚，主要包括目前大學(xué)英語四、六級考試、英語專業(yè)四、八級考試等，并沒有將口語測試納入其中。直到1994年的英語專業(yè)四級考試中，口語錄音測試首次執(zhí)行（文秋芳），1999年，大學(xué)英語的四、六級考試內(nèi)容中包含口語測試[2]?？v觀口語測試的研究范圍，以國外相關(guān)研究啟示與我國口語測驗實踐為主，其中存在形式測驗、（盛越，管博），基于真實性的口試（鄒申）、大學(xué)英語口試測驗（熊敦禮等）及英語專業(yè)的四級考試效度研究等。（文秋芳）

1.2概念辨析

1.2.1表面效度

表面效度在指從測試的表面來看的可信度，不過在實際應(yīng)用中具有較大的爭議，有一部專家學(xué)者認(rèn)為表面效度并沒有實際意義，而且在測試衡量上并不科學(xué)，和測試效果沒有直接聯(lián)系。也有部分專家學(xué)者認(rèn)為，表面效度是測試的基礎(chǔ)，只有從表面測試為有效之后，才能進(jìn)行下一步測試，發(fā)揮出更好的水平，從測試角度做出更為合適的反應(yīng)。如果被測試人員面對測試態(tài)度不端正，那么這一態(tài)度勢必會影響其在測試中的發(fā)揮，并且對測試結(jié)果造成不必要的干擾。這一問題需要將被測試人員的感受作為衡量標(biāo)準(zhǔn)，明確他們對測試的態(tài)度和反應(yīng)，這樣才能取得最為合理的表面效度數(shù)據(jù)資料。

1.2.2結(jié)構(gòu)效度

結(jié)構(gòu)效度是衡量被測試人員在表現(xiàn)上的特征和素質(zhì)上的體現(xiàn)，是測試的內(nèi)部關(guān)聯(lián)性的一種重要的衡量方式。具體來說，測試的內(nèi)部關(guān)聯(lián)性是指在測試過程中，其中各個組成成分之間相互關(guān)聯(lián)，組成了不同的組成結(jié)構(gòu)，并且形成了不同的素質(zhì)體現(xiàn)，這些不同的素質(zhì)體現(xiàn)在一定程度上會影響受測試人員的語言能力。如果結(jié)構(gòu)的各個組成部分的相關(guān)系數(shù)較低，那么證明測試項目可行，能準(zhǔn)確衡量受測試者的技能水平，而如果相關(guān)系數(shù)較高，那么可以認(rèn)為這兩個測試項目在實質(zhì)上是同樣的測試項目，并不用區(qū)分考慮，那么測試的時候可以選擇去掉其中一個測試項目，留下一個測試項目保證測試的準(zhǔn)確性、合理性和科學(xué)性[3]。

1.2.3并存效度

并存效度屬于測試的外部效度，可以通過某個測試項目的規(guī)律總結(jié)分析其效度，如對固定測試分?jǐn)?shù)和同類型的受測試者在同一時間所做出的其他結(jié)果進(jìn)行衡量，這也是可以體現(xiàn)不同的測試樣本和版本的比較過程[4]。另一種測試方式是受測試者對自身語言能力進(jìn)行自我評價，然后教師對受測試者的相關(guān)能力進(jìn)行評價，兩個評價結(jié)果進(jìn)行對比，保證其并存效度的相關(guān)系數(shù)在0.5到0.7之間。

2.大學(xué)英語口語測試中評分員效度實驗分析

2.1測試對象

本文提出的大學(xué)英語口語測試中評分員效度實驗選擇了經(jīng)管學(xué)院一年級的學(xué)生，學(xué)生平均年齡為20歲，共20名，從花名冊中隨機(jī)挑選出來。

測試任務(wù)主要是經(jīng)管學(xué)院英語期末考試的口語部分。

受測試學(xué)生共分為十組，每組成員都從15個備選題目中抽選測試試題，經(jīng)過三分鐘的準(zhǔn)備時間按照順序在3～5分鐘之內(nèi)完成口語對話，學(xué)生的測試口語由計算機(jī)識別錄音保存，全部十組學(xué)生的錄音作為音頻文件保存[5]。

2.2評分

本次大學(xué)英語口語測試中評分員效度實驗測試選擇的評分人員是四位有著豐富的口語評分經(jīng)驗的大學(xué)英語專業(yè)教師，并且具有副教授級職稱。在四位評分教師評分之前對其進(jìn)行性格測試，保證性格的取向偏內(nèi)向和偏外向的各兩名。

評分標(biāo)準(zhǔn)是受測試人員的口語表達(dá)準(zhǔn)確性，包括詞匯的運用、語言的連貫性、語言的實用性、語言的靈活性和兩人之間的交流狀況，對十組受測試人員進(jìn)行評分。

3.大學(xué)英語口語測試中評分員效度研究結(jié)果

本次實驗采用SPSS和Rasch模型（Linacre）對評分結(jié)果進(jìn)行分析，Rasch模型是由丹麥數(shù)學(xué)家Rasch提出的數(shù)據(jù)處理模型，主要是分析受測試人員的能力和項目的難易程度之間的雙層模型，在數(shù)據(jù)統(tǒng)計和參數(shù)估計上優(yōu)勢明顯，并且在數(shù)據(jù)處理上極為簡單，得到了較為廣泛的應(yīng)用。多面Rasch模型可以獨立分析評分人員的性格導(dǎo)致的寬嚴(yán)度，并且和受測試人員的能力和項目的難易程度相結(jié)合，對其中誤差加以校正，尤其主觀印象對評分結(jié)果的影響，有效地消除誤差，減少評分結(jié)果的不合理之處，提高評分結(jié)果的準(zhǔn)確度和可信度。本次實驗的數(shù)據(jù)處理模型上都有獨立的參數(shù)設(shè)定，以logits（洛基量尺）作為衡量單位[6]。本次研究主要是采取Rasch模型，準(zhǔn)確分析在分組口語測試中，評分人員性格特點對評分過程寬嚴(yán)度的影響，找出一致性，找出影響評分人員評分偏差的因素。一般來說，評分的寬嚴(yán)度在-2～+2之間屬于正常誤差，不會影響結(jié)果的準(zhǔn)確性。Rasch模型評分人員寬嚴(yán)度估計見表1。

表1 ?Rasch模型評分人員寬嚴(yán)度估計表

3.1評分員寬嚴(yán)度分析

從表1可以看出，本次實驗選擇的四位評分人員是評分寬嚴(yán)度都在誤差可以接收的范圍內(nèi)，可以證明本次實驗評分結(jié)果的準(zhǔn)確性[7]。系統(tǒng)分析四個評分人員的寬嚴(yán)度可以看出，評分人員D的寬嚴(yán)度數(shù)值為-0.39，屬于四位評分者中最為寬松的評分人員，而評分者B是寬嚴(yán)度數(shù)值為0.88，是四位評分者中最為嚴(yán)厲的評分人員，評分員B和評分員D之間相差了1.27洛基量尺，從第五列的內(nèi)適合度均方來看，評分員的評分寬嚴(yán)度和自身的特點相一致。一般來說，Rasch模型允許評分者的一致性在一定范圍內(nèi)上下浮動，但是如果某個評分者的上下浮動幅度過大，那么說明該名評分者評分的穩(wěn)定性較差，缺乏一致性，一般來說浮動范圍是在0.8～1.2之間[8]。適合度小于0.8或者適合度大于1.2的評分者可以認(rèn)為在評分過程中受到主觀印象和性格的影響較大，并不穩(wěn)定，沒有按照評分標(biāo)準(zhǔn)完成評分過程，缺乏一致性。從表1可以看出，評分員A的適合度值小于0.8，說明評分者A在評分過程中采取的測量的安全策略，變化幅度過小，一致性過高，并沒有根據(jù)受測試人員的表現(xiàn)進(jìn)行合理的區(qū)別和區(qū)分;而評分員C的適合度值為1.44，說明評分員C在評分時受到自身性格和主觀的影響較大，自身缺乏一致性，評分標(biāo)準(zhǔn)并不穩(wěn)定，可以說評分員A和評分員C在評分過程中都缺乏一致性，而評分員B和評分員D的適合度都在0.8～1.2的范圍之內(nèi)，一致性較好。最后一列是標(biāo)準(zhǔn)差，是評分者寬嚴(yán)度估計值的標(biāo)準(zhǔn)差，都為0.10，表現(xiàn)了這一寬嚴(yán)度估計值的準(zhǔn)確。

3.2評分偏差

表2主要體現(xiàn)了四位評分人員對受測試人員口語能力測試的評分和學(xué)生實際口語能力之間的偏差，為了觀察和研究方便，本文只選擇前五名和后五名進(jìn)行研究。

表2 ?偏差分析表

從表2來看，第三列為受測人員的口語能力，第四列為受測試人員實際得到的分?jǐn)?shù)，第五列是根據(jù)系統(tǒng)模型分析得出受測試人員的應(yīng)得分?jǐn)?shù)，第六列是均值，第七列是偏差值，第八列是誤差值，最后一列是偏差度的Z分?jǐn)?shù)。上文提到過偏差度的合理范圍是-2～+2，如果偏差度大于+2，則說明評分員在評分過程中過于嚴(yán)格，如評分員A在評論受試者5號的時候，偏差度為2.07，大于2，證明這次評分過于嚴(yán)格，偏差過大，本次評分不合理，不能作為最終評價結(jié)果。除了這一結(jié)果之外，所有評價結(jié)果都屬于有效評價，具有一定的統(tǒng)計學(xué)意義。另外，從表2中可以看出，前五位受試者是期望值大于實際得分值，也就是說這五名受測試人員的實際口語能力大于他們獲得的評分，評分員對他們的評分過于嚴(yán)格，導(dǎo)致評分偏低[9]。而后五名受測試人員的期望值低于評分值，說明這五名受測試人員的實際口語能力不夠他們獲得的評分，評分員對他們的評價過于寬松，存在一定的偏差?？傊?，通過這一分析可以看出，評分員的性格特征會對評分結(jié)果造成影響，而內(nèi)向性格的評分員嚴(yán)格程度要高于外向性格的評分員，在評分一致性上，內(nèi)向性格和外向性格對評分結(jié)果沒有明顯的差別影響。

4.總結(jié)

國家教育部最新《課程要求》針對非英語專業(yè)大學(xué)生的外語素質(zhì)訓(xùn)練宗旨更為明確和系統(tǒng)，以聽說技能為培養(yǎng)重點，其中提到“大學(xué)英語的教學(xué)目的是培養(yǎng)學(xué)生英語綜合應(yīng)用能力，進(jìn)而幫助其更好地適應(yīng)與應(yīng)對未來的工作任務(wù)，可以熟練地使用英語予以口頭及書面溝通[10]”。強(qiáng)調(diào)教學(xué)過程中準(zhǔn)確評估的作用價值所在，不僅要認(rèn)真執(zhí)行終結(jié)性的評估模式，還要注重對學(xué)生實踐能力的考察、指導(dǎo)與評測，使其具備高水平的口語及書面表述技能[11]。為了對學(xué)生學(xué)習(xí)成效加以檢測，推行大學(xué)英語口語測試不失為一種好方法，當(dāng)可以在考試中保證一定的科學(xué)嚴(yán)謹(jǐn)性，以合理的考察方式，嚴(yán)格的考場紀(jì)律的時候，最終形成的考試結(jié)果便可以對學(xué)生知識掌握程度做出真實反映，進(jìn)而提高學(xué)生的實踐能力，讓其可以從中清晰地了解到學(xué)習(xí)內(nèi)容的重點，幫助校方老師及時對學(xué)生的情況加以掌握，方便有針對性地對教學(xué)內(nèi)容和方案進(jìn)行優(yōu)化調(diào)整。顯然，推進(jìn)大學(xué)生的英語口語測試，不但是在落實教育部《課程要求》，完成對大學(xué)生英語口語能力的提升任務(wù)，而且有助于學(xué)生及時糾正錯誤的學(xué)習(xí)方法。然而鑒于大學(xué)英語口語測試開展過程中存在諸多困難[12]，比如：涉及范圍廣泛、執(zhí)行復(fù)雜、耗時多等弊端，因而想要達(dá)成設(shè)計合理、樹立一定的規(guī)范性、確保結(jié)果的準(zhǔn)確性等方面是非常困難的。本次研究以具體的大學(xué)英語口語測試案例為研究對象，加以分析，參照考察后的結(jié)果，做出多維判斷，權(quán)衡利弊，完成有關(guān)展望和設(shè)想，以便提供給相關(guān)部門及人員更多的指導(dǎo)和幫助。

在本次針對配對口語評分的研究當(dāng)中，有效引入多面Rasch模型，分別對內(nèi)外向型評分員處于評分當(dāng)中的表現(xiàn)加以分析，包括評分偏差、寬嚴(yán)度和一致性等，進(jìn)而提供給后續(xù)研究和實踐更多的啟示，尤其對于那些具有不同評分偏差評分員來說，可以起到良好的反饋與訓(xùn)練作用。當(dāng)然，評分員自身的認(rèn)知程度研究不容忽視，評分員應(yīng)對參考的那些評分規(guī)定和其他無關(guān)信息進(jìn)行細(xì)致的分析，這樣便能夠運用有聲思維方式對信息方面的問題加以合理處置，以便進(jìn)一步探究完善。

參考文獻(xiàn)：

[1]徐坤銀.計算機(jī)輔助口語測試的真實性分析[J].科技信息，2010（11）：18-19.

[2]閻艷琳.口語測試研究綜述[J].山西煤炭管理干部學(xué)院學(xué)報，2009，26（4）：58-59.

[3]景恒偉，馬麗玲.英語口語測試任務(wù)與類型及其對測試表現(xiàn)影響的研究述評[J].甘肅高師學(xué)報，2015，20（1）：45-49.

[4]周小琴，李欣.任務(wù)型口語測試與大學(xué)英語口語教學(xué)改革[J].吉林省教育學(xué)院學(xué)報，2010（02）.

[5]薛榮.論交際口語測試及其評分方法[J].外語教學(xué).2009，30（6）.

[6]沈淼.口語測試及評價[J].科技信息，2008（15）.

[7]丁愛云.形成性口語評價——激發(fā)學(xué)生學(xué)習(xí)熱情的口語測試新模式[J].天津工程師范學(xué)院學(xué)報，2007，17（2）：

70-74.

[8]高見.論影響口語測試的相關(guān)重要因素[J].科技信息（科學(xué)教研），2007（22）：215-215，224.

[9]張云梯.基于計算機(jī)的口語考試中的一些問題的分析及改進(jìn)方案[D].中國科學(xué)技術(shù)大學(xué)，2008.

[10]寧見紅.大學(xué)英語期末面試口試與機(jī)助口試的對比研究[D].廣西師范大學(xué)，2009.

[11]王麗.基于《英語課程標(biāo)準(zhǔn)》的計算機(jī)輔助高考英語口語測試的研究[D].華中師范大學(xué)，2011.

[12]周欣.計算機(jī)化高考英語口語測試中整體性和分析性評分方法的對比研究[D].廣東外語外貿(mào)大學(xué)，2008.

基金項目：江西省高校人文社會科學(xué)研究項目（22321

074）