田文燕
(五邑大學(xué) 外國語學(xué)院,廣東 江門 529020)
評估語言測試的主要標(biāo)準(zhǔn)有:信度( reliability)、效度( validity)和可行性(包括難易度、區(qū)分度、可操作性、可重復(fù)性、有益的反撥性、分?jǐn)?shù)的可解釋性、經(jīng)濟(jì)上的可承受性等),其中信度與效度是極其重要的兩個標(biāo)準(zhǔn)。一個測試如果失去信度與效度,其他標(biāo)準(zhǔn)便無從談起。信度概念是從普通計量學(xué)引入語言測試的,稱測試的可靠性或一致性(consistency)。筆者選取2001—2011年國內(nèi)10種語言類CSSCI期刊《外語教學(xué)與研究》、《外國語》、《外語與外語教學(xué)》、《外語界》、《現(xiàn)代外語》、《外語教學(xué)》、《解放軍外國語學(xué)院學(xué)報》、《外語學(xué)刊》、《外語研究》、《中國外語》,其中有關(guān)信度和效度研究方面的文章共計36篇。從總體上看,其研究的數(shù)量呈上升趨勢(見圖1)。
圖1 2001—2011年國內(nèi)10種語言類CSSCI期刊有關(guān)信度和效度研究論文數(shù)量圖
筆者依據(jù)該領(lǐng)域研究的具體內(nèi)容,將該36篇文章分為3大類:語言測試效度研究的文章有22篇,占總數(shù)的61%;信度研究的文章僅有6篇,占總數(shù)的17%;信、效度均涉及的文章有8篇,占總數(shù)的22%。
36篇文章中, 對口語測試(機(jī)考口試)信度及效度研究是最受關(guān)注的??谡Z測試作為一種產(chǎn)出性試題, 能夠?qū)忌恼Z言能力進(jìn)行直接的測試,如果設(shè)計合理, 能對教學(xué)起到很好的反撥作用。但是用于大規(guī)模的考試時, 很難保證評分的一致性和準(zhǔn)確性。因此, 長期以來, 口語測試常被排斥于大規(guī)模語言測試之外。隨著社會的發(fā)展, 對英語口語能力的要求以及對此能力進(jìn)行有效的測量的要求也越來越高,有更多專家如:金艷、郭杰克、蔡基剛、龐繼賢、陳嬋、黃永紅、呂長竑、王海貞、鮑曉英、文秋芳等對其信、效度進(jìn)行了研究。在語言測試的主觀測試題的效度與信度的研究越來越受到重視的同時,其客觀測試常用題型的效度研究也受到學(xué)者的關(guān)注,如何勇斌對聽力測試的研究[1]、徐清平和張延續(xù)的“語法與詞匯” (Grammar and Vocabulary) 的研究[2]、郭麗的完型填空的研究[3]、鄒申、楊衛(wèi)健對閱讀理解的研究[4-5]等。隨著計算機(jī)和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,語言測試的介質(zhì)(medium)也在逐漸發(fā)生變化,出現(xiàn)了由基于計算機(jī)的語言測試(CBLT)取代傳統(tǒng)的基于紙筆的語言測試(PBLT)的趨勢,對計算機(jī)化語言測試的信、效度的研究隨之引起研究者的關(guān)注。
綜上,近十幾年來有關(guān)語言測試效度的研究頗豐,但也存在一些不足:1.對該領(lǐng)域研究內(nèi)容不夠均衡??谡Z測試由于受到主觀評分的影響,其信度較低,從而影響了效度。因此,口語測試的信度、效度受到了語言測試專家們的極大關(guān)注,有關(guān)該測試信度、效度研究的文章也是最多的,占了近三分之一。但筆者認(rèn)為,我們同樣不能忽略對其他測試部分信度、效度的研究,只有各個部分的信度、效度提高了,測試的整體信度、效度才會提高。2.對目前所關(guān)注的形成性評價以及教師自行設(shè)計的期末測試的信度、效度研究重視不足,所統(tǒng)計的文章中只有2篇。形成性評價以及教師自行編制的期末試題對教學(xué)會產(chǎn)生直接的反撥作用,因此,應(yīng)更多關(guān)注形成性評價以及教師自行設(shè)計的期末測試的信度、效度研究。3.從所發(fā)表的文章來看,對測試信度的研究明顯偏少,只有6篇。其中一篇是對信度計算模式的探討,另5篇均是從評分員角度對測試的信度的研究。筆者認(rèn)為,對于大規(guī)模、高風(fēng)險測試有必要進(jìn)行試題的信度研究,以保證測試的公平性。
信度研究的種類大致有二:一是試題的信度(test reliability)研究;二是評分員信度(scorer or rater reliability)研究。目前,國內(nèi)的語言測試信度研究基本上是從評分員角度所進(jìn)行的,研究發(fā)現(xiàn):考官的嚴(yán)厲度、任務(wù)難度、評分標(biāo)準(zhǔn)和量表等因素都可能產(chǎn)生一定的測量誤差,從而導(dǎo)致考生的成績差異[6-10]。筆者擬從受試角度研究TEM4試題所導(dǎo)致的受試成績的差異。
本研究試圖回答以下問題:1.2006-2011年6年的TEM-4試題是否存在一致性和穩(wěn)定性?2.6年的TEM-4試卷主觀題部分和客觀題部分是否存在一致性?3.2006-2010年5年的TEM-4的學(xué)生成績與2011年TEM-4學(xué)生成績是否存在一致性和穩(wěn)定性?
1. 研究材料:2006-2011年連續(xù)6年的TEM-4的試題。本考試除寫作及短文聽寫部分為主觀試題外,其余都采取多項選擇題形式。
2.研究對象:從某校英語專業(yè)09級(二年級) 97名學(xué)生當(dāng)中抽取一個自然班(24名學(xué)生)作為樣本。該校新生分班時考慮到多種因素,如:性別、地域、高考總分及英語單科成績等因素,因此,選擇一個自然班作為研究對象可排除樣本的不均衡因素。選擇二年級學(xué)生為研究對象,主要考慮的是他們自身的特點:二年級學(xué)生即將參加全國英語專業(yè)四級考試,對他們多次進(jìn)行四級模擬考試,從心理上他們不會有抵觸和反感;相反,在考試中他們會積極作答,以檢驗自己的水平,積累自己的考場經(jīng)驗。因此,在這一層次上抽樣,具有十分重要的意義。
2011年英語專業(yè)四級考試是在4月16日進(jìn)行。模擬考試具體考試時間為每周周二(3月1日、3月15日、3月22日、3月29日、4月5日)下午2:30 — 4:45,共135分鐘。學(xué)生答題過程完全按照英語專業(yè)四級正式考試步驟進(jìn)行:每位學(xué)生都發(fā)有答題卡,考場放音設(shè)備均提前進(jìn)行檢查,短文聽寫及聽力部分學(xué)生戴耳機(jī)進(jìn)行??荚嚽案嬖V學(xué)生這五次模擬考試成績會計入平時成績,要求學(xué)生認(rèn)真作答。為了提高測試的信度,考前并未告訴學(xué)生所用的是四級真題,而且所用的試題年份也都進(jìn)行刻意調(diào)整,所采用的順序是:2007年試題(3月1日)、2006年試題(3月15日)、2009年試題(3月22日)、2008年試題(3月29日)、2010年試題(4月5日)。同時,為讓學(xué)生考有所獲,對考過的每套試題在同一周周五早上進(jìn)行統(tǒng)一講評。
試卷回收后,客觀題部分用閱卷機(jī)統(tǒng)一批閱。為了降低評分偏差對測試信度的影響,主觀題部分(短文聽寫和寫作部分)由各個自然班基礎(chǔ)英語課任課教師批閱,閱卷前閱卷教師認(rèn)真學(xué)習(xí)專業(yè)英語四級短文聽寫和寫作部分的評分標(biāo)準(zhǔn)。具體收集數(shù)據(jù)見表1和表2,其中表2中24名學(xué)生2011年TEM4的成績來源于TEM4考試中心。
表1 24名學(xué)生2006—2010年TEM4 主觀題成績
表2 24名學(xué)生2006—2010年TEM4 客觀題成績、總分及2011年TEM4成績
為了考察這六年的TEM4試題是否存在一致性和穩(wěn)定性,筆者運用SAS(Statistic Analysis System)統(tǒng)計分析軟件,對24名學(xué)生2006—2011年的總成績進(jìn)行了統(tǒng)計分析,結(jié)果如圖2和表3所示。
圖2 2006—2011年TEM4學(xué)生成績顯示圖
表3 24名學(xué)生2006年—2011年TEM4成績名次表
從圖2中可以看出,6條曲線的波動是一致的,這說明學(xué)生6次整體成績表現(xiàn)出了一致性和穩(wěn)定性。從表3的統(tǒng)計結(jié)果上也可以看出,S1、S2、S13、S21、S22這幾名學(xué)生的幾次考試成績均居前列,S4、S7、S14、S19、S20這幾名學(xué)生的歷次成績名次幾乎沒有太大的波動;24名學(xué)生2006—2010年的幾次模擬考成績與2011年的TEM4成績基本上是一致的,幾次成績具也有極強(qiáng)的相關(guān)性。從以上分析可以看出,2006—2011年TEM4的試題具有較高的信度。
從圖2上看,6條曲線雖然波動一致,但最高的一條曲線與最低的一條曲線卻有較大的差距。從語言學(xué)習(xí)的理論和實踐上看,在一個多月的時間內(nèi)學(xué)生的成績不可能有大幅度的波動,因此,筆者做了如下統(tǒng)計:
表4 2006年-2011年24名學(xué)生成績難度值、集中量數(shù)、離散量數(shù)統(tǒng)計表
從表4可看出,學(xué)生在一個多月內(nèi)TEM4的成績由2006年的平均分56.6到2011年的66.2,有接近10分的提升。從數(shù)據(jù)分析上有以下原因:1.2006年及2010年主觀題短文聽寫難度較大,其中2006年難度值為0.40,2010年難度值為0.49,這是造成2006年、2010年短文聽寫平均分過低的主要原因;2.從離散量數(shù)全距上看,2006年全距為27,2010年為30,全距過大也是2006年及2010年平均分較低的原因之一;3.從統(tǒng)計的標(biāo)準(zhǔn)差來看,2006年標(biāo)準(zhǔn)差為6.0729,它的離散程度也較大。綜上分析,2006年、2009年試題總體較難。為了避免抽取樣本過小,筆者調(diào)取該校歷年TEM4過關(guān)率的數(shù)據(jù),其中2006年為85.71%、2007年為97.85%、2008年為96.92%、2009年為84.38%、2010年為92.08%、2011年為81.63%。全國高校TEM4過關(guān)率的統(tǒng)計為:2006年為55.42%、2007年為59.07%、2008年為61.83%、2009年為58.62、2010年為56.01、2011年為53.63。無論是該校還是從全國的TEM4過關(guān)率的統(tǒng)計數(shù)據(jù),都與筆者對試題難易度分析結(jié)果相吻合。
通過從受試角度對2006—2011年TEM4試題以及對所采集的數(shù)據(jù)分析、研究,本文對擬解決的三個問題做出以下解答:
1.2006-2011年6年的TEM-4試題是否存在一致性和穩(wěn)定性? 研究表明,2006—2011年試題從整體上看具有一致性和穩(wěn)定性。從圖2和表3看,24名學(xué)生的成績出現(xiàn)高度一致,尤其是S1、S2、S13、S21、S22這幾名學(xué)生的幾次考試成績均居前列,S4、S7、S14、S19、S20這幾名學(xué)生的歷次成績名次幾乎沒有太大的波動,因此,可以說2006—2011年TEM試題具有較高信度。
2.2006-2011年6年的TEM-4試卷主觀題部分和客觀題部分是否存在一致性?從表4看,2006年、2010年的短文聽寫部分的難度明顯高于其他年份,難度值分別為0.40、0.49,這是造成這2年短文聽寫平均分過低的主要原因;與其他年份相比,2006年寫作部分也較難,難度值為0.66。因此,從某種程度上說,TEM4主觀題部分的難度缺少穩(wěn)定性和一致性。而2006—2011年的客觀題部分,從最低客觀題平均數(shù)為32.5(2007年),到最高38.5(2010年),最高和最低之間只差6分,學(xué)生客觀題部分成績呈現(xiàn)出穩(wěn)定性和一致性,因而TEM4客觀題部分信度較高。
3.2006-2010年5年TEM-4的學(xué)生成績與2011年TEM-4學(xué)生成績是否存在一致性和穩(wěn)定性?從表3可以看出,24名學(xué)生2006—2010年的幾次模擬考成績與2011年的TEM4正式考成績基本上是一致的。從表4中也能看出,學(xué)生2006—2010年的幾次模擬考總分平均分除了與2006年有較大出入外(相差近10分),其他年份與2011年正式考的總分平均分并沒有太大的波動(相差4.7分)。這說明2006-2010年5年的TEM-4的學(xué)生成績與2011年TEM-4學(xué)生成績是否存在一致性和穩(wěn)定性,學(xué)生TEM4的考試成績具有較高信度。
根據(jù)以上研究結(jié)果,本研究對目前TEM4提出 3點建議:1.TEM4考試屬于尺度參照性標(biāo)準(zhǔn)化考試,而非選拔性考試,因此,為了保證考試的公平性,應(yīng)注意考試難度的一致性,忌難度忽高忽低。尤其是短文聽寫和寫作部分,這兩部分分值較大,更應(yīng)有一定的穩(wěn)定性。2.TEM4考試的目的是全面檢查已學(xué)完英語專業(yè)四級課程的學(xué)生是否達(dá)到教學(xué)大綱所規(guī)定的各項要求,考核學(xué)生運用各項基本技能的能力以及學(xué)生對語法結(jié)構(gòu)和詞語用法的掌握程度,既測試學(xué)生的綜合能力也應(yīng)測試學(xué)生的單項技能。筆者認(rèn)為對英語專業(yè)學(xué)生來說,“說”的能力是很重要的一項技能,該項測試應(yīng)盡早納入所有參加TEM4所有考生考試范圍中,避免在教學(xué)中對學(xué)生各項技能的訓(xùn)練有所偏頗。3.為了使TEM4考試體現(xiàn)其權(quán)威性,真正起到評估教學(xué)質(zhì)量、推動校際交流學(xué)習(xí)的作用,建議進(jìn)一步完善考試題型和方式。應(yīng)多考慮體現(xiàn)英語專業(yè)特色和應(yīng)用能力的測試題型,以對低年級學(xué)生的良好學(xué)風(fēng)和學(xué)習(xí)方法的培養(yǎng)以及對教學(xué)起到正確的引導(dǎo)和促進(jìn)作用。
參考文獻(xiàn):
[1]何勇斌.聽力測試的構(gòu)想效度及其實現(xiàn)[J]. 外語教學(xué), 2005(3): 72-74.
[2]徐清平,張延續(xù). 英語專業(yè)四級考試“語法與詞匯”內(nèi)容效度分析[J]. 外語研究, 2004(2): 57-59.
[3]郭麗. 集庫式完型填空效度研究[J]. 中國外語, 2010(4): 70-76.
[4]鄒申,張艷莉,周越美. 閱讀測試中題目類型、策略與分?jǐn)?shù)的關(guān)系——TEM4考試閱讀項目的答題效度研究[J]. 外語與外語教學(xué), 2002(5): 19-22.
[5]楊衛(wèi)健. 英語專業(yè)四級考試閱讀理解測試的答題效度驗證[J]. 外語教學(xué), 2011(6): 53-56.
[6]何蓮珍,張潔. 多層面Rasch模型下大學(xué)英語四、六級考試口語考試(CET-SET)信度研究[J]. 現(xiàn)代外語, 2008(4): 387-398.
[7]張森,于朋. 大學(xué)英語四級考試作文網(wǎng)上評閱信度保障研究[J]. 外語界, 2010(5): 79-86.
[8]劉建達(dá).評卷人效應(yīng)的多層面Rasch模型研究[J]. 現(xiàn)代外語, 2010(2): 185-193.
[9]李航. 基于概化理論和多層面Rasch模型的CET-6作文評分信度研究[J]. 外語與外語教學(xué), 2011 (5): 51-56.
[10]肖維青. 翻譯測試的評分員信度研究——TEM8翻譯項目評分員問卷調(diào)查記略[J]. 外語學(xué)刊,2011,(6): 115-119.