雷雪梅 辜向東
《聽力測試
——第二語言聽力評估的研究與實(shí)踐》評介*
雷雪梅 辜向東
效度(validity)是測試評價(jià)中需要考慮的最重要的因素之一。Messick (1989:13) 對效度的定義是“對經(jīng)驗(yàn)證據(jù)和理論依據(jù)在多大程度上支持分?jǐn)?shù)的解釋與使用所進(jìn)行的綜合評價(jià)。”該定義具有歷史意義,因?yàn)樗鞔_了效度驗(yàn)證的對象是測試結(jié)果的解釋和使用(Davies 2003)?;贛essick的整體效度觀,Weir (2005) 構(gòu)建的“基于證據(jù)的效驗(yàn)框架” (Language Testing and Validation: An Evidence-Based Approach 2005)(以下簡稱“效驗(yàn)框架”),從社會(huì)認(rèn)知視角出發(fā),涵蓋了五個(gè)方面的效驗(yàn)證據(jù):基于理論的效度(后改為認(rèn)知效度)、情境效度、評分效度、效標(biāo)關(guān)聯(lián)效度和后果效度。該效驗(yàn)框架可操作性強(qiáng)。劍橋大學(xué)外語考試部(Cambridge English Language Assessment)借用該框架,對劍橋英語五級(jí)證書考試(Main Suite Examinations, 縮略為MSE)(KET1, PET2, FCE3, CAE4, CPE5)進(jìn)行了一系列的實(shí)證研究,為語言能力測試的效度對比研究提供了基礎(chǔ),出版了四部分別針對聽、說、讀、寫四項(xiàng)技能的編著,從理論和實(shí)踐兩方面闡述了MSE的效度驗(yàn)證過程。
Ardeshir Geranpayeh 和 Lynda Taylor 于2013年合編的《聽力測試——第二語言聽力評估的研究與實(shí)踐》(ExaminingListening—ResearchandPracticeinAssessingSecondLanguageListening),是該系列叢書第四部有關(guān)劍橋大學(xué)外語考試部語言能力測試的編著。該書繼續(xù)沿用同系列測試專著的理論框架,即Weir (2005) 的“效驗(yàn)框架”,從“受試特征、認(rèn)知效度、環(huán)境效度、評分效度、后果效度和效標(biāo)關(guān)聯(lián)效度”六個(gè)方面對MSE考試的聽力測試進(jìn)行效度驗(yàn)證。該書將效驗(yàn)理論與實(shí)踐相結(jié)合,對聽力技能的定義和聽力測試過程做了全新闡釋。本文就該書的主要內(nèi)容作簡要介紹與評述。
全書共分八章,書末附有附錄。
第一章是由Lynda Taylor 完成的簡介。本章開篇強(qiáng)調(diào)公共或商業(yè)測試機(jī)構(gòu)有責(zé)任和義務(wù)向公眾解釋其測試原理和施測情況,因?yàn)楣_性和透明度應(yīng)是測試開發(fā)者首先要考慮的問題。接著簡要介紹該書的主要內(nèi)容,定位該書的讀者群體,說明其出版目的和編寫基礎(chǔ)。本章系統(tǒng)回顧了MSE考試的聽力測試發(fā)展過程,分析和描述“框架”用來效驗(yàn)MSE考試在六個(gè)方面的效度。此外,作者概述該書第二章至七章的內(nèi)容結(jié)構(gòu):理論闡述,文獻(xiàn)綜述及MSE考試聽力測試相應(yīng)的效度情況。
第二章為Mark Elliott分析的“受試特征”。作為任何測試行為的核心,受試的生理特點(diǎn)(年齡、性別、短期疾病、長期殘障等),心理特點(diǎn)(人格、情感圖示、動(dòng)機(jī)等),以及經(jīng)歷特點(diǎn)(教育、考試準(zhǔn)備、居住經(jīng)歷等)都有可能影響受試在測試中的表現(xiàn)?;贛SE考試中使用的考生信息表(Candidate Information Sheet),作者全面展示參加MSE考試的考生在以上三個(gè)方面的特點(diǎn)。分析受試特點(diǎn)有利于不斷改進(jìn)和完善MSE聽力測試,確保受試群體使用的測試材料的穩(wěn)定性,為利益相關(guān)者提供有關(guān)英語學(xué)習(xí)、教學(xué)、評估方面的信息。本章強(qiáng)調(diào)MSE考試不僅考慮受試整體特征,還兼顧個(gè)別受試的特殊需求。本章最后提出如何應(yīng)對聽力測試中可能遇到的特殊情況。
第三章為John Field 撰寫的“認(rèn)知效度驗(yàn)證”。本章寫作實(shí)現(xiàn)了兩個(gè)目的:一是勾勒出聽力概念的加工模式,為研究其它測試的認(rèn)知效度提供理論框架;二是確定試題設(shè)計(jì)中可能增加受試認(rèn)知負(fù)擔(dān)的影響因素。進(jìn)行認(rèn)知效驗(yàn)的目的是了解“錄音”、“測試方式”和“測試題”這三大要素在MSE聽力測試中的代表性和全面性。作者強(qiáng)調(diào)效驗(yàn)聽力測試應(yīng)考慮三點(diǎn):加工過程的相似性、全面性和校準(zhǔn)?;谝延械睦碚摵蛯?shí)證數(shù)據(jù),作者把聽力加工過程分為五個(gè)層級(jí):輸入解碼(input decoding)、詞匯搜素(lexical search)、句法分析(parsing)、意義構(gòu)建(meaning construction)、話語構(gòu)建(discourse construction)。本章應(yīng)用該模式從理論和實(shí)證兩個(gè)角度回顧關(guān)于聽力本質(zhì)的相關(guān)研究,尤其是聽力的認(rèn)知加工過程,剖析不同語言水平受試在做MSE考試聽力任務(wù)時(shí)的認(rèn)知過程,并嘗試從聽力測試基本要素“錄音、測試方式和測試題”三個(gè)方面評估該系列考試的聽力測試在多大程度上“復(fù)制”或“反映”真實(shí)世界的聽力任務(wù)特征。這種基于認(rèn)知的聽力測試效度比較能向利益相關(guān)者提供較為全面的測試難度信息。在分析試題時(shí),作者提出了增加試題難度的方式, 如增加試題長度、加大試題的復(fù)雜度等。但作者同時(shí)強(qiáng)調(diào)測試的初衷是測試聽力, 而非閱讀能力。這一論點(diǎn)尤其應(yīng)該引起試題開發(fā)者的注意。
第四章,Mark Elliot 和 Julith Wilson 合作撰寫了“情境效度驗(yàn)證”。在相關(guān)研究中,“情境”變量被認(rèn)為會(huì)影響受試的聽力表現(xiàn)。兩位作者把與“情境效度”相關(guān)的因素確定為“任務(wù)設(shè)置”、“語言要求”(任務(wù)輸入和輸出)和“說話人”,并闡釋該系列考試聽力測試的情境變量在不同水平測試中的表現(xiàn)情況,尤其是難度級(jí)別。根據(jù)情境效度參數(shù)分析測試任務(wù)有助于人們發(fā)現(xiàn)試題設(shè)計(jì)中的問題,比如作者特別提到各級(jí)別考試的規(guī)范說明(考試手冊)對考試重點(diǎn)術(shù)語沒有統(tǒng)一,容易造成誤解。
第五章為Ardeshir Geranpayeh撰寫的“評分效度驗(yàn)證”。該章從“測試難度”、“項(xiàng)目偏差”、“內(nèi)部一致性”、“測試誤差”、“評分”和“分?jǐn)?shù)報(bào)道”等方面探討與聽力測試評分效度相關(guān)的因素。本章重點(diǎn)關(guān)注兩方面:一是測試材料的適宜性, 即測試難度和內(nèi)容的一致性(internal consistency);二是數(shù)據(jù)處理,即減少不利變量如題目偏差(item bias)等因素造成的負(fù)面影響。作者介紹了MSE為保證評分效度在這兩方面所采取的措施,并用FCE測試分?jǐn)?shù)報(bào)道說明評分效驗(yàn)?zāi)芙o測試使用者提供有用信息。作者也談及評分效度未來面臨的挑戰(zhàn),例如如何將測試的有用性最大化,以滿足測試分?jǐn)?shù)使用者不斷提高的期望值,如何充分描述分?jǐn)?shù)反映的聽力能力等。這些挑戰(zhàn)正是該領(lǐng)域未來研究應(yīng)關(guān)注的方向。
第六章是由Roger Hawkey 主筆的“后果效度驗(yàn)證”。基于MSE考試多年在效驗(yàn)方面的經(jīng)驗(yàn),作者對Weir (2005)的“后果效度”做了重新闡釋?!昂蠊Ф取敝攸c(diǎn)關(guān)注分?jǐn)?shù)解釋,但也包括測試對相關(guān)個(gè)人所產(chǎn)生的反撥效應(yīng)(washback)和對相關(guān)機(jī)構(gòu)及社會(huì)產(chǎn)生的影響(impact)。本章主要討論后果效度研究的實(shí)質(zhì)、“影響”過程的復(fù)雜性以及測試反撥效應(yīng)在效驗(yàn)高風(fēng)險(xiǎn)國際測試過程中復(fù)雜的作用機(jī)制。作者梳理了有關(guān)MSE考試后果效度的研究,旨在幫助該機(jī)構(gòu)了解其系列考試的后果效度,尤其是與聽力測試有關(guān)的部分。本章還重點(diǎn)列出聽力測試對課堂聽力教學(xué)的負(fù)面影響,如采用應(yīng)試材料、強(qiáng)化聽力訓(xùn)練、強(qiáng)調(diào)應(yīng)試策略等。因此作者提出應(yīng)重視后果效度研究,提高試題質(zhì)量,增強(qiáng)測試的正面影響。
第七章是由Gad S Lim 和 Hanan Khalifa合作撰寫的“效標(biāo)關(guān)聯(lián)效度效驗(yàn)”。本章強(qiáng)調(diào)有必要在不同測試之間,同一測試的不同測試形式之間,以及測試與國際公認(rèn)的語言能力標(biāo)準(zhǔn)或國際公認(rèn)的語言測試標(biāo)準(zhǔn)之間做關(guān)聯(lián)研究。作者討論了MSE考試在這三方面的實(shí)踐情況,即MSE五個(gè)等級(jí)考試之間,MSE與外部國際公認(rèn)的語言能力標(biāo)準(zhǔn),如歐洲語言共同參考框架(The Common European Framework of Reference for Languages: Learning, teaching, and assessment, CEFR 2009)之間的高度關(guān)聯(lián)。不過作者強(qiáng)調(diào),把MSE考試與CEFR做關(guān)聯(lián)效度研究可能會(huì)引起爭議,因?yàn)楸容^本身可能過于簡單或易產(chǎn)生誤導(dǎo)。據(jù)此,作者建議深入了解受試特征和情境因素,減少不同機(jī)構(gòu)在界定測試目的時(shí)可能存在的差異,并詳盡描述測試目的。
第八章為結(jié)語部分,Lynda Taylor & Ardeshir Geranpayech對該書的前七章進(jìn)行了綜合性回顧與總結(jié),突出和再現(xiàn)從“效驗(yàn)框架”的六個(gè)方面效驗(yàn)MSE考試聽力測試的情況,展望未來聽力測試研究方向。該書對類似的聽力測試研究具有極大的借鑒意義和參考作用。
附錄部分列出了MSE的聽力測試樣卷、受試信息表、聽力測試材料的選定程序、聽力測試的實(shí)施和管理等信息。
該書的八位作者根據(jù)Weir(2005)的“基于證據(jù)的效驗(yàn)框架”,從“受試特征”、“認(rèn)知效度”、“情境效度”、“評分效度”、“后果效度”、“效標(biāo)關(guān)聯(lián)效度”六個(gè)方面對MSE聽力測試進(jìn)行了全面而深入的效度對比分析。全書章節(jié)安排合理,脈絡(luò)清晰,理論聯(lián)系實(shí)際。
縱觀全書的內(nèi)容與布局,本文作者認(rèn)為該書有以下三大特點(diǎn):
3.1 理論指導(dǎo)
目前,公共或商業(yè)測試機(jī)構(gòu)面臨公眾要求詳盡解釋測試設(shè)計(jì)和施測過程的呼聲,使得這些機(jī)構(gòu)首先要考慮測試的公開性和透明度。因此測試機(jī)構(gòu)需要提供相關(guān)測試的“情境效度”、“認(rèn)知效度”和“評分效度”證據(jù),及這三種效度在測試中的實(shí)踐情況。Weir(2005)提出的檢驗(yàn)語言測試效度的理論框架“基于證據(jù)的效驗(yàn)框架”為MSE提供了可行性強(qiáng)的檢驗(yàn)測試的有用性和測試效度的方法?;诶碚摵蛯?shí)踐研究,該框架在理論層面論證效度的本質(zhì)及效度驗(yàn)證的證據(jù),全面闡述測試開發(fā)和效驗(yàn)的新框架,而且探討了效度證據(jù)收集方法。所以基于該框架的分析方法能夠“分析并描述任何測試包含的效度特點(diǎn),構(gòu)建一個(gè)可以參考的解讀框架,從而使得測試及其相應(yīng)的效度特點(diǎn)在該框架的指導(dǎo)下可以得到清晰的呈現(xiàn)”(劉力2013)。與此同時(shí),該框架指導(dǎo)下的分析方法能讓測試機(jī)構(gòu)公開透明地呈現(xiàn)效度證據(jù),以此來驗(yàn)證考試質(zhì)量。這也滿足公眾在重要考試的公開性和透明度上的要求。
3.2 實(shí)踐驗(yàn)證
該書討論和闡釋了聽力測試?yán)碚撛瓌t,并將這些原則應(yīng)用于MSE考試的聽力測試實(shí)踐,既有聽力測試領(lǐng)域的前沿理論研究,也有相關(guān)實(shí)證研究動(dòng)態(tài)。因此該書有三個(gè)實(shí)踐意義:第一,加深了人們對MSE考試開發(fā)的理論基礎(chǔ)的認(rèn)識(shí)。該書借助Weir (2005) 的“框架”,評估了不同等級(jí)的聽力測試,驗(yàn)證了該框架在考試效度對比研究中的可比性,并呈現(xiàn)了這些測試項(xiàng)目目前和未來的發(fā)展?fàn)顩r。第二,該書向公眾展示了MSE聽力測試施測過程,增強(qiáng)了其公開性和透明度。第三,該書為其他想效驗(yàn)自身測試的個(gè)人或機(jī)構(gòu)提供了一個(gè)操作性強(qiáng)的理論框架,原則基礎(chǔ),及不同等級(jí)測試之間做效度對比時(shí)的研究方法。因此該書補(bǔ)充和完善了測試效度對比的框架和模式,可指導(dǎo)測試機(jī)構(gòu)描述和分析其開發(fā)的測試的質(zhì)量或進(jìn)行效驗(yàn)研究。
3.3 創(chuàng)新突破
二語聽力的認(rèn)知過程是目前語言測試涉及最少的領(lǐng)域(Lynda Taylor 2013:326)。John Field撰寫的聽力測試“認(rèn)知效度”在語言測試領(lǐng)域有突破。在已有的理論和實(shí)證研究基礎(chǔ)上,John Field 提出聽力認(rèn)知加工過程由五個(gè)層級(jí)組成:輸入解碼、詞匯搜索、句法分析、意義建構(gòu)和語篇建構(gòu)。作者用該理論框架分析MSE聽力考試,指出聽力測試認(rèn)知研究方向,如聽力問題出現(xiàn)的順序、錄音播放次數(shù)等設(shè)計(jì)下的受試的認(rèn)知過程。本研究為聽力測試研究提供了有極大參考價(jià)值的理論框架和實(shí)踐模式。
第一,從事語言測試研究的人員可從Weir (2005) 構(gòu)建的“基于證據(jù)的效驗(yàn)框架”出發(fā),從“受試特征”、“認(rèn)知效度”、“情境效度”、“評分效度”、“后果效度”、“效標(biāo)關(guān)聯(lián)效度”六個(gè)方面收集效驗(yàn)證據(jù),對我國的大規(guī)模、高風(fēng)險(xiǎn)考試做效度研究。
該書理論聯(lián)系實(shí)際的載體是MSE考試。該考試分為五個(gè)等級(jí),滿足不同年齡段或不同能力水平的教學(xué)需求,是基于學(xué)?;蚋咝UZ言學(xué)習(xí)背景,其目的或者功能是支持這些教學(xué)環(huán)境下的英語教學(xué)。我國的高考英語、大學(xué)英語四、六級(jí)考試,英語專業(yè)四、八級(jí)考試都具有同樣的綜合英語能力測試的性質(zhì)。所以該書為我國的語言測試工作者和研究者提供了一個(gè)研究模式,比如借用該書附錄中的考生信息表來調(diào)查我國重大考試的受試特征;用聽力認(rèn)知模式研究各級(jí)別考試對受試認(rèn)知上的不同要求,或者對比研究受試參加各級(jí)別考試時(shí)的認(rèn)知過程;對比大學(xué)英語四、六級(jí)考試之間,英語專業(yè)四、八級(jí)考試之間的情境效度等。此類研究可使測試參與者了解測試的目的,測試方法,分?jǐn)?shù)的解釋和使用,且有利于他們結(jié)合這些效度研究結(jié)果做出重要的教育決策。
第二,將我國的重大考試與國際公認(rèn)的語言測試標(biāo)準(zhǔn)實(shí)現(xiàn)對接,增強(qiáng)測試的科學(xué)性和權(quán)威性。本書實(shí)現(xiàn)了MSE考試五個(gè)等級(jí)與國際公認(rèn)的語言能力標(biāo)準(zhǔn)(CEFR 2009)相對接,其開發(fā)與使用遵循了國際公認(rèn)的語言測試標(biāo)準(zhǔn),增強(qiáng)測試的權(quán)威性。
當(dāng)然,該書也存在一些不足,比如,第二章“受試特征”討論了受試特征的研究結(jié)果,但沒有詳細(xì)描述特征數(shù)據(jù)的測量方法;第三章“認(rèn)知效度”章節(jié)分析綜合性試題時(shí),若有更多的定性或語言分析則更能說明受試的聽力測試加工過程;第六章“后果效度”若能提供更多詳盡的影響研究的信息則有助于人們充分了解測試的后果效度。
總之,該書用社會(huì)認(rèn)知效度理論框架來效驗(yàn)MSE考試聽力測試,有助于讀者充分了解聽力測試在學(xué)術(shù)方面的進(jìn)展,而且該系列聽力測試基于實(shí)證數(shù)據(jù)的具體測試決策,也為未來探索相似主題的研究者提供了一個(gè)理論加實(shí)證的參考依據(jù)。
注釋:
1 KET(Key English Test):英語入門考試
2 PET(Preliminary English Test):初級(jí)英語考試
3 FCE(First Certificate in English):第一英語證書考試
4 CAE(Certificate in Advanced English):高級(jí)英語證書考試
5 CPE(Certificate of Proficiency in English):熟練英語證書考試
Council of Europe.2009.RelatingLanguageExaminationstotheCommonEuropeanFrameworkofReferenceforLanguages:Learning,Teaching,andAssessment[M].Strasbourg, France: Council of Europe.Available online:www.coe.int/t/dg4/linguistic/Source/ManualRevision-proofread-FINAL_en.pdf.
Davies, A.2003.Three heresies of language testing research[J].LanguageTesting(4): 355-368.
Geranpayeh, A and Taylor, L (eds).2013.ExaminingListening—ResearchandPracticeinAssessingSecondLanguageListening[M].Cambridge: Cambridge University Press.
Messick, S.1989.Validity [A].R.L.Linn(ed.).EducationalMeasurement(3rdedition) [C].New York: Macmillan.
Weir, C.J.2005.LanguageTestingandValidation:AnEvidence-basedApproach[M].New York: Palgrave MacMillan.
劉力等,2013,第二語言口語評估研究與實(shí)踐縱覽——《口語測評》(2011)評介[J],《外語測試與教學(xué)》 (2):60-64。
(雷雪梅:重慶郵電大學(xué)外國語學(xué)院講師; 辜向東:重慶大學(xué)外國語學(xué)院教授,博士生導(dǎo)師)
通訊地址:400065重慶市南岸區(qū)重慶郵電大學(xué)外國語學(xué)院
*本文系國家社會(huì)科學(xué)基金重點(diǎn)項(xiàng)目“基于證據(jù)的四、六級(jí)、雅思、托??荚囆?yīng)對比研究”的部分成果,項(xiàng)目號(hào):14AYY010。
2016-11-18