語言測(cè)試效度與公平性研究*

2018-09-11 00:54:50姜秀娟

外語學(xué)刊 2018年1期

姜秀娟

(曲阜師范大學(xué)，曲阜 276826；北京外國(guó)語大學(xué)，北京 100089)

提要：效度是評(píng)判一項(xiàng)測(cè)試質(zhì)量的重要指標(biāo)，而公平性又是效度的重要保證。本文結(jié)合測(cè)試效度觀及其驗(yàn)證模式的發(fā)展變化，對(duì)近50年來語言測(cè)試公平性觀念及其研究模式在分類、整體、論證3種效度觀時(shí)期的演變進(jìn)行梳理與思考，發(fā)現(xiàn)語言測(cè)試公平性研究采取的幾乎是與效度研究一樣的進(jìn)路，學(xué)界對(duì)公平性研究的必要性存在爭(zhēng)議。在以上分析的基礎(chǔ)上，本文總結(jié)二者之間的關(guān)系，并指出未來測(cè)試公平性研究應(yīng)繼續(xù)努力的方向。

1 引言

測(cè)試公平性研究始于20世紀(jì)60年代，80至90年代被廣泛關(guān)注(Zieky 2006:360)，是測(cè)試領(lǐng)域一個(gè)新興的熱點(diǎn)話題。長(zhǎng)期以來，效度是評(píng)判一項(xiàng)測(cè)試質(zhì)量的重要指標(biāo)，而公平性又是效度的重要保證，二者交織在一起，不可分割(同上:359)。80年代中期以來，有關(guān)測(cè)試公平的觀點(diǎn)、標(biāo)準(zhǔn)、文件不斷涌現(xiàn)，專門探討測(cè)試公平性問題的高層次學(xué)術(shù)會(huì)議也相繼召開，測(cè)試公平性的重要性可見一斑。那么，公平性到底是什么，如何研究或檢驗(yàn)一項(xiàng)測(cè)試的公平性？語言測(cè)試效度觀及其驗(yàn)證模式的變化對(duì)公平性觀念及其研究模式產(chǎn)生怎樣的影響？語言測(cè)試公平性與效度有怎樣的關(guān)系？為了回答以上問題，本文結(jié)合測(cè)試效度觀及其驗(yàn)證模式的發(fā)展變化，對(duì)語言測(cè)試公平性觀念及其研究模式在分類、整體、論證3種效度觀時(shí)期的演變進(jìn)行梳理與思考，并指出語言測(cè)試公平性研究的未來趨勢(shì)。

2 效度分類觀與語言測(cè)試公平性研究模式

20世紀(jì)50年代之前，教育與心理測(cè)量學(xué)普遍堅(jiān)持“相關(guān)即有效”的效度觀(韓寶成羅凱洲 2013：412)。但是，要想確定那個(gè)“相關(guān)”的東西絕非易事，因?yàn)橐豁?xiàng)測(cè)試可以與很多種事物相關(guān)。于是，不同類型的效度應(yīng)運(yùn)而生。1954年，美國(guó)心理學(xué)會(huì)(APA) 在《關(guān)于心理測(cè)驗(yàn)和診斷的技術(shù)建議》(TechnicalRecommendationsforPsychologicalTestsandDiagnosticTechniques)中，將效度分為4種：預(yù)測(cè)效度(predictive validity)、共時(shí)效度(concurrent validity)、內(nèi)容效度(content validity)和構(gòu)念效度(construct validity)。1966年，《教育與心理測(cè)驗(yàn)的標(biāo)準(zhǔn)與指南》(StandardsforEducationalandPsychologicalTestsandManuals) (AERA et al.) 把預(yù)測(cè)和共時(shí)合并為校標(biāo)關(guān)聯(lián)效度(criterion-related validity)。

1961年，Lado在現(xiàn)代語言測(cè)試的奠基之作《語言測(cè)試》(LanguageTesting)中首次將教育與心理測(cè)量學(xué)領(lǐng)域的效度概念引入語言測(cè)試領(lǐng)域，指出“效度本質(zhì)上是一種關(guān)聯(lián)。一項(xiàng)測(cè)試是否測(cè)量到它要測(cè)量的東西。如果答案是肯定的，那么它就是有效的”。之后，語言測(cè)試領(lǐng)域紛紛效仿Lado 的觀點(diǎn)定義效度(如Valette 1967；Harris 1969； Heaton 1975； Finocchiaro, Sako 1983)。Heaton (1975: 153) 將語言測(cè)試效度分為表面效度、內(nèi)容效度、構(gòu)念效度和實(shí)證效度。這一時(shí)期的語言測(cè)試效度驗(yàn)證模式主要采取Lado提出的方法，如選擇、設(shè)計(jì)與內(nèi)容相關(guān)、與學(xué)習(xí)問題相關(guān)的題目；修改因非語言因素引起難度增加的試題；使用一項(xiàng)有效的測(cè)試和自己開發(fā)的測(cè)試，對(duì)一組有代表性的學(xué)生樣本進(jìn)行測(cè)試，計(jì)算兩次測(cè)試成績(jī)間的相關(guān)系數(shù)，從而確定測(cè)試效度(Lado 1961:328-329)。分析測(cè)試內(nèi)容、計(jì)算校標(biāo)關(guān)聯(lián)系數(shù)是這一時(shí)期進(jìn)行語言測(cè)試效度研究的主要方法(韓寶成羅凱洲 2013：413)。

那么，如何分析測(cè)試內(nèi)容，如何保證測(cè)試題目與測(cè)試構(gòu)念相關(guān)，如何確定測(cè)試題目中沒有包含與測(cè)試構(gòu)念無關(guān) (construct-irrelevant) 的因素？這些問題是該時(shí)期語言測(cè)試效度驗(yàn)證過程中必須解決的，對(duì)這些問題的回答也使測(cè)試專家學(xué)者開始關(guān)注測(cè)試公平性問題。早期的語言測(cè)試文獻(xiàn)只是將測(cè)試公平性等同于測(cè)試中的題目對(duì)不同的考生群體不存在偏頗(bias)(AERA et al. 1985)。測(cè)試偏頗(test bias) 指具有相同能力的不同群體的考生在相同題目上的得分不同。換句話說，測(cè)試偏頗就是與測(cè)試構(gòu)念無關(guān)的考生特征(如性別、種族、社會(huì)經(jīng)濟(jì)地位等)對(duì)考生的考試成績(jī)產(chǎn)生系統(tǒng)性的影響(McNamara, Roever 2006:82)。測(cè)試偏頗一般采用項(xiàng)目功能差異(Differential Item Functioning, DIF) 研究。如果研究顯示測(cè)試題目存在DIF，就要確定DIF存在的原因是否與測(cè)試構(gòu)念無關(guān)因素有關(guān)，如果有關(guān)，則說明試題存在偏頗，從而影響測(cè)試的公平性，必須去除或修改導(dǎo)致偏頗的題目。美國(guó)教育測(cè)試服務(wù)中心 ( Educational Testing Service, ETS) 1986 年規(guī)定，在測(cè)試開發(fā)的過程中，為保證測(cè)試較高的效度和公平性，除了對(duì)編制的題目進(jìn)行常規(guī)的項(xiàng)目分析外，還必須進(jìn)行項(xiàng)目功能差異研究。受這一時(shí)期效度驗(yàn)證模式的影響，偏頗研究只是從技術(shù)的角度，對(duì)試題的心理測(cè)量學(xué)屬性進(jìn)行統(tǒng)計(jì)分析，控制與測(cè)試構(gòu)念無關(guān)的因素，從而為效度驗(yàn)證提供數(shù)據(jù)和技術(shù)支持。20世紀(jì)80年代末，隨著效度分類觀向效度整體觀的轉(zhuǎn)變，測(cè)試領(lǐng)域?qū)叫缘恼J(rèn)識(shí)也發(fā)生變化，公平性研究模式也隨之發(fā)生改變。

3 效度整體觀與語言測(cè)試公平性研究模式

20世紀(jì)80年代，隨著效度研究的不斷深入，教育測(cè)量界發(fā)現(xiàn)基于分類方法進(jìn)行測(cè)試的效度驗(yàn)證所得結(jié)果太零散，也沒有考慮考試成績(jī)的價(jià)值含義及考試成績(jī)使用的社會(huì)后果。基于此，Messick (1988, 1989)提出整體效度概念(unitary concept of validity)，認(rèn)為效度只有一個(gè)，即構(gòu)念效度，而證明效度的證據(jù)可來自多方面，并用分層效度框架(又稱效度漸進(jìn)矩陣 (progressive matrix))進(jìn)行說明(參見表1)。

構(gòu)念效度構(gòu)念效度+相關(guān)性/實(shí)用性價(jià)值含義社會(huì)后果

分層效度框架由測(cè)試解釋、測(cè)試使用、證據(jù)基礎(chǔ)和后果基礎(chǔ)4個(gè)維度構(gòu)成。Messick的“一元多維”效度整體觀更新人們的測(cè)試效度驗(yàn)證觀念，自此，效度驗(yàn)證不僅僅是對(duì)測(cè)試本身及分?jǐn)?shù)的評(píng)價(jià)，還包括對(duì)測(cè)試結(jié)果解釋和使用的評(píng)價(jià)。但是，Messick 的“一元多維”效度理論太抽象，不能有效地指導(dǎo)測(cè)試效度驗(yàn)證。為解決操作性問題，Bachman和Palmer(1996)提出測(cè)試的有用性框架(test usefulness framework)，通俗易懂地詮釋Messick的效度理論。測(cè)試有用性框架包括信度(reliability)、構(gòu)念效度、真實(shí)性(authenticity)、交互性(interactiveness)、影響力(impact)和可行性(practicality)6個(gè)要素。信度指一項(xiàng)考試結(jié)果的穩(wěn)定性；構(gòu)念效度指對(duì)考試分?jǐn)?shù)解釋在多大程度上是有意義的、適切的；真實(shí)性指考試任務(wù)特征與目標(biāo)語言使用任務(wù)特征的一致性程度；交互性指考生完成測(cè)試任務(wù)時(shí)，參與其中的個(gè)人特質(zhì)類型和程度；影響力指考試對(duì)個(gè)人、教育制度以及整個(gè)社會(huì)產(chǎn)生的影響；可行性指設(shè)計(jì)、開發(fā)和使用一項(xiàng)測(cè)試所需資源與可用資源間的關(guān)系。隨后的十幾年中，該框架是語言測(cè)試效度驗(yàn)證的權(quán)威模式 (Weigle 2002)，在指導(dǎo)語言測(cè)試的開發(fā)和使用方面發(fā)揮重要作用。

測(cè)試效度觀念及其驗(yàn)證模式的改變，使人們意識(shí)到偏頗研究只是屬于Messick (1989)分層效度框架中的證據(jù)基礎(chǔ)維度，公平性應(yīng)該包括更廣闊的研究?jī)?nèi)容，比如測(cè)試的社會(huì)價(jià)值與影響。而且，1999年版的《教育與心理測(cè)量標(biāo)準(zhǔn)》(以下簡(jiǎn)稱《標(biāo)準(zhǔn)》)專設(shè)一個(gè)部分討論測(cè)試公平性，將公平性定義為無偏頗、考試過程公平、基于考試結(jié)果的決策公平以及學(xué)習(xí)機(jī)會(huì)均等。具體來講，無偏頗就是控制構(gòu)念代表性不足(construct under-representation)及與構(gòu)念無關(guān)的因素(construct-irrelevant variance)，消除影響構(gòu)念效度的偏頗。比如，要保證內(nèi)容樣本的覆蓋面、所有考生都熟悉答題形式等?？荚囘^程公平指在施考過程中平等對(duì)待所有考生，考生要有相同的機(jī)會(huì)展示自己的能力?；诳荚嚱Y(jié)果的決策公平指不同考生群體的考試結(jié)果具有可比性，能力相同的考生應(yīng)享有同等的選拔機(jī)會(huì)。學(xué)習(xí)機(jī)會(huì)均等主要指在標(biāo)準(zhǔn)參照考試中，考生有相同的機(jī)會(huì)學(xué)習(xí)考試內(nèi)容和接觸復(fù)習(xí)資料，尤其是考試成績(jī)用于決定是否留級(jí)或頒發(fā)證書時(shí)，學(xué)習(xí)機(jī)會(huì)均等更顯重要。因此，測(cè)試專家學(xué)者開始構(gòu)建更為全面的公平性研究框架。

2000年，Kunnan在Messick整體效度觀的指導(dǎo)下，以社會(huì)正義理論(Jensen 1980) 和《教育公平測(cè)試行為準(zhǔn)則》(JCTP 1988)為基礎(chǔ)，參考1999年版的《標(biāo)準(zhǔn)》中關(guān)于測(cè)試使用、考生權(quán)利和責(zé)任、考生語言多樣化以及殘疾考生等涉及公平性話題的論述，進(jìn)一步擴(kuò)展傳統(tǒng)的測(cè)試公平性研究范圍，提出新的公平性研究框架。該框架包括效度、機(jī)會(huì)均等和公正性3個(gè)組成部分。其中，效度關(guān)注構(gòu)念效度、考試內(nèi)容與形式的偏頗、試題的差異效應(yīng)、考試材料中語言使用的恰當(dāng)性以及哪些考生群體處于不利地位；機(jī)會(huì)均等關(guān)注考試費(fèi)用、考場(chǎng)選址、考試設(shè)備和條件是否有利于所有考生，考生受教育機(jī)會(huì)是否均等則關(guān)注對(duì)殘疾考生是否有特殊待遇；公正性關(guān)注社會(huì)公正及法律挑戰(zhàn)?？梢钥闯?，Kunnan的測(cè)試公平性研究框架不再局限于心理測(cè)量學(xué)屬性，已經(jīng)擴(kuò)展至社會(huì)、道德、法律和哲學(xué)層面(Kunnan 2000:5)。2004年，Kunnan對(duì)其2000年的公平性研究框架進(jìn)行修改和完善，增加施考條件和社會(huì)后果兩個(gè)部分。至此，測(cè)試公平性研究框架更加全面、更加深入，由原來的3個(gè)組成部分?jǐn)U展到5個(gè)，形成由效度、機(jī)會(huì)均等、公正性、施考條件和社會(huì)后果構(gòu)成的新框架，完全契合整體效度觀的精神及其效驗(yàn)?zāi)Ｊ?。該框架成為近年來語言測(cè)試公平性研究的主要依據(jù)。2009年，Kunnan又提出測(cè)試環(huán)境框架(the Test Context Framework)，該框架試圖從政治、教育、文化、社會(huì)、經(jīng)濟(jì)、法律和歷史等諸多方面審視一項(xiàng)測(cè)試，同年，Kunnan用美國(guó)公民入籍考試(the Naturalization Test)為例從3個(gè)方面對(duì)測(cè)試的公平性進(jìn)行探討：(1)測(cè)試的要求和目的：該考試的要求和目的是否有意義；(2)測(cè)試的理論基礎(chǔ)、內(nèi)容和操作：該考試是否能夠測(cè)出英語語言能力以及關(guān)于美國(guó)歷史與政府的知識(shí)；(3)測(cè)試后果：該考試是否能夠帶來民族主義或社會(huì)融合。通過分析以上3個(gè)方面，Kunnan發(fā)現(xiàn)，此項(xiàng)美國(guó)公民入籍考試是20世紀(jì)50年代美國(guó)特定歷史時(shí)期的產(chǎn)物，已經(jīng)不符合時(shí)代要求，也不符合美國(guó)法律規(guī)定，因此，該考試的實(shí)施和分?jǐn)?shù)的使用無意義。另外，該考試也測(cè)不出考生是否具有“民族主義”或“社會(huì)融合”能力，也就是說，該考試的內(nèi)容和理論基礎(chǔ)與預(yù)測(cè)構(gòu)念不相關(guān)?？梢姡摽荚噷?duì)考生而言不公平。

但是，隨著測(cè)試效度及其驗(yàn)證模式研究的深入，人們發(fā)現(xiàn)Bachman和Palmer (1996) 測(cè)試有用性框架的6大要素間缺少關(guān)聯(lián)，效度驗(yàn)證只是證據(jù)的簡(jiǎn)單羅列，而且無從知曉證據(jù)收集從哪兒開始，到哪兒結(jié)束。對(duì)測(cè)試有用性框架“重操作性、輕連貫性”缺陷的認(rèn)識(shí)，也使人們意識(shí)到Kunnan (2004)測(cè)試公平性框架存在同樣問題，該框架的5個(gè)組成部分沒有形成一個(gè)連貫的令人信服的測(cè)試公平性論證(Bachman 2005)。Kunnan (2009) 框架也沒有解決這一問題，無法為測(cè)試公平性的評(píng)估和實(shí)證研究提供切實(shí)有效的指導(dǎo)(Xi 2010)。如何明確語言測(cè)試公平性各要素間的關(guān)系；如何整合各類證據(jù)，使它們成為一個(gè)連貫的相互聯(lián)系的整體？人們期待新觀點(diǎn)新模式的出現(xiàn)。

4 效度論證觀與語言測(cè)試公平性研究模式

1999年版的《標(biāo)準(zhǔn)》把效度定義為“證據(jù)及理論對(duì)測(cè)試分?jǐn)?shù)解釋與使用的支持程度”，指出效度驗(yàn)證就是對(duì)“分?jǐn)?shù)的預(yù)期解釋與使用的論證” (AERA et al. 1999:9)。但是，在效度驗(yàn)證中如何組織證據(jù)，該版《標(biāo)準(zhǔn)》沒有給出一個(gè)可供參考的論證模式，效度驗(yàn)證基本上采取證據(jù)羅列模式。當(dāng)然，教育測(cè)量界并沒有停止探索效度驗(yàn)證中的證據(jù)組織方法(如Kane 1992, 2002, 2004, 2006；Kane et al. 1999； Mislevy et al. 2002, 2003)，最終將Toulmin (2003) 的實(shí)用推理模型(practical reasoning model)(參見圖1)用于效度驗(yàn)證，提出基于論證的驗(yàn)證模式(argument-based approach to validation)。該模式明確收集證據(jù)的類別與數(shù)量，效度證據(jù)的組織也不再是簡(jiǎn)單的羅列，而是形成一個(gè)環(huán)環(huán)相扣的證據(jù)鏈，使效度驗(yàn)證成為一個(gè)有始有終、邏輯嚴(yán)密的論證過程。

圖1 Toulmin的實(shí)用推理模型(改自Toulmin 2003:97)

典型的基于論證的效度驗(yàn)證模式有兩個(gè)，一個(gè)是Kane (2006)的解釋性論證(interpretive argument)與效度論證(validity argument)。該模式分兩步：第一步，搭建理論框架(解釋性論證)(參見圖2)；第二步，檢驗(yàn)理論框架(效度論證)。另一個(gè)是Bachman和Palmer(2010) 的測(cè)試使用論證(Assessment Use Argument, 簡(jiǎn)稱AUA)(參見圖3)。

近年來，隨著測(cè)試效度論證觀的出現(xiàn)及其驗(yàn)證模式轉(zhuǎn)變，測(cè)試學(xué)界也紛紛從論證的角度對(duì)語言測(cè)試公平性進(jìn)行研究，提出基于論證的公平性研究模式，如Xi (2010)的公平性論證框架(Fairness Argument Framework)。Xi認(rèn)為，測(cè)試公平性指測(cè)試所有環(huán)節(jié)對(duì)所有的相關(guān)考生群體具有相同的有效性，即對(duì)于所有相關(guān)考生群體而言，與構(gòu)念無關(guān)因素、構(gòu)念代表性不足、不一致的施測(cè)行為以及不恰當(dāng)?shù)臎Q策程序或測(cè)試結(jié)果的使用，對(duì)考試分?jǐn)?shù)及其解釋以及基于分?jǐn)?shù)所作的決定與后果不會(huì)產(chǎn)生系統(tǒng)性的影響(Xi 2010:154)?；谠摱x，Xi提出研究公平性的框架——公平性論證框架，該框架內(nèi)嵌于效度論證框架，稱作“效度論證中的公平性論證”，并用TOEFL iBT 為例進(jìn)行說明(同上：155)。Xi的效度論證包含6個(gè)分論證(sub-argument)：(1)證據(jù)表明目標(biāo)語言使用域能夠提供對(duì)考生測(cè)試表現(xiàn)進(jìn)行觀察的有意義的基礎(chǔ)；(2)證據(jù)表明觀察分是考生目標(biāo)語言使用的反映，而不是構(gòu)念無關(guān)因素的反映；(3)證據(jù)表明觀察分具有概推性，即考生在類似的其他考試中得分相同；(4)證據(jù)表明觀察分的概推性是有理論基礎(chǔ)的，即是基于構(gòu)念的推論；(5)證據(jù)表明構(gòu)念能夠解釋非測(cè)試環(huán)境下的目標(biāo)語言使用；(6)證據(jù)表明基于考試結(jié)果對(duì)考生語言能力水平的判斷具有相關(guān)性，對(duì)決策具有有用性與充足性(同上:156-157)。可見，Xi(2010)的效度論證框架經(jīng)過目標(biāo)域的界定(Domain definition)、評(píng)價(jià)(Evaluation)、概化(Generalization)、解釋(Explanation)、外推(Extrapolation)與使用(Utilization)6次推論，從考生的測(cè)試表現(xiàn)到基于測(cè)試結(jié)果對(duì)考生語言能力的判斷與使用形成一個(gè)嚴(yán)密而連貫的推論鏈，從而明確證據(jù)收集的起點(diǎn)、終點(diǎn)、數(shù)量與種類，在此過程中也完成測(cè)試的公平性論證，每次效度論證和公平性論證都采用Toulmin (2003) 的實(shí)用推理模型，由事實(shí)、主張、理由、證據(jù)、假設(shè)以及反駁構(gòu)成。其中，反駁有兩類，一類是對(duì)所有考生來說，由于缺乏相應(yīng)的反面證據(jù)(counter-evidence)而使結(jié)論的說服力減弱；另一類是指對(duì)特定考生群體而言，結(jié)論是無效的或是站不住腳的(Xi 2010: 158-164)。Xi就效度論證中外推環(huán)節(jié)的公平性論證以TOEFL iBT為例進(jìn)行說明(參見圖4)(Xi 2010:165)。

圖2 解釋性論證的推理鏈(改自Kane 2006， Bachman 2005)

圖3 AUA框架(Bachman, Palmer 2010:91)

圖4 效度論證外推環(huán)節(jié)中的公平性論證舉例(改自Xi 2010:165)

5 語言測(cè)試效度與公平性的關(guān)系

通過以上分析可以看出，語言測(cè)試公平性及其研究模式隨著語言測(cè)試效度及其驗(yàn)證模式的變化而變化，二者之間的關(guān)系較復(fù)雜，學(xué)界存在3種觀點(diǎn)：二者是并列的、效度包含在公平性之中以及公平性包含在效度之中。

語言測(cè)試效度與公平性是并列的，即二者分別是一個(gè)獨(dú)立的概念。首先，1999版的《標(biāo)準(zhǔn)》對(duì)二者分別給出定義(見前文)。從兩個(gè)定義來看，二者沒有直接聯(lián)系且各有側(cè)重：前者偏重檢驗(yàn)分?jǐn)?shù)解釋和使用是否有意義，后者著重衡量考生在考試的設(shè)計(jì)、開發(fā)和使用過程中是否享受平等待遇。再者，《教育公平測(cè)試實(shí)踐規(guī)范》(CodeofFairTestingPracticesinEducation2004)也明確規(guī)定測(cè)試開發(fā)者與使用者對(duì)整個(gè)測(cè)試過程進(jìn)行獨(dú)立的公平性研究，具體包括試卷的編制與題目的選擇、考試的實(shí)施與評(píng)分、分?jǐn)?shù)的報(bào)道與解釋以及考試信息的反饋4個(gè)環(huán)節(jié)。

效度包含在公平性之中，即效度被看成是公平性的一部分。比如Kunnan(2000) 的公平性研究框架包括效度、機(jī)會(huì)均等和公正性3個(gè)組成部分，很明顯，效度是衡量公平性的重要指標(biāo)。Kunnan (2004) 公平性研究框架由3個(gè)組成部分?jǐn)U展到5個(gè)后，效度依然被認(rèn)為是公平性的一部分。

公平性包含在效度之中，即公平性是測(cè)試效度的重要方面，甚至把公平性稱作可比性效度(comparable validity) (Willingham, Cole 1997:6-7)，是效度的一個(gè)種類?？杀刃孕Ф戎冈谝豁?xiàng)公平的測(cè)試中，測(cè)量誤差與基于測(cè)試結(jié)果對(duì)考生能力的推論對(duì)所有考生來說具有可比性。可比性效度貫穿測(cè)試的整個(gè)過程，涉及考試內(nèi)容的選取、施考困難的避免、相同的評(píng)分過程等方面，無非是盡量避免與構(gòu)念無關(guān)因素的影響與構(gòu)念代表性不足，這兩者也是效度研究的重要方面。

簡(jiǎn)單來講，語言測(cè)試效度與公平性的關(guān)系問題其實(shí)就是如何看待二者重要性的問題。如果研究者把效度和公平性看成是測(cè)試同等重要的兩個(gè)方面，就會(huì)把二者當(dāng)做兩個(gè)并列的獨(dú)立的概念進(jìn)行研究；如果認(rèn)為效度更重要些，就會(huì)把公平性看成是效度的一部分；反之，亦然。

6 結(jié)束語

效度是評(píng)價(jià)一項(xiàng)測(cè)試質(zhì)量的重要指標(biāo)，一直是測(cè)試界的研究主題。近些年來，隨著測(cè)試領(lǐng)域由重視技術(shù)向重視測(cè)試結(jié)果的使用及決策的社會(huì)影響的轉(zhuǎn)變，公平性研究也成為測(cè)試界熱議的話題。但是，學(xué)界在某些問題上還沒有達(dá)成共識(shí)，比如，什么是公平性，如何處理效度與公平性之間的關(guān)系，公平性研究是否有必要，對(duì)最后一個(gè)問題的爭(zhēng)論尤為激烈。2010年，Davies曾撰文回應(yīng)“How do we go about investigating test fairness”(Xi 2010) 一文，認(rèn)為沒有必要進(jìn)行測(cè)試公平性研究，因?yàn)楣叫匝芯颗c效度研究如出一轍，而且根本不可能有測(cè)試公平，測(cè)試公平只是一種幻想(Davies 2010:173-175)。因此，今后的研究應(yīng)多關(guān)注此類問題，深入探究測(cè)試公平性的性質(zhì)、研究?jī)?nèi)容與方法，設(shè)計(jì)出令人信服的研究框架，從而擺脫與效度研究如出一轍的套路。