• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      語言測(cè)試效度與公平性研究*

      2018-09-11 00:54:50姜秀娟
      外語學(xué)刊 2018年1期
      關(guān)鍵詞:構(gòu)念公平性效度

      姜秀娟

      (曲阜師范大學(xué),曲阜 276826;北京外國(guó)語大學(xué),北京 100089)

      提 要:效度是評(píng)判一項(xiàng)測(cè)試質(zhì)量的重要指標(biāo),而公平性又是效度的重要保證。本文結(jié)合測(cè)試效度觀及其驗(yàn)證模式的發(fā)展變化,對(duì)近50年來語言測(cè)試公平性觀念及其研究模式在分類、整體、論證3種效度觀時(shí)期的演變進(jìn)行梳理與思考,發(fā)現(xiàn)語言測(cè)試公平性研究采取的幾乎是與效度研究一樣的進(jìn)路,學(xué)界對(duì)公平性研究的必要性存在爭(zhēng)議。在以上分析的基礎(chǔ)上,本文總結(jié)二者之間的關(guān)系,并指出未來測(cè)試公平性研究應(yīng)繼續(xù)努力的方向。

      1 引言

      測(cè)試公平性研究始于20世紀(jì)60年代,80至90年代被廣泛關(guān)注(Zieky 2006:360),是測(cè)試領(lǐng)域一個(gè)新興的熱點(diǎn)話題。長(zhǎng)期以來,效度是評(píng)判一項(xiàng)測(cè)試質(zhì)量的重要指標(biāo),而公平性又是效度的重要保證,二者交織在一起,不可分割(同上:359)。80年代中期以來,有關(guān)測(cè)試公平的觀點(diǎn)、標(biāo)準(zhǔn)、文件不斷涌現(xiàn),專門探討測(cè)試公平性問題的高層次學(xué)術(shù)會(huì)議也相繼召開,測(cè)試公平性的重要性可見一斑。那么,公平性到底是什么,如何研究或檢驗(yàn)一項(xiàng)測(cè)試的公平性?語言測(cè)試效度觀及其驗(yàn)證模式的變化對(duì)公平性觀念及其研究模式產(chǎn)生怎樣的影響?語言測(cè)試公平性與效度有怎樣的關(guān)系?為了回答以上問題,本文結(jié)合測(cè)試效度觀及其驗(yàn)證模式的發(fā)展變化,對(duì)語言測(cè)試公平性觀念及其研究模式在分類、整體、論證3種效度觀時(shí)期的演變進(jìn)行梳理與思考,并指出語言測(cè)試公平性研究的未來趨勢(shì)。

      2 效度分類觀與語言測(cè)試公平性研究模式

      20世紀(jì)50年代之前,教育與心理測(cè)量學(xué)普遍堅(jiān)持“相關(guān)即有效”的效度觀(韓寶成 羅凱洲 2013:412)。但是,要想確定那個(gè)“相關(guān)”的東西絕非易事,因?yàn)橐豁?xiàng)測(cè)試可以與很多種事物相關(guān)。于是,不同類型的效度應(yīng)運(yùn)而生。1954年,美國(guó)心理學(xué)會(huì)(APA) 在《關(guān)于心理測(cè)驗(yàn)和診斷的技術(shù)建議》(TechnicalRecommendationsforPsychologicalTestsandDiagnosticTechniques)中,將效度分為4種:預(yù)測(cè)效度(predictive validity)、共時(shí)效度(concurrent validity)、內(nèi)容效度(content validity)和構(gòu)念效度(construct validity)。1966年,《教育與心理測(cè)驗(yàn)的標(biāo)準(zhǔn)與指南》(StandardsforEducationalandPsychologicalTestsandManuals) (AERA et al.) 把預(yù)測(cè)和共時(shí)合并為校標(biāo)關(guān)聯(lián)效度(criterion-related validity)。

      1961年,Lado在現(xiàn)代語言測(cè)試的奠基之作《語言測(cè)試》(LanguageTesting)中首次將教育與心理測(cè)量學(xué)領(lǐng)域的效度概念引入語言測(cè)試領(lǐng)域,指出“效度本質(zhì)上是一種關(guān)聯(lián)。一項(xiàng)測(cè)試是否測(cè)量到它要測(cè)量的東西。如果答案是肯定的,那么它就是有效的”。之后,語言測(cè)試領(lǐng)域紛紛效仿Lado 的觀點(diǎn)定義效度(如Valette 1967;Harris 1969; Heaton 1975; Finocchiaro, Sako 1983)。Heaton (1975: 153) 將語言測(cè)試效度分為表面效度、內(nèi)容效度、構(gòu)念效度和實(shí)證效度。這一時(shí)期的語言測(cè)試效度驗(yàn)證模式主要采取Lado提出的方法,如選擇、設(shè)計(jì)與內(nèi)容相關(guān)、與學(xué)習(xí)問題相關(guān)的題目;修改因非語言因素引起難度增加的試題;使用一項(xiàng)有效的測(cè)試和自己開發(fā)的測(cè)試,對(duì)一組有代表性的學(xué)生樣本進(jìn)行測(cè)試,計(jì)算兩次測(cè)試成績(jī)間的相關(guān)系數(shù),從而確定測(cè)試效度(Lado 1961:328-329)。分析測(cè)試內(nèi)容、計(jì)算校標(biāo)關(guān)聯(lián)系數(shù)是這一時(shí)期進(jìn)行語言測(cè)試效度研究的主要方法(韓寶成 羅凱洲 2013:413)。

      那么,如何分析測(cè)試內(nèi)容,如何保證測(cè)試題目與測(cè)試構(gòu)念相關(guān),如何確定測(cè)試題目中沒有包含與測(cè)試構(gòu)念無關(guān) (construct-irrelevant) 的因素?這些問題是該時(shí)期語言測(cè)試效度驗(yàn)證過程中必須解決的,對(duì)這些問題的回答也使測(cè)試專家學(xué)者開始關(guān)注測(cè)試公平性問題。早期的語言測(cè)試文獻(xiàn)只是將測(cè)試公平性等同于測(cè)試中的題目對(duì)不同的考生群體不存在偏頗(bias)(AERA et al. 1985)。測(cè)試偏頗(test bias) 指具有相同能力的不同群體的考生在相同題目上的得分不同。換句話說,測(cè)試偏頗就是與測(cè)試構(gòu)念無關(guān)的考生特征(如性別、種族、社會(huì)經(jīng)濟(jì)地位等)對(duì)考生的考試成績(jī)產(chǎn)生系統(tǒng)性的影響(McNamara, Roever 2006:82)。測(cè)試偏頗一般采用項(xiàng)目功能差異(Differential Item Functioning, DIF) 研究。如果研究顯示測(cè)試題目存在DIF,就要確定DIF存在的原因是否與測(cè)試構(gòu)念無關(guān)因素有關(guān),如果有關(guān),則說明試題存在偏頗,從而影響測(cè)試的公平性,必須去除或修改導(dǎo)致偏頗的題目。美國(guó)教育測(cè)試服務(wù)中心 ( Educational Testing Service, ETS) 1986 年規(guī)定,在測(cè)試開發(fā)的過程中,為保證測(cè)試較高的效度和公平性,除了對(duì)編制的題目進(jìn)行常規(guī)的項(xiàng)目分析外,還必須進(jìn)行項(xiàng)目功能差異研究。受這一時(shí)期效度驗(yàn)證模式的影響,偏頗研究只是從技術(shù)的角度,對(duì)試題的心理測(cè)量學(xué)屬性進(jìn)行統(tǒng)計(jì)分析,控制與測(cè)試構(gòu)念無關(guān)的因素,從而為效度驗(yàn)證提供數(shù)據(jù)和技術(shù)支持。20世紀(jì)80年代末,隨著效度分類觀向效度整體觀的轉(zhuǎn)變,測(cè)試領(lǐng)域?qū)叫缘恼J(rèn)識(shí)也發(fā)生變化,公平性研究模式也隨之發(fā)生改變。

      3 效度整體觀與語言測(cè)試公平性研究模式

      20世紀(jì)80年代,隨著效度研究的不斷深入,教育測(cè)量界發(fā)現(xiàn)基于分類方法進(jìn)行測(cè)試的效度驗(yàn)證所得結(jié)果太零散,也沒有考慮考試成績(jī)的價(jià)值含義及考試成績(jī)使用的社會(huì)后果。基于此,Messick (1988, 1989)提出整體效度概念(unitary concept of validity),認(rèn)為效度只有一個(gè),即構(gòu)念效度,而證明效度的證據(jù)可來自多方面,并用分層效度框架(又稱效度漸進(jìn)矩陣 (progressive matrix))進(jìn)行說明(參見表1)。

      構(gòu)念效度構(gòu)念效度+相關(guān)性/實(shí)用性價(jià)值含義社會(huì)后果

      分層效度框架由測(cè)試解釋、測(cè)試使用、證據(jù)基礎(chǔ)和后果基礎(chǔ)4個(gè)維度構(gòu)成。Messick的“一元多維”效度整體觀更新人們的測(cè)試效度驗(yàn)證觀念,自此,效度驗(yàn)證不僅僅是對(duì)測(cè)試本身及分?jǐn)?shù)的評(píng)價(jià),還包括對(duì)測(cè)試結(jié)果解釋和使用的評(píng)價(jià)。但是,Messick 的“一元多維”效度理論太抽象,不能有效地指導(dǎo)測(cè)試效度驗(yàn)證。為解決操作性問題,Bachman和Palmer(1996)提出測(cè)試的有用性框架(test usefulness framework),通俗易懂地詮釋Messick的效度理論。測(cè)試有用性框架包括信度(reliability)、構(gòu)念效度、真實(shí)性(authenticity)、交互性(interactiveness)、影響力(impact)和可行性(practicality)6個(gè)要素。信度指一項(xiàng)考試結(jié)果的穩(wěn)定性;構(gòu)念效度指對(duì)考試分?jǐn)?shù)解釋在多大程度上是有意義的、適切的;真實(shí)性指考試任務(wù)特征與目標(biāo)語言使用任務(wù)特征的一致性程度;交互性指考生完成測(cè)試任務(wù)時(shí),參與其中的個(gè)人特質(zhì)類型和程度;影響力指考試對(duì)個(gè)人、教育制度以及整個(gè)社會(huì)產(chǎn)生的影響;可行性指設(shè)計(jì)、開發(fā)和使用一項(xiàng)測(cè)試所需資源與可用資源間的關(guān)系。隨后的十幾年中,該框架是語言測(cè)試效度驗(yàn)證的權(quán)威模式 (Weigle 2002),在指導(dǎo)語言測(cè)試的開發(fā)和使用方面發(fā)揮重要作用。

      測(cè)試效度觀念及其驗(yàn)證模式的改變,使人們意識(shí)到偏頗研究只是屬于Messick (1989)分層效度框架中的證據(jù)基礎(chǔ)維度,公平性應(yīng)該包括更廣闊的研究?jī)?nèi)容,比如測(cè)試的社會(huì)價(jià)值與影響。而且,1999年版的《教育與心理測(cè)量標(biāo)準(zhǔn)》(以下簡(jiǎn)稱《標(biāo)準(zhǔn)》)專設(shè)一個(gè)部分討論測(cè)試公平性,將公平性定義為無偏頗、考試過程公平、基于考試結(jié)果的決策公平以及學(xué)習(xí)機(jī)會(huì)均等。具體來講,無偏頗就是控制構(gòu)念代表性不足(construct under-representation)及與構(gòu)念無關(guān)的因素(construct-irrelevant variance),消除影響構(gòu)念效度的偏頗。比如,要保證內(nèi)容樣本的覆蓋面、所有考生都熟悉答題形式等??荚囘^程公平指在施考過程中平等對(duì)待所有考生,考生要有相同的機(jī)會(huì)展示自己的能力?;诳荚嚱Y(jié)果的決策公平指不同考生群體的考試結(jié)果具有可比性,能力相同的考生應(yīng)享有同等的選拔機(jī)會(huì)。學(xué)習(xí)機(jī)會(huì)均等主要指在標(biāo)準(zhǔn)參照考試中,考生有相同的機(jī)會(huì)學(xué)習(xí)考試內(nèi)容和接觸復(fù)習(xí)資料,尤其是考試成績(jī)用于決定是否留級(jí)或頒發(fā)證書時(shí),學(xué)習(xí)機(jī)會(huì)均等更顯重要。因此,測(cè)試專家學(xué)者開始構(gòu)建更為全面的公平性研究框架。

      2000年,Kunnan在Messick整體效度觀的指導(dǎo)下,以社會(huì)正義理論(Jensen 1980) 和《教育公平測(cè)試行為準(zhǔn)則》(JCTP 1988)為基礎(chǔ),參考1999年版的《標(biāo)準(zhǔn)》中關(guān)于測(cè)試使用、考生權(quán)利和責(zé)任、考生語言多樣化以及殘疾考生等涉及公平性話題的論述,進(jìn)一步擴(kuò)展傳統(tǒng)的測(cè)試公平性研究范圍,提出新的公平性研究框架。該框架包括效度、機(jī)會(huì)均等和公正性3個(gè)組成部分。其中,效度關(guān)注構(gòu)念效度、考試內(nèi)容與形式的偏頗、試題的差異效應(yīng)、考試材料中語言使用的恰當(dāng)性以及哪些考生群體處于不利地位;機(jī)會(huì)均等關(guān)注考試費(fèi)用、考場(chǎng)選址、考試設(shè)備和條件是否有利于所有考生,考生受教育機(jī)會(huì)是否均等則關(guān)注對(duì)殘疾考生是否有特殊待遇;公正性關(guān)注社會(huì)公正及法律挑戰(zhàn)??梢钥闯?,Kunnan的測(cè)試公平性研究框架不再局限于心理測(cè)量學(xué)屬性,已經(jīng)擴(kuò)展至社會(huì)、道德、法律和哲學(xué)層面(Kunnan 2000:5)。2004年,Kunnan對(duì)其2000年的公平性研究框架進(jìn)行修改和完善,增加施考條件和社會(huì)后果兩個(gè)部分。至此,測(cè)試公平性研究框架更加全面、更加深入,由原來的3個(gè)組成部分?jǐn)U展到5個(gè),形成由效度、機(jī)會(huì)均等、公正性、施考條件和社會(huì)后果構(gòu)成的新框架,完全契合整體效度觀的精神及其效驗(yàn)?zāi)J?。該框架成為近年來語言測(cè)試公平性研究的主要依據(jù)。2009年,Kunnan又提出測(cè)試環(huán)境框架(the Test Context Framework),該框架試圖從政治、教育、文化、社會(huì)、經(jīng)濟(jì)、法律和歷史等諸多方面審視一項(xiàng)測(cè)試,同年,Kunnan用美國(guó)公民入籍考試(the Naturalization Test)為例從3個(gè)方面對(duì)測(cè)試的公平性進(jìn)行探討:(1)測(cè)試的要求和目的:該考試的要求和目的是否有意義;(2)測(cè)試的理論基礎(chǔ)、內(nèi)容和操作:該考試是否能夠測(cè)出英語語言能力以及關(guān)于美國(guó)歷史與政府的知識(shí);(3)測(cè)試后果:該考試是否能夠帶來民族主義或社會(huì)融合。通過分析以上3個(gè)方面,Kunnan發(fā)現(xiàn),此項(xiàng)美國(guó)公民入籍考試是20世紀(jì)50年代美國(guó)特定歷史時(shí)期的產(chǎn)物,已經(jīng)不符合時(shí)代要求,也不符合美國(guó)法律規(guī)定,因此,該考試的實(shí)施和分?jǐn)?shù)的使用無意義。另外,該考試也測(cè)不出考生是否具有“民族主義”或“社會(huì)融合”能力,也就是說,該考試的內(nèi)容和理論基礎(chǔ)與預(yù)測(cè)構(gòu)念不相關(guān)??梢姡摽荚噷?duì)考生而言不公平。

      但是,隨著測(cè)試效度及其驗(yàn)證模式研究的深入,人們發(fā)現(xiàn)Bachman和Palmer (1996) 測(cè)試有用性框架的6大要素間缺少關(guān)聯(lián),效度驗(yàn)證只是證據(jù)的簡(jiǎn)單羅列,而且無從知曉證據(jù)收集從哪兒開始,到哪兒結(jié)束。對(duì)測(cè)試有用性框架“重操作性、輕連貫性”缺陷的認(rèn)識(shí),也使人們意識(shí)到Kunnan (2004)測(cè)試公平性框架存在同樣問題,該框架的5個(gè)組成部分沒有形成一個(gè)連貫的令人信服的測(cè)試公平性論證(Bachman 2005)。Kunnan (2009) 框架也沒有解決這一問題,無法為測(cè)試公平性的評(píng)估和實(shí)證研究提供切實(shí)有效的指導(dǎo)(Xi 2010)。如何明確語言測(cè)試公平性各要素間的關(guān)系;如何整合各類證據(jù),使它們成為一個(gè)連貫的相互聯(lián)系的整體?人們期待新觀點(diǎn)新模式的出現(xiàn)。

      4 效度論證觀與語言測(cè)試公平性研究模式

      1999年版的《標(biāo)準(zhǔn)》把效度定義為“證據(jù)及理論對(duì)測(cè)試分?jǐn)?shù)解釋與使用的支持程度”,指出效度驗(yàn)證就是對(duì)“分?jǐn)?shù)的預(yù)期解釋與使用的論證” (AERA et al. 1999:9)。但是,在效度驗(yàn)證中如何組織證據(jù),該版《標(biāo)準(zhǔn)》沒有給出一個(gè)可供參考的論證模式,效度驗(yàn)證基本上采取證據(jù)羅列模式。當(dāng)然,教育測(cè)量界并沒有停止探索效度驗(yàn)證中的證據(jù)組織方法(如Kane 1992, 2002, 2004, 2006;Kane et al. 1999; Mislevy et al. 2002, 2003),最終將Toulmin (2003) 的實(shí)用推理模型(practical reasoning model)(參見圖1)用于效度驗(yàn)證,提出基于論證的驗(yàn)證模式(argument-based approach to validation)。該模式明確收集證據(jù)的類別與數(shù)量,效度證據(jù)的組織也不再是簡(jiǎn)單的羅列,而是形成一個(gè)環(huán)環(huán)相扣的證據(jù)鏈,使效度驗(yàn)證成為一個(gè)有始有終、邏輯嚴(yán)密的論證過程。

      圖1 Toulmin的實(shí)用推理模型(改自Toulmin 2003:97)

      典型的基于論證的效度驗(yàn)證模式有兩個(gè),一個(gè)是Kane (2006)的解釋性論證(interpretive argument)與效度論證(validity argument)。該模式分兩步:第一步,搭建理論框架(解釋性論證)(參見圖2);第二步,檢驗(yàn)理論框架(效度論證)。另一個(gè)是Bachman和Palmer(2010) 的測(cè)試使用論證(Assessment Use Argument, 簡(jiǎn)稱AUA)(參見圖3)。

      近年來,隨著測(cè)試效度論證觀的出現(xiàn)及其驗(yàn)證模式轉(zhuǎn)變,測(cè)試學(xué)界也紛紛從論證的角度對(duì)語言測(cè)試公平性進(jìn)行研究,提出基于論證的公平性研究模式,如Xi (2010)的公平性論證框架(Fairness Argument Framework)。Xi認(rèn)為,測(cè)試公平性指測(cè)試所有環(huán)節(jié)對(duì)所有的相關(guān)考生群體具有相同的有效性,即對(duì)于所有相關(guān)考生群體而言,與構(gòu)念無關(guān)因素、構(gòu)念代表性不足、不一致的施測(cè)行為以及不恰當(dāng)?shù)臎Q策程序或測(cè)試結(jié)果的使用,對(duì)考試分?jǐn)?shù)及其解釋以及基于分?jǐn)?shù)所作的決定與后果不會(huì)產(chǎn)生系統(tǒng)性的影響(Xi 2010:154)?;谠摱x,Xi提出研究公平性的框架——公平性論證框架,該框架內(nèi)嵌于效度論證框架,稱作“效度論證中的公平性論證”,并用TOEFL iBT 為例進(jìn)行說明(同上:155)。Xi的效度論證包含6個(gè)分論證(sub-argument):(1)證據(jù)表明目標(biāo)語言使用域能夠提供對(duì)考生測(cè)試表現(xiàn)進(jìn)行觀察的有意義的基礎(chǔ);(2)證據(jù)表明觀察分是考生目標(biāo)語言使用的反映,而不是構(gòu)念無關(guān)因素的反映;(3)證據(jù)表明觀察分具有概推性,即考生在類似的其他考試中得分相同;(4)證據(jù)表明觀察分的概推性是有理論基礎(chǔ)的,即是基于構(gòu)念的推論;(5)證據(jù)表明構(gòu)念能夠解釋非測(cè)試環(huán)境下的目標(biāo)語言使用;(6)證據(jù)表明基于考試結(jié)果對(duì)考生語言能力水平的判斷具有相關(guān)性,對(duì)決策具有有用性與充足性(同上:156-157)。可見,Xi(2010)的效度論證框架經(jīng)過目標(biāo)域的界定(Domain definition)、評(píng)價(jià)(Evaluation)、概化(Generalization)、解釋(Explanation)、外推(Extrapolation)與使用(Utilization)6次推論,從考生的測(cè)試表現(xiàn)到基于測(cè)試結(jié)果對(duì)考生語言能力的判斷與使用形成一個(gè)嚴(yán)密而連貫的推論鏈,從而明確證據(jù)收集的起點(diǎn)、終點(diǎn)、數(shù)量與種類,在此過程中也完成測(cè)試的公平性論證,每次效度論證和公平性論證都采用Toulmin (2003) 的實(shí)用推理模型,由事實(shí)、主張、理由、證據(jù)、假設(shè)以及反駁構(gòu)成。其中,反駁有兩類,一類是對(duì)所有考生來說,由于缺乏相應(yīng)的反面證據(jù)(counter-evidence)而使結(jié)論的說服力減弱;另一類是指對(duì)特定考生群體而言,結(jié)論是無效的或是站不住腳的(Xi 2010: 158-164)。Xi就效度論證中外推環(huán)節(jié)的公平性論證以TOEFL iBT為例進(jìn)行說明(參見圖4)(Xi 2010:165)。

      圖2 解釋性論證的推理鏈(改自Kane 2006, Bachman 2005)

      圖3 AUA框架(Bachman, Palmer 2010:91)

      圖4 效度論證外推環(huán)節(jié)中的公平性論證舉例(改自Xi 2010:165)

      5 語言測(cè)試效度與公平性的關(guān)系

      通過以上分析可以看出,語言測(cè)試公平性及其研究模式隨著語言測(cè)試效度及其驗(yàn)證模式的變化而變化,二者之間的關(guān)系較復(fù)雜,學(xué)界存在3種觀點(diǎn):二者是并列的、效度包含在公平性之中以及公平性包含在效度之中。

      語言測(cè)試效度與公平性是并列的,即二者分別是一個(gè)獨(dú)立的概念。首先,1999版的《標(biāo)準(zhǔn)》對(duì)二者分別給出定義(見前文)。從兩個(gè)定義來看,二者沒有直接聯(lián)系且各有側(cè)重:前者偏重檢驗(yàn)分?jǐn)?shù)解釋和使用是否有意義,后者著重衡量考生在考試的設(shè)計(jì)、開發(fā)和使用過程中是否享受平等待遇。再者,《教育公平測(cè)試實(shí)踐規(guī)范》(CodeofFairTestingPracticesinEducation2004)也明確規(guī)定測(cè)試開發(fā)者與使用者對(duì)整個(gè)測(cè)試過程進(jìn)行獨(dú)立的公平性研究,具體包括試卷的編制與題目的選擇、考試的實(shí)施與評(píng)分、分?jǐn)?shù)的報(bào)道與解釋以及考試信息的反饋4個(gè)環(huán)節(jié)。

      效度包含在公平性之中,即效度被看成是公平性的一部分。比如Kunnan(2000) 的公平性研究框架包括效度、機(jī)會(huì)均等和公正性3個(gè)組成部分,很明顯,效度是衡量公平性的重要指標(biāo)。Kunnan (2004) 公平性研究框架由3個(gè)組成部分?jǐn)U展到5個(gè)后,效度依然被認(rèn)為是公平性的一部分。

      公平性包含在效度之中,即公平性是測(cè)試效度的重要方面,甚至把公平性稱作可比性效度(comparable validity) (Willingham, Cole 1997:6-7),是效度的一個(gè)種類??杀刃孕Ф戎冈谝豁?xiàng)公平的測(cè)試中,測(cè)量誤差與基于測(cè)試結(jié)果對(duì)考生能力的推論對(duì)所有考生來說具有可比性。可比性效度貫穿測(cè)試的整個(gè)過程,涉及考試內(nèi)容的選取、施考困難的避免、相同的評(píng)分過程等方面,無非是盡量避免與構(gòu)念無關(guān)因素的影響與構(gòu)念代表性不足,這兩者也是效度研究的重要方面。

      簡(jiǎn)單來講,語言測(cè)試效度與公平性的關(guān)系問題其實(shí)就是如何看待二者重要性的問題。如果研究者把效度和公平性看成是測(cè)試同等重要的兩個(gè)方面,就會(huì)把二者當(dāng)做兩個(gè)并列的獨(dú)立的概念進(jìn)行研究;如果認(rèn)為效度更重要些,就會(huì)把公平性看成是效度的一部分;反之,亦然。

      6 結(jié)束語

      效度是評(píng)價(jià)一項(xiàng)測(cè)試質(zhì)量的重要指標(biāo),一直是測(cè)試界的研究主題。近些年來,隨著測(cè)試領(lǐng)域由重視技術(shù)向重視測(cè)試結(jié)果的使用及決策的社會(huì)影響的轉(zhuǎn)變,公平性研究也成為測(cè)試界熱議的話題。但是,學(xué)界在某些問題上還沒有達(dá)成共識(shí),比如,什么是公平性,如何處理效度與公平性之間的關(guān)系,公平性研究是否有必要,對(duì)最后一個(gè)問題的爭(zhēng)論尤為激烈。2010年,Davies曾撰文回應(yīng)“How do we go about investigating test fairness”(Xi 2010) 一文,認(rèn)為沒有必要進(jìn)行測(cè)試公平性研究,因?yàn)楣叫匝芯颗c效度研究如出一轍,而且根本不可能有測(cè)試公平,測(cè)試公平只是一種幻想(Davies 2010:173-175)。因此,今后的研究應(yīng)多關(guān)注此類問題,深入探究測(cè)試公平性的性質(zhì)、研究?jī)?nèi)容與方法,設(shè)計(jì)出令人信服的研究框架,從而擺脫與效度研究如出一轍的套路。

      猜你喜歡
      構(gòu)念公平性效度
      自我構(gòu)念在認(rèn)知和情緒加工中的作用及其生理機(jī)制
      心理研究(2020年6期)2020-11-30 04:40:48
      慈善募捐規(guī)制中的國(guó)家與社會(huì):兼論《慈善法》的效度和限度
      英語深讀教學(xué)讀思言模型構(gòu)念與實(shí)踐研究
      一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機(jī)制
      中國(guó)大學(xué)英語考試能力構(gòu)念三十年之嬗變
      公平性問題例談
      被看重感指數(shù)在中國(guó)大學(xué)生中的構(gòu)念效度
      關(guān)于公平性的思考
      外語形成性評(píng)估的效度驗(yàn)證框架
      華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版)(2014年1期)2014-02-27 13:48:36
      宁津县| 桂阳县| 永昌县| 阿克陶县| 潮州市| 石台县| 崇礼县| 正镶白旗| 界首市| 巴彦淖尔市| 宣城市| 靖安县| 绥宁县| 紫阳县| 安西县| 铁岭县| 成安县| 额敏县| 凭祥市| 荣成市| 夏邑县| 奇台县| 正镶白旗| 志丹县| 芒康县| 周至县| 宁远县| 应用必备| 大悟县| 台北市| 西安市| 湖南省| 阿拉尔市| 乐清市| 庆云县| 五大连池市| 萨嘎县| 永福县| 武功县| 昭通市| 侯马市|