鄭靜靜
(鄭州成功財(cái)經(jīng)學(xué)院,河南 鞏義 451200)
TEM8人文知識(shí)測(cè)試構(gòu)念效度研究
鄭靜靜
(鄭州成功財(cái)經(jīng)學(xué)院,河南 鞏義 451200)
本文在測(cè)試使用論證理論的指導(dǎo)下,在新的統(tǒng)一效度的框架下,對(duì)英語(yǔ)專業(yè)八級(jí)新增人文知識(shí)題目從難度、區(qū)分度、信度、公正性和考點(diǎn)分布等方面進(jìn)行構(gòu)念效度分析.
人文知識(shí);構(gòu)念效度;AUA框架
從2005年起的英語(yǔ)專業(yè)八級(jí)考試(簡(jiǎn)稱TEM8)在測(cè)試內(nèi)容方面新增加了人文知識(shí)項(xiàng)目. TEM8作為以全面檢查已完成英語(yǔ)專業(yè)高年級(jí)階段課程的學(xué)生的語(yǔ)言能力、語(yǔ)言知識(shí)和專業(yè)知識(shí)為目標(biāo)的大規(guī)模高風(fēng)險(xiǎn)型考試,其改革必將對(duì)學(xué)生、學(xué)校和社會(huì)都要產(chǎn)生很大影響.因此,對(duì)其考試效度的檢驗(yàn)顯得至關(guān)重要.
測(cè)試使用論證理論框架(簡(jiǎn)稱AUA)(Bachman,2005)是從哲學(xué)方法論的角度入手,對(duì)測(cè)試有用性模型(Bachman,1996)的發(fā)展和補(bǔ)充.該框架既涵蓋了原框架的主要內(nèi)容(信度、構(gòu)念效度、真實(shí)性、互動(dòng)性、影響和可行性),也使這些要素在新框架內(nèi)形成相互關(guān)聯(lián)的有機(jī)整體.它對(duì)提升語(yǔ)言測(cè)試的設(shè)、開(kāi)發(fā)和使用都具有非常重要的指導(dǎo)意義.本文正是在測(cè)試使用論證理論的指導(dǎo)下,對(duì)英語(yǔ)專業(yè)八級(jí)人文知識(shí)測(cè)試部分的構(gòu)念效度進(jìn)行研究分析.
效度檢驗(yàn)是確保對(duì)考試分?jǐn)?shù)的合理使用和基于考試分?jǐn)?shù)的推斷有意義的重要手段.根據(jù)Bachman(1996),考試效度驗(yàn)證主要集中在構(gòu)念效度、信度、互動(dòng)性、真實(shí)性、影響和可行性方面.在這種傳統(tǒng)的效度概念中,效度被分為相互獨(dú)立的部分,而構(gòu)念效度只是其中之一.這種分類存在一定欠缺,缺乏對(duì)分?jǐn)?shù)使用的社會(huì)后效以及分?jǐn)?shù)的社會(huì)決策意義的考察(Messick,1995).本研究采用的是新的統(tǒng)一的構(gòu)念效度,它是一種綜合效度概念,彌補(bǔ)了傳統(tǒng)的效度概念的不足,擴(kuò)充了其內(nèi)涵和外延,既對(duì)分?jǐn)?shù)的意義進(jìn)行解釋,也研究測(cè)試使用的社會(huì)價(jià)值.
公正是效度的重要方面.因此,測(cè)試開(kāi)發(fā)者有責(zé)任對(duì)考試分?jǐn)?shù)偏差進(jìn)行分析.本研究采用項(xiàng)目差異功能(簡(jiǎn)稱DIF)來(lái)測(cè)量考試分?jǐn)?shù)偏差.TEM8是全國(guó)性考試,考生來(lái)自于不同背景,而這些背景可能會(huì)影響其分?jǐn)?shù).因此,對(duì)新增加試題的項(xiàng)目差異功能的分析對(duì)于保證考試公平性具有重要意義.
3.1 研究目的
本研究探索所研究TEM8人文知識(shí)試題的構(gòu)念維度并探究其分?jǐn)?shù)的意義;評(píng)估TEM8人文知識(shí)部分?jǐn)?shù)據(jù)的構(gòu)念是否在不同的考生群體中保持一致;檢查人文知識(shí)部分試題對(duì)于不同類別的考生的公正性;分析2011至2013年的人文知識(shí)試題的考點(diǎn),檢驗(yàn)其內(nèi)容效度.
3.2 研究樣本
本次研究以參加2013年3月舉行的英語(yǔ)專業(yè)八級(jí)考試的河南省內(nèi)部分高校的部分考生為樣本,這些考生分別來(lái)自于不同類型的高校,分為綜合性、理工類、師范類、外語(yǔ)類和其他.
3.3 研究數(shù)據(jù)
本研究的數(shù)據(jù)包括兩個(gè)方面,一是2011至2013年的英語(yǔ)專業(yè)八級(jí)人文知識(shí)測(cè)試真題;二是由考試中心提供的2013年考生專八成績(jī)的原始數(shù)據(jù).對(duì)前者進(jìn)行內(nèi)容考點(diǎn)分布即內(nèi)容效度的研究.對(duì)后者采用數(shù)據(jù)分析方法,提供效度依據(jù).
3.4 分析過(guò)程
本研究中,構(gòu)念一致是指測(cè)驗(yàn)的分?jǐn)?shù)在所有考生群體中具有相同的意義.數(shù)據(jù)分析分為以下步驟:(1)探索該分測(cè)驗(yàn)試題的難度系數(shù)及其相關(guān)系數(shù);(2)對(duì)該分測(cè)試的分?jǐn)?shù)的一致性及信度進(jìn)行比較分析;(3)對(duì)不同考生在此測(cè)試題上的的項(xiàng)目功能差異進(jìn)行分析,探究考試的公正性;(4)對(duì)2011-2013年的人文知識(shí)題目的測(cè)試內(nèi)容進(jìn)行考點(diǎn)分析.
4.1 難度系數(shù)及不同學(xué)校類型考生間難度相關(guān)系數(shù)
本研究用分測(cè)試10個(gè)題目在不同類型學(xué)校的項(xiàng)目難度系數(shù)來(lái)代表的是來(lái)自某類院校的考生答正確某試題的比例,與試題的難易程度成反比.根據(jù)數(shù)據(jù)統(tǒng)計(jì)結(jié)果,該分測(cè)試的10個(gè)題目之間難度系數(shù)存在一定差異,在所有參照考生中,難度系數(shù)在0.429到0.901之間,平均難度為0.654,難度的標(biāo)準(zhǔn)差為0.110.這說(shuō)明,試題整體上不難,試題間難易程度相差較大.
由不同院校類型間的難度系數(shù)的相關(guān)系數(shù)數(shù)據(jù)分析得知,其值都在0.9以上,說(shuō)明試題難度在不同類型院校間相關(guān)度較高,即同一道試題對(duì)于不同學(xué)校的考生的難易程度相同.
4.2 信度比較
題目的信度在測(cè)量學(xué)意義上是指分?jǐn)?shù)的一致性.本研究的信度指的是人文知識(shí)不同題目間的內(nèi)部一致性系數(shù),表示的是題目同質(zhì)性的程度,用α系數(shù)表示.
表1 難度系數(shù)的相關(guān)
表2 人文知識(shí)題目?jī)?nèi)部一致性系數(shù)
從上表可以看出,整體考生的α系數(shù)僅0.5125,偏低,說(shuō)明人文知識(shí)測(cè)試不同題目間的的內(nèi)部一致性偏低,α系數(shù)的范圍介于0.5432和0.4675之間,說(shuō)明不同院校類型間此方面差異不大,從而說(shuō)明證明該分測(cè)量的在不同類型院校較穩(wěn)定. 4.3項(xiàng)目差異功能分析
為了確??荚嚨墓?,本研究對(duì)不同背景不同專業(yè)類型的考生進(jìn)行項(xiàng)目功能差異分析.STD P-DIF取值范圍為{-1,1},其中在{-0.05,+0.05}范圍內(nèi)的值被看做有細(xì)微差異,取值范圍在{-0.10,-0.05}和{0.05,0.1}兩個(gè)范圍內(nèi)就要引起注意,而如果所得值在{-0.1,+0.1}以上,被視為異常,該項(xiàng)目功能就需要仔細(xì)審查.其中而負(fù)值表示題目對(duì)目標(biāo)組不利,正值表示題目對(duì)參照組不利.
分析結(jié)果如下:
按照專業(yè)類型,有四道試題的STD p-dif統(tǒng)計(jì)量為負(fù)數(shù),表明這些題目對(duì)目標(biāo)組(外語(yǔ)院??忌?不利,而其他試題的STD p-dif統(tǒng)計(jì)量為正數(shù),對(duì)參照組(非外語(yǔ)院??忌?不利,但沒(méi)有在(-0.1,+0. 1)以上的值,不利程度不大.按照專業(yè)類型分析,從上表可以看出,大部分題目的DIF值為正數(shù),說(shuō)明大部分題目對(duì)目標(biāo)組(外語(yǔ)專業(yè)本科)有利,也沒(méi)有在(-0.1,+0.1)以上的值,說(shuō)明這種有利性不顯著.這說(shuō)明不同學(xué)校類型、不同專業(yè)類型的考生在該分測(cè)試上也沒(méi)有明顯的項(xiàng)目功能差異存在,該分項(xiàng)測(cè)試具有對(duì)于不同背景的考生是公正的.
表3 人文知識(shí)分測(cè)量STD p-dif統(tǒng)計(jì)量
4.4 考點(diǎn)分布
本研究分析了近三年英語(yǔ)專業(yè)八級(jí)的考點(diǎn)分布,其結(jié)果如下表:
以2011、2012、2013年TEM8真題為例,2011年10道選擇題中人文地理知識(shí)共占3道,文學(xué)知識(shí)占4道,語(yǔ)言學(xué)知識(shí)占3道;2012年10道選擇題中人文地理知識(shí)占4道,文學(xué)知識(shí)占2道,語(yǔ)言學(xué)知識(shí)占4道;2013年10道選擇題中人文地理知識(shí)占4道,文學(xué)知識(shí)占3道,語(yǔ)言學(xué)知識(shí)占3道.通過(guò)此部分近三年的TEM真題可以看出,人文知識(shí)、文學(xué)知識(shí)以及語(yǔ)言學(xué)知識(shí)這三部分的分值比重并不固定,在內(nèi)容方面,人文地理主要考查美國(guó)、英國(guó)、澳大利亞、加拿大、新西蘭等國(guó)家概況,文學(xué)方面主要考查小說(shuō)和詩(shī)歌,尤其偏重英美作家作品,語(yǔ)言學(xué)方面題目近三年涉及較多的是社會(huì)語(yǔ)言學(xué)和詞匯學(xué),也考察了語(yǔ)音學(xué)、形態(tài)學(xué),甚至近些年比較熱門的認(rèn)知語(yǔ)言學(xué)也在考察范圍之內(nèi).這些考題的設(shè)計(jì),內(nèi)容廣泛,層次多樣,滿足了《考綱》對(duì)此部分考查目的的要求.通過(guò)這一部分的測(cè)試,能夠有效檢測(cè)出考生的人文知識(shí)掌握能力.
表4 2011年至2013年八級(jí)考試人文知識(shí)試題題目的考點(diǎn)分布
研究發(fā)現(xiàn),TEM8人文知識(shí)測(cè)試的大部分題目難度不高,題目區(qū)分度不顯著,內(nèi)部一致性偏低;對(duì)不同群體測(cè)試的構(gòu)念一致;在項(xiàng)目功能差異方面該測(cè)試對(duì)不同院校不同專業(yè)的考生差異表現(xiàn)不明顯,說(shuō)明考試具有較高的公平、公正性;在構(gòu)念維度方面,人文知識(shí)考試包括三個(gè)維度,即英語(yǔ)國(guó)家概況、語(yǔ)言學(xué)和英美文學(xué),這與《考試大綱》要求相符;內(nèi)容方面,英語(yǔ)國(guó)家概況比較偏重地理的考察,文學(xué)方面對(duì)于英美作家作品的考察較多,語(yǔ)言學(xué)方面偏重對(duì)于社會(huì)語(yǔ)言學(xué)和語(yǔ)音學(xué)方面的考察.
本研究是在Bachman測(cè)試使用論證的指導(dǎo)下對(duì)英語(yǔ)專業(yè)八級(jí)人文知識(shí)試題的構(gòu)念效度進(jìn)行分析,研究結(jié)果對(duì)于考試的設(shè)計(jì)和改革具有一定的參考價(jià)值,對(duì)于語(yǔ)言測(cè)試的效度驗(yàn)證也有一些參考意義.但由于受客觀條件的限制,本研究在操作方面存在一些局限,比如抽樣只局限在河南省的部分高校,試題范圍只是近三年的專八試題,研究結(jié)果具有一定的實(shí)際意義但代表性不夠等,需要更多研究者加以完善.
〔1〕Bachman,L.F.,&Palmer,A.(1996).Language testing in practice.Oxford:Oxford U-niversity Press.
〔2〕Bachman,L.F.(2005).Building and supporting a case for test use.Language Assessment Quarterly,2(1),1-34.
〔3〕Messick,S.(1996).Validity and Washback in Language Testing.Princeton:ETS.
〔4〕高等英語(yǔ)專業(yè)八級(jí)考試大綱修訂小組.高等英語(yǔ)專業(yè)八級(jí)考試大綱(2004年新版)[Z].上海:上海外語(yǔ)教育出版社,2004.
〔5〕鄒申.TEM考試效度研究[M].上海:上海外語(yǔ)教育出版社,1997.
H319
A
1673-260X(2014)07-0256-03
河南省社科聯(lián)、河南省經(jīng)團(tuán)聯(lián)2013年度調(diào)研課題(SKL-2013-1525)