大學(xué)英語(yǔ)機(jī)考的多元概化理論分析

2018-01-25 10:02:09王天劍

商丘師范學(xué)院學(xué)報(bào) 2018年2期

王天劍

(貴州財(cái)經(jīng)大學(xué) 外國(guó)語(yǔ)學(xué)院，貴州貴陽(yáng) 550004)

一、引言

隨著計(jì)算機(jī)應(yīng)用的逐漸普及，大學(xué)英語(yǔ)考試方式也開始向機(jī)考(計(jì)算機(jī)輔助考試)方向轉(zhuǎn)變。機(jī)考不僅可以節(jié)約資源，節(jié)省閱卷工作量，而且可以通過隨機(jī)組卷，減少學(xué)生舞弊的機(jī)會(huì)。為了保證生成大量不同試卷，機(jī)考測(cè)試前需要準(zhǔn)備容量充足的題庫(kù)。目前高校英語(yǔ)機(jī)考題庫(kù)來源各不相同，部分學(xué)校采用的是商業(yè)機(jī)構(gòu)提供的專用題庫(kù)，更多學(xué)校采用的是任課教師集體創(chuàng)建的題庫(kù)。題庫(kù)的質(zhì)量直接影響到考試的信度和效度，為考查某高校教師自建大學(xué)英語(yǔ)機(jī)考題庫(kù)的質(zhì)量，本研究借助概化理論，對(duì)一次英語(yǔ)機(jī)考成績(jī)進(jìn)行多元分析。

概化理論從本質(zhì)上講是一種信度理論[1]1。它是在方差分析(ANOVA)與經(jīng)典測(cè)量(Classical Test Theory: CTT)技術(shù)基礎(chǔ)上，逐步拓展而來的理論體系[2] [3]1。按照CTT，測(cè)量結(jié)果包含真分?jǐn)?shù)與測(cè)量誤差兩部分。利用ANOVA，概化理論進(jìn)一步將誤差分解為不同來源成分，考查各自比重[4] [5]393-402，并估算概化系數(shù)以及可靠性指數(shù)。這兩種參數(shù)類似于CTT的信度，其中概化系數(shù)用于顯示，測(cè)量結(jié)果用于將對(duì)象排序時(shí)的穩(wěn)定性(相對(duì)信度)；可靠性指數(shù)用于衡量，測(cè)量結(jié)果用于了解對(duì)象絕對(duì)水平時(shí)的可靠性(絕對(duì)信度)。如下公式(1)(2)分別用于概化系數(shù)及可靠性指數(shù)計(jì)算：

(1)

(2)

ρ2和Ф代表概化系數(shù)與可靠性指數(shù)，σ2(τ)是測(cè)量對(duì)象的全域分方差，σ2(δ)系相對(duì)誤差方差；σ2(Δ)系絕對(duì)誤差方差[6]。

概化分析涉及一系列專業(yè)概念。主要包括：(1)側(cè)面。它是構(gòu)成測(cè)量條件的諸多因素(類似于方差分析中的自變量)，例如，測(cè)量地點(diǎn)、測(cè)量時(shí)間、測(cè)量方式、評(píng)分員特征、受試者特征、測(cè)量題目等均可視為側(cè)面，只要研究者有意探究這些因素的影響。(2)觀察設(shè)計(jì)。它是指測(cè)量中，側(cè)面之間形成的不同結(jié)構(gòu)關(guān)系，如交叉關(guān)系(一個(gè)側(cè)面的每個(gè)水平，均與其他側(cè)面的每個(gè)水平相碰)、套嵌關(guān)系(一個(gè)側(cè)面的不同水平，僅與另一個(gè)側(cè)面的一個(gè)水平結(jié)合)、復(fù)雜的交叉套嵌組合關(guān)系，等等。(3)估計(jì)設(shè)計(jì)。估計(jì)設(shè)計(jì)回答的問題是，各個(gè)側(cè)面是以多少個(gè)水平估計(jì)多大的全域(分三種情況：有限全域中的水平全部用于估計(jì)，有限全域中的水平被隨機(jī)抽樣用于估計(jì)，無限全域中的水平被隨機(jī)抽樣用于估計(jì))。

在類型上，概化分析包括一元概化分析和多元概化分析，前者用于單變量研究，后者聚焦于多變量研究[7]。在程序步驟上，一元或者多元概化分析都涵蓋G研究(概化研究)和D研究(決策研究)兩部分。前者能在觀測(cè)全域上展示各種方差來源及其比重；后者能在概化全域上，借助G研究的方差比重，通過調(diào)整測(cè)量條件，展示信度變化，從而探究?jī)?yōu)化測(cè)量設(shè)計(jì)的手段[8] [9] [10]。因其在測(cè)量中的重要意義，概化理論與經(jīng)典測(cè)量理論和項(xiàng)目反應(yīng)理論被一并稱為三大高級(jí)測(cè)量理論。美國(guó)心理學(xué)學(xué)會(huì)、教育研究學(xué)會(huì)和國(guó)家教育測(cè)量委員會(huì)聯(lián)合提出的《教育和心理測(cè)量標(biāo)準(zhǔn)》(Standards for Education and Psychology Testing)[11]15-17中明確提出，在建立觀察和測(cè)量程序的效度與信度時(shí)，必需參照概化理論。

近年來，國(guó)外和國(guó)內(nèi)有不少學(xué)者采用概化理論，考查語(yǔ)言測(cè)試的方法、語(yǔ)言測(cè)試概念的內(nèi)在結(jié)構(gòu)、測(cè)試的信度等。Lin[12]采用蒙特卡洛模擬數(shù)據(jù)，考查了評(píng)分員面試中，不同概化分析設(shè)計(jì)的適用性。結(jié)果顯示，當(dāng)評(píng)分員方差相對(duì)較小時(shí)，完全交叉設(shè)計(jì)和區(qū)組套嵌設(shè)計(jì)同樣有效；當(dāng)評(píng)分員方差相對(duì)較大時(shí)，只能采用區(qū)組套嵌，因?yàn)榻徊嬖O(shè)計(jì)傾向于高估信度。Sawaki[13]同時(shí)采用驗(yàn)證性因子分析與概化分析，探究了口語(yǔ)能力的內(nèi)在結(jié)構(gòu)。結(jié)果發(fā)現(xiàn)，口語(yǔ)能力是一種多元復(fù)合構(gòu)念(涉及發(fā)音、詞匯、連貫、組織、語(yǔ)法等子成分)。胡加圣、孫海洋[14] [15]等學(xué)者，利用概化理論考查了外語(yǔ)測(cè)試中的信度及其優(yōu)化措施等問題。綜觀國(guó)內(nèi)外研究可知，概化理論在語(yǔ)言測(cè)試研究中具有廣泛的應(yīng)用價(jià)值。面對(duì)不斷普及的機(jī)考，有必要對(duì)其進(jìn)行概化理論分析，及時(shí)披露問題并予以解決。本文借助多元概化理論，分析大學(xué)英語(yǔ)機(jī)考的質(zhì)量問題。

二、研究設(shè)計(jì)

(一)數(shù)據(jù)

研究以某校400名學(xué)生的大學(xué)英語(yǔ)聽力機(jī)考成績(jī)?yōu)榉治鰧?duì)象。每名學(xué)生的成績(jī)包含10篇短對(duì)話聽力理解分?jǐn)?shù)(每篇5分，共計(jì)50分)和兩篇短文聽力理解分?jǐn)?shù)(每篇25分，共計(jì)50分)。短對(duì)話考查的主要是基于短時(shí)記憶和簡(jiǎn)單思維的聽力理解，短文考查的主要是基于長(zhǎng)時(shí)記憶和綜合思維的聽力理解。

(二)分析方法

研究采用二變量、單側(cè)面多元概化分析。觀察設(shè)計(jì)為交叉設(shè)計(jì)：p×i，p表示考生，i表示試題(側(cè)面)?？忌驮囶}視為從無限全域中隨機(jī)抽取的樣本，用于估計(jì)該全域參數(shù)(估計(jì)設(shè)計(jì))。數(shù)據(jù)處理借助mGENOVA 軟件進(jìn)行，它是Brennan[7]編寫的多元概化分析專用工具。

(三)結(jié)果

1．成績(jī)的分布特征

在進(jìn)行概化分析之前，首先對(duì)400名學(xué)生在短對(duì)話和短文兩個(gè)變量上的成績(jī)進(jìn)行描述統(tǒng)計(jì)，以展示其分布特征(表1)。

表1 學(xué)生成績(jī)?cè)诓煌兞可系拿枋鼋y(tǒng)計(jì)(n=400)

觀察表1中的最低分和最高分可知，各變量得分兩極分化嚴(yán)重，這表明學(xué)生個(gè)體差異明顯。

2．多元概化分析結(jié)果

多元概化分析主要在兩種試題變量上展開，分析包括G研究以及D研究?jī)刹糠帧?/p>

(1)G研究結(jié)果

借助G研究，可以獲得不同效應(yīng)(考生、試題、考生與試題的交互作用)在短對(duì)話和短文兩個(gè)變量上的方差等指標(biāo)，結(jié)果如表2所示。

表2 學(xué)生、題目和交互作用在兩個(gè)變量上的方差

根據(jù)表2可知，考生在兩個(gè)變量上的方差分別是4.35和4.92，試題在二變量上的方差依次是2.15和4.11，交互作用的方差是6.02和7.58。由于方差大小標(biāo)志著影響的大小，可以推斷，交互作用對(duì)聽力成績(jī)的影響高于學(xué)生水平的影響。交互作用影響較大，意味著不同學(xué)生在不同試題上，得分或失分的傾向存在較大反差(如甲生在第一篇短對(duì)話上得分很高，在第二篇上很低，乙生在第一篇上得分很低，在第二篇上得分很高)。

題目難度在短對(duì)話上的方差雖然不大，但在短文上的方差與考生的對(duì)應(yīng)方差接近，表明試題難度對(duì)短文成績(jī)的影響不能忽略?？忌鷮?duì)成績(jī)的影響不占優(yōu)勢(shì)，表明考試未能有效反映學(xué)生的英語(yǔ)聽力水平。

(2) D研究結(jié)果

第一，短對(duì)話和短文測(cè)量結(jié)果的精確度

根據(jù)其全域分方差、相對(duì)誤差方差和絕對(duì)誤差方差，可以檢查短對(duì)話和短文的測(cè)量精確度。表3呈現(xiàn)的是相關(guān)結(jié)果。

表3 短對(duì)話和短文測(cè)量結(jié)果的精確度

觀察表3可知，短對(duì)話的概化系數(shù)為0.63，可靠性指數(shù)為0.55；短文的概化系數(shù)為0.65，可靠性指數(shù)為0.57。這些指標(biāo)反映著兩個(gè)變量測(cè)量的精確度(信度)，由于低于0.80這一理想標(biāo)準(zhǔn)，測(cè)量結(jié)果不夠穩(wěn)定。

第二，短對(duì)話和短文整合在一起的測(cè)量精確度

按照短對(duì)話和短文兩變量所占比重(短對(duì)話分值比重為50%，短文為50%)，設(shè)定權(quán)重系數(shù)，對(duì)測(cè)量結(jié)果進(jìn)行整合，可得短對(duì)話和短文整合在一起(全域合成分)的測(cè)量精確度(表4)。

表4 短對(duì)話和短文全域合成分測(cè)量精確度

根據(jù)表4，全域合成分概化系數(shù)和可靠性指數(shù)分別為0.68和0.59，與單個(gè)變量測(cè)量精確度(表3)相比略有提高。這表明，短對(duì)話和短文兩個(gè)變量得分合并起來代表聽力水平，具有一定的合理性。但是兩個(gè)信度指標(biāo)仍未達(dá)到0.80。

第三，短對(duì)話和短文對(duì)全域合成分的貢獻(xiàn)

雖然兩變量的賦分顯示，其權(quán)重均為50%，但兩者對(duì)全域合成分方差的實(shí)際貢獻(xiàn)如何仍需D研究檢驗(yàn)。表5比較了賦分權(quán)重與實(shí)際貢獻(xiàn)。

表5 短對(duì)話和短文對(duì)全域合成分的貢獻(xiàn)

表5顯示，短對(duì)話對(duì)全域合成分方差的貢獻(xiàn)(56.9%)略微高于賦分，而短文的貢獻(xiàn)(43.1%)稍微低于其賦分。短對(duì)話的測(cè)量誤差所占比重也較大(相對(duì)和絕對(duì)誤差方差分別為：62.0%和61.1%)。這表明短對(duì)話和短文的權(quán)重有待調(diào)整。

第四，權(quán)重優(yōu)化后的全域合成分測(cè)量精確度

鑒于短對(duì)話和短文賦分與實(shí)際貢獻(xiàn)的差別，調(diào)整兩變量權(quán)重，進(jìn)一步分析信度變化，結(jié)果呈現(xiàn)于表6。

表6 調(diào)整權(quán)重對(duì)信度的影響

根據(jù)表6，在合理范圍內(nèi)，改變短對(duì)話和短文的權(quán)重，概化系數(shù)和可靠性指數(shù)雖有提升趨勢(shì)，但變化很慢。由于兩個(gè)變量是聽力課程測(cè)試的兩個(gè)平行特質(zhì)，不易進(jìn)一步改變權(quán)重?？梢姡ㄟ^調(diào)整賦分權(quán)重，不能走出測(cè)量不穩(wěn)定的困境。

第五，優(yōu)化試題數(shù)量后的全域合成分測(cè)量精確度

改變?cè)囶}數(shù)量是嘗試調(diào)整測(cè)量精確度的常用手段。表7展示的是短對(duì)話和短文在權(quán)重各保持30%和70%的情況下，調(diào)整任務(wù)數(shù)量后可預(yù)期的對(duì)應(yīng)信度。

表7 調(diào)整題量對(duì)信度的影響

基于表7可知，在可操作范圍內(nèi)，適當(dāng)調(diào)整試題數(shù)量結(jié)構(gòu)，能夠使信度有所提高。但即使在這種情況下，信度仍然低于理想水平?？梢娬{(diào)整題量仍不能完全解決信度問題。

三、討論

本文借助多元概化分析，考查了大學(xué)英語(yǔ)聽力機(jī)考的信度。結(jié)果顯示，對(duì)于成績(jī)的影響，考生與試題的交互作用明顯高于考生效應(yīng)，試題難度效應(yīng)也不容忽略。交互作用和題目難度效應(yīng)的影響在短文方面尤為突出。無論是在短對(duì)話和短文兩個(gè)變量層面，還是在整個(gè)聽力測(cè)試層面，考試的信度都偏離了理想標(biāo)準(zhǔn)。在可操作范圍內(nèi)，適度調(diào)整試題權(quán)重和題量，雖然能在一定程度上彌補(bǔ)信度的不足，但不能從根本上解決測(cè)量信度問題。

本研究與其他相關(guān)研究存在分歧。在一般測(cè)試中，成績(jī)的主要變異來源是考生，而不是試題或者交互效應(yīng)。Bae[16]對(duì)雙語(yǔ)兒童不同語(yǔ)言技能的概化分析中發(fā)現(xiàn)，考生水平對(duì)成績(jī)變異的影響高于其他因素。在一項(xiàng)元分析研究中，In'nami等[17]考查了17項(xiàng)概化研究(涉及22個(gè)數(shù)據(jù)集)，結(jié)果發(fā)現(xiàn)，平均而言考生是成績(jī)變異的主要來源，其次是考生與試題的交互作用，試題效應(yīng)是比較微小的變異來源。事實(shí)上，任何有效度和信度的測(cè)試中，成績(jī)都應(yīng)當(dāng)反映被試技能，被試應(yīng)屬于最主要的成績(jī)變異影響因素。

本研究披露的交互作用對(duì)于成績(jī)的影響, 遠(yuǎn)遠(yuǎn)高于考生作用，題目難度效應(yīng)不容小視?？赡苁且?yàn)椴捎脵C(jī)考時(shí)計(jì)算機(jī)系統(tǒng)隨機(jī)生成的試卷缺乏同質(zhì)性，不同學(xué)生在同一道試題中，接觸的具體任務(wù)難度波動(dòng)較大，不同試卷難度波動(dòng)較大。試題難度的影響，主要表現(xiàn)在絕對(duì)測(cè)量信度方面；考生與試題交互作用的影響，同時(shí)降低相對(duì)測(cè)量信度以及絕對(duì)測(cè)量信度。當(dāng)成績(jī)信度較低時(shí)，考試的效度更無從談起。

由于隨機(jī)組卷的素材源于題庫(kù)，本研究暴露的機(jī)考問題，深層原因可能是題庫(kù)質(zhì)量不合格。在缺乏可操作的標(biāo)準(zhǔn)以及必要的技術(shù)條件下，教師集體創(chuàng)建的題庫(kù)，很容易出現(xiàn)同類任務(wù)難度不一的現(xiàn)象。這樣的題庫(kù)用于機(jī)考隨機(jī)生成試卷，很容易引起較高的交互作用和試題難度效應(yīng)，降低考試信度和效度。

四、結(jié)論

本研究考查了某高校大學(xué)英語(yǔ)聽力機(jī)考的信度，結(jié)論如下：

1.在缺乏同質(zhì)題庫(kù)條件下，大學(xué)英語(yǔ)聽力機(jī)考中采用隨機(jī)組卷，會(huì)導(dǎo)致信度不足，無法客觀反映學(xué)生聽力水平；

2.在缺乏同質(zhì)題庫(kù)條件下，調(diào)整試題數(shù)量和賦分權(quán)重，可以在一定程度上緩解信度危機(jī)。

解決大學(xué)英語(yǔ)聽力機(jī)考信度效度不足的問題，隨機(jī)組卷需要以嚴(yán)格意義上的同質(zhì)題庫(kù)為依托。建議在建立大學(xué)英語(yǔ)聽力題庫(kù)時(shí)，命題者要通過定性、定量、實(shí)證研究結(jié)合的方法，對(duì)聽力材料進(jìn)行語(yǔ)料分析[18]，對(duì)試題難度進(jìn)行準(zhǔn)確區(qū)分。在缺乏同質(zhì)題庫(kù)條件下，不宜使用計(jì)算機(jī)隨機(jī)組卷，而應(yīng)采用相同試卷。采用相同試卷，這樣可以在一定程度上降低考生與試題的交互作用，減少變異來源，提高成績(jī)的信度和效度，增加考試的公平公正性。

[1]Shavelson R J, Webb N M.Generalizability theory: A primer[M].Sage Publications, 1991.

[2]Brennan R L.A Perspective on the History of Generabability Theory [J].Educational Measurement Issues & Practice, 1997(4).

[3]Cardinet J, Johnson S, Pini G.Applying generalizability theory using EduG[M].Routledge, 2011.

[4]Klerk S D, Eggen T J H M, Veldkamp B P.A blending of computer-based assessment and performance-based assessment: Multimedia-Based Performance Assessment (MBPA).The introduction of a new method of assessment in Dutch Vocational Education and Training (VET)[J].Giornale Italiano Di Pedagogia Sperimentale, 2014(1).

[5]Urbano J, Marrero M, Martín D.On the measurement of test collection reliability[C]// International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM, 2013.

[6]Robert L.Brennan.Generalizability Theory and Classical Test Theory[J].Applied Measurement in Education, 2010(1).

[7]Brennan R L.Manual for mGENOVA (Version 2.1)[J].Occasional Paper, 2001(50).

[8]黎光明.概化理論G研究方差分量及其變異量估計(jì)影響因素[J].心理學(xué)探新, 2016(5).

[9]Gebril A.Bringing reading-to-write and writing-only assessment tasks together: A generalizability analysis[J].Assessing Writing, 2010(2).

[10]Srikaew D, Tangdhanakanond K, Kanjanawasee S.English speaking skills assessment for grade 6 Thai students: an application of multivariate generalizability theory[J].International Journal of Psychology: A Biopsychosocial Approach, 2015 (16).

[11]American Education Research Association (AERA), American Psychological Association(APA), National Council on Measurement in Education (NCME).Standards for Education and Psychology Testing[M].Washington,DC: American Psychological Association, 2002.

[12]Lin C K.Working with Sparse Data in Rated Language Tests: Generalizability Theory Applications.[J].Language Testing, 2017(34).

[13]Sawaki Y.Construct Validation of Analytic Rating Scales in a Speaking Assessment: Reporting a Score Profile and a Composite.[J].Language Testing, 2007(3).

[14]胡加圣.最新概化理論工具EduG及其外語(yǔ)教學(xué)應(yīng)用分析[J].外語(yǔ)學(xué)刊, 2014(6).

[15]孫海洋.概化理論和多層面Rasch模型在建立“職前中學(xué)英語(yǔ)教師口語(yǔ)考試模型”中的應(yīng)用[J].外語(yǔ)與外語(yǔ)教學(xué), 2011(5).

[16]Bae, Jungok|Bachman, Lyle F.An Investigation of Four Writing Traits and Two Tasks across Two Languages.[J].Language Testing, 2010(2).

[17]In'nami, Yo|Koizumi, Rie.Task and Rater Effects in L2 Speaking and Writing: A Synthesis of Generalizability Studies.[J].Language Testing, 2016(3).

[18]王天劍.基于語(yǔ)料庫(kù)的中美企業(yè)英文簡(jiǎn)介文本特征研究[J].魯東大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 2016(6).

大學(xué)英語(yǔ)機(jī)考的多元概化理論分析

一、 引言

二、研究設(shè)計(jì)

三、討論

四、結(jié)論

一、引言

二、研究設(shè)計(jì)

三、討論

四、結(jié)論