• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大學(xué)英語(yǔ)機(jī)考的多元概化理論分析

      2018-01-25 10:02:09
      關(guān)鍵詞:概化機(jī)考題庫(kù)

      王 天 劍

      (貴州財(cái)經(jīng)大學(xué) 外國(guó)語(yǔ)學(xué)院, 貴州 貴陽(yáng) 550004)

      一、 引言

      隨著計(jì)算機(jī)應(yīng)用的逐漸普及,大學(xué)英語(yǔ)考試方式也開始向機(jī)考(計(jì)算機(jī)輔助考試)方向轉(zhuǎn)變。機(jī)考不僅可以節(jié)約資源,節(jié)省閱卷工作量,而且可以通過隨機(jī)組卷,減少學(xué)生舞弊的機(jī)會(huì)。為了保證生成大量不同試卷,機(jī)考測(cè)試前需要準(zhǔn)備容量充足的題庫(kù)。目前高校英語(yǔ)機(jī)考題庫(kù)來源各不相同,部分學(xué)校采用的是商業(yè)機(jī)構(gòu)提供的專用題庫(kù),更多學(xué)校采用的是任課教師集體創(chuàng)建的題庫(kù)。題庫(kù)的質(zhì)量直接影響到考試的信度和效度,為考查某高校教師自建大學(xué)英語(yǔ)機(jī)考題庫(kù)的質(zhì)量,本研究借助概化理論,對(duì)一次英語(yǔ)機(jī)考成績(jī)進(jìn)行多元分析。

      概化理論從本質(zhì)上講是一種信度理論[1]1。它是在方差分析(ANOVA)與經(jīng)典測(cè)量(Classical Test Theory: CTT)技術(shù)基礎(chǔ)上,逐步拓展而來的理論體系[2] [3]1。按照CTT,測(cè)量結(jié)果包含真分?jǐn)?shù)與測(cè)量誤差兩部分。利用ANOVA,概化理論進(jìn)一步將誤差分解為不同來源成分,考查各自比重[4] [5]393-402,并估算概化系數(shù)以及可靠性指數(shù)。這兩種參數(shù)類似于CTT的信度,其中概化系數(shù)用于顯示,測(cè)量結(jié)果用于將對(duì)象排序時(shí)的穩(wěn)定性(相對(duì)信度);可靠性指數(shù)用于衡量,測(cè)量結(jié)果用于了解對(duì)象絕對(duì)水平時(shí)的可靠性(絕對(duì)信度)。如下公式(1)(2)分別用于概化系數(shù)及可靠性指數(shù)計(jì)算:

      (1)

      (2)

      ρ2和Ф代表概化系數(shù)與可靠性指數(shù),σ2(τ)是測(cè)量對(duì)象的全域分方差,σ2(δ)系相對(duì)誤差方差;σ2(Δ)系絕對(duì)誤差方差[6]。

      概化分析涉及一系列專業(yè)概念。主要包括:(1)側(cè)面。它是構(gòu)成測(cè)量條件的諸多因素(類似于方差分析中的自變量),例如,測(cè)量地點(diǎn)、測(cè)量時(shí)間、測(cè)量方式、評(píng)分員特征、受試者特征、測(cè)量題目等均可視為側(cè)面,只要研究者有意探究這些因素的影響。(2)觀察設(shè)計(jì)。它是指測(cè)量中,側(cè)面之間形成的不同結(jié)構(gòu)關(guān)系,如交叉關(guān)系(一個(gè)側(cè)面的每個(gè)水平,均與其他側(cè)面的每個(gè)水平相碰)、套嵌關(guān)系(一個(gè)側(cè)面的不同水平,僅與另一個(gè)側(cè)面的一個(gè)水平結(jié)合)、復(fù)雜的交叉套嵌組合關(guān)系,等等。(3)估計(jì)設(shè)計(jì)。估計(jì)設(shè)計(jì)回答的問題是,各個(gè)側(cè)面是以多少個(gè)水平估計(jì)多大的全域(分三種情況:有限全域中的水平全部用于估計(jì),有限全域中的水平被隨機(jī)抽樣用于估計(jì),無限全域中的水平被隨機(jī)抽樣用于估計(jì))。

      在類型上,概化分析包括一元概化分析和多元概化分析,前者用于單變量研究,后者聚焦于多變量研究[7]。在程序步驟上,一元或者多元概化分析都涵蓋G研究(概化研究)和D研究(決策研究)兩部分。前者能在觀測(cè)全域上展示各種方差來源及其比重;后者能在概化全域上,借助G研究的方差比重,通過調(diào)整測(cè)量條件,展示信度變化,從而探究?jī)?yōu)化測(cè)量設(shè)計(jì)的手段[8] [9] [10]。因其在測(cè)量中的重要意義,概化理論與經(jīng)典測(cè)量理論和項(xiàng)目反應(yīng)理論被一并稱為三大高級(jí)測(cè)量理論。美國(guó)心理學(xué)學(xué)會(huì)、教育研究學(xué)會(huì)和國(guó)家教育測(cè)量委員會(huì)聯(lián)合提出的《教育和心理測(cè)量標(biāo)準(zhǔn)》(Standards for Education and Psychology Testing)[11]15-17中明確提出,在建立觀察和測(cè)量程序的效度與信度時(shí),必需參照概化理論。

      近年來,國(guó)外和國(guó)內(nèi)有不少學(xué)者采用概化理論,考查語(yǔ)言測(cè)試的方法、語(yǔ)言測(cè)試概念的內(nèi)在結(jié)構(gòu)、測(cè)試的信度等。Lin[12]采用蒙特卡洛模擬數(shù)據(jù),考查了評(píng)分員面試中,不同概化分析設(shè)計(jì)的適用性。結(jié)果顯示,當(dāng)評(píng)分員方差相對(duì)較小時(shí),完全交叉設(shè)計(jì)和區(qū)組套嵌設(shè)計(jì)同樣有效;當(dāng)評(píng)分員方差相對(duì)較大時(shí),只能采用區(qū)組套嵌,因?yàn)榻徊嬖O(shè)計(jì)傾向于高估信度。Sawaki[13]同時(shí)采用驗(yàn)證性因子分析與概化分析,探究了口語(yǔ)能力的內(nèi)在結(jié)構(gòu)。結(jié)果發(fā)現(xiàn),口語(yǔ)能力是一種多元復(fù)合構(gòu)念(涉及發(fā)音、詞匯、連貫、組織、語(yǔ)法等子成分)。胡加圣、孫海洋[14] [15]等學(xué)者,利用概化理論考查了外語(yǔ)測(cè)試中的信度及其優(yōu)化措施等問題。綜觀國(guó)內(nèi)外研究可知,概化理論在語(yǔ)言測(cè)試研究中具有廣泛的應(yīng)用價(jià)值。面對(duì)不斷普及的機(jī)考,有必要對(duì)其進(jìn)行概化理論分析,及時(shí)披露問題并予以解決。本文借助多元概化理論,分析大學(xué)英語(yǔ)機(jī)考的質(zhì)量問題。

      二、研究設(shè)計(jì)

      (一)數(shù)據(jù)

      研究以某校400名學(xué)生的大學(xué)英語(yǔ)聽力機(jī)考成績(jī)?yōu)榉治鰧?duì)象。每名學(xué)生的成績(jī)包含10篇短對(duì)話聽力理解分?jǐn)?shù)(每篇5分,共計(jì)50分)和兩篇短文聽力理解分?jǐn)?shù)(每篇25分,共計(jì)50分)。短對(duì)話考查的主要是基于短時(shí)記憶和簡(jiǎn)單思維的聽力理解,短文考查的主要是基于長(zhǎng)時(shí)記憶和綜合思維的聽力理解。

      (二)分析方法

      研究采用二變量、單側(cè)面多元概化分析。觀察設(shè)計(jì)為交叉設(shè)計(jì):p×i,p表示考生,i表示試題(側(cè)面)??忌驮囶}視為從無限全域中隨機(jī)抽取的樣本,用于估計(jì)該全域參數(shù)(估計(jì)設(shè)計(jì))。數(shù)據(jù)處理借助mGENOVA 軟件進(jìn)行,它是Brennan[7]編寫的多元概化分析專用工具。

      (三)結(jié)果

      1.成績(jī)的分布特征

      在進(jìn)行概化分析之前,首先對(duì)400名學(xué)生在短對(duì)話和短文兩個(gè)變量上的成績(jī)進(jìn)行描述統(tǒng)計(jì),以展示其分布特征(表1)。

      表1 學(xué)生成績(jī)?cè)诓煌兞可系拿枋鼋y(tǒng)計(jì)(n=400)

      觀察表1中的最低分和最高分可知,各變量得分兩極分化嚴(yán)重,這表明學(xué)生個(gè)體差異明顯。

      2.多元概化分析結(jié)果

      多元概化分析主要在兩種試題變量上展開,分析包括G研究以及D研究?jī)刹糠帧?/p>

      (1)G研究結(jié)果

      借助G研究,可以獲得不同效應(yīng)(考生、試題、考生與試題的交互作用)在短對(duì)話和短文兩個(gè)變量上的方差等指標(biāo),結(jié)果如表2所示。

      表2 學(xué)生、題目和交互作用在兩個(gè)變量上的方差

      根據(jù)表2可知,考生在兩個(gè)變量上的方差分別是4.35和4.92,試題在二變量上的方差依次是2.15和4.11,交互作用的方差是6.02和7.58。由于方差大小標(biāo)志著影響的大小,可以推斷,交互作用對(duì)聽力成績(jī)的影響高于學(xué)生水平的影響。交互作用影響較大,意味著不同學(xué)生在不同試題上,得分或失分的傾向存在較大反差(如甲生在第一篇短對(duì)話上得分很高,在第二篇上很低,乙生在第一篇上得分很低,在第二篇上得分很高)。

      題目難度在短對(duì)話上的方差雖然不大,但在短文上的方差與考生的對(duì)應(yīng)方差接近,表明試題難度對(duì)短文成績(jī)的影響不能忽略??忌鷮?duì)成績(jī)的影響不占優(yōu)勢(shì),表明考試未能有效反映學(xué)生的英語(yǔ)聽力水平。

      (2) D研究結(jié)果

      第一,短對(duì)話和短文測(cè)量結(jié)果的精確度

      根據(jù)其全域分方差、相對(duì)誤差方差和絕對(duì)誤差方差,可以檢查短對(duì)話和短文的測(cè)量精確度。表3呈現(xiàn)的是相關(guān)結(jié)果。

      表3 短對(duì)話和短文測(cè)量結(jié)果的精確度

      觀察表3可知,短對(duì)話的概化系數(shù)為0.63,可靠性指數(shù)為0.55;短文的概化系數(shù)為0.65,可靠性指數(shù)為0.57。這些指標(biāo)反映著兩個(gè)變量測(cè)量的精確度(信度),由于低于0.80這一理想標(biāo)準(zhǔn),測(cè)量結(jié)果不夠穩(wěn)定。

      第二,短對(duì)話和短文整合在一起的測(cè)量精確度

      按照短對(duì)話和短文兩變量所占比重(短對(duì)話分值比重為50%,短文為50%),設(shè)定權(quán)重系數(shù),對(duì)測(cè)量結(jié)果進(jìn)行整合,可得短對(duì)話和短文整合在一起(全域合成分)的測(cè)量精確度(表4)。

      表4 短對(duì)話和短文全域合成分測(cè)量精確度

      根據(jù)表4,全域合成分概化系數(shù)和可靠性指數(shù)分別為0.68和0.59,與單個(gè)變量測(cè)量精確度(表3)相比略有提高。這表明,短對(duì)話和短文兩個(gè)變量得分合并起來代表聽力水平,具有一定的合理性。但是兩個(gè)信度指標(biāo)仍未達(dá)到0.80。

      第三,短對(duì)話和短文對(duì)全域合成分的貢獻(xiàn)

      雖然兩變量的賦分顯示,其權(quán)重均為50%,但兩者對(duì)全域合成分方差的實(shí)際貢獻(xiàn)如何仍需D研究檢驗(yàn)。表5比較了賦分權(quán)重與實(shí)際貢獻(xiàn)。

      表5 短對(duì)話和短文對(duì)全域合成分的貢獻(xiàn)

      表5顯示,短對(duì)話對(duì)全域合成分方差的貢獻(xiàn)(56.9%)略微高于賦分,而短文的貢獻(xiàn)(43.1%)稍微低于其賦分。短對(duì)話的測(cè)量誤差所占比重也較大(相對(duì)和絕對(duì)誤差方差分別為:62.0%和61.1%)。 這表明短對(duì)話和短文的權(quán)重有待調(diào)整。

      第四,權(quán)重優(yōu)化后的全域合成分測(cè)量精確度

      鑒于短對(duì)話和短文賦分與實(shí)際貢獻(xiàn)的差別,調(diào)整兩變量權(quán)重,進(jìn)一步分析信度變化,結(jié)果呈現(xiàn)于表6。

      表6 調(diào)整權(quán)重對(duì)信度的影響

      根據(jù)表6,在合理范圍內(nèi),改變短對(duì)話和短文的權(quán)重,概化系數(shù)和可靠性指數(shù)雖有提升趨勢(shì),但變化很慢。由于兩個(gè)變量是聽力課程測(cè)試的兩個(gè)平行特質(zhì),不易進(jìn)一步改變權(quán)重??梢姡ㄟ^調(diào)整賦分權(quán)重,不能走出測(cè)量不穩(wěn)定的困境。

      第五,優(yōu)化試題數(shù)量后的全域合成分測(cè)量精確度

      改變?cè)囶}數(shù)量是嘗試調(diào)整測(cè)量精確度的常用手段。表7展示的是短對(duì)話和短文在權(quán)重各保持30%和70%的情況下,調(diào)整任務(wù)數(shù)量后可預(yù)期的對(duì)應(yīng)信度。

      表7 調(diào)整題量對(duì)信度的影響

      基于表7可知,在可操作范圍內(nèi),適當(dāng)調(diào)整試題數(shù)量結(jié)構(gòu),能夠使信度有所提高。但即使在這種情況下,信度仍然低于理想水平??梢娬{(diào)整題量仍不能完全解決信度問題。

      三、討論

      本文借助多元概化分析,考查了大學(xué)英語(yǔ)聽力機(jī)考的信度。結(jié)果顯示,對(duì)于成績(jī)的影響,考生與試題的交互作用明顯高于考生效應(yīng),試題難度效應(yīng)也不容忽略。交互作用和題目難度效應(yīng)的影響在短文方面尤為突出。無論是在短對(duì)話和短文兩個(gè)變量層面,還是在整個(gè)聽力測(cè)試層面,考試的信度都偏離了理想標(biāo)準(zhǔn)。在可操作范圍內(nèi),適度調(diào)整試題權(quán)重和題量,雖然能在一定程度上彌補(bǔ)信度的不足,但不能從根本上解決測(cè)量信度問題。

      本研究與其他相關(guān)研究存在分歧。在一般測(cè)試中,成績(jī)的主要變異來源是考生,而不是試題或者交互效應(yīng)。Bae[16]對(duì)雙語(yǔ)兒童不同語(yǔ)言技能的概化分析中發(fā)現(xiàn),考生水平對(duì)成績(jī)變異的影響高于其他因素。在一項(xiàng)元分析研究中,In'nami等[17]考查了17項(xiàng)概化研究(涉及22個(gè)數(shù)據(jù)集),結(jié)果發(fā)現(xiàn),平均而言考生是成績(jī)變異的主要來源,其次是考生與試題的交互作用,試題效應(yīng)是比較微小的變異來源。事實(shí)上,任何有效度和信度的測(cè)試中,成績(jī)都應(yīng)當(dāng)反映被試技能,被試應(yīng)屬于最主要的成績(jī)變異影響因素。

      本研究披露的交互作用對(duì)于成績(jī)的影響, 遠(yuǎn)遠(yuǎn)高于考生作用,題目難度效應(yīng)不容小視??赡苁且?yàn)椴捎脵C(jī)考時(shí)計(jì)算機(jī)系統(tǒng)隨機(jī)生成的試卷缺乏同質(zhì)性,不同學(xué)生在同一道試題中,接觸的具體任務(wù)難度波動(dòng)較大,不同試卷難度波動(dòng)較大。試題難度的影響,主要表現(xiàn)在絕對(duì)測(cè)量信度方面;考生與試題交互作用的影響,同時(shí)降低相對(duì)測(cè)量信度以及絕對(duì)測(cè)量信度。當(dāng)成績(jī)信度較低時(shí),考試的效度更無從談起。

      由于隨機(jī)組卷的素材源于題庫(kù),本研究暴露的機(jī)考問題,深層原因可能是題庫(kù)質(zhì)量不合格。在缺乏可操作的標(biāo)準(zhǔn)以及必要的技術(shù)條件下,教師集體創(chuàng)建的題庫(kù),很容易出現(xiàn)同類任務(wù)難度不一的現(xiàn)象。這樣的題庫(kù)用于機(jī)考隨機(jī)生成試卷,很容易引起較高的交互作用和試題難度效應(yīng),降低考試信度和效度。

      四、結(jié)論

      本研究考查了某高校大學(xué)英語(yǔ)聽力機(jī)考的信度,結(jié)論如下:

      1.在缺乏同質(zhì)題庫(kù)條件下,大學(xué)英語(yǔ)聽力機(jī)考中采用隨機(jī)組卷,會(huì)導(dǎo)致信度不足,無法客觀反映學(xué)生聽力水平;

      2.在缺乏同質(zhì)題庫(kù)條件下,調(diào)整試題數(shù)量和賦分權(quán)重,可以在一定程度上緩解信度危機(jī)。

      解決大學(xué)英語(yǔ)聽力機(jī)考信度效度不足的問題,隨機(jī)組卷需要以嚴(yán)格意義上的同質(zhì)題庫(kù)為依托。建議在建立大學(xué)英語(yǔ)聽力題庫(kù)時(shí),命題者要通過定性、定量、實(shí)證研究結(jié)合的方法,對(duì)聽力材料進(jìn)行語(yǔ)料分析[18],對(duì)試題難度進(jìn)行準(zhǔn)確區(qū)分。在缺乏同質(zhì)題庫(kù)條件下,不宜使用計(jì)算機(jī)隨機(jī)組卷,而應(yīng)采用相同試卷。采用相同試卷,這樣可以在一定程度上降低考生與試題的交互作用,減少變異來源,提高成績(jī)的信度和效度,增加考試的公平公正性。

      [1]Shavelson R J, Webb N M.Generalizability theory: A primer[M].Sage Publications, 1991.

      [2]Brennan R L.A Perspective on the History of Generabability Theory [J].Educational Measurement Issues & Practice, 1997(4).

      [3]Cardinet J, Johnson S, Pini G.Applying generalizability theory using EduG[M].Routledge, 2011.

      [4]Klerk S D, Eggen T J H M, Veldkamp B P.A blending of computer-based assessment and performance-based assessment: Multimedia-Based Performance Assessment (MBPA).The introduction of a new method of assessment in Dutch Vocational Education and Training (VET)[J].Giornale Italiano Di Pedagogia Sperimentale, 2014(1).

      [5]Urbano J, Marrero M, Martín D.On the measurement of test collection reliability[C]// International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM, 2013.

      [6]Robert L.Brennan.Generalizability Theory and Classical Test Theory[J].Applied Measurement in Education, 2010(1).

      [7]Brennan R L.Manual for mGENOVA (Version 2.1)[J].Occasional Paper, 2001(50).

      [8]黎光明.概化理論G研究方差分量及其變異量估計(jì)影響因素[J].心理學(xué)探新, 2016(5).

      [9]Gebril A.Bringing reading-to-write and writing-only assessment tasks together: A generalizability analysis[J].Assessing Writing, 2010(2).

      [10]Srikaew D, Tangdhanakanond K, Kanjanawasee S.English speaking skills assessment for grade 6 Thai students: an application of multivariate generalizability theory[J].International Journal of Psychology: A Biopsychosocial Approach, 2015 (16).

      [11]American Education Research Association (AERA), American Psychological Association(APA), National Council on Measurement in Education (NCME).Standards for Education and Psychology Testing[M].Washington,DC: American Psychological Association, 2002.

      [12]Lin C K.Working with Sparse Data in Rated Language Tests: Generalizability Theory Applications.[J].Language Testing, 2017(34).

      [13]Sawaki Y.Construct Validation of Analytic Rating Scales in a Speaking Assessment: Reporting a Score Profile and a Composite.[J].Language Testing, 2007(3).

      [14]胡加圣.最新概化理論工具EduG及其外語(yǔ)教學(xué)應(yīng)用分析[J].外語(yǔ)學(xué)刊, 2014(6).

      [15]孫海洋.概化理論和多層面Rasch模型在建立“職前中學(xué)英語(yǔ)教師口語(yǔ)考試模型”中的應(yīng)用[J].外語(yǔ)與外語(yǔ)教學(xué), 2011(5).

      [16]Bae, Jungok|Bachman, Lyle F.An Investigation of Four Writing Traits and Two Tasks across Two Languages.[J].Language Testing, 2010(2).

      [17]In'nami, Yo|Koizumi, Rie.Task and Rater Effects in L2 Speaking and Writing: A Synthesis of Generalizability Studies.[J].Language Testing, 2016(3).

      [18]王天劍.基于語(yǔ)料庫(kù)的中美企業(yè)英文簡(jiǎn)介文本特征研究[J].魯東大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 2016(6).

      猜你喜歡
      概化機(jī)考題庫(kù)
      “勾股定理”優(yōu)題庫(kù)
      中國(guó)注冊(cè)會(huì)計(jì)師協(xié)會(huì)關(guān)于更新注冊(cè)會(huì)計(jì)師考試機(jī)考練習(xí)網(wǎng)站的公告
      “軸對(duì)稱”優(yōu)題庫(kù)
      “軸對(duì)稱”優(yōu)題庫(kù)
      “整式的乘法與因式分解”優(yōu)題庫(kù)
      雅思機(jī)考落地中國(guó)大陸半年這些問題你應(yīng)該心中有數(shù)
      留學(xué)(2019年5期)2019-06-11 10:38:19
      基于MIKE21二維數(shù)值模擬的不同橋墩概化方式下河道壅水計(jì)算結(jié)果對(duì)比分析
      ACT將于2017年在所有國(guó)際考試中心推行機(jī)考
      留學(xué)生(2016年8期)2016-10-15 03:06:08
      結(jié)構(gòu)化面試中多源變異的概化分析
      攔污柵條概化試驗(yàn)
      稻城县| 河东区| 阳信县| 济宁市| 正阳县| 大同县| 吉安县| 丰都县| 鲁甸县| 双柏县| 且末县| 安丘市| 余干县| 河南省| 日照市| 洞口县| 寿宁县| 扬中市| 十堰市| 蓝田县| 剑阁县| 太原市| 秭归县| 涿鹿县| 长汀县| 祥云县| 左云县| 镇平县| 阜阳市| 武安市| 南郑县| 大兴区| 梅河口市| 商南县| 咸阳市| 区。| 和田市| 长海县| 诸城市| 陇西县| 云和县|