• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      概化理論在中小學英語測試研究中的應用

      2017-03-10 07:39:50王天劍
      綏化學院學報 2017年2期
      關鍵詞:概化全域維度

      王天劍

      (貴州財經(jīng)大學外國語學院 貴州貴陽 550004)

      概化理論在中小學英語測試研究中的應用

      王天劍

      (貴州財經(jīng)大學外國語學院 貴州貴陽 550004)

      概化理論是將方差分析與傳統(tǒng)的真分數(shù)理論整合發(fā)展而來的可靠度(信度)理論,它是現(xiàn)代教育和心理測量的重要理論之一。為幫助研究者掌握概化理論在中小學英語測試研究中的應用方法,文章討論了概化分析中的基本概念,并以一套英語演講能力評定程序可靠度研究為例,介紹了利用軟件EduG進行概化分析的基本步驟。

      概化理論;測試;研究

      概化理論是關于行為測量可靠度的理論 (Shavelson& Webb,1991)[1](P1)。它是在經(jīng)典測量理論(Classical TestTheory, CTT)與方差分析理論(ANOVA)基礎上,經(jīng)不同專家逐步發(fā)展而來的現(xiàn)代測量理論(Cronbach etal,1963[2](P137-163);Cardinet etal,2010(pix))。根據(jù)經(jīng)典測量理論,觀測分數(shù)(X)是真分數(shù)(T)與隨機誤差(E)之和(X=T+E)。真分數(shù)是對象某種特質(zhì)的真實值,隨機誤差是測量過程中產(chǎn)生的所有偏差。哪些因素導致了隨機誤差?為回答這一問題,概化理論吸收了方差分析的思想,將隨機誤差進一步區(qū)分為不同來源的誤差,估算各自所占比重,并計算可靠度系數(shù)(與經(jīng)典測量的信度系數(shù)可以類比的參數(shù)),反應測量的精確度。使用概化理論,我們不僅可以評價既有測量程序的優(yōu)劣,也可以探索測量優(yōu)化的方案。正因其重要應用價值,概化理論在國外教育與心理測量中受到高度重視。美國教育研究協(xié)會、心理學協(xié)會和國家教育測量委員會聯(lián)合提出的《教育和心理測量標準》(Standards for Education and PsychologyTesting,AERA,1999)明確提出,在建立觀察和測量程序的信度與效度時,需參照概化理論(GeneralizabilityTheory,GT)[3](P34)。

      學校的各種測驗、測試、考試(本文統(tǒng)稱“測試”)均屬于教育或心理測量。近年來,國內(nèi)已有學者開始利用概化理論理論研究英語測試。如,徐鷹等(2015)[4](P89-95)利用概化理論,分析了廣東省高考英語聽說模擬測試程序;孫海洋等(2011)[5](P61-65)對職前中學英語教師的口語測試進行了概化和多元化分析;張英莉等(2014)[6](P4-8)應用概化理論,對初中學生英語口試評分標準及評分者信度等進行了分析。這些研究披露了英語測試程序中存在的種種缺陷,對于優(yōu)化測試方案具有重要參考價值。

      測試貫穿中小學英語教學的始末。從安置性測試、平時測試、期末測試,到各種升學測試、競賽測試等,無不需要具有較高信度和效度的測試程序。利用概化理論對有關數(shù)據(jù)進行分析,對于提高測試質(zhì)量具有重要意義。鑒于國內(nèi)關于概化理論應用的文獻尚不多見,本文在介紹概化分析基本概念基礎上,結合實例,簡要描述利用工具軟件EduG進行概化分析的方法。

      一、概化分析的基本概念

      (一)側面。側面是測量的對象以及構成測量條件的因素(相當于方差分析中的自變量)。例如,測試時間、測試地點、測試方式、測試題目、受試者(或其某種特征)、評分員(或其某種特征)等均可視為側面,只要研究者對這些因素的影響感興趣。諸因素中,測量對象被稱作區(qū)別側面,構成測量條件的因素被稱作工具側面。

      (二)觀察設計。在測量中,側面之間就會形成不同的結構關系:

      1.交叉關系,即每一個側面的每個水平均與其他側面的每個水平存在結合。例如,測試中涉及10個學生(S)和2個評分員(R)兩個側面,每個學生需要接受每個評分員評分,即S和R的各個水平均有接觸,側面之間構成交叉關系,表示為S×R,或者SR。其結果是,可以產(chǎn)生10×2=20個數(shù)據(jù)。

      2.套嵌關系,即一個側面的不同水平與且僅與另一個側面的一個水平結合。例如,上述測試中,5個學生由評分員A評分,另外5個由評分員B評分,這時S的五個水平與R的一個水平接觸,另外五個水平與R的另一水平接觸,側面之間構成套嵌關系,稱作S套嵌于R,表示為S:R。其結果是,可以產(chǎn)生10個數(shù)據(jù)。

      如果有三個或者三個以上的側面作為測量條件,其間會形成更為復雜的關系。如對于A、B和C三個側面,可以構成ABC(三個側面完全交叉),A:BC(BC交叉,A套嵌于BC),AB: C(AB為交叉,AB套嵌于C),或者A:B:C(A套嵌于B,而B進一步套嵌于C)等。

      上述側面之間的交叉或者套嵌關系,統(tǒng)稱為觀察設計,反映的是數(shù)據(jù)的結構關系。

      (三)估計設計。估計設計需要回答的問題是:各個側面是以多少個水平估計多大的全域(以多大的樣本量估計多大的總體)?我們需要完成的操作任務是,確定測量涉及的每一個側面分屬于以下哪種類型:

      1.固定側面,即全域各個水平全部出現(xiàn)在研究中的側面。自然的固定側面很少,但研究者可以將一個側面的某些水平人為地定義為全域,并將其全部容納于研究中。例如,在一次測試中,某校將其僅有的5位高級英語教師作為一個評分員全域,并使其全部參加某次試卷的評閱,則評分員就是一個固定側面(側面水平=全域水平=5)。

      2.有限隨機側面,即出現(xiàn)于研究中的水平是從有限全域中隨機抽取的側面。例如,某校將其僅有的5位高級英語教師作為一個評分員全域,某次試卷評閱中隨機抽取2名作為評分員,則評分員就是一個有限隨機側面(側面水平=2,全域水平=5)。

      3.無限隨機側面,即出現(xiàn)于研究中的水平是從被視為無限大的全域中隨機抽取的側面。例如,英語教師可被視為一個無限大的全域,某次試卷評閱中隨機抽取5名作為評分員,則評分員就是一個無限隨機側面(側面水平=5,全域水平=Infinite)。

      基于不同的抽樣方式獲得的研究結果,在適用范圍(概化)方面不同。例如,當評分員是一個固定側面時,研究結果在概化時,僅適用于同樣的評分員參與的測量;當評分員是隨機側面時,結果可以概化到隨機抽樣的全域中。側面的隨機性或固定性隨研究目的而定,研究者可以根據(jù)研究興趣進行雙向修改(將固定側面更改為隨機側面,或將隨機側面更改為固定側面)。一個研究程序中可以同時容納固定側面與隨機側面(這樣的模型叫做混合模型)。

      (四)測量設計。測量設計部分的任務是:確定哪些側面是區(qū)別側面,哪些是工具側面;確定測量是相對的,還是絕對的。

      1.確定區(qū)別側面與工具側面。區(qū)別側面是研究的焦點或者研究對象。工具側面是完成測量需要依賴的各種條件因素。在教育研究中,一般情況下學生是區(qū)別側面,因為我們傾向于關注學生的成績數(shù)據(jù)是否可靠。其他因素大多視為工具側面,它們是為測量學生服務的。但是我們可以將區(qū)別側面和工具側面換位使用。例如,在一個由學生(S)、試題(T)和評分者(R)組成的交叉設計(STR)中,如果旨在考查學生的得分是否可靠,則學生為區(qū)別側面,其他因素為工具側面(表示為S/TR);如果旨在檢查不同試題項目得分高低的穩(wěn)定性,則試題變成區(qū)別側面,學生和評分員變成工具側面(T/SR);如果旨在檢查不同評分員給分差別的穩(wěn)定性,則評分員為區(qū)別側面,學生和試題變成工具側面(R/ST)。

      2.確定測量是相對的還是絕對的。為了將個人(或研究目標)排名進行的測量叫做相對測量。例如競賽、拔尖、擇優(yōu)之類的測試均為相對測量,因為我們的目的是比較高低,鑒別優(yōu)差。為了了解個人(或研究目標)分數(shù)水平的測量叫做絕對測量。例如,目標測試、掌握性測試、學期測試、過級測試、畢業(yè)測試一般均作為絕對測量,因為我們傾向于關注個人成績是否達到某一合格線。絕對測量是一種更加精確的測量,不僅能區(qū)別名次,而且能鑒定個人分值是否達到合格線。概化分析中,相對測量和絕對測量的可靠度是依據(jù)不同的參數(shù)衡量的。

      二、概化研究舉例

      借助軟件進行概化研究非常簡便?,F(xiàn)以一套英語演講能力評定程序的導航研究為例,展示利用EduG進行概化分析的方法。

      (一)問題描述。為了確定一套英語演講能力評定程序的可靠度,某學校進行了一個導航研究:隨機抽取10名初三學生作為被試,2名英語教師為評委,要求評委從語音、語法、詞匯、內(nèi)容四方面(能力維度),對被試的演講進行評價。每個維度均需在一個三級量表上打分:“差”記1分,“中”記2分,“優(yōu)”記3分。由于兩個評分員都要對四個維度進行打分,每個被試可以產(chǎn)生8個原始分數(shù),最后需要以8個分數(shù)的平均值作為每個被試的綜合成績,并根據(jù)綜合成績將所有被試排名。表1是某個被試的得分樣例:

      表1 被試不同能力維度得分樣例(平均2.375)

      10名被試在各維度上的原始分數(shù)共計80個。試根據(jù)這些數(shù)據(jù),利用概化理論分析該評分程序的可靠度。

      (二)問題分析。

      1.觀察設計。本例共有三個側面:學生(10個水平),評分員(2個水平),能力維度(4個水平)。因每個評分員均要對每個學生在每個維度上評分,三個側面的各個水平均有接觸,所以這是一個完全交叉設計:學生(S)評分員(R)能力維度(Q),或者SRQ。

      2.估計設計。本例的被試學生和評分員是通過隨機程序抽取的,其全域可視為無限,這兩個側面均為為無限隨機側面。能力維度不是隨機抽取的,而是特意確定的,所以為固定側面,其全域水平為4。

      3.測量設計。本例著重考查評定程序對學生演講能力測量的可靠性,因此學生是區(qū)別側面(即研究對象),評分員和能力維度則構成工具側面(測評的條件因素),這種關系可以表示為S/QR。由于演講比賽評分的目的是排名,測量是相對的。

      (三)輸入程序指令。為了利用EduG軟件進行概化分析,需打開軟件,并在界面中按如下方式填寫指令(見圖1)。

      圖1 概化分析指令界面

      完成如上指令的具體步驟包括:

      1.確定文件名稱與保存位置。運行軟件,依次點擊File 和New,在彈出的界面中填寫文件的存儲名稱和位置(本例名稱取“example1”,保存位置為F盤)。

      2.打開文件,在界面中填寫相關指令。

      ●在Title后填寫文件的標題(這是分析報告中使用的標題,本例用Procedureforrankingspeakingability);

      ●在Numberoffacets后選3,表示分析涉及三個側面;

      ●在Observation and estimation designs之下填寫各側面的英文名稱(Student,Rater,Quality),名稱的字母代碼(S,R,Q,代表三個側面處于完全交叉關系)。填寫各側面的水平(10,2, 4),各側面的全域容量(本例中學生和評分員來自無限全域,表示為INF;能力維度全域水平為4);

      ●在Measurementdesign后填寫測量設計代碼(S/RQ,表示學生是區(qū)別側面,評分員和能力維度是構成測評條件的工具側面);

      ●在Reports下勾選RTF(表示輸出的結果以Word表格形式呈現(xiàn));

      ●其他選項保持默認值。

      ●插入數(shù)據(jù)。點擊Insertdata,選擇scores,即彈出數(shù)據(jù)錄入界面(見圖2)。第一列表示的是學生序號,第二列是評分員序號,第三列是能力維度序號。前三列是軟件根據(jù)觀察設計自動生成的,第四列是需要我們錄入數(shù)據(jù)的位置。一個學生要受兩個評分員在四個維度評價,故有8個原始數(shù)據(jù),10個被試的原始數(shù)據(jù)共計80個,可以依次錄入表中。

      圖2 數(shù)據(jù)錄入界面

      (四)查看結果。錄入如上程序指令和數(shù)據(jù)后,點擊Compute,即可查看結果,主要包括如下部分。

      1.哪些因素對學生的分數(shù)變化有較大影響?

      表2 方差分析表

      表2是輸出的方差分析結果。各列依次表示對被試得分具有潛在影響的因素(側面及其交互)、平方和、自由度、均方、隨機效果模型方差成分、混合效果模型方差成分、Whimbey’s矯正的方差成分、各矯正成分的百分比及各隨機效果模型方差成分的標準誤。跟據(jù)表2第一列和第八列可知,有三個因素對被試得分影響分量較重:

      SRQ(學生、評分員和能力維度的交互作用):51.7%

      SR(學生和評分員的交互作用):28.8%

      S(學生):16.1%

      交互作用意味著,兩個評分員對不同學生的打分(SQ交互作用),以及兩個評分員對不同學生在不同能力維度上的打分(SQR交互作用)分歧較大。學生作為研究目標,對分數(shù)的影響僅有16.1%,沒有的達到足夠的分量。

      2.研究結果是否可靠?在概化中,測量誤差源于那些側面?表3呈現(xiàn)的是概化研究表(G-StudyTable)。其中第一列是研究對象,即區(qū)別側面(本例是指學生),第二列是區(qū)別側面的方差(相當于經(jīng)典測量中真分數(shù)解釋的變異,這里可理解為“學生的能力可以解釋的得分變異”),第三列是潛在的誤差來源(注意:由于能力維度Q為固定側面,不存在隨機抽樣誤差,故該側面及其交互作用對測量誤差的影響為零),第四、五列為相對誤差方差及其百分比,第六、七列為絕對誤差方差及其百分比。各列數(shù)據(jù)是進一步計算可靠度系數(shù)的依據(jù)。

      由于本例屬于相對測量,需要根據(jù)相對概化系數(shù)(Coef_Grelative),以及相對誤差方差判斷測量的可靠度與誤差根源。Coef_Grelative=0.53<0.80,即相對概化系數(shù)沒有達到0.80這一慣用的臨界值,表明測量可靠度不夠理想。這里的0.53也意味著,在概化中,“真分數(shù)”能夠解釋的變異占53%,誤差能夠解釋的變異占47%。哪些因素導致了概化中的測量誤差?是SR,雖然其方差為0.07569,但因它是唯一的誤差源,故解釋全部誤差(100%)。

      表3 概化研究表

      (五)優(yōu)化設計方案。概化研究的特殊價值在于,它不僅能發(fā)現(xiàn)問題,而且能提供解決問題的方案。如何提高研究結果的可靠度?一般而言,可以通過增加隨機工具側面的抽樣水平,或者剔除固定工具側面中的不適宜水平,來達到提高測量結果可靠度的目的。

      1.剔除固定工具側面中的不適宜水平。剔除固定工具側面中之不適宜水平的理論依據(jù)是,固定工具側面中的某些水平缺乏效度,會增加測量誤差。本例中能力(Q)為固定工具側面,其四個水平依次為語音、語法、詞匯和內(nèi)容。利用EduG中的G-Facetsanalysis,便可探明本側面哪一水平刪除后能夠提升相對概化系數(shù)。步驟為:

      (1)勾選G-Facetsanalysis(G側面分析);

      (2)在彈出對話框內(nèi)勾選Q并點擊OK;

      (3)點擊Compute并觀察輸出結果。

      表4G側面分析結果

      表4呈現(xiàn)的是G側面分析結果。表中第三欄是刪除能力側面某一水平后相對概化系數(shù)(Coef_Grel.)可以達到的新高度。顯而易見,刪除水平二(Level2,即語法),可以將相對概化系數(shù)最大幅度提高(達到0.68725)??梢酝普?,語法作為一個評定維度,會增加學生與評分員的交互作用(SR),擴大測量誤差。刪除語法項將有助于優(yōu)化測量程序,提高結果的可靠度。

      2.增加隨機工具側面的抽樣水平。凡是以樣本代表總體的研究,樣本量越大結果越準確。這是通過增加隨機工具側面之抽樣水平,以提高測量結果的原理。本例評分員(R)為隨機工具側面,借助EduG可以探明,如何在可操作的范圍內(nèi)適當增加其水平以獲得可靠測量結果。由于剔除能力維度之水平二(語法),可以提高結果可靠度,在增加評分員時可以將剔除能力維度水平二作為并列條件。分析步驟如下:

      (1)指定剔除能力維度二為并行條件(在Observationand estimationdesigns中Quality一行最后一個方框內(nèi)點擊,在彈出對話框內(nèi)選2,點擊OK。結果見圖3);

      圖3 剔除能力維度二后的觀測與估計設計界面

      (2)改變評分員抽樣水平數(shù)(勾選Optimization,在彈出對話框中輸入如圖4的內(nèi)容,注意在五中優(yōu)化方案中,將R的觀察水平依次更改為3,4,5,6,7,點擊OK);

      圖4 優(yōu)化方案界面

      (3)點擊Compute觀察輸出結果。表5是輸出的優(yōu)化方案。表中顯示了不同優(yōu)化方案下的結果(絕對概化系數(shù)、誤差方差、測量標準誤等冗余數(shù)據(jù)略去)。根據(jù)相對概化系數(shù)的變化可知,評分員越多,系數(shù)越高。要達到可接受水平(系數(shù)大于或等于0.80)[7](P117-123),至少需要4位評分員(即Option2,相對信度為0.81464)。

      表5 優(yōu)化方案分析表

      總之,剔除一個評分維度(語法),額外增加兩個評分員(達到4個),便可預期測量程序達到可靠評價學生能力的目的。但是,也有一個前提條件,在測量程序的實際推廣應用中,隨機抽取的評分員或者受試學生,必須與導航研究中涉及的人員具有類似性。否則,導航研究結果便失去推廣的基礎。

      三、結語

      概化理論是將方差分析與傳統(tǒng)的真分數(shù)理論整合發(fā)展而來的信度理論。借助概化研究分析,我們不僅能夠了解不同因素對測量結果和測量準確度的影響,評價測量程序的信度,判斷結果的可靠度,也可以找到測量程序的優(yōu)化方案,進而獲得滿意的結果。本研究借助具體案例,介紹了概化分析軟件EduG的使用方法。由于篇幅有限,只能展示部分基本用法,希望對中小學英語教育測量有益。

      [1]ShavelsonRJ,WebbNM.Generalizabilitytheory:Aprimer [M].SagePublications,1991.

      [2]Cronbach.L.J,Rajaratnam,N,&Gleser,GC.Theory of generalizability:A liberalization of reliability theory[J].British JournalofMathematicalandStatisticalPsychology,1963(2).

      [3]AmericanEducationResearchAssociation(AERA),American Psychological Association (APA),National Council on MeasurementinEducation(NCME).StandardsforEducationand PsychologyTesting[M].WashingtonDC:AmericanPsychological Association,1999.

      [4]徐鷹,曾用強.基于概化理論和多層面Rasch模型的計算機化英語聽說考試評分研究[J].電化教育研究,2015(3).

      [5]孫海洋,韓寶成.概化理論在口語考試設計中的應用研究[J].外語教學,2011(11).

      [6]張英莉,姚春艷.初中英語口語測試信度的概化理論應用研究[J].教育測量與評價(理論版),2014(2).

      [7]靳雪蓮,滕金生,楊德山.網(wǎng)絡論壇公共事務討論語言的修辭特征和成因[J].重慶郵電大學學報(社會科學版),2014(5).

      [責任編輯 劉金榮]

      H319

      A

      2095-0438(2017)02-0119-05

      2015-10-15

      王天劍(1968-),河南南陽人,貴州財經(jīng)大學教授,博士,碩士生導師,研究方向:應用語言學。

      貴州省科學技術廳貴州財經(jīng)大學軟科學研究聯(lián)合基金資助項目(黔科合LH字[2014]7262)。

      猜你喜歡
      概化全域維度
      用一粒米撬動全域旅游
      淺論詩中“史”識的四個維度
      中華詩詞(2019年7期)2019-11-25 01:43:00
      “全域人人游”火爆周寧
      海峽姐妹(2017年9期)2017-11-06 08:39:37
      謀全域 圖四時 大連金普新區(qū)的全域“旅游+”
      全域旅游向更廣更深發(fā)展
      基于MIKE21二維數(shù)值模擬的不同橋墩概化方式下河道壅水計算結果對比分析
      光的維度
      燈與照明(2016年4期)2016-06-05 09:01:45
      “五個維度”解有機化學推斷題
      結構化面試中多源變異的概化分析
      心理學探新(2015年4期)2015-12-10 12:54:02
      攔污柵條概化試驗
      普兰县| 大厂| 德格县| 独山县| 濮阳县| 五寨县| 务川| 清涧县| 固镇县| 卢湾区| 石柱| 南部县| 莒南县| 渭南市| 汝州市| 普定县| 元氏县| 莱芜市| 保康县| 宁强县| 红桥区| 泰和县| 修文县| 板桥市| 汝城县| 巴中市| 区。| 绥芬河市| 大庆市| 霞浦县| 余江县| 武义县| 武城县| 唐海县| 天津市| 明光市| 盖州市| 平阳县| 图们市| 乌拉特前旗| 大连市|