朱 適
(南京大學(xué)外語部,江蘇 南京 210023)
大學(xué)英語教師的教育質(zhì)量直接影響非英語專業(yè)學(xué)生的大學(xué)英語四、六級(jí)成績,甚至包括出國深造學(xué)生的標(biāo)準(zhǔn)化考試成績(如托福、GRE、GMAT等),因此如何科學(xué)評(píng)估大學(xué)外語教師的教學(xué)質(zhì)量成為目前許多高校都極其關(guān)注的一個(gè)問題。Bachman(1990)將“評(píng)估”定義為對(duì)人們的特征進(jìn)行定量的過程,其主要作用在于為人們進(jìn)行正確決策提供信息[1]。
通過觀察教師課堂表現(xiàn)并給教師的課堂表現(xiàn)打分是教學(xué)質(zhì)量評(píng)估中的重要環(huán)節(jié)。一系列的研究證明,標(biāo)準(zhǔn)化的課堂觀察打分有助于學(xué)生的發(fā)展以及提高教師和學(xué)生間的互動(dòng)質(zhì)量[2],但評(píng)分標(biāo)準(zhǔn)的差異、評(píng)估者打分松弛度的不同、專家評(píng)委人數(shù)的不同等因素造成了不同的測(cè)量誤差源(sources of measurement error)。應(yīng)用概化理論(generalizability theory)可以幫助確定測(cè)量評(píng)估中的誤差來源問題,確定評(píng)分者的人數(shù),提高大學(xué)英語教學(xué)評(píng)估的信度。
經(jīng)典測(cè)試?yán)碚撽P(guān)注的核心是測(cè)量信度(reliability)與效度(validity),概化理論與此相似。概化理論屬于隨機(jī)抽樣理論,運(yùn)用統(tǒng)計(jì)學(xué)中的方差分量模型,通過確定不同的測(cè)量目標(biāo)(object of measurement)和側(cè)面(facets)的做法,有針對(duì)性地考察多種信度和效度[3]。概化理論中的概化系數(shù)(generalizability coefficient)、相對(duì)測(cè)量誤差(relative error)、絕對(duì)誤差(absolute error)以及Phi系數(shù)是我們?cè)诟呕碚撛O(shè)計(jì)中需要特別關(guān)注的重點(diǎn)。
概化研究分為兩步:第一步為概化研究,又叫G研究,在該研究中研究者根據(jù)已有數(shù)據(jù)獲得概括推論測(cè)驗(yàn)結(jié)果時(shí)所獲得的概化全域(universe of generalization);研究者在概化全域上對(duì)各測(cè)量面、測(cè)量對(duì)象或它們之間交互作用的研究被稱為D研究(decision study,決策研究)[4]。
Brennan(2001)指出運(yùn)用概化理論首先要確定測(cè)量的目標(biāo)(object of measurement),這個(gè)目標(biāo)的方差即真實(shí)變異部分,也是概化研究的重點(diǎn),剩下的就是隨機(jī)變異部分,又稱作測(cè)量側(cè)面(facet),相當(dāng)于試驗(yàn)設(shè)計(jì)中的干擾成分。概化理論中,研究者希望測(cè)量目標(biāo)的變異越大越好,而測(cè)量目標(biāo)以外的測(cè)量側(cè)面則被認(rèn)為是系統(tǒng)的誤差來源。Brennan和他的同事開發(fā)了進(jìn)行概化(univariate generalizability)分析的軟件GENOVA、urGENOVA和mGENOVA。雖然SPSS也可以幫助進(jìn)行方差分析,但SPSS無法提供決策研究的結(jié)果,需要研究者自己去運(yùn)算,而整個(gè)運(yùn)算過程相當(dāng)煩瑣。GENOVA和mGENOVA的出現(xiàn)極大提高了運(yùn)算的效率和準(zhǔn)確性。一元概化理論的概念基于方差分析(ANOVA)之上,而多元概化理論則是基于多元方差分析(MANOVA)[3]。
劉遠(yuǎn)我和張厚粲(1998)是我國最早進(jìn)行概化理論研究的學(xué)者,他們介紹了概化理論中的基本概念,應(yīng)用了概化理論對(duì)作文評(píng)分的誤差控制問題進(jìn)行應(yīng)用探討,分析了評(píng)分員和試題效應(yīng),探討了評(píng)分者一致性系數(shù)和概化理論系數(shù)[5]。楊志明等(2004)通過多元概化理論研究廣東省高考綜合能力測(cè)試,通過多元概化理論的決策研究發(fā)現(xiàn),當(dāng)把高考綜合考試各個(gè)部分的題數(shù)擴(kuò)大一倍時(shí),總分的信度將會(huì)提高。不過,地理和政治所提供的方差貢獻(xiàn)程度遠(yuǎn)遠(yuǎn)低于相應(yīng)的賦分比例,而化學(xué)和歷史的方差貢獻(xiàn)比例又遠(yuǎn)遠(yuǎn)高于相應(yīng)的賦分比例,這意味著歷史和化學(xué)較好的考生得到了較高的綜合考試分?jǐn)?shù)[6]。胡誼和顧春梅(2007)使用多元概化理論分析了上海市2006年的高考?xì)v史考卷。他們的研究更多關(guān)注于各誤差來源的方差貢獻(xiàn)率而非試卷本身的信度。研究者發(fā)現(xiàn),在高考?xì)v史試卷結(jié)構(gòu)方面,各部分試題具有較好的測(cè)量信度,但各部分分值比例存在一定問題;此外在主觀題評(píng)分方面,評(píng)分教師對(duì)分?jǐn)?shù)影響微弱,說明最后的評(píng)分能比較可靠地反映不同學(xué)生之間的知識(shí)水平和學(xué)術(shù)能力差異[7]。
在外語研究和教學(xué)領(lǐng)域,運(yùn)用概化理論研究外語教學(xué)的文章極少,最近的一項(xiàng)研究是孫海洋和韓寶成(2011)所做的將概化理論應(yīng)用于一項(xiàng)針對(duì)職前中學(xué)英語教師的口語考試設(shè)計(jì)研究。他們對(duì)這項(xiàng)考試的試測(cè)數(shù)據(jù)進(jìn)行了一元概化和多元概化分析,確定了成績誤差的來源,分析了不同考試設(shè)計(jì)模式的信度。本研究的結(jié)果對(duì)英語口語考試的設(shè)計(jì)有比較重要的意義,考試設(shè)計(jì)者可以根據(jù)一元概化理論和多元概化理論研究分析的結(jié)果選取相對(duì)恰當(dāng)?shù)目荚嚾蝿?wù),確定評(píng)分員的數(shù)量,提高主觀測(cè)試的信度,選擇比較滿意的考試設(shè)計(jì)模式[8]。汪順玉和席仲恩(2008)運(yùn)用多元概化理論,演示了如何利用該理論計(jì)算舊版六級(jí)考試語言測(cè)試結(jié)果的信度系數(shù)并分析考試結(jié)構(gòu)[9]。
盡管我國目前已經(jīng)有了一定數(shù)量的概化理論研究成果,但是還沒有研究者將多元概化理論運(yùn)用于大學(xué)英語課程的評(píng)估之中。
美國弗吉尼亞大學(xué)教授Pianta,La Parro和Hamre(2008)設(shè)計(jì)了一種在美國被廣泛使用的課堂評(píng)估評(píng)分系統(tǒng)(CLASS)[2]。本研究在他們研究基礎(chǔ)之上設(shè)計(jì)一套適合中國大學(xué)外語教學(xué)的英語課堂教學(xué)質(zhì)量評(píng)估表,使用標(biāo)準(zhǔn)化的觀測(cè)手段來測(cè)定中國大學(xué)英語教師課堂教學(xué)質(zhì)量的標(biāo)準(zhǔn)。其包含兩個(gè)維度:情感交流和授課。情感交流包括五個(gè)項(xiàng)目(1為是,0為否),描述的是a.英語閱讀課堂教學(xué)氣氛是否活躍;b.英語閱讀課上師生之間是否相互尊重;c.英語閱讀課上師生之間是否積極互動(dòng);d.英語閱讀教師對(duì)學(xué)生需要的是否敏感;e.英語閱讀教師能否從學(xué)生的視角去分析問題;授課包括五個(gè)項(xiàng)目(1為是,0為否),即a.英語閱讀教師的授課能否提高學(xué)生的學(xué)習(xí)能力;b.英語閱讀課是否有助于語言水平(proficiency)的提高;c.英語閱讀課能否拓展學(xué)生的語言學(xué)習(xí)能力(aptitude);d.英語閱讀課能否提高學(xué)生的學(xué)術(shù)英語思辨能力;e.英語閱讀課能否組織好學(xué)生參與課堂英語討論中來。每個(gè)維度(情感交流和授課)的總分為5分,0為最低分,5為最高分。
在本研究中,我們選取了來自全國三所不同層次大學(xué)的共五位大學(xué)英語閱讀課程的教師。五位教師都在35歲以下,一位為男性,其余四位為女性。這五人全部取得了英語專業(yè)的碩士學(xué)位。在一個(gè)月內(nèi)按照我們初步設(shè)定的評(píng)分標(biāo)準(zhǔn)對(duì)他們的課程進(jìn)行兩次評(píng)估(兩周一次)。參加課程打分的共有兩位評(píng)估者,全部為受過培訓(xùn)的、有多年教學(xué)和研究經(jīng)驗(yàn)的大學(xué)英語教師,均取得博士學(xué)位。
研究的基本假設(shè)之一就是教師的能力、水平和教學(xué)態(tài)度在短期內(nèi)不會(huì)發(fā)生改變,其次我們假設(shè)這五位教師大學(xué)英語閱讀課程是從容量無限的全國大學(xué)英語教師閱讀課程總體中隨機(jī)抽取的一個(gè)課程樣本,能代表我國大學(xué)英語教師的基本狀況。同樣,評(píng)分者側(cè)面樣本也可以被看作是我們從全國受過相關(guān)培訓(xùn),具有博士學(xué)位的評(píng)分員總體中抽取的樣本,能夠在相當(dāng)程度上代表根據(jù)兩次評(píng)估的結(jié)果。
由于一元概化理論模型無法得到各效應(yīng)在不同時(shí)間段評(píng)估之間的協(xié)方差估計(jì),因此我們選擇建立多元概化理論模型,模型中教師的課程將被作為測(cè)量目標(biāo)對(duì)待,課程在模型中表示為(c),評(píng)估者表示為(r),他們的交互作用為(c x r),兩次評(píng)估獲得的成績可以被理解為多元結(jié)果的兩個(gè)因子。因此我們的多元概化理論模型為c·x r·。其中c為測(cè)量目標(biāo)(object of measurement),r是測(cè)量的側(cè)面(facet)。我們利用mGENOVA軟件得出大學(xué)英語閱讀課程評(píng)估的總體信度和兩個(gè)維度各自的信度,同時(shí)估計(jì)各誤差來源的方差對(duì)總體方差的貢獻(xiàn)率。理論上評(píng)估者人數(shù)的增加,可以提高大學(xué)英語閱讀課程評(píng)估的信度,減少評(píng)分誤差,提高評(píng)分的準(zhǔn)確度,但是定性分析和傳統(tǒng)測(cè)試學(xué)理論無法告訴我們具體的評(píng)估者數(shù)字,通過多元概化理論模型我們可以根據(jù)不斷變化的概化系數(shù)值和實(shí)際預(yù)算要求決定評(píng)分者人數(shù)。
通過mGENOVA的運(yùn)算,我們可以分別得到5位教師在情感交流和授課兩維度上的兩次觀察所獲取的平均分。情感交流方面,第一次觀察的總均分為3.71667,第二次為4.06667;授課方面,第一次為4.31667,第二次為4.40。結(jié)果可以看出,大學(xué)英語教師在單純的傳授知識(shí)方面達(dá)到了基本的要求,但是在與學(xué)生的溝通和調(diào)節(jié)課堂氣氛方面在一定程度上仍然缺乏有效的手段和技巧。
根據(jù)mGENOVA軟件。我們得到課程(c),評(píng)估者(r)以及課程與評(píng)估者(cr)之間相互效應(yīng)在兩個(gè)因子上的方差和協(xié)方差分量的估計(jì)矩陣(表1和表2)。
表1 情感交流評(píng)分中各種變異來源方差與協(xié)方差矩陣
表2 授課評(píng)分中各種變異來源方差與協(xié)方差矩陣
由表1和表2我們發(fā)現(xiàn)共有三個(gè)變異來源得到了分析。從表1可以看出,測(cè)量目標(biāo)(教師課程)的方差貢獻(xiàn)率是81.7%,說明不同教師在與學(xué)生的情感交流層面有較大差異。而評(píng)分者側(cè)面的方差貢獻(xiàn)率是7%,這意味著評(píng)分者因素給分?jǐn)?shù)變異帶來的系統(tǒng)誤差很小,評(píng)分前后一致,比較穩(wěn)定。測(cè)量目標(biāo)與評(píng)分者側(cè)面的交互作用占總變異的11.3%。從表2看,最大的變異來源為評(píng)分者側(cè)面與測(cè)量目標(biāo)的交互作用,占總變異的49.2%,說明評(píng)分者給部分教師的打分具有較大變化。我們還可以看到,測(cè)量目標(biāo)的方差貢獻(xiàn)率最小,占22.5%,說明教師間的授課水平差異相對(duì)不大。造成以上問題的原因可能是授課維度的評(píng)分標(biāo)準(zhǔn)不好把握,造成評(píng)分者給部分授課教師的打分浮動(dòng)較大。這啟示我們,概化理論還可以用于提示研究者如何改進(jìn)完善測(cè)量工具。
由于測(cè)量目標(biāo)在決策研究中是固定的,因此我們通過改變?cè)u(píng)分者側(cè)面來觀察概化系數(shù)(generalizability coefficient,又稱G系數(shù))的變化。
表3 cxR設(shè)計(jì)的情感交流D研究
為了研究改善整個(gè)大學(xué)英語閱讀課程評(píng)估的信度,我們可以通過改變?cè)u(píng)分者側(cè)面的樣本容量來觀察信度的變化特點(diǎn)。在情感交流維度,當(dāng)評(píng)分者為2時(shí),概化系數(shù)為0.95245,Phi系數(shù)為0.83576,而當(dāng)評(píng)分者為3和4時(shí)候,概化系數(shù)有小幅提高變?yōu)?.95568和0.96639,Phi系數(shù)為0.92676和0.94404;在授課維度,評(píng)分者側(cè)面人數(shù)的改變會(huì)極大影響整個(gè)評(píng)估的信度。從表4我們可以發(fā)現(xiàn),當(dāng)評(píng)分者為2時(shí)概化系數(shù)最低,為0.47909,Phi系數(shù)為0.36842,說明在授課維度評(píng)分者人數(shù)較少時(shí),測(cè)量的可靠性極低,而將評(píng)分者人數(shù)升到3時(shí),概化系數(shù)可以提高到0.57975,評(píng)分者人數(shù)為4時(shí),概化系數(shù)和Phi系數(shù)分別躍升到0.64781和0.53846,相較于2人時(shí),提高幅度約為35.2%和46%。0.64781是一個(gè)中等偏下的信度,不過在主觀性很強(qiáng)的評(píng)估打分中,此信度可以接收。
表4 cxR設(shè)計(jì)的授課D研究
當(dāng)我們觀察兩個(gè)維度的全域相對(duì)誤差方差量和絕對(duì)誤差方差量時(shí),可以發(fā)現(xiàn)在情感交流維度,評(píng)分者數(shù)目為4時(shí),全域相對(duì)誤差方差量(0.01387)和絕對(duì)誤差方差量(0.02363)最低。同樣在授課維度,當(dāng)評(píng)分者為4時(shí),全域相對(duì)誤差方差量(0.00892)和絕對(duì)誤差方差量(0.01406)都相對(duì)較低。由上述數(shù)據(jù)可以看出,評(píng)分者人數(shù)的增加,可以提高大學(xué)英語閱讀課程評(píng)估的信度,減少評(píng)分誤差,提高評(píng)分的準(zhǔn)確度。當(dāng)然增加評(píng)分者人數(shù)以提高整體信度的前提是要在評(píng)分前對(duì)評(píng)分者進(jìn)行嚴(yán)格的培訓(xùn)使評(píng)分者本人對(duì)評(píng)分標(biāo)準(zhǔn)有非常透徹的了解,能夠準(zhǔn)確把握評(píng)分尺度。此外,我們可以發(fā)現(xiàn),評(píng)分者在情感維度的打分非常準(zhǔn)確,信度極高,這里面可能有兩點(diǎn)原因:一是,情感維度的標(biāo)準(zhǔn)容易把握。情感交流關(guān)注的是課堂氣氛、師生互動(dòng)以及教師對(duì)學(xué)生需要的敏感度等,這些指標(biāo)相對(duì)容易衡量,往往可以通過上課時(shí)候?qū)W生表現(xiàn)是否積極以及課堂討論是否熱烈等來判斷,因此評(píng)分者在此維度上的打分比較穩(wěn)定。二是,在授課維度。一些具體指標(biāo)(教師的授課能否提高學(xué)生的學(xué)習(xí)能力,是否有助于語言水平的提高,能否拓展學(xué)生的學(xué)習(xí)能力,能否提高學(xué)生的學(xué)術(shù)思辨能力及能否組織好學(xué)生參與課堂教學(xué)中)很難通過兩個(gè)小時(shí)的課程完全反映出來。我們也許需要收集更多的數(shù)據(jù),采訪更多的大學(xué)外語教師,通過因子分析的方法找出更加恰當(dāng)適合的指標(biāo)來評(píng)價(jià)授課維度。
通過多元概化理論分析,我們可以發(fā)現(xiàn)評(píng)分者側(cè)面在主觀性極強(qiáng)的大學(xué)英語閱讀課程評(píng)估中的作用是極強(qiáng)的。因此減少評(píng)分者因素造成的誤差在評(píng)估中具有重要意義。研究可以發(fā)現(xiàn),增加受過訓(xùn)練的評(píng)分員的人數(shù)是提高整個(gè)評(píng)分信度的最佳方案。就多元概化設(shè)計(jì)而言,當(dāng)評(píng)分員數(shù)目為4時(shí),整個(gè)設(shè)計(jì)的信度特別是授課維度的信度得到了極大提高?,F(xiàn)有大學(xué)英語閱讀教學(xué)評(píng)估經(jīng)常使用純定性方法,簡單描述教師上課時(shí)候的表現(xiàn)并給予一定的評(píng)價(jià)。這種評(píng)估方式具有極大的主觀性。非標(biāo)準(zhǔn)化的評(píng)估原則以及經(jīng)常模糊的評(píng)估用詞很難使廣大英語閱讀教師從評(píng)估中獲益。即使使用傳統(tǒng)測(cè)試學(xué)指導(dǎo)下的定量方法,評(píng)估中的誤差控制問題始終是棘手的難題。
本研究充分吸收了Cronbach和Brennan兩人關(guān)于概化理論和多元概化理論的精華,利用國內(nèi)外已有的先進(jìn)研究成果,探討如何將多元概化模型運(yùn)用于我國大學(xué)英語閱讀課程的教學(xué)評(píng)估中,如何通過多元概化理論中的方差協(xié)方差分析和概化系數(shù)等幫助建立一套適合我國大學(xué)外語實(shí)際教學(xué)情況的評(píng)估標(biāo)準(zhǔn),使評(píng)估標(biāo)準(zhǔn)科學(xué)化和標(biāo)準(zhǔn)化。本研究對(duì)大學(xué)英語閱讀課程評(píng)估的設(shè)計(jì)具有重要意義。課程評(píng)估要求的設(shè)計(jì)者可以根據(jù)多元概化理論的結(jié)果選取合適的評(píng)分員人數(shù),選取合理的評(píng)分要求,建立最佳的評(píng)估模式,從而提高閱讀課程的質(zhì)量,節(jié)約評(píng)估的費(fèi)用并且有效提高英語閱讀課程評(píng)估的效率。