秦惠康 潘鳴威
摘? ?要: 研究在回顧語言測評素養(yǎng)概念和測量工具相關(guān)文獻(xiàn)的基礎(chǔ)上,構(gòu)建可用于測量高中英語教師語言測評素養(yǎng)的自評量表。研究發(fā)現(xiàn),該量表由測評與教學(xué)實踐、測評結(jié)果與使用、語言測試基本原理、命題技巧與測評方法、測評道德倫理及對測評的態(tài)度等因子構(gòu)成。量表的信效度較理想,可由結(jié)構(gòu)方程模型得出其內(nèi)部結(jié)構(gòu)。自評量表在一定程度上說明不同群體在提升英語測評素養(yǎng)方面應(yīng)有不同的側(cè)重點。
關(guān)鍵詞: 語言測評素養(yǎng);描述;高中英語教師;量表開發(fā)與驗證
《深化新時代教育評價改革總體方案》指出,教育評價要“改進(jìn)結(jié)果評價,強(qiáng)化過程評價,探索增值評價,健全綜合評價”。1 在這一背景下,高中英語教師應(yīng)具備一定語言測評素養(yǎng)2 (language assessment literacy)用以有效開展評價工作。然而,教師在實施測評過程中需要細(xì)分評價方法和整體考量評價結(jié)果。比如,一線教師除掌握結(jié)果評價的有關(guān)知識與技能外,還應(yīng)知曉結(jié)果過程評價的操作方法;教研員則應(yīng)更多注重評價結(jié)果的合理使用,為后續(xù)教學(xué)活動提供指南。因此,不同群體高中英語教師語言測評素養(yǎng)應(yīng)有所差異。3 基于此,本文在回顧語言測評素養(yǎng)文獻(xiàn)的基礎(chǔ)上,構(gòu)建并驗證以“能做”描述構(gòu)成的語言測評素養(yǎng)量表,以期對“雙減”背景下評價的減負(fù)增效以及教育評價改革中的分類評價方法提供依據(jù)。
一、語言測評素養(yǎng)
1.語言測評素養(yǎng)的定義和構(gòu)成
語言測評素養(yǎng)是指教師對語言測試和評價理論、技術(shù)以及涉及倫理問題的熟悉程度。這一概念最初由斯蒂金斯(Stiggins)提出,泛指在測評領(lǐng)域的利益相關(guān)者所需了解的技能與知識,并被視為評判優(yōu)秀教師的重要標(biāo)準(zhǔn)。45 在問責(zé)制影響下,研究者提出,測評素養(yǎng)的定義需跨越教育評價領(lǐng)域,形成更全面、綜合和動態(tài)的構(gòu)念,應(yīng)既體現(xiàn)當(dāng)前測評的社會屬性1,又體現(xiàn)語言測評本身的特點2,且需兼具課堂內(nèi)外的不同測評實踐。3 這是學(xué)界以社會建構(gòu)主義視角對測評素養(yǎng)的最新思考,與課堂測評和動態(tài)測評等理念契合。本研究以文獻(xiàn)為基礎(chǔ),將高中英語教師語言測評素養(yǎng)定義為:對高中學(xué)段英語學(xué)科測試與評價相關(guān)理論和實踐的掌握度、熟悉度以及接受度。
此外,研究者也不斷探究測評素養(yǎng)的構(gòu)成。印巴魯尼(Inbar-Lourie)提出語言教師測評素養(yǎng)知識庫,將測評人員的知識體系和結(jié)構(gòu)定義為由測評素養(yǎng)技能和具體語言能力共同形成的測評素養(yǎng)整體,重點包括“為什么”“是什么”“怎么做”三個維度。4 戴維斯(Davies)通過對語言測試書籍開展歷時分析,提出包括知識、技能和原則的語言測評素養(yǎng)框架。5 泰勒(Taylor)指出,語言測評標(biāo)準(zhǔn)、道德規(guī)范以及測評實踐指南的構(gòu)建是語言測評領(lǐng)域?qū)I(yè)化的必然,需從教育需求、就業(yè)需求以及社會政治等方面對語言測評素養(yǎng)加以定義。6 皮爾(Pill)等借助科學(xué)素養(yǎng)的研究框架構(gòu)建了語言測評素養(yǎng)連續(xù)體,分為缺乏素養(yǎng)、基本識記素養(yǎng)、功能性素養(yǎng)、程序性及概念性素養(yǎng)和多維素養(yǎng)。7 沿著這一路徑,研究者將相關(guān)群體分為語言教師、考試開發(fā)者等六類,指出不同群體在語言測評素養(yǎng)的不同表現(xiàn)。89 本研究認(rèn)為,語言測評素養(yǎng)的構(gòu)成是多維的。就高中英語學(xué)科而言,這主要由學(xué)科測評理論與實踐、測評結(jié)果使用以及測評素養(yǎng)提升接受度等組成。
2.語言測評素養(yǎng)的測量工具
國際上,測量語言測評素養(yǎng)通常建立在教育主管部門出臺的教師準(zhǔn)入標(biāo)準(zhǔn)之上,其中包括測評素養(yǎng)。雖然各國標(biāo)準(zhǔn)存在共性,但因目的、用途等因素不同,在測評素養(yǎng)的標(biāo)準(zhǔn)設(shè)定上存在細(xì)微差異。德盧卡(DeLuca)等曾對美國、歐洲等教師準(zhǔn)入標(biāo)準(zhǔn)開展主題分析,發(fā)現(xiàn)這些標(biāo)準(zhǔn)均涉及教師對測評目的、測評過程、測評結(jié)果溝通、測評公平性、測評倫理道德、測量理論知識等的知曉度。10 基于這些標(biāo)準(zhǔn),研究者開發(fā)了語言測評素養(yǎng)量具,如普萊克(Plake)和因帕拉托(Impara)基于美國《學(xué)生教育評價中的教師能力標(biāo)準(zhǔn)》研發(fā)的教師評價素養(yǎng)問卷11,莫特勒(Mertler)和坎貝爾(Campbell)結(jié)合課堂測評開發(fā)的課堂測評素養(yǎng)清單12,克雷梅爾(Kremmel)和哈?。℉arding)根據(jù)不同利益相關(guān)群體設(shè)計的語言測評素養(yǎng)多維度問卷等。13 國內(nèi)也有學(xué)者將測評素養(yǎng)與考試緊密結(jié)合,形成教師的考試素養(yǎng)。14
教師準(zhǔn)入標(biāo)準(zhǔn)和有關(guān)語言測評素養(yǎng)量表對彌補(bǔ)教師語言測評素養(yǎng)的短板具有深遠(yuǎn)意義。但由于我國高中英語教學(xué)的特殊性,專門用于高中英語教師測評素養(yǎng)的量具仍是空白,無法實現(xiàn)精準(zhǔn)自測和測評能力提升的目的。此外,各國的語言測評素養(yǎng)量具也存在不足。第一,量具大多拓展了測評素養(yǎng)的內(nèi)涵,展示了一種規(guī)范性概念,不可直接用于自評。而且有些標(biāo)準(zhǔn)往往忽略英語教師對測評素養(yǎng)的心理接受度等情感因素。第二,雖然現(xiàn)有量具已涉及不同利益相關(guān)方在語言測評素養(yǎng)上的差異,但尚未充分體現(xiàn)測評情景對測評素養(yǎng)的影響。我國的教師準(zhǔn)入標(biāo)準(zhǔn)通常與師風(fēng)師德、學(xué)歷背景等有關(guān),與測評素養(yǎng)相關(guān)的內(nèi)容較為鮮見1,現(xiàn)有的有關(guān)調(diào)研也表明我國各學(xué)段教師的語言測評素養(yǎng)仍有很大提升空間。23 因此,構(gòu)建符合我國高中英語教師語言測評素養(yǎng)自評量表是發(fā)展高中英語教師綜合素質(zhì),落實分層分類評價的重要任務(wù)。
二、高中英語教師語言測評素養(yǎng)量表的開發(fā)
1.量表研制的前期思考
為了構(gòu)建符合我國國情且適合高中學(xué)段的英語教師語言測評素養(yǎng)自評量表(以下簡稱“量表”),在研制過程中,筆者重點思考了三個問題:
第一,量表所涉及的使用人群。本研究所研制的量表要充分考慮高中英語教師中的不同群體。4本研究結(jié)合我國高中英語的實際情況,擬將不同群體分為三類:第一類是語言測評專業(yè)人士,主要指專業(yè)從事語言評價研究者,如省級命題專家;第二類是高中英語教研員,在語言測評專業(yè)人士與一線教師之間搭建橋梁;第三類是一線高中英語教師。
第二,量表的呈現(xiàn)形式。量表既要滿足高中英語教師自評的需要,也要對量表的測量結(jié)果提供切實有效的學(xué)習(xí)材料。因此,在量表呈現(xiàn)形式上,本研究提出使用五級量表的自評方案,對應(yīng)前文提及的五級素養(yǎng)。5 這樣,高中英語教師就可通過量表的各維度得到測評素養(yǎng)自評結(jié)果。
第三,量表的校標(biāo)效度驗證。由于我國尚無公開發(fā)表的測評素養(yǎng)量表,因此無法建立較為理想的校標(biāo)。此外,由于各國國情不同,國外的相關(guān)量表雖然具有一定的借鑒意義,但只能作為參考依據(jù),且本量表針對高中學(xué)段,因而本研究僅涉及對量表信效度和內(nèi)部結(jié)構(gòu)的驗證。
2.量表的研制過程
量表研制分為三個階段:
第一階段是量表的初步形成階段。本研究通過收集國內(nèi)外教師教育標(biāo)準(zhǔn)、教師準(zhǔn)入標(biāo)準(zhǔn)以及語言測評素養(yǎng)量表等文獻(xiàn),以文獻(xiàn)分析法提煉出適合我國高中英語教育實際情況的量表描述語,并逐條打磨成表。
第二階段是量表的試用階段。本研究通過小樣本試測來考察量表在措辭清晰度、使用友好性等方面的問題,并依據(jù)專家判斷的結(jié)果進(jìn)行修改。具體而言,第二階段分為兩步:第一步是小規(guī)模試測。分層抽樣選取20名高中英語教師,其中12名教齡為20年以上,5名為某市區(qū)高中英語教研員,3名為高考命題專家。試測的受試分布覆蓋前文所提及的三個群體,具有一定代表性。第二步是專家判斷。本研究邀請了2名長期從事英語高考研究與命題的高校教師對量表進(jìn)行專家判斷。在第二階段中,專家評判的教師所需自評時長為22—25分鐘,滿足教師自評的認(rèn)知負(fù)荷要求。
第三階段在前期準(zhǔn)備基礎(chǔ)上形成問題清單,并結(jié)合量表在適用性、措辭、呈現(xiàn)形式等方面進(jìn)行優(yōu)化。隨后,基于便利性原則,通過問卷星在2021年12月以分層抽樣方式邀請上海市、浙江省、江蘇省和江西省四地高中英語教師完成量表自評,最終收到有效作答228份。其中,約61%受試為高中英語一線教師;高中英語教研員占19%;語言測評專業(yè)人士(含高校教師)為20%。這些受試在比例上基本符合我國高中英語教師群體中從事語言測評工作的人群比例。6 此外,所有受試的作答平均時長為19.9分鐘。其中,一線英語教師作答時間最長(23.9分鐘),教研員(19.3分鐘)和語言測評專業(yè)人士(18.8分鐘)較快。
3.量表的內(nèi)容與結(jié)構(gòu)
通過以上小規(guī)模試測和專家建議,本研究形成了量表的內(nèi)容與結(jié)構(gòu)(見表1)。量表在構(gòu)成上共分為三個部分:第一部分位于自評之前,用于確定受試身份,即受試需確定以何種工作身份進(jìn)行自評(語言測試專業(yè)人士、一線教師或教研員)。第二部分是自評說明,解釋了量表中0—4所分別代表的意義。第三部分則是量表的核心內(nèi)容,共包括53條與測評素養(yǎng)有關(guān)的自評描述語。
三、高中英語教師語言測評素養(yǎng)量表的驗證
1.量表的效度驗證
本研究第三階段是驗證量表的信度、效度和內(nèi)部結(jié)構(gòu)。通過SPSS軟件的主成分因子分析,先對潛在因子歸類并命名,然后利用EQS軟件用結(jié)構(gòu)方程建模探索量表的內(nèi)部結(jié)構(gòu)。
由Cronbach α信度值0.891可知,量表內(nèi)部一致性較理想。量表自評的數(shù)據(jù)值分析中,KMO值為0.798(0.7 通過斜交旋轉(zhuǎn),表3列出量表項目對潛在因子的負(fù)荷(已隱去因子負(fù)荷為0.3以下的項)。由此,共提取5個潛在因子:因子一由量表第1—13項構(gòu)成,因子二由量表第14—21項構(gòu)成,因子三由量表第22—33項構(gòu)成,因子四由量表第34—47項構(gòu)成,因子五由量表第48—52項構(gòu)成。潛在因子共可解釋71.78%的方差。 與表2結(jié)果一致,表3中第36項和第47項存在跨因子現(xiàn)象。基于因子負(fù)荷的數(shù)值以及可解釋性考量,將這兩項分別歸入因子三和因子四。此外,由于發(fā)生斜交旋轉(zhuǎn),本研究還通過相關(guān)矩陣來觀察潛在因子間的相關(guān)性。結(jié)果發(fā)現(xiàn),5個潛在因子之間均無顯著性相關(guān),說明因子之間獨立。但因子三和因子四的相關(guān)系數(shù)為0.302,相關(guān)性稍高。 隨后,命名5個潛在因子。因子一(第1—13項):英語測評與英語教學(xué)實踐(D1);因子二(第14—22項):英語考試結(jié)果與使用(D2);因子三(第23—33項):語言測評基本原理(D3);因子四(第34—47項):命題技巧與測評方法(D4);因子五(第48—53項):語言測評的道德倫理及對語言測評的態(tài)度(D5)。這些因子集中反映了量表項目的各范疇。因子三和因子四雖分別是“語言測評基本原理”和“命題技巧與測評方法”,但從內(nèi)容上仍很難完全做到?jīng)芪挤置?, 這也從一定程度上解釋了前文跨因子現(xiàn)象和潛在因子相關(guān)系數(shù)略高的問題。 通過結(jié)構(gòu)方程建模,本研究初步得到量表的內(nèi)部結(jié)構(gòu),如圖1所示。在此模型中,5個潛在因子對量表中的語言測評素養(yǎng)均有較理想的解釋力。但如前文所述,D3和D4的相關(guān)性略高。因而,局部調(diào)整模型結(jié)構(gòu),將這兩個因子間形成協(xié)方差后,模型的擬合度指標(biāo)更理想:GFI(0.99)、AGFI(0.96)、TLI(0.99)、NFI(0.99)的值均接近于1(1表示完全擬合)。RMSEA值(0.07)控制在可接受區(qū)間0.05至0.08之間。PNFI值為0.10,與完全擬合值0接近。2 說明建立協(xié)方差后的修正模型更理想,這也與量表內(nèi)部結(jié)構(gòu)的解釋力相符。 如圖1路徑分析顯示,每個因子對語言測評素養(yǎng)的貢獻(xiàn)負(fù)荷介于0.74—0.89之間,且測量誤基本控制在0.5以下。但e2的測量誤為1.32,雖比其他因子的測量誤高,但仍在可接受范圍內(nèi)。此外,e2和e3之間的協(xié)方差測量誤為0.22,說明兩者雖在測量中有交互,但因子之間的交互測量誤差較低。 綜上,將量表所建立的結(jié)構(gòu)方程模型表述為:高中英語教師語言測評素養(yǎng)= 0.77D1+0.74D2+0.88D3+0.87D4+0.89D5+E。其中,D3、D4和D5是提升高中英語教師語言測評素養(yǎng)的關(guān)鍵,涉及測評的原理、方法、準(zhǔn)則以及教師對提升測評素養(yǎng)的接受度等。 2.量表在不同群體中的應(yīng)用 本研究在應(yīng)用量表時主要呈現(xiàn)高中英語一線教師和教研員兩大群體。應(yīng)該指出,由于教研員數(shù)量本身較少,由量表所得出的結(jié)構(gòu)模型僅能從一定程度上反映這一群體的測評素養(yǎng)構(gòu)成。但由于這一群體又極為重要,可形成與一線教師的對比,因而本研究在應(yīng)用以上結(jié)構(gòu)方程模型的基礎(chǔ)上,得到這兩個群體的語言測評素養(yǎng)結(jié)構(gòu)模型,且擬合度指標(biāo)較為理想,分別表述為: 一線教師語言測評素養(yǎng)= 0.88D1+0.45D2+0.80D3+0.82D4+0.31D5+E1 教研員語言測評素養(yǎng)= 0.85D1+0.87D2+0.91D3+0.90D4+0.50D5+E2 比較兩者可知,兩類群體在不同因子上的維度系數(shù)有所不同??傮w上,教研員在測評素養(yǎng)各維度系數(shù)都要高于一線教師,但后者在D1上的維度系數(shù)卻略高。由于D1涉及英語測評與英語教學(xué)實踐,因此,一線教師在英語教學(xué)實踐方面的素養(yǎng)可能更勝一籌,相應(yīng)的維度系數(shù)也略高。就D2(英語測評結(jié)果與使用)而言,一線教師結(jié)構(gòu)方程模型中D2的維度系數(shù)(0.45)表明,這一因子對語言測評素養(yǎng)的貢獻(xiàn)度不高。究其原因,一線教師更多涉及低利害的過程評價,這些測評在結(jié)果使用上尚未與高利害考試的結(jié)果同等重要,因而一線教師所需具備的測評知識也相對有限。相比較而言,教研員在D2因子上的維度系數(shù)較高(0.87)。這說明教研員不僅具備過程評價方面的素養(yǎng),也應(yīng)具備測評專業(yè)知識(如需命制區(qū)一級的質(zhì)量檢測試題等),包括測評設(shè)計與實施、分?jǐn)?shù)報道與分析、結(jié)果解讀、溝通、使用與外推等。12 D3和D4的維度系數(shù)在這兩個群體中的差異不明顯,且均不高。這說明對于高中英語教師而言,語言測試道德倫理方面的要求雖不高,也與以往研究中對高利害考試從業(yè)者的要求不同34,但卻是今后高中英語教師測評素養(yǎng)提升的關(guān)鍵一環(huán)(如對考試結(jié)果的分析、溝通與保密等)。如上所述,雖然以荷載大小的比較僅從側(cè)面反映出教研員和一線教師在測評素養(yǎng)方面的不同,但也一定程度上說明不同群體在提升英語測評素養(yǎng)方面應(yīng)有不同的側(cè)重點,這可較為直接體現(xiàn)教育分類評價和精準(zhǔn)評價的本質(zhì)和要求。 四、結(jié)語 本研究基于有關(guān)文獻(xiàn),開發(fā)并驗證了高中英語教師語言評價素養(yǎng)的自評量表,并提出自評量表由英語測評與英語教學(xué)實踐、英語測評結(jié)果與使用、語言測試基本原理、命題技巧與測評方法、語言測評的道德倫理及對語言測評的態(tài)度等因子構(gòu)成,且具有較為理想的信效度。 在我國“雙減”和教育評價改革的背景下,高中英語教師應(yīng)具備較高測評素養(yǎng),為有效開展終結(jié)性與形成性評價奠定基礎(chǔ)。自評量表作為量具,可為高中英語教師提供測評素養(yǎng)方面的診斷信息。不同教師群體可結(jié)合自身實際,夯實既有的優(yōu)勢維度,彌補(bǔ)不足之處,體現(xiàn)分類評價對不同高中教師群體的差異化要求。此外,語言測評素養(yǎng)并非完全靜態(tài)的概念,高中英語教師在測評實踐中可利用本自評量表來跟蹤自身測評素養(yǎng)的發(fā)展軌跡,形成語言測評素養(yǎng)的動態(tài)提升機(jī)制,為教師發(fā)展提供可持續(xù)的保障。 Developing and Validating a Language Assessment Literacy Self-rating Scale for High School English Teachers in China QIN Huikang1,PAN Mingwei2 (1.Shanghai Jiading Institute of Education,Shanghai,201808;2.College Studies of English ,Shanghai International Studies University,Shanghai,200083) Abstract: This study first reviews the extant literature on the construct and measurement instruments of language assessment literacy (LAL), on the basis of which, a self-rating scale is developed to measure LAL of high school English teachers. It has found that the scale consists of the followings factors: assessment and teaching practice, assessment result and use, basic assessment principles, test writing technique, assessment ethics and attitude towards assessment. Through factor analysis and structural equation modelling, this scale is validated in terms of its reliability and validity as well as its internal structure. The self-rating scale, to a certain extent, shows that different groups should have different emphasis on improving their respective LAL. Key words: language assessment literacy, can-do description, high school English teachers, scale development and validation 基金項目:本文系上海外國語大學(xué)科研創(chuàng)新團(tuán)隊項目“人工智能發(fā)展中的語言習(xí)得和語言測試前沿研究”(項目編號:2020114050)的階段性成果。 作者簡介:秦惠康,上海市嘉定區(qū)教育學(xué)院掛職院長助理,中學(xué)高級教師,碩士,主要從事學(xué)科教研管理和英語教學(xué)研究;潘鳴威,上海外國語大學(xué)英語學(xué)院教授,博士生導(dǎo)師,博士,主要從事語言測試與評價研究。 1? 中華人民共和國教育部:《深化新時代教育評價改革總體方案》,載教育部官網(wǎng):http://www.moe.gov.cn/jyb_xxgk/moe_1777/moe_1778/202010/t20201013_494381.html, 最后登錄日期:2023年1月17日。 2? 不同文獻(xiàn)中對此術(shù)語的翻譯略有不同,如評估素養(yǎng)、測評素養(yǎng)、考試素養(yǎng)等。本文統(tǒng)一使用“測評素養(yǎng)”。 3? 金艷:《外語教師評價素養(yǎng)發(fā)展:理論框架和路徑探索》,《外語教育前沿研究》2018年第2期,第65-72頁。 1? Stiggins, R. J., “Assessment Literacy”, Phi Delta Kappan, Vol.72, no.7(1991), pp.534-539. 2? AFT NCME NEA, Standards for Teacher Competence in Educational Assessment of Students, Washington: National Council on Measurement in Education, 2014. 3? McNamara, T. Roever, C. Language Testing: The Social Dimension, Malden: Blackwell, 2006. 4? Taylor, L., “Developing Assessment Literacy”, Annual Review of Applied Linguistics, no. 29(2009), pp. 21-36. 5? Inbar-Lourie, O., “Language Assessment Literacy”, Language Testing and Assessment, no.4 (2017), pp. 257-270. 6? Inbar-Lourie, O., “Language Assessment Literacy”, Language Testing and Assessment, no.4 (2017), pp. 257-270. 7? Davies. A., “Textbook Trends in Teaching Language Testing”, Language Testing, Vol. 25, no. 3(2008), pp.327-348. 8? Taylor, L., “Developing Assessment Literacy”, Annual Review of Applied Linguistics, no. 29(2009), pp. 21-36. 9? Pill, J. Harding, L., “Defining the Language Assessment Literacy Gap: Evidence from a Parliamentary Inquiry”, Language Testing, Vol. 30, no. 3(2013), pp.381-402. 10? Harding, L. Kremmel, B., “Teacher Assessment Literacy and Professional Development”, in Tsagari, D., & Banerjee, J. (Eds.), Handbook of Second Language Assessment, Berlin: De Gruyter, 2016, pp. 413-428. 11? Kremmel, B. Harding, L., “Towards a Comprehensive, Empirical Model of Language Assessment Literacy Across Stakeholder Groups: Developing the Language Assessment Literacy Survey”, Language Assessment Quarterly, Vol. 17, no. 1(2019), pp. 1-21. 12? Deluca, C. Lapointe-Mcewan, D. Luhanga, U., “Teacher assessment literacy: A review of international standards and measures”, Educational Assessment, Evaluation and Accountability, Vol. 28, no. 3(2016), pp. 251-272. 13? Plake, B. S. Impara, J. C., Teacher Competencies Questionnaire Description, Lincoln, NE: University of Nebraska, 1992. 14? Mertler, C. A. Campbell, C., “Measuring Teachers Knowledge and Application of Classroom Assessment Concepts: Development of the Assessment Literacy Inventory”, Presentation at the Annual meeting of the American Educational Research Association, Montreal, 2005. 1? Kremmel, B. Harding, L., “Towards a Comprehensive, Empirical Model of Language Assessment Literacy Across Stakeholder Groups: Developing the Language Assessment Literacy Survey”, Language Assessment Quarterly, Vol. 17, no. 1(2019), pp. 1-21. 2? 張遠(yuǎn)增:《論教師的“考試素養(yǎng)”及其評估》,《教師教育研究》2015年第5期,第47-54頁。 3? 賈洪芳:《中國教育考試質(zhì)量標(biāo)準(zhǔn)研制初探——以美國〈教育與心理測量標(biāo)準(zhǔn)〉為例》,《當(dāng)代教育科學(xué)》2017年第1期,第84-87頁。 4? 鄭東輝,葉盛楠:《中小學(xué)教師課堂評價知識及其來源的研究——基于浙江省的樣本調(diào)查》,《教育發(fā)展研究》2012年第20期,第68-78頁。 5? 賈林芝:《“教—評一體化”視域下教師校內(nèi)學(xué)業(yè)評價素養(yǎng)現(xiàn)狀調(diào)研》,《教育發(fā)展研究》2020年第20期, 第53-61頁。 6? 熊建輝:《教師專業(yè)標(biāo)準(zhǔn)研究》,華東師范大學(xué)博士學(xué)位論文,2008年。 7? Pill, J. Harding, L., “Defining the Language Assessment Literacy Gap: Evidence from a Parliamentary Inquiry”, Language Testing, Vol. 30, no. 3(2013), pp. 381-402. 1? Kremmel, B. Harding, L., “Towards a Comprehensive, Empirical Model of Language Assessment Literacy Across Stakeholder Groups: Developing the Language Assessment Literacy Survey”, Language Assessment Quarterly, Vol. 17, no. 1(2019), pp. 1-21. 1? Harding, L. Kremmel, B., “Teacher Assessment Literacy and Professional Development”, in Tsagari, D., & Banerjee, J. (Eds.), Handbook of Second Language Assessment , Berlin: De Gruyter, 2016, pp.413-428. 1? Hu, L. Bentler, P. M., “Cutoff Criteria for Fit Indexes in Covariance Structure Analysis: Conventional Criteria Versus New Alternatives”, Structural Equation Modeling, Vol. 6, no. 1(1999), pp. 1-55. 2? Harding, L. Kremmel, B., “Teacher Assessment Literacy and Professional Development”, in Tsagari, D., & Banerjee, J. (Eds.), Handbook of Second Language Assessment, Berlin: De Gruyter, 2016, pp.413-428. 3? 張遠(yuǎn)增:《論教師的“考試素養(yǎng)”及其評估》,《教師教育研究》2015年第5期,第47-54頁。 1? Kremmel, B. Harding, L., “Towards a Comprehensive, Empirical Model of Language Assessment Literacy Across Stakeholder Groups: Developing the Language Assessment Literacy Survey”, Language Assessment Quarterly, Vol. 17, no. 1(2019), pp. 1-21. 2? 潘鳴威:《外語教師語言測評素養(yǎng)再探——基于對語言測試專家的訪談》,《中國考試》2020年第7期,第34-41頁。