楊宏博 羅成禹 楊 卓
2018 年1 月,中共中央國務(wù)院發(fā)布了《關(guān)于全面深化新時(shí)代教師隊(duì)伍建設(shè)改革的意見》。 《意見》是對(duì)習(xí)近平總書記關(guān)于打造 “四有教師” 隊(duì)伍要求的具體落實(shí),是新時(shí)代教師隊(duì)伍建設(shè)的行動(dòng)指南。 《意見》強(qiáng)調(diào),要完善教師資格考試政策,嚴(yán)格教師準(zhǔn)入,提高入職標(biāo)準(zhǔn),重視思想政治素質(zhì)和業(yè)務(wù)能力。 中小學(xué)教師資格考試秉承這一宗旨, 致力于考查申請教師資格人員是否具備從事教師職業(yè)所必需的教育教學(xué)基本素質(zhì)和能力,以遴選樂教、適教、善教的優(yōu)秀人才進(jìn)入教師隊(duì)伍[1]。
截至2019 年下半年,中小學(xué)教師資格考試已經(jīng)拓展到全國28 個(gè)?。ㄊ?、自治區(qū)),累計(jì)參加筆試考生2227 萬人次,面試考生866 萬人次。 中小教師資格考試《語文學(xué)科知識(shí)與教學(xué)能力》(初級(jí)中學(xué)、高級(jí)中學(xué)) 是中學(xué)類別報(bào)考人數(shù)最多的科目之一,僅2019 年下半年就有32.3 萬人報(bào)考。 該科目重點(diǎn)考查申請者四個(gè)方面的基本能力[2],分別是運(yùn)用語文學(xué)科知識(shí)的能力、語文教學(xué)設(shè)計(jì)能力、語文教學(xué)實(shí)施能力和語文教學(xué)評(píng)價(jià)能力。 從測量的角度分析,對(duì)《語文學(xué)科知識(shí)與教學(xué)能力》科目的試卷質(zhì)量進(jìn)行研究,具有典型參考價(jià)值, 有助于完善中小學(xué)教師資格考試的科學(xué)性以及考查內(nèi)容和考查策略的合理性。
經(jīng)典測量理論(Classical Test Theory,簡稱CTT),又稱為真分?jǐn)?shù)理論,因其易于被人理解和接受,并且具有較強(qiáng)的適應(yīng)性, 在20 世紀(jì)前葉迅速發(fā)展起來。毫無疑問,經(jīng)典測量理論是體系最成熟的測量理論。它在各行各業(yè)測量中的成功應(yīng)用使其在新的測量理論崛起的今天,仍具有不可替代的地位和作用[3]。 利用經(jīng)典測量理論,本文統(tǒng)計(jì)了2019 年下半年中小學(xué)教師資格考試《語文知識(shí)與教學(xué)能力(初級(jí)中學(xué))》科目的148986 份有效筆試試卷(去除零分卷和違紀(jì)考卷),全卷平均分為91.5 分,難度為0.61,試卷難度較為合理。 同時(shí),對(duì)每一道試題利用經(jīng)典測量理論進(jìn)行統(tǒng)計(jì)分析,詳情如表1 所示。
通過表1 可以發(fā)現(xiàn), 中檔題占整份試卷的比例超過80%,區(qū)分度優(yōu)良的題目占比為76%。試卷難度中等,結(jié)構(gòu)合理,區(qū)分度較好,具有較高的命題質(zhì)量。
表1 2019 年下半年《語文知識(shí)與教學(xué)能力(初級(jí)中學(xué))》筆試試卷質(zhì)量分析
當(dāng)然, 經(jīng)典測量理論也具有許多不可避免的缺陷和不足,例如不能對(duì)測量結(jié)果進(jìn)行推廣、模型的若干假設(shè)與實(shí)際不符等[3]。 相對(duì)于考試首次試點(diǎn)以來,一直采用的經(jīng)典測量理論的質(zhì)量監(jiān)測方法, 概化理論(Generalizability Theory,GT)重點(diǎn)討論考生能力水平與考試題目之間的實(shí)質(zhì)性關(guān)系, 能夠達(dá)到區(qū)分考生、評(píng)估應(yīng)考者真實(shí)水平的目的,并能較好地控制測評(píng)誤差。
概化理論的基本原理是運(yùn)用實(shí)驗(yàn)設(shè)計(jì)的思想,分析影響測驗(yàn)分?jǐn)?shù)差異的各項(xiàng)因素 (如考生個(gè)體水平的差異、題目難度等);并運(yùn)用方差分析技術(shù),分別估計(jì)各因素對(duì)分?jǐn)?shù)總變異的貢獻(xiàn) (以方差分量為指標(biāo))。 根據(jù)不同研究目的的需要,分別考察研究目標(biāo)在分?jǐn)?shù)總變異中所占的比重。 測量信度的概念在概化理論中用概化系數(shù)或可靠性系數(shù)來代替[4]。
概化理論用方差分析的方法估計(jì)各種方差成分的相對(duì)大小,并可直接比較其大小;不僅能估計(jì)出主效應(yīng),也能估計(jì)出交互作用效應(yīng),并能對(duì)各估計(jì)值的大小進(jìn)行直接比較。 在概化理論中,理論估出各方差成分相對(duì)大小的過程,稱為概化理論的G 研究。 在G研究的基礎(chǔ)上,可通過實(shí)驗(yàn)性研究,進(jìn)一步考察不同測驗(yàn)設(shè)計(jì)條件下概化系數(shù)的變化情況, 如試題容量變化對(duì)于概化系數(shù)的影響等, 從而尋找最佳的控制誤差的方法,作出最佳的設(shè)計(jì)決策,為改進(jìn)測驗(yàn)的內(nèi)容和方式方法提供有價(jià)值的信息。 這一階段稱為概化理論的D 研究。
多元概化理論(Multivariate Generalizability Theory,MGT)在概化理論的基礎(chǔ)上,深入研究測量目標(biāo)具有多個(gè)全域分?jǐn)?shù)等方面的問題(如總測驗(yàn)可以分解為多個(gè)不同維度的分測驗(yàn)), 主要可應(yīng)用于測試多門學(xué)科或多種能力的綜合測驗(yàn)。 近些年來,高考、研究生考試、高等教育自學(xué)考試等大規(guī)模測驗(yàn)為加強(qiáng)測驗(yàn)信度檢驗(yàn),開始廣泛應(yīng)用這一理論進(jìn)行研究設(shè)計(jì)[5-7]。
多年來,雖然山區(qū)群眾種植核桃的積極性高,但由于重栽輕管、管理粗放,缺乏科學(xué)的管理技術(shù)。加之山區(qū)社會(huì)綜合發(fā)展水平不高,經(jīng)濟(jì)基礎(chǔ)薄弱、農(nóng)村外出務(wù)工人員增多,農(nóng)村勞動(dòng)力減少,農(nóng)民文化技術(shù)素質(zhì)低、資金投入嚴(yán)重不足等因素阻礙了核桃產(chǎn)業(yè)發(fā)展。
《語文學(xué)科知識(shí)與教學(xué)能力》是考查考生多種基本素養(yǎng)和能力的綜合性測試,根據(jù)其考試目標(biāo),可以將其分解為多個(gè)分測驗(yàn), 因此對(duì)其測驗(yàn)信度進(jìn)行研究適宜采用多元概化理論的原理和方法。 通過多元概化模型分析中小學(xué)教師資格考試 《語文教學(xué)知識(shí)與能力》 試卷, 探討各模塊及全卷的測量精度 (信度),考察內(nèi)容模塊樣本容量變化對(duì)考試信度(概化系數(shù))的影響,分析各模塊對(duì)總測驗(yàn)的貢獻(xiàn)率,以期為優(yōu)化試卷、提高命題質(zhì)量提供參考。
2019 年下半年中小學(xué)教師資格考試《語文知識(shí)與教學(xué)能力 (初級(jí)中學(xué))》 科目的全國考生人數(shù)為176615(教育部考試中心,2019),從中隨機(jī)抽取3500份有效試卷(去除零分卷和違紀(jì)考卷)。 依據(jù)考試大綱,將學(xué)科知識(shí)、教學(xué)設(shè)計(jì)、教學(xué)實(shí)施、教學(xué)評(píng)價(jià)四個(gè)內(nèi)容模塊作為四個(gè)測量分項(xiàng),分別以V1、V2、V3、V4表示。 試卷總題量為 21 題,滿分 150 分。 V1 包括 8題,29 分;V2 包括 2 題,45 分;V3 包括 6 題,52 分;V4 包括 5 道題目,24 分(見表 2)。
本研究將考試的內(nèi)容設(shè)計(jì)為四內(nèi)容因子的單面交叉設(shè)計(jì) p×i 多元概化模型, 其中 p 代表考生,i 代表試題。 運(yùn)用多元概化模型,完成G 研究和D 研究的數(shù)據(jù)統(tǒng)計(jì)與分析;采用Brennan 開發(fā)的mGENOVA軟件完成多元概化理論相關(guān)數(shù)據(jù)的計(jì)算[8,9]。
表2 《語文知識(shí)與教學(xué)能力(初級(jí)中學(xué))》試卷測量內(nèi)容
根據(jù)理論模型,編寫涉及四個(gè)分測驗(yàn)的mGENOVA 程序, 分別對(duì)整個(gè)試卷及四個(gè)模塊進(jìn)行G 研究,以估計(jì)整個(gè)測驗(yàn)和各個(gè)模塊的測量信度。 同時(shí),利用有關(guān)信息評(píng)價(jià)各個(gè)模塊對(duì)總測驗(yàn)的貢獻(xiàn)程度。G研究采用p×i 四因子隨機(jī)單面交叉設(shè)計(jì), 可以得到各效應(yīng)在四個(gè)因子上的方差和協(xié)方差變量估計(jì)矩陣,如表 3 所示,其中 V1 表示 “學(xué)科知識(shí)” 模塊,V2表示 “教學(xué)設(shè)計(jì)” 模塊,V3 表示 “教學(xué)實(shí)施” 模塊,V4表示 “教學(xué)評(píng)價(jià)” 模塊。
由表3 可知,V1 相對(duì)于其他因子的協(xié)方差分量較小,這說明考生在 “學(xué)科知識(shí)” 模塊中的得分高低順序與他們在其他模塊中的順序不太一致, 即這個(gè)模塊中的題目在區(qū)分考生能力方面功能較弱。 在效應(yīng)p 上,V2 因子的方差分量最大,而V4 因子的方差分量最低,表明在本次考試中,“教學(xué)設(shè)計(jì)” 模塊對(duì)考生的區(qū)分能力較強(qiáng),而 “教學(xué)評(píng)價(jià)” 模塊對(duì)考生的區(qū)分能力相對(duì)較弱。
D 研究采用p×i 四因子隨機(jī)單面交叉設(shè)計(jì),基于G 研究估計(jì)的方差與協(xié)方差矩陣, 進(jìn)一步估計(jì)考生在四個(gè)因子上的全域分?jǐn)?shù)及相應(yīng)誤差項(xiàng)的方差分量,進(jìn)而估計(jì)概化系數(shù)與可靠性指數(shù),如表4 所示。
由表4 可知, 四因子中全域分?jǐn)?shù)方差分量從高到低依次為 “教學(xué)設(shè)計(jì) V2”、 “教學(xué)實(shí)施 V3”、“學(xué)科知識(shí) V1”、 “教學(xué)評(píng)價(jià) V4”。 考慮到各分量誤差方差的因素, 測量信度最高的因子是V2 (概化系數(shù)為0.599)。 結(jié)果表明本次考試中,“教學(xué)設(shè)計(jì)” 模塊的測量信度相對(duì)較高。
表3 各效應(yīng)在四因子的方差與協(xié)方差分量估計(jì)
表4 四因子全域分?jǐn)?shù)各項(xiàng)指標(biāo)的估計(jì)
(2)全域合成分?jǐn)?shù)的測量精度
本研究按照各測量分項(xiàng)試題量所占比例來確定權(quán)系數(shù) b,V1 至 V4 四個(gè)因子的權(quán)系數(shù)分別是:0.381,0.095,0.286,0.238。 對(duì)四因子全域分?jǐn)?shù)進(jìn)行合成,可以得到全域總分的方差為0.255,全域合成分?jǐn)?shù)相對(duì)誤差方差為0.127,全域合成分?jǐn)?shù)絕對(duì)誤差方差為0.589,進(jìn)而可計(jì)算出全域合成分?jǐn)?shù)的概化系數(shù)為0.668,可靠性系數(shù)為0.302。
可見, 此次初中語文試卷的總體測量信度較高。 全域合成分?jǐn)?shù)的概化系數(shù)較高,而四因子未進(jìn)行全域分?jǐn)?shù)合成時(shí),各因子全域分?jǐn)?shù)的概化系數(shù)及可靠性系數(shù)均較低, 在全域分?jǐn)?shù)合成總分后測量精度顯著提高,因此對(duì)四個(gè)分測驗(yàn)的分?jǐn)?shù)進(jìn)行合成是合理的。
(3)各因子對(duì)總方差的貢獻(xiàn)比例
為了考察四個(gè)分測驗(yàn)對(duì)試卷總分方差的實(shí)際影響程度, 可使用mGENOVA 程序同時(shí)估計(jì)出各模塊對(duì)考試總分方差的實(shí)際貢獻(xiàn)率(比例),如表5 所示。
表5 各模塊方差貢獻(xiàn)比例與試卷賦分比例的比較
由表5 可知,因子V1、V2 對(duì)全域總分方差的貢獻(xiàn)比例較試卷賦分比例略高,而因子V3、V4 對(duì)全域總分方差貢獻(xiàn)的比例較試卷賦分比例略低??傮w而言,四個(gè)因子的總體方差貢獻(xiàn)比例與設(shè)計(jì)的賦分比例較接近,說明各分測驗(yàn)基本達(dá)到考試的預(yù)期測量目的。
(4)各因子樣本容量對(duì)測量信度的影響
為了改善測驗(yàn)方法,進(jìn)一步改進(jìn)測量信度,本研究考察了各因子樣本容量變化對(duì)各分測驗(yàn)自身及試卷總分測量信度(采用總分概化系數(shù)作為信度指標(biāo))的影響情況,如表6 所示。
由表6 可知,當(dāng)各因子樣本容量為2 倍模式時(shí),全域總分的概化系數(shù)可增至0.801;當(dāng)各因子樣本容量為3 倍模式時(shí), 全域總分的概化系數(shù)可增至0.858。而當(dāng)各因子的樣本容量都減少為1 道題目時(shí),全域總分的概化系數(shù)下降至0.425,這樣的信度對(duì)于教師資格考試這樣大規(guī)模的國家教育考試是不可接受的。 但是,提高樣本容量使題目數(shù)量增加為2 倍、3倍時(shí),測量信度將大幅度提高。
當(dāng)分別固定四因子中的三個(gè)因子的樣本容量,只變化其中一個(gè)因子的樣本容量時(shí), 表6 中列出的20 種情況,增加樣本容量均能提高測量信度。
由于V1、V3、V4 因子的全域分?jǐn)?shù)誤差方差相對(duì)較小,因此,提升這幾部分的題量對(duì)整卷的概化系數(shù)的影響并不顯著。 V2 因子的全域分?jǐn)?shù)誤差方差相對(duì)較大,因此,提升這一部分的題量對(duì)整卷的概化系數(shù)的影響較顯著。尤其是當(dāng) V2 因子 “教學(xué)設(shè)計(jì)” 題量增至3 題時(shí),總分概化系數(shù)增長最為明顯。
表6 各因子樣本容量與總分概化系數(shù)的變化關(guān)系
圖1 各因子樣本容量與總分概化系數(shù)的變化關(guān)系
通過應(yīng)用經(jīng)典測量理論和多元概化理論對(duì)2019年下半年《語文學(xué)科知識(shí)與教學(xué)能力(初級(jí)中學(xué))》試卷進(jìn)行分析,可以得到以下結(jié)論:
(1)本次考試所使用的試卷質(zhì)量較好。 試卷總體測量信度屬中上水平, 分測驗(yàn)對(duì)于全域總分方差的貢獻(xiàn)比例與試卷命制時(shí)的賦分意圖基本一致。
(2) 現(xiàn)行試卷所考查的各個(gè)能力模塊比重和題量設(shè)置比較合理。 尤其是賦分比例最高的 “教學(xué)設(shè)計(jì)” 部分,區(qū)分度較強(qiáng),信度較高,難度適宜(0.6),能夠滿足對(duì)中學(xué)語文教師進(jìn)行選拔的目的和要求。
(3)可嘗試通過提高 V2 “教學(xué)設(shè)計(jì)” 分測驗(yàn)的題量來獲得更高的測量信度。 若綜合考量作答時(shí)間等因素的限制, 可考慮減少信度較低的客觀題試題數(shù)量,或 V4 “教學(xué)評(píng)價(jià)” 分測驗(yàn)的試題數(shù)量,同時(shí)增加V2 “教學(xué)設(shè)計(jì)” 分測驗(yàn)的試題數(shù)量,從而提高全卷的測量信度。
表7 基于CTT“學(xué)科知識(shí)V1”客觀題部分統(tǒng)計(jì)分析
結(jié)合經(jīng)典測量理論可以發(fā)現(xiàn),“V1 學(xué)科知識(shí)” 的選擇題第1 題、第2 題、第 15 題難度均在0.8 以上,區(qū)分度在0.2 以下(見表7),試題過于簡單、區(qū)分度較低;而第7 題難度僅為0.16,屬于難題,區(qū)分度也較低。 可以考慮刪除這幾道試題,適當(dāng)提高 “學(xué)科知識(shí)” 客觀題整體難度,增加區(qū)分度,從而達(dá)到提高測量信度的目的。
引入多元概化理論, 對(duì)于評(píng)價(jià)中小學(xué)教師資格考試質(zhì)量提供了更多的角度, 同時(shí)提供了有效提高試卷信度的方案。 本文將經(jīng)典測量理論與多元概化理論相結(jié)合, 提供了現(xiàn)有大綱要求的模塊結(jié)構(gòu)下的精細(xì)化調(diào)整方案, 得到了更為準(zhǔn)確的試題單題質(zhì)量和整卷質(zhì)量改進(jìn)方案。 今后,可以將多種測量理論結(jié)合在一起,形成一套完整、嚴(yán)謹(jǐn)、合理的試卷質(zhì)量評(píng)價(jià)模式, 并進(jìn)一步推廣至教師資格考試其他筆試科目的分析和研究,為未來考試大綱的修訂提供思路,為政策決策部門提供參考, 不斷提升考試的科學(xué)化水平,維護(hù)國家教育考試的公信力。