張所帥?黃志軍
摘 要 群體自適應(yīng)設(shè)計是國際閱讀素養(yǎng)進(jìn)展研究(PIRLS)在2021年第五輪評估周期中的最大亮點,尤其值得關(guān)注。群體自適應(yīng)設(shè)計采用有針對性的題冊抽樣做法使測試題目的能力分布與測試群體的能力分布相匹配,從而提高測試結(jié)果的精確度,減少不應(yīng)答現(xiàn)象的發(fā)生。群體自適應(yīng)設(shè)計與計算機(jī)自適應(yīng)測試互為表里、相輔相成,具有傳統(tǒng)紙筆測驗無可比擬的優(yōu)越性。PIRLS 2021閱讀素養(yǎng)測試采用縱向自適應(yīng)設(shè)計的做法,根據(jù)不同國家和地區(qū)學(xué)生閱讀成就水平的不同,將相同內(nèi)容、不同難度的閱讀材料和測試題目按照一定的比例進(jìn)行靈活分配,朝著智能化、個性化、適應(yīng)性的測試方向邁出了堅實的一步。這無論是對大規(guī)模學(xué)業(yè)水平測試,還是對日常過程性教學(xué)評價,都有啟發(fā)意義。
關(guān)鍵詞 PIRLS 2021 閱讀素養(yǎng)測試 群體自適應(yīng)設(shè)計
2021年,國際閱讀素養(yǎng)進(jìn)展研究(Progress in International Reading Literacy Study,以下簡稱PIRLS)迎來了第五輪評估周期,在保持閱讀素養(yǎng)測試?yán)砟詈涂蚣芙Y(jié)構(gòu)穩(wěn)定不變的前提下,借助現(xiàn)代教育評價理論和測量技術(shù)在“數(shù)字化評價方式”“測試文本類型”“背景問卷內(nèi)容結(jié)構(gòu)”“群體自適應(yīng)設(shè)計”和“ePIRLS和digital PIRLS整合”等方面呈現(xiàn)出新的發(fā)展動向,體現(xiàn)了與時俱進(jìn)、開拓創(chuàng)新的價值追求。其中,“群體自適應(yīng)題冊設(shè)計”變化最大,最能體現(xiàn)大規(guī)模測試評價的發(fā)展走向,尤其值得關(guān)注。
一、PIRLS 2021閱讀素養(yǎng)測試群體自適應(yīng)設(shè)計原理
在以往的測試評價中,為了確保結(jié)果的公平與公正,無論測試目標(biāo)對象的能力如何,所有人都要接受難度等級相同、題目數(shù)量也相同的試題。雖然以往的測試評價在形式上保證了測試結(jié)果的一致性,但是難以做到“量體裁衣”,因人施測,不能真正反映測試目標(biāo)對象的真實能力水平,也不利于后續(xù)的改進(jìn)提升。隨著教育測量理論和技術(shù)的發(fā)展,在大規(guī)模測試評價中,通常會采用不同的測試題冊(booklets)以平衡測試內(nèi)容的覆蓋面和學(xué)生作答的負(fù)擔(dān)量,同時兼顧題冊難度與學(xué)生能力之間的匹配度,這便涉及測試群體的自適應(yīng)問題。
測試群體的自適應(yīng)問題是大規(guī)模適應(yīng)性評價的核心問題。雖然測試評價的結(jié)果很重要,但是全面反映測試目標(biāo)對象的真實能力水平更重要。其背后的基本指導(dǎo)思想是實現(xiàn)測試評價的目的,測試題目對于目標(biāo)對象來說不能太難,也不能太簡單:如果分配給應(yīng)試者的任務(wù)太難,沒有人(或幾乎沒有人)能夠作答,那么題目本身就毫無意義;如果任務(wù)太簡單,每個人都能正確作答,即便所得到的觀察分?jǐn)?shù)都一樣,也無法掩飾其在相關(guān)技能方面的不同。以上兩種情況都無法獲得有價值的作答信息,尤其對于低利害的學(xué)業(yè)水平測試評價來說意義不大。
基于此,在大規(guī)模閱讀素養(yǎng)測試評價中,施測者通常試圖設(shè)計出符合目標(biāo)群體能力水平的任務(wù),并通過引出高技能水平和低技能水平應(yīng)試者作答的不同響應(yīng)來區(qū)分彼此之間的能力差異。在國家或地區(qū)層面,閱讀素養(yǎng)測試群體自適應(yīng)設(shè)計中,通常采用對測試題冊進(jìn)行有針對性的抽樣,以便更好地涵蓋測試中遇到的各種能力分布范圍,使題冊的能力分布與應(yīng)試者的能力分布相匹配,從而提高應(yīng)試者作答的積極性,減少測試題目水平上不應(yīng)答現(xiàn)象的發(fā)生。
測試群體的自適應(yīng)設(shè)計與計算機(jī)自適應(yīng)測試(computerized adaptive testing,CAT)互為表里、相輔相成,其背后的機(jī)理是一致的,并且測試群體的自適應(yīng)設(shè)計離不開計算機(jī)自適應(yīng)測試的輔助,試題的呈現(xiàn)和被試對試題的解答都是通過計算機(jī)完成的,而不是像傳統(tǒng)的紙筆測驗?zāi)菢油ㄟ^被試能正確回答題目的多少來評價其能力。在這里,計算機(jī)不僅是媒體工具,還是智能化的決策者:它是以項目反應(yīng)理論為基礎(chǔ)建立大型題庫,由計算機(jī)根據(jù)被試能力水平自動選擇測試題目,最終對被試能力作出精確估計的一種新型測驗,其目的是通過被試正確回答題目難度的高低來評價其能力。計算機(jī)自適應(yīng)測試的過程大致可分為兩個階段,即試驗性探查階段和精確估計真值階段。試驗性探查階段主要是根據(jù)被試的隨機(jī)作答情況初步估計其能力初值;精確估計真值階段則是在前一階段的基礎(chǔ)上繼續(xù)施測,累積信息量,進(jìn)一步修正能力估計值,最終實現(xiàn)精確考查被試能力的目的。
與傳統(tǒng)的紙筆測驗和一般的計算機(jī)化測驗相比,計算機(jī)自適應(yīng)測試具有無可比擬的優(yōu)越性。概括而言,其優(yōu)越性主要表現(xiàn)在以下幾個方面:一是可適當(dāng)減少考生作答試題的數(shù)量,二是能夠有效提高測量精度,三是有利于提高考試的安全性,四是能為考生提供個性化服務(wù),五是可以增加考生參加考試的靈活性,六是能實現(xiàn)計分與分?jǐn)?shù)報告的即時性。正是基于以上考慮,PIRLS閱讀素養(yǎng)測試積極探索群體自適應(yīng)設(shè)計,采用縱向自適應(yīng)設(shè)計(Adaptive Longitudinal Designs)(這種設(shè)計是利用所在國家或地區(qū)學(xué)生之前評價周期中的能力表現(xiàn)信息,自適應(yīng)地將較難的測試內(nèi)容分配給高分組國家或地區(qū)的學(xué)生,將較容易的測試內(nèi)容分配給低分組國家或地區(qū)的學(xué)生。)進(jìn)行題庫開發(fā)與題冊合成。
二、PIRLS 2021閱讀素養(yǎng)測試群體自適應(yīng)設(shè)計方法
PIRLS測試評價的目標(biāo)對象是代表正式學(xué)校教育第四年的學(xué)生(在大多數(shù)國家和地區(qū)是四年級學(xué)生)。然而,隨著參與測試評價的國家和地區(qū)越來越多,彼此之間教育發(fā)展水平的差異性表現(xiàn)得越來越明顯,有的國家和地區(qū)大多數(shù)四年級學(xué)生仍處于發(fā)展基本閱讀技能階段,尚不能達(dá)到參與PIRLS閱讀素養(yǎng)評價的認(rèn)知發(fā)展水平。如何在更大范圍內(nèi)解決測試題冊難度與學(xué)生能力發(fā)展水平相匹配的問題,便成了一個巨大的挑戰(zhàn)。為了應(yīng)對這一挑戰(zhàn),PIRLS在2011年開發(fā)了prePIRLS(可理解為PIRLS的預(yù)備版),2016年又開發(fā)了PIRLS Literacy,通過提供難度較低評價版本的辦法來解決這一難題。該舉措雖然確保了能力分布處在低端發(fā)展水平學(xué)生能力覆蓋范圍,但是并沒有解決能力分布處在高端發(fā)展水平的學(xué)生對更具挑戰(zhàn)性測試材料和題目的需求問題,同時另需單獨的評價版本,既增加了測試的成本,也提高了評價的復(fù)雜程度。
為了更好地解決參與國家和地區(qū)測試難度與學(xué)生成就水平相匹配的問題,PIRLS 2021測試題冊采用了群體自適應(yīng)設(shè)計。所有參與國家和地區(qū)都采用統(tǒng)一的評價內(nèi)容,使用相同的閱讀材料和測試題目,但是不同難度的閱讀材料和測試題目在一個國家和地區(qū)的分配比例將根據(jù)學(xué)生的閱讀成就水平進(jìn)行靈活安排。簡言之,新的題冊設(shè)計是基于難、中、易三個等級的閱讀材料和測試題目,將其合并成兩個不同難度等級的測試題冊。每個國家和地區(qū)都使用所有的題冊進(jìn)行測試,但難度較大和難度較小題冊的分配比例會隨著該國和地區(qū)學(xué)生閱讀成就水平的變化而變化。
具體來說,PIRLS 2021的測試題冊由18篇文章組成,其中有12篇文章來自PIRLS 2016(含PIRLS Literacy測試中的文章),作為縱向鏈接用作對閱讀發(fā)展趨勢的測量,另外6篇文章是2021年開發(fā)的。這18篇文章根據(jù)難易程度被劃分成難、中、易三個等級,每個等級分別包括3篇文學(xué)類文章和3篇信息類文章。文章難易程度的區(qū)分依據(jù)的是學(xué)生群體對其正確作答的平均百分比,理想中合理的平均百分比:水平等級“難”組為40%,水平等級“中”組為60%,水平等級“易”組為80%。PIRLS 2021新開發(fā)的文章有意識地呼應(yīng)了以上難度級別要求,而之前已有文章的難度表現(xiàn)則稍顯遜色,特別是“難”和“中”等級的文章其難度值明顯偏高(見表1)。當(dāng)然,這只是過渡時期的暫時表現(xiàn),隨著更多趨勢性文章被更新的、更有針對性的文章取代,這樣的情況會有所改變。
如表2所示,PIRLS 2021中的18篇文章被編排成18本題冊,每本題冊均包含兩篇文章,一篇是文學(xué)類文本,一篇是信息類文本。每一篇文章都會出現(xiàn)在兩本題冊中,每次與不同的文章相匹配。測試中,每名學(xué)生會被隨機(jī)分派一本題冊進(jìn)行作答。
表3呈現(xiàn)了每本題冊中文章配對的結(jié)果,箭頭的方向表示題冊中哪一篇文章會先出現(xiàn),例如箭頭從文章InfM1(16)指向LitD1(11),表明這兩篇文章會共同組成一本題冊,文章InfM1(16)在LitD1(11)之前。另外,當(dāng)不同難度的文章在同一本題冊中配對時,兩者中較容易的總是先出現(xiàn)。
18本題冊被分成兩個難度等級:難度較大的題冊(9本)和難度較小的題冊(9本)。其中,難度較大的題冊由兩篇難度大的文章或一篇中等難度的文章和一篇難度大的文章組成;難度較小的題冊由兩篇容易的文章或一篇容易的文章和一篇中等難度的文章組成。
表4顯示了18本題冊的難度等級分配。其中,題冊1—題冊9的難度較大,題冊10—題冊18的難度較小。
由18篇文章所編排成的18本題冊會分發(fā)到每個國家和地區(qū),以確保所有參與評價的國家和地區(qū)測試的內(nèi)容相同。根據(jù)PIRLS先前周期測試結(jié)果或首次參與國家和地區(qū)實地試測表現(xiàn)中學(xué)生的平均閱讀能力,難易程度不同的題冊在分配中所占的比例是不同的。比如,學(xué)生成就表現(xiàn)較好的國家和地區(qū),難度較大題冊的分配比例更高;學(xué)生成就表現(xiàn)較差的國家和地區(qū),難度較小的題冊的分配比例更高。其最終目的是使每個國家和地區(qū)的測試難度與當(dāng)?shù)貙W(xué)生的閱讀能力更好地匹配。
根據(jù)閱讀成就量表得分情況,PIRLS把所有參與測試的國家和地區(qū)分成高、中、低三個水平層級,以此確定不同難度等級題冊的分配比例:總體平均閱讀成就為550分或更高的國家和地區(qū),將隨機(jī)分配更多難度較大等級的題冊(70%),較少難度較小等級的題冊(30%);總體平均閱讀成就在量表中點、500分的國家和地區(qū),將分配相同比例難度較大等級的題冊(50%)和難度較小等級的題冊(50%);總體低于平均表現(xiàn)水平、450分或更低的國家和地區(qū),將分配較少比例難度較大等級的題冊(30%)和更多比例難度較小等級的題冊(70%)。具體如表5所示。
測試題冊群體自適應(yīng)設(shè)計可以說是PIRLS 2021閱讀素養(yǎng)評價的最大亮點。這種創(chuàng)新的、自適應(yīng)的題冊設(shè)計徹底改變了PIRLS之前評價周期對不同閱讀水平國家和地區(qū)各類閱讀水平測試的做法,將所有的國家和地區(qū)統(tǒng)一到相同的模板中,提高了測試內(nèi)容的靈活性和測試結(jié)果的準(zhǔn)確性,值得推廣。
三、PIRLS 2021閱讀素養(yǎng)測試群體自適應(yīng)設(shè)計啟示
PIRLS積極面對現(xiàn)實訴求,順應(yīng)時代發(fā)展潮流,以計算機(jī)自適應(yīng)測試?yán)碚摵途W(wǎng)絡(luò)信息技術(shù)為基礎(chǔ),在2021年閱讀素養(yǎng)測試題冊中采取群體自適應(yīng)設(shè)計,降低閱讀素養(yǎng)評價的復(fù)雜程度,提高閱讀素養(yǎng)測試的精確程度,朝著智能化、個性化、適應(yīng)性的方向邁出了堅實的一步。這無論是對大規(guī)模學(xué)業(yè)水平測試,還是對日常過程性教學(xué)評價,都有啟發(fā)意義。
為了全面實施素質(zhì)教育,著力提升教育質(zhì)量,強(qiáng)化教育督導(dǎo)監(jiān)管,確保教育投入和課程改革達(dá)到預(yù)期目標(biāo),近年來,從國家到地方陸續(xù)開展了義務(wù)教育質(zhì)量監(jiān)測活動。國家層面,教育部基礎(chǔ)教育質(zhì)量監(jiān)測中心自2015年起開展國家義務(wù)教育質(zhì)量監(jiān)測工作。作為我國義務(wù)教育健康發(fā)展的“體檢儀”和“指揮棒”,國家義務(wù)教育質(zhì)量監(jiān)測在開展過程中立足中國國情及教育教學(xué)實際,不斷發(fā)展特色,開拓創(chuàng)新,根據(jù)監(jiān)測工作實際需要,充分運(yùn)用信息技術(shù)和人工智能,不斷促進(jìn)監(jiān)測方法和手段升級?;诖耍覈嘘P(guān)部門可以借鑒PIRLS 2021閱讀素養(yǎng)測試群體自適應(yīng)設(shè)計理念和做法,充分考慮不同地區(qū)教育質(zhì)量發(fā)展水平的差異性,因地制宜,使測試內(nèi)容和題目更具針對性。
除了“低利害”的義務(wù)教育質(zhì)量監(jiān)測以外,即便是“高利害”的中高考,也可借鑒其測試的理念和做法。目前每年的高考試卷仍是以“國家卷+地方卷”的格局呈現(xiàn)。即便是“國家卷”,每年也會面向不同地區(qū)命制不同的試題,具有了測試群體自適應(yīng)設(shè)計的雛形,但還有一定的進(jìn)步空間。根據(jù)相關(guān)文件要求,中考命題將“進(jìn)一步強(qiáng)化省級統(tǒng)籌,落實初中學(xué)業(yè)水平考試命題管理省級主體責(zé)任”,“積極創(chuàng)造條件穩(wěn)步推進(jìn)省級統(tǒng)一命題”。隨著命題權(quán)限的上移和試題覆蓋范圍的擴(kuò)大,為了提高命題測試的有效性,群體自適應(yīng)設(shè)計亦顯得尤為必要。
《深化新時代教育評價改革總體方案》明確提出:“堅持科學(xué)有效,改進(jìn)結(jié)果評價,強(qiáng)化過程評價,探索增值評價,健全綜合評價,充分利用信息技術(shù),提高教育評價的科學(xué)性、專業(yè)性、客觀性?!痹u價具有多重功能,隨著課程改革的深入發(fā)展,教育評價的理念也在不斷更新,評價是動態(tài)的、多元的、形成性和教育性的,評價的根本目的是促進(jìn)學(xué)生學(xué)習(xí),核心倫理在于讓學(xué)生受益。日常的過程性評價在學(xué)生的課程學(xué)習(xí)中居于重要地位,課堂教學(xué)、課后作業(yè)和階段性測驗都應(yīng)秉持“教育性”“發(fā)展性”的原則,促進(jìn)學(xué)生的全面發(fā)展。因此,在日常的過程性測試評價中,同樣可以參照群體自適應(yīng)設(shè)計的模式,以便更好地促進(jìn)學(xué)生核心素養(yǎng)的發(fā)展。