楊呂娜
(北京師范大學(xué),北京 100875)
《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要(2010—2020年)》和2014年國(guó)務(wù)院《關(guān)于深化考試招生制度改革的實(shí)施意見(jiàn)》明確指出,要完善教育質(zhì)量評(píng)價(jià)制度以及改革、完善測(cè)評(píng)方式和分?jǐn)?shù)報(bào)告。作為能夠?yàn)閷W(xué)生個(gè)體化學(xué)習(xí)提供全面反饋信息的評(píng)價(jià)方式,診斷性評(píng)價(jià)成為研究的焦點(diǎn)。診斷性評(píng)價(jià)在認(rèn)知診斷評(píng)估、診斷能力以及診斷反饋方面的新進(jìn)展,將為新一代評(píng)分方式和成績(jī)報(bào)告的完善提供新的思路和改進(jìn)路徑。
心理與教育測(cè)量理論發(fā)展至今大約經(jīng)歷了2個(gè)階段:一是標(biāo)準(zhǔn)測(cè)量理論階段,包括經(jīng)典測(cè)量理論、項(xiàng)目反應(yīng)理論和概化理論;二是以認(rèn)知診斷為核心的新一代測(cè)量理論[1-3]。認(rèn)知診斷作為教育測(cè)量興起的方法受到人們的廣泛關(guān)注[4-7],其聚焦于對(duì)個(gè)體知識(shí)結(jié)構(gòu)、加工技能或認(rèn)知過(guò)程進(jìn)行診斷評(píng)估[8]。由于經(jīng)典測(cè)試?yán)碚摵晚?xiàng)目反應(yīng)理論實(shí)質(zhì)上是根據(jù)測(cè)驗(yàn)題目,探索被試在特定能力的連續(xù)體的位置。因此,基于這類理論的測(cè)試結(jié)果不能為學(xué)生與教師提供學(xué)習(xí)和教授的知識(shí)與技能的全面信息[9]。認(rèn)知診斷以現(xiàn)代測(cè)量理論為基礎(chǔ),探索被試在考試中的認(rèn)知過(guò)程、適用策略與知識(shí)結(jié)構(gòu)及其運(yùn)用情況,并對(duì)高能力被試與低能力被試的差別進(jìn)行刻畫,為教學(xué)和學(xué)習(xí)提供了豐富的診斷信息。與經(jīng)典測(cè)試?yán)碚摵晚?xiàng)目反應(yīng)理論以測(cè)試題考查單一能力的前提不同,認(rèn)知診斷測(cè)驗(yàn)強(qiáng)調(diào)試題考查能力的多維性。通過(guò)對(duì)粒化認(rèn)知屬性(Fine-grained Attribute)呈現(xiàn)的知識(shí)結(jié)構(gòu)、加工技能或認(rèn)知過(guò)程的刻畫,認(rèn)知診斷能夠?yàn)閭€(gè)體提供認(rèn)知能力結(jié)構(gòu)和性狀的認(rèn)知診斷反饋。
診斷分類模型是基于測(cè)量和統(tǒng)計(jì)模型發(fā)展起來(lái)的,其最為人知的術(shù)語(yǔ)是認(rèn)知診斷模型(Cognitive Diagnostic Models),但是,Rupp等認(rèn)為應(yīng)當(dāng)將其稱作診斷分類模型(Diagnostic Classification Model)更為合理,可以避免將認(rèn)知診斷模型只局限于認(rèn)知心理學(xué)的研究和應(yīng)用[7]。
常用的認(rèn)知診斷模型有:規(guī)則空間模型(Rule Space Methodology)、線性對(duì)數(shù)模型(Linear Logistic Model,LLM)、融合模型(Fusion Model)、DINA 模型(Deterministic Input,Noisy and Gate Model)、NIDA模型(Noisy Input,Deterministic,and Gate Model)、貝葉斯網(wǎng)絡(luò)(Bayesian Network)、G-DINA模型(Generalized Deterministic Input,Noisy and Gate Model)。上述認(rèn)知診斷模型可以歸納為3個(gè)類別:學(xué)生的思維模擬、概念網(wǎng)絡(luò)和心理計(jì)量的特質(zhì)模型[9]。目前認(rèn)知診斷模型的研究發(fā)展主要體現(xiàn)在:一方面,對(duì)認(rèn)知診斷模型的整合及模型—數(shù)據(jù)擬合的研究,如概括診斷模型;另一方面,從0-1評(píng)分到多級(jí)評(píng)分模型的拓展[3]。
許多學(xué)科均嘗試使用認(rèn)知診斷方法研究考生的認(rèn)知過(guò)程和心理特征。張偉平使用規(guī)則空間模型對(duì)中美學(xué)生的數(shù)學(xué)能力進(jìn)行對(duì)比探索[10];涂冬波等將HO-DINA模型應(yīng)用到探討小學(xué)兒童數(shù)學(xué)問(wèn)題解決的研究[11];許志勇等嘗試開(kāi)發(fā)小學(xué)數(shù)學(xué)五年級(jí)的認(rèn)知診斷測(cè)試[12];李金波等對(duì)高考考生在數(shù)學(xué)知識(shí)的掌握情況進(jìn)行診斷[13-14];Sun等對(duì)小學(xué)六年級(jí)學(xué)生數(shù)學(xué)分?jǐn)?shù)的認(rèn)知屬性進(jìn)行診斷[5];夏良英等對(duì)高中物理學(xué)業(yè)水平進(jìn)行綜合認(rèn)知診斷的探索[15];劉婷雁對(duì)漢語(yǔ)學(xué)習(xí)者漢字構(gòu)形意識(shí)進(jìn)行概括診斷[16];徐式婧應(yīng)用認(rèn)知診斷規(guī)則空間模型對(duì)參加漢語(yǔ)語(yǔ)言測(cè)試的考生進(jìn)行聽(tīng)力診斷,并為參測(cè)者提供聽(tīng)力理解技能掌握情況的診斷性報(bào)告[17]。
在英語(yǔ)語(yǔ)言測(cè)試方面,認(rèn)知診斷研究主要集中在閱讀和寫作領(lǐng)域[18-20]。陳慧麟等使用G-DINA模型對(duì)PISA閱讀測(cè)試屬性進(jìn)行重新標(biāo)定研究[21];Buck等對(duì)開(kāi)放式答題的英語(yǔ)聽(tīng)力試題采用規(guī)則空間方法的研究,共分離15種認(rèn)知屬性,發(fā)現(xiàn)屬性之間存在14種交互[22];Jang針對(duì)模擬TOEFL考試的LanguEdge考試閱讀試題的認(rèn)知屬性,具體展示了如何使用學(xué)生口頭報(bào)告與專家判斷確定試題和屬性間的關(guān)系,建立Q矩陣[4];Lee等針對(duì)TOEFL考試的閱讀和聽(tīng)力試題的認(rèn)知屬性,對(duì)概化認(rèn)知診斷模型、融合模型、潛在特質(zhì)分析模型3種認(rèn)知診斷模型的分析結(jié)果進(jìn)行對(duì)比[6];蔡艷等針對(duì)中學(xué)生閱讀能力的認(rèn)知屬性進(jìn)行研究[23];Sheehan等針對(duì)美國(guó)青少年的文本加工技能進(jìn)行研究[24];Buck等針對(duì)TOEIC考試閱讀試題的認(rèn)知屬性進(jìn)行研究[25];von Davier對(duì)TOEFL的閱讀和聽(tīng)力試題的認(rèn)知屬性進(jìn)行研究[26];還有學(xué)者從評(píng)分標(biāo)準(zhǔn)入手,對(duì)寫作能力進(jìn)行認(rèn)知診斷研究[27-30]。
計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(Computerized Adaptive Testing,CAT)隨著計(jì)算機(jī)技術(shù)和測(cè)量理論的發(fā)展,從20世紀(jì)70年代早期被引入到測(cè)試領(lǐng)域,目前已成為流行的測(cè)試方式。這種測(cè)試方式通過(guò)編程控制試題難度,使其盡量接近考生的能力水平,從而可以準(zhǔn)確地刻畫考生的潛在特質(zhì)。隨著認(rèn)知診斷理論的興起和快速發(fā)展,認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(Cognitive Diagnostic Computerized Adaptive Testing,CD-CAT)是CAT與認(rèn)知診斷相結(jié)合的新方向。CD-CAT目前在教育測(cè)量領(lǐng)域的應(yīng)用得到了人們的廣泛關(guān)注,形成了一系列的研究成果[31-38]。CD-CAT不僅可以提供關(guān)于考生優(yōu)缺點(diǎn)的診斷反饋,而且可以提高診斷的準(zhǔn)確性和效率。
作為一種評(píng)價(jià)方式,診斷性評(píng)價(jià)同樣需要教師和學(xué)習(xí)者具備發(fā)現(xiàn)關(guān)鍵特征和正確解讀分?jǐn)?shù)的能力,即診斷能力(Diagnostic Competence)。對(duì)于教師而言,診斷能力在提倡培養(yǎng)和提高教師評(píng)估素養(yǎng)(Assessment Literacy)方面尤為重要。對(duì)于學(xué)習(xí)者而言,自我評(píng)估(Self-Assessment)也對(duì)學(xué)習(xí)者自身的診斷能力提出了要求。目前關(guān)于診斷能力的研究主要從形成性評(píng)價(jià)的角度出發(fā)[39-40],更關(guān)注對(duì)教師診斷能力的研究。
Salder在對(duì)形成性評(píng)價(jià)進(jìn)行分析后,對(duì)診斷能力作出如下定義:“評(píng)價(jià)者應(yīng)對(duì)學(xué)生表現(xiàn)的質(zhì)量有明確的概念;能辨別學(xué)生目前的表現(xiàn)與目標(biāo)間的差距以及能選擇適合的活動(dòng)幫助學(xué)習(xí)者向目標(biāo)邁進(jìn)。”[40]類似地,Edelenbos等對(duì)語(yǔ)言教師的診斷能力進(jìn)行研究,將其定義為“能解讀學(xué)生的語(yǔ)言進(jìn)步,能技巧地處理評(píng)價(jià)材料,能基于診斷給學(xué)生提供適宜的幫助”[41];同時(shí),將教師診斷能力的行為表現(xiàn)劃分為6個(gè)級(jí)別的能力水平,并對(duì)各個(gè)級(jí)別的水平作出詳細(xì)的刻畫,為對(duì)教師診斷能力的培訓(xùn)和評(píng)價(jià)提供了良好的參照。
Rea-Dickins等通過(guò)研究形成性測(cè)試的信度和效度,探究教師的診斷能力[39]。這項(xiàng)研究通過(guò)將教師對(duì)學(xué)生課堂活動(dòng)表現(xiàn)的記錄和轉(zhuǎn)錄的學(xué)生活動(dòng)表現(xiàn)進(jìn)行對(duì)比,發(fā)現(xiàn)在很多情況下教師對(duì)學(xué)生的表現(xiàn)只是記錄,并沒(méi)有注意到關(guān)鍵特征,而且在記錄學(xué)生表現(xiàn)時(shí)出現(xiàn)很多錯(cuò)誤,為此,呼吁加強(qiáng)對(duì)教師進(jìn)行診斷能力的培訓(xùn)。
診斷性評(píng)價(jià)為學(xué)習(xí)者提供更全面、更精細(xì)的反饋內(nèi)容,包括優(yōu)勢(shì)和劣勢(shì)信息。為了讓診斷反饋信息的使用效果最大化,診斷性評(píng)價(jià)對(duì)教師的診斷能力提出了更高的要求:應(yīng)能解讀學(xué)生反饋報(bào)告的信息,指導(dǎo)學(xué)生根據(jù)優(yōu)勢(shì)制定學(xué)習(xí)目標(biāo),幫助學(xué)生根據(jù)劣勢(shì)信息制定補(bǔ)救措施等。學(xué)生則需要能夠?qū)φZ(yǔ)言能力進(jìn)行自評(píng),解讀反饋報(bào)告信息并進(jìn)行有效的使用;這也將成為診斷性評(píng)價(jià)中診斷能力研究的重要組成部分。
診斷性評(píng)價(jià)需要提供反饋,但是由于種種原因一直很少受到人們的關(guān)注,發(fā)展也比較滯后[42]。反饋的本質(zhì)是信息或數(shù)據(jù)的傳遞。反饋的研究表明:反饋通過(guò)促進(jìn)學(xué)習(xí)者的知識(shí)建構(gòu),改進(jìn)認(rèn)知策略和促進(jìn)學(xué)習(xí)者的目標(biāo)設(shè)置,以促進(jìn)學(xué)習(xí)者學(xué)業(yè)表現(xiàn)提高[43]。關(guān)于外部反饋的研究主要集中在反饋的表達(dá)方式、內(nèi)容屬性以及反饋效果上。根據(jù)內(nèi)容表達(dá)方式的不同,反饋可分為信息型反饋和控制型反饋。信息型反饋的重點(diǎn)在于告知個(gè)體任務(wù)完成的情況,包括結(jié)果成敗、正確作答或詳細(xì)反饋等內(nèi)容;控制型反饋強(qiáng)調(diào)外界的要求、期望和學(xué)習(xí)目標(biāo)[2]。
過(guò)去,測(cè)驗(yàn)的成績(jī)報(bào)告只是報(bào)告測(cè)驗(yàn)總分,即便總分相同的考生群體,也可能具有不同的能力;現(xiàn)在,提供描述性的成績(jī)報(bào)告非常普遍,如在CET考試中,成績(jī)一般包括總分和各維度的分?jǐn)?shù),這樣的反饋雖然給考生和分?jǐn)?shù)適用提供了反映“所長(zhǎng)所短”的成績(jī)報(bào)告,但也可能導(dǎo)致一些誤解,引發(fā)困惑。針對(duì)不同的反饋群體對(duì)象,在設(shè)計(jì)具體的診斷性反饋和反饋方式時(shí),應(yīng)考慮將各群體關(guān)注的因素包含在內(nèi)。有學(xué)者建議:在考生個(gè)人層面上,提供反映各維度水平的診斷性成績(jī)報(bào)告,并提供改進(jìn)學(xué)習(xí)的建議;在教師層面上,提供團(tuán)體性診斷報(bào)告,報(bào)告整個(gè)群體在各維度的表現(xiàn),從而幫助教師發(fā)現(xiàn)在教學(xué)中存在的問(wèn)題,并提出教學(xué)改進(jìn)的建議[44]。
許多研究者提倡將診斷性評(píng)價(jià)融入學(xué)業(yè)測(cè)試和水平測(cè)試。從宏觀層面上,對(duì)聽(tīng)說(shuō)讀寫等技能提供反饋信息,現(xiàn)有的水平測(cè)試或?qū)W業(yè)成績(jī)測(cè)試在一定程度上也能夠?qū)崿F(xiàn)這一目的,但是要進(jìn)行深入、具體的診斷卻并不容易。鑒于目前許多研究都嘗試?yán)脤W(xué)業(yè)測(cè)試或者水平測(cè)試提供診斷性反饋信息,Kunnan等從大規(guī)模評(píng)價(jià)情境和課堂評(píng)價(jià)情境角度概述了診斷性反饋[42]。
在TOEFL考試等大規(guī)模評(píng)價(jià)情境中,聽(tīng)說(shuō)讀寫的量表分?jǐn)?shù)以及閱讀和聽(tīng)力的反饋都比較籠統(tǒng),口語(yǔ)和寫作的反饋則比較細(xì)致;IELTS采用1~9個(gè)級(jí)別的等級(jí)量表向考生反饋聽(tīng)說(shuō)讀寫4項(xiàng)技能的信息。雖然這種利用水平考試的成績(jī)檔案提供診斷信息固然可以,但是由于診斷信息通常是針對(duì)某一水平群體,對(duì)個(gè)人的指導(dǎo)作用相對(duì)薄弱,除了提供考生和其他考生相對(duì)的成績(jī)位置以外,不能提供更多的信息[42]614。許多自評(píng)項(xiàng)目均嘗試為學(xué)習(xí)者提供診斷性反饋,如診斷性語(yǔ)言測(cè)試系統(tǒng)(Diagnostic Language Tests,DIALANG)以及Jang研制的DiagnOsis[45]。
診斷測(cè)試的反饋報(bào)告是多層面的,與測(cè)試目的密切相關(guān)。有些項(xiàng)目從地區(qū)、學(xué)校、班級(jí)等宏觀層面進(jìn)行反饋;針對(duì)教師或?qū)W習(xí)者個(gè)體的微觀反饋,則對(duì)促進(jìn)教學(xué)和學(xué)生的自主學(xué)習(xí)大有裨益,例如認(rèn)知測(cè)試診斷能夠給學(xué)習(xí)者提供個(gè)體化的強(qiáng)項(xiàng)和弱項(xiàng)診斷信息[6]。在中小學(xué)學(xué)生學(xué)業(yè)成績(jī)分析、反饋與指導(dǎo)系統(tǒng)(Student Academic Achievement Evaluation,SAAE)項(xiàng)目中,系統(tǒng)從省份、區(qū)域、學(xué)校、班級(jí)4個(gè)層面呈現(xiàn)反饋信息,內(nèi)容包括對(duì)總體情況和所轄區(qū)縣的情況、學(xué)生學(xué)業(yè)成績(jī)的整體情況以及對(duì)學(xué)生學(xué)業(yè)成績(jī)的多種相關(guān)因素進(jìn)行報(bào)告,諸如師生關(guān)系、學(xué)習(xí)壓力、學(xué)習(xí)環(huán)境、學(xué)習(xí)自信心和教師教學(xué)評(píng)價(jià)等因素。這些信息都將對(duì)區(qū)域教學(xué)改革或改進(jìn)起到重大參考價(jià)值[46]。
診斷性反饋的多層面還體現(xiàn)在反饋采用的參照體系的不同上。國(guó)內(nèi)外研究者研發(fā)了針對(duì)不同語(yǔ)言水平的診斷性評(píng)價(jià)系統(tǒng),目前不少“診斷”測(cè)試都是以現(xiàn)有學(xué)業(yè)測(cè)試或水平測(cè)試為診斷工具,提供診斷性信息[6,42,47],但真正以診斷為目標(biāo)設(shè)計(jì)的主要包括以下系統(tǒng)。
DIALANG測(cè)試系統(tǒng)是基于計(jì)算機(jī)和互聯(lián)網(wǎng)施測(cè),提供14種歐洲官方語(yǔ)言的多語(yǔ)種診斷性測(cè)試。該測(cè)試依據(jù)歐洲共同語(yǔ)言參考標(biāo)準(zhǔn)(Common European Framework for Reference of Languages:Learning,Teaching,Assessment,CEFR)相關(guān)級(jí)別的語(yǔ)言能力水平要求,根據(jù)考生的答題情況,依照相應(yīng)的級(jí)別描述,提供語(yǔ)言能力評(píng)價(jià)和相應(yīng)的語(yǔ)言學(xué)習(xí)建議。
DELNA(Diagnostic English Language Needs Assessment)是針對(duì)新西蘭奧克蘭大學(xué)一年級(jí)新生研發(fā)的診斷性系統(tǒng),以區(qū)分國(guó)內(nèi)學(xué)生和國(guó)際學(xué)生的英語(yǔ)水平,從而滿足這2個(gè)群體對(duì)不同學(xué)術(shù)素養(yǎng)語(yǔ)言支持上的需求。考試的結(jié)果用于指導(dǎo)學(xué)生尋求適合的學(xué)術(shù)語(yǔ)言支持[48]。
MASUS(Measuring the Academic Skills of University Students)是由悉尼大學(xué)語(yǔ)言中心開(kāi)發(fā)和實(shí)施,通過(guò)對(duì)學(xué)生寫作水平強(qiáng)弱的診斷,為學(xué)生學(xué)術(shù)寫作提供幫助[49]。
SAAE系統(tǒng)是針對(duì)我國(guó)義務(wù)教育階段,基于課程標(biāo)準(zhǔn)的學(xué)習(xí)診斷性評(píng)價(jià)體系,涉及中小學(xué)的語(yǔ)文、數(shù)學(xué)、英語(yǔ)、科學(xué)、人文等不同學(xué)科。該項(xiàng)目旨在向參測(cè)地區(qū)的教育管理層、學(xué)校和教師提供不同的信息反饋[46]。
DELTA(Diagnostic English Language Tracking Assessment)是為香港地區(qū)本科生設(shè)計(jì)的多模塊在線診斷測(cè)試系統(tǒng),包括閱讀、聽(tīng)力、寫作、語(yǔ)法和詞匯5個(gè)部分。該測(cè)試涉及不同文本類型,通過(guò)不同的話題,廣泛地考查學(xué)生的語(yǔ)言能力[50-51]。DELTA系統(tǒng)通過(guò)對(duì)學(xué)生語(yǔ)言能力強(qiáng)弱的診斷,為學(xué)生提供語(yǔ)言能力成長(zhǎng)報(bào)告以及個(gè)性化指導(dǎo)與學(xué)習(xí)資源。
個(gè)性化英語(yǔ)學(xué)習(xí)診斷與策略指導(dǎo)咨詢系統(tǒng)(Personalized English Learning Diagnosis and Advice System,PELDAS)由馬曉梅課題組研發(fā),包括4個(gè)模塊。與DIALANG關(guān)注學(xué)生對(duì)各項(xiàng)技能水平進(jìn)行自評(píng)不同,PELDAS提供個(gè)性化英語(yǔ)學(xué)習(xí)診斷與指導(dǎo)。該網(wǎng)絡(luò)系統(tǒng)重視評(píng)估學(xué)生自己的個(gè)體化學(xué)習(xí)風(fēng)格和特征[52-53]。
上述診斷系統(tǒng)提供的診斷性反饋分別采用標(biāo)準(zhǔn)參照、常模參照和個(gè)體自身參照3種不同的參照體系。
在SAAE診斷系統(tǒng)的診斷性反饋中,英語(yǔ)學(xué)科參照義務(wù)教育英語(yǔ)課程大綱4級(jí)標(biāo)準(zhǔn)對(duì)學(xué)生的作答表現(xiàn)劃定等級(jí)[54]。根據(jù)學(xué)生的能力級(jí)別和得分情況劃分為A、B、C、D 4個(gè)等級(jí),即優(yōu)秀、良好、及格、有待及格。學(xué)科組與參測(cè)地區(qū)教研員、教師面對(duì)面地進(jìn)行檢測(cè)信息診斷性反饋。內(nèi)容包括學(xué)業(yè)成績(jī)檢測(cè)以及分析指導(dǎo)思想與檢測(cè)工具的研制、檢測(cè)數(shù)據(jù)總體歸納分析、結(jié)合測(cè)試數(shù)據(jù)的典型題目講解和問(wèn)卷信息調(diào)查的各種變量數(shù)據(jù)及其對(duì)學(xué)生學(xué)業(yè)成績(jī)的影響。反饋內(nèi)容既可以是宏觀層面,涉及課程教學(xué)的整體情況,又可以是微觀層面,重點(diǎn)反映教學(xué)的具體問(wèn)題或值得重視的方面[46]。
DIALANG系統(tǒng)針對(duì)考生的自評(píng)部分和定位測(cè)試部分,并無(wú)詳細(xì)的反饋,只根據(jù)這2個(gè)部分的結(jié)果選擇考生適合的語(yǔ)言測(cè)試水平[55]。反饋內(nèi)容包括:1)語(yǔ)言水平,即根據(jù)測(cè)試結(jié)果,評(píng)估考生在6個(gè)水平中對(duì)應(yīng)的級(jí)別;2)核對(duì)答案,即展示分技能的作答情況;3)詞匯量,即提供詞匯量水平的信息并描述其意義;4)自評(píng)反饋,即考生對(duì)其語(yǔ)言水平的自評(píng),著重分析自評(píng)與測(cè)驗(yàn)結(jié)果不一致的原因;5)通過(guò)表格展示考生水平與上下相臨2個(gè)語(yǔ)言水平間的差異,鼓勵(lì)學(xué)生反思其語(yǔ)言學(xué)習(xí)。
DELNA系統(tǒng)分為2個(gè)階段的考試。第一個(gè)階段考試結(jié)果分為:優(yōu)秀、滿意、建議參加診斷測(cè)試3個(gè)類別。根據(jù)測(cè)試反饋結(jié)果,第一個(gè)類別的學(xué)生不需要參加任何語(yǔ)言活動(dòng);第二個(gè)類別的學(xué)生需要參加學(xué)校學(xué)生學(xué)習(xí)中心或英語(yǔ)自學(xué)中心的獨(dú)立活動(dòng);第三個(gè)類別的學(xué)生需要參加第二階段的考試。在第二個(gè)階段測(cè)試后,為了保證反饋信息使用的高效性,聽(tīng)、讀、寫分別用A、B、C、D 4個(gè)等級(jí)報(bào)告學(xué)生語(yǔ)言能力;A和B水平分別對(duì)應(yīng)第一階段考試中的優(yōu)秀和滿意類別,處在這2個(gè)等級(jí)的學(xué)生會(huì)收到測(cè)試結(jié)果郵件,C和D水平的學(xué)生則會(huì)收到DELNA系統(tǒng)的語(yǔ)言建議。
DELTA系統(tǒng)是基于計(jì)算機(jī)的診斷測(cè)試系統(tǒng),采用正向報(bào)告的形式,為學(xué)習(xí)者提供0~200分的標(biāo)準(zhǔn)分反饋結(jié)果。聽(tīng)、讀、寫、語(yǔ)法、詞匯5個(gè)分維度報(bào)告分別對(duì)應(yīng)考查的語(yǔ)言技能,并附有相應(yīng)的學(xué)習(xí)材料。學(xué)生可以自主選擇或者在教師的指導(dǎo)下,根據(jù)反饋報(bào)告選擇相應(yīng)的學(xué)習(xí)資源。該系統(tǒng)的優(yōu)勢(shì)在于為多次參加測(cè)試的學(xué)生提供語(yǔ)言能力發(fā)展報(bào)告[50]。目前該系統(tǒng)僅提供系統(tǒng)開(kāi)發(fā)時(shí)已輸入的、固定模塊反饋信息,并不能提供具體的個(gè)體化反饋信息。這也是目前基于計(jì)算機(jī)的診斷測(cè)試系統(tǒng)的劣勢(shì)之一[56]。
MASUS診斷系統(tǒng)要求學(xué)生根據(jù)提供的背景信息,撰寫與專業(yè)背景相關(guān)的文章。所有的文章都由受過(guò)培訓(xùn)的閱卷員依照5個(gè)維度的標(biāo)準(zhǔn)化評(píng)分標(biāo)準(zhǔn)評(píng)分。每個(gè)維度從低到高分為1~4個(gè)等級(jí),其中1~2個(gè)等級(jí)為“寫作能力較弱,需要寫作幫助”。學(xué)生可以根據(jù)反饋報(bào)告選擇學(xué)習(xí)中心提供的課程幫助[49]。
PELDAS反饋采用常模參照的形式[52-53]。該系統(tǒng)的診斷報(bào)告包括對(duì)學(xué)習(xí)者做個(gè)性診斷測(cè)量表的診斷分析和動(dòng)態(tài)閱讀診斷分析;策略咨詢指導(dǎo)平臺(tái)和成功經(jīng)驗(yàn)學(xué)習(xí)平臺(tái)設(shè)計(jì)主要以問(wèn)答形式呈現(xiàn),點(diǎn)擊問(wèn)題便可進(jìn)入答案部分。動(dòng)態(tài)閱讀診斷模塊對(duì)學(xué)生的閱讀水平、閱讀技能、閱讀習(xí)慣、閱讀時(shí)間從橫向和縱向角度進(jìn)行統(tǒng)計(jì),以圖表方式反饋閱讀者的絕對(duì)成績(jī)統(tǒng)計(jì)結(jié)果以及在系統(tǒng)常模中所處的位置。
在動(dòng)態(tài)閱讀診斷模塊和個(gè)性特點(diǎn)靜態(tài)診斷模塊,系統(tǒng)針對(duì)學(xué)習(xí)者的閱讀行為和習(xí)慣、量表統(tǒng)計(jì)結(jié)果、閱讀者回讀情況以及英語(yǔ)學(xué)習(xí)方法提供個(gè)體化的分析結(jié)果和指導(dǎo)意見(jiàn)。個(gè)體閱讀者可以及時(shí)了解自己的學(xué)習(xí)、閱讀理解水平、閱讀過(guò)程特征及其不足,根據(jù)提供的指導(dǎo)意見(jiàn),及時(shí)糾正不當(dāng)?shù)膶W(xué)習(xí)方法。咨詢指導(dǎo)模塊可供學(xué)習(xí)者對(duì)自己在聽(tīng)、說(shuō)、讀、寫和詞匯學(xué)習(xí)中所使用的策略是否得當(dāng)進(jìn)行測(cè)試,測(cè)試后,系統(tǒng)針對(duì)學(xué)習(xí)者的學(xué)習(xí)方法提供反饋信息;成功者案例模塊主要以學(xué)生自行選擇案例學(xué)習(xí)為主,借鑒他人成功的學(xué)習(xí)方法和經(jīng)驗(yàn)。
視聽(tīng)診斷模塊為學(xué)生提供診斷評(píng)估報(bào)告和數(shù)據(jù)分析圖表,包括用戶平均成績(jī)統(tǒng)計(jì)、個(gè)人成績(jī)曲線和學(xué)習(xí)進(jìn)度統(tǒng)計(jì)[57]。學(xué)生可以查看視聽(tīng)強(qiáng)弱環(huán)節(jié)、相應(yīng)的文字評(píng)估和詳盡的策略指導(dǎo)。聽(tīng)力診斷模塊一方面通過(guò)測(cè)試過(guò)程涉及的知識(shí)結(jié)構(gòu)、認(rèn)知策略、屬性分布和過(guò)程參數(shù)等指標(biāo),對(duì)個(gè)體的視聽(tīng)語(yǔ)言能力作出評(píng)估判斷;另一方面,通過(guò)認(rèn)知心理特征及策略應(yīng)用作出相應(yīng)的評(píng)估,為學(xué)生提供綜合的診斷報(bào)告及其相應(yīng)的策略指導(dǎo)。
SAAE診斷系統(tǒng)不同于其他系統(tǒng)的特點(diǎn)在于:參測(cè)地區(qū)的教育管理部門可以參照項(xiàng)目所建的全國(guó)常模數(shù)據(jù)庫(kù),對(duì)比所在地區(qū)課程發(fā)展是否與當(dāng)?shù)亟?jīng)濟(jì)發(fā)展總體水平以及教育投入相符。這部分反饋信息可作為區(qū)域教育有效性評(píng)估和教育決策的重要參考。
另外,一些研究者對(duì)不同學(xué)科的診斷性測(cè)試進(jìn)行研究。夏良英等給出了高中物理學(xué)業(yè)水平綜合診斷和分層提高系統(tǒng)的評(píng)估報(bào)告[15],該診斷報(bào)告主要以文本形式呈現(xiàn),附以學(xué)生各屬性掌握情況和常模平均的對(duì)比表;學(xué)生可以查看每道測(cè)試題的屬性編碼、詳細(xì)解答過(guò)程、思路點(diǎn)撥、易錯(cuò)點(diǎn)分析,同時(shí)還有個(gè)性化配置的學(xué)習(xí)資料。Sun等在對(duì)小學(xué)六年級(jí)學(xué)生進(jìn)行認(rèn)知診斷之后,提供了2個(gè)層面的反饋信息:一是根據(jù)學(xué)生在每個(gè)屬性上的準(zhǔn)確率,用雷達(dá)圖展示學(xué)生的答題表現(xiàn);二是對(duì)學(xué)生進(jìn)行聚類分析,在群體屬性掌握檔案中提供每個(gè)聚類屬性的完成概率[5]。
杜金榜提出以診斷報(bào)告為核心的電腦化診斷測(cè)試模型,并探索該模型在閱讀上的應(yīng)用路徑[58]。該研究將一系列閱讀技能劃分為識(shí)認(rèn)、重組、欣賞3個(gè)層次。為了促進(jìn)學(xué)生個(gè)體化學(xué)習(xí)的發(fā)展以及采用電腦化診斷測(cè)試提高反饋的效率,研究者設(shè)計(jì)了包括“補(bǔ)習(xí)”“題目編寫”“題庫(kù)管理”“施測(cè)”“數(shù)據(jù)處理”“診斷報(bào)告”6個(gè)部分的模型,并將重心放在“診斷報(bào)告”部分。測(cè)試過(guò)程記錄了大學(xué)二年級(jí)學(xué)生對(duì)答案的肯定程度、每篇閱讀遇到的難詞數(shù)目、難句數(shù)目及每篇閱讀的熟悉程度;此外,測(cè)試還記錄了學(xué)生閱讀使用的時(shí)間、答題回看文章的次數(shù)、改作次數(shù)等。作答完成后,對(duì)學(xué)生能力的分析結(jié)果根據(jù)標(biāo)準(zhǔn)差的數(shù)值,將能力劃分成高、中、低3個(gè)水平。診斷結(jié)果采用文字描述、曲線圖和直方圖等不同形式進(jìn)行報(bào)告:文字描述主要針對(duì)學(xué)生的整體閱讀能力和分項(xiàng)能力進(jìn)行刻畫;曲線圖展示個(gè)體閱讀要素能力和最高能力的對(duì)比;直方圖主要反映回答正誤、閱讀速度和肯定程度與最高能力的對(duì)比。反饋報(bào)告將受試群體中的最高水平作為參照標(biāo)準(zhǔn),這種常模參照的反饋形式,可能對(duì)學(xué)生學(xué)習(xí)目標(biāo)的設(shè)定及達(dá)成產(chǎn)生消極影響。
診斷性評(píng)價(jià)反饋的參照系統(tǒng)是采取常模參照還是標(biāo)準(zhǔn)參照,研究者觀點(diǎn)不一。最近的研究又出現(xiàn)了一種新的參照形式,即學(xué)習(xí)者自身參照。Jang基于對(duì)閱讀的認(rèn)知診斷研究研發(fā)診斷報(bào)告單DiagnOsis。該報(bào)告單包括4個(gè)部分的診斷信息:答案回顧、提高技能、如何解讀技能掌握和技能描述。該研究采用了學(xué)習(xí)者自身參照體系,將自評(píng)融入到認(rèn)知診斷信息當(dāng)中,形成技能檔案,將學(xué)習(xí)者自評(píng)信息與認(rèn)知診斷成績(jī)一起呈現(xiàn)給學(xué)習(xí)者,為學(xué)習(xí)者自身學(xué)習(xí)目標(biāo)的設(shè)定、學(xué)習(xí)調(diào)整和規(guī)劃提供參考[45]。
診斷性評(píng)價(jià)的使用非常廣泛。認(rèn)知診斷測(cè)試的興起為個(gè)體化反饋提供了思路和方向,響應(yīng)了自主性學(xué)習(xí)的倡導(dǎo);但是,認(rèn)知診斷在我國(guó)還處于理論研究的階段,在大規(guī)模測(cè)評(píng)項(xiàng)目應(yīng)用較少。利用認(rèn)知診斷模型的優(yōu)勢(shì),與現(xiàn)有成熟的非認(rèn)知診斷測(cè)試融合可以提供新思路。此外,CD-CAT有良好的發(fā)展前景,但是,如何在大規(guī)模考試實(shí)踐中應(yīng)用認(rèn)知診斷模型和CAT以及在實(shí)踐中會(huì)遇到什么問(wèn)題,尚有待進(jìn)一步探索。
診斷能力的提出不僅響應(yīng)了培養(yǎng)評(píng)估素養(yǎng)的呼吁,也豐富了評(píng)估素養(yǎng)的內(nèi)涵。診斷性信息的正確解讀和有效使用的能力成為重要的評(píng)估素養(yǎng)之一。診斷性反饋有效性的評(píng)估仍然有待進(jìn)一步研究。目前,許多診斷性系統(tǒng)僅涉及反饋層面,很少對(duì)反饋信息的使用和效果進(jìn)行追蹤和研究。有研究發(fā)現(xiàn):學(xué)生對(duì)反饋報(bào)告的態(tài)度不一、對(duì)利用該報(bào)告的效率并不理想,學(xué)生需要更多的指導(dǎo)才能高效利用反饋報(bào)告,并對(duì)其目標(biāo)的設(shè)定產(chǎn)生影響[59-61];同時(shí)診斷性反饋的使用效果受到不同的因素影響,如學(xué)生不同的學(xué)習(xí)能力水平、學(xué)習(xí)態(tài)度、學(xué)習(xí)目標(biāo)、或者學(xué)習(xí)情境等[42],也受到反饋關(guān)注的內(nèi)容、評(píng)價(jià)性或描述性等反饋性質(zhì)的影響[62]。如果要全面發(fā)揮診斷性評(píng)價(jià)反饋的價(jià)值,則需要對(duì)報(bào)告的使用方法進(jìn)行追蹤,改進(jìn)反饋內(nèi)容,提高診斷能力。
隨著我國(guó)加大對(duì)教育監(jiān)測(cè)、教育評(píng)價(jià)的重視,診斷性測(cè)試在未來(lái)的教育實(shí)踐中將發(fā)揮重要的作用,為課堂教學(xué)決策提供大數(shù)據(jù)參照[63],也為考試分?jǐn)?shù)報(bào)告提供可參考的模式和路徑。如果利用認(rèn)知診斷模型的優(yōu)勢(shì),頂層設(shè)計(jì)基于學(xué)生表現(xiàn)的診斷性評(píng)價(jià)、反饋的參照體系和形式等,并與計(jì)算機(jī)考試迅速發(fā)展的優(yōu)勢(shì)相結(jié)合,診斷性評(píng)價(jià)將會(huì)有更廣泛的發(fā)展前景。