診斷性評(píng)價(jià)研究的發(fā)展

2018-02-08 22:54:51楊呂娜

中國(guó)考試 2018年9期

楊呂娜

（北京師范大學(xué)，北京 100875）

《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要（2010—2020年）》和2014年國(guó)務(wù)院《關(guān)于深化考試招生制度改革的實(shí)施意見(jiàn)》明確指出，要完善教育質(zhì)量評(píng)價(jià)制度以及改革、完善測(cè)評(píng)方式和分?jǐn)?shù)報(bào)告。作為能夠?yàn)閷W(xué)生個(gè)體化學(xué)習(xí)提供全面反饋信息的評(píng)價(jià)方式，診斷性評(píng)價(jià)成為研究的焦點(diǎn)。診斷性評(píng)價(jià)在認(rèn)知診斷評(píng)估、診斷能力以及診斷反饋方面的新進(jìn)展，將為新一代評(píng)分方式和成績(jī)報(bào)告的完善提供新的思路和改進(jìn)路徑。

1 豐富的反饋信息：認(rèn)知診斷

心理與教育測(cè)量理論發(fā)展至今大約經(jīng)歷了2個(gè)階段：一是標(biāo)準(zhǔn)測(cè)量理論階段，包括經(jīng)典測(cè)量理論、項(xiàng)目反應(yīng)理論和概化理論；二是以認(rèn)知診斷為核心的新一代測(cè)量理論[1-3]。認(rèn)知診斷作為教育測(cè)量興起的方法受到人們的廣泛關(guān)注[4-7]，其聚焦于對(duì)個(gè)體知識(shí)結(jié)構(gòu)、加工技能或認(rèn)知過(guò)程進(jìn)行診斷評(píng)估[8]。由于經(jīng)典測(cè)試?yán)碚摵晚?xiàng)目反應(yīng)理論實(shí)質(zhì)上是根據(jù)測(cè)驗(yàn)題目，探索被試在特定能力的連續(xù)體的位置。因此，基于這類理論的測(cè)試結(jié)果不能為學(xué)生與教師提供學(xué)習(xí)和教授的知識(shí)與技能的全面信息[9]。認(rèn)知診斷以現(xiàn)代測(cè)量理論為基礎(chǔ)，探索被試在考試中的認(rèn)知過(guò)程、適用策略與知識(shí)結(jié)構(gòu)及其運(yùn)用情況，并對(duì)高能力被試與低能力被試的差別進(jìn)行刻畫，為教學(xué)和學(xué)習(xí)提供了豐富的診斷信息。與經(jīng)典測(cè)試?yán)碚摵晚?xiàng)目反應(yīng)理論以測(cè)試題考查單一能力的前提不同，認(rèn)知診斷測(cè)驗(yàn)強(qiáng)調(diào)試題考查能力的多維性。通過(guò)對(duì)粒化認(rèn)知屬性（Fine-grained Attribute）呈現(xiàn)的知識(shí)結(jié)構(gòu)、加工技能或認(rèn)知過(guò)程的刻畫，認(rèn)知診斷能夠?yàn)閭€(gè)體提供認(rèn)知能力結(jié)構(gòu)和性狀的認(rèn)知診斷反饋。

1.1 認(rèn)知診斷模型

診斷分類模型是基于測(cè)量和統(tǒng)計(jì)模型發(fā)展起來(lái)的，其最為人知的術(shù)語(yǔ)是認(rèn)知診斷模型（Cognitive Diagnostic Models），但是，Rupp等認(rèn)為應(yīng)當(dāng)將其稱作診斷分類模型（Diagnostic Classification Model）更為合理，可以避免將認(rèn)知診斷模型只局限于認(rèn)知心理學(xué)的研究和應(yīng)用[7]。

常用的認(rèn)知診斷模型有：規(guī)則空間模型（Rule Space Methodology）、線性對(duì)數(shù)模型（Linear Logistic Model，LLM）、融合模型（Fusion Model）、DINA 模型（Deterministic Input，Noisy and Gate Model）、NIDA模型（Noisy Input，Deterministic，and Gate Model）、貝葉斯網(wǎng)絡(luò)（Bayesian Network）、G-DINA模型（Generalized Deterministic Input，Noisy and Gate Model）。上述認(rèn)知診斷模型可以歸納為3個(gè)類別：學(xué)生的思維模擬、概念網(wǎng)絡(luò)和心理計(jì)量的特質(zhì)模型[9]。目前認(rèn)知診斷模型的研究發(fā)展主要體現(xiàn)在：一方面，對(duì)認(rèn)知診斷模型的整合及模型—數(shù)據(jù)擬合的研究，如概括診斷模型；另一方面，從0-1評(píng)分到多級(jí)評(píng)分模型的拓展[3]。

1.2 認(rèn)知診斷的應(yīng)用研究

許多學(xué)科均嘗試使用認(rèn)知診斷方法研究考生的認(rèn)知過(guò)程和心理特征。張偉平使用規(guī)則空間模型對(duì)中美學(xué)生的數(shù)學(xué)能力進(jìn)行對(duì)比探索[10]；涂冬波等將HO-DINA模型應(yīng)用到探討小學(xué)兒童數(shù)學(xué)問(wèn)題解決的研究[11]；許志勇等嘗試開(kāi)發(fā)小學(xué)數(shù)學(xué)五年級(jí)的認(rèn)知診斷測(cè)試[12]；李金波等對(duì)高考考生在數(shù)學(xué)知識(shí)的掌握情況進(jìn)行診斷[13-14]；Sun等對(duì)小學(xué)六年級(jí)學(xué)生數(shù)學(xué)分?jǐn)?shù)的認(rèn)知屬性進(jìn)行診斷[5]；夏良英等對(duì)高中物理學(xué)業(yè)水平進(jìn)行綜合認(rèn)知診斷的探索[15]；劉婷雁對(duì)漢語(yǔ)學(xué)習(xí)者漢字構(gòu)形意識(shí)進(jìn)行概括診斷[16]；徐式婧應(yīng)用認(rèn)知診斷規(guī)則空間模型對(duì)參加漢語(yǔ)語(yǔ)言測(cè)試的考生進(jìn)行聽(tīng)力診斷，并為參測(cè)者提供聽(tīng)力理解技能掌握情況的診斷性報(bào)告[17]。

在英語(yǔ)語(yǔ)言測(cè)試方面，認(rèn)知診斷研究主要集中在閱讀和寫作領(lǐng)域[18-20]。陳慧麟等使用G-DINA模型對(duì)PISA閱讀測(cè)試屬性進(jìn)行重新標(biāo)定研究[21]；Buck等對(duì)開(kāi)放式答題的英語(yǔ)聽(tīng)力試題采用規(guī)則空間方法的研究，共分離15種認(rèn)知屬性，發(fā)現(xiàn)屬性之間存在14種交互[22]；Jang針對(duì)模擬TOEFL考試的LanguEdge考試閱讀試題的認(rèn)知屬性，具體展示了如何使用學(xué)生口頭報(bào)告與專家判斷確定試題和屬性間的關(guān)系，建立Q矩陣[4]；Lee等針對(duì)TOEFL考試的閱讀和聽(tīng)力試題的認(rèn)知屬性，對(duì)概化認(rèn)知診斷模型、融合模型、潛在特質(zhì)分析模型3種認(rèn)知診斷模型的分析結(jié)果進(jìn)行對(duì)比[6]；蔡艷等針對(duì)中學(xué)生閱讀能力的認(rèn)知屬性進(jìn)行研究[23]；Sheehan等針對(duì)美國(guó)青少年的文本加工技能進(jìn)行研究[24]；Buck等針對(duì)TOEIC考試閱讀試題的認(rèn)知屬性進(jìn)行研究[25]；von Davier對(duì)TOEFL的閱讀和聽(tīng)力試題的認(rèn)知屬性進(jìn)行研究[26]；還有學(xué)者從評(píng)分標(biāo)準(zhǔn)入手，對(duì)寫作能力進(jìn)行認(rèn)知診斷研究[27-30]。

1.3 認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)的進(jìn)展

計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)（Computerized Adaptive Testing，CAT）隨著計(jì)算機(jī)技術(shù)和測(cè)量理論的發(fā)展，從20世紀(jì)70年代早期被引入到測(cè)試領(lǐng)域，目前已成為流行的測(cè)試方式。這種測(cè)試方式通過(guò)編程控制試題難度，使其盡量接近考生的能力水平，從而可以準(zhǔn)確地刻畫考生的潛在特質(zhì)。隨著認(rèn)知診斷理論的興起和快速發(fā)展，認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)（Cognitive Diagnostic Computerized Adaptive Testing，CD-CAT）是CAT與認(rèn)知診斷相結(jié)合的新方向。CD-CAT目前在教育測(cè)量領(lǐng)域的應(yīng)用得到了人們的廣泛關(guān)注，形成了一系列的研究成果[31-38]。CD-CAT不僅可以提供關(guān)于考生優(yōu)缺點(diǎn)的診斷反饋，而且可以提高診斷的準(zhǔn)確性和效率。

2 高要求的反饋素養(yǎng)：診斷能力

作為一種評(píng)價(jià)方式，診斷性評(píng)價(jià)同樣需要教師和學(xué)習(xí)者具備發(fā)現(xiàn)關(guān)鍵特征和正確解讀分?jǐn)?shù)的能力，即診斷能力（Diagnostic Competence）。對(duì)于教師而言，診斷能力在提倡培養(yǎng)和提高教師評(píng)估素養(yǎng)（Assessment Literacy）方面尤為重要。對(duì)于學(xué)習(xí)者而言，自我評(píng)估（Self-Assessment）也對(duì)學(xué)習(xí)者自身的診斷能力提出了要求。目前關(guān)于診斷能力的研究主要從形成性評(píng)價(jià)的角度出發(fā)[39-40]，更關(guān)注對(duì)教師診斷能力的研究。

Salder在對(duì)形成性評(píng)價(jià)進(jìn)行分析后，對(duì)診斷能力作出如下定義：“評(píng)價(jià)者應(yīng)對(duì)學(xué)生表現(xiàn)的質(zhì)量有明確的概念；能辨別學(xué)生目前的表現(xiàn)與目標(biāo)間的差距以及能選擇適合的活動(dòng)幫助學(xué)習(xí)者向目標(biāo)邁進(jìn)。”[40]類似地，Edelenbos等對(duì)語(yǔ)言教師的診斷能力進(jìn)行研究，將其定義為“能解讀學(xué)生的語(yǔ)言進(jìn)步，能技巧地處理評(píng)價(jià)材料，能基于診斷給學(xué)生提供適宜的幫助”[41]；同時(shí)，將教師診斷能力的行為表現(xiàn)劃分為6個(gè)級(jí)別的能力水平，并對(duì)各個(gè)級(jí)別的水平作出詳細(xì)的刻畫，為對(duì)教師診斷能力的培訓(xùn)和評(píng)價(jià)提供了良好的參照。

Rea-Dickins等通過(guò)研究形成性測(cè)試的信度和效度，探究教師的診斷能力[39]。這項(xiàng)研究通過(guò)將教師對(duì)學(xué)生課堂活動(dòng)表現(xiàn)的記錄和轉(zhuǎn)錄的學(xué)生活動(dòng)表現(xiàn)進(jìn)行對(duì)比，發(fā)現(xiàn)在很多情況下教師對(duì)學(xué)生的表現(xiàn)只是記錄，并沒(méi)有注意到關(guān)鍵特征，而且在記錄學(xué)生表現(xiàn)時(shí)出現(xiàn)很多錯(cuò)誤，為此，呼吁加強(qiáng)對(duì)教師進(jìn)行診斷能力的培訓(xùn)。

診斷性評(píng)價(jià)為學(xué)習(xí)者提供更全面、更精細(xì)的反饋內(nèi)容，包括優(yōu)勢(shì)和劣勢(shì)信息。為了讓診斷反饋信息的使用效果最大化，診斷性評(píng)價(jià)對(duì)教師的診斷能力提出了更高的要求：應(yīng)能解讀學(xué)生反饋報(bào)告的信息，指導(dǎo)學(xué)生根據(jù)優(yōu)勢(shì)制定學(xué)習(xí)目標(biāo)，幫助學(xué)生根據(jù)劣勢(shì)信息制定補(bǔ)救措施等。學(xué)生則需要能夠?qū)φZ(yǔ)言能力進(jìn)行自評(píng)，解讀反饋報(bào)告信息并進(jìn)行有效的使用；這也將成為診斷性評(píng)價(jià)中診斷能力研究的重要組成部分。

3 精細(xì)的反饋內(nèi)容：多層面架構(gòu)

診斷性評(píng)價(jià)需要提供反饋，但是由于種種原因一直很少受到人們的關(guān)注，發(fā)展也比較滯后[42]。反饋的本質(zhì)是信息或數(shù)據(jù)的傳遞。反饋的研究表明：反饋通過(guò)促進(jìn)學(xué)習(xí)者的知識(shí)建構(gòu)，改進(jìn)認(rèn)知策略和促進(jìn)學(xué)習(xí)者的目標(biāo)設(shè)置，以促進(jìn)學(xué)習(xí)者學(xué)業(yè)表現(xiàn)提高[43]。關(guān)于外部反饋的研究主要集中在反饋的表達(dá)方式、內(nèi)容屬性以及反饋效果上。根據(jù)內(nèi)容表達(dá)方式的不同，反饋可分為信息型反饋和控制型反饋。信息型反饋的重點(diǎn)在于告知個(gè)體任務(wù)完成的情況，包括結(jié)果成敗、正確作答或詳細(xì)反饋等內(nèi)容；控制型反饋強(qiáng)調(diào)外界的要求、期望和學(xué)習(xí)目標(biāo)[2]。

過(guò)去，測(cè)驗(yàn)的成績(jī)報(bào)告只是報(bào)告測(cè)驗(yàn)總分，即便總分相同的考生群體，也可能具有不同的能力；現(xiàn)在，提供描述性的成績(jī)報(bào)告非常普遍，如在CET考試中，成績(jī)一般包括總分和各維度的分?jǐn)?shù)，這樣的反饋雖然給考生和分?jǐn)?shù)適用提供了反映“所長(zhǎng)所短”的成績(jī)報(bào)告，但也可能導(dǎo)致一些誤解，引發(fā)困惑。針對(duì)不同的反饋群體對(duì)象，在設(shè)計(jì)具體的診斷性反饋和反饋方式時(shí)，應(yīng)考慮將各群體關(guān)注的因素包含在內(nèi)。有學(xué)者建議：在考生個(gè)人層面上，提供反映各維度水平的診斷性成績(jī)報(bào)告，并提供改進(jìn)學(xué)習(xí)的建議；在教師層面上，提供團(tuán)體性診斷報(bào)告，報(bào)告整個(gè)群體在各維度的表現(xiàn)，從而幫助教師發(fā)現(xiàn)在教學(xué)中存在的問(wèn)題，并提出教學(xué)改進(jìn)的建議[44]。

許多研究者提倡將診斷性評(píng)價(jià)融入學(xué)業(yè)測(cè)試和水平測(cè)試。從宏觀層面上，對(duì)聽(tīng)說(shuō)讀寫等技能提供反饋信息，現(xiàn)有的水平測(cè)試或?qū)W業(yè)成績(jī)測(cè)試在一定程度上也能夠?qū)崿F(xiàn)這一目的，但是要進(jìn)行深入、具體的診斷卻并不容易。鑒于目前許多研究都嘗試?yán)脤W(xué)業(yè)測(cè)試或者水平測(cè)試提供診斷性反饋信息，Kunnan等從大規(guī)模評(píng)價(jià)情境和課堂評(píng)價(jià)情境角度概述了診斷性反饋[42]。

在TOEFL考試等大規(guī)模評(píng)價(jià)情境中，聽(tīng)說(shuō)讀寫的量表分?jǐn)?shù)以及閱讀和聽(tīng)力的反饋都比較籠統(tǒng)，口語(yǔ)和寫作的反饋則比較細(xì)致；IELTS采用1～9個(gè)級(jí)別的等級(jí)量表向考生反饋聽(tīng)說(shuō)讀寫4項(xiàng)技能的信息。雖然這種利用水平考試的成績(jī)檔案提供診斷信息固然可以，但是由于診斷信息通常是針對(duì)某一水平群體，對(duì)個(gè)人的指導(dǎo)作用相對(duì)薄弱，除了提供考生和其他考生相對(duì)的成績(jī)位置以外，不能提供更多的信息[42]614。許多自評(píng)項(xiàng)目均嘗試為學(xué)習(xí)者提供診斷性反饋，如診斷性語(yǔ)言測(cè)試系統(tǒng)（Diagnostic Language Tests，DIALANG）以及Jang研制的DiagnOsis[45]。

診斷測(cè)試的反饋報(bào)告是多層面的，與測(cè)試目的密切相關(guān)。有些項(xiàng)目從地區(qū)、學(xué)校、班級(jí)等宏觀層面進(jìn)行反饋；針對(duì)教師或?qū)W習(xí)者個(gè)體的微觀反饋，則對(duì)促進(jìn)教學(xué)和學(xué)生的自主學(xué)習(xí)大有裨益，例如認(rèn)知測(cè)試診斷能夠給學(xué)習(xí)者提供個(gè)體化的強(qiáng)項(xiàng)和弱項(xiàng)診斷信息[6]。在中小學(xué)學(xué)生學(xué)業(yè)成績(jī)分析、反饋與指導(dǎo)系統(tǒng)（Student Academic Achievement Evaluation，SAAE）項(xiàng)目中，系統(tǒng)從省份、區(qū)域、學(xué)校、班級(jí)4個(gè)層面呈現(xiàn)反饋信息，內(nèi)容包括對(duì)總體情況和所轄區(qū)縣的情況、學(xué)生學(xué)業(yè)成績(jī)的整體情況以及對(duì)學(xué)生學(xué)業(yè)成績(jī)的多種相關(guān)因素進(jìn)行報(bào)告，諸如師生關(guān)系、學(xué)習(xí)壓力、學(xué)習(xí)環(huán)境、學(xué)習(xí)自信心和教師教學(xué)評(píng)價(jià)等因素。這些信息都將對(duì)區(qū)域教學(xué)改革或改進(jìn)起到重大參考價(jià)值[46]。

4 科學(xué)的反饋參照：常模參照、標(biāo)準(zhǔn)參照和個(gè)體參照

診斷性反饋的多層面還體現(xiàn)在反饋采用的參照體系的不同上。國(guó)內(nèi)外研究者研發(fā)了針對(duì)不同語(yǔ)言水平的診斷性評(píng)價(jià)系統(tǒng)，目前不少“診斷”測(cè)試都是以現(xiàn)有學(xué)業(yè)測(cè)試或水平測(cè)試為診斷工具，提供診斷性信息[6,42,47]，但真正以診斷為目標(biāo)設(shè)計(jì)的主要包括以下系統(tǒng)。

DIALANG測(cè)試系統(tǒng)是基于計(jì)算機(jī)和互聯(lián)網(wǎng)施測(cè)，提供14種歐洲官方語(yǔ)言的多語(yǔ)種診斷性測(cè)試。該測(cè)試依據(jù)歐洲共同語(yǔ)言參考標(biāo)準(zhǔn)（Common European Framework for Reference of Languages:Learning，Teaching，Assessment，CEFR）相關(guān)級(jí)別的語(yǔ)言能力水平要求，根據(jù)考生的答題情況，依照相應(yīng)的級(jí)別描述，提供語(yǔ)言能力評(píng)價(jià)和相應(yīng)的語(yǔ)言學(xué)習(xí)建議。

DELNA（Diagnostic English Language Needs Assessment）是針對(duì)新西蘭奧克蘭大學(xué)一年級(jí)新生研發(fā)的診斷性系統(tǒng),以區(qū)分國(guó)內(nèi)學(xué)生和國(guó)際學(xué)生的英語(yǔ)水平，從而滿足這2個(gè)群體對(duì)不同學(xué)術(shù)素養(yǎng)語(yǔ)言支持上的需求。考試的結(jié)果用于指導(dǎo)學(xué)生尋求適合的學(xué)術(shù)語(yǔ)言支持[48]。

MASUS（Measuring the Academic Skills of University Students）是由悉尼大學(xué)語(yǔ)言中心開(kāi)發(fā)和實(shí)施，通過(guò)對(duì)學(xué)生寫作水平強(qiáng)弱的診斷，為學(xué)生學(xué)術(shù)寫作提供幫助[49]。

SAAE系統(tǒng)是針對(duì)我國(guó)義務(wù)教育階段，基于課程標(biāo)準(zhǔn)的學(xué)習(xí)診斷性評(píng)價(jià)體系，涉及中小學(xué)的語(yǔ)文、數(shù)學(xué)、英語(yǔ)、科學(xué)、人文等不同學(xué)科。該項(xiàng)目旨在向參測(cè)地區(qū)的教育管理層、學(xué)校和教師提供不同的信息反饋[46]。

DELTA（Diagnostic English Language Tracking Assessment）是為香港地區(qū)本科生設(shè)計(jì)的多模塊在線診斷測(cè)試系統(tǒng)，包括閱讀、聽(tīng)力、寫作、語(yǔ)法和詞匯5個(gè)部分。該測(cè)試涉及不同文本類型，通過(guò)不同的話題，廣泛地考查學(xué)生的語(yǔ)言能力[50-51]。DELTA系統(tǒng)通過(guò)對(duì)學(xué)生語(yǔ)言能力強(qiáng)弱的診斷，為學(xué)生提供語(yǔ)言能力成長(zhǎng)報(bào)告以及個(gè)性化指導(dǎo)與學(xué)習(xí)資源。

個(gè)性化英語(yǔ)學(xué)習(xí)診斷與策略指導(dǎo)咨詢系統(tǒng)（Personalized English Learning Diagnosis and Advice System，PELDAS）由馬曉梅課題組研發(fā)，包括4個(gè)模塊。與DIALANG關(guān)注學(xué)生對(duì)各項(xiàng)技能水平進(jìn)行自評(píng)不同，PELDAS提供個(gè)性化英語(yǔ)學(xué)習(xí)診斷與指導(dǎo)。該網(wǎng)絡(luò)系統(tǒng)重視評(píng)估學(xué)生自己的個(gè)體化學(xué)習(xí)風(fēng)格和特征[52-53]。

上述診斷系統(tǒng)提供的診斷性反饋分別采用標(biāo)準(zhǔn)參照、常模參照和個(gè)體自身參照3種不同的參照體系。

4.1 標(biāo)準(zhǔn)參照

在SAAE診斷系統(tǒng)的診斷性反饋中，英語(yǔ)學(xué)科參照義務(wù)教育英語(yǔ)課程大綱4級(jí)標(biāo)準(zhǔn)對(duì)學(xué)生的作答表現(xiàn)劃定等級(jí)[54]。根據(jù)學(xué)生的能力級(jí)別和得分情況劃分為A、B、C、D 4個(gè)等級(jí)，即優(yōu)秀、良好、及格、有待及格。學(xué)科組與參測(cè)地區(qū)教研員、教師面對(duì)面地進(jìn)行檢測(cè)信息診斷性反饋。內(nèi)容包括學(xué)業(yè)成績(jī)檢測(cè)以及分析指導(dǎo)思想與檢測(cè)工具的研制、檢測(cè)數(shù)據(jù)總體歸納分析、結(jié)合測(cè)試數(shù)據(jù)的典型題目講解和問(wèn)卷信息調(diào)查的各種變量數(shù)據(jù)及其對(duì)學(xué)生學(xué)業(yè)成績(jī)的影響。反饋內(nèi)容既可以是宏觀層面，涉及課程教學(xué)的整體情況，又可以是微觀層面，重點(diǎn)反映教學(xué)的具體問(wèn)題或值得重視的方面[46]。

DIALANG系統(tǒng)針對(duì)考生的自評(píng)部分和定位測(cè)試部分，并無(wú)詳細(xì)的反饋，只根據(jù)這2個(gè)部分的結(jié)果選擇考生適合的語(yǔ)言測(cè)試水平[55]。反饋內(nèi)容包括：1）語(yǔ)言水平，即根據(jù)測(cè)試結(jié)果，評(píng)估考生在6個(gè)水平中對(duì)應(yīng)的級(jí)別；2）核對(duì)答案，即展示分技能的作答情況；3）詞匯量，即提供詞匯量水平的信息并描述其意義；4）自評(píng)反饋，即考生對(duì)其語(yǔ)言水平的自評(píng)，著重分析自評(píng)與測(cè)驗(yàn)結(jié)果不一致的原因；5）通過(guò)表格展示考生水平與上下相臨2個(gè)語(yǔ)言水平間的差異，鼓勵(lì)學(xué)生反思其語(yǔ)言學(xué)習(xí)。

DELNA系統(tǒng)分為2個(gè)階段的考試。第一個(gè)階段考試結(jié)果分為：優(yōu)秀、滿意、建議參加診斷測(cè)試3個(gè)類別。根據(jù)測(cè)試反饋結(jié)果，第一個(gè)類別的學(xué)生不需要參加任何語(yǔ)言活動(dòng)；第二個(gè)類別的學(xué)生需要參加學(xué)校學(xué)生學(xué)習(xí)中心或英語(yǔ)自學(xué)中心的獨(dú)立活動(dòng)；第三個(gè)類別的學(xué)生需要參加第二階段的考試。在第二個(gè)階段測(cè)試后，為了保證反饋信息使用的高效性，聽(tīng)、讀、寫分別用A、B、C、D 4個(gè)等級(jí)報(bào)告學(xué)生語(yǔ)言能力；A和B水平分別對(duì)應(yīng)第一階段考試中的優(yōu)秀和滿意類別，處在這2個(gè)等級(jí)的學(xué)生會(huì)收到測(cè)試結(jié)果郵件，C和D水平的學(xué)生則會(huì)收到DELNA系統(tǒng)的語(yǔ)言建議。

DELTA系統(tǒng)是基于計(jì)算機(jī)的診斷測(cè)試系統(tǒng)，采用正向報(bào)告的形式，為學(xué)習(xí)者提供0～200分的標(biāo)準(zhǔn)分反饋結(jié)果。聽(tīng)、讀、寫、語(yǔ)法、詞匯5個(gè)分維度報(bào)告分別對(duì)應(yīng)考查的語(yǔ)言技能，并附有相應(yīng)的學(xué)習(xí)材料。學(xué)生可以自主選擇或者在教師的指導(dǎo)下，根據(jù)反饋報(bào)告選擇相應(yīng)的學(xué)習(xí)資源。該系統(tǒng)的優(yōu)勢(shì)在于為多次參加測(cè)試的學(xué)生提供語(yǔ)言能力發(fā)展報(bào)告[50]。目前該系統(tǒng)僅提供系統(tǒng)開(kāi)發(fā)時(shí)已輸入的、固定模塊反饋信息，并不能提供具體的個(gè)體化反饋信息。這也是目前基于計(jì)算機(jī)的診斷測(cè)試系統(tǒng)的劣勢(shì)之一[56]。

MASUS診斷系統(tǒng)要求學(xué)生根據(jù)提供的背景信息，撰寫與專業(yè)背景相關(guān)的文章。所有的文章都由受過(guò)培訓(xùn)的閱卷員依照5個(gè)維度的標(biāo)準(zhǔn)化評(píng)分標(biāo)準(zhǔn)評(píng)分。每個(gè)維度從低到高分為1～4個(gè)等級(jí)，其中1～2個(gè)等級(jí)為“寫作能力較弱，需要寫作幫助”。學(xué)生可以根據(jù)反饋報(bào)告選擇學(xué)習(xí)中心提供的課程幫助[49]。

4.2 常模參照

PELDAS反饋采用常模參照的形式[52-53]。該系統(tǒng)的診斷報(bào)告包括對(duì)學(xué)習(xí)者做個(gè)性診斷測(cè)量表的診斷分析和動(dòng)態(tài)閱讀診斷分析；策略咨詢指導(dǎo)平臺(tái)和成功經(jīng)驗(yàn)學(xué)習(xí)平臺(tái)設(shè)計(jì)主要以問(wèn)答形式呈現(xiàn)，點(diǎn)擊問(wèn)題便可進(jìn)入答案部分。動(dòng)態(tài)閱讀診斷模塊對(duì)學(xué)生的閱讀水平、閱讀技能、閱讀習(xí)慣、閱讀時(shí)間從橫向和縱向角度進(jìn)行統(tǒng)計(jì)，以圖表方式反饋閱讀者的絕對(duì)成績(jī)統(tǒng)計(jì)結(jié)果以及在系統(tǒng)常模中所處的位置。

在動(dòng)態(tài)閱讀診斷模塊和個(gè)性特點(diǎn)靜態(tài)診斷模塊，系統(tǒng)針對(duì)學(xué)習(xí)者的閱讀行為和習(xí)慣、量表統(tǒng)計(jì)結(jié)果、閱讀者回讀情況以及英語(yǔ)學(xué)習(xí)方法提供個(gè)體化的分析結(jié)果和指導(dǎo)意見(jiàn)。個(gè)體閱讀者可以及時(shí)了解自己的學(xué)習(xí)、閱讀理解水平、閱讀過(guò)程特征及其不足，根據(jù)提供的指導(dǎo)意見(jiàn)，及時(shí)糾正不當(dāng)?shù)膶W(xué)習(xí)方法。咨詢指導(dǎo)模塊可供學(xué)習(xí)者對(duì)自己在聽(tīng)、說(shuō)、讀、寫和詞匯學(xué)習(xí)中所使用的策略是否得當(dāng)進(jìn)行測(cè)試，測(cè)試后，系統(tǒng)針對(duì)學(xué)習(xí)者的學(xué)習(xí)方法提供反饋信息；成功者案例模塊主要以學(xué)生自行選擇案例學(xué)習(xí)為主，借鑒他人成功的學(xué)習(xí)方法和經(jīng)驗(yàn)。

視聽(tīng)診斷模塊為學(xué)生提供診斷評(píng)估報(bào)告和數(shù)據(jù)分析圖表，包括用戶平均成績(jī)統(tǒng)計(jì)、個(gè)人成績(jī)曲線和學(xué)習(xí)進(jìn)度統(tǒng)計(jì)[57]。學(xué)生可以查看視聽(tīng)強(qiáng)弱環(huán)節(jié)、相應(yīng)的文字評(píng)估和詳盡的策略指導(dǎo)。聽(tīng)力診斷模塊一方面通過(guò)測(cè)試過(guò)程涉及的知識(shí)結(jié)構(gòu)、認(rèn)知策略、屬性分布和過(guò)程參數(shù)等指標(biāo)，對(duì)個(gè)體的視聽(tīng)語(yǔ)言能力作出評(píng)估判斷；另一方面，通過(guò)認(rèn)知心理特征及策略應(yīng)用作出相應(yīng)的評(píng)估，為學(xué)生提供綜合的診斷報(bào)告及其相應(yīng)的策略指導(dǎo)。

SAAE診斷系統(tǒng)不同于其他系統(tǒng)的特點(diǎn)在于：參測(cè)地區(qū)的教育管理部門可以參照項(xiàng)目所建的全國(guó)常模數(shù)據(jù)庫(kù)，對(duì)比所在地區(qū)課程發(fā)展是否與當(dāng)?shù)亟?jīng)濟(jì)發(fā)展總體水平以及教育投入相符。這部分反饋信息可作為區(qū)域教育有效性評(píng)估和教育決策的重要參考。

另外，一些研究者對(duì)不同學(xué)科的診斷性測(cè)試進(jìn)行研究。夏良英等給出了高中物理學(xué)業(yè)水平綜合診斷和分層提高系統(tǒng)的評(píng)估報(bào)告[15]，該診斷報(bào)告主要以文本形式呈現(xiàn)，附以學(xué)生各屬性掌握情況和常模平均的對(duì)比表；學(xué)生可以查看每道測(cè)試題的屬性編碼、詳細(xì)解答過(guò)程、思路點(diǎn)撥、易錯(cuò)點(diǎn)分析，同時(shí)還有個(gè)性化配置的學(xué)習(xí)資料。Sun等在對(duì)小學(xué)六年級(jí)學(xué)生進(jìn)行認(rèn)知診斷之后，提供了2個(gè)層面的反饋信息：一是根據(jù)學(xué)生在每個(gè)屬性上的準(zhǔn)確率，用雷達(dá)圖展示學(xué)生的答題表現(xiàn)；二是對(duì)學(xué)生進(jìn)行聚類分析，在群體屬性掌握檔案中提供每個(gè)聚類屬性的完成概率[5]。

杜金榜提出以診斷報(bào)告為核心的電腦化診斷測(cè)試模型，并探索該模型在閱讀上的應(yīng)用路徑[58]。該研究將一系列閱讀技能劃分為識(shí)認(rèn)、重組、欣賞3個(gè)層次。為了促進(jìn)學(xué)生個(gè)體化學(xué)習(xí)的發(fā)展以及采用電腦化診斷測(cè)試提高反饋的效率，研究者設(shè)計(jì)了包括“補(bǔ)習(xí)”“題目編寫”“題庫(kù)管理”“施測(cè)”“數(shù)據(jù)處理”“診斷報(bào)告”6個(gè)部分的模型，并將重心放在“診斷報(bào)告”部分。測(cè)試過(guò)程記錄了大學(xué)二年級(jí)學(xué)生對(duì)答案的肯定程度、每篇閱讀遇到的難詞數(shù)目、難句數(shù)目及每篇閱讀的熟悉程度；此外，測(cè)試還記錄了學(xué)生閱讀使用的時(shí)間、答題回看文章的次數(shù)、改作次數(shù)等。作答完成后，對(duì)學(xué)生能力的分析結(jié)果根據(jù)標(biāo)準(zhǔn)差的數(shù)值，將能力劃分成高、中、低3個(gè)水平。診斷結(jié)果采用文字描述、曲線圖和直方圖等不同形式進(jìn)行報(bào)告：文字描述主要針對(duì)學(xué)生的整體閱讀能力和分項(xiàng)能力進(jìn)行刻畫；曲線圖展示個(gè)體閱讀要素能力和最高能力的對(duì)比；直方圖主要反映回答正誤、閱讀速度和肯定程度與最高能力的對(duì)比。反饋報(bào)告將受試群體中的最高水平作為參照標(biāo)準(zhǔn)，這種常模參照的反饋形式，可能對(duì)學(xué)生學(xué)習(xí)目標(biāo)的設(shè)定及達(dá)成產(chǎn)生消極影響。

4.3 自身參照

診斷性評(píng)價(jià)反饋的參照系統(tǒng)是采取常模參照還是標(biāo)準(zhǔn)參照，研究者觀點(diǎn)不一。最近的研究又出現(xiàn)了一種新的參照形式，即學(xué)習(xí)者自身參照。Jang基于對(duì)閱讀的認(rèn)知診斷研究研發(fā)診斷報(bào)告單DiagnOsis。該報(bào)告單包括4個(gè)部分的診斷信息：答案回顧、提高技能、如何解讀技能掌握和技能描述。該研究采用了學(xué)習(xí)者自身參照體系，將自評(píng)融入到認(rèn)知診斷信息當(dāng)中，形成技能檔案，將學(xué)習(xí)者自評(píng)信息與認(rèn)知診斷成績(jī)一起呈現(xiàn)給學(xué)習(xí)者，為學(xué)習(xí)者自身學(xué)習(xí)目標(biāo)的設(shè)定、學(xué)習(xí)調(diào)整和規(guī)劃提供參考[45]。

5 結(jié)束語(yǔ)

診斷性評(píng)價(jià)的使用非常廣泛。認(rèn)知診斷測(cè)試的興起為個(gè)體化反饋提供了思路和方向，響應(yīng)了自主性學(xué)習(xí)的倡導(dǎo)；但是，認(rèn)知診斷在我國(guó)還處于理論研究的階段，在大規(guī)模測(cè)評(píng)項(xiàng)目應(yīng)用較少。利用認(rèn)知診斷模型的優(yōu)勢(shì)，與現(xiàn)有成熟的非認(rèn)知診斷測(cè)試融合可以提供新思路。此外，CD-CAT有良好的發(fā)展前景，但是，如何在大規(guī)模考試實(shí)踐中應(yīng)用認(rèn)知診斷模型和CAT以及在實(shí)踐中會(huì)遇到什么問(wèn)題，尚有待進(jìn)一步探索。

診斷能力的提出不僅響應(yīng)了培養(yǎng)評(píng)估素養(yǎng)的呼吁，也豐富了評(píng)估素養(yǎng)的內(nèi)涵。診斷性信息的正確解讀和有效使用的能力成為重要的評(píng)估素養(yǎng)之一。診斷性反饋有效性的評(píng)估仍然有待進(jìn)一步研究。目前，許多診斷性系統(tǒng)僅涉及反饋層面，很少對(duì)反饋信息的使用和效果進(jìn)行追蹤和研究。有研究發(fā)現(xiàn)：學(xué)生對(duì)反饋報(bào)告的態(tài)度不一、對(duì)利用該報(bào)告的效率并不理想，學(xué)生需要更多的指導(dǎo)才能高效利用反饋報(bào)告，并對(duì)其目標(biāo)的設(shè)定產(chǎn)生影響[59-61]；同時(shí)診斷性反饋的使用效果受到不同的因素影響，如學(xué)生不同的學(xué)習(xí)能力水平、學(xué)習(xí)態(tài)度、學(xué)習(xí)目標(biāo)、或者學(xué)習(xí)情境等[42]，也受到反饋關(guān)注的內(nèi)容、評(píng)價(jià)性或描述性等反饋性質(zhì)的影響[62]。如果要全面發(fā)揮診斷性評(píng)價(jià)反饋的價(jià)值，則需要對(duì)報(bào)告的使用方法進(jìn)行追蹤，改進(jìn)反饋內(nèi)容，提高診斷能力。

隨著我國(guó)加大對(duì)教育監(jiān)測(cè)、教育評(píng)價(jià)的重視，診斷性測(cè)試在未來(lái)的教育實(shí)踐中將發(fā)揮重要的作用，為課堂教學(xué)決策提供大數(shù)據(jù)參照[63]，也為考試分?jǐn)?shù)報(bào)告提供可參考的模式和路徑。如果利用認(rèn)知診斷模型的優(yōu)勢(shì)，頂層設(shè)計(jì)基于學(xué)生表現(xiàn)的診斷性評(píng)價(jià)、反饋的參照體系和形式等，并與計(jì)算機(jī)考試迅速發(fā)展的優(yōu)勢(shì)相結(jié)合，診斷性評(píng)價(jià)將會(huì)有更廣泛的發(fā)展前景。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看