摘要:以生成式人工智能技術(shù)賦能教育評(píng)價(jià)創(chuàng)新,已成為數(shù)字時(shí)代教育評(píng)價(jià)改革的熱點(diǎn)話(huà)題。為了能真實(shí)地反映個(gè)體的批判性思維水平,其測(cè)評(píng)已逐漸由單純的技能評(píng)估轉(zhuǎn)向在真實(shí)情境中進(jìn)行推理、提供論據(jù)以及信息可信度等綜合能力的評(píng)估。將ChatGPT應(yīng)用于批判性思維測(cè)評(píng),有助于豐富評(píng)估內(nèi)容、創(chuàng)新交互模式以及提升評(píng)估效率和精度,為批判性思維的多維度評(píng)估提供新視角和方法。基于批判性思維框架及五維測(cè)評(píng)量規(guī),利用基于ChatGPT的在線(xiàn)平臺(tái)對(duì)31名大學(xué)生在186篇論證作文中反映出的批判性思維水平進(jìn)行評(píng)價(jià)發(fā)現(xiàn),作為寫(xiě)作輔助工具的ChatGPT能夠顯著提升學(xué)生對(duì)“說(shuō)明利弊類(lèi)”“圖文情境類(lèi)”和“對(duì)立觀點(diǎn)類(lèi)”三類(lèi)主題作文的論證寫(xiě)作能力;并且利用ChatGPT進(jìn)行的批判性思維評(píng)估也表現(xiàn)出較高的精準(zhǔn)度,但在不同主題任務(wù)的測(cè)評(píng)中存在細(xì)微差異。這一結(jié)果表明,ChatGPT在捕捉和評(píng)估具有直接性和明確性的批判性思維要素方面較為高效,但在評(píng)估邏輯推理和論證深度方面仍存在局限。未來(lái)可進(jìn)一步優(yōu)化提示詞設(shè)計(jì),引導(dǎo)ChatGPT深入理解人機(jī)對(duì)話(huà)中體現(xiàn)出的批判性思維水平,提升其在復(fù)雜認(rèn)知任務(wù)處理中的適應(yīng)性和準(zhǔn)確性,進(jìn)而實(shí)現(xiàn)個(gè)性化批判性思維評(píng)價(jià)與培育。
關(guān)鍵詞:生成式人工智能;ChatGPT;教育評(píng)價(jià);批判性思維測(cè)評(píng);提示工程技術(shù)
中圖分類(lèi)號(hào):G434 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-5195(2024)06-0102-10 doi10.3969/j.issn.1009-5195.2024.06.011
一、引言
批判性思維作為一種具有合理性、批判性、反思性等特質(zhì)的思考方式,旨在增強(qiáng)個(gè)體對(duì)信息進(jìn)行深入分析、評(píng)估和推理的能力,并形成獨(dú)立和批判的觀點(diǎn)。批判性思維能力在培養(yǎng)高水平的創(chuàng)新人才方面起著重要作用,受到國(guó)際社會(huì)的廣泛關(guān)注(方中雄等,2023)。然而,在評(píng)估教學(xué)干預(yù)對(duì)學(xué)生批判性思維提升的作用方面,元分析結(jié)果顯示:技術(shù)的使用并未對(duì)教學(xué)效果產(chǎn)生顯著影響(冷靜等,2020a)。2020年,國(guó)務(wù)院印發(fā)的《深化新時(shí)代教育評(píng)價(jià)改革總體方案》強(qiáng)調(diào),充分利用信息技術(shù)提升教育評(píng)價(jià)的科學(xué)性、專(zhuān)業(yè)性和客觀性(新華社,2020)。2021年,教育部等六部門(mén)聯(lián)合發(fā)布《關(guān)于推進(jìn)教育新型基礎(chǔ)設(shè)施建設(shè)構(gòu)建高質(zhì)量教育支撐體系的指導(dǎo)意見(jiàn)》,也強(qiáng)調(diào)要通過(guò)“人機(jī)共教、人機(jī)共育”提高教育教學(xué)質(zhì)量(中華人民共和國(guó)教育部,2021)。隨著人工智能技術(shù)的發(fā)展和教育數(shù)字化的深入,人工智能有望為教育評(píng)價(jià)帶來(lái)更高效、更客觀的策略方案,以彌補(bǔ)傳統(tǒng)評(píng)價(jià)手段的不足。例如,將自然語(yǔ)言處理、預(yù)測(cè)分析、語(yǔ)音識(shí)別等引入測(cè)評(píng),可以更全面、精準(zhǔn)地評(píng)估學(xué)生的學(xué)業(yè)表現(xiàn)和思維能力;教師基于智能測(cè)評(píng)的結(jié)果實(shí)施相應(yīng)的教學(xué)干預(yù),以更好地提供基于數(shù)據(jù)的有效反饋(況姍蕓等,2021)。
當(dāng)前,生成式人工智能在教育領(lǐng)域的應(yīng)用潛力被越來(lái)越多的教育研究者和從業(yè)者所重視(陳向東等,2023)。生成式人工智能作為一種具備智能化、個(gè)性化、便捷化等特性的教育工具,可以被用于情感智能整合、智能教學(xué)輔助、跨學(xué)科與跨文化支持等多種教育實(shí)踐場(chǎng)景,并展現(xiàn)出實(shí)時(shí)反饋和全面性評(píng)估的價(jià)值。同時(shí)教育研究者也需要全面審視生成式人工智能產(chǎn)品在教育評(píng)估中的潛在風(fēng)險(xiǎn),并確保其在教育場(chǎng)景下的公平應(yīng)用(王煒等,2024)。在此背景下,以ChatGPT為代表的生成式人工智能產(chǎn)品是否會(huì)對(duì)學(xué)生批判性思維能力的提升產(chǎn)生影響,引發(fā)了學(xué)界廣泛的關(guān)注與思考。有研究者認(rèn)為ChatGPT能夠促進(jìn)學(xué)生的批判性思維、閱讀、寫(xiě)作能力(王佑鎂等,2023)。同時(shí),教師可以通過(guò)優(yōu)化提問(wèn)設(shè)計(jì)來(lái)充分發(fā)揮ChatGPT應(yīng)用于教學(xué)評(píng)價(jià)與反饋的潛力(王麗等,2023)。然而,也有研究者指出ChatGPT可能會(huì)降低學(xué)生對(duì)信息的批判性分析和過(guò)濾能力,阻礙學(xué)生批判性思維能力的培養(yǎng)(Else,2023)?;诖?,如何將以ChatGPT為代表的生成式人工智能技術(shù)轉(zhuǎn)變?yōu)轵?qū)動(dòng)學(xué)生學(xué)習(xí)變革和思維能力培養(yǎng)的重要手段,已經(jīng)成為數(shù)字時(shí)代教育評(píng)價(jià)改革的熱點(diǎn)話(huà)題。
本研究通過(guò)梳理批判性思維測(cè)評(píng)的發(fā)展歷程,探討生成式人工智能在批判性思維測(cè)評(píng)中的方式轉(zhuǎn)變、內(nèi)容創(chuàng)造、場(chǎng)景應(yīng)用的可能性,構(gòu)建了ChatGPT賦能的批判性思維測(cè)評(píng)模型,并將其應(yīng)用于批判性思維評(píng)估實(shí)踐,以期推動(dòng)生成式人工智能在教育測(cè)評(píng)中的創(chuàng)新應(yīng)用,為批判性思維測(cè)評(píng)提供技術(shù)路線(xiàn)與實(shí)踐參考。
二、批判性思維測(cè)評(píng)的發(fā)展趨勢(shì)
作為21世紀(jì)學(xué)生必備的核心能力之一,批判性思維的培養(yǎng)已經(jīng)成為各國(guó)教育的重要目標(biāo)(Supena et al.,2021)。批判性思維最早由美國(guó)哲學(xué)家、教育家和心理學(xué)家杜威提出,本質(zhì)上是為了決定相信什么或做什么而進(jìn)行的合理的、反省性的思維(Ennis,1989)。對(duì)學(xué)生批判性思維能力的培養(yǎng)離不開(kāi)批判性思維測(cè)評(píng),隨著智能技術(shù)的發(fā)展與教育評(píng)價(jià)目標(biāo)的轉(zhuǎn)變,傳統(tǒng)測(cè)評(píng)工具的局限性日益凸顯(姜力銘等,2022)。對(duì)批判性思維測(cè)評(píng)發(fā)展趨勢(shì)的分析有助于對(duì)其進(jìn)行適應(yīng)性改進(jìn)。
傳統(tǒng)的批判性思維測(cè)評(píng)主要關(guān)注批判性思維技能,強(qiáng)調(diào)對(duì)推理演繹、論證分析等技巧的評(píng)估。如沃森—格拉澤批判性思維評(píng)估(Watson-Glaser Critical Thinking Appraisal)將批判性思維分為推斷、假設(shè)識(shí)別、演繹推理、解釋和論證評(píng)估5個(gè)維度(Watson et al.,1980)。相比結(jié)果取向的測(cè)評(píng)工具,也有一些批判性思維測(cè)評(píng)工具更聚焦于批判性思維的動(dòng)態(tài)過(guò)程。例如,Newman等人(1995)提出的批判性思維分析框架包含相關(guān)性、拓展性、合理性等10個(gè)指標(biāo);Ennis和Weir(1985)共同編制的《恩尼斯—韋爾批判性思維作文測(cè)驗(yàn)》著眼于評(píng)估被試者的要點(diǎn)把握、假設(shè)提出、推論能力、理由發(fā)現(xiàn)等能力,以及情緒性語(yǔ)言運(yùn)用等特質(zhì)。但從測(cè)評(píng)情境來(lái)看,傳統(tǒng)測(cè)評(píng)工具大多與情境無(wú)關(guān),鮮有基于真實(shí)情境的測(cè)評(píng)工具。
1.測(cè)評(píng)形式注重情境化
近年來(lái),對(duì)批判性思維的測(cè)評(píng)越來(lái)越強(qiáng)調(diào)情境性,測(cè)評(píng)題目的形式逐漸從封閉式向開(kāi)放式轉(zhuǎn)變。例如,Halpern(1998)提出的《Halpern批判性思維測(cè)試》,就是一種基于日常生活場(chǎng)景將批判性思維人格傾向和技能融合在一起的綜合測(cè)評(píng)。當(dāng)前,越來(lái)越多的基于真實(shí)問(wèn)題情境的測(cè)評(píng)工具不斷涌現(xiàn),能夠讓學(xué)生在真實(shí)的問(wèn)題情境中進(jìn)行思考,權(quán)衡各方利弊后作出判斷,從而反映更為真實(shí)、全面的批判性思維能力。例如,Zlatkin-Troitschanskaia等人(2019)強(qiáng)調(diào)批判性思維的整體性和分析方法的互補(bǔ)性,注重在構(gòu)建的現(xiàn)實(shí)生活情境中考查學(xué)生的批判性思維;Wang等人(2022)使用Toulmin模型開(kāi)發(fā)了一種基于游戲的交互式自動(dòng)化評(píng)估方法,學(xué)生通過(guò)在兩個(gè)真實(shí)的模擬故事中完成互動(dòng)任務(wù),并獲得批判性思維的分?jǐn)?shù);冷靜等人(2020b)基于問(wèn)題情境的批判性思維測(cè)評(píng),開(kāi)發(fā)了一款面向中小學(xué)生的批判性思維測(cè)評(píng)游戲——“星球歷險(xiǎn)記”。開(kāi)放性測(cè)評(píng)工具雖能夠較為全面地體現(xiàn)批判性思維能力,但其測(cè)評(píng)成本較高。因此,教育領(lǐng)域亟需更為全面且精準(zhǔn)的批判性思維測(cè)評(píng)工具。
2.生成式人工智能支持下的測(cè)評(píng)范式轉(zhuǎn)變
生成式人工智能能夠以自動(dòng)化的方式創(chuàng)造信息,滿(mǎn)足用戶(hù)個(gè)性化的需求(Du et al.,2023),使內(nèi)容生成過(guò)程越來(lái)越自動(dòng)化和智能化(蔣華林,2023)。ChatGPT作為生成式人工智能的典型代表,展現(xiàn)了高度擬人化的交互體驗(yàn)、強(qiáng)大的自主學(xué)習(xí)能力,并在增進(jìn)學(xué)生深度參與方面具有顯著特點(diǎn)(朱永新等,2023),為設(shè)計(jì)科學(xué)、可靠、客觀的批判性思維能力測(cè)評(píng)工具提供了新的思路。
(1)創(chuàng)新測(cè)評(píng)方式
基于生成式人工智能所具備的交互問(wèn)答和智能推薦等技術(shù)優(yōu)勢(shì),其支持下的批判性思維測(cè)評(píng)可實(shí)現(xiàn)以下三方面的創(chuàng)新。
一是實(shí)時(shí)反饋和精細(xì)指導(dǎo)。ChatGPT有較強(qiáng)的聯(lián)系上下文的能力,擅長(zhǎng)在與學(xué)生的交互中不斷分析其對(duì)批判性思維的理解和運(yùn)用。由于ChatGPT的交互問(wèn)答是基于規(guī)則推理而并非預(yù)設(shè)答案的簡(jiǎn)單匹配,學(xué)生需要根據(jù)自己的需求進(jìn)行追問(wèn),表露自身最真實(shí)的想法,使測(cè)評(píng)者從人機(jī)交互中獲得更為精細(xì)的可評(píng)估數(shù)據(jù)(沈成等,2023)。此外,以智能技術(shù)為基礎(chǔ)的教學(xué)反饋還可以提供個(gè)性化指導(dǎo),促進(jìn)學(xué)生反思改進(jìn),在有效提高反饋效率的同時(shí)對(duì)學(xué)生的認(rèn)知、情感等帶來(lái)積極的影響(于文軒等,2023)。
二是更為自然的評(píng)價(jià)過(guò)程。伴隨知識(shí)社會(huì)對(duì)人才批判性思維能力需求的日益增長(zhǎng),傳統(tǒng)的問(wèn)答和測(cè)試方式已難以滿(mǎn)足學(xué)生批判性思維測(cè)評(píng)的多元化評(píng)價(jià)指標(biāo)。ChatGPT具有的強(qiáng)大信息搜索與整理能力,能夠?yàn)閷W(xué)生的疑問(wèn)提供更豐富的答案(Aljanabi,2023)。特別是,很多生成式人工智能產(chǎn)品能夠以對(duì)話(huà)的形式為學(xué)生提供方法、資料和論述支持,以針對(duì)性反饋消除學(xué)生在知識(shí)背景上的障礙,彌合學(xué)生認(rèn)知水平與思維延伸之間的“鴻溝”,促使學(xué)生在探究模式下自由地進(jìn)行深層次的問(wèn)題剖析,更能全面地體現(xiàn)學(xué)生對(duì)問(wèn)題批判性解決的深度認(rèn)知加工過(guò)程。由此,在智能技術(shù)的推動(dòng)下,通過(guò)構(gòu)建明確具體的應(yīng)用測(cè)評(píng)場(chǎng)景,建立基于無(wú)打擾評(píng)價(jià)的測(cè)評(píng)實(shí)施框架,能夠保障內(nèi)隱批判性思維過(guò)程的可視化與可測(cè)量,進(jìn)而實(shí)現(xiàn)更為全面的測(cè)評(píng)。
三是生成式人工智能結(jié)合大數(shù)據(jù)技術(shù)有望全面刻畫(huà)批判性思維能力。教育測(cè)評(píng)技術(shù),如自適應(yīng)出題、智能推薦等,能夠有效提升測(cè)評(píng)精度和效率。在生成式人工智能產(chǎn)品支持下,教師還可以采用更加科學(xué)、客觀和直觀的評(píng)價(jià)方式,兼顧終結(jié)性評(píng)價(jià)與過(guò)程性評(píng)價(jià),通過(guò)對(duì)學(xué)生項(xiàng)目作業(yè)、角色扮演、實(shí)際場(chǎng)景模擬等數(shù)據(jù)的監(jiān)測(cè)、挖掘和分析,更好地了解學(xué)生的學(xué)習(xí)過(guò)程和效果(張峰等,2023)。例如,可以通過(guò)創(chuàng)設(shè)一系列真實(shí)的問(wèn)題情境,讓學(xué)生在多學(xué)科領(lǐng)域中對(duì)知識(shí)和信息進(jìn)行鑒別、分析和綜合評(píng)估,最終形成自己的理解和判斷。除此之外,生成式人工智能技術(shù)不僅能夠識(shí)別學(xué)生的思維偏差和錯(cuò)誤,還有能力生成詳細(xì)的解答和分析,從而更深入地梳理復(fù)雜思維,幫助教育者更好地了解學(xué)生的需求,制定更有針對(duì)性的教學(xué)策略。
(2)生成多樣化測(cè)評(píng)內(nèi)容
當(dāng)前,生成式人工智能技術(shù)能夠理解并分析復(fù)雜的語(yǔ)言結(jié)構(gòu),已具備生成文本、圖像、音頻、視頻、3D模型等多種模態(tài)內(nèi)容的能力(萬(wàn)力勇等,2023)。同時(shí),隨著生成式人工智能技術(shù)不斷地拓展知識(shí)邊界,其具備的海量知識(shí)將遷移到教育測(cè)評(píng)領(lǐng)域,強(qiáng)化批判性思維測(cè)評(píng)的深度。將ChatGPT有效地引入教育測(cè)評(píng),除了能夠突破傳統(tǒng)測(cè)評(píng)的局限性以及革新測(cè)評(píng)內(nèi)容,還能幫助學(xué)生在各個(gè)學(xué)科領(lǐng)域乃至跨學(xué)科領(lǐng)域中將課程知識(shí)與現(xiàn)實(shí)情境相結(jié)合,運(yùn)用多學(xué)科知識(shí)與方法解決問(wèn)題,進(jìn)而幫助研究者更加準(zhǔn)確、有效地評(píng)估學(xué)生的批判性思維能力。
(3)衍生多功能應(yīng)用場(chǎng)景
相比傳統(tǒng)的測(cè)評(píng)手段,生成式人工智能技術(shù)有助于診斷學(xué)生思維發(fā)展水平的現(xiàn)狀,能在多個(gè)測(cè)評(píng)場(chǎng)景下為個(gè)體和組織發(fā)展提供重要的支持。一是作為智能化教育輔助工具。在寫(xiě)作場(chǎng)景下,生成式人工智能可以為學(xué)生提供實(shí)時(shí)、個(gè)性化的反饋,不僅涵蓋學(xué)生語(yǔ)法和拼寫(xiě)錯(cuò)誤識(shí)別,還可包括批判性思維的要素提示。二是作為情感智能整合工具。生成式人工智能產(chǎn)品具備情感智能的功能,可以分析學(xué)生的情感狀態(tài),有助于教育者更好地捕捉學(xué)生的情感狀況并提供針對(duì)性的支持,以促進(jìn)批判性思維的穩(wěn)步發(fā)展。三是作為跨學(xué)科和跨文化支持的工具。生成式人工智能能夠適應(yīng)不同領(lǐng)域和不同種類(lèi)的文化背景,這一突破將大力推動(dòng)批判性思維教育的普及化發(fā)展。
三、批判性思維測(cè)評(píng)模型構(gòu)建
本研究以測(cè)評(píng)目標(biāo)為邏輯起點(diǎn),通過(guò)融入ChatGPT作為測(cè)評(píng)工具,旨在建立一個(gè)科學(xué)、合理的批判性思維測(cè)評(píng)模型(如圖1所示)。在評(píng)估導(dǎo)向方面,本測(cè)評(píng)模型通過(guò)對(duì)學(xué)生的批判性思維水平與思維傾向表現(xiàn)進(jìn)行測(cè)量與分析,并基于測(cè)評(píng)結(jié)果培養(yǎng)與提升他們的思維能力。在測(cè)評(píng)內(nèi)容方面,明確測(cè)評(píng)維度和可量化的批判性思維能力測(cè)評(píng)指標(biāo),并設(shè)計(jì)批判性思維測(cè)試題,明確測(cè)評(píng)內(nèi)容。從學(xué)習(xí)者評(píng)價(jià)的角度看,除了評(píng)價(jià)目的、評(píng)價(jià)內(nèi)容等方面,基于ChatGPT開(kāi)展的批判性思維測(cè)評(píng)還需要特別考慮兩類(lèi)內(nèi)容的設(shè)計(jì),即提示語(yǔ)設(shè)計(jì)和測(cè)評(píng)工具設(shè)計(jì)。
1.提示語(yǔ)設(shè)計(jì)
學(xué)術(shù)界普遍認(rèn)為,良好的提問(wèn)設(shè)計(jì)有助于利用ChatGPT生成高質(zhì)量、可靠的反饋,并適應(yīng)特定的任務(wù)場(chǎng)景(Liu et al.,2023)。當(dāng)前,提示工程(Prompt Engineering)已成為與大語(yǔ)言模型(如ChatGPT)進(jìn)行有效對(duì)話(huà)不可或缺的交互方式。如何充分利用ChatGPT的潛力,理解和掌握提示工程的技術(shù)至關(guān)重要,設(shè)計(jì)和優(yōu)化輸入提示可提升大語(yǔ)言模型響應(yīng)效能(Giray,2023)。本研究參考Ekin(2023)提出的有效提示工程策略(即任務(wù)約束—清晰說(shuō)明—實(shí)驗(yàn)嘗試),將寫(xiě)作任務(wù)作為其應(yīng)用場(chǎng)景。為增強(qiáng)生成內(nèi)容的相關(guān)性和深度,本研究為ChatGPT指定具體的角色來(lái)豐富其輸出,經(jīng)過(guò)廣泛的實(shí)驗(yàn)測(cè)試與不同類(lèi)型問(wèn)題比較,最終根據(jù)以下步驟展開(kāi)提示語(yǔ)設(shè)計(jì):(1)提供相關(guān)材料。將相關(guān)材料提供給ChatGPT,并使用提示詞引導(dǎo)ChatGPT僅回答與文本材料有關(guān)事實(shí)性知識(shí)。(2)制定交互原則。設(shè)計(jì)簡(jiǎn)單、合理的提示鏈,實(shí)現(xiàn)互動(dòng)內(nèi)容與測(cè)試情境材料的強(qiáng)相關(guān),進(jìn)而提供知識(shí)層面問(wèn)題的解決方案。(3)選取測(cè)評(píng)量規(guī)。通過(guò)簡(jiǎn)潔清晰的方式組織量規(guī),以確保ChatGPT能夠理解并有效應(yīng)用。(4)輸入樣例庫(kù)。根據(jù)Hattie等人(2007)提出的有效反饋原則,讓ChatGPT扮演批判思維領(lǐng)域測(cè)評(píng)專(zhuān)家,提供具體的測(cè)評(píng)任務(wù)的范圍和要求,以及高質(zhì)量的點(diǎn)評(píng)范例,說(shuō)明ChatGPT應(yīng)輸出的評(píng)分與評(píng)語(yǔ)格式,從而實(shí)現(xiàn)有效的評(píng)估和反饋。
2.測(cè)評(píng)工具設(shè)計(jì)
在測(cè)評(píng)工具設(shè)計(jì)方面,本研究初步設(shè)計(jì)了批判性思維智能測(cè)評(píng)平臺(tái)。此平臺(tái)引入生成式人工智能(ChatGPT)作為思維測(cè)評(píng)輔助工具,本質(zhì)上是為了發(fā)揮生成式人工智能產(chǎn)品在文本理解和互動(dòng)反饋方面的優(yōu)勢(shì),識(shí)別學(xué)生的批判性思維水平,進(jìn)而為培養(yǎng)學(xué)生的批判性思維能力提供技術(shù)支撐。測(cè)評(píng)過(guò)程中,學(xué)生根據(jù)給定的信息,評(píng)估不同觀點(diǎn),為證據(jù)尋求可靠支持,最終作出判斷與評(píng)價(jià)。因此,在本研究的測(cè)評(píng)中,批判性思維測(cè)評(píng)不再僅僅關(guān)注結(jié)果,而是將批判性思維看作是一個(gè)連續(xù)、動(dòng)態(tài)的交互過(guò)程。綜上,本研究擬進(jìn)一步探究以下兩個(gè)方面:
一是根據(jù)ChatGPT支持下的批判性思維測(cè)評(píng)結(jié)果,判斷學(xué)生的批判性思維能力是否有所提高。
二是ChatGPT在不同主題寫(xiě)作任務(wù)下的測(cè)評(píng)性能(精確度)是否存在差異。
四、實(shí)驗(yàn)設(shè)計(jì)
1.研究對(duì)象和工具
本研究以華東某高校修讀《專(zhuān)業(yè)英語(yǔ)文獻(xiàn)精讀》課程的31名本科生為研究對(duì)象,該課程中設(shè)置了三個(gè)主題(包括說(shuō)明利弊類(lèi)、圖文情境類(lèi)以及對(duì)立觀點(diǎn)類(lèi))的寫(xiě)作任務(wù)。這些學(xué)生使用基于ChatGPT的批判性思維測(cè)評(píng)平臺(tái)進(jìn)行在線(xiàn)閱讀和寫(xiě)作,共產(chǎn)生186份論證寫(xiě)作文本,共計(jì)約5.6萬(wàn)詞。
2.實(shí)驗(yàn)環(huán)境
本研究的批判性思維測(cè)評(píng)平臺(tái)基于開(kāi)源的Moodle平臺(tái)進(jìn)行開(kāi)發(fā),將測(cè)評(píng)內(nèi)容文本作為學(xué)生與ChatGPT交互的切入點(diǎn),融合基本閱讀寫(xiě)作功能和大語(yǔ)言模型的實(shí)時(shí)問(wèn)答,實(shí)現(xiàn)基于ChatGPT的實(shí)時(shí)反饋與評(píng)價(jià)。在該平臺(tái)上,教師可以設(shè)置相應(yīng)的寫(xiě)作任務(wù),學(xué)生可以進(jìn)行文本閱讀標(biāo)注、使用翻譯功能以及在寫(xiě)作的過(guò)程中與ChatGPT實(shí)時(shí)互動(dòng)。所有的在線(xiàn)數(shù)據(jù)都可以從后臺(tái)導(dǎo)出并進(jìn)行分析。
本研究中教師采用了雅思寫(xiě)作評(píng)價(jià)量規(guī)(包括任務(wù)響應(yīng)、連貫性與銜接、詞匯豐富性以及語(yǔ)法范疇與準(zhǔn)確性)來(lái)衡量學(xué)生的寫(xiě)作質(zhì)量。此量規(guī)綜合考慮了文章的多個(gè)關(guān)鍵方面,以確保全面而準(zhǔn)確的評(píng)估,即不僅關(guān)注學(xué)生表達(dá)能力的各方面,也強(qiáng)調(diào)了批判性思維和論點(diǎn)闡述的重要性。此外,本研究參照文秋芳等人(2009)構(gòu)建的作文測(cè)評(píng)量規(guī)來(lái)分析學(xué)生的批判性思維論證能力,由此構(gòu)建出批判性思維能力評(píng)測(cè)量規(guī)(見(jiàn)表1)。該量規(guī)包含5個(gè)維度的批判性思維核心能力:闡釋、分析、評(píng)估、推斷和自我調(diào)節(jié),每一維度又可分為5個(gè)等級(jí)(見(jiàn)表1)。為提高評(píng)分的準(zhǔn)確性和可靠性,本實(shí)驗(yàn)向ChatGPT提供了詳盡的批判性思維能力測(cè)評(píng)量規(guī)描述、高質(zhì)量的閱讀材料和作文范例,依據(jù)提示詞設(shè)計(jì)進(jìn)行輸入,并預(yù)先測(cè)試了ChatGPT的有效性。
3.實(shí)驗(yàn)流程
本研究依托批判性思維測(cè)評(píng)系統(tǒng)展開(kāi)實(shí)驗(yàn),圖2展示了本實(shí)驗(yàn)的具體實(shí)施過(guò)程。課程中學(xué)生共需要完成6個(gè)寫(xiě)作任務(wù)(每一類(lèi)別有2個(gè)寫(xiě)作任務(wù))。在課程之初,教師會(huì)向?qū)W生解釋批判性思維的定義以及作文的雙重評(píng)分機(jī)制。開(kāi)始寫(xiě)作之前,學(xué)生需要先在線(xiàn)閱讀長(zhǎng)文本材料,并可以利用ChatGPT進(jìn)行提問(wèn),同時(shí)可以質(zhì)疑信息來(lái)源、探索不同觀點(diǎn)、總結(jié)和歸納,在此基礎(chǔ)上進(jìn)行論證式文本寫(xiě)作,ChatGPT會(huì)在限定范圍內(nèi)合理反饋,學(xué)生可以隨時(shí)根據(jù)反饋修改文章內(nèi)容,最終提交平臺(tái)。
隨后,本研究采用雙重評(píng)分機(jī)制進(jìn)行測(cè)評(píng),即由兩位經(jīng)驗(yàn)豐富的教師對(duì)雅思寫(xiě)作評(píng)價(jià)量規(guī)和批判性思維測(cè)評(píng)量規(guī)進(jìn)行充分結(jié)合和校準(zhǔn)。雅思寫(xiě)作評(píng)價(jià)量規(guī)主要用于評(píng)估作文的語(yǔ)言表達(dá)能力,包括任務(wù)響應(yīng)、連貫性與銜接、詞匯豐富性及語(yǔ)法準(zhǔn)確性、論證能力等方面。其中,論證能力維度側(cè)重評(píng)估學(xué)生在闡釋、分析、評(píng)估、推斷和自我調(diào)節(jié)等關(guān)鍵批判性思維維度上的表現(xiàn)。兩位英語(yǔ)教師按照批判性思維能力測(cè)評(píng)量規(guī)(見(jiàn)表1)分別對(duì)25%的文章進(jìn)行論證維度的評(píng)分,通過(guò)充分討論和協(xié)商,最終一致性系數(shù)達(dá)到0.88,接著由其中一位教師完成剩余所有文章的評(píng)分。同時(shí),本研究利用ChatGPT基于不同的評(píng)價(jià)維度對(duì)所有文章進(jìn)行獨(dú)立評(píng)分。根據(jù)闡釋、分析、自我調(diào)節(jié)等5個(gè)維度進(jìn)行分類(lèi)統(tǒng)計(jì),計(jì)算不同主題下ChatGPT對(duì)于論證文本測(cè)評(píng)的精確度和召回率。本研究以專(zhuān)家測(cè)評(píng)打分評(píng)級(jí)結(jié)果為標(biāo)準(zhǔn),用ChatGPT正確測(cè)評(píng)出的專(zhuān)家打分項(xiàng)數(shù)除以ChatGPT測(cè)評(píng)的總項(xiàng)數(shù)計(jì)算精確度,用ChatGPT正確識(shí)別出的專(zhuān)家打分項(xiàng)數(shù)除以專(zhuān)家打分總項(xiàng)數(shù)計(jì)算召回率。最后,隨機(jī)抽取13位學(xué)生進(jìn)行半結(jié)構(gòu)化訪(fǎng)談,訪(fǎng)談內(nèi)容包含測(cè)評(píng)體驗(yàn)、ChatGPT提供的支持以及受訪(fǎng)者對(duì)測(cè)評(píng)結(jié)果的認(rèn)識(shí)三個(gè)方面。
五、數(shù)據(jù)分析與發(fā)現(xiàn)
1.學(xué)生的批判性思維測(cè)評(píng)結(jié)果前后測(cè)比較
本研究基于ChatGPT對(duì)31名高校學(xué)生的作文(共6次寫(xiě)作任務(wù))進(jìn)行分析,有效個(gè)案數(shù)為186個(gè),并對(duì)測(cè)評(píng)結(jié)果進(jìn)行了描述性統(tǒng)計(jì)(見(jiàn)表2)與配對(duì)樣本T檢驗(yàn)(見(jiàn)表3)。如表2所示,百分制標(biāo)準(zhǔn)下ChatGPT評(píng)分顯示學(xué)生批判性思維的整體表現(xiàn)處于中等偏上水平(M=62.50)。而ChatGPT評(píng)分存在一定的變異性(SD=9.47),表明學(xué)生之間在批判性思維能力上存在差異。從批判性思維的5個(gè)測(cè)評(píng)維度可以發(fā)現(xiàn),學(xué)生的批判性思維各維度的發(fā)展并不均衡,盡管學(xué)生在闡釋維度上的平均評(píng)分最高(M=14.04),這表明他們?cè)诮忉層^點(diǎn)方面表現(xiàn)較好,但在評(píng)估(M=11.75)和自我調(diào)節(jié)(M=11.99)等維度上的表現(xiàn)則相對(duì)較弱。圖3的箱線(xiàn)圖展示了三類(lèi)寫(xiě)作主題下學(xué)生6次作文測(cè)評(píng)任務(wù)的ChatGPT評(píng)分結(jié)果,展示了學(xué)生在批判性思維寫(xiě)作測(cè)試中成績(jī)的差異度。表3中的T檢驗(yàn)數(shù)據(jù)結(jié)果表明,每一類(lèi)寫(xiě)作主題中學(xué)生的第二次得分均高于第一次,且存在顯著差異(p<0.05)。其中,學(xué)生作文得分在圖文情境類(lèi)中的前、后測(cè)差異最顯著(MD=-9.58,t=-4.628,p<0.001)。
2.ChatGPT在不同主題任務(wù)中測(cè)評(píng)精準(zhǔn)度比較
基于批判性思維能力測(cè)評(píng)量規(guī),ChatGPT對(duì)于學(xué)生寫(xiě)作論證測(cè)評(píng)得分的精確度如表4所示。綜合各類(lèi)寫(xiě)作任務(wù)來(lái)看,ChatGPT的總體評(píng)分精確度(87.04%)與召回率(84.41%)均較高。這一結(jié)果表明,ChatGPT作為測(cè)評(píng)輔助工具,在評(píng)估學(xué)生批判性思維能力方面表現(xiàn)出較高的準(zhǔn)確性和全面性。
具體而言,在不同主題的測(cè)評(píng)任務(wù)中存在細(xì)微的精確度差異。在評(píng)估涉及明確立場(chǎng)和論點(diǎn)的“說(shuō)明利弊類(lèi)”寫(xiě)作任務(wù)中,ChatGPT展現(xiàn)出了較高的評(píng)分精確度(89.98%),可見(jiàn)ChatGPT在捕捉和評(píng)估具有直接性和明確性的批判性思維要素方面體現(xiàn)出高效性。“對(duì)立觀點(diǎn)類(lèi)”寫(xiě)作任務(wù)的評(píng)分精確度(84.87%)次之,這表明ChatGPT在評(píng)估學(xué)生對(duì)復(fù)雜論證的理解和評(píng)價(jià)方面具有一定的效能,但在處理高度復(fù)雜和多維度的批判性思維時(shí),其對(duì)論證內(nèi)容測(cè)評(píng)的精確度還有待提高。對(duì)于“圖文情境類(lèi)”寫(xiě)作任務(wù),ChatGPT的評(píng)分精確度(84.01%)相對(duì)稍低,這一結(jié)果表明ChatGPT在處理復(fù)雜認(rèn)知任務(wù)時(shí)存在潛在局限性,尤其是在需要深層次數(shù)據(jù)解釋和推理的情境中??梢?jiàn),ChatGPT可以作為一個(gè)有效的測(cè)評(píng)工具,輔助教師在批判性思維教學(xué)和寫(xiě)作教學(xué)中評(píng)估學(xué)生的思維水平。
從測(cè)評(píng)的召回率來(lái)看,“說(shuō)明利弊類(lèi)”寫(xiě)作任務(wù)的測(cè)評(píng)召回率最高(88.71%),這一任務(wù)要求學(xué)生明確地闡述一個(gè)觀點(diǎn)或立場(chǎng)的正反兩面,ChatGPT在這類(lèi)任務(wù)中的高召回率表明,它能夠有效地捕捉到學(xué)生在論證過(guò)程中的關(guān)鍵點(diǎn),包括對(duì)利弊的分析、證據(jù)的列舉以及結(jié)論的合理性。這可能是因?yàn)檫@類(lèi)任務(wù)的結(jié)構(gòu)相對(duì)明確,學(xué)生在表達(dá)時(shí)更容易遵循一定的邏輯結(jié)構(gòu),從而使ChatGPT能夠較為準(zhǔn)確地識(shí)別和評(píng)價(jià)學(xué)生的批判性思維。召回率排在其后的是“圖文情境類(lèi)”寫(xiě)作任務(wù)(82.26%)和“對(duì)立觀點(diǎn)類(lèi)”寫(xiě)作任務(wù)(80.65%),這兩類(lèi)任務(wù)通常涉及對(duì)多個(gè)觀點(diǎn)、圖表數(shù)據(jù)的深入分析和比較,這意味著學(xué)生可能需要進(jìn)行更復(fù)雜的邏輯推理和解釋。因此從召回率的差異來(lái)看,ChatGPT在全面捕捉批判性思維要素方面仍有提升空間。
六、研究結(jié)論與展望
1.研究結(jié)論
通過(guò)比較不同主題任務(wù)下ChatGPT對(duì)于學(xué)生論證寫(xiě)作中批判性思維水平的測(cè)評(píng)結(jié)果,分析以ChatGPT為代表的生成式人工智能技術(shù)在批判性思維能力測(cè)評(píng)中的應(yīng)用潛能,本研究得出以下結(jié)論:
第一,ChatGPT作為應(yīng)用批判性思維開(kāi)展論證寫(xiě)作的輔助工具,能夠有效評(píng)估學(xué)生論證語(yǔ)言表達(dá)和寫(xiě)作的準(zhǔn)確性,但在評(píng)估學(xué)生邏輯推理和論證深度方面存在局限。本研究通過(guò)應(yīng)用ChatGPT工具支持學(xué)生進(jìn)行論證寫(xiě)作及修改,學(xué)生的批判性思維能力后測(cè)結(jié)果相較于前測(cè)得到顯著提升。以上實(shí)驗(yàn)結(jié)果驗(yàn)證了持續(xù)使用大語(yǔ)言模型輔助學(xué)生論證寫(xiě)作能夠有效提升他們的批判性思維能力。對(duì)學(xué)生的訪(fǎng)談分析發(fā)現(xiàn),學(xué)生對(duì)使用ChatGPT作為測(cè)評(píng)工具的接受度總體上是積極的。多數(shù)受訪(fǎng)者表示,ChatGPT作為論證寫(xiě)作測(cè)評(píng)工具,主要為學(xué)生提供了語(yǔ)法和用詞、修改建議以及評(píng)價(jià)反饋三方面的支持。然而,也有受訪(fǎng)者反映,ChatGPT在識(shí)別觀點(diǎn)表達(dá)和邏輯結(jié)構(gòu)方面的作用有限。后續(xù)研究如能通過(guò)使用提示技術(shù)為大語(yǔ)言模型提供具體的邏輯思維指令,將會(huì)進(jìn)一步優(yōu)化測(cè)評(píng)效果。
第二,ChatGPT在批判性思維測(cè)評(píng)中表現(xiàn)較好,但是測(cè)評(píng)精確度在不同主題寫(xiě)作任務(wù)中存在差異。因此,預(yù)先考察ChatGPT在不同主題任務(wù)下的適應(yīng)性和限制性,有助于確保ChatGPT的測(cè)評(píng)準(zhǔn)確性和有效性。首先,ChatGPT在評(píng)估學(xué)生的批判性思維能力方面顯示出了較高的效能。尤其是在“說(shuō)明利弊類(lèi)”寫(xiě)作任務(wù)中,ChatGPT的評(píng)分精確度和召回率均超過(guò)85%,這表明在處理結(jié)構(gòu)較為明確的寫(xiě)作任務(wù)時(shí),經(jīng)提示詞下達(dá)指令,ChatGPT能夠有效地捕捉和評(píng)估學(xué)生的批判性思維要素,展現(xiàn)出與專(zhuān)家評(píng)價(jià)相近的效果。其次,在處理“圖文情境類(lèi)”與“對(duì)立觀點(diǎn)類(lèi)”寫(xiě)作任務(wù)時(shí),ChatGPT的評(píng)分精確度稍低于“說(shuō)明利弊類(lèi)”任務(wù),這說(shuō)明在相同提示詞設(shè)計(jì)條件下,處理需要深層次分析和推理的任務(wù)時(shí),ChatGPT還存在局限性,其在復(fù)雜認(rèn)知任務(wù)處理上仍有提升空間。不可忽視的是,ChatGPT賦能的批判性思維測(cè)評(píng)在不同主題任務(wù)下存在差異,也體現(xiàn)出ChatGPT除了依賴(lài)于提示詞設(shè)置,其在數(shù)據(jù)偏差、對(duì)于特定上下文的含義或復(fù)雜圖表中的細(xì)節(jié)理解仍存在問(wèn)題,甚至間或出現(xiàn)知識(shí)盲點(diǎn)或常識(shí)性謬誤,因而生成錯(cuò)誤的測(cè)評(píng)反饋(楊俊蕾,2023)。
2.研究啟示
本研究構(gòu)建了ChatGPT賦能的批判性思維測(cè)評(píng)模型,將ChatGPT作為寫(xiě)作輔助工具以及批判性思維評(píng)價(jià)工具,基于實(shí)驗(yàn)發(fā)現(xiàn)得出如下啟示:
(1)ChatGPT賦能個(gè)性化教育評(píng)價(jià)
在技術(shù)迭代與社會(huì)變革進(jìn)程中,生成式人工智能技術(shù)與教育評(píng)價(jià)的融合將進(jìn)一步促進(jìn)教、學(xué)、評(píng)應(yīng)用生態(tài)的全方位升級(jí)(張絨,2023)。研究者需要促進(jìn)以ChatGPT為代表的生成式人工智能技術(shù)與現(xiàn)有教育教學(xué)平臺(tái)深度融合,形成適用于多個(gè)教育場(chǎng)景的測(cè)評(píng)工具。首先,ChatGPT作為結(jié)果性測(cè)評(píng)工具,能夠基于對(duì)話(huà)數(shù)據(jù)和學(xué)習(xí)數(shù)據(jù),快速處理大量文本,減少人為偏差,提供更加完善、精確的個(gè)人數(shù)字畫(huà)像,增強(qiáng)評(píng)價(jià)的客觀性和公正性(楊宗凱等,2023)。其次,ChatGPT作為過(guò)程性測(cè)評(píng)工具,可以根據(jù)不同場(chǎng)景下學(xué)生的回答和表現(xiàn),提供實(shí)時(shí)的學(xué)習(xí)反饋和評(píng)價(jià),幫助學(xué)生了解自身學(xué)習(xí)進(jìn)展及思維,并進(jìn)行反思和改進(jìn),調(diào)整學(xué)習(xí)進(jìn)度,進(jìn)而優(yōu)化個(gè)性化學(xué)習(xí)體驗(yàn)??偠灾?,基于生成式人工智能技術(shù)支持批判性思維測(cè)評(píng)將進(jìn)一步改變?cè)性u(píng)價(jià)方式,激勵(lì)學(xué)生進(jìn)行自主學(xué)習(xí),并使他們學(xué)會(huì)如何在理解和應(yīng)用知識(shí)的同時(shí)解決現(xiàn)實(shí)問(wèn)題,進(jìn)而培養(yǎng)其創(chuàng)新思維和獨(dú)立解決問(wèn)題的能力。
(2)提升ChatGPT的適應(yīng)性與情感智能
首先,未來(lái)應(yīng)鼓勵(lì)多方參與共同推進(jìn)ChatGPT語(yǔ)境感知和深度推理能力的研發(fā)。實(shí)證研究下的生成式人工智能產(chǎn)品在復(fù)雜語(yǔ)境中理解和推理能力仍存在不足,有可能是受到模型訓(xùn)練數(shù)據(jù)的有限性、對(duì)深層邏輯和復(fù)雜關(guān)系的理解不足、學(xué)生批判性思維運(yùn)用等因素影響(令小雄等,2023)?;诖耍珻hatGPT評(píng)價(jià)性能的提升不僅需要?jiǎng)?chuàng)設(shè)具體的理解語(yǔ)境,增強(qiáng)深度推理能力,還可以從評(píng)估指標(biāo)的精細(xì)化、知識(shí)庫(kù)的豐富化以及領(lǐng)域?qū)<业纳疃葏⑴c等方面進(jìn)行深入探究,不斷優(yōu)化生成式人工智能產(chǎn)品,提高其測(cè)評(píng)適應(yīng)性和準(zhǔn)確性。其次,研究者應(yīng)努力探索ChatGPT的潛能以實(shí)現(xiàn)情感智能。批判性思維不僅涉及思維技能,還涉及思維傾向等情感因素(Facione et al.,1994)。因此,ChatGPT賦能的批判性思維測(cè)評(píng)應(yīng)引入情感分析技術(shù),逐步實(shí)現(xiàn)批判性思維傾向的識(shí)別等情感智能。一方面,可深化ChatGPT與學(xué)生之間的良性互動(dòng),如適時(shí)鼓勵(lì)用戶(hù)進(jìn)行自我反思與分析,有助于全面評(píng)估學(xué)生的批判性思維水平表現(xiàn)。另一方面,應(yīng)盡可能理解學(xué)生的情感背景,如是否存在過(guò)度偏見(jiàn)或情感強(qiáng)度,以便于教師及時(shí)地介入批判性思維測(cè)評(píng)過(guò)程。如此,基于生成式人工智能技術(shù)的批判性思維測(cè)評(píng)才能擺脫傳統(tǒng)批判性思維測(cè)評(píng)困境。此外,教師群體應(yīng)該加強(qiáng)倫理和公平性考量。本研究建議引入公平性審查和倫理指南,增強(qiáng)ChatGPT在評(píng)估過(guò)程中的透明度,保證評(píng)估的公平性和合規(guī)性;同時(shí),教師應(yīng)當(dāng)積極開(kāi)展倫理教育,引導(dǎo)學(xué)生在使用ChatGPT過(guò)程中能夠遵守倫理準(zhǔn)則,促使其成為更具信任度和教育成效的批判性思維測(cè)評(píng)工具,而不是代替學(xué)生思考的工具。
本研究聚焦于構(gòu)建ChatGPT支持下的批判性思維測(cè)評(píng)模型,并基于測(cè)評(píng)模型開(kāi)展不同主題下的大學(xué)生批判性思維測(cè)評(píng)。由于批判性思維大規(guī)模測(cè)試的時(shí)間成本、分析復(fù)雜性等,實(shí)驗(yàn)主要集中在批判性思維測(cè)評(píng)的可行性評(píng)估,因此本研究還存在一定的局限性:一是研究樣本數(shù)量較少,未來(lái)研究可以進(jìn)一步通過(guò)準(zhǔn)實(shí)驗(yàn)設(shè)計(jì)、擴(kuò)大樣本量,增加不同學(xué)科、不同文化背景和不同教育水平的被試以增強(qiáng)研究的普遍性,全面評(píng)估生成式人工智能技術(shù)產(chǎn)品在不同教學(xué)環(huán)境中的適用性。二是測(cè)評(píng)平臺(tái)中人機(jī)交互Pw6K6ptJjThS8NY3Nkxby75+1HVl2/mZjl0Xloaytvk=的對(duì)話(huà)尚未展開(kāi)深度分析,后續(xù)研究可以依托自動(dòng)化話(huà)語(yǔ)編碼與分析技術(shù)等,研究生成式人工智能技術(shù)在教育測(cè)評(píng)中的長(zhǎng)期影響,進(jìn)一步挖掘其在測(cè)評(píng)場(chǎng)景的潛在效益。
參考文獻(xiàn):
[1]陳向東,褚樂(lè)陽(yáng),王浩等(2023).教育數(shù)字化轉(zhuǎn)型的技術(shù)預(yù)見(jiàn):基于AIGC的行動(dòng)框架[J].遠(yuǎn)程教育雜志,41(2):13-24.
[2]方中雄,劉繼青(2023).論習(xí)近平關(guān)于“人才自主培養(yǎng)”重要論斷的生成邏輯、理論內(nèi)涵和實(shí)踐指向[J].中國(guó)教育學(xué)刊,(5):1-8,69.
[3]姜力銘,劉玉杰,駱?lè)剑?022).基于真實(shí)問(wèn)題情境的批判性思維測(cè)評(píng):現(xiàn)狀與挑戰(zhàn)[J].中國(guó)遠(yuǎn)程教育,(12):58-67,77,83.
[4]蔣華林(2023).人工智能聊天機(jī)器人對(duì)科研成果與人才評(píng)價(jià)的影響研究——基于ChatGPT、Microsoft Bing視角分析[J].重慶大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),29(2):97-110.
[5]況姍蕓,藍(lán)琰,何敏等(2021).學(xué)業(yè)智能測(cè)評(píng):現(xiàn)狀和趨勢(shì)[J].教育信息技術(shù),(Z2):8-14.
[6]冷靜,路曉旭(2020a).批判性思維真的可教嗎?——基于79篇實(shí)驗(yàn)或準(zhǔn)實(shí)驗(yàn)研究的元分析[J].開(kāi)放教育研究,26(6):110-118.
[7]冷靜,路曉旭(2020b).題庫(kù)型游戲評(píng)測(cè)批判性思維能力研究[J].開(kāi)放教育研究,26(1):82-89.
[8]令小雄,王鼎民,袁健(2023).ChatGPT爆火后關(guān)于科技倫理及學(xué)術(shù)倫理的冷思考[J].新疆師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),44(4):123-136.
[9]沈成,柏毅(2023).大語(yǔ)言模型在小學(xué)生計(jì)算思維評(píng)測(cè)中的應(yīng)用——以ChatGPT為例[J].中小學(xué)數(shù)字化教學(xué),(6):25-28.
[10]萬(wàn)力勇,杜靜,熊若欣(2023).人機(jī)共創(chuàng):基于AIGC的數(shù)字化教育資源開(kāi)發(fā)新范式[J].現(xiàn)代遠(yuǎn)程教育研究,35(5):12-21.
[11]王麗,李艷,陳新亞等(2023).ChatGPT支持的學(xué)生論證內(nèi)容評(píng)價(jià)與反饋——基于兩種提問(wèn)設(shè)計(jì)的實(shí)證比較[J].現(xiàn)代遠(yuǎn)程教育研究,35(4):83-91.
[12]王煒,趙帥,黃慕雄(2024).生成式人工智能教育創(chuàng)新應(yīng)用的人本主義追求——對(duì)UNESCO《教育與研究領(lǐng)域生成式人工智能指南》的解讀[J].現(xiàn)代遠(yuǎn)程教育研究,36(1):3-11.
[13]王佑鎂,王旦,梁煒怡等(2023).“阿拉丁神燈”還是“潘多拉魔盒”:ChatGPT教育應(yīng)用的潛能與風(fēng)險(xiǎn)[J].現(xiàn)代遠(yuǎn)程教育研究,35(2):48-56.
[14]文秋芳,王建卿,趙彩然等(2009).構(gòu)建我國(guó)外語(yǔ)類(lèi)大學(xué)生思辨能力量具的理論框架[J].外語(yǔ)界,(1):37-43.
[15]新華社(2020).中共中央 國(guó)務(wù)院印發(fā)《深化新時(shí)代教育評(píng)價(jià)改革總體方案》[EB/OL].[2023-12-20].https://www.gov.cn/zhengce/2020-10/13/content_5551032.htm.
[16]楊俊蕾(2023).ChatGPT:生成式AI對(duì)弈“蘇格拉底之問(wèn)”[J]. 上海師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 52(2):14-21.
[17]楊宗凱,王俊,吳砥等(2023).ChatGPT/生成式人工智能對(duì)教育的影響探析及應(yīng)對(duì)策略[J].華東師范大學(xué)學(xué)報(bào)(教育科學(xué)版),41(7):26-35.
[18]于文軒,馬亮,王佃利等(2023).“新一代人工智能技術(shù)ChatGPT的應(yīng)用與規(guī)制”筆談[J].廣西師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),59(2):28-53.
[19]張峰,陳瑋(2023).ChatGPT與高等教育:人工智能如何驅(qū)動(dòng)學(xué)習(xí)變革[J].重慶理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)),37(5):26-33.
[20]張絨(2023).生成式人工智能技術(shù)對(duì)教育領(lǐng)域的影響——關(guān)于ChatGPT的專(zhuān)訪(fǎng)[J].電化教育研究,44(2):5-14.
[21]中華人民共和國(guó)教育部(2021).教育部等六部門(mén)關(guān)于推進(jìn)教育新型基礎(chǔ)設(shè)施建設(shè)構(gòu)建高質(zhì)量教育支撐體系的指導(dǎo)意見(jiàn)[EB/OL].[2023-12-20].http://www.moe.gov.cn/srcsitenMKi7j9w6bo1VhP9KvI9BQ==/A16/s3342/202107/t20210720_545783.html.
[22]朱永新,楊帆(2023).ChatGPT/生成式人工智能與教育創(chuàng)新:機(jī)遇、挑戰(zhàn)以及未來(lái)[J].華東師范大學(xué)學(xué)報(bào)(教育科學(xué)版),41(7):1-14.
[23]Aljanabi, M. (2023). ChatGPT: Future Directions and Open Possibilities[J]. Mesopotamian Journal of Cyber Security, (3):16-17.
[24]Du, H., Li, Z., & Niyato, D. et al. (2023). Enabling AI-Generated Content Services in Wireless Edge Networks[J]. IEEE Wireless Communications, 31(3):226-234.
[25]Ekin, S. (2023). Prompt Engineering for ChatGPT: A Quick Guide To Techniques, Tips, and Best Practices[J]. TechRxiv,(9):1-10.
[26]Else, H. (2023). Abstracts Written by ChatGPT Fool Scientists[J]. [EB/OL]. [2023-12-20]. https://www.nature.com/articles/d41586-023-00056-7.
[27]Ennis, R. H. (1989). Critical Thinking and Subject Specificity: Clarification and Needed Research[J]. Educational Researcher, 18(3):4-10.
[28]Ennis, R. H., & Weir, E. E. (1985). The Ennis-Weir Critical Thinking Essay Test: An Instrument for Teaching and Testing[M]. Pacific Grove: Midwest Publications:1-14.
[29]Facione, N. C., Facione, P. A., & Sanchez, C. A. (1994). Critical Thinking Disposition as a Measure of Competent Clinical Judgment: The Development of the California Critical Thinking Disposition Inventory[J]. The Journal of Nursing Education, 33(8):345-350.
[30]Giray L. (2023). Prompt Engineering with ChatGPT: A Guide for Academic Writers[J]. Annals of Biomedical Engineering, 51(12):2629-2633.
[31]Halpern, D. F. (1998). Teaching Critical Thinking for Transfer Across Domains: Dispositions, Skills, Structure Training, and Metacognitive Monitoring[J]. The American Psychologist, 53(4):449-455.
[32]Hattie, J., & Timperley, H. (2007). The Power of Feedback[J]. Review of Educational Research, 77(1):81-112.
[33]Liu, P., Yuan, W., & Fu, J. et al. (2023). Pre-Train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing[J]. ACM Computing Surveys, 55(9):1-35.
[34]Newman, D. R., Webb, B., & Cochrane, C. (1995). A Content Analysis Method to Measure Critical Thinking in Face-to-Face and Computer Supported Group Learning[J]. Interpersonal Computing and Technology, 3(2):56-77.
[35]Supena, I., Darmuki, A., & Hariyadi, A. (2021). The Influence of 4C (Constructive, Critical, Creativity, Collaborative) Learning Model on Students’Learning Outcomes[J]. International Journal of Instruction, 14(3):873-892.
[36]Wang, D., Liu, H., & Hau, K. (2022). Automated and Interactive Game-Based Assessment of Critical Thinking[J]. Education and Information Technologies, 27(4):4553-4575.
[37]Watson, G., & Glaser, E. M. (1980). Watson-Glaser Critical Thinking Appraisal[M]. San Antonio, TX: Psychological Corporation:24-31.
[38]Zlatkin-Troitschanskaia, O., Shavelson, R. J., & Schmidt, S. et al. (2019). On the Complementarity of Holistic and Analytic Approaches to Performance Assessment Scoring[J]. British Journal of Educational Psychology, 89(3):468-484.
Empowering Critical Thinking Assessment with Generative Artificial Intelligence:
An Experiment Based on ChatGPT
Abstract: Empowering the innovation of education assessment with generative artificial intelligence technology has become a hot topic in the education evaluation reform of the digital age. In order to authentically reflect individuals’ critical thinking levels, the assessment have gradually shifted from mere skill evaluation to comprehensive assessment of reasoning, argumentation and information credibility in real-world contexts. The appI0B25dg8Sp11p0WNQz9bSYpJk871qe9xm0SKHVDNUJU=lication of ChatGPT in critical thinking assessment helps enrich the evaluation content, innovate the interaction modes, and enhance the efficiency and accuracy of assessment, providing new perspectives and methods for multi-dimensional critical thinking evaluation. Based on the critical thinking assessment framework and a five-dimensional assessment rubric, a ChatGPT-based online platform is used to assess the critical thinking levels reflected in 186 argumentative essays from 31 university students. The findings reveal that ChatGPT, as a writing aid, significantly improve students’ argumentative writing abilities in three themes of writing, which are “weighing the pros and cons”, “graphics-based contexts” and “opposing viewpoints”. Moreover, the critical thinking assessment conducted with ChatGPT demonstrates a high degree of precision, with subtle differences in assessments across different thematic tasks. This result indicates that ChatGPT is highly efficient in capturing and evaluating direct and explicit elements of critical thinking but still has limitations in assessing logical reasoning and the depth of argument. In the future, the design of prompt words should be further optimized to guide ChatGPT to deep understand the critical thinking levels demonstrated in human-machine dialogues, enhancing its adaptability and accuracy in handling complex cognitive tasks, thereby achieving personalized critical thinking evaluation and cultivation.
Keywords: Generative Artificial Intelligence; ChatGPT; Education Evaluation; Critical Thinking Assessment; Prompt Engineering Techniques