【摘 要】?? 認(rèn)知診斷是心理和教育測量領(lǐng)域能力研究向認(rèn)知研究范式轉(zhuǎn)向的產(chǎn)物,能夠深入剖析學(xué)習(xí)者個體在認(rèn)知過程中掌握知識和技能的情況,獲得精準(zhǔn)和細(xì)?;脑\斷信息。以往多數(shù)認(rèn)知診斷研究關(guān)注基礎(chǔ)教育重點科目測試,針對高等教育大規(guī)模外語測試的數(shù)據(jù)挖掘研究較少,且未能融合信息技術(shù)手段與多樣化的教學(xué)和學(xué)習(xí)對接。本研究以2,104名參加全國高校西班牙語專業(yè)四級水平測試的考生為研究對象,應(yīng)用G-DINA模型對閱讀部分進(jìn)行了認(rèn)知診斷改型分析。結(jié)果表明,認(rèn)知診斷能與信息技術(shù)結(jié)合進(jìn)行多層次的數(shù)據(jù)挖掘,反饋宏觀整體、中觀局部和微觀個體層面的精準(zhǔn)診斷信息,為面授和在線學(xué)習(xí)提供統(tǒng)一的參照系統(tǒng),與學(xué)習(xí)方案、課堂表現(xiàn)、教材內(nèi)容、課后測評和自主學(xué)習(xí)形成聯(lián)動,使數(shù)據(jù)資源在線上線下的開放體系中共享共通,從而達(dá)到革新教育理念、實現(xiàn)個性化促學(xué)的目標(biāo)。
【關(guān)鍵詞】? 教育評價;信息技術(shù);大規(guī)模測試;精準(zhǔn)診斷;認(rèn)知診斷方法;因材施教;個性化教學(xué);在線學(xué)習(xí)
【中圖分類號】? ?G420? ? ? ? ?【文獻(xiàn)標(biāo)識碼】? A? ? ? ?【文章編號】? 1009-458x(2021)9-0069-07
一、引言
十九屆五中全會對未來教育工作做出了重大部署,提出了“建設(shè)高質(zhì)量教育體系”的明確要求。教育部黨組指出,應(yīng)“推進(jìn)信息技術(shù)與教育教學(xué)深度融合,更新教育理念、變革教育模式”,應(yīng)“發(fā)揮在線教育優(yōu)勢”,“著力解決好教育發(fā)展不平衡不充分的突出問題”。利用計算機和網(wǎng)絡(luò)可以對教育數(shù)據(jù)進(jìn)行科學(xué)的獲取、加工、傳輸、分析和使用,使教育評價更加細(xì)?;?、自動化和智能化,使評價結(jié)果和線上線下個性化學(xué)習(xí)共享互通,從而解決師生比高和資源分配不公的桎梏,達(dá)到變革模式和提升質(zhì)量的目標(biāo)。認(rèn)知診斷測評(Cognitive Diagnostic Assessment,簡稱“認(rèn)知診斷”)是與以上目標(biāo)契合的代表性理論和方法。
認(rèn)知診斷起源于心理測量,逐漸延伸到教育測量領(lǐng)域。20世紀(jì)上半葉,真分?jǐn)?shù)理論成為主流測量理論,其核心假設(shè)在于屬性真實值和測量值之間存在線性關(guān)系。20世紀(jì)中期,項目反應(yīng)理論逐漸發(fā)展,克服了線性假設(shè)的不足,通過項目參數(shù)估計潛在屬性的真實值。根據(jù)米斯勒維(Mislevy, 1993)的觀點,真分?jǐn)?shù)和項目反應(yīng)理論的研究范式關(guān)注作答結(jié)果,在單維線性的度量系統(tǒng)中宏觀評價被試的潛在能力從而做出選拔和分級等教育決策。60年代的研究范式不再孤立地聚焦作答結(jié)果,作答的認(rèn)知過程受到關(guān)注。根據(jù)米斯勒維(Mislevy, 1993)的看法,新一代理論應(yīng)用認(rèn)知心理模型將認(rèn)識過程量度化,在多維和非線性的系統(tǒng)中形成細(xì)?;脑u價,做出精準(zhǔn)到個體的診斷性決策。總之,研究范式體現(xiàn)出從結(jié)果到過程、從宏觀到微觀、從選拔到診斷的發(fā)展趨勢。認(rèn)知診斷產(chǎn)生于向認(rèn)知范式轉(zhuǎn)向的過程中。診斷決策可以彌補宏觀決策的不足,精準(zhǔn)定位潛在屬性的優(yōu)長與劣勢,進(jìn)行準(zhǔn)確的亞分類并提出改進(jìn)建議,使因材施教和個性化自主學(xué)習(xí)成為可能。
認(rèn)知診斷與通過信息和網(wǎng)絡(luò)技術(shù)革新理念、提升質(zhì)量的目標(biāo)高度吻合,具有重要的應(yīng)用價值(Nichols, 1994; Buck, Tatsuoka, & Kostin, 1997; Jang, 2005; Li, Kim, & Yao, 2020),但在與技術(shù)緊密結(jié)合和促進(jìn)線上線下教育深入互通方面仍然需要進(jìn)一步探索。比如有學(xué)者提出,應(yīng)“利用學(xué)習(xí)分析和可視化軟件以多維度和可移植的方式描述學(xué)習(xí)數(shù)據(jù),為教與學(xué)提供更加精準(zhǔn)的分析”(劉占榮, 等, 2018)。還有學(xué)者認(rèn)為,為滿足學(xué)習(xí)者的多樣化需求,在補救教學(xué)資源針對性和學(xué)習(xí)活動智能化等方面仍需繼續(xù)進(jìn)行探索(黃洪濤, 等, 2018)。此外,在我國外語教育領(lǐng)域,認(rèn)知診斷相關(guān)研究仍然處于起步階段(蔡艷, 等, 2011; 杜文博, 等, 2018; 林燕婷, 等, 2018)。因此,本研究將探索認(rèn)知診斷應(yīng)用于外語測試數(shù)據(jù)挖掘和線上線下教育實踐的可行性與實施路徑。
二、認(rèn)知診斷研究述評
國外關(guān)于認(rèn)知診斷的研究始于20世紀(jì)80年代對數(shù)學(xué)測試的分析。龍崗(Tatsuoka, 1983)首次應(yīng)用規(guī)則空間模型(Rule Space Model,RSM)研究基礎(chǔ)教育中的小規(guī)模數(shù)學(xué)測試,發(fā)現(xiàn)模型擬合良好。但研究對象數(shù)量仍然相對較少。
90年代,理論和實證研究繼續(xù)深入。尼科爾斯(Nichols, 1994)闡釋了認(rèn)知診斷的理論框架和研究方法。布克等(Buck & Tatsuoka, 1998)使用RSM模型分析了中等規(guī)模日本大學(xué)生外語聽力測試結(jié)果,首次將認(rèn)知診斷應(yīng)用于外語學(xué)科。90年代的研究進(jìn)一步完善了理論框架,實證研究應(yīng)用范圍擴(kuò)展,與傳統(tǒng)面授教學(xué)的聯(lián)系愈加緊密。
進(jìn)入21世紀(jì)后,國外研究快速發(fā)展:第一,對認(rèn)知診斷進(jìn)行了系統(tǒng)總結(jié),比如萊頓等(Leighton & Gierl, 2007)和澤木等(Sawaki, Kim, & Gentile, 2009)全面梳理了理論體系和研究方法。第二,嘗試開發(fā)了適用于其他測試的認(rèn)知診斷模型。比如,德拉托雷(De la Torre, 2008)的研究針對多維非補償性測試構(gòu)念,開發(fā)了確定性輸入噪聲“與”門模型(Deterministic Inputs, Noisy 'and' Gate Model,DINA)。萊頓等(Leighton, Gierl, & Hunka, 2004)和德拉托雷(De la Torre, 2011)開發(fā)了多維及非補償性的屬性層次模型(Analytic Hierarchical Model,AHM)和多維補償性的廣義確定性輸入噪聲“與”門模型(Generalized Deterministic Inputs, Noisy 'and' Gate Model,G-DINA)。第三,對中等和較大規(guī)模的水平和分級測試進(jìn)行改型,主要針對閱讀和聽力。比如張(Jang, 2005)應(yīng)用多維和非補償性的融合模型(Fusion Model,F(xiàn)M)對新一代托??荚囬喿x作答情況進(jìn)行了分析,問卷調(diào)查和訪談結(jié)果表明教師和學(xué)生均認(rèn)同診斷結(jié)果對面授教學(xué)的積極意義。其他研究還聚焦了聽力測試。比如,澤木等(Sawaki, et al., 2009)應(yīng)用FM模型對托福網(wǎng)考聽力部分進(jìn)行了改型,指出與中小規(guī)模的測試相比,大規(guī)模測試能提高屬性矩陣的穩(wěn)定性,提供低風(fēng)險和高信度的診斷信息。第四,認(rèn)知診斷與信息化和互聯(lián)網(wǎng)技術(shù)不斷融合,線上線下教育的互聯(lián)互通逐步加強。已有研究將認(rèn)知診斷與計算機自適應(yīng)測試進(jìn)行結(jié)合(Kaplan, De la Torre, & Ramón-Barrada, 2015; Terzi & Sen 2019)。國際學(xué)生評估項目(PISA)和國際數(shù)學(xué)與科學(xué)趨勢研究項目(TIMSS)等大規(guī)??荚囈巡捎糜嬎銠C自適應(yīng)結(jié)合認(rèn)知診斷技術(shù)提高測評結(jié)果挖掘的細(xì)粒化和智能化程度。此外,李等(Li, et al., 2020)分析了在線慕課學(xué)習(xí)者個體學(xué)習(xí)及交互學(xué)習(xí)情況,指出認(rèn)知診斷可應(yīng)用于在線教育平臺挖掘數(shù)據(jù)、精準(zhǔn)診斷和追蹤學(xué)習(xí)行為等。
國內(nèi)關(guān)于認(rèn)知診斷真正意義上的理論研究始于21世紀(jì)初,辛濤(2005)、劉聲濤等(2006)、涂冬波等(2012)對理論進(jìn)行了系統(tǒng)介紹。戴海琦等(2013)和劉妍等(2017)對研究進(jìn)行了全面述評,還有研究對比了各類模型(涂冬波, 等, 2013; 蔡艷, 等, 2015)。實證研究主要針對大規(guī)模測試,以基礎(chǔ)教育階段語文和數(shù)學(xué)為主(涂冬波, 等, 2010; 張啟睿, 等, 2019; 李令青, 等, 2019)。部分研究以國際化考試為工具(陳慧麟, 等, 2013),針對本土大規(guī)模外語測試的改型研究(蔡艷, 等, 2011; 林燕婷, 等, 2018; 閔尚超, 等, 2019; 范婷婷, 等, 2019)仍然較少。認(rèn)知診斷與信息化和網(wǎng)絡(luò)化技術(shù)相結(jié)合的研究已逐步展開,以中小規(guī)模測評為主。比如,黃宏濤等(2019)基于BP神經(jīng)網(wǎng)絡(luò)開發(fā)了遠(yuǎn)程教學(xué)測評系統(tǒng)。還有研究者提出并嘗試將認(rèn)知診斷與遠(yuǎn)程計算機自適應(yīng)測試相結(jié)合。比如,楊淑群等(2009)指出二者形成的優(yōu)勢互補應(yīng)用于在線智能教評系統(tǒng)能有效提升教學(xué)質(zhì)量;葉海智等(2019)應(yīng)用基于認(rèn)知診斷的教學(xué)輔助系統(tǒng)對教育技術(shù)專業(yè)學(xué)生進(jìn)行測試和遠(yuǎn)程練習(xí)推送,教學(xué)效果良好??梢?,學(xué)界已認(rèn)識到認(rèn)知診斷在數(shù)據(jù)挖掘和促進(jìn)線上線下教育互通方面的重要價值并開始付諸實踐。
綜上所述,認(rèn)知診斷理論已趨于成熟,開發(fā)出多樣化的模型應(yīng)用于實證研究。從學(xué)段和學(xué)科分布上來看,大部分聚焦基礎(chǔ)教育語文、數(shù)學(xué)與外語學(xué)科,針對高等教育外語學(xué)科的研究較少。從實施范圍來看,以往國內(nèi)研究多圍繞特定地區(qū)和學(xué)校,較少針對全國范圍。最后,從信息化和網(wǎng)絡(luò)化維度來看,多聚焦于中小規(guī)模面授或混合式教學(xué),針對較大規(guī)模樣本的數(shù)據(jù)挖掘和在線應(yīng)用仍需繼續(xù)探索。因此,本研究將聚焦全國高校外語測試認(rèn)知診斷數(shù)據(jù)挖掘及其應(yīng)用于線上線下全學(xué)習(xí)過程的具體實施路徑。
三、大規(guī)模外語測試認(rèn)知診斷數(shù)據(jù)挖掘
(一)研究方法
我國教育部組織實施大學(xué)英語和西班牙語等專業(yè)的水平測試,屬于國家級大規(guī)模標(biāo)準(zhǔn)參照性測試。全國高校西班牙語專業(yè)水平測試(Examen de Espa?ol como Especialidad,EEE)分別在本科二年級和四年級舉行四級(簡稱“EEE-4”)和八級(簡稱“EEE-8”)測試,目的是確定水平、評估質(zhì)量和落實改革。部分高校以EEE-4合格作為畢業(yè)門檻,許多部委和企事業(yè)單位視其為應(yīng)聘條件。測試結(jié)束后,以遠(yuǎn)程方式為各高校提供報告,匯報全國平均分、各校平均分、考生分?jǐn)?shù)和排名,但未能充分反映微觀層面的問題與解決辦法。教師和學(xué)生均需要更精準(zhǔn)的個性化診斷報告,從而有針對性地在高年級進(jìn)行補救教學(xué)和學(xué)習(xí)?;谄惹械默F(xiàn)實需求,本研究選擇EEE-4考試開展認(rèn)知診斷改型數(shù)據(jù)挖掘。
以參與EEE-4考試的2,104名考生為研究對象。研究工具為閱讀試題??忌栝喿x兩篇文章并完成30道單項選擇題。改型分為以下四步:定義屬性、建立題目和屬性關(guān)聯(lián)矩陣、選擇分析模型、提供分?jǐn)?shù)和反饋信息報告(Gierl, et al. , 2000; Lee & Sawaki, 2009)。
第一步,界定測量的能力及其組成成分。分析考試大綱和測試框架后發(fā)現(xiàn)閱讀能力由5項技能構(gòu)成,分別為理解詞匯和句法、闡釋明示信息、掃讀和略讀、推斷隱含信息和總結(jié)信息。
第二步,對每道試題測量的具體技能進(jìn)行匹配,建立試題和技能關(guān)聯(lián)矩陣。一方面,根據(jù)細(xì)目表對每道題目考查的重點技能進(jìn)行標(biāo)記。另一方面,對9名考生(按成績分為高、中、低三組,每組各3名)進(jìn)行有聲思維實驗,作答時需匯報思維過程。之后參照閱讀技能對有聲思維數(shù)據(jù)進(jìn)行編碼和分析,界定成功作答每道試題所需要的技能。最后使用二進(jìn)制編碼標(biāo)記關(guān)聯(lián)結(jié)果。如表1中示例,0表示成功作答無須掌握該技能,1表示需掌握。最終構(gòu)建了30×5的數(shù)字陣列,即Q矩陣。
第三步,選擇恰當(dāng)?shù)恼J(rèn)知診斷模型。題目采用二元計分形式,測量的閱讀能力呈現(xiàn)多維異質(zhì)特點,此外技能之間存在補償效應(yīng),即對正答均有概率貢獻(xiàn)。根據(jù)以往研究結(jié)果(De la Torre & Douglas, 2004; Chen, 2016; Li, Hunter, & Lei, 2016),G-DINA模型適用于二元計分,為多維補償模型,適用于本研究。
第四步,使用計算機進(jìn)行診斷分析并自動生成診斷報告。從宏觀整體(全國)、中觀局部(學(xué)校或班級)和微觀個體(學(xué)習(xí)者)層面進(jìn)行深度的數(shù)據(jù)挖掘。
(二)研究結(jié)果與分析
模型擬合結(jié)果表明,擬合指標(biāo)赤池信息量準(zhǔn)則(Akaike Information Criterion,AIC)和貝葉斯信息準(zhǔn)則(Bayesian Information Criterion,BIC)分別為60,734.43和61,785.45。G-DINA模型的max(χ2)數(shù)值為14.63,P值為0.06,擬合效果良好(De la Torre, et al., 2004; 陳慧麟, 等, 2013; Chen, 2016; 林燕婷, 等, 2018)。數(shù)據(jù)挖掘結(jié)果分為以下三個層面。
1. 宏觀整體
分析可知全國考生對閱讀技能的整體掌握概率,反映宏觀層面情況。具體數(shù)據(jù)見表2。
整體上掌握情況最理想的技能為“推斷隱含信息”“掃讀和略讀”,說明探索未知信息和搜索已知信息能力較強,教學(xué)質(zhì)量最高?!袄斫庠~匯和句法”“總結(jié)信息”是大綱的教學(xué)重點,需繼續(xù)夯實。然而,“闡釋明示信息”的掌握概率遠(yuǎn)低于其他技能,說明從整體來看闡釋技能是教學(xué)和學(xué)習(xí)的難點。宏觀結(jié)果為全國教學(xué)和測試大綱修訂和教學(xué)改革工作提供依據(jù)。此外,與傳統(tǒng)的分?jǐn)?shù)和排名相比,認(rèn)知診斷可以提供與測試構(gòu)念緊密關(guān)聯(lián)的反饋信息,如任務(wù)形式或內(nèi)容出現(xiàn)變化,可克服歷年分?jǐn)?shù)無法關(guān)聯(lián)的桎梏,為數(shù)據(jù)共享共通提供便利。
認(rèn)知診斷還可以根據(jù)技能掌握分布情況將全國考生分類。結(jié)果表明,可劃分為28個組別。表3展示了部分情況。其中第二列“技能分布類型”中的數(shù)字0代表未掌握技能,1代表已掌握。5項技能排序與表2相同。比如,組別1中的“01111”表示僅未掌握“理解詞匯和句法”技能。
如表3所示,僅未掌握“理解詞匯和句法”和掌握全部技能的人數(shù)最多,約占總數(shù)的三分之一,其他組人數(shù)相對分散,說明技能分布呈現(xiàn)顯著多樣性特征。由此可知,對于不同組別應(yīng)打破“人人一課”,應(yīng)針對不同痛點采取多樣的補償手段,實現(xiàn)“殊途同歸”的目標(biāo)。然而,宏觀層面仍不足以適應(yīng)本地化的需求,還需從中觀局部層面分析和解讀。
2. 中觀局部
認(rèn)知診斷數(shù)據(jù)挖掘為學(xué)?;虬嗉壧峁┚哂斜镜鼗厣膮⒄障到y(tǒng)。以某高校為例,中觀層面結(jié)果如表4所示,標(biāo)注方法與表2、表3相同。
可見約三分之一的學(xué)生掌握了全部技能,無須進(jìn)行補救。約四分之一的學(xué)生未能掌握“總結(jié)信息”技能,數(shù)量較大,需針對這部分學(xué)生調(diào)整教學(xué)內(nèi)容和方法,提升其概括和歸納大意能力。與宏觀結(jié)果對比可知,該校中觀層面結(jié)果存在差異。比如,掌握全部技能的全國人數(shù)比例為16.97%,而該校比例為32.86%。根據(jù)該校的情況,應(yīng)考慮單獨分班或進(jìn)行分組教學(xué)。再比如,全國情況體現(xiàn)出的痛點在于“闡釋明示信息”,而該校的困難在于“總結(jié)信息”,因此需要結(jié)合二者進(jìn)行深入反思。中觀層面的數(shù)據(jù)挖掘結(jié)果提供了本地化的統(tǒng)一參照系統(tǒng),可以應(yīng)用技術(shù)手段針對不同組別特點對各類教學(xué)資源進(jìn)行自動化管理??梢詫⒃\斷結(jié)果和學(xué)習(xí)方案、課堂表現(xiàn)、教材內(nèi)容、練習(xí)題庫等線下和線上教育實踐中的數(shù)據(jù)全部關(guān)聯(lián)。然而,仍不足以支持個人定制式的學(xué)習(xí),需要向微觀個體層面繼續(xù)深入。
3. 微觀個體
基于認(rèn)知診斷的數(shù)據(jù)挖掘最終分析出每名學(xué)生個性化的技能掌握情況。上文中高校學(xué)生的分析結(jié)果示例如表5所示,標(biāo)注方法同上。
可見,學(xué)生乙未能掌握“闡釋明示信息”技能,學(xué)生丙未能掌握“理解詞匯和句法”技能。比如針對同一道題目,前者誤答的原因在于闡發(fā)已理解詞義能力不足,而后者在于未正確理解詞義。傳統(tǒng)的分?jǐn)?shù)結(jié)果表明乙和丙均誤答此題,得分一致,而實際的技能掌握差異仍需要認(rèn)知診斷進(jìn)行精準(zhǔn)定位。根據(jù)數(shù)據(jù)挖掘結(jié)果可以為乙和丙制定針對該題目的個性化補救策略。
綜上所述,應(yīng)用計算機技術(shù)對大規(guī)模外語測試進(jìn)行認(rèn)知診斷數(shù)據(jù)挖掘可以獲取豐富的個性化信息(馬玉慧, 等, 2018; 黃宏濤, 等, 2019),而如何打破時空限制將診斷結(jié)果與教學(xué)和學(xué)習(xí)形成在線一體聯(lián)動仍需要具體的操作路徑。
四、大規(guī)模外語測試認(rèn)知診斷的應(yīng)用實踐
進(jìn)行認(rèn)知診斷數(shù)據(jù)挖掘之后,為高校提供了宏觀、中觀和微觀層面的反饋信息,各校結(jié)合自身的情況將結(jié)果與教學(xué)和學(xué)習(xí)對接。以表4中高校為例,該校首先對宏觀和中觀信息進(jìn)行了分析,發(fā)現(xiàn)本校學(xué)生掌握技能情況與全國情況不同,且呈現(xiàn)多樣化特點。由于師資力量有限,在線下無法進(jìn)行充分因材施教的情況下,閱讀課采用了線下分組教學(xué)和在線分組互動方式進(jìn)行。分組情況如下:對表4中第1~10組技能有欠缺的學(xué)生進(jìn)行了補救式指導(dǎo),對第11組已掌握全部技能的學(xué)生進(jìn)行了拓展教學(xué)。根據(jù)中觀的反饋結(jié)果,在1~10組中,未掌握“總結(jié)信息”的人數(shù)最多,是教學(xué)難點。未掌握“闡釋明示信息”的人數(shù)相對較多,需突出強調(diào)。教師在統(tǒng)一的數(shù)字化平臺Blackboard數(shù)字教學(xué)平臺發(fā)布了與中觀層面信息相符的教學(xué)大綱,部分內(nèi)容如表6所示。
此外,由計算機自動匹配生成了個性化的診斷報告,在課前通過在線學(xué)習(xí)平臺向每名學(xué)生進(jìn)行一對一的反饋(馬玉慧, 等, 2018; 葉海智, 等, 2019)。以表5中學(xué)生乙為例,報告部分內(nèi)容如表7所示。
依據(jù)統(tǒng)一的診斷結(jié)果,教師首先根據(jù)五項技能對預(yù)習(xí)任務(wù)進(jìn)行分解,然后由計算機為每組學(xué)生匹配生成相應(yīng)的預(yù)習(xí)導(dǎo)學(xué)案,對于學(xué)習(xí)有欠缺的學(xué)生進(jìn)行支架式的引導(dǎo)(Li, et al., 2020)。比如,應(yīng)用在線學(xué)習(xí)平臺的群組功能為表4中的第9組學(xué)生(未掌握闡釋技能)統(tǒng)一提供精準(zhǔn)的預(yù)習(xí)導(dǎo)學(xué)案:請學(xué)生在課前閱讀標(biāo)題為“廣告的負(fù)面影響”的文章,找出表示“批判”的同義表達(dá)手段。課前第9組學(xué)生還需應(yīng)用微信或釘釘進(jìn)行小組討論,查找詞典和研讀文本,分析表示“批判”時使用的策略,旨在從預(yù)習(xí)開始有針對性地提升闡釋技能。
在線下課堂中,教師將技能情況互補的小組合并為一個學(xué)習(xí)小組。比如將表4中第9組(學(xué)生乙所在組)和第6組(學(xué)生丙所在組)重組為一個討論組。教師首先對預(yù)習(xí)內(nèi)容進(jìn)行抽查和講解,之后同組學(xué)生共同閱讀文章并討論完成句意闡釋練習(xí)。其用意在于讓未掌握理解與闡釋技能的學(xué)生開展組內(nèi)合作,通過互助完成任務(wù)??梢?,統(tǒng)一標(biāo)準(zhǔn)打通了課前預(yù)習(xí)、課堂任務(wù)和課堂表現(xiàn),使各環(huán)節(jié)均指向痛點,信息互聯(lián)互通(楊淑群, 等, 2009; 馬玉慧, 等 2018; 葉海智, 等, 2019)。
在課后學(xué)習(xí)環(huán)節(jié),教師首先依據(jù)不同的技能設(shè)計相應(yīng)的作業(yè)與練習(xí),并由計算機為學(xué)生進(jìn)行匹配,通過在線學(xué)習(xí)平臺推送作業(yè)與練習(xí),示例如表8所示。
最后,通過在線學(xué)習(xí)平臺的群組功能,學(xué)生乙與其他已掌握闡釋技能的學(xué)生展開同伴作業(yè)互評并提出改進(jìn)建議,提供解決問題的不同視角。
與以往應(yīng)用認(rèn)知診斷進(jìn)行中小規(guī)模課程遠(yuǎn)程測評的研究結(jié)果一致,基于大規(guī)模外語測試的數(shù)據(jù)挖掘信息反饋同樣能夠精準(zhǔn)因材施教,診斷出學(xué)生個性化的認(rèn)知結(jié)構(gòu)(馬玉慧, 等, 2018; 黃宏濤, 等, 2019)。在之后的在線教學(xué)中,早期的診斷信息對預(yù)測學(xué)業(yè)困難風(fēng)險、進(jìn)行適應(yīng)性的支架式教學(xué)、構(gòu)建交互式學(xué)習(xí)小組具有積極意義(Li, et al., 2020),能夠以數(shù)字化形式建立過去、當(dāng)前和未來學(xué)習(xí)行為和目標(biāo)的關(guān)聯(lián),有效提升教學(xué)質(zhì)量(楊淑群, 等, 2009)。
此外,認(rèn)知診斷信息可與個性化的學(xué)習(xí)資源(如導(dǎo)學(xué)案、教材、練習(xí)題、自主學(xué)習(xí)材料)和解決方案推送關(guān)聯(lián),與信息技術(shù)進(jìn)行深度融合,在統(tǒng)一的數(shù)字化平臺進(jìn)行發(fā)布和應(yīng)用,進(jìn)行精準(zhǔn)、及時和可持續(xù)的“施教”,與隨機推送相比更加科學(xué)合理(馬玉慧, 等, 2018; 葉海智, 等, 2019)。教師在在線導(dǎo)學(xué)中也能夠發(fā)揮主觀能動性,對精準(zhǔn)解讀和應(yīng)用診斷結(jié)果起到積極作用(馬玉慧, 等, 2018)。與傳統(tǒng)的面授形式相比,基于認(rèn)知診斷的遠(yuǎn)程教學(xué)和學(xué)習(xí)形式使信息互聯(lián)互通,對開設(shè)專業(yè)較晚、缺乏豐富教學(xué)資源的學(xué)校來說尤其具有重要的意義(楊淑群, 等, 2009)。總之,基于測試數(shù)據(jù)挖掘和融入線上線下教育全過程的理念,可以構(gòu)建表9中一體聯(lián)動的實施路徑。
綜上所述,認(rèn)知診斷能適應(yīng)多樣化的外語學(xué)習(xí)環(huán)境和方式,可將個性化學(xué)習(xí)者特征、開放性學(xué)習(xí)資源和信息技術(shù)有機整合,符合“推進(jìn)信息技術(shù)與教育教學(xué)深度融合”“更新教育理念、變革教育模式”的目標(biāo)和要求。
五、結(jié)論和啟示
認(rèn)知診斷可以對大規(guī)模外語測試數(shù)據(jù)進(jìn)行深度挖掘和分析,在實現(xiàn)宏觀整體反饋之外,同樣關(guān)注中觀局部和微觀個體層面細(xì)?;脑\斷結(jié)果,可以使各類利益相關(guān)者了解全國、各地區(qū)、各校、各班級的具體情況,并獲取學(xué)習(xí)者個體的精準(zhǔn)信息,為運用信息技術(shù)實現(xiàn)個性化教學(xué)提供依據(jù)。此外,認(rèn)知診斷數(shù)據(jù)挖掘結(jié)果可貫穿運用于測試后的教學(xué)與學(xué)習(xí)過程,充分實現(xiàn)信息反饋與線上線下教育實踐科學(xué)融合,達(dá)成廣泛深入的共享和互動。自動匹配的診斷信息和多樣化的學(xué)習(xí)資源可以實現(xiàn)有效互通,使預(yù)習(xí)、討論、復(fù)習(xí)、測評等教育活動能夠一體聯(lián)動、互助互利,將開放資源投入到開放環(huán)境和活動中去,打破時空限制以提升教育質(zhì)量。
[參考文獻(xiàn)]
蔡艷,丁樹良,涂冬波. 2011. 英語閱讀問題解決的認(rèn)知診斷[J]. 心理科學(xué),34(2):272-277.
蔡艷,譚輝暉,涂冬波. 2015. 哪個測驗Q矩陣更合理:基于DINA模型測驗合理性偵查指標(biāo)及其比較與應(yīng)用[J]. 心理科學(xué),38(5): 1239-1247.
陳慧麟,陳勁松. 2013. G-DINA認(rèn)知診斷模型在語言測驗中的驗證[J]. 心理科學(xué)(6):192-197.
戴海琦,謝美華,丁樹良. 2013. 我國大陸認(rèn)知診斷研究的文獻(xiàn)計量分析[J]. 南京師大學(xué)報(社會科學(xué)版)(6):88-97.
杜文博,馬曉梅. 2018. 基于認(rèn)知診斷評估的英語閱讀診斷模型構(gòu)建[J]. 外語教學(xué)與研究,50(1):76-90.
范婷婷,曾用強. 2019. 認(rèn)知診斷測試及其在閱讀理解能力上的應(yīng)用述評[J]. 中國外語(2):82-89.
黃宏濤,李世珍,李世玉,宋婷鴿,蘇明驁. 2019. 基于BP神經(jīng)網(wǎng)絡(luò)的認(rèn)知診斷方法在個性化教學(xué)中的應(yīng)用[J]. 中國遠(yuǎn)程教育(1):86-91.
李令青,韓笑,辛濤,劉彥樓. 2019. 認(rèn)知診斷評價在個性化學(xué)習(xí)中的功能與價值[J]. 中國考試,321(1):43-47.
林燕婷,陳慧麟,陳勁松. 2018. 探索語言水平測試的認(rèn)知診斷改造和深度分析:以廣州市英語學(xué)業(yè)考試為例[J]. 心理科學(xué)(4):989-995.
劉聲濤,戴海琦,周駿. 2006. 新一代測驗理論——認(rèn)知診斷理論的源起與特征[J]. 心理學(xué)探新,26(4):73-77.
劉妍,戴靜,石小亮,牛雨,祝嘉鈺,顧小清. 2017. 認(rèn)知診斷理論在計算機自適應(yīng)測試中的應(yīng)用與啟示[J]. 中國遠(yuǎn)程教育(4):42-79.
劉占榮,劉永權(quán),武麗娜. 2018. 國際遠(yuǎn)程高等教育研究與發(fā)展趨勢[J]. 中國遠(yuǎn)程教育(12):31-42.
閔尚超,熊笠地. 2019. 基于認(rèn)知診斷評估的聽力理解互補性機制探究[J]. 現(xiàn)代外語,42(2):112-124.
馬玉慧,王珠珠,王碩爍,郭炯. 2018. 面向智慧教育的學(xué)習(xí)分析與智能導(dǎo)學(xué)研究——基于RSM的個性化學(xué)習(xí)資源推送方法[J]. 電化教育研究,39(10):47-52.
涂冬波,戴海崎,蔡艷,丁樹良. 2010. 小學(xué)兒童數(shù)學(xué)問題解決認(rèn)知診斷[J]. 心理科學(xué),33(6):1461-1466.
涂冬波,蔡艷,丁樹良. 2012. 認(rèn)知診斷理論、方法與應(yīng)用[M]. 北京:北京師范大學(xué)出版社.
涂冬波,蔡艷,戴海琦. 2013. 幾種常用非補償型認(rèn)知診斷模型的比較與選用:基于屬性層級關(guān)系的考量[J]. 心理學(xué)報,45(2):243-252.
辛濤. 2005. 當(dāng)前考試?yán)碚撗芯康倪M(jìn)展[J]. 心理發(fā)展與教育:63-68.
葉海智,楊柳,黃宏濤,梅鈺皎. 2019. 面向認(rèn)知診斷的能力等級自適應(yīng)試題推送模型構(gòu)建及應(yīng)用. 電化教育研究(11):93-98.
張啟睿,邊玉芳,陳平,張積家. 2019. 小學(xué)低年級學(xué)生漢字學(xué)習(xí)認(rèn)知診斷研究[J]. 教育探究(2):76-85.
Buck, G., Tatsuoka, K., & Kostin, I. (1997). The subskills of reading: Rule-space analysis of a multiple-choice test of second language reading comprehension. Language Learning,(47), 423-466.
Buck,G., & Tatsuoka, K. K. (1998). Applications of the rule-space procedure to language testing: Examining attributes of a free response listening test. Language Testing, 15(2): 119-157.
Chen, H., & Chen, J. (2016). Retrofitting non-cognitive-diagnostic reading assessment under the generalized DINA model framework. Language Assessment Quarterly, 13(3): 218-230.
De la Torre, J., & Douglas, J. (2004). Higher-order latent trait models for cognitive diagnosis. Psychometrika, 69(3), 333-353.
De la Torre, J. (2008). An empirically based method of Q-matrix validation for the DINA model: Development and applications. Journal of Educational Measurement, 45(4): 343-362.
De La Torre, J. (2011). The generalized DINA model framework. Psychometrika, 76, 179-199.
Gierl, M. J., Leighton, J. P., & Hunka, S. M. (2000). Exploring the logic of Tatsuokas rule-space model for test development and analysis. Educational Measurement: Issues and Practices, 19(3), 34-44.
Jang, E. E. (2005). A validity narrative: effects of reading skills diagnosis on teaching and learning in the context of NG TOEFL. Unpublished doctoral dissertation, University of Illinois at Urbana-Champaign.
Kaplan, M., De la Torre, J., Ramón-Barrada, J. (2015). New item selection methods for cognitive diagnosis computerized adaptive testing. Applied Psychological Measurement, 39(3):167-188.
Lee, Y., & Sawaki, Y. (2009). Cognitive diagnosis approaches to language assessment: An overview. Language Assessment Quarterly,(6): 172-189.
Leighton, J. P., Gierl, M. J., & Hunka, S. (2004). The attribute hierarchy method for cognitive assessment: A variation on Tatsuokas rule-space aapproach. Journal of Educational Measurement, 41, 205-236.
Leighton, J. P. & Gierl, M. J. (2007). Cognitive diagnostic assessment for education: Theory and applications. Cambridge: Cambridge University Press.
Li, H., Hunter, V. C., & Lei, P. (2016). The selection of cognitive diagnostic models for a reading comprehension test. Language Testing, 33(3), 391-409.
Li, H., Kim, M., & Yao, X. (2020). Individual learning vs. interactive learning: A cognitive diagnostic analysis of MOOC students learning behaviors. American Journal of Distance Education, 34(2): 121-136.
Mislevy, R. J. (1993). Foundations of a new test theory. In: N. Frederiksen, R. J. Mislevy & I. I. Bejar(Eds.), Test theory for a new generation of tests(pp.19-39). Hillsdale, NJ: LEA.
Nichols, P. D. (1994). A framework for developing cognitively diagnostic assessment. Review of Educational Research, 64(4): 575-603.
Sawaki, Y., Kim, H. J., & Gentile, C. (2009). Q-matrix construction: Defining the link between constructs and test items in large-scale reading and listening comprehension assessments. Language Assessment Quarterly,(6): 190–209.
Tatsuoka, K. K. (1983). Rule-space: An approach for dealing with misconceptions based on item response theory. Journal of Educational Measurement, 20(4): 345-354.
Terzi, R. & Sen, S. (2019). A nondiagnostic assessment for diagnostic purposes: Q-matrix validation and item-based model fit evaluation for the TIMSS 2011 assessment. SAGE Open, 9(1): 1-11.
Yang, S., Ding S., & Yin Z. (2009). The theory about CD-CAT based on FCA and its application. International Journal of Distance Education Technologies, 7(4): 61-78.
收稿日期:2020-01-13
定稿日期:2021-01-11
作者簡介:王萌萌,博士,副教授,碩士生導(dǎo)師,北京外國語大學(xué)西葡語學(xué)院(100089)。
責(zé)任編輯 單 玲