如何判定自適應(yīng)學(xué)習(xí)系統(tǒng)的有效性

2023-06-16 16:33:25江波章恒遠(yuǎn)魏雨昂

現(xiàn)代遠(yuǎn)程教育研究 2023年2期

江波章恒遠(yuǎn) 魏雨昂

摘要：自適應(yīng)學(xué)習(xí)系統(tǒng)是開展大規(guī)模個性化教育的重要途徑之一，其有效性判定是學(xué)界關(guān)注的焦點?，F(xiàn)有判定自適應(yīng)學(xué)習(xí)系統(tǒng)有效性的方法大多采用實驗法、問卷調(diào)查法等，存在實驗周期長、實驗變量控制難等問題?；谝蚬Y(jié)構(gòu)的自適應(yīng)學(xué)習(xí)系統(tǒng)有效性分析框架可通過分析系統(tǒng)中教育數(shù)據(jù)間的因果結(jié)構(gòu)關(guān)系，來判斷系統(tǒng)的有效性及其緣由。該分析框架主要包括多維教育數(shù)據(jù)與基于因果分析的技術(shù)路線兩部分。其首先利用描述性檢驗和顯著性檢驗進(jìn)行特征關(guān)聯(lián)性分析，判斷系統(tǒng)是否有效；再利用相關(guān)性檢驗和馬爾可夫毯方法尋找與學(xué)習(xí)成效具有因果關(guān)系的特征子集，并利用機器學(xué)習(xí)算法進(jìn)行學(xué)習(xí)成效預(yù)測；最后利用基于搜索的因果結(jié)構(gòu)算法確定特征之間的因果結(jié)構(gòu)及影響強度，來回答系統(tǒng)何以有效。利用該分析框架對“均一教育平臺”自適應(yīng)學(xué)習(xí)系統(tǒng)進(jìn)行分析后發(fā)現(xiàn)：（1）該系統(tǒng)的個性化推薦功能使用與否與學(xué)習(xí)收益有強因果關(guān)系；（2）學(xué)習(xí)者的練習(xí)數(shù)量、解題嘗試次數(shù)和請求提示次數(shù)直接或間接影響學(xué)習(xí)成效；（3）該系統(tǒng)的個性化推薦可生成符合學(xué)生最近發(fā)展區(qū)的學(xué)習(xí)路徑，在減少學(xué)生做題數(shù)量和錯誤次數(shù)的同時，提高學(xué)習(xí)效率。

關(guān)鍵詞：自適應(yīng)學(xué)習(xí)系統(tǒng)；有效性；因果關(guān)系；分析框架；判定方法

中圖分類號：G434 ? 文獻(xiàn)標(biāo)識碼：A ? ?文章編號：1009-5195（2023）02-0095-07 ?doi10.3969/j.issn.1009-5195.2023.02.011

基金項目：國家自然科學(xué)基金面上項目“面向圖形化編程的項目式學(xué)習(xí)的自動化評價研究及應(yīng)用”（61977058）；上海市科技創(chuàng)新行動計劃“人工智能”專項項目“教育數(shù)據(jù)治理與智能教育大腦關(guān)鍵技術(shù)研究及典型應(yīng)用”（20511101600）。

作者簡介：江波，博士，副教授，碩士生導(dǎo)師，華東師范大學(xué)教育信息技術(shù)學(xué)系，上海數(shù)字化教育裝備工程技術(shù)研究中心，上海智能教育研究院（上海 200062）；章恒遠(yuǎn)，碩士研究生，華東師范大學(xué)教育信息技術(shù)學(xué)系，上海數(shù)字化教育裝備工程技術(shù)研究中心（上海 200062）；魏雨昂，博士研究生，華東師范大學(xué)計算機科學(xué)與技術(shù)學(xué)院，上海智能教育研究院（上海 200062）。

隨著人工智能技術(shù)的不斷發(fā)展，實現(xiàn)個性化教學(xué)的方式和途徑變得更加豐富（Xie et al.，2019），其中就包括已在教育領(lǐng)域廣泛應(yīng)用的自適應(yīng)學(xué)習(xí)系統(tǒng)（Adaptive Learning System，ALS）。基于學(xué)習(xí)者的學(xué)習(xí)行為日志和數(shù)據(jù)挖掘技術(shù)，自適應(yīng)學(xué)習(xí)系統(tǒng)能夠?qū)Σ煌瑢W(xué)習(xí)者的學(xué)習(xí)風(fēng)格、認(rèn)知圖譜和認(rèn)知能力等“個體表現(xiàn)”進(jìn)行動態(tài)評估（姜強等，2011），實時調(diào)整學(xué)習(xí)內(nèi)容、知識序列及其評估方式（菅保霞等，2017），從而為學(xué)習(xí)者提供個性化的學(xué)習(xí)服務(wù)與幫助（彭紅超等，2019）。然而，自適應(yīng)學(xué)習(xí)系統(tǒng)是否真的有效以及何以有效一直是學(xué)界關(guān)注的焦點（尚佩瑤等，2021）。對于自適應(yīng)學(xué)習(xí)系統(tǒng)是否有效，學(xué)者們運用隨機實驗法等研究方法開展了大量的實證研究，并借助問卷調(diào)查法和訪談法等方法來探究自適應(yīng)學(xué)習(xí)系統(tǒng)何以有效。但現(xiàn)有研究未充分利用自適應(yīng)學(xué)習(xí)系統(tǒng)所收集的學(xué)習(xí)過程數(shù)據(jù)，且存在實驗周期長、實驗變量難以控制等問題?；诖耍狙芯繑M探索能夠通過對自適應(yīng)學(xué)習(xí)系統(tǒng)中的教育數(shù)據(jù)進(jìn)行分析來判斷該系統(tǒng)是否有效以及何以有效的方法，以期為科學(xué)、高效、便利地評估自適應(yīng)學(xué)習(xí)系統(tǒng)提供借鑒。

一、自適應(yīng)學(xué)習(xí)系統(tǒng)的有效性研究現(xiàn)狀

關(guān)于自適應(yīng)學(xué)習(xí)系統(tǒng)的有效性研究一直是學(xué)術(shù)界關(guān)注的焦點。許多研究表明，自適應(yīng)學(xué)習(xí)系統(tǒng)能夠?qū)W(xué)習(xí)者產(chǎn)生積極影響，幫助他們?nèi)〉酶玫某煽?。Wu等（2017）采用兩個等效組進(jìn)行前后測實驗，對比了使用動態(tài)呈現(xiàn)學(xué)習(xí)內(nèi)容的自適應(yīng)學(xué)習(xí)系統(tǒng)和傳統(tǒng)電子學(xué)習(xí)系統(tǒng)的效果，結(jié)果顯示提供個性化學(xué)習(xí)材料的自適應(yīng)學(xué)習(xí)系統(tǒng)能夠促進(jìn)學(xué)習(xí)者對學(xué)習(xí)內(nèi)容的理解，進(jìn)而使其學(xué)習(xí)結(jié)果得到顯著提升。Wang等（2012）在一項單向準(zhǔn)實驗研究中，將144名大學(xué)生隨機分配到兩組。實驗組使用具有自適應(yīng)學(xué)習(xí)系統(tǒng)推薦功能的英語學(xué)習(xí)論壇，對照組使用傳統(tǒng)論壇。前后測差異性檢驗、在線調(diào)查和博客數(shù)據(jù)分析表明，自適應(yīng)學(xué)習(xí)系統(tǒng)的推薦功能可以顯著增加學(xué)習(xí)者的閱讀頻次，使其在語言測試上更富有成效。在認(rèn)為自適應(yīng)學(xué)習(xí)系統(tǒng)有助于提升學(xué)習(xí)成效的基礎(chǔ)上，學(xué)者們進(jìn)一步對其作用路徑進(jìn)行研究。其中，廖軼（2017）通過隨機對照實驗和顯著性檢驗發(fā)現(xiàn)，應(yīng)用自適應(yīng)學(xué)習(xí)服務(wù)參考模型的學(xué)習(xí)者測試成績更優(yōu)、學(xué)習(xí)時間更短、點擊次數(shù)更少、學(xué)習(xí)效率更高。趙艷（2020）通過問卷調(diào)查和訪談發(fā)現(xiàn)，自適應(yīng)學(xué)習(xí)系統(tǒng)能夠啟發(fā)學(xué)習(xí)者的思維，幫助學(xué)生理解學(xué)科思想，激發(fā)學(xué)習(xí)興趣，從而影響學(xué)習(xí)者的學(xué)習(xí)成績。然而，也有研究表明，自適應(yīng)學(xué)習(xí)系統(tǒng)對于提高學(xué)習(xí)者學(xué)習(xí)成績的作用是有限的。例如，李建偉等（2020）在考前英語訓(xùn)練中測試了自適應(yīng)學(xué)習(xí)APP的效果，結(jié)果顯示，使用自適應(yīng)學(xué)習(xí)系統(tǒng)的學(xué)習(xí)者在通過率上僅比未使用的學(xué)習(xí)者高出0.36個百分點，在優(yōu)秀率上前者甚至比后者低1個百分點。Michlík等（2010）在64名學(xué)習(xí)者中進(jìn)行了隨機對照實驗，根據(jù)系統(tǒng)推薦學(xué)習(xí)內(nèi)容的適恰情況將學(xué)習(xí)者分為三組，分別為針對性推薦、隨機推薦和不推薦，編程測試的結(jié)果顯示，針對性推薦有助于提高學(xué)習(xí)者的學(xué)習(xí)成績，但這一結(jié)論并未得到統(tǒng)計學(xué)意義上的支持。

綜上可發(fā)現(xiàn)，盡管在自適應(yīng)學(xué)習(xí)系統(tǒng)有效性方面，學(xué)者們的看法和意見不盡相同，但是他們的研究方法和手段有著一定的趨同性。這些研究主要采用隨機實驗和準(zhǔn)實驗研究方法，旨在揭示自適應(yīng)學(xué)習(xí)系統(tǒng)與學(xué)習(xí)者學(xué)習(xí)成績之間的因果關(guān)系。此外，學(xué)者們還使用問卷調(diào)查法、訪談法、數(shù)據(jù)日志分析等方法綜合學(xué)習(xí)者學(xué)習(xí)行為的客觀數(shù)據(jù)（如時間、次數(shù)、成績等）和學(xué)習(xí)者學(xué)習(xí)體驗的主觀數(shù)據(jù)（如適用性、滿意度、目的等），來對自適應(yīng)學(xué)習(xí)系統(tǒng)進(jìn)行評價（姜強等，2015）。但在隨機對照實驗或準(zhǔn)實驗中，單次實驗一般僅針對單一變量，變量控制難度大、實驗成本高、周期長，還存在倫理道德限制、霍桑效應(yīng)（曹浩文等，2015）等；而問卷調(diào)查與訪談又易受人的主觀影響導(dǎo)致結(jié)果失真。針對上述情況，本研究提出可直接基于自適應(yīng)學(xué)習(xí)系統(tǒng)中可觀測的教育數(shù)據(jù)，來挖掘數(shù)據(jù)間的因果關(guān)系，從而分析自適應(yīng)學(xué)習(xí)系統(tǒng)是否有效以及何以有效。

二、基于因果結(jié)構(gòu)的自適應(yīng)學(xué)習(xí)系統(tǒng)有效性分析框架

基于觀測數(shù)據(jù)進(jìn)行因果推測，是有效性評價的一種新興方法。為此，本文構(gòu)建了基于因果結(jié)構(gòu)的自適應(yīng)學(xué)習(xí)系統(tǒng)有效性分析框架，如圖1所示?？蚣苤黧w可分為兩個部分——多維教育數(shù)據(jù)和基于因果分析的技術(shù)路線。

在數(shù)據(jù)準(zhǔn)備環(huán)節(jié)中，學(xué)習(xí)者的個人履歷數(shù)據(jù)、認(rèn)知水平數(shù)據(jù)和在自適應(yīng)學(xué)習(xí)系統(tǒng)中的學(xué)習(xí)行為數(shù)據(jù)構(gòu)成了多維教育數(shù)據(jù)特征集。個人履歷數(shù)據(jù)包括學(xué)習(xí)者的編號、年齡、年級、性別、學(xué)習(xí)風(fēng)格和學(xué)習(xí)興趣；認(rèn)知水平數(shù)據(jù)包括學(xué)習(xí)者的學(xué)習(xí)狀態(tài)、知識水平、技能水平、評估記錄、測試記錄和熟練程度；學(xué)習(xí)行為數(shù)據(jù)包括練習(xí)時長、嘗試次數(shù)、練習(xí)總量、練習(xí)得分、是否使用個性化學(xué)習(xí)推薦功能和提示次數(shù)。

基于因果分析的技術(shù)路線主要實現(xiàn)自適應(yīng)學(xué)習(xí)系統(tǒng)是否有效與何以有效的判定。在是否有效這一問題上，首先使用描述性檢驗觀察數(shù)據(jù)間的差異，如果無差異則可得出系統(tǒng)無效，有差異則使用顯著性檢驗從統(tǒng)計學(xué)角度分析差異的顯著性，如果差異未達(dá)到顯著性水平，也可得出系統(tǒng)無效。其次，在得出系統(tǒng)有效的基礎(chǔ)上探討何以有效的問題。先對多維教育數(shù)據(jù)特征與學(xué)習(xí)結(jié)果做相關(guān)性檢驗，若相關(guān)程度低，即不相關(guān)，可視為無因果性。若相關(guān)，則通過特征選擇刪去冗余特征，得到最佳特征子集，并通過機器學(xué)習(xí)算法構(gòu)建學(xué)習(xí)成效預(yù)測模型，檢驗子集的有效性。如果檢驗效果不符合預(yù)期，則進(jìn)入迭代優(yōu)化環(huán)節(jié)，重新對特征子集進(jìn)行選取和評估。最后，將最佳子集輸入基于搜索的因果結(jié)構(gòu)算法中，以確定各特征間的因果結(jié)構(gòu)及影響強度。

此外，框架還提供了因果分析的常用方法、工具和結(jié)果樣例。因果分析針對因果關(guān)系的方向分析、高維數(shù)據(jù)中因果關(guān)系的誤發(fā)現(xiàn)、不完全觀測數(shù)據(jù)中的隱藏變量檢測這三個關(guān)鍵問題，形成了三類解決方法，分別是基于約束的方法、基于因果函數(shù)模型的方法和混合方法，詳細(xì)介紹如圖1所示。同時，也有眾多因果分析的開源工具包，其中基于R語言和Python語言的工具包有pcalg、CausalImpact、Dowhy、WhyNot、Tetrad等。本研究采用Tetrad分析工具，其可生成一個有向無環(huán)的因果結(jié)構(gòu)圖，圖中不同節(jié)點間的因果關(guān)系用帶箭頭的連接線表示，由因指向果，并使用多元線性回歸估計影響強度，將其標(biāo)注于節(jié)點間的連接線上，能夠清晰、明確地展現(xiàn)學(xué)習(xí)者應(yīng)用自適應(yīng)學(xué)習(xí)系統(tǒng)時，影響其學(xué)習(xí)成效的因素、因果關(guān)系及其強度。

三、自適應(yīng)學(xué)習(xí)有效性分析實踐

1.平臺介紹

本研究選取了“均一教育平臺”作為研究對象，該平臺為K-12階段的學(xué)習(xí)者提供自適應(yīng)的學(xué)習(xí)環(huán)境。在2014年至2015年的兩年時間里，有近25萬名學(xué)習(xí)者在該平臺上學(xué)習(xí)數(shù)學(xué)課程，留下了超過2500萬條學(xué)習(xí)過程數(shù)據(jù)。平臺以課程為學(xué)習(xí)單元，課程內(nèi)容以知識點劃分，分為例題、解題、探索和基礎(chǔ)四個模塊。前三個模塊以視頻學(xué)習(xí)為主，基礎(chǔ)模塊則提供相應(yīng)的練習(xí)題。學(xué)習(xí)者可以在學(xué)習(xí)主頁的“建議的活動”一欄中查看系統(tǒng)為其推送的個性化推薦內(nèi)容。如果學(xué)習(xí)者選擇了系統(tǒng)推薦的內(nèi)容進(jìn)行練習(xí)，則視為學(xué)習(xí)者使用了系統(tǒng)的個性化推薦功能；反之，則視為沒有使用該功能。在習(xí)題解答過程中，學(xué)習(xí)者可以點擊“解題說明”按鈕查看系統(tǒng)提示，并在完成作答后點擊“提交答案”按鈕獲得正誤反饋。如果首次作答正確，將獲得一定的學(xué)習(xí)收益。但如果該題的作答借助了系統(tǒng)的提示，則該題的學(xué)習(xí)收益將被系統(tǒng)判定為零。

2.數(shù)據(jù)準(zhǔn)備

本研究使用了247，606名學(xué)習(xí)者在“均一教育平臺”上進(jìn)行數(shù)學(xué)課程練習(xí)的25，925，992條學(xué)習(xí)過程日志數(shù)據(jù)。從中隨機選取1000名學(xué)生共118，511條數(shù)據(jù)進(jìn)行分析。在特征處理上，刪除了與本研究無關(guān)的特征，剩余9個特征包括：學(xué)生唯一標(biāo)識符（user_id）、練習(xí)名稱（exercise）、練習(xí)數(shù)量（problem_number）、是否采納個性化學(xué)習(xí)建議（suggested）、解題總時長（time_taken）、解題嘗試次數(shù)（count_attempts）、請求提示次數(shù)（count_hints）、是否達(dá)到熟練程度（earned_proficiency）和學(xué)習(xí)收益（points_earned）。其中，采納個性化學(xué)習(xí)建議表示學(xué)習(xí)者的單次學(xué)習(xí)內(nèi)容與系統(tǒng)個性化推薦的內(nèi)容一致，即使用了自適應(yīng)學(xué)習(xí)系統(tǒng)；反之，則視為未使用。

3.數(shù)據(jù)分析

（1）描述性檢驗和顯著性檢驗

為了探究“均一教育平臺”自適應(yīng)學(xué)習(xí)系統(tǒng)的有效性，研究選取學(xué)習(xí)收益的上四分位數(shù)180作為分隔值，將大于等于180的學(xué)習(xí)收益稱為“高收益”，小于180的學(xué)習(xí)收益稱為“低收益”（姚昊等，2022）。該平臺中學(xué)習(xí)者學(xué)習(xí)收益統(tǒng)計情況如圖2所示。橫坐標(biāo)表示是否使用自適應(yīng)學(xué)習(xí)系統(tǒng)，縱坐標(biāo)表示學(xué)習(xí)收益的占比情況。觀察柱狀圖可以發(fā)現(xiàn)，在使用了“均一教育平臺”個性化推薦功能的所有學(xué)習(xí)記錄中，約有89.32%的記錄取得了高收益，比不使用情況下獲得高收益的比例要高得多。此外，獨立樣本T檢驗（置信水平為0.05）結(jié)果顯示，p值等于0.000，效應(yīng)量等于0.843，即學(xué)習(xí)者使用“均一教育平臺”自適應(yīng)學(xué)習(xí)系統(tǒng)與否所獲得的學(xué)習(xí)收益具有顯著性差異。因此可以得出，使用“均一教育平臺”自適應(yīng)學(xué)習(xí)系統(tǒng)能為學(xué)習(xí)者的學(xué)習(xí)結(jié)果帶來顯著的正向影響。

（2）相關(guān)性檢驗

采用Kendall相關(guān)系數(shù)、Spearman相關(guān)系數(shù)和Pearson相關(guān)系數(shù)測量無序分類變量（是否采納個性化學(xué)習(xí)建議）、有序分類變量（練習(xí)數(shù)量）和連續(xù)變量（解題總時長、請求提示次數(shù)、解題嘗試次數(shù)）與學(xué)習(xí)收益的相關(guān)性，檢驗結(jié)果如表1所示。在正負(fù)相關(guān)關(guān)系上，除了是否采納個性化學(xué)習(xí)建議這一特征外，其余4個特征與學(xué)習(xí)收益呈負(fù)相關(guān)，即指標(biāo)越高，學(xué)習(xí)收益越低。在相關(guān)關(guān)系程度上，是否采納個性化學(xué)習(xí)建議與學(xué)習(xí)收益的相關(guān)性最為密切，絕對值達(dá)到了0.5087，練習(xí)數(shù)量次之，絕對值為0.4103，兩者均呈中等程度相關(guān)。解題嘗試次數(shù)與學(xué)習(xí)收益之間呈弱相關(guān)關(guān)系，絕對值為0.2207。相比之下，請求提示次數(shù)和解題總時長與學(xué)習(xí)收益之間的相關(guān)性系數(shù)絕對值則小許多，分別為0.1772和0.0404，均呈弱相關(guān)。強相關(guān)性是因果關(guān)系存在的前提（趙森棟等，2014），而解題總時長與學(xué)習(xí)收益之間的相關(guān)性過低，則可認(rèn)為二者之間不具有因果性。其余四個特征可能與學(xué)習(xí)收益之間存在潛在的因果關(guān)系，可進(jìn)一步進(jìn)行因果分析，其中是否采納個性化學(xué)習(xí)建議和練習(xí)數(shù)量兩個特征的影響強度較其他變量更大。

（3）基于馬爾可夫毯的特征選擇

使用Tetrad軟件，按照特征的先后順序設(shè)置約束條件：是否采納個性化學(xué)習(xí)建議節(jié)點不能作為其他節(jié)點的子節(jié)點；練習(xí)數(shù)量節(jié)點不能作為解題嘗試次數(shù)和請求提示次數(shù)節(jié)點的子節(jié)點。使用FGES-MB特征選擇算法（Sanchez-Romero et al.，2017）尋找學(xué)習(xí)收益特征的馬爾可夫毯（Markov Blanket，MB）。該算法的目標(biāo)是在不造成大量信息丟失的情況下，最大限度地識別并刪除與之不相關(guān)的冗余特征（Blum et al.，1997）。結(jié)果如圖3所示，學(xué)習(xí)收益的馬爾可夫毯中包含了是否采納個性化學(xué)習(xí)建議、練習(xí)數(shù)量、解題嘗試次數(shù)和請求提示次數(shù)4個特征，這與前文得出的結(jié)論相符。

（4）子集檢驗

分類器的準(zhǔn)確率是評價特征選擇方法好壞的重要指標(biāo)（段潔等，2015）。為了驗證基于馬爾可夫毯特征選擇結(jié)果的有效性，本文使用主成分分析（Principal Component Analysis，PCA）將原始特征降至四維，保持與馬爾可夫毯特征選擇的輸出特征數(shù)量一致，此時的可解釋性方差占比超過99.9%。在支持向量機（Support Vector Machine，SVM）、決策樹（Decision Tree，DT）、隨機森林（Random Forest，RF）、邏輯回歸（Logistic Regression，LR）和人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Network，ANN）等常見的機器學(xué)習(xí)分類算法中，依次將原始特征、使用主成分分析和馬爾可夫毯的特征選擇結(jié)果作為輸入變量，學(xué)習(xí)收益作為輸出變量，比較不同特征選擇結(jié)果子集在各分類算法中的準(zhǔn)確率。結(jié)果如表2所示，在隨機森林和人工神經(jīng)網(wǎng)絡(luò)算法中，使用基于馬爾可夫毯特征選擇策略建立的模型具有更優(yōu)異的準(zhǔn)確率表現(xiàn)。因此，可以認(rèn)為馬爾可夫毯的特征選擇在此數(shù)據(jù)集上是有效的，以此為基礎(chǔ)進(jìn)行因果關(guān)系建模是合理的。

（5）因果分析

為了評估關(guān)鍵變量（是否采納個性化學(xué)習(xí)建議、練習(xí)數(shù)量、解題嘗試次數(shù)以及請求提示次數(shù)）和學(xué)習(xí)收益間是否存在潛在的因果關(guān)系，并確定它們之間的影響強度，本研究使用因果工具Tetrad軟件中的PC算法，得到了圖4所示的因果關(guān)系模型。分析結(jié)果顯示，該模型性能良好，卡方檢驗（df＝1）表明其預(yù)測結(jié)果與實際數(shù)據(jù)（p＝0.0521）之間沒有統(tǒng)計學(xué)差異。

通過觀察表1和圖4，可以發(fā)現(xiàn)因果關(guān)系模型中的變量是相關(guān)性分析結(jié)果的子集，其中補集為解題總時長。這是因為因果關(guān)系是特殊的相關(guān)關(guān)系，相關(guān)關(guān)系是因果關(guān)系的必要條件之一。值得注意的是，在表1中，相關(guān)系數(shù)僅描述了兩個變量之間的相關(guān)性大小，并不能說明是哪一個變量的變化導(dǎo)致了另一個變量的變化。相比之下，在圖4的因果關(guān)系模型中，歸一化系數(shù)的絕對值表示因果關(guān)系強度的大小，歸一化系數(shù)的正負(fù)表示兩個變量數(shù)值變化的同向性，箭頭從自變量出發(fā)指向因變量。

根據(jù)模型，可以看出練習(xí)數(shù)量與請求提示次數(shù)和解題嘗試次數(shù)的歸一化系數(shù)分別為-0.0026和-0.0045，這兩個值與其他路徑上的歸一化系數(shù)相比，絕對值相差過大，這表明二者間的因果強度非常低，可以忽略不計。再根據(jù)作用路徑的不同，將圖4中的因果關(guān)系模型拆分為圖5、圖6和圖7三個子圖，進(jìn)行逐一分析。

圖5顯示，使用該自適應(yīng)學(xué)習(xí)系統(tǒng)與學(xué)習(xí)收益間的歸一化系數(shù)為159.0266，是所有系數(shù)中絕對值最高的。這意味著，使用系統(tǒng)推薦功能每增加1個標(biāo)準(zhǔn)差，學(xué)習(xí)收益就會增加159.0266個標(biāo)準(zhǔn)差。表明該自適應(yīng)學(xué)習(xí)系統(tǒng)可以提高學(xué)習(xí)者的學(xué)習(xí)成效，且這一提高非常明顯。

圖6顯示，使用自適應(yīng)學(xué)習(xí)系統(tǒng)導(dǎo)致練習(xí)數(shù)量的減少（系數(shù)為-10.5013），練習(xí)數(shù)量的減少導(dǎo)致學(xué)習(xí)收益的增加（系數(shù)為-0.5552）?？梢缘玫?，使用自適應(yīng)學(xué)習(xí)系統(tǒng)通過減少練習(xí)數(shù)量，間接導(dǎo)致學(xué)習(xí)收益的增加，其因果強度為5.8303，計算方法如下：

suggested→points_earned＝suggested→problem_number*

problem_number→points_earned

＝（-10.5013）*（-0.5552）

＝5.8303

圖7顯示，使用自適應(yīng)學(xué)習(xí)系統(tǒng)導(dǎo)致解題嘗試次數(shù)的減少（系數(shù)為-0.3982），解題嘗試次數(shù)的減少導(dǎo)致請求提示次數(shù)的減少（系數(shù)為0.3673）和學(xué)習(xí)收益的增加（系數(shù)為-10.5260）；請求提示次數(shù)的減少進(jìn)一步導(dǎo)致學(xué)習(xí)收益的增加（系數(shù)為-5.0916）。可以得到，使用自適應(yīng)學(xué)習(xí)系統(tǒng)通過減少解題嘗試次數(shù)和請求提示次數(shù)，間接導(dǎo)致了學(xué)習(xí)者學(xué)習(xí)收益的增加，其因果強度為4.9361，計算方法如下：

suggested→points_earned＝suggested→count_attempts*

（count_attempts→points_earned＋count_attempts→

count_hints*count_hints→points_earned）

＝-0.3982*[-10.5260 ＋ 0.3673*（-5.0916）]

＝4.9361

以上三條路徑表明，使用自適應(yīng)學(xué)習(xí)系統(tǒng)能夠直接導(dǎo)致學(xué)習(xí)收益的增加，也能通過練習(xí)數(shù)量、解題嘗試次數(shù)和請求提示次數(shù)這三個關(guān)鍵變量間接導(dǎo)致學(xué)習(xí)收益的增加，其因果總強度為169.7930。

該自適應(yīng)學(xué)習(xí)系統(tǒng)通過精準(zhǔn)定位學(xué)生的最近發(fā)展區(qū)，規(guī)劃知識序列路徑，進(jìn)而減少學(xué)習(xí)者的練習(xí)數(shù)量、解題錯誤次數(shù)和使用提示次數(shù)，將學(xué)生從海量低效甚至無效的重復(fù)性學(xué)習(xí)中抽離出來，使不同層次、不同水平的學(xué)生學(xué)習(xí)效率都得以提升，最終達(dá)到減輕學(xué)習(xí)負(fù)擔(dān)、提高學(xué)習(xí)效率的目的。這一有效性可以通過教學(xué)支架和最近發(fā)展區(qū)理論來解釋。所謂教學(xué)支架，是指對學(xué)習(xí)者提供的即時支持，通過適當(dāng)時機和適量支持促進(jìn)學(xué)習(xí)者知識與技能的習(xí)得（何克抗，2017）。自適應(yīng)學(xué)習(xí)系統(tǒng)基于學(xué)生學(xué)習(xí)的特點和需求，動態(tài)調(diào)整學(xué)習(xí)內(nèi)容和學(xué)習(xí)方式，提供適度挑戰(zhàn)的學(xué)習(xí)資源和學(xué)習(xí)環(huán)境作為支架，促進(jìn)學(xué)生個體的發(fā)展。最近發(fā)展區(qū)理論認(rèn)為，只有適合學(xué)習(xí)者最近發(fā)展區(qū)的教學(xué)才是有效的。自適應(yīng)學(xué)習(xí)系統(tǒng)充分考慮學(xué)生當(dāng)前認(rèn)知狀態(tài)，判斷學(xué)生能夠承受的挑戰(zhàn)程度，避免過度挑戰(zhàn)或過度簡單化情況，為學(xué)生提供個性化、精準(zhǔn)的支架，幫助學(xué)生在最近發(fā)展區(qū)內(nèi)獲得有效學(xué)習(xí)，從而達(dá)到提升學(xué)習(xí)效果的目的。

四、總結(jié)與展望

本研究提出基于因果結(jié)構(gòu)的自適應(yīng)學(xué)習(xí)系統(tǒng)有效性分析框架，框架主體可分為兩部分：多維教育數(shù)據(jù)和基于因果分析的技術(shù)路線。多維教育數(shù)據(jù)包括了進(jìn)行有效性分析所需采集的教育數(shù)據(jù)；基于因果分析的技術(shù)路線則提供了分析自適應(yīng)學(xué)習(xí)系統(tǒng)是否有效以及何以有效的方法、步驟以及結(jié)果樣例。本研究以某自適應(yīng)學(xué)習(xí)系統(tǒng)為實踐案例，利用所提框架分析該自適應(yīng)學(xué)習(xí)系統(tǒng)的有效性，分析結(jié)果表明：（1）該系統(tǒng)的個性化學(xué)習(xí)推薦功能使用與否與學(xué)習(xí)收益有強因果關(guān)系，即系統(tǒng)的自適應(yīng)學(xué)習(xí)功能有助于提升學(xué)習(xí)效果；（2）學(xué)習(xí)者的練習(xí)數(shù)量、解題嘗試次數(shù)和請求提示次數(shù)直接或間接影響學(xué)習(xí)收益；（3）系統(tǒng)的個性化推薦功能可生成符合學(xué)生最近發(fā)展區(qū)的學(xué)習(xí)路徑，在減少學(xué)生的做題數(shù)量和錯誤次數(shù)的同時提高學(xué)習(xí)效率。

本研究的創(chuàng)新之處在于，為自適應(yīng)學(xué)習(xí)系統(tǒng)的科學(xué)評估提供了一種新的視角，即通過采集學(xué)習(xí)過程數(shù)據(jù)，建立因果模型來評估系統(tǒng)的有效性。相較于隨機對照實驗，這種基于觀測數(shù)據(jù)的證據(jù)更易獲取、更加高效。然而，應(yīng)用本文所提出的分析框架需要注意以下幾點：第一，不同的自適應(yīng)學(xué)習(xí)系統(tǒng)所存儲的學(xué)習(xí)者數(shù)據(jù)種類是不同的，但一些關(guān)鍵特征是能夠運用本框架的必要條件，如本文案例中的是否遵循推薦、練習(xí)得分、嘗試次數(shù)等特征。第二，在因果建模后，需對模型進(jìn)行擬合優(yōu)度評估，說明得到的因果關(guān)系模型與實際情況在統(tǒng)計學(xué)上不存在顯著差異。第三，在模型解釋上，一定要結(jié)合系統(tǒng)自身判定規(guī)則與條件。例如，本文所使用的“均一教育平臺”認(rèn)為如果學(xué)習(xí)者在解答問題時使用了系統(tǒng)提示功能，則無論其是否解答正確，該題的學(xué)習(xí)收益將被判定為零，顯然不是所有系統(tǒng)都有類似設(shè)定。除此之外，本研究還存在著諸多不足。首先，多維教育數(shù)據(jù)集的構(gòu)建上，不同系統(tǒng)對學(xué)習(xí)者采集的信息各異，故在實際的應(yīng)用中需根據(jù)系統(tǒng)實際情況進(jìn)行調(diào)整。其次，在分析框架的實踐上，本研究僅基于一個公開數(shù)據(jù)集展開探究活動，還需在更多的數(shù)據(jù)集上進(jìn)行應(yīng)用與實踐。最后，在課程方面，本研究所用數(shù)據(jù)集全部來自數(shù)學(xué)科目，可能自適應(yīng)學(xué)習(xí)系統(tǒng)在不同科目將對學(xué)習(xí)者的學(xué)習(xí)成效產(chǎn)生不同的影響，可通過學(xué)科的視角展開進(jìn)一步的探究。

參考文獻(xiàn)：

[1]曹浩文，杜育紅（2015）.教育研究中的因果推斷方法探析——以班級規(guī)模與學(xué)業(yè)成績的關(guān)系研究為例[J].上海教育科研，（6）：40-43，31.

[2]段潔，胡清華，張靈均等（2015）.基于鄰域粗糙集的多標(biāo)記分類特征選擇算法[J].計算機研究與發(fā)展，52（1）：56-65.

[3]何克抗（2017）.教學(xué)支架的含義、類型、設(shè)計及其在教學(xué)中的應(yīng)用——美國《教育傳播與技術(shù)研究手冊（第四版）》讓我們深受啟發(fā)的亮點之一[J].中國電化教育，（4）：1-9.

[4]菅保霞，姜強，趙蔚等（2017）.大數(shù)據(jù)背景下自適應(yīng)學(xué)習(xí)個性特征模型研究——基于元分析視角[J].遠(yuǎn)程教育雜志，35（4）：87-96.

[5]姜強，趙蔚（2011）.自適應(yīng)學(xué)習(xí)系統(tǒng)述評及其優(yōu)化機制研究[J].現(xiàn)代遠(yuǎn)距離教育，（6）：57-63.

[6]姜強，趙蔚，王朋嬌（2015）.自適應(yīng)學(xué)習(xí)系統(tǒng)中學(xué)習(xí)者為中心視角評價學(xué)習(xí)成效實證研究[J].現(xiàn)代遠(yuǎn)距離教育，（4）：43-49.

[7]李建偉，葛子剛，張愛陽（2020）.自適應(yīng)學(xué)習(xí)系統(tǒng)在成人本科學(xué)士學(xué)位英語學(xué)習(xí)中的應(yīng)用研究[J].現(xiàn)代教育技術(shù)，30（3）：59-65.

[8]廖軼（2017）.面向基礎(chǔ)教育的自適應(yīng)學(xué)習(xí)服務(wù)系統(tǒng)研究與應(yīng)用[D].北京：北京交通大學(xué)：109-111.

[9]彭紅超，祝智庭（2019）.人機協(xié)同決策支持的個性化適性學(xué)習(xí)策略探析[J].電化教育研究，40（2）：12-20.

[10]尚佩瑤，汪存友（2021）.智適應(yīng)學(xué)習(xí)系統(tǒng)的學(xué)習(xí)效果及其影響因素研究——基于2000—2020年60項實驗與準(zhǔn)實驗研究的元分析[J].數(shù)字教育，7（1）：45-50.

[11]姚昊，馬立超（2022）.高學(xué)歷教師培養(yǎng)的學(xué)生成績更優(yōu)異嗎？——理論爭議、實證檢驗與政策啟示[J].開放教育研究，28（2）：73-84.

[12]趙森棟，劉挺（2014）.因果關(guān)系及其在社會媒體上的應(yīng)用研究綜述[J].軟件學(xué)報，25（12）：2733-2752.

[13]趙艷（2020）.自適應(yīng)學(xué)習(xí)系統(tǒng)中數(shù)學(xué)習(xí)題輔導(dǎo)策略設(shè)計及對學(xué)生的影響研究[D].錦州：渤海大學(xué)：27-43.

[14]Blum， A. L.， & Langley， P. （1997）. Selection of Relevant Features and Examples in Machine Learning[J]. Artificial Intelligence， 97（1-2）：245-271.

[15]Michlík， P.， & Bieliková， M. （2010）. Exercises Recommending for Limited Time Learning[J]. Procedia Computer Science， 1（2）：2821-2828.

[16]Sanchez-Romero， R.， Ramsey， J. D.， & Liang， J. C. et al. （2017）. Identification of Mechanisms of Functional Signaling Between Human Hippocampus Regions[J]. BioRxiv：099820.

[17]Wang， P. Y.， & Yang， H. C. （2012）. Using Collaborative Filtering to Support College Students Use of Online Forum for English Learning[J]. Computers Education， 59（2）：628-637.

[18]Wu， C. H.， Chen， Y. S.， & Chen， T. C. （2017）. An Adaptive E-Learning System for Enhancing Learning Performance： Based on Dynamic Scaffolding Theory[J]. Eurasia Journal of Mathematics， Science and Technology Education， 14（3）：903-913.

[19]Xie， H.， Chu， H. C.， & Hwang， G. J. et al. （2019）. Trends and Development in Technology-Enhanced Adaptive/Personalized Learning： A Systematic Review of Journal Publications from 2007 to 2017[J]. Computers & Education， 140：103599.

收稿日期 2022-10-27責(zé)任編輯李鑫

How to Evaluate the Effectiveness of Adaptive Learning Systems

——Based on the Causal Structure Analysis Framework

JIANG Bo， ZHANG Hengyuan， WEI Yuang

Abstract： The effectiveness assessment of adaptive learning systems， one of the important approaches for large-scale personalized education， has attracted much attention from literature. Existing methods for evaluating the effectiveness of adaptive learning systems mostly are experimental methods and questionnaire surveys， which suffer from problems such as long experimental duration and difficulty in experimental variables controlling. A causal structure-based framework is proposed to evaluate the effectiveness of an adaptive learning system and analyze how it works by analyzing the causal structure produced. This analysis framework consists of two parts， multidimensional educational data and a causal analysis-based technical framework. Firstly， descriptive and significance tests are used to analyze feature associations and determine whether the system is effective. Secondly， the correlation tests and Markov blanket method are used to identify feature subsets that have causal relationships with learning outcomes， and machine learning algorithms are used for learning outcome prediction. Finally， a search-based causal structure algorithm is used to determine the causal structure and strength of influence between features to explain why the system is effective. The proposed analytical framework is used to evaluate a popular adaptive learning system named “Junyi Education Platform”. The results showed as follows. First， there is a strong causal relationship between the use of personalized recommendation functions and learning outcomes. Second， the number of exercises students practice， the number of attempts to solve problems and the number of hints used directly or indirectly affect learning outcomes. Third， the personalized recommendations of the system improves learning benefit by generating learning paths that are in line with the students zone of proximal developmental as well as reducing the number of exercises and mistakes.

Keywords： Adaptive Learning System; Effectiveness; Causal Relationship; Analysis Framework; Evaluation Method