李美娟 劉 玥 劉紅云,4
(1北京教育科學(xué)研究院北京教育督導(dǎo)與教育評(píng)價(jià)研究中心, 北京 100036)
(2北京師范大學(xué)中國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心; 3北京師范大學(xué)心理學(xué)部;4北京師范大學(xué)心理學(xué)部應(yīng)用實(shí)驗(yàn)心理北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100875)
問(wèn)題解決能力是指在沒(méi)有清晰解決方法的情境下, 通過(guò)一系列認(rèn)知過(guò)程來(lái)理解和解決問(wèn)題的能力(Mayer, 1982)。在這個(gè)過(guò)程中, 問(wèn)題解決者必須充分理解問(wèn)題的核心, 設(shè)計(jì)可行方案并實(shí)施, 且能夠控制進(jìn)度并達(dá)到目標(biāo)(Garofalo & Lester, 1985)。問(wèn)題解決能力對(duì)于學(xué)習(xí)和取得成功非常重要, 很多全球范圍的大型教育測(cè)評(píng)項(xiàng)目都將其作為評(píng)價(jià)的重點(diǎn)。例如, 國(guó)際學(xué)生測(cè)評(píng)項(xiàng)目(Programme for International Student Assessment, PISA) (OECD, 2003,2013)等。近年來(lái), 信息技術(shù)的進(jìn)步和計(jì)算機(jī)測(cè)驗(yàn)領(lǐng)域的研究為問(wèn)題解決能力提供了全新的測(cè)評(píng)方式。如2012年P(guān)ISA采用計(jì)算機(jī)動(dòng)態(tài)測(cè)驗(yàn)的方式, 通過(guò)模擬真實(shí)生活情境中的問(wèn)題來(lái)考察學(xué)生的問(wèn)題解決能力, 關(guān)注在沒(méi)有明確解決方案的情況下學(xué)生運(yùn)用一般認(rèn)知過(guò)程的特征(OECD, 2013), 強(qiáng)調(diào)問(wèn)題解決過(guò)程的動(dòng)態(tài)變化和互動(dòng)特征(Funke, 2001)。
計(jì)算機(jī)測(cè)驗(yàn)不僅可以改變測(cè)驗(yàn)設(shè)計(jì)、施測(cè)方式,甚至可以改變數(shù)據(jù)分析的方法(DiCerbo & Behrens,2012)。不僅可以考察學(xué)生是否正確作答, 而且可以通過(guò)系統(tǒng)自動(dòng)記錄基于時(shí)間的行為序列(Kerr,Chung, & Iseli, 2011), 記錄學(xué)生解決問(wèn)題過(guò)程中的時(shí)間以及學(xué)生完成任務(wù)的系列行為, 稱為過(guò)程性數(shù)據(jù)(process data) (Zoanetti, 2010)?;谶^(guò)程性數(shù)據(jù)不僅可以分析挖掘?qū)W生的解題過(guò)程策略, 同時(shí)也可以作為問(wèn)題解決能力評(píng)價(jià)的證據(jù)(DiCerbo & Behrens,2012)。例如, Greiff, Wüstenberg和Avvisati (2015)基于PISA2012《室溫控制》任務(wù)的過(guò)程性數(shù)據(jù), 發(fā)現(xiàn)一次只改變一個(gè)操作變量的策略不僅能預(yù)測(cè)學(xué)生在該題上的表現(xiàn), 也能預(yù)測(cè)問(wèn)題解決總成績(jī)。近年來(lái), 隨著測(cè)量理論和統(tǒng)計(jì)技術(shù)的發(fā)展, 問(wèn)題解決過(guò)程及其技能和策略的探討越來(lái)越被重視。其中一類是通過(guò)對(duì)該題目所需技能(或?qū)傩?進(jìn)行標(biāo)定, 基于一定的測(cè)量模型對(duì)解決問(wèn)題過(guò)程的策略特點(diǎn)進(jìn)行分析。最具代表性的方法是認(rèn)知診斷模型的評(píng)估。如de la Torre和Douglas (2004)采用高階潛在結(jié)構(gòu)模型, 對(duì)學(xué)生能力進(jìn)行估計(jì), 并基于學(xué)生的認(rèn)知屬性掌握模式對(duì)其認(rèn)知特征進(jìn)行分類。另一類是借助統(tǒng)計(jì)模型和數(shù)據(jù)挖掘的思想, 對(duì)過(guò)程數(shù)據(jù)蘊(yùn)含的豐富信息進(jìn)行分析。常用的方法有可視化分析方法(DiCerbo, Liu, Rutstein, Choi, & Behrens, 2011)、聚類分析方法(Bergner, Shu, & von Davier, 2014)和分類分析方法(Desmarais & Baker, 2012)。最近, 也有學(xué)者(Shu, Bergner, Zhu, Hao, & von Davier, 2017)結(jié)合隱馬爾科夫模型(Hidden Markov Model)和項(xiàng)目反應(yīng)模型, 分析過(guò)程性數(shù)據(jù)中的序列作答信息,從而估計(jì)學(xué)生的能力。本研究探討的方法屬于第二類, 即基于過(guò)程數(shù)據(jù)分析學(xué)生在解決問(wèn)題過(guò)程中的不同策略, 同時(shí)基于任務(wù)提交狀態(tài)的信息進(jìn)行能力估計(jì)。
過(guò)程性數(shù)據(jù)具有嵌套結(jié)構(gòu), 每個(gè)學(xué)生完成任務(wù)過(guò)程產(chǎn)生的行為序列(即, 過(guò)程水平的數(shù)據(jù))嵌套于學(xué)生個(gè)體。因此, 可以借鑒多水平框架下的模型來(lái)分析過(guò)程性數(shù)據(jù)(Goldstein, 1987)。多水平混合項(xiàng)目反應(yīng)理論模型(Multilevel Mixture Item Response Theory, MMixIRT)將多水平模型和混合項(xiàng)目反應(yīng)理論模型相結(jié)合, 不僅可以提高模型參數(shù)估計(jì)的精確性, 同時(shí)可以獲得不同潛在類別群體的測(cè)量特征(Cho & Cohen, 2010)。對(duì)于兩水平的數(shù)據(jù), MMixIRT可以在第一水平和第二水平進(jìn)行非連續(xù)潛在變量(潛在類別)和連續(xù)潛在變量(能力)的分析, 第一水平的潛類別分析主要基于被試作答反應(yīng)之間的關(guān)系, 第二水平的潛類別分析主要基于組內(nèi)被試作答反應(yīng)之間的關(guān)系(Vermunt, 2003)。雖然 MMixIRT為分析嵌套數(shù)據(jù)和類別特征提供了思路, 但是如果直接處理過(guò)程數(shù)據(jù), 可能會(huì)帶來(lái)兩個(gè)問(wèn)題:(1)過(guò)程中的一個(gè)步驟僅反映了被試在這一時(shí)間點(diǎn)的一次操作或行為表現(xiàn), 不滿足模型關(guān)于不同時(shí)間點(diǎn)的測(cè)量都是某一特質(zhì)在這一時(shí)刻表現(xiàn)的假設(shè)。(2)采用問(wèn)題解決的所有過(guò)程數(shù)據(jù)估計(jì)被試個(gè)體能力, 會(huì)帶來(lái)問(wèn)題解決不同階段或不同步驟所測(cè)量特質(zhì)的不統(tǒng)一而導(dǎo)致的估計(jì)值的偏差和解釋上的困難。因此,傳統(tǒng)的MMixIRT模型在模型假設(shè)和潛變量意義的解釋上并不適用于過(guò)程性數(shù)據(jù), 如何借助該模型的思想使其適用于處理過(guò)程數(shù)據(jù)是拓展模型擬解決的問(wèn)題。
國(guó)際上已經(jīng)有越來(lái)越多的研究關(guān)注過(guò)程性數(shù)據(jù)的挖掘, 分析不同群體學(xué)生解決問(wèn)題的典型特征(Qiao & Jiao, 2018; Liao, He, & Jiao, 2019), 但是大多數(shù)研究只采用了學(xué)生作答的部分信息, 或者只關(guān)注類別而忽略了能力估計(jì)。很少有研究基于過(guò)程數(shù)據(jù)的嵌套特點(diǎn), 同時(shí)關(guān)注問(wèn)題解決策略類別, 以及個(gè)體層面信息所反映的問(wèn)題解決能力水平。本研究以 PISA2012中一道問(wèn)題解決題目為例, 基于5個(gè)國(guó)家(或地區(qū), 以下簡(jiǎn)稱地區(qū))學(xué)生問(wèn)題解決的過(guò)程性數(shù)據(jù), 將 MMixIRT模型進(jìn)行拓展, 并使用拓展后的MMixIRT模型分析學(xué)生在問(wèn)題解決過(guò)程中的不同策略, 估計(jì)個(gè)體水平能力, 同時(shí)也對(duì)各地區(qū)使用策略的特點(diǎn)進(jìn)行總結(jié)和比較。
傳統(tǒng) MMixIRT模型的定義和詳細(xì)介紹參見(jiàn)(Cho & Cohen, 2010)的研究。本研究對(duì)傳統(tǒng)的MMixIRT模型做了兩方面的修改和拓展。
首先, 為體現(xiàn)問(wèn)題解決任務(wù)過(guò)程中行為序列連續(xù)性的特點(diǎn), 將步驟的累計(jì)信息作為特定步驟的過(guò)程數(shù)據(jù)。可以表示為:
其中 ytki為第 k個(gè)學(xué)生 t時(shí)間點(diǎn)在 i得分點(diǎn)(類似于后面交通題目中的路徑)上的操作行為。傳統(tǒng)的 MMixIRT模型是直接對(duì) ytki建模, 而拓展的MMixIRT模型是對(duì)累計(jì)反應(yīng) Yjki進(jìn)行建模。如果時(shí)間t=j, wt=1, 否則 wt=0, 則變?yōu)閭鹘y(tǒng)的MMixIRT模型。結(jié)合測(cè)試題目和過(guò)程數(shù)據(jù)的特點(diǎn), 采用累積反應(yīng)作答作為過(guò)程j的反應(yīng)作答, 即如果t≤j, 則wt=1。
其次, 為使得過(guò)程水平和個(gè)體水平變異的分解更加靈活, 定義設(shè)計(jì)矩陣A分解過(guò)程層面和個(gè)體層面的變異, 其中第j行 Aj用來(lái)定義過(guò)程數(shù)據(jù)不同層面潛變量的分解權(quán)重。拓展模型可以表示為:
傳統(tǒng)模型是拓展模型的特例。拓展模型和傳統(tǒng)模型的區(qū)別主要表現(xiàn)在以下兩個(gè)方面:(1)過(guò)程水平每一步驟的潛在類別是前面各個(gè)步驟的累積狀態(tài),而不是這一個(gè)步驟的表現(xiàn), 描述累積狀態(tài)不僅可以更好地解釋解題過(guò)程策略的使用, 而且可以為探索策略使用的連續(xù)性和轉(zhuǎn)換提供依據(jù); (2)個(gè)體水平潛變量的定義所采用的測(cè)量指標(biāo)與傳統(tǒng)的 MMixIRT模型不同。傳統(tǒng)模型中, 個(gè)體水平的潛變量是由第一水平的觀測(cè)變量[yjk1, …, yjki, …, yjkI]估計(jì)得到(Lee, Cho, & Sterba, 2017), 而拓展模型中可以定義更加自由的設(shè)計(jì)矩陣 A決定個(gè)體層面能力估計(jì)所用到的信息。
拓展的 MMixIRT模型比較靈活, 可以在第一水平和第二水平模型中結(jié)合實(shí)際研究關(guān)注的重點(diǎn)定義不同的模型。結(jié)合過(guò)程數(shù)據(jù)的特點(diǎn), 本研究主要關(guān)注學(xué)生在問(wèn)題解決過(guò)程解題策略的差異和最終狀態(tài)體現(xiàn)出個(gè)體能力的差異, 因此, 本研究使用的模型也是上述拓展模型的特例。
本研究使用的拓展 MMixIRT模型包含兩個(gè)水平:過(guò)程水平和個(gè)體水平。在過(guò)程水平, 定義潛類別來(lái)描述不同步驟的異質(zhì)性, 從而對(duì)不同策略進(jìn)行分類; 在個(gè)體水平, 定義連續(xù)潛變量來(lái)估計(jì)個(gè)體的能力。
過(guò)程水平模型:
P( Yjk1=S1,… ,YjkI=SI)表示第 k個(gè)學(xué)生(k=1,…,K)在第j個(gè)步驟(j=1, …,Jk, Jk表示學(xué)生k的步驟總數(shù))后, 得分點(diǎn)上的作答狀態(tài)為(S1,…,SI)的概率(需要注意的是, 每個(gè)學(xué)生完成任務(wù)所使用的步驟數(shù) Jk是不同的); 其中 P ( Cjk= g)表示第 k個(gè)學(xué)生的第 j個(gè)步驟屬于潛在類別 g的概率(g=1,2,…,G), G 為潛在類別數(shù)。 P ( Yjk1=S1,… ,YjkI=SI|Cjk= g)表示第 k個(gè)學(xué)生的第 j個(gè)步驟屬于潛在類別g的條件下, 前面j個(gè)步驟的累積作答狀態(tài)為(S1,…,SI)的條件概率。
個(gè)體水平模型:
個(gè)體水平模型表示基于學(xué)生最終作答狀態(tài)對(duì)個(gè)體水平的能力進(jìn)行估計(jì), 對(duì)應(yīng)的設(shè)計(jì)矩陣A為:如果 j為被試最后一次提交狀態(tài)的作答, 則Aj=(1,1), 否則 Aj=(1,0 )。在個(gè)體水平模型中, yki表示第k個(gè)學(xué)生在第i得分點(diǎn)上的作答。αi表示第i得分點(diǎn)的區(qū)分度參數(shù), βi表示第i得分點(diǎn)的難度參數(shù)(i = 1,2,…,I), θk表示基于過(guò)程中最后一個(gè)步驟估計(jì)得到的學(xué)生k的能力估計(jì)值。假設(shè)θk服從標(biāo)準(zhǔn)正態(tài)分布(θk~N(0, 1))。
圖1表示本研究使用的拓展MMixIRT模型的基本結(jié)構(gòu)。圖中的方框表示學(xué)生在過(guò)程中的作答反應(yīng), 圓形表示潛變量, 三角形中的 1表示元素均為1的常數(shù)向量(這一常數(shù)向量的系數(shù)對(duì)應(yīng)截距參數(shù)βi,即傳統(tǒng)IRT模型中的難度參數(shù))。其中, 對(duì)于過(guò)程水平, Cjk是分類潛變量, 對(duì)于個(gè)體水平, θk是連續(xù)潛變量。在過(guò)程水平, 學(xué)生k在第j個(gè)步驟上對(duì)所有路徑的作答[yjk1,…,yjki,…,yjkI]可以由分類潛變量 Cjk解釋; 在個(gè)體水平, 學(xué)生對(duì)所有路徑的最終作答[yk1,…, yki,…,ykI]可以由連續(xù)潛變量θk解釋。根據(jù)方程(4), 在個(gè)體水平中, 從連續(xù)潛變量θk指向每條路徑反應(yīng)狀態(tài)的箭頭描述了能力 θk的變化對(duì)選擇這條路徑概率的影響, 對(duì)應(yīng)于區(qū)分度參數(shù)(αi), 而從三角形指向每條路徑的箭頭θk表示為0時(shí), 這條路徑的選擇概率, 對(duì)應(yīng)于傳統(tǒng)IRT模型的難度參數(shù)(βi)。
圖1 本研究使用的MMixIRT模型示意圖
采用Monte Carlo模擬研究對(duì)本研究所采用的模型參數(shù)估計(jì)的返真性和分類準(zhǔn)確性進(jìn)行了檢驗(yàn)。設(shè)計(jì)考慮2個(gè)影響因素:(1)過(guò)程水平的潛類別數(shù)(3個(gè), 5個(gè)); (2)個(gè)體完成任務(wù)的過(guò)程步驟數(shù)(30步, 50步), 共2×2=4種實(shí)驗(yàn)條件。使用 R 語(yǔ)言自編程序,基于拓展MMixIRT模型產(chǎn)生每種條件下的反應(yīng)數(shù)據(jù) 。 其 中 αi~ U (1,2 . 5), βi~N (0,1), θk~ N(0,1)(Wang, Xu, Shang, & Kuncel, 2018), 不同類別的反應(yīng)概率參照Nylund, Asparouhov和Muthén (2007)的研究, 不同條件下各類別所占比例和題目(路徑)答對(duì)概率真值見(jiàn)附錄表1。每種條件下假設(shè)所有個(gè)體的過(guò)程步驟數(shù)相等, 其中最后一個(gè)步驟就是個(gè)體的最終作答狀態(tài), 用于估計(jì)個(gè)體水平的能力。每種條件下被試數(shù)固定為600人, 數(shù)據(jù)重復(fù)模擬100次。使用 Mplus 7.11 軟件(Muthén & Muthén, 2005)估計(jì)模型的參數(shù)。
結(jié)果表明, 各參數(shù)返真性較好, 表現(xiàn)在各參數(shù)偏差都很小, 區(qū)分度參數(shù)均方誤差(RMSE)在0.2左右, 難度參數(shù) RMSE在0.1以下, 能力參數(shù)RMSE在0.3左右。各條件下模型分類結(jié)果的準(zhǔn)確性較高,均在96%以上。
本研究使用的是PISA2012問(wèn)題解決測(cè)驗(yàn)中一道交通問(wèn)題的題目(Traffic CP007Q02):地圖上標(biāo)明了每條路徑所需的時(shí)間, 要求學(xué)生找到從Diamond到Einstein的最快路徑。正確的最短路徑需用時(shí)31 min,題目描述和路徑標(biāo)識(shí)如圖2所示。
上述過(guò)程性數(shù)據(jù)來(lái)源于data source: http://www.oecd.org/pisa/data/。首先, 篩選與有效路徑點(diǎn)擊有關(guān)的信息。然后, 將“路徑選擇的情況”按照不同路徑進(jìn)行拆分, 獲得23條路徑(P1, P2, P3…, P23)的點(diǎn)擊結(jié)果。表1是整理后的數(shù)據(jù)格式示例, 每一行代表一個(gè)學(xué)生作答過(guò)程中的一個(gè)步驟, 每一列代表一條路徑。其中, 0表示未選擇, 1表示選擇。例如,第一行表示編號(hào)為00017的學(xué)生在第1步選擇P2,第二行表示第2步選擇P1, 第三行表示第3步選擇P13, ……, 第八行表示第8步取消P1……
圖2 PISA2012交通問(wèn)題題目及其正確路徑
表1 整理后的過(guò)程性數(shù)據(jù)舉例
之后按照答案重新計(jì)分。與傳統(tǒng)試卷分析中的題目類似, 表1中的P1, P2, P3等23個(gè)變量代表23條路徑。正確路徑為:Diamond-Nowhere-Sakharov-Market-Lee-Mandela-Einstein, 即P1, P5, P7, P8,P13和 P17。對(duì)于過(guò)程中的每一步作答, 如果學(xué)生選擇正確路徑, 則該路徑計(jì)分為 1, 否則計(jì)分為 0,同理, 如果選擇了錯(cuò)誤路徑, 則該路徑計(jì)分為 0,否則計(jì)分為1。編碼后的23個(gè)變量命名為CP1, CP2,CP3,…, CP23。表2呈現(xiàn)了編碼后的數(shù)據(jù)格式示例。例如, 第一行表示編號(hào)為00017的學(xué)生在第一步選擇P2, P2為錯(cuò)誤路徑; 第二行表示第2步選擇P1,P1為正確路徑等。
本研究樣本來(lái)自 PISA2012問(wèn)題解決測(cè)驗(yàn)中 5個(gè)地區(qū)的3196名15歲學(xué)生。其中加拿大、中國(guó)香港、中國(guó)上海、新加坡和美國(guó)的樣本量分別為1449、433、411、456、406。5個(gè)地區(qū)共有139990條過(guò)程步驟, 學(xué)生的平均步驟數(shù)為43.80 (SD = 38.06), 其中最小值為1, 最大值為335。學(xué)生作答的平均反應(yīng)時(shí)為669.22 s (SD = 543.12 s), 其中最小值為10.7 s,最大值為2384.7 s。
采用拓展MMixIRT模型, 使用Mplus 7.11軟件對(duì)策略類別和個(gè)體能力進(jìn)行估計(jì)。采用關(guān)聯(lián)規(guī)則挖掘探討不同策略類別之間的關(guān)聯(lián)。
關(guān)聯(lián)規(guī)則挖掘的目的如下:若兩個(gè)或多個(gè)變量之間存在某種規(guī)律性, 則它們之間存在關(guān)聯(lián), 關(guān)聯(lián)規(guī)則挖掘就是尋找同一時(shí)間中不同出現(xiàn)項(xiàng)的相關(guān)性, 以求從大量的數(shù)據(jù)中抽取出隱含的信息。Apriori算法是一種常用的挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集的算法, 其基本思想是從包含一個(gè)項(xiàng)的頻繁項(xiàng)集開(kāi)始, 遞歸地產(chǎn)生具有兩個(gè)項(xiàng)的頻繁項(xiàng)集, 然后依次遞歸, 直到產(chǎn)生所有的頻繁項(xiàng)集(Peter, 2013)。本研究基于SPMF平臺(tái)采用Apriori算法進(jìn)一步分析學(xué)生問(wèn)題解決策略之間的關(guān)系。
使用學(xué)生問(wèn)題解決過(guò)程中與作答時(shí)間有關(guān)的三個(gè)變量(路徑點(diǎn)擊數(shù)、重設(shè)數(shù)量、反應(yīng)時(shí))與模型估計(jì)結(jié)果的相關(guān)進(jìn)一步驗(yàn)證模型估計(jì)結(jié)果的效度。其中, 路徑點(diǎn)擊數(shù)表示學(xué)生點(diǎn)擊路徑的數(shù)量; 重設(shè)數(shù)量表示學(xué)生取消前面所有路徑點(diǎn)擊狀態(tài), 重新開(kāi)始做題的次數(shù); 反應(yīng)時(shí)表示學(xué)生完成任務(wù)所用的時(shí)間。同時(shí), 研究還選取了耗時(shí)與正確作答時(shí)間的差異, 表示最后提交狀態(tài)所選路徑耗時(shí)與正確作答時(shí)間(31 min)差值的絕對(duì)值。
對(duì)于拓展的 MMixIRT模型的分析, 首先需要結(jié)合模型的擬合指標(biāo)和潛在類別的可解釋性(Rosato& Baer, 2012)確定分類的個(gè)數(shù)。表3給出5個(gè)地區(qū)數(shù)據(jù)同時(shí)估計(jì)得到的類別數(shù)為 1~7的模型擬合指標(biāo)。采用的擬合指標(biāo)包括loglikelihood、AIC (Akaike,1974)、BIC (Schwarz, 1978)、aBIC (Tofighi & Enders,2008)和熵(Asparouhov & Muthén, 2014)。其中, 前4個(gè)指標(biāo)越小表示模型和數(shù)據(jù)擬合越好, 熵是用來(lái)測(cè)量混合模型區(qū)分各潛在類別的程度的指標(biāo), 該指標(biāo)越接近 1表示類別區(qū)分越好。從結(jié)果可以看出,潛類別數(shù)量越多, 模型擬合越好。但是, 在 7個(gè)類別的情況下, 有2個(gè)類別的路徑無(wú)法構(gòu)成從起點(diǎn)到終點(diǎn)的完整路線。在6個(gè)類別的情況下, 有1個(gè)類別的路徑無(wú)法構(gòu)成完整路線。因此, 結(jié)合擬合指標(biāo)的結(jié)果和類別的可解釋性, 最終選擇5個(gè)潛類別的結(jié)果。
表2 編碼后的過(guò)程性數(shù)據(jù)舉例
表3 模型擬合指標(biāo)結(jié)果
圖3 各策略選擇路徑情況
拓展的MMixIRT模型可以將學(xué)生每一步過(guò)程操作后所處的狀態(tài)分為5類, 各潛類別點(diǎn)擊各路徑的次數(shù)見(jiàn)附錄表2。分析各類別選擇頻率最高的路徑以及路徑之間的關(guān)聯(lián), 可以形成這一類別的典型路徑。各類別所選典型路線以及順序如圖 3所示,其中圖中帶圈的數(shù)字表示路徑的順序, 每個(gè)類別代表一種解決問(wèn)題策略。因?yàn)閷W(xué)生的每次操作行為存在關(guān)聯(lián), 所以每次操作行為所屬的類別也存在聯(lián)系。如果相鄰兩步操作所屬類別不同, 則學(xué)生使用的策略發(fā)生變化, 即存在策略轉(zhuǎn)移。學(xué)生最后使用的策略與能力值有很高的相關(guān), 如果使用正確策略,則會(huì)正確作答題目, 使用錯(cuò)誤策略, 則會(huì)錯(cuò)誤作答題目, 但是使用不同的錯(cuò)誤類型策略, 能力值不同。
鑒于策略轉(zhuǎn)移的存在, 我們將每個(gè)學(xué)生最后一步屬于的策略作為其最終的策略, 分析不同策略下對(duì)應(yīng)的能力估計(jì)值平均值, 得到5個(gè)策略對(duì)應(yīng)的能力平均值分別為-0.714、-1.281、-0.714、0.399和-0.714。結(jié)合圖3可以看出, 策略4與正確路徑相同, 用時(shí)為 31 min, 個(gè)體的能力值也最高, 說(shuō)明這是正確的策略; 策略 2所選路線是最遠(yuǎn)的路線, 與正確路徑完全沒(méi)有重合, 用時(shí)為35或36 min, 與正確路徑作答時(shí)間差異最大, 個(gè)體的能力值最低, 說(shuō)明這是最差的策略; 策略1、3、5與正確路徑有部分重合, 這些策略雖然選擇了不同的路徑, 錯(cuò)誤類型不一致, 但是其個(gè)體的能力值相等, 說(shuō)明這些策略在優(yōu)劣程度上差異不大。
表4呈現(xiàn)了各地區(qū)學(xué)生在這道題目上最后一步所用策略的分布情況??梢钥闯? 最后一步為策略4 (正確路徑)的學(xué)生比例最高, 為策略2 (能力最低)的學(xué)生比例最低。從不同地區(qū)來(lái)看, 新加坡學(xué)生在最后一步上使用策略4的學(xué)生比例為81.6%, 略高于其他地區(qū), 說(shuō)明新加坡學(xué)生在這道題上表現(xiàn)最好,而美國(guó)學(xué)生在最后一步上使用策略4的學(xué)生比例為75.6%, 略低于其他地區(qū), 而最后一步采用策略 2的比例都高于其他地區(qū), 說(shuō)明美國(guó)學(xué)生表現(xiàn)相對(duì)較差, 這與個(gè)體能力水平估計(jì)的均值結(jié)果是一致的。另外, 不同地區(qū)錯(cuò)誤組學(xué)生在最后一步使用的策略上呈現(xiàn)出不同的特點(diǎn)。例如, 加拿大學(xué)生較多使用策略 3, 新加坡和中國(guó)上海學(xué)生較多使用策略5和3, 而美國(guó)學(xué)生較多使用策略1, 中國(guó)香港學(xué)生較多使用策略1和3。
為了探討過(guò)程數(shù)據(jù)中策略的變換, 研究將學(xué)生在過(guò)程中連續(xù)使用某種策略3次或以上定義為明顯使用了該種典型策略。在描述策略轉(zhuǎn)換中只記錄了不同策略之間的轉(zhuǎn)換, 如果轉(zhuǎn)換過(guò)程中同樣的策略出現(xiàn)了多次, 只記錄最后一次轉(zhuǎn)換。表5呈現(xiàn)了各地區(qū)正確組和錯(cuò)誤組學(xué)生在解題過(guò)程中應(yīng)用策略數(shù)的情況??傮w來(lái)看, 正確組學(xué)生在解題過(guò)程中應(yīng)用策略數(shù)為4和5的情況最多。正確組學(xué)生中應(yīng)用5種策略的人數(shù)比例明顯大于錯(cuò)誤組。說(shuō)明在正確組中, 有接近三分之一的學(xué)生是通過(guò)嘗試所有5種策略才找到正確路線。而錯(cuò)誤組有超過(guò)三分之一的學(xué)生嘗試了4種策略即停止作答, 提交了錯(cuò)誤的路線。從各地區(qū)比較來(lái)看, 新加坡和美國(guó)正確組應(yīng)用5種策略的學(xué)生比例低于其他地區(qū), 其中美國(guó)最低。
表4 各地區(qū)學(xué)生解題最后一步所用策略分布比例(%)
表5 各地區(qū)問(wèn)題解決過(guò)程應(yīng)用策略數(shù)分布比例(%)
為了進(jìn)一步分析策略之間的關(guān)系, 表 6和表 7呈現(xiàn)了 Apriori算法的關(guān)聯(lián)分析結(jié)果。頻繁項(xiàng)集指頻繁同時(shí)出現(xiàn)的兩種策略, 頻次表示這兩種策略同時(shí)出現(xiàn)的次數(shù)。置信度是指包含前項(xiàng)和后項(xiàng)的事務(wù)個(gè)數(shù)在包含前項(xiàng)的事務(wù)總數(shù)中的比例。例如, 5==>1表示同時(shí)使用策略1和策略5的學(xué)生人數(shù)占使用策略5學(xué)生人數(shù)的比例。根據(jù)表9結(jié)果可以看出, 在正確組學(xué)生的策略使用規(guī)則中, 策略3和5, 策略3和4, 策略2和5, 策略1和5具有較強(qiáng)的關(guān)聯(lián)關(guān)系。例如, 對(duì)于使用策略 5的學(xué)生來(lái)說(shuō), 同時(shí)使用策略3的概率為 0.51。與正確組學(xué)生不同的是, 錯(cuò)誤組學(xué)生的策略使用規(guī)則中, 策略3和4存在較弱的關(guān)聯(lián), 即錯(cuò)誤組學(xué)生能夠?qū)⒉呗?轉(zhuǎn)換到使用正確策略4的概率較低。另外, 對(duì)于使用策略5的學(xué)生來(lái)說(shuō), 使用策略3的概率明顯低于正確組學(xué)生。根據(jù)表7可以看出, 各地區(qū)正確組和錯(cuò)誤組學(xué)生使用策略規(guī)則基本一致, 但是中國(guó)上海的正確組學(xué)生表現(xiàn)出不一致的策略使用規(guī)則, 具體來(lái)講, 使用策略 2的學(xué)生使用策略5的概率、使用策略3的學(xué)生使用策略5的概率明顯高于其他地區(qū); 使用策略4的學(xué)生使用策略3的概率、使用策略3的學(xué)生使用策略4的概率明顯低于其他地區(qū)。
表6 學(xué)生總體應(yīng)用策略之間的關(guān)系
表8呈現(xiàn)了路徑點(diǎn)擊數(shù)、重設(shè)數(shù)量、耗時(shí)與正確作答時(shí)間的差異、反應(yīng)時(shí)這些過(guò)程性變量以及個(gè)體能力值的描述性統(tǒng)計(jì)指標(biāo), 及過(guò)程性變量與個(gè)體能力值的相關(guān)。從表8中可以看出, 對(duì)于所有地區(qū),正確組的路徑點(diǎn)擊數(shù)小于錯(cuò)誤組, 正確組的重設(shè)數(shù)量小于錯(cuò)誤組, 正確組和錯(cuò)誤組的反應(yīng)時(shí)沒(méi)有顯著差異。耗時(shí)與正確作答時(shí)間的差異越大, 個(gè)體能力估計(jì)值的平均水平越低。另外, 結(jié)果還反映了不同地區(qū)在完成題目過(guò)程中的特點(diǎn)。從描述統(tǒng)計(jì)方面來(lái)看, 各地區(qū)呈現(xiàn)出了不同的典型特征, 例如, 美國(guó)學(xué)生個(gè)體能力估計(jì)值的平均水平最低, 路徑點(diǎn)擊數(shù)最少, 錯(cuò)誤組耗時(shí)與正確作答時(shí)間的差異明顯大于其他地區(qū); 而新加坡學(xué)生個(gè)體能力估計(jì)值的平均水平最高, 但是平均反應(yīng)時(shí)也最長(zhǎng)。
表7 各地區(qū)學(xué)生應(yīng)用策略之間的關(guān)系
表8 過(guò)程變量的描述統(tǒng)計(jì)及其與個(gè)體水平能力估計(jì)值的相關(guān)
拓展的MMixIRT模型結(jié)合了IRT模型、潛類別模型和多水平模型的特點(diǎn), 不僅可以在過(guò)程水平分析策略類別特征, 而且還可以在個(gè)體水平估計(jì)能力值。在過(guò)程水平, 使用潛類別模型確定學(xué)生解題的過(guò)程策略, 深入探討策略應(yīng)用的情況; 在個(gè)體水平, 使用IRT模型估計(jì)學(xué)生的個(gè)體能力值。模型優(yōu)勢(shì)在于能夠同時(shí)描述過(guò)程水平和個(gè)體水平的信息。過(guò)程水平中的策略分析能夠得到不同群體在問(wèn)題解決過(guò)程中的典型行為模式和思維特點(diǎn), 從而更好地為提高學(xué)生的問(wèn)題解決能力提供有針對(duì)性的信息。另外, 拓展 MMixIRT模型具有良好的參數(shù)返真性和較高的分類準(zhǔn)確性, 能夠應(yīng)用于過(guò)程性數(shù)據(jù)的分析。
研究將拓展的MMixIRT模型應(yīng)用于分析5個(gè)地區(qū)學(xué)生完成問(wèn)題解決題目的過(guò)程性數(shù)據(jù), 驗(yàn)證了該模型結(jié)果的合理性和可解釋性。首先, 操作步驟特征可分為5種策略, 體現(xiàn)了問(wèn)題解決過(guò)程中不同能力水平學(xué)生的特征。策略 4是正確的解題策略,最后一步為策略4的學(xué)生比例越高, 平均能力水平也越高。策略2是距離正確路徑最遠(yuǎn), 耗時(shí)最長(zhǎng)的策略, 即最差的策略。最后一步為策略2的學(xué)生比例越多, 平均能力水平也越低。其次, 關(guān)于策略應(yīng)用和轉(zhuǎn)換的結(jié)果體現(xiàn)了學(xué)生解決問(wèn)題過(guò)程中試誤策略的應(yīng)用, 這與現(xiàn)實(shí)中問(wèn)題解決策略的使用一致。在正確組中, 學(xué)生在解題過(guò)程中應(yīng)用策略數(shù)為4次、5次的情況最多, 說(shuō)明學(xué)生通過(guò)不斷轉(zhuǎn)換策略完成題目, 很少有學(xué)生只使用一種正確策略直接解決了問(wèn)題。另外, 最典型的正確組學(xué)生策略使用規(guī)則是從策略3轉(zhuǎn)換到策略4。也就是學(xué)生先選擇了與正確路線重合的前三條路徑, 然后在下一條路徑上, 沒(méi)有選擇從Market到Lee, 而是從Market到了Park (見(jiàn)圖3, 后面三條路徑的用時(shí)加起來(lái)為16 min,大于正確答案后三條路徑的用時(shí)15 min。然后學(xué)生可能發(fā)現(xiàn)存在比這樣走用時(shí)更短的路線, 于是從策略3轉(zhuǎn)換到了策略4, 即從Market改為走向Lee, 從而選擇了正確答案的路線。而在錯(cuò)誤組中, 學(xué)生在解題過(guò)程中應(yīng)用策略數(shù)為4的情況最多, 但是較少的學(xué)生堅(jiān)持嘗試了5種策略。最后, 操作過(guò)程變量與策略和能力之間關(guān)聯(lián)分析的結(jié)果, 證實(shí)了這一模型分析過(guò)程數(shù)據(jù)的有效性。部分過(guò)程性的變量與個(gè)體的問(wèn)題解決能力有顯著相關(guān), 結(jié)果表明, 除過(guò)程中學(xué)生策略選擇外, 其他過(guò)程變量(例如, 路徑點(diǎn)擊數(shù)、重設(shè)次數(shù)等)也均在不同程度上與學(xué)生的問(wèn)題解決能力存在相關(guān)。
研究還關(guān)注了不同地區(qū)間過(guò)程水平和個(gè)體水平分析結(jié)果的比較。首先, 各地區(qū)在過(guò)程性變量上呈現(xiàn)出不同的特點(diǎn), 例如, 美國(guó)學(xué)生問(wèn)題解決能力最低, 路徑點(diǎn)擊數(shù)最少, 錯(cuò)誤組耗時(shí)與正確作答時(shí)間的差異明顯大于其他地區(qū), 而新加坡學(xué)生問(wèn)題解決能力最高, 反應(yīng)時(shí)也最長(zhǎng)。從文化差異上來(lái)看,西方文化背景下學(xué)生關(guān)注個(gè)人價(jià)值以及個(gè)體的好奇心和興趣, 而儒家文化背景下學(xué)生關(guān)注個(gè)體努力程度, 他們認(rèn)為努力是實(shí)現(xiàn)成功的必備因素(Li,2012)。此題考查的是問(wèn)題解決的計(jì)劃與執(zhí)行部分,如果學(xué)生不斷努力試錯(cuò), 也可以得到正確答案。努力程度(工具性動(dòng)機(jī))會(huì)促進(jìn)學(xué)生問(wèn)題解決的表現(xiàn)。這也可能是新加坡、中國(guó)上海、中國(guó)香港學(xué)生的問(wèn)題解決能力較高的原因。而新加坡學(xué)生問(wèn)題解決表現(xiàn)最好, 主要源于新加坡的整體課程設(shè)計(jì)注重學(xué)生的問(wèn)題解決能力, 將問(wèn)題解決能力系統(tǒng)納入課程,例如, 其在中小學(xué)數(shù)學(xué)大綱中在數(shù)學(xué)過(guò)程部分, 明確列出了思維技能和問(wèn)題解決策略(Fan & Zhu, 2007)。因此, 在策略使用上, 新加坡正確組應(yīng)用 5種策略的學(xué)生比例明顯低于其他地區(qū), 說(shuō)明新加坡學(xué)生解決問(wèn)題典型特征是思考時(shí)間比較長(zhǎng), 使用策略數(shù)相對(duì)較少而得到正確答案。而美國(guó)學(xué)生正確組應(yīng)用5種策略的學(xué)生比例也較低, 解決問(wèn)題典型特征是思考時(shí)間比較少, 但是并未像其他地區(qū)一樣, 去嘗試足夠多的策略最終得到正確結(jié)果。其次, 加拿大、中國(guó)香港、中國(guó)上海、新加坡錯(cuò)誤組學(xué)生在最后一步較多使用策略 3。從策略應(yīng)用的結(jié)果可以看出,很多作答正確的學(xué)生都是從策略 3轉(zhuǎn)到了策略 4,說(shuō)明對(duì)這些解題錯(cuò)誤的學(xué)生, 如果再給予更多的思考時(shí)間, 有很大的可能最終轉(zhuǎn)換為正確的策略。這些結(jié)果可以為教學(xué)和訓(xùn)練提供更加豐富的信息, 幫助教師給予有針對(duì)性的指導(dǎo)。綜上, 過(guò)程性數(shù)據(jù)分析的結(jié)果一方面能夠給教育測(cè)量研究者和測(cè)驗(yàn)題目研發(fā)者提供更多信息, 以便進(jìn)行命題改進(jìn), 另一方面, 這些信息還可以被納入測(cè)驗(yàn)計(jì)分體系, 測(cè)驗(yàn)計(jì)分不再只基于學(xué)生個(gè)體的最后作答, 而結(jié)合了學(xué)生策略的使用, 這將在一定程度上豐富測(cè)驗(yàn)分?jǐn)?shù)的含義。
拓展的 MMixIRT模型比較靈活, 可以在實(shí)際中結(jié)合題目的特點(diǎn)和關(guān)注的重點(diǎn)定義不同的模型。首先, 可以在模型的個(gè)體水平中加入描述學(xué)生類別特征的潛類別, 也可以考慮在過(guò)程水平中加入描述步驟能力的連續(xù)潛變量, 探討學(xué)生在解題過(guò)程中能力的變化情況(Liu, Liu, & Li, 2018)。其次, 還可以在模型加入能夠減少測(cè)量誤差并能預(yù)測(cè)學(xué)生問(wèn)題解決能力的其他協(xié)變量, 例如學(xué)生的動(dòng)機(jī)等(Fox &Glas, 2003)。最后, 本研究為單任務(wù)情境, 當(dāng)分析對(duì)象為多任務(wù)時(shí), 可以將其拓展為三水平模型, 分別為過(guò)程水平、任務(wù)水平和個(gè)體水平, 同時(shí)考察不同任務(wù)情境問(wèn)題解決策略的應(yīng)用以及多任務(wù)情境下個(gè)體能力估計(jì)。
本研究具有一定的局限性。首先, 在策略轉(zhuǎn)換分析時(shí), 將使用某種策略3次或以上定義為使用了該種典型策略, 這樣的定義也損失了一部分不穩(wěn)定的策略轉(zhuǎn)換的信息。如果這種不穩(wěn)定的策略轉(zhuǎn)換也是考察的對(duì)象, 可以將這些信息納入策略轉(zhuǎn)換的分析中。其次, 分析過(guò)程中只是將單一的路徑作為分析的單元, 沒(méi)有考慮可能的路徑組合(如某些情況下, 不同路徑之間的鏈接是唯一的, 可能將這些路徑合起來(lái)分析更加合理), 可以在未來(lái)的研究中考慮不同路徑組合轉(zhuǎn)換的模型。另外, 這一模型在復(fù)雜問(wèn)題解決過(guò)程中的普適性尚待進(jìn)一步檢驗(yàn), 使用MMixIRT模型的前提是需要將過(guò)程性數(shù)據(jù)編碼為類似本研究中的數(shù)據(jù)結(jié)構(gòu), 實(shí)際中可能某些任務(wù)不太容易實(shí)現(xiàn)這樣的編碼轉(zhuǎn)換。
研究得出的主要結(jié)論如下:
第一, 拓展的 MMixIRT模型不僅可以基于行為序列分析學(xué)生解題過(guò)程中策略使用情況, 還可以在個(gè)體水平上提供能力估計(jì)值。
第二, 使用拓展的 MMixIRT模型可以對(duì)不同地區(qū)學(xué)生在解決問(wèn)題時(shí)策略使用情況的典型特征進(jìn)行分析, 為有針對(duì)性的訓(xùn)練提供參考。
附表1模擬研究中各類別數(shù)量比例及題目答對(duì)概率
注:此處的題目答對(duì)概率是指除去最終作答狀態(tài)的所有過(guò)程步驟的概率, 真實(shí)值中最終作答狀態(tài)的分類與各潛在類別的特征一致。
潛類別數(shù)為3潛類別數(shù)為5題目 類別1(33.33%)類別2(33.33%)類別3(33.33%)類別1(20.00%)類別2(20.00%)類別3(20.00%)類別4(20.00%)類別5(20.00%)1 0.85 0.85 0.10 0.85 0.85 0.10 0.10 0.10 2 0.85 0.85 0.20 0.85 0.85 0.20 0.20 0.20 3 0.85 0.85 0.10 0.85 0.85 0.10 0.10 0.10 4 0.85 0.85 0.20 0.85 0.85 0.20 0.20 0.20 5 0.85 0.85 0.10 0.85 0.85 0.10 0.10 0.10 6 0.85 0.85 0.20 0.85 0.10 0.85 0.20 0.20 7 0.85 0.85 0.10 0.85 0.20 0.85 0.10 0.10 8 0.85 0.85 0.20 0.85 0.10 0.85 0.20 0.20 9 0.85 0.85 0.10 0.85 0.20 0.85 0.10 0.10 10 0.85 0.85 0.20 0.85 0.10 0.85 0.20 0.20 11 0.85 0.10 0.85 0.85 0.20 0.20 0.85 0.10 12 0.85 0.20 0.85 0.85 0.10 0.10 0.85 0.20 13 0.85 0.10 0.85 0.85 0.20 0.20 0.85 0.10 14 0.85 0.20 0.85 0.85 0.10 0.10 0.85 0.20 15 0.85 0.10 0.85 0.85 0.20 0.20 0.85 0.10 16 0.85 0.20 0.85 0.85 0.10 0.10 0.10 0.85 17 0.85 0.10 0.85 0.85 0.20 0.20 0.20 0.85 18 0.85 0.20 0.85 0.85 0.10 0.10 0.10 0.85 19 0.85 0.10 0.85 0.85 0.20 0.20 0.20 0.85 20 0.85 0.20 0.85 0.85 0.10 0.10 0.10 0.85
附錄2每個(gè)類別點(diǎn)擊各路徑的次數(shù)
路徑 類別1 類別2 類別3 類別4 類別5 路徑 類別1 類別2 類別3 類別4 類別5 P1 31050 1010 26185 10450 1175 P13 26422 535 27272 10874 276 P2 358 20917 272 71 26673 P14 70 12160 120 23 197 P3 14 4771 10 4 10 P15 766 1131 5969 345 4394 P4 16 1942 45 10 12 P16 740 3933 11056 158 9578 P5 10752 320 396 8981 4465 P17 836 430 28099 11113 785 P6 33 3751 24 17 19 P18 17576 266 374 64 157 P7 7554 1027 4109 6684 7135 P19 97 6384 196 11 549 P8 1082 241 433 11053 4972 P20 136 575 374 91 20809 P9 860 800 22245 154 14474 P21 80 21507 179 22 360 P10 15100 380 728 259 394 P22 60 5906 286 0 730 P11 1468 6723 7752 477 9474 P23 12 5436 120 2 6 P12 27 7128 33 10 84