首 新 田 偉 李 健 劉 楊
基于過程數(shù)據(jù)的人機“虛擬代理”協(xié)作問題解決測評研究*——以PISA中國四地區(qū)為例
首 新1,5田 偉2李 健3劉 楊4
(1.重慶師范大學(xué) 科技教育與傳播研究中心,重慶 401331;2.北京師范大學(xué) 中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心,北京 100875;3.重慶高新區(qū)教育事務(wù)中心,重慶 400041;4.陜西師范大學(xué) 生命科學(xué)學(xué)院,陜西西安 710119;5.西南大學(xué) 教育學(xué)部,重慶 400715)
當(dāng)前,隨著交互測評技術(shù)的發(fā)展,分析個體與“虛擬代理”的協(xié)作動態(tài)信息已成為當(dāng)前交互式協(xié)作問題解決測評的新趨勢。為此,文章基于過程性視角分析了中國四地區(qū)(京滬蘇粵、香港、澳門、臺灣)青少年在PISA項目“Xandar”一題上的協(xié)作問題解決過程,結(jié)果發(fā)現(xiàn):在交互式測評中,適量的點擊鼠標(biāo)更有助于思考答題;協(xié)作過程注重監(jiān)控、反思、調(diào)整等更可能成為高水平者(如香港),這反映出元認知體驗和策略對復(fù)雜技能的重要性;四地區(qū)學(xué)生表現(xiàn)可形成三類群組,其中京滬蘇粵在“執(zhí)行與技術(shù)”組的占比較大、香港在“決策與組織”組的占比較大,依據(jù)PISA等級水平,學(xué)生善于主動采取行動進行決策,解決分歧和沖突更可能處于高等級。最后,文章基于研究結(jié)果提出了發(fā)展協(xié)作問題解決能力的教學(xué)建議,以期更好地推進協(xié)作問題解決能力培養(yǎng)。
協(xié)作問題解決;PISA;交互式測評;虛擬代理;青少年
人機交互是研究人與計算機之間信息交流、影響的技術(shù)系統(tǒng),“人”指操作者和用戶,“機”指新興技術(shù)設(shè)備。從最初的鼠標(biāo)拖動、單向瀏覽到現(xiàn)如今的語言識別、情意捕捉等,交互技術(shù)已轉(zhuǎn)向判別交互過程中的認知屬性。隨著交互技術(shù)的發(fā)展,教育領(lǐng)域的人機交互測評開始嘗試加入虛擬代理(Virtual Agent)開展基于情境的問題解決評估[1]。在這一過程中,虛擬代理通過預(yù)先設(shè)計好的腳本模擬真實情境中與被試的限定性對話或含義更廣泛的提示、引導(dǎo)、操作、交流等互動,讓被試展現(xiàn)真實的協(xié)作問題解決水平。
國際大型測評項目(Program for International Student Assessment,PISA)在2015年已全面在計算機環(huán)境下對15歲青少年開展協(xié)作問題解決測驗,而測驗中的“虛擬代理”通過與被試對話或含義更廣泛的互動,以提示、協(xié)助、引導(dǎo)等方式推進被試與“虛擬代理”的協(xié)作問題解決。與“虛擬代理”的協(xié)作能反映被試的協(xié)作問題解決過程和方向,這為分析協(xié)作問題解決提供了新的過程視角。為此,本研究著眼于PISA項目中國四地區(qū)(京滬蘇粵、澳門、臺灣、香港)協(xié)作問題解決的過程數(shù)據(jù)來刻畫學(xué)生的協(xié)作問題解決歷程,比較四地區(qū)青少年在協(xié)作策略、模式上的差異,為更好地開展協(xié)作問題解決能力培養(yǎng)提供有益建議。
捕捉協(xié)作問題解決過程可以展現(xiàn)個體的社會交互程度,彌補結(jié)果性評價的不足。目前國際測評PISA/ATC21S項目采用的交互式測驗,都強調(diào)從過程性視角評估個體的協(xié)作問題解決能力。體現(xiàn)協(xié)作過程的個體表現(xiàn)測驗主要有“人-機”交互、“人-人”交互兩種測評模式,均是基于計算機環(huán)境記錄被試在計算機環(huán)境中的操作,并生成日志數(shù)據(jù)來表征問題解決過程[2]。其中,“人-機”交互測驗并不是簡單地將紙筆測試電子化,而是被試與虛擬代理(表征團隊其他成員)對話探討問題解決路徑,通過捕捉被試選擇路徑的過程來判別其協(xié)作問題解決水平。“人-機”交互測驗的基本邏輯是,被試在精心創(chuàng)設(shè)的試題情境中,通過代理呈現(xiàn)提示,或協(xié)助、引導(dǎo)探究過程,讓被試有充分的空間展現(xiàn)其問題解決水平,表達實質(zhì)推進問題解決的見解。這是一種基于腳本的封閉情境測試,“封閉”是指被試只能選擇腳本已有內(nèi)容與虛擬代理進行“協(xié)作”,進而展現(xiàn)交互性的動態(tài)測驗,提高測驗的針對性和有效性[3]。代理是腳本的可視化,除了在測驗中進行引導(dǎo),還可幫助不能推進問題解決的被試逐步回歸正確路徑,但相應(yīng)階段的得分會降低。當(dāng)然,“人-機”交互測驗的封閉性也可能會束縛被試所期望的協(xié)作進程,也就是基于腳本的測驗可能阻礙了被試的認知投入和知識激發(fā)[4]。
另一種相對開放的“人-人”交互測驗則更能捕捉個體面對小組任務(wù)時的認知過程,此時計算機只提供虛擬情境,小組成員合作決策下一步操作,逐步達成共同目標(biāo)[5]。“人-人”交互測驗的基本邏輯是:充分基于個體已有經(jīng)驗進行社會交互,由此形成小組內(nèi)部、個體外部的信息不對稱態(tài)勢,以對話交流、討論、操作等過程揭示個體在團隊中的協(xié)作問題解決能力?!叭?人”交互測驗基本無腳本限制,但也有一些獨立于測驗內(nèi)容的腳本支架可以引導(dǎo)小組把握正確的方向,以明確下一步操作[6]?!叭?人”交互測驗展現(xiàn)了真實的合作過程,并且測驗系統(tǒng)記錄的豐富過程數(shù)據(jù)為揭示個體協(xié)作問題解決水平提供了證據(jù),但計算機的記錄可能會產(chǎn)生成千上萬的碎片信息,這樣建立對關(guān)鍵行為可識別的評判標(biāo)準(zhǔn)就顯得尤為重要了。而這也是目前“人-人”交互測驗的核心難題,如ATC21S項目采用“人-人”交互測驗,僅涉及小組兩位被試,這尚未構(gòu)成個體面向外部的社會交互,顯示了還原協(xié)作問題解決能力這一復(fù)雜技能的困難。
PISA于2003年首次增設(shè)問題解決測試項目,以測評學(xué)生綜合解決現(xiàn)實生活實際問題的能力,PISA 2012進一步細化了問題解決中的認知過程,將其分為探索和理解、表征和形式、監(jiān)控和反思、計劃和實施四個方面。PISA 2015在此基礎(chǔ)上又增加三項協(xié)作要素(達成共識、采取行動、建立團隊),由此形成3×4的協(xié)作問題解決測評框架?;谠摽蚣芎蜏y試結(jié)果,PISA制定了協(xié)作問題解決能力水平4級精熟度,其中第4級代表最高水平(640分以上)[7]。雖然都是一種個人能力,但不同于個人問題解決,PISA測評協(xié)作性問題解決的過程是建立在共同任務(wù)上,成員之間進行任務(wù)分配,激發(fā)個體嘗試用知識、觀點和經(jīng)驗來解決共同問題,期間會有爭論、激勵等。被試的協(xié)作對象為2~3名虛擬代理,利用預(yù)先制定的腳本盡可能體現(xiàn)個體與外界的社會交互和構(gòu)建,在腳本控制下,被試通過選擇與虛擬代理的對話內(nèi)容來表征協(xié)作問題解決進程,這種模擬與情境聊天室集成在一起,以此評估其相關(guān)技能水平。
PISA利用“人-機”交互所測的協(xié)作問題解決能力用于建立通用的標(biāo)準(zhǔn)進行各個國家或地區(qū)的比較,讓教育決策者發(fā)現(xiàn)各自學(xué)生的協(xié)作問題解決能力與其他教育體系學(xué)生相比有何差異,反思自我教育系統(tǒng)的不足,以制定更好的教育政策制度,因而PISA測試報告更加關(guān)注各國家或地區(qū)的結(jié)果,但國家內(nèi)部的地區(qū)差異需要根據(jù)研究目標(biāo)進行二次分析,這對于教育決策者關(guān)注國家內(nèi)部教育均衡發(fā)展仍至關(guān)重要。我國共有四地區(qū)學(xué)生參與PISA協(xié)作問題解決能力測驗,那么這些學(xué)生的協(xié)作問題解決行為表現(xiàn)有何差異,表現(xiàn)出哪些特征?高水平協(xié)作問題解決者有何特質(zhì)?如何推進有針對性的教學(xué)改革揚長避短?對于這些問題的回答,本研究著眼于地區(qū)性協(xié)作問題解決過程進行比較,嘗試從過程性視角解構(gòu)中國四地區(qū)(下文簡稱“四地區(qū)”)學(xué)生與虛擬代理協(xié)作的路徑及差異,以便從全新的視角提出發(fā)展協(xié)作問題解決能力的有效策略。
表1 “Xandar”一題的評測內(nèi)容明細
基于過程數(shù)據(jù)分析視角,本研究擬采用關(guān)系挖掘、Rasch模型、序列分析、聚類等方法分析四地區(qū)學(xué)生在國際測評PISA項目“Xandar”一題(樣題)上的協(xié)作問題解決過程及特征,進而提出發(fā)展學(xué)生協(xié)作問題解決能力的教學(xué)建議。
本研究以四地區(qū)參與PISA協(xié)作問題解決測驗“Xandar”一題作答的15歲學(xué)生為研究對象。中國四地區(qū)共4704名學(xué)生作答“Xandar”一題,加權(quán)后實際代表281375個樣本。為避免地區(qū)樣本差異,所有結(jié)果均采用PISA提供的權(quán)重變量“SENWT”進行加權(quán)處理,將四地區(qū)學(xué)生總數(shù)調(diào)整為相同的數(shù)值(均為5000)進行分析。
“Xandar”一題創(chuàng)設(shè)的情境是老師把全班同學(xué)分成三人一小組進行比賽。率先正確回答出有關(guān)“Xandar”國在地理、國民和經(jīng)濟領(lǐng)域12個問題的小組獲勝,老師建議小組在比賽開始前先花一點時間討論怎樣才能更好地完成任務(wù)。項目評估重點并非是回答12個問題,而是被試與另外兩位“虛擬代理”Alice和Zach組成三人小組,以對話的形式商討如何分工協(xié)作。該題展現(xiàn)的協(xié)作問題解決過程包括:①商定形成答題策略(每位同學(xué)負責(zé)一個領(lǐng)域);②選定各自的答題領(lǐng)域(根據(jù)對三個領(lǐng)域的熟悉度確定負責(zé)哪一個);③監(jiān)控答題過程(先關(guān)注自己的領(lǐng)域,再幫助其他人解決有困難的問題)。這些過程涉及的協(xié)作問題解決要素包含了解問題情境、商議問題策略、達成解題共識、有效參與問題解決、評估團隊進展等[8]。評測內(nèi)容明細如表1所示。
表2 “Xandar”一題行為序列編碼(1-11)
注:1表示從行為C101到行為C102,形成一個行為序列,其他以此類推。
本研究首先初步分析四地區(qū)學(xué)生在“Xandar”一題中答題時間及鼠標(biāo)點擊次數(shù)方面的差異;然后深入分析其答題的行為特征,再進一步解構(gòu)答題行為序列,進而尋求答題過程群組并分析差異;最后進行教學(xué)反饋并提出有針對性的教學(xué)策略。本研究涉及的變量包括:①答題時間。②鼠標(biāo)點擊次數(shù)。③答題行為,定義點擊鼠標(biāo)一次表征一個行為,“Xandar”一題共有12個關(guān)鍵行為。④答題行為序列?!癤andar”一題的答題操作順序與問題解決時程一致,是鏈條式且不能跳躍的,因此定義兩個相鄰行為組成一個行為序列,“Xandar”一題設(shè)置了12個考察點,組合相鄰行為共有11種行為序列,其編碼如表2所示。每個行為有正(用1表示)、誤(用0表示)兩種情況,因此一個行為序列有0-1、1-1、1-0、0-0四種情形,本研究擬進一步分析行為序列的四種情形以獲得四地區(qū)學(xué)生協(xié)作問題解決的特征。⑤學(xué)生協(xié)作問題解決表現(xiàn)。本研究采用Greiff等[9]的建議,以PISA提供的第一個似真值(First Plausible Value)得分表征個體協(xié)作問題解決水平。
為了精準(zhǔn)分析四地區(qū)學(xué)生在“Xandar”一題中的作答行為表現(xiàn),展現(xiàn)其協(xié)作問題解決過程,挖掘協(xié)作問題解決特征,本研究采用相關(guān)、比率、匹配等關(guān)系挖掘方法分析四地區(qū)學(xué)生在“Xandar”一題中的答題時間、鼠標(biāo)點擊次數(shù)以及行為序列時程,擬合Rasch模型比較四地區(qū)學(xué)生的行為水平差異,并基于序列分析思想進一步揭示四地區(qū)學(xué)生的協(xié)作問題解決過程行為差異,進而運用兩步聚類方法設(shè)置協(xié)作問題解決群組,表征四地區(qū)學(xué)生的協(xié)作問題解決特征,最終為發(fā)展學(xué)生協(xié)作問題解決能力提供有效建議。
基于上述研究方法,本研究借助SPSS 22、Winsteps 3.72、Excel等工具對四地區(qū)學(xué)生作答“Xandar”一題所產(chǎn)生的89628條信息(數(shù)據(jù)清洗之后所得)進行數(shù)據(jù)分析,以揭示四地區(qū)學(xué)生的協(xié)作問題解決過程及行為表現(xiàn)特征。
通過數(shù)據(jù)分析,本研究獲得了四地區(qū)學(xué)生在表層答題時間/鼠標(biāo)點擊、行為水平,在深層行為序列、協(xié)作問題解決群組等方面的結(jié)果,為揭示學(xué)生協(xié)作問題解決過程提供了依據(jù)。
“Xandar”一題的答題時間、鼠標(biāo)點擊次數(shù)如圖1、圖2所示。其中,橫坐標(biāo)為百分位數(shù),縱坐標(biāo)為答題時間(秒)/鼠標(biāo)點擊次數(shù)(次)。答題時間方面,澳門學(xué)生花費的時間最多(M=320.51秒),之后依次是京滬蘇粵(M=313.26秒)、香港(M=286.26秒),而臺灣學(xué)生最少(M=272.67);尤其在60th~70th,香港學(xué)生的答題時間有驟降趨勢,與臺灣學(xué)生基本重合。
圖1 四地區(qū)在“Xandar”一題的答題時間情況
鼠標(biāo)點擊次數(shù)方面,香港學(xué)生最多(M=67.32次),之后依次是京滬蘇粵(M=61.46)、臺灣(M=60.26次),澳門學(xué)生最少(M=57.67次)。澳門學(xué)生花費最多的時間答題但鼠標(biāo)點擊次數(shù)相對卻最少,說明澳門學(xué)生傾向于在思考后點擊鼠標(biāo)答題,而非一邊點擊鼠標(biāo)一邊思考進行作答。與此形成強烈對比的是香港學(xué)生,其答題時間相對較少,但點擊鼠標(biāo)次數(shù)最多,反映出兩地學(xué)生不同的答題策略:香港學(xué)生可能更期望通過不斷點擊鼠標(biāo)來推進思考,加快答題速度,而澳門學(xué)生則傾向于靜態(tài)思考。如前所述,“Xandar”一題共設(shè)置了12個考察點,一般認為答對80%為優(yōu)良,以此為標(biāo)準(zhǔn)(至少答對9個),那么香港學(xué)生的優(yōu)良率為42.26%,澳門學(xué)生為26.67%,說明回答計算機交互試題時,以點擊鼠標(biāo)進行操作性思考和調(diào)整更有助于答題。
本研究建立Rasch模型,分析12個行為與學(xué)生協(xié)作問題解決表現(xiàn)之間的關(guān)系。Rasch模型以對數(shù)轉(zhuǎn)換為基礎(chǔ),將個體能力(本研究中指學(xué)生的協(xié)作問題解決表現(xiàn))與項目難度(本研究中指12個關(guān)鍵行為所表征的認知難度)放在同一量尺下進行匹配,將個體與項目的對應(yīng)關(guān)系可視化。如圖3所示,量尺左側(cè)呈現(xiàn)學(xué)生的協(xié)作問題解決能力分布情況,右側(cè)呈現(xiàn)關(guān)鍵行為認知水平難度。量尺從下到上,隨著學(xué)生協(xié)作問題解決能力的提升,關(guān)鍵行為認知難度也隨之增大。由圖3可知,澳門、臺灣學(xué)生答題顯示行為C401較難(Rasch值為3.80、2.23),京滬蘇粵、香港學(xué)生答題顯示行為C302較難(Rasch值為2.93、2.57)。行為C302、C401同屬于4級難度,且是相鄰行為,其中行為C302反映學(xué)生對團隊問題解決過程的監(jiān)控,確保成員按照商定策略進行;行為C401反映對階段性問題解決結(jié)果的監(jiān)控,并對后續(xù)進程進行有效評估。香港學(xué)生認為C302較難而C401較簡單,說明他們更傾向于對階段性結(jié)果進行評估和反思,并預(yù)測后續(xù)過程。澳門學(xué)生與之形成鮮明對比,認為C401較難而C302較簡單,說明他們更關(guān)注問題解決過程中小組的進度,并進行及時交流。從正確率來看,香港學(xué)生在C302上為18.79%,在C401上為58.03%(18.79%<58.03%);澳門學(xué)生在C302上為21.71%,在C401上為5.31%(21.71%>5.31%),也充分佐證了上述不同地區(qū)學(xué)生所表現(xiàn)出的問題解決過程特征。
圖3 四地區(qū)行為水平分布Rasch圖(從左到右依次是京滬蘇粵、澳門、臺灣、香港)
PISA已事先標(biāo)定“Xandar”一題12個行為的認知難度,分為1~4共4個難度水平(參見表1)。利用Rasch模型獲得的大部分行為難度水平分布與PISA標(biāo)定結(jié)果大致相同,但某些行為表現(xiàn)并不一致,如行為C203、C105分別標(biāo)定為2級、1級難度水平,但圖3顯示相對其他行為其處于量尺上部;行為C201、C301標(biāo)定為4級難度水平,但其相對處于量尺下部。針對Rasch實測結(jié)果與PISA標(biāo)定難度水平不一致的情況,可進一步對行為所表征的認知難度進行調(diào)整。
11種行為序列在1-0(1表示正確,0表示錯誤)、0-0、0-1、1-1四種情形的占比情況如圖4所示。整體來看,在1-0情形中,波動較大的是行為序列7、8、9;在0-0情形中,波動較大的是行為序列6、10;在0-1情形中,波動較大的是行為序列8、10、11;在1-1情形中,波動較大的是行為序列6、10、11。行為序列7在1-0情形中占比較大,在0-1情形中占比較小,行為序列9與之類似,行為序列8與之相反,行為序列7、8、9可構(gòu)成鏈C202-203-301-302,說明四地區(qū)大部分學(xué)生能答對C202、C301,卻答錯C203、C302。皮爾遜相關(guān)分析結(jié)果顯示,行為C203、C302與個體協(xié)作問題解決得分相關(guān)度為0.05、0.13(<0.2),說明C203、C302的錯誤導(dǎo)致了低得分,若都答對,學(xué)生的協(xié)作問題解決得分將增加25.01分。
行為序列10、11在0-0、0-1情形下差異較大。在0-1情形中,香港學(xué)生行為序列10占比最大,澳門學(xué)生最小,說明香港學(xué)生能答對C401,而澳門學(xué)生答錯C302。行為C302、C401都屬于4級難度水平,難度較大,構(gòu)成的行為序列10難度就大,因此在0-0情形中占比都較大,而行為C401要求學(xué)生對階段性結(jié)果進行監(jiān)控并評估成功解決問題的可能性,說明香港學(xué)生在協(xié)作問題解決過程中更關(guān)注問題解決進程,進行監(jiān)控與反思,這與上述Rasch模型分析結(jié)果類似。四地區(qū)學(xué)生的行為序列11分布各不相同,從1-1、0-1情形來看,若前行為C401正確,那么后行為C402正確率會極速增加,這在香港學(xué)生身上表現(xiàn)尤為明顯。澳門在C402上的正確率顯著提升,行為C402是監(jiān)控小組其他成員的進度并調(diào)整團隊角色,難度比C401低,說明澳門學(xué)生在逐步調(diào)整對問題解決過程的監(jiān)控,但由于C402是最后一個行為,調(diào)整效果并不明顯。
圖4 四地區(qū)行為序列在4種情形下的占比(%)情況
本研究進一步采用滯后序列分析思想探求哪些行為序列的發(fā)生率達到統(tǒng)計顯著水平,并基于顯著性行為序列分析四地區(qū)學(xué)生協(xié)作問題解決的過程及差異:首先統(tǒng)計11個行為序列在四種情形下的頻數(shù),然后以“橫坐標(biāo)表示先發(fā)行為,縱坐標(biāo)表示繼發(fā)行為”生成行為序列頻數(shù)表,再進行標(biāo)準(zhǔn)分數(shù)轉(zhuǎn)換,計算其值,若值大于+1.96,則表示相應(yīng)行為序列達到了概論統(tǒng)計的顯著水平(<0.05)。由此,本研究構(gòu)建了四地區(qū)學(xué)生行為序列在4種情形(1-1/1-0/0-1/0-0)下的顯著性發(fā)生率路徑,如圖5所示。
圖5 四地區(qū)行為序列在4種情形(1-1/1-0/0-1/0-0)下的顯著性發(fā)生率路徑
整體來看,行為序列1~5的顯著性發(fā)生率均為1-1情形,這主要源于行為C101~C201難度均較低。但從行為序列6開始,4種情形下的顯著性發(fā)生率各有差異,如香港、臺灣出現(xiàn)兩種情形的發(fā)生率為顯著,在某些行為序列中,甚至0-0情形也為顯著性發(fā)生率,由于越靠后協(xié)作問題解決認知水平越難,這表明面對難度較大的行為時,四地區(qū)學(xué)生的表現(xiàn)差異較大。
分地區(qū)來看,從行為序列6開始,香港、臺灣在多種情形下存在顯著性發(fā)生率,香港在行為序列7、8新增1-0、0-1,說明其在C203上的正確率較低,行為C203旨在考查學(xué)生推進小組協(xié)作問題解決分工過程中的能力,反映出學(xué)生“達成問題解決共識”方面的能力還有待提高,其他三地區(qū)也有類似問題,但由于香港地區(qū)仍有1-1情形支撐,因此可以推斷四地區(qū)學(xué)生在協(xié)作問題解決達成共識方面都有所欠缺,但相比而言香港仍處于前列。臺灣在行為序列6、7新增0-1、1-0,這主要源于行為C202難度較小,而前行為C201難度較大,學(xué)生不能啟動“解釋分工緣由”的對話,也就是說不能發(fā)現(xiàn)小組成員的優(yōu)勢和觀點,而其他三地區(qū)在此階段表現(xiàn)較好,這反映出臺灣地區(qū)學(xué)生在小組協(xié)作分工方面還有待加強。針對行為序列10,京滬蘇粵、澳門的0-0情形均為顯著性發(fā)生率,反映出行為C302、C401對該地區(qū)的學(xué)生而言難度較大;而香港地區(qū)出現(xiàn)0-1、0-0情形,說明此階段后發(fā)行為C401相對表現(xiàn)較好;臺灣地區(qū)出現(xiàn)1-0情形,說明先發(fā)行為C302相對表現(xiàn)較好。根據(jù)行為所表征的協(xié)作問題解決要素,表明針對監(jiān)控、評估、調(diào)整等高認知協(xié)作問題解決過程,京滬蘇粵和澳門學(xué)生的表現(xiàn)較差,而香港、臺灣學(xué)生表現(xiàn)較好。針對行為序列11,香港又以1-1情形為顯著發(fā)生率,表明其行為C401、C402正確率較高,而這兩個行為都指向“評估團隊進展”,故可以推斷,香港學(xué)生在“監(jiān)控和反思”階段(反映高水平認知過程)表現(xiàn)較好。PISA報告顯示,中國香港排名第三,可能就是源于學(xué)生在協(xié)作問題解決中的監(jiān)控、調(diào)整、評估等“監(jiān)控與反思”過程表現(xiàn)較好。
本研究將含有四種情形的11個行為序列納入分類變量,進行對數(shù)相似值轉(zhuǎn)化以測量距離,依據(jù)貝葉斯信息準(zhǔn)則采用自動確定聚類數(shù)量的方式對樣本進行兩步聚類分析,形成了3類穩(wěn)定聚類結(jié)果:第一類占40.66%,第二類占57.81%,第三類占1.53%。從操作過程來看,群組1的答題時間為214.09秒/人,鼠標(biāo)點擊次數(shù)為12.5次/人,協(xié)作問題解決得分均值為571.59;群組2的答題時間為218.48秒/人,鼠標(biāo)點擊次數(shù)為15.4次/人,協(xié)作問題解決得分均值為477.84;群組3的答題時間為505.61秒/人,鼠標(biāo)點擊次數(shù)為93.7次/人,協(xié)作問題解決得分均值為363.07。據(jù)此初步發(fā)現(xiàn),群組1和群組2能有效理解題意,通過點擊鼠標(biāo)對試題信息進行加工,而群組3表現(xiàn)出肆意點擊鼠標(biāo)的情況,傾向于漫無目的地答題,不能推進整個協(xié)作問題解決過程。
進一步從行為序列聚類結(jié)果進行分析1聚類群組在四種情形中的分布情況請見https://blog.sciencenet.cn/blog-3361920-1400659.html。:行為序列1~4中,三類群組的最頻繁類別均在1-1情形,行為序列9~10則均在1-0、0-0情形,原因主要在于其中蘊含的行為不是過于簡單就是難度過高,對大部分學(xué)生而言考查效果一致;而由中等難度構(gòu)成的行為序列,三類群組表現(xiàn)各異。在這些行為序列中,群組1在行為序列5、6上的最頻繁類別均在1-1情形,群組2在行為序列7、8上的最頻繁類別均在1-1情形,說明群組1的學(xué)生能夠答對行為序列5、6,群組2的學(xué)生能夠答對行為序列7、8,反映出群組1在協(xié)作問題解決過程中更可能成為決策者和組織者,識別問題解決的關(guān)鍵方法,并且善于發(fā)現(xiàn)小組成員的優(yōu)勢以組織分配任務(wù);群組2則傾向于成為協(xié)作問題解決過程中的執(zhí)行者,且對問題解決中的關(guān)鍵技術(shù)和方法具有一定的話語權(quán),善于辨別并描述重要任務(wù)。對群組3而言,在行為序列8、11上的最頻繁類別均在0-0情形,反映出這類學(xué)生既不能推進協(xié)作問題解決過程,也對其中的關(guān)鍵方法或技術(shù)缺乏見解,或者信息技術(shù)素養(yǎng)較差,不能理解答題操作界面。依據(jù)上述群組協(xié)作問題解決的特征可知,群組1是“決策與組織”組,群組2是“執(zhí)行與技術(shù)”組,群組3是“錯誤偏向”組。
圖6 四地區(qū)學(xué)生的聚類群組分布情況
四地區(qū)學(xué)生的聚類群組分布如圖6所示。總體而言,“錯誤偏向”組占比較?。?.53%),原因主要在于“Xandar”一題并非只有一個問題,而是有12個考察點,且認知難度各不相同,旨在讓學(xué)生經(jīng)歷協(xié)作問題解決過程以考察個體的水平,因而全部答錯的可能性較小。“執(zhí)行與技術(shù)”組占比最大(57.81%),反映出四地區(qū)的大部分學(xué)生在協(xié)作問題解決過程中是任務(wù)執(zhí)行者,較少關(guān)注共同體問題解決進程以及監(jiān)控整個過程。分地區(qū)而言,香港在“決策與組織”組占比最高(45.90%),這與前述香港學(xué)生更傾向于評估和反思不無關(guān)系。京滬蘇粵在“決策與組織”組占比最低(33.83%),在“執(zhí)行與技術(shù)”組占比最高(64.07%),這反映出京滬蘇粵學(xué)生有較為清晰的任務(wù)執(zhí)行意識,更傾向于明確要做什么,但對學(xué)習(xí)過程的自主監(jiān)控、管理等有待進一步加強。臺灣在“決策與組織”組的占比高于澳門(42.19%>39.92%),在“執(zhí)行與技術(shù)”組的占比低于澳門(56.87%<59.56%),在“錯誤偏向”組兩地區(qū)的比例相當(dāng),說明臺灣學(xué)生在協(xié)作問題解決過程中也多關(guān)注進展?fàn)顩r及小組成員表現(xiàn),但如前所述,臺灣學(xué)生仍不能發(fā)現(xiàn)小組成員的優(yōu)勢,或許正是這一差異,導(dǎo)致了其與香港學(xué)生在“決策與組織”組的差異。
上述結(jié)果展現(xiàn)了中國四地區(qū)學(xué)生協(xié)作問題解決過程及其特征,也反映出了協(xié)作問題解決差異及各自的不足,可為發(fā)展京滬蘇粵等我國境內(nèi)學(xué)生的協(xié)作問題解決能力提供了有價值的參考。
行為序列分析發(fā)現(xiàn),若在協(xié)作問題解決過程的監(jiān)控、評估、調(diào)整等方面表現(xiàn)較好,其整個協(xié)作問題解決水平就較高(如香港學(xué)生),這反映了學(xué)生的元認知水平。有研究者認為,對自身認知活動進行積極監(jiān)控、調(diào)節(jié)、反思等就是元認知,這一過程觸及高階認知[10],在解決復(fù)雜問題、協(xié)作問題過程中非常重要?!癤andar”一題共3個行為(C302、C401、C402)對其進行評估,京滬蘇粵地區(qū)學(xué)生的正確率均低于香港學(xué)生,特別是在C401上,京滬蘇粵學(xué)生的正確率僅為19.9%,結(jié)合聚類分析結(jié)果顯示,京滬蘇粵學(xué)生在“執(zhí)行與技術(shù)”組占比最大(64.07%),反映出中國境內(nèi)學(xué)生更傾向于充當(dāng)任務(wù)的“執(zhí)行者”,這或與我國中學(xué)教育不太注重培養(yǎng)學(xué)生對自身學(xué)習(xí)過程的監(jiān)控與反思能力有關(guān)??梢灶A(yù)測,我國學(xué)生在協(xié)作問題解決測評中元認知的不足,源于學(xué)校教育過分注重學(xué)習(xí)結(jié)果,而缺乏關(guān)注獲得好的學(xué)習(xí)結(jié)果的過程,特別是對復(fù)雜的、協(xié)作性問題解決而言,或許教師在講授學(xué)習(xí)策略和方法時,還應(yīng)該有意識地將重點放在過程監(jiān)控、階段反思等方面,逐步推進協(xié)作問題解決過程中元認知體驗、元認知監(jiān)控意識的養(yǎng)成。
聚類分析結(jié)果顯示,京滬蘇粵在“決策與組織”組占比最?。?3.83%),反映出其在問題解決過程中的協(xié)作水平、溝通和合作能力還需進一步提升。多重比較(LSD)發(fā)現(xiàn),雖然四地區(qū)學(xué)生在“決策與組織”組的協(xié)作問題解決得分均值均高于540,達到了水平3,但京滬蘇粵與其他三地區(qū)均有顯著差異,其中與香港相差29.65分。PISA報告顯示,香港在協(xié)作問題解決測評中全球排名第3,而京滬蘇粵排名26,因此京滬蘇粵的教育決策者更應(yīng)該向香港學(xué)習(xí)如何培養(yǎng)學(xué)生的決策與組織能力。由于教育文化使然,我國教師傾向于訓(xùn)練學(xué)生的個體問題解決能力,我國中學(xué)生在國際奧林匹克競賽中的優(yōu)異表現(xiàn)就是最好的佐證。但隨著“合作與交流”核心素養(yǎng)逐步得到重視,與他人合作開展探究學(xué)習(xí)成為基礎(chǔ)教育課程改革的重要方向,如香港《中學(xué)課程綱要(科學(xué)科)》倡導(dǎo)學(xué)習(xí)伙伴式的學(xué)生角色,指出“中學(xué)生可以擔(dān)當(dāng)較活躍的角色,啟發(fā)其他伙伴一起學(xué)習(xí),大家分工合作和分享觀點,給予反饋,一起探索不同的學(xué)習(xí)方式”[11],這一學(xué)習(xí)方式顯然指向協(xié)作問題解決中的決策與組織能力。因此,我國應(yīng)逐步扭轉(zhuǎn)只注重個人能力而忽視團隊協(xié)作的意識,在教育指導(dǎo)綱要、課程方案、課程標(biāo)準(zhǔn)等政策文件中提倡協(xié)作學(xué)習(xí),在課程活動中設(shè)計群體任務(wù)導(dǎo)向的協(xié)作問題解決活動,并鼓勵學(xué)生進行協(xié)商、決策,組織討論小組分工、策略、方法等。
在本研究中,答題時間、鼠標(biāo)點擊及行為序列的差異反映出四地區(qū)學(xué)生在解題策略、方法上的特征,廣義而言,這是由學(xué)習(xí)策略、問題解決方法不同而引起的結(jié)果。PISA報告顯示,京滬蘇粵達到協(xié)作問題解決4級熟練水平(高水平)的學(xué)生占6.4%,顯著低于香港、澳門、臺灣地區(qū)(13.0%、11.1%、9.6%);而協(xié)作問題解決低于1級水平(低成就)的學(xué)生占5.8%,顯著高于其他三地區(qū)(1.9%、2.2%、2.7%)。京滬蘇粵是我國教育資源較發(fā)達地區(qū),尚且有如此差異,若將其他欠發(fā)達省市青少年考慮在內(nèi),差異會進一步加大。隨著以發(fā)展學(xué)生核心素養(yǎng)為目標(biāo)的義務(wù)教育各學(xué)科課程標(biāo)準(zhǔn)的頒布,在課堂教學(xué)中讓學(xué)生經(jīng)歷協(xié)作問題解決過程,著重訓(xùn)練學(xué)習(xí)策略成為新的課程改革方向。發(fā)展學(xué)生核心素養(yǎng)的基本要義之一,就是使其“善于發(fā)現(xiàn)和提出問題,有解決問題的興趣和熱情;能依據(jù)特定情境和具體條件,選擇制訂合理的解決方案等”,在科學(xué)課程中落地為探究實踐,在數(shù)學(xué)課程中表現(xiàn)為“運用數(shù)學(xué)和其他學(xué)科的知識與方法分析問題和解決問題”,在藝術(shù)課程中闡述為進行藝術(shù)創(chuàng)新和實際應(yīng)用,等等。期待與時俱進的課程方案能逐步推進我國學(xué)生協(xié)作問題解決過程中認知技能、方法以及學(xué)習(xí)策略的提升。
PISA從2012年開始實施大規(guī)模的基于計算機的測試,體現(xiàn)了對學(xué)生信息技術(shù)素養(yǎng)的要求。測評過程需要通過鍵盤和鼠標(biāo)輸入、點擊、拖放、滑動、下拉等操作完成,雖然只涉及基本的計算機操作,但這種不同于傳統(tǒng)紙筆測試的方式仍會對部分不熟悉計算機操作的學(xué)生產(chǎn)生影響。PISA報告顯示,雖然是否使用計算機與協(xié)作問題解決總分之間存在弱相關(guān)(RR=0.72/0.77),但在控制經(jīng)濟、社會和文化地位因素后,自我感知信息技術(shù)素養(yǎng)高的京滬蘇粵學(xué)生的協(xié)作問題解決總分比信息素養(yǎng)低的學(xué)生高6分[12]??梢?,基于計算機的測試對學(xué)生有一定的影響。本研究的聚類分析結(jié)果也顯示,群組三“錯誤偏向組”比例較小,但人均鼠標(biāo)點擊次數(shù)最多、答題時間也最長,這很可能是此類學(xué)生的信息技術(shù)素養(yǎng)較差導(dǎo)致,如其不熟悉計算機操作操作界面,胡亂點擊鼠標(biāo),從而影響了答題進程。因此,基礎(chǔ)教育階段應(yīng)當(dāng)將信息技術(shù)素養(yǎng)看成是與識字、讀寫、計算能力一樣的教育基本要求,從根本上提高學(xué)生的計算機基本操作能力、簡單信息處理能力等,進而促進其整體信息技術(shù)素養(yǎng)的提升。
[1]Ohmoto Y, Takahashi A, Ohashi H, et al. Capture and Express Behavior Environment (CEBE) for realizing enculturating human-agent interaction[A]. Culture and Computing - Computing and Communication for Crosscultural Interaction[C]. Berlin: Springer-Verlag, 2010:22-23.
[2]袁建林,劉紅云.合作問題解決能力測量:真實性與過程性評價視角[J].電化教育研究,2022,(5):100-108.
[3]Noroozi O, Weinberger A, Biemans H. Facilitating argumentative knowledge construction through a transactive discussion script in CSCL[J]. Computers & Education, 2013,61:59-76.
[4]高紅麗,楊磊,徐升,等.智能導(dǎo)學(xué)系統(tǒng)人機交互機制研究[J].中國遠程教育,2021,(1):50-56、65.
[5]李美娟,劉紅云,張詠梅.計算心理測量理論在核心素養(yǎng)測評中的應(yīng)用——以合作問題解決測評為例[J].教育研究,2022,(3):127-137.
[6]Vogel F, Wecker C, Kollar I, et al Socio-cognitive scaffolding with computer-supported collaboration scripts: A meta-analysis[J]. Educational Psychology Review, 2016,29:1-35.
[7][12]OECD. PISA 2015 results collaborative problem solving volume V[R]. Paris: OECD Publishing, 2017:79.
[8]OECD. PISA 2015 CPS-Xandar-scoring-guide[R]. PISA, Paris: OECD Publishing, 2017:13.
[9]Greiff S, Wüstenberg S, Avvisati F. Computer-generated log-file analyses as a window into students’ minds? A showcase study based on the PISA 2012 assessment of problem solving[J]. Computers & Education, 2015, 91:92-105.
[10]劉哲雨,王媛,楊慕嫻.技術(shù)支持視角下元認知策略對中小學(xué)生學(xué)業(yè)成績的影響研究——基于54篇相關(guān)外文文獻的元分析[J].現(xiàn)代教育技術(shù),2021,(8):60-66.
[11]香港課程發(fā)展議會.中學(xué)課程綱要科學(xué)科(中一至中三)[OL].
Research on the Man-machine “Virtual Agents” of Collaborative Problem Solving Assesment Based on Process Data——A Case Study of PISA Test in Four Regions of China
SHOU Xin1,5TIAN Wei2LI Jian3LIU Yang4
At present, with the development of interactive assessment technology, analyzing collaborative dynamic information between individuals and “virtual agents” has become a new trend of interactive collaborative problem sloving. Therefore, based on process perspective, this paper analyzed the collaborative problem solving process of the PISA“Xandar” test among teenagers in four regions of China (Beijing Shanghai Zhejiang Guangdong, Hong Kong, Macao, Taiwan). It was found that a moderate amount of mouse clicking was more conducive to answering questions in the interactive assessment. Emphasis on monitoring, reflection, and adjustment in the collaborative processes was more likely to be high level (such as Hong Kong), which reflected the importance of metacognition experience and strategy for complex skills. The performance of students in the four regions can be divided into three groups, with Beijing, Shanghai, Jiangsu and Guangdong accounting for more in the “implementation and technology” group, and Hong Kong accounting for more in the “decision-making and organization” group. According to the PISA level, students were good at taking the initiative to make decisions, resolve differences and conflicts were more likely to be at a high level. Finally, based on the research results, the paper put forward some teaching suggestions for developing collaborative problem solving ability, expecting to promote the cultivation of collaborative problem solving ability better.
collaborative problem solving; PISA; interactive assessment; virtual agent; teenagers
G40-057
A
1009—8097(2023)10—0086—12
10.3969/j.issn.1009-8097.2023.10.009
本文為中國博士后科學(xué)基金第72批面上資助項目(項目編號:2022M722625)、重慶市教育科學(xué)規(guī)劃一般課題“雙減新常態(tài)下課后服務(wù)STEM跨學(xué)科課程構(gòu)建與實施策略研究”(項目編號:K23YG2050232)的階段性研究成果。
首新,副教授,博士后,研究方向為科學(xué)教學(xué)心理與測評,郵箱為346532216@qq.com。
2023年3月7日
編輯:小時