張琪 王丹
【摘要】??? 教育評價事關教育綜合質量提升與教育供給側改革進程。智能時代的教育評價需要與時俱進,利用教育大數據與智能技術“精準識材”,改變以往評價體系標準單一、手段趨同等弊端。本文聚焦學習為主體的“全人”評價,著眼智能時代對人才的需求,圍繞學習方式的變化、學習結果的多維尺度等對教育評價轉型展開闡釋,在分析“評價識材”與“因材施教”辯證關系的基礎上,探討了“識材”—“施教”—“發(fā)展”的路徑。從學習投入評測、人格特質識別、創(chuàng)新能力評測、表達能力評估等維度剖析了智能技術賦能教育評價的作用點。智能技術賦能新時代教育評價改革,需遵循教育的基本規(guī)律,將教育場景與計算機技術有機結合,共同建立“人機協(xié)同”的標注與計算方式,關注實際環(huán)境中數據模型的通用性與遷移能力,形成有效的評估方法與干預機制,以實現學習者個體價值回歸與主體價值增值。
【關鍵詞】? 新時代;智能技術;教育評價;因材施教;精準識材;場景計算;建模方法
【中圖分類號】? ?G420? ? ? ? ?【文獻標識碼】? A? ? ? ?【文章編號】? 1009-458x(2021)2-0009-08
在新一輪科技革命風起云涌、全球經歷百年未有之大變局的歷史節(jié)點,黨的十九屆五中全會確立了構建高質量教育體系、保證人民群眾享有更加公平與優(yōu)質教育的目標。教育評價作為教育改革的“牛鼻子”“指揮棒”,事關教育改革導向,決定教育實踐的落實以及現代教育治理的水平。深化教育領域綜合改革,“要抓好深化新時代教育評價改革總體方案出臺和落實落地,構建符合中國實際、具有世界水平的評價體系”(新華網, 2020)?!渡罨聲r代教育評價改革總體方案》旨在全面落實2020年全國教育工作會議以及黨的十九屆五中全會等精神,以評促改,實現改革與育人深度融合、有效聯(lián)動。
教育評價是對教育相關數據與信息進行系統(tǒng)、科學與全面的價值判斷,是一項廣泛性、艱巨性、實踐性難題。在教育智能時代,以智能技術促進學習方式和教學方式的變革,培養(yǎng)適應未來教育的創(chuàng)新人才,正成為教育面臨的重大課題,數據驅動教與學正成為新教育體系區(qū)別于傳統(tǒng)教育的核心特征(中國教育和科研計算機網, 2020)。“互聯(lián)網+環(huán)境”可以方便地獲取學習者的全維行為特征與過程性學習數據,使研究者首次可以運用科學的分析技術,精確理解和系統(tǒng)分析學習者的學習規(guī)律(陳麗, 等, 2019)。學習過程的數據化為精準施教提供了有力支持,智能時代的評價需要蛻舊變新、與時俱進,以有效支撐教育的供給側改革。利用教育大數據與智能技術“精準識材”,以及在此基礎上的因材施教能夠改變以往評價體系標準單一、個性化缺失、手段趨同等弊端,有助于聚焦以“過程、能力、增值”為特征的綜合性評價,實現“五育”并舉的核心素養(yǎng)教育,從而回應新時代教育對創(chuàng)新人才培養(yǎng)的重大關切?!渡罨聲r代教育評價改革總體方案》的出臺為構建科學教育評價體系指明了方向,是對未來教育發(fā)展趨勢的有力回應。
一、智能時代教育評價的意蘊
《深化新時代教育評價改革總體方案》針對我國教育發(fā)展的新態(tài)勢,在系統(tǒng)部署教育評價框架的基礎上勾勒出5個維度共計22項具體任務,指明了落實教育評價改革的創(chuàng)新路徑,提出“改進結果評價、強化過程評價、探索增值評價、健全綜合評價”的具體評價原則(國務院, 2020)。上述“四個評價”在尊重教與學規(guī)律以及學習者成長規(guī)律的基礎上,強調評價的診斷性、調節(jié)性、導向性和多元性特征,有利于打破“以成績定標簽”的固化方式,從而更為全面地考察立德樹人工作的成效,對于構建符合新時代中國特色的評價體系,全面實現教育現代化,構筑人民滿意的教育體系,具有深遠影響。
(一)智能時代對人才的需求
從學習者發(fā)展的視角來看,以傳統(tǒng)的流水線為重要特征的工業(yè)時代孕育出以教師為中心的教育,雖實現了教育的規(guī)?;皹藴驶焙汀巴|化”特征明顯。創(chuàng)新的國家需要創(chuàng)新的人才,創(chuàng)新的人才需要創(chuàng)新的教育。“個性化”成為信息時代的主要特征(黃榮懷, 等, 2017)。信息時代需要大批的創(chuàng)新人才,創(chuàng)新人才的培養(yǎng)絕不是生產線上同質化的知識復制,其培養(yǎng)取決于個性評價基礎上的因材施教。這需要重塑教育,讓學習者能從容應對各種不確定性和挑戰(zhàn),確保公平和全納的受教機會;需要從傳統(tǒng)的側重內容和培訓的教學流程,轉移到為學習者提供更合適的學習服務,以及對學習者所需知識的再認識、再評價和再創(chuàng)造;需要從工業(yè)時代“流水化”“程式化”的教學轉向以個性化、數字化、聯(lián)通化為特征的技術驅動與思維整合的教學。通過多維數據記錄學習者成長歷程,建立數字綜合畫像,可以幫助師生從重復的工作中解放出來,使教學更具有效性和創(chuàng)造力。需要重視的是,智能教學支持與服務不能重蹈行為主義或分數本位的“錯題強化、分數導向、題目灌輸、糖衣新裝”覆轍,應重點審視學習者的能力水平、多元智能、認知頻譜、情感狀態(tài)、個性特征等問題,圍繞信息時代教育改革目標,對自然語言理解、多維指標凝聚、通用視覺信息檢索、情感話題分析、腦神經映射機制、復雜計算模型等展開深入研究,建立教育學、神經科學、人工智能等學科的研究共同體。
(二)學習方式的變化
教育研究者與實踐者應重新理解學習者,對“學習者是誰”這個問題做出深刻的回應。當今的青少年學習者,作為數字土著一代的“新群體”,讓教育實踐感受到與之前群體不同的鮮明個性。數字土著一代生活在大數據時代,接受信息能力強,社交媒體承載了他們大部分的喜怒哀樂,形成正確思考方式的難度更大。在數字時代來臨之前,閱讀對學習者三觀的形成有很大的影響,當前的數字閱讀多為碎片化閱讀,網絡意見領袖呈現低齡化特征。教師常常感到對新一代學習者群體難以了解,認為有效溝通困難。構筑適合數字土著的新教育模式需要了解學習者的思維特征與學習方式,需要從傳統(tǒng)的側重內容和培訓的教學,轉移到關注“非良構”領域知識的考核與有效評價,需要重新理解學習環(huán)境,將學習視為“統(tǒng)一的連續(xù)體”,提高評估的有效性、及時性和公平性。例如,在此次疫情期間的“大規(guī)模停課不停學”,相對于被廣泛關注的硬件條件與課程內容設計,學習者的主動學習能力還沒有得到充分重視,學習者傾向的學習方式與身處的學習環(huán)境之間依然存在較大的差異,這些都限制了教師對學習者的針對性指導。智能時代的教育評價需要進一步了解學習者的學習方式和個性特征如何根據場景改變,學習者的畫像是否能夠實時、精準、客觀地表征學習狀態(tài)。
(三)學習結果的多維尺度
學習結果是學習者為滿足教學需求而產生的一系列活動,是學習者通過努力獲得的行為與能力的綜合。學習方式的差異和學習結果的多維尺度必然要求評價方式的多維變化。傳統(tǒng)評價觀以結果為唯一依據,過度強化結果在評價中的主導地位,帶有濃郁的分數至上色彩,進一步導致了重結果、輕過程的不良后果,甚至以單一成績劃定教育乾坤。分數作為機械的數字符號背后理應有更為豐富的意蘊,需要更為深入、多視角、多向度地辯證看待。眾所周知,學習的結果是多重努力共同參與的過程,是情商、智商、志商、語商等多因素融入和整合的顯現,是與學習者成長相伴的一部分。學習者的學習不僅源自心智活動,更取決于情感凝聚的熱切度和專注度,取決于意志力、自我調控度與持久度,取決于語商表達的確切度和精彩度。數字符號不是優(yōu)差中劣的唯一表征,教育評價也不能僅止步于單一維度,還要科學地評價學習者的綜合素質、情感態(tài)度、心理韌性、批判能力等,尤其應對學習者生命成長過程中非智力因素與精神力量給予特別的關注。
《深化新時代教育評價改革總體方案》的頒布釋放了一個強烈的信號,即學習者的發(fā)展具有鮮明特點,應給予高度的尊重。學習者作為學校教育流水線上的“標準件”時代已成過去。在未來的教育中,學習者必將作為栩栩如生、獨特內涵和鮮明個體的人參與社會實踐。學習者的成長,縱向而言具有過程性與發(fā)展性,就其生命呈現的狀態(tài)而言有水面之上的顯性品質與冰山之下的隱性品質。生命的獨特性需要我們突破種種固化評價標準,運用更加富有前瞻性的評價方式予以評價。新時代的教育要完善立體刻畫、行之有效的評價標準,構建意蘊豐富與探索精神的評價體系,使之與學習者的生命成長匹配,與生命發(fā)展同步,與多樣化實踐活動呼應,與教育改革開放的遠景目標共振,與教學實踐樣態(tài)趨同。
二、智能時代“評價識材”與“因材施教”的關系
智能時代的教育需要適應未來的評價,只有在兩者的良性互動中新時代的教育與評價才能相互呼應、步入更高的境界。當前,我國教育改革與發(fā)展正處于過去與未來交會的關鍵節(jié)點,通過擴大優(yōu)質教育規(guī)模以滿足人民對高質量教育的迫切需求,這種方式已經接近現有潛力的極限。在我國即將實現第一個百年目標之際,全面建成小康社會、全面建設社會主義現代化強國,對培養(yǎng)多樣化創(chuàng)新人才、保證教育公平、提高教育質量提出了更高的要求。隨著教育信息科學的發(fā)展,以數據驅動與精準教學為特征的智能教育提供了規(guī)?;膫€性化教育方法,情境感知的無縫學習、自適應個性化學習開始步入常態(tài),為同時實現規(guī)?;逃蛡€性化培養(yǎng)提供了可能?!渡罨聲r代教育評價改革總體方案》提出堅持“科學改”的原則,要求借鑒國際先進的教育評價理念,充分利用信息技術,提高教育評價的科學性、專業(yè)性、客觀性,推動科學、有效地解決問題。利用智能技術助力教育綜合評測,推動教育質量提升進而推動教育現代化已成為共識。
智能技術賦能“評價識材”需要厘清“評價識材”與“因材施教”的辯證關系。在我國有關教育的格言與典籍中,孔子提出的“有教無類”和“因材施教”無疑最具光芒與生命力。“因材施教”的“材”是指學習者個體的認知水平、情感態(tài)度、學習能力以及自身素質。生理因素、成長環(huán)境、生活閱歷與知識背景等的差異形成了學習者鮮明的個性特征。而由于“個性”與“能力”的表征維度太多,測量困難且難以常態(tài)化實施,因此在“以規(guī)模減少成本”為趨向的班級授課制中“大規(guī)模”與“個性化”的矛盾難以調和。讓每位學習者在學校里接受計劃性、系統(tǒng)性指導的同時,為學習者提供適合每個人的教學方法,一直是教育研究者與實踐者的教學追求。新千年以來,我國陸續(xù)發(fā)布了新時代的重大教育政策,其中,《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010—2020年)》、《中國教育現代化2035》、2020年全國教育工作會議以及此次的《深化新時代教育評價改革總體方案》都強調要突出因材施教的價值。評價識材,是因材施教的前提。我國正在實施的新高考改革方案更加強調“服務選材與立德樹人”,強調考察核心價值與綜合能力,關注學習者基礎性、應用性、綜合性與創(chuàng)新性能力(馮成火, 2020),學習者的個人意志和綜合能力,以及個人興趣和特長,都將成為評價識材的重要組成部分?!渡罨聲r代教育評價改革總體方案》聚焦核心素養(yǎng),從學科知識考查轉向素養(yǎng)評測,注重考察學習者發(fā)現問題、分析問題并加以解決的能力,這為教育技術研究提出了現實課題。未來應重點關注智能評價技術與體系的構建以及在不同教育場景的應用效果研究,基于診斷性評測、學習檔案評價、大數據評價等方式幫助教師精準分析、全域關照,實現學習者個體價值回歸與主體價值增值。
識材和施教是同一過程的兩個關鍵點,彼此相互影響、不可分割,只有全面、系統(tǒng)地認識學習者特征才能完成施教的過程。要通過評價明確“材”的特點和程度,找準“教”的定位和起點,從而為學習者成長建立反饋調節(jié)機制,幫助學習者建立自信,其結果是真正實現能評估學習者思想品德、身心健康、能力素質等綜合要素,鼓勵學習者多樣化成長的個性化教育。需要利用信息技術推進教育評價改革,幫助教師全面了解和細致掌握學習者狀態(tài),根據學習者的情感意志要素、活動場所等非線性關系的相關數據評價,聚焦學習者綜合素質發(fā)展(田愛麗, 2020),以改善教育資源個性化與靈活性不足的問題。對于學習者而言,借助智能技術支持下的自我導向學習,可以將線上學習與線下學習、集中學習與分散學習、課堂學習與場館學習等多種學習形式結合起來,為自身創(chuàng)造“因材擇學”的機會,從而實現“識材”—“施教”—“發(fā)展”的邏輯演進。
三、智能技術賦能教育評價的作用點
智能時代的因材施教亟待充分利用計算分析技術賦能,以推動數據驅動的教育研究和實踐。伴隨國家相關政策的陸續(xù)出臺,各類信息技術“示范區(qū)”“試驗區(qū)”“人人通”“三個課堂”等實踐領域的開辟,以及各地(區(qū))對智能技術融入教學實踐的支持力度的不斷增長,更加客觀、精準、千人千面的因材施教理念有了實現的可能。智能技術賦能教育評價改革需要相關的技術支撐。其中,5G作為高帶寬低時延的通信技術正助力網絡空間人人通向物聯(lián)網發(fā)展,有助于利用個性化數據實現對學習者的因勢利導,實現人人有“學伴”的人機協(xié)同教學;虛擬現實技術實現了物理空間和虛擬空間的融合,帶來了多感官的沉浸學習體驗,使教學從“離身”步入“具身”,可形成立體綜合的教學場域;區(qū)塊鏈技術支撐開放安全的數據記錄,可實現分布式、跨平臺、融合化數據存儲,助力個人學習軌跡的追蹤與分析,從而完成對學習者的全方位畫像,提高數字資源的共享效率;邊緣計算技術針對物理場景中的數據分析,以計算下沉與邊端賦能加速數據的分析能力;多模態(tài)學習分析以解決復雜教育問題的數據模型與解釋模型為起點,成為洞察學習規(guī)律的新范式,為“教育場景計算”提供理論與實踐的支撐(張琪, 等, 2020),為深入理解學習機制、研發(fā)評價建模工具提供了全息視角。教師水平的提升是技術賦能教育評價的關鍵因素。借助智能、快速、全面的教育分析系統(tǒng),可以建立以學習者為中心的智能育人環(huán)境,為學習者提供精準推送的教育服務(國務院, 2017),賦能教師、學習者、課堂、課程和學校,形成新的教育教學場景,引發(fā)教師角色加速轉變。概念講述、知識傳授等職能越來越多地可以借助技術來完成,實現教師更為精細化的分工,使教師有更多時間潛心于學習者的能力培育、創(chuàng)造能力培養(yǎng)與德育塑造。
計算社會科學是社會科學發(fā)展的必然走向,數據驅動范式已越來越多地應用于教育研究中,為大規(guī)模理解學習者行為與內在特征提供了前所未有的機會。與此同時,“互聯(lián)網+教育”的常態(tài)化使得教與學的方式正發(fā)生顯著變化。其中,學習環(huán)境容納了日益增長的真實要素,學習延伸并拓展至課堂之外的空間,學習者聚焦于真實情境中問題的解決,關注學習測量已成為重要趨勢。智能技術賦能綜合評價,底層依賴于對評價維度的明確界定以及準確的方法與模型。例如,對學習者話語的自動評價,其隱含的假設是,研究者認為學習者的對話與交流文本在一定程度上反映了學習者的思維方式,并可以通過文本的內容與質量表征出來。因此,無論是人工評分還是作文自動評分,都需要對評價維度有一個清晰的定義,以及對測量結果做出更準確的解釋。通過對評價領域理論與實踐進展的梳理可以發(fā)現,學習投入、人格特質、創(chuàng)造能力、表達能力的建模是智能技術賦能教育評價的關鍵作用點。
(一)學習投入評測
深度學習需要持續(xù)的投入,對學習投入的關注不僅在于其是教育評價的重要內容,更在于學習投入是可以被塑造的重要變量以及預測學習績效的強有力指標。作為智能評測的核心研究領域,學習投入是個體在學習活動中所展現出的持續(xù)和積極的學習狀態(tài)?;凇斑B續(xù)體”的分析視角,基礎的投入涉及與注意力相關的操作行為,在高度投入的情況下學習者使用大量的心理資源進行深度加工,不僅需要使用深層的認知策略,更伴隨情感投入和學術投入。在過去20年中,盡管學習投入在概念的表述與應用方面還有諸多問題需要解決,但始終是一個富有成效的研究領域。已有大量研究對學習投入的理論體系展開了歸納,達成共識的是投入不僅是詮釋學習狀態(tài)的有效指標,還融合了多種可區(qū)分的特征,學習投入的表征與量化研究依然稀缺(張琪, 等, 2019)。測量投入度的常用方法通常會對技術環(huán)境中學習者產生的交互行為日志文件進行建模,涵蓋了學習者的點擊數據、交互行為數據、響應反饋等。也有研究利用表情識別、眼動采集、腦電數據等多模態(tài)數據展開分析,以脫離“在線”學習場景,挖掘與情感狀態(tài)、認知水平相關的指標。未來需要聚焦更確切的解釋與評價模型,界定學習者“開始”和“脫離”投入的狀態(tài),探索投入可能起作用的條件,研究導致學習者脫離投入的個體差異與情境因素,對投入發(fā)生的心理與腦機制展開探索,圍繞學習的注意力機制、脫離投入的定義與識別展開深入研究,進一步分析學習者投入度、影響要素與中介因素的關系,提升數據表征結構的能力。
(二)人格特質識別
個體差異取決于學習者的人格特質。人格是在先天遺傳、后天環(huán)境等因素交互作用下,表現在身心方面的思考模式、情緒表達與行為特性的總和。特質決定了人格的穩(wěn)定性與獨特性。特質是個體內在的系統(tǒng)反應,這種反應使個體對不同種類的刺激以某種相對一貫的、穩(wěn)定且相同的方式進行反應。因此,特質是人格的“基礎結構”,具有“支配個人行為的能力”(Matthews, Deary, & Whiteman, 2003),反映人與人之間的基本區(qū)別。人格對學習者的成長至關重要。大量研究表明,了解人格在學習過程中的作用,并投入更多的關注和精力,可以促進學習。人格識別在教育學、心理學、企業(yè)管理等方面已經發(fā)展多年,得到了成熟的應用。傳統(tǒng)的評測技術包括九型人格測試、十六型人格測試以及大五人格測試等,主要方法是通過自我報告的反饋來進行,這類評測不具備針對性,也無法做到多場景的追蹤以及避免虛假答題等問題。利用智能技術可以從幾個方面提取與人格特質相關的指標:一是基于學習者的文本內容與書寫習慣;二是建立學習行為的時序信息,按照時間序列挖掘關鍵行為序列特征進行采樣,記錄質性的行為資料,進行編碼分析,使用量化的推論統(tǒng)計解釋行為序列的轉換;三是對不同的學習內容進行標注,將上述特征結合起來,針對每個特征使用不均衡數據分類的方法進行算法融合,使之變成表征能力很強的建模方法。我們的研究團隊對大五人格的建模研究發(fā)現,僅通過學習行為的建模就可以得到比較高的識別水平。對來自662位被試的建模結果使用5倍交叉驗證方法的性能評估表明,增強的可拓神經網絡(EENN)算法可以有效識別人格,平均準確度為0.758,該算法與粒子群優(yōu)化方法(EENN-PSO)相結合可以顯著提高識別率,平均準確度為0.976(Lai, Sun, Wu, & Xiao, 2020)。人格特質的準確識別可以為自適應內容設計與干預的實施奠定基礎。研究團隊開發(fā)的自適應學習分析儀表盤用“模式識別技術”判定學習者人格特質,基于“復制自適應”方式推送匹配人格特質的數據指標,強化了學習者使用動機(張琪, 等, 2018)。此外,采用數據挖掘方法建立人格特質的預測模型,驗證了深度置信網絡(DBN)在各階段識別高危學生的性能,提出了基于人格特質的學習分析范式(Wu & Lai, 2019)。
(三)創(chuàng)新能力評測
創(chuàng)新能力作為21世紀核心素養(yǎng)的組成已成為共識。無論是21世紀技能中的“4C”能力,還是我國提出的《中國學生發(fā)展核心素養(yǎng)》都包含了創(chuàng)新能力的維度。創(chuàng)造性思維是個體創(chuàng)造性的具體表現,其核心是發(fā)散思維。盡管不是整個創(chuàng)造力結構的代名詞,但在過去的60年中,發(fā)散思維被廣泛用作創(chuàng)造力潛力的主要指標(Albert & Runco, 1999)。其中,托蘭斯創(chuàng)造思維測驗(TTCT)是運用最廣泛的發(fā)散思維測量工具,該測試包含言語流暢性、變通性、獨創(chuàng)性三個維度。其中,流暢性是指學習者在一定時間內產生觀點或想法的數量;變通性指不同方向、不同角度思考問題的靈活性;獨創(chuàng)性是指學習者具有不循規(guī)蹈矩的想法或與眾不同的解決問題思路。對于流暢性建模,一般采用潛在狄利克雷分配(LDA)模型進行內容主題挖掘。作為貝葉斯學習模型,該模型主要應用在中文分詞技術方面,將文章轉化為詞向量,是潛在語義分析與概率潛在語義分析的擴展。在變通性維度,可以將詞表征為實數值向量,通過深度學習訓練將對文本內容的處理簡化為K維向量空間中的向量運算,獲得詞匯在向量空間上的表示。在獨創(chuàng)性維度,一般通過計算響應事件之間的語義距離,使用潛在的語義分析和長短時記憶網絡評估其數值。除了文本的分析,部分創(chuàng)新能力評測還包含拼圖測試以進行拓展記分。該類測試通常是給出一個不完整的圖形,學習者進行筆畫添加賦予該圖形更多的內涵。這類計算建模會涉及視覺模式的識別,一般利用卷積神經網絡(CNN)從圖像中識別視覺模式,進行圖像特征提取、運動檢測、人工評分等模型訓練。
(四)表達能力評估
語文素養(yǎng)是學習其他課程的基礎,是學習者全面發(fā)展和終身學習能力的支撐。學習者的表達能力是培育學習者語文核心素養(yǎng)的重要內容,也是教育的“四大支柱”和“21世紀技能”中“學會合作”的核心要素。表達能力與“以素質教育為核心”的理念匹配,體現了學習者的綜合素養(yǎng)??谡Z與書面表達都可以從文本的角度去評判,利用卷積神經網絡(CNN)結合隱馬爾科夫模型(HMM)能夠準確識別中文字符。國際常用的表達評測體系涉及對文本內容、措詞、結構、語氣、同義詞等不同表達的分析,多采用基于隱含語義分析(LSA)系統(tǒng)和深度神經網絡(DNN)以及改進的算法進行文本的自動評分。
中文的表達一般要綜合考慮語境、詞法、句法、文采、語義以及篇章段落進行全面分析。對于文字段落進行序列化,一般利用Word2vec模型提取文本的字跡、詞匯與通順性等特征,利用上述特征矩陣表征文本的表達情況。從智能建模的視角看,中文形象語言的修辭水平多采用對隱喻的分析來進行。各類隱喻背后涉及學習者的認知過程,是神經語言程序學(NLP)的關注重點。一般采用人工制定的規(guī)則或深度學習提取特征分析屬性依賴的概念,利用屬性的本體映射進行隱喻的解釋、識別與生成。對于其他修辭手法,例如借代、夸張、反復、象征、寄寓等的識別,可將混合神經網絡與神經語言程序學結合,以判斷段落與通篇文章的表達能力。后續(xù)的研究需要進一步分析文本中的認知與修辭的成分,擴充專家標注集,開展大規(guī)模對比與修正研究,以提升分析系統(tǒng)的整體水平。
四、實現路徑
智能技術賦能教育評價需要建立有反映能力和預測效能的教育分析模型,其本質是通過機器建模與計算實驗分析,研究數學建模和場景計算方法,故其實現路徑應當以學習能力的評價為起點,圍繞建模方法、算法選擇與評價模型的適配性展開深入研究。
(一)建模方法
教育評測領域的建模通常涉及復雜動態(tài)的語義問題,具有很強的不確定性,這類場景計算通過單純的計算機建模往往難以實現。例如,文本數據分析在教育領域有多方面的應用,包括評論、考試、評測等,最終目標是挖掘被試對象的心理特征與能力水平。若將現有機器學習評測技術應用到該場景,會面臨被試樣本非常少以及缺少多維度特征標注的問題。如果能將這些數據充分結合起來,則可以了解學習者在學習過程中的心理痕跡。對于語言識別,目前將口語化的數據快速轉換成文字的精度已經達到了非常高的水平,特殊符號與公式等都可以進行結構化,為進一步的分析提供了依據。但僅僅將文字結構化是不夠的,還需要關注學習者的思維過程,如思維的流暢度、停頓以及心智游移等。對于文本的語義分析,盡管現有技術在自然語言處理方面已經比較成熟,但如何抽取核心概念,如何對摘要進行選擇卻很少有研究涉及。若直接將通用文本分析的聚類、分詞等服務應用于教育場景,顯然會有較大的誤差。此外,對學習者發(fā)散思維的文本分析文本內容可能會涉及多個方面,若用單一的整體文本表征則難以覆蓋不同方面的信息。未來的研究需要能夠在文本挖掘的過程中,建立各個信息源對應的提取機制,進行連續(xù)語義單元提取,通過不同層面的映射與聚合實現評測性能的整體提升。
學習過程的數據化需要其他感知工具的輔助,包括采用攝像頭或利用便攜式傳感器采集學習者的“離線”數據,使之預期可以加工和整合為多模態(tài)信息。若涉及知識體系的評價,需建立可以分析與計算的知識圖譜,底層的技術包括各個知識點的結構化描述、確立知識點之間遞進的關系以及不同層次的屬性,從而以網狀結構表現學習者的知識與能力水平,在這方面學術界已有比較成熟的技術積累。此外,需考慮將領域知識與計算機體系在一定的情境下融合,特別是需要信息科學與教育科學的研究者在教學實踐中遵循教育問題的基本規(guī)律,圍繞數據清洗、特征提取、模型表征開展協(xié)同工作,將教育的規(guī)律和計算機技術進行有機結合。
在傳統(tǒng)的有監(jiān)督學習中,需要大量用于訓練學習模型的標注數據。一般認為,標注的數據越多,基于該數據集訓練得到的模型越高效。實際上,對于數字教育與終身教育各項評價指標的建構,當前整個技術體系的能力還處于“弱應用”范疇,在許多實際任務中研究者可以輕松獲取大量數據,但大部分是未標注或者標注困難的數據。比如在圖像和視頻分類任務中絕大部分數據缺乏準確的語義標簽。如何從少量標記的數據中產生有效模型是一個極具挑戰(zhàn)的問題。需要建立一套完善的建模體系,通過“嵌入式”設計專家對樣本集合進行選擇,將學習指標重復分配給模態(tài)數據的不同區(qū)間,整合專家的領域知識以遴選數據特征,輸出至計算機,以人機增強的方式訓練數據集,通過低階意義表征的自動建模與學習狀態(tài)的整體權衡實現“人機協(xié)同”的迭代建模與知識發(fā)現。
評測建模的結果是發(fā)現規(guī)律以形成有效的干預。如何利用應用模型和評測工具表征教學過程,對不同特質的學習者、學習場景與學習任務中的問題進行量化與診斷,對“特殊區(qū)間”“脫離狀態(tài)”等重要學習風險進行干預的研究還相當稀缺。數據驅動的研究方式往往忽視教育中因果關系的闡釋,干預的教育學價值不明,不利于干預策略的實施。應重視開展工具介入的教學實踐研究,圍繞學習描述、診斷、預測和處方展開討論,建立操作性策略、方法與模式,設計不同表征形式的課程單元模塊。嘗試利用多因素設計預測變量之間的聯(lián)系,結合質性分析,以綜合評估工具作用于教學的效果,形成教學效果預測模型。圍繞不同學科教學場景,將準實驗研究、邏輯推理與典型教學案例相結合,對理論、技術與方法進行驗證。
(二)算法選擇
對評價領域建模文獻進行梳理可以發(fā)現,常用機器學習算法包括決策樹、隨機森林和邏輯回歸、樸素貝葉斯分類器與支持向量機。其中,支持向量機和樸素貝葉斯分類器被認為是黑盒技術,研究者無法確切地知道預測的推導方式以及模型的含義。相比之下,決策樹的結果得到了高度解釋,生成規(guī)則集簡單且與人類推理非常相似,易于理解并且可以清楚地描述預測過程。但決策樹算法對樣本敏感,數據的微小變化可能導致不同的樹形結構和完全不同的規(guī)則。隨機森林是決策樹的增強版,因其不強調特征選擇,對于多維特征的數據集建模具有很高的效率和準確度,且不易出現過擬合的問題,被廣泛應用于教育領域的數據分類。隨著深度學習技術的成熟,基于深度神經網絡的模型在數據建模領域被廣泛采用。例如,深度置信網絡(DBN)具有更強的學習能力和多樣化的網絡結構,可以優(yōu)化多層神經網絡在學習過程中標簽數據量大、收斂速度慢等不足,較好地解決了傳統(tǒng)神經網絡模型在預測建模上的瓶頸。更為專一化的神經網絡,如利用對抗網絡(Adversarial Network)和生成模型(Generative Model)進行梯度訓練,能夠同時并行處理多個任務,這類由相互作用的代價函數形成的非均勻優(yōu)化系統(tǒng)可以使機器學習更為精確,是計算智能的未來發(fā)展方向。
機器建模的準確性可以采用正確預測的百分比進行度量,如召回率(Recall)、整體精確率(Precision)、F度量(F-measure)等。鑒于數據清洗以及無效樣本信息的存在,良好的性能指標不應受到樣本中類別分布的影響,這類問題通常會采用ROC曲線度量。ROC曲線具有對類分布變化不敏感的理想屬性,適合不平衡類別群體的精度度量。交叉驗證被廣泛應用于判定訓練模型的穩(wěn)健性,但該方法不能保證建立的模型可以推廣到其他群體,正確的做法是將模型應用于其他場景(不同學年、學?;驅W習群體)進行比較判定。評估模型性能的另一種方法是與類似場景的建模精度進行對照,或對學習者反饋的有效性進行評估,了解其是否會幫助學習者以及改善表現的程度,上述方法的綜合應用可以佐證已有模型的泛化能力。
(三)模型的適配性
開發(fā)課程級別的評價模型非常耗時且需要大量的專業(yè)知識。因此,在學習評價的建模方面,通用做法是將學習者進行整體性評估,封裝后即直接應用于其他學習場景。由于學習群體的不同以及學習環(huán)境的差異性,特定場景下評測模型是否具有通用性值得關注?!盎ヂ?lián)網+環(huán)境”中不同課程的學習活動、需求和評價方式會有很大的差異,學習活動之間的結構與內容的差異會影響學習者的行為方式,通用模型可能無法解決這類異質性問題。個性化的預測模型不足,建模指標不容易在各學習情境之間“移植”,導致通用模型可能很難達到預想的精度。從目前的研究來看,對于成績的評估,不同學習環(huán)境的預測因子具有極大的差異性,即便是類似的學習平臺也顯示出預測指標的不同(張琪, 等, 2019)。需要利用聚類技術對典型學習者的特征、行為與活動進行分類,分析不同類別評價模型之間的共性特征與相關關系,圍繞通用模型如何匹配新的場景展開進一步探索。
五、小結
教育從來沒有像今天這樣迫切地需要智能技術,此時正是彰顯教育信息化價值的最佳契機。以人工智能為代表的新興信息技術正在重新定義學習者的知識與能力維度,計算素養(yǎng)、協(xié)作能力、復雜問題解決能力、人機協(xié)作能力等將成為新時代人才的核心能力。后疫情時代,人民群眾對教育的需求更為多樣,對更高質量、更加公平、更具個性的教育需求也更為迫切,需要發(fā)掘更能激發(fā)學習者學習進步的原動力,需要構筑能充分滿足個人多元化需求的新型教育模式,需要建立教學過程的完整數據表征模型以及相應的評價方法?!渡罨聲r代教育評價改革總體方案》的出臺,體現了我國政府立足新的時代背景,對全面發(fā)展的人所應具備的創(chuàng)新精神與實踐能力等綜合素質的重大關切。在推動信息技術與教育深度融合的歷史新時期,深入探索智能評價機制、理論體系、建模方法與關鍵技術,將學習視為復雜的現象,探究不同認知因素、社會情感因素、背景變量等因素影響學習的規(guī)律,助力真實教育需求的滿足,既是難得的歷史機遇,也是教育技術人理應具備的使命擔當。
[參考文獻]
陳麗,逯行,鄭勤華. 2019. “互聯(lián)網+教育”的知識觀:知識回歸與知識進化[J]. 中國遠程教育(07):10-18,92.
馮成火. 2020. 高考科目改革的軌跡與推進策略——兼論新一輪高考改革的深化與完善[J]. 中國高教研究(05):78-82,102.
國務院. 2020-10-13. 中共中央國務院印發(fā)《深化新時代教育評價改革總體方案》[EB/OL]. [2020-12-10]. http://www.gov.cn/zhengce/2020-10/13/content_5551032.htm
國務院. 2017-07-20. 國務院關于印發(fā)新一代人工智能發(fā)展規(guī)劃的通知[EB/OL]. [2020-12-10]. http://www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm
黃榮懷,劉德建,劉曉琳,徐晶晶. 2017. 互聯(lián)網促進教育變革的基本格局[J]. 中國電化教育(01):7-16.
中國教育和科研計算機網. 2020-12-11. 雷朝滋:智能技術支撐教學改革與教育創(chuàng)新[EB/OL]. [2020-12-20]. http://www.edu.cn/xxh/focus/li_lun_yj/202012/t20201211_2055540.shtml
田愛麗. 2020. 綜合素質評價:智能化時代學習評價的變革與實施[J]. 中國電化教育(01):109-113,121.
新華網. 2020-09-22. 習近平:在教育文化衛(wèi)生體育領域專家代表座談會上的講話[EB/OL]. [2020-11-22]. http://www.xinhuanet.com/politics/leaders/2020-09/22/c_1126527570.htm
張琪,李福華,孫基男. 2020. 多模態(tài)學習分析:走向計算教育時代的學習分析學[J]. 中國電化教育(09):7-14,39.
張琪,王紅梅. 2019. 學習投入的多模態(tài)數據表征:支撐理論、研究框架與關鍵技術[J].電化教育研究,40(12):21-28.
張琪,王紅梅,莊魯,賴松. 2019. 學習分析視角下的個性化預測研究[J]. 中國遠程教育(04):38-45,92-93.
張琪,武法提. 2018. 學習儀表盤個性化設計研究[J]. 電化教育研究(02):39-44,52.
Albert, R. S., & Runco, M. A. (1999). The history of creativity research. In R. Sternberg (Ed.), Handbook of creativity (pp.16-31). New York: Cambridge University Press.
Wu, F., & Lai, S. (2019). Linking prediction with personality traits: a learning analytics approach. Distance Education, 40(1),1-20.
Matthews, G., Deary, I. J., & Whiteman, M. C. (2003). Personality traits. New York: Cambridge University Press.
Lai, S., Sun, B., Wu, F., & Xiao, R. (2020). Automatic Personality Identification Using Students Online Learning Behavior. IEEE Transactions on Learning Technologies, 13(1), 26-37.
收稿日期:2020-12-22
定稿日期:2021-01-04
作者簡介:張琪,博士,教授,碩士生導師;王丹,碩士,講師?;幢睅煼洞髮W教育學院(235000)。
責任編輯 劉 莉