多模態(tài)數(shù)據(jù)融合：破解智能教育關(guān)鍵問(wèn)題的核心驅(qū)動(dòng)力

2022-03-27 10:28:25王一巖鄭永和

現(xiàn)代遠(yuǎn)程教育研究 2022年2期

王一巖鄭永和

摘要：多模態(tài)數(shù)據(jù)融合旨在利用不同模態(tài)數(shù)據(jù)之間的信息互補(bǔ)機(jī)制提升數(shù)據(jù)分析的準(zhǔn)確性，實(shí)現(xiàn)對(duì)學(xué)習(xí)主體和學(xué)習(xí)情境的精準(zhǔn)刻畫(huà)，進(jìn)而還原教學(xué)過(guò)程全貌，挖掘深層次的教育規(guī)律，其已逐漸成為智能教育領(lǐng)域重要的技術(shù)方法和研究思想。智能教育領(lǐng)域常見(jiàn)的多模態(tài)數(shù)據(jù)類型包括外在行為表征數(shù)據(jù)、內(nèi)在神經(jīng)生理信息數(shù)據(jù)、人機(jī)交互數(shù)據(jù)以及學(xué)習(xí)情境感知數(shù)據(jù)。多模態(tài)數(shù)據(jù)的融合策略主要包括數(shù)據(jù)級(jí)融合、特征級(jí)融合和決策級(jí)融合，在數(shù)據(jù)分析的不同階段選取恰當(dāng)?shù)娜诤喜呗?，可以提升?shù)據(jù)分析的準(zhǔn)確性。在智能教育領(lǐng)域，多模態(tài)數(shù)據(jù)融合主要應(yīng)用在人機(jī)交互分析、學(xué)習(xí)者情緒識(shí)別、學(xué)習(xí)投入分析、學(xué)業(yè)表現(xiàn)預(yù)測(cè)、學(xué)習(xí)情境感知五個(gè)方面。充分發(fā)揮多模態(tài)數(shù)據(jù)在學(xué)習(xí)過(guò)程感知和建模中的核心作用，可以實(shí)現(xiàn)對(duì)學(xué)習(xí)過(guò)程的有效還原和對(duì)學(xué)習(xí)規(guī)律的科學(xué)解釋。多模態(tài)數(shù)據(jù)融合充分體現(xiàn)了基于數(shù)據(jù)密集型科學(xué)的教育科學(xué)研究范式變革，未來(lái)應(yīng)著力于面向多元學(xué)習(xí)主體和學(xué)習(xí)情境的全時(shí)空多維度數(shù)據(jù)采集、基于多模態(tài)數(shù)據(jù)融合的學(xué)習(xí)者認(rèn)知發(fā)展規(guī)律研究、基于多模態(tài)數(shù)據(jù)感知與融合的智能教育產(chǎn)品研發(fā)以及多模態(tài)數(shù)據(jù)采集的技術(shù)倫理問(wèn)題等四個(gè)方面，構(gòu)建智能時(shí)代教育科學(xué)研究的新樣態(tài)。

關(guān)鍵詞：多模態(tài)數(shù)據(jù)融合;智能教育;情緒識(shí)別;學(xué)習(xí)投入;情境感知;人機(jī)交互

中圖分類號(hào)：G434 ?文獻(xiàn)標(biāo)識(shí)碼：A ? ?文章編號(hào)：1009-5195（2022）02-0093-10 ? doi10.3969/j.issn.1009-5195.2022.02.011

基金項(xiàng)目：國(guó)家重點(diǎn)研發(fā)計(jì)劃“文化科技與現(xiàn)代服務(wù)業(yè)”重點(diǎn)專項(xiàng)“面向終身學(xué)習(xí)的個(gè)性化‘?dāng)?shù)字教師’智能體技術(shù)研究與應(yīng)用”子課題“面向終身學(xué)習(xí)的自適應(yīng)教育關(guān)鍵技術(shù)”（2021YFF0901003）。

作者簡(jiǎn)介：王一巖，博士研究生，北京師范大學(xué)教育學(xué)部（北京 100875）;鄭永和（通訊作者），教授，博士生導(dǎo)師，北京師范大學(xué)科學(xué)教育研究院院長(zhǎng)（北京 100875）。

物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等新興技術(shù)與教育教學(xué)的深度融合推動(dòng)了智能教育研究的實(shí)踐進(jìn)程，逐漸勾勒出以學(xué)習(xí)主體和學(xué)習(xí)情境的數(shù)據(jù)化表征為依托、以數(shù)據(jù)密集型科學(xué)的研究思想為指導(dǎo)、以智能時(shí)代教育現(xiàn)象的解釋和教育規(guī)律的發(fā)現(xiàn)為目標(biāo)的教育科學(xué)研究新樣態(tài)。在此背景下，多模態(tài)數(shù)據(jù)融合逐漸受到智能教育領(lǐng)域相關(guān)研究人員的重視，其作為一種新的技術(shù)手段和研究思想被應(yīng)用于智能教育研究的諸多場(chǎng)景。研究者通過(guò)對(duì)學(xué)習(xí)者和學(xué)習(xí)情境多種模態(tài)數(shù)據(jù)的采集分析，以及利用多模態(tài)數(shù)據(jù)之間的信息互補(bǔ)來(lái)提升數(shù)據(jù)分析的準(zhǔn)確性，還原教學(xué)過(guò)程全貌，探究深層次教育發(fā)展規(guī)律，以此推動(dòng)智能時(shí)代的教育科學(xué)研究。那么，為什么要使用多模態(tài)數(shù)據(jù)？什么樣的數(shù)據(jù)能被稱為多模態(tài)數(shù)據(jù)？多模態(tài)數(shù)據(jù)之間怎樣融合？多模態(tài)數(shù)據(jù)在智能教育領(lǐng)域的應(yīng)用場(chǎng)景有哪些？它能為智能教育研究的開(kāi)展帶來(lái)怎樣的影響？本文通過(guò)對(duì)智能教育領(lǐng)域多模態(tài)數(shù)據(jù)融合的應(yīng)用潛能、研究現(xiàn)狀和實(shí)踐進(jìn)路的梳理，嘗試對(duì)以上問(wèn)題進(jìn)行解答，以期為后續(xù)相關(guān)研究的開(kāi)展提供借鑒。

一、智能教育領(lǐng)域多模態(tài)數(shù)據(jù)融合的應(yīng)用潛能

多模態(tài)數(shù)據(jù)融合是近年來(lái)智能教育領(lǐng)域關(guān)注的熱點(diǎn)話題，并逐漸成為智能教育領(lǐng)域重要的技術(shù)方法和研究思想。模態(tài)是一個(gè)橫跨自然科學(xué)和社會(huì)科學(xué)的概念，關(guān)于模態(tài)的解釋主要有查理斯的符號(hào)系統(tǒng)說(shuō)和克瑞斯的交互方式說(shuō)（王慧君等，2015）。前者認(rèn)為模態(tài)是可以被具體的感知過(guò)程解釋的社會(huì)符號(hào)系統(tǒng)（Kress，2010），例如聲音、圖像、文字等;后者認(rèn)為模態(tài)是人類通過(guò)感覺(jué)器官建立的與外部環(huán)境之間的交互方式，如視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、嗅覺(jué)、味覺(jué)等。人工智能領(lǐng)域?qū)τ谀B(tài)的解釋偏向于“機(jī)器對(duì)外界信息的感知模式或信息通道”（Lahat et al.，2015），認(rèn)為“每一種信息的來(lái)源或者形式”都可以稱為一種模態(tài)，既包含信息的表征形態(tài)和感知通道，又包含基于多種感知設(shè)備的數(shù)據(jù)采集方式。例如：用于表征學(xué)習(xí)者情緒、專注度等特征的話語(yǔ)、表情、身體姿態(tài)等數(shù)據(jù)可以被視為多模態(tài)數(shù)據(jù);用于表征構(gòu)成完整教育情境的學(xué)習(xí)者、教師、教學(xué)資源、教學(xué)媒體、教學(xué)活動(dòng)等數(shù)據(jù)也可以被視為多模態(tài)數(shù)據(jù)。

1.多模態(tài)數(shù)據(jù)融合是一種感知和理解世界的新視角

關(guān)于多模態(tài)數(shù)據(jù)融合的科學(xué)依據(jù)可以從以下幾個(gè)維度展開(kāi)討論：第一，事物的存在方式是多模態(tài)的。從社會(huì)符號(hào)系統(tǒng)的角度看，任何事物的存在方式都可以用聲音、文字、圖像來(lái)表示，而綜合文本、語(yǔ)音、圖像等的多模態(tài)符號(hào)系統(tǒng)可以在更大程度上表征事物存在的基本樣態(tài)。比如要表示一幅圖畫(huà)，人們可以單純地將圖畫(huà)呈現(xiàn)給觀眾（圖像模態(tài)），也可以輔之以相應(yīng)的文字對(duì)圖畫(huà)中的內(nèi)容加以解釋（圖像+文本模態(tài)），還可以通過(guò)語(yǔ)音講解對(duì)圖畫(huà)的內(nèi)容進(jìn)行描述（圖像+文本+語(yǔ)音模態(tài)）。第二，人對(duì)世界的感知方式是多模態(tài)的。人對(duì)世界的感知主要通過(guò)視覺(jué)、聽(tīng)覺(jué)、嗅覺(jué)、觸覺(jué)、味覺(jué)等感知通道來(lái)實(shí)現(xiàn)。“察言觀色”表達(dá)的就是聽(tīng)人說(shuō)話，不僅要“聽(tīng)其言”，更要“觀其行”，只有調(diào)動(dòng)多種感知通道，才能夠形成對(duì)事物存在方式的良好感知。第三，人工智能的學(xué)習(xí)是多模態(tài)的。人工智能是通過(guò)對(duì)外部信息的加工、處理和意義建構(gòu)來(lái)模擬人類智能的技術(shù)，其核心研究領(lǐng)域中的自然語(yǔ)言處理、語(yǔ)音識(shí)別、計(jì)算機(jī)視覺(jué)分別是模擬人類對(duì)文本、語(yǔ)音和圖像數(shù)據(jù)的感知、加工和處理機(jī)制的智能計(jì)算邏輯。因此，要形成對(duì)事物存在方式的深度理解，只利用某一種模態(tài)的數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的，這就需要利用多模態(tài)數(shù)據(jù)融合的方法對(duì)不同模態(tài)數(shù)據(jù)表征的信息進(jìn)行融合分析，以此形成對(duì)外界事物完整的意義建構(gòu)（王一巖等，2021a）。基于此，有學(xué)者認(rèn)為多模態(tài)學(xué)習(xí)是未來(lái)人工智能發(fā)展的必然趨勢(shì)，關(guān)于多模態(tài)機(jī)器學(xué)習(xí)的相關(guān)研究也越來(lái)越受到人工智能領(lǐng)域相關(guān)學(xué)者的關(guān)注（Baltru?aitis et al.，2018）。

2.多模態(tài)數(shù)據(jù)融合是智能技術(shù)教育應(yīng)用的關(guān)鍵落腳點(diǎn)

物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等新興技術(shù)的發(fā)展為多模態(tài)數(shù)據(jù)的感知與融合提供了理論和技術(shù)支持，多模態(tài)數(shù)據(jù)融合也在一定程度上促進(jìn)了相關(guān)領(lǐng)域的研究進(jìn)程。多模態(tài)數(shù)據(jù)的感知與融合是智能技術(shù)教育應(yīng)用的核心，能夠凝聚物聯(lián)網(wǎng)、人工智能、大數(shù)據(jù)等技術(shù)的核心效用，共同助力教育研究的數(shù)據(jù)化、科學(xué)化、智能化發(fā)展（鄭永和等，2021）。

（1）“多模態(tài)”之于物聯(lián)網(wǎng)教育應(yīng)用

物聯(lián)網(wǎng)和智能感知技術(shù)的發(fā)展為多模態(tài)信息感知提供了底層技術(shù)支持。利用智能感知設(shè)備實(shí)現(xiàn)對(duì)事物存在狀態(tài)和運(yùn)動(dòng)方式的多通道智能感知，為多模態(tài)數(shù)據(jù)的采集提供底層硬件支持，在很大程度上實(shí)現(xiàn)了對(duì)學(xué)習(xí)者和學(xué)習(xí)情境的多元化數(shù)據(jù)表征。智能感知技術(shù)和物聯(lián)網(wǎng)技術(shù)在教育領(lǐng)域的應(yīng)用包括：一是利用攝像機(jī)、眼動(dòng)儀、腦電儀、皮膚電、智能手環(huán)等設(shè)備對(duì)學(xué)習(xí)者的外在行為和內(nèi)在生理信息進(jìn)行多通道的數(shù)據(jù)采集，并以此為依據(jù)對(duì)學(xué)習(xí)者的行為、情緒、專注度等狀況進(jìn)行精準(zhǔn)分析。二是利用溫度傳感器、光線傳感器、紅外感應(yīng)器、攝像機(jī)等設(shè)備實(shí)現(xiàn)對(duì)課堂教學(xué)情境的全方位感知與智能分析，利用多模態(tài)數(shù)據(jù)實(shí)現(xiàn)對(duì)課堂教學(xué)情境的智能感知與融合計(jì)算。三是利用物聯(lián)網(wǎng)技術(shù)構(gòu)建面向智慧校園的全方位監(jiān)測(cè)體系，對(duì)學(xué)生的體育運(yùn)動(dòng)、身體健康、出行軌跡、食堂消費(fèi)、課堂表現(xiàn)、學(xué)業(yè)成績(jī)等數(shù)據(jù)進(jìn)行實(shí)時(shí)監(jiān)測(cè)，實(shí)現(xiàn)面向?qū)W習(xí)者的多場(chǎng)景、多通道、多維度的數(shù)據(jù)采集，并以此為依據(jù)實(shí)現(xiàn)對(duì)學(xué)習(xí)者全方位的測(cè)評(píng)分析。

（2）“多模態(tài)”之于人工智能教育應(yīng)用

多模態(tài)數(shù)據(jù)融合和人工智能教育應(yīng)用之間的聯(lián)系較為緊密。一方面，以自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、生理信息識(shí)別為代表的人工智能前沿技術(shù)的快速發(fā)展為教育領(lǐng)域的多模態(tài)數(shù)據(jù)融合研究的開(kāi)展奠定了基礎(chǔ)，多模態(tài)機(jī)器學(xué)習(xí)技術(shù)的成熟更是為多模態(tài)數(shù)據(jù)的融合提供了良好的技術(shù)解決方案。另一方面，以教育智能體、智能導(dǎo)學(xué)系統(tǒng)、教育機(jī)器人、自適應(yīng)學(xué)習(xí)系統(tǒng)為代表的智能教育產(chǎn)品的設(shè)計(jì)與實(shí)現(xiàn)均需借助多模態(tài)數(shù)據(jù)感知與融合的方法實(shí)現(xiàn)機(jī)器與學(xué)習(xí)者之間的自然交互（王一巖等，2021b）。通過(guò)對(duì)學(xué)習(xí)者學(xué)業(yè)測(cè)評(píng)、心理測(cè)評(píng)、外在行為、生理信息等數(shù)據(jù)的融合分析，可以實(shí)現(xiàn)對(duì)學(xué)習(xí)者行為、情感、學(xué)習(xí)投入、學(xué)習(xí)動(dòng)機(jī)等的精準(zhǔn)測(cè)評(píng)，從而幫助機(jī)器更好地理解學(xué)習(xí)者的學(xué)習(xí)意圖，并為其提供適切性的學(xué)習(xí)支持服務(wù)。

（3）“多模態(tài)”之于大數(shù)據(jù)教育應(yīng)用

多模態(tài)數(shù)據(jù)對(duì)于大數(shù)據(jù)教育應(yīng)用的深入開(kāi)展具有重要的導(dǎo)向作用。其一，多模態(tài)數(shù)據(jù)豐富了大數(shù)據(jù)的表征形態(tài)。多模態(tài)數(shù)據(jù)能夠從多個(gè)視角、多種形態(tài)、多個(gè)信息來(lái)源對(duì)事物的存在方式進(jìn)行表征和計(jì)算，利用面向個(gè)體、群體、資源、環(huán)境的多源異構(gòu)數(shù)據(jù)對(duì)真實(shí)的教育情境進(jìn)行精準(zhǔn)建模分析，在最大程度上還原教學(xué)生態(tài)系統(tǒng)的全貌。其二，多模態(tài)數(shù)據(jù)提升了大數(shù)據(jù)的價(jià)值密度。當(dāng)前，大數(shù)據(jù)已被諸多領(lǐng)域關(guān)注，它在帶來(lái)真實(shí)、多樣、海量數(shù)據(jù)的同時(shí)，其相對(duì)較低的價(jià)值密度也引發(fā)了一定的詬病。多模態(tài)數(shù)據(jù)融合為該問(wèn)題的解決提供了良好的理論和技術(shù)支持，它能夠借助智能感知技術(shù)對(duì)事物的存在方式進(jìn)行多個(gè)維度的量化表征，從而利用不同模態(tài)數(shù)據(jù)之間的信息互補(bǔ)機(jī)制提升數(shù)據(jù)的價(jià)值密度。

二、多模態(tài)數(shù)據(jù)的類型和融合策略

1.多模態(tài)數(shù)據(jù)的類型

從智能教育領(lǐng)域多模態(tài)數(shù)據(jù)融合的研究現(xiàn)狀出發(fā)，本文在對(duì)相關(guān)研究成果進(jìn)行系統(tǒng)分析的基礎(chǔ)上，將多模態(tài)數(shù)據(jù)融合中常見(jiàn)的數(shù)據(jù)類型概括為以下四種。

（1）外在行為表征數(shù)據(jù)

外在行為表征數(shù)據(jù)主要包括個(gè)體的話語(yǔ)、表情、手勢(shì)、身體姿態(tài)等言語(yǔ)行為和非言語(yǔ)行為數(shù)據(jù)。在真實(shí)的研究問(wèn)題中常見(jiàn)的外在行為表征數(shù)據(jù)類型主要有以下兩種：一是基于文本、語(yǔ)音、視頻的多模態(tài)數(shù)據(jù)。在人工智能領(lǐng)域，多模態(tài)數(shù)據(jù)被定義為融合文本、語(yǔ)音、視頻的數(shù)據(jù)表征模式。利用自然語(yǔ)言處理、語(yǔ)音識(shí)別、計(jì)算機(jī)視覺(jué)等相關(guān)方法構(gòu)建的多模態(tài)分析模型，可實(shí)現(xiàn)對(duì)研究對(duì)象的多元解釋。例如卡內(nèi)基梅隆大學(xué)Zadeh等（2018）開(kāi)展的多模態(tài)情感識(shí)別研究，通過(guò)對(duì)研究對(duì)象文本、語(yǔ)音和視頻數(shù)據(jù)的融合分析實(shí)現(xiàn)對(duì)個(gè)體情緒狀態(tài)的精準(zhǔn)識(shí)別。二是基于面部表情和身體姿態(tài)的多模態(tài)數(shù)據(jù)。計(jì)算機(jī)視覺(jué)領(lǐng)域強(qiáng)調(diào)利用研究對(duì)象的面部表情（例如眼睛、嘴巴等表情特征）和身體姿態(tài)（例如頭部姿態(tài)等肢體特征）等多模態(tài)數(shù)據(jù)實(shí)現(xiàn)對(duì)其潛在狀態(tài)進(jìn)行挖掘分析，如Ashwin等（2020）構(gòu)建了基于在線學(xué)習(xí)和真實(shí)課堂環(huán)境下學(xué)生面部表情、手勢(shì)和身體姿態(tài)的多模態(tài)情感數(shù)據(jù)庫(kù)，利用多模態(tài)數(shù)據(jù)之間的信息互補(bǔ)機(jī)制對(duì)學(xué)習(xí)者的情緒狀態(tài)進(jìn)行精準(zhǔn)識(shí)別。

（2）內(nèi)在神經(jīng)生理信息數(shù)據(jù)

內(nèi)在神經(jīng)生理信息數(shù)據(jù)的采集建立在多模態(tài)生物識(shí)別技術(shù)基礎(chǔ)上。利用多種智能傳感設(shè)備，可對(duì)研究對(duì)象的呼吸、心跳、脈搏、眼動(dòng)、皮膚電、腦電、血氧、激素分泌水平等生理信息數(shù)據(jù)進(jìn)行采集和融合分析，并對(duì)其情感狀態(tài)、學(xué)習(xí)投入等特征進(jìn)行識(shí)別。例如Verma等（2014）利用DEAP（Database for Emotion Analysis Using Physiological Signals）數(shù)據(jù)庫(kù)給出的腦電數(shù)據(jù)和外周生理數(shù)據(jù)（皮膚電反應(yīng)、血壓、呼吸、皮膚溫度、肌電圖等）實(shí)現(xiàn)了基于多模態(tài)數(shù)據(jù)融合的情緒識(shí)別。與基于外在行為表征數(shù)據(jù)的測(cè)評(píng)方式相比，基于神經(jīng)生理信息的多模態(tài)數(shù)據(jù)感知能夠克服研究對(duì)象主觀意識(shí)對(duì)外在行為表征的影響，從而更加客觀地反映研究對(duì)象的真實(shí)狀態(tài)，因此該類數(shù)據(jù)逐漸被廣泛應(yīng)用于教育學(xué)、心理學(xué)、醫(yī)學(xué)等領(lǐng)域的研究。

（3）人機(jī)交互數(shù)據(jù)

基于人機(jī)交互的多模態(tài)數(shù)據(jù)主要關(guān)注學(xué)習(xí)者在操作人機(jī)交互設(shè)備過(guò)程中產(chǎn)生的點(diǎn)擊、指紋、觸覺(jué)、壓感、筆跡、手勢(shì)、文本輸入、語(yǔ)音交互、面部表情等數(shù)據(jù)。例如：Schrader等（2020）利用學(xué)習(xí)者在使用平板電腦過(guò)程中的筆壓力參數(shù)測(cè)量學(xué)生的愉悅感和沮喪感;Su等（2016）利用學(xué)習(xí)者的面部表情數(shù)據(jù)和文本輸入數(shù)據(jù)對(duì)學(xué)習(xí)者的情緒狀態(tài)和學(xué)習(xí)情境進(jìn)行識(shí)別。隨著智能技術(shù)的發(fā)展和智能教育產(chǎn)品的成熟，人機(jī)協(xié)同學(xué)習(xí)將成為未來(lái)教育的重要組成部分。因此，利用多模態(tài)人機(jī)交互數(shù)據(jù)實(shí)現(xiàn)對(duì)學(xué)習(xí)過(guò)程的有效還原，將會(huì)成為未來(lái)智能教育領(lǐng)域的重要方向。

（4）學(xué)習(xí)情境感知數(shù)據(jù)

上述多模態(tài)數(shù)據(jù)大多針對(duì)個(gè)體在特定時(shí)空情境下單一特征的描述。然而，由于教育情境的復(fù)雜性，學(xué)者們研究的教育問(wèn)題往往不僅需要針對(duì)學(xué)習(xí)者單一特征的測(cè)量，而且需要利用多源異構(gòu)數(shù)據(jù)實(shí)現(xiàn)對(duì)完整教育情境的精準(zhǔn)刻畫(huà)，從而實(shí)現(xiàn)對(duì)教學(xué)生態(tài)的完整表征（穆肅等，2021）。因此，對(duì)于學(xué)習(xí)情境信息的數(shù)據(jù)化表征是未來(lái)智能教育領(lǐng)域研究的重點(diǎn)，通過(guò)對(duì)構(gòu)成教育情境的人、機(jī)、物、環(huán)境等要素的智能感知與精準(zhǔn)測(cè)評(píng)，從數(shù)據(jù)感知層面對(duì)學(xué)習(xí)情境進(jìn)行全方位的測(cè)評(píng)分析，實(shí)現(xiàn)對(duì)教育規(guī)律的深層次挖掘分析。學(xué)習(xí)情境感知數(shù)據(jù)主要包括教師的教學(xué)行為、教學(xué)風(fēng)格、教學(xué)內(nèi)容、教學(xué)資源、教學(xué)設(shè)備、教育服務(wù)、教學(xué)活動(dòng)、教學(xué)環(huán)境以及學(xué)生的行為、認(rèn)知、情感特征數(shù)據(jù)等（王一巖等，2021c）。例如Bao（2013）認(rèn)為可以利用多模態(tài)傳感設(shè)備對(duì)個(gè)體在不同情境中的信息進(jìn)行采集，實(shí)現(xiàn)對(duì)個(gè)體位置、活動(dòng)、意圖、行為和交互的數(shù)據(jù)記錄與行為推斷，從而實(shí)現(xiàn)對(duì)個(gè)體特征的細(xì)致刻畫(huà)和對(duì)教育情境的精準(zhǔn)感知。

2.多模態(tài)數(shù)據(jù)的融合策略

多模態(tài)數(shù)據(jù)融合旨在利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法對(duì)不同模態(tài)的數(shù)據(jù)進(jìn)行融合分析，從而利用不同模態(tài)數(shù)據(jù)之間的信息互補(bǔ)機(jī)制，提升數(shù)據(jù)分析的有效性。常見(jiàn)的多模態(tài)數(shù)據(jù)融合策略主要有三種：數(shù)據(jù)級(jí)融合、特征級(jí)融合和決策級(jí)融合。

（1）數(shù)據(jù)級(jí)融合

數(shù)據(jù)級(jí)融合也叫前期融合，是將多個(gè)模態(tài)的數(shù)據(jù)融合成一個(gè)單一的特征矩陣，然后輸入到機(jī)器學(xué)習(xí)的分類器中進(jìn)行訓(xùn)練。例如Gouizi等（2011）利用國(guó)際情感圖片系統(tǒng)提供的圖片來(lái)測(cè)驗(yàn)被試的情感狀態(tài)，通過(guò)對(duì)肌電圖、呼吸量、皮膚溫度、皮膚電等數(shù)據(jù)的采集，利用數(shù)據(jù)級(jí)融合的策略將不同模態(tài)的數(shù)據(jù)拼接成一個(gè)完整的特征矩陣，然后輸入到支持向量機(jī)（Support Vector Machine，SVM）模型中對(duì)被試的6種基本情緒（喜悅、悲傷、恐懼、厭惡、中立和娛樂(lè)）進(jìn)行分類，達(dá)到了85%的準(zhǔn)確率。Lai等（2019）利用生理信息采集設(shè)備對(duì)學(xué)習(xí)者的皮膚電、腦電、心率、肌電圖數(shù)據(jù)進(jìn)行采集，并將其存儲(chǔ)為相應(yīng)的特征矩陣，再通過(guò)矩陣的變換將不同模態(tài)的數(shù)據(jù)拼接成一個(gè)特征矩陣，實(shí)現(xiàn)數(shù)據(jù)級(jí)的多模態(tài)融合，最后將處理后的特征矩陣輸入到基于SVM的情感分類模型中進(jìn)行訓(xùn)練，以此對(duì)學(xué)習(xí)者的情緒狀態(tài)進(jìn)行識(shí)別。數(shù)據(jù)級(jí)融合的缺點(diǎn)在于原始數(shù)據(jù)通常包含大量的冗余信息，需要采用一定的特征提取方法對(duì)數(shù)據(jù)進(jìn)行處理，這在一定程度上增加了數(shù)據(jù)處理的復(fù)雜性，且數(shù)據(jù)級(jí)融合無(wú)法充分發(fā)揮多個(gè)模態(tài)數(shù)據(jù)間的信息互補(bǔ)機(jī)制。

（2）特征級(jí)融合

特征級(jí)融合也叫中期融合，是指將不同的模態(tài)數(shù)據(jù)先轉(zhuǎn)化為高維特征表達(dá)，然后利用不同模態(tài)數(shù)據(jù)在高維空間上的共性特征選取適當(dāng)?shù)奈恢眠M(jìn)行融合。常用的方法有基于簡(jiǎn)單操作的方法、基于注意力的方法和基于張量融合的方法。其優(yōu)勢(shì)在于能夠?qū)γ糠N模態(tài)的數(shù)據(jù)選用最合適的特征提取模型進(jìn)行處理，盡可能地保留數(shù)據(jù)的原始信息，再在模型的中間層選取合適的位置進(jìn)行特征融合，能夠充分實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)之間的信息互補(bǔ)，且在操作層面具有較強(qiáng)的靈活性，因此特征級(jí)多模態(tài)數(shù)據(jù)融合策略逐漸被廣泛應(yīng)用。例如Chen等（2019）利用特征級(jí)融合的方法實(shí)現(xiàn)了基于文本和語(yǔ)音數(shù)據(jù)的多模態(tài)情感識(shí)別。該研究團(tuán)隊(duì)構(gòu)建了基于神經(jīng)網(wǎng)絡(luò)的文本情感特征提取模型和語(yǔ)音情感特征提取模型，分別對(duì)文本和語(yǔ)音數(shù)據(jù)進(jìn)行處理，生成了一個(gè)文本情感特征向量和一個(gè)語(yǔ)音情感特征向量，最后利用基于注意力的方法將文本和語(yǔ)音數(shù)據(jù)的情感特征向量進(jìn)行融合，以此對(duì)研究對(duì)象的情緒狀態(tài)進(jìn)行識(shí)別。研究結(jié)果表明，基于特征級(jí)融合的方法能夠顯著提升多模態(tài)情緒識(shí)別的準(zhǔn)確度。又如Majumder等（2018）提出了一種基于層次融合和上下文建模的多模態(tài)情感分析模型。他們先分別利用深度卷積神經(jīng)網(wǎng)絡(luò)模型（DCNN）、OpenSMILE軟件、3D-CNN模型對(duì)文本、語(yǔ)音、視覺(jué)特征進(jìn)行提取，然后利用門(mén)控循環(huán)神經(jīng)網(wǎng)絡(luò)（Gated Recurrent Unit，GRU）對(duì)上下文進(jìn)行建模，并分別構(gòu)建了基于“文本—語(yǔ)音”“文本—視頻”“語(yǔ)音—視頻”的二維融合模型，再將從三個(gè)二維模型中提取到的特征進(jìn)行融合，最終形成了一個(gè)三維特征矩陣用于對(duì)個(gè)體的情緒狀態(tài)檢測(cè)。研究結(jié)果表明，該模型的情感分類準(zhǔn)確率顯著高于現(xiàn)有模型。

（3）決策級(jí)融合

決策級(jí)融合也叫后期融合，是指對(duì)不同模態(tài)的數(shù)據(jù)分別選取適合的分類器進(jìn)行訓(xùn)練，并對(duì)每種模態(tài)分類器輸出的標(biāo)簽值進(jìn)行打分之后融合。決策級(jí)融合的優(yōu)勢(shì)在于，融合模型的錯(cuò)誤來(lái)自不同的分類器，往往互不相關(guān)，不會(huì)造成錯(cuò)誤的進(jìn)一步累加。常見(jiàn)的后期融合方式包括最大值融合、平均值融合、貝葉斯規(guī)則融合以及集成學(xué)習(xí)等。例如Huang 等（2019a）分別利用CNN和SVM方法對(duì)個(gè)體的面部表情數(shù)據(jù)和腦電數(shù)據(jù)進(jìn)行處理，并采用基于枚舉權(quán)重和Adaboost的決策級(jí)融合策略將面部表情與腦電信號(hào)表征的情感狀態(tài)進(jìn)行融合，結(jié)果表明，兩種決策級(jí)融合策略都能夠取得較好的結(jié)果。Huang等（2019b）關(guān)注社交媒體中基于“圖像—文本”的多模態(tài)情緒識(shí)別，首先構(gòu)建了基于CNN和注意力機(jī)制的圖像情感分類模型和基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（Long Short-Term Memory，LSTM）和注意力機(jī)制的文本情感分類模型，分別對(duì)圖像和文本數(shù)據(jù)所表征的情感狀態(tài)進(jìn)行檢測(cè)，在此基礎(chǔ)上提出了一種基于特征級(jí)融合的多模態(tài)注意力情感分類模型，利用圖像和文本特征之間的內(nèi)部相關(guān)性進(jìn)行多模態(tài)情感分類，最后利用后期融合策略將三個(gè)情感分類模型進(jìn)行有機(jī)結(jié)合，實(shí)現(xiàn)了對(duì)社交媒體的情感狀態(tài)的預(yù)測(cè)。從多模態(tài)數(shù)據(jù)融合的一般規(guī)律來(lái)講，多模態(tài)數(shù)據(jù)所表征的信息并非完全獨(dú)立，不同模態(tài)的數(shù)據(jù)在一定程度上可以互相補(bǔ)充，而后期融合的方法一般會(huì)忽略不同模態(tài)數(shù)據(jù)之間的信息互補(bǔ)機(jī)制，最終未必會(huì)取得比單一模態(tài)數(shù)據(jù)更高的準(zhǔn)確度。

三、智能教育領(lǐng)域多模態(tài)數(shù)據(jù)融合的研究現(xiàn)狀

通過(guò)對(duì)近年來(lái)國(guó)內(nèi)外智能教育領(lǐng)域多模態(tài)數(shù)據(jù)應(yīng)用現(xiàn)狀的系統(tǒng)梳理，本文將多模態(tài)數(shù)據(jù)融合在智能教育領(lǐng)域的應(yīng)用主要概括為多模態(tài)數(shù)據(jù)支持的人機(jī)交互分析、學(xué)習(xí)者情緒識(shí)別、學(xué)習(xí)投入分析、學(xué)業(yè)表現(xiàn)預(yù)測(cè)、學(xué)習(xí)情境感知5個(gè)方面。

1.多模態(tài)數(shù)據(jù)支持的人機(jī)交互分析

隨著人工智能技術(shù)的發(fā)展，智能導(dǎo)學(xué)系統(tǒng)、教育機(jī)器人、教育智能體等智能教育產(chǎn)品逐漸進(jìn)入真實(shí)的教學(xué)場(chǎng)景中，并為學(xué)習(xí)者和教師提供一系列的智能教育服務(wù)。在此背景下，如何實(shí)現(xiàn)人與機(jī)器之間的自然交互，促進(jìn)人機(jī)協(xié)作學(xué)習(xí)的有效開(kāi)展，是智能教育研究領(lǐng)域需要解決的關(guān)鍵問(wèn)題。多模態(tài)數(shù)據(jù)支持的人機(jī)交互分析能夠更好地對(duì)學(xué)習(xí)者的行為和生理信息進(jìn)行感知，利用多模態(tài)數(shù)據(jù)融合的方法更好地理解學(xué)習(xí)者真實(shí)的學(xué)習(xí)意圖和學(xué)習(xí)需求，并為其提供更加適切的學(xué)習(xí)支持服務(wù)。

以智能導(dǎo)學(xué)系統(tǒng)為例，傳統(tǒng)的智能導(dǎo)學(xué)系統(tǒng)大多利用鼠標(biāo)和鍵盤(pán)等人機(jī)交互設(shè)備實(shí)現(xiàn)學(xué)習(xí)者與系統(tǒng)之間的交互，通過(guò)鼠標(biāo)的點(diǎn)擊流數(shù)據(jù)和鍵盤(pán)的文本輸入數(shù)據(jù)對(duì)學(xué)習(xí)者的學(xué)習(xí)過(guò)程、學(xué)習(xí)成效和學(xué)習(xí)反饋信息進(jìn)行記錄。而融合了各種智能傳感設(shè)備的智能導(dǎo)學(xué)系統(tǒng)通過(guò)對(duì)學(xué)習(xí)者話語(yǔ)、表情、身體姿態(tài)等行為數(shù)據(jù)和眼動(dòng)、腦電、皮膚電等生理信息數(shù)據(jù)的采集，實(shí)現(xiàn)了系統(tǒng)與學(xué)習(xí)者之間的多模態(tài)交互（屈靜等，2020），有助于更好地對(duì)學(xué)習(xí)者的學(xué)習(xí)狀態(tài)進(jìn)行多元感知，并為其提供適切性的學(xué)習(xí)支持服務(wù)。代表性研究有：Kaklauskas等（2015）構(gòu)建了納入自我認(rèn)知和自尊測(cè)評(píng)的智能導(dǎo)學(xué)系統(tǒng)，在基于鼠標(biāo)和鍵盤(pán)的人機(jī)交互設(shè)備的基礎(chǔ)之上，構(gòu)建了面向?qū)W習(xí)者認(rèn)知和情緒測(cè)評(píng)的生理分析系統(tǒng)，利用眼動(dòng)儀、腦電圖、無(wú)線血壓監(jiān)測(cè)儀、無(wú)線脈搏血氧儀等感知設(shè)備對(duì)學(xué)習(xí)者的眼動(dòng)、腦電、血壓、脈搏等多模態(tài)生理信息數(shù)據(jù)進(jìn)行采集，以此實(shí)現(xiàn)對(duì)學(xué)習(xí)者情緒狀態(tài)的智能感知，并為其提供自適應(yīng)的學(xué)習(xí)路徑規(guī)劃服務(wù);Su等（2016）構(gòu)建了基于人臉識(shí)別和語(yǔ)義識(shí)別的情感導(dǎo)學(xué)系統(tǒng)，可利用學(xué)習(xí)者的面部表情數(shù)據(jù)和文本輸入數(shù)據(jù)對(duì)學(xué)習(xí)者的情緒狀態(tài)和學(xué)習(xí)情境進(jìn)行識(shí)別，并為其選取合適的教學(xué)策略和教學(xué)資源，通過(guò)教學(xué)代理實(shí)現(xiàn)用戶和系統(tǒng)之間的交互，使學(xué)習(xí)者獲得良好的學(xué)習(xí)體驗(yàn)。

教育機(jī)器人的開(kāi)發(fā)更需要通過(guò)采集學(xué)習(xí)者語(yǔ)音、動(dòng)作、表情等數(shù)據(jù)，利用語(yǔ)義分析、情感分析、專注度識(shí)別等技術(shù)對(duì)學(xué)習(xí)者所要表達(dá)的核心觀點(diǎn)進(jìn)行精準(zhǔn)分析，并以此為基礎(chǔ)對(duì)學(xué)習(xí)者真實(shí)的學(xué)習(xí)需求進(jìn)行診斷（盧宇等，2020）。Chen等（2020）的一項(xiàng)研究中，學(xué)習(xí)者與教育機(jī)器人在面向詞匯掌握的學(xué)習(xí)游戲中開(kāi)展人機(jī)協(xié)作學(xué)習(xí)，研究結(jié)果表明教育機(jī)器人支持的人機(jī)協(xié)作學(xué)習(xí)有助于提升5～7歲兒童的語(yǔ)言學(xué)習(xí)能力。

2.多模態(tài)數(shù)據(jù)支持的學(xué)習(xí)者情緒識(shí)別

多模態(tài)數(shù)據(jù)支持的學(xué)習(xí)者情緒感知是近年來(lái)智能教育領(lǐng)域研究的熱點(diǎn)話題，其主要利用自然語(yǔ)言處理、語(yǔ)音識(shí)別、計(jì)算機(jī)視覺(jué)、生理信息識(shí)別等技術(shù)實(shí)現(xiàn)基于學(xué)習(xí)者話語(yǔ)、表情、身體姿態(tài)等外顯行為數(shù)據(jù)和心跳、眼動(dòng)、腦電、皮膚電等內(nèi)在生理信息數(shù)據(jù)的融合分析，對(duì)學(xué)習(xí)者個(gè)體的情緒狀態(tài)進(jìn)行精準(zhǔn)識(shí)別，以此對(duì)學(xué)習(xí)者的學(xué)習(xí)投入、學(xué)習(xí)興趣、學(xué)習(xí)動(dòng)機(jī)、學(xué)習(xí)風(fēng)格等特征進(jìn)行深入的挖掘，進(jìn)而為學(xué)習(xí)者提供個(gè)性化的學(xué)習(xí)支持服務(wù)（王一巖等，2021d）。具有代表性的研究有：Shen等（2009）通過(guò)構(gòu)建基于學(xué)習(xí)者心率、血壓、皮膚電導(dǎo)和腦電信號(hào)的多模態(tài)情感數(shù)據(jù)集，對(duì)學(xué)習(xí)者的好奇、困惑、無(wú)聊和期待四種情緒狀態(tài)進(jìn)行識(shí)別，達(dá)到了86.3%的準(zhǔn)確率;并提出了一種基于學(xué)習(xí)者和學(xué)習(xí)情境信息的學(xué)習(xí)情感模型，其可根據(jù)學(xué)習(xí)者的情感狀態(tài)、認(rèn)知能力、學(xué)習(xí)目標(biāo)以及學(xué)習(xí)者與學(xué)習(xí)系統(tǒng)之間的交互情況為學(xué)習(xí)者提供自適應(yīng)的學(xué)習(xí)支持服務(wù)。北京師范大學(xué)的研究團(tuán)隊(duì)關(guān)注真實(shí)課堂教學(xué)環(huán)境下學(xué)習(xí)者的情感發(fā)生機(jī)制，構(gòu)建了基于學(xué)習(xí)者的面部表情、眼睛動(dòng)作、頭部姿勢(shì)、身體動(dòng)作和手勢(shì)等信息的多模態(tài)情感數(shù)據(jù)集BNU-LSVED（Sun et al.，2016）和BNU-LSVED 2.0（Wei et al.，2017），對(duì)學(xué)習(xí)者在課堂教學(xué)過(guò)程中實(shí)時(shí)的情緒狀態(tài)進(jìn)行識(shí)別。Ashwin等（2020）利用真實(shí)課堂環(huán)境下學(xué)習(xí)者的面部表情、手勢(shì)和身體姿態(tài)數(shù)據(jù)對(duì)學(xué)習(xí)者的無(wú)聊、參與和中性情緒進(jìn)行識(shí)別，提出了兩種分別面向個(gè)體和群體的CNN模型，并基于此構(gòu)建了一種新型混合卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)班級(jí)整體的情緒狀態(tài)進(jìn)行預(yù)測(cè)。

3.多模態(tài)數(shù)據(jù)支持的學(xué)習(xí)投入分析

學(xué)習(xí)投入是學(xué)習(xí)過(guò)程監(jiān)測(cè)和學(xué)業(yè)表現(xiàn)測(cè)評(píng)的重要指標(biāo)，反映了個(gè)體學(xué)習(xí)過(guò)程中的認(rèn)知深度、思維靈活性和情感體驗(yàn)。對(duì)于學(xué)習(xí)者學(xué)習(xí)投入的精準(zhǔn)測(cè)評(píng)是現(xiàn)階段智能教育領(lǐng)域關(guān)注的重要議題，其主要通過(guò)對(duì)完整學(xué)習(xí)過(guò)程中學(xué)習(xí)者“行為投入”“認(rèn)知投入”和“情感投入”的綜合測(cè)評(píng)來(lái)反映學(xué)習(xí)者真實(shí)的學(xué)習(xí)參與情況，并以此對(duì)課堂教學(xué)的成效進(jìn)行綜合評(píng)估。當(dāng)前有關(guān)學(xué)習(xí)者學(xué)習(xí)投入的測(cè)評(píng)研究主要關(guān)注多模態(tài)數(shù)據(jù)在學(xué)習(xí)投入分析中的潛在價(jià)值。例如有研究者利用學(xué)習(xí)者的外在行為數(shù)據(jù)和內(nèi)在生理信息數(shù)據(jù)實(shí)現(xiàn)對(duì)學(xué)習(xí)投入的多元表征，以提升學(xué)習(xí)投入分析的準(zhǔn)確度（張琪等，2020）。具有代表性的研究有：Li等（2020）構(gòu)建了基于紅外圖像數(shù)據(jù)、面部表情數(shù)據(jù)和鼠標(biāo)點(diǎn)擊數(shù)據(jù)的多模態(tài)數(shù)據(jù)集，利用CNN的方法對(duì)學(xué)生在在線學(xué)習(xí)中的參與度進(jìn)行檢測(cè)，實(shí)現(xiàn)對(duì)多模態(tài)數(shù)據(jù)的融合分析;Ashwin等（2018）構(gòu)建了基于學(xué)習(xí)者面部表情和身體姿態(tài)的多模態(tài)數(shù)據(jù)集，利用卷積神經(jīng)網(wǎng)絡(luò)的方法對(duì)真實(shí)課堂教學(xué)過(guò)程中學(xué)習(xí)者的參與度進(jìn)行識(shí)別，達(dá)到了89%的準(zhǔn)確率。

4.多模態(tài)數(shù)據(jù)支持的學(xué)業(yè)表現(xiàn)預(yù)測(cè)

多模態(tài)數(shù)據(jù)支持的學(xué)業(yè)表現(xiàn)預(yù)測(cè)主要利用學(xué)習(xí)者的外顯行為信息和內(nèi)在生理信息預(yù)測(cè)學(xué)習(xí)者的學(xué)習(xí)效果和學(xué)業(yè)發(fā)展?fàn)顩r，并以此對(duì)學(xué)習(xí)者進(jìn)行適當(dāng)?shù)膶W(xué)業(yè)預(yù)警和學(xué)習(xí)干預(yù)，促進(jìn)學(xué)習(xí)效果的提升。代表性研究有：Giannakos等（2019）進(jìn)行了一項(xiàng)基于游戲的實(shí)驗(yàn)研究，為17個(gè)用戶設(shè)計(jì)了251個(gè)游戲環(huán)節(jié)，構(gòu)建了基于點(diǎn)擊流、眼動(dòng)、腦電圖、面部表情、腕帶數(shù)據(jù)的多模態(tài)數(shù)據(jù)集，利用Lasso回歸模型對(duì)學(xué)習(xí)者的技能發(fā)展情況以及對(duì)復(fù)雜任務(wù)的處理能力進(jìn)行預(yù)測(cè)。研究結(jié)果表明，傳統(tǒng)的點(diǎn)擊流模型在預(yù)測(cè)學(xué)習(xí)成效時(shí)錯(cuò)誤率達(dá)到39%，而利用多模態(tài)數(shù)據(jù)融合的方法能夠使錯(cuò)誤率下降到6%。Olsen等（2020）利用智能導(dǎo)學(xué)系統(tǒng)對(duì)25個(gè)9～11歲的二人組的眼動(dòng)、日志、音頻和對(duì)話數(shù)據(jù)進(jìn)行采集，利用多模態(tài)數(shù)據(jù)對(duì)協(xié)作學(xué)習(xí)活動(dòng)中學(xué)習(xí)者的學(xué)業(yè)表現(xiàn)進(jìn)行預(yù)測(cè)，研究結(jié)果表明：相比于單模態(tài)數(shù)據(jù)，多模態(tài)數(shù)據(jù)更能夠?qū)崿F(xiàn)準(zhǔn)確的學(xué)習(xí)成效預(yù)測(cè)。還有一些學(xué)者關(guān)注學(xué)習(xí)者在不同場(chǎng)景或情境下的行為表現(xiàn)，并以此對(duì)其學(xué)業(yè)表現(xiàn)進(jìn)行預(yù)測(cè)。例如，Chango等（2021）利用學(xué)生在理論課、實(shí)踐課、在線課程中的出席次數(shù)、座位排布、注意力集中情況、做筆記的時(shí)長(zhǎng)、在線學(xué)習(xí)活動(dòng)中的行為表現(xiàn)和交互數(shù)據(jù)構(gòu)建了面向?qū)W習(xí)者行為投入的多模態(tài)數(shù)據(jù)集，利用多種機(jī)器學(xué)習(xí)模型對(duì)學(xué)習(xí)者在混合課堂中的學(xué)業(yè)表現(xiàn)進(jìn)行預(yù)測(cè);Di Mitri等（2017）構(gòu)建了基于學(xué)習(xí)者的心率、步數(shù)、環(huán)境和學(xué)習(xí)活動(dòng)的多模態(tài)數(shù)據(jù)集，利用機(jī)器學(xué)習(xí)方法對(duì)學(xué)習(xí)者在自我調(diào)節(jié)學(xué)習(xí)中的學(xué)業(yè)表現(xiàn)進(jìn)行預(yù)測(cè)，證明基于多模態(tài)數(shù)據(jù)融合的方法能夠取得比單模態(tài)數(shù)據(jù)更高的準(zhǔn)確度。

5.多模態(tài)數(shù)據(jù)支持的學(xué)習(xí)情境感知

隨著智能感知技術(shù)的發(fā)展和情境認(rèn)知理論的成熟，學(xué)習(xí)情境感知逐漸成為近年來(lái)智能教育領(lǐng)域關(guān)注的熱點(diǎn)。情境感知通過(guò)智能傳感設(shè)備對(duì)特定時(shí)空條件下的人、機(jī)、物等實(shí)體要素進(jìn)行智能感知，獲取對(duì)用戶有用的反饋信息，并通過(guò)對(duì)數(shù)據(jù)的分析處理，為用戶提供適切性的支持服務(wù)，并借助計(jì)算設(shè)備實(shí)現(xiàn)用戶和環(huán)境之間的交互融合（黃志芳等，2015）。目前關(guān)于情境感知的研究主要集中在泛在學(xué)習(xí)環(huán)境下的學(xué)習(xí)資源推薦（陳敏等，2015）和基于情境感知的適應(yīng)性學(xué)習(xí)路徑規(guī)劃（Hwang et al.，2010）等方面，相關(guān)學(xué)者對(duì)于教育情境的劃分主要包括：物理情境、社會(huì)情境、學(xué)習(xí)者情境、活動(dòng)情境、時(shí)空情境、服務(wù)情境、資源情境等。智能時(shí)代的教育科學(xué)研究越發(fā)重視教育情境的創(chuàng)設(shè)對(duì)于學(xué)習(xí)者行為、認(rèn)知、情感的影響，探究各類情境要素對(duì)學(xué)習(xí)者內(nèi)在認(rèn)知發(fā)展的影響機(jī)理，以此挖掘深層次的教育發(fā)展規(guī)律（王一巖等，2021c）。具有代表性的研究有：Chen等（2012）利用射頻識(shí)別、無(wú)線網(wǎng)絡(luò)、嵌入式手持設(shè)備構(gòu)建了基于情境感知的泛在學(xué)習(xí)系統(tǒng)，以檢測(cè)學(xué)習(xí)者在教室和博物館中的真實(shí)學(xué)習(xí)行為，并據(jù)此對(duì)教學(xué)過(guò)程進(jìn)行改進(jìn)，為每位學(xué)習(xí)者提供個(gè)性化的學(xué)習(xí)支持服務(wù);Tortorella等（2017）利用傳感器采集的學(xué)習(xí)者相對(duì)位置數(shù)據(jù)、學(xué)習(xí)者運(yùn)動(dòng)數(shù)據(jù)、環(huán)境光量數(shù)據(jù)以及地理位置數(shù)據(jù)對(duì)移動(dòng)學(xué)習(xí)中的學(xué)習(xí)情境信息進(jìn)行建模，根據(jù)學(xué)習(xí)者的學(xué)習(xí)風(fēng)格和學(xué)習(xí)情境信息在“自適應(yīng)移動(dòng)學(xué)習(xí)系統(tǒng)”中為學(xué)習(xí)者推薦適宜的多媒體學(xué)習(xí)資源。

多模態(tài)數(shù)據(jù)支持的學(xué)習(xí)情境感知也是近年來(lái)學(xué)習(xí)分析與知識(shí)國(guó)際會(huì)議（International Learning Analytics & Knowledge Conference，LAK）關(guān)注的熱點(diǎn)。在2017年的LAK國(guó)際會(huì)議中，Mu?oz-Cristóbal

等（2017）提出，學(xué)習(xí)可以發(fā)生在不同的物理空間和虛擬空間中，因此可以利用多種傳感設(shè)備對(duì)不同學(xué)習(xí)情境下的人、資源、設(shè)備等數(shù)據(jù)進(jìn)行采集，并利用多模態(tài)學(xué)習(xí)分析的方法對(duì)學(xué)習(xí)過(guò)程進(jìn)行解構(gòu)，進(jìn)而對(duì)泛在學(xué)習(xí)條件下學(xué)習(xí)者連續(xù)的學(xué)習(xí)體驗(yàn)進(jìn)行建模分析，以還原個(gè)體學(xué)習(xí)過(guò)程的全貌。在2020年的LAK國(guó)際會(huì)議中，Eradze等（2020）對(duì)情境感知在多模態(tài)學(xué)習(xí)分析中的應(yīng)用前景進(jìn)行了探討，認(rèn)為基于人類標(biāo)記的課程情境信息和基于機(jī)器智能感知的多模態(tài)數(shù)據(jù)可以互相補(bǔ)充，并據(jù)此構(gòu)建了基于情境感知的多模態(tài)學(xué)習(xí)分析分類方法。

四、多模態(tài)數(shù)據(jù)驅(qū)動(dòng)智能教育研究的實(shí)踐進(jìn)路

從科學(xué)研究的發(fā)展歷程來(lái)看，教育科學(xué)的研究范式經(jīng)歷了基于實(shí)驗(yàn)歸納的第一范式、基于理論推演的第二范式、基于仿真模擬的第三范式，以及基于數(shù)據(jù)密集型科學(xué)的第四范式變革（鄭永和等，2020）。大數(shù)據(jù)和人工智能技術(shù)的快速發(fā)展為現(xiàn)代科學(xué)研究的開(kāi)展提供了新的指導(dǎo)思想，有助于利用數(shù)據(jù)密集型科學(xué)的理論和方法挖掘事物背后復(fù)雜的因果關(guān)系，為相關(guān)問(wèn)題的解釋提供科學(xué)依據(jù)。大數(shù)據(jù)與教育的深度融合是近年來(lái)智能教育領(lǐng)域關(guān)注的熱點(diǎn)問(wèn)題，旨在以數(shù)據(jù)為依托，挖掘教育現(xiàn)象背后潛藏的復(fù)雜教育規(guī)律。多模態(tài)數(shù)據(jù)融合在教育領(lǐng)域的應(yīng)用價(jià)值主要體現(xiàn)在從多個(gè)維度、多種視角對(duì)學(xué)習(xí)者和學(xué)習(xí)情境進(jìn)行精準(zhǔn)刻畫(huà)，利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法挖掘其背后潛藏的特征與規(guī)律，以此為教育實(shí)踐研究的開(kāi)展提供支持。與傳統(tǒng)的教育數(shù)據(jù)挖掘研究相比，以多模態(tài)數(shù)據(jù)為支撐的教育過(guò)程數(shù)據(jù)挖掘能夠充分利用不同模態(tài)數(shù)據(jù)之間的信息互補(bǔ)機(jī)制來(lái)提升數(shù)據(jù)的價(jià)值密度，使在有限樣本的數(shù)據(jù)空間內(nèi)實(shí)現(xiàn)對(duì)研究對(duì)象的全方位解釋。這一方面能夠提升數(shù)據(jù)分析的效度，另一方面能夠節(jié)省相應(yīng)的計(jì)算資源，從而為教育科學(xué)研究的開(kāi)展提供全方位支持。未來(lái)智能教育領(lǐng)域的多模態(tài)數(shù)據(jù)研究可從以下四個(gè)方面發(fā)力。

1.面向多元學(xué)習(xí)主體和學(xué)習(xí)情境的全時(shí)空多維度數(shù)據(jù)采集

隨著以物聯(lián)網(wǎng)、云計(jì)算、人工智能為代表的新興智能技術(shù)的快速發(fā)展，未來(lái)的智慧學(xué)習(xí)空間將呈現(xiàn)一種泛在智能、群智感知、人機(jī)協(xié)同的新樣態(tài)（郭斌，2020），智能感知設(shè)備的應(yīng)用將遍布整個(gè)物理學(xué)習(xí)空間，實(shí)現(xiàn)泛在的學(xué)習(xí)情境感知。從多模態(tài)數(shù)據(jù)融合的研究現(xiàn)狀來(lái)看，多模態(tài)數(shù)據(jù)主要用于對(duì)學(xué)習(xí)主體和學(xué)習(xí)情境的多元化感知與數(shù)據(jù)化表征，并為教育現(xiàn)象的解釋、教育規(guī)律的發(fā)現(xiàn)、教育服務(wù)的供給提供科學(xué)依據(jù)。在實(shí)踐層面，多模態(tài)數(shù)據(jù)支持的多元化感知主要體現(xiàn)在：其一，感知通道的多元化。面向真實(shí)學(xué)習(xí)情境的多模態(tài)數(shù)據(jù)采集主要依托多種智能感知設(shè)備實(shí)現(xiàn)對(duì)學(xué)習(xí)主體和學(xué)習(xí)情境的多元化數(shù)據(jù)表征，以此為教育科學(xué)研究的開(kāi)展提供多元數(shù)據(jù)支持。例如利用攝像頭、眼動(dòng)儀、腦電圖等設(shè)備分別對(duì)學(xué)習(xí)者的表情、姿態(tài)、眼動(dòng)、腦電數(shù)據(jù)進(jìn)行采集，從行為、認(rèn)知、情感等多個(gè)維度對(duì)學(xué)習(xí)者的學(xué)習(xí)狀態(tài)進(jìn)行表征。其二，感知對(duì)象的多元化。教育是一個(gè)復(fù)雜系統(tǒng)，是由以學(xué)習(xí)者和教師為代表的教育主體、以教學(xué)資源和教學(xué)媒體為代表的教育客體，以及教育環(huán)境和教育活動(dòng)共同構(gòu)成，教育系統(tǒng)的復(fù)雜性為教育科學(xué)研究的開(kāi)展帶來(lái)了極大挑戰(zhàn)。因此未來(lái)的研究需要從還原論的視角出發(fā)，將復(fù)雜的教育系統(tǒng)化解為各部分之組合來(lái)加以理解和描述（歐陽(yáng)明等，2012），通過(guò)對(duì)課堂教學(xué)過(guò)程中學(xué)習(xí)者、教師、教學(xué)資源、教學(xué)媒體、教學(xué)環(huán)境、教學(xué)活動(dòng)的多元感知與精準(zhǔn)刻畫(huà)，以數(shù)據(jù)流的形式模擬課堂教學(xué)生態(tài)的演化模式，挖掘深層次的教育發(fā)展規(guī)律。

2.基于多模態(tài)數(shù)據(jù)融合的學(xué)習(xí)者認(rèn)知發(fā)展規(guī)律研究

對(duì)于教育規(guī)律的探索和揭示是教育科學(xué)研究追求的終極目標(biāo)，也是智能教育要解決的關(guān)鍵問(wèn)題。多模態(tài)數(shù)據(jù)的引入能夠?qū)W(xué)習(xí)主體和學(xué)習(xí)情境信息進(jìn)行記錄和表征，利用數(shù)據(jù)密集型科學(xué)的研究思想還原教學(xué)過(guò)程的全貌，在此基礎(chǔ)上，利用多模態(tài)數(shù)據(jù)融合的方法提升數(shù)據(jù)分析的效度，為揭示學(xué)習(xí)者的認(rèn)知發(fā)展規(guī)律提供科學(xué)依據(jù)。其一，利用多模態(tài)數(shù)據(jù)融合的方法對(duì)學(xué)習(xí)者和學(xué)習(xí)情境進(jìn)行精準(zhǔn)化、細(xì)粒度的表征，探究在不同教學(xué)情境下學(xué)習(xí)者的行為表現(xiàn)、認(rèn)知水平和情緒狀態(tài)，對(duì)學(xué)習(xí)者的學(xué)習(xí)風(fēng)格、學(xué)習(xí)興趣、學(xué)習(xí)偏好等深層次特征進(jìn)行挖掘分析，構(gòu)建更加精準(zhǔn)完善的學(xué)習(xí)者模型。其二，探究學(xué)習(xí)者的情緒狀態(tài)如何對(duì)學(xué)習(xí)者的知識(shí)建構(gòu)和認(rèn)知發(fā)展產(chǎn)生影響，明確學(xué)習(xí)者“知識(shí)—認(rèn)知—情感”的交互作用機(jī)理（黃濤等，2020），以此對(duì)學(xué)習(xí)者的認(rèn)知發(fā)展規(guī)律進(jìn)行深度剖析。其三，通過(guò)對(duì)學(xué)習(xí)者外在行為數(shù)據(jù)和學(xué)習(xí)情境表征數(shù)據(jù)的綜合分析，探究教育環(huán)境的創(chuàng)設(shè)、教育活動(dòng)的組織、教育服務(wù)的提供對(duì)學(xué)習(xí)者內(nèi)在認(rèn)知發(fā)展的影響機(jī)制，以此幫助教師優(yōu)化教學(xué)情境，提升教學(xué)效率。

3.基于多模態(tài)數(shù)據(jù)感知與融合的智能教育產(chǎn)品研發(fā)

多模態(tài)數(shù)據(jù)融合技術(shù)的發(fā)展為教育智能體、教育機(jī)器人、智能導(dǎo)學(xué)系統(tǒng)、自適應(yīng)學(xué)習(xí)平臺(tái)等智能教育產(chǎn)品的改善提供了新的契機(jī)（王一巖等，2021b）。傳統(tǒng)的智能教育產(chǎn)品大多依據(jù)鼠標(biāo)的點(diǎn)擊流數(shù)據(jù)、鍵盤(pán)的文本輸入數(shù)據(jù)和學(xué)生的作答數(shù)據(jù)對(duì)學(xué)習(xí)過(guò)程和學(xué)習(xí)成效進(jìn)行監(jiān)測(cè)，并以此對(duì)學(xué)習(xí)者的知識(shí)掌握情況進(jìn)行測(cè)評(píng)，實(shí)現(xiàn)基于知識(shí)水平的學(xué)習(xí)者建模。多模態(tài)數(shù)據(jù)感知與融合技術(shù)的引入能夠在很大程度上拓展智能教育產(chǎn)品的數(shù)據(jù)采集機(jī)制，改進(jìn)其數(shù)據(jù)維度單一、分析效度低下的缺點(diǎn)，實(shí)現(xiàn)對(duì)學(xué)習(xí)者學(xué)習(xí)狀態(tài)的多元、實(shí)時(shí)、精準(zhǔn)監(jiān)測(cè)。利用多模態(tài)數(shù)據(jù)之間的信息互補(bǔ)機(jī)制提升數(shù)據(jù)分析的成效，對(duì)學(xué)習(xí)者的行為、認(rèn)知、情感等狀態(tài)進(jìn)行全面記錄和表征，有效提升智能教育服務(wù)的質(zhì)量（鄭永和等，2021）。未來(lái)智能教育產(chǎn)品的研發(fā)需要更加關(guān)注多模態(tài)數(shù)據(jù)融合技術(shù)在人機(jī)交互分析、學(xué)習(xí)者情緒測(cè)評(píng)、學(xué)習(xí)投入分析、學(xué)業(yè)表現(xiàn)預(yù)測(cè)、學(xué)習(xí)情境感知等方面的潛在價(jià)值，利用相關(guān)的智能感知設(shè)備對(duì)學(xué)習(xí)者的學(xué)習(xí)狀態(tài)進(jìn)行記錄、表征和測(cè)評(píng)，進(jìn)而改善學(xué)習(xí)支持服務(wù)的質(zhì)量。

4.多模態(tài)數(shù)據(jù)采集的技術(shù)倫理問(wèn)題剖析

如上所述，多模態(tài)數(shù)據(jù)融合支持下的智能教育研究的開(kāi)展要建立在對(duì)學(xué)習(xí)者和學(xué)習(xí)過(guò)程進(jìn)行全方位、時(shí)序性跟蹤和監(jiān)測(cè)的基礎(chǔ)上，利用人工智能技術(shù)對(duì)學(xué)習(xí)者的行為、認(rèn)知、情感發(fā)展?fàn)顩r進(jìn)行全方位的測(cè)評(píng)分析，并以此為基礎(chǔ)探究學(xué)習(xí)者的認(rèn)知發(fā)展規(guī)律。但人工智能技術(shù)在教育領(lǐng)域的應(yīng)用難免會(huì)導(dǎo)致一系列的倫理道德問(wèn)題，主要包括：其一，對(duì)學(xué)習(xí)者外在行為和內(nèi)在生理信息的監(jiān)測(cè)在一定程度上侵犯了學(xué)習(xí)者的隱私，多模態(tài)數(shù)據(jù)強(qiáng)大的表征能力能夠使研究人員獲取數(shù)據(jù)背后潛藏的深層次特征，這又加劇了對(duì)學(xué)生隱私的侵犯;其二，利用多模態(tài)數(shù)據(jù)對(duì)學(xué)習(xí)者的潛在特征和學(xué)習(xí)規(guī)律進(jìn)行挖掘分析，學(xué)生的學(xué)習(xí)主體地位可能被弱化，成為可以被量化、被研究、被干預(yù)的被動(dòng)客體，在一定程度上喪失了教育應(yīng)有的人文關(guān)懷;其三，基于多模態(tài)數(shù)據(jù)探尋教育發(fā)展的根本規(guī)律，并以此開(kāi)展個(gè)性化、精準(zhǔn)化、智能化的課堂教學(xué)，為學(xué)習(xí)者提供適切性的學(xué)習(xí)支持服務(wù)，將在一定程度上弱化學(xué)生“試錯(cuò)”和“反思”的過(guò)程，對(duì)學(xué)習(xí)者的探索精神和創(chuàng)新意識(shí)造成傷害。因此，如何使智能技術(shù)的應(yīng)用能夠真正促進(jìn)學(xué)生的有效學(xué)習(xí)，避免技術(shù)濫用帶來(lái)的學(xué)習(xí)者隱私泄露和學(xué)習(xí)者主體地位弱化是未來(lái)一段時(shí)間內(nèi)需要解決的關(guān)鍵問(wèn)題。

參考文獻(xiàn)：

[1]陳敏，余勝泉（2015）.泛在學(xué)習(xí)環(huán)境下感知學(xué)習(xí)過(guò)程情境的推薦系統(tǒng)設(shè)計(jì)[J].電化教育研究，36（4）：76-82.

[2]郭斌（2020）.論智能物聯(lián)與未來(lái)制造——擁抱人機(jī)物融合群智計(jì)算時(shí)代[J].人民論壇·學(xué)術(shù)前沿，（13）：32-42.

[3]黃濤，王一巖，張浩等（2020）.智能教育場(chǎng)域中的學(xué)習(xí)者建模研究趨向[J].遠(yuǎn)程教育雜志，38（1）：50-60.

[4]黃志芳，趙呈領(lǐng)，黃祥玉等（2015）.基于情境感知的適應(yīng)性學(xué)習(xí)路徑推薦研究[J].電化教育研究，36（5）：77-84.

[5]盧宇，薛天琪，陳鵬鶴等（2020）.智能教育機(jī)器人系統(tǒng)構(gòu)建及關(guān)鍵技術(shù)——以“智慧學(xué)伴”機(jī)器人為例[J].開(kāi)放教育研究，26（2）：83-91.

[6]穆肅，崔萌，黃曉地（2021）.全景透視多模態(tài)學(xué)習(xí)分析的數(shù)據(jù)整合方法[J].現(xiàn)代遠(yuǎn)程教育研究，33（1）：26-37，48.

[7]歐陽(yáng)明，龔萍，高山（2012）.復(fù)雜性視野下的教育技術(shù)學(xué)研究方法論初探[J].中國(guó)電化教育，（9）：16-21.

[8]屈靜，劉凱，胡祥恩等（2020）.對(duì)話式智能導(dǎo)學(xué)系統(tǒng)研究現(xiàn)狀及趨勢(shì)[J].開(kāi)放教育研究，26（4）：112-120.

[9]王慧君，王海麗（2015）.多模態(tài)視域下翻轉(zhuǎn)課堂教學(xué)模式研究[J].電化教育研究，36（12）：70-76.

[10]王一巖，王楊春曉，鄭永和（2021a）.多模態(tài)學(xué)習(xí)分析：“多模態(tài)”驅(qū)動(dòng)的智能教育研究新趨向[J].中國(guó)電化教育，（3）：88-96.

[11]王一巖，鄭永和（2021b）.智能教育產(chǎn)品：構(gòu)筑基于AIoT的智慧教育新生態(tài)[J].開(kāi)放教育研究，27（6）：15-23.

[12]王一巖，鄭永和（2021c）.面向智慧課堂的教育情境感知：價(jià)值定位、特征模型與實(shí)踐框架[J].電化教育研究，42（11）：84-91.

[13]王一巖，劉士玉，鄭永和（2021d）.智能時(shí)代的學(xué)習(xí)者情緒感知：內(nèi)涵、現(xiàn)狀與趨勢(shì)[J].遠(yuǎn)程教育雜志，39（2）：34-43.

[14]張琪，武法提，許文靜（2020）.多模態(tài)數(shù)據(jù)支持的學(xué)習(xí)投入評(píng)測(cè)：現(xiàn)狀、啟示與研究趨向[J].遠(yuǎn)程教育雜志，38（1）：76-86.

[15]鄭永和，王一巖（2021）. 教育與信息科技交叉研究：現(xiàn)狀、問(wèn)題與趨勢(shì)[J].中國(guó)電化教育，（7）：97-106.

[16]鄭永和，嚴(yán)曉梅，王晶瑩等（2020）.計(jì)算教育學(xué)論綱：立場(chǎng)、范式與體系[J].華東師范大學(xué)學(xué)報(bào)（教育科學(xué)版），38（6）：1-19.

[17]Ashwin， T. S.， &; Guddeti， R. M. R. （2020）. Automatic Detection of Students’Affective States in Classroom Environment Using Hybrid Convolutional Neural Networks[J]. Education and Information Technologies， 25（2）：1387-1415.

[18]Ashwin， T. S.， & Guddeti， R. M. R. （2018）. Unobtrusive Students’Engagement Analysis in Computer Science Laboratory Using Deep Learning Techniques[C]// Proceedings of the IEEE 18th International Conference on Advanced Learning Technologies（ICALT）. Mumbai： IEEE：436-440.

[19]Baltru?aitis， T.， Ahuja， C.， & Morency， L. P. （2018）. Multimodal Machine Learning： A Survey and Taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 41（2）：423-443.

[20]Bao， X. （2013）. Enabling Context-Awareness in Mobile Systems via Multi-Modal Sensing[D]. Durham： Duke University.

[21]Chango， W.， Cerezo， R.， & Romero， C. （2021）. Multi-Source and Multimodal Data Fusion for Predicting Academic Performance in Blended Learning University Courses[J]. Computers & Electrical Engineering， 89：106908.

[22]Chen， C.， & Huang， T. （2012）. Learning in a U-Museum： Developing a Context-Aware Ubiquitous Learning Environment[J]. Computers & Education， 59（3）：873-883.

[23]Chen， F.， Luo， Z.， & Xu， Y. （2019）. Complementary Fusion of Multi-Features and Multi-Modalities in Sentiment Analysis[EB/OL].[2021-08-20]. https：//arxiv.org/pdf/1904.08138.pdf.

[24]Chen， H.， Park， H. W.， & Breazeal， C. （2020）. Teaching and Learning with Children： Impact of Reciprocal Peer Learning with a Social Robot on Children’s Learning and Emotive Engagement[J]. Computers & Education， 150：103836.

[25]Di Mitri， D.， Scheffel， M.， & Drachsler， H. et al. （2017）. Learning Pulse： A Machine Learning Approach for Predicting Performance in Self-Regulated Learning Using Multimodal Data[C]// Proceedings of the Seventh International Learning Analytics & Knowledge Conference（LAK17）. Vancouver： ACM：188-197.

[26]Eradze， M.， Rodríguez-Triana， M. J.， & Laanpere， M.（2020）. Context-Aware Multimodal Learning Analytics Taxonomy[C]// Proceedings of the 10th International Conference on Learning Analytics & Knowledge （LAK20）. Frankfurt： ACM：1-6.

[27]Giannakos， M. N.， Sharma， K.， & Pappas， I. O. et al.（2019）. Multimodal Data as a Means to Understand the Learning Experience[J]. International Journal of Information Management，48：108-119.

[28]Gouizi， K.， Reguig， F. B.， & Maaoui， C. （2011）. Emotion Recognition from Physiological Signals[J]. Journal of Medical Engineering & Technology， 35（6-7）：300-307.

[29]Huang， Y.， Yang， J.， & Liu， S. et al. （2019a）. Combining Facial Expressions and Electroence Phalography to Enhance Emotion Recognition[J]. Future Internet， 11（5）：105.

[30]Huang， F.， Zhang， X.， & Zhao， Z. et al. （2019b）. Image-Text Sentiment Analysis via Deep Multimodal Attentive Fusion[J]. Knowledge-Based Systems， 167：26-37.

[31]Hwang， G.， Kuo， F.， & Yin， P. et al. （2010）. A Heuristic Algorithm for Planning Personalized Learning Paths for Context-Aware Ubiquitous Learning[J]. Computers & Education，54（2）：404-415.

[32]Kaklauskas， A.， Kuzminske， A.， & Zavadskas， E. K. et al. （2015）. Affective Tutoring System for Built Environment Management[J]. Computers & Education， 82：202-216.

[33]Kress， G. （2010）. Multimodality： A Social Semiotic Approach to Contemporary Communication[J]. Journal of Pragmatics， 43（14）：3624-3626.

[34]Lahat， D.， Adali， T.， & Jutten， C. （2015）. Multimodal Data Fusion： An Overview of Methods， Challenges， and Prospects[J]. Proceedings of the IEEE， 103（9）：1449-1477.

[35]Lai， C.， Lai， Y.， & Hwang， R. et al. （2019）. Physiological Signals Anticipatory Computing for Individual Emotional State and Creativity Thinking[J]. Computers in Human Behavior， 101：450-456.

[36]Li， Z.， & Zhan， Z. （2020）. Integrated Infrared Imaging Techniques and Multi-Model Information via Convolution Neural Network for Learning Engagement Evaluation[J]. Infrared Physics & Technology， 109：103430.

[37]Majumder， N.， Hazarika， D.， & Gelbukh， A. et al.（2018）. Multimodal Sentiment Analysis Using Hierarchical？Fusion with Context Modeling[J]. Knowledge-Based Systems， 161：124-133.

[38]Mu?oz-Cristóbal， J. A.， Rodríguez-Triana， M. J.， & Bote-Lorenzo， M. L. et al. （2017）. Toward Multimodal Analytics in Ubiquitous Learning Environments[C]// Proceedings of the Sixth Multimodal Learning Analytics Workshop at the International Learning Analytics and Knowledge Conference（LAK 2017）. Vancouver： ACM：60-67.

[39]Olsen， J. K.， Sharma， K.， & Rummel， N. et al. （2020）. Temporal Analysis of Multimodal Data to Predict Collaborative Learning Outcomes[J]. British Journal of Educational Technology， 51（5）：1527-1547.

[40]Schrader， C.， & Kalyuga， S. （2020）. Linking Students’ Emotions to Engagement and Writing Performance When Learning Japanese Letters with a Pen-Based Tablet： An Investigation Based on Individual Pen Pressure Parameters[J]. International Journal of Human-Computer Studies， 135：102374.

[41]Shen， L.， Wang， M.， & Shen， R. （2009）. Affective E-Learning： Using“Emotional”Data to Improve Learning in Pervasive Learning Environment[J]. Educational Technology & Society， 12（2）：176-189.

[42]Su， S.， Lin， H. K.， & Wang， C. et al. （2016）. Multi-Modal Affective Computing Technology Design the Interaction Between Computers and Human of Intelligent Tutoring Systems[J]. International Journal of Online Pedagogy and Course Design， 6（1）：13-28.

[43]Sun， B.， Wei， Q.， & He， J. et al. （2016）. BNU-LSVED： A Multimodal Spontaneous Expression Database in Educational Environment[C]// Optics and Photonics for Information Processing X. San Diego： SPIE：256-262.

[44]Tortorella， R. A. W.， & Graf， S. （2017）. Considering Learning Styles and Context-awareness for Mobile Adaptive Learning[J]. Education and Information Technologies， 22（1）：297-315.

[45]Verma， G. K.， & Tiwary， U. S. （2014）. Multimodal Fusion Framework： A Multiresolution Approach for Emotion Classification and Recognition from Physiological Signals[J].NeuroImage， 102：162-172.

[46]Wei， Q.， Sun， B.， & He， J. et al. （2017）. BNU-LSVED 2.0： Spontaneous Multimodal Student Affect Database with Multi-Dimensional Labels[J]. Signal Processing： Image Communication， 59：168-181.

[47]Zadeh， A. B.， Liang， P. P.， & Poria， S. et al. （2018）. Multimodal Language Analysis in the Wild： Cmu-Mosei Dataset and Interpretable Dynamic Fusion Graph[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics （Volume 1： Long Papers）. Melbourne：2236-2246.

收稿日期 2021-08-27 責(zé)任編輯楊銳

Multimodal Data Fusion：

The Core Driving Force to Solve the Key Problems of Intelligent Education

WANG Yiyan， ZHENG Yonghe

Abstract： Multimodal data fusion aims to improve the accuracy of data analysis by using the information complementation mechanism between different modal data， realize the accurate description of the learning subject and learning situation， and then restore the whole picture of the teaching process， and excavate the deep-level educational laws. It has gradually become an important technical method and research idea in the field of intelligent education. The common multimodal data types in the field of intelligent education include external behavior representation data， intrinsic neurophysiological information data， human-computer interaction data， and learning context awareness data. The fusion strategy of multimodal data consists of data-level fusion， feature-level fusion and decision-level fusion， and appropriate fusion strategies can be selected at different stages of data analysis to improve the accuracy of data analysis. In the field of intelligent education， multimodal data fusion is mainly used in five aspects： human-computer interaction analysis， learner emotion recognition， learning engagement analysis， academic performance prediction， and learning context awareness， which aims to give full play to the core role of multimodal data in the perception and modeling of the learning process， so as to achieve effective restoration of the learning process and scientific interpretation of learning laws. Multimodal data fusion fully embodies the paradigm change of scientific research on education based on data-intensive science. We should focus on the following four aspects in the future： full-time， multi-dimensional data collection for diverse learning subjects and learning situations， the research on the laws of learners’ cognitive development based on multimodal data fusion， the development of intelligent education products based on multimodal data perception and fusion， and the technical ethics of multimodal data collection. In this way， a new state of scientific research on education in the intelligent era will be reconstructed.

Keywords： Multimodal Data Fusion; Intelligent Education; Emotion Recognition; Learning Engagement; Context Awareness; Human-Computer Interaction