盧宇 余京蕾 陳鵬鶴 余勝泉
[摘? ?要] 多模態(tài)大模型逐漸成為人工智能領(lǐng)域研究的熱點(diǎn),目前已在通用領(lǐng)域有顯著進(jìn)展,但在教育領(lǐng)域仍處于起步階段。文章提出可以構(gòu)建教育領(lǐng)域通用大模型,并使其通過下游任務(wù)適配形成三類多模態(tài)教育大模型,從而形成三種典型教育應(yīng)用,即教學(xué)資源自動(dòng)生成、人機(jī)協(xié)同過程支持與教師教學(xué)智能輔助。在此基礎(chǔ)上,文章以“多模態(tài)漢字學(xué)習(xí)系統(tǒng)”為例,利用多模態(tài)大模型實(shí)現(xiàn)跨模態(tài)釋義生成,展示了多模態(tài)大模型在輔助語言學(xué)習(xí)方面的應(yīng)用潛力。最后,文章針對(duì)教育領(lǐng)域通用大模型研究、多模態(tài)教育大模型的創(chuàng)新應(yīng)用及其帶來的潛在風(fēng)險(xiǎn)與可能觸發(fā)的教育變革,提出針對(duì)性的建議與展望。
[關(guān)鍵詞] 多模態(tài)大模型; 人工智能教育應(yīng)用; 多模態(tài)漢字學(xué)習(xí); 教育大模型
[中圖分類號(hào)] G434? ? ? ? ? ? [文獻(xiàn)標(biāo)志碼] A
[作者簡介] 盧宇(1982—),男,北京人。副教授,博士,主要從事人工智能及其教育應(yīng)用研究。E-mail:luyu@bnu.edu.cn。
一、引? ?言
國務(wù)院《新一代人工智能發(fā)展規(guī)劃》中提出,要充分利用人工智能等技術(shù)構(gòu)建智能學(xué)習(xí)與交互式學(xué)習(xí)的新型教育體系[1]。人工智能技術(shù)也逐步被應(yīng)用于教育環(huán)境建設(shè)、教學(xué)過程支持、教學(xué)精準(zhǔn)評(píng)價(jià)與教育高效管理等關(guān)鍵環(huán)節(jié)與場景中。近年來,隨著人工智能技術(shù)的快速演進(jìn),作為人工智能領(lǐng)域里程碑式的大模型被廣泛應(yīng)用于自然語言處理、計(jì)算機(jī)視覺、機(jī)器人等技術(shù)領(lǐng)域,其影響在各個(gè)行業(yè)逐步顯現(xiàn)。
大模型又被稱為基礎(chǔ)模型(Foundation Model),指基于海量數(shù)據(jù)進(jìn)行訓(xùn)練、具有超大規(guī)模參數(shù)且可以被應(yīng)用于多種不同任務(wù)的人工智能模型[2]。大模型出現(xiàn)時(shí)間雖然不久,但已在多模態(tài)領(lǐng)域展現(xiàn)出卓越能力。本文將涵蓋文本、音頻、視頻等多種模態(tài)的大模型稱為多模態(tài)大模型。多模態(tài)大模型的相關(guān)研究源于自然語言處理領(lǐng)域的Transformer模型[3]。研究者基于這種具備高效計(jì)算能力與可擴(kuò)展性的結(jié)構(gòu),逐漸擴(kuò)大模型參數(shù)規(guī)模。谷歌于2018年發(fā)布了首個(gè)參數(shù)超過百萬的單模態(tài)語言大模型BERT[4]。其后,大模型的研究和應(yīng)用進(jìn)入快速發(fā)展階段,模態(tài)也逐漸豐富。研究者開始基于海量文本與圖像數(shù)據(jù),構(gòu)建圖文模態(tài)融合的多模態(tài)大模型,實(shí)現(xiàn)跨模態(tài)理解與生成,如Stable Diffusion[5]與GPT-4[6]等。從技術(shù)角度看,多模態(tài)大模型屬于基于深度神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)范疇,其理解、表達(dá)與學(xué)習(xí)能力相較于傳統(tǒng)機(jī)器學(xué)習(xí)模型有顯著提高,具備較強(qiáng)的通用性與泛化性。此類模型的訓(xùn)練數(shù)據(jù)量龐大,內(nèi)部結(jié)構(gòu)相對(duì)復(fù)雜且參數(shù)眾多。例如:百度ERNIE-ViLG 2.0多模態(tài)大模型,其內(nèi)部參數(shù)量已達(dá)到240億,是目前最大的由文字生成圖片類大模型,其訓(xùn)練過程需專業(yè)的分布式GPU集群完成[7]。
多模態(tài)大模型的研究和應(yīng)用已在醫(yī)療、法律、金融、藝術(shù)等多個(gè)垂直領(lǐng)域取得顯著進(jìn)展,但在教育領(lǐng)域尚處于起步階段,亟須相關(guān)基礎(chǔ)性研究與應(yīng)用型創(chuàng)新。當(dāng)前,在教育領(lǐng)域,基于傳統(tǒng)機(jī)器學(xué)習(xí)等算法模型的智能教育系統(tǒng)與平臺(tái),其智能性仍然難以充分滿足教師、學(xué)習(xí)者及教育管理者的實(shí)際需求。多模態(tài)大模型可以為解決這些技術(shù)瓶頸提供有效的途徑與方法。
二、多模態(tài)大模型的構(gòu)建與適配
多模態(tài)大模型的構(gòu)建與適配可分為預(yù)訓(xùn)練與下游任務(wù)適配兩個(gè)階段,其基本過程如圖1 所示。其中,預(yù)訓(xùn)練階段主要采用自監(jiān)督學(xué)習(xí)方式,利用海量通用場景的多模態(tài)數(shù)據(jù)訓(xùn)練得到通用大模型。在構(gòu)建的通用大模型基礎(chǔ)上,下游任務(wù)適配階段針對(duì)不同的具體任務(wù),設(shè)計(jì)可直接應(yīng)用在不同場景下的專用大模型。下游任務(wù)適配階段的核心思想是遷移學(xué)習(xí),其基本理念是將在先前任務(wù)或領(lǐng)域中學(xué)到的知識(shí)或經(jīng)驗(yàn),應(yīng)用到新的任務(wù)或領(lǐng)域中。遷移學(xué)習(xí)可以實(shí)現(xiàn)基于相對(duì)較少的數(shù)據(jù)進(jìn)行輕量且高效的下游任務(wù)適配,從而滿足多種應(yīng)用場景的需求。
通用大模型的預(yù)訓(xùn)練可以利用文本、圖像、視頻、音頻等多種類型數(shù)據(jù),這些數(shù)據(jù)可以來源于互聯(lián)網(wǎng)等通用領(lǐng)域,也可以來源于多個(gè)專業(yè)領(lǐng)域。不同于傳統(tǒng)的機(jī)器學(xué)習(xí),通用大模型的訓(xùn)練更加青睞大量級(jí)與多模態(tài)數(shù)據(jù)。依據(jù)數(shù)據(jù)的不同模態(tài),模型可采用不同結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò),以自監(jiān)督學(xué)習(xí)方式對(duì)其網(wǎng)絡(luò)內(nèi)部參數(shù)進(jìn)行持續(xù)調(diào)整和優(yōu)化,直至完成預(yù)訓(xùn)練過程?;谏鲜龇绞降玫降耐ㄓ么竽P途邆渫ㄓ妙I(lǐng)域知識(shí),在通用場景中可以使用,但較難在特定場景和下游任務(wù)中應(yīng)用及展現(xiàn)高性能。因此,通用大模型需要針對(duì)特定場景和任務(wù),基于遷移學(xué)習(xí)的思想,學(xué)習(xí)下游任務(wù)中更深層次、更有價(jià)值的隱含規(guī)律與模式。
當(dāng)前,下游任務(wù)適配可采用多種方法,包括微調(diào)方法(Fine-tuning)、提示學(xué)習(xí)方法(Prompt-based Learning)[8]和上下文學(xué)習(xí)方法(In-context Learning)[9]等。微調(diào)方法利用下游任務(wù)數(shù)據(jù),對(duì)通用大模型整體參數(shù)進(jìn)行再次訓(xùn)練,從而提升模型在下游任務(wù)中的適用能力。提示學(xué)習(xí)方法通過人工設(shè)計(jì)或自動(dòng)生成離散或連續(xù)的提示模板,修改下游任務(wù)數(shù)據(jù)輸入與輸出的表達(dá)形式,對(duì)模型的局部參數(shù)進(jìn)行調(diào)整,從而盡可能利用模型原有性能適配下游任務(wù)。上下文學(xué)習(xí)方法則充分利用模型自身的類比學(xué)習(xí)能力,僅利用少量下游任務(wù)提示示例或上下文提示信息與指令語句,直接對(duì)通用大模型進(jìn)行適配,從而節(jié)省因調(diào)整模型參數(shù)帶來的算力消耗。因此,上下文學(xué)習(xí)方法更為高效便捷,可以利用小樣本、單一樣本甚至零樣本進(jìn)行下游任務(wù)適配。
以語言大模型GPT-3[10]為例,簡述其構(gòu)建與適配過程。GPT-3采用自回歸架構(gòu),其預(yù)訓(xùn)練數(shù)據(jù)由多個(gè)文本數(shù)據(jù)集組成,包括約一萬億文字量的網(wǎng)絡(luò)爬蟲數(shù)據(jù)集以及多個(gè)高質(zhì)量圖書、百科類文本數(shù)據(jù)集。GPT-3采用自監(jiān)督學(xué)習(xí)訓(xùn)練方式,對(duì)海量無標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,從而得到具備一定語言通用理解能力的大模型。當(dāng)需要完成特定下游任務(wù)時(shí),可以采用上下文學(xué)習(xí)方法進(jìn)行模型適配。例如:針對(duì)英譯法的下游翻譯任務(wù),可以設(shè)置提示指令為“將英語翻譯為法語”,并設(shè)置提示示例為英文單詞到法語單詞的轉(zhuǎn)換,如“Hello => Bonjour”。當(dāng)GPT-3學(xué)到該翻譯任務(wù)后,在實(shí)際應(yīng)用中輸入提示信息,已經(jīng)適配好的模型便可以輸出對(duì)應(yīng)的法語單詞,從而完成針對(duì)翻譯任務(wù)的模型適配。
三、多模態(tài)大模型在教育中的應(yīng)用
面向教育領(lǐng)域的多類迫切需求,可以首先構(gòu)建教育領(lǐng)域通用大模型,并使其通過下游任務(wù)適配形成三類多模態(tài)教育大模型,從而形成其在教育領(lǐng)域的三類典型應(yīng)用,即教學(xué)資源自動(dòng)生成、人機(jī)協(xié)同過程支持與教師教學(xué)智能輔助。具體而言,如圖2所示,首先,采集通用領(lǐng)域與教育領(lǐng)域的多模態(tài)海量數(shù)據(jù)與知識(shí),作為構(gòu)建教育領(lǐng)域通用大模型的信息基礎(chǔ),包括但不限于課堂音視頻與作業(yè)試卷等教學(xué)場景數(shù)據(jù),慕課與論壇等互聯(lián)網(wǎng)數(shù)據(jù),以及教學(xué)理論與學(xué)科知識(shí)。在此基礎(chǔ)上,依據(jù)不同模態(tài)與模型間的相互組合構(gòu)建模型框架,利用自監(jiān)督式學(xué)習(xí)方式進(jìn)行預(yù)訓(xùn)練,從而得到教育領(lǐng)域通用大模型。與傳統(tǒng)模型相比,教育領(lǐng)域通用大模型可以充分利用其自身性能優(yōu)勢,深入理解教學(xué)資源、教學(xué)對(duì)象與教學(xué)過程三個(gè)教育要素。其中,模型需要重點(diǎn)理解教育資源的屬性、關(guān)聯(lián)與語義信息,教學(xué)對(duì)象的行為、語言與意圖,以及教學(xué)過程的互動(dòng)、活動(dòng)與目標(biāo)等。具備以上通用能力的大模型,可以為不同的下游教育任務(wù)進(jìn)行適配,形成針對(duì)不同典型應(yīng)用的三類多模態(tài)大模型,并分別為教學(xué)平臺(tái)與系統(tǒng)、線上線下學(xué)習(xí)者、教師與教育管理者提供服務(wù)和支持。
(一)教學(xué)資源自動(dòng)生成
基于學(xué)科資源特征與學(xué)習(xí)者學(xué)習(xí)風(fēng)格等信息,可以實(shí)現(xiàn)個(gè)性化的資源推送,或利用知識(shí)圖譜與智能獲取的學(xué)習(xí)場景信息,通過動(dòng)態(tài)提取網(wǎng)絡(luò)資源,為學(xué)習(xí)者提供情境化學(xué)習(xí)資源[11]。然而,現(xiàn)有技術(shù)在資源自動(dòng)構(gòu)建和生成方面仍存在較多局限。首先,現(xiàn)有教學(xué)資源由檢索機(jī)制得到,無法實(shí)現(xiàn)新穎獨(dú)特的教學(xué)資源的自動(dòng)生成與多模態(tài)轉(zhuǎn)換;其次,學(xué)習(xí)者受既定推薦機(jī)制的限制,無法靈活自主地創(chuàng)造個(gè)性化的教學(xué)資源;最后,現(xiàn)有資源生成模型通用性差,難以利用單個(gè)模型實(shí)現(xiàn)跨學(xué)科的知識(shí)整合與資源生成。在現(xiàn)有多模態(tài)大模型的基礎(chǔ)上,“教學(xué)資源自動(dòng)生成”多模態(tài)大模型可望在內(nèi)容自動(dòng)生成方面的功能與性能不斷取得進(jìn)展,尤其在個(gè)性化跨模態(tài)資源生成、啟發(fā)性教學(xué)資源生成、跨學(xué)科資源整合與生成等方面,突破和解決現(xiàn)有的局限與問題。
在教學(xué)資源自動(dòng)生成方面,當(dāng)前通用領(lǐng)域的多模態(tài)大模型已展現(xiàn)出一定的能力。Stable Diffusion等圖像生成模型,可以依據(jù)教學(xué)需求輸入主體及其細(xì)節(jié)的文本描述,快速自動(dòng)生成多種風(fēng)格、高清逼真、蘊(yùn)含美感的美育類教學(xué)資源,所生成的教學(xué)資源既具備顯著的跨模態(tài)性,又具有新穎性與獨(dú)特性。Open AI提出MuseNet音頻生成模型[12],可依據(jù)個(gè)人偏好輸入部分音符及所期望的音樂風(fēng)格,自動(dòng)生成長達(dá)四分鐘的音樂片段,支持多達(dá)十種樂器的呈現(xiàn),并支持古典、鄉(xiāng)村甚至披頭士等多種音樂風(fēng)格的融合。谷歌提出的MusicLM音頻生成模型[13],可直接基于自然語言描述生成高質(zhì)量的音樂片段,文本描述如“演奏一段平緩的小提琴曲并以吉他旋律為伴奏”。DeepMind與斯坦福大學(xué)提出Dramatron文本生成模型[14],可生成包括標(biāo)題、人物、故事節(jié)奏、地點(diǎn)描述與對(duì)話在內(nèi)的連貫劇本內(nèi)容,用于協(xié)助從業(yè)者共創(chuàng)戲劇或電影劇本。此類多模態(tài)大模型生成的創(chuàng)造性藝術(shù)資源,可作為智能化知識(shí)建構(gòu)工具,在學(xué)習(xí)者與資源的雙向交互過程中,幫助其探索與理解不同風(fēng)格的美術(shù)、音樂、戲劇作品,啟發(fā)其進(jìn)行繪畫、音樂與劇本創(chuàng)作。此外,在學(xué)科題目資源生成方面,美國萊斯大學(xué)等提出基于GPT-3生成多學(xué)科的高質(zhì)量題目。用戶可以基于學(xué)科需求輸入指定科目及題目提示,模型即可生成能直接應(yīng)用于教學(xué)的題目內(nèi)容[15]。
(二)人機(jī)協(xié)同過程支持
隨著智能技術(shù)的快速發(fā)展,人機(jī)協(xié)同學(xué)習(xí)逐漸成為教學(xué)活動(dòng)開展的重要形式和組成部分,但仍然受限于人機(jī)交互的自然程度與專業(yè)化程度?,F(xiàn)有的智能教育系統(tǒng)或平臺(tái)大多缺乏準(zhǔn)確理解學(xué)習(xí)者提問與意圖的功能,也難以像人類教師一樣用自然語言與學(xué)習(xí)者開展連貫的交流、問答與教學(xué),因此,難以真正實(shí)現(xiàn)人機(jī)協(xié)同的學(xué)習(xí)過程?;诙嗄B(tài)大模型在跨模態(tài)信息理解與人機(jī)對(duì)話等方面的能力,教育領(lǐng)域可以進(jìn)一步構(gòu)建“人機(jī)協(xié)同過程支持”多模態(tài)大模型,重點(diǎn)關(guān)注學(xué)習(xí)者認(rèn)知狀態(tài)解析、學(xué)習(xí)者意圖自動(dòng)理解、教學(xué)導(dǎo)向的交互協(xié)作,以期真正實(shí)現(xiàn)人機(jī)協(xié)同的高效率學(xué)習(xí)過程。
在人機(jī)協(xié)同過程支持方面,當(dāng)前通用領(lǐng)域的多模態(tài)大模型也已展現(xiàn)出良好的潛力。在知識(shí)問答方面,百度提出的ERNIE大模型[16]可以對(duì)領(lǐng)域?qū)嶓w知識(shí)與專業(yè)術(shù)語進(jìn)行知識(shí)增強(qiáng),并利用問答匹配任務(wù)進(jìn)行模型訓(xùn)練,從而深入理解領(lǐng)域知識(shí)及其內(nèi)在聯(lián)系。此類模型可通過進(jìn)一步增強(qiáng)教學(xué)與德育知識(shí)學(xué)習(xí),在人機(jī)協(xié)同學(xué)習(xí)過程中,支持專業(yè)化學(xué)科知識(shí)點(diǎn)答疑與智能化育人咨詢。在編程學(xué)習(xí)方面,OpenAI等基于GPT-3針對(duì)計(jì)算機(jī)編程任務(wù)進(jìn)行下游適配,開發(fā)Codex模型[17]。該模型可將自然語言描述的內(nèi)容直接轉(zhuǎn)化為計(jì)算機(jī)編程語言,且轉(zhuǎn)換的語言種類涵蓋Python等多種主要編程語言?;谠撃P烷_發(fā)的編程語言學(xué)習(xí)助手GitHub Copilot,已可以支持人機(jī)協(xié)同的編程語言學(xué)習(xí)。此外,由OpenAI提出的GPT-4多模態(tài)大模型具有里程碑式的多模態(tài)理解、推理、內(nèi)容生成與問題解決能力。該類模型可作為百科全書為學(xué)習(xí)者提供便捷的資源檢索,作為寫作助手為學(xué)習(xí)者提供文章潤色、思路啟發(fā)等寫作輔助服務(wù),作為私人助教為不同學(xué)業(yè)水平的學(xué)生提供個(gè)性化輔導(dǎo)、引導(dǎo)式解決多學(xué)科的疑難問題,作為編程助手輔助學(xué)習(xí)者理解、修正和生成示例代碼等。
(三)教師教學(xué)智能輔助
現(xiàn)有人工智能技術(shù)難以直接替代人類教師進(jìn)行教學(xué),但可以作為AI代理輔助教師完成部分機(jī)械重復(fù)的工作[18]。當(dāng)前的通用領(lǐng)域多模態(tài)大模型已經(jīng)具備較強(qiáng)的問題解決能力,可以為教師在課堂教學(xué)與備課中提供輔助支持。在此基礎(chǔ)上,教育領(lǐng)域可以進(jìn)一步構(gòu)建“教師教學(xué)智能輔助”多模態(tài)大模型,拓展人工智能技術(shù)輔助教師教學(xué)的范圍和能力,尤其在教育教學(xué)場景自動(dòng)解析、教師教學(xué)能力自動(dòng)評(píng)測、跨學(xué)科多類型題目自動(dòng)批閱等方面,多模態(tài)大模型可以發(fā)揮重要作用。
在利用大模型開展教師教學(xué)智能輔助方面,當(dāng)前工業(yè)界和學(xué)術(shù)界也已開始進(jìn)行積極的探索。好未來基于教師線上教學(xué)語音轉(zhuǎn)寫產(chǎn)生的約2000萬條教育文本數(shù)據(jù),構(gòu)建了在線教學(xué)大模型TAL-EduBERT[19]。經(jīng)過下游任務(wù)適配,該模型可以通過教師語言對(duì)其中細(xì)顆粒度的教學(xué)行為進(jìn)行識(shí)別,類別包括“引導(dǎo)學(xué)生課后總結(jié)”“帶領(lǐng)學(xué)生記筆記”“表揚(yáng)學(xué)生”“提問學(xué)生”,從而在教師的教學(xué)反思與教學(xué)改進(jìn)過程中提供有力的證據(jù)支持。MathBERT[20]基于BERT,從多下游任務(wù)與多學(xué)段數(shù)學(xué)知識(shí)兩個(gè)方面進(jìn)一步訓(xùn)練和適配模型,從而對(duì)數(shù)學(xué)領(lǐng)域知識(shí)進(jìn)行深入語義理解和知識(shí)融合,輔助教師進(jìn)行自動(dòng)批閱、題目知識(shí)點(diǎn)標(biāo)注等具體工作。孟菲斯大學(xué)團(tuán)隊(duì)提出可以利用T5語言大模型[21]評(píng)估完形填空題目的難度及可讀性等級(jí),從而輔助教師自動(dòng)評(píng)測學(xué)習(xí)者的閱讀能力[22]。此外,研究者正在積極探索和建立具有更強(qiáng)邏輯推理能力的多模態(tài)大模型,從而自動(dòng)解決物理、生物與數(shù)學(xué)等學(xué)科的定量科學(xué)問題。例如:哈佛大學(xué)與麻省理工學(xué)院聯(lián)合研究團(tuán)隊(duì)基于Codex模型,將概率題目文本轉(zhuǎn)換為計(jì)算機(jī)程序,并通過執(zhí)行程序自動(dòng)解決一系列概率與統(tǒng)計(jì)學(xué)問題,其準(zhǔn)確率與人類表現(xiàn)相當(dāng)[23]。GPT-4憑借其多模態(tài)理解能力,可直接基于試卷圖片及提示指令自動(dòng)解答問題,并給出詳細(xì)的解題步驟。微軟團(tuán)隊(duì)在其評(píng)測報(bào)告中指出,GPT-4可以解決數(shù)學(xué)、編程等學(xué)科中新穎且難度較大的任務(wù),性能可接近人類水平[24]。
四、多模態(tài)大模型的教育應(yīng)用案例
基于本團(tuán)隊(duì)的近期研究成果——“多模態(tài)漢字學(xué)習(xí)系統(tǒng)”,介紹將多模態(tài)大模型應(yīng)用于教學(xué)資源自動(dòng)生成的典型案例。該案例將多模態(tài)大模型應(yīng)用于漢字的跨模態(tài)釋義生成,體現(xiàn)了其在輔助語言學(xué)習(xí)方面的應(yīng)用潛力。
(一)多模態(tài)漢字學(xué)習(xí)
漢字學(xué)習(xí)是漢語學(xué)習(xí)中一項(xiàng)重要的內(nèi)容。字典是漢字學(xué)習(xí)過程中的有效工具,可查詢漢字釋義及組詞等信息。但無論紙質(zhì)字典或電子字典,往往只能提供單一模態(tài)的信息呈現(xiàn)。而在多模態(tài)信息呈現(xiàn)方面,研究者認(rèn)為圖片可以很好地表達(dá)復(fù)雜、抽象的場景或不常見、不熟悉的事物。由心理學(xué)家佩維奧提出的雙重編碼理論也強(qiáng)調(diào)了語言與視覺信息同時(shí)出現(xiàn)的重要性,且視覺信息比語言信息更易于記憶。因此,設(shè)計(jì)多模態(tài)信息輔助的漢字學(xué)習(xí)系統(tǒng),將漢字與其對(duì)應(yīng)的圖片結(jié)合學(xué)習(xí),將有助于輔助學(xué)習(xí)者記憶字義,提高漢字學(xué)習(xí)效果[25]。
(二)系統(tǒng)設(shè)計(jì)
“多模態(tài)漢字學(xué)習(xí)系統(tǒng)”的核心部分為跨模態(tài)釋義生成模塊,該模塊可采用兩種多模態(tài)大模型分別實(shí)現(xiàn)圖文檢索與圖文生成功能。系統(tǒng)的基本框架與工作流程如圖3所示。
1. 基于多模態(tài)大模型的跨模態(tài)圖文檢索
系統(tǒng)中跨模態(tài)釋義生成模塊的圖文檢索功能,采用文瀾B(tài)riVL多模態(tài)大模型[26]加以實(shí)現(xiàn)。該模型參數(shù)量超過10億個(gè),通過特定接口實(shí)現(xiàn)云端計(jì)算和調(diào)用。文瀾大模型將網(wǎng)絡(luò)爬取的海量圖文信息作為預(yù)訓(xùn)練數(shù)據(jù),搭建文本編碼器與圖片編碼器兩個(gè)分支的雙塔模型結(jié)構(gòu),并利用損失函數(shù)進(jìn)行虛擬連接。
在預(yù)訓(xùn)練過程中,該模型基于“對(duì)比學(xué)習(xí)”算法框架[27],分別輸入圖文正負(fù)樣本,以自監(jiān)督學(xué)習(xí)方式訓(xùn)練文本與圖片編碼器,分別抽取圖文特征并映射到同一多模態(tài)空間中。由于數(shù)據(jù)來自網(wǎng)絡(luò)爬取而非人工標(biāo)注,圖文對(duì)應(yīng)關(guān)系僅為弱相關(guān),即文本信息不僅是圖片具體內(nèi)容的描述,更可能是圖片背后的抽象釋義。相比日常僅基于關(guān)鍵詞的圖文檢索,該模型學(xué)到的圖文關(guān)系更符合本場景需求,適用于找尋抽象文字描述對(duì)應(yīng)的圖片釋義。在預(yù)訓(xùn)練結(jié)束后,雙塔結(jié)構(gòu)中的文本與圖片編碼器可拆分使用,支持離線的圖文特征抽取與特征庫構(gòu)建。該模型在數(shù)據(jù)集AIC-ICC文本檢索圖片任務(wù)中,檢索結(jié)果前十張為目標(biāo)圖片的概率為65.26%。雖然模型在性能上仍有提升空間,但其基于圖文弱相關(guān)的特征檢索功能,可以為解釋抽象文本提供圖片支持,突破了現(xiàn)有依據(jù)關(guān)鍵詞檢索的局限,為構(gòu)建多模態(tài)、多語種語言學(xué)習(xí)系統(tǒng)提供了解決方案。
在使用系統(tǒng)時(shí),用戶可逐個(gè)點(diǎn)擊文本釋義,得到對(duì)應(yīng)的圖片釋義。在具體實(shí)現(xiàn)中,系統(tǒng)首先將文本釋義中的描述與各個(gè)組詞切分為短語,然后利用文本編碼器提取各候選短語文本特征,從而在跨模態(tài)特征庫中檢索與之最相近的圖片特征,并將對(duì)應(yīng)圖片作為該文本釋義的圖片釋義展示給學(xué)習(xí)者。其中,跨模態(tài)特征庫為離線構(gòu)建,圖片特征由圖片編碼器抽取,并提前存儲(chǔ)在跨模態(tài)特征庫中。
2. 基于多模態(tài)大模型的跨模態(tài)圖文生成
系統(tǒng)中跨模態(tài)釋義生成模塊的圖文生成功能,采用ERNIE-ViLG 2.0多模態(tài)大模型加以實(shí)現(xiàn)。ERNIE-ViLG 2.0基于擴(kuò)散模型[28],可以進(jìn)一步增強(qiáng)對(duì)文本關(guān)鍵內(nèi)容及圖片關(guān)鍵區(qū)域的理解,從而提升圖片的生成質(zhì)量。目前,該模型在權(quán)威數(shù)據(jù)集MS-COCO文本生成圖片任務(wù)上取得最好成績,并在圖片逼真度與圖文一致性指標(biāo)上以大比分超越同類模型。在模型應(yīng)用過程中,用于下游任務(wù)適配的文本提示信息決定了生成圖片的效果。提示信息可由生成內(nèi)容的主體描述、細(xì)節(jié)描述及修飾詞構(gòu)成,其中,修飾詞可以為藝術(shù)風(fēng)格、藝術(shù)家、攝影詞匯等。本系統(tǒng)中,根據(jù)漢字及其釋義進(jìn)行提示信息的構(gòu)建。
在使用系統(tǒng)時(shí),學(xué)習(xí)者同樣可以逐個(gè)點(diǎn)擊文本釋義,得到模型生成的圖片釋義。與基于圖文檢索的功能不同,對(duì)于相同的提示信息,系統(tǒng)可生成多個(gè)不同樣式的圖片,并鼓勵(lì)群體學(xué)習(xí)者為各自認(rèn)為最匹配的圖片點(diǎn)贊。系統(tǒng)將圖片按照點(diǎn)贊量進(jìn)行排序展示,新登錄的學(xué)習(xí)者可以看到點(diǎn)贊量最高的圖片。如果學(xué)習(xí)者對(duì)現(xiàn)有圖片釋義均不滿意,可選擇生成新圖片并彈窗確認(rèn),否則將繼續(xù)更換圖片。在此基礎(chǔ)上,系統(tǒng)將進(jìn)一步設(shè)計(jì)開發(fā)學(xué)習(xí)者評(píng)論留言功能,在互動(dòng)中促進(jìn)協(xié)作學(xué)習(xí)與知識(shí)建構(gòu)。
綜上所述,多模態(tài)大模型可以針對(duì)包括漢字在內(nèi)的多種文字進(jìn)行跨模態(tài)圖片釋義的檢索與生成,為抽象的文本描述提供直觀的圖片解釋,從而輔助學(xué)生進(jìn)行語言學(xué)習(xí)。此外,多模態(tài)大模型在語言學(xué)習(xí)中仍有很多潛在輔助功能待開發(fā),如依據(jù)語言學(xué)習(xí)需求靈活檢索或生成音頻與視頻資源、自主創(chuàng)設(shè)學(xué)習(xí)情境開展對(duì)話練習(xí)、提供多模態(tài)句子解釋以輔助閱讀理解等。
五、建議與展望
當(dāng)前多模態(tài)大模型正處在快速演進(jìn)和落地應(yīng)用時(shí)期,本文提出以下建議和展望:
(一) 推進(jìn)教育領(lǐng)域通用大模型的深入研究與構(gòu)建
目前,多模態(tài)大模型的構(gòu)建研究多專注在通用或特定垂直領(lǐng)域,建議積極開展教育領(lǐng)域通用大模型研究和構(gòu)建。此類模型可以充分利用教育領(lǐng)域的海量多模態(tài)與長周期數(shù)據(jù),對(duì)學(xué)習(xí)者認(rèn)知過程與教學(xué)交互過程等進(jìn)行準(zhǔn)確捕捉與深度理解,嘗試?yán)媚P洼敵鰩椭J(rèn)知科學(xué)與學(xué)習(xí)科學(xué)更好地理解教學(xué)過程及其底層機(jī)制,并在此基礎(chǔ)上構(gòu)建和適配可用于多種類型教育任務(wù)的專用教育大模型和智能教育服務(wù)系統(tǒng)。
(二)拓展現(xiàn)有多模態(tài)大模型在教育中的創(chuàng)新性應(yīng)用
目前,以GPT-4為代表的多模態(tài)大模型已逐漸展現(xiàn)出其在多領(lǐng)域與多任務(wù)上的泛化能力。建議充分利用人工智能領(lǐng)域已建立的多模態(tài)大模型及其各項(xiàng)能力,結(jié)合教育場景與教學(xué)需求,進(jìn)行下游教育任務(wù)適配與創(chuàng)新應(yīng)用,解決教育領(lǐng)域的實(shí)際問題。在上述的教學(xué)資源自動(dòng)生成、人機(jī)協(xié)同過程支持與教師教學(xué)智能輔助的基礎(chǔ)上,還應(yīng)繼續(xù)探索和解決其他典型教育任務(wù),積極嘗試組合使用多種模型,發(fā)揮各自的技術(shù)優(yōu)勢,促進(jìn)教育領(lǐng)域的創(chuàng)新。例如:以多模態(tài)大模型作為控制器,自動(dòng)解析教育任務(wù)或教師指令,選擇并調(diào)用所需的技術(shù)或教育模型,解決典型教育場景下的復(fù)雜任務(wù)。
(三) 重視多模態(tài)大模型可能帶來的潛在風(fēng)險(xiǎn)
多模態(tài)大模型主要由海量無標(biāo)注數(shù)據(jù)訓(xùn)練并構(gòu)建,難以避免在資源生成等過程中存在數(shù)據(jù)偏見、知識(shí)產(chǎn)權(quán)、知識(shí)與計(jì)算準(zhǔn)確性等原生性問題。例如:Stack Overflow程序論壇已公開表示,由于大模型生成內(nèi)容的準(zhǔn)確性難以判定,將暫時(shí)禁止用戶使用該模型生成內(nèi)容作為論壇回答[29]。因此,在應(yīng)用于教育領(lǐng)域時(shí),需要從科學(xué)性、公平性、準(zhǔn)確性與價(jià)值觀等多個(gè)維度進(jìn)行風(fēng)險(xiǎn)篩查。同時(shí),在下游任務(wù)適配與應(yīng)用過程中,需要教師或教育管理者監(jiān)管,尤其是在人機(jī)協(xié)同與教學(xué)智能輔助方面,需對(duì)模型的使用范圍有明確的功能限定,避免影響學(xué)習(xí)者的獨(dú)立思考與認(rèn)知過程。ChatGPT[30]等大模型一經(jīng)推出便引起教育領(lǐng)域的廣泛關(guān)注:學(xué)生可借助其完成文章或代碼代寫等作弊行為,且普通教師無法辨別,這直接影響了傳統(tǒng)教育教學(xué)過程與制度。在學(xué)術(shù)界,為維護(hù)學(xué)術(shù)嚴(yán)謹(jǐn)性及作者責(zé)任制原則,《自然》等高水平期刊明確禁止大模型作為文章作者,如借助模型生成內(nèi)容需特別注明[31]。
(四)擁抱多模態(tài)大模型觸發(fā)的教育變革
多模態(tài)大模型對(duì)未來社會(huì)的影響已不可避免,相當(dāng)一部分行業(yè)可能被以此類模型為代表的人工智能技術(shù)沖擊甚至取代,人才培養(yǎng)的需求也會(huì)由此發(fā)生根本變化。因此,教育領(lǐng)域需要積極適應(yīng)這種變化,擁抱新技術(shù)所觸發(fā)的教育變革。面對(duì)多模態(tài)大模型給教育帶來的機(jī)遇與挑戰(zhàn),需要積極從教育治理、教學(xué)過程與教育評(píng)價(jià)等多個(gè)維度進(jìn)行應(yīng)對(duì)。教師使用高交互性人工智能工具開展教學(xué),學(xué)習(xí)者使用高輔助性人工智能工具開展學(xué)習(xí),應(yīng)該會(huì)成為未來教育不可或缺的一部分。教育本身則更應(yīng)該不斷革新其理念和方式,重視培養(yǎng)學(xué)生的創(chuàng)造性、批判性與人機(jī)協(xié)作能力,從而滿足未來智能化社會(huì)的需求。
[參考文獻(xiàn)]
[1] 國務(wù)院.國務(wù)院關(guān)于印發(fā)新一代人工智能發(fā)展規(guī)劃的通知[EB/OL].(2017-07-20)[2023-04-12]. http://www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm.
[2] BOMMASANI R, HUDSON D A, ADELI E, et al. On the opportunities and risks of foundation models[J]. arXiv preprint,2021(1):1-212.
[3] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017,30:1-15.
[4] DEVLIN J, CHANG M, LEE K, et al. Bert: pre-training of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg: Association for Computational Linguistics,2019:4171-4186.
[5] ROMBACH R, BLATTMANN A, LORENZ D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society,2022:10684-10695.
[6] OpenAI. GPT-4[EB/OL]. (2023-03-14) [2023-04-12]. https://openai.com/research/gpt-4.
[7] FENG Z, ZHANG Z, YU X, et al. ERNIE-ViLG 2.0: improving text-to-image diffusion model with knowledge-enhanced mixture-of-denoising-experts[J]. arXiv preprint,2022(1):1-19.
[8] LIU P, YUAN W, FU J, et al. Pre-train, prompt, and predict: a systematic survey of prompting methods in natural language processing[J]. ACM computing surveys,2023,55(9):1-35.
[9] DONG Q, LI L, DAI D, et al. A survey for in-context learning[J]. arXiv preprint, 2022(1):1-16.
[10] BROWN T, MANN B, RYDER N, et al. Language models are few-shot learners[J]. Advances in neural information processing systems,2020,33:1877-1901.
[11] 趙剛,初潔,朱文娟,尹江華,楊麗君,蔣姝凡,吳林靜.基于知識(shí)圖譜的戶外動(dòng)態(tài)學(xué)習(xí)資源智能生成與服務(wù)模型研究[J].電化教育研究,2022,43(4):55-62.
[12] OpenAI. MuseNet[EB/OL].(2019-04-25)[2023-04-12].http://openai.com/blog/musenet.
[13] AGOSTINELLI A, DENK T, BORSOS Z, et al. MusicLM: generating music from text[J]. arXiv preprint, 2023(1):1-15.
[14] MIROWSKI P, MATHEWSON K, PITTMAN J, et al. Co-writing screenplays and theatre scripts with language models: an evaluation by industry professionals[J]. arXiv preprint, 2022(1):1-102.
[15] WANG Z, VALDEZ J, BASU MALLICK D, et al. Towards human-like educational question generation with large language models[C]//Artificial Intelligence in Education: 23rd International Conference, AIED 2022, Durham, UK, July 27-31,2022, Proceedings, Part I. Berlin: Springer International Publishing, 2022:153-166.
[16] ZHANG Z, HAN X, LIU Z, et al. ERNIE: enhanced language representation with informative entities[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics,2019:1441-1451.
[17] CHEN M, TWOREK J, JUN H, et al. Evaluating large language models trained on code[J]. arXiv preprint,2021(1):1-35.
[18] 余勝泉,王琦.“AI+教師”的協(xié)作路徑發(fā)展分析[J].電化教育研究,2019,40(4):14-22.
[19] 好未來.好未來開源教育領(lǐng)域首個(gè)在線教學(xué)中文預(yù)訓(xùn)練模型TAL-EduBERT[CP/OL].(2021-01-25)[2023-04-12]. https://github.com/tal-tech/edu-bert.
[20] SHEN J T, YAMASHITA M, PRIHAR E, et al. MathBERT: a pre-trained language model for general NLP tasks in mathematics education[C]//NeurIPS 2021 Math AI for Education Workshop. Cambridge, Mass: MIT Press,2021:1-10.
[21] RAFFEL C, SHAZEER N, ROBERTS A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[J]. The journal of machine learning research, 2020,21(1):5485-5551.
[22] OLNEY A M. Assessing readability by filling cloze items with transformers[C]// Artificial Intelligence in Education: 23rd International Conference, AIED 2022, Durham, UK, July 27-31,2022, Proceedings, Part I. Berlin: Springer International Publishing, 2022:307-318.
[23] TANG L, KE E, SINGH N, et al. Solving probability and statistics problems by probabilistic program synthesis at human level and predicting solvability[C]//Artificial Intelligence in Education: 23rd International Conference, AIED 2022, Durham, UK, July 27-31, 2022, Proceedings, Part II. Berlin: Springer International Publishing, 2022: 612-615.
[24] BUECK S, CHANDRASEKARAN V, ELDANl R, et al. Sparks of artificial general intelligence: early experiments with gpt-4[J]. arXiv preprint, 2023(1):1-155.
[25] YU J, SONG J, CHEN P, et al. An intelligent multimodal dictionary for Chinese character learning[C]// Artificial Intelligence in Education: 23rd International Conference, AIED 2022, Durham, UK, July 27-31, 2022, Proceedings, Part II. Berlin: Springer International Publishing, 2022:79-83.
[26] FEI N, LU Z, GAO Y, et al. Towards artificial general intelligence via a multimodal foundation model[J]. Nature communications, 2022,13:1-13.
[27] HE K, FAN H, WU Y, et al. Momentum contrast for unsupervised visual representation learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society,2020:9729-9738.
[28] HO J, JAIN A, ABBEEL P. Denoising diffusion probabilistic models[J]. Advances in neural information processing systems,2020,33: 6840-6851.
[29] Stack Overflow. Temporary policy: ChatGPT is banned [EB/OL]. (2023-04-12)[2023-04-26].https://meta.stackoverflow.com/questions/421831/temporary-policy-chatgpt-is-banned.
[30] OpenAI. ChatGPT: optimizing language models for dialogue [EB/OL]. (2022-11-30) [2023-04-12]. https://openai.com/blog/chatgpt/.
[31] Nature. Initial submission [EB/OL]. [2023-04-26].https://www.nature.com/nature/for-authors/initial-submission.
[Abstract] Large multimodal models have gradually become a hot topic of research in artificial intelligence, and have significant progress in the general field. But they are still in the initial stage in the education field. This paper proposes to build a general large model in education and adapt it to three types of educational large multimodal models through downstream tasks, which constitutes three typical applications in education, namely, automatic generation of learning resources, human-AI collaboration, and intelligent teacher teaching assistance. Based on that, this paper takes "multimodal Chinese character learning system" as an example and uses large multimodal model to realize cross-modal interpretation generation, demonstrating the potentials of large multimodal model in assisting language learning. Finally, this paper proposes suggestions and prospects on the research of general large models in education, the innovative applications of educational large multimodal models, and the potential risks and changes in education that may be triggered by them, respectively.
[Keywords]? Large Multimodal Model; Artificial Intelligence Applications in Education; Multimodal Chinese Character Learning; Large Models in Education