劉嘯宇 劉茜希 高英男
《義務(wù)教育課程方案(2022 年版)》明確要求:各門課程用不少于10% 的課時(shí)設(shè)計(jì)跨學(xué)科主題學(xué)習(xí),強(qiáng)化課程協(xié)同育人功能;推進(jìn)綜合學(xué)習(xí),探索大單元教學(xué),開展主題化、項(xiàng)目式學(xué)習(xí)等綜合性教學(xué)活動(dòng)[1]。跨學(xué)科主題學(xué)習(xí)是指為培養(yǎng)跨學(xué)科素養(yǎng)而整合兩種及以上學(xué)科內(nèi)容,開展學(xué)習(xí)的主題教學(xué)活動(dòng)安排,具有綜合性、實(shí)踐性、探究性、開放性、操作性等特點(diǎn)[2]。項(xiàng)目式學(xué)習(xí)是一種動(dòng)態(tài)的學(xué)習(xí)方法,通過讓學(xué)生主動(dòng)探索現(xiàn)實(shí)世界的問題和挑戰(zhàn),從中領(lǐng)會(huì)更深刻的知識(shí)和技能[3]。
“詩言志,歌永言,聲依永,律和聲”,詩詞歌賦作為中華民族的傳統(tǒng)文化,可以反映不同時(shí)代的人文社會(huì)風(fēng)貌,也是語文學(xué)科重要的學(xué)習(xí)內(nèi)容之一。在人工智能自然語言處理中,詩詞創(chuàng)作一直是重要的研究方向,也是構(gòu)建數(shù)字人文的重要部分。筆者嘗試將信息科技中“計(jì)算思維”的培養(yǎng)與語文學(xué)科中的“文化自信”“審美創(chuàng)造”培養(yǎng)相融合,以人工智能大模型對宋詞語料的微調(diào)為基礎(chǔ),設(shè)計(jì)并實(shí)施跨學(xué)科學(xué)習(xí)主題。
課程設(shè)計(jì)
課程設(shè)計(jì)中的人工智能主線
2017 年,谷歌研究人員提出的Transformer 架構(gòu)是一種完全基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型,具有更強(qiáng)的知識(shí)遷移能力?;谠摷軜?gòu)的大語言模型(LLM)得到了飛速發(fā)展,其中,大模型微調(diào)技術(shù)起到了非常重要的作用。其過程首先要有一個(gè)在大規(guī)模語料庫上采用超十億參數(shù)的學(xué)習(xí)算法,使用龐大的算力訓(xùn)練得到的通用模型;然后將其作為預(yù)訓(xùn)練模型在較小的特定數(shù)據(jù)集上進(jìn)行訓(xùn)練,從而精煉模型的能力,得到一個(gè)在特定任務(wù)或領(lǐng)域上性能較佳的專用模型。
“大模型微調(diào)”范式正在成為一類解決問題的重要方法。比如醫(yī)療行業(yè)希望有一個(gè)可以幫助醫(yī)生生成患者醫(yī)療報(bào)告的模型,可將GPT-3 作為預(yù)訓(xùn)練模型,然后投入包含醫(yī)療報(bào)告和患者筆記的數(shù)據(jù)集,進(jìn)行模型微調(diào),就可以得到一個(gè)專用模型。大模型微調(diào)范式作為計(jì)算思維中一個(gè)重要的思維模式,具有教學(xué)價(jià)值。本文選擇了一系列在“魔搭”社區(qū)開放的中文預(yù)訓(xùn)練模型,針對《全宋詞》文本語料進(jìn)行模型微調(diào),并以此作為單元學(xué)習(xí)項(xiàng)目完成跨學(xué)科學(xué)習(xí),項(xiàng)目背后可以遷移使用的學(xué)習(xí)范式如圖1 所示。
課程目標(biāo)
通過調(diào)用中文古詩模型進(jìn)行詩歌生成,了解語言模型的基本原理;在微調(diào)宋詞生成模型的過程中,掌握對大模型進(jìn)行微調(diào)的方法;在微調(diào)不同派別宋詞生成模型的過程中,感受不同派別宋詞的獨(dú)特魅力;知道采用不同的詞語可以表達(dá)不同的主題意境,感悟詞語對于表達(dá)文本意境的重要作用。
課程內(nèi)容
本單元課程以掌握大語言模型微調(diào)的方法作為人工智能邏輯主線,并圍繞詩詞進(jìn)行跨學(xué)科學(xué)習(xí)主題設(shè)計(jì)。課程依照問題分析、方案設(shè)計(jì)、實(shí)施驗(yàn)證、優(yōu)化迭代4 個(gè)階段進(jìn)行任務(wù)設(shè)計(jì),課時(shí)安排如圖2 所示。第1 課時(shí)主要鋪墊學(xué)習(xí)情境,探索大語言模型的原理,并形成初步解決方案;第2、3 課時(shí)主要根據(jù)方案準(zhǔn)備數(shù)據(jù),完成模型微調(diào),體會(huì)大語言模型微調(diào)范式的價(jià)值;第4 課時(shí)主要針對當(dāng)前模型的性能,修訂方案完成模型優(yōu)化,最后嘗試在完成模型的基礎(chǔ)上探索中文領(lǐng)域詞語對于文學(xué)作品中思想表達(dá)的重要作用。
教學(xué)實(shí)施過程
實(shí)驗(yàn) 1. 調(diào)用預(yù)訓(xùn)練模型進(jìn)行古詩續(xù)寫
本實(shí)驗(yàn)屬于第1 課時(shí)任務(wù)2。教師將提供2 個(gè)預(yù)訓(xùn)練模型和供學(xué)生完成實(shí)驗(yàn)的notebook 學(xué)習(xí)文檔。在學(xué)習(xí)文檔的幫助下,學(xué)生將學(xué)習(xí)如何調(diào)用預(yù)訓(xùn)練模型進(jìn)行文字續(xù)寫;然后學(xué)生將根據(jù)“通用中文生成模型”和“中文古詩生成模型”的詳細(xì)說明,自定義相關(guān)參數(shù)及待續(xù)寫文本,完成相應(yīng)續(xù)寫任務(wù);最后通過對比續(xù)寫結(jié)果,記錄不同模型針對特定體裁文本的生成效果。調(diào)用2 個(gè)不同預(yù)訓(xùn)練模型續(xù)寫相同內(nèi)容的示例,如圖3 所示。
設(shè)計(jì)意圖:通過預(yù)訓(xùn)練模型續(xù)寫文本,理解大語言模型的基本原理,掌握調(diào)用預(yù)訓(xùn)練模型進(jìn)行生成的方法;通過不同體裁生成內(nèi)容的對比,理解基于特定數(shù)據(jù)集對模型微調(diào)訓(xùn)練后產(chǎn)生的差異,為后續(xù)深入應(yīng)用模型微調(diào)范式解決問題作鋪墊。
實(shí)驗(yàn) 2. 針對宋詞數(shù)據(jù)集進(jìn)行模型微調(diào)
本實(shí)驗(yàn)不對應(yīng)某項(xiàng)具體任務(wù),而是貫穿在課時(shí)2、3、4 中。在該實(shí)驗(yàn)中,教師提供了“中文古詩生成模型”作為預(yù)訓(xùn)練模型,為完成相關(guān)大模型微調(diào)的知識(shí)學(xué)習(xí)與任務(wù)探究,教師還準(zhǔn)備了“全宋詞數(shù)據(jù)集”“婉約派風(fēng)格宋詞數(shù)據(jù)集”“豪放派風(fēng)格宋詞數(shù)據(jù)集”等多類宋詞數(shù)據(jù)集。
本部分包含4 個(gè)小實(shí)驗(yàn),分別為“基于宋詞數(shù)據(jù)進(jìn)行模型微調(diào)”(課時(shí)2)、“基于婉約派宋詞進(jìn)行模型微調(diào)”(課時(shí)3)、“基于豪放派宋詞進(jìn)行模型微調(diào)”(課時(shí)3)、“探究模型生成情況并優(yōu)化模型”(課時(shí)4),實(shí)驗(yàn)步驟詳見于相應(yīng)的notebook 學(xué)習(xí)文檔。
以“基于宋詞數(shù)據(jù)進(jìn)行模型微調(diào)”為例,學(xué)生將完成加載預(yù)訓(xùn)練模型,加載、觀察并初步處理數(shù)據(jù),構(gòu)建微調(diào)模型并完成訓(xùn)練,調(diào)用模型進(jìn)行宋詞續(xù)寫等過程。在最后的優(yōu)化模型實(shí)驗(yàn)任務(wù)中,教師將引導(dǎo)學(xué)生從訓(xùn)練輪次、學(xué)習(xí)率等超參數(shù)層面對模型進(jìn)行優(yōu)化,并對比生成結(jié)果。
設(shè)計(jì)意圖:借助微調(diào)宋詞生成模型,理解在預(yù)訓(xùn)練模型基礎(chǔ)上進(jìn)行模型微調(diào)的方法,感知這個(gè)范式的價(jià)值;通過微調(diào)模型生成宋詞,感受宋詞的魅力。
學(xué)習(xí)成果
本部分學(xué)生調(diào)用自己微調(diào)的模型進(jìn)行宋詞作品續(xù)寫,相關(guān)詞文如圖4 所示。
反思與提高
為學(xué)生提供清晰的任務(wù),以及實(shí)現(xiàn)任務(wù)的資源、工具、腳手架
本單元以大模型微調(diào)為核心的人工智能知識(shí)線進(jìn)行設(shè)計(jì),選擇學(xué)生十分熟悉的詩詞領(lǐng)域進(jìn)行探究。由于詩的每句文本字?jǐn)?shù)十分整齊,而詞的每句文本字?jǐn)?shù)各有差異,因此,從生成詩到生成詞的變化有助于學(xué)生理解模型微調(diào)后生成內(nèi)容的改變。但是因課時(shí)、算力等限制,課堂中學(xué)生的訓(xùn)練輪次等超參數(shù)設(shè)置較小,微調(diào)后的模型性能不是很強(qiáng)。對比圖3、圖4 的作品可以看出,微調(diào)后模型生成的內(nèi)容可讀性比預(yù)訓(xùn)練模型生成內(nèi)容的可讀性差。本單元在后續(xù)實(shí)施過程中,開始引入GPU 算力,讓學(xué)生可以訓(xùn)練效果相對更好的模型。同時(shí),作為一個(gè)跨學(xué)科單元,本單元對詩詞方面的探索較為薄弱,因此在后續(xù)實(shí)施過程中加入了“詞語對宋詞意境表達(dá)的作用”這一任務(wù),便于學(xué)生借助人工智能提升語文學(xué)科的核心素養(yǎng)。
參考文獻(xiàn)
[1] 中華人民共和國教育部. 教育部關(guān)于印發(fā)義務(wù)教育課程方案和課程標(biāo)準(zhǔn)(2022 年版) 的通知[EB/OL]. http://www.moe.gov.cn/srcsite/A26/s8001/202204/t20220420_619921.html.
[2] 吳剛平. 跨學(xué)科主題學(xué)習(xí)的意義與設(shè)計(jì)思路[J]. 課程·教材·教法,2022,42(9):53-55.
[3] 孫思佳. 項(xiàng)目式學(xué)習(xí)研究的文獻(xiàn)述評[J]. 科教文匯,2019(7):3.