陳國心
(西安航空學院 理學院,西安 710077)
教育的本質就是一個教與學的過程,是將前人的知識、經(jīng)驗、思維與行為方式等進行傳承的過程。顯然,教育是一個巨大而復雜的系統(tǒng),涉及到教學、管理、科研、服務等諸多行業(yè)[1]。教育與其他具有清晰、規(guī)范的業(yè)務流程的領域(如金融、制造業(yè)等)明顯不同之處在于不同地區(qū)、不同學校、不同家庭環(huán)境、甚至不同學生和老師都具有差異性。
伴隨著科技的發(fā)展,教育的方式呈現(xiàn)多樣化。除了傳統(tǒng)課堂的以教師為主導、統(tǒng)一教學進度和教學目標的面對面講授方式外,包括MOOC、EDX等在內(nèi)的臺各式各樣的教育學習平臺也在不斷涌現(xiàn)。這些教育學習平臺的出現(xiàn)將接受教育的主體變?yōu)閷W習者,且學習者可以依據(jù)自身的理解力和興趣愛好選擇學習的內(nèi)容,由被動式學習轉化為主動式學習。
由于線上教學方式可以部分彌補傳統(tǒng)教育的不足,很多高校都已建立自己的在線學習平臺,并將部分傳統(tǒng)教育環(huán)節(jié)轉移到了線上。而與線上平臺的建立應運而生的,是線上教學過程中所產(chǎn)生的海量教育數(shù)據(jù),如何有效地利用這些數(shù)據(jù)改善教師教學質量是當下面對的挑戰(zhàn)之一。
在以美、英、法等國為代表的發(fā)達國家都將大數(shù)據(jù)作為新型戰(zhàn)略資源[2]。我國也在加速部署教育大數(shù)據(jù)戰(zhàn)略計劃[3-4]。教育大數(shù)據(jù)可將曾經(jīng)不被重視或無法收集的數(shù)據(jù)進行收集、存儲和分析[5],這是實現(xiàn)教學方式改革的關鍵支撐,是實現(xiàn)教學過程量化的重要參考指標,也是實現(xiàn)個性化教育的有力保障,更是最終實現(xiàn)教學過程可量化、教學決策個性化、教學模式定制化、教學管理可視化的重大教學改革。
依靠大數(shù)據(jù)技術的發(fā)展和信息化技術的普及,達到通過量化教學過程來驅動教學的目的,一方面能夠緩解當前教育資源分配不均衡的問題,另一方面,分析教學過程中產(chǎn)生的數(shù)據(jù),能夠不斷提升教師的教學質量,并使學生的學習更具個性化,為教學發(fā)展起到重要推進作用,數(shù)據(jù)驅動教學結構框架如圖1所示。
圖1 數(shù)據(jù)驅動教學結構框架
目前,無論是線上還是線下教育,普遍采用的是一對多的模式,即一個老師對應多個學生。在這種模式下,不同性別、不同學科背景的學生在學習習慣上普遍存在差異,教師有限的精力無法一對一地了解每個學生的學習習慣和學習偏好。不過,在這種情況下學生對教師的教學評價(以下簡稱評教)數(shù)據(jù)是學生對教師教學過程給予反饋的重要方式,因此評教是了解學生狀況、關注學生差異、獲得學生反饋信息、提升教學效果的重要途徑。
盡管如此,由于學生基數(shù)大,且水平參差不齊,因此學生評教內(nèi)容存在主觀性和隨意性,導致對評教結果的判定多以統(tǒng)計評分為主而忽略了學生評教的文本內(nèi)容。這會導致教師無法詳細客觀地了解學生的評教意見,無法及時改進教學方式,不利于提高教學質量。目前,國內(nèi)對學生教學評價以評教系統(tǒng)設計或針對教學評價的情感分析為主,而對評教內(nèi)容研究的還比較少。本文利用自然語言處理(NLP)的BERT模型,通過文本分類、機器學習、可視化分析等方法,對學生評教數(shù)據(jù)中的自然語言描述部分進行分類,分析學生學習過程中重點關注的教學環(huán)節(jié),為教師改進教學過程提供參考依據(jù)。
自然語言處理是計算機科學和人工智能的研究領域之一,通常將自然語言轉換成計算機能夠用于理解這個世界的數(shù)據(jù)或用于生成能夠體現(xiàn)這種理解的自然語言文本[6]。
Transformer模型是Google于2017年提出的用于機器翻譯的經(jīng)典NLP模型[7],該模型由編碼器(Encoder)和解碼器(Decoder)兩部分組成,每個編碼器和解碼器中都包含六個區(qū)塊。
首先,由句子中每個單詞的詞嵌入值和位置嵌入值共同構成單詞的表向量矩陣X(n×d),其中:n是句子中單詞個數(shù);d表示向量維度。其次,將X傳入編碼器中,經(jīng)過六個編碼塊得到句子所有單詞的編碼信息矩陣C。最后,編碼器將輸出的編碼矩陣傳遞到解碼器中,解碼器會在翻譯第i個單詞時,掩蓋住i+1之后的單詞,根據(jù)已翻譯的前i-1個單詞翻譯第i個單詞。
與傳統(tǒng)的機器翻譯模型不同,Transformer模型在構建編碼器和解碼器的時候使用了多頭自注意力機制,使得Transformer模型可以忽略兩個詞在句子中的距離關系,只進行常數(shù)計算即可[8],并且Transformer模型在實現(xiàn)速度性能最優(yōu)的情況下,也是效果最佳的模型。由于Transformer模型具有上述優(yōu)點,使得其在細節(jié)化的語義推理方面取得了不錯的成績[9],在情感分析方面任務上具備優(yōu)勢。
Google在2018年推出基于Transfomer結構的深度雙向編碼表征BERT模型,它通過聯(lián)合調(diào)節(jié)所有層中的雙向Transformer模型來訓練預訓練深度雙向表示[10]。
由于NLP是以單個句子為輸入單位,可能出現(xiàn)相同詞語在不同語句表達不同含義的情況。BERT模型創(chuàng)新性地使用了標記語言模型(MLM)和后續(xù)內(nèi)容預測(NSP)兩種無監(jiān)督預測任務模型,其中:MLM從輸入中隨機掩蓋一些詞語,目標是基于其下文預測被掩蓋的單詞的原始詞匯;而NSP在MLM的基礎上,隨機將數(shù)據(jù)劃分為等大小的兩部分,分別是數(shù)據(jù)中上下文連續(xù)的語句對和上下文不連續(xù)的語句對,然后使用Transformer模型識別語句對是否連續(xù)。這可使BERT模型中的詞向量表征融入到前后左右的上下文語義中,因此BERT訓練后的詞向量效果更好,具有更強的通用性。
為了對數(shù)據(jù)進行預處理和預訓練模型,以某高校某門課程的學生評教文本數(shù)據(jù)為例進行分析。該文本數(shù)據(jù)共有評論數(shù)265條,主要針對教師教學過程中的優(yōu)點及不足兩方面進行評價,其中部分文本內(nèi)容如圖2所示。
圖2 學生評教部分文本數(shù)據(jù)
數(shù)據(jù)預處理之前要進行數(shù)據(jù)質量分析,其主要目的就是檢查原始數(shù)據(jù)中是否存在“臟數(shù)據(jù)”?!芭K數(shù)據(jù)”主要包括缺失值、異常值、不一致的值和重復數(shù)據(jù)。由于數(shù)據(jù)分析的對象是文本數(shù)據(jù),在數(shù)據(jù)質量分析方面的“臟數(shù)據(jù)”只有缺失值。經(jīng)過數(shù)據(jù)質量分析后剩余246條無缺失值數(shù)據(jù)為有效數(shù)據(jù)。
由于評教文本數(shù)據(jù)完全由自然語言描述,格式比較隨意,不具備嚴格的語法規(guī)范,因此需要對評教數(shù)據(jù)按照預訓練模型的文本格式要求進行預處理。處理流程為:先將有效的評教數(shù)據(jù)以句為單位進行拆分,獲取評論描述764條;接下來對每條評論描述創(chuàng)建歸一化標簽。歸一化標簽是將評教相似內(nèi)容聚合為5個維度,包括語言、備課、互動、作業(yè)評講、課堂管理,如表1所示。
表1 歸一化標簽及其對應的評教描述內(nèi)容
通過上述處理所得部分最終數(shù)據(jù)預處理結果如圖3所示。
圖3 數(shù)據(jù)預處理效果圖
預訓練屬于遷移學習的范疇,預訓練語言模型是在大規(guī)模文本中訓練出通用的語言表示[11]。此外,預訓練語言模型可以提供更好的模型初始化,帶來更好的泛化性并加快目標任務的收斂速度,避免對小數(shù)據(jù)的過度擬合[12]。
由于BERT的訓練本身需要大量GPU資源和高質量數(shù)據(jù)[13],因此可用第三方訓練至收斂的BERT預訓練模型。中文預訓練語言模型包括BERT-wwm-base-qa、bert-base-chinese、chinese-bert-wwm-ext等。本文預訓練語言模型利用的是HuggingFace項目中的bert-base-chinese預訓練模型,該模型有Pytorch與TensorFlow兩個版本,文中利用的是TensorFlow版。
BERT訓練分為二段式,先使用大量無監(jiān)督文本訓練基礎模型,而后只需要在下有任務的特定數(shù)據(jù)集上微調(diào),即可獲得SOTA性能[14]。
設置隨機種子對數(shù)據(jù)進行隨機排列,將預處理后的評教數(shù)據(jù)集隨機分為訓練集與測試集,比例為8∶2。調(diào)用預訓練模型,模型主要參數(shù)包括max_length(文本最大長度)、batch_size(單詞訓練選取樣本數(shù))、learning_rate(學習率)和樣本訓練次數(shù)(Epoch)。設置max_length=32,batch_size=46,learn_rate=5e-5及epochs=6,為避免單次預測中的隨機值,對模型循環(huán)運行6次,獲得每次運行的測試集分類正確率分布散點圖,結果如圖4所示。由圖4可見,隨著模型運行次數(shù)的增加,測試集正確率不斷提高,且提高的幅度逐漸減弱并趨于收斂。
圖4 測試集分類正確率分布散點圖
通過前述將訓練集與測試集分類正確率取均值可發(fā)現(xiàn),測試集正確率會隨著訓練集正確率的提高而提高,最終二者都趨于收斂,如圖5所示。分析所得的評教數(shù)據(jù)分類模型最終平均損失值與分類正確率平均值分別為0.543和0.857。由此可見,分析結果基本達到五個維度分類評價效果,驗證了方法的有效性。
圖5 正確率均值折線圖
對五個維度分類評教結果生成統(tǒng)計直方圖和餅狀圖,分別如圖6和圖7所示。由圖6和圖7可見,學生對備課環(huán)節(jié)的評論數(shù)達到382條,占總評論數(shù)的50%;對課堂管理相關的評論數(shù)為145條,占總評論數(shù)的19.0%;對語言與互動的評論數(shù)基本持平,各占總評論數(shù)的14.3%與13.2%;對作業(yè)評講方面的評論數(shù)最少,只有27條占評論總數(shù)的3.5%。
圖6 學生評教分類統(tǒng)計柱狀圖
圖7 學生評教分類統(tǒng)計餅狀圖
根據(jù)分析所得的備課相關的評論數(shù)據(jù)生成云圖,結果如圖8所示。由圖8可見,學生與備課相關的評教中對PPT、板書的評論最多,其次是對教學內(nèi)容、重點內(nèi)容的評論,再次是教學過程中講解是否清楚、思路是否清晰,而對于教學資料等項內(nèi)容關注非常少。
圖8 備課評論云圖
本文在教育現(xiàn)代化背景下,對BERT預訓練模型進行微調(diào),實現(xiàn)某高校學生評教數(shù)據(jù)的分類。經(jīng)過統(tǒng)計分析,判斷出學生在教師授課過程中的主要關注方向,為教師改善教學過程提供了理論依據(jù),也為后續(xù)針對評教五個維度的情感正負性分析做好了研究基礎。具體分析結果表明:
(1)學生對本課程授課過程中的教師備課環(huán)節(jié)最為關注,而備課環(huán)節(jié)中,對PPT、板書類教學介質的關注度最高。因此,在后期教學過程中,教師應當更加重視本課程教學介質的使用,優(yōu)化PPT,注重板書的排版與設計。
(2)學生對作業(yè)評講環(huán)節(jié)關注度最低,證明該環(huán)節(jié)存在感較低,學生對該環(huán)節(jié)的重視度不夠。教師應在授課過程中適當提高講評環(huán)節(jié)的時間占比,提高學生對作業(yè)講評的重視程度。