劉志剛,韓鵬婧
(1.東北石油大學應用技術(shù)研究院博士后工作站,黑龍江大慶 163318;2.東北石油大學計算機與信息技術(shù)學院,黑龍江 大慶 163318)
近年來,智能化教育以人工智能為核心驅(qū)動力進行智能化教育環(huán)境與生態(tài)建設(shè)[1]。智能感知是智能化教育的關(guān)鍵技術(shù),旨在利用智能教學系統(tǒng)了解學習者行為、教師的教學、教學環(huán)境等物理狀態(tài)信息,開展教育大數(shù)據(jù)的分析與決策[2]。在人工智能賦能教育變革的背景下,很多學者對識別學生狀態(tài)進行了探索性研究。早期主要采用光流[3]、方向梯度直方圖HOG[4]等手工設(shè)計算子提取學生特征,根據(jù)支持向量機[5]等識別行為狀態(tài)。隨后很多學者將卷積神經(jīng)網(wǎng)絡用于學生狀態(tài)識別,避免手工設(shè)計算子的難度[6-13]。這些方法要求視頻采集到單個學生具有理想的人體姿態(tài),然而,現(xiàn)實教學場景中學生人體遮擋現(xiàn)象非常明顯。因此,研究分布密集的學生狀態(tài)識別是智能教學評價的關(guān)鍵問題。
開展學生課堂狀態(tài)識別的研究,要將學生個體從視頻中分離,因此個體位置的準確檢測是狀態(tài)識別的首要問題。針對視頻中普遍存在的遮擋現(xiàn)象,該文首先設(shè)計多尺度注意力模塊MAM,抑制學生人體局部遮擋區(qū)域的特征噪聲;其次,為提高檢測速度,引入文獻[11]的中心點尺度預測模型(Center and Scale Prediction,CSP)作為嵌入MAM 的基礎(chǔ)架構(gòu),并將嵌入MAM 的模型記為CSP-MAM;最后,構(gòu)建聯(lián)合損失函數(shù)進行學生位置檢測模型訓練。
1.1.1 多尺度注意力模塊MAM
注意力機制是一種通過模擬人類視覺系統(tǒng),聚焦興趣區(qū)域獲得細節(jié)信息的方法。該文引入注意力機制,在構(gòu)建的多尺度注意力模塊MAM 中,通過外部監(jiān)督的方式增強學生人體可見區(qū)域的特征提取,抑制遮擋區(qū)域的噪聲干擾。MAM 模塊結(jié)構(gòu)如圖1所示。
圖1 MAM模塊結(jié)構(gòu)圖
1)空間特征圖Matt:對輸入MAM 的不同尺度特征圖fn,在通道上進行混合池化,利用3×3 卷積核進行濾波,通過非線性前向計算輸出Matt;
2)區(qū)域增強特征圖Mvis:增加可見區(qū)域注意力聚焦分支,通過數(shù)據(jù)集標注作為外部監(jiān)督信息計算輸出Mvis,增強特征圖的可見區(qū)域特征響應;
3)全局特征圖Mglobal:為抑制遮擋區(qū)域、增強可見區(qū)域特征提取,對Mvis和Matt進行空間疊加構(gòu)建Mglobal,通過內(nèi)積作用輸入特征圖fn,構(gòu)建可見區(qū)域特征增強的全局特征圖Fn。
1.1.2 學生位置檢測模型
首先,CSP-MAM 利用ResNet-50 作為目標檢測模型的特征提取網(wǎng)絡,為綜合淺層特征圖的圖像細節(jié)特征和深層特征圖的抽象語義特征,使用多尺度注意力模塊MAM 對ResNet-50 的第3、4、5 層特征圖進行特征融合;其次,對增強后的特征圖進行L2 Normalization 標準化,使用反卷積統(tǒng)一特征圖尺寸;最后,對不同分辨率的特征圖進行通道融合,通過三個全卷積分支計算學生人體的目標中心位置、高度和中心位置偏移量。
根據(jù)CSP-MAM 檢測的學生位置進行學生個體圖像的視頻分離,此時若直接通過深度學習進行狀態(tài)識別,易受到教室背景、學生服飾等干擾噪聲的影響,降低識別精度。針對該問題,該文根據(jù)學生人體關(guān)節(jié)點骨架信息特征開展行為識別。提取學生人體關(guān)節(jié)點骨架信息的方法主要有兩種:1)通過穿戴設(shè)備或深度傳感器提取。該方法具有較高的準確率,但在課堂多人環(huán)境下成本較大,易受距離限制;2)采用深度學習的姿態(tài)估計技術(shù),提取人體圖像的關(guān)節(jié)點骨架信息。該方法不受設(shè)備、人數(shù)和距離的限制,具有更好的適用性。該文選用第二種方法,通過姿態(tài)估計模型OpenPose 對分離出的學生人體提取骨架信息,包括25 個人體關(guān)節(jié)點的點位坐標和連接關(guān)節(jié)點的骨架信息,如圖2 所示。
圖2 OpenPose檢測的人體關(guān)節(jié)點骨架信息
該文將學生狀態(tài)分為四種積極行為和兩種消極行為,其中積極行為包括端坐、書寫、舉手、起立,消極行為包括趴桌子、玩手機。根據(jù)OpenPose 提取的學生關(guān)節(jié)點和骨架信息,為提高學生課堂狀態(tài)識別的準確率,采用不同的機器學習模型進行狀態(tài)自動識別,包括支持向量機、極限學習機和卷積神經(jīng)網(wǎng)絡VGG-16、ResNet-50[16]。最后,根據(jù)實驗對比選擇準確率最高的識別模型進行實際應用。
1.3.1 經(jīng)典機器學習模型
支持向量機(Support Vector Machine,SVM)是由Vapnik 等人提出的經(jīng)典機器學習模型。極限學習機(Extreme Learning Machine,ELM)是新加坡國立大學黃廣斌教授提出的一種快速神經(jīng)網(wǎng)絡模型。由于SVM 和ELM 具有分類速度快、精度高的特點,廣泛應用于相關(guān)領(lǐng)域的分類識別問題中。采用二者識別學生狀態(tài)時,輸入特征是離散的學生人體關(guān)節(jié)點坐標。為提高行為識別精度,特征工程階段包括:1)由于學生受到桌椅、前排學生的局部遮擋,多數(shù)學生在課堂視頻中僅出現(xiàn)上半身。為保持所有學生的骨架特征一致,降低干擾特征影響,綜合考慮“站立”行為的識別,去除膝蓋以下的關(guān)節(jié)點(圖2 中第11、14、19~24 點);2)關(guān)節(jié)點預處理時,采用關(guān)節(jié)點坐標與1號關(guān)節(jié)點的相對坐標,避免關(guān)節(jié)點位置受課堂視頻圖像幀的絕對位置影響。
1.3.2 卷積神經(jīng)網(wǎng)絡
相對于傳統(tǒng)的機器學習模型,深度學習理論在近年來的人工應用研究中獲得了更大的成功。該文選用卷積神經(jīng)網(wǎng)絡識別學生狀態(tài)行為,采用VGG-16 和ResNet-50 模型。與SVM 和ELM 不同,二者的輸入特征是根據(jù)學生人體關(guān)節(jié)點截取區(qū)域圖像。為增強VGG-16 和ResNet-50 特征提取的魯棒性,將圖像分別縮放為224×224 像素和448×448 像素。
實驗環(huán) 境:CPU Intel Xeon(R) E5-2640、內(nèi)存8 GB、GPU 顯卡NVIDIA RTX2070Super。模型訓練驗證的實驗數(shù)據(jù)集包括目標檢測數(shù)據(jù)集和行為識別數(shù)據(jù)集,具體包括:
1)目標檢測數(shù)據(jù)集:為進行學生位置檢測模型CSP-MAM 的訓練與測試,使用遮擋檢測數(shù)據(jù)集CityPersons。訓練集和測試集分別包含2 975 張和500 張圖像,每張圖像分辨率為2 048×1 024,具有豐富的遮擋形式,并提供人體目標全身邊界框和可見部分邊界框。
2)行為識別數(shù)據(jù)集:在實際應用前,需對學生狀態(tài)識別模型進行訓練和測試。由于目前國內(nèi)外沒有標準公共數(shù)據(jù)集,該文選取某大學400 名志愿者為數(shù)據(jù)來源,拍攝每名同學的舉手、聽課、看書、站立、趴桌子、玩手機六個課堂狀態(tài)動作,通過數(shù)據(jù)標注構(gòu)建數(shù)據(jù)集NEPU-300。
1)學生目標位置檢測:首先,使用CityPersons 數(shù)據(jù)集完成學生位置檢測模型CSP-MAM 的訓練與測試,通過遷移學習應用到本實驗中;其次,按照視頻幀采集頻率,獲取實時視頻流中的圖像幀,根據(jù)CSP-MAM 對教學視頻中的學生位置進行目標檢測;
2)學生骨架信息提?。簩z測后的單個學生人體目標從視頻圖像中分離出來,通過OpenPose 完成學生骨架信息提取,保存除11、14、19-24點外的17個關(guān)節(jié)點的相對坐標,以及17個關(guān)節(jié)點的骨架區(qū)域圖像;
3)學生課堂狀態(tài)識別:首先,根據(jù)OpenPose 對NEPU-300 數(shù)據(jù)集識別的學生關(guān)節(jié)點、骨架區(qū)域特征完成行為識別模型的訓練,包括SVM、ELM、VGG-16 和ResNet-50。其 中,VGG-16 和ResNet-50 在ImageNet 上完成預訓練;其次,為避免模型訓練過擬合,訓練過程中采用旋轉(zhuǎn)、平移、翻轉(zhuǎn)的方法對NEPU-300 數(shù)據(jù)集進行增強;最后,將訓練好的狀態(tài)識別模型應用到學生狀態(tài)識別任務中。整體流程圖如圖3 所示。
圖3 學生課堂狀態(tài)識別流程圖(以ResNet-50為例)
為實驗對比有效,在相同實驗條件下進行五組獨立隨機實驗,實驗結(jié)果為多次實驗的平均識別準確率。根據(jù)實驗環(huán)境,將Epoch 設(shè)為50,Mini-batch設(shè)為30,并對比該文所提的CSP-MAM 與其他主流檢測模型YOLOv5、SSD 在四種狀態(tài)識別模型上的性能。觀察表1 可知:①在對比的三種目標檢測模型中,通過引入CSP-MAM 檢測模型,相對于YOLOv5、SSD,四種機器學習模型的學生狀態(tài)識別精度均有提升,結(jié)果表明,CSP-MAM 有效提高遮擋學生的位置檢測能力,降低課堂視頻分離后的學生個體圖像中干擾噪聲對模型提取特征的影響;②在對比的行為識別模型中,ResNet-50 和VGG-16 的狀態(tài)識別準確率均高于傳統(tǒng)的機器學習SVM、ELM,并以ResNet-50 的識別精度最為理想。實驗表明,采用深度學習方法進行學生課堂狀態(tài)識別具有更好的識別準確率和泛化能力。
表1 學生狀態(tài)識別準確率的實驗結(jié)果對比
如圖4 和圖5 所示,分別為使用SVM 和ResNet-50 進行六種課堂狀態(tài)識別的混淆矩陣圖。對于“舉手”“站立”“趴桌子”三種骨架關(guān)節(jié)點特征較為明顯的行為,識別準確性較高,對于“聽課”“看書”“玩手機”三種關(guān)節(jié)點特征區(qū)別度較低的行為,準確性略低。同時,ResNet-50 相對于經(jīng)典機器學習SVM 模型在六種狀態(tài)的識別準確性上均明顯提升。
圖4 使用SVM進行六種課堂狀態(tài)識別的混淆矩陣圖
圖5 使用ResNet-50進行六種課堂狀態(tài)識別的混淆矩陣圖
為輔助教師及時掌握學生學習狀態(tài)、快速分析教學效果和有效提高課堂教學質(zhì)量,該文在所提研究方法的基礎(chǔ)上,設(shè)計學生課堂狀態(tài)智能輔助分析系統(tǒng),實現(xiàn)課堂教學信息反饋實時性、傳遞高效性和處理智能性。該系統(tǒng)包括五大模塊,具體如下:
1)課堂錄像模塊:采用固定攝像機完成課堂教學場景的實時錄制,將視頻信號通過專用線路傳輸?shù)街骺胤掌鳎?/p>
2)圖像采集模塊:構(gòu)建RSTP 流媒體服務器,設(shè)置視頻分幀采集頻率,提取課堂視頻圖像幀,將圖像輸入給目標檢測模塊;
3)目標檢測模塊:通過CSP-MAM 模型對采集的課堂教學場景圖像進行學生目標位置檢測,從場景圖像中分離出檢測后的每個學生個體圖像;
4)行為識別模塊:通過OpenPose 提取學生人體骨架信息,獲取關(guān)節(jié)點區(qū)域像素特征,采用ResNet-50 進行學生狀態(tài)識別;
5)數(shù)據(jù)分析模塊:根據(jù)模型識別結(jié)果進行教學過程的統(tǒng)計分析,包括抬頭率、低頭率、課堂參與度、互動活躍度四種評價指標。
該研究中的課堂教學評價包括即時評價和總體評價兩部分,其中,即時評價采用學習率、低頭率兩個常用指標實時反映學生聽課狀態(tài),總體評價則采用課堂參與度、互動活躍度兩個指標衡量整體教學過程。綜合考慮計算速度與分析效果,設(shè)視頻分幀采集頻率τ=12 秒/幀。為方便描述,記課堂學生總數(shù)為N,課堂互動次數(shù)為P,學生在各時刻狀態(tài)依次記為“端坐”:Ai(t)、“看書”:Bi(t)、“舉手”:Ci(t)、“站立”:Di(t)、“趴桌子”:Ei(t)、“玩手機”:Fi(t)。其中,Ai(t)為第i個學生在t時刻是否處于“端坐”狀態(tài),若是取1,反之取0,其他同理。
1)學習率η(t):根據(jù)采集頻率τ獲取的課堂視頻圖像進行學生行為識別,以“端坐”“看書”“舉手”“站立”四種積極狀態(tài)為依據(jù),實時反映聽課人數(shù)比例,具體如式(1)。
2)低頭率μ(t):主要統(tǒng)計“趴桌子”“玩手機”兩種消極狀態(tài),實時反映教學中消極學習的學生比例,具體如式(2)。
3)課堂參與度γ:主要反映學生群體在教學時長內(nèi)的積極行為、參與學習的比例情況。按照圖像采集頻率τ,將教學監(jiān)測視頻時長T分內(nèi)的教學過程離散成60T/τ個視頻場景序列,依據(jù)四種積極狀態(tài)計算全體學生的課堂參與度。為降低學生“端坐”“看書”時的心不在焉現(xiàn)象,設(shè)置權(quán)重因子λ1=0.3、λ2=0.7 調(diào)節(jié)“端坐”“看書”與“舉手”“站立”之間的比例關(guān)系。當τ=12 時,參與度計算見式(3)。
4)互動活躍度κ:互動活躍度主要反映學生群體在提問、互動等教學過程中的活躍情況。根據(jù)互動環(huán)節(jié)時長離散后的P個圖像場景序列,在“舉手”“站立”行為識別的基礎(chǔ)上計算活躍度,設(shè)置權(quán)重因子λ3=0.45,λ4=0.55 調(diào)節(jié)兩種行為對κ的貢獻,具體如式(4)。
近年來,以深度學習為主導的人工智能理論取得了很大發(fā)展,智能視頻分析技術(shù)逐漸引起研究者的關(guān)注。由于攝像機角度、座位前后排、學生密集和人體柔性等因素的影響,人體遮擋問題是學生狀態(tài)自動識別的難點問題。針對該問題,該文對位置檢測、特征提取、狀態(tài)識別和系統(tǒng)實際應用進行研究,最終實現(xiàn)了利用教學評價指標自動完成教學效果評價。該文的研究能夠有效助力于課堂為主體的智能化教育評價,從而促使教師改革教學方法,優(yōu)化教學策略,不斷提高教學效率。