張小妮 張真真
摘? 要:近年來,智慧教育發(fā)展迅速,與之相關的學生課堂行為識別隨之得到重視。針對課堂環(huán)境復雜、學生目標密集、遮擋嚴重等問題,提出一種基于YOLOv5目標檢測算法的學生課堂行為識別方法。首先,建立學生課堂行為數(shù)據集,為研究提供數(shù)據來源;其次,針對學生目標密集等問題提出一種多尺度特征融合的學生課堂行為識別方法。多次實驗結果表明,所提方法有效地提高了學生課堂行為識別的精度。學生課堂行為的智能化識別為教師掌握學生學情、改進授課策略提供了重要依據。
關鍵詞:YOLOv5;學生行為;行為識別;目標檢測;特征融合
中圖分類號:TP183? 文獻標識碼:A? 文章編號:2096-4706(2023)08-0096-04
Abstract: In recent years, with the rapid development of smart education, students' classroom behavior recognition related to it has received attention. Aiming at the problems of complex classroom environment, dense student targets, and severe occlusion, a method for student classroom behavior recognition based on YOLOv5 target detection algorithm is proposed. Firstly, establish a dataset of student classroom behavior to provide data sources for research; Secondly, a multiscale feature fusion method for student classroom behavior recognition is proposed to solve the problem of dense student targets. Several experimental results show that the proposed method effectively improves the accuracy of students' classroom behavior recognition. The intelligent identification of students' classroom behavior provides an important basis for teachers to master students' learning situation and improve teaching strategies.
Keywords: YOLOv5; student behavior; behavior recognition; object detection; feature fusion
0? 引? 言
將智能化行為識別應用于教育行業(yè),能夠有效解決早期課堂老師獲取學生學情的不足,幫助老師提高授課效率,同時幫助學生及時發(fā)現(xiàn)學業(yè)中的問題,幫助家長隨時掌握孩子上課情況。
目前學生行為識別方法大多基于深度學習技術,其中,閆興亞等人[1]在Mobilenet V3的基礎上提出了輕量級的姿態(tài)識別方法,提高了對人體行為的識別準確率。王澤杰等人[2]利用Open Pose算法提取學生姿態(tài)特征,融合YOLOv3算法提取學生行為的局部特征,最終成功識別出正坐、側身、低頭和舉手四種學生課堂行為。董琪琪等人[3]提出一種改進的SSD算法,結合K-means聚類算法對數(shù)據進行聚類分析,最終在聽講、睡覺、舉手、回答和寫字五種學生課堂行為上提高了識別精度。林燦然等人[4]對學生的起立、端坐和舉手三種行為進行研究,取得了較好的結果??卤蟮热薣5]首先對課堂圖像進行處理,利用Inception V3算法模型對學生六類課堂行為進行研究,認為模型對學生的單一動作識別率較高。
本文從學生課堂行為數(shù)據集入手,首先解決數(shù)據來源不足的問題,其次對模型提取學生行為特征的能力進行加強,構建一種有效的學生課堂行為識別模型,提高學生行為識別的準確率。
1? 學生行為識別
1.1? 學生行為識別數(shù)據集
在目標檢測領域中,ImageNet[6]、PASCAL Visual Object Classes (VOC)[7]和Microsoft's Common Objects in Context (COCO)[8]等數(shù)據集都是眾所周知的基準數(shù)據集,但這些數(shù)據集并沒有包含行為的標簽,不能為學生課堂行為的研究提供幫助,因此,我們構建了一個學生課堂行為數(shù)據集,為學生課堂行為的研究提供一個統(tǒng)一的衡量標準。
1.1.1? 數(shù)據采集
數(shù)據的采集工作在河南某高校進行,拍攝的課堂視頻均屬于真實課堂中學生自發(fā)的行為,包括各個學生目標的行為狀態(tài)變化。拍攝過程中,由于人數(shù)、科目、教室等因素的不同會對學生行為產生影響,我們對學生課堂進行多次拍攝,使得到的學生行為盡可能全面,并根據人數(shù)、遮擋情況、拍攝距離等因素將課堂場景劃分為簡單環(huán)境、一般環(huán)境和復雜環(huán)境。
1.1.2? 數(shù)據處理
對采集到的學生課堂視頻進行處理,截取具有代表性的高質量圖像。由于行為具有連續(xù)性,相鄰幀間的學生行為差異較小,為了得到不同的學生行為,每3秒采樣一幀圖像,最終得到1 903張學生課堂圖像。
根據采集到的圖像特點,對學生行為進行分類,最終將學生行為劃分為抬頭、低頭、轉頭、玩手機、讀寫、睡覺、直立、趴著八個類別以及手機、書兩種行為相關類別。
根據劃分的學生課堂行為對采樣圖像進行標注,使用標注工具LabelImg生成模型可讀的數(shù)據格式。標注工作完成后,共得到137 960個樣本標簽,按照3:1:1的比例把數(shù)據劃分為訓練集,驗證集和測試集。其中,訓練集里的數(shù)據用來模型訓練,學習學生課堂行為特征;驗證集里的數(shù)據用來模型調整參數(shù);測試集里的數(shù)據用來測試學生課堂行為識別模型的泛化能力。圖1顯示了各學生課堂行為類別的樣本數(shù)量,表1為數(shù)據集劃分的詳細說明。
1.2? 多尺度特征融合
本文選用YOLOv5[9,10]目標檢測模型作為基準模型,該模型由Input、Backbone、Neck、Prediction四部分組成,其中Input是輸入端,負責向模型輸入數(shù)據;Backbone主要負責特征的提取,Neck將特征進行融合,最后在Prediction進行目標預測。
在目標檢測任務中,大多使用卷積神經網絡通過逐層抽象的方式來提取目標特征。由于高層網絡的感受野較大,語義信息表征能力強,但特征圖的分辨率較低,幾何信息的表征能力強;底層網絡的感受野比較小,幾何細節(jié)信息表征能力強,分辨率較高,但語義信息表征能力較弱。因此,將高層特征信息與底層特征信息進行融合,可以有效提高模型對目標的特征提取能力,所以,多尺度特征融合旨在對不同分辨率下的特征進行聚合,以獲取更多信息。
在YOLOv5目標檢測模型中,使用PANet網絡進行特征融合,但該網絡把所有特征對結果的影響視為同等重要,不能有效融合各類特征,大大降低了學生課堂行為識別的精度。不同的輸入具有不同的分辨率,對融合的輸出特征做出的貢獻也不相同,為了解決這一問題,本文提出了一種雙向特征金字塔網絡(Bidirectional Feature Pyramid Network, BiFPN),引入可學習的權重來學習不同輸入特征的重要性,同時反復應用自頂向下和自底向上的多尺度特征融合,提高模型對學生行為特征的提取能力和融合能力。圖2分別為PANet網絡和BiFPN網絡的結構圖。
相比于PANet,BiFPN有以下特點和優(yōu)勢:1)刪除只有一個輸入邊的節(jié)點。一個節(jié)點只有一個輸入邊,對于融合不同學生行為特征的貢獻較小。2)處于同一級別的兩個節(jié)點,額外添加一條從原始輸入到輸出節(jié)點的邊,在不增加計算成本的情況下融合更多特征。3)將每個雙向(自頂向下和自定向上)路徑視為一個特征網絡層,并多次重復同一層,便于更高級的特征融合。該網絡能夠方便、快速地進行多尺度特征融合,同時可以對主干網絡、特征網絡以及最后的預測網絡的分辨率、深度和寬度進行均勻縮放,以一種更加直觀和有原則的方式優(yōu)化多尺度特征融合。
1.3? 學生行為識別模型
在學生課堂行為識別模型構建的過程中,首先將課堂視頻處理為模型需要的數(shù)據格式,然后利用卷積神經網絡提取學生行為特征,接著用雙向特征金字塔網絡融合高層特征,然后用目標分類網絡計算學生目標,邊框回歸網絡計算學生目標位置,最后通過分類學習實現(xiàn)學生行為識別。本文將BiFPN與目標檢測模型YOLOv5進行結合,構建新的學生行為識別模型——Bi-YOLOv5,利用YOLOv5快速檢測的特點和優(yōu)勢,在保證對學生行為進行實時檢測的同時,提高模型在復雜環(huán)境下對目標的特征的提取能力。圖3為Bi-YOLOv5模型結構圖。
2? 實驗結果
2.1? 實驗環(huán)境
2.1.1? 實驗環(huán)境
所有實驗均在Windows 10操作系統(tǒng)上進行,編程語言為Python 3.9,框架技術為PyTorch,加速環(huán)境為CUDA 11.3,GPU為NVIDIA GeForce RTX 3060,顯存大小為6 GB。
2.1.2? 模型參數(shù)
模型參數(shù)不同,最終的結果也會有一定差距,為了使學生行為識別模型對學生的課堂行為具有較好的識別率,我們在其他參數(shù)相同的條件下對各項參數(shù)逐一進行嘗試,以尋求效果較好的參數(shù)組合。綜合考慮實驗硬件配置和模型效果,最終模型參數(shù)為:batchsize為16,學習率大小為0.001,權重衰減為0.000 5,Adam優(yōu)化器。
2.1.3? 實驗步驟
具體實驗步驟如下:
1)采集學生的10類典型課堂行為。
2)對數(shù)據進行處理,構建數(shù)據集。
3)將BiFPN網絡與YOLOv5融合,構建新的模型——Bi-YOLOv5。
4)使用訓練集和驗證集進行模型訓練,使用余弦退火算法更新學習率,設置訓練輪數(shù)為500,訓練過程中的損失函數(shù)變化如圖4所示。
5)將訓練好的模型對測試數(shù)據進行測試,評估模型性能。
2.2? 實驗結果和分析
本文探索了改進前后的模型在不同教室環(huán)境下對學生課堂行為識別精度的影響,分別在簡單環(huán)境、一般環(huán)境和復雜環(huán)境下對學生行為進行多次實驗,在相同參數(shù)下對YOLOv5和Bi-YOLOv5的結果進行對比,YOLOv5原模型在數(shù)據集上的實驗結果如表2所示,Bi-YOLOv5改進模型的實驗結果如表3所示(簡單代表簡單環(huán)境,一般代表一般環(huán)境,復雜代表復雜環(huán)境,所有代表實驗的所有數(shù)據)。其中,All對應所有類別精度的平均精度。為降低結果的偶然性和精度偏差,每組實驗結果均取10次相同實驗的平均精度。
從實驗結果可以看出,隨著課堂環(huán)境復雜程度的增加,YOLOv5和Bi-YOLOv5對學生課堂行為的檢測精度逐漸降低。YOLOv5在簡單環(huán)境、一般環(huán)境和復雜環(huán)境的精度分別為90.5%、73.1%和71.5%,相同條件下,改進后的模型比原模型的精度分別高了3.5%、7.3%和6.8%。對于整個數(shù)據集而言,YOLOv5達到了78.1%的精度,Bi-YOLOv5達到了84.6%的檢測精度,比原模型高出6.5個百分點。
3? 結? 論
本文首先創(chuàng)建了學生課堂行為數(shù)據集,在目標檢測模型YOLOv5的基礎上,針對課堂環(huán)境復雜、人數(shù)多、遮擋嚴重等問題導致學生課堂行為識別率較低的問題,提出了一種融合雙向特征金字塔網絡的模型,該模型能有效提取學生課堂行為特征,使每類學生課堂行為的識別精度均得到有效提升。后期工作將會圍繞增加學生課堂行為類別展開工作,進一步測試所提方法的有效性。
參考文獻:
[1] 閆興亞,匡婭茜,白光睿,等.基于深度學習的學生課堂行為識別方法 [J/OL].計算機工程,2022:1-8[2022-11-03].https://www.cnki.net/KCMS/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=JSJC20221012000&v=MTIzMTY2amg0VEF6bHEyQTBmTFQ3UjdxZFpPWnNGaS9sVWIvQkkxND1MejdCYmJHNEhOUE5yNDVIWk9zUFl3azd2QkFT.
[2] 王澤杰,沈超敏,趙春,等.融合人體姿態(tài)估計和目標檢測的學生課堂行為識別 [J].華東師范大學學報:自然科學版,2022(2):55-66.
[3] 董琪琪,劉劍飛,郝祿國,等.基于改進SSD算法的學生課堂行為狀態(tài)識別 [J].計算機工程與設計,2021,42(10):2924-2930.
[4] 林燦然.基于深度學習的課堂學生行為識別技術研究與分析系統(tǒng)設計 [D].廣州:廣東工業(yè)大學,2020.
[5] 柯斌,楊思林,曾睿,等.基于Inception V3的高校學生課堂行為識別研究 [J].電腦知識與技術,2021,17(6):13-15+29.
[6] KUZNETSOVA A,ROM H,ALLDRIN N,et al. The Open Images Dataset V4:Unified image classification,object detection,and visual relationship detection at scale [J].International Journal of Computer Vision,2020,128(7):1956-1981.
[7] THAKURDESAI N,TRIPATHI A,BUTANI D,et al. Vision:A Deep Learning Approach to provide walking assistance to the visually impaired [J/OL].arXiv:1911.08739 [cs.CV].[2022-11-03].https://arxiv.org/abs/1911.08739.
[8] LIN T Y,MAIRE M,BELONGIE S,et al. Microsoft COCO:Common Objects in Context [C]//Computer Vision–ECCV 2014.Zurich:Springer,2014:740-755.
[9] REDMON J,DIVVALA S,GIRSHICK R,et al. You Only Look Once:Unified,Real-Time Object Detection [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:779-788.
[10] glenn-jocher. ultralytics/yolov5 [EB/OL].[2022-11-03].https://github.com/ultralytics/YOLOv5.
作者簡介:張小妮(1996—),女,漢族,河南周口人,碩士研究生在讀,研究方向:大數(shù)據與云計算。