賀 莉,李慧萌,金慶凱,趙樹桐
(皖西學(xué)院 體育學(xué)院,安徽 六安 237012)
隨著健美操事業(yè)的發(fā)展,運動員的技術(shù)水平得到了大幅度的提高。在健美操運動競技中,運動員對于高難度動作技術(shù)的掌握是獲得勝利的核心[1]。在一些國際比賽中不難看出,國內(nèi)健美操運動員與國外運動員之間的差距主要來自高難度動作,成套中難度動作整體布局均衡性不夠,健美操運動員對高難度運動的完成質(zhì)量也比較差[2]。針對這種問題,有專家建議采用錄像分析法來訓(xùn)練運動員的動作技術(shù),提高競技水平,主要目的是通過動作圖像揭示動作特點和規(guī)律,準(zhǔn)確地捕捉各個瞬間,為運動員訓(xùn)練科學(xué)性提供理論依據(jù)[3]。
在對健美操運動員訓(xùn)練中,如何精確地識別高難度視頻中的動作是一個難點。只有精確地識別出運動員的動作,才能更好地為健美操運動員的后續(xù)訓(xùn)練提供依據(jù)。視頻動作識別技術(shù)一直是國內(nèi)外研究的重點,特別是在計算機(jī)視覺技術(shù)發(fā)展越來越成熟之后,主要利用計算機(jī)來識別視頻數(shù)據(jù)進(jìn)行處理和識別[4-6]。人體運動識別技術(shù)應(yīng)用范圍十分廣泛,國內(nèi)外研究內(nèi)容也比較多,如基于Kinect的動作識別方法、基于3D-LCRN的視頻動作識別方法,這兩種識別方法在實際應(yīng)用中,受到光照、遮擋等因素的影響,動作特征的表征效果比較弱,方法的實用性需要進(jìn)一步提高[7-9]。因此,本文提出健美操運動員高難度視頻動作識別方法,以解決上述傳統(tǒng)的視頻動作識別方法中存在的問題。
在檢測前,設(shè)置一個判斷閾值,對健美操高難度視頻序列中相鄰的兩幀或多幀圖像中相對應(yīng)的像素點進(jìn)行計算,計算出灰度差值的絕對值,與設(shè)置好的判斷閾值相比較,從而提取出運動目標(biāo)。以連續(xù)的兩幀計算,計算公式為:
式(1)中表示包含動作目標(biāo)的二值差分圖像,Li(x, y)表示第i幀圖像中(x, y)處的像素值,Li-1(x, y)表示前一幀圖像中對應(yīng)的像素值,ψ表示預(yù)先設(shè)置的閾值[10]。當(dāng)G(x, y)的計算結(jié)果為1時,表示連續(xù)兩幀圖像對應(yīng)像素點的灰度值大于設(shè)置的閾值ψ,通過這一判斷可知,當(dāng)前幀中的該像素點屬于前景,反之屬于背景[11]。將前景與背景區(qū)分開,即可完成對動作的檢測。在后續(xù)操作中,提取出動作特征用于后續(xù)識別。
使用Zernike矩提取視頻動作整體特征,一幅圖像的Zernike矩就是該圖像在Zernike多項式上的投影。對于健美操高難度視頻圖像上的點(x, y),與其相對應(yīng)的Zernike多項式為:
式(2)(3)(4)(5)中n為非負(fù)數(shù),m為正整數(shù)或負(fù)整數(shù),滿足n-∣m∣為非負(fù)偶數(shù),Um(a)表示角函數(shù),Wnm(r)表示徑向多項式[12]。具體表示為:
式(6)(7)中t表示方向,Zernike多項式和徑向多項式Wnm(r)滿足正交性,并且Zernike矩還具有旋轉(zhuǎn)不變性,有效地減少了Zernike矩包含的冗余信息[13]。對于連續(xù)函數(shù)z(x, y),其相對于坐標(biāo)原點的Zernike矩為
式(8)中F*nm(r, a)表示Zernike多項式的共軛多項式。對于圖像,采用求和的方式來代替積分:
式(9)中L(x, y)表示圖像中的像素值。對于某一幀圖像,在計算前,將平移圖像的重心到坐標(biāo)原點,以單位圓為映射范圍完成圖像像素點的映射,再利用公式7計算出對應(yīng)的Zernike矩[14]。對于一個圖像序列,計算出3D Zernike矩的公式為:
式(10)(11)中O(i, x, y)是引入的第三維度,u和v表示的是由用戶定義的參數(shù),pic表示整個序列中圖像的數(shù)目,-1表示前一幀圖像的重心,表示當(dāng)前圖像的重心。在計算過程中視頻圖像可能存在不同的數(shù)目,為了避免對計算結(jié)果產(chǎn)生影響,對計算出的3D Zernike矩進(jìn)行歸一化處理。處理如下:
式(12)中C表示目標(biāo)的像素個數(shù)。使用公式(9)和公式(11)來得到對應(yīng)的3D Zernike矩即為目標(biāo)的整體特征,在獲得此特征后,使用CNN-RNN模型識別視頻動作。
由于健美操視頻中時空場景比較復(fù)雜,圖像中包含的大量噪聲會影響動作識別的精確性,也會為識別方法增加不必要的計算量[15]。因此在提取特征之前,在視頻動作識別過程中引入注意力機(jī)制,賦予CNN-RNN模型自動篩選人物相關(guān)特征功能。
通過一個串行支路將通道注意力和空間注意力連接起來。在通道注意力中,對獲取通道注意力進(jìn)行分散處理,將其映射在不同通道,增強(qiáng)通道有效信息,抑制通道無效信息,在空間注意力模塊中,引入加權(quán)調(diào)整參數(shù),對特征平面進(jìn)行池化以及激活處理,獲取通道值為1的空間注意力平面,得到注意力特征。
對空間位置權(quán)重加以反復(fù)更新,在下一刻CNN特征輸入上映射空間注意力機(jī)制,充分結(jié)合時間以及上下文信息,基于動態(tài)學(xué)習(xí)觀測關(guān)鍵動作特征變化。
對于動作識別過程中的時間注意力,之前在不同時刻權(quán)值獲取中,基于卷積神經(jīng)網(wǎng)絡(luò)賦予不同時刻不同值,提高特征的表征能力。具體過程如圖1所示。
圖1 深度特征幅值過程示意圖
以視頻動作數(shù)據(jù)中包含的特征信息作為輸入,使用CNN-RNN模型多層逐級地表征輸入特征。通過LSTM,時序建模CNN導(dǎo)出特征,對視頻動作時空特征加以積聚處理,將其輸入分類器進(jìn)行動作識別。識別過程如圖2所示。
圖2 CNN視頻動作識別示意圖
通過卷積神經(jīng)網(wǎng)絡(luò),對任意幀圖像高層表征加以導(dǎo)出,基于LSTM體系結(jié)構(gòu),對時序深度特征加以提取,該體系結(jié)構(gòu)包括512個隱藏節(jié)點,特征輸出在任意時刻都在發(fā)生。神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,輸出層不同視頻片段的圖像幀均分配到0-1權(quán)重,表征后面幀獲取信息重要程度。在測試過程中,加權(quán)求和幀分?jǐn)?shù),通過softmax分類器加以分類,完成視頻動作識別。至此,健美操運動員高難度視頻動作識別方法設(shè)計完成。
實驗研究主要在MATLAB環(huán)境下進(jìn)行,使用的視頻序列為健美操基礎(chǔ)動作數(shù)據(jù)集中的視頻通過分幀化得到,在實驗前將每一視頻序列統(tǒng)一處理為灰度圖像。實驗采用的動作片段如圖3所示。
圖3 實驗部分?jǐn)?shù)據(jù)集
對于實驗數(shù)據(jù)的處理,先對每個視頻片段進(jìn)行分幀處理,轉(zhuǎn)化為彩色格式的圖像序列,再將其轉(zhuǎn)換為灰度圖像序列,再使用不同的識別方法識別視頻動作。
考慮到實驗的公正可靠,實驗以對比實驗為主,將基于3D-LCRN的視頻動作識別方法、基于Kinect的動作識別方法和提出視頻動作識別方法作為實驗對象,設(shè)計兩組對比實驗,驗證識別方法的實用性。針對對比實驗搭建的平臺配置如表1所示。
表1 實驗平臺配置
設(shè)計的對比實驗一組為識別精度實驗與驗證,另一組是計算復(fù)雜度實驗與驗證,其中:計算復(fù)雜度以計算成本和迭代次數(shù)來衡量。
為了驗證視頻動作識別方法的計算復(fù)雜度,使用MATLAB軟件作為主要平臺,將實驗圖像作為輸入,使用不同的視頻動作識別方法處理實驗圖像,通過MATLAB輸出實驗結(jié)果,如圖4所示。
圖4 不同識別方法的計算復(fù)雜度實驗結(jié)果
對比觀察圖中結(jié)果可知,基于3D-LCRN的動作識別方法,在迭代計算過程中,計算并不穩(wěn)定,在迭代次數(shù)達(dá)到200次左右時,計算損失量逐漸平穩(wěn),但是損失量在7.5以上,側(cè)面說明了該識別方法的計算復(fù)雜度比較高;基于Kinect的動作識別方法在迭代計算過程中,計算比較穩(wěn)定,同樣在迭代次數(shù)達(dá)到200次左右,計算損失量逐漸平穩(wěn),損失量雖然沒有上一識別方法多,但是整體計算復(fù)雜度也是比較高的;與前兩組實驗結(jié)果相比,提出的視頻動作識別方法在迭代計算未達(dá)到200次時就已經(jīng)有平穩(wěn)的趨勢,并且計算損失量極低,這一現(xiàn)象說明該方法的計算復(fù)雜度比較低。
在識別精度實驗研究中,隨機(jī)選擇實驗數(shù)據(jù)中某一組圖像數(shù)據(jù),將其作為識別目標(biāo),使用不同的視頻動作識別方法識別實驗視頻數(shù)據(jù),利用統(tǒng)計軟件計算并輸出識別精度結(jié)果,如表2所示。
表2 不同識別方法識別精度實驗結(jié)果
從表2中數(shù)據(jù)可以觀察到,對于不同的健美操高難度動作,識別精度存在一定的差異。三組實驗結(jié)果對比觀察可知,本文提出的視頻動作識別方法對于實驗數(shù)據(jù)中的大多數(shù)動作均能達(dá)到1.00的識別精度,即使有未能達(dá)到1.00的,其識別水平也在0.95以上,但是另外兩組數(shù)據(jù)顯示,對于不同的視頻動作,其識別精度不僅不穩(wěn)定,而且識別水平較低,未能達(dá)到0.95以上。結(jié)合計算復(fù)雜度可知,設(shè)計的健美操運動員高難度視頻動作識別方法計算復(fù)雜度低、識別精度高,該方法的實用性能更好。
本文圍繞健美操運動員高難度視頻的分析展開調(diào)查,在大量研究文獻(xiàn)和資料的支持下,設(shè)計健美操運動員高難度視頻動作識別方法,并在方法設(shè)計完成后,利用大量對比實驗,驗證了提出的視頻動作識別方法的可靠性和實用性。目前,視頻動作識別技術(shù)已經(jīng)在眾多領(lǐng)域得到了應(yīng)用,考慮到基于視頻內(nèi)容的動作識別技術(shù)的重要性,在后續(xù)研究中,將對動作情感發(fā)掘和數(shù)據(jù)集的擴(kuò)充進(jìn)行深入研究與分析,進(jìn)一步完善視頻動作識別技術(shù)。