王羅景
(商丘職業(yè)技術(shù)學(xué)院,河南 商丘 476100)
人類通常只要看過(guò)例子就能識(shí)別新的手勢(shì),但這對(duì)于計(jì)算機(jī)來(lái)說(shuō),即使是識(shí)別定義明確的手勢(shì),如手語(yǔ),也具有很大的挑戰(zhàn)性,一般需要數(shù)千個(gè)訓(xùn)練示例才能學(xué)會(huì).每個(gè)班級(jí)給出的單個(gè)訓(xùn)練示例的手勢(shì)識(shí)別問(wèn)題,就是所謂的一次學(xué)習(xí).在每個(gè)類只有一個(gè)訓(xùn)練示例的情況下,統(tǒng)計(jì)機(jī)器學(xué)習(xí)的數(shù)據(jù)很可能會(huì)失敗,因?yàn)樗鼈儠?huì)受到過(guò)度擬合問(wèn)題的影響.此外,手勢(shì)可以是靜態(tài)的,也可以是動(dòng)態(tài)的,更有甚者,有些手勢(shì)既有靜態(tài)元素也有動(dòng)態(tài)元素,就像人類的手語(yǔ)一樣.靜態(tài)手勢(shì)是將單個(gè)姿勢(shì)保持一定持續(xù)時(shí)間的一種手勢(shì),而動(dòng)態(tài)手勢(shì)由一系列姿勢(shì)組成,這些姿勢(shì)可以是重復(fù)的,也可以不是重復(fù)的,并且其中姿勢(shì)順序和序列的定時(shí)可能是關(guān)鍵的[1].試圖識(shí)別典型體育視頻中裁判員的動(dòng)態(tài)手勢(shì),對(duì)圖像分割技術(shù)提出了巨大的計(jì)算要求[2].它需要對(duì)圖像進(jìn)行復(fù)雜的分析,并提取大量的圖像特征,為進(jìn)一步的分類和決策提供支持[3].
在籃球比賽中,裁判員有責(zé)任執(zhí)行比賽規(guī)則并使用手勢(shì)與得分表進(jìn)行通信,如圖1所示.但是,有時(shí)裁判和得分手之間可能存在手動(dòng)溝通,這有可能會(huì)引起誤解,從而延誤比賽進(jìn)程.裁判手勢(shì)的自動(dòng)識(shí)系統(tǒng)別既可以減少籃球比賽中對(duì)裁判決策的誤解,還可以減少對(duì)比賽錄像的自動(dòng)注釋,為觀看比賽的觀眾提供實(shí)時(shí)信息.隨著傳感器和計(jì)算機(jī)技術(shù)的進(jìn)步,人機(jī)交互(HCI)系統(tǒng)在我們的日常生活中變得越來(lái)越流行,而HCI技術(shù)可用于促進(jìn)裁判員與運(yùn)動(dòng)員和比賽官員之間的交互[4].
圖1 籃球裁判員的官方手語(yǔ)
通常,有兩種檢測(cè)手勢(shì)的方法:可穿戴傳感器和計(jì)算機(jī)視覺(jué).可穿戴傳感器的方法是將傳感器附著在受試者的手臂上或緊貼在手臂的襯衫上. 例如,Chambers等人[2]使用從腕帶收集的加速度數(shù)據(jù)對(duì)板球比賽中的10個(gè)裁判手勢(shì)進(jìn)行了識(shí)別,已實(shí)現(xiàn)了99%的準(zhǔn)確性.Yeh等人[5]使用具有深度置信網(wǎng)絡(luò)和時(shí)域特征的表面肌電(sEMG)和三軸加速計(jì)(ACC)傳感器來(lái)識(shí)別官方籃球裁判員的手部信號(hào),準(zhǔn)確率達(dá)到97.9%.
基于計(jì)算機(jī)視覺(jué)的方法分析是從相機(jī)拍攝的裁判員圖像或記錄的籃球比賽的視頻序列中提取的靜止圖像,然后使用各種圖像處理技術(shù)進(jìn)行圖像分割,提取出手勢(shì)識(shí)別所需的圖像特征.例如,Verma[6]通過(guò)使用有限狀態(tài)機(jī)(FSM)來(lái)識(shí)別手部的運(yùn)動(dòng).這些狀態(tài)被假定為由模糊c-均值聚類形成的簇,然后在數(shù)學(xué)上找出每個(gè)簇的質(zhì)心,從而確定有限狀態(tài)機(jī)的狀態(tài),最終識(shí)別出手勢(shì).Guyon[7]描述了使用Kinect攝像機(jī)記錄的Chalearn手勢(shì)數(shù)據(jù)集,包括裁判摔跤信號(hào)和裁判排球信號(hào).Trigueiros[8]等人提出了一個(gè)基于視覺(jué)的系統(tǒng),該系統(tǒng)能夠理解裁判的動(dòng)態(tài)和靜態(tài)手勢(shì),并且進(jìn)行實(shí)時(shí)手勢(shì)跟蹤和特征提取,采用支持向量機(jī)(SVM)進(jìn)行靜態(tài)手勢(shì)識(shí)別,采用隱馬爾可夫模型(HMM)進(jìn)行動(dòng)態(tài)單程手勢(shì)識(shí)別,其對(duì)于手勢(shì)的識(shí)別,準(zhǔn)確率達(dá)到98.2%.Shanjia[9]利用膚色信息和形態(tài)過(guò)濾器生成用于識(shí)別手勢(shì)含義的特征向量,并將其應(yīng)用于體育教學(xué).
在這里,我們使用基于計(jì)算機(jī)視覺(jué)的方法進(jìn)行籃球裁判手勢(shì)信號(hào)的識(shí)別,這是科學(xué)文獻(xiàn)中首次嘗試從靜止圖像中識(shí)別籃球裁判手勢(shì)信號(hào).
圖像顏色及其相互關(guān)系通常用顏色圖案或調(diào)色板來(lái)描述.我們分析的視頻剪輯使用RGB調(diào)色板,由三種原色組成:紅色(R)、綠色(G)和藍(lán)色(B).在技術(shù)上,RGB三原色很容易使用,但它不太適合于圖像處理,因?yàn)檫@些顏色的成分高度相關(guān).這是分析圖像和實(shí)現(xiàn)識(shí)別算法的一個(gè)問(wèn)題.出于這些原因,使用式(1)將RGB圖像轉(zhuǎn)換成黑白兩半:
BW=0.333R+0.333G+0.333B
(1)
如圖2所示,圖中這些點(diǎn)是以8位來(lái)描述的,因此,當(dāng)查看點(diǎn)的強(qiáng)度時(shí),它的范圍從0(黑色)到255(白色).
(a)裁判圖像 (b)直方圖圖2 籃球裁判員圖像及其直方圖
下一步是找到邊緣,以便更好地區(qū)分裁判的形狀,這樣的點(diǎn)用兩個(gè)比特來(lái)描述.使用邊緣檢測(cè)方法,可以補(bǔ)償由于不同圖像光照或質(zhì)量引起的誤差.在對(duì)Kirsch[10]、Sobel[11]、Prewitt[12]、Canny[13]和增強(qiáng)型Canny[14]方法進(jìn)行實(shí)驗(yàn)測(cè)試之后,我們決定使用Sobel的方法,通過(guò)選擇適當(dāng)?shù)拈撝?,可以看到裁判的輪?Sobel使用運(yùn)算符計(jì)算圖像的二維空間梯度,突出與邊緣相對(duì)應(yīng)的空間頻率區(qū)域.通常,它用于確定灰度圖像中每個(gè)點(diǎn)的近似絕對(duì)梯度大小.
Sobel使用的運(yùn)算符由一個(gè)3×3點(diǎn)窗口組成,并在圖像中滑動(dòng).其內(nèi)核被設(shè)計(jì)為最大限度地響應(yīng)與像素網(wǎng)格相關(guān)的垂直和水平邊.假設(shè)Gx是水平邊緣的漸變,而Gy是垂直邊緣的漸變,則漸變大小表示為如下式子:
(2)
當(dāng)3×3窗口在整個(gè)圖像中移動(dòng)時(shí),轉(zhuǎn)換每個(gè)像素的值(范圍從0到1),選擇一定的值(裁判輪廓檢測(cè)選擇的值為0.7),區(qū)分期望圖形的輪廓.樣本圖像的邊緣檢測(cè)結(jié)果,如圖3所示.
圖3 使用Sobel方法進(jìn)行邊緣檢測(cè)
在圖3中,照片中只有一個(gè)人(裁判),因此,最重要的是將裁判從背景中分離出來(lái),然后識(shí)別他的手勢(shì).即使在不知道這些參數(shù)的情況下,也可以根據(jù)局部強(qiáng)度或邊緣方向來(lái)描述對(duì)象的外觀和形狀.實(shí)際上,這是通過(guò)將窗口劃分成小的空間區(qū)域(又稱單元)來(lái)實(shí)現(xiàn)的,而在每個(gè)單元中有一維梯度方向的局部直方圖.通過(guò)將利用直方圖獲得的圖像與區(qū)分特征相結(jié)合,該特征提取方法被稱為定向梯度直方圖(HOG)方法.
求梯度,需要窗口i的灰度圖像(大小取決于單元格的大小),則梯度Ix和Iy表示如下:
(3)
然后將漸變轉(zhuǎn)換為極坐標(biāo),并將它們的角度限制為0度到180度,以便在不同方向顯示的漸變具有相同的角度:
(4)
對(duì)每條軌跡,在方向B(B=9)上計(jì)算定向梯度的直方圖.但由于每條軌跡上的方向較少,所以方向比較接近的兩條軌跡的像素在分配時(shí)可能會(huì)相互干擾.為了避免這個(gè)問(wèn)題,每個(gè)單元被分配到兩個(gè)封閉的隱窩,像素梯度大小的一小部分μ值線性減小,這取決于來(lái)自兩個(gè)相近方向的像素灰度.
如圖4所示,我們可以看到梯度是如何分配給相鄰的70度和90度中心的.該波瓣的漸變方向?yàn)?7度,第三個(gè)方向的漸變指定為0.65μ,第四個(gè)方向的漸變指定為0.35μ.兩個(gè)賦值之和始終等于μ.
圖4 當(dāng)B=9時(shí)查找梯度
框架被分組為重疊的2×2塊,每個(gè)塊的大小為2C×2C像素.兩個(gè)垂直或水平連續(xù)的塊被兩條路徑覆蓋,這意味著塊的步長(zhǎng)是C個(gè)像素.結(jié)果,每個(gè)單元格被四個(gè)塊覆蓋.組合四單元直方圖,并在每個(gè)塊中獲得一個(gè)特征值b,并使用歐幾里得形式對(duì)其進(jìn)行歸一化:
(5)
這里ε是一個(gè)小的正常數(shù),以避免在沒(méi)有梯度的塊中除以零.
最后,通過(guò)將歸一化塊的特征組合成一個(gè)向量(在最小搜索前后進(jìn)行兩次歸一化)來(lái)計(jì)算HOG特征:
(6)
這里hn是h的第n個(gè)輸入,τ是一個(gè)正閾值.
裁剪h輸入以使其不超過(guò)τ(在第一次歸一化之后)可確保非常大的漸變不會(huì)有太大影響,否則將丟棄其他圖片的細(xì)節(jié).最終的歸一化使得HOG特征獨(dú)立于整個(gè)視頻對(duì)比度.得到的HOG特征由許多直方圖組成,這些直方圖比塊大四倍.在本文中,所有訓(xùn)練照片都被裁剪到128×64像素.如果使用4×4像素路徑,則照片將水平適合16個(gè)單元格,垂直適合32個(gè)單元格,從而產(chǎn)生垂直31個(gè)塊和水平15個(gè)塊,因?yàn)閴K由4個(gè)軌道組成,每個(gè)直方圖有9行,然后按以下方式計(jì)算矢量h的結(jié)果長(zhǎng)度:
h=31×15×4×9=16 740
(7)
使用不同單元格大小的HOG特性的可視化圖,如圖5所示.
圖5 使用不同單元格大小的HOG特性圖
由于視覺(jué)上很難確定哪個(gè)單元的大小最適合用于裁判,為了可以方便將其標(biāo)志與背景區(qū)分開(kāi)來(lái),因此,具有不同單元格大小的求和向量之間的差值計(jì)算如下(差值越大,裁判手勢(shì)越容易分類):
ndiff=∑(h1-h2)
(8)
支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱SVM)是一種帶有監(jiān)督器的分類器,其運(yùn)算的基礎(chǔ)是不同類別的點(diǎn)之間的最優(yōu)分離.支持向量機(jī)根據(jù)訓(xùn)練數(shù)據(jù)定義超平面.超平面形成了進(jìn)行分類的決策的邊界.超平面的設(shè)計(jì)基于核函數(shù)將輸入數(shù)據(jù)分成兩類.大多數(shù)SVM分類器可以將對(duì)象分為兩類,但如果需要,也可以采用多級(jí)分類方案.超平面可以描述為由某一函數(shù)表示的直線.這條線是在距所有數(shù)據(jù)點(diǎn)的最大距離處選擇的,因此,減少了數(shù)據(jù)中噪聲的影響.SVM算法的目標(biāo)是尋找最優(yōu)邊界,超平面是尋找類間的最大數(shù)據(jù)邊界.
從Youtube下載的視頻資料被用來(lái)作為識(shí)別籃球裁判的信號(hào).在這些信號(hào)中,裁判站在攝像機(jī)前,所有的手勢(shì)都清晰可見(jiàn).總共有20個(gè)圖像被裁判員剪下,分為四類數(shù)據(jù):站立裁判(無(wú)手勢(shì))、三分手勢(shì)、停鐘手勢(shì)和球員替補(bǔ)手勢(shì).圖6顯示了從視頻剪輯中剪切出來(lái)的樣本圖像.
圖6 數(shù)據(jù)集中的示例圖像
三個(gè)手勢(shì)標(biāo)志(三分,替補(bǔ),停止鐘)加上一個(gè)站立裁判標(biāo)志(沒(méi)有顯示手勢(shì)),總共有四類手勢(shì)試圖被識(shí)別.對(duì)于每個(gè)類,使用20種不同的圖像,并顯示不同的手勢(shì)標(biāo)志.通常,SVM分類只用于兩個(gè)類(正類和負(fù)類),但是在這種情況下卻使用了多級(jí)分類.用4×4路徑區(qū)分HOG方法的特征,將20×16 740向量分配給一個(gè)類.
我們使用標(biāo)準(zhǔn)準(zhǔn)確率和F-Score度量對(duì)分類結(jié)果進(jìn)行評(píng)估,獲得了0.975 0的準(zhǔn)確率和0.949 5的F分?jǐn)?shù).分類結(jié)果的混淆矩陣,如圖7所示.停鐘和三點(diǎn)信號(hào)很容易區(qū)分,但由于訓(xùn)練數(shù)據(jù)量小,單個(gè)站立裁判和替換信號(hào)混合在一起,它們之間的差異很小.
圖7 手勢(shì)標(biāo)志類混淆矩陣
本研究實(shí)現(xiàn)了籃球裁判員手勢(shì)信號(hào)的分類器設(shè)計(jì).首先,將來(lái)自視頻流的圖像轉(zhuǎn)換為黑白兩半,并將其改為128×64像素,同時(shí)使用Sobel邊緣檢測(cè)方法識(shí)別邊緣.其次,使用HOG特征提取方法,獲得由向量描述的大小為4×4的單元圖像,長(zhǎng)度為h=16 740像素.最后,在應(yīng)用SVM分類后,我們獲得了0.975 0的識(shí)別精度,F(xiàn)分?jǐn)?shù)為0.949 5的分類器.在今后的工作中,我們將不采用靜止圖像,而是在一個(gè)更大的籃球裁判員手勢(shì)信號(hào)圖像數(shù)據(jù)集中,去評(píng)估我們的方法,并在現(xiàn)場(chǎng)視頻資料中測(cè)試該方法,旨在將此研究應(yīng)用于現(xiàn)實(shí)的籃球比賽中.