黃生輝,宋鴻陟,吳廣發(fā),司國東,彭紅星
?
一種新的基于顯著圖的視線跟蹤方法
黃生輝,宋鴻陟,吳廣發(fā),司國東,彭紅星
(華南農(nóng)業(yè)大學(xué)信息學(xué)院,廣東 廣州 510642)
針對(duì)現(xiàn)有視線跟蹤系統(tǒng)設(shè)備復(fù)雜、標(biāo)定過程繁瑣等方面的不足,提出了一種新的基于顯著圖的視線跟蹤方法。通過紅外光源設(shè)備在人眼角膜上產(chǎn)生的光斑中心與瞳孔中心建立瞳孔-角膜反射向量,然后將該向量作為視覺特征重構(gòu)了基于顯著圖的視線跟蹤算法。實(shí)驗(yàn)結(jié)果證明,提出的方法不僅緩解了視線跟蹤系統(tǒng)標(biāo)定過程繁瑣的問題,而且對(duì)提高系統(tǒng)的精度和健壯性有一定的促進(jìn)作用,這為面向人機(jī)交互的視線跟蹤研究提供了可行的低成本解決方案。
視線跟蹤;瞳孔-角膜反射向量;顯著圖;標(biāo)定過程;
人們獲取的信息大部分來源于視覺,因此對(duì)視覺的研究具有重要的意義。通過視覺特征判斷人眼注視點(diǎn)或視線方向的視線跟蹤技術(shù),不僅在解剖學(xué)、神經(jīng)科學(xué)和心理學(xué)等領(lǐng)域有重要的意義,而且在人機(jī)交互、車輛輔助駕駛、市場營銷以及虛擬現(xiàn)實(shí)等領(lǐng)域也有廣泛的應(yīng)用前景[1]。通常,基于視頻的視線跟蹤算法可以分為兩類:一是基于2D的視線跟蹤方法[2];二是基于3D的視線跟蹤的方法[3]。相對(duì)于2D的視線跟蹤方法,3D的視線跟蹤方法,雖然在一定程度上可以克服頭部運(yùn)動(dòng),但對(duì)硬件的要求較高,且系統(tǒng)的標(biāo)定過程比較復(fù)雜。在2D的視線跟蹤方法中,瞳孔角膜反射技術(shù)由于其簡單且有較好的準(zhǔn)確性,因此它是目前基于視頻的視線跟蹤系統(tǒng)常用的方法[1]。
在傳統(tǒng)的視線跟蹤方法中,為了獲取人眼真實(shí)的注視點(diǎn),需要建立視覺特征和人眼注視點(diǎn)之間的映射關(guān)系。這要求用戶在使用系統(tǒng)時(shí),事先看屏幕上若干指定的點(diǎn),訓(xùn)練一個(gè)映射函數(shù),即進(jìn)行系統(tǒng)標(biāo)定,然后系統(tǒng)根據(jù)訓(xùn)練好的映射函數(shù)估計(jì)人眼在屏幕上的注視點(diǎn)坐標(biāo)。對(duì)于自然的人機(jī)交互而言,這種標(biāo)定過程是繁瑣且不自然的。為避免這種明顯的標(biāo)定過程,Sugano等人[4]將顯著圖技術(shù)應(yīng)用于視線跟蹤系統(tǒng)中,提出了一種基于顯著圖的視線跟蹤方法。首先讓用戶自然地看屏幕上的視頻幀,把幀圖像的顯著圖作為人眼注視點(diǎn)的概率分布,然后通過高斯過程回歸建立人眼圖像和人眼注視點(diǎn)之間的映射關(guān)系。然而,他們將整張人眼圖像作為映射函數(shù)的輸入,而人眼圖像包含了很多的冗余信息且易受光照變化影響,因此他們的視線跟蹤系統(tǒng)精度并不高(約為6°)。Chen等人[5]在Sugano等人工作的基礎(chǔ)上將3D的視覺特征作為輸入重構(gòu)了基于顯著圖的視線跟蹤算法,提出了一種基于3D的概率型視線跟蹤方法。雖然他們的系統(tǒng)精度有所提高(約為3°),但是系統(tǒng)設(shè)備比較復(fù)雜。
本文在前人的基礎(chǔ)上提出了一種新的基于顯著圖的視線跟蹤方法。通過低成本的紅外光源設(shè)備在人眼角膜上產(chǎn)生的光斑中心與瞳孔中心建立瞳孔-角膜反射向量,然后將該向量作為視覺特征重構(gòu)了基于顯著圖的視線跟蹤算法。下面將詳細(xì)介紹提出的視線跟蹤方法的整個(gè)流程。
本文的紅外光源設(shè)備[2]由CCD攝像機(jī)、鏡頭、近紅外發(fā)光二極管、窄帶通紅外濾光片、視頻同步分離芯片、圖像采集卡、單片機(jī)、主機(jī)以及屏幕等組成。其中,近紅外發(fā)光二極管的波長為880nm,鏡頭焦距為25mm,配合窄帶通紅外濾光片,可以產(chǎn)生較好的紅外光照效果,增強(qiáng)了視線跟蹤系統(tǒng)對(duì)光照變化的適應(yīng)性。紅外光源設(shè)備系統(tǒng)圖,如圖1所示。
系統(tǒng)工作時(shí),用戶注視屏幕,由CCD攝像機(jī)獲取人臉圖像,然后視頻信號(hào)一路通過視頻同步分離芯片(LM1881),分離出奇場和偶場信號(hào),再通過單片機(jī)控制紅外發(fā)光二極管燈組的亮滅;另一路視頻信號(hào)通過圖像采集卡,將視頻幀傳輸?shù)街鳈C(jī),通過編程將視頻幀分離出奇場圖像和偶場圖像,即亮暗瞳孔圖像,如圖2(a)和圖2(b)所示,之后對(duì)亮暗瞳孔圖像進(jìn)行差分,可以得到差分圖像,如圖2(c)所示。
得到差分圖像后,通常需要對(duì)差分圖像進(jìn)行閾值化、形態(tài)學(xué)以及幾何濾波[6-7]分離出瞳孔區(qū)域。然而,由于視線跟蹤系統(tǒng)應(yīng)用場景的復(fù)雜性,如光照變化、頭部運(yùn)動(dòng)等因素影響,采用經(jīng)典的單一閾值處理方法不能很好地分離出瞳孔區(qū)域,為此本文采用了如下處理方法。
圖1 紅外光源設(shè)備系統(tǒng)圖
圖2 亮暗瞳孔圖像和差分圖像
1)首先對(duì)差分圖像求直方圖,然后對(duì)直方圖進(jìn)行積分,并保證圖像中亮像素點(diǎn)的數(shù)量(大約占圖像中像素點(diǎn)總數(shù)的1/1000),這樣能得到自適應(yīng)的初始閾值[8],如圖3所示。
圖3 差分圖像直方圖和初始閾值
2)利用初始閾值對(duì)圖像進(jìn)行閾值化,如圖4(a)所示,接著對(duì)閾值化后的圖像進(jìn)行連通區(qū)域分析,根據(jù)瞳孔的先驗(yàn)知識(shí),如瞳孔的面積、長寬比、圓形度、周長、矩、瞳孔的個(gè)數(shù)以及兩瞳孔之間的距離關(guān)系,進(jìn)行幾何濾波,剔除那些不符合要求的區(qū)域塊,當(dāng)沒有滿足條件的區(qū)域塊時(shí),則自動(dòng)調(diào)整閾值。重復(fù)檢測直到找到符合條件的區(qū)域?yàn)橹?,如圖4(b)所示。
在瞳孔區(qū)域定位后,在亮瞳孔圖像中設(shè)置感興趣區(qū)域ROI(Region of Interest),這樣縮小了圖像處理的范圍,同時(shí)也有助于減少眼瞼或眉毛對(duì)瞳孔的影響,然后利用Canny邊緣檢測算法對(duì)瞳孔區(qū)域進(jìn)行邊緣檢測,之后對(duì)候選邊緣利用連通區(qū)域及標(biāo)記算法[2]進(jìn)行分析,提取出最長的邊緣作為瞳孔邊緣,最后根據(jù)像素點(diǎn)的梯度差和梯度方向?qū)⑼走吘壏譃?個(gè)扇區(qū)[9],取左右扇區(qū)中的邊緣作為瞳孔候選邊緣點(diǎn)。瞳孔邊緣提取過程,如圖5所示。
在確定瞳孔候選邊緣點(diǎn)后,采用直接最小二乘橢圓擬合算法[10]對(duì)瞳孔候選邊緣點(diǎn)進(jìn)行擬合,并剔除離瞳孔輪廓較遠(yuǎn)的點(diǎn),重復(fù)上述過程直到獲取穩(wěn)定的橢圓中心為止,并將橢圓中心作為瞳孔的中心位置(p,p)。另外,在頭部保持不動(dòng)的情況下,角膜反射光斑的位置通常是不變的[1-2],因此可以在暗瞳孔圖像的瞳孔區(qū)域附近搜索角膜反射光斑,然后利用質(zhì)心法[6]計(jì)算出角膜反射光斑的中心位置(c,c),最后根據(jù)兩個(gè)區(qū)域的中心位置可以求得瞳孔-角膜反射向量=(pc,pc)。瞳孔-角膜反射向量的提取過程,如圖6所示。
圖4 差分圖像閾值化和瞳孔區(qū)域定位
圖5 瞳孔邊緣提取過程
本文將瞳孔-角膜反射向量作為視覺特征重構(gòu)了基于顯著圖的視線跟蹤算法。通過讓用戶自然地看屏幕上的序列圖像,結(jié)合顯著圖算法,訓(xùn)練一個(gè)從瞳孔-角膜反射向量到人眼注視點(diǎn)之間的映射關(guān)系,即進(jìn)行系統(tǒng)標(biāo)定。顯然,這一過程并沒有強(qiáng)迫用戶看屏幕上若干指定的點(diǎn)。對(duì)用戶而言,這是一種自由標(biāo)定的體驗(yàn)。在顯著圖方面,本文利用了GBVS(Graph-Based Visual Saliency)算法[11]來生成圖像的顯著圖。文獻(xiàn)[11]的實(shí)驗(yàn)結(jié)果表明,人眼注視位置和GBVS算法生成的顯著圖有相當(dāng)?shù)囊恢滦裕蔑@著圖可以預(yù)測人眼在圖像上的注視位置。GBVS算法生成的顯著圖,如圖7所示。
在完成系統(tǒng)標(biāo)定后,對(duì)新的人眼圖像進(jìn)行特征提取,得到瞳孔-角膜反射向量,根據(jù)訓(xùn)練好的映射函數(shù)進(jìn)行視線估計(jì),輸出人眼在屏幕上的注視點(diǎn)。本文提出的基于顯著圖的視線跟蹤系統(tǒng)框架,如圖8所示。
在提取到瞳孔-角膜反射向量后,本文基于向量相似度[4]建立瞳孔-角膜反射向量與人眼在屏幕上注視點(diǎn)之間的映射關(guān)系,結(jié)合GBVS算法生成的顯著圖,計(jì)算出人眼注視點(diǎn)在屏幕上的權(quán)值概率分布,最后根據(jù)權(quán)值概率分布,進(jìn)行視線估計(jì),獲取人眼注視點(diǎn)的坐標(biāo)。
圖6 瞳孔-角膜反射向量的提取
圖7 GBVS算法生成顯著圖
圖8 視線跟蹤系統(tǒng)框架
首先,假設(shè)屏幕依次顯示張不同的圖像{1,…,I},然后利用GBVS算法生成相應(yīng)的顯著圖{1,…,s},且與之關(guān)聯(lián)的人眼圖像為{1,…,e},利用瞳孔-角膜反射技術(shù)對(duì)人眼圖像提取瞳孔-角膜反射向量為{1,…,}。這樣就生成了顯著圖和瞳孔-角膜反射向量數(shù)據(jù)集{(1,1),…,(s,}。
由于圖像中的顯著區(qū)域被認(rèn)為是真實(shí)注視點(diǎn)所在區(qū)域,因此顯著圖可以被認(rèn)為是人眼注視點(diǎn)的概率分布。基于這個(gè)思想,定義瞳孔-角膜反射向量的相似度為[5]:
式中:k是可調(diào)參數(shù),且當(dāng)瞳孔-角膜反射向量和比較接近時(shí),的值會(huì)很大。
為了減少計(jì)算量,對(duì)顯著圖s縮小倍,則新的顯著圖為:
s*=s/,?[1,] (2)
然后對(duì)s*進(jìn)行×(長×寬)等分,得到區(qū)域1~q×,對(duì)于區(qū)域q在s*中的權(quán)值概率分布,可以定義為:
在得到權(quán)值概率分布后,根據(jù)新的人眼圖像,提取瞳孔-角膜反射向量new,然后根據(jù)公式(1),計(jì)算new和1,…,n的相似度,即1,…,。另外,由于屏幕相應(yīng)也被進(jìn)行了×等分,因此,對(duì)于每個(gè)區(qū)域,人眼注視點(diǎn)落在該區(qū)域的概率為:
最后,將p為最大值時(shí)所對(duì)應(yīng)的區(qū)域作為用戶注視的區(qū)域,并且選取區(qū)域的中心位置作為人眼在屏幕上的注視點(diǎn)坐標(biāo)。
為了評(píng)估本文提出的視線跟蹤方法,本文對(duì)50名能熟練操作計(jì)算機(jī)且視力正常的測試用戶進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)環(huán)境為一般辦公環(huán)境,計(jì)算機(jī)屏幕大小為14.1in(長31.22cm,寬17.55cm),顯示分辨率為1024×768,攝像機(jī)圖像分辨率為640×480,攝像機(jī)采樣幀率為25Hz,測試用戶距離計(jì)算機(jī)屏幕為50cm。根據(jù)不同的測試任務(wù)對(duì)屏幕進(jìn)行2×2、3×3、4×4劃分,例如對(duì)屏幕進(jìn)行2×2劃分表示將屏幕進(jìn)行四等分。實(shí)驗(yàn)分別在正常光照條件、暗光照條件和亮光照條件下進(jìn)行。實(shí)驗(yàn)使用的圖像的顯著內(nèi)容盡量單一,且內(nèi)容盡量分布在不同的區(qū)域,例如,在屏幕2×2劃分下,訓(xùn)練和測試階段使用的圖像,如圖9所示。
本文的視線跟蹤系統(tǒng)的精度,可以由視角的測量誤差[12]來度量(視角越小則精度越高),如圖10所示。
在屏幕大小為14.1in,顯示分辨率為1024×768,用戶距離屏幕為50cm條件下,根據(jù)不同的屏幕劃分可以得到人眼注視的精度與屏幕圓形視覺區(qū)域的大小的對(duì)應(yīng)關(guān)系,即視線估計(jì)精度參照表,如表1所示。
圖9 訓(xùn)練圖像和測試圖像(屏幕2×2劃分)
圖10 視角三角形
表1 視線估計(jì)精度參照表
注:屏幕大小為14.1in,顯示分辨率為1024×768,人眼與屏幕距離為50cm。
在實(shí)驗(yàn)過程中,測試用戶自然地注視屏幕中全屏顯示的圖像,且假設(shè)用戶始終注視屏幕上自己認(rèn)為最顯著的區(qū)域。對(duì)于每種屏幕劃分(對(duì)應(yīng)不同精度),在訓(xùn)練階段,屏幕會(huì)每隔2s依次為用戶呈現(xiàn)不同的圖像,在屏幕自動(dòng)更新圖像前,系統(tǒng)會(huì)拍攝用戶的人眼圖像,然后提取瞳孔-角膜反射向量,將該向量用于系統(tǒng)映射函數(shù)的訓(xùn)練;在測試階段,屏幕會(huì)依次顯示定制的白底黑球圖像,當(dāng)用戶注視白底黑球圖像時(shí),系統(tǒng)會(huì)再次提取瞳孔-角膜反射向量,結(jié)合訓(xùn)練好的系統(tǒng)映射函數(shù),就可以計(jì)算出用戶在屏幕上注視點(diǎn)的坐標(biāo)。最后,將此坐標(biāo)與實(shí)際的黑球區(qū)域進(jìn)行比較,如果坐標(biāo)落在黑球區(qū)域內(nèi),則判定系統(tǒng)對(duì)這次視線的估計(jì)是正確的,否則是錯(cuò)誤的。另外,為了檢驗(yàn)系統(tǒng)的健壯性,實(shí)驗(yàn)需要在不同光照條件下進(jìn)行。在控制光照條件的情況下,對(duì)于每種屏幕劃分,統(tǒng)計(jì)當(dāng)前光照條件下系統(tǒng)成功視線估計(jì)的次數(shù)與當(dāng)前光照條件下總實(shí)驗(yàn)次數(shù)的百分比,即當(dāng)前光照條件下系統(tǒng)的視線估計(jì)的正確率為:
=/(5)
式中:是系統(tǒng)當(dāng)前光照條件下的視線估計(jì)正確的次數(shù);是系統(tǒng)當(dāng)前光照條件下總的實(shí)驗(yàn)次數(shù);是系統(tǒng)當(dāng)前光照條件下視線估計(jì)正確率。考慮到環(huán)境因素、主觀因素以及隨機(jī)誤差的影響,實(shí)踐證明,當(dāng)視線估計(jì)的正確率達(dá)到50%時(shí)就可以認(rèn)為本次視線估計(jì)在當(dāng)前光照條件下和精度要求下是有效的。
下面針對(duì)50名測試用戶,在不同的屏幕劃分和不同的光照條件下,分別進(jìn)行20次實(shí)驗(yàn)的平均統(tǒng)計(jì)結(jié)果,如表2所示。
從表2可見,針對(duì)不同的屏幕劃分和不同的光照條件下進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,在精度為10°和7°的情況下,可以取得92%以上的正確率,說明當(dāng)系統(tǒng)所要求的精度不高于7°時(shí),視線估計(jì)的效果較好;在精度為5°的情況下,雖然視線估計(jì)的正確率有所下降,但仍可以達(dá)到59%(>50%)以上的正確率,說明本文的方法的視線估計(jì)精度可以到達(dá)5°。另外,在不同的光照條件下,視線估計(jì)的正確率基本一致,說明本文的方法對(duì)光照適應(yīng)性較好,具有一定的健壯性。
本文方法和其他與顯著圖相關(guān)的視線跟蹤方法比較結(jié)果,如表3所示。
表2 實(shí)驗(yàn)統(tǒng)計(jì)結(jié)果
注:每個(gè)測試用戶在每種屏幕劃分和每種光照條件下都進(jìn)行了20次實(shí)驗(yàn)
表3 本文方法與其他基于顯著圖的視線跟蹤方法性能比較
注:文獻(xiàn)[5]需要配置立體相機(jī),用來標(biāo)定相機(jī)、光源和屏幕的空間三維位置
從表3可見,本文方法采用了瞳孔-角膜反射向量作為視覺特征,在配置上使用了紅外光源,增強(qiáng)了系統(tǒng)對(duì)光照變化的適應(yīng)性,在精度以及光照適應(yīng)性方面要優(yōu)于采用自然光的文獻(xiàn)[4],而與文獻(xiàn)[5]相比較,雖然精度有所下降,但本文方法的配置相對(duì)比較簡單,降低了硬件成本。
本文將瞳孔角膜反射技術(shù)和顯著圖相結(jié)合,提出了一種新的基于顯著圖的視線跟蹤方法。將瞳孔-角膜反射向量作為視覺特征重構(gòu)了基于顯著圖的概率型視線跟蹤算法,緩解了視線跟蹤系統(tǒng)標(biāo)定過程繁瑣的問題,且對(duì)提高系統(tǒng)的精度和健壯性有一定的促進(jìn)作用??傊?,本文對(duì)視線跟蹤系統(tǒng)的標(biāo)定問題進(jìn)行了嘗試,提出了一種新的視線跟蹤方法,這為面向人機(jī)交互的視線跟蹤系統(tǒng)研究提供了可行的低成本解決方案。
[1] Hansen Dan Witzner, Qiang Ji. In the eye of the beholder: A survey of models for eyes and gaze[J]., 2010, 32(3): 478-500.
[2] 吳廣發(fā), 宋鴻陟, 黃生輝. 基于瞳孔-角膜反射技術(shù)的視線跟蹤方法[J]. 現(xiàn)代計(jì)算機(jī), 2014(5): 67-71.
[3] Zhu Zhiwei, Ji Qiang. Novel eye gaze tracking techniques under natural head movement[J]., 2007, 54(12): 2246-2260.
[4] Sugano Y, Matsushita Y, Sato Y. Calibration-free gaze sensing using saliency maps[C]//2010(CVPR), 2010: 2667-2674.
[5] Chen Jixu, Ji Qiang. Probabilistic gaze estimation without active personal calibration[C]//2011(CVPR), 2011: 609-616.
[6] 張闖, 遲健男, 張朝暉, 等. 一種新的基于瞳孔-角膜反射技術(shù)的視線追蹤方法[J]. 計(jì)算機(jī)學(xué)報(bào), 2010, 33(7): 1272-1285.
[7] 陳錢. 紅外圖像處理技術(shù)現(xiàn)狀及發(fā)展趨勢[J]. 紅外技術(shù), 2013, 35(6): 311-318.
[8] Haro A, Flickner M, Essa I. Detecting and tracking eyes by using their physiological properties, dynamics, and appearance[C]//, 2000, 1: 163-168.
[9] 張?zhí)珜? 白晉軍, 孟春寧, 等. 基于單相機(jī)雙光源的視線估計(jì)[J]. 光電子×激光, 2012, 23(10): 1990-1995.
[10] Fitzgibbon Andrew, Maurizio Pilu, Fisher Robert B. Direct least square fitting of ellipses[J]., 1999, 21(5): 476-480.
[11] Harel J, Koch C, Perona P. Graph-based visual saliency[C]//, 2006: 545-552.
[12] Gneo M, Schmid M, Conforto S, et al. A free geometry model-independent neural eye- gaze tracking system [J]., 2012, 9(1): 1-15.
A Novel Eye Gaze Tracking Method Based on Saliency Maps
HUANG Sheng-hui,SONG Hong-zhi,WU Guang-fa,SI Guo-dong,PENG Hong-xing
(,,510642,)
For the deficiencies that existing eye gaze tracking devices are complex and calibration procedures are tedious, a novel eye gaze tracking method using saliency maps is proposed. With pupil center and reflection center on corneal generated by IR light device, a pupil-corneal reflection vector is constructed, which then acts as a kind of vision feature to reconstruct the eye gaze tracking algorithm based on saliency maps. The experiment result demonstrates that the proposed method not only can alleviate the tedious calibration of eye gaze tracking, but also has a little improvement in system accuracy and robustness, which provides a feasible low-cost eye gaze tracking research for human computer interaction.
eye gaze tracking,pupil-corneal reflection vector,saliency maps,calibration
TP391
A
1001-8891(2015)05-0411-07
2014-12-02;
2015-02-10.
黃生輝(1987-),男,湖南郴州人,碩士研究生,主要研究方向?yàn)槿藱C(jī)交互,紅外圖像處理。E-mail:ahuang1900@qq.com。
宋鴻陟(1972-),男,黑龍江大慶人,副教授,碩士生導(dǎo)師,主要研究方向?yàn)槿藱C(jī)交互,信息可視化。E-mail:hz.song@163.com。
國家自然科學(xué)基金資助項(xiàng)目,編號(hào):60875045。