趙梓辰 衛(wèi)來(lái) 陸小鋒
(1.上海大學(xué)通信與信息工程學(xué)院 上海市 200444 2.蒙特沃德學(xué)院(上海) 上海市 201201)
當(dāng)今社會(huì)由信息驅(qū)動(dòng),閱讀對(duì)于個(gè)體的身心發(fā)展起著至關(guān)重要的作用。但是,有一群擁有正常智力、沒(méi)有明顯的神經(jīng)異常、有足夠的教育條件,卻依然表現(xiàn)出閱讀困難的人,這一類(lèi)人群通常都有視覺(jué)功能障礙,如偏視、斜視等。目前,這樣的兒童,檢出率大概在4-8%。由此可以看出兒童注意力低下已經(jīng)成為一種常見(jiàn)的學(xué)習(xí)障礙。由于注意力低下的兒童在閱讀識(shí)字方面存在一定的困難,因此影響了他們正常的學(xué)習(xí)和生活。有調(diào)查顯示,兒童的厭學(xué)情緒與長(zhǎng)大后面臨的就業(yè)壓力都與閱讀障礙有緊密聯(lián)系。尤其是小學(xué)階段的閱讀障礙兒童,在識(shí)字方面有困難不僅會(huì)影響其語(yǔ)文成績(jī),由于對(duì)算術(shù)應(yīng)用題的題目不理解也會(huì)影響其數(shù)學(xué)成績(jī),進(jìn)而對(duì)他們自我概念的形成產(chǎn)生了一定的影響。
注意力是指人的心理活動(dòng)指向和集中于某種事物的能力[1],目前的注意力評(píng)測(cè)方式主要有紙質(zhì)量表、行為觀(guān)察和專(zhuān)業(yè)儀器檢測(cè)等方法,隨著科學(xué)技術(shù)的不斷發(fā)展,視線(xiàn)跟蹤技術(shù)逐漸應(yīng)用于注意力的研究。視線(xiàn)跟蹤方法可分為基于2D回歸的視線(xiàn)估計(jì)方法、基于3D人眼模型的視線(xiàn)跟蹤方法、基于人眼外觀(guān)特征的視線(xiàn)跟蹤方法[2]。采用以上傳統(tǒng)方法的視線(xiàn)追蹤設(shè)備存在結(jié)構(gòu)復(fù)雜、傷害眼睛、價(jià)格高昂和使用步驟繁瑣等問(wèn)題。
本項(xiàng)目研究了基于神經(jīng)網(wǎng)絡(luò)的視線(xiàn)追蹤單眼注視點(diǎn)估計(jì)模型算法,可估計(jì)雙眼各自的注視點(diǎn)坐標(biāo),從而計(jì)算測(cè)試者閱讀時(shí)的兩眼平均差值,與傳統(tǒng)基于神經(jīng)網(wǎng)絡(luò)的注視點(diǎn)估計(jì)模型預(yù)測(cè)雙眼視線(xiàn)匯聚點(diǎn)坐標(biāo)不同?;诖怂惴P烷_(kāi)發(fā)青少年注意力快速評(píng)價(jià)篩查系統(tǒng),與使用傳統(tǒng)視線(xiàn)追蹤設(shè)備相比,不需要額外硬件設(shè)備,僅通過(guò)單目攝像頭即可實(shí)現(xiàn)視線(xiàn)追蹤,降低了測(cè)試門(mén)檻,操作簡(jiǎn)單快速。系統(tǒng)使用注視點(diǎn)估計(jì)模型獲取青少年閱讀中的注視點(diǎn)坐標(biāo),計(jì)算相應(yīng)眼動(dòng)數(shù)據(jù),從而評(píng)判青少年的注意力水平。
本系統(tǒng)通過(guò)基于神經(jīng)網(wǎng)絡(luò)的視線(xiàn)追蹤方法[3][4],獲取青少年閱讀時(shí)的視線(xiàn)軌跡,計(jì)算相應(yīng)眼動(dòng)數(shù)據(jù),從而分析注意力水平。視線(xiàn)軌跡、眼動(dòng)數(shù)據(jù)都可以通過(guò)青少年閱讀過(guò)程中雙眼在屏幕上的注視點(diǎn)坐標(biāo)來(lái)獲取。
注視點(diǎn)估計(jì)即估算人眼視線(xiàn)的落點(diǎn),其一般場(chǎng)景是估計(jì)人在一個(gè)二維平面上的注視點(diǎn),如手機(jī)屏幕、電腦屏幕等,而模型輸入的圖像則是這些設(shè)備的前置攝像頭拍攝的?,F(xiàn)有的視線(xiàn)追蹤公開(kāi)數(shù)據(jù)集有GazeCapture[3]、MPIIFaceGaze[5]等,但被采集者以成年人為主,不符合本項(xiàng)目系統(tǒng)的應(yīng)用場(chǎng)景,所以我們提出了一個(gè)全新的以青少年為主的視線(xiàn)追蹤數(shù)據(jù)集。
我們?cè)谄聊恢泄差A(yù)設(shè)35個(gè)目標(biāo)點(diǎn)依次隨機(jī)出現(xiàn),每個(gè)目標(biāo)點(diǎn)持續(xù)4秒,采集過(guò)程中被測(cè)人依次注視出現(xiàn)的目標(biāo)十字,通過(guò)筆記本自帶攝像頭,在同一方位、同一角度下錄制各目標(biāo)點(diǎn)對(duì)應(yīng)的視頻幀。并使用dlib庫(kù)對(duì)圖像分割出臉部、左眼、右眼圖像作為模型輸入。如圖1所示。
圖1:屏幕中的35個(gè)標(biāo)定點(diǎn)
考慮到標(biāo)定點(diǎn)轉(zhuǎn)換時(shí)測(cè)試者會(huì)出現(xiàn)視線(xiàn)漂移的情況,為了確保樣本中測(cè)試者在注視標(biāo)定點(diǎn),我們僅使用每個(gè)標(biāo)注點(diǎn)后3秒的注視圖像作為樣本數(shù)據(jù)。
本數(shù)據(jù)集共采集30個(gè)樣本,每個(gè)樣本共3150幀圖像,數(shù)據(jù)集總規(guī)模為9萬(wàn)幀圖像。如圖2所示。
圖2:?jiǎn)窝圩⒁朁c(diǎn)估計(jì)模型
我們的目標(biāo)是設(shè)計(jì)一種可以利用單一圖像信息來(lái)準(zhǔn)確預(yù)測(cè)注視點(diǎn)的方法,鑒于卷積神經(jīng)網(wǎng)絡(luò)(CNN)強(qiáng)大的特征提取能力,我們使用這種方法來(lái)解決注視點(diǎn)估計(jì)問(wèn)題。模型網(wǎng)絡(luò)共有3個(gè)輸入信息:左眼或右眼圖像、臉部圖像、眼睛位置信息,輸出為2維屏幕上的注視點(diǎn)坐標(biāo)。因研究注意力問(wèn)題需要單眼視線(xiàn)落點(diǎn),所以我們的模型僅輸入單眼圖像,從而得到單眼的視線(xiàn)落點(diǎn)坐標(biāo)。該模型以頭部相對(duì)于相機(jī)的姿態(tài)以及眼睛相對(duì)于頭部的位置信息預(yù)測(cè)凝視的位置。
從原始圖像中截取眼睛圖像和臉部圖像,圖像尺寸轉(zhuǎn)換為224×224,眼部網(wǎng)格是一個(gè)二進(jìn)制掩膜,用于指示眼睛在所處原始圖像中的位置,大小為15×15。模型主要由卷積層(過(guò)濾器大小/內(nèi)核數(shù)量:卷積層E1,卷積層F1:11×11/96,卷積層E2,卷積層F2:5×5/256,卷積層E3,卷積層F3:3×3/384,卷積層E4,卷積層F4:1×1/64)和全連接層(大小:全連接層E1:128,全連接層F1:128,全連接層F2:64,全連接層FG1:256,全連接層FG2:128,全連接層1:128,全連接層2:2)組成,為了更好地讓模型聚焦于關(guān)鍵特征,在卷積層中嵌入混合注意力模塊。網(wǎng)絡(luò)模型的總體架構(gòu)如圖2所示。
我們將數(shù)據(jù)集以9:1的比例劃分為訓(xùn)練集與測(cè)試集,輸入模型訓(xùn)練進(jìn)行15次正向傳播和反向傳播,訓(xùn)練模型的硬件平臺(tái)配置為:顯卡:RTX 3080,顯存:10G,處理器:AMD 5800X,內(nèi)存:32G,訓(xùn)練時(shí)長(zhǎng)共30個(gè)小時(shí)。同時(shí),為了提高模型的精度,我們加入了微調(diào)的步驟:在進(jìn)行驗(yàn)證模型前,使用同一樣本的注視不同標(biāo)定點(diǎn)的數(shù)據(jù)訓(xùn)練模型,之后再進(jìn)行驗(yàn)證,微調(diào)時(shí)的數(shù)據(jù)采集條件均與數(shù)據(jù)集的采集條件一致。以13寸的顯示屏為基準(zhǔn),模型的平均誤差為3.2cm。模型應(yīng)用平臺(tái)硬件配置為:顯卡:GTX1650Q,顯存:4G,處理器:intel i7-1065G7,內(nèi)存:16G,平均檢測(cè)時(shí)間在0.13s左右。
將上述視線(xiàn)追蹤注視點(diǎn)估計(jì)算法應(yīng)用于青少年注意力快速評(píng)價(jià)篩查軟件。軟件通過(guò)單目攝像頭獲取青少年閱讀過(guò)程中的視頻,按幀截取后輸入注視點(diǎn)估計(jì)模型,得到青少年閱讀中每一幀圖像所對(duì)應(yīng)的注視點(diǎn)坐標(biāo)。
青少年注意力快速評(píng)價(jià)篩查軟件基于C#語(yǔ)言開(kāi)發(fā),軟件流程如下:測(cè)試者輸入信息,根據(jù)提示進(jìn)行面部姿態(tài)定位調(diào)整,之后閱讀指定材料并回答題目。系統(tǒng)截取閱讀過(guò)程的視頻幀輸入注視點(diǎn)估計(jì)模型,得到注視點(diǎn)坐標(biāo)后計(jì)算相關(guān)眼動(dòng)數(shù)據(jù),最后生成結(jié)果報(bào)告。軟件流程如圖3。
圖3:篩查軟件流程圖
進(jìn)入軟件首頁(yè),測(cè)試者輸入姓名、性別、年齡信息;之后測(cè)試者根據(jù)提示,調(diào)整頭部姿態(tài),與屏幕中的臉部框貼合,進(jìn)行校準(zhǔn),校準(zhǔn)完成后保持此頭部姿態(tài)不變;最后進(jìn)入閱讀環(huán)節(jié),被測(cè)者首先注視屏幕,選擇與自己年齡對(duì)應(yīng)的文章等級(jí)并閱讀屏幕中出現(xiàn)的短文,其次完成閱讀后進(jìn)行答題,確保測(cè)試數(shù)據(jù)的有效性。閱讀過(guò)程中前置單目攝像頭全程錄制視頻。軟件相關(guān)界面如圖4。
圖4:軟件界面圖
最終將閱讀過(guò)程中的視頻按幀截取,通過(guò)dlib庫(kù)截取對(duì)應(yīng)幀的左右眼及臉部圖像作為模型的輸入,輸出得到每一幀對(duì)應(yīng)的注視點(diǎn)坐標(biāo)。
我們感知世界的最主要途徑是視覺(jué)感知,大腦通過(guò)對(duì)獲得的視覺(jué)圖像進(jìn)行加工,來(lái)對(duì)眼動(dòng)過(guò)程進(jìn)行調(diào)整,因此眼動(dòng)數(shù)據(jù)與感知及其認(rèn)知存在著重要聯(lián)系。閱讀是一種最有效的評(píng)估和多感官體驗(yàn),所以系統(tǒng)通過(guò)分析青少年閱讀過(guò)程中眼動(dòng)數(shù)據(jù)并結(jié)合閱讀效率,來(lái)評(píng)價(jià)青少年注意力問(wèn)題。參考美國(guó)readingplus公司提供的閱讀測(cè)試方案,系統(tǒng)選擇了50篇英文文章,分為五個(gè)等級(jí),對(duì)應(yīng)各個(gè)年齡階段的青少年。
對(duì)注視點(diǎn)坐標(biāo)從時(shí)間、空間上進(jìn)行分析計(jì)算,可得到相應(yīng)的眼動(dòng)數(shù)據(jù)。系統(tǒng)共計(jì)算以下眼動(dòng)數(shù)據(jù):兩眼平均差值、回看時(shí)過(guò)度掃視次數(shù)、部分回看行數(shù)、總注視時(shí)間、丟失率、總回看次數(shù)[6][7],并且為部分眼動(dòng)數(shù)據(jù)制定相應(yīng)指標(biāo),作為評(píng)判注意力的標(biāo)準(zhǔn)。
閱讀完成后,回答相應(yīng)問(wèn)題,答題正確率達(dá)到60%證明測(cè)試者認(rèn)真閱讀了材料,此次測(cè)試數(shù)據(jù)為有效數(shù)據(jù),正確率不作為視覺(jué)注意力的評(píng)判依據(jù);兩眼平均差值作為主要評(píng)判標(biāo)準(zhǔn),可反應(yīng)測(cè)試者閱讀過(guò)程中的雙眼相關(guān)性,數(shù)值越低,雙眼相關(guān)性越好。平均差值過(guò)高,測(cè)試者可能存在斜視、弱視等視覺(jué)疾病,選取5度作為評(píng)判標(biāo)準(zhǔn),計(jì)算公式為:
(其中:n為總注視點(diǎn)個(gè)數(shù),s為左右眼注視點(diǎn)距離,d為臉部與屏幕距離);丟失率為注視點(diǎn)飄出屏幕有效范圍外占總注視次數(shù)的比值,標(biāo)準(zhǔn)指標(biāo)設(shè)為5%,若超出5%,該青少年閱讀過(guò)程中可能存在注意力不集中的問(wèn)題;回看次數(shù)和過(guò)度掃視次數(shù)主要反應(yīng)青少年的閱讀習(xí)慣;部分回看行數(shù)、總注視時(shí)間,因各個(gè)青少年的英語(yǔ)基礎(chǔ)不同,而各不相同,作為輔助的判別依據(jù)。表1為某位青少年的閱讀眼動(dòng)數(shù)據(jù),圖5為該青少年的閱讀軌跡圖。
圖5:眼動(dòng)軌跡圖
表1:閱讀中的眼動(dòng)數(shù)據(jù)及指標(biāo)
由表1可知,該青少年答題正確率為90%,證明此次閱讀的眼動(dòng)數(shù)據(jù)為有效數(shù)據(jù);兩眼平均差值較低,不存在眼部視覺(jué)問(wèn)題;丟失率較高,閱讀過(guò)程中可能存在注意力不集中的問(wèn)題;過(guò)度掃視次數(shù)及回看次數(shù)過(guò)高,可能存在閱讀習(xí)慣問(wèn)題。綜上,該青少年可能存在注意力問(wèn)題,建議參加相關(guān)提高注意力水平的專(zhuān)業(yè)訓(xùn)練,并且改善閱讀習(xí)慣。
在某中學(xué)使用本系統(tǒng)測(cè)試了100個(gè)青少年,共篩查出35位可能存在注意力問(wèn)題的青少年。本系統(tǒng)以12.9寸屏幕為基準(zhǔn),注視點(diǎn)估計(jì)平均誤差為3.2cm,注視點(diǎn)平均估計(jì)算法運(yùn)算時(shí)間為0.13秒,整體篩查時(shí)間在5min以?xún)?nèi),模型精度與檢測(cè)速度符合醫(yī)院專(zhuān)家提供的醫(yī)學(xué)臨床要求。
該項(xiàng)目研究了基于神經(jīng)網(wǎng)絡(luò)的視線(xiàn)追蹤單眼注視點(diǎn)估計(jì)模型,基于此模型設(shè)計(jì)開(kāi)發(fā)了青少年注意力快速評(píng)價(jià)篩查軟件,與傳統(tǒng)基于視線(xiàn)追蹤的注意力測(cè)評(píng)系統(tǒng)相比,本系統(tǒng)僅通過(guò)單目攝像頭即可完成測(cè)試,不需要額外的硬件設(shè)備,具有使用成本低、適用性強(qiáng)、操作簡(jiǎn)單,不對(duì)眼部產(chǎn)生額外傷害等優(yōu)點(diǎn),可以及時(shí)有效地篩選出可能存在注意力問(wèn)題的青少年,讓他們進(jìn)行進(jìn)一步專(zhuān)業(yè)的檢測(cè)和治療。
參考相關(guān)文獻(xiàn)并結(jié)合專(zhuān)業(yè)醫(yī)師建議,系統(tǒng)共計(jì)算以下眼動(dòng)數(shù)據(jù):兩眼平均差值、過(guò)度掃視次數(shù)、部分回看行數(shù)、總注視時(shí)間、丟失率、回看次數(shù),其中部分?jǐn)?shù)據(jù)作為注意力水平的評(píng)判標(biāo)準(zhǔn)。使用該系統(tǒng)在某中學(xué)測(cè)試了100位青少年,篩查出35位可能存在注意力問(wèn)題的青少年,驗(yàn)證了該系統(tǒng)可以有效篩查出可能存在注意力問(wèn)題的青少年。