張 祺
(杭州蕭山技師學院,浙江 杭州 311201)
隨著人們生活質(zhì)量的提高,心腦血管疾病患者數(shù)量逐年上升,而心率作為人體最重要的生命體征之一,與心腦血管疾病有密切的關(guān)系[1]。監(jiān)測心率信號可以及時了解自身的健康狀況,對心腦血管疾病的預防有非常重要的作用[2]。目前,現(xiàn)有的監(jiān)測心率的方法主要有接觸式檢測和非接觸式檢測,接觸式心率監(jiān)測方法操作復雜且需要與皮膚接觸,不適用于皮膚燒傷、有開放式創(chuàng)口、手腳抖動、行動不便的老年以及不適合接觸式監(jiān)測的新生兒等患者。
隨著圖像識別技術(shù)的發(fā)展,基于光電容描記術(shù)和圖像識別技術(shù)的非接觸式心率檢測成為十分熱門的研究方向,該方法通過人臉視頻即可提取心率信號,具有成本低、與人體無接觸以及可實現(xiàn)居家實時監(jiān)測心率等優(yōu)點。但是現(xiàn)有的方法仍存在一些問題,例如在對人臉區(qū)域的提取過程中會受到頭發(fā)等非皮膚區(qū)域的干擾,在測量過程中易受到光照等干擾,因此,該文提出了將基于深度學習的語義分割技術(shù)應用到人臉皮膚區(qū)域的分割,以減少頭發(fā)等其他非皮膚區(qū)域的干擾,減少不同膚色或光線過暗造成的皮膚區(qū)域提取的誤差,同時對現(xiàn)有的基于皮膚正交模型的POS 算法進行改進,以提高系統(tǒng)對光照變化的抗干擾能力。試驗證明,該方法的準確性和抗干擾性比傳統(tǒng)方法高,對今后通過人臉視頻提取更多的具有價值的醫(yī)學信號有非常重要的意義。
該文系統(tǒng)設計方案流程如圖1所示,具體實現(xiàn)步驟如下:1) 圖像采集和預處理。利用消費級攝像頭采集人臉視頻進行圖像預處理,將視頻圖像轉(zhuǎn)化為RGB空間。2) 人臉檢測。采用人臉檢測精度更高的基于深度學習的MTCNN方法進行人臉檢測,并框選出離檢測裝置最近的人臉區(qū)域。3) 區(qū)域提取。采用基于深度學習的語義分割方法去除頭發(fā)遮擋的區(qū)域和部分背景區(qū)域,分離出人臉皮膚區(qū)域,將該區(qū)域定義為系統(tǒng)感興趣區(qū)域。4) 數(shù)據(jù)處理。對系統(tǒng)感興趣區(qū)域的像素RGB三通道的值進行均值歸一化處理,選取背景圖像中穩(wěn)定、無干擾的區(qū)域,對該背景區(qū)域的像素RGB三通道的值進行均值歸一化處理。5) 心率信號提取。將均值歸一化后的人臉皮膚區(qū)域RGB值與選取的均值歸一化后的背景區(qū)域RGB值相除,得到去除光照影響后的RGB值,采用改進的基于皮膚正交模型的POS算法提取心率信號。6) 心率計算。采用功率譜估算心率值,使用Welch方法對心率信號進行離散時間傅里葉變換,采用通帶頻率為 0.75 Hz~4 Hz的Hamming窗口帶通濾波去除不在心率范圍內(nèi)的高頻和低頻噪聲,求出最大峰值處的頻率f,其所代表的心率為60f。
圖1 系統(tǒng)設計方案流程圖
光電容積描記法(Photoplethysmography,PPG)是一種利用光電技術(shù)檢測人體血液容積變化的技術(shù),可以獲取人體生理信號[3]。該技術(shù)廣泛應用于臨床醫(yī)學領(lǐng)域,例如血壓、血氧以及心率等信號的檢測和提取。
由于皮膚是一層半透膜,皮膚對光有一定的吸收和反射作用,當外界光源照射到皮膚表面時,經(jīng)過一系列的反射和折射,一部分光反射至相機傳感器。皮膚對光的吸收和反射是一個復雜的過程,主要由反射和散射2個部分構(gòu)成,當光源照射到皮膚表皮時,95%的光線進入皮膚表皮,剩余的光線直接被鏡面發(fā)射。表皮層中含有黑色素,吸收和散射了一部分的入射光線,其余的光線將透過表皮層折射到真皮層。真皮層中的血管中的血色素對入射光有吸收和反射作用,反射的光反向穿過表皮層,傳遞至相機傳感器。當皮膚中的黑色素一定時,相機傳感器接收到的反射光與血管中的血色素具有相關(guān)性。
心臟在周期性的收縮和舒張的過程中會引起動脈血管同周期的收縮和舒張,從而引起真皮層血管中血量的周期性變化,血量容積的周期性變化導致血色素數(shù)量也呈同周期的變化,經(jīng)過血色素的反射光也具有周期性,雖然這種周期性變化非常微弱,人眼難以察覺,但是目前常見的消費級彩色攝像頭可以捕捉到反射光線周期性的強弱變化。根據(jù)奈奎斯特采樣定律可知,在模擬信號與數(shù)字信號的轉(zhuǎn)換中,當采樣頻率大于信號中最高頻率的2倍時,采樣后的數(shù)字信號就能完整地保留原始信號中的信息[4]。在實際情況下,考慮信號的頻譜不是銳截止的,一般選取采樣頻率為信號最高頻率的 3~4倍。而人類的心率通常為40次/min~240 次/min[5],頻率大致為0.7 Hz~4 Hz,因此要不失真的恢復心率信號,采樣頻率應滿足至少為信號最高頻率4 Hz的4倍,即16 Hz。而目前市面上常見的彩色攝像頭、手機和電腦端自帶的攝像頭等錄制視頻的幀率都可以達到30幀/s以上,遠遠滿足這一要求。因此,通過普通彩色相機傳感器分析反射光線的周期性變化可以實現(xiàn)測量生理信號的作用。
為了降低非皮膚區(qū)域?qū)π盘柼崛〉母蓴_,在人臉檢測后,需要進一步縮小ROI區(qū)域,通常采用的方法有2種:1) 額頭區(qū)域提取和皮膚檢測的方法。由于額頭區(qū)域含有豐富的毛細血管,因此提取額頭區(qū)域為ROI區(qū)域,但是該方法易受頭發(fā)、人臉角度等因素的干擾,使信號提取存在不確定因素。2) 皮膚檢測的方法。在光照和對比度均變化的條件下,皮膚檢測非常困難,皮膚檢測的方法需將圖片轉(zhuǎn)化為HSV顏色空間,生成圖像直方圖,應用分類器來確定給定像素被皮膚著色的概率,從而確定圖像中的皮膚區(qū)域,但是人類膚色在顏色空間中跨度非常大,而且并不是連續(xù)的,再考慮光照、白平衡等因素,膚色的檢測非常不準確,往往只能識別標準的膚色,因此心率信號的提取也有存在偏差的可能性。因此,該文提出采用基于深度學習的語義分割技術(shù)對ROI區(qū)域進行分割,使皮膚分割既不受頭發(fā)等非皮膚區(qū)域的干擾,又不受膚色、光照以及白平衡等條件的約束。
該文采用了由Chaurasia等[6]在2018年提出的基于LinkNet的模型方法。具體過程如下:首先,對不同膚色的人臉圖像進行語義標注,通過程序讀取數(shù)據(jù)內(nèi)容并對數(shù)據(jù)進行預處理,以構(gòu)建訓練數(shù)據(jù)集。其次,搭建Linknet訓練網(wǎng)絡進行模型訓練,并對訓練好的模型進行驗證和保存。最后,用訓練好的模型對輸入圖像進行像素級語義分割,分離出皮膚區(qū)域,經(jīng)過語義分割后分離出的人臉區(qū)域如圖2所示。
圖2 語義分割分離出的人臉區(qū)域圖
基于皮膚正交模型的POS(Plane-Orthogonal-to-Skin)算法最早由Wang等人在2017年提出,該方法將相機采集到RGB圖像中每個皮膚的像素的數(shù)學模型定義為一個與時間相關(guān)的時變函數(shù),如公式(1)所示。
式中:t為時間序列;C(t)為檢測區(qū)域RGB信號的平均值,包括RGB三通道像素值,即C(t)=[R(t),G(t),B(t)]T;I(t)為光源的光照強度;uc·c0為鏡面反射和漫反射中的不隨時間變化的固定部分;uc為皮膚反射的單位顏色矢量;c0為反射強度;us為光譜的單位顏色矢量;s(t)為由于運動隨時間而引起鏡面反射的變化量;up為 RGB 通道中的相對心率信號強度;p(t)為隨時間變化的心率信號。
該模型假定光源的光照強度I(t)恒定,為了消除I(t)的影響,將信號采集一段時間內(nèi)的RGB信號進行標準化處理,如公式(2)所示。式中:T為信號采集周期。
由于鏡面反射不包括任何生理信息,且在皮膚隨時間變化而產(chǎn)生的顏色變化中占主要部分,因此先去除鏡面反射。在白光的照射下,鏡面反射對各個通道的影響是相同的,可等效為1個加性因子的影響,通過構(gòu)建膚色正交平面去除鏡面反射,由于在RGB三通道中,皮膚心率信號通常在G通道中最大,其次是B通道和R通道,因此投影軸如公式(3)所示。
投影到皮膚正交平面后的信號如公式(4)所示。
最后一步是在前一步定義的有界區(qū)域內(nèi)調(diào)整精確的投影方向提取心率信號h,如公式(5)所示。
將RGB投影到膚色正交平面能最大限度地提取心率信號,因此該文采用的基本算法為基于膚色正交模型的 POS算法,但是在實際應用場景中,自然光源往往并不穩(wěn)定,會影響心率信號的提取,因此在此基礎(chǔ)上改進POS算法,以提高對光源變化的抗干擾性。
在POS算法中,對光源光照變化的處理為假定在采集信號的一段范圍內(nèi)光源是穩(wěn)定的,通過將信號采集一段時間內(nèi)的RGB信號進行標準化處理,以減小光照變化的影響,為了更好地解決光源變化對系統(tǒng)造成的影響,以皮膚反射模型為基礎(chǔ),該文提出建立非皮膚區(qū)域反射模型,通過非皮膚區(qū)域的模型與皮膚區(qū)域模型相結(jié)合,減少光照強度變化對心率信號的干擾,具體過程如下。
由于選取的背景區(qū)域為固定區(qū)域,不含由運動引起的鏡面反射部分的變化和由心臟跳動引起的漫反射部分的變化,因此背景區(qū)域的數(shù)學模型如公式(6)所示。
式中:Cback(t)為選擇的背景區(qū)域RGB信號的平均值,包括RGB三通道像素值;uc,back為背景區(qū)域反射的單位顏色矢量;c0為反射強度。
由于在人臉區(qū)域和背景區(qū)域的光照強度I(t)變化相同,因此可以將C(t)與Cback(t)相除,以消除光照強度變化造成的信號干擾,因此改進后的模型Ch(t)如公式(7)所示。
其中,uc,back·c為常系數(shù),設則公式(7)可改寫為公式(8)。
去除了隨時間變化的光照強度的變化量I(t),將Ch(t)投影到投影軸為公式(3)的皮膚正交平面,去除鏡面反射的影響后,再代入公式(4)中提取心率信號。
為了驗證該文提出方法的有效性,共設計了以下3組試驗,分別驗證該文提出的方法在一段連續(xù)的人臉視頻上的心率測量表現(xiàn)情況、語義分割與額頭區(qū)域分割和皮膚檢測的方法對比以及改進的基于皮膚正交模型的POS算法在不同光源和是否運動的條件下與其他方法的效果對比。為了了解該文采用的非接觸式心率測量方法預測出的心率與接觸式心率測量方法測量出的真實心率之間的誤差值,采用平均誤差(ME)、平均絕對誤差(MAE)、標準差(STDE)、均方根誤差(RMSE)、平均誤差百分比(MER)和皮爾遜相關(guān)系數(shù)(PCC)6種評判標準,每組試驗的具體過程和結(jié)果分析如下。
該試驗采用的人臉視頻圖像為UBFC-RPPG數(shù)據(jù)集中一位測試者在室內(nèi)穩(wěn)定光源、頭部保持不動條件下時長為68 s的視頻,該視頻的幀率為 30 幀/s,同時該測試者的數(shù)據(jù)集中包括采用接觸式心率測量儀檢測的脈搏血容量,每秒真實心率與預測心率的折線圖如圖3所示。試驗一表明,該方法測得的心率值與接觸式心率測量的心率值呈相同的變化趨勢,與此同時,使用散點圖來可視化預測心率與真實心率之間的差異(圖4)。由圖4可知,預測心率數(shù)值與真實心率數(shù)值在全部心率范圍分布內(nèi)均可以保持良好的一致性,因此該文提出的非接觸式心率測量的方法可以有效達到心率測量的目的。
圖4 一段連續(xù)的人臉視頻上的心率測量散點圖
該試驗選用測試者頭發(fā)遮擋額頭的人臉視頻,該視頻在室內(nèi)穩(wěn)定光源下、測試者頭部保持靜止狀態(tài)時拍攝,額頭頭發(fā)遮擋下額頭區(qū)域提取、皮膚檢測提取和語義分割提取3種方法的試驗結(jié)果見表1。由于額頭區(qū)域被頭發(fā)遮擋,當采用框選額頭區(qū)域進行非接觸式心率檢測時,在該檢測區(qū)域沒有皮膚組織,因此該方法的各項評價指標表現(xiàn)很差,皮膚檢測和語義分割出人臉區(qū)域的方法表現(xiàn)良好。
表1 額頭頭發(fā)遮擋下3種方法的試驗結(jié)果
因此在試驗二中,當測試者額頭區(qū)域有頭發(fā)遮擋時,額頭區(qū)域提取的方法不適用于非接觸式人臉檢測,該文提出的采用基于深度學習的語義分割的方法分離出人臉皮膚區(qū)域表現(xiàn)穩(wěn)定。
該試驗為改進的基于皮膚正交模型的POS算法在不同光源和是否運動的條件下與其他方法的效果對比,對比分析了該文提出的方法與PCA算法、ICA算法以及基于皮膚正交模型的POS算法在各項指標上的表現(xiàn)。試驗三中共有4個試驗任務,采用控制變量法分別對比了在室內(nèi)穩(wěn)定光源、室外變化光源下各方法對光照變化和輕微晃動的抗干擾能力。
測試者在室內(nèi)穩(wěn)定光源下各方法的試驗結(jié)果見表2,測試者在室外變化光源下各方法的試驗結(jié)果見表3。對比試驗結(jié)果可知,在相同光源的情況下,基于皮膚正交模型的POS算法優(yōu)于傳統(tǒng)的PCA算法和ICA算法,因此基于皮膚正交模型的POS 算法對運動有較好的魯棒性。
表2 室內(nèi)穩(wěn)定光源下各方法的試驗結(jié)果
表3 室外變化光源下各方法的試驗結(jié)果
該文針對現(xiàn)有的基于人臉視頻的非接觸式心率檢測在對人臉區(qū)域的提取過程中會受頭發(fā)等非皮膚區(qū)域的干擾以及在測量過程中存在易受光照干擾等缺點,提出結(jié)合基于深度學習的語義分割技術(shù)提高了人臉圖像ROI區(qū)域提取的準確性,避免頭發(fā)等其他非皮膚區(qū)域的干擾,減少不同膚色或光線過暗造成的皮膚區(qū)域提取的誤差。該文提出了一種改進基于皮膚正交模型的POS算法,提高了系統(tǒng)對光照變化的抗干擾性和心率信號提取的準確性。試驗證明,該方法的準確性和抗干擾性比傳統(tǒng)方法高,對今后通過人臉視頻提取更多的具有價值的醫(yī)學信號有非常重要的意義。