李瑩,周林華
(長(zhǎng)春理工大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,長(zhǎng)春 130022)
糖尿病是一種內(nèi)分泌疾病,患者的胰島素分泌不足或身體未能有效利用胰島素,導(dǎo)致體內(nèi)血糖過高。糖尿病患者的持續(xù)高血糖會(huì)導(dǎo)致身體器官產(chǎn)生病變,特別是對(duì)眼睛、腎臟、神經(jīng)、心臟、血管造成的慢性損害尤為嚴(yán)重[1]。據(jù)國際糖尿病聯(lián)盟公布的數(shù)據(jù),2019年全球約有4.63億年齡在20~79歲的成人患有糖尿病,預(yù)計(jì)到2045年,這一數(shù)字將上升到7億。目前臨床尚無治療糖尿病的藥物,只能使用有創(chuàng)技術(shù)控制人體血糖水平以達(dá)到控制糖尿病的目的。
有創(chuàng)技術(shù)易對(duì)患者造成傷害的缺點(diǎn)促進(jìn)了微創(chuàng)和無創(chuàng)血糖技術(shù)的發(fā)展。微創(chuàng)血糖檢測(cè)技術(shù)對(duì)皮膚的損傷較小,常見的微創(chuàng)技術(shù)有皮下植入式生物傳感器、超聲滲析、微滲析等[2-3]。無創(chuàng)血糖檢測(cè)技術(shù)主要集中在光學(xué)領(lǐng)域[4],光學(xué)方法優(yōu)點(diǎn)是安全、快速、簡(jiǎn)單、經(jīng)濟(jì),無創(chuàng)血糖測(cè)量技術(shù)在光學(xué)領(lǐng)域的應(yīng)用主要集中于近紅外光譜法、中紅外光譜法、拉曼光譜法等[5-7]。
近紅外光導(dǎo)檢測(cè)器的靈敏度高且近紅外光對(duì)皮膚的穿透能力高達(dá)1~100 mm,使近紅外方法成為光學(xué)技術(shù)的研究重點(diǎn)。葡萄糖耐量實(shí)驗(yàn)(OGTT)為無創(chuàng)血糖研究中采集數(shù)據(jù)的經(jīng)典方法,可以在短時(shí)間內(nèi)采集實(shí)驗(yàn)所需的光譜數(shù)據(jù)和血糖濃度數(shù)據(jù)[8],但由于實(shí)驗(yàn)條件限制,采集的樣本量是有限的。在近紅外光測(cè)量人體葡萄糖濃度的研究中,通常選擇的測(cè)量部位為手指、前臂、手掌等,但測(cè)得的葡萄糖光譜極易受到環(huán)境變化、個(gè)體差異、散射等多個(gè)因素影響,采集的數(shù)據(jù)存在較大誤差[9-10]。
多因素干擾是近紅外光測(cè)量血糖技術(shù)難以向前推進(jìn)的重要原因,這些因素引起的誤差直接影響回歸模型預(yù)測(cè)血糖濃度的精確性?!癕+N”理論認(rèn)為誤差來源主要為內(nèi)部誤差和外部誤差,內(nèi)部誤差是血液中非目標(biāo)成分對(duì)光譜的影響,外部誤差成分則較為復(fù)雜,包括測(cè)量過程中產(chǎn)生的隨機(jī)誤差、皮膚的散射等[11-12]。一般最常用的方法是使用數(shù)據(jù)預(yù)處理方法和非線性回歸模型聯(lián)合的方法消弱多因素導(dǎo)致的誤差。數(shù)據(jù)預(yù)處理可以有效減輕隨機(jī)誤差的影響,常用方法有歸一化處理、疊加平均處理、多元散射校正等[13]。常用的非線性回歸模型如支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林等算法可以從采集光譜中提取血糖的有效信息,提高無創(chuàng)血糖的預(yù)測(cè)精度[14-17]。
本文的目的是消除測(cè)量區(qū)域中不同位置點(diǎn)的光譜數(shù)據(jù)差異,使用的數(shù)據(jù)來自于OGTT實(shí)驗(yàn)獲得的實(shí)驗(yàn)數(shù)據(jù)。在OGTT實(shí)驗(yàn)中,選取1 338~1 667 nm范圍內(nèi)共70個(gè)波長(zhǎng)作為實(shí)驗(yàn)的測(cè)量波長(zhǎng),以手指指腹為測(cè)量區(qū)域。選取測(cè)量區(qū)域內(nèi)11個(gè)位置點(diǎn)的數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),支持向量回歸(SVR)作為回歸模型,驗(yàn)證不同位置點(diǎn)數(shù)據(jù)的差異情況及減小不同位置點(diǎn)數(shù)據(jù)差異的可行性。
本次實(shí)驗(yàn)采用OGTT葡萄糖耐量實(shí)驗(yàn),參與實(shí)驗(yàn)的志愿者一名,實(shí)驗(yàn)時(shí)間為上午8:00-11:00,實(shí)驗(yàn)持續(xù)三天。實(shí)驗(yàn)所需設(shè)備有硬件計(jì)算機(jī)、Hyperspec?NIR近紅外光譜掃描成像儀。近紅外光譜儀采用固定位置掃描模式,光譜波長(zhǎng)范圍為1 338~1 667 nm,光譜分辨率為5 nm;積分時(shí)間為35 ms,采樣幀頻為100。具體實(shí)驗(yàn)儀器和采集系統(tǒng)如圖1所示。
圖1 光譜數(shù)據(jù)采集設(shè)備和采集系統(tǒng)示意圖
圖1(a)為近紅外光譜儀,圖 1(b)為光譜數(shù)據(jù)的采集系統(tǒng)。采集過程中志愿者將手指放入光譜儀固定位置,由光源照射手指產(chǎn)生的反射光進(jìn)入光譜儀,由光譜儀成像并傳入終端的計(jì)算機(jī)中保存。采集光譜數(shù)據(jù)的同時(shí)進(jìn)行血糖濃度數(shù)據(jù)的采集,具體過程為刺取指尖一滴血,將其轉(zhuǎn)移至酶測(cè)試紙和傳感器進(jìn)行測(cè)量,其精度符合CE標(biāo)準(zhǔn)(DIN EN ISO 15197)。
實(shí)驗(yàn)中以手指指腹為測(cè)量區(qū)域,以測(cè)量區(qū)域的中心點(diǎn)位置和左右兩側(cè)各五個(gè)位置點(diǎn)的數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù),共11組位置點(diǎn)數(shù)據(jù),分別記為中心點(diǎn)、左 1、左 2、左 3、左 4、左 5、右 1、右 2、右 3、右4、右5,如圖2所示。通過Beer-Lambert定律計(jì)算出11個(gè)位置點(diǎn)的吸光度數(shù)據(jù)。每個(gè)位置點(diǎn)含有3 000條光譜數(shù)據(jù),每條光譜數(shù)據(jù)有70個(gè)波長(zhǎng)數(shù)據(jù),其中每100條光譜數(shù)據(jù)對(duì)應(yīng)同一個(gè)濃度標(biāo)簽,總共30個(gè)濃度標(biāo)簽。同一濃度對(duì)應(yīng)的11個(gè)位置的吸光度存在明顯的數(shù)據(jù)差異,因此將實(shí)驗(yàn)數(shù)據(jù)進(jìn)行歸一化處理。
圖2 手指測(cè)量區(qū)域示意圖
實(shí)驗(yàn)中采集到的光譜信號(hào)為手指的反射光,根據(jù)Beer-Lambert定律計(jì)算吸光度。吸光度數(shù)據(jù)作為SVR模型的特征數(shù)據(jù),對(duì)應(yīng)的血糖濃度數(shù)據(jù)作為標(biāo)簽數(shù)據(jù)。11個(gè)位置的吸光度數(shù)據(jù)共有11組,11組吸光度數(shù)據(jù)對(duì)應(yīng)同一組濃度標(biāo)簽。每一個(gè)位置點(diǎn)的吸光度數(shù)據(jù)X和血糖濃度數(shù)據(jù)Y可表示為:
其中,m表示光譜條數(shù);n表示波長(zhǎng)個(gè)數(shù)。本文的實(shí)驗(yàn)數(shù)據(jù)中m=3000,n=70。
本節(jié)共設(shè)計(jì)了3組實(shí)驗(yàn)。第一組實(shí)驗(yàn)驗(yàn)證不同位置點(diǎn)的數(shù)據(jù)存在明顯差異;第二組實(shí)驗(yàn)證明了依次增加位置點(diǎn)的數(shù)據(jù)作為SVR的訓(xùn)練集,從剩余位置點(diǎn)的數(shù)據(jù)中隨機(jī)選取數(shù)據(jù)作為測(cè)試集,仍然不能減小位置差異的影響;因此在第三組實(shí)驗(yàn)中進(jìn)行改進(jìn),將11個(gè)位置點(diǎn)分成兩部分,一部分?jǐn)?shù)據(jù)平均后作為訓(xùn)練集,另一部分平均后作為測(cè)試集,驗(yàn)證該種方法是否可以減小不同位置點(diǎn)的數(shù)據(jù)差異。
在本文中,評(píng)價(jià)模型的預(yù)測(cè)效果使用克拉格誤差網(wǎng)格中的平均克拉克網(wǎng)格誤差(P為落在網(wǎng)格A區(qū)的概率)和MAE、MSE作為評(píng)價(jià)指標(biāo)??死苏`差網(wǎng)格是評(píng)價(jià)血糖預(yù)測(cè)準(zhǔn)確度的一個(gè)經(jīng)典方法,網(wǎng)格的A區(qū)域代表預(yù)測(cè)效果最好的區(qū)域;MSE為均方差,是指預(yù)測(cè)值與真實(shí)值之差平方的期望值;MAE為平均絕對(duì)值誤差,是觀測(cè)值與真實(shí)值的誤差絕對(duì)值的平均值。公式如下:
3.2.1 第一組實(shí)驗(yàn)
第一組實(shí)驗(yàn)中一次選擇兩個(gè)不同位置點(diǎn)數(shù)據(jù),一個(gè)位置點(diǎn)數(shù)據(jù)作為訓(xùn)練集,另一個(gè)位置點(diǎn)數(shù)據(jù)作為測(cè)試集。為方便進(jìn)行比較,固定左1位置數(shù)據(jù)作為訓(xùn)練集,其他10個(gè)位置的數(shù)據(jù)依次作為測(cè)試集,使用SVR回歸模型得到測(cè)試集預(yù)測(cè)結(jié)果,如表1所示。在表1中,對(duì)于兩個(gè)相鄰位置點(diǎn),如左1、左2,SVR的預(yù)測(cè)效果較好;對(duì)于不相鄰的位置點(diǎn),預(yù)測(cè)效果較差,而且位置間隔越遠(yuǎn),訓(xùn)練效果越差。這表明鄰近位置點(diǎn)的數(shù)據(jù)的信息相似度更高,距離較遠(yuǎn)的位置點(diǎn)的數(shù)據(jù)相似度越低。
表1 第一組實(shí)驗(yàn)結(jié)果
3.2.2 第二組實(shí)驗(yàn)
第二組實(shí)驗(yàn)考慮到使用OGTT實(shí)驗(yàn)采集數(shù)據(jù)的過程中,每次手指放置在近紅外光譜儀的位置有偏差,不能保證每次采集到同一位置的光譜數(shù)據(jù),因此在實(shí)驗(yàn)設(shè)計(jì)中測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)屬于不同的位置點(diǎn)數(shù)據(jù)。
位置點(diǎn)個(gè)數(shù)為3,即以中心點(diǎn)位置和左1、右1位置的混合數(shù)據(jù)作為訓(xùn)練集,從剩余8個(gè)位置的數(shù)據(jù)中隨機(jī)選取1 000條作為測(cè)試集,使用SVR回歸模型得到預(yù)測(cè)結(jié)果;位置點(diǎn)個(gè)數(shù)為5,即以中心點(diǎn)位置和左1、左2、右1、右2位置的混合數(shù)據(jù)作為訓(xùn)練集,從剩余6個(gè)位置的數(shù)據(jù)中隨機(jī)選取1 000條作為測(cè)試集,在實(shí)驗(yàn)數(shù)據(jù)上依次累加兩個(gè)位置點(diǎn)的數(shù)據(jù)作為測(cè)試集,從未被訓(xùn)練過的位置點(diǎn)的數(shù)據(jù)中隨機(jī)抽取1 000條數(shù)據(jù)作為測(cè)試集,重復(fù)上述步驟。實(shí)驗(yàn)結(jié)果如表2所示,未參與訓(xùn)練的位置點(diǎn)數(shù)據(jù)作為測(cè)試集的預(yù)測(cè)結(jié)果整體在75%左右,預(yù)測(cè)效果較差。
表2 第二組實(shí)驗(yàn)結(jié)果
3.2.3 第三組實(shí)驗(yàn)
原有11組位置點(diǎn)的數(shù)據(jù),選取左5、左3、左1、右1、右3、右5共6組數(shù)據(jù)進(jìn)行數(shù)據(jù)平均處理為1組數(shù)據(jù),記為新數(shù)據(jù)1,剩余5個(gè)位置的數(shù)據(jù)進(jìn)行數(shù)據(jù)平均處理為1組數(shù)據(jù),記為新數(shù)據(jù)2。將平均處理過后的2組新數(shù)據(jù),1組作為訓(xùn)練集,另一組作為測(cè)試集,使用SVR回歸模型得到測(cè)試集預(yù)測(cè)結(jié)果,得到的結(jié)果如表3所示,克拉克誤差網(wǎng)格圖如圖3所示。
表3 第三組實(shí)驗(yàn)結(jié)果
圖3 兩組實(shí)驗(yàn)的誤差網(wǎng)格圖
由實(shí)驗(yàn)結(jié)果可以看出,經(jīng)過平均處理的兩組數(shù)據(jù)的位置差異明顯減小,并且克拉克誤差網(wǎng)格圖表明SVR模型的預(yù)測(cè)效果良好,兩次實(shí)驗(yàn)在網(wǎng)格圖中A區(qū)的樣本量達(dá)到99%以上,表明第三組實(shí)驗(yàn)可以有效降低位置差異的影響。
在無創(chuàng)血糖監(jiān)測(cè)領(lǐng)域,OGTT實(shí)驗(yàn)是采集血糖數(shù)據(jù)的經(jīng)典方法,本文使用OGTT實(shí)驗(yàn)獲得光譜數(shù)據(jù)和血糖濃度數(shù)據(jù)。針對(duì)實(shí)驗(yàn)數(shù)據(jù)中不同位置點(diǎn)存在的數(shù)據(jù)差異問題,設(shè)計(jì)3組實(shí)驗(yàn)驗(yàn)證并成功減小了不同位置點(diǎn)的數(shù)據(jù)差異。從另一方面來看,減小不同位置點(diǎn)數(shù)據(jù)的差異一定程度上增加了可用的樣本量,在血糖預(yù)測(cè)的深度回歸模型中,大樣本量對(duì)模型的最終預(yù)測(cè)有一定的幫助。