基于強(qiáng)化學(xué)習(xí)的1型糖尿病胰島素給藥策略研究

2023-10-18 07:06:51焦?jié)奢x解柏森孫福權(quán)

計(jì)算機(jī)應(yīng)用研究 2023年9期

焦?jié)奢x 解柏森孫福權(quán)

摘要：1型糖尿?。═1D）患者需要通過(guò)外源性胰島素的輸送將血糖（BG）維持在治療范圍內(nèi)。目前，已有的幾種基于模型預(yù)測(cè)控制和強(qiáng)化學(xué)習(xí)（RL）的胰島素給藥算法存在樣本效率差、獎(jiǎng)勵(lì)機(jī)制過(guò)于簡(jiǎn)單、血糖調(diào)控效果不佳等問(wèn)題。為此提出了一種基于強(qiáng)化學(xué)習(xí)的帶有指導(dǎo)網(wǎng)絡(luò)的胰島素給藥策略（insulin administration strategy with guided network，IASGN），針對(duì)給藥策略安全性能和快速性的特點(diǎn)，引入累積情節(jié)獎(jiǎng)勵(lì)和分類經(jīng)驗(yàn)回放方法，按照不同的重要性采樣權(quán)重增加了精英樣本池，并基于精英樣本池訓(xùn)練給藥指導(dǎo)網(wǎng)絡(luò)，對(duì)策略網(wǎng)絡(luò)進(jìn)行動(dòng)作指導(dǎo)，改進(jìn)了獎(jiǎng)勵(lì)機(jī)制，在FDA批準(zhǔn)的UVA/Padova T1D模擬器中驗(yàn)證了該方法的性能。結(jié)果顯示，該方法TIR（time in range）達(dá)到了98.21%，TBR（time below range）接近于0，CVGA中所有患者均處于A+B區(qū)的安全范圍，可以使患者血糖長(zhǎng)期處于正常范圍內(nèi)，避免了低血糖的風(fēng)險(xiǎn)，在與基準(zhǔn)方法對(duì)比中也獲得了更好的表現(xiàn)。

關(guān)鍵詞：強(qiáng)化學(xué)習(xí)； 1型糖尿病治療；胰島素給藥策略；精英樣本池；指導(dǎo)網(wǎng)絡(luò)

中圖分類號(hào)：TP391?? 文獻(xiàn)標(biāo)志碼：A

文章編號(hào)：1001-3695（2023）09-031-2765-05

doi：10.19734/j.issn.1001-3695.2023.02.0052

Study on insulin administration strategy of type 1 diabetesbased on reinforcement learning

Jiao Zehui1， Xie Baisen1， Sun Fuquan2

（1.College of Information Science & Engineering， North Eastern University， Shenyang 110000， China; 2.College of Mathematics & Statistics， North Eastern University at Qinhuangdao， Qinhuangdao Hebei 066000， China）

Abstract：Type 1 diabetes（T1D） patients need to maintain blood glucose（BG） within the treatment range through the delivery of exogenous insulin. At present， several existing insulin administration algorithms based on model predictive control and reinforcement learning（RL） have problems such as poor sample efficiency， overly simple reward mechanisms， and poor blood glucose regulation effects. This paper proposed an IASGN strategy based on reinforcement learning. Aiming at the characteristics of safety and rapidity of the administration strategy，it introduced cumulative plot rewards and classified experience playback me-thods， increased elite sample pool according to different importance sampling weights， trained the administration guidance network based on the elite sample pool to guide the action of the strategy network， and improved the reward mechanism. It verified the performance of the proposed method in the FDA approved UVA/Padova T1D simulator. The results show that the TIR of the proposed method reaches 98.21%， and the TBR is close to 0. All patients in CVGA are within the safe range of A+B zone， which can keep their blood sugar within the normal range for a long time and avoid the risk of hypoglycemia. Compared with the benchmark methods， it also achieved better performance.

Key words：reinforcement learning; treatment of type 1 diabetes; insulin administration; elite sample pool; guidance network

0 引言

糖尿病是當(dāng)前備受關(guān)注的一項(xiàng)疾病，糖尿病患者血糖水平的調(diào)節(jié)對(duì)其健康管理有著重要的作用。

根據(jù)國(guó)際糖尿病聯(lián)盟（IDF）2021年發(fā)布的《全球糖尿病地圖（第十版）》［1］顯示，全球成年人（20～79歲）中有5.37億（10.5%）糖尿病患者，糖尿病總?cè)藬?shù)預(yù)計(jì)到2030年將增至6.43億（11.3%）。其中1型糖尿?。═1D）約占8.5%，T1D患者由于體內(nèi)缺乏胰島素，需要長(zhǎng)期的血糖自我監(jiān)測(cè)和外源性胰島素給藥［2］。所以，胰島素給藥策略能否有效控制好血糖水平［3］，已成為1型糖尿病治療的關(guān)鍵所在。目前1型糖尿病的治療以胰島素注射為主，主要根據(jù)患者的癥狀，結(jié)合性別、年齡、身高、體重等因素確定藥物的種類和使用劑量，仍處于傳統(tǒng)的遵守醫(yī)囑情況，具有較強(qiáng)的經(jīng)驗(yàn)性。而不同患者間一般存在較大的特異性，給藥劑量過(guò)多或過(guò)少，可能會(huì)導(dǎo)致治療無(wú)明顯效果，造成醫(yī)療浪費(fèi)，甚至?xí)：颊叩纳踩?。近些年?lái)，胰島素泵［4］作為一種可以持續(xù)快速注入胰島素來(lái)控制血糖的工具得到了廣泛應(yīng)用，避免了多次皮下注射胰島素的困擾，但仍不能實(shí)現(xiàn)胰島素給藥的精確控制，而能提供最佳胰島素劑量的自動(dòng)化系統(tǒng)備受關(guān)注。體外人工胰腺（artificial pancreas，AP）［5］是一種閉環(huán)胰島素輸送系統(tǒng)，用于自動(dòng)控制T1D患者的血糖水平，AP包括連續(xù)血糖監(jiān)測(cè)器（continuous glucose monitor，CGM）［6］、連續(xù)胰島素泵和用于估計(jì)最佳胰島素劑量的控制算法。研究的算法包括比例積分控制（PID）［7］、模型預(yù)測(cè)控制（MPC）［8］和強(qiáng)化學(xué)習(xí)算法［9］，尤其是強(qiáng)化學(xué)習(xí)得到了廣泛的關(guān)注。

強(qiáng)化學(xué)習(xí)這一通過(guò)智能體和環(huán)境交互獲取最大獎(jiǎng)勵(lì)值的學(xué)習(xí)范式具備強(qiáng)大的表征能力，可以用來(lái)處理復(fù)雜的決策問(wèn)題，已經(jīng)被擴(kuò)展到各種控制的實(shí)際應(yīng)用場(chǎng)景中。隨著人工智能和大數(shù)據(jù)的興起，強(qiáng)化學(xué)習(xí)在棋盤游戲［10］、交通信號(hào)燈控制［11］、自動(dòng)駕駛［12］等方面都取得了不錯(cuò)的效果。然而，在胰島素給藥問(wèn)題中，藥物用于探索真實(shí)環(huán)境（即臨床人類患者）可能會(huì)造成危險(xiǎn)。幸運(yùn)的是，一些糖尿病代謝模擬器已被設(shè)計(jì)用于在虛擬患者中進(jìn)行臨床研究，如被FDA認(rèn)可的UVA/Padova T1D代謝模擬器（T1DMS）［13］，它可以為強(qiáng)化學(xué)習(xí)提供理想的環(huán)境，幫助檢查控制算法的性能，評(píng)估受試者對(duì)藥物治療的反應(yīng)。特別是，使用模擬器［14～18］設(shè)計(jì)了RL方法用于胰島素輸送，智能體可以輕松地與患者進(jìn)行電子交互，通過(guò)大量交互學(xué)習(xí)獲取胰島素給藥的最優(yōu)策略，從而控制糖尿病患者的血糖水平，但存在訓(xùn)練時(shí)間過(guò)長(zhǎng)、樣本效率低下、獎(jiǎng)勵(lì)函數(shù)過(guò)于簡(jiǎn)單、低血糖情況難以避免等問(wèn)題，血糖調(diào)控效果仍然有較大的提升空間。

本文引入情節(jié)累積獎(jiǎng)勵(lì)和分類經(jīng)驗(yàn)回放的方法，增加精英樣本池，提升了樣本效率和給藥策略的訓(xùn)練速度；在獎(jiǎng)勵(lì)函數(shù)中引入entity-to-box distance方法［19］，促進(jìn)最大化范圍內(nèi)的時(shí)間（TIR）和最小化低血糖，有助于強(qiáng)化學(xué)習(xí)模型快速學(xué)習(xí)和策略收斂；增加了給藥動(dòng)作的指導(dǎo)網(wǎng)絡(luò)，提升了血糖調(diào)節(jié)的效果，TIR達(dá)到了98.21%，TBR為0，滿足關(guān)鍵的低血糖安全約束問(wèn)題，有效避免了低血糖的發(fā)生。

1 背景及相關(guān)工作

1.1 強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種學(xué)習(xí)方法，它與監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)相并列，但不依賴于大量的標(biāo)簽數(shù)據(jù)，無(wú)須給出正確的策略作為監(jiān)督信息，是一種從環(huán)境狀態(tài)映射到動(dòng)作，進(jìn)行試錯(cuò)學(xué)習(xí)的范式，在與環(huán)境的交互中通過(guò)回報(bào)不斷調(diào)整策略，從而訓(xùn)練出一個(gè)最優(yōu)的策略，目的是使智能體的累積獎(jiǎng)勵(lì)值最大。強(qiáng)化學(xué)習(xí)可以處理具有采樣、評(píng)估和延遲反饋的順序決策問(wèn)題，并且經(jīng)過(guò)訓(xùn)練對(duì)于不同狀態(tài)能自適應(yīng)地采取最優(yōu)的動(dòng)作。強(qiáng)化學(xué)習(xí)的一般過(guò)程如圖1所示。

1.2 相關(guān)工作

自個(gè)性化醫(yī)療、精準(zhǔn)醫(yī)療的概念提出以來(lái)，關(guān)于糖尿病精準(zhǔn)給藥的研究［20］層出不窮。Garg等人［21］采用PID作為混合閉環(huán)血糖系統(tǒng)控制算法，但存在難以控制餐后的低血糖和高血糖的問(wèn)題；Hovorka等人［22］使用模型預(yù)測(cè)控制（model predictive control，MPC）與機(jī)器學(xué)習(xí)相結(jié)合的方法，利用血糖預(yù)測(cè)的非線性模型和自適應(yīng)技術(shù)，通過(guò)對(duì)患者血糖的預(yù)測(cè)及藥物劑量的優(yōu)化實(shí)現(xiàn)胰島素給藥的個(gè)性化調(diào)整。與PID和MPC方法相比， RL方法可以更多地從患者的自身數(shù)據(jù)中學(xué)習(xí)，并產(chǎn)生更安全的策略。Ribba等人［23］借鑒強(qiáng)化學(xué)習(xí)的閉環(huán)控制模式，提出了一組用于生成給藥行為的馬爾可夫決策方法，模型通過(guò)人體的積極或消極反饋來(lái)指導(dǎo)馬爾可夫決策模型學(xué)習(xí)給藥行為和人體狀態(tài)之間的最佳映射，根據(jù)映射制定下一時(shí)刻的給藥方案。Yasini等人［24］利用Q-Learning算法進(jìn)行了給藥決策任務(wù)的初步探索，證實(shí)了此閉環(huán)控制體系能夠?qū)崿F(xiàn)胰島素劑量的精確計(jì)算和管理。Sun等人［16］提出一種用于血糖調(diào)控的雙模式自適應(yīng)基礎(chǔ)胰島素RL模型，可提供個(gè)性化的自適應(yīng)胰島素方案來(lái)控制血糖。Fox等人［25］在血糖調(diào)控中嘗試使用具有離散作用空間的深度Q網(wǎng)絡(luò)和具有連續(xù)作用空間的軟演員—批評(píng)家方法。然而，在Sun和Fox等人的工作中，他們使用RL算法生成了全天的總體基礎(chǔ)胰島素率，這意味著無(wú)法及時(shí)對(duì)血糖的突然變化作出反應(yīng)。Lim等人［26］在早期采用比例—積分—微分（PID）控制指導(dǎo)行為者—批評(píng)家網(wǎng)絡(luò)來(lái)確定胰島素劑量，并引入了帶有懸浮和額外胰島素劑量的自適應(yīng)安全機(jī)制，利用隨機(jī)森林回歸和雙注意力網(wǎng)絡(luò)進(jìn)行葡萄糖預(yù)測(cè)和狀態(tài)變量的擴(kuò)展，從可解釋性方面對(duì)血糖控制問(wèn)題進(jìn)行了延展。Zhu等人［27］通過(guò)一個(gè)兩步的學(xué)習(xí)框架，在通用特征基礎(chǔ)上進(jìn)行了個(gè)性化DQN訓(xùn)練，對(duì)單、雙激素給藥策略可以起到更好的血糖調(diào)控效果。Yu等人［28］對(duì)葡萄糖—胰島素的控制系統(tǒng)模塊化處理提出了因果耦合機(jī)制，探索了分工合作和競(jìng)爭(zhēng)的關(guān)系，引入分層強(qiáng)化學(xué)習(xí)進(jìn)行血糖調(diào)控。但現(xiàn)有的研究很少關(guān)注RL中的獎(jiǎng)勵(lì)函數(shù)，通過(guò)胰島素給藥來(lái)進(jìn)行血糖控制的安全性探索不足，給藥策略訓(xùn)練緩慢，同時(shí)血糖調(diào)控效果仍有較大提升的空間。

2 基于強(qiáng)化學(xué)習(xí)的胰島素給藥方法

2.1 問(wèn)題描述

T1D的閉環(huán)胰島素給藥任務(wù)可以用一個(gè)馬爾可夫決策過(guò)程（Markov decision process，MDP）來(lái)描述，用一個(gè)五元組〈S，P，A，R，γ〉進(jìn)行定義，其中狀態(tài)S是糖尿病患者的生理狀態(tài)，為包括血糖濃度（BG）在內(nèi)的13維特征的連續(xù)狀態(tài)；動(dòng)作A為基礎(chǔ)胰島素的給藥動(dòng)作和劑量；狀態(tài)轉(zhuǎn)移函數(shù)P（s′，s，a）表示由于給藥動(dòng)作a的選擇，從當(dāng)前血糖狀態(tài)s轉(zhuǎn)移到下一血糖狀態(tài)s′的概率；r（s，a，s′）表示在當(dāng)前血糖狀態(tài)s采取給藥動(dòng)作a轉(zhuǎn)移到下一狀態(tài)s′的瞬時(shí)獎(jiǎng)勵(lì)；0＜γ＜1 是對(duì)未來(lái)獎(jiǎng)勵(lì)的折扣因子，γ越大，表示未來(lái)獎(jiǎng)勵(lì)對(duì)當(dāng)前狀態(tài)動(dòng)作選擇的影響越大。智能體在一定時(shí)間內(nèi)與糖尿病患者環(huán)境交互，控制系統(tǒng)通過(guò)傳感器設(shè)備感知s，并采取給藥動(dòng)作a輸送胰島素劑量，T1D患者的生理狀態(tài)過(guò)渡到s′，根據(jù)血糖變化評(píng)估并返回獎(jiǎng)勵(lì)r。π（a|s，θ）表示參數(shù)為θ的給藥策略，表示在給定生理狀態(tài)s的條件下采取給藥動(dòng)作a的條件概率密度，目標(biāo)是最大化累積獎(jiǎng)勵(lì)R（s，a），并得到一個(gè)最優(yōu)的給藥策略π*。一個(gè)動(dòng)作價(jià)值函數(shù)為

3 實(shí)驗(yàn)

3.1 UVA/Padova T1DM模擬器

T1DMS也被稱為UVA/Padova Type 1糖尿病代謝模擬器，最早在2009年基于MATLAB環(huán)境提出，用于糖尿病人體生理建模。2014年進(jìn)行了首次更新，2018年再次更新后，開(kāi)發(fā)團(tuán)隊(duì)公布了該模擬器基于Python語(yǔ)言的架構(gòu)。在研究1型糖尿病的治療策略背景之下，美國(guó)食品與藥品管理局（FDA）正式通過(guò)了該模型的認(rèn)證，批準(zhǔn)其作為臨床實(shí)驗(yàn)的方案之一。除速效胰島素外，T1DMS支持長(zhǎng)效胰島素或口服藥物的模擬，這為糖尿病患者代謝實(shí)驗(yàn)引入了更多使用不同治療方法的可能性，因此該模擬器在近些年的研究中得到了廣泛使用。

3.2 實(shí)驗(yàn)設(shè)置

T1DMS模擬器為智能體探索和學(xué)習(xí)策略提供了一個(gè)交互式環(huán)境。本文也選用此模擬器用做強(qiáng)化學(xué)習(xí)的真實(shí)環(huán)境進(jìn)行實(shí)驗(yàn)，并對(duì)其提供的10名成年 T1D虛擬受試者進(jìn)行模擬，以評(píng)估所提出的深度強(qiáng)化學(xué)習(xí)框架的性能。在實(shí)驗(yàn)中，考慮一天三餐，即早餐06：00（70 g），午餐11：00（110 g），晚餐18：00（90 g）。進(jìn)食量的大小由飯菜所含的CHO含量來(lái)計(jì)算，用餐時(shí)間限制為15 min。碳水化合物的用量誤差估計(jì)為-30%～+10%，且均勻分布，膳食吸收的變化量設(shè)置為30%，碳水化合物的變化量設(shè)置為10%，胰島素敏感度設(shè)置為20%，在模擬器的配置文件中生成。

3.3 性能指標(biāo)

為了衡量血糖調(diào)控的表現(xiàn)，本文使用一組在AP臨床實(shí)驗(yàn)中常用的指標(biāo)［29］。血糖管理系統(tǒng)的主要目標(biāo)是將血糖水平維持在目標(biāo)范圍內(nèi)，并將低血糖發(fā)生的概率降至最低。因此，［70，180］ mg/dL的時(shí)間范圍百分比（TIR）是一個(gè)直觀的指標(biāo)，它表明受試者的BG水平處于正常血糖區(qū)的時(shí)間。相應(yīng)地，低于范圍的時(shí)間（time below range，TBR）（BG＜70 mg/dL）和高于范圍的時(shí)間（time above range，TAR）（BG＞180 mg/dL）分別代表低血糖和高血糖的時(shí)間。此外，控制變異性網(wǎng)格分析（control variability grid analysis，CVGA）［30］是一項(xiàng)評(píng)價(jià)一組病人在同一天的血糖調(diào)控性能非常有效的性能指標(biāo)。它通過(guò)在一個(gè)有9個(gè)區(qū)域的網(wǎng)格上繪制極端（最小/最大）BG值來(lái)可視化血糖結(jié)果，每個(gè)病人代表一個(gè)點(diǎn)，每個(gè)點(diǎn)的X坐標(biāo)代表最小血糖值，Y坐標(biāo)代表最大血糖值。CVGA分為5個(gè)區(qū)域，分別為A、B、C、D、E區(qū)域，其中A區(qū)域?yàn)樽畎踩膮^(qū)域，E為最危險(xiǎn)的區(qū)域，A+B區(qū)的點(diǎn)代表AP系統(tǒng)的最佳血糖調(diào)控效果，該方法已廣泛用于在血糖控制研究和臨床實(shí)驗(yàn)中比較不同算法的有效性。

3.4 對(duì)比方法

為驗(yàn)證本文提出的基于強(qiáng)化學(xué)習(xí)的帶指導(dǎo)網(wǎng)絡(luò)的糖尿病胰島素給藥策略（IASGN）性能，將與如下方法進(jìn)行比較：

a）低葡萄糖胰島素懸浮液方法（low glucose suspend，LGS）［31］。LGS系統(tǒng)已經(jīng)被證明可以通過(guò)暫?；A(chǔ)胰島素的給藥劑量來(lái)降低糖尿病患者低血糖的風(fēng)險(xiǎn)。

b）標(biāo)準(zhǔn)劑量計(jì)算器（standard bolus calculator，SBC）［32］。它是一種根據(jù)患者當(dāng)前及目標(biāo)血糖值等條件計(jì)算胰島素注入劑量來(lái)調(diào)控血糖的方法。

c）深度強(qiáng)化學(xué)習(xí)控制方法（deep reinforcement learning，DRL）。將深度強(qiáng)化學(xué)習(xí)算法應(yīng)用于糖尿病患者胰島素給藥策略來(lái)控制患者血糖，目前諸如SAC（soft actor critic）［33］強(qiáng)化學(xué)習(xí)算法也在該領(lǐng)域有了一定應(yīng)用。Zhu等人［27］所提出雙激素DRL-DH模型和Yu等人［28］提出的因果耦合機(jī)制CCMs模型也將作為對(duì)比方法。

3.5 實(shí)驗(yàn)結(jié)果

通過(guò)對(duì)不同算法的給藥模型60天的訓(xùn)練，并進(jìn)行為期3天（4 320 min）的測(cè)試，結(jié)果均用均值和標(biāo)準(zhǔn)差表示。圖3展示了患者8在訓(xùn)練過(guò)程中最高、最低血糖值的收斂情況。表1展示了不同算法在T1DMS模擬器中所提供的10名患者血糖控制的性能指標(biāo)情況。如圖3所示，8號(hào)患者的最高、最低血糖值在訓(xùn)練的第3天就進(jìn)入正常范圍內(nèi)，并在第10天開(kāi)始趨于穩(wěn)定，表明患者全天的血糖濃度值BG均處于［70，180］mg/dL的正常范圍內(nèi)，策略的收斂速度較快。

總體看來(lái)，DRL的算法在胰島素給藥任務(wù)中展現(xiàn)出較LGS和SBC更好的血糖調(diào)控性能，TIR指標(biāo)更占優(yōu)勢(shì)。可見(jiàn)將強(qiáng)化學(xué)習(xí)算法應(yīng)用于糖尿病患者的給藥和血糖控制任務(wù)有著很強(qiáng)的適用性和發(fā)展前景。相較于DRL中表現(xiàn)優(yōu)秀的SAC算法和當(dāng)期領(lǐng)域內(nèi)的DRL-DH算法和CCMs算法，本文所提出的IASGN算法TIR達(dá)到了98.21%，TBR接近0，TAR也更小，極大地避免了低血糖的發(fā)生，而SAC的TIR為87.39%，DRL-DH為85.75%，CCMs為96.30，仍低于IASGN的TIR值，說(shuō)明本文算法表現(xiàn)出更優(yōu)秀的性能。圖4展示了T1DMS模擬器所提供的10名患者選用本文IASGN算法在4 320 min內(nèi)的血糖濃度變化曲線。持續(xù)高于180 mg/dL被認(rèn)為是高血糖，持續(xù)小于70 mg/dL被認(rèn)為是低血糖，70和180對(duì)應(yīng)的閾值以虛線標(biāo)出。由圖4可見(jiàn)，在4 320 min的測(cè)試時(shí)間內(nèi)，10名患者均未出現(xiàn)低血糖的情況，個(gè)別患者有短暫越過(guò)180 mg/dL的情況，但總體上各個(gè)患者的血糖均控制在正常范圍。

在4 320 min的測(cè)試期內(nèi)，對(duì)于采用本文方法的患者血糖情況進(jìn)行了控制變異性網(wǎng)格分析。圖5為10名患者序列中的CVGA圖。

由CVGA圖中可見(jiàn)，在本文方法的閉環(huán)控制下，A+B區(qū)的百分率為100%，其中70%對(duì)應(yīng)于A區(qū)，30%對(duì)應(yīng)于B區(qū)，實(shí)現(xiàn)了對(duì)AP系統(tǒng)最佳的血糖調(diào)控效果。

4 結(jié)束語(yǔ)

本文驗(yàn)證了強(qiáng)化學(xué)習(xí)應(yīng)用于糖尿病患者的血糖控制任務(wù)的適用性和延展性，并針對(duì)胰島素給藥和血糖調(diào)控安全性的特點(diǎn)，提出了一種基于強(qiáng)化學(xué)習(xí)帶有指導(dǎo)網(wǎng)絡(luò)的胰島素給藥策略。在T1DMS模擬器中測(cè)試了其性能，表明本文方法能夠滿足關(guān)鍵的低血糖安全約束問(wèn)題，可以使受試患者血糖長(zhǎng)期維持在正常范圍內(nèi)，避免了低血糖或者高血糖癥狀的出現(xiàn)，保證了患者的安全，且在與其他基準(zhǔn)方法的對(duì)比中表現(xiàn)出了更佳的性能，TIR值達(dá)到98.21%，TBR值接近0，有助于糖尿病給藥治療與強(qiáng)化學(xué)習(xí)等人工智能技術(shù)的結(jié)合與發(fā)展。

雖然T1DMS模擬器是基于生理學(xué)的，但其本身的局限性與臨床環(huán)境的不確定性限制了BG控制方法的進(jìn)一步改進(jìn)。盡管本文采取了精英樣本池和離線的訓(xùn)練方法，但訓(xùn)練效率仍然有待提高。近年來(lái)，一些基于模型的DRL和離線DRL在提高樣本效率方面取得飛速發(fā)展。因此，在今后的工作中，本文將考慮對(duì)個(gè)體的藥代動(dòng)力學(xué)和藥效學(xué)（PK/PD）特性進(jìn)行建模，并改進(jìn)基于模型的RL和離線RL的BG控制方法。

參考文獻(xiàn)：

［1］Sun Hong， Saeedi P， Karuranga S， et al. IDF diabetes atlas：global， regional and country-level diabetes prevalence estimates for 2021 and projections for 2045［J］. Diabetes Research and Clinical Practice， 2022，183： 109119.

［2］Zimmet P Z， Magliano D J， Herman W H， et al. Diabetes： a 21st century challenge［J］. The Lancet Diabetes & Endocrinology， 2014，2（1）： 56-64.

［3］寧芳芳. 胰島素不同給藥方式對(duì)糖尿病患者血糖控制效果的影響［J］. 中國(guó)醫(yī)藥指南， 2021，19（5）： 63-64. （Ning Fangfang. Effect of different insulin administration methods on blood glucose control in patients with diabetes mellitus［J］. Guide of China Medicine， 2021，19（5）： 63-64.）

［4］Pickup J C. Insulin-pump therapy for type 1 diabetes mellitus［J］. New England Journal of Medicine， 2012，366（17）： 1616-1624.

［5］Kovatchev B. A century of diabetes technology： signals， models， and artificial pancreas control［J］. Trends in Endocrinology & Metabolism， 2019，30（7）： 432-444.

［6］Klonoff D C. Continuous glucose monitoring： roadmap for 21st century diabetes therapy［J］. Diabetes Care， 2005，28（5）： 1231-1239.

［7］Chee F， Fernando T L， Savkin A V， et al. Expert PID control system for blood glucose control in critically ill patients［J］. IEEE Trans on Information Technology in Biomedicine， 2003，7（4）： 419-425.

［8］Hovorka R， Canonico V， Chassin L J， et al. Nonlinear model predictive control of glucose concentration in subjects with type 1 diabetes［J］. Physiological Measurement， 2004，25（4）： 905-920.

［9］Li Yuxi. Deep reinforcement learning： an overview［EB/OL］. （2018-11-26）. https：//arxiv.org/abs/1701.07274.

［10］Granter S R， Beck A H， Papke Jr D J. AlphaGo， deep learning， and the future of the human microscopist［J］. Archives of Pathology & Laboratory Medicine， 2017，141（5）： 619-621.

［11］Yu Bingquan， Guo Jinqiu， Zhao Qinpei， et al. Smarter and safer traffic signal controlling via deep reinforcement learning［C］//Proc of the 29th ACM International Conference on Information & Knowledge Management. New York： ACM Press， 2020： 3345-3348.

［12］Pan Xinlei， You Yurong， Wang Ziyan， et al. Virtual to real reinforcement learning for autonomous driving［EB/OL］. （2017-09-26）. https：//arxiv.org/abs/1704.03952.

［13］Man C D， Micheletto F， Lyu Dayu， et al. The UVA/PADOVA type 1 diabetes simulator： new features［J］. Journal of Diabetes Science and Technology， 2014，8（1）： 26-34.

［14］Lee S， Kim J， Park S W， et al. Toward a fully automated artificial pancreas system using a bioinspired reinforcement learning design： in silico validation［J］. IEEE Journal of Biomedical and Health Informatics， 2020，25 （2）： 536-546.

［15］Daskalaki E， Diem P， Mougiakakou S G. An actor-critic based controller for glucose regulation in type 1 diabetes［J］. Computer Me-thods and Programs in Biomedicine， 2013，109（2）： 116-125.

［16］Sun Qingnan ， Jankovic M V， Budzinski J， et al. A dual mode adaptive basal-bolus advisor based on reinforcement learning［J］. IEEE Journal of Biomedical and Health Informatics， 2018，23（6）： 2633-2641.

［17］Li Kezhi， Liu Chengyuan， Zhu Taiyu， et al. GluNet： a deep lear-ning framework for accurate glucose forecasting［J］. IEEE Journal of Biomedical and Health Informatics， 2019，24（2）： 414-423.

［18］Daskalaki E， Diem P， Mougiakakou S G. Personalized tuning of a reinforcement learning control algorithm for glucose regulation［C］//Proc of the 35th Annual International Conference of the IEEE Engineering in Medicine and Biology Society. Piscataway， NJ： IEEE Press， 2013： 3487-3490.

［19］Ren Hongyu，Hu Weihua，Leskovec J. Query2box：reasoning over know-ledge graphs in vector space using box embeddings［EB/OL］. （2020-02-29）. https：//arxiv.org/abs/2002.05969.

［20］趙冰，麻淳博，孫冰冰，等. 智能胰島素遞送系統(tǒng)用于糖尿病治療的研究進(jìn)展［J］. 中國(guó)生物工程雜志， 2022，42（5）： 81-90. （Zhao Bing， Ma Chunbo， Sun Bingbing， et al. Research progress of intelligent insulin delivery system for diabetes treatment［J］. China Biotechnology， 2022，42（5）： 81-90.）

［21］Garg S K， Weinzimer S A， Tamborlane W V， et al. Glucose outcomes with the in-home use of a hybrid closed-loop insulin delivery system in adolescents and adults with type 1 diabetes［J］. Diabetes Technology & Therapeutics， 2017，19（3）： 155-163.

［22］Hovorka R， Allen J M， Elleri D， et al. Manual closed-loop insulin delivery in children and adolescents with type 1 diabetes： a phase 2 randomised crossover trial［J］. The Lancet， 2010， 375（9716）： 743-751.

［23］Ribba B， Dudal S， Lavé T， et al. Model-informed artificial intel-ligence： reinforcement learning for precision dosing［J］. Clinical Pharmacology & Therapeutics， 2020，107（4）： 853-857.

［24］Yasini S， Naghibi-Sistani M， Karimpour A. Agent-based simulation for blood glucose control in diabetic patients［J］. International Journal of Applied Science， Engineering and Technology， 2009，5（1）： 40-49.

［25］Fox I， Lee J， Pop-Busui R， et al. Deep reinforcement learning for closed-loop blood glucose control［EB/OL］. （2020-09-18）. https：//arxiv.org/abs/2009.09051.

［26］Lim M H， Lee W H， Jeon B， et al. A blood glucose control framework based on reinforcement learning with safety and interpretability： in silico validation［J］. IEEE Access， 2021， 9： 105756-105775.

［27］Zhu Taiyu， Li Kezhi， Herrero P， et al. Basal glucose control in type 1 diabetes using deep reinforcement learning： an in silico validation［J］. IEEE Journal of Biomedical and Health Informatics， 2020， 25（4）： 1223-1232.

［28］Yu Xuehui， Guan Yi， Yu Xinmiao， et al. Causal coupled mechanisms： a control method with cooperation and competition for complex system［C］//Proc of IEEE International Conference on Bioinformatics and Biomedicine. Piscataway， NJ： IEEE Press， 2022： 2556-2563.

［29］Maahs D M， Buckingham B A， Castle J R， et al. Outcome measures for artificial pancreas clinical trials： a consensus report［J］. Diabetes Care， 2016， 39（7）： 1175-1179.

［30］Magni L， Raimondo D M， Man C D， et al. Evaluating the efficacy of closed-loop glucose regulation via control-variability grid analysis［J］. Journal of Diabetes Science and Technology， 2008， 2（4）： 630-635.

［31］Liu Chengyuan ， Avari P， Leal Y， et al. A modular safety system for an insulin dose recommender： a feasibility study［J］. Journal of Diabetes Science and Technology， 2020，14（1）： 87-96.

［32］Schmidt S， Nrgaard K. Bolus calculators［J］. Journal of Diabetes Science and Technology， 2014， 8（5）： 1035-1041.

［33］Haarnoja T， Zhou A， Abbeel P， et al. Soft actor-critic： off-policy maximum entropy deep reinforcement learning with a stochastic actor［C］//Proc of the 35th International Conference on Machine Lear-ning. 2018： 1861-1870.

收稿日期：2023-02-23；修回日期：2023-04-12? 基金項(xiàng)目：國(guó)家重點(diǎn)研發(fā)計(jì)劃資助項(xiàng)目（2018YFB1402800）

作者簡(jiǎn)介：焦?jié)奢x（1998-），男，山西晉城人，碩士研究生，主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、大數(shù)據(jù)分析；解柏森（1998-），男，遼寧沈陽(yáng)人，碩士研究生，主要研究方向?yàn)樯疃葘W(xué)習(xí)、大數(shù)據(jù)分析；孫福權(quán)（1964-），男（通信作者），遼寧錦州人，教授，碩導(dǎo)，博士，主要研究方向?yàn)殡娮由虅?wù)與大數(shù)據(jù)分析（404893391@qq.com）．

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于強(qiáng)化學(xué)習(xí)的1型糖尿病胰島素給藥策略研究