寧國琛 張欣然 廖洪恩
(清華大學(xué)醫(yī)學(xué)院生物醫(yī)學(xué)工程系 北京 100084)
超聲成像機(jī)器人是將機(jī)器人與超聲成像系統(tǒng)進(jìn)行結(jié)合的一種醫(yī)療成像機(jī)器人。超聲成像診斷由于具有非侵入性、低成本、無輻射、能實(shí)時(shí)顯示器官運(yùn)動(dòng)等優(yōu)點(diǎn),在臨床的各個(gè)領(lǐng)域中得到了廣泛的應(yīng)用[1]。通常情況下,臨床超聲掃描依靠人工控制超聲探頭運(yùn)動(dòng),如超聲引導(dǎo)下的血管內(nèi)導(dǎo)航[2]和腹主動(dòng)脈成像[3]。其中操作者的經(jīng)驗(yàn)和操作方式是影響超聲成像質(zhì)量和效率的重要因素[4]。相比手動(dòng)超聲成像過程,基于高精度信息引導(dǎo)機(jī)器人超聲系統(tǒng)在復(fù)雜的臨床場(chǎng)景中具有更好的靈活性,尤其是在長期的超聲掃描過程中具有更好的穩(wěn)定性[5,6]。在醫(yī)療機(jī)器人中,超聲自動(dòng)成像機(jī)器人是一種典型的醫(yī)療機(jī)器人設(shè)備,而更因?yàn)槌暢上竦膹V泛性與快速性,其自動(dòng)化的成像控制對(duì)提高超聲引導(dǎo)診療效率有很大幫助。一般來說,超聲探頭位置的準(zhǔn)確性和超聲探頭控制的穩(wěn)定性是影響圖像質(zhì)量的重要因素。在獲得目標(biāo)位置后,超聲探頭與目標(biāo)之間合適的接觸力既影響成像質(zhì)量,更重要的是決定了系統(tǒng)的安全性[7]。此外,目標(biāo)的移動(dòng)和表面變形也給超聲探頭的精確控制帶來挑戰(zhàn)。
超聲機(jī)器人智能化的關(guān)鍵在于超聲探頭在不同場(chǎng)景中實(shí)現(xiàn)自動(dòng)的成像動(dòng)作。在目前的臨床機(jī)器人超聲系統(tǒng)研究中已經(jīng)采用了多種控制模式來實(shí)現(xiàn)超聲探頭在不同的場(chǎng)景中的自動(dòng)化運(yùn)動(dòng),這些方法主要基于路徑規(guī)劃和基于標(biāo)記的引導(dǎo)控制方法[8,9]。其中基于3維場(chǎng)景重建的路徑規(guī)劃和基于標(biāo)記的物體姿態(tài)估計(jì)是典型的超聲機(jī)器人成像控制方法?;谶@種模式,以往的機(jī)器人超聲系統(tǒng)利用3維相機(jī)或其他高精度采集設(shè)備采集和重建場(chǎng)景表面,并根據(jù)分析后得到的目標(biāo)幾何特性規(guī)劃機(jī)器人運(yùn)動(dòng)路徑[10]。一些研究結(jié)合力傳感器,通過調(diào)整超聲探頭的位置進(jìn)而調(diào)整接觸力[11,12]。這些控制方法中包含多個(gè)高度關(guān)聯(lián)的部分,并且每個(gè)部分的各方面特性需要與具體的成像任務(wù)高度匹配。此外,Chatelain等人[13]基于視覺特征識(shí)別方法,使用機(jī)械臂和3自由度的標(biāo)志物來保持穿刺針在超聲圖像的中心。這些研究分析重建環(huán)境或視覺標(biāo)記,并自動(dòng)從3維視覺信息中提取人工定義的特征。然而,基于場(chǎng)景特征提取和基于標(biāo)記物的方法普遍存在視覺干擾問題。同時(shí),控制方法的精度和效率在很大程度上取決于采用的3維成像設(shè)備的精度和速度[14]。采集設(shè)備的精度成為制約機(jī)器人超聲系統(tǒng)精度的主要因素之一,此外也需要充分考慮目標(biāo)的接觸力和運(yùn)動(dòng)。
為了實(shí)現(xiàn)在復(fù)雜動(dòng)態(tài)場(chǎng)景中實(shí)現(xiàn)魯棒的、自動(dòng)的超聲機(jī)器人成像過程,本文提出基于深度強(qiáng)化學(xué)習(xí)的多自由度智能超聲機(jī)器人系統(tǒng),通過提出決策控制方法和不同控制任務(wù)分部執(zhí)行策略,實(shí)現(xiàn)超聲探頭在人體表面持續(xù)的復(fù)雜超聲成像動(dòng)作生成。另外,為了克服成像過程中人體表面的不確定柔性變化對(duì)控制帶來的挑戰(zhàn),本文根據(jù)超聲機(jī)器人成像任務(wù)特點(diǎn),在超聲機(jī)器人運(yùn)動(dòng)自主決策的基礎(chǔ)上提出超聲機(jī)器人柔性控制方法,最終實(shí)現(xiàn)超聲機(jī)器人對(duì)不同人體表面自動(dòng)的成像過程。
本文所提智能超聲機(jī)器人診斷成像控制方法分為超聲空間運(yùn)動(dòng)決策生成和決策執(zhí)行兩個(gè)部分,分別實(shí)現(xiàn)超聲探頭平移和旋轉(zhuǎn)的運(yùn)動(dòng)過程。其中決策生成由強(qiáng)化學(xué)習(xí)智能體根據(jù)超聲成像模型進(jìn)行輸出,包括超聲探頭接觸人體表面之前的基于視覺的空間運(yùn)動(dòng)決策,以及接觸人體表面后基于觸覺的姿態(tài)調(diào)整決策。其中當(dāng)前超聲成像環(huán)境中的多源信息為智能體實(shí)時(shí)決策的信息來源。在決策執(zhí)行部分,為了實(shí)現(xiàn)在未知、復(fù)雜的柔性人體表面進(jìn)行安全穩(wěn)定的探頭掃描過程,本文所提探頭動(dòng)作空間優(yōu)化策略,通過將超聲探頭與被成像目標(biāo)之間的被期望的接觸力定義為智能體輸出值,實(shí)現(xiàn)超聲成像任務(wù)與接觸力之間的對(duì)應(yīng)關(guān)系的建立,最終由柔性控制器執(zhí)行,如圖1所示。
圖1 智能超聲機(jī)器人成像控制方法與系統(tǒng)框架
本文的工作主要包含:
(1) 提出智能超聲機(jī)器人診斷成像控制流程框架,期望實(shí)現(xiàn)在動(dòng)態(tài)、未知、復(fù)雜和易被干擾的環(huán)境中實(shí)現(xiàn)機(jī)器人超聲成像過程;
(2) 提出基于強(qiáng)化學(xué)習(xí)的超聲機(jī)器人運(yùn)動(dòng)決策生成方法,根據(jù)多源信息實(shí)時(shí)生成多自由度超聲探頭復(fù)雜運(yùn)動(dòng)的決策;
(3) 提出面向未知復(fù)雜柔性環(huán)境的超聲探頭柔性控制方法,通過模擬手動(dòng)控制方式將探頭的空間運(yùn)動(dòng)變量變換為接觸力變量,最終完成持續(xù)成像過程。
超聲診斷的初步步驟是獲取被掃描目標(biāo)的超聲圖像,超聲機(jī)器人需要控制超聲探頭在人體表面進(jìn)行復(fù)雜的運(yùn)動(dòng)以保持探頭與人體的穩(wěn)定接觸,并實(shí)現(xiàn)對(duì)超聲圖像的采集。為了使用機(jī)器人獲得超聲圖像,目前超聲機(jī)器人進(jìn)行成像過程中的運(yùn)動(dòng)路徑生成主要依賴預(yù)先或動(dòng)態(tài)的運(yùn)動(dòng)路徑規(guī)劃,而機(jī)器人運(yùn)動(dòng)路徑的生成又主要依賴對(duì)環(huán)境中顯性特征的識(shí)別和跟蹤。這些方法非常依賴人工對(duì)當(dāng)前機(jī)器人任務(wù)的定量化描述,而醫(yī)療任務(wù)的特殊性又導(dǎo)致這類流程缺少普適性,進(jìn)一步導(dǎo)致超聲機(jī)器人控制的復(fù)雜性和魯棒性大幅度提高。為了實(shí)現(xiàn)超聲機(jī)器人的自主超聲成像控制,本文采用基于強(qiáng)化學(xué)習(xí)的動(dòng)作決策生成方法。強(qiáng)化學(xué)習(xí)的過程是學(xué)習(xí)如何將環(huán)境映射到行動(dòng)上,從而使數(shù)字化獎(jiǎng)勵(lì)信號(hào)最大化的人工智能算法[15]。強(qiáng)化學(xué)習(xí)智能體并不像大多數(shù)形式的機(jī)器學(xué)習(xí)那樣,被告知要采取哪些行動(dòng),而是必須通過嘗試發(fā)現(xiàn)哪些行動(dòng)能產(chǎn)生最大的回報(bào),因此避免了預(yù)先規(guī)劃和人工干預(yù)。在大多數(shù)情況下,智能體產(chǎn)生的行動(dòng)不僅會(huì)影響眼前的獎(jiǎng)勵(lì),而且還會(huì)影響下一時(shí)刻的狀態(tài),并通過這種情況影響所有后續(xù)的獎(jiǎng)勵(lì)。對(duì)于本文中的機(jī)器人智能超聲成像任務(wù)而言,構(gòu)建決策智能體輸出運(yùn)動(dòng)決策在動(dòng)態(tài)且難以量化的成像環(huán)境中具有潛在的應(yīng)用價(jià)值。
標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)過程是在馬爾科夫決策過程(Markov Decision Process, MDP)的框架下提出的,它可以由S,A,p,R和Sλ來定義[16]。其中S={s1,s2,...,sn}和A={a1,a2,...,an}分別表示狀態(tài)集和動(dòng)作集,p(st+1|st,at)是行動(dòng)與狀態(tài)間的隨機(jī)動(dòng)態(tài)變化,R:S×A →R為獎(jiǎng)勵(lì)函數(shù),λ ∈[0,1]為對(duì)當(dāng)前回報(bào)進(jìn)行加權(quán)的折扣因子。令{Xk ∈S}為訓(xùn)練過程k ∈{0,1,...,K}的一個(gè)序列, 其中K ≤∞為訓(xùn)練過程長度,動(dòng)作空間可以取決于當(dāng)前狀態(tài),用A(xk)表示。MDP分析的目標(biāo)是推導(dǎo)出一個(gè)最優(yōu)策略π*,而該最優(yōu)策略的目的是超聲機(jī)器人處于當(dāng)前場(chǎng)景的任意狀態(tài),智能體執(zhí)行該策略都能獲得最大的預(yù)期未來回報(bào)
在構(gòu)建了基本智能體的訓(xùn)練過程之后,需要根據(jù)超聲成像任務(wù)對(duì)其中的策略和獎(jiǎng)勵(lì)函數(shù)進(jìn)行構(gòu)建。由于運(yùn)動(dòng)空間的增加會(huì)給智能體帶來成倍的訓(xùn)練量,并且超聲探頭在空中進(jìn)行空間運(yùn)動(dòng)時(shí)并不需要復(fù)雜的探頭姿態(tài)調(diào)整,因此本文采用空間運(yùn)動(dòng)和姿態(tài)運(yùn)動(dòng)分別由兩個(gè)智能體執(zhí)行的模式以降低訓(xùn)練成本。在空間運(yùn)動(dòng)過程中,當(dāng)前狀態(tài)為場(chǎng)景視覺信息,其中包含超聲機(jī)器人所在場(chǎng)景以及需要被成像的人體表面。因此空間運(yùn)動(dòng)智能體部分采用卷積神經(jīng)網(wǎng)絡(luò)作為策略模型。本策略模型對(duì)圖像進(jìn)行卷積操作以獲得圖像的降維信息,其由3層卷積神經(jīng)網(wǎng)絡(luò)組成,每層都與激活層和最大池化層結(jié)合。參照手動(dòng)超聲成像中的過程,超聲探頭接觸目標(biāo)的過程中具有多個(gè)相關(guān)的步驟,首先人為操作中需要將位置接近、保持接觸并最終獲得超聲圖像,本文將這些因素納入獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì),并將獎(jiǎng)勵(lì)函數(shù)設(shè)為不同項(xiàng)的加權(quán)總和。首先,超聲探頭需要在空間中向目標(biāo)移動(dòng),稠密的距離獎(jiǎng)勵(lì)Rdist定義為探頭和目標(biāo)之間的歐氏距離。在探頭與表面接觸后,獎(jiǎng)勵(lì)函數(shù)RUS為檢測(cè)超聲圖像是否存在,并且增加額外的持續(xù)獎(jiǎng)勵(lì)Rm以鼓勵(lì)持續(xù)的成像過程。最終空間運(yùn)動(dòng)過程的獎(jiǎng)勵(lì)函數(shù)為
其中,ω1,2,3為不同獎(jiǎng)勵(lì)項(xiàng)之間的權(quán)重,被預(yù)先設(shè)定。
在實(shí)現(xiàn)了超聲探頭與人體的接觸步驟后,在超聲機(jī)器人姿態(tài)控制決策任務(wù)中的運(yùn)動(dòng)空間為連續(xù)的姿態(tài)運(yùn)動(dòng)變量,具體為超聲探頭在機(jī)器人坐標(biāo)系下繞x軸和繞y軸的角度變化量以進(jìn)行姿態(tài)調(diào)整。由于在實(shí)際場(chǎng)景中目標(biāo)的幾何特征是未知的,并且在視覺信息中超聲探頭會(huì)對(duì)被掃描的表面造成明顯的遮擋和擠壓變形,進(jìn)而導(dǎo)致難以獲得準(zhǔn)確的表面形態(tài),因此本文采用檢測(cè)超聲探頭在掃描過程中受到的力矩間接判斷超聲探頭與目標(biāo)之間的相對(duì)位置關(guān)系。該部分的狀態(tài)信息為末端力傳感器采集到的超聲探頭與成像目標(biāo)之間的3維接觸力和3維力矩信息,目的是保持超聲探頭和掃描表面之間的垂直關(guān)系,以獲得常規(guī)超聲成像診斷中清晰的圖像?;谶@些信息,智能體將根據(jù)參數(shù)化的策略在訓(xùn)練中最大化獎(jiǎng)勵(lì)。由于接觸力狀態(tài)為1維數(shù)據(jù),因此建立了一個(gè)具有3個(gè)隱藏層的多層感知機(jī)模型作為策略模型。成像目標(biāo)的不確定性導(dǎo)致被成像表面姿態(tài)的不確定,將超聲探頭在Rx方向和Ry方向受到的力矩的平方和作為獎(jiǎng)勵(lì)函數(shù)的主要部分
同樣當(dāng)超聲探頭受到的力矩足夠小后,增加一個(gè)正獎(jiǎng)勵(lì)值以鼓勵(lì)超聲探頭的持續(xù)成像動(dòng)作。至此已經(jīng)完成了智能超聲機(jī)器人成像任務(wù)中目標(biāo)函數(shù)、策略網(wǎng)絡(luò)和梯度策略的構(gòu)建。
在智能超聲機(jī)器人成像系統(tǒng)中,超聲探頭的適應(yīng)性恒力跟蹤對(duì)成像質(zhì)量和系統(tǒng)安全性至關(guān)重要。然而由于超聲機(jī)器人自主成像運(yùn)動(dòng)需要同時(shí)進(jìn)行姿態(tài)控制與力控制,并且被成像目標(biāo)的位置、姿態(tài)、表面剛度等特性均為未知,為高效穩(wěn)定的控制帶來了挑戰(zhàn)。導(dǎo)納控制又稱基于位置的阻抗控制或力反饋?zhàn)杩箍刂芠20]。在導(dǎo)納控制的實(shí)現(xiàn)中,內(nèi)環(huán)用于實(shí)現(xiàn)控制指令中的位置控制,外環(huán)用于建立力與位置的關(guān)系。導(dǎo)納控制器的輸出可表示為
為了實(shí)現(xiàn)在未知環(huán)境中超聲機(jī)器人保持高效柔性控制,結(jié)合機(jī)器人超聲成像決策方法,提出一種基于導(dǎo)納控制器的力-位移運(yùn)動(dòng)空間優(yōu)化方法。本方法將傳統(tǒng)導(dǎo)納控制器進(jìn)行反向推導(dǎo),通過將決策指令定義為被期望的超聲探頭與目標(biāo)之間的接觸力,并將該接觸力反向映射到機(jī)器人內(nèi)環(huán)運(yùn)動(dòng)控制,以實(shí)現(xiàn)柔性控制的同時(shí)避免對(duì)控制器復(fù)雜參數(shù)的調(diào)整。本控制策略由以下過程進(jìn)行推導(dǎo)。
根據(jù)已有的導(dǎo)納控制器,調(diào)節(jié)末端執(zhí)行器的導(dǎo)納特性與動(dòng)態(tài)控制位置關(guān)系可表示為
其中,M為慣性矩陣,B為阻尼矩陣,K為剛度矩陣,x為 位置向量,xdes為期望位置向量,x˙ 和x¨為位置向量的1階導(dǎo)數(shù)和2階導(dǎo)數(shù),即速度與加速度,F(xiàn)c為3個(gè)方向上的期望接觸力。根據(jù)這個(gè)變換,導(dǎo)納控制器可將力傳感器采集得到的力信號(hào)Fc轉(zhuǎn)化為末端執(zhí)行器的3維位置修正量,即
其中,Y是末端執(zhí)行器雅可比矩陣,D是質(zhì)量矩陣,C是離心力,G是重力項(xiàng)。由此可將力傳感器測(cè)量得到的接觸力轉(zhuǎn)化為下級(jí)機(jī)器人命令,由機(jī)械臂內(nèi)環(huán)控制器執(zhí)行。由于本文所提力控策略的思想為通過調(diào)整力輸出進(jìn)而調(diào)整機(jī)械臂整體的柔性特性,因此導(dǎo)納控制器的基本參數(shù)被預(yù)先設(shè)定為一個(gè)標(biāo)準(zhǔn)值,并且在后續(xù)的訓(xùn)練和測(cè)試中不再進(jìn)行變更。
與空間位移相同,在第2階段的超聲機(jī)器人姿態(tài)控制決策中,智能體輸出的指令為超聲探頭在機(jī)器人坐標(biāo)系下的2維力矩矢量,力矩矢量同樣被變換為超聲探頭在機(jī)器人坐標(biāo)系下的角度變量。與超聲探頭的空間運(yùn)動(dòng)不同,在姿態(tài)調(diào)整過程中智能體期望感知的力矩盡量小,以實(shí)現(xiàn)超聲探頭與目標(biāo)表面之間的垂直關(guān)系,進(jìn)一步可以實(shí)現(xiàn)對(duì)機(jī)器人空間姿態(tài)的調(diào)整,超聲成像任務(wù)的控制器示意圖如圖2所示。
圖2 面向超聲成像任務(wù)的機(jī)器人柔性控制策略
最終,控制器輸出的力值為智能體直接輸出的變量,而該變量為智能體在訓(xùn)練過程中獲得輸出與環(huán)境之間的映射,而不需要通過實(shí)時(shí)調(diào)整控制器的參數(shù)實(shí)現(xiàn)機(jī)器人的柔性控制。此過程與實(shí)際人工操作超聲探頭的控制過程更類似。
本節(jié)對(duì)所提智能超聲機(jī)器人系統(tǒng)進(jìn)行了搭建。本系統(tǒng)包含1個(gè)6自由度輕型通用機(jī)械臂,1個(gè)6自由度力/力矩傳感器,1個(gè)紅綠藍(lán)(E11攝像, ??低?彩色相機(jī)和1個(gè)無線超聲探頭。其中機(jī)械臂部分采用了協(xié)作式6自由度機(jī)器人(優(yōu)傲UR3,UNIVERAL ROBOT)。機(jī)器人的最后一個(gè)關(guān)節(jié)末端安裝了一個(gè)具有6自由度的高精度力/力矩傳感器(FT300 Force/Torque Sensor, Robotiq)以采集超聲探頭與接觸面之間的接觸力與力矩,該力傳感器的力與力矩噪聲分別為1 N和0.005 N·m,在此被認(rèn)為可以滿足超聲成像過程中的力與力矩檢測(cè)需求。
在超聲探頭方面,采用了一臺(tái)無線超聲成像設(shè)備(A7-1型無線探頭式黑白B超儀,恒騰醫(yī)療),固定在傳感器上作為整個(gè)超聲成像機(jī)器人的末端執(zhí)行器。機(jī)械臂、傳感器以及超聲探頭之間的坐標(biāo)、重心、質(zhì)量關(guān)系被預(yù)先標(biāo)定,以保證系統(tǒng)控制的準(zhǔn)確性。在視覺傳感器方面,由于在提出的場(chǎng)景信息感知方法不需要高精度的視覺采集設(shè)備或3維場(chǎng)景重建設(shè)備,也不需要進(jìn)行準(zhǔn)確的空間坐標(biāo)標(biāo)定,因此使用了普通RGB相機(jī)作為場(chǎng)景圖像采集設(shè)備,相機(jī)所在位置只需要與仿真環(huán)境中虛擬相機(jī)一致即可。所提超聲機(jī)器人系統(tǒng)如圖1所示。
首先為了對(duì)比本文所提方法與傳統(tǒng)基于路徑規(guī)劃控制方法的超聲成像效果,本部分對(duì)兩種方式在不同環(huán)境中的超聲成像過程進(jìn)行了評(píng)估。對(duì)比實(shí)驗(yàn)環(huán)境的設(shè)置為,成像任務(wù)中的試驗(yàn)?zāi)繕?biāo)為隨機(jī)放置的3個(gè)不同形狀的超聲人體模型(以下稱為體模),實(shí)驗(yàn)過程中機(jī)器人控制超聲探頭進(jìn)行成像動(dòng)作。當(dāng)機(jī)器人在運(yùn)動(dòng)終止前獲得目標(biāo)的穩(wěn)定超聲圖像時(shí),成像任務(wù)被認(rèn)為成功。如果在機(jī)器人運(yùn)動(dòng)結(jié)束前未獲得超聲圖像,或超聲探頭脫離工作空間或安全力限制,則認(rèn)為任務(wù)失敗。在成功率驗(yàn)證靜態(tài)實(shí)驗(yàn)中,每個(gè)無標(biāo)記體模被靜態(tài)放置在10個(gè)隨機(jī)且不同的位置,動(dòng)態(tài)實(shí)驗(yàn)中的體模被手動(dòng)向隨機(jī)方向移動(dòng)。
在用于對(duì)比的傳統(tǒng)路徑規(guī)劃控制方法中,本文構(gòu)建的對(duì)比系統(tǒng)采用了一個(gè)高精度立體相機(jī)(Ensenso-N35立體相機(jī),德國IDS公司)對(duì)體模的3維表面進(jìn)行重建,并對(duì)重建場(chǎng)景中的目標(biāo)進(jìn)行識(shí)別和分割。進(jìn)一步通過標(biāo)定立體相機(jī)坐標(biāo)系與機(jī)械臂坐標(biāo)系獲得3維表面的空間位置并生成規(guī)劃路徑,最終用于控制機(jī)械臂運(yùn)動(dòng)。在本文的控制方法中,機(jī)械臂在智能體的運(yùn)動(dòng)指令控制下進(jìn)行運(yùn)動(dòng),兩種方法面對(duì)的成像對(duì)象和環(huán)境相同。在靜態(tài)體模成像過程中,3個(gè)外形不同的柔軟體模被隨機(jī)放置在不同的位置,兩種方法分別對(duì)每個(gè)體模進(jìn)行20次成像實(shí)驗(yàn)。此外,本文還對(duì)成像環(huán)境分別增加了人為干擾和體模運(yùn)動(dòng),以對(duì)比兩種方法對(duì)動(dòng)態(tài)環(huán)境的魯棒性,結(jié)果如表1所示。
表1 強(qiáng)化學(xué)習(xí)方法與路徑規(guī)劃方法對(duì)不同柔性體模的成像成功率對(duì)比
結(jié)果顯示,本文所提采用智能體生成運(yùn)動(dòng)指令的方法的成像成功率在相對(duì)穩(wěn)定的環(huán)境中相比路徑規(guī)劃方法的成像成功率相近,但是有干擾的情況下對(duì)比基于路徑規(guī)劃的方法具有更好的成像過程,其主要原因是被重建的場(chǎng)景中超聲探頭對(duì)目標(biāo)遮擋或干擾導(dǎo)致的遮擋而使路徑規(guī)劃產(chǎn)生誤差。其中一例成像過程中的場(chǎng)景以及超聲探頭與體模接觸結(jié)果如圖3所示。
圖3 超聲機(jī)器人成像過程中智能體控制和路徑規(guī)劃輸入場(chǎng)景與超聲探頭接觸情況對(duì)比
一例超聲機(jī)器人在智能體的控制下對(duì)移動(dòng)的未知目標(biāo)執(zhí)行成像動(dòng)作的過程如圖4所示。在該過程中(從圖4(a)為開始,圖4(c)為結(jié)束),智能體根據(jù)當(dāng)前信息做出超聲探頭的成像動(dòng)作決策并控制超聲探頭的運(yùn)動(dòng),以實(shí)現(xiàn)對(duì)目標(biāo)的成像。當(dāng)超聲探頭與目標(biāo)接觸并獲得超聲圖像后,探頭保持穩(wěn)定。當(dāng)目標(biāo)被手動(dòng)向未知方向移動(dòng)時(shí),智能體繼續(xù)做出運(yùn)動(dòng)決策并驅(qū)動(dòng)超聲機(jī)器人保持超聲成像過程。期間超聲機(jī)器人被手動(dòng)打斷之后,智能體做出的動(dòng)作決策驅(qū)動(dòng)超聲機(jī)器人返回目標(biāo)并繼續(xù)成像動(dòng)作。該過程說明了所提方法在不需要預(yù)先人為路徑規(guī)劃、顯性特征引導(dǎo)和人為干預(yù)的情況下,做出與超聲成像任務(wù)相關(guān)的運(yùn)動(dòng)決策,最終實(shí)現(xiàn)超聲自主成像過程。
圖4 超聲機(jī)器人在智能體輸出的指令的控制下對(duì)動(dòng)態(tài)目標(biāo)做出成像動(dòng)作
其中機(jī)器人的運(yùn)動(dòng)速度為3 cm/s,在3組靜態(tài)目標(biāo)成像實(shí)驗(yàn)中,自主超聲成像過程的平均耗時(shí)為18.2 s,與手動(dòng)成像過程相近(<20 s)。為了評(píng)估在自主運(yùn)動(dòng)控制下的機(jī)器人運(yùn)動(dòng)效率,將超聲探頭的實(shí)際運(yùn)動(dòng)路徑和超聲探頭與目標(biāo)之間的相對(duì)距離之間比值定義為效率評(píng)估指數(shù)。其中超聲探頭的實(shí)際運(yùn)動(dòng)路徑是終止前每一步的位移量的累計(jì)值。在60次真實(shí)超聲機(jī)器人空間運(yùn)動(dòng)有效重復(fù)試驗(yàn)中,目標(biāo)被放置在不同的位置,實(shí)驗(yàn)得到的平均效率結(jié)果為95.2±3.1%,該結(jié)果說明在超聲探頭接觸表面前的空間自由度運(yùn)動(dòng)中,由智能體輸出動(dòng)作生成的路徑是高效的。
在超聲探頭成功與被成像表面接觸之后,超聲探頭的空間姿態(tài)根據(jù)末端執(zhí)行器與接觸目標(biāo)之間輸出的力矩由機(jī)器人進(jìn)行調(diào)整,以實(shí)現(xiàn)探頭跟隨人體曲面的掃描過程。與空間動(dòng)作決策指令不同,該部分的輸入信息僅為力傳感器采集到的力與力矩信息。在訓(xùn)練過程中,超聲探頭的姿態(tài)在每一次訓(xùn)練開始時(shí)隨機(jī)初始化,并且其空間運(yùn)動(dòng)指令中只加入了z方向的被期望接觸力以使超聲探頭與目標(biāo)的表面進(jìn)行接觸以減少訓(xùn)練的時(shí)間消耗。為了進(jìn)一步降低真實(shí)系統(tǒng)中不可預(yù)見的機(jī)器人系統(tǒng)錯(cuò)誤,例如到達(dá)機(jī)器人的運(yùn)動(dòng)奇異點(diǎn),訓(xùn)練過程中機(jī)器人只通過調(diào)整輸出力矩來學(xué)習(xí)接觸力和超聲探頭姿態(tài)之間的關(guān)系。在真實(shí)機(jī)器人上訓(xùn)練10 h后,訓(xùn)練得到的強(qiáng)化學(xué)習(xí)模型直接用于完整的超聲成像任務(wù),沒有再做額外調(diào)整。另外,由于智能體的動(dòng)作輸出是離散的,過高的決策頻率會(huì)導(dǎo)致整體系統(tǒng)發(fā)生震蕩。因此,智能體的決策輸出頻率設(shè)置為3 Hz,機(jī)器人的控制頻率為120 Hz。超聲圖像的記錄速度為16幀/s。
在這部分實(shí)驗(yàn)中,機(jī)器人超聲系統(tǒng)對(duì)一個(gè)剛度、表面結(jié)構(gòu)、空間位置等所有特性都未知的柔性復(fù)雜體模進(jìn)行了兩個(gè)不同方向的持續(xù)掃描動(dòng)作,探頭在掃描過程中,機(jī)器人需要進(jìn)行6自由度的調(diào)整以完成對(duì)曲面的掃描過程。為了對(duì)獲取的超聲圖像進(jìn)行定量評(píng)價(jià)以驗(yàn)證提出的控制方法的穩(wěn)定性和有效性,如圖5所示,在掃描過程中,超聲探頭需要以盡量垂直的角度保持與目標(biāo)表面之間的姿態(tài),其中包括控制運(yùn)動(dòng)方向的空間自由度指令執(zhí)行和用于控制角度的姿態(tài)自由度指令執(zhí)行。另外超聲探頭還需要克服柔性表面在接觸過程中產(chǎn)生的形變等不確定問題,保持探頭與表面穩(wěn)定而合適的接觸,進(jìn)而獲得超聲圖像。
圖5 不確定復(fù)雜柔性曲面上兩例超聲機(jī)器人成像過程
在超聲探頭的受力評(píng)估中,超聲探頭的力矩代表了超聲探頭與體模表面之間的摩擦力,也同時(shí)包含了探頭與體模表面接觸點(diǎn)的夾角導(dǎo)致的壓力。由于體模上涂有足夠的耦合劑而具有非常小的摩擦力,因此認(rèn)為超聲探頭的力矩主要是由探頭與表面之間存在夾角而產(chǎn)生的壓力導(dǎo)致的。兩個(gè)不同的超聲掃描過程中探頭的平均受力分析如表2所示。
表2 自主機(jī)器人超聲成像過程中超聲探頭受到不同方向的接觸力
結(jié)果顯示在兩次不同的掃描中,超聲探頭在Rx方向和Ry方向的力矩平均值分別為0.035±0.006,0.138±0.0235和-0.059±0.003, 0.084±0.0175。該力矩值表明在掃描過程中探頭與表面之間的夾角保持較小值,且沒有發(fā)生過大的波動(dòng)。而接觸力較小的標(biāo)準(zhǔn)差表示超聲探頭在接觸表面的過程中在運(yùn)動(dòng)自由度和旋轉(zhuǎn)自由度上都保持穩(wěn)定。
在定量化的對(duì)比中,本文將超聲圖像序列中的皮膚面積和超聲整體圖像面積的比值定義為評(píng)價(jià)指標(biāo)。在機(jī)器人超聲成像過程中,機(jī)器人獲得超聲圖像中皮膚面積的平均值為3.12 cm2,手動(dòng)的以相似的軌跡進(jìn)行采集的超聲圖像的這一數(shù)值為3.44 cm2,與機(jī)器人方法在皮膚面積上相差1.14%。此外,機(jī)器人采集得到的超聲圖像的皮膚面積的標(biāo)準(zhǔn)差值與超聲圖像中的自手動(dòng)掃描方法相差0.65%。這兩項(xiàng)指標(biāo)表明,超聲機(jī)器人采集的超聲圖像在有效性和穩(wěn)定性上可以達(dá)到人工掃描的水平。另外,該方法獲得的超聲圖像序列中的圖像完整性達(dá)到了98.85%,具體結(jié)果如表3所示。
表3 自主超聲機(jī)器人掃描和人工掃描圖像中皮膚區(qū)域面積結(jié)果對(duì)比
為了進(jìn)一步驗(yàn)證所提出的系統(tǒng)和控制方法在對(duì)人體進(jìn)行超聲成像任務(wù)中的可行性,使用真實(shí)系統(tǒng)進(jìn)行了志愿者超聲成像實(shí)驗(yàn)。在人體超聲成像過程中,呼吸引起的基線漂移是影響系統(tǒng)控制精度以及成像質(zhì)量的主要因素。對(duì)此,志愿者呼吸過程中的腹部區(qū)域被設(shè)定為測(cè)試區(qū)域。實(shí)驗(yàn)過程中志愿者躺在系統(tǒng)的工作空間內(nèi)的隨機(jī)位置以保證成像過程可以進(jìn)行。超聲探頭和其他環(huán)境的參數(shù)設(shè)置與體模實(shí)驗(yàn)中的參數(shù)相同。為了更明顯地評(píng)價(jià)探頭在人體成像過程中的柔性控制效果以及呼吸對(duì)超聲探頭運(yùn)動(dòng)造成的影響,實(shí)驗(yàn)過程中志愿者進(jìn)行深呼吸以使腹部表面發(fā)生明顯變化,實(shí)驗(yàn)過程中如果超聲探頭受到的接觸力超過設(shè)定的安全值,則終止實(shí)驗(yàn)過程,機(jī)器人恢復(fù)到安全位置。實(shí)驗(yàn)的場(chǎng)景圖以及機(jī)械臂在z方向上的空間運(yùn)動(dòng)曲線如圖6所示。
圖6 自主機(jī)器人超聲成像系統(tǒng)對(duì)真實(shí)人體進(jìn)行超聲掃描場(chǎng)景
實(shí)驗(yàn)過程中志愿者的身體沒有出現(xiàn)較大的x和y方向位移,因此記錄了超聲探頭在z方向的位置和力的變化。由結(jié)果可知,超聲探頭在z方向的不規(guī)則運(yùn)動(dòng)是由呼吸運(yùn)動(dòng)引起的。在超聲成像過程中,z方向接觸力的平均值和標(biāo)準(zhǔn)差值分別為10.9 N和4.8 N。標(biāo)準(zhǔn)差值較大說明呼吸運(yùn)動(dòng)對(duì)接觸力的影響。由于志愿者吸氣和呼氣引起的腹部運(yùn)動(dòng),接觸力的值暫時(shí)降低或增加,但仍保持了超聲圖像的穩(wěn)定輸出。整體實(shí)驗(yàn)結(jié)果表明提出的機(jī)器人超聲系統(tǒng)可以在志愿者正常呼吸或輕微移動(dòng)時(shí)進(jìn)行穩(wěn)定的超聲成像動(dòng)作。為了定量評(píng)價(jià)超聲探頭在z方向的移動(dòng)精度,將軟體模型固定在升降平臺(tái)上并上下移動(dòng),超聲探頭在z方向的平均接觸力為12.1 N。
此外,將志愿者的腰椎部分設(shè)置為自主機(jī)器人超聲成像測(cè)試的目標(biāo)。將術(shù)前的腰椎圖像進(jìn)行人工分割,作為超聲圖像中目標(biāo)匹配的模板,以替代體模的模板。實(shí)驗(yàn)中,由于志愿者的后背被覆蓋且成像區(qū)域與訓(xùn)練過程中使用的體模相似,因此對(duì)志愿者的成像區(qū)域進(jìn)行成像的強(qiáng)化學(xué)習(xí)模型與之前體模實(shí)驗(yàn)中訓(xùn)練得到的模型相同,未經(jīng)進(jìn)一步訓(xùn)練。實(shí)驗(yàn)結(jié)果和場(chǎng)景如圖6所示,在志愿者實(shí)驗(yàn)結(jié)果中,志愿者的腰椎在超聲圖像中的適當(dāng)位置,其中主要結(jié)構(gòu)標(biāo)志點(diǎn)與模板吻合,并能從超聲圖像中清晰地識(shí)別出來,這證明超聲探頭已經(jīng)移動(dòng)到正確的位置,并與皮膚接觸力可以實(shí)現(xiàn)清晰且安全的超聲成像。同樣本文也在志愿者不同部位進(jìn)行了持續(xù)的超聲成像驗(yàn)證,結(jié)果顯示本文的超聲機(jī)器人可以通過多自由度的姿態(tài)調(diào)整實(shí)現(xiàn)在不同部位上人體的掃描,并持續(xù)獲得超聲圖像。
本文針對(duì)復(fù)雜臨床環(huán)境中超聲機(jī)器人智能化和自動(dòng)化成像過程,以及傳統(tǒng)路徑規(guī)劃運(yùn)動(dòng)控制方法面臨的規(guī)劃路徑易被干擾等問題,提出了基于近端策略優(yōu)化的強(qiáng)化學(xué)習(xí)多自由度超聲機(jī)器人系統(tǒng)。該系統(tǒng)在于構(gòu)建一個(gè)人工智能體,在不需要人為預(yù)先定義路徑或進(jìn)行干預(yù)的情況下輸出超聲機(jī)器人復(fù)雜的成像動(dòng)作。通過結(jié)合強(qiáng)化學(xué)習(xí)原理,針對(duì)性地構(gòu)建了空間自由度和姿態(tài)自由度分別運(yùn)動(dòng)調(diào)整的運(yùn)動(dòng)控制策略。并進(jìn)一步針對(duì)復(fù)雜人體柔性表面難以掃描問題,提出了基于導(dǎo)納控制器的力-位移的柔性控制方法,在實(shí)驗(yàn)驗(yàn)證中,通過進(jìn)行超聲成像可行性實(shí)驗(yàn),以及運(yùn)動(dòng)效率實(shí)驗(yàn)驗(yàn)證了所提方法的可行性與決策生成效率。在志愿者實(shí)驗(yàn)中,所提方法可以有效解決呼吸導(dǎo)致的基線漂移問題,以及完成了對(duì)志愿者不同身體部位的持續(xù)機(jī)器人超聲成像過程。本文所提智能超聲機(jī)器人控制方法和系統(tǒng)為臨床智能診斷提供了新型的解決方案。
然而本文仍然存在一些局限性。在本文中機(jī)器人的柔性參數(shù)等由人為設(shè)定為一個(gè)預(yù)定值,這些參數(shù)通常決定了系統(tǒng)的剛度特性。雖然本文的方法可以在避免參數(shù)調(diào)整的情況下有效實(shí)現(xiàn)柔性控制,但是在一些突發(fā)情況等安全問題下這些參數(shù)仍需要進(jìn)行閉環(huán)的調(diào)整,這也是本文后續(xù)將要進(jìn)行的研究。此外除了場(chǎng)景圖像以及力信息以外,超聲圖像同樣是指導(dǎo)機(jī)器人進(jìn)行運(yùn)動(dòng)的關(guān)鍵信息,因此在未來的工作中我們將把超聲圖像本身納入對(duì)機(jī)器人的運(yùn)動(dòng)控制指導(dǎo)當(dāng)中。