朱 安,陳 力
(福州大學機械工程及自動化學院,福州350116)
隨著人類對太空探索的不斷深入,全球每年都向太空發(fā)射大量通訊、導航、氣象、觀測等各種功能的衛(wèi)星,這些衛(wèi)星中難免會有一小部分未能到達預定軌道,或者在軌道運行過程中發(fā)生失效;另外,衛(wèi)星達到使用壽命一般情況下是因為其攜帶的燃料耗盡,而不是本身發(fā)生故障。因此若可以對上述衛(wèi)星進行回收再利用,將能夠極大地降低太空探索的成本。目前,使用空間機器人完成對衛(wèi)星的回收任務具有廣闊的應用前景,受到了國內(nèi)外學者的廣泛關注[1?9]。一般情況下,在軌捕獲操作可分為如下4個階段:1)對被捕獲衛(wèi)星進行觀測;2)空間機器人逐漸靠近被捕獲衛(wèi)星,進行捕獲階段的準備;3)空間機器人末端抓手與被捕獲衛(wèi)星的捕獲點接觸、碰撞;4)捕獲完成后,對空間機器人與被捕獲衛(wèi)星形成的混合體系統(tǒng)進行鎮(zhèn)定控制。其中,捕獲操作的第3階段、第4 階段最為關鍵且最具挑戰(zhàn),因此眾多學者均致力于此階段的研究。
針對捕獲操作的第3 階段,筆者研究團隊[10]對空間機器人捕獲衛(wèi)星過程的動力學演化模擬進行了分析,且計算了碰撞沖擊效應;陳鋼等[11]針對碰撞問題,利用碰撞過程中產(chǎn)生沖量的原理建立了碰撞動力學模型,且提出了一種碰撞運動分析算法;Liu 等[12]基于赫茲接觸理論建立了空間機器人與目標之間的接觸力,并深入地分析了對心碰撞和偏心碰撞對整個系統(tǒng)的影響;Uyama 等[13]對空間機器人與自由漂浮衛(wèi)星的接觸效應進行了實驗的評估;Yoshida 等[14]基于動量守恒定律研究了空間機器人捕獲衛(wèi)星的碰撞動力學及運動學問題;筆者研究團隊[15]通過假設模態(tài)法近似描述柔性桿的彈性變形,然后利用動量沖量法分析了空間機械臂捕獲衛(wèi)星的碰撞動力學。值得注意的是,上述學者雖然注意到了對碰撞分析的必要性,但卻忽略了對關節(jié)的保護問題。事實上非合作衛(wèi)星一般具備高速、旋轉等特性,而空間機器人的關節(jié)是較為脆弱的部分,若捕獲操作中未對關節(jié)進行保護,關節(jié)就有可能受到?jīng)_擊破壞,從而使捕獲操作失敗,甚至造成空間機器人的損壞。地面機器人中,為了防止機器人與外界環(huán)境發(fā)生碰撞時造成關節(jié)的沖擊破壞,在關節(jié)電機與機械臂之間加入串聯(lián)彈性執(zhí)行器(Series Elastic Actuator,SEA)是一種行之有效的手段[16?20]。然而SEA 的加入將極大地增加關節(jié)的柔性,考慮到空間機器人為無根樹系統(tǒng),且由于其自身結構特點與太空微重力、高真空環(huán)境的特殊性,一般由SEA 引發(fā)的柔性振動將很難得到抑制,從而造成控制精度的下降,嚴重時可能使系統(tǒng)失穩(wěn)。因此,本文針對空間機器人嘗試設計了一種彈簧阻尼緩沖裝置(Spring-Damper Device, SDD)。相較于SEA,SDD不僅能夠實現(xiàn)沖擊載荷的快速緩沖卸載,而且還能使柔性振動快速衰減,實現(xiàn)對柔性振動的抑制。
針對捕獲操作的第4階段,Huang 等[21]對空間機器人捕獲衛(wèi)星后質量特性與反作用輪結構發(fā)生變化的問題,提出了一種改進的Sate-Dependent Riccati 最優(yōu)控制器;Wang 等[22]針對空間機器人捕獲非合作衛(wèi)星的運動規(guī)劃和控制問題,利用四次Bezier 曲線和自適應粒子群算法,提出了一種最優(yōu)翻轉策略和協(xié)調(diào)控制方案;Flores-Abad 等[23]為了減小空間機器人在軌捕獲旋轉目標的撞擊,通過初始和最終邊界條件的隨機不確定性,求解了一種最優(yōu)控制方案。然而上述控制方案均未將沖擊效應考慮在內(nèi),在實際的捕獲操作過程中,特別是針對具有高速、旋轉特性的非合作衛(wèi)星,由于沖擊效應的存在,關節(jié)電機開啟時將受到瞬時沖擊力矩,瞬時沖擊力矩過大時也可能造成關節(jié)的損壞。因此,如何在限制瞬時沖擊力矩的前提下實現(xiàn)對混合體系統(tǒng)的鎮(zhèn)定控制,具有一定的探索價值。強化學習控制由于能通過試錯與環(huán)境交互而不斷地進行自我優(yōu)化,具有極強的環(huán)境適應能力[24?27];高速、旋轉衛(wèi)星的巨大動能很容易使捕獲后形成的混合體系統(tǒng)處于嚴重失穩(wěn)狀態(tài),這很可能導致控制系統(tǒng)在運行過程中違反約束條件,使系統(tǒng)性能下降甚至出現(xiàn)安全問題,因此對系統(tǒng)輸出或狀態(tài)的約束控制是實現(xiàn)鎮(zhèn)定控制的重要一環(huán)。而Barrier-Lyapunov 函數(shù)能在物理極限內(nèi)保持機器人末端執(zhí)行器的約束,即可以保證系統(tǒng)的瞬態(tài)性能和穩(wěn)定性[28?30],對實現(xiàn)嚴重失穩(wěn)的混合體系統(tǒng)鎮(zhèn)定具有一定的優(yōu)勢。故本文提出一種基于Barrier-Lyapunov 函數(shù)的自適應積分強化學習控制方案。該方案通過自適應強化學習追蹤系統(tǒng)不確定參數(shù),而不是直接參與控制率的設計,從而降低強化學習對系統(tǒng)參數(shù)的依賴性。
本文為了在空間機器人捕獲衛(wèi)星操作過程中保護關節(jié)免受沖擊破壞,設計了一種SDD,且配合該裝置提出了一種柔順策略。用含耗散力Lagrange方程法與Newton-Euler 法導出了分體系統(tǒng)動力學方程;通過牛頓第三定律、捕獲點的速度、位置約束計算了碰撞沖擊效應與沖擊力,并結合動量守恒關系導出了混合體系統(tǒng)動力學方程;提出了一種自適應積分滑模強化學習控制方案,在限制瞬時沖擊力矩情況下,實現(xiàn)對失穩(wěn)混合體系統(tǒng)的鎮(zhèn)定控制;通過對捕獲操作過程的仿真,驗證了所提柔順策略與控制方案的有效性。
SDD的模型圖如圖1(a)所示,其原理圖如圖1(b)所示。SDD主要由旋轉阻尼器與扭轉彈簧組成,扭轉彈簧主要起傳動與吸收沖擊能量作用,旋轉阻尼器則實時提供阻尼力抑制柔性振動。扭轉彈簧與旋轉阻尼器兩端分別與電機端、機械臂端固連,為了讓阻尼器實時同步提供阻尼力抑制柔性振動,將其嵌套在彈簧內(nèi)部實現(xiàn)同步運動。將電機端、機械臂端的阻尼力等效為由阻尼器提供,以便更加真實地描述空間機器人系統(tǒng)。圖1中ksi、Dti(i=1,2)分別為扭轉彈簧的剛度、旋轉阻尼器的阻尼系數(shù);Dmi、DLi(i=1,2)分別為電機、機械臂端等效阻尼器的阻尼系數(shù)。
圖1 SDD結構Fig.1 Structural of the SDD
在捕獲的第3階段,空間機器人機械臂末端與被捕獲衛(wèi)星發(fā)生劇烈碰撞,此時機械臂末端將受到很大的沖擊力矩。在傳導至電機轉子的過程中,該力矩會被彈簧和阻尼器快速卸載,從而實現(xiàn)對關節(jié)的保護。在捕獲的第4階段,根據(jù)關節(jié)所能承受的極限力矩值來設置一個關機力矩閾值,當檢測到瞬時沖擊力矩超過所設閾值后電機關停,此時SDD中的彈簧將會提供彈力來減小關節(jié)所受沖擊力矩,阻尼器將會快速耗能抑制柔性振動。但若只設定關機力矩閾值,將導致電機頻繁的開關機,很容易造成電機的損壞。因此,本文所提的緩沖柔順策略同時設置了開、關機閾值,當檢測到瞬時沖擊力矩超過關機力矩閾值時電機關停;當SDD將瞬時沖擊力矩降低到開機閾值后電機再次開啟。
配置SDD的空間機器人系統(tǒng)與衛(wèi)星系統(tǒng)如圖2所示,為更直觀地顯示SDD在空間機器人中的安裝位置,其位置示意圖如圖3所示。其中xOy為系統(tǒng)隨軌道平動的慣性參考坐標系;xiOiyi(i=1,2)為空間機器人各分體的主軸連體坐標系;xsOsys為固定在衛(wèi)星質心上的本體坐標系。文中所用符號定義如下:m0、I0、d0分別為載體的質量、轉動慣量、質心到第一個關節(jié)鉸中心的距離;ms、Is、ds分別為衛(wèi)星的質量、轉動慣量、質心到末端把手的距離;mi、Ii、Li(i=1,2)分別為第i個機械臂的質量、轉動慣量、長度;Imi(i=1,2)為第個i電機轉子的轉動慣量;di(i=1,2)為第i個關節(jié)鉸中心到機械臂i質心的距離; θ0、 θi、 θs、θmi(i=1,2)分別為載體姿態(tài)角、機械臂轉角、衛(wèi)星姿態(tài)角和電機轉子轉角。
圖2 空間機器人與衛(wèi)星系統(tǒng)Fig.2 Space robot and satellite systems
圖3 SDD 位置示意圖Fig.3 Position diagrams of SDD
由圖2可導出載體質心O0、機械臂i(i=1,2)質心Oci相對原點O的矢徑為:
本文捕獲的衛(wèi)星為高速、旋轉的非合作衛(wèi)星,由于沖擊效應的存在,混合體系統(tǒng)將發(fā)生較大的位置偏移,強化學習控制方案因具有較強環(huán)境交互能力,對嚴重失穩(wěn)的混合體系統(tǒng)具有良好的鎮(zhèn)定控制效果。空間機器人捕獲非合作衛(wèi)星的時間較短,其數(shù)據(jù)源相應較少,且碰撞過程要求保持末端執(zhí)行器約束,因此提出一種基于Barrier-Lyapunov 函數(shù)的自適應積分強化學習控制方案,通過強化學習追蹤系統(tǒng)不確定參數(shù),而不直接參與控制器的設計,降低了控制器對數(shù)據(jù)的依賴性。
系統(tǒng)控制流程如圖4所示,其通過性能評測器(Performance Measurement)產(chǎn)生滑模信號,然后強化學習控制器(Learning Controller)根據(jù)滑模信號來不斷地優(yōu)化系統(tǒng)評估參數(shù)c?,使其接近系統(tǒng)真實參數(shù)c,從而消除系統(tǒng)參數(shù)不確定的影響?;贐arrier-Lyapunov 函數(shù)的力矩設計器(Torque Designer)則通過系統(tǒng)評估參數(shù)c?與滑模信號S共同設計輸出力矩,從而使控制器可以在物理極限內(nèi)保持機器人末端執(zhí)行器的約束,保證系統(tǒng)的瞬態(tài)性能和穩(wěn)定性。
圖4 系統(tǒng)控制流程圖Fig.4 Control block diagram of system
采用圖2所示的空間機器人系統(tǒng)與衛(wèi)星系統(tǒng)進行仿真試驗研究。空間機器人系統(tǒng)參數(shù)如下:
m0=100 kg,mi=10 kg(i=1,2),L0=1 m,Li=2 m(i=1,2),di=1 m(i=1,2),I0=64 kg·m2,Ii=3.5 kg·m2(i=1,2),Imi=0.05 kg·m2(i=1,2),ksi=2865 N/rad(i=1,2),Dmi=28.65 N·s/rad,Dti=1146 N·s/rad(i=1,2),DLi=28.65 N·s/rad(i=1,2)。衛(wèi)星參數(shù)如下:ms=50 kg,ds=0.5 m,Is=8.5 kg·m2。假設空間機器人初始位置為qr=[0 m,0 m,100?,30?,60?]T,初 始 速 度 為q˙r=[0 m/s,0 m/s,0?/s,0?/s,0?/s]T。
為了突出SDD在空間機器人捕獲衛(wèi)星操作撞擊過程中的抗沖擊性能,在多組衛(wèi)星速度下,分別對配置SEA 與SDD的空間機器人關節(jié)所受沖擊力矩進行力學模擬,其中SEA 的中彈簧與SDD中的彈簧剛度相同。結果如表1、表2所示,表中第一列為衛(wèi)星速度,第二列、第三列分別為有、無配置SEA 或SDD下關節(jié)所受最大沖擊力矩,第四列為關節(jié)所受沖擊力矩降低的最大百分比。從表1、表2的對比可以看出,在碰撞過程中,對于給定的不同衛(wèi)星速度,SEA 與SDD均能起到緩沖作用,但由于SDD中的阻尼器能夠有效地吸收、消耗沖擊能量,表現(xiàn)為抗沖擊性能比SEA 更好,且可看出配置SEA 最大可將碰撞沖擊力矩降低40.98,配置SDD最大可將碰撞沖擊力矩降低55.42%,因此可以認為配置SDD能在碰撞過程對關節(jié)起到更好的保護作用。
表1 不同衛(wèi)星速度下SEA 抗沖擊性能對比Table 1 Comparison of impact resistance of SEA at different satellite velocities
表2 不同衛(wèi)星速度下SDD抗沖擊性能對比Table 2 Comparison of impact resistanceof SDD at different satellitevelocities
系統(tǒng)控制參數(shù)如下:Λ1=diag(1.2,1.2,1.2),Λ2=diag(0.01,0.01,0.01),KV=diag(500,500,500),ε=5 ,Γ1=0.0005 ,Γ2=0.001 ,Γ3=0.0015 ,Γ4=0.0008,w1=1000/(1+0.03t)2,w2=600/(1+0.03t)2,w3=440/(1+0.03t)2,w4=440/(1+0.03t)2,σ1=4000/(1+0.5t)1.5,σ2=100/(1+5t)1.5,σ3=440/(1+t)1.5,σ4=440/(1+t)1.5,c?i=10(i=1,2,3,4)??臻g機器人初始位置、速度同4.1,衛(wèi)星速度取q˙s=[0.1 m/s,0.1 m/s,8.6?/s]T,混合體系統(tǒng)期望狀態(tài)為qd=[100?,30?,60?]T。為了盡可能地保護關節(jié),需先讓SDD將碰撞產(chǎn)生的沖擊力矩卸載后電機才能開啟,經(jīng)計算分析可知1.5 s內(nèi)沖擊力矩可卸載,因此電機在發(fā)生碰撞1.5 s后開機。結合式(14)、式(20)可計算出電機開機時混合體系統(tǒng)的位置為qrsθ=[84.62?,11.15?,25.63?]T,仿真時間為30 s。
為了體現(xiàn)SDD相較于SEA 的優(yōu)勢,仿真時采用文獻[20]所示的SEA 結構進行對比。假設在電機負載情況下,關節(jié)能承受的沖擊力矩為120 N·m;第一組仿真將關機力矩閾值設為FC=100 N·m,開機力矩閾值設置為FO=10 N·m;考慮到隨著空間機器人使用年數(shù)的增加,關節(jié)所能承受沖擊力矩將會下降,因此第二組仿真將關機力矩閾值設置為FC=80 N·m,開機力矩閾值設置為FO=10 N·m。
從圖5可知,在鎮(zhèn)定控制階段,配置SDD電機經(jīng)過4次關停后進入穩(wěn)定輸出狀態(tài)。從圖6可知,配置SDD能達到限制瞬時沖擊力矩的效果,且由于阻尼器可以對彈簧產(chǎn)生的柔性振動起到抑制效果,因此不會出現(xiàn)沖擊力矩遠超關機閾值的情況。從圖7~圖9可知,配置SDD與配置SEA均能實現(xiàn)鎮(zhèn)定控制,但會出現(xiàn)SDD曲線高于SEA曲線的情況(如圖7、圖9所示),使配置SDD的系統(tǒng)似乎沒有配置SEA 的系統(tǒng)穩(wěn)定;但事實上軌跡的運動狀態(tài)與開關機間隔有關,開關機間隔越大系統(tǒng)處于無控狀態(tài)的時間越長,則偏離期望軌跡的距離就越大,反之亦然。
圖5 含SDD電機開關機信號(第1組)Fig.5 Switch signal of joint motor with SDD(1st group)
圖6 含SDD關節(jié)所受沖擊力矩(第1組)Fig.6 Joint impact torque with SDD(1st group)
圖7 載體姿態(tài)角軌跡(第1組)Fig.7 Trajectory of attitude angle (1st group)
圖8 關節(jié)角1軌跡(第1組)Fig.8 Trajectory of joint angle 1(1st group)
圖9 關節(jié)角2軌跡(第1組)Fig.9 Trajectory of joint angle 2(1st group)
從圖5與圖10的對比可以看出,電機達到穩(wěn)定輸出狀態(tài)的開關機次數(shù)有明顯的增加,原因在于隨著關機閾值的減小,電機的輸出能力會隨之下降,導致實現(xiàn)鎮(zhèn)定控制的時間增加。通過圖11可以看出,即使減小關機閾值,SDD仍能達到限制瞬時沖擊力矩的效果,表現(xiàn)出較好的安全性。從圖12~圖14可知,配置SEA 系統(tǒng)出現(xiàn)無法實現(xiàn)鎮(zhèn)定控制的現(xiàn)象,原因在于配置SEA 的系統(tǒng)在抑制由彈簧產(chǎn)生的柔性時采用了奇異攝動法,需通過設計快變子力矩來抑振,當電機輸出能力被進一步削弱時(關機閾值減小)就無法提供足夠的抑振力矩來抑制柔性振動,從而導致系統(tǒng)鎮(zhèn)定控制失??;而SDD中的抑振是通過彈簧來實現(xiàn)的,因此SDD表現(xiàn)出比SEA 更好的穩(wěn)定性。
圖10 含SDD電機開關機信號(第2組)Fig.10 Switch signal of joint motor with SDD (2st group)
圖11 含SDD 關節(jié)所受沖擊力矩(第2組)Fig.11 Joint impact torquewith SDD(2st group)
圖12 載體姿態(tài)角軌跡(第2組)Fig.12 Trajectory of attitude angle (2st group)
圖13 關節(jié)角1軌跡(第2組)Fig.13 Trajectory of joint angle1(2st group)
圖14 關節(jié)角2軌跡(第2組)Fig.14 Trajectory of joint angle2(2st group)
針對空間機器人捕獲非合作操作衛(wèi)星,設計了一種SDD,提出了一種柔順策略與強化學習控制方案,主要有如下結論:
(1)所設計的SDD可以在碰撞過程中有效地減小關節(jié)所受碰撞沖擊力矩。
(2)配合SDD所提的柔順策略可以在鎮(zhèn)定控制過程中將關節(jié)所受瞬時沖擊力矩限制在安全范圍。
(3)所提基于Barrier-Lyapunov 函數(shù)的自適應積分強化學習控制方案可以在限制關節(jié)所受瞬時力矩的前提下,實現(xiàn)混合體系統(tǒng)的鎮(zhèn)定控制。