周榮亞,劉 剛,徐艷華
(1.陜西鐵路工程職業(yè)技術(shù)學(xué)院鐵道裝備制造學(xué)院,陜西 渭南 714000)(2.西安理工大學(xué)材料科學(xué)與工程學(xué)院,陜西 西安 710048)
目前已有諸多學(xué)者進(jìn)行了大量關(guān)于機(jī)器人軌跡跟蹤控制的研究,并取得了一定的成果[1-2]。其中部分研究以機(jī)器人動力學(xué)表示為線性參數(shù)形式為基礎(chǔ),開發(fā)了自適應(yīng)控制器以實(shí)現(xiàn)漸近跟蹤。然而對于柔性關(guān)節(jié)機(jī)器人軌跡控制而言,仍存在動力學(xué)模型精確度較低難以提高控制精度的缺陷,當(dāng)前業(yè)界主要解決方式是采用簡化的降階模型來進(jìn)行前饋控制,并通過離線辨識得到模型的精確參數(shù),這種控制方式也叫做迭代學(xué)習(xí)控制(iterative learning control,ILC)[3-4]。目前,ILC已被應(yīng)用于跟蹤特定的軌跡,算法自適應(yīng)性強(qiáng)且魯棒性高,但也有其自身的缺點(diǎn),即算法學(xué)習(xí)后的結(jié)果無法反饋至新的軌跡中。隨著神經(jīng)網(wǎng)絡(luò)以及人工智能技術(shù)的不斷發(fā)展,基于神經(jīng)網(wǎng)絡(luò)(neural network,NN)的軌跡跟蹤技術(shù)在海量訓(xùn)練數(shù)據(jù)與新設(shè)計(jì)的結(jié)構(gòu)下,對新軌跡具有較高的泛化能力,因此神經(jīng)網(wǎng)絡(luò)結(jié)合迭代學(xué)習(xí)控制的算法模型逐漸應(yīng)用至機(jī)器人軌跡控制中。
現(xiàn)有研究提出了多種控制未知動力學(xué)機(jī)器人軌跡的方案,并給出了神經(jīng)網(wǎng)絡(luò)[5]的應(yīng)用范例。文獻(xiàn)[6]對遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network,RNN)進(jìn)行改進(jìn),使用兩個前饋控制器來補(bǔ)償Baxter機(jī)器人的柔性臂軌跡控制精度。其中一個控制器基于單向RNN算法設(shè)計(jì),另一個控制器則基于雙向RNN設(shè)計(jì),兩者構(gòu)成的非因果動態(tài)逆控制系統(tǒng)具有良好的跟蹤效果,但這種方法仍有一定的局限性。由RNN特性可知,該方法模型需要大量訓(xùn)練數(shù)據(jù)才能提高控制精度,且該方法缺乏嚴(yán)格的軌跡誤差收斂性與穩(wěn)定性分析。除了上述缺點(diǎn)外,NNs(neural networks)所進(jìn)行的是離線訓(xùn)練,不能實(shí)現(xiàn)在線更新。同樣文獻(xiàn)[7]也訓(xùn)練了多層前饋神經(jīng)網(wǎng)絡(luò),文獻(xiàn)中所提方法和文獻(xiàn)[6]中構(gòu)建的非因果動態(tài)逆控制方法類似,均通過大規(guī)模的ILC軌跡實(shí)驗(yàn)來獲取訓(xùn)練數(shù)據(jù),經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)在補(bǔ)償未觀測軌道方面表現(xiàn)良好,但也存在與文獻(xiàn)[6]類似的缺陷。
在神經(jīng)網(wǎng)絡(luò)模型設(shè)計(jì)中,模型參數(shù)的選擇對算法整體精度有著舉足輕重的作用,有學(xué)者對徑向基函數(shù)(radial basis function,RBF)[8-9]進(jìn)行改進(jìn),原因在于該函數(shù)對模型的線性精度有較大影響。同樣地,文獻(xiàn)[10]也設(shè)計(jì)了一種基于改進(jìn)RBF神經(jīng)網(wǎng)絡(luò)的自適應(yīng)控制模型,通過補(bǔ)償Baxter機(jī)器人的未知動力學(xué)及載荷誤差來提升系統(tǒng)控制精度。該模型通過對關(guān)節(jié)扭矩力的精確控制來改善軌跡跟蹤誤差。對于大部分工業(yè)機(jī)器人,由于用戶權(quán)限較低,僅能修改部分關(guān)節(jié)位置或速度設(shè)定點(diǎn),導(dǎo)致單個RBF神經(jīng)網(wǎng)絡(luò)無法對機(jī)器人軌跡控制的所有要素進(jìn)行訓(xùn)練,如慣性矩陣的正定性和無源性等。文獻(xiàn)[11]提出了一種基于兩層前向感知器神經(jīng)網(wǎng)絡(luò)的關(guān)節(jié)力矩級自適應(yīng)控制器,來保證機(jī)器人的跟蹤性能。但隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,自適應(yīng)律的推導(dǎo)將更加復(fù)雜,工程應(yīng)用價值較低。除了使用RBF函數(shù)優(yōu)化神經(jīng)網(wǎng)絡(luò)外,其他函數(shù)[12-16]也可對神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,從而對網(wǎng)絡(luò)性能有一定的提升。
柔性關(guān)節(jié)機(jī)器人機(jī)械手的軌跡跟蹤控制數(shù)學(xué)模型如下:
(1)
1)電機(jī)位置θm理想化,比如忽略實(shí)際環(huán)境存在的其他誤差。
2)所有關(guān)節(jié)的剛度K相同,可由式(2)計(jì)算:
K=kpI
分階段地展示學(xué)生的進(jìn)步在教學(xué)環(huán)節(jié)中尤為重要。當(dāng)聾生掌握了一種新知識的時候就可以到教師機(jī)上利用廣播展示給全班同學(xué)看;當(dāng)聾生學(xué)會一級簡碼時,就可以全班同學(xué)比一比,看誰能最快并正確輸入一級簡碼;當(dāng)聾生能完整的用五筆輸入一篇文章時,就可以邀請班主任等其他任課教師,還可以邀請家長來欣賞他們的學(xué)習(xí)成果,并督促他們更上一層樓。
(2)
式中:kp為關(guān)節(jié)剛度常數(shù),kp>0;I為單位剛度。
機(jī)器人動力學(xué)方程可改寫為:
(3)
式中:H(θ)=G(θ)+kpθ。將動力學(xué)方程表示為線性參數(shù)形式,則有:
(4)
由于本文仿真模型柔性關(guān)節(jié)臂為單擺模型,因此首先用單擺進(jìn)行仿真測試,然后將仿真結(jié)果反饋到Baxter等多連桿機(jī)器人中,并與自適應(yīng)控制器和基線比例微分(PD)控制器(增益為K1和K2)的性能進(jìn)行比較得到差值。
(5)
本文基于神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了自適應(yīng)控制器,進(jìn)而完成θm的最優(yōu)化求解。
對于控制器,采用Lyapunov的候選函數(shù)進(jìn)行穩(wěn)定性分析。該函數(shù)表達(dá)式為:
(6)
(7)
通過取V的時間導(dǎo)數(shù)并與式(3)、式(4)聯(lián)立可得到:
(8)
(9)
式中:Ks和k均為換元得到的變量系數(shù)。Kss項(xiàng)中Ks>0,保證了跟蹤誤差的收斂性;附加的高增益反饋項(xiàng)ksgn(s)具有較強(qiáng)的魯棒性,故可有效降低網(wǎng)絡(luò)建模誤差及噪聲。經(jīng)推導(dǎo)可得:
(10)
式中:‖s‖l表示向量l的范數(shù)。通過選擇自適應(yīng)率:
(11)
有:
(12)
神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)分為3個部分,分別為網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)、訓(xùn)練樣本收集以及網(wǎng)絡(luò)初始化訓(xùn)練。
1)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)。網(wǎng)絡(luò)由多個不同層的有向圖組成,網(wǎng)絡(luò)架構(gòu)如圖1所示,神經(jīng)網(wǎng)絡(luò)連接點(diǎn)見表1。神經(jīng)網(wǎng)絡(luò)由輸入層、卷積層、全連接層以及輸出層構(gòu)成。對Y變量進(jìn)行訓(xùn)練需要滿足輸出層a具有和Y變量相同的維度,由于模型全連接層輸出為一維數(shù)據(jù),為了滿足網(wǎng)絡(luò)輸出需要,本網(wǎng)絡(luò)使用卷積結(jié)構(gòu)作為輸出層,輸出結(jié)果為二維向量。
表1 神經(jīng)網(wǎng)絡(luò)連接點(diǎn)
圖1 神經(jīng)網(wǎng)絡(luò)架構(gòu)
機(jī)械臂顯著的缺點(diǎn)是抗干擾能力差,當(dāng)系統(tǒng)受到外部干擾時,輸出層權(quán)重的純自適應(yīng)可能需較長時間才能使跟蹤誤差收斂。因此將所收集的、系統(tǒng)動態(tài)變化后的輸入/輸出數(shù)據(jù)用于回歸量Y的在線學(xué)習(xí)。之后以較高和較低的速率更新輸出層及回歸器權(quán)重。圖2給出了回歸因子在線實(shí)時調(diào)節(jié)的示意。
圖2 回歸因子的在線調(diào)節(jié)示意圖
總控制架構(gòu)的示意圖如圖3所示。由圖可以看出,本文模型由神經(jīng)自適應(yīng)控制器以及在線學(xué)習(xí)反饋模塊組成。神經(jīng)自適應(yīng)控制器將人為規(guī)劃的軌跡作為輸入數(shù)據(jù),控制器中的神經(jīng)網(wǎng)絡(luò)模型對軌跡數(shù)據(jù)進(jìn)行訓(xùn)練,進(jìn)而控制機(jī)器人運(yùn)動。在線學(xué)習(xí)反饋模塊對當(dāng)前機(jī)器人的輸出軌跡進(jìn)行誤差分析得到回歸因子,同時將回歸因子送入控制器中,與設(shè)定軌跡一起訓(xùn)練,以保證控制器的輸出精度。
圖3 總控制架構(gòu)
為驗(yàn)證本模型的可行性,首先在Simulink中模擬單擺的內(nèi)耗模型,即將黏滯摩擦與庫侖摩擦轉(zhuǎn)變?yōu)樗固乩镓惪四Σ痢S捎谙到y(tǒng)動力學(xué)建立在式(1)的基礎(chǔ)上,所以K是假設(shè)的標(biāo)量,自然也適用于SISO系統(tǒng)。此外為了使研究的系統(tǒng)更具普適性,本文以MIMO系統(tǒng)展開測試。仿真軟件使用MATLAB R2017a中的Simulink工具箱,數(shù)據(jù)集數(shù)量為6 000條,其中4 800條用作訓(xùn)練集數(shù)據(jù),1 200條用作驗(yàn)證集數(shù)據(jù)。
本文采用對比實(shí)驗(yàn)的方式,對在線學(xué)習(xí)模塊的作用進(jìn)行評估,實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 單擺正弦軌跡的絕對跟蹤誤差比較
由圖4可知,兩個系統(tǒng)的跟蹤誤差在0~5 s內(nèi)收斂,這意味著訓(xùn)練的網(wǎng)絡(luò)能夠精確地逼近單擺動力學(xué)模型。
5~15 s,由于摩擦模型的改變,兩個系統(tǒng)的跟蹤誤差均會增加。
在15 s時打開自適應(yīng)控制器,兩個系統(tǒng)的跟蹤誤差就會減少。但對于本算法而言,通過在線反向傳播完成回歸更新,可使其跟蹤誤差進(jìn)一步減小。由此表明,本模型中在線學(xué)習(xí)模塊可減小一定的跟蹤誤差。
之后對基線PD控制器的跟蹤性能進(jìn)行比較。
控制器的參數(shù)需要初始化,其中K1=0.2,K2=0.1,k=5,P=0.05,Λ=diag(3,6,3,20,10,10,10),Ks=diag(0.1,0.01,0.01,0.1,0.01,0.01,0.01)。
圖5顯示了上述兩種控制器跟蹤非可視正弦關(guān)節(jié)位置軌跡的節(jié)點(diǎn)1、3和5的跟蹤結(jié)果。圖5中的黑色虛線(箭頭1)為理論值,黑色實(shí)線(箭頭2)為本文算法仿真結(jié)果,灰色實(shí)線為不加反饋學(xué)習(xí)模塊的仿真結(jié)果。從圖5可以直觀看出,兩種控制器仿真結(jié)果比較接近。為了定量地對誤差值進(jìn)行分析,表2列出了所有7個關(guān)節(jié)的l2及l(fā)∞范數(shù)所對應(yīng)的跟蹤誤差。從表2中可看出,自適應(yīng)神經(jīng)控制器的性能優(yōu)于PD控制器,所有7個關(guān)節(jié)控制精度平均提高了約60%。
圖5 正弦關(guān)節(jié)位置軌跡與兩種控制器的性能比較
表2 使用兩種控制器跟蹤正弦關(guān)節(jié)軌跡的l2與l∞跟蹤誤差
本文提出了一種新型神經(jīng)自適應(yīng)控制器,在未知動力學(xué)環(huán)境中,實(shí)現(xiàn)柔性關(guān)節(jié)機(jī)器人自適應(yīng)軌跡跟蹤。該神經(jīng)網(wǎng)絡(luò)由1個回歸器及1個輸出層組成,通過樣本訓(xùn)練完成神經(jīng)網(wǎng)絡(luò)初始化,成功模擬了機(jī)器人動力學(xué)的線性參數(shù)形式。但與輸出層權(quán)值的自適應(yīng)相比,回歸網(wǎng)絡(luò)在線更新的速度較慢。仿真實(shí)驗(yàn)結(jié)果表明,本文所提算法可有效提高系統(tǒng)的軌跡跟蹤性能,且通過回歸在線學(xué)習(xí),可使自適應(yīng)控制器的跟蹤性能得到進(jìn)一步提升。