• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于強(qiáng)化學(xué)習(xí)的木工送料平臺(tái)誤差控制研究

      2023-12-25 09:39:06孟兆新喬際冰
      林產(chǎn)工業(yè) 2023年11期
      關(guān)鍵詞:絲杠滑塊終端

      朱 莉 王 猛 孟兆新 李 博 喬際冰

      (東北林業(yè)大學(xué)機(jī)電工程學(xué)院,黑龍江 哈爾濱 150040)

      我國在木材零部件切割加工方面大都還使用人力手推切割,這種方式生產(chǎn)效率低,勞動(dòng)強(qiáng)度大,且危險(xiǎn)性較高[1]。由于送料平臺(tái)屬于多自由度多耦合控制系統(tǒng),系統(tǒng)模型的構(gòu)建較為困難,各軸的誤差也會(huì)影響終端切割誤差。目前,調(diào)整機(jī)構(gòu)誤差的控制方法主要有改進(jìn)機(jī)械結(jié)構(gòu)進(jìn)行補(bǔ)償[2]、提前反轉(zhuǎn)減小回程誤差等[3]。然而,在切割不同曲線時(shí),需要對(duì)參數(shù)進(jìn)行調(diào)整,因而使加工過程中的操作變得復(fù)雜。

      由于通過機(jī)械結(jié)構(gòu)減小誤差的方法效果有限,近年來,通過軟件控制機(jī)械結(jié)構(gòu)誤差的方法成為研究熱點(diǎn)。Ni等[4]為實(shí)現(xiàn)三自由度機(jī)械手的誤差控制系統(tǒng),使用一階攝動(dòng)理論輔助建立了誤差矩陣。Pan等[5]建立了一種新的誤差控制機(jī)制,減小了不確定N-link機(jī)器人系統(tǒng)的誤差。Yang等[6]在研究機(jī)器人運(yùn)行軌跡方面使用了誤差約束方案。在控制方法中,智能控制中的機(jī)器學(xué)習(xí)方法只需利用智能學(xué)習(xí)中產(chǎn)生的數(shù)據(jù)決定行為[7]。強(qiáng)化學(xué)習(xí)則是一種試錯(cuò)學(xué)習(xí)算法[8],在缺乏數(shù)據(jù)指導(dǎo)的情況下,通過智能體與環(huán)境的不斷交互來提高整體性能,從而達(dá)到目標(biāo)范圍或找到最優(yōu)控制策略。在強(qiáng)化學(xué)習(xí)中,使用較多的Q學(xué)習(xí)算法已被用于主動(dòng)結(jié)構(gòu)控制系統(tǒng)中[9],可對(duì)相關(guān)參數(shù)進(jìn)行在線調(diào)整。但是在控制連續(xù)動(dòng)作時(shí),有時(shí)不能達(dá)到超精密減振范圍。因此,在連續(xù)動(dòng)作的控制中,確定性策略梯度(DPG)算法[10]被廣泛使用。

      鑒于機(jī)器學(xué)習(xí)近三十年來的進(jìn)展[11],將深度神經(jīng)網(wǎng)絡(luò)(DNN)[12]與強(qiáng)化學(xué)習(xí)(RL)[13]相結(jié)合,進(jìn)而形成的深度強(qiáng)化學(xué)習(xí)(DRL)已成為研究熱點(diǎn)。與傳統(tǒng)的RL相比,DRL通過利用DNN的能力估計(jì)RL中的關(guān)聯(lián)函數(shù),從而有助于更精確地收斂和逼近[14]。這些算法在多個(gè)領(lǐng)域都有了一定的應(yīng)用。同時(shí),為了使強(qiáng)化學(xué)習(xí)算法與實(shí)際工程有更高的契合度,研究人員對(duì)算法進(jìn)行了進(jìn)一步優(yōu)化。例如,Nagabandi等[15]使用了一種基于模型的深度強(qiáng)化學(xué)習(xí)方法,只需17 min的訓(xùn)練樣本,就可以讓六足機(jī)器人成功跟蹤所需的直線軌跡。然而,其訓(xùn)練環(huán)境范圍小,導(dǎo)航路徑短,訓(xùn)練結(jié)果僅適用于目標(biāo)點(diǎn)的跟蹤。Kiran等[16]對(duì)深度強(qiáng)化學(xué)習(xí)算法進(jìn)行了總結(jié),并提出了行為克隆、模仿學(xué)習(xí)、逆強(qiáng)化學(xué)習(xí)等相鄰鄰域的應(yīng)用。由于設(shè)計(jì)機(jī)器人的控制設(shè)計(jì)復(fù)雜,Kober等[17]分別研究了基于模型和無模型、基于價(jià)值函數(shù)和基于策略搜索方法間的選擇,為機(jī)器人的控制提供了框架。Peng等[18]使用多智能體深度確定性策略梯度解決了分布式優(yōu)化問題,以最大化卸載任務(wù)數(shù)量,實(shí)現(xiàn)了無人機(jī)輔助車載網(wǎng)絡(luò)的多維資源管理。Wang等[19]提出了一種基于深度強(qiáng)化的軌跡控制算法(RAT),應(yīng)用優(yōu)先體驗(yàn)回放(PER)來改善訓(xùn)練過程的收斂性。近似策略優(yōu)化(PPO)[20]使用了一階優(yōu)化算法,并簡化了代理目標(biāo)函數(shù)的約束限定,更加易于實(shí)現(xiàn)。

      綜上所述,本文使用深度確定性策略梯度算法,使智能體通過對(duì)各個(gè)狀態(tài)的分析,依靠神經(jīng)網(wǎng)絡(luò)做出相應(yīng)的決策,并對(duì)每個(gè)狀態(tài)的不同決策做出相應(yīng)的價(jià)值評(píng)估。由于各軸與連桿之間耦合關(guān)系復(fù)雜,為保證整個(gè)試驗(yàn)的安全進(jìn)行,首先使用多體動(dòng)力學(xué)軟件(ADAMS)、矩陣實(shí)驗(yàn)室(MATLAB)軟件進(jìn)行建模仿真,在達(dá)到允許的誤差范圍后,進(jìn)行數(shù)據(jù)遷移,并采用實(shí)際送料平臺(tái)進(jìn)行驗(yàn)證。研究結(jié)果可為提高鋸切木材送料平臺(tái)的運(yùn)動(dòng)姿態(tài)精度提供參考。

      1 誤差分析

      1.1 送料平臺(tái)結(jié)構(gòu)分析

      由旋轉(zhuǎn)機(jī)構(gòu)簡圖1可得各軸絲杠的有效行程和初始位置。為了解算出平臺(tái)旋轉(zhuǎn)機(jī)構(gòu)解析數(shù)學(xué)算式,根據(jù)幾何關(guān)系和板材特性[21]可以得到各個(gè)時(shí)刻滑塊坐標(biāo)與偏轉(zhuǎn)角度之間的相對(duì)應(yīng)關(guān)系。由于所有的滑塊位置只受目標(biāo)曲線的影響,且每個(gè)時(shí)刻的值只受偏轉(zhuǎn)機(jī)構(gòu)的偏轉(zhuǎn)角θ的影響,因此機(jī)構(gòu)中連桿與所在支鏈中連桿AD、BE和CF與絲杠的夾角可以分別表示為下式:

      式中:α1、α2、α3為連桿偏轉(zhuǎn)角度,(°);θ為夾具偏轉(zhuǎn)角度,(°);c為夾具固定螺母B距E軸絲杠距離,mm;LAB為夾具固定螺母A、B兩點(diǎn)距離,mm;yD、yE、yF分別為滑塊到絲杠首端的距離,mm;a為相鄰絲杠的距離,mm;ly為鋸切點(diǎn)到絲杠首端的距離,mm。

      通過求解轉(zhuǎn)角機(jī)構(gòu)各支鏈的方程組,計(jì)算送料平臺(tái)轉(zhuǎn)角機(jī)構(gòu)三個(gè)滑塊的輸入位移,建立數(shù)學(xué)表達(dá)式如下式:

      式中:LAC為夾具固定螺母A與C距離,mm;LBC為夾具固定螺母B與C距離,mm;LAD、LBE、LCF分別為D、E、F三軸連桿長度,mm。

      依據(jù)上文送料平臺(tái)運(yùn)動(dòng)學(xué)分析的機(jī)構(gòu)解算方程式并參考文獻(xiàn)[22],得出本研究仿人工送料平臺(tái)動(dòng)力學(xué)系統(tǒng)的數(shù)學(xué)模型:

      式中:Qn為輸入廣義驅(qū)動(dòng)力矩矢量和,其大致由4個(gè)部分組成,分別對(duì)應(yīng)螺母部分、連桿部分、夾具及被加工件部分和絲杠部分;mi為相應(yīng)各部件的質(zhì)量,其中mn為螺母部分質(zhì)量,g;mln為連桿部分質(zhì)量,g;mf為夾具等部分質(zhì)量,g;msn為絲杠部分質(zhì)量,g;qn為廣義坐標(biāo)(滾珠絲杠螺母滑塊位移),即q1=LA,q2=LB,q3=LC,q4=LD,q5=LE。D為直徑,mm;l為桿長,mm;Pn為絲杠導(dǎo)程,mm;kn為連桿動(dòng)能系數(shù);h、w分別為夾具的長和寬,mm;n為軸數(shù)(n=1、2、…、5)。

      1.2 送料平臺(tái)誤差分析

      送料平臺(tái)的誤差來源可分為靜態(tài)誤差和動(dòng)態(tài)誤差。靜態(tài)誤差是由于部件的生產(chǎn)和安裝原因引起的,包括絲杠螺母副的螺距誤差和各軸與動(dòng)平臺(tái)之間的傳動(dòng)誤差。如圖1所示,系統(tǒng)主體由電機(jī)、絲杠、滑塊、連桿和夾具組成,其中存在一定的耦合關(guān)系,會(huì)導(dǎo)致靜態(tài)誤差的放大。動(dòng)態(tài)誤差主要由機(jī)構(gòu)工作過程中各部件的形變和磨損導(dǎo)致。其中,最主要的是滑塊與絲杠之間的反向間隙誤差,隨著機(jī)構(gòu)運(yùn)行,誤差不斷累積。

      控制系統(tǒng)要實(shí)現(xiàn)對(duì)送料平臺(tái)的精準(zhǔn)控制,必須保持穩(wěn)定狀態(tài),但交流電壓的波動(dòng)會(huì)導(dǎo)致執(zhí)行機(jī)構(gòu)出現(xiàn)誤差。靜態(tài)誤差可以通過校準(zhǔn)的方法減小;動(dòng)態(tài)誤差主要由回程誤差組成,可以通過程序控制電機(jī)在改變轉(zhuǎn)動(dòng)方向時(shí)提前反轉(zhuǎn)進(jìn)行減小;控制誤差和運(yùn)行時(shí)的能量來源、電機(jī)屬性相關(guān),在不同環(huán)境內(nèi)產(chǎn)生的誤差大小也不同。

      1.3 偏轉(zhuǎn)機(jī)構(gòu)誤差關(guān)系分析

      本文旨在通過控制各軸誤差來減小終端誤差,通過設(shè)計(jì)得到各個(gè)軸的滑塊運(yùn)動(dòng)軌跡曲線后,分別通過人工調(diào)試和PID控制進(jìn)行試驗(yàn),得到各個(gè)軸的誤差以及最終切割曲線的Y方向的跟蹤誤差。分別取D、E軸的誤差和終端切割曲線X、Y方向上的誤差進(jìn)行分析。如圖2所示,圖a為通過人工調(diào)試的試驗(yàn)誤差,誤差范圍為±(-2.325~3.314) mm,誤差最大值分布在D、E兩軸正負(fù)誤差最大的情況,且隨著誤差的減小呈下降的關(guān)系。圖b為PID控制的D、F兩軸與終端跟蹤誤差關(guān)系,通過誤差補(bǔ)償,可將誤差范圍縮小至-1.2~1.8 mm。對(duì)比可知,兩者變化趨勢(shì)相似,且整體誤差有所下降。圖c和圖d中X軸向誤差與Y方向誤差變化趨勢(shì)相似,X方向的誤差保持在0.666 mm以下,對(duì)切割輪廓誤差影響很小。

      圖2 D、F與終端跟蹤誤差分布圖Fig.2 Distribution of errors in axes D, F, and terminal tracking error with PID compensation

      圖3為E軸誤差與終端誤差進(jìn)行比較,誤差分布范圍廣,主要在E軸誤差較小的情況下聚集,這是由于終端誤差較大的情況較少,沒有明顯擬合關(guān)系。

      圖3 E軸誤差與終端跟蹤誤差分布圖Fig.3 Distribution of errors in axes D, F, and terminal tracking error with PID compensation

      圖4 基于DDPG-IC的控制算法框架Fig.4 Control algorithm framework based on DDPG-IC

      根據(jù)以上誤差分布圖像可以發(fā)現(xiàn),整個(gè)機(jī)械系統(tǒng)的終端誤差與偏轉(zhuǎn)機(jī)構(gòu)的D軸和F軸的誤差大小存在緊密聯(lián)系,但和定點(diǎn)軸E的關(guān)系不明顯。因?yàn)镈軸和F軸的主要作用是調(diào)整偏轉(zhuǎn)角度,使切割方向和鋸條方向相同。E軸的主要作用是輔助X、Y軸實(shí)現(xiàn)定點(diǎn)需要。因此,通過減小滑塊誤差來調(diào)整終端誤差是可行的。

      2 控制方法研究

      2.1 強(qiáng)化學(xué)習(xí)

      2.1.1 馬爾可夫決策過程

      強(qiáng)化學(xué)習(xí)過程實(shí)質(zhì)上是馬爾可夫決策過程,即系統(tǒng)的下一個(gè)狀態(tài)只和當(dāng)前狀態(tài)有關(guān)。P是狀態(tài)轉(zhuǎn)移矩陣,表示了從t時(shí)刻狀態(tài)s經(jīng)過智能體決策后做出行動(dòng),到達(dá)下一時(shí)刻狀態(tài)s'的可能性。R是獎(jiǎng)勵(lì)函數(shù),表示運(yùn)動(dòng)到s'狀態(tài)后與預(yù)計(jì)狀態(tài)的誤差。整體表示為,智能體的累計(jì)獎(jiǎng)勵(lì)可以表示為:

      式中:γ∈(0,1]為衰減系數(shù),γ趨向于0代表短視在乎眼前收益,γ趨向于1代表偏重考慮遠(yuǎn)期收益。

      2.1.2 基于策略的強(qiáng)化學(xué)習(xí)方法

      因?yàn)楸疚难芯康乃土掀脚_(tái)屬于連續(xù)動(dòng)作且需要使用隨機(jī)策略,所以采用基于策略的強(qiáng)化學(xué)習(xí)方法?;诓呗缘膹?qiáng)化學(xué)習(xí)算法不依賴價(jià)值函數(shù),而是通過評(píng)價(jià)策略的可優(yōu)化的目標(biāo)函數(shù)對(duì)策略進(jìn)行優(yōu)化。在基于策略的方法里,策略可以表示為連續(xù)函數(shù):

      式中:θ為連續(xù)函數(shù)的參數(shù),不受值函數(shù)的約束。而策略的性能需要由策略目標(biāo)函數(shù)進(jìn)行評(píng)價(jià)。策略目標(biāo)函數(shù)選擇所有狀態(tài)值函數(shù)的加權(quán)平均值,表示為:

      2.2 深度確定性策略梯度算法

      在送料平臺(tái)控制問題中,目標(biāo)是設(shè)計(jì)穩(wěn)定高效的控制策略,使每個(gè)軸上的滑塊位置盡快達(dá)到目標(biāo)位置的誤差范圍之內(nèi),因此采用獎(jiǎng)勵(lì)值rt來表示各軸滑塊當(dāng)前狀態(tài)與目標(biāo)狀態(tài)的距離,將每一步的策略目標(biāo)函數(shù)定義為:

      由確定性策略梯度定理[23],策略目標(biāo)函數(shù)關(guān)于策略參數(shù)的梯度為:

      式中:ρAμ為變化的控制策略,Aμ得到的狀態(tài)分布QAμ(s,a)是Aμ所對(duì)應(yīng)的狀態(tài)-動(dòng)作值函數(shù)。

      值函數(shù)需要通過Q學(xué)習(xí)方法進(jìn)行擬合,時(shí)間差分誤差可以通過狀態(tài)轉(zhuǎn)移矩陣得到:

      采用隨機(jī)梯度下降的方法調(diào)整參數(shù),最小化時(shí)間差分誤差,即可逐步提高狀態(tài)-動(dòng)作值函數(shù)的擬合精度。由于算法給定的動(dòng)作是確定的,通過每個(gè)軸在理想情況下的運(yùn)動(dòng)方程對(duì)其進(jìn)行了限制,所以在部分狀態(tài)下控制策略是確定的。為保證算法的探索性能,執(zhí)行者輸出上疊加一個(gè)高斯噪聲,探索策略表示為:

      為解決系統(tǒng)模型的復(fù)雜性和部分耦合問題,采用神經(jīng)網(wǎng)絡(luò)對(duì)實(shí)際值函數(shù)和狀態(tài)-動(dòng)作值函數(shù)進(jìn)行擬合[24],系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)包括執(zhí)行網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)兩部分。執(zhí)行網(wǎng)絡(luò)通過經(jīng)驗(yàn)池和評(píng)價(jià)網(wǎng)絡(luò)的輸出,計(jì)算五個(gè)歸一化電機(jī)控制量來控制送料平臺(tái)。評(píng)價(jià)網(wǎng)絡(luò)則通過環(huán)境狀態(tài)擬合動(dòng)作-值函數(shù)。兩個(gè)目標(biāo)網(wǎng)絡(luò)使用相同的軟件方法進(jìn)行更新,而在線Q網(wǎng)采用均方誤差作為損失函數(shù),并以獲得Q值的最大值為目標(biāo)更新參數(shù)。在線策略網(wǎng)通過訓(xùn)練小批量數(shù)據(jù)來更新網(wǎng)絡(luò)參數(shù),并利用蒙特卡羅方法實(shí)現(xiàn)無偏估計(jì)。這些方法可以提高訓(xùn)練的穩(wěn)定性和速度。

      2.3 最小安全距離約束

      智能體決策與五個(gè)絲杠上滑塊的位置相關(guān),當(dāng)滑塊因?yàn)檫B桿和夾具的機(jī)械關(guān)系使電機(jī)無法按照決策運(yùn)動(dòng)時(shí),電機(jī)會(huì)卡死。為確保強(qiáng)化學(xué)習(xí)的決策安全可靠,本文采用最小安全距離的方法來約束控制器的反應(yīng)。使用反向解算得到每個(gè)軸在理想情況下的運(yùn)動(dòng)軌跡,然后添加一定程度的誤差進(jìn)行正向解算,得出系統(tǒng)能接受的最大誤差εmax,將決策后每個(gè)軸的誤差限制在ε≤εmax以避免系統(tǒng)出現(xiàn)卡死狀況。這種方法可以正向影響?yīng)剟?lì)函數(shù),加快強(qiáng)化學(xué)習(xí)的收斂過程并確保系統(tǒng)的安全性。

      2.4 算法步驟

      算法偽代碼:

      初始化執(zhí)行網(wǎng)絡(luò)參數(shù)Aμ,評(píng)價(jià)網(wǎng)絡(luò)的權(quán)重Q和σ

      初始化經(jīng)驗(yàn)緩存區(qū)R

      for訓(xùn)練節(jié)數(shù)=1 to最大訓(xùn)練節(jié)數(shù) do

      初始化探索噪聲序列N(0,σ2)

      清空積分補(bǔ)償器,接收初始狀態(tài)信號(hào)s1

      for時(shí)間步t=1 toTmaxdo

      計(jì)算控制量at

      送料平臺(tái)電機(jī)執(zhí)行控制量at

      獲取新狀態(tài)信號(hào)st+1和獎(jiǎng)勵(lì)值rt

      將經(jīng)驗(yàn)(st,at,rt+1,st+1)存入經(jīng)驗(yàn)回放池R

      從經(jīng)驗(yàn)回放池R中隨機(jī)抽取一批經(jīng)驗(yàn){e1,e2,...,eN}

      計(jì)算評(píng)價(jià)網(wǎng)絡(luò)參數(shù)的梯度:

      更新評(píng)價(jià)網(wǎng)絡(luò)權(quán)值

      更新策略網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)參數(shù)

      ifst+1超過安全范圍 then

      Break

      End for

      End for

      3 仿真試驗(yàn)

      為驗(yàn)證DDPG算法的有效性,使用NX進(jìn)行模型參數(shù)設(shè)計(jì)[25],利用MATLAB和ADAMS進(jìn)行仿真平臺(tái)的搭建,模型如圖5所示。加入連接和狀態(tài)變量后導(dǎo)出,在siulink中設(shè)置為環(huán)境,具體參數(shù)如表1所示。

      表1 偏轉(zhuǎn)機(jī)構(gòu)零件尺寸Tab.1 Dimension of deflection mechanism components

      圖5 送料平臺(tái)仿真模型Fig.5 Feeding platform simulation model

      3.1 超參數(shù)設(shè)計(jì)

      實(shí)驗(yàn)中的超參數(shù)設(shè)計(jì)如表2所示。

      表2 DDPG-IC算法訓(xùn)練參數(shù)Tab.2 Training parameters for DDPG-IC algorithm

      3.2 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

      在強(qiáng)化學(xué)習(xí)的過程中,獎(jiǎng)勵(lì)函數(shù)作為實(shí)時(shí)反饋,對(duì)算法的決策選擇和收斂速度有著很大的影響。假設(shè)送料平臺(tái)和帶鋸機(jī)在某一時(shí)刻t,環(huán)境狀態(tài)為s,每個(gè)軸的位置滑塊的信息XD、XE、XF、XX、XY。木工帶鋸機(jī)送料平臺(tái)的狀態(tài)包括各軸的實(shí)時(shí)位置和滑塊的運(yùn)動(dòng)速度。初始狀態(tài)下,將X、Y軸歸零,D、E、F三軸分別初始化至初始切割點(diǎn)處的偏轉(zhuǎn)角度,將切割連續(xù)動(dòng)作離散化,分為采樣點(diǎn),在每個(gè)采樣處的狀態(tài)通過光柵尺采集各軸滑塊位置。

      獎(jiǎng)勵(lì)函數(shù)的設(shè)置影響整個(gè)算法的收斂速度,并且與智能體的決策存在關(guān)系。本文的獎(jiǎng)勵(lì)函數(shù)由各軸的跟蹤誤差大小確定。根據(jù)圖1和各軸誤差分析,D軸和E軸的主要作用是偏轉(zhuǎn)機(jī)構(gòu)的角度確定,與終端跟蹤誤差關(guān)系密切,所以獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)為:

      3.3 回合終止條件設(shè)置:

      1)送料平臺(tái)機(jī)械結(jié)構(gòu)出現(xiàn)卡死狀況。

      2) 絲杠跟蹤誤差大于6 mm時(shí),此時(shí)的狀態(tài)相對(duì)而言并不能指導(dǎo)有效學(xué)習(xí),反而會(huì)增大計(jì)算量。

      3) 達(dá)到訓(xùn)練最大步數(shù)。

      4 仿真結(jié)果分析

      4.1 仿真結(jié)果

      仿真結(jié)果如圖6所示。由圖可知,兩種曲線在初始階段都處于較低水平,因?yàn)樵谠撾A段送料平臺(tái)的獎(jiǎng)勵(lì)反饋只來源于機(jī)械結(jié)構(gòu)卡死狀況之前所給予的獎(jiǎng)勵(lì)。由于常數(shù)值設(shè)置偏小,因而出現(xiàn)了累積獎(jiǎng)勵(lì)值下降的情況。圖6(a)在仿真達(dá)到1 000回合時(shí),有效學(xué)習(xí)的速率加大。在大約1 500回合時(shí),出現(xiàn)了明顯的收斂現(xiàn)象,此時(shí)整個(gè)仿真過程可以完成,但仍在探索最優(yōu)解。相對(duì)于圖b更早達(dá)到有效學(xué)習(xí)狀態(tài),收斂速度快且穩(wěn)定。

      圖6 確定性策略梯度仿真獎(jiǎng)勵(lì)變化折線圖Fig.6 Line chart of reward variation in deterministic policy gradient simulation

      在仿真達(dá)到穩(wěn)定后,進(jìn)行數(shù)據(jù)遷移[26],使用codesys控制ADAMS模型進(jìn)行虛軸模擬試驗(yàn)??刂品椒ㄟx取三種,分別是無誤差矯正手段、PID控制和強(qiáng)化學(xué)習(xí)得到的控制手段。圖7分別表示偏轉(zhuǎn)結(jié)構(gòu)三軸的位移。由于強(qiáng)化學(xué)習(xí)將各軸誤差作為獎(jiǎng)勵(lì)函數(shù)進(jìn)行限制,所以各軸的誤差相比于其它兩種方法實(shí)現(xiàn)了跟蹤誤差的控制。與PID補(bǔ)償方法相比,各軸誤差分別減小了33.82%、65.23%和43.73%,但各軸的回程誤差以及累計(jì)誤差在滑塊發(fā)生轉(zhuǎn)向時(shí)仍有較大的影響,最大誤差在此處表現(xiàn)出來。

      圖7 偏轉(zhuǎn)機(jī)構(gòu)滑塊仿真位移曲線Fig.7 Simulation displacement curves at the terminal

      圖8 和圖9 為試驗(yàn)終端的跟蹤誤差。相比于未補(bǔ)償控制有了較大的提升,只在部份區(qū)域產(chǎn)生波動(dòng),整體還是與D軸和F軸的誤差大小有明顯的增減關(guān)系。終端最大誤差達(dá)到0.85 mm,比PID誤差控制提高了63.97%,并保持在較小的范圍。

      圖8 終端位移圖Fig.8 Terminal displacement

      圖9 終端Y方向跟蹤誤差Fig.9 Terminal Y-axis tracking error

      5 結(jié)論

      本文采用深度強(qiáng)化學(xué)習(xí)算法,以達(dá)到對(duì)送料平臺(tái)各軸的跟蹤誤差的控制進(jìn)而控制終端誤差。結(jié)果表明,原始DDPG算法與加入積分的算法都可以達(dá)到效果,但由于加入了最小安全距離限制和積分補(bǔ)償,其收斂速度和穩(wěn)定性得到了一定的提高。測(cè)評(píng)結(jié)果顯示,在足夠回合數(shù)的學(xué)習(xí)情況下,兩種方法都能夠達(dá)到穩(wěn)定并保持良好的控制效果。使用MATLAB和ADAMS進(jìn)行聯(lián)合仿真,可以提高送料平臺(tái)的控制精度。在仿真試驗(yàn)中,也可以實(shí)現(xiàn)誤差的減小,且誤差的控制難點(diǎn)還是在于累計(jì)誤差和回程誤差在拐點(diǎn)時(shí)的釋放,在此處會(huì)出現(xiàn)誤差峰值。

      本文在仿真試驗(yàn)中只研究了送料過程,后續(xù)可將帶鋸機(jī)的鋸條轉(zhuǎn)速或輔助盤轉(zhuǎn)矩作為限制條件加入價(jià)值函數(shù)。由于仿真模型和實(shí)體送料平臺(tái)所受環(huán)境影響和誤差分布的不同,需要對(duì)實(shí)體模型進(jìn)行強(qiáng)化學(xué)習(xí)。同時(shí),使用仿真數(shù)據(jù)可以加快學(xué)習(xí)進(jìn)程,防止機(jī)器出現(xiàn)故障。

      猜你喜歡
      絲杠滑塊終端
      X美術(shù)館首屆三年展:“終端〉_How Do We Begin?”
      滾珠絲杠的熱力耦合作用仿真
      通信控制服務(wù)器(CCS)維護(hù)終端的設(shè)計(jì)與實(shí)現(xiàn)
      多功能北斗船載終端的開發(fā)應(yīng)用
      電子制作(2016年15期)2017-01-15 13:39:14
      滾珠絲杠的四軸加工
      前?;瑝K注射模設(shè)計(jì)
      中國塑料(2015年9期)2015-10-14 01:12:35
      斜滑塊內(nèi)抽芯塑件的注射模具設(shè)計(jì)
      河南科技(2015年2期)2015-02-27 14:20:28
      精密滾珠絲杠副伺服加載試驗(yàn)臺(tái)設(shè)計(jì)
      ABB Elastimold 10kV電纜終端及中間接頭
      高速滾珠絲杠副動(dòng)態(tài)接觸特性求解
      蒙城县| 余姚市| 山东省| 五寨县| 平山县| 武宣县| 金寨县| 海兴县| 资中县| 武乡县| 南乐县| 墨脱县| 永福县| 莱阳市| 梓潼县| 乐都县| 花莲县| 北安市| 宜兰县| 荆州市| 庆安县| 林芝县| 札达县| 大渡口区| 兴仁县| 萝北县| 洛南县| 四川省| 朝阳区| 桂阳县| 赣榆县| 三亚市| 温州市| 兰州市| 虹口区| 伊通| 沙雅县| 长沙市| 宣威市| 宜良县| 贵州省|