• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于強化學(xué)習(xí)的工業(yè)機械臂數(shù)字孿生與智能控制

      2023-08-21 08:43:58王子琪嚴(yán)知宇王正方
      科技創(chuàng)新與應(yīng)用 2023年23期
      關(guān)鍵詞:腕部部件物體

      王子琪,嚴(yán)知宇,武 辰,王正方*

      (1.山東大學(xué) 控制科學(xué)與工程學(xué)院,濟南 250003;2.山東大學(xué) 物理學(xué)院,濟南 250003;3.山東大學(xué) 能源與動力工程學(xué)院,濟南 250003)

      如今,在中國制造2025 背景下,智能制造工程備受關(guān)注,數(shù)字孿生技術(shù)也正在成為受到關(guān)注和重視的工業(yè)熱點話題,聚焦到工業(yè)機械臂問題上,在現(xiàn)實工業(yè)機械臂的應(yīng)用中,示教法是大多數(shù)企業(yè)對于機械臂采用的控制方法。

      當(dāng)前數(shù)字孿生技術(shù)已經(jīng)趨于成熟,在各個領(lǐng)域廣泛適用且效果良好。由于數(shù)字孿生技術(shù)具有多物理、多尺度、多學(xué)科屬性,因而能夠?qū)崿F(xiàn)物理空間與信息空間交互與融合[1]。在數(shù)字孿生技術(shù)發(fā)展方面,Li 等[2]基于幾何、物理和順序規(guī)則描述構(gòu)建了一個多源模型驅(qū)動的數(shù)字孿生系統(tǒng),用于對機器人裝配系統(tǒng)進行精確的實時仿真。Malik 等[3-5]通過案例演示,探索了數(shù)字孿生在解決復(fù)雜協(xié)作生產(chǎn)系統(tǒng)中的應(yīng)用。李浩等[6]對面向人機交互的數(shù)字孿生系統(tǒng)特征進行分析,提出了人機協(xié)作的安全控制技術(shù)以及孿生系統(tǒng)的態(tài)勢感知和監(jiān)測預(yù)警解決方案。鮑勁松等[7]面向人-機-環(huán)境共融的數(shù)字孿生協(xié)同技術(shù),從環(huán)境和任務(wù)2 個核心來展開數(shù)字孿生協(xié)同的人機共融科學(xué)問題。在數(shù)字孿生技術(shù)應(yīng)用方面,陶飛等[8]在數(shù)字孿生車間基礎(chǔ)上探討了基于車間孿生數(shù)據(jù)的車間物理世界和信息世界的交互與共融理論和實現(xiàn)方法。林潤澤等[9]依托智能工廠流水線實驗裝置,構(gòu)建了智能裝配機械臂數(shù)字孿生實驗系統(tǒng),提出了一種基于多模型融合的數(shù)字孿生系統(tǒng)模型集成方法。

      針對傳統(tǒng)機理模型的非線性、不確定性問題,本文采用一種基于數(shù)字孿生技術(shù)的工業(yè)機械臂控制方法及系統(tǒng),通過構(gòu)建機械臂的數(shù)字孿生體實現(xiàn)對工業(yè)機械臂的實時、自動化智能控制。

      1 工業(yè)機械臂的數(shù)字孿生體建模

      1.1 Aubo-i10 工業(yè)機械臂的結(jié)構(gòu)與參數(shù)

      對Aubo-i10 工業(yè)機械臂進行建模,該機械臂的結(jié)構(gòu)如圖1 所示。

      圖1 Aubo-i10 工業(yè)機械臂的結(jié)構(gòu)

      該機械臂包括6 個旋轉(zhuǎn)關(guān)節(jié)、5 個從動部件、基座和工具端。其中,每個旋轉(zhuǎn)關(guān)節(jié)表示一個自由度,包括基 座關(guān)節(jié)1、肩部關(guān)節(jié)2、肘部關(guān)節(jié)3、第一腕部關(guān)節(jié)4、第 二腕部關(guān)節(jié)5 和第三腕部關(guān)節(jié)6;每2 個關(guān)節(jié)之間設(shè)有1 個由轉(zhuǎn)動帶動的部件即從動部件,共5 個從動部件,基座關(guān)節(jié)1 和肩部關(guān)節(jié)2 之間設(shè)置第一從動部件,肩部關(guān)節(jié)2 和肘部關(guān)節(jié)3 之間設(shè)置第二從動部件,肘部關(guān)節(jié)3 和第一腕部關(guān)節(jié)4 之間設(shè)置第三從動部件,第一腕部關(guān)節(jié)4 和第二腕部關(guān)節(jié)5 之間設(shè)置第四從動部件,第二腕部關(guān)節(jié)5 和第三腕部關(guān)節(jié)6 之間設(shè)置第五從動部件;除此以外,該工業(yè)機械臂還包括基座7 和工具端8,基座與基座關(guān)節(jié)1 連接,用于機械臂本體和機器人底座連接,工具端與第三腕部關(guān)節(jié)6 連接,用于機械臂本體與工具連接。

      1.2 數(shù)字孿生體的建模

      以上述六自由度工業(yè)機械臂為基礎(chǔ),利用數(shù)字孿生技術(shù)構(gòu)建工業(yè)機械臂的數(shù)字孿生體模型,如圖2 所示,該數(shù)字孿生體模型包括6 個旋轉(zhuǎn)關(guān)節(jié)和5 個從動部件,以及固定的基座和機械臂末端的工具端,設(shè)置旋轉(zhuǎn)關(guān)節(jié)和從動部件之間的父子邏輯關(guān)系。

      圖2 Aubo-i10 工業(yè)機械臂的數(shù)字孿生體

      上述父子邏輯關(guān)系是指,當(dāng)設(shè)置一個物體為另一個物體的子對象時,該物體即為子物體,另一個物體為父物體,子物體隨著父物體的轉(zhuǎn)動變化而變化,相對點位置不發(fā)生改變,而子物體轉(zhuǎn)動變化時父物體并不主動跟隨發(fā)生改變。一個父物體可以有多個子物體,但一個子物體只能有一個父物體,子物體可以再成為其他物體的父物體。

      數(shù)字孿生體模型上述11 個部件(6 個旋轉(zhuǎn)關(guān)節(jié)和5個從動部件)分別兩兩構(gòu)成父子邏輯關(guān)系,具體為基座關(guān)節(jié)1 和第一從動部件為父子邏輯關(guān)系、第一從動部件和肩部關(guān)節(jié)2 為父子邏輯關(guān)系,以此類推,最終,基座關(guān)節(jié)1、第一從動部件、肩部關(guān)節(jié)2、第二從動部件、肘部關(guān)節(jié)3、第三從動部件、第一腕部關(guān)節(jié)4、第四從動部件、第二腕部關(guān)節(jié)5、第五從動部件和第三腕部關(guān)節(jié)6 按順序依次兩兩構(gòu)成父子邏輯關(guān)系。此外,該工業(yè)機械臂還包括基座和工具端,基座和基座關(guān)節(jié)1 構(gòu)成父子邏輯關(guān)系,第三腕部關(guān)節(jié)6 和工具端構(gòu)成父子邏輯關(guān)系。

      在上述建模過程中,使用的數(shù)據(jù)參數(shù)還包括:基于工業(yè)機械臂的實際參數(shù),設(shè)置該模型的基本參數(shù),包括關(guān)節(jié)靈敏度、關(guān)節(jié)活動范圍(在本實施例中為-175~175°)、各關(guān)節(jié)的線性速度和加速度的上限等,保證該數(shù)字孿生體模型的運動軌跡更貼近實際工業(yè)機械臂的運動。

      2 實時數(shù)據(jù)的采集與傳輸

      Modbus[10]是一種串行通信協(xié)議,其已經(jīng)成為工業(yè)領(lǐng)域通信協(xié)議的業(yè)界標(biāo)準(zhǔn)(De facto),并且現(xiàn)在是工業(yè)電子設(shè)備之間常用的連接方式。允許多種電子接口,屬于一種一主多從的通信協(xié)議。選擇Aubo-i10 作為主機,Unity3D 平臺中的數(shù)字孿生體作為從機。使用基于Socket 的Modbus-TCP 通信建立連接。在通信過程中,通過C#代碼控制Aubo-i10 的運動,同時將運動參數(shù)發(fā)送至Unity3D 平臺。在Unity3D 平臺中的數(shù)字孿生體中,進行強化學(xué)習(xí)后得到最優(yōu)參數(shù),再返回至Aubo-i10實體。

      3 數(shù)字孿生體的學(xué)習(xí)訓(xùn)練

      強化學(xué)習(xí)是一種針對不同的agent(代指數(shù)字孿生體)采取相應(yīng)動作的機器學(xué)習(xí)方法。動作at∈A 是基于狀態(tài)st∈S 和當(dāng)時的環(huán)境t 做出的選擇,其中動作空間A 是給定環(huán)境中所有有效操作的集合,并且S 是一組狀態(tài),針對不同的選擇,agent 會收到不同的獎勵Rt,這取決于其導(dǎo)致下一狀態(tài)的行為的影響st+1∈S,選擇行動的策略稱為策略π。agent 的目標(biāo)是學(xué)習(xí)最優(yōu)策略,即從長遠來看使累積獎勵最大化的策略。該原理基于馬爾可夫決策過程(MDP)模型,該模型依賴于描述過程記憶缺失的馬爾可夫特性,即未來狀態(tài)的概率st+1 僅取決于當(dāng)前狀態(tài)和操作st和at而不是基于過去的狀態(tài)和行為。

      3.1 強化學(xué)習(xí)算法的選擇

      強化學(xué)習(xí)算法主要分為基于價值的算法和基于策略的算法?;趦r值的方法通過優(yōu)化動作值函數(shù)來確定強化學(xué)習(xí)算法的最優(yōu)策略?;诓呗缘乃惴ú皇莾r值函數(shù)的近似,而是使用基于梯度的方法直接近似策略,因此是學(xué)習(xí)最優(yōu)策略的更直接的方法。使用這類方法的算法包括普通策略梯度算法(VPG)、可信區(qū)域策略梯度算法(TRPO)和近端策略優(yōu)化算法(PPO)。

      這3 種算法具有相同的操作原理,但PPO 使用的技術(shù)解決了其他方法的一些缺點,如方差問題和計算復(fù)雜性。在基準(zhǔn)任務(wù)集合上的PPO 方法優(yōu)于TRPO 和VPG,并且更容易實現(xiàn)。

      鑒于以上提出的與使用基于值的算法相關(guān)的各種缺點,本項目決定使用PPO 算法對數(shù)字孿生體進行學(xué)習(xí)訓(xùn)練。

      3.2 PPO 算法的原理

      PPO 算法是在TRPO 算法(PG 系算法)基礎(chǔ)上進行的改進。TRPO 算法的每次迭代都嘗試從當(dāng)前的策略中選擇一個合適的步長,使新策略得到的累計回報單調(diào)遞增,其目標(biāo)函數(shù)如式(1)所示

      式中:Aπθ(st,at)=Qπθ(st,at)-Vπθ(st)是優(yōu)勢函數(shù)是重要性采樣權(quán)重,πθ~(at|st)表示新策略的概率分布,πθ(at|st)表示舊策略的概率分布,st表示當(dāng)前狀態(tài),at表示當(dāng)前所采取的動作,π 表示策略,為關(guān)于狀態(tài)s的函數(shù),且在深度強化學(xué)習(xí)中,策略π 由神經(jīng)網(wǎng)絡(luò)構(gòu)成,神經(jīng)網(wǎng)絡(luò)的參數(shù)為θ,表示為πθ,KL 表示KL散度。

      在強化學(xué)習(xí)中,用π 表示策略,表示在當(dāng)前狀態(tài)下機械臂(agent)從動作(action)集合中選擇一個動作的概率分布,進而期望存在函數(shù)f,當(dāng)輸入目前的狀態(tài)(state)時,輸出策略π,獲取機械臂(agent)的下一步動作(action),即π=f(state)。若agent 的action 能夠促進agent盡快到達目標(biāo)值的動作,則需要增加這個action 獲得更多被選擇的幾率,即增大獎勵(reward);反之,則這個action 被選擇的幾率將會減少,即減少獎勵(reward)。在以此構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,估算出動作(action)的期望收益,通過上述目標(biāo)函數(shù)求解更新模型的參數(shù)θ,使得期望收益更高,輸出機械臂動作。

      為了控制策略的更新幅度,PPO 算法采用了截斷的代理目標(biāo)函數(shù),實現(xiàn)重復(fù)性采樣,加快訓(xùn)練速度。該算法將新舊策略的比值kt(θ~)限制在一個區(qū)域中,通過控制區(qū)域的大小來限制更新的步幅。相比TRPO 中使用KL散度進行限制,PPO 中kt(θ~)的限制更加簡單,也更容易實現(xiàn)。PPO 算法的目標(biāo)函數(shù)如式(2)所示

      PPO 算法還運用了優(yōu)勢函數(shù)估計方法和增加額外熵獎勵的優(yōu)化方法來進一步提升其性能。使用泛化優(yōu)勢估計構(gòu)造優(yōu)勢函數(shù)能夠降低方差,使算法不會產(chǎn)生較大的波動。泛化優(yōu)勢估計GAE 的計算式如式(3)所示

      式中:δt=rt+γV(st+1)-V(st)。

      將PPO 算法應(yīng)用在策略和值函數(shù)共享參數(shù)的網(wǎng)絡(luò)結(jié)構(gòu)上時,除了截斷回報之外,目標(biāo)函數(shù)還加上了關(guān)于值函數(shù)估計的誤差項以及策略模型的熵正則項,用于鼓勵探索。因此,優(yōu)化后的目標(biāo)函數(shù)如式(4)所示

      式中:c1和c2為2 個常數(shù)超參數(shù);c1(Vθ(s)-Vtarget)2是狀態(tài)值函數(shù)的均方誤差,誤差越小越好;H(s,πθ)表示策略πθ的熵值,熵越大越好。

      利用PPO 算法,基于上述優(yōu)化后的目標(biāo)函數(shù)不斷進行迭代,最終能夠快速完成訓(xùn)練并輸出機械臂當(dāng)前狀態(tài)下最優(yōu)的策略,根據(jù)該策略執(zhí)行相應(yīng)的動作,通過自學(xué)習(xí)規(guī)劃出數(shù)字孿生體模型運動的最優(yōu)軌跡。

      4 結(jié)束語

      本文提出了一種基于數(shù)字孿生技術(shù)的工業(yè)機械臂控制方法,應(yīng)用數(shù)字孿生技術(shù)構(gòu)建機械臂的數(shù)字孿生體,連接數(shù)字世界和物理世界,使得物理對象與虛擬對象之間實現(xiàn)上下行的物理信息數(shù)據(jù)交互,解決傳統(tǒng)機理模型無法解決的非線性、不確定性問題,大大提高了機械臂的實時性和泛化能力。通過強化學(xué)習(xí)訓(xùn)練使機械臂實現(xiàn)自學(xué)習(xí)自適應(yīng)轉(zhuǎn)動,解決傳統(tǒng)機械臂運動過程不連續(xù)問題,實現(xiàn)對機械臂的智能控制,提高自動化程度和工業(yè)生產(chǎn)效率。

      猜你喜歡
      腕部部件物體
      居家運動——手和腕部練習(xí)(初級篇)
      中老年保健(2021年5期)2021-08-24 07:07:36
      居家運動——手和腕部練習(xí)(中級篇)
      中老年保健(2021年6期)2021-08-24 06:55:28
      居家運動——手和腕部練習(xí)(高級篇)
      中老年保健(2021年7期)2021-08-22 07:42:30
      深刻理解物體的平衡
      大學(xué)生腕管綜合征發(fā)病危險因素的調(diào)查統(tǒng)計及其與電子產(chǎn)品使用的相關(guān)性分析
      我們是怎樣看到物體的
      基于Siemens NX和Sinumerik的銑頭部件再制造
      部件拆分與對外漢字部件教學(xué)
      水輪機過流部件改造與節(jié)能增效
      為什么同一物體在世界各地重量不一樣?
      万年县| 龙口市| 建水县| 阿勒泰市| 红桥区| 漳州市| 曲周县| 合山市| 永胜县| 白城市| 西宁市| 招远市| 哈密市| 绥中县| 桑植县| 柯坪县| 昌都县| 云梦县| 米林县| 台南市| 斗六市| 宜良县| 宁夏| 台南市| 邹城市| 华宁县| 二手房| 汤阴县| 拉萨市| 丘北县| 遵义市| 新源县| 元江| 贵南县| 白朗县| 永善县| 商水县| 三明市| 托克托县| 和平区| 庄浪县|