包勝剛,董春晨,劉 釗
(武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430081)
?
基于PSO算法的RoboCup2D機(jī)器人研究
包勝剛,董春晨,劉 釗
(武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430081)
對(duì)機(jī)器人體系結(jié)構(gòu)、動(dòng)作學(xué)習(xí)及行為的組織方式進(jìn)行了研究,以演化計(jì)算為基本方法,以RoboCup2D為平臺(tái),設(shè)計(jì)了基于PSO算法的足球機(jī)器人的體系結(jié)構(gòu),解決感知、動(dòng)作、和規(guī)劃問題;在訓(xùn)練環(huán)境下,形成感知規(guī)則,優(yōu)化感知相關(guān)參數(shù),得到對(duì)信息高效快速的感知方法,并根據(jù)指定的粒度、功能、參數(shù),對(duì)RoboCup2D機(jī)器人的原子動(dòng)作進(jìn)行了組合優(yōu)化,得到一組帶參數(shù)和執(zhí)行效果描述的粒子動(dòng)作;最后在賽場環(huán)境和任務(wù)驅(qū)動(dòng)下,搜索粒子動(dòng)作并進(jìn)行組織規(guī)劃,得到完成特定任務(wù)的機(jī)器人行為;RoboCup2D仿真實(shí)驗(yàn)表明,演化計(jì)算方法不僅能利用原子動(dòng)作進(jìn)行組合優(yōu)化,得到適應(yīng)于不同條件的粒子動(dòng)作,而且能通過其在線搜索粒子動(dòng)作,動(dòng)態(tài)組成機(jī)器人行為;基于演化計(jì)算的足球機(jī)器人能更好地完成跑位、截球、帶球、傳球等任務(wù),具有更強(qiáng)的適應(yīng)性。
智能體;機(jī)器人體系結(jié)構(gòu);規(guī)劃;粒子群優(yōu)化算法
機(jī)器人行為的組織在智能機(jī)器人中占有重要地位,而它與動(dòng)作設(shè)計(jì)具有密切的關(guān)系。根據(jù)機(jī)器人的感知、規(guī)劃、行為的方式和關(guān)系,機(jī)器人體系結(jié)構(gòu)分為:分層、包容、分層-反應(yīng)混合3大類結(jié)構(gòu)。早在1984年Nilsson就在分層范式里提出“三層次結(jié)構(gòu)”并在Shakey上實(shí)現(xiàn),將機(jī)器人動(dòng)作分級(jí)為引導(dǎo)、導(dǎo)航、任務(wù);之后類似方法反復(fù)被使用[2-3];2001年Nilsson提出三層塔式體系結(jié)構(gòu),并將Teleo-Reactive (TR)規(guī)劃[4]引入,該結(jié)構(gòu)中機(jī)器人的組成包括:感知塔(Perception Tower)、建模塔(Model Tower)和行為塔(Action Tower),每個(gè)塔都包含層次,主要特點(diǎn)包括:1)將TeleoReactive規(guī)劃應(yīng)用于行為塔。TeleoReactive規(guī)劃融合了層次控制結(jié)構(gòu)的自頂向下方法和基于主體的自底向上方法,使用了TR樹的數(shù)據(jù)結(jié)構(gòu),在TeleoReactive循環(huán)中,從樹根任務(wù)條件開始,依次評(píng)估每個(gè)任務(wù)條件,直到找到第一個(gè)成立的任務(wù)節(jié)點(diǎn),然后就立即執(zhí)行與之關(guān)聯(lián)的動(dòng)作或者序列。2)將感知規(guī)則應(yīng)用于感知塔。3)將真知保留系統(tǒng)(Truth Maintenance System , TMS)應(yīng)用于建模塔中,負(fù)責(zé)獲取可靠的知識(shí)。Nilsson的三層塔式體系結(jié)構(gòu)如圖1。
圖1 Nilsson的三層塔式體系結(jié)構(gòu)
該結(jié)構(gòu)被成功應(yīng)用于許多自動(dòng)化領(lǐng)域,包括機(jī)器人規(guī)劃和航空控制(Benson, 1996). 結(jié)構(gòu)中的規(guī)則和動(dòng)作設(shè)計(jì)是其關(guān)鍵點(diǎn)和難點(diǎn),包括Nilsson在內(nèi)的許多研究者考慮過自動(dòng)化這部分工作。2003年Kochenderfer將遺傳算法應(yīng)用于上述體系結(jié)構(gòu),利用演化計(jì)算的方法,自動(dòng)生成Teleo-Reactive程序中的規(guī)則和行為,并可以用來求解積木世界中的不同問題規(guī)模的動(dòng)作規(guī)劃問題。遺傳算法的使用提高了系統(tǒng)的自適應(yīng)性,這是獲取動(dòng)作的相關(guān)知識(shí)的新途徑。
積木世界里的堆放問題狀態(tài)空間不大,對(duì)系統(tǒng)的智能性和適應(yīng)性要求并不高,相比而言,機(jī)器人踢足球,以及機(jī)器人足球比賽對(duì)智能機(jī)器人的挑戰(zhàn)性更高,更合適用于研究和驗(yàn)證基于演化計(jì)算方法的通用性和靈活性。
在RoboCup挑戰(zhàn)計(jì)劃[Noda et al.1997]中就指出,RoboCup重點(diǎn)研究:①在多智能體合作及對(duì)抗環(huán)境中的機(jī)器學(xué)習(xí),②多主體體系結(jié)構(gòu),③實(shí)時(shí)的多智能體規(guī)劃和規(guī)劃執(zhí)行,以及④對(duì)手建模。RoboCup2D仿真平臺(tái)利用網(wǎng)絡(luò)互聯(lián)的計(jì)算機(jī)來模擬人類足球比賽,是一個(gè)動(dòng)態(tài)、實(shí)時(shí)、不確定的環(huán)境,比賽雙方各自利用11個(gè)獨(dú)立的程序來控制本方的11個(gè)具有指定質(zhì)量和體力的球員(足球機(jī)器人)進(jìn)行踢球比賽,最終目的是按照指定規(guī)則(和人類足球比賽基本一致)踢球并獲取比賽勝利。為了適度簡化問題,平臺(tái)提供給隊(duì)員一些最基本的動(dòng)作,如踢球、加速、轉(zhuǎn)身等,程序必需合理地組合這些動(dòng)作,形成更“智能”的行為。比賽上下半場各 5 分鐘,每個(gè)模擬周期只有 100 ms,要求程序的實(shí)時(shí)性非常高。其中的足球機(jī)器人設(shè)計(jì)問題具有下面的特點(diǎn):1)任務(wù)復(fù)雜:足球機(jī)器人的任務(wù)包括截球、阻擋、帶球、過人、射門、傳球等,不僅種類多,而且彼此之間有密切聯(lián)系,要求機(jī)器人能夠有效選擇任務(wù)并且實(shí)現(xiàn)任務(wù)之間平滑的過度。2)動(dòng)作空間大:足球機(jī)器人的動(dòng)作力度和方向在實(shí)數(shù)空間取值,搜索空間巨大。3)執(zhí)行效率高:競技對(duì)抗中的足球機(jī)器人,要求其動(dòng)作盡可能簡潔、能耗少、行動(dòng)敏捷。4)多機(jī)器人合作:踢球任務(wù)是典型的合作性任務(wù),要求多機(jī)器人相互配合完成。
本文將演化計(jì)算方法里的PSO算法應(yīng)用于RoboCup2D機(jī)器人動(dòng)作知識(shí)獲取,以及比賽過程中任務(wù)選擇和動(dòng)作規(guī)劃問題,將粒子群優(yōu)化算法進(jìn)行了適當(dāng)?shù)母倪M(jìn),并將該算法用于足球機(jī)器人的動(dòng)作選擇。設(shè)計(jì)了一個(gè)足球機(jī)器人的動(dòng)作集合;然后,根據(jù)賽場上的實(shí)際情況為機(jī)器人分配角色與任務(wù);利用粒子群優(yōu)化算法為足球機(jī)器人進(jìn)行動(dòng)作選擇。實(shí)驗(yàn)表明,應(yīng)用新算法的仿真足球機(jī)器人動(dòng)作靈活、準(zhǔn)確、效果好。
在目前RoboCup2D足球機(jī)器人研究中,智能機(jī)器人的構(gòu)建方式一般采用任務(wù)分層并分別決策或規(guī)劃的體系結(jié)構(gòu),其示圖如圖2所示。
圖2 一種典型的足球機(jī)器人的體系結(jié)構(gòu)
其中,戰(zhàn)略層是決策系統(tǒng)模塊中的最高層,用來從全隊(duì)利益出發(fā)實(shí)現(xiàn)高層決策,確定球員智能體的行為目標(biāo)及總的行為方案;任務(wù)層要制訂出為了完成這一特定的目標(biāo),所應(yīng)該采取的行為策略,包括搶占位置、搶球,攔截,帶球,傳球,射門,撲球,盯人等等;動(dòng)作規(guī)劃是決策系統(tǒng)層最低的,用以實(shí)現(xiàn)智能體的個(gè)人技能,即將這些具體的行為決策細(xì)化為比賽平臺(tái)可以接受的執(zhí)行指令。
類似于Nilsson的三層次體系結(jié)構(gòu),在這種體系結(jié)構(gòu)中,基本動(dòng)作的描述、動(dòng)作規(guī)劃是機(jī)器人的核心模塊。這種結(jié)構(gòu)的主要優(yōu)點(diǎn)在于:
1)模塊性強(qiáng)。各模塊分工清晰,可理解性強(qiáng),便于工程化實(shí)現(xiàn)。
2)實(shí)時(shí)性好。計(jì)算明確,響應(yīng)迅速。
3)可靠性高。各模塊測試方便,組織的系統(tǒng)可靠性高。
在足球機(jī)器人以及其他智能體的設(shè)計(jì)中我們發(fā)現(xiàn),采用這種體系結(jié)構(gòu)來建立復(fù)雜環(huán)境下多級(jí)任務(wù)驅(qū)動(dòng)的智能體系統(tǒng),具有下面缺點(diǎn):
1)動(dòng)作設(shè)計(jì)困難。由于環(huán)境和任務(wù)的復(fù)雜性,通用的、有效的動(dòng)作難以設(shè)計(jì),動(dòng)作的相關(guān)知識(shí),包括啟動(dòng)條件、執(zhí)行周期、效果描述等等,獲取困難。動(dòng)作集合的完備性難以保證。目前許多研究采用加強(qiáng)學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等方法來建立機(jī)器人基本動(dòng)作,但是由于評(píng)價(jià)函數(shù)的設(shè)計(jì)困難,動(dòng)作使用過程中的整體效果并不好。
2)適應(yīng)性差。特定任務(wù)下,機(jī)器人組織動(dòng)作的方式單一,對(duì)人工經(jīng)驗(yàn)依賴性強(qiáng),可擴(kuò)展性差。
3)整體性差。實(shí)際上,各級(jí)任務(wù)其實(shí)具有密切的聯(lián)系,忽略這些聯(lián)系可能影響智能機(jī)器人行為的一致性和平滑性。
根據(jù)RoboCup足球機(jī)器人的環(huán)境和要求,本文提出了機(jī)器人行為的4層(原子動(dòng)作層、粒子動(dòng)作層、行為層、任務(wù)層)組織方法,設(shè)計(jì)了基于演化計(jì)算的足球機(jī)器人的體系結(jié)構(gòu)。主要特點(diǎn):利用在感知分析、動(dòng)作設(shè)計(jì)、任務(wù)規(guī)劃部分引入演化計(jì)算方法。基于演化計(jì)算的足球機(jī)器人的體系結(jié)構(gòu)如圖3所示。
圖3 基于演化計(jì)算的足球機(jī)器人的體系結(jié)構(gòu)
由于環(huán)境和任務(wù)的復(fù)雜性,通用的、有效的動(dòng)作難以設(shè)計(jì),動(dòng)作的相關(guān)知識(shí),包括啟動(dòng)條件、執(zhí)行周期、效果描述等等,獲取困難。動(dòng)作集合的完備性難以保證。目前許多研究采用加強(qiáng)學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等方法來建立機(jī)器人基本動(dòng)作,但是由于評(píng)價(jià)函數(shù)的設(shè)計(jì)困難,動(dòng)作使用過程中的整體效果并不好。本文設(shè)計(jì)了基于演化計(jì)算的足球機(jī)器人學(xué)習(xí)結(jié)構(gòu)。該結(jié)構(gòu)使用任務(wù)框架、行為框架和動(dòng)作框架表達(dá)各種動(dòng)作,利用特定環(huán)境里的感知數(shù)據(jù),在一些規(guī)則的誘導(dǎo)下,形成和豐富行為知識(shí)?;谘莼?jì)算的足球機(jī)器人學(xué)習(xí)結(jié)構(gòu)如圖4所示。
圖4 基于演化計(jì)算的足球機(jī)器人學(xué)習(xí)結(jié)構(gòu)
2.1 原子動(dòng)作集合
在RoboCup2D環(huán)境中,足球機(jī)器人一般擁有以下基本動(dòng)作:dash、turn、kick、tackle、catch、move、turn_neck、change_view、say、pointto、attentionto等,這些動(dòng)作添加1個(gè)或者2個(gè)參數(shù)后就直接可以作為動(dòng)作輸出并產(chǎn)生效應(yīng)。其中,catch僅僅應(yīng)用于守門員,而move僅僅應(yīng)用于賽前移動(dòng)隊(duì)員,但是turn_neck、change_view、say、pointto、attentionto等僅僅用于感知,這些動(dòng)作規(guī)劃相對(duì)容易、可控性強(qiáng),本文將它們排除在原子動(dòng)作集合之外,并分別給予考慮和分配。本文設(shè)計(jì)的原子動(dòng)作集合僅僅包含4個(gè)元素,它們?cè)谂cRoboCup2D服務(wù)器交互過程中,每個(gè)周期里只容許使用一次,在機(jī)器人動(dòng)作規(guī)劃過程中頻繁地被搜索和執(zhí)行,對(duì)足球機(jī)器人的整體性能產(chǎn)生非常關(guān)鍵的影響。原子動(dòng)作集合見表1。
表1 原子動(dòng)作集合
2.2 粒子動(dòng)作框架
本文按照足球機(jī)器人動(dòng)作的特點(diǎn)和功能,利用機(jī)器人原子動(dòng)作,設(shè)計(jì)了7類機(jī)器人粒子動(dòng)作,然后利用演化計(jì)算方法,生成各種粒子動(dòng)作,組成粒子動(dòng)作集合,供比賽過程選擇和調(diào)用。
1) 大力踢球(Hard_Kick):目的是向某確定方向射門或者大力傳球;在持有球的時(shí)候使用;該動(dòng)作由turn、kick和dash組成,持續(xù)時(shí)間為1~20個(gè)周期;優(yōu)化目標(biāo)為踢球速度盡可能快且射出球角度與期望射出方向的偏差小。
2) 帶球移動(dòng)(Dribble_Ball):目的是向某確定方向帶球;在持有球且無截球威脅時(shí)候使用;該動(dòng)作由turn、kick和dash組成,持續(xù)時(shí)間為1~20個(gè)周期。優(yōu)化目標(biāo)為運(yùn)球速度盡可能快。
3) 帶球過人(Dribble_Pass):目的是繞過對(duì)手并向某確定方向帶球;在持有球且有截球威脅時(shí)候使用。該動(dòng)作由turn、kick和dash組成,持續(xù)時(shí)間為1~20個(gè)周期。優(yōu)化目標(biāo)為突破對(duì)手防線且丟球率盡可能低。
4) 位置部署(Location_Arrive):目的是到達(dá)某確定位置;在沒持有球、持有球的機(jī)會(huì)小時(shí)候使用。該動(dòng)作由turn、dash組成,持續(xù)時(shí)間為1~20個(gè)周期。優(yōu)化目標(biāo)為到達(dá)位置的速度大,而能量消耗速度小。
5) 位置搶占(Location_Rushing):目的是先于對(duì)手迅速到達(dá)某確定位置;在沒持有球、持有球的機(jī)會(huì)大時(shí)候使用。該動(dòng)作由turn和dash組成,持續(xù)時(shí)間為1~20個(gè)周期。優(yōu)化目標(biāo)為到達(dá)位置的速度。
6) 阻擋運(yùn)行(Block_Robot):目的是阻擋對(duì)手到達(dá)某確定位置;在沒持球、球在附近、持球的機(jī)會(huì)小時(shí)候使用。該動(dòng)作由turn和dash組成,持續(xù)時(shí)間為1~20個(gè)周期。優(yōu)化目標(biāo)為阻擋對(duì)方機(jī)器人的成功率。
7) 阻擋鏟球(Block_Tackle):目的是破壞對(duì)手的控球;在沒持有球、球在附近、鏟球的機(jī)會(huì)比較大時(shí)候使用。該動(dòng)作由turn、kick、tackle和dash組成,持續(xù)時(shí)間為1~20個(gè)周期。優(yōu)化目標(biāo)為截球的成功率。
在利用演化計(jì)算方法優(yōu)化粒子動(dòng)作問題中,解的結(jié)構(gòu)設(shè)計(jì),也就是粒子動(dòng)作的表達(dá)方法,非常關(guān)鍵。本文利用一個(gè)框架來描述每種粒子動(dòng)作,主要包括事先狀態(tài)、原子動(dòng)作序列規(guī)劃、動(dòng)作目的要求、動(dòng)作執(zhí)行評(píng)價(jià)等方面的信息。用于描述每種粒子動(dòng)作的框架設(shè)計(jì)如下。
框架代碼:1-7
事先的狀態(tài):
球的速度:(dx,dy)
對(duì)手相對(duì)于球的位置:(x,y)
“我”相對(duì)于球的位置:(x,y)
“我”的體力:stamina
事后期望的狀態(tài):
球的速度:(dx,dy)
“我”相對(duì)于球的位置:(x,y)
“我”相對(duì)于球的位置:(x,y)
“我”的體力:stamina
動(dòng)作執(zhí)行規(guī)劃:
預(yù)計(jì)執(zhí)行周期:t_now
原子動(dòng)作序列:act[t_now]
原子動(dòng)作參數(shù):cl[t_now],c2[t_now]
動(dòng)作執(zhí)行結(jié)果:
效果評(píng)價(jià):value
動(dòng)作修正:
下次執(zhí)行周期:t_next
下次原子動(dòng)作序列:act[t_next]
下次原子動(dòng)作參數(shù):cl[t_next],c2[t_next]
2.3 基于PSO算法的粒子動(dòng)作生成
粒子動(dòng)作的設(shè)計(jì)目的是通過訓(xùn)練得到通用的技能,包括:大力踢球(Hard_Kick)、帶球移動(dòng)(Dribble_Ball)、帶球過人(Dribble_Pass)、位置部署(Location_Arrive)、位置搶占(Location_Rushing)、阻擋運(yùn)行(Block_Robot)、阻擋鏟球(Block_Tackle)及它們的啟動(dòng)條件、時(shí)間耗費(fèi)、精力耗費(fèi)、效果描述等。
基于演化計(jì)算的粒子動(dòng)作設(shè)計(jì)的基本過程是:先根據(jù)人工經(jīng)驗(yàn)設(shè)計(jì)表達(dá)上述各類動(dòng)作的框架,對(duì)于每類動(dòng)作,初始化n個(gè)框架作為演化計(jì)算的種群,然后在指定訓(xùn)練環(huán)境中應(yīng)用這些框架所表達(dá)的動(dòng)作,利用演化計(jì)算對(duì)框架進(jìn)行遺傳和變異,再根據(jù)期望效果和動(dòng)作產(chǎn)生的實(shí)際效果進(jìn)行動(dòng)作效果評(píng)價(jià)、篩選,形成新的種群。在這種迭代中選擇出某種動(dòng)作的最優(yōu)表達(dá)和序列?;谘莼?jì)算的粒子動(dòng)作設(shè)計(jì)如圖5所示。
圖5 基于演化計(jì)算的粒子動(dòng)作設(shè)計(jì)
為了驗(yàn)證本文所提出的基于PSO算法的RoboCup2D機(jī)器人及其動(dòng)作學(xué)習(xí)結(jié)構(gòu)的可行性和有效性,進(jìn)行了RoboCup2D環(huán)境下的仿真實(shí)驗(yàn),實(shí)驗(yàn)設(shè)計(jì)如下:
1) 指定任務(wù)下的動(dòng)作搜索:給定了特定任務(wù),RoboCup2D機(jī)器人搜索和選擇動(dòng)作序列,驗(yàn)證動(dòng)作搜索的效率和結(jié)果。為完成上述目的,本文設(shè)計(jì)了專門用于機(jī)器人動(dòng)作學(xué)習(xí)的智能體程序,利用歷年RoboCup2D國際比賽中表現(xiàn)優(yōu)秀的智能體程序,組成2對(duì)2的對(duì)戰(zhàn)平臺(tái)(雙方各1名守門員和1名普通隊(duì)員),在實(shí)際對(duì)戰(zhàn)中捕捉學(xué)習(xí)機(jī)會(huì)并學(xué)習(xí)7類粒子動(dòng)作,形成踢球過程中通用的動(dòng)作技能知識(shí)系統(tǒng)。
2) 特定環(huán)境下的任務(wù)規(guī)劃:給定了特定環(huán)境,規(guī)定了雙方機(jī)器的位置和狀態(tài),RoboCup2D機(jī)器人搜索和選擇任務(wù),驗(yàn)證任務(wù)搜索的效率和結(jié)果。
3) 實(shí)際比賽:與其他方法設(shè)計(jì)的機(jī)器人進(jìn)行比賽,評(píng)價(jià)整體的效率和結(jié)果,驗(yàn)證比賽過程中的在線學(xué)習(xí)效果。
實(shí)驗(yàn)結(jié)果證明了基于PSO算法的RoboCup2D機(jī)器人的可行性。PSO算法在指定任務(wù)下的動(dòng)作搜索的效果很好,特定環(huán)境下的任務(wù)規(guī)劃能力一般,而且機(jī)器人在比賽過程中具有一定的在線學(xué)習(xí)能力。
本文將演化計(jì)算方法里的PSO算法應(yīng)用于RoboCup2D機(jī)
器人動(dòng)作知識(shí)獲取、比賽過程中任務(wù)選擇和動(dòng)作規(guī)劃問題,將粒子群優(yōu)化算法進(jìn)行了適當(dāng)?shù)母倪M(jìn),并將該算法用于足球機(jī)器人的動(dòng)作選擇。設(shè)計(jì)了一個(gè)足球機(jī)器人的動(dòng)作集合,使得機(jī)器人可以根據(jù)賽場上的實(shí)際情況為機(jī)器人分配角色與任務(wù)。實(shí)驗(yàn)表明,應(yīng)用新算法的仿真足球機(jī)器人動(dòng)作靈活、準(zhǔn)確、效果好。
[1] Nilsson N. Teleo-Reactive Programs for AgentControl[J]. Journal of Artificial Intelligence Research, 1994.
[2] Nils J. Nilsson,Teleo-Reactive Programs and the Triple-Tower Architecture[J]. Electronic Transactions on Artificial Intelligence, 2001,5, Section B,99-110.
[3] Rajan K, Py F, McGann C. Adaptive control of AUVs using onboard planning and execution[N]. Sea Technology Magazine, April, 2010.
[4] Russell S E,Carr D,Dragone M,et al.From bogtrotting to herding: a UCD perspective[J]. Annals of Mathematics andArtificial Intelligence 61:349-368, 2011.
[5] Sánchez P, Alonso D, Morales J M, et al.From Teleo-Reactive specifications to architectural components: A model-driven approach[J]. Journal of Systems and Software, 85, 2012.
[6] Smith G, Sanders J W, Winter K.Designing adaptive systems using teleo-reactive agents[J]. Transactions on Computational Collective Intelligence. Springer-Verlag, 2014 (to appear).
[7] Soto F, Sánchez P, Mateo A, et al.An Educational Tool for Implementing Reactive Systems Following a Goal-Driven Approach[J]. Computer Applications for Engineering Education, DOI: 10.1002/cae.21568, 2012.
Research on RoboCup2D Robot Planning Based on PSO
Bao Shengang, Dong Chunchen, Liu Zhao
(College of Computer Science and Technology, Wuhan University of Science and Technology, Wuhan 430081,China)
Research on the robot system structure, the organization of action learning and behavior way, evolutionary computation as the basic method, RoboCup2D as platform, designs the architecture of soccer robot based on PSO algorithm, solving the problem of perception, action, and planning. By offline training, agents format perception rules and relevant parameters, to optimize perception method for the information, and according to the granularity, functions, and parameters manually specified, PSO builds a set of combo actions, which described by atomic actions, parameters and execution results. According to game environment and a few task rules, PSO searches for task, behavior, and combo actions, as a whole, to accomplish the game tasks. The simulation experiments on RoboCup2D platform show that, agent based on PSO is a robust and flexible robot control method: given evaluation methods and implementation frames, it is able to learn rapidly in real environment, and displays planning behavior without the use of classical planning techniques.
agent; robot architecture; planning; PSO
2016-03-31;
2016-05-10。
國家自然科學(xué)基金資助項(xiàng)目(51174151)。
包勝剛(1991-),男,湖北黃岡人,碩士研究生,主要從事人工智能和機(jī)器學(xué)習(xí)方向的研究。
劉 釗(1969-),男,教授,主要從事智能計(jì)算、人工智能和計(jì)算機(jī)視覺方向的研究。
1671-4598(2016)09-0227-04
10.16526/j.cnki.11-4762/tp.2016.09.063
TP391
A