• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于單波束測(cè)距聲吶的水下機(jī)器人避障仿真研究

      2014-12-01 08:15:06黃朝熙吳海濤吳道曦徐素霞
      關(guān)鍵詞:聲納聲吶障礙物

      黃朝熙,潘 偉,陳 杰,吳海濤,吳道曦,徐素霞

      (福建省仿腦智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室(廈門大學(xué)),廈門大學(xué)信息科學(xué)與技術(shù)學(xué)院,福建 廈門361005)

      由于海洋環(huán)境的探測(cè)面積巨大,水下環(huán)境的復(fù)雜多變,傳統(tǒng)的定點(diǎn)或走航式的作業(yè)方式,越來(lái)越難以適應(yīng)新的海洋探測(cè)需求,自主式水下航行器(autonomous underwater vehicle,AUV)的研究與應(yīng)用便成了自然.AUV可以自主地在遠(yuǎn)程復(fù)雜甚至危險(xiǎn)的海洋環(huán)境之中運(yùn)行,在海洋探測(cè)、海底地形繪制、海洋資源探測(cè)等各方面扮演著重要角色.

      為了使AUV完成海洋環(huán)境檢測(cè)、海底救撈及水下作業(yè)等復(fù)雜任務(wù),保證AUV自身的安全是一切任務(wù)開(kāi)展的前提.具備自主避障功能的AUV的研究與應(yīng)用,受到越來(lái)越多研究者的重視.Qiao等[1]利用神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力,用近似Q函數(shù)的方式來(lái)存儲(chǔ)Q值,其基于行為的控制架構(gòu)使其獲得了更好的穩(wěn)定性和更優(yōu)的實(shí)時(shí)性,通過(guò)一段時(shí)間的學(xué)習(xí)能使機(jī)器人有效地躲避障礙物.Sayyaadi等[2]提出了基于強(qiáng)化學(xué)習(xí)算法隨機(jī)值的學(xué)習(xí)函數(shù),通過(guò)得到連續(xù)的輸出值使AUV具備更強(qiáng)的控制能力使其達(dá)到避障能力.Jia等[3]提出了針對(duì)AUV的一個(gè)基于勢(shì)函數(shù)和行為規(guī)則的控制算法,通過(guò)對(duì)避障區(qū)域的劃分,有效地解決了勢(shì)函數(shù)控制算法只適用于較大避障半徑的問(wèn)題,驗(yàn)證了多AUV編隊(duì)在未知的環(huán)境中控制和避障算法的有效性.這些算法在避障的穩(wěn)定性和實(shí)時(shí)性方面都進(jìn)行了不同程度的優(yōu)化,對(duì)各自算法存在的不足都進(jìn)行了改進(jìn),存在的不足主要是計(jì)算量的差異.此外,目前研究的大多數(shù)AUV系統(tǒng)需要接受上位機(jī)的控制,缺乏有效的信息獲取手段,無(wú)法適應(yīng)復(fù)雜多變的水下環(huán)境.因此,研究集成有多種傳感器的AUV系統(tǒng),提高水下航行器的自主運(yùn)動(dòng)能力和避障功能,具有非常重要的意義.比如Khanmohammadi等[4]設(shè)計(jì)了一個(gè)基于前視聲吶信息的模糊魯棒控制器,通過(guò)聲吶對(duì)障礙物的速度和角度信息能較為精確的獲取,使AUV能實(shí)現(xiàn)自主躲避動(dòng)態(tài)的障礙物;Zhang等[5]通過(guò)建立水下環(huán)境模型,對(duì)遺傳算法進(jìn)行優(yōu)化,提高了對(duì)多障礙情況下的位置和速度等數(shù)值的優(yōu)化處理,達(dá)到了有效的水下避障,并在名為“Twin-Burger”的AUV上實(shí)驗(yàn)成功;McPhail等[6]基于高分辨率的彩色成像技術(shù)和多波束聲吶的應(yīng)用,提出了重試避碰算法的調(diào)用機(jī)制,有效地補(bǔ)充了其默認(rèn)避障算法的不足,提高了避碰的成功率.AUV系統(tǒng)中的控制算法是基于聲吶探測(cè)的范圍和標(biāo)高相對(duì)于AUV的水平線來(lái)實(shí)現(xiàn)的,“Autosub6000”號(hào)AUV在大西洋的卡薩布蘭卡海山區(qū)的深水海試結(jié)果顯示了其良好的避障效果.這些基于大型傳感器設(shè)備的避障實(shí)驗(yàn)在已有算法的基礎(chǔ)上,能較好地達(dá)到避障的效果,顯示出一定的應(yīng)用前景,但是其高額的資金投入限制了推廣應(yīng)用.

      AUV要實(shí)現(xiàn)避障的行為,環(huán)境傳感器數(shù)據(jù)起著舉足輕重的作用.很多的科研機(jī)構(gòu)使用基于多波束的前視聲吶來(lái)采集AUV周圍環(huán)境障礙物的信息[7-8],但前視聲納體積大、價(jià)格高,不適合用于小型的AUV平臺(tái).也有些AUV使用光學(xué)強(qiáng)度攝像機(jī)來(lái)獲取環(huán)境障礙物的信息,但光線在水下環(huán)境會(huì)很快衰減.即使增加輔助燈光,光學(xué)攝像機(jī)探測(cè)距離也十分有限,不適用于AUV工作的實(shí)際海洋環(huán)境.

      本文結(jié)合課題組的實(shí)際研究項(xiàng)目,模擬單波束聲納的工作特點(diǎn),提出了一種基于強(qiáng)化學(xué)習(xí)的AUV自主避障策略.仿真實(shí)驗(yàn)結(jié)果表明:通過(guò)強(qiáng)化學(xué)習(xí)獲得的障礙物狀態(tài)與避障動(dòng)作之間的最佳組合,可以保證AUV在行進(jìn)過(guò)程中,安全躲避前方90°開(kāi)角內(nèi)的障礙物.

      1 AUV與聲納設(shè)備

      我課題組在英國(guó)Essex大學(xué)胡豁生教授的指導(dǎo)下,基于原有智能機(jī)器魚的研究與應(yīng)用成果,聯(lián)合設(shè)計(jì)如圖1所示的新一代機(jī)器魚.新設(shè)計(jì)的AUV具有更好的小阻力外形,更強(qiáng)的續(xù)航能力,更好的機(jī)動(dòng)性能.機(jī)器魚擬采用單波束聲納為環(huán)境障礙物信息采集傳感器,實(shí)現(xiàn)一種小型、低成本的機(jī)器魚避障方案.

      針對(duì)近海淺海的實(shí)際情況,同時(shí)著眼于小型的開(kāi)發(fā)平臺(tái),本課題組使用的避障傳感器是由英國(guó)Tritech International Limited公司基于 Micron DST開(kāi)發(fā)的側(cè)掃成像單波束聲納(圖1).

      2 避障算法設(shè)計(jì)

      2.1 環(huán)境數(shù)據(jù)采集

      本文中對(duì)環(huán)境數(shù)據(jù)采集使用的傳感器是單波束聲吶,這款聲納的工作中心頻率為700kHz,最大探測(cè)范圍為100m.聲納水平開(kāi)角為3°,垂直開(kāi)角為30°.這種單波束聲吶數(shù)字化程度高,成像清晰,與多波束聲吶相比,具有體積小,成本低,便于安裝,可應(yīng)用到小型化的平臺(tái)上去的優(yōu)勢(shì);但是在同等時(shí)間內(nèi),其掃描范圍較多波束聲吶而言小了許多.如圖2所示.

      圖2 單波束聲吶與多波束聲吶掃描范圍的大致對(duì)比Fig.2 Scan range comparing single beam sonar with multi beam sonar

      同時(shí)單波束聲吶在隨著AUV的行進(jìn)中,聲吶掃描的截面也會(huì)發(fā)生相應(yīng)的移動(dòng).在掃描成像方面可能出現(xiàn)圖像錯(cuò)位的情況,所以在后期數(shù)據(jù)處理與成像分析的時(shí)候,需要進(jìn)一步的處理(圖3).

      圖3 AUV的掃描劃分與動(dòng)作選擇執(zhí)行Fig.3 Scanning division and action choice of AUV

      根據(jù)單波束聲吶的工作特點(diǎn),我們?cè)O(shè)計(jì)以下避障算法.整個(gè)避障模塊分為學(xué)習(xí)階段和執(zhí)行階段,兩個(gè)階段相對(duì)獨(dú)立,又相互聯(lián)系.各自的工作流程如圖4所示.

      2.2 AUV的狀態(tài)集與行為集

      強(qiáng)化學(xué)習(xí)采用試錯(cuò)法(trial-and-error),不用建立環(huán)境和任務(wù)的精確數(shù)學(xué)描述.通過(guò)學(xué)習(xí),AUV能通過(guò)獲取系統(tǒng)狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)等有用的經(jīng)驗(yàn),從而掌握一套優(yōu)化的避障策略與知識(shí).

      基于單波束聲吶的特點(diǎn),本文中的AUV強(qiáng)化學(xué)習(xí)模型由以下幾部分組成:控制策略P被定義成狀態(tài)集合S到控制行為集合Μ 的映射,其函數(shù)的形式是:m=P(x),x∈S,m∈M.其含義是:根據(jù)策略Ρ,當(dāng)觀察到系統(tǒng)狀態(tài)為x時(shí),決策結(jié)果是控制行為m.

      圖4 避障算法設(shè)計(jì)流程圖Fig.4 Obstacle avoidance algorithm design flow chart

      由于AUV的游動(dòng)方向主要表現(xiàn)為前向運(yùn)動(dòng),所以在AUV的前方有無(wú)障礙及與障礙間的距離對(duì)AUV的運(yùn)動(dòng)影響是最大的.為了減少狀態(tài)集的數(shù)量和提高學(xué)習(xí)速度,對(duì)各種狀態(tài)進(jìn)行了合并[9],AUV狀態(tài)的描述由聲吶掃描的左中右3個(gè)方位的狀態(tài)組合而成,并根據(jù)其各個(gè)方位與障礙物距離關(guān)系在s0,s1,s2中取值(詳見(jiàn)表1),此處詳見(jiàn)2.4節(jié).

      同時(shí)針對(duì)AUV可能遇到的環(huán)境狀態(tài)設(shè)計(jì)了如下的6種行為:

      b1:AUV右螺旋槳速度為0向右轉(zhuǎn)彎;

      b2:AUV左螺旋槳速度為0向左轉(zhuǎn)彎;

      b3:AUV以速度V向右轉(zhuǎn)彎;

      b4:AUV向前直游;

      b5:AUV以速度V向左轉(zhuǎn)彎;

      b6:漫游.

      上述行為中,b1~b5是AUV學(xué)習(xí)的目標(biāo),而b6并不需要AUV通過(guò)學(xué)習(xí)獲取,它作為AUV本身所應(yīng)該具有的基本能力,當(dāng)聲吶在3個(gè)方向都沒(méi)有探測(cè)到障礙物時(shí),AUV自動(dòng)選擇該行為.

      2.3 AUV的獎(jiǎng)懲評(píng)價(jià)設(shè)置

      如何獎(jiǎng)懲也是AUV強(qiáng)化學(xué)習(xí)中的一個(gè)重要環(huán)節(jié),它影響到學(xué)習(xí)的好壞、快慢.在Tucker Balch的文獻(xiàn)[10]中,給出了一套描述符,對(duì)強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)進(jìn)行了分類.情況設(shè)置見(jiàn)表2.

      假定3個(gè)方向探測(cè)到的距離值分別為dL,dF,dR,則障礙物相對(duì)AUV的距離d定義為:d=min(dL,dF,dR).

      狀態(tài)評(píng)價(jià)函數(shù)V是某個(gè)狀態(tài)和目標(biāo)狀態(tài)之間距離的度量,其定義如下:在某種控制策略下,從某個(gè)狀態(tài)轉(zhuǎn)移到目標(biāo)狀態(tài)的過(guò)程中,把增強(qiáng)信號(hào)加權(quán)和的數(shù)學(xué)期望定義為該狀態(tài)的評(píng)價(jià)函數(shù)值,即:

      表1 合并后的狀態(tài)集Tab.1 After the merger of the state set

      表2 獎(jiǎng)懲情況設(shè)置Tab.2 Rewards and punishments set

      式(1)中的E表示數(shù)學(xué)期望;γ稱為折扣因子(discount factor),也是常數(shù),且0<γ<1,在數(shù)學(xué)上使式(1)中的無(wú)窮級(jí)數(shù)收斂;rt+1是t+1時(shí)刻產(chǎn)生的增強(qiáng)信號(hào)值;x0表示初始狀態(tài).某個(gè)狀態(tài)的評(píng)價(jià)函數(shù)值越大,表示它距離目標(biāo)狀態(tài)越近.從上述定義可知,狀態(tài)評(píng)價(jià)函數(shù)和控制策略是相聯(lián)系的,不同控制策略下的狀態(tài)評(píng)價(jià)函數(shù)可能不同.強(qiáng)化學(xué)習(xí)使?fàn)顟B(tài)評(píng)價(jià)的估計(jì)值逐漸逼近最優(yōu)策略控制下的狀態(tài)評(píng)價(jià)值,同時(shí)使控制策略逼近最優(yōu)策略.

      2.4 聲吶數(shù)據(jù)處理與方位角設(shè)置

      本文對(duì)聲吶所掃描到的距離數(shù)據(jù)采取了分段處理方式.假定聲吶的最大探測(cè)距離為Dmax,執(zhí)行有效避障行為的臨界距離為Dc,AUV到障礙物的危險(xiǎn)距離為Dh,這3者的距離關(guān)系是Dmax>Dc>Dh.

      根據(jù)聲吶測(cè)量到的數(shù)據(jù)值Dt,將AUV某一方向的障礙物分布情況分為s0,s1,s2等3種如下的狀態(tài):

      s0:AUV沒(méi)有探測(cè)到障礙物;

      s1:AUV距離障礙物較遠(yuǎn),即Dc>Dt>Dh;

      s2:AUV距離障礙物較近,即Dh>Dt.

      將AUV聲吶的掃描范圍做一個(gè)如圖3的劃分,同時(shí)將L區(qū)所包含的掃描范圍視為AUV的左方位,將F區(qū)部分范圍視為AUV的前方,同理R區(qū)部分為AUV的右方位.在描述AUV的狀態(tài)時(shí),可建立一個(gè)3個(gè)方位的狀態(tài)組合為FWLFWFFWR,其中FWL為AUV左方位的狀態(tài),F(xiàn)WF為AUV前方的狀態(tài),同理,F(xiàn)WR為 AUV 的右方位狀態(tài).FWL,F(xiàn)WF,F(xiàn)WR在s0,s1,s2中取值.例如:s0s0s1表示 AUV右方掃描到障礙物,且距離較遠(yuǎn),其他方向沒(méi)有探測(cè)到障礙物.

      由于傳感器不能對(duì)障礙物進(jìn)行精確的方向定位,為此綜合AUV 3個(gè)方向的信號(hào)情況,將障礙物相對(duì)于AUV的方向角離散化為7種情況[9],作如下定義:

      AUV與障礙物的相對(duì)方向角為Φ,當(dāng)AUV執(zhí)行行為偏離障礙物相對(duì)AUV的方向時(shí),稱AUV偏離障礙物;反之稱AUV靠近障礙物.

      3 仿真實(shí)驗(yàn)

      在MATLAB仿真下,對(duì)局部有障礙物的環(huán)境設(shè)置如圖5所示,圖5中的圓框?yàn)檎系K物,星形點(diǎn)為AUV,障礙物為高約15cm,邊長(zhǎng)約5cm的等八邊形柱體.AUV長(zhǎng)60cm(只包含魚身部分),最寬處寬度為16cm,最高處高度為27.6cm.本文采用強(qiáng)化學(xué)習(xí)來(lái)進(jìn)行狀態(tài)-動(dòng)作的學(xué)習(xí),不用建立環(huán)境和任務(wù)的精確數(shù)學(xué)描述,通過(guò)不斷的試錯(cuò),再對(duì)其選擇的行為給予獎(jiǎng)懲,從而獲取對(duì)避障有用的經(jīng)驗(yàn).行為學(xué)習(xí)選取采用貪婪算法,貪婪算法的基本思想是采用逐步構(gòu)造最優(yōu)解的方法,其本質(zhì)上是一種局部搜索算法,可以對(duì)當(dāng)前的環(huán)境選擇局部最優(yōu)的避障行為.ε表示各設(shè)定避障行為的加權(quán)系數(shù),其初始值εn設(shè)為0.9,每代遞減,其中T為學(xué)習(xí)總代數(shù),學(xué)習(xí)總代數(shù)為60,每代最大運(yùn)動(dòng)步數(shù)是2 000步.通過(guò)不斷的試錯(cuò)之后,AUV系統(tǒng)掌握了一套有效的避障策略.在實(shí)驗(yàn)中,對(duì)障礙物的位置隨機(jī)設(shè)置,均達(dá)到了預(yù)期避障目標(biāo).相關(guān)的仿真實(shí)驗(yàn)如圖5所示.

      圖5 避障仿真實(shí)驗(yàn)路徑圖Fig.5 The path graph of obstacle avoidance simulation experiment

      系統(tǒng)學(xué)習(xí)的任務(wù)是通過(guò)訓(xùn)練次數(shù)的不斷深入,對(duì)AUV的避障方法學(xué)習(xí)得出一個(gè)較為穩(wěn)定的躲避策略,圖6給出了學(xué)習(xí)策略改變次數(shù)與學(xué)習(xí)代數(shù)之間的變化曲線關(guān)系,可以看出,算法是收斂的,且學(xué)習(xí)代數(shù)為50時(shí),可以達(dá)到一個(gè)學(xué)習(xí)成本與執(zhí)行效果較好的平衡,同時(shí)可以看出其曲線基本趨于平穩(wěn),繼續(xù)增加學(xué)習(xí)代數(shù)對(duì)提高學(xué)習(xí)效果并不明顯.綜上所述作出如上選擇.

      圖6 學(xué)習(xí)代數(shù)與策略學(xué)習(xí)的平均步數(shù)的關(guān)系圖Fig.6 The graph of the relationship between the strategies of learning algebra and the average number of strategy learning

      4 討 論

      本文針對(duì)小型的AUV開(kāi)發(fā)平臺(tái),使用基于Micron DST開(kāi)發(fā)的側(cè)掃成像單波束聲吶,提出了一種基于單波束聲吶掃描特性的AUV避障控制策略.利用單波束聲吶的探測(cè)波束依次旋轉(zhuǎn),依次獲取AUV前方3個(gè)區(qū)域的障礙物距離信息,同時(shí)給出了合適的環(huán)境狀態(tài)與有效的避障行為集合,并通過(guò)強(qiáng)化學(xué)習(xí)來(lái)優(yōu)化狀態(tài)行為組合,給小型、低成本AUV避障提供一種解決方案.在仿真實(shí)驗(yàn)中,通過(guò)多次隨機(jī)設(shè)定環(huán)境的初始狀態(tài),均達(dá)到了預(yù)期的避障效果,驗(yàn)證了學(xué)習(xí)結(jié)果的有效性.

      通過(guò)多次的仿真實(shí)驗(yàn)表明,使用基于強(qiáng)化學(xué)習(xí)的避障算法和基于Micron DST開(kāi)發(fā)的單波束聲納能夠及時(shí)地為系統(tǒng)的安全運(yùn)行提供有效的信息和控制策略.但是在水池實(shí)驗(yàn)中由于慣性導(dǎo)航系統(tǒng)的低精度問(wèn)題,我們不能得到準(zhǔn)確的速度信息,在一定程度上影響到系統(tǒng)反應(yīng)的準(zhǔn)確性;此外,單一的聲學(xué)傳感器的局限性問(wèn)題也在特定的環(huán)境中顯現(xiàn)出來(lái).所以在未來(lái)我們要從以下3個(gè)方面來(lái)改善它:

      1)采用精度較高的慣性導(dǎo)航系統(tǒng)或其他巡航速度傳感器,速度信息的補(bǔ)充將使決策更加及時(shí)有效.

      2)添加一個(gè)視覺(jué)傳感器系統(tǒng),在一定的距離范圍內(nèi),給聲學(xué)傳感器提供補(bǔ)充和輔助.

      3)添加其他模塊如通信模塊、導(dǎo)航模塊等使系統(tǒng)更完整.

      [1]Qiao J F,Hou Z J,Ruan X G.Application of reinforcement learning based on neural network to dynamic obstacle avoidance[C]∥Proceedings of the 2008IEEE International Conference on Information and Automation.Changsha,China:IEEE,2008:784-788.

      [2]Sayyaadi H,Ura T,F(xiàn)ujii T.Collision avoidance controller for AUV system using stochastic real reinforcement learning method[C]∥Proceedings of the 39th SICE Annual Conference.Iizuka,Japan:IEEE,2000:165-170.

      [3]Jia Q L,Li G W.Formation control and obstacle avoidance algorithm of multiple autonomous underwater vehicles(auvs)based on potential function and behavior rules[C]∥Automation and Logistics,2007IEEE International Conference on.Jinan,China:IEEE,2007:569-573.

      [4]Khanmohammadi S,Alizadeh G,Poormahmood M.Design of a fuzzy controller for underwater vehicles to avoid moving obstacles[C]∥Fuzzy Systems Conference.London,England:IEEE,2007:1-6.

      [5]Zhang M,Ura T.Motion optimization of autonomous underwater vehicle by genetic algorithm[J].Journal of the Society of Naval Architects of Japan,1997,182:491-497.

      [6]McPhail S,F(xiàn)urlong M,Pebody M.Low-altitude terrain following and collision avoidance in a flight-class autonomous underwater vehicle[J].Journal of Engineering for the Maritime Environment,2010,224(4):279-292.

      [7]Huvenne V A I,Blondel P,Henriet J P.Textural analyses of sidescan sonar imagery from two mound provinces in the Porcupine Seabight[J].Marine Geol,2002,189:323-341.

      [8]Petillot Y,Ruiz I T,Lane D.Underwater vehicle obstacle avoidance and path planning using a multi-beam forward looking sonar[J].IEEE Journal of Oceanic Engineering,2001,26(2):240-251.

      [9]沈志忠,曹志強(qiáng),譚民.基于增強(qiáng)式學(xué)習(xí)的仿生機(jī)器魚避障控制[J].高技術(shù)通訊,2006,16(12):1253-1258.

      [10]Balch T.Behavioral diversity in learning robot teams[D].Atlanta:Georgia Institute of Technology,1998.

      猜你喜歡
      聲納聲吶障礙物
      探索大洋的“千里眼”——聲吶
      Daniel Kish
      一種便攜式側(cè)掃聲吶舷側(cè)支架的設(shè)計(jì)及實(shí)現(xiàn)
      船載調(diào)頻連續(xù)波聲納測(cè)深技術(shù)研究
      高低翻越
      SelTrac?CBTC系統(tǒng)中非通信障礙物的設(shè)計(jì)和處理
      聲吶
      基于聽(tīng)覺(jué)特征的被動(dòng)聲納目標(biāo)識(shí)別
      關(guān)于聲納發(fā)射電源的改進(jìn)設(shè)計(jì)
      COTS技術(shù)在聲吶裝備中的應(yīng)用
      噶尔县| 江孜县| 信宜市| 三河市| 长宁区| 铜鼓县| 大竹县| 杨浦区| 乐陵市| 黑山县| 会泽县| 东源县| 邹城市| 江源县| 栖霞市| 井研县| 丘北县| 蛟河市| 涿鹿县| 菏泽市| 潮州市| 明溪县| 呼伦贝尔市| 巴楚县| 平泉县| 疏附县| 崇义县| 普洱| 古田县| 巴楚县| 镇坪县| 呼图壁县| 娄底市| 大关县| 永吉县| 庆城县| 贵定县| 洪泽县| 永康市| 会同县| 古蔺县|