• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      可訓練變換器和RdNet在果實識別網絡中的應用

      2021-04-02 12:06:41崔翔宇趙紅朱智富袁煥濤仇俊政牟亮
      青島大學學報(工程技術版) 2021年1期
      關鍵詞:目標檢測卷積神經網絡葡萄

      崔翔宇 趙紅 朱智富 袁煥濤 仇俊政 牟亮

      摘要:? 為解決YOLO算法由于其端到端的網絡結構導致某些尺度上的特征被淡化或丟失使識別率較低的問題,本文以葡萄為例,對可訓練變換器和RdNet在果實識別網絡中的應用進行研究。提出基于可訓練變換器和多尺度特征圖融合的改進YOLO算法,以自主設計的基于堆疊殘差塊和降采樣塊的RdNet作為特征提取網絡,采用converter變換器結構進行不同尺度的特征變換融合,從采集并篩選的葡萄果園照片中,隨機選取120張作為測試集,將其余照片進行數(shù)據(jù)增強,得到480張圖片作為訓練集,并分別對提出的模型、YOLOv3和快速區(qū)域提出卷積神經網絡(faster region-convolutional neural networks,F(xiàn)aster R-CNN)三種算法進行訓練,使用其在測試集上的F1值與AP值評估各模型的性能差異。實驗結果表明,模型在測試集上的F1值可達9258%,AP值可達9233%,而在Nvidia Jetson TX2平臺上,檢測速度達到19 f/s,單張640×480圖片的推理時間為526 ms,達到了較理想的識別準確率,且能滿足采摘機器人的實時性要求。該研究在果園等場景中可以得到更好的應用效果。

      關鍵詞:? 卷積神經網絡; 葡萄; 目標檢測; 多尺度特征; YOLO

      中圖分類號: TP391.41文獻標識碼: A

      作者簡介: ?崔翔宇(1996-),男,碩士研究生, 主要研究方向為用于果實采摘和無人駕駛感知的計算機視覺。

      通信作者: ?趙紅(1973-),女, 博士,副教授,主要研究方向為汽車節(jié)能減排與新能源技術。 Email: qdlizh@163.com

      我國是農業(yè)大國,有著上百萬平方公里的農業(yè)土地,但農場與果園卻面臨日益嚴重的勞動力短缺[1]。近年來,隨著農業(yè)信息化與機械化的不斷發(fā)展[2],果實采摘機器人[35]成為未來農業(yè)發(fā)展的一項很重要的課題。我國的葡萄果園環(huán)境較復雜,葡萄密集程度高,葡萄采摘機器人對葡萄串做出精確識別與定位的算法提出了較高的要求。針對自然環(huán)境下的葡萄串識別問題,國內外學者陸續(xù)提出基于傳統(tǒng)機器視覺的識別方法。田銳等人[6]通過提取基于RGB空間的人工特征方法進行葡萄串識別;劉平等人[7]使用顏色空間中H分量提取輪廓與重疊邊界輪廓相融合的方法,這兩種方法對環(huán)境變化敏感,魯棒性較差;羅陸峰等人[8]通過對H分量模糊聚類,提取最大連通區(qū)域的方法進行葡萄識別。此外,大多數(shù)基于傳統(tǒng)視覺[913]的果實識別算法都存在對環(huán)境變化敏感、魯棒性差的問題。隨著計算機硬件算力的提升,傳統(tǒng)的視覺算法由于魯棒性差,精度低逐漸被基于深度學習算法所替代。R. Girshick等人[14]在CVPR2014上提出了R-CNN算法,并取得了較高的檢測精度,但由于其候選區(qū)的生成和對每個候選區(qū)的推理,導致其訓練復雜和運行緩慢,無法滿足實時應用的需求。而基于R-CNN提出的一系列改進算法[1516],通過區(qū)域生成網絡(region proposal network,RPN)代替?zhèn)鹘y(tǒng)的候選框生成方法,在速度上有了大幅提升,但在追求實時性場景下,有時仍無法滿足需求;2015年提出的YOLO算法[17]及其后來改進的算法[1819],在保證較高精度的情況下,大幅提升檢測速度,但由于單階段算法結構的限制,仍不能很好的對不同尺度的特征進行提取融合。隨著基于深度學習目標檢測算法的興起,越來越多的學者將其應用到果園果實識別場景中,趙德安等人[20]直接使用YOLOv3算法進行復雜背景下的果園蘋果識別,但并未根據(jù)應用場景對算法做出具體的修改;王細萍等人[21]采用卷積神經網絡進行蘋果病害圖像的識別,但這種堆疊卷積層的方法不能很好利用多層特征的關聯(lián)信息;魏瑋等人[22]采用殘差網絡[23]通過跳躍連接降低冗余特征來提高檢測精度,并提高檢測速度,但這種方法同時也會導致部分特征信息的丟失;肖經緯等人[24]通過壓縮后的殘差網絡結構來提升檢測速度和精度,但仍會使模型的特征表達能力有所損失。因此,本文在YOLOv3算法框架基礎上,采用模塊化網絡結構[25]設計,對葡萄串的特性設計全新的特征提取網絡和損失函數(shù),提出一種改進的葡萄串檢測算法。該算法將特征提取網絡得到的不同尺度的特征圖進行融合,增強模型的特征提取與處理能力,提高了模型的魯棒性,從而提升了對果園中葡萄串的檢測效果。

      1網絡結構設計

      本文提出的葡萄檢測算法由特征提取網絡、特征融合網絡及一些常用的后處理部分組成。其中,特征提取網絡RdNet由自主設計的基本殘差模塊和降采樣模塊堆疊組成,負責從輸入圖像中提取不同尺度的特征;特征融合網絡用于將不同尺度的特征圖進行融合,以得到包含更多特征信息的特征圖;后處理部分包括將特征轉換為預測值的預測層以及非極大值抑制等生成預測框的常用算法。

      1.1特征提取網絡RdNet

      為提高訓練精度及網絡質量,一般會采用堆疊的卷積層進行特征提取,但由于隨著卷積層層數(shù)的增加,會導致網絡訓練時出現(xiàn)梯度消失和梯度爆炸的問題。本文利用殘差網絡中使用跳遠連接來避免梯度爆炸或梯度消失的思想,通過重復堆疊自主設計的殘差模塊與降采樣模塊,設計了特征提取網絡RdNet,其網絡結構如圖1所示。輸入圖像通過殘差塊的卷積層進行特征提取,在幾個特定的位置使用降采樣模塊,對特征圖進行尺度變換,從而提取到不同尺度的特征。在每個殘差塊和降采樣塊輸出時,都使用LeakyReLU激活函數(shù)對特征激活。在特征提取網絡的后半部,提取出80×60,40×30,20×15三種尺度的特征圖route0、route1、route2,用于后續(xù)特征融合網絡進行多尺度特征圖融合。

      網絡子模塊結構如圖2所示。由圖2a可以看出,本文以該殘差模塊作為特征提取網絡的基本單元,輸入特征在主路徑經過三層卷積進行特征提取,該過程只改變特征的通道數(shù),而不改變特征的尺度大小。同時,在捷徑對輸入特征進行一次卷積,將其變換為與主路徑相同維度的輸出,從而將兩條路徑的輸出疊加再進行激活,得到殘差模塊的輸出。

      由圖2b可以看出,降采樣模塊采用與殘差模塊對稱的結構,主路徑由三個卷積層構成,其中第二層卷積層采用特定的卷積步長,并采用same方式填充,從而得到尺度縮小為特定倍數(shù)的特征圖(圖2中以步長等于2為例);捷徑為一個與卷積層同樣步長的最大池化層,從而得到與卷積層相同尺度的輸出,把兩條路徑的輸出疊加,再使用LeakyReLU函數(shù)進行激活,得到降采樣模塊的輸出。

      1.2特征融合網絡

      由于不同尺度的特征圖對不同深度的信息特征提取能力有較大區(qū)別,采用單一尺度特征圖直接進行預測,會使準確率大幅下降,若對多種尺度的特征圖分別進行預測,則會因特征表達不完整導致檢測效果仍然不理想。因此,本文提出了一種基于可訓練變換器的特征融合網絡,特征融合網絡結構如圖3所示。從特征提取網絡提取三個尺度的特征圖route0、route1、route2,分別經過一次卷積將通道數(shù)減半變?yōu)?28,將得到的route2_cat直接作為特征融合網絡的一個輸出;采用nearest方法對route2_cat進行上采樣,變換為與卷積后route1相同的尺度,再經過與converter2沿通道方向相乘,得到變換后的特征層,將此特征層與卷積后的route1疊加,即可得到特征融合網絡的第二個輸出route1_cat;對route1_cat進行相同的上采樣和變換器操作,并與卷積后的route0疊加,得到特征融合網絡第三個輸出route0_cat。使用三個融合后的特征圖分別進行預測,可以增強模型的特征表達能力,得到更好的檢測效果。

      1.3后處理部分

      在預測層中,與YOLO算法類似,將主干網絡輸出矩陣的每個像素點都作為一個檢測點,每個檢測點負責檢測特定尺度先驗框的物體,預測層對特征融合層返回的三個融合后的特征圖分別進行預測,并對三種特征圖分別使用不同大小的先驗框,最終在每個檢測點得到七維預測信息,其中每個預測框包含預測框的置信度、預測框的分類和分類得分,以及預測框相對于先驗框中心點的偏移和相對于先驗框寬高的調整值,其中三個特征圖經過預測層,分別產生4 800,1 200,300個預測框。

      為了防止對同一物體的重復預測,在預測層之后采用非極大值抑制(non-maximum suppression,NMS)算法,對重疊率大于閾值的預測框進行篩選,兩個框的重疊率使用交并比(兩個檢測框交集與并集的比值)來量化,若交并比大于設定的閾值06,說明兩框為同一目標,將同一目標中得分較低的檢測框去掉,對于每個目標只留下得分最高的一個檢測框后,對預測值進行解碼,得到預測框實際的寬、高及中心點坐標,即可完成對物體的預測。

      2實驗與結果分析

      2.1實驗環(huán)境

      本實驗使用Nvidia Geforce RTX2080Ti GPU進行網絡訓練。為測試模型在采摘移動平臺上的性能,本文選用arm64架構的Nvidia Jetson TX2移動計算平臺為測試環(huán)境,其配置為8 GB內存加16 GB交換內存,搭載ubuntu1604操作系統(tǒng),裝機環(huán)境為jetpack33,依賴環(huán)境為cuda100、python37、pytorch131和numpy1174,并使用opencv和matplotlib庫進行預測結果和數(shù)據(jù)的可視化。

      2.2數(shù)據(jù)采集與圖像標注

      為使用于模型訓練的數(shù)據(jù)與采摘機器人實際工作場景保持一致性,將Intel的RealSense D435攝像頭分別安裝在距離地面60,90和120 cm的位置錄制視頻,為使模型得到較高的魯棒性,分別在早晨、中午、傍晚進行視頻錄制,將錄制的視頻剪輯,并按3 s的時間間隔進行抽幀,得到500張圖片,從去除不理想數(shù)據(jù)后得到的400張圖片中,隨機選取120張作為測試集,概率地對剩余圖片進行調光,水平翻轉,順時針及逆時針旋轉5°等操作進行數(shù)據(jù)增強,隨機選取增強后數(shù)據(jù)中的480張圖片作為最終的訓練集。

      使用labelImg圖像標注工具,對所有測試集和訓練集圖片中的葡萄串進行框選,生成xml標簽文件。使用python的xml庫從xml標簽文件中,提取每個期望檢測到的目標邊框左下角點與右上角點的坐標值xmin、xmax、ymin、ymax,將其轉換為邊框中心點坐標x、y與邊框的寬和高w、h,將所有邊框的轉換結果保存到txt文件中,供訓練和測試腳本調用。

      2.3網絡訓練

      本文的網絡訓練采用自主設計的損失函數(shù),將損失值分為正樣本和負樣本兩部分。訓練樣本通過前向傳播后,得到n(n=6 300)個預測框,計算出每個預測框與標簽中真實預測框的交并比,并與設定好的閾值06進行比較,將交并比大于閾值的預測框作為正樣本,小于閾值的預測框作為負樣本,分別計算正負樣本的損失。負樣本直接使用預測置信度的累加作為損失值,正樣本損失值則分為真值框交并比與置信度的差值、類別預測得分與真值(0或1)的差值、預測框的位置及寬高誤差三部分,對三部分損失值按照不同權重進行疊加,再將正負樣本損失值相加,即為最終的損失值。正負樣本損失為少5倍,每批量的樣本數(shù)為32,最大迭代次數(shù)設置為12 000,網絡訓練損失值迭代曲線如圖5所示。由圖5可以看出,網絡的損失值在第11 000到12 000次迭代間逐漸趨于穩(wěn)定。

      2.4結果分析

      本文模型檢測葡萄串效果圖如圖6所示。由圖6可以看出,對大部分葡萄串目標,模型都可以正確識別,并得到較精確的邊框。由于使用了較多遮擋和重疊數(shù)據(jù)進行訓練,在測試時,模型也可以提取有效特征,并對有遮擋或重疊的葡萄串目標做出正確的檢測。

      使用訓練好的模型對測試集進行推理,將得到的n個預測框按照其置信度從大到小排序,分別取前1,2,…,n作為預測正樣本,其他作為預測負樣本,每次分別計算預測結果的recall值和percision值,并根據(jù)這些值繪制P-R曲線,P-R曲線如圖7所示。

      在相同硬件環(huán)境下,使用相同數(shù)據(jù)集對搭載DarkNet19的YOLO v3,F(xiàn)aster R-CNN進行訓練與測試,計算F1 score和AP值,并與本文提出算法進行對比,不同模型檢測結果對比如表1所示。

      由表1可以看出,在自然條件下進行葡萄串單目標檢測時,本文所提出的基于可訓練變換器的多尺度特征融合方法的F1值比YOLO v3高出366%,而比Faster R-CNN高出245%;AP值比YOLOv3高出478%,比Faster R-CNN高出309%;檢測速度比FasterR-CNN高出8 f/s,比YOLOv3高出4 f/s,說明本文算法在識別準確率和檢測速度上與YOLOv3和Faster R-CNN相比,都有較明顯的優(yōu)勢。

      3結束語

      本文提出的基于可訓練變換器的RdNet葡萄串檢測算法,加入了特征變換器,相較于經典端到端的模型,更能充分的從各尺度特征提取有用的信息。經訓練后,在自然條件下,模型檢測的F1值和AP值分別達到9258%和9233%,在Nvidia jetson TX2上檢測速率可達19 f/s,相對于YOLO v3和Faster R-CNN算法都有較明顯的優(yōu)勢,可以滿足果實采摘機器人實時性要求。該研究為采摘機器人提供了良好的技術支持。未來可針對不同果實的特征,將模型應用于多種果實的識別。

      參考文獻:

      [1]齊元靜, 唐沖. 農村勞動力轉移對中國耕地種植結構的影響[J]. 農業(yè)工程學報, 2017, 33(3): 233-240.

      [2]張新紅, 劉陽. 新一代信息技術驅動下我國智慧農業(yè)發(fā)展路徑選擇[J]. 河南農業(yè), 2020,(6): 35-37.

      [3]陳燕, 王佳盛, 曾澤欽, 等. 大視場下荔枝采摘機器人的視覺預定位方法[J]. 農業(yè)工程學報, 2019, 35(23): 48-54.

      [4]呂繼東, 趙德安, 姬偉. 采摘機器人振蕩果實匹配動態(tài)識別[J]. 農業(yè)工程學報, 2013, 29(20): 32-39.

      [5]方建軍. 移動式采摘機器人研究現(xiàn)狀與進展[J]. 農業(yè)工程學報, 2004, 20(2): 273-278.

      [6]田銳, 郭艷玲. 基于機器視覺的葡萄自動識別技術[J]. 東北林業(yè)大學學報, 2008, 36(11): 95-97.

      [7]劉平, 朱衍俊, 張同勛, 等. 自然環(huán)境下貼疊葡萄串的識別與圖像分割算法[J]. 農業(yè)工程學報, 2020, 36(6): 161-169.

      [8]羅陸鋒, 鄒湘軍, 熊俊濤, 等. 自然環(huán)境下葡萄采摘機器人采摘點的自動定位[J]. 農業(yè)工程學報, 2015, 31(2): 14-21.

      [9]Linker R, Cohen O, Naor A. Determination of the number of green apples in RGB images recorded in orchards[J]. Computers and Electronics in Agriculture, 2012, 81: 45-57.

      [10]Xu Y W, Imou K J, Kaizu Y, et al. Two-stage approach for detecting slightly overlapping strawberries using HOG descriptor[J]. Biosystems Engineering, 2013, 115(2): 144-153.

      [11]Zhao C Y, Lee W S, He D J. Immature green citrus detection based oncolour feature and sum of absolute transformed difference (SATD) using colour images in the citrus grove[J]. Computers and Electronics in Agriculture, 2016, 124: 243-253.

      [12]Hussin R, Juhari M R, Kang N W, et al. Digital Image processing techniques for object detection from complex background image[J]. Procedia Engineering, 2012, 41: 340-344.

      [13]Liu S, Yang C H, Hu Y C, et al. A method for segmentation and recognition of mature citrus and branches-leaves based on regional features[C]∥Chinese Conference on Image and Graphics Technologies. Singapore: Springer, 2018: 292-301.

      [14]Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥IEEE conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 580-587.

      [15]Girshick R. Fast r-cnn[C]∥IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 1440-1448.

      [16]Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149.

      [17]Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]∥IEEE conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779-788.

      [18]Redmon J, Farhadi A. YOLO9000: Better, faster, stronger[C]∥IEEE Conference on Computer Visionand Pattern Recognition. Honolulu: IEEE, 2017: 7263-7271.

      [19]Redmon J, Farhadi A. YOLOv3: An incremental improvement[J]. Arxive-Prints, 2018(4): 1-6.

      [20]趙德安, 吳任迪, 劉曉洋, 等. 基于YOLO深度卷積神經網絡的復雜背景下機器人采摘蘋果定位[J]. 農業(yè)工程學報, 2019, 35(3): 164-173.

      [21]王細萍, 黃婷, 譚文學, 等. 基于卷積網絡的蘋果病變圖像識別方法[J]. 計算機工程, 2015, 41(12): 293-298.

      [22]魏瑋, 蒲瑋, 劉依. 改進YOLOv3在航拍目標檢測中的應用[J]. 計算機工程與應用, 2020, 56(7): 17-23.

      [23]He K, Zhang X, Ren S, et al. Deepresidual learning for image recognition[C]∥IEEE Conference on Computer Vision & Pattern Recognition. IEEE Computer Society, 2016.

      [24]肖經緯, 田軍委, 王沁, 等. 基于改進殘差網絡的果實病害分類方法[J]. 計算機工程, 2020, 46(9): 221-225.

      [25]毛勇華, 代兆勝, 桂小林. 一種改進的5層深度學習結構與優(yōu)化方法[J]. 計算機工程, 2018, 44(6): 147-150.

      Abstract:? In order to solve the problem that the YOLO algorithm has a low recognition rate due to its end-to-end network structure, which causes the features at certain scales to be faded or lost, we take grape as an example to apply the trainable transformer and RdNet in the fruit recognition network research. We propose an improved YOLO algorithm based on the fusion of trainable transformers and multi-scale feature maps. The self-designed RdNet based on stacked residual blocks and downsampling blocks is used as the feature extraction network, and the converter transformer structure is used to transform and fusion features of different scales. From the collected and screened photos of the grape orchard, 120 photos were randomly selected as the test set, and the rest of the photos were enhanced to obtain 480 images as the training set. We trained our model, YOLOv3 and Faster R-CNN (faster region-convolutional neural networks) three algorithms, are used its F1 value and AP value on the test set to evaluate the performance of each model. The results show that the F1 value of our model can reach 92.58% on the test set, and the AP value can reach 92.33%. On Nvidia Jetson TX2 platform, it can reach a detection speed of 19 f/s (frame per second). The inference time of a 640*480 picture is 52.6 ms, which achieves an ideal recognition accuracy rate and can meet the real-time requirements of the picking robot. So the research can get better application effects in scenes such as orchards.

      Key words: convolutional neural network; grape; object detection; multi-scale features; YOLO

      猜你喜歡
      目標檢測卷積神經網絡葡萄
      葡萄熟了
      當葡萄成熟時
      女報(2020年10期)2020-11-23 01:42:42
      視頻中目標檢測算法研究
      軟件(2016年4期)2017-01-20 09:38:03
      基于深度卷積神經網絡的物體識別算法
      行為識別中的人體運動目標檢測方法
      深度學習算法應用于巖石圖像處理的可行性研究
      軟件導刊(2016年9期)2016-11-07 22:20:49
      基于深度卷積網絡的人臉年齡分析算法與實現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      小青蛙報(2016年2期)2016-10-15 05:05:56
      移動機器人圖像目標識別
      基于卷積神經網絡的樹葉識別的算法的研究
      鄢陵县| 保定市| 织金县| 彰化县| 微博| 商河县| 明光市| 伊吾县| 淮南市| 黄陵县| 黑龙江省| 仁化县| 宁强县| 南乐县| 天柱县| 珲春市| 兴山县| 景洪市| 通道| 教育| 宁德市| 许昌县| 廊坊市| 富裕县| 广宁县| 大邑县| 色达县| 新和县| 沛县| 台州市| 瑞金市| 海伦市| 泰来县| 随州市| 鄢陵县| 白朗县| 从化市| 武平县| 高青县| 大安市| 大冶市|