• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于機器學習的中西太平洋黃鰭金槍魚漁場預報模型

      2022-11-13 08:03:30周為峰唐峰華石永闖
      農(nóng)業(yè)工程學報 2022年15期
      關(guān)鍵詞:黃鰭漁場金槍魚

      張 聰,周為峰,唐峰華,石永闖,樊 偉

      基于機器學習的中西太平洋黃鰭金槍魚漁場預報模型

      張 聰1,2,周為峰1※,唐峰華1,石永闖1,樊 偉1

      (1. 中國水產(chǎn)科學研究院東海水產(chǎn)研究所,上海 200090;2. 中國農(nóng)業(yè)科學院研究生院,北京 100081)

      為提供準確的中西太平洋黃鰭金槍魚漁場預報信息,該研究利用2008-2019年中國水產(chǎn)集團43艘遠洋延繩釣漁船在中西太平洋海域(0°~30°S;110°E~170°W)作業(yè)的漁業(yè)數(shù)據(jù),通過方差膨脹因子篩選、歸一化處理,選取時空因子、海洋環(huán)境因子及大尺度氣候數(shù)據(jù)等共35種特征因子,構(gòu)建了一種隨機森林和極端梯度提升決策樹相結(jié)合的XGBRF模型,并利用五折交叉驗證法確定最佳參數(shù),選擇邏輯回歸、分類與回歸樹、最近鄰、自適應增強、梯度提升決策樹、極端梯度提升決策樹和隨機森林等模型作為對照,建立8種黃鰭金槍魚漁場預測模型并進行模型間的比較分析。結(jié)果表明,XGBRF模型對中西太平洋黃鰭金槍魚漁場的預測性能比其他模型更好,其準確率、漁場召回率、漁場F1得分、非漁場查準率和曲線下面積值A(chǔ)UC均最高,分別為75.39%、87.36%、82.64%、66.32%和79.48%,且模型的受試者工作特征曲線ROC更靠近左上角;海表溫度是影響中西太平洋黃鰭金槍魚漁場分布最重要的環(huán)境因子,其他因子依次是300 m水層溫度、50 m水層鹽度、葉綠素a濃度、南方濤動指數(shù)以及表層鹽度因子,時空因子和其余大尺度氣候因子的影響程度較低;基于XGBRF預報模型得到的漁場預測結(jié)果與實際作業(yè)范圍總體一致。XGBRF集成模型對中西太平洋海域黃鰭金槍魚的漁場預報具有較好的效果,可為漁場預報提供參考。

      機器學習;模型;中西太平洋;黃鰭金槍魚;漁場預報

      0 引 言

      黃鰭金槍魚()屬鱸形目、金槍魚屬,廣泛分布于熱帶和亞熱帶水域,中西太平洋是金槍魚漁業(yè)重要的作業(yè)區(qū)域[1]。延繩釣被認為是最合理的金槍魚捕撈方法之一。近年來,由于過度捕撈、漁業(yè)管理不當?shù)葐栴},漁場時空分布的穩(wěn)定性降低,加之金槍魚高度洄游的特性,金槍魚中心漁場范圍分散且分布廣泛[2]。精確的漁場預報模型能夠提高對潛在漁區(qū)和非漁區(qū)的識別能力,從而有效縮短尋漁時間,減少尋漁成本,提高漁獲產(chǎn)量,對金槍魚漁業(yè)的發(fā)展具有重要意義。

      魚類的生長發(fā)育與周圍的海洋環(huán)境密切相關(guān),利用不同的海洋環(huán)境因子建立漁場預報模型是當前漁場預報的常用手段[3]。貝葉斯(Bayesian)是一種常見的漁場預報模型建模方法,周為峰等[4]基于貝葉斯分類器,利用環(huán)境因子及不同分類策略構(gòu)建8種南海外海黃鰭金槍魚預報模型,最高準確率達75%?;貧w模型也很常見,如廣義相加模型(Generalized Additive Model,GAM)[5-6],Perez等[7]依據(jù)GAM模型,利用單位捕撈努力量指數(shù)預測菲律賓周圍海域的黃鰭金槍魚分布。Zagaglia等[8]基于GAM統(tǒng)計模型分析了巴西東北部黃鰭金槍魚延繩釣數(shù)據(jù)與海表溫度等環(huán)境變量之間的關(guān)系,證明了漁獲量與環(huán)境數(shù)據(jù)之間的非線性關(guān)系。隨著計算機技術(shù)的發(fā)展,人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network, ANN)逐漸應用到黃鰭金槍魚漁場預報模型中,鄭志輝[9]基于人工神經(jīng)網(wǎng)絡(luò)模型有效預測了中西太平洋馬紹爾海域黃鰭金槍魚的漁場分布。棲息地指數(shù)模型(Habitat Suitability Index,HSI)近年來受到較多關(guān)注,趙海龍等[10]以產(chǎn)量來表征資源量,結(jié)合海表溫度、海面高度按季度建立東太平洋黃鰭金槍魚棲息地適應性指數(shù),預報的準確率達到66%以上。盡管上述漁場預報模型的結(jié)構(gòu)簡單便利,但這些模型大多是單一的預報模型且只使用海洋表面環(huán)境數(shù)據(jù)。由于海洋漁業(yè)信息具有模糊性、復雜性、不精確性的特點,單一模型容易過擬合而泛化性能差,無法滿足漁場預報應用對于精度的要求。且上述模型大多采用具體的海洋環(huán)境因子,對于與海洋因素密切相關(guān)的各種大尺度氣候數(shù)據(jù)的研究較少。

      針對數(shù)據(jù)復雜和模型單一的問題,為提供準確的中西太平洋黃鰭金槍魚漁場預報信息,本文提出隨機森林[11](Random Forest,RF)和極端梯度提升決策樹[12](eXtreme Gradient Boosting,XGBoost)相結(jié)合的XGBRF(XGBoost with RF)混合集成模型,根據(jù)2008-2019年中西太平洋黃鰭金槍魚的漁業(yè)數(shù)據(jù),結(jié)合31種特征因子和4種大尺度氣候因子,通過方差膨脹因子(Variance Inflation Factor,VIF)篩選、歸一化處理,建立了8種黃鰭金槍魚漁場預測模型。通過模型檢驗和對比,篩選預報精度較高、預測性能較好的模型,分析環(huán)境因子影響漁場分布的重要程度,以提高大數(shù)據(jù)和人工智能方法在黃鰭金槍漁業(yè)中的應用,為今后漁場預報的模型構(gòu)建提供參考。

      1 材料與方法

      1.1 數(shù)據(jù)來源

      以中西太平洋黃鰭金槍魚延繩釣漁船的作業(yè)范圍(110°E~170°W、0°~30°S)為研究海域,使用的漁業(yè)生產(chǎn)數(shù)據(jù)來自2008-2019年中國水產(chǎn)集團43艘遠洋延繩釣漁船漁撈日志,包括船名、作業(yè)日期(年/月/日)、作業(yè)位置(經(jīng)度、緯度)、漁獲信息(魚種、產(chǎn)量、尾數(shù)和下鉤數(shù)等)。

      葉綠素a濃度數(shù)據(jù)來源于美國國家海洋和大氣管理局數(shù)據(jù)庫(https://oceancolor.gsfc.nasa.gov/)。海面高度異常(Sea Level Abnormal,SLA)數(shù)據(jù)來源于AVISO(Archiving, Validation and Interpretation of Satellite Oceanographic data)數(shù)據(jù)庫(https://www.aviso.oceanobs.com)。渦動能(Eddy Kinetic Energy,EKE)、0~500 m水層的垂直溫度和鹽度數(shù)據(jù)來源于哥白尼海洋環(huán)境監(jiān)測服務(wù)中心網(wǎng)站(http://marine.copernicus.eu)。環(huán)境數(shù)據(jù)的時間分辨率為月,SLA、EKE和0~500 m水層垂直溫度和鹽度數(shù)據(jù)的空間分辨率為0.25°×0.25°,Chla的空間分辨率為4 km。使用python將環(huán)境數(shù)據(jù)的空間分辨率統(tǒng)一為0.5°×0.5°的空間格網(wǎng)并與漁獲量數(shù)據(jù)進行匹配。

      大尺度氣候數(shù)據(jù)均為月度數(shù)據(jù),南方濤動指數(shù)(Southern Oscillation Index,SOI)和北極濤動指數(shù)(Arctic Oscillation Index,AOI)來源于美國海洋與大氣局氣候預測中心;太平洋年代際振蕩指數(shù)(Pacific Decadal Oscillation Index,PDOI)來源于華盛頓大學(http://research.jisao.washington.edu /pdo),北太平洋環(huán)流振蕩指數(shù)(North Pacific Gyre Oscillation Index,NPGOI)來源于http://www.o3d.org /npgo /。

      1.2 數(shù)據(jù)處理

      1.2.1 CPUE計算

      將漁區(qū)網(wǎng)格以0.5°×0.5°進行劃分,按月對其作業(yè)位置、尾數(shù)和放鉤數(shù)進行統(tǒng)計,計算各漁區(qū)網(wǎng)格內(nèi)的黃鰭金槍魚單位捕撈努力量漁獲量[13](Catch Per Unit Effort,CPUE),公式為

      1.2.2 衍生環(huán)境因子計算

      本文選取的衍生環(huán)境因子包括海表溫度距平(SSTdt)、海表溫度梯度(SSTG)、葉綠素距平(Chladt)和葉綠素梯度(ChlaG)。SSTdt,j、Chladt,j、SSTG,j和ChlaG,j計算公式如下:

      1.2.3 CPUE與各環(huán)境因子的相關(guān)性分析

      采用Python的seaborn包計算Pearson相關(guān)系數(shù)并進行顯著性檢驗,結(jié)果如表1所示。假設(shè)顯著性水平為0.05(即超過95%的概率有相關(guān)關(guān)系),本文中CPUE與各指標均呈現(xiàn)顯著相關(guān)關(guān)系(<0.05)。

      1.2.4 數(shù)據(jù)標準化與共線性分析

      由于漁業(yè)數(shù)據(jù)和海洋環(huán)境數(shù)據(jù)具有不同的量綱和數(shù)量級,直接用原始指標值進行分析,會突出數(shù)值較高的指標在綜合分析中的作用,為了保證結(jié)果的可靠性,需要對原始數(shù)據(jù)進行標準化處理。本文采用數(shù)據(jù)歸一化方法將各個特征映射到[0,1]的范圍,計算公式為

      式中、、max、min分別為歸一化后的值、實際值、最大值、最小值。

      對于環(huán)境因子之間可能存在共線性的問題,本文采用方差膨脹因子VIF進行篩選,VIF的計算公式如下:

      式中是第個變量在所有其他變量上回歸時的復相關(guān)系數(shù)。各環(huán)境變量之間的Person相關(guān)系數(shù)矩陣圖如圖1所示。

      表1 CPUE與變量間的相關(guān)系數(shù)和P值

      注:Lat表示緯度;Lon表示經(jīng)度;Chla表示葉綠素a濃度;Chladt表示葉綠素距平;SSTdt表示海表溫度距平;SSTG表示海表溫度梯度;ChlaG表示葉綠素梯度;SLA表示海面高度異常;EKE表示渦動能;S、T(=0,50,100,…,500)分別表示對應深度處的鹽度和溫度;PDOI為太平洋年代際振蕩指數(shù);SOI為南方濤動指數(shù);AOI為北極濤動指數(shù);NPGOI為北太平洋環(huán)流振蕩指數(shù)。

      Note: Lat indicates latitude; Lon indicates longitude; Chla denotes chlorophyll a concentration; Chladt indicates chlorophyll anomaly; SSTdt indicates sea surface temperature anomaly; SSTG indicates sea surface temperature gradient; ChlaG indicates chlorophyll gradient; SLA indicates abnormal sea level; EKE denotes eddy kinetic energy; Sand T(= 0,50, 100, ..., 500) respectively represent the salinity and temperature at the corresponding depth; PDOI is the Pacific interdecadal oscillation index; SOI is the Southern Oscillation Index; AOI is the Arctic oscillation index; NPGOI is the North Pacific circulation oscillation index.

      圖1 各變量間Pearson相關(guān)系數(shù)

      1.3 XGBRF漁場預報模型的建立

      隨機森林算法結(jié)合自助采樣和隨機子空間思想對決策樹進行集成,可降低使用單一決策樹時可能出現(xiàn)的較大誤差和過擬合現(xiàn)象,從而得到更加穩(wěn)定和準確的預測效果。XGBoost算法作為一種可擴展的樹提升系統(tǒng),通過正則化項、二階泰勒展開等策略控制模型的復雜度并提高運行效率,能有效應對高維度的復雜數(shù)據(jù)。

      由于漁業(yè)數(shù)據(jù)數(shù)量龐大、特征維度高,考慮到隨機森林并行集成、不易過擬合的優(yōu)勢及XGBoost算法在分類問題中的優(yōu)秀性能,本文提出XGBRF混合集成模型,將boosting與bagging思想相結(jié)合,選擇XGBoost算法作為預報模型的基本框架來訓練隨機森林。本文中XGBRF模型的算法流程如圖2所示,參數(shù)設(shè)置如表2所示。

      注:L為損失函數(shù),P′為迭代次數(shù),T為樹的數(shù)量,θ為一個隨機向量,b(x)為基學習器。訓練集D由M個樣本組成,D=(xi, yi),i=1,2,3,…,M。G為一階導數(shù)和,H為二階導數(shù)和。

      表2 XGBRF集成模型中的參數(shù)設(shè)置

      2008-2019年中西太平洋黃鰭金槍魚的延繩釣數(shù)據(jù)共18 013條。本研究采用五折交叉方法隨機劃分為訓練數(shù)據(jù)(80%數(shù)據(jù))和測試數(shù)據(jù)(20%數(shù)據(jù))。對數(shù)據(jù)集進行預處理,將單位捕撈努力量按照三分位數(shù)劃分為0和1,分別對應非漁場和漁場。為了驗證模型的有效性,以邏輯回歸(Logistic Regression,LR)、分類與回歸(Classification and regression tree,CART)、近鄰(K Nearest Neighbors,KNN)、自適應增強(Adaptive boosting,Adaboost)、梯度提升樹(Gradient Boosting Decision Tree,GBDT)、XGBoost和RF共7種模型作為對照,對照模型均在相同的實驗環(huán)境下使用同一數(shù)據(jù)集。為了消除由于數(shù)據(jù)劃分造成模型訓練的性能誤差,本文中所使用的模型均采用網(wǎng)格搜索和兩次五折交叉驗證訓練法以得到最優(yōu)參數(shù)。各模型的參數(shù)設(shè)置如表3所示。

      表3 模型參數(shù)設(shè)置

      1.4 模型精度評價

      模型精度是判別預報結(jié)果與真實漁場信息符合程度的標準。本文使用準確率(Accuracy)、查準率(Precision)、召回率(Recall)、F1得分(F1-score)、受試者工作特征曲線(Receiver Operating Characteristic,ROC)及曲線下的面積(Area under Curve,AUC)值綜合評價模型的性能。

      將模型中少數(shù)類樣本記為負例(非漁場),多數(shù)類樣本記為正例(漁場),則各個評價指標的計算公式為

      式中TP、TN、FP、FN分別代表預測值和真實值均為漁場、預測值和真實值均為非漁場、預測值為漁場而真實值為非漁場以及預測值為非漁場而真實值為漁場。ROC曲線由真正率和假正率分別作為縱坐標和橫坐標繪制得到,AUC值是ROC曲線與橫坐標圍成的面積,值域在 0~1之間。

      2 結(jié)果與分析

      2.1 基于VIF的特征選擇

      基于方差膨脹因子VIF的特征選擇過程中,剔除環(huán)境因子中VIF較高的值后重新計算剩余變量的VIF值,重復操作直至剩余變量的VIF值均小于10。VIF選擇后的變量如表4所示。方差膨脹因子篩選后的變量共19種,除了SLA、S0和T150,其余環(huán)境因子的VIF值均小于5,可作為模型輸入變量。

      表4 特征選擇后的環(huán)境變量VIF值

      2.2 預測結(jié)果及模型對比分析

      將20%的測試數(shù)據(jù)分別代入LR、CART、KNN、Adaboost、GBDT、XGBoost、RF和XGBRF模型,分別計算各個模型的Accuracy、Precision、Recall、F1-score、AUC值,結(jié)果如表5所示。

      表5 各模型預測結(jié)果對比

      由表5可知,XGBRF模型在準確率和AUC的值均最高,分別為75.39%和79.48%,證明模型的預測效果較好。對于漁場和非漁場的預測結(jié)果,8種模型的漁場召回率、查準率和F1-score相對于非漁場均較高,可以看出所有模型對于漁場的識別均要好于非漁場。RF模型對于非漁場的識別效果較好,其非漁場F1-score(60.27%)最高,XGBRF模型表現(xiàn)次之,其非漁場查準率(66.32%)最高。對于遠洋漁業(yè)而言,漁船的作業(yè)圍繞中心漁場進行以提高漁獲產(chǎn)量和捕撈效率,因此中心漁場的預報精度具有重要意義,XGBRF模型的漁場查準率略低于RF模型,但其召回率(87.36%)和F1-score(82.64%)均最高,證明模型對于真實漁場的識別精度高,XGBRF模型的性能總體上優(yōu)于其他模型。

      各個模型的ROC曲線如圖3所示,由圖3可知,XGBRF模型較其他模型的ROC曲線更靠近左上角,能夠較好地包含其他模型,證明模型的分類和預測效果較好。

      圖3 不同模型的ROC曲線

      2.3 模型因子的重要性分析

      借助sklearn中的feature_importances_方法,得到入模因子對中西太平洋黃鰭金槍魚漁場預報的重要程度圖(圖4)。由圖4可知,研究結(jié)果顯示海表溫度是影響黃鰭金槍魚漁場布的最主要因素,為7.573%,300 m水層溫度、50 m水層鹽度、葉綠素a濃度(Chla)、南方濤動指數(shù)(SOI)和表層鹽度(S0)對黃鰭金槍魚的影響也較大,分別為7.369%、6.765%、6.533%、6.284%和6.212%。除SOI以外,其余大尺度氣候因子的影響相對較低。時空因子的相對重要性較環(huán)境因子低。

      圖4 模型輸入因子的相對重要性排序

      2.4 模型驗證

      模型利用2008-2019年的真實數(shù)據(jù)進行訓練和預測。將20%測試集的實際數(shù)據(jù)與模型預測的數(shù)據(jù)疊加,結(jié)果如圖5所示。

      由圖5b可知,測試的漁場主要分布在10°~20°S,155°~175°E海域,這一海域模型的識別程度較高,但也存在一定的誤判。在27°S海域附近也有少量漁場分布,但該海域的識別程度較低。非漁場的實際與預測結(jié)果如圖5a所示,非漁場的分布與漁場的分布范圍相似,在15°S以下的海域具有較好的識別度,但非漁場的總體識別率低于漁場的識別率。總體而言,預測的漁場位置與實際漁場位置存在少量的偏差,相較于其他模型,預測結(jié)果的精確度與可信度高。

      注:審圖號GS(2016)1665。

      3 討 論

      3.1 環(huán)境因子選擇的合理性

      海洋環(huán)境因子是影響黃鰭金槍魚活動和空間分布的重要外在因素,現(xiàn)有的研究表明,黃鰭金槍魚漁場的形成極易受到海洋環(huán)境因子的影響[5,15-16]。葉綠素a濃度通過海洋食物鏈原理影響漁場分布;溫度是影響魚類活動最基本的海洋環(huán)境要素之一[17];海平面高度異常作為與平均海平面的差值[18],反映了包括海流、冷暖水團、鹽度、海洋鋒面等海洋動力特征,常被應用于海洋漁場分析;渦動能是通過影響環(huán)流、海水溫度以及葉綠素a的分布,從而影響黃鰭金槍魚的漁場分布;研究表明,黃鰭金槍魚的垂直移動現(xiàn)象明顯[19-20],其主要的垂直移動范圍從幾十米至幾百米,且不同水層的溫度會影響黃鰭金槍魚漁場的分布;南方濤動伴隨季節(jié)上升流的延遲可能與某些海域浮游植物的繁盛有關(guān)[21];太平洋年代際振蕩被證明與SST具有一定的關(guān)聯(lián)[22];北太平洋環(huán)流振蕩、北極濤動等其他大尺度氣候也有助于全面的了解海洋環(huán)境的變化[23]。因此,本研究選取的環(huán)境因子包括葉綠素a濃度、海面高度異常、渦動能、0~500 m水層的垂直溫度和鹽度數(shù)據(jù),為了增大樣本間差異,提高模型對中心漁場的識別能力,計算了SST和Chla的衍生變量(SSTdt、SSTG、Chladt和ChlaG)。

      影響漁業(yè)的海洋環(huán)境因子關(guān)系錯綜復雜,多個特征變量之間存在較強的相關(guān)性(圖1),研究表明相關(guān)系數(shù)大于0.85[24],方差膨脹因子大于10[25],變量之間可能存在共線性,造成重要變量的預測結(jié)果不顯著[26]。本研究綜合考慮各個海洋環(huán)境因子及共線性因素對模型精度和效率的影響,最終確定的入模變量具有一定的科學性和合理性。

      3.2 模型因子的相對重要性

      海表溫度通過影響黃鰭金槍魚的生長、覓食、洄游遷徙等直接影響漁場的分布和變動,研究表明絕大多數(shù)黃鰭金槍魚可至10 m以內(nèi)的淺層活動[20],結(jié)果表明海表溫度是最重要的環(huán)境因子。300 m水層溫度對黃鰭金槍魚的影響同樣重要,這可能與黃鰭金槍魚的垂直活動且主要集中在300 m深度水層有關(guān)[27],除此之外S50、S0、S150、T150等對黃鰭金槍魚的影響也間接證明了其垂直游動的特性。葉綠素a濃度作為海洋初級生產(chǎn)力的指標,其對黃鰭金槍魚漁場分布的影響已被多人研究證實,且Chla的梯度分布(ChlaG)與鋒面的形成有關(guān),也與中心漁場的分布存在聯(lián)系[28]。大尺度氣候數(shù)據(jù)中,南方濤動指數(shù)SOI對黃鰭金槍魚的影響相對較大,這與Torres-Faurrieta[29]的研究結(jié)果一致,NPGOI、PDOI、AOI的影響相對較小,這可能與大尺度氣候影響的滯后效應有關(guān)[30]。

      3.3 漁場與非漁場的劃分

      三分位數(shù)是統(tǒng)計學研究中最常用的方法之一。在進行漁場分類的研究中,對于“中心漁場”的界定并沒有一個統(tǒng)一的標準,已有的研究大多采用三分位數(shù)對漁場進行劃分[11,31-32],部分學者利用三分位數(shù)將漁區(qū)劃分為高、中、低3個漁區(qū),基于預報模型進行分別預測。但是需要考慮到的是CPUE作為連續(xù)變量,處于三分位數(shù)邊界區(qū)域的值往往大小相近,會給模型的預測造成一定的困難,且各種復雜環(huán)境要素如氣候異常、海洋大尺度事件、漁類洄游等的影響進一步導致中產(chǎn)漁區(qū)的預測準確率較低[11,32-33],造成分類損失。本研究結(jié)合真實漁業(yè)數(shù)據(jù),將大于整年單位捕撈努力量第一三分位數(shù)T1的區(qū)域定義為漁場,其余部分作為非漁場,減小由于臨界區(qū)域造成的模型性能損失,實現(xiàn)簡單且具有一定的實際意義。

      3.4 模型性能對比

      本文中XGBRF模型得到的預報準確率為75.39%,漁場召回率和AUC值分別為87.36%和79.48%,預報效果優(yōu)于棲息地指數(shù)模型[10](準確率66%)、GAM模型[6](解釋率37.2%)、stacking算法[34](準確率68.72%)、貝葉斯分類器[4](準確率75%),且實驗結(jié)果顯示XGBRF模型相比于RF和XGBoost模型在各個指標上的表現(xiàn)均有一定程度的提升,這是因為XGBRF模型結(jié)合了boosting與bagging思想的優(yōu)點,XGBoost作為基本框架能夠針對錯誤樣本進行學習,顯著提高學習效率,同時隨機采樣和隨機特征選擇的加入增大了模型的靈活性,使其具有更好的泛化性能。LR和CART屬于簡單模型,簡單直觀、解釋性強,但LR容易欠擬合,CART容易過擬合,兩種模型的預測精度均不高。KNN通過計算不同數(shù)據(jù)之間的歐式距離來進行分類,準確度高,對異常點不敏感,在本研究中的表現(xiàn)較好。Boosting方法能夠針對樣本進行學習進而提高學習效率,Adaboost利用錯誤分類的樣本來識別問題;GBDT通過計算負梯度來擬合殘差,該類模型能充分學習每個弱分類器,具有很高的精度,結(jié)果顯示兩者在本研究中的表現(xiàn)互有優(yōu)劣。XGBoost算法在GBDT的基礎(chǔ)上進行了優(yōu)化,模型的效率更高、泛化性能更強、應用范圍更廣,研究結(jié)果也證明其效果好于Adaboost和GBDT。RF作為bagging的升級,不僅具有Bagging并行集成的優(yōu)勢,同時其基學習器的決策邊界往往更加靈活,有效解決了單一決策樹的性能瓶頸,具有較高的泛化能力。實驗中RF模型的漁場和非漁場召回率均較高,間接證明了模型的泛化能力。

      3.5 模型精度評價

      模型的評價指標是直接判斷一個模型好壞的關(guān)鍵,漁場預報發(fā)展至今,各種預報模型層出不窮,需要對模型進行合理合適的評估。準確率是現(xiàn)有漁場預報模型采用較多的評估依據(jù)[31-32,34],準確率表示模型預測正確的正例、負例占總樣本的比例,易于計算且復雜度低。但準確率是一種偏向全局化的衡量標準,信息量少且當模型對于非漁場(少數(shù)類)的識別率較高而對于漁場的識別率較低時也可能帶來準確率的偏高,這種模型往往不是我們想要的。查準率表示正例的分類準確率,表明被預測為正例的樣本中真實的正例的比例,查準率越高,表明漏掉的漁場就越少。召回率表示被預測正確的正例占所有真實的正例比例,召回率越高,代表漁場的識別率就越高。在漁業(yè)生產(chǎn)中,如果想盡可能覆蓋某片海域內(nèi)的所有漁場可以選擇查準率較高的模型;如果想盡量避免無獲而返的情況可以選擇召回率較高的模型。實際情況下,需要在二者中尋找平衡,F(xiàn)1得分作為查準率和查全率的綜合考慮解決了這一問題。F1得分被認為在某些方面表現(xiàn)優(yōu)于準確率[35],F(xiàn)1得分越高,表明漁場的識別率高且誤報的漁場較少。受試者工作特征曲線ROC曲線被認為衡量模型性能的有用指標[36],ROC曲線越靠近左上角表明模型的預測能力越強,AUC值大于0.75的模型被認為是“有用”的[37]。本文綜合考慮各個模型的特點,選擇準確率、查準率、召回率、F1-score、ROC曲線和AUC值作為模型的綜合評判指標,確保了模型結(jié)果的可靠性。

      4 結(jié) 論

      本研究利用中西太平洋黃鰭金槍魚的漁業(yè)生產(chǎn)數(shù)據(jù),結(jié)合漁場時空因子、海洋環(huán)境因子及大尺度氣候數(shù)據(jù)作為訓練集構(gòu)建了邏輯回歸(LR)、分類與回歸分類與回歸(CART)、近鄰(KNN)、自適應增強(Adaboost)、梯度提升樹(GBDT)、極端梯度提升決策樹(XGBoost)、隨機森林(RF)和XGBRF共8種黃鰭金槍魚漁場預報模型,并利用真實的漁業(yè)數(shù)據(jù)進行了模型驗證,研究結(jié)果如下:

      1)通過多個指標結(jié)果的綜合分析顯示,XGBRF混合集成模型能在一定程度上提高XGBoost和RF模型的性能,其準確率和AUC的值均最高,分別為75.39%和79.48%,且XGBRF模型的ROC曲線能較好包含其他模型,證明模型的性能表現(xiàn)最好,優(yōu)于傳統(tǒng)的預報模型。

      2)模型因子的重要性分析結(jié)果表明,海表溫度是影響黃鰭金槍魚漁場分布最重要的因素,為7.573%。接下來的是300 m水層的溫度,其重要性達7.369%。除此之外,50 m水層鹽度、南方濤動指數(shù)、葉綠素a濃度和表層鹽度對黃鰭金槍魚的影響也較大。除SOI以外,其余大尺度氣候因子的影響相對較低。

      3)20%測試集實際漁場和非漁場的疊加圖顯示,XGBRF模型預報得到的漁場位置與實際的漁場位置僅存在少量的偏差,預測結(jié)果的精確度和可信度較高,是一種有效的黃鰭金槍魚漁場預報方法。

      本研究構(gòu)建了一種隨機森林和極端梯度提升決策樹結(jié)合的XGBRF模型作為中西太平洋黃鰭金槍魚的漁場預報方法,通過與多種模型對比和實際漁業(yè)數(shù)據(jù)的檢驗,證明了該模型的可行性。在今后的研究中,可以進一步探究其他環(huán)境因子、模型參數(shù)優(yōu)化、漁區(qū)劃分標準、海洋模式數(shù)據(jù)等因素對黃鰭金槍魚漁場的影響,進一步提高模型的精度和實用性。

      [1] 張春玲,蔣逸,王冰洋,等. 中西太平洋黃鰭金槍魚隨附魚群區(qū)域溫度垂直結(jié)構(gòu)的構(gòu)建與初步分析[J]. 上海海洋大學學報,2022,31(1):233-241.

      ZhangChunling,JiangYi,Wang Bingyang, et al. Construction and analysis of vertical temperature structure for FAD yellowfin tuna in the central and western Pacific Ocean[J]. Journal of Shanghai Ocean University, 2022, 31(1): 233-241. (in Chinese with English abstract)

      [2] Ms A, Gmp B, Cr A, et al. Trade-offs for the southern longline fishery in achieving a candidate South Pacific albacore target reference point-ScienceDirect[J]. Marine Policy, 2019, 100(C): 66-75.

      [3] 朱浩朋,伍玉梅,唐峰華,等. 采用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建西北太平洋柔魚漁場預報模型[J]. 農(nóng)業(yè)工程學報,2020,36(24):153-160.

      Zhu Haopeng, Wu Yumei, Tang Fenghua, et al. Construction of fishing ground forecast model of Ommastrephes bartramii using convolutional neural network in the Northwest Pacific[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(24): 153-160. (in Chinese with English abstract)

      [4] 周為峰,黎安舟,紀世建,等. 基于貝葉斯分類器的南海黃鰭金槍魚漁場預報模型[J]. 海洋湖沼通報,2018(1):116-122.

      Zhou Weifeng, Li Anzhou, Ji Shijian, et al. Forecasting model for yellowfin tuna () fishing ground in the south China sea based on bayes classifier[J]. Transactions of Oceanology and Limnology, 2018(1): 116-122. (in Chinese with English abstract)

      [5] 宋利明,沈智賓,周建坤,等. 庫克群島海域海洋環(huán)境因子對黃鰭金槍魚漁獲率的影響[J]. 上海海洋大學學報,2016,25(3):454-464.

      Song Liming, Shen Zhibin, Zhou Jiankun, et al. Effects of environmental variables on catch rates of yellowfin tuna () in waters near Cook Islands[J]. Journal of Shanghai Ocean University, 2016, 25(3): 454-464. (in Chinese with English abstract)

      [6] 徐國強,朱文斌,張洪亮,等. 基于GAM模型分析印度洋大眼金槍魚和黃鰭金槍魚漁場分布與不同環(huán)境因子關(guān)系[J]. 海洋學報,2018,40(12):68-80.

      Xu Guoqiang, Zhu Wenbing, Zhang Hongliang, et al. Relationship between fishing grounds ofandwith environmental factors in the Indian Ocean based on generalized additive model[J]. Haiyang Xuebao, 2018, 40(12): 68-80. (in Chinese with English abstract)

      [7] Perez G J P, Leonardo E M. Predicting the Distribution of Yellowfin Tuna in Philippine Waters[C]. Washington DC: American Geophysical Union, 2015.

      [8] Zagaglia C R, Lorenzzetti J A, Stech José L. Remote sensing data and longline catches of yellowfin tuna () in the equatorial Atlantic[J]. Remote Sensing of Environment, 2004, 93(1/2): 267-281.

      [9] 鄭志輝. 基于貝葉斯方法、分位數(shù)回歸和人工神經(jīng)網(wǎng)絡(luò)模型的黃鰭金槍魚漁情預報模型比較[D]. 上海:上海海洋大學,2017.

      Zheng Zhihui. A Comparison of Yellowfin Tuna Fishing Condition Forecast Models Based on Bayesian Method, Quantile Regression and Artificial Neural Network Model[D]. Shanghai: Shanghai Ocean University, 2017. (in Chinese with English abstract)

      [10] 趙海龍,陳新軍,方學燕. 基于棲息地指數(shù)的東太平洋黃鰭金槍魚漁場預報[J]. 生態(tài)學報,2016,36(3):778-785.

      Zhao Hailong, Chen Xinjun, Fang Xueyan. Forecasting fishing ground of yellowfin tuna in the eastern Pacific Ocean based on the habitat suitability index[J]. Acta Ecologica Sinica, 2016, 36(3): 778-785. (in Chinese with English abstract)

      [11] 陳雪忠,樊偉,崔雪森,等. 基于隨機森林的印度洋長鰭金槍魚漁場預報[J]. 海洋學報, 2013,35(1):158-164.

      Chen Xuezhong, Fan Wei, Cui Xuesen, et al. Fishing ground forecasting of Thunnus alalung in Indian Ocean based on random forest[J]. Haiyang Xuebao, 2013, 35(1): 158-164. (in Chinese with English abstract)

      [12] Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.

      [13] Feng Y, Chen X, Gao F, et al. Impacts of changing scale on Getis-Ord Gi* hotspots of CPUE: A case study of the neon flying squid () in the northwest Pacific Ocean[J]. Acta Oceanologica Sinica, 2018, 37(5): 67-76.

      [14] Ismail A I, Morrison E C, Burt B A, et al. Natural history of periodontal disease in adults: findings from the Tecumseh Periodontal Disease study, 1959-87[J]. Journal of Dental Research, 1990, 69(2): 430-435.

      [15] 王少琴,許柳雄,朱國平,等. 中西太平洋金槍魚圍網(wǎng)的黃鰭金槍魚CPUE時空分布及其與環(huán)境因子的關(guān)系[J]. 大連海洋大學學報,2014,29(3):303-308.

      Wang Shaoqin, Xu Liuxiong, Zhu Guoping, et al. Spatial-temporal profiles of CPUE and relations to environmental factors for yellowfin tuna () from purse-seine fishery in Western and Central Pacific Ocean[J]. Journal of Dalian Ocean University, 2014, 29(3): 303-308. (in Chinese with English abstract)

      [16] 劉勇,陳新軍. 中西太平洋金槍魚圍網(wǎng)黃鰭金槍魚產(chǎn)量的時空分布及與表溫的關(guān)系[J]. 海洋漁業(yè),2007(4):296-301.

      Liu Yong, Chen Xinjun. Spatio-temporal distribution ofand its relationship with sea surface temperature in the tuna purse seine fishery of the Central and Western Pacific[J]. Marine Fisheries, 2007(4): 296-301. (in Chinese with English abstract)

      [17] 崔雪森,樊偉,張晶. 太平洋黃鰭金槍魚延繩釣漁獲分布及漁場水溫淺析[J]. 海洋通報,,2005(5):54-59.

      Cui Xuesen, Fan Wei, Zhang Jing. Primary study on the distribution of yellowfin tuna () longline fishery catch and the fishing-ground environment of the Pacific Ocean[J]. Marine Science Bulletin, 2005(5): 54-59. (in Chinese with English abstract)

      [18] 宋婷婷,樊偉,伍玉梅. 衛(wèi)星遙感海面高度數(shù)據(jù)在漁場分析中的應用綜述[J]. 海洋通報,,2013,32(4):474-480.

      Song Tingting, Fan Wei, Wu Yumei. Review on the fishery analysis with satellite remote sensing sea surface height data[J]. Marine Science Bulletin, 2013, 32(4): 474-480. (in Chinese with English abstract)

      [19] Cayre P. Behaviour of Yellowfin Tuna () and Skipjack Tuna () around fish aggregating devices (FADs) in the Comoros Islands as determined by ultrasonic tagging[J]. Aquatic Living Resources, 1991, 4(1): 1-12.

      [20] 張衡,戴陽,楊勝龍,等. 基于分離式衛(wèi)星標志信息的金槍魚垂直移動特性[J]. 農(nóng)業(yè)工程學報,2014,30(20):196-203.

      Zhang Heng, Dai Yang, Yang Shenglong, et al. Vertical movement characteristics of tuna () in Pacific Ocean determined using pop-up satellite archival tags[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2014, 30(20): 196-203. (in Chinese with English abstract)

      [21] 王靚. 西北太平洋主要小型中上層魚類資源量對大尺度氣候-海洋環(huán)境變化的響應研究[D]. 上海:上海海洋大學,2021.

      Wang Jing. Study on the Response of Major Small Pelagic Fish Resource in the Northwest Pacific to Large Scale Climate-Marine Environmental Changes[D]. Shanghai: Shanghai Ocean University, 2021. (in Chinese with English abstract)

      [22] Tian Y J, Akamine T, Suda M. Variations in the abundance of Pacific saury () from the northwestern Pacific in relation to oceanic-climate changes[J]. Fisheries Research, 2003, 60(2/3): 439-454.

      [23] Vimont D J. The Contribution of the interannual ENSO cycle to the spatial pattern of decadal ENSO-like variability[J]. Journal of Climate, 2010, 18(12): 2080-2092.

      [24] Elith J, Graham C H, Anderson R P. et al. Novel methods improve prediction of species' distributions from occurrence data[J]. Ecography (Copenhagen), 2006, 29(2): 129-151.

      [25] Dormann C F, Elith J, Bacher S, et al. Collinearity: A review of methods to deal with it and a simulation study evaluating their performance[J]. Ecography, 2013, 36(1): 27-46.

      [26] Ohlemuller R, Anderson B J, Araujo M B, et al. The coincidence of climatic and species rarity: High risk to small-range species from climate change[J]. Biology letters, 2008, 4(5): 568-572.

      [27] 楊勝龍,張忭忭,張衡,等. 黃鰭金槍魚垂直移動及水層分布研究進展[J]. 水產(chǎn)科學,2019,38(1):119-126.

      Yang Shenglong, Zhang Bianbian, Zhang Heng, et al. A review:vertical swimming and distribution of yellowfin tuna (thunnus albacares)[J]. Fisheries Science, 2019, 38(1): 119-126. (in Chinese with English abstract)

      [28] 毛志華,朱乾坤,龔芳. 衛(wèi)星遙感北太平洋漁場葉綠素a濃度[J]. 水產(chǎn)學報,2005(2):270-274.

      Mao Zhihua, Zhu Qiankun, Gong Fang. Satellite remote sensing of chlorophyll a concentration in the north Pacific Fishery[J]. Journal of Fisheries of China, 2005(2): 270-274. (in Chinese with English abstract)

      [29] Torres-Faurrieta L K, Dreyfus-León M J, Rivas D. Recruitment forecasting of yellowfin tuna in the eastern Pacific Ocean with artificial neuronal networks[J]. Ecological Informatics, 2016, 36: 106-113.

      [30] Báez J C, Czerwinski I A, Ramos M L. Climatic oscillations effect on the yellowfin tuna () Spanish captures in the Indian Ocean[J]. Fisheries Oceanography, 2020, 29(6): 572-583.

      [31] 侯娟,周為峰,樊偉,等. 基于集成學習的南太平洋長鰭金槍魚漁場預報模型研究[J]. 南方水產(chǎn)科學,2020,16(5):42-50.

      Hou Juan, Zhou Weifeng, Fan Wei, et al. Research on fishing grounds forecasting models of albacore tuna based on ensemble learning in South Pacific[J]. South China Fisheries Science, 2020, 16(5): 42-50. (in Chinese with English abstract)

      [32] 宮鵬,王德興,袁紅春,等. 基于 LightGBM 的南太平洋長鰭金槍魚漁場預報模型研究[J]. 水產(chǎn)科學, 2021,40(5):762-767.

      Gong Peng, Wang Dexing, Yuan Hongchun, et al. Fishing ground forecast model of albacore tuna based on LightGBM in the South Pacific Ocean[J]. Fisheries Science, 2021, 40(5): 762-767. (in Chinese with English abstract)

      [33] 袁紅春,陳冠奇,張?zhí)祢?,? 基于全卷積網(wǎng)絡(luò)的南太平洋長鰭金槍魚漁場預報模型[J]. 江蘇農(nóng)業(yè)學報,2020,36(2):423-429.

      Yuan Hongchun, Chen Guanqi, Zhang Tianjiao, et al. Fishing ground forecast model of albacore tuna based on fully convolutional networks in the South Pacific[J]. Jiangsu Journal of Agricultural Sciences, 2020, 36(2): 423-429. (in Chinese with English abstract)

      [34] 宋利明,任士雨,張敏,等. 基于集成學習的大西洋熱帶海域黃鰭金槍魚漁情預報[J]. 中國水產(chǎn)科學,2021,28(8):1069-1078.

      Song Liming, Ren Shiyu, Zhang Min, et al. Fishing ground forecasting models for yellowfin tuna () in the tropical waters of the Atlantic Ocean based on ensemble learning[J]. Journal of Fishery Sciences of China, 2021, 28(8): 1069-1078. (in Chinese with English abstract)

      [35] Hossin M, Sulaiman M N. A review on evaluation metrics for data classification evaluations[J]. International Journal of Data Mining & Knowledge Management Process, 2015, 5(2): 1-11.

      [36] Guo H, Li Y, Shang J, et al. Learning from class-imbalanced data: Review of methods and applications[J]. Expert Systems with Applications, 2017, 73: 220-239.

      [37] Swets J A. Measuring the accuracy of diagnostic systems[J]. Science, 1988, 240(4857):1285-1293.

      Forecasting models for yellowfin tuna fishing ground in the central and western Pacific based on machine learning

      Zhang Cong1,2, Zhou Weifeng1※, Tang Fenghua1, Shi Yongchuang1, Fan Wei1

      (1.200090; 2.100081)

      An accurate forecast can be greatly contributed to the yellowfin tuna fishing ground in the western and Central Pacific. However, a large amount of fishery data, and high feature dimension have posed a great over-fitting on the various classification in recent years. The random forest parallel integration can be expected to achieve the excellent performance of the extreme gradient boosting decision tree algorithm. In this study, a hybrid integration model was proposed to combine the Xgboost with Random Forest (XGBRF) with the random forest and extreme gradient lifting decision tree. The fishery production data was also collected from the operation data of 43 distant-water longline fishing vessels of China Aquatic Group in the western and Central Pacific (0°-30°S; 110°E-170°W) from 2008 to 2019, including catch information, such as amount, job date, as well as the job latitude and longitude. A comparison was performed on the fishery data, including the concentration of chlorophyll, eddy kinetic energy, sea surface height anomalies, temperature and salinity of the 0-500 m mixed water layer. A total of 36 variable combinations were used as the original data set, including the Southern Oscillation Index (SOI), the Arctic Oscillation Index (AOI), the Pacific Decadal Oscillation Index (PDOI), and North Pacific Gyre Oscillation Index (NPGOI). The original data set was divided into the training set and test set after the screening and normalization of the variance expansion factor, accounting for 80% and 20%, respectively. The training set was used to train eight models, including classification and regression, logistic regression, k-nearest neighbor, adaptive boosting, gradient boosting decision tree, xgboost, random forest, and XGBRF. The five-fold cross-validation was used for each model to determine the optimal parameters. Finally, the model was verified to superimpose the actual fishing ground of the test set. The experimental results showed that: 1) There was a significant correlation between the catch per unit fishing effort and various variable factors. There was also a great decrease in the degree of collinearity between the variables that were filtered by variance inflation factor. 2) The XGBRF hybrid ensemble model also significantly improved the performance of XGBoost and RF models. Specifically, the highest accuracy rate and Area Under Curve (AUC) were 75.39%, and 79.48%, respectively. The Receiver Operator Characteristic (ROC) curve of the XGBRF model was closer to the upper left, indicating the best performance of the forecasting model than before. 3) The sea surface temperature was the most important factor to dominate the distribution of yellowfin tuna fishing ground, accounting for 7.573%. The temperature of the 300 m water layer was equally important for the yellowfin tuna, which was 7.369%. In addition, the greater impact was also found in the salinity of the 50-meter water layer, the SOI, the concentration of chlorophyll, and the surface salinity. There was a relatively low influence of other large-scale climatic factors, except for the SOI. 4) There was only a small deviation between the fishing ground predicted by the XGBRF model and the actual fishing ground, indicating the high accuracy and reliability of the prediction. Overall, the XGBRF ensemble model performed the best on the fishing ground forecast of yellowfin tuna in the western and Central Pacific. The finding can also provide a strong reference for the fishing ground forecast.

      machine learning; models; western and central Pacific;yellowfin tuna; fishing ground forecast

      10.11975/j.issn.1002-6819.2022.15.036

      S931.3

      A

      1002-6819(2022)-15-0330-09

      張聰,周為峰,唐峰華,等. 基于機器學習的中西太平洋黃鰭金槍魚漁場預報模型[J]. 農(nóng)業(yè)工程學報,2022,38(15):330-338. doi:10.11975/j.issn.1002-6819.2022.15.036 http://www.tcsae.org

      Zhang Cong, Zhou Weifeng, Tang Fenghua, et al. Forecasting models for yellowfin tuna fishing ground in the central and western Pacific based on machine learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(15): 330-338. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.15.036 http://www.tcsae.org

      2022-04-29

      2022-07-19

      國家重點研發(fā)計劃項目(2019YFD0901405);農(nóng)業(yè)農(nóng)村部南海漁業(yè)資源開發(fā)利用重點實驗室開放基金項目(LOF 2022-05);中央級公益性科研院所基本科研業(yè)務(wù)費項目(2019T09);核電廠冷源安全保障相關(guān)技術(shù)開發(fā)項目(21FW018)

      張聰,研究方向為機器學習與海洋漁場預報。Emai:zhangcong20190404@163.com

      周為峰,博士,副研究員,研究方向為漁業(yè)遙感與漁場海洋學。Email:zhwfzhwf@163.com

      猜你喜歡
      黃鰭漁場金槍魚
      黃鰭鯛選育新品系“中珠1 號”養(yǎng)殖試驗
      黃鰭金槍魚深水網(wǎng)箱養(yǎng)殖技術(shù)初探
      不同規(guī)格黃鰭鯛的形態(tài)性狀與體質(zhì)量的相關(guān)性研究
      金槍魚淹死事件
      可以加速的金槍魚機器人
      軍事文摘(2021年22期)2022-01-18 06:22:00
      《關(guān)于加強遠洋魷釣漁船作業(yè)管理的通知》公布
      金槍魚與海豚
      黃鰭鯛苗種淡化技術(shù)研究
      埃及超大規(guī)模養(yǎng)魚場
      連續(xù)三年保持50%增長,入駐通威、新希望養(yǎng)殖基地,這家漁機企業(yè)將打造未來無人漁場
      鞍山市| 十堰市| 高雄县| 清远市| 宁德市| 南部县| 什邡市| 泰州市| 临武县| 全南县| 东阿县| 碌曲县| 鸡泽县| 东乌珠穆沁旗| 探索| 满城县| 仙居县| 临潭县| 兴业县| 玉门市| 郁南县| 金山区| 延庆县| 晋宁县| 抚宁县| 彰化市| 伊宁市| 从化市| 灵丘县| 开原市| 瑞丽市| 大厂| 稷山县| 沅江市| 昔阳县| 三亚市| 久治县| 体育| 乐东| 芒康县| 洞口县|