袁紅春,胡光亮,陳冠奇,張?zhí)祢?/p>
(上海海洋大學信息學院 上海 201306)
長鰭金槍魚(Thunnusalalunga)是南太平洋延繩釣的主要目標魚種之一。準確的漁情預測可以指導漁民和漁業(yè)企業(yè)合理分配有限的捕撈努力量,減少尋找漁場的時間,從而大幅度降低漁業(yè)捕撈作業(yè)成本。近年來,大量學者對金槍魚的資源密度與影響因子的關(guān)系進行了深入的研究[1- 6]。如Zagaglia等[5]使用廣義加性模型(GAM)和廣義線性模型(GLM)對長鰭金槍魚漁場進行回歸預測;宋利明等[6]使用支持向量機對不同水層的環(huán)境因子進行分析,得到了庫克群島海域長鰭金槍魚棲息環(huán)境綜合指數(shù)。雖然漁業(yè)作業(yè)數(shù)據(jù)及海洋環(huán)境數(shù)據(jù)的數(shù)據(jù)量龐大,但由于其復雜性和多變性,可進行數(shù)據(jù)分析和預測的樣本量少,目前學者們多采用多元回歸分析法[5]對漁場進行預測。回歸分析法要求變量具有獨立性和符合正態(tài)分布,但動態(tài)的海洋環(huán)境因子大都不符合正態(tài)分布,影響因子之間也不具有獨立性。
以南太平洋長鰭金槍魚為例,并結(jié)合多種影響因子,提出一種基于粒子群可拓神經(jīng)網(wǎng)絡的漁情預測模型,以豐富預測方法、提高預測水平。
根據(jù)南太平洋長鰭金槍魚的作業(yè)范圍,選取135°W~110°E,5°S~40°S為研究海域。采用2000—2015年的數(shù)據(jù)進行研究,其中漁業(yè)作業(yè)數(shù)據(jù)來源于中西太平洋漁業(yè)委員會(WCPFC)的南太平洋延繩釣數(shù)據(jù)。海洋環(huán)境因子數(shù)據(jù)來源于美國國家海洋和大氣管理局(NOAA)和歐洲哥白尼海洋環(huán)境監(jiān)測服務中心(CMEMS)。
蔡文教授于1983年首先提出一門原創(chuàng)性學科—可拓學[7]。隨著其理論框架的逐漸成熟與完善,對可拓神經(jīng)網(wǎng)絡[8- 10](Extension Neural Network,ENN)的研究也逐漸興起,它是結(jié)合神經(jīng)網(wǎng)絡和可拓學的一種新的神經(jīng)網(wǎng)絡模型。
圖1 可拓神經(jīng)元結(jié)構(gòu)Fig.1 Extension neuron structure
圖2 ENN網(wǎng)絡結(jié)構(gòu)圖Fig.2 ENN architecture
可拓學中的關(guān)聯(lián)函數(shù)[13]作為ENN的激活函數(shù),每一個輸出神經(jīng)元還包含一個求和函數(shù)和傳遞函數(shù)。其具體學習訓練步驟如下:
1)分別建立樣本物元模型,經(jīng)典域物元模型和節(jié)域物元模型[11- 12]。
2)讀入第t個樣本Nc和其對應的期望輸出類別。
3)建立關(guān)聯(lián)函數(shù)并計算關(guān)聯(lián)度??赏厣窠?jīng)網(wǎng)絡的關(guān)聯(lián)函數(shù)如式(1):
Kij(xtj)=
(1)
4)計算綜合關(guān)聯(lián)度。如公式(2),Ki(xt)表示第t個輸入樣本與第i個輸出類別的綜合關(guān)聯(lián)度。通過加權(quán)求和得到綜合關(guān)聯(lián)度:
(2)
5)根據(jù)關(guān)聯(lián)函數(shù)的性質(zhì),要求輸入樣本與輸出類別的綜合關(guān)聯(lián)度值非負,即Ki(xt)?0,本文采用函數(shù)作為輸出神經(jīng)元的傳遞函數(shù),其公式如(3)。
(3)
取Si(xt)=max{Si(xt)},如果i*=P,表明該樣本通過ENN判別與其期望輸出相符合,正確識別個數(shù)R+1,否則R不變。繼續(xù)讀入下一個訓練樣本,轉(zhuǎn)到步驟2)。所有訓練樣本學習訓練結(jié)束為一個學習過程。
6)一個學習過程結(jié)束后計算適應度函數(shù),為下一步利用粒子群算法進行權(quán)值優(yōu)化做準備。本文提出的適應度函數(shù)形式如公式(4)。
(4)
式中:T為樣本總數(shù);R為ENN預測正確的樣本個數(shù);Si(xt)=max{Si(xt)}。
粒子群算法[15- 17](Particle Swarm Optimization,PSO)是一種基于群集智能的隨機搜索算法。受到鳥群活動的啟發(fā),粒子群算法利用個體之間的交互,從而使群體在共享信息指導下在解空間中尋找出最優(yōu)解。
PSO算法首先在解空間中初始化為一群隨機粒子,每個粒子根據(jù)共享的群體信息動態(tài)地更新自己的速度和位置。算法每一次迭代中,粒子通過追蹤兩個“極值”對速度和位置進行調(diào)整,分別是個體尋找出的局部最優(yōu)解pi和群體尋找出的全局最優(yōu)解pg,粒子更新速度和位置如公式(5)、(6):
(5)
(6)
(7)
式中:Tm為最大迭代次數(shù);t為當前迭代次數(shù);ωmax和ωmin為算法開始和結(jié)束時的權(quán)重。
粒子群算法訓練時,每個粒子對應一組經(jīng)典域參數(shù),粒子的參數(shù)維度與一組經(jīng)典域中的特征屬性個數(shù)相對應,每個特征屬性都有兩個參數(shù)(上界和下界),包含每種輸出類別下的所有特征屬性的經(jīng)典域。其訓練步驟如下:
1)初始化群體規(guī)模、參數(shù)維度、慣性權(quán)重、最大迭代次數(shù)和結(jié)束條件。初始化每個粒子的位置參數(shù)和速度參數(shù),設定各個特征屬性的節(jié)域和權(quán)重。
2)將粒子的位置轉(zhuǎn)化為一組經(jīng)典域,并帶入到可拓神經(jīng)網(wǎng)絡模型中,對所有樣本數(shù)據(jù)進行學習訓練。一個學習過程結(jié)束后,根據(jù)公式(4)對每個粒子進行適應度值計算。
3)計算每個粒子的當前適應度,根據(jù)該粒子的歷史最優(yōu)適應度,更新個體歷史最優(yōu)粒子位置。
4)計算所有粒子的當前適應度,根據(jù)群體歷史最優(yōu)適應度,更新群體歷史最優(yōu)粒子位置。
5)檢查是否滿足算法結(jié)束條件,如不滿足轉(zhuǎn)到步驟6),否則停止學習。獲取當前群體歷史最優(yōu)位置為本次學習訓練的最優(yōu)解,即優(yōu)化后的經(jīng)典域。
6)更新慣性權(quán)重,根據(jù)公式(5)和(6)更新每個粒子的速度參數(shù)和位置參數(shù)。更新后的粒子轉(zhuǎn)步驟2)繼續(xù)訓練。
不同的空間因子和環(huán)境因子對長鰭金槍魚資源密度的影響程度不同,以每個影響因子的權(quán)重描述其對資源密度的影響程度。采用層次分析法(AHP)[18- 19]確定各因子的權(quán)重系數(shù)。該方法可使復雜關(guān)系之間的決策思想層次化,把決策過程中的定量和定性的因素結(jié)合起來,通過建立判斷矩陣,排序計算和一致性檢驗后得到結(jié)果,避免了人的主觀性導致特征屬性權(quán)重與實際情況相矛盾的情況發(fā)生,提高了有效性。本文中選取的空間因子和環(huán)境因子共5個,分別為緯度、經(jīng)度、海表溫度、海面高度和葉綠素a質(zhì)量濃度[20],其權(quán)重確定步驟如下:
(1)構(gòu)造比較矩陣:
(8)
(2)構(gòu)造判斷矩陣:
(9)
矩陣C=(cij)n×n為一致性判斷矩陣,其中cb為一常數(shù),在實際應用中常取cb=9;R=rmax-rmin稱為極差;rmax=max(r1,r2,...,rn);rmin=min(r1,r2,...,rn)。
(3)計算權(quán)重并歸一化:
(10)
(4)進行一致性檢驗:
(11)
由于漁業(yè)作業(yè)數(shù)據(jù)和海洋環(huán)境因子數(shù)據(jù)空間分辨率不一致,需要經(jīng)過數(shù)據(jù)匹配,統(tǒng)一轉(zhuǎn)換為5°×5°區(qū)域的值。漁業(yè)作業(yè)數(shù)據(jù)和環(huán)境因子作業(yè)數(shù)據(jù)需經(jīng)過數(shù)據(jù)凈化,清除數(shù)據(jù)缺失的數(shù)據(jù)記錄。單位捕撈努力量漁獲量(CPUE)的大小常被作為資源豐度的相對指數(shù)來反映資源豐度的變化,其定義為:
(12)
式中:CPUE(i,j)為整經(jīng)緯度(i,j)處的漁獲率;Nfish(i,j)為該經(jīng)緯度上的漁獲尾數(shù);Nhook(i,j)為該處的下構(gòu)枚數(shù)。
研究中常使用三分位數(shù)將漁區(qū)按照CPUE的大小劃分成若干個類別,從而將CPUE有效離散化[21],適用于分類模型。由于漁業(yè)作業(yè)中各月產(chǎn)量差異較大,僅以歷史CPUE的三分位點進行等級劃分,不能有效地表示各月漁場的實際豐度水平,甚至會導致某些月份不存在高產(chǎn)區(qū)或者高產(chǎn)區(qū)較少,不利于指導漁業(yè)作業(yè)。因此借鑒文獻[22]中的分類方法,將漁區(qū)以各月CPUE的三分位數(shù)分位點66.7%和33.3%劃分為高產(chǎn)區(qū)、中產(chǎn)區(qū)和低產(chǎn)區(qū)三類。
本文選取即時性較強、獲取方便的環(huán)境遙感數(shù)據(jù),包括海表溫度(sst)、海面高度(ssh)、葉綠素a質(zhì)量濃度(Chl- a),結(jié)合空間因子緯度(latitude)和經(jīng)度(longitude)作為影響因子。不同的影響因子,量值單位以及變化范圍差別較大,為防止小數(shù)值量被大數(shù)據(jù)量所淹沒,對數(shù)據(jù)進行歸一化處理。本文采用的歸一化公式如下:
(13)
式中:y為歸一化后的值;x為實際值;xmin為對應特征取值范圍的最小值;xmax為其最大值。處理后的數(shù)據(jù)如見表1,其中2000—2014年共8787條數(shù)據(jù)為訓練樣本,2015年743條數(shù)據(jù)為測試樣本。
表1 部分試驗數(shù)據(jù)Tab.1 Partial experimental data
本文使用召回率(Recall)作為評估標準[23],其計算方式如下:
(14)
式中:Pi表示i類產(chǎn)量等級的預測召回率;tpi為預測正確的該產(chǎn)量等級的記錄條數(shù);fpi為其預測錯誤的記錄條數(shù)。
試驗流程見圖3。可拓神經(jīng)網(wǎng)絡中的權(quán)值優(yōu)化訓練,即為對3個產(chǎn)量等級的經(jīng)典域進行優(yōu)化。其中每個產(chǎn)量等級有5種特征屬性,共有15個量值區(qū)間,30個參數(shù)(每個量值區(qū)間有上界和下界兩個參數(shù),即15個參數(shù)對),即每個粒子有15個位置參數(shù)對和15個速度參數(shù)對。
圖3 試驗流程Fig.3 Experimental process
(15)
(16)
(17)
各特征屬性的權(quán)值比重通過上文層次分析法獲得,緯度、經(jīng)緯、海表溫度、海面高度、葉綠素a質(zhì)量濃度(Chl- a)等權(quán)值比重分別為0.45、0.26、0.15、0.09、0.05。群體規(guī)模Nm=200,最大迭代次數(shù)Tm=500,算法開始時慣性權(quán)重ωmax=0.9,結(jié)束時慣性權(quán)重ωmin=0.4,學習因子c1=c2=2,經(jīng)過多次訓練,得到一組較為滿意的經(jīng)典域,如表2所示。
表2 PSO優(yōu)化確定的經(jīng)典域
使用優(yōu)化后的ENN對表1中的測試樣本進行測試(表3)。優(yōu)化后的ENN模型總召回率達到68%,表3同時給出了使用樸素貝葉斯分類模型、BP神經(jīng)網(wǎng)絡模型構(gòu)建南太平洋長鰭金槍魚預測模型的對比試驗結(jié)果。其中樸素貝葉斯分類模型采用文獻[24]的基于FastICA方法獨立成分分析的樸素貝葉斯方法,BP神經(jīng)網(wǎng)絡采用5-512-3結(jié)構(gòu)。
表3 不同模型的試驗結(jié)果對比Tab.3 Experimental result comparison of different models
由表3可以看出,與其他兩種預測模型相比,粒子群可拓神經(jīng)網(wǎng)絡模型總體召回率[23]最高,在高產(chǎn)區(qū)有較大的優(yōu)勢。在實際漁業(yè)捕撈作業(yè)中,作業(yè)位置一般對高產(chǎn)區(qū)的預測結(jié)果更依賴。但中產(chǎn)區(qū)的預測效果明顯低于高產(chǎn)區(qū)和低產(chǎn)區(qū),可能由于只按照月CPUE的三分位點進行長鰭金槍魚的產(chǎn)量等級劃分[22],導致預測方法中的產(chǎn)量等級劃分界限不清晰。而實際捕撈作業(yè)中受天氣、政策等因素影響,漁場的實際CPUE值可能高于或低于試驗中的產(chǎn)量等級標簽。
國內(nèi)外進行了大量漁情預測模型研究,但多采用統(tǒng)計學模型,如對比試驗中的樸素貝葉斯方法,用類似于數(shù)據(jù)庫查詢的方式進行預測[25],通過對歷史數(shù)據(jù)的頻率統(tǒng)計得到先驗概率和條件概率,從而計算出后驗概率。該方法要求各個環(huán)境變量之間相互獨立,模型進行訓練前要對各變量進行獨立成分分析,不僅增加了模型的復雜性,還造成數(shù)據(jù)信息量的損失。近年來,也出現(xiàn)了人工神經(jīng)網(wǎng)絡[26- 27]在漁情預測方面的應用。神經(jīng)網(wǎng)絡的學習訓練過程即為網(wǎng)絡連接權(quán)值的確定過程,但結(jié)構(gòu)復雜的網(wǎng)絡訓練非常耗時,如對比試驗中的BP神經(jīng)網(wǎng)絡方法,采用5-512-3結(jié)構(gòu)。本研究中的可拓神經(jīng)網(wǎng)絡采用5-3結(jié)構(gòu),沒有隱含層,結(jié)構(gòu)簡單。在學習速度上,粒子群可拓神經(jīng)網(wǎng)絡模型采用慣性權(quán)重線性遞減的策略[17],算法前期學習速度大,以適應網(wǎng)絡在全局范圍內(nèi)大步長訓練學習,后期學習速度小,適應網(wǎng)絡在小范圍內(nèi)進行小步長訓練學習,比BP網(wǎng)絡采取的變速學習速度設計較為合理。
利用粒子群算法優(yōu)化權(quán)值,可解決可拓神經(jīng)網(wǎng)絡中經(jīng)典域不易確定的問題,減少主觀因素的影響。但是長鰭金槍魚的漁場分布及洄游移動,除受到試驗中的5種關(guān)鍵因子影響外,還可能受到時間因素、海水流速、海面風場、溶氧質(zhì)量濃度、海水鹽度等因素的影響[28]。因此,在下一步的研究工作中需要收集更多的環(huán)境參數(shù)數(shù)據(jù),并將漁場的時間序列因素[29]加入到模型中進行更多影響因子的綜合分析,以期更準確地為漁民和漁業(yè)企業(yè)提供作業(yè)基礎資料 。
使用粒子群優(yōu)化可拓神經(jīng)網(wǎng)絡的方法,構(gòu)建了南太平洋長鰭金槍魚預測模型,與傳統(tǒng)方法相比準確率有所提升,同時為漁情預測提供了一種新的思路。在今后的研究中需要收集更多的海洋環(huán)境因子數(shù)據(jù),并結(jié)合時間序列因素加入到訓練中,進一步提高預測準確率。