• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      秦皇島海域海月水母碟狀體分布與環(huán)境因子關(guān)系的多粒度分析

      2021-02-16 08:34:16陳曉劉志亮王旭薛力園袁曉博
      海洋通報(bào) 2021年6期
      關(guān)鍵詞:水母站位決策樹

      陳曉,劉志亮,王旭,薛力園,袁曉博

      (1.河北科技師范學(xué)院 海洋科學(xué)研究中心,河北 秦皇島 066004;2.中國科學(xué)院海洋研究所,山東 青島 266071;3.河北省海洋動(dòng)力過程與資源環(huán)境重點(diǎn)實(shí)驗(yàn)室,河北 秦皇島 066004)

      由于人類活動(dòng)導(dǎo)致的海洋污染、過度捕撈和全球氣候變暖等問題,致使海洋生態(tài)系統(tǒng)受損、生態(tài)災(zāi)害頻發(fā)(李永琪 等,2020;唐學(xué)璽等,2019;Zhang et al,2017)。其中,水母爆發(fā)作為一種典型的海洋生態(tài)災(zāi)害(孫松 等,2012;孫婷婷等,2018;L俟skow et al,2020),已經(jīng)對許多海域的漁業(yè)、工業(yè)和旅游業(yè)等造成了巨大威脅(段妍等,2020,2021;Slater et al,2020)。秦皇島地處渤海西岸,其近岸海域具有海流平緩、風(fēng)浪較小、溫度和鹽度適中、河流入??诙嗲覡I養(yǎng)鹽豐富和海岸工程密集等適合水母繁殖和生存的特征(劉婧美等,2016)。在秦皇島海域,每年都存在游泳者被蜇傷的報(bào)道(張明良等,1993;鄭向榮等,2014;霍書花 等,2017),特別是在1978 年、2013 年、2014—2016 年的蜇傷人數(shù)分別超過3000 人、1000人和3600 人??梢?,秦皇島海域已經(jīng)成為水母爆發(fā)的重災(zāi)區(qū)之一。

      隨著水母生態(tài)災(zāi)害數(shù)量和影響因素復(fù)雜性的不斷增加,迫切需要一種更科學(xué)有效的方法挖掘出數(shù)據(jù)中潛在的關(guān)系和知識。決策樹(Decision Tree)(王磊等,2021)作為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)(許立兵等,2020;薛明等,2019)中經(jīng)典的分類/預(yù)測模型(李明等,2018;趙丹楓等,2020),在赤潮預(yù)測與預(yù)警(柴永強(qiáng)等,2012;李海濤等,2019;沈菲等,2003)、海霧預(yù)報(bào)(黃健等,2011;高榮珍等,2016)、漁場預(yù)報(bào)(崔雪森等,2012;高峰等,2015)、海冰分析與反演(王姝力 等,2019;張娜等,2014)、海洋環(huán)境特征分析(陳峰等,2019;張瑩等,2019;向先全等,2013)等領(lǐng)域已得到廣泛應(yīng)用,并取得了較好的效果。

      因此,本研究以秦皇島海域2020 年4 月下旬海月水母碟狀體和海洋環(huán)境因子的數(shù)據(jù)作為研究對象,采用ID 3 決策樹模型,在多種粒度下對海月水母碟狀體分布與環(huán)境因子的關(guān)系進(jìn)行定量分析與研究。通過發(fā)現(xiàn)水母密度分布中潛在的規(guī)律,為秦皇島近岸海域水母災(zāi)害的監(jiān)測預(yù)警提供決策支撐。

      1 研究現(xiàn)狀

      秦皇島近岸海域大型水母主要包括海蜇(Rhopilema esculenta)、 沙 海 蜇 (Nemopilema nomurai)、海月水母(Aurelia aurita) 和白色霞水母(Cyanea nozakii)等4 種水母,致災(zāi)屬種主要為海月水母和沙海蜇(鄭向榮等,2014)。其中,海月水母為本文的研究對象。

      目前,國內(nèi)外學(xué)者已有一些關(guān)于海月水母的研究。海月水母隸屬于缽水母綱(Lucas et al,2012),其生命周期主要包括底棲和浮游兩個(gè)階段(Herrmann et al,2020),具有明顯的世代交替特性(李惠玉等,2010)。每年7—9 月,成熟海月水母體通過有性繁殖產(chǎn)生浮浪幼蟲,1~8 天后,浮浪幼蟲變態(tài)發(fā)育成早期的螅狀體(Chen et al,1986;Dong et al,2006;Kawahara et al,2006)。每年11月至翌年4—5 月份,螅狀體通過無性繁殖或橫裂生殖產(chǎn)生碟狀體(Sun et al,2006)。每年6 月,當(dāng)水溫上升到15 益以上時(shí),海月水母碟狀體迅速生長發(fā)育成水母體。每年9—10 月海月水母體逐漸消亡。由此可見,在次年春季,海月水母種群大小取決于螅狀體的繁衍率和碟狀體的成活率。因此,研究海月水母幼體(如螅狀體和碟狀體等)種群的大小、存活率和動(dòng)力學(xué)過程等,有助于更好地掌握海月水母的生長規(guī)律和暴發(fā)機(jī)理。深入研究溫度、鹽度和溶解氧等關(guān)鍵因素對海月水母幼體生長繁殖和旺發(fā)等方面的影響,掌握其關(guān)鍵過程、規(guī)律與機(jī)理,也具有重要的科學(xué)意義和社會價(jià)值。

      在秦皇島海域,已有一些水母的相關(guān)研究(和振武,1985;劉婧美等,2015,2016;張萬磊等,2015;張海松,2015;趙志紅等,2018;鄭向榮等,2014;Wu et al,2016),主要是對水母種群特征和水母暴發(fā)危害等方面的概述;并從海域特征、環(huán)境因素、人文環(huán)境、海洋工程及其他海域的影響等方面,分析水母暴發(fā)的原因;最后給出水母暴發(fā)的防治對策。上述研究中所采用的方法主要是,對每年6—9 月期間巡航監(jiān)測與捕撈獲取的水母體數(shù)據(jù),進(jìn)行數(shù)據(jù)表象和定性的分析與研究。然而,每年6—9 月已到水母種群的暴發(fā)時(shí)間,此時(shí)僅能采取捕撈措施,且治標(biāo)不治本。若對水母幼體數(shù)據(jù)進(jìn)行研究,建立水母爆發(fā)的預(yù)測模型與預(yù)警機(jī)制,更有利于防御水母暴發(fā)災(zāi)害。

      綜上,通過ID 3 決策樹模型研究秦皇島海域2020 年4 月下旬海月水母碟狀體與環(huán)境因子之間的定量關(guān)系,對預(yù)測海月水母碟狀體密度分布具有重要意義。因此,本研究首先基于平均值、標(biāo)準(zhǔn)差和正態(tài)分布等對各環(huán)境因子特征進(jìn)行離散化處理。其次,將特征分為海洋表層、底層、以及表層和底層(簡稱為表底層)三個(gè)層面,在多種粒度下分析其與海月水母碟狀體密度分布的關(guān)系。最后,采用查準(zhǔn)率(Precision)、召回率(Recall)和F1_scores 指標(biāo)對構(gòu)建決策樹模型進(jìn)行評價(jià)。本研究是對秦皇島海域水母分布與環(huán)境因子進(jìn)行數(shù)據(jù)挖掘分析的有益嘗試,可以為該海域水母災(zāi)害監(jiān)測預(yù)警提供技術(shù)支撐。

      2 調(diào)查區(qū)域與數(shù)據(jù)

      2.1 調(diào)查區(qū)域及站位

      本研究的調(diào)查區(qū)域位于河北省秦皇島沿岸海域,范圍為119毅50憶E—119毅85憶E,39毅75憶N—39毅95憶N;調(diào)查時(shí)間為2020 年4 月19—23 日。

      調(diào)查海域內(nèi)各站位及其水深分布情況如圖1 所示。圖中黑色實(shí)心圓點(diǎn)和數(shù)字分別代表調(diào)查站位和名稱,共設(shè)置了35 個(gè)站位。其中,對應(yīng)河流入海口設(shè)計(jì)了6 條斷面,每條斷面5 個(gè)站位;對應(yīng)人工島(金夢海灣蓮花島)增設(shè)了5 個(gè)加密站位。在調(diào)查期間,由于站位1-1 水位過淺,調(diào)查船難以到達(dá),未采集到該站位的相關(guān)數(shù)據(jù),因此,研究中共涉及34 個(gè)站位的相關(guān)數(shù)據(jù)信息。

      圖1 中黑色曲線上數(shù)字為水深,單位為m,水深數(shù)據(jù)來源于船載LOWRANCE HDS-7 聲吶探測儀。其中,站位5-1 水深最淺,為2.20 m;站位1-5 最深,為15.90 m;各站位平均水深約為8.70 m。由于秦皇島近岸水深較淺,因此調(diào)查海域內(nèi)水深梯度總體較小。

      圖1 秦皇島海域調(diào)查站位與水深分布圖

      2.2 調(diào)查船及數(shù)據(jù)采集方法

      調(diào)查船為“冀秦漁運(yùn)66666”,船長為18 m,船寬為4 m,總噸位為51 t,主機(jī)功率為280 馬力。在秦皇島海域大面觀測站位過程中,現(xiàn)場采集海洋環(huán)境因子和水母豐度等數(shù)據(jù)。其中,海洋環(huán)境因子數(shù)據(jù)來源于美國YSI Professional Plus 多參數(shù)水質(zhì)分析儀;采集到海洋表層/底層溫度、鹽度、溶解氧和pH 等相關(guān)數(shù)據(jù),分別簡記為:SST/SBT、SSS/SBS、SSDO/SBDO 和SSpH/SBpH。水母數(shù)據(jù)來源于標(biāo)準(zhǔn)的淺水域型浮游生物網(wǎng)采集裝置。采用全水柱拖網(wǎng)(由海底至海表垂直拖網(wǎng))取樣,獲取到水母種類及豐度數(shù)據(jù)。其中,網(wǎng)口內(nèi)徑31.6 cm,網(wǎng)衣孔徑160 滋m。

      2.3 數(shù)據(jù)

      2.3.1 海洋環(huán)境因子數(shù)據(jù) 海洋環(huán)境因子的分布信息,如圖2 所示。在溫度圖中(圖2(a)),SST介于9.90~12.90 益之間,平均值約為11.29 益;SBT 介于9.20~11.50 益之間,平均值約為10.66 益。在鹽度圖中(圖2(b)),SSS 介于31.49~32.04之間,平均值約為31.82;SBS 介于31.48~32.04之間,平均值約為31.85。在溶解氧圖中(圖2(c)),SSDO 介于7.41~10.00 mg/L 之間,平均值約為8.93 mg/L;SBDO 介于7.98~9.11 mg/L 之間,平均值約為8.63 mg/L。在pH 圖中(圖2(d)),SSpH 介于7.98~8.25 之間,平均值約為8.15;SBpH 介于8.13~8.38 之間,平均值約為8.27。海洋表層與底層環(huán)境因子相比,SST 高于SBT,SSDO 略高于SBDO;而SSS 略低于SBS,SSpH 低于SBpH。近岸與遠(yuǎn)海相比,SST 和SBT 呈現(xiàn)出近岸海域溫度高,離岸海域溫度低;而SSS 和SBS、SSDO 和SBDO、SSpH 和SBpH 呈現(xiàn)出近岸海域含量低,離岸海域含量高的趨勢。

      圖2 秦皇島海域各站位環(huán)境因子分布

      2.3.2 海月水母碟狀體豐度與密度數(shù)據(jù) 海月水母碟狀體分布情況如圖3 所示。34 個(gè)站位的海月水母碟狀體豐度介于0~40 之間,平均豐度約為5;其中在11 個(gè)站位中發(fā)現(xiàn)海月水母碟狀體,最高豐度(40)出現(xiàn)在站位a-1 和a-4。

      由于水母屬于浮游類動(dòng)物,具有晝夜垂直遷移的特性。當(dāng)采用全水柱拖網(wǎng)取樣時(shí),通常采用密度法來評估生物體種群的豐度(劉婧美等,2016),即水母密度為每立方米的個(gè)數(shù),記為籽(ind./m3),籽的估算方法如式(1)所示。其中,N 表示水母豐度,V 表示拖網(wǎng)水柱體積,r 表示網(wǎng)口內(nèi)徑,h 表示水深。

      34 個(gè)站位的海月水母碟狀體密度介于0~95ind./m3之間,平均值約為11.33 ind./m3。由圖3 可見,各站位中海月水母碟狀體的密度分布不均勻。其中,1、2、3 和6 斷面的海月水母碟狀體密度很低,幾乎為零;4 和5 斷面的海月水母碟狀體密度有所提高,但僅有5-1 站位的密度高于平均值;5 個(gè)加密站位(站位a-1 至a-5)中海月水母碟狀體密度均顯著高于平均值。由此可見,海月水母碟狀體密度分布中心為金夢海灣蓮花島海域。

      圖3 秦皇島海域各站位海月水母碟狀體豐度與密度分布

      在海月水母碟狀體的高密度區(qū)域,各環(huán)境因子的范圍分別是:SST 為11.30 ~ 11.70 益、SBT 為11.10 ~ 11.50 益、SSS 為31.63~ 31.78、SBS 為31.66~31.78、SSDO 為9.20~9.44 mg/L、SBDO 為8.82 ~ 9.08 mg/L、SSpH 為8.12~ 8.16 和SBpH 為8.20~8.22。由圖2 可見,海水溫度(SST 和SBT)和溶解氧(SSDO 和SBDO)均高于其對應(yīng)的平均值;鹽度(SSS 和SBS)均低于其對應(yīng)的平均值;而pH 有所差異,SBpH 低于其對應(yīng)的平均值,SSpH 介于其平均值左右。因此,本文推測該調(diào)查區(qū)域內(nèi)海月水母碟狀體喜好聚集在高溫、富氧和低鹽的區(qū)域。

      3 研究方法

      3.1 ID 3 決策樹

      決策樹作為一種經(jīng)典的監(jiān)督學(xué)習(xí)模型,通常采用自頂向下的遞歸劃分方式構(gòu)造一顆判定樹。其中,ID 3 是經(jīng)典的決策樹模型之一,具體步驟描述如下。

      Step 1:讀取數(shù)據(jù)集并將其記為S,數(shù)據(jù)集S是s 個(gè)數(shù)據(jù)樣本的集合。

      Step 2:將數(shù)據(jù)集S 按類標(biāo)號,計(jì)算總的期望信息。假定類標(biāo)號具有m 個(gè)不同的屬性值Ci(i=1,…,m),設(shè)si是類Ci中的樣本數(shù)。對一個(gè)給定的樣本類別的數(shù)據(jù)集,計(jì)算所需的期望信息為:

      其中,pi是任意樣本屬于Ci的概率,并用si/s 估計(jì)。

      Step 3:計(jì)算每個(gè)屬性(特征) 在類標(biāo)號下的信息熵。設(shè)屬性(特征)A 具有v 個(gè)不同的屬性值{a1,…,av},用A 將S 劃分為v 個(gè)子集{S1,…,Sv},其中,Sj表示S 中具有值aj的樣本。若選擇A為測試屬性(特征),A 的v 個(gè)子集需要根據(jù)類標(biāo)號繼續(xù)劃分。此時(shí),sij是子集Sj中類Ci的樣本數(shù)。根據(jù)A 劃分子集的信息熵為:

      Step 5:選擇信息增益值最大的屬性(特征),作為劃分節(jié)點(diǎn),對數(shù)據(jù)集進(jìn)行劃分。

      Step 6:遞歸地處理被劃分后的所有數(shù)據(jù)子集。從未被選擇的屬性(特征) 繼續(xù)重復(fù)上述步驟,直到得到一棵決策樹。

      決策樹遞歸的結(jié)束條件主要分為兩類:一類是所有屬性(特征)均用完;另一類是劃分后的信息增益值為零,或足夠小。

      ID 3 決策樹模型的主要優(yōu)點(diǎn)是,易于理解和實(shí)現(xiàn),可行性強(qiáng);對數(shù)據(jù)的準(zhǔn)備要求簡單,且可以處理大規(guī)模數(shù)據(jù);易于通過靜態(tài)測試對模型的效果進(jìn)行評測。主要缺點(diǎn)是,無法處理連續(xù)性的屬性(特征);當(dāng)屬性(特征)很多時(shí),會降低處理速度或準(zhǔn)確性;僅能處理一個(gè)屬性(特征)做類標(biāo)號的數(shù)據(jù)。

      3.2 K-折交叉驗(yàn)證法

      當(dāng)決策樹構(gòu)建完后,需要對決策樹的準(zhǔn)確性和有效性等進(jìn)行驗(yàn)證。通常采用K-折交叉驗(yàn)證法,該方法首先將數(shù)據(jù)集平均分為K 份,其中K-1 份作為訓(xùn)練集,1 份作為測試集;其次,采用訓(xùn)練集構(gòu)建決策樹模型;最后,通過測試集進(jìn)行測試。重復(fù)K 次,即將每份均作為測試集1 次,為一次K-折交叉驗(yàn)證的結(jié)果。

      3.3 評價(jià)指標(biāo)

      在分類與預(yù)測任務(wù)中通常選用查準(zhǔn)率、召回率和F1 分?jǐn)?shù)作為評價(jià)指標(biāo),各指標(biāo)的計(jì)算方法如下。

      (1)查準(zhǔn)率(Precision)為被預(yù)測為正例中的正樣本數(shù)量所占的比例,表示為:

      (2)召回率(Recall)為被預(yù)測為正例的數(shù)量占總正樣本數(shù)量的比例,表示為:

      其中,涉及4 個(gè)概念。(1)真正例(TP):表示預(yù)測為正例,實(shí)際也為正例的數(shù)量;(2)假正例(FP):表示預(yù)測為正例,實(shí)際為負(fù)例的數(shù)量;(3)假負(fù)例(FN):表示預(yù)測為負(fù)例,實(shí)際為正例的數(shù)量;(4)真負(fù)例(TN):表示預(yù)測為負(fù)例,實(shí)際也為負(fù)例的數(shù)量。本研究中正例和負(fù)例分別為海月水母碟狀體密度高(值為1)和密度低(值為0)的樣本。

      (3)F1 分?jǐn)?shù)(F1-socres)為Precision 和Recall的一種加權(quán)平均,表示為:

      上述三個(gè)指標(biāo)的最大值均為1,最小值均為0,值越大說明模型的效果越好。

      3.4 數(shù)據(jù)分析處理軟件與環(huán)境

      實(shí)驗(yàn)采用Python 3.6.3 在Anaconda 3 (64 bit)和PyCharm Community Edition 2020.2.3 x64 環(huán)境下進(jìn)行ID 3 決策樹的算法編寫與實(shí)現(xiàn)。采用Excel 2010 進(jìn)行數(shù)據(jù)處理。采用SPSS 22.0 軟件對海洋環(huán)境因子與海月水母碟狀體密度之間的Pearson 相關(guān)性進(jìn)行雙尾驗(yàn)證;并標(biāo)記顯著性,P<0.05 為差異顯著,P<0.01 為差異極顯著。

      4 基于海洋環(huán)境因子構(gòu)建海月水母碟狀體密度分布的ID 3 決策樹

      4.1 數(shù)據(jù)預(yù)處理

      4.1.1 確定數(shù)據(jù)的屬性和類標(biāo)號2020 年4 月秦皇島海域34 個(gè)站位海月水母碟狀體密度和海洋環(huán)境因子相關(guān)數(shù)據(jù),如圖4 所示。該數(shù)據(jù)集有8 個(gè)屬性特征,分別為:海洋表層/底層的溫度、鹽度、溶解氧和pH;上述屬性均為海洋環(huán)境因子的重要特征,故未做刪減,一起進(jìn)行分析。該數(shù)據(jù)集有1個(gè)分類特征,為海月水母碟狀體密度,符合ID 3決策樹僅能處理有一種類標(biāo)號的特點(diǎn)。

      圖4 數(shù)據(jù)屬性(特征)與類別

      4.1.2 數(shù)據(jù)離散化ID 3 算法只能處理離散型數(shù)據(jù),不能直接處理連續(xù)型數(shù)值數(shù)據(jù)。因此,需要對上述海月水母碟狀體密度、溫度、鹽度、溶解氧和pH 等特征進(jìn)行離散化處理,如表1 所示。表1 中,第1—2 行為特征名及其取值范圍,第3—20 行為三種離散化標(biāo)準(zhǔn),又分為表層和底層兩方面。例如,溫度(表層和底層)在34 個(gè)站位的范圍介于9.00~13.00 益之間;若對SSS 采用平均值(11.29 益)進(jìn)行離散化,則將其分為9.00~11.29 益和11.29~13.00 益兩部分,再分別記為0 和1。

      表1 各屬性特征的多粒度離散化標(biāo)準(zhǔn)

      由于數(shù)據(jù)離散化的質(zhì)量會影響到?jīng)Q策樹模型性能的好壞,為了更好地分析海月水母碟狀體密度分布與海洋環(huán)境因子的關(guān)系,本研究對各屬性特征數(shù)據(jù)提出了三種離散化的粒度,具體情況如下。(1)基于平均值將溫度、鹽度、溶解氧和pH 的粒度細(xì)化為兩類:其中,小于平均值記為0,表示低;大于等于平均值記為1,表示高。(2)基于平均值和標(biāo)準(zhǔn)差將四類屬性特征的粒度細(xì)化為三類:其中,0 表示低,1 表示中,2 表示高。(3)基于正態(tài)分布和等差數(shù)列的思想將四類屬性特征的粒度細(xì)化為四類:其中,0 和3 為正態(tài)分布的尾端,分別表示低和高,1 和2 為正態(tài)分布的中間部分并基于數(shù)值等差劃分兩份,分別表示較低和中。在三種情況中,海月水母碟狀體密度的粒度均細(xì)化為兩類,采用平均值進(jìn)行劃分。當(dāng)小于11.33 ind./m3時(shí),用0表示,認(rèn)為密度低;否則,用1 表示,認(rèn)為密度高。

      4.2 實(shí)例

      為了便于理解數(shù)據(jù)預(yù)處理和決策樹構(gòu)建時(shí)的計(jì)算過程,下面通過實(shí)例進(jìn)行介紹。為了簡化計(jì)算過程,選用34 個(gè)站位的海洋表層溫度、鹽度、溶解氧和pH,以及海月水母碟狀體的密度,并采用平均值對數(shù)據(jù)進(jìn)行離散化;原始數(shù)據(jù)和離散化后的數(shù)據(jù),如表2 所示?;谠摂?shù)據(jù)集的計(jì)算和構(gòu)建決策樹的過程如下。

      表2 原始數(shù)據(jù)和離散化數(shù)據(jù)

      (1)數(shù)據(jù)集S 中包含34 個(gè)樣本,根據(jù)密度高低分為兩類,類別個(gè)數(shù)即m = 2。類別特征值0(低)與1(高)對應(yīng)的樣本個(gè)數(shù)分別為s1=28 和s2=6。

      (2)根據(jù)式(2)計(jì)算海月水母碟狀體密度總的期望信息為:

      (4) 根據(jù)式(4)計(jì)算每個(gè)屬性的信息增益。以SST 為例,SST 的信息增益為:Gain(SST)=I(s1,s2)-E(SST)=0.672-0.573=0.099。同理可以計(jì)算其他3 個(gè)屬性信息增益值分別為:Gain(SSS)=0.267、Gain(SSDO)=0.170、Gain(SSpH)=0.000。

      (5)選取最大信息增益值對應(yīng)的屬性作為劃分節(jié)點(diǎn)。由此可見,SSS 具有最大的信息增益值0.267,即SSS 被選作決策樹的根節(jié)點(diǎn)。此時(shí),基于SSS 將34 個(gè)樣本分為兩部分:SSS 大于等于平均值的20 個(gè)樣本和SSS 小于平均值的14 個(gè)樣本。

      (6)在兩部分?jǐn)?shù)據(jù)集中重復(fù)執(zhí)行步驟(1)—(5)。其中,20 個(gè)樣本的期望值為0,且均為低密度樣本,因此無須繼續(xù)劃分;14 個(gè)樣本的期望為0.985屹0,需要繼續(xù)劃分,通過計(jì)算可知,SSDO的信息增益值最大,因此選SSDO 作為下一個(gè)劃分節(jié)點(diǎn)。依次遞歸,即可得到該實(shí)例的決策樹,如圖5(a)所示。

      4.3 ID 3 決策樹模型

      為了更好地研究秦皇島海域海月水母碟狀體密度分布與海洋環(huán)境因子之間的關(guān)系。從海洋表層、底層和表底層特征三個(gè)方面,分別采用三種細(xì)化粒度下的離散化后的數(shù)據(jù),基于2020 年春季4 月秦皇島海域34 個(gè)站位的全部數(shù)據(jù),構(gòu)建了九種情況下的ID 3 決策樹模型,如圖5 所示。

      圖5 決策樹模型

      圖5 中的決策樹是一種樹形結(jié)構(gòu),由葉子節(jié)點(diǎn)、非葉子節(jié)點(diǎn)和分支三部分組成。每個(gè)節(jié)點(diǎn)中均包含三個(gè)要素,entropy 表示信息期望、samples 表示樣本總數(shù)、value 表示不同類別樣本的組成個(gè)數(shù)。其中,每個(gè)葉子節(jié)點(diǎn)對應(yīng)一個(gè)類標(biāo)簽,非葉子節(jié)點(diǎn)為當(dāng)前待劃分的屬性,分支為屬性上的不同取值。

      5 結(jié)果與分析

      5.1 基于ID 3 決策樹模型的分析

      圖5 給出了三種離散化方法,圖5(a)、(b)和(c)為基于平均值的方法,簡記為情況1;圖5(d)、(e)和(f)為基于平均值和標(biāo)準(zhǔn)差的方法,簡記為情況2;圖5(g)、(h)和(i)為基于正態(tài)分布和四分位法的方法,簡記為情況3。每種方法又分別為海洋表層、底層、表底層環(huán)境因子三類情況?;诰欧N情況下ID 3 決策樹模型的相關(guān)分析與結(jié)論如下。

      (1)在三種細(xì)化粒度下,決策樹層數(shù)主要分為兩種:圖5(a)、5(c)和5(g)為4 層,其余為3 層。在4 層決策樹中,存在屬性離散化粒度不合理的現(xiàn)象。如情況1 中圖5(a)的SSpH,由于高密度區(qū)的SSpH 介于均值左右,該離散化方法是基于均值劃分的。因此,SSpH 又將高密度樣本劃分為兩部分,從而導(dǎo)致決策樹層數(shù)增加,并影響模型的預(yù)測效果。與此相比,在3 層決策樹中,基于情況2 構(gòu)建的各種決策樹模型的預(yù)測效果較好。說明情況2中對各種特征的細(xì)化粒度更合理。

      (2)在三類環(huán)境因子下(圖5 中三列相比),基于海洋表層(第1 列)、表底層(第3 列)環(huán)境因子構(gòu)建的決策樹中存在1 個(gè)預(yù)測錯(cuò)誤;然而,基于海洋底層(第2 列)環(huán)境因子構(gòu)建的決策樹,在三種情況下,預(yù)測錯(cuò)誤數(shù)分別為3、1 和2,可見該類模型誤差較大,不合適選作預(yù)測模型。表層(4 個(gè)環(huán)境因子特征)、表底層(8 個(gè)環(huán)境因子特征)與底層相比,其預(yù)測效果均較好。此時(shí),若少量特征即可完成預(yù)測,則無須選擇多的特征。因此,適合選取海洋表層環(huán)境因子構(gòu)建決策樹模型。

      (3)九棵決策樹中均至少存在1 個(gè)預(yù)測錯(cuò)誤,即一個(gè)負(fù)例(海月水母碟狀體密度為0 的樣本)被預(yù)測為正例(海月水母碟狀體密度為1 的樣本),該負(fù)例對應(yīng)的站位為5-2。由圖2 可見,站位5-2中SST 為11.30 益、SBT 為11.10 益、SSS 為31.78、SBS 為31.73、SSDO 為9.21mg/L、SBDO 為8.87mg/L、SSpH 為8.14、SBpH 為8.21;與站位a-1 至a-5和5-1 相比,各種環(huán)境因子均在海月水母碟狀體高密度站位的取值范圍內(nèi),成為模型的干擾項(xiàng)。

      (4)在九棵決策樹中,由各環(huán)境因子出現(xiàn)的頻數(shù)可見,與海月水母碟狀體密度關(guān)系的緊密度由高到低依次為:鹽度、溶解氧、pH 和溫度。

      5.2 基于評價(jià)指標(biāo)的結(jié)果與分析

      采用3-折交叉驗(yàn)證法,在實(shí)驗(yàn)中,先采用2/3的訓(xùn)練集構(gòu)建決策樹模型,再通過1/3 測試集進(jìn)行測試,最后計(jì)算三種評價(jià)指標(biāo)值;重復(fù)實(shí)驗(yàn)10 次,取指標(biāo)的平均值作為實(shí)驗(yàn)結(jié)果。如圖6 所示,橫坐標(biāo)為各環(huán)境因子在三種粒度的離散化方法下與評價(jià)指標(biāo)組合的九種情況,其中,P、R 和F1 分別表示Precision、Recall 和F1-socres 三種評價(jià)指標(biāo),S 和B 分別表示海洋表層和底層;縱坐標(biāo)為評價(jià)指標(biāo)的得分值。通過對圖6 中各種情況的分析,得到結(jié)論如下。

      圖6 各種情況下評價(jià)指標(biāo)的對比圖

      (1)從三種粒度下的離散化方面看,三種評價(jià)指標(biāo)的值基本呈現(xiàn)出先增加后減小的趨勢。說明增加離散化的粒度可以提高模型預(yù)測的效果,但過度細(xì)化會降低模型的預(yù)測效果。

      (2)從三種海洋環(huán)境因子方面看,三種評價(jià)指標(biāo)的最優(yōu)值均出現(xiàn)在海洋表層環(huán)境因子特征中。說明適合采用海洋表層環(huán)境因子構(gòu)建決策樹預(yù)測海月水母碟狀體密度高低。

      (3) 從三種評價(jià)指標(biāo)方面看,Recall 躍F1-socres躍Precision。在情況2 的表層環(huán)境因子模型下的Recall 指標(biāo)值達(dá)到1,說明在該模型下海月水母碟狀體密度高(值為1)的樣本全部預(yù)測正確。在各種模型下的Precision 指標(biāo)值均最小,該指標(biāo)統(tǒng)計(jì)了被預(yù)測的真實(shí)正樣本占預(yù)測樣本總數(shù)的比例,說明存在一些海月水母碟狀體密度低(值為0)的樣本被預(yù)測為密度高(值為1),其原因是,在離散化后,負(fù)樣本(站位5-2)與正樣本的環(huán)境因子在同一范圍,與基于ID 3 決策樹模型分析的結(jié)論(3)類似。F1-socres 為Recall 和Precision 指標(biāo)值的加權(quán)和,因此,F(xiàn)1-socres 的值介于Recall 和Precision 之間是合理的。在綜合比較各種情況下,基于平均值和標(biāo)準(zhǔn)差的三分法細(xì)化粒度的情況2 中的海洋表層環(huán)境因子的評價(jià)指標(biāo)值最優(yōu)。最優(yōu)情況下,Precision、Recall 和F1-socres 三種評價(jià)指標(biāo)的值分別為0.80、1.00 和0.87;分別優(yōu)于其他情況1.00%~17.33%、3.33%~15.28%和2.15%~14.54%。

      從最優(yōu)情況下看,三種評價(jià)指標(biāo)值雖然均超過80%,但綜合Recall 和Precision 的F1-socres 指標(biāo)的分?jǐn)?shù)值并沒有達(dá)到95%及以上。這是由于數(shù)據(jù)集規(guī)模較小,特別是海月水母碟狀體密度高(值為1)的正樣本數(shù)量非常少;同時(shí),又采用了3-折交叉驗(yàn)證法,會使訓(xùn)練集中包含的海月水母碟狀體密度高的正樣本數(shù)更少。這些均會影響決策樹模型的預(yù)測效果。后期,當(dāng)積累了更多的數(shù)據(jù)時(shí),模型的預(yù)測效果會進(jìn)一步提升。

      5.3 相關(guān)性結(jié)果與分析

      由上文決策樹實(shí)驗(yàn)可得如下結(jié)論:(1)基于平均值和標(biāo)準(zhǔn)差的方法對各海洋環(huán)境因子的離散化效果最佳;(2)適合采用海洋表層環(huán)境因子構(gòu)建決策樹,該決策樹對海月水母碟狀體密度的預(yù)測效果最佳;(3)基于決策樹中各環(huán)境因子出現(xiàn)的頻率得出,與海月水母碟狀體密度的相關(guān)性由高到低依次為:鹽度、溶解氧、pH 和溫度。

      為了進(jìn)一步驗(yàn)證上述結(jié)論的正確性和有效性,采用Pearson 相關(guān)性對原始數(shù)據(jù)和離散化后的海洋表層環(huán)境因子與海月水母碟狀體密度數(shù)據(jù)進(jìn)行相關(guān)性分析,結(jié)果如圖7 所示。結(jié)果表明,兩者的相同點(diǎn)為:海月水母碟狀體密度均與溫度、溶解氧正相關(guān),與鹽度、pH 負(fù)相關(guān);均與鹽度、溶解氧的相關(guān)性較高,與溫度和pH 的相關(guān)性較低。不同點(diǎn)為:與原始數(shù)據(jù)中的相關(guān)性相比,離散化后的鹽度和溶解氧較高,且呈現(xiàn)P<0.01 的極顯著相關(guān)性;離散化后的溫度顯著降低,相關(guān)性最弱。

      圖7 Pearson 相關(guān)性分析

      對于離散化后的數(shù)據(jù),它基本保持了原始數(shù)據(jù)的相關(guān)性特征。雖然增加了鹽度和溶解氧的相關(guān)性,降低了溫度的相關(guān)性;這是由于數(shù)據(jù)離散化不僅可以將連續(xù)數(shù)據(jù)進(jìn)行分段,使其滿足決策樹算法的需求;還具有提高系統(tǒng)對樣本預(yù)測/分類和抗噪聲的能力。在本文中,基于平均值和標(biāo)準(zhǔn)差離散化后構(gòu)建決策樹的評價(jià)指標(biāo)均較高,可見該離散化方法可行且有效。

      對于海洋表層環(huán)境因子,與海月水母碟狀體密度的Pearson 相關(guān)性差異顯著,其中,與鹽度和溶解氧的相關(guān)性較強(qiáng),決策樹也主要由這兩個(gè)因子構(gòu)成,可見,基于海洋表層環(huán)境因子構(gòu)建的決策樹對其密度分布的辨識度較高,且效果最佳。同時(shí),鄭向榮等(2014)指出,每年4—5 月,隨著溫度的升高,海月水母碟狀體由海洋底層向表層移動(dòng)。本研究采用的數(shù)據(jù)為2020 年春季4 月中下旬的數(shù)據(jù),此時(shí)海月水母碟狀體會向海洋表層移動(dòng)。因此,采用海洋表層環(huán)境因子構(gòu)建的決策樹正確且可行。

      離散化后的相關(guān)性與決策樹的分析結(jié)果均顯示,與海月水母碟狀體密度分布關(guān)系的相關(guān)性由高到低依次均為:鹽度、溶解氧、pH 和溫度。與原始數(shù)據(jù)間的相關(guān)性分析相比,主要差別為溫度。

      對于海水溫度,劉婧美等(2016)指出溫度是海月水母水螅體橫列生殖重要影響因素。Treible等(2019)指出在實(shí)驗(yàn)室條件下,海月水母螅狀體在10~14 益時(shí)進(jìn)行橫裂生殖。Purcell 等(2007)發(fā)現(xiàn),在北太平洋的海月水母(Aurelia labiata)螅狀體在10 益時(shí)進(jìn)行橫裂生殖的數(shù)量比在7 益時(shí)多4倍。溫度也對碟狀體的生存生長速度有顯著影響。Widmer(2005) 指出溫度低于8 益時(shí),碟狀體生長衰退,個(gè)體變小;溫度高于30 益時(shí),碟狀體死亡;且指出東北太平洋海域的海月水母碟狀體的最適生長溫度為12~21 益。付志璐等(2011)試驗(yàn)證明,10~25 益時(shí),溫度越高,海月水母碟狀體的生長速度越快。然而,本文中海月水母碟狀體密度分布與溫度關(guān)系為正、相關(guān)性最低且不顯著。其可能原因?yàn)椋海?)在2020 年春季4 月下旬秦皇島海域的相關(guān)數(shù)據(jù)中,海月水母碟狀體密度的高值區(qū)對應(yīng)的溫度均已超過11 益,適宜海月水母幼體繁殖與生長。(2)水溫年度變化梯度較大,但調(diào)查期間水溫變化梯度較小。因此,決策樹模型中未體現(xiàn)出溫度對海月水母碟狀體密度分布的影響。

      對于pH,Spangenberg 等(1967) 指出,在pH 為6.5~10.0 時(shí),全部海月水母螅狀體均能進(jìn)行橫裂生殖,但當(dāng)pH 為6 時(shí),大部分螅狀體解體。Winans 等(2010)指出海月水母(Aurelia sp.)碟狀幼體在pH 為6.896 的海水中暴露96 h 后發(fā)育畸形,pH 為6.366 時(shí)停止發(fā)育。王雷等(2021)指出海洋酸化條件(pH抑7.5 和7.3) 對海月水母(Aurelia labiata)螅狀幼體和碟狀幼體的生存或無性繁殖沒有顯著影響,但酸化海水會抑制碟狀幼體發(fā)育。季軒梁等(2013)指出,當(dāng)pH 在6~9 之間時(shí),均可適應(yīng)海月水母碟狀體的生存。該研究海域中pH 的范圍介于7.98~8.38 之間,對海月水母碟狀體密度分布無顯著影響,與現(xiàn)有文獻(xiàn)結(jié)論一致。因此,過度細(xì)化pH 會干擾預(yù)測效果。

      現(xiàn)有文獻(xiàn)指出,當(dāng)鹽度為27~34、溶解氧含量大于2.68 mg/L 時(shí),適合海月水母螅狀體橫裂生殖與碟狀體的生存(Duarte et al,2012;Treible et al,2019;Purcell et al,2007;Ishii et al,2008)。本次調(diào)查的高密度區(qū)域中,鹽度為31.63~31.78,溶解氧含量為8.82~9.44 mg/L,低鹽富氧的蓮花島海域?yàn)楹T滤傅鸂钣左w的大量聚集提供了有利條件。本研究構(gòu)建的決策樹模型與此得到的結(jié)論一致。

      6 結(jié)論

      采用ID 3 決策樹,對2020 年4 月秦皇島海域(119毅50憶E—119毅85憶E、39毅75憶N—39.95毅N)34 個(gè)站位海月水母碟狀體密度分布與海洋環(huán)境因子進(jìn)行多粒度定量分析與研究。數(shù)據(jù)分析與實(shí)驗(yàn)結(jié)果如下。

      (1)在離散化方法中,基于平均值和標(biāo)準(zhǔn)差的粒度三分類的效果最佳;在決策樹模型中,基于海洋表層環(huán)境因子的預(yù)測效果最佳。表明2020 年4月下旬的海月水母碟狀體密度分布,適合采用海洋表層環(huán)境因子構(gòu)建的決策樹進(jìn)行預(yù)測。

      (2)基于決策樹模型的分析表明,海月水母碟狀體密度分布,與各環(huán)境因子的相關(guān)性由高到低依次為:鹽度、溶解氧、pH 和溫度;與海洋表層環(huán)境因子之間的定量關(guān)系為:當(dāng)SSS沂[31.49,31.79)、

      SSDO沂[9.18 mg/L,9.50 mg/L)、SSpH沂[8.12,8.21) 和SST沂[11.29 益,11.71 益)時(shí),海月水母碟狀體密度被預(yù)測為高。即可通過決策樹,根據(jù)鹽度低、溶解氧高預(yù)測出海月水母碟狀體高密度區(qū)域,對應(yīng)為a-1 至a-5 和5-1 的6 個(gè)站位。

      (3)基于平均值和標(biāo)準(zhǔn)差三分法細(xì)化粒度下的海洋表層環(huán)境因子構(gòu)建決策樹模型,在Precision、Recall 和F1-socres 三種評價(jià)指標(biāo)中,指標(biāo)值分別為0.80、1.00 和0.87;與其他情況相比,分別最多提高了17.33%、15.28%和14.54%。

      在2020 年4 月對秦皇島海域進(jìn)行大面巡航過程中,現(xiàn)場僅采集到海水溫度、鹽度、溶解氧和pH 的相關(guān)數(shù)據(jù)。因此,僅分析了海月水母碟狀體密度分布與溫度、鹽度、溶解氧和pH 等環(huán)境因子之間的關(guān)系。在后續(xù)研究中,將會考慮浮游動(dòng)物豐度/生物量(餌料背景)、研究海域的類型(發(fā)源地)和研究區(qū)域海流的流向(運(yùn)動(dòng)及分布的軌跡、范圍)等因素對水母密度分布的影響;會增加4 月航次的觀測頻數(shù)、獲取更多海月水母碟狀體相關(guān)數(shù)據(jù)來進(jìn)一步驗(yàn)證本文的研究成果。

      致謝:感謝“冀秦漁運(yùn)66666”號全體船員為現(xiàn)場樣品的采集所付出的艱辛努力。

      猜你喜歡
      水母站位決策樹
      各種各樣的水母
      提高政治站位 對標(biāo)國內(nèi)一流
      建黨百年說“站位”
      水上消防(2021年3期)2021-08-21 03:12:00
      水母奇觀
      提升站位講政治 創(chuàng)新?lián)?dāng)爭出彩
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      “永生”的水母
      水母觀察記
      基于決策樹的出租車乘客出行目的識別
      潮安县| 荃湾区| 荣成市| 长葛市| 教育| 永济市| 新化县| 怀安县| 平南县| 灵丘县| 新密市| 察隅县| 开化县| 东乌| 武川县| 巢湖市| 濮阳县| 兴安县| 吴堡县| 伊宁市| 南涧| 台湾省| 福安市| 耒阳市| 时尚| 宝山区| 托克逊县| 五常市| 滁州市| 积石山| 穆棱市| 玛曲县| 措美县| 靖西县| 钟祥市| 双鸭山市| 丁青县| 东台市| 纳雍县| 舟山市| 舒兰市|