• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      數(shù)據(jù)挖掘算法在河口羽狀流數(shù)據(jù)分析中的應用*

      2021-01-20 05:43:52李昭穎王厚杰
      關鍵詞:羽狀河口數(shù)據(jù)挖掘

      李昭穎, 王厚杰

      (中國海洋大學海洋地球科學學院,山東 青島 266100)

      作為河流攜帶的陸源物質向海洋輸送的關鍵通道,河口羽狀流(Plume)由自河口入海并浮于鹽水上的低密度淡水形成,其在近場(Near-field)內的擴散狀態(tài)作為河流動力學中的關鍵參數(shù),決定著淡水、陸源沉積物、營養(yǎng)鹽等在河口附近的分布狀況和輸運范圍,對河口和近海物質輸運與環(huán)境有重要影響[1-2]。特別是羽狀流擴散角(Plume spreading angle)作為近場羽狀流的關鍵特征將直接影響河流的回水過程,并決定了河口附近沉積物的堆積狀態(tài)[3-4]。然而,囿于數(shù)據(jù)限制和技術手段,目前的研究多集中于理想條件下的定性分析[2],數(shù)據(jù)來源以實驗室數(shù)據(jù)和現(xiàn)場調查為主[1,5],數(shù)據(jù)獲取成本高、數(shù)量少,難以獲得長期連續(xù)實際河口處羽狀流擴散角的變化趨勢,也無法就羽狀流的動力因素進行顯著性分析。鑒于此,衛(wèi)星遙感數(shù)據(jù)以其大批量數(shù)據(jù)及長時間尺度的特征,為解譯河口羽狀流擴散趨勢提供了新的方法。然而,針對遙感數(shù)據(jù)開展的傳統(tǒng)人工處理方法存在效率低、誤差大的缺陷,難以對海量數(shù)據(jù)開展批處理,亦無法提取數(shù)據(jù)背后隱含的規(guī)律性信息。因此,作為能夠自動從數(shù)據(jù)中提取信息的方法,數(shù)據(jù)挖掘技術(Data mining)為解決這類傳統(tǒng)難題提供了新思路,并已經在地球科學,特別是沉積學中獲得了廣泛的利用。以線性回歸法為代表的數(shù)學算法在針對湖泊沉積物內有機碳的礦化程度以及周邊環(huán)境因素的相關性開展分析[6],針對沉積物的粒度、地球化學組分和物源分析中均取得了不錯的效果[7-9]。概率算法主要包括最近興起的機器學習技術,其中代表性的回歸算法為隨機森林(Random forest,RF)法[10]。作為統(tǒng)計學中新興的、高度靈活的機器學習算法,隨機森林在地球科學中的應用驗證了其高效的分析能力,近年來在建立沉積物分布模型、推測河流流量等河口沉積動力學問題上初步展現(xiàn)了其強大的分析作用[11-14]。

      然而,數(shù)據(jù)挖掘算法的加入在解決的問題同時也產生了新的問題。由于數(shù)據(jù)量和數(shù)據(jù)精度的約束,數(shù)據(jù)挖掘算法在解決地學問題時的表現(xiàn)效果尚待評估。同時,經典的數(shù)學算法和新興的概率算法在不同數(shù)據(jù)集上的表現(xiàn)存在不一致性,我們需要根據(jù)數(shù)據(jù)集特點對數(shù)據(jù)挖掘算法的適用范圍進行深入討論。因此,在利用數(shù)據(jù)分析方法的基礎上對其特點進行評估,對基于地學數(shù)據(jù)的數(shù)據(jù)挖掘算法的推廣應用具有重要的意義。

      本文以馬格達萊納河河口羽狀流近場數(shù)據(jù)和周圍環(huán)境因素為例,使用分屬數(shù)學算法和概率算法的三種不同的數(shù)據(jù)挖掘方法,討論方法結果之間的差異和產生原因并總結了其方法特征及應用范圍,從而能夠評估方法的表現(xiàn)效果、對模型輸出結果作合理取舍。同時,基于對算法擬合效果及分析結果的探究,建立近場羽狀流擴散角模型,探討其長期變化趨勢,分析擴散角的環(huán)境影響因素,從而進一步探討現(xiàn)實河口下可能存在的沉積物分布與堆積趨勢。

      1 研究方法

      針對河口羽狀流主控因素這一回歸問題,本文主要使用基于最小二乘法(Ordinary Least Squares,OLS)的多元線性回歸(Multiple Linear Regression),套索回歸(Lasso Regression)以及基于決策樹CART算法(Classification and Regression Trees,又稱分類回歸樹)開展的隨機森林算法對問題進行研究,前兩種屬數(shù)學模型,后一種為概率模型。

      多元線性回歸(簡稱MLR法)指對于因變量的預測中,具有兩個以上的自變量對其存在影響。針對可以表示為式(1)的多元線性回歸問題:

      Y=BX+ε。

      (1)

      Lasso是一種采用了L1正則化(L1-regularization)的線性回歸方法[15],即滿足最小二乘法的同時,通過L1范數(shù)t使得回歸系數(shù)總體偏小,從而保證參數(shù)前的回歸系數(shù)為較小值,而相關性較低因素的回歸系數(shù)趨于甚至等于零。該方法能夠有效的減小模型擬合結果的波動性,防止模型過擬合,并有效的對低相關性參數(shù)進行篩選。

      基于CART算法的隨機森林(簡稱RF算法)[10]是一種決策樹的集成方法。令決策樹為二叉樹,依照決策節(jié)點劃分為有限部分后在每部分上確定終端節(jié)點的概率分布,并采用系數(shù)[16]作為最優(yōu)特征選擇法。在決策樹的基礎上,RF算法使用Bagging算法(Bootstrap aggregating,引導聚集算法)進行重采樣,并建立若干互相獨立的分類器,最終以分類器的投票結果返回預測值,從而有效的改進了決策樹所具有的問題。圖1是RF算法的工作流程示意圖。從數(shù)據(jù)集中有放回的隨機抽取n個樣本訓練形成分類器,并利用其余數(shù)據(jù)對此時形成的樹進行泛化性能測試?;诖?,隨機森林算法將反復執(zhí)行此過程獲取m個互相獨立的分類器。針對第i個樣本,分類器將分別從n類分類中給出預測結果。針對回歸問題,該n個預測結果的平均值為最終預測結果。

      圖1 隨機森林算法的主要結構示意圖[10]Fig.1 The main structure of random forest algorithm

      2 數(shù)據(jù)來源及預處理

      針對河口羽狀流近場擴散角的動力影響因素問題,本文將基于Landsat衛(wèi)星圖片數(shù)據(jù)和海洋模型數(shù)據(jù),就馬格達萊納河及其河口周邊的環(huán)境條件開展分析。

      馬格達萊納河是哥倫比亞最大的河流系統(tǒng),年際輸沙量位于全球前十[17]。圖2是馬格達萊納河附近的環(huán)境因素方向示意圖。本文選擇馬格達萊納河作為范例河流,主要是出于以下幾點考慮。首先,馬格達萊納河位于南美洲北部,屬于高含沙量河流,具有清晰的高含沙量羽狀流,羽狀流顏色與周邊海域有明顯區(qū)別,便于開展識別和探索;其次,該河流處云層遮蓋較少,大部分Landsat衛(wèi)星圖像能觀測到較為完整的河口羽狀流形狀,能夠提供大量的連續(xù)的長期觀測資料;最后,該河流為單一河道河流,河道經由人工介入后能夠長期保持穩(wěn)定,在研究時間內無出汊、改道現(xiàn)象,河道向海伸出,河口附近開闊,周圍無岬灣遮擋,羽狀流形狀及擴散幾乎不受周圍地形影響。

      (河道向外突出,為河流唯一的出海口,周圍的海岸地形對羽狀流無影響。圖片來自于Landsat衛(wèi)星2015年4月1日圖像。 The channel protrudes outwards and is the only outlet of the river. The surrounding coastal geomorphology has no effect on plume. Image is from Landsat 8 satellite in April 1st, 2015.)

      本文研究中,羽狀流近場數(shù)據(jù)來自于1984—2018年間的Landsat衛(wèi)星數(shù)據(jù),主要針對羽狀流在河口附近的擴散角進行提取?;谇叭搜芯縖18],考慮到河口的實際情況,環(huán)境因素主要使用河流流量(Discharge),風(Wind),海流(Current),波浪(主要指波高,Wave height)和潮汐(主要指潮高,Tide height)作為基本的邊界條件進行分析,數(shù)據(jù)來源見表1附注。邊界條件的時間跨度從1982—2018年,均基于馬格達萊納河所處位置進行提取,并對數(shù)據(jù)進行了日平均處理。為建立羽狀流擴散角與環(huán)境因素的關系,選取可以使用數(shù)據(jù)挖掘方法進行分析的動力參數(shù),圖3是環(huán)境因素與羽狀流擴散角之間的對比示意圖。

      在開展數(shù)據(jù)分析之前,為了滿足回歸模型的要求,需要對數(shù)據(jù)進行預處理。回歸模型中,自變量數(shù)據(jù)要求與因變量之前存在弱相關以上的關系,且不具有多重共線性,無異常值。皮爾森相關系數(shù)(Pearson correlation coefficient, 簡稱PCC)是統(tǒng)計學中常用的參數(shù),可以用于計算兩個變量之間的線性相關性。羽狀流與相關環(huán)境變量的具體信息見表1。由于多因素混雜的原因,相關性普遍處于較弱到中等相關的程度,但是這些環(huán)境因素與羽狀流仍具有可見的相關性,可以用于下一步分析。值得指出的是,在兩兩比較的過程中,發(fā)現(xiàn)風速與波高之間的PCC達到了0.89,屬于強相關,違反了不具多重共線性的原則??紤]到河口附近以風浪為主,風與浪一般屬于共同作用,在下文的分析中,本文只選取風作為代表因素進行分析。除了風與浪之外的其他變量對之間相關性很弱,這表明他們對于羽流的控制和影響是相互獨立的。為去除數(shù)據(jù)中的異常值,本文對所有的數(shù)據(jù)取Z-score值,并將Z-score大于3.5的值認為是異常值,并從數(shù)據(jù)集中刪去[19]。同時,對數(shù)據(jù)取Z-score的做法,能夠完成對數(shù)據(jù)的中心化和歸一化,取消由于量綱不同、自身變異或者數(shù)值相差較大所引起的誤差,并得到均值為0,標準差為1的服從標準正態(tài)分布的數(shù)據(jù)。

      (從上至下分別為海流流速、波高、潮高、風速和河流流量。 From top to bottom are the current speed, wave height, tide height, wind speed and river discharge.)

      同時,需要說明的是,在人工河道的限制和干預下[20],除去河道口的東側出現(xiàn)了沙壩堆積體,使得河口處逐漸發(fā)生轉向之外,馬格達萊納河的河道在近40年內沒有出現(xiàn)出汊、偏轉的情況,始終指向北偏西的方向。考慮到該地形變化難以提取,且沙壩的堆積具有隨時間不斷增長的趨勢,在進行數(shù)據(jù)分析的時候,酌情引入“年”(Year)作為參數(shù)之一。該參數(shù)與其他變量進行對比后發(fā)現(xiàn),PCC最高的為河流流量,為,仍處于中等相關,不構成強相關關系,可以引入作為變量。同樣的,在進行季節(jié)分析的時候,各因素的季節(jié)性變化并不一致。為了對羽狀流進行季節(jié)性變化的控制作用,“月”(month)作為參數(shù)將被引入到下一步的分析之中。與其他參數(shù)對比之后發(fā)現(xiàn),PCC最高的為風速,為,也處于處于中等相關,可以引入作為變量。

      表1 羽狀流及相關環(huán)境變量參數(shù)Table 1 The parameters of plumes and related environmental variables

      最終,具有所有邊界條件、能夠參與下一步分析的數(shù)據(jù)組共計128組,且都進行了中心化,以確保參與模型訓練時得到的參數(shù)結果能夠代表該因素的貢獻值。據(jù)被隨機分為兩個子集,分別是訓練集(75%,包括 96 組數(shù)據(jù))和測試集(25%,包括 32 組數(shù)據(jù)),兩個子集具有相似的自變量和因變量分布。

      3 數(shù)據(jù)分析結果及適用性討論

      將進行預處理之后的訓練組適用MLR線性回歸法進行分析,針對羽狀流擴散角得到了下述的方程(2):

      θ=-0.169 0×Uc-0.067 0×Q-0.227 6×Uw-
      0.216 3×Ht+0.082 4×Month-0.405 0×Year。

      (2)

      之后,將訓練組投入Lasso線性回歸法進行分析。本文Lasso回歸模型中參數(shù)t的取值為0.01,針對羽狀流擴散角度得到了下述方程(3):

      θ=-0.138 3×Uc-0.060 6×Q-0.229 8×Uw-
      0.182 5×Ht+0.056 3×Month-0.363 5×Year。

      (3)

      最后,將訓練集用于RF概率回歸法進行進一步分析。在本文的訓練中,決策樹數(shù)量為300。作為黑箱算法,RF只能根據(jù)算法內的決策樹給出最終的擬合結果,而無法像線性模型一樣得到具體的參數(shù)表達式??紤]到很多情況下仍然需要衡量各自變量與因變量之間的控制作用,Breiman于2001年提出了一種方法[7],可以對進行過中心化和歸一化之后的變量重要性進行排名,一般來說,在該分數(shù)中具有較大值的要素被認為對因變量具有更重要的控制因素。針對羽狀流擴散角度的分數(shù)結果如下方程(4)所示:

      RFmodel-θ:Year>Wind>Discharge≈
      Current>Tide≈Month。

      (4)

      其中,重要性占比分別為,Year=0.25,Wind=0.23,Discharge=0.15,Current=0.15,Tide=0.09,Month=0.09。

      根據(jù)以上三種模型,圖4是三種方法所獲的預測結果與測試集相比對得到的結果。可見,三種方法獲得的結果類似,線性法與概率法的擬合結果雖然存在一定區(qū)別,但均能相對完整的擬合出測試集的變化趨勢。然而,三種方法對于羽狀流擴散角的分析結果及對動力因素的權重卻存在很大區(qū)別,主要在于河流流量和潮汐的作用,即RF法結果中認為河流流量是緊隨風速的第三重要的變量組成,而潮汐的重要性小于海流流速,與季節(jié)影響程度相當??紤]到評價效果的前提是結合問題背景,而近場環(huán)境的具體定義是河流初始動量大于外界動力影響的區(qū)域,因此在該區(qū)域內繼承了河流動力學特征的羽狀流會展現(xiàn)出明顯的河流效應[18]。相比較而言,隨機森林回歸法認為無論是羽狀流擴散角還是羽狀流方向中流量都是排名第三的重要控制組分,其結果更具有說服力。同時,這也指示著流量對擴散角、方向的影響可能不是一元線性的,而是以多元線性或非線性關系相關。

      圖4 利用MLR,Lasso和RF回歸模型對羽狀流擴散角進行擬合后與測試集的對比結果Fig.4 Comparison of fitting the plume spreading angle test set with MLR, Lasso and RF regression models results

      出現(xiàn)上述情況的主要原因是線性法與概率法回歸思路的區(qū)別。線性回歸中,預測結果的主要思路是利用已有數(shù)據(jù)計算均方誤差,并將均方誤差最小值時的估計值作為結果,并給出此時各變量的回歸系數(shù)。以隨機森林為代表的概率法,則是針對各變量影響下的節(jié)點概率值作分析,最終得到的并非各變量的回歸系數(shù),而是其在森林中每棵樹內的重要性。換言之,線性回歸強調的是自變量和因變量之間的線性關系,最終能得到完整的數(shù)學結果,而隨機森林側重的是自變量對因變量的影響程度,單純的只從形成結果概率上進行推算結果。

      然而,僅從擬合結果上出發(fā)時,三種方法與測試集的擬合結果均具有可信性,甚至隨機森林的結果略弱于線性回歸:這體現(xiàn)了隨機森林等新發(fā)展的機器學習技術的局限性,即數(shù)據(jù)量要求高。一般的線性模型僅需要十倍于變量的樣本,而隨機森林等新興方法的數(shù)據(jù)集可能需要百倍于變量的數(shù)據(jù)集進行訓練。本文的數(shù)據(jù)挖掘模型應用中,模型測試集的數(shù)量大概在100~115個左右,變量數(shù)目則在5~6個左右,這種較小的數(shù)據(jù)集對于線性模型而言更容易取得好的擬合結果,而隨機森林方法雖然得到的結果更貼近前人已有研究,得到的模型擬合結果卻弱于兩個線性模型的擬合結果。

      本文討論的羽狀流問題中,河口附近環(huán)境因素復雜,易受突發(fā)性因素影響產生變化。特別是針對某一時刻羽狀流擴散情況的衛(wèi)星數(shù)據(jù),與囿于數(shù)據(jù)精度而多為日平均的環(huán)境因素相比,其控制作用受外界影響較大、精度較低。這也凸顯了地學數(shù)據(jù)的特征:數(shù)據(jù)量小,數(shù)據(jù)精度低,噪音多。此時,基于概率的方法由于能夠挖掘數(shù)據(jù)之間的控制趨勢而效果更好,因此導致了隨機森林算法具有擬合精度略低但擬合結果更符合實際的特點。從另一方面,同樣作為機器學習方法,兩種模型的適用條件存在區(qū)別。線性回歸法更適合針對噪點少的小數(shù)據(jù)集開展應用,如實驗室環(huán)境下產生的數(shù)據(jù)集,或者針對獲取數(shù)據(jù)較不方便的環(huán)境下產生的少量數(shù)據(jù),以分析自變量與因變量之間的數(shù)值關系,為進一步提取數(shù)值模擬模型作準備。而以隨機森林為代表的概率算法系列,由于不需要考慮變量之間的線性關系,更適合針對較大量數(shù)據(jù)下的復雜環(huán)境開展分析,以獲取自變量對因變量的總影響趨勢,衡量變量的重要性。因此,當針對回歸問題選擇處理方法時,需要綜合考慮數(shù)據(jù)質量和數(shù)據(jù)數(shù)量兩方面的影響。對于以本文問題為代表的大部分地學數(shù)據(jù)而言,以隨機森林為代表的概率法可能是更好的選擇。同時,需要說明的是,無論哪種數(shù)據(jù)挖掘方法都無法避免由于數(shù)據(jù)精度和分辨率等問題帶來的噪點,因此在進行討論時必須注意到數(shù)據(jù)本身可能造成的誤差。

      綜上所述,在近場地區(qū)羽狀流擴散角的環(huán)境因素中,年際變化、風速、河流流量可能是最為主要的控制因素,隨機森林模型的結果更適用于對以本問題為代表的地學數(shù)據(jù)進行討論。

      5 羽狀流擴散角因素分析

      基于上文得到的結果和方法對比情況,可以對羽狀流擴散角的影響因素進行分析,并開展進一步模擬。對于馬格達萊納河羽狀流的近場擴散角而言,年際變化、風速、河流流量為最主要控制因素,文中得到的結論與前人的研究結果能夠互相對應。

      羽狀流擴散角主要指羽狀流在河口附近向兩側擴散的范圍,該擴散過程通常不改變羽狀流底部的湍流混合過程,但會在表面顯著增加羽狀流與下層水體的混合面積,降低羽狀流的平均密度,增加河水的凈稀釋度,從而加強近場內的混合過程[5]。需要說明的是,此處的年際變化,主要指馬格達萊納河口處逐漸出現(xiàn)的沙壩沉積,迫使河流的入射流量方向逐漸由北向西北偏移。河流流量及河流指向方向對羽狀流的擴散角所具的負相關影響與文獻[1]和[21]的研究結果類似,河流流量及其入射角會對羽狀流擴散速率產生明顯影響。如圖5所示,在河流流量較低或者河口堆積體較少的情況下,羽狀流具有更大的擴散角,此時河流的河道和近海羽流區(qū)域均趨向沉積;而在河流流量增大或河口堆積體增多的情況下,羽狀流擴散角小,河道發(fā)生沖刷,在近海的羽流區(qū)域出現(xiàn)自通道化,并趨于形成堤岸。相比之下,以風速和海流為代表的海洋動力所產生的外應力在近場內對羽狀流同樣具有重要控制作用。Xia等[22]的研究中指出,在強烈的風應力下,河口流出的淡水進入沿岸流的量顯著增加,而Kakoulaki等[23]認為風應力在近場內是排名第二的重要因素。同時,必須要注意到的是,馬格達萊納河處平均風速高達6 m/s,屬于絕對的高風速地區(qū)。Xia等[22]的研究表明,在風速大于5 m/s時,隨風力增加,羽狀流的擴散面積必定減小,這也會造成羽狀流擴散角的進一步降低。圖5顯示,在強烈的側向應力作用下,羽狀流更傾向于沿風速方向輸運,大部分淡水會進入沿岸流,造成其東側出現(xiàn)明顯的空白,在馬格達萊納河口的環(huán)境下即為羽狀流逐漸向左偏轉從而造成其擴散角變小。本質上,河口羽狀流的擴散狀態(tài)是初始動量與外界環(huán)境因素競爭的結果,因此河流流量較大時,羽狀流的初始動量高,在離開河口時具有更強的徑向速度,因此傾向于維持本身的狀態(tài);而在河流轉向后,其入射角方向會與風速、海流等趨同,反向增加了外力的作用。

      (從上到下分別是河流流量/海流、風速、年份變化時對應的擴散角示意圖以及相對應的羽狀流衛(wèi)星圖片。 From up to down are discharge/current, wind, year and satellite images.)

      根據(jù)計算發(fā)現(xiàn),羽狀流在近場擴散中,羽狀流寬度與距離河口的徑向距離成比例[24]。換言之,我們可以以等腰三角形作為羽狀流的模擬,以高度抽象的方式展示羽狀流擴散角的變化趨勢,并討論羽狀流對于河口-海岸帶的影響。圖5同時展示了馬格達萊納河羽狀流在21年內的羽狀流擴散角變化所作的示意圖,為保證穩(wěn)定條件,環(huán)境因素取平均值,季節(jié)統(tǒng)一為春季。圖中的模型結果顯示,羽狀流的擴散角隨年份變化不斷減小,這一趨勢與衛(wèi)星圖片所展示的河口衛(wèi)星圖像是一致的,這也會影響河流的回水面積,從而影響河口的沉積過程。在羽狀流擴散角不斷減小的過程中,如果不存在人工疏浚等外界影響,馬格達萊納河河口將由大范圍的水下三角洲沉積逐漸轉變?yōu)楹拥莱练e體,進一步形成向外延伸的鳥嘴狀河道,渠道化更加明顯。同時,河口西側的羽狀流擴散面積,即淡水和沉積物的主要影響范圍,在研究時間內處于不斷下降的趨勢,但下降幅度不高;相比之下,河口東側的羽狀流擴散范圍隨時間變化產生了顯著的降低。衛(wèi)星圖片顯示,產生這一變化的主要原因在于,隨時間變化河口右側逐漸出現(xiàn)明顯的沙壩堆積。考慮到馬格達萊納河附近的海洋動力,包括風、海流等均呈現(xiàn)自東-東北向西-西南方向的趨勢,當高含沙量的淡水水體自河口排出后,會在河口右側迅速混合、減速,并產生沉積,這可能是沙壩產生的原因之一。隨著羽狀流擴散角度的不斷減小,河口右側逐漸脫離羽狀流的影響區(qū)域,沙壩的沉積速率可能會顯著降低。

      根據(jù)模型結果可以對馬格達萊納河河口的未來變化趨勢作一定推測。當河口進一步向左偏向,羽狀流的擴散范圍進一步降低時,河口東側的沙壩可能會逐漸停止沉積,使得河流流量保持相同的方向而沒有明顯的變化。此時,羽狀流的年際變化會收到明顯的影響。同時,在Wright[2]的研究中,曾對羽狀流的最小擴散角進行過計算,即河口羽狀流的擴散角不會小于24.5°,因此范例河流處的羽狀流擴散角度模型應以24.5°作為另一個限制條件。

      需要說明的是,模型中所使用的“年”作為變量,主要代表河口的方向變化。但馬格達萊納河及其附近環(huán)境受厄爾尼諾-南方濤動現(xiàn)象(ENSO)影響顯著,因此不排除年際變化中可能包含全球氣候變化的可能性[20]。而模型中顯示的季節(jié)差異除環(huán)境因素本身所具有的季節(jié)性變化效應外,可能與海洋中的溫鹽變化等因素相關。

      根據(jù)馬格達萊納河的結果可知,羽狀流在真實河口處的擴散角明顯受環(huán)境因素影響。因此,在綜合建立馬格達萊納河口及海岸附近的沉積物分布模式、討論河流的具體變化趨勢時,可以依照本文所得到的環(huán)境參數(shù),針對不同環(huán)境因素賦予不同權重,從而實現(xiàn)該研究區(qū)域內更精確的推斷和模擬。同時,在針對其他具有明顯羽狀流的大型河流開展研究時,可以有針對性的根據(jù)河口位置獲取數(shù)據(jù),依照上文中的分析過程和具體步驟進行環(huán)境因素權重分析,并探討其隨時間和季節(jié)變化呈現(xiàn)的羽狀流特征。

      6 結論

      針對真實河口下近場羽狀流擴散角的影響因素和變化趨勢,本文利用馬格達萊納河羽狀流及周邊環(huán)境因素數(shù)據(jù)使用數(shù)據(jù)挖掘方法進行分析,并根據(jù)兩種線性回歸法和隨機森林法的具體表現(xiàn)提出了根據(jù)數(shù)據(jù)來源、數(shù)據(jù)量和數(shù)據(jù)特征選擇不同挖掘模型的思路,最終對馬格達萊納河羽狀流擴散角的動力因素進行權重分析,并建立了羽狀流擴散角時間序列模式。主要得到了以下結論:

      (1)數(shù)據(jù)挖掘算法在河口環(huán)境下能夠就復雜因素開展高效而準確的分析。在使用時,需要保證變量間不具有多重共線性,數(shù)據(jù)無異常值,并對數(shù)據(jù)進行中心化和歸一化的預處理。最終得到的結果能夠為進一步探究河口羽狀流控制因素、建立羽狀流擴散模型提供參考。

      (2)作為數(shù)據(jù)挖掘技術的不同分支,線性回歸法和隨機森林法在數(shù)據(jù)分析上各具優(yōu)勢,需要根據(jù)數(shù)據(jù)集的特點進行選擇。線性回歸模型更適合針對噪點少的小數(shù)據(jù)集開展應用,而以隨機森林為代表的概率回歸模型更適合針對較大量數(shù)據(jù)下的復雜環(huán)境開展分析。針對類似問題選擇方法時,需要綜合考慮數(shù)據(jù)質量和數(shù)據(jù)數(shù)量兩方面的影響。

      (3)對馬格達萊納河的羽狀流擴散角而言,最重要的影響因素為河流指向方向,其次為風速,再次為河流流量大小和海流流速,在進行針對該河流的沉積物分析時需要注意按不同權重增加環(huán)境因素的影響。同時,羽狀流的變化趨勢表明,隨時間增長羽狀流的擴散角度減小,河口物質的影響范圍逐漸減弱,該河流在研究時間段內存在由大范圍的水下三角洲沉積向渠道化的河道沉積變化的趨勢。

      猜你喜歡
      羽狀河口數(shù)據(jù)挖掘
      基于GUI 的冷泉羽狀流數(shù)值模型可視化系統(tǒng)研究與應用
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于高精度海洋動力模型的珠江口羽狀流季節(jié)和年際變化規(guī)律研究
      基于并行計算的大數(shù)據(jù)挖掘在電網中的應用
      電力與能源(2017年6期)2017-05-14 06:19:37
      隨機介質理論天然氣水合物羽狀流正演模擬
      遼寧化工(2017年3期)2017-03-21 01:40:51
      羽狀Fe-Co合金分級結構粒子的合成與表征
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
      他們?yōu)槭裁催x擇河口
      河口,我們的家
      特殊的河口水
      凤山县| 龙州县| 辽宁省| 毕节市| 广安市| 成武县| 炎陵县| 洪雅县| 江达县| 田阳县| 漳浦县| 建德市| 兖州市| 比如县| 上蔡县| 怀安县| 莲花县| 任丘市| 淳安县| 安康市| 营山县| 潮安县| 璧山县| 乌兰县| 湟中县| 大厂| 麻江县| 尼木县| 汤阴县| 安化县| 永春县| 西贡区| 马公市| 酒泉市| 黑水县| 那坡县| 六盘水市| 称多县| 盐津县| 章丘市| 南乐县|