• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于高斯混合聚類算法的西安市人工填土空間分布研究

      2022-06-24 06:23:50劉梁石衛(wèi)張曉平韓冰董欣袁琳
      西北地質 2022年2期
      關鍵詞:西安市高斯準則

      劉梁,石衛(wèi),張曉平,韓冰,董欣,袁琳

      (1.西安市勘察測繪院,陜西 西安 710059;2.陜西省水工環(huán)地質調查中心,陜西 西安 710068;3.地質災害防治與地質環(huán)境保護國家重點實驗室(成都理工大學),四川 成都 610059;4.陜西省城市地質與地下空間工程技術研究中心,陜西 西安 710068)

      城市開發(fā)過程中,一些具有特殊性質的巖土體,如人工填土、濕陷性黃土、砂土、卵礫石等,對工程建設具有較大影響,查明這類巖土體的空間分布特征,有助于做好城市規(guī)劃、保障建設安全。目前,特殊巖土體的空間分布研究方法主要是根據地形、地貌及地質作用進行經驗判斷(西安市城市規(guī)劃管理局,1998),利用地質鉆孔資料進行空間插值建立三維模型進行預測(李豪,2018),以及利用遙感手段和其他相關性參數進行分析推斷(郭培虹等,2010)。經驗判斷的方法十分依賴于研究人員對該區(qū)域的熟悉程度和經驗水平;模型預測則依賴于插值方法的準確性和三維模型的精度;遙感推斷與輔助參數的相關性和分析人員的技術水平關聯(lián)甚密。

      機器學習的主要內容是研究從數據中產生模型的算法,并將經驗數據提供給這些算法,使其能夠基于數據產生數學模型(周志華,2016)。機器學習是一種大數據分析方法,能夠很好地利用已有數據,且在接受經驗數據指導的同時降低人為因素的影響。由于地學數據割裂嚴重,難以形成大數據集合,因而機器學習的方法在地學領域應用較少。近年來,也有許多學者通過數據收集,開展了相關的研究,如滑坡敏感性分析及空間預測(Park Inhye et al., 2014)、土壤流失等級預測(Moller Anders Bjorn,et al.,2019)、地面沉降致因量化評價(Zhou Chaofan et al.,2019)、地下水生產潛力制圖(Lee Saro et al., 2015)及滑坡易發(fā)性評價(邱維蓉等,2020)等,取得了一定的成果。機器學習中的聚類算法通常被用于對無標記訓練樣本進行學習,以揭示數據內在的性質和規(guī)律,為進一步的數據分析提供基礎,這種方法不存在客觀標準,給定一個數據集,總能從某個角度找到以往算法未覆蓋的某種標準。常見的聚類算法有k均值算法(Jain,1998,2009)、學習向量量化(Kohonen,2001)和高斯混合聚類(McLachlan,2000)等。

      目前常用的空間插值方法均存在主觀性強、數據利用率低和通用性差的缺點。因此,筆者選用機器學習中的聚類算法來開展人工填土的分布研究。在各種聚類算法中,高斯混合聚類雖然通常被歸類為聚類算法,但它本質上是一個密度估計算法,從技術角度考慮,高斯混合模型描述了數據分布的生成概率模型,它試圖找到多維高斯概率分布的混合體,從而獲得任意數據集最好的模型,因而更適合用作土體分布研究。

      1 研究區(qū)范圍及地質背景

      以西安市三環(huán)內主城區(qū)約4 00 km2為研究區(qū)域,收集并整理研究區(qū)內工程地質鉆孔20 793個。研究區(qū)內出露地層以新生界(Kz)為主,其中第四系厚度為600~1 000 m,對工程建設影響較大的主要地層有人工填土(雜填土、素填土)、粉質黏土、黃土狀土、黃土、古土壤和砂土等。

      西安市的人工填土在城區(qū)和近郊廣為分布。目前所見的人工填土大多是近400~500年以來所形成的。西安市的人工填土不僅分布廣泛,厚度大(多在3~10 m,局部地區(qū)最大厚度可達十幾米),土層產狀和厚度在平面上變化十分迅速,而且性質非常復雜。就其物質組成及工程性質而言,可將西安市的人工填土分為雜填土和素填土2類。西安市的雜填土顏色多而雜,結構疏松,物質組成是以各個時期的建筑垃圾為主,部分地區(qū)的雜填土夾有少量植物根系,土的均勻性極差,工程建設中不能直接選作天然地基的持力層。在西安市主城區(qū),素填土一般伏于雜填土之下,在城郊則多直接出露地表。西安市的素填土多由黏性土組成,一般含有少量磚、瓦塊碎屑等,具有大孔結構和輕微濕陷性,可以作為一些次要或臨時性建筑的地基持力層,對二級建筑及以上建筑一般均應進行地基的加固處理。

      2 空間分布特征的研究方法

      2.1 高斯混合聚類

      高斯混合聚類(Mixture of Gaussian)采用概率模型來表達聚類原型,在多元高斯分布定義中,對n維樣本空間χ中的隨機向量x,若x服從高斯分布,其概率密度函數如下。

      (1)

      其中μ是n維均值向量,∑是n×n的協(xié)方差矩陣。由式(1)可以看出,高斯分布完全由均值向量μ和協(xié)方差矩陣∑這2個參數確定。為了明確顯示高斯分布與相應參數的依賴關系,將概率密度函數記為p(x)|μ,∑)。因此,筆者可以將高斯混合分布定義如式(2)

      (2)

      假設樣本的生成過程由高斯混合分布給出:首先,根據α1,α2,…,αk定義的先驗分布選擇高斯混合成分,其中αi為選擇第i個混合成分的概率,然后根據被選擇的混合成分的概率密度函數進行采樣,從而生成相應的樣本。

      若訓練集D={x1,x2,…,xm}由上述過程生成,令隨機變量zj∈{1,2,…,k}表示生成樣本xj的高斯混合成分,其取值未知。顯然,zj的先驗概率P(zj=i)對應于αi(i=1,2,…,k)。根據貝葉斯定理,zj的后驗分布對應于式(3)

      pM(zj=i|xj)=

      (3)

      換言之,pM(zj=i|xj)給出了樣本xj由第i個高斯混合成分生成的后驗概率。為方便敘述,將其簡記為γji(i=1,2,…,k)。

      當高斯混合分布(2)已知時,高斯混合聚類將把樣本集D劃分為k個簇C={C1,C2,…,Ck},每個樣本xj的簇標記λj如下確定。

      λj=argmaxi∈{1,2,…,k}γji

      (4)

      因此,從原型聚類的角度來看,高斯混合聚類是采用概率模型(高斯分布)對原型進行刻畫,簇劃分則由原型對應后驗概率確定。

      (5)

      即每個高斯成分的混合系數由樣本屬于該成分的平均后驗概率確定。

      由上述分析即可獲得高斯混合模型的EM算法,即在每步迭代中,先根據當前參數來計算每個樣本屬于每個高斯成分的后驗概率γji(E步),再更新模型參數{αi,μi,∑i|1≤i≤k}(M步)。

      高斯混合聚類算法描述見圖1。算法第1行對高斯混合分布的模型參數進行初始化,然后,在第2~12行基于EM算法對模型參數進行迭代更新。若EM算法的停止條件滿足(例如已達到最大迭代輪數,或似然函數LL(D)增長很少甚至不再增長),則在第14~17行根據高斯混合分布確定簇劃分,在第18行返回最終結果。

      圖1 高斯混合聚類算法圖

      2.2 聚類算法的檢驗

      高斯混合模型采用似然函數作為目標函數,當訓練數據足夠多時,可以不斷提高模型精度,但是以提高模型復雜度為代價的,同時帶來一個機器學習中非常普遍的問題——過擬合。所以,模型選擇問題在模型復雜度與模型對數據集描述能力(即似然函數)之間尋求最佳平衡。人們提出許多信息準則,通過加入模型復雜度的懲罰項來避免過擬合問題,常用的2個模型選擇方法——赤池信息準則(Akaike Information Criterion,AIC)和貝葉斯信息準則(Bayesian Information Criterion,BIC)。

      2.2.1 赤池信息準則

      AIC是衡量統(tǒng)計模型擬合優(yōu)良性的一種標準,由日本統(tǒng)計學家赤池弘次在1974年提出,它建立在熵的概念上,提供了權衡估計模型復雜度和擬合數據優(yōu)良性的標準。

      通常情況下,它是擬合精度和參數未知個數的加權函數,AIC定義為:

      AIC=2k-2ln(L)

      (6)

      其中,k是參數的數量,L是似然函數。當在2個模型之間存在著相當大的差異時,這個差異出現于式(6)的第二項,而當第二項不出現顯著性差異時,第一項起作用,從而參數個數少的模型是好的模型。

      假設模型的誤差服從獨立正態(tài)分布,讓n為觀察數,RSS為剩余平方和,那么AIC變?yōu)椋?/p>

      AIC=2k+nln(RSS/n)

      (7)

      一般而言,當模型復雜度提高(k增大)時,似然函數L也會增大,從而使AIC變小,但是k過大時,似然函數增速減緩,導致AIC增大,模型過于復雜容易造成過擬合現象。目標是選取AIC最小的模型,AIC不僅要提高模型擬合度(極大似然),而且引入了懲罰項,使模型參數盡可能少,有助于降低過擬合的可能性??梢夾IC準則有效且合理地控制了參數的維數k。赤池信息準則的方法是尋找可以最好地解釋數據但包含最少自由參數的模型。

      2.2.2 貝葉斯信息準則

      貝葉斯信息準則與AIC相似,用于模型選擇,1978年由Schwarz提出。訓練模型時,增加參數數量,也就是增加模型復雜度,會增大似然函數,但是也會導致過擬合現象。針對該問題,AIC和BIC均引入了與模型參數個數相關的懲罰項,BIC的懲罰項比AIC的大,考慮了樣本數量,樣本數量過多時,可有效防止模型精度過高造成的模型復雜度過高。

      BIC=kln(n)-2ln(L)

      (8)

      其中,k為模型參數個數,n為樣本數量,L為似然函數。式(8)中第一項為懲罰項,在維數過大且訓練樣本數據相對較少的情況下,可以有效避免出現維度災難現象。

      3 西安市人工填土空間分布研究

      3.1 數據準備

      在研究區(qū)范圍內,鉆孔數據集中包含雜填土的鉆孔共有13 687個,包含素填土的鉆孔共有7 106個。區(qū)內雜填土層底埋深在0.1~24 m,素填土層底埋深在0.1~16.5 m。按照城市地下空間開發(fā)層次將人工填土數據劃分為厚度小于3 m、厚度介于3~10 m、厚度大于3 m 3種分類,分別進行聚類計算及制圖。

      土體分布研究中常常使用土體平面坐標及層厚作為分布計算的屬性。土體平面坐標(x坐標、y坐標)及層厚屬性均為連續(xù)屬性,可以直接參與聚類任務的距離計算。在本次研究中,筆者增加了土體時代成因屬性參與到聚類任務中,以優(yōu)化聚類過程,從而得到更貼切土體分布要求的聚類結果。土體的時代成因屬于離散屬性,在其定義域上是有限個取值。在距離計算時,土體的地質時代屬性為有序屬性,而成因屬性則為無序屬性。因此,直接使用土體地質年代作為其標準化結果(Q4->4;Q3->3;Q2->2;Q1->1),同時使用一組連續(xù)正整數對土體成因進行編碼處理(表1)。

      表1 土體成因編碼表

      3.2 聚類計算

      將準備好的數據導入事先編制好的計算程序中,利用前述的高斯混合模型進行聚類計算。輸入的訓練集數據為一系列5維數組,每單個數據包含了該鉆孔的x坐標、y坐標、層厚、地質時代和成因屬性。

      聚類計算首先要進行試算以確定最優(yōu)的聚類簇數,即先假定聚類簇數n,再分別計算當聚類簇數為n時,赤池信息準則AIC值及貝葉斯信息準則BIC值,比較各聚類簇數對應的AIC和BIC值,選擇合適的聚類簇數為最終計算參數。如圖2所示,筆者首先從聚類簇數n=1時開始試算,雜填土的試算終點為n=280,素填土的試算終點為n=200,試算步長為1。由于聚類簇數過小時,雜填土聚類計算的AIC和BIC值過大,因此,為了曲線美觀便于觀察,將雜填土的計算從聚類簇數n=50開始繪制分析曲線。從雜填土聚類簇數分析曲線(圖2a)中可以看出,雜填土數據的AIC值程持續(xù)下降趨勢,即聚類簇數越大,赤池信息準則模型評價越精確,在n≥140后,曲線下降趨于平緩。而其BIC值有明顯的“底部”,即120≤n≤140時,BIC值更小,表明n在這個區(qū)間范圍內取值時,貝葉斯信息準則模型評價最精確。從素填土聚類簇數分析曲線(圖2b)中可以看出,素填土數據的AIC值程持續(xù)下降趨勢,即聚類簇數越大,赤池信息準則模型評價越精確,在n≥140后,曲線下降趨于平緩。其BIC值與AIC值趨勢相似,n≥120后曲線趨于平緩,表明n在這個區(qū)間范圍內取值時,貝葉斯信息準則模型評價最精確。綜合2種評價準則,取雜填土和素填土的聚類簇數n=140。

      圖2 人工填土聚類簇數分析曲線圖

      3.3 分布特征

      研究區(qū)人工填土分布廣泛,厚度多在3~10 m,局部地區(qū)最大厚度可達十幾米,土層產狀和厚度在平面上變化迅速,性質較為復雜,主要可分為雜填土和素填土2類。雜填土顏色多且雜,結構疏松,物質組成是以各個時期的建筑垃圾為主,土的均勻性極差,工程建設中不能直接選作天然地基的持力層。研究區(qū)內雜填土廣泛分布,埋深多在3 m以內,部分地區(qū)埋深可達3~10 m,極少數區(qū)域雜填土層底深度達到10 m以上。研究區(qū)內素填土與雜填土相似,均廣泛分布于城區(qū)各處,埋深多在3 m以內,部分地區(qū)埋深可達3~10 m,極少數區(qū)域素填土層底深度達到10 m以上(圖3)。

      圖3 西安市人工填土空間分布圖

      4 結論

      (1)高斯混合模型采用似然函數作為目標函數,當訓練數據足夠多時,可以不斷提高模型精度,能夠準確而快速的表達土體的分布特征,但需要借助赤池信息準則和貝葉斯信息準則來避免出現模型過擬合的問題。

      (2)赤池信息準則(AIC)及貝葉斯信息準則(BIC)檢驗試算結果表明,在聚類簇數n=140時,高斯混合聚類模型能更為準確的評價西安市人工填土的空間分布狀態(tài)。

      (3)西安市主城區(qū)內雜填土廣泛分布,埋深多在3 m以內,部分地區(qū)埋深可達3~10 m,極少數區(qū)域雜填土層底深度達到10 m以上,主要分布于主城區(qū)大部分區(qū)域,浐灞河沿線、西繞城、南繞城也有零星分布。

      (4)西安市主城區(qū)內素填土廣泛分布于城區(qū)各處,埋深多在3 m以內,部分地區(qū)埋深可達3~10 m,極少數區(qū)域素填土層底深度達到10 m以上。浐灞河三角、浐河沿線、西繞城沿線、魚化寨區(qū)域有成片分布。

      猜你喜歡
      西安市高斯準則
      小高斯的大發(fā)現
      親子創(chuàng)意美工展
      具非線性中立項的二階延遲微分方程的Philos型準則
      西安市第四醫(yī)院
      天才數學家——高斯
      123的幾種說法
      基于CA-Markov模型的西安市熱環(huán)境模擬研究
      基于Canny振蕩抑制準則的改進匹配濾波器
      一圖讀懂《中國共產黨廉潔自律準則》
      有限域上高斯正規(guī)基的一個注記
      汽车| 桑植县| 陕西省| 尚志市| 洛浦县| 屏东市| 乐亭县| 庆阳市| 正蓝旗| 登封市| 白玉县| 杂多县| 玉树县| 石柱| 乌拉特后旗| 普宁市| 德江县| 许昌县| 恭城| 轮台县| 深水埗区| 朝阳市| 阳高县| 乌恰县| 洛南县| 依兰县| 襄汾县| 中阳县| 象山县| 嘉兴市| 麻江县| 凉城县| 丰城市| 合川市| 和田市| 汶上县| 南溪县| 古田县| 滨海县| 内丘县| 河北区|