• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于改進XGBoost的地震多屬性地質構造識別方法

      2023-11-06 12:04:40楊楚龍王懷秀劉最亮
      科學技術與工程 2023年29期
      關鍵詞:分類器標簽樣本

      楊楚龍, 王懷秀*, 劉最亮

      (1.北京建筑大學電氣與信息工程學院, 北京 102616; 2.華陽新材料科技集團有限公司, 陽泉 045000)

      煤炭在現在以及將來很長一段時間仍為中國的最主要能源來源,是中國賴以生存和發(fā)展的物質基礎[1]。進入21世紀以來,大型化和向深處掘進成為煤礦的發(fā)展趨勢,許多煤礦的地質條件處于不穩(wěn)定狀態(tài),而煤礦的地質構造會引起礦井突水、瓦斯爆炸、塌方等一系列安全問題[2-4]。地質構造的存在嚴重威脅著礦井生產的安全,為此急需解決地質構造位置的預測,為提高煤炭的產量和保證煤礦安全提供有力的支持[5]。地震屬性可以用來預測地質構造,而這些地震屬性可以從三維地震勘探成果數據體中提取出來[6-7]。地震數據經過一系列數學變換和處理,從中可以提取出關于地震波的幾何屬性、動力學屬性、運動學屬性和統(tǒng)計學屬性,這些屬性就稱之為地震屬性。地震屬性經提取后對其進行分析利用,最后用來預測[8]。礦井中的地質情況十分復雜,影響地質構造的因素眾多,利用單一的地震屬性往往不能夠準確地識別出構造,因此利用地震多屬性融合技術十分有必要。

      地震屬性的研究早在20世紀90年代就開始了,何隆運[9]于1992年將波形合成追蹤法融合地質屬性,該方法建立了地震信息與地質信息間的對應關系,并利用此對應關系解決了許多復雜的地質問題,取得了良好的地質勘探成果。進入21世紀以來,隨著機器學習和人工智能的蓬勃發(fā)展,地震多屬性融合技術與各種算法的結合更加緊密。金龍等[10]將支持向量機(support vector machine,SVM)應用于地震屬性融合,SVM是一種理論基礎嚴密、魯棒性強的機器學習算法,但是其在解決大數據量樣本以及多分類問題上具有一定的局限性。丁峰等[11]用主成分分析(principal component analysis,PCA)根據主分量對多個地震屬性進行排序,取前3個主分量進行RGB顏色融合,該方法可在一定程度上提高地震屬性分析的效率。但是PCA屬于“有損失”壓縮,會損失一些有用的信息。楊久強等[12]把深度神經網絡應用于地震屬性的融合中,深度神經網絡一般含多個隱藏層,理論上可以模擬任何的復雜函數,對模型的擬合能力十分強大,但是其容易出現過擬合、梯度爆炸的問題。上述研究雖然取得了一定的成果,但是仍然存在著屬性選擇較為單一、不能全面反映地質構造特征的問題。

      在大數據時代,各行各業(yè)都面臨著海量的數據,但是這些數據大部分都存在類別不均衡的問題。面對此類問題,傳統(tǒng)的分類算法會自動地忽略少數類,并把少數類樣本歸類到多數類樣本中以提高分類準確率[13]。例如,在二分類問題中,多數類樣本的比例為98%,少數類樣本的比例為2%,分類器即使把任意樣本都預測為多數類,該分類器的準確率都可以達到98%。該分類器會導致大量的少數類被分為多數類,這種情況在一些特殊應用場所會造成嚴重后果。例如在醫(yī)院的癌癥診斷中,正常病例占大多數,而真正的病例只占少數,醫(yī)生關心的是怎么把這些真正的病例識別出來,在這種情況下把真正病例判斷為正常病例的代價非常大。類似的情況在電信詐騙檢測、煤礦地質構造識別中也很常見。

      在實際礦區(qū)中,構造體只占礦區(qū)的極少數部分,礦區(qū)大部分區(qū)域都為無構造,而目前關于地質構造識別的研究大都沒有考慮這一因素。因此,在不平衡數據的情況下識別構造體具有重要的現實意義。

      為了克服上述問題,現提出一種基于邊界樣本分類算法(boundary sample classification,BSC)的合成少數類過采樣技術(synthetic minority over-sampling technique,SMOTE)算法BSC-SMOTE。BSC-SMOTE算法把處于正負樣本邊界的樣本進行分類,只對“邊界樣本”進行合成,有效地避免正負樣本邊界模糊的問題。再用平衡后的數據集訓練極限梯度提升(extreme gradient boosting,XGBoost)分類器,并使用貝葉斯優(yōu)化(Bayesian optimization,BO)算法對該分類器進行超參數尋優(yōu),最后使用優(yōu)化后的XGBoost分類器對構造體進行識別。

      1 方法原理及其改進

      1.1 SMOTE算法原理及其改進

      合成少數類過采樣技術(SMOTE)[14]是由Chawla等于2002年提出的,該算法的提出主要是為了改進隨機過采樣的弊端。隨機過采樣在合成新的少數類樣本時,只是簡單的對樣本進行復制,這種簡單的隨機復制容易導致算法模型過擬合,不利于模型的泛化能力。而SMOTE算法不是對少數類樣本進行簡單的復制,而是根據一定的規(guī)則合成新的少數類樣本。但是SMOTE在生成新樣本時容易受樣本集分布的影響,容易發(fā)生分布邊緣化的問題,模糊樣本的邊界,如表1所示。

      表1 SMOTE算法Table 1 SMOTE algorithm

      SMOTE過采樣的主要思想是:對樣本集中每一個少數類樣本Xi,計算其到其他所有少數類樣本的歐式距離,然后對這些距離按從小到大的順序進行排序,找出與其最近的K個樣本,最后按照式(1)對該樣本Xi與其K近鄰Xk進行插值處理生成新的少數類樣本Xnew,其中rand(0,1)表示0~1的隨機數。SMOTE算法合成少數類的示意圖如圖1所示。

      圖1 SMOTE示意圖Fig.1 Schematic diagram of SMOTE

      Xnew=Xi+rand(0,1)|Xi-Xk|

      (1)

      SMOTE在生成新樣本時容易受樣本集分布的影響,發(fā)生分布邊緣化的問題。對處于多數類樣本與少數類樣本分界處的少數類樣本,在其選擇K近鄰樣本時,這些鄰居樣本也分布在邊界上,因此插值產生的新樣本也處于邊界上,反復迭代產生的新樣本會模糊邊界。極端情況下,如果有少數類樣本分布于多數類樣本之中,那么由它合成的新樣本也會落在多數類樣本之中。在這種情況下,樣本集雖然得到了平衡,但是無形中給模型的分類增加了難度。

      針對SMOTE算法容易模糊邊界的問題,提出了基于邊界樣本劃分的BSC-SMOTE算法,該算法強化了邊界的界限,使之更有利于算法的分類,如表2所示。該算法的主要思想是:對樣本集中每一個少數類樣本Xi,計算其到其他所有樣本的歐式距離,然后對這些距離按從小到大進行排序,找出與其最近的K個樣本,如果其K個最近鄰中全部為多數類樣本則將此少數類樣本劃分為噪聲樣本,如果其K個最近鄰中有一半以上為多數類則將此少數類樣本劃分為邊界樣本,如果其K個最近鄰中有一半以上為少數類樣本則將此少數類樣本劃分為安全樣本。最后,只對邊界樣本按照式(1)進行插值處理,對安全樣本和噪聲樣本不做處理。BSC-SMOTE算法合成少數類的示意圖如圖2所示。

      表2 BSC-SMOTE算法Table 2 BSC-SMOTE algorithm

      圖2 BSC-SMOTE示意圖Fig.2 Schematic diagram of BSC-SMOTE

      1.2 XGBoost算法

      在解決不平衡數據的分類問題時,通常有兩種解決思路[15],一種是對數據集進行平衡,使得改造后的數據集均衡;另一種思路是對算法層面進行一些改進,例如使用集成學習算法。

      XGBoost的全稱為extreme gradient boosting,可翻譯為極限梯度提升算法,是集成算法的一種。XGBoost是由陳天奇等[16]于2016年所提出的,自XGBoost提出以來,各種機器學習競賽均由XGBoost算法所統(tǒng)治。XGBoost具有運行速度快,同時支持分類和回歸、精度高、擁有正則化、防止過擬合等優(yōu)點。XGBoost是在梯度提升樹(gradient boosting decision tree,GBDT)的基礎上進行改進的,GBDT只使用了一階導數信息,XGBoost在GBDT的基礎上還使用了二階導數信息,并且XGBoost可以自己定義代價函數,其代價函數引入了正則項用于控制模型的復雜度,使XGBoost學習出來的模型更簡單,泛化性能更高。其主要思想為:先訓練一棵樹,得到預測結果,把預測值和真實值的差值記作殘差,用殘差代替真實值。然后在第一棵樹的基礎上訓練第二棵樹,得到第二棵樹的殘差,用殘差代替真實值,以此類推直到第K棵樹,最后把K棵樹的預測值加起來得到最終結果。

      XGBoost是由k個基分類器集成的一個分類器,例如第t次迭代的樹模型是ft(xi),有

      (2)

      (3)

      表3 XGBoost常用超參數Table 3 XGBoost common hyperparameters

      用BSC-SMOTE算法平衡后的數據集訓練XGBoost分類器,得到BSC-SMOTE-XGBoost模型。

      1.3 貝葉斯優(yōu)化算法

      貝葉斯優(yōu)化(BO)是一種全局優(yōu)化算法,具有高效性和魯棒性的優(yōu)點,能夠在非常少的采樣次數下快速找到全局最優(yōu)解,因此被廣泛地運用在超參數優(yōu)化、機器學習模型優(yōu)化、神經網絡結構搜索等領域。貝葉斯優(yōu)化算法的原理是通過貝葉斯公式,將先驗分布和觀測數據結合起來,計算后驗分布,并不斷更新后驗分布,最終找到全局最優(yōu)解[17]。貝葉斯公式為

      (4)

      式(4)中:f為待優(yōu)化的函數;D為已知數據;P(f|D)為已知數據D的情況下,待優(yōu)化函數f的后驗概率;P(D|f)為函數f的似然函數,表示在函數f下,數據D出現的概率;P(f)為先驗概率,表示對函數f的先驗分布的假設;P(D)為歸一化因子,用于將后驗概率歸一化為概率分布。通過最大化后驗概率P(f|D),可以找到最優(yōu)函數f*。在每次迭代中,貝葉斯優(yōu)化算法使用已知的數據D來更新函數f的后驗概率分布,然后根據后驗概率分布選擇下一個函數參數進行評估。這個過程不斷迭代,直到找到最優(yōu)的函數參數。

      用貝葉斯優(yōu)化算法對所得到的BSC-SMOTE-XGBoost模型進行超參數尋優(yōu)得到BO-BSC-SMOTE-XGBoost模型,其中待優(yōu)化函數f為XGBoost的目標函數obj。找到最優(yōu)函數f*就找到了XGBoost的最優(yōu)超參數組合。

      2 地震屬性融合與篩選

      2.1 數據獲取與分析

      地震屬性可以用來解釋與預測地質構造,因此地震屬性被廣泛地運用在煤礦地質構造的識別。以山西新元煤礦三維地震勘探成果數據體為基礎,提取出12種地震屬性。這12種地震屬性分別為:傾角、最小振幅、最大振幅、瞬時相位、瞬時頻率、均方根振幅、方差體、相干體、曲率、主頻、瞬時振幅和平均能量。這12種地震屬性的最大值、最小值和平均值如表4所示??芍?各個屬性之間極差以及平均值差異較大,加上各屬性的量綱不同,如果直接對這些屬性進行融合,各個屬性之間的差異會影響最后數據融合的效果。為了消除各個地震屬性之間的差異,就需要對屬性進行數據標準化處理。采用離差標準化消除各個屬性之間量綱的差異,并把各個屬性通過線性變換映射到[0,1]。離差標準化的轉換公式為

      表4 地震屬性的數據分布情況Table 4 Data distribution of seismic attributes

      (5)

      式(5)中:x為原始屬性的值;min(x)為屬性最小值;max(x)為屬性最大值;x*為標準化后的屬性值。

      以經過標準化處理后的12種地震屬性作為數據集的特征,以山西新元煤礦有限公司前方實際揭露的地質構造作為數據集的標簽,由此構成數據集的特征和標簽。數據集的標簽為3類:無構造(標簽記為0)、陷落柱(標簽記為1)、斷層(標簽記為2)。其中斷層破壞了煤巖體內部應力場的初始平衡狀態(tài),使煤層發(fā)生滑動位移,大規(guī)模的斷層會造成煤礦停產和工作面搬家,甚至會造成透水、瓦斯突水等安全問題[18]。陷落柱會影響煤層分布的連續(xù)性及穩(wěn)定性,同時陷落柱會對工作面的布置和推進產生巨大影響,導致工作面的開采效率大幅降低[19]。通過對礦方提供的數據進行分析,發(fā)現已揭露的礦區(qū)中,無構造區(qū)域占絕大多數,而斷層和陷落柱只占一少部分。新元煤礦已揭露礦區(qū)數據分布情況如表5所示。

      表5 已揭露礦區(qū)數據分布Table 5 Data distribution of exposed mining areas

      由表5可知東翼勘探區(qū)無構造標簽數最多,數據的不平衡程度最高,且斷層和陷落柱較為發(fā)育,具有一定的典型性,故選取東翼勘探區(qū)作為研究區(qū)域。

      2.2 地震屬性優(yōu)選

      在選擇特征時,如果特征選擇偏少,模型學習不到足夠的信息,會影響模型的效果。如果特征選擇過多,其中可能存在著噪聲,也不利于模型的學習。特征重要性是用來描述特征對于標簽的重要性,特征重要性越大表明特征對于標簽的貢獻越大,反之特征對于標簽的貢獻越小?;バ畔⒎ㄊ且环N用來衡量特征與標簽相關性的過濾方法,互信息法既可以用于回歸也可以用于分類,它的返回值在0~1,返回0證明特征與標簽不相關,返回1證明特征與標簽完全相關?;バ畔⒌挠嬎愎綖?/p>

      (6)

      式(6)中:X和Y為兩個隨機變量;x為隨機變量X可能取的值;y為隨機變量Y可能取的值;X和Y的邊緣分布分別為p(x)與p(y),聯(lián)合概率分布為p(x,y)。利用互信息法計算特征與標簽之間的關系如圖3所示。

      圖3 特征相關性Fig.3 Feature correlation

      如圖3所示,所有的特征對于標簽的相關性都大于0,證明所有的特征都與標簽相關,其中瞬時振幅與標簽的相關性最大為0.141。但曲率、均方根振幅等特征與標簽的相關性比較低,為了找出真正對算法模型有效的特征,以特征相關性為變量畫出學習曲線。首先以0~0.141為特征相關性的范圍畫出學習曲線,如圖4所示,可以看出,當特征相關性閾值設為0.10左右時,分類算法的準確度可以達到最高。

      圖4 大范圍學習曲線Fig.4 Large scale learning curve

      進一步縮小閾值范圍,以0.09~0.11為范圍畫出學習曲線如圖5所示。

      圖5 小范圍學習曲線Fig.5 Small range learning curve

      從圖5可以看出,當特征相關性為0.102 5時,算法準確率達到最高,所以設置特征相關性閾值為0.102 5,即只保留相關性大于等于0.102 5的特征,小于0.102 5的特征全部舍去。通過屬性篩選,最后只保留了瞬時振幅、平均能量、最小振幅、主頻、瞬時相位和最大振幅這6個特征。

      3 實驗驗證與分析

      3.1 評價指標

      通常情況下,分類器性能的好壞可以使用準確率(accuracy)作為評價指標,但是在數據集不平衡的情況下,單純比較分類器準確率的高低沒有太大的意義。因為準確率把多數類分類錯誤的代價和少數類分類錯誤的代價沒有區(qū)分開,顯然把少數類分類錯誤的代價比把多數類分類錯誤的代價要大。此時可以使用精確率(precision)、F1(F1score)和召回率(recall)這些更加科學的指標來評價模型,這些指標都是建立在混淆矩陣的基礎上,混淆矩陣如表6所示。

      表6 混淆矩陣Table 6 Confusion matrix

      精確率的定義是所有預測為正類的樣本中真正是正類的比例,其計算公式為

      (7)

      召回率的定義是所有正確預測為正的樣本占所有實際為正的比例,其計算公式為

      (8)

      F1同時兼顧了精確率和召回率,是兩者的調和平均值,F1的值越大表示分類器越有效,其計算公式為

      (9)

      3.2 模型構建

      首先把東翼勘探區(qū)數據集按照7∶3分成訓練集和測試集,對訓練集運用BSC-SMOTE算法進行平衡,然后用平衡后的訓練集訓練XGBoost,再用貝葉斯優(yōu)化算法對XGBoost進行超參數尋優(yōu),最終形成了BO-BSC-SMOTE-XGBoost模型。貝葉斯優(yōu)化算法尋優(yōu)的過程和模型訓練過程如圖6和圖7所示。

      圖6 貝葉斯優(yōu)化過程Fig.6 Bayesian optimization process

      圖7 模型訓練過程Fig.7 Model training process

      如圖6所示,當迭代次數為30次時,模型取得了最小誤差值,即XGBoost的目標函數obj取得最小值,此時模型對應的超參數為最優(yōu)超參數組合,并且如圖7所示此時模型的準確率最高,最優(yōu)參數組合如表7所示。

      表7 最優(yōu)超參數組合Table 7 Optimal hyperparametric combination

      將改進后的XGBoost算法與KNN、隨機森林,SVM以及未改進的XGBoost算法進行對比,對比結果如表8所示。

      表8 算法對比(東翼)Table 8 Algorithm comparison (Dongyi)

      通過實驗對比發(fā)現,提出的改進XGBoost算法在精確率、召回率、F1均有明顯的提升,改進XGBoost算法模型的預測精確度為0.95,比未改進的XGBoost算法提高了0.16,比KNN、隨機森林和SVM等傳統(tǒng)算法提高了0.15以上。把算法模型獲取的模型參數應用于東翼勘探區(qū),得到東翼勘探區(qū)構造預測結果,并把預測結果經軟件可視化得到如圖8所示的預測構造圖。經過與東翼實際揭露構造(圖9)對比,可以發(fā)現預測構造的數量與實際構造的數量基本相同,且預測構造的坐標與實際構造的坐標吻合,說明本文算法模型能夠克服類別不平衡的影響,較為精確地識別出地質構造。

      淺藍色區(qū)域為開采的范圍;紅色區(qū)域為陷落柱;深藍色區(qū)域為斷層

      棕色線條為開采的巷道;紅色線條圍成的區(qū)域為陷落柱;藍色線條圍成的區(qū)域為斷層

      4 結論

      為研究不平衡數據條件下的地質構造體識別的問題,通過理論分析與實例驗證。得出以下結論。

      (1)煤礦的地質構造體(斷層,陷落柱)是造成煤炭減產,煤礦事故頻發(fā)的因素之一,預測煤礦的地質構造體具有重要的現實意義。通過對三維地震勘探成果數據體的地震屬性進行融合分析后可以用來預測構造體。

      (2)在眾多地震屬性中,不是所有的地震屬性都對算法模型的構建有用,篩選出與標簽相關的屬性能夠提高模型的準確率和效率。

      (3)實際的應用中,構造體的數量只占勘探區(qū)的極少部分,這種分布的不均衡會直接影響算法模型的分類性能,可以通過改善這種分布的不均衡來提高模型的分類性能。

      (4)XGBoost具有運行速度快,同時支持分類和回歸、精度高、擁有正則化、防止過擬合等特點。貝葉斯優(yōu)化算法考慮之前的參數信息,不斷地更新先驗,能夠又快又準地找到XGBoost的最佳超參數組合。

      猜你喜歡
      分類器標簽樣本
      用樣本估計總體復習點撥
      無懼標簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      推動醫(yī)改的“直銷樣本”
      不害怕撕掉標簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      隨機微分方程的樣本Lyapunov二次型估計
      加權空-譜與最近鄰分類器相結合的高光譜圖像分類
      結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      標簽化傷害了誰
      村企共贏的樣本
      剑川县| 桑植县| 密云县| 梨树县| 襄汾县| 团风县| 临邑县| 宜宾县| 桃园县| 天台县| 阿坝| 屯门区| 革吉县| 沁水县| 时尚| 临猗县| 栾城县| 屯门区| 武强县| 鲜城| 林甸县| 盐边县| 和龙市| 塔城市| 许昌县| 曲周县| 拉孜县| 文山县| 固镇县| 清原| 樟树市| 湖州市| 大关县| 鄱阳县| 牟定县| 阿鲁科尔沁旗| 深水埗区| 景宁| 霍州市| 攀枝花市| 大安市|