秦耀祖,吳偉成,謝麗鳳,歐鵬輝,黃小嵐
(1.東華理工大學 江西省數(shù)字國土重點實驗室,江西 南昌 330013;2.東華理工大學 地球科學學院,江西 南昌 330013)
隨著地質勘查技術的發(fā)展和數(shù)據(jù)采集手段的更新,人們在礦產(chǎn)資源勘查開發(fā)過程中獲取的地質信息量越來越豐富。通過地理空間數(shù)據(jù)挖掘,提取與地質找礦相關的多源地質空間信息,并揭示其與礦體之間的空間相關性,是開展地質找礦工作的一個重要前提(Agterberg et al.,1999;Yousefi et al.,2016;Qin et al.,2018)。這些多源空間信息可以分成兩類:一類是與礦體形成及分布具有成因聯(lián)系的地質體要素,如地層、巖體等地質實體和斷層、褶皺等構造要素;另一類是有利于找礦的勘探數(shù)據(jù)和研究成果,包括地球物理、化學和遙感等探測數(shù)據(jù),溫度、應變和元素含量等場數(shù)據(jù)。從數(shù)據(jù)特征方面來看,包含這些信息的數(shù)據(jù)雖然很難滿足狹義大數(shù)據(jù)的5V特征(Variety、Volume、Value、Veracity和Velocity),但其符合重全體不重抽樣、重效率不重精確和重關聯(lián)不重因果三個廣義大數(shù)據(jù)的技術取向(張旗等,2017)。因此可將其歸為地質大數(shù)據(jù),可以利用大數(shù)據(jù)挖掘思維開展空間信息挖掘和資源預測評價(周永章等,2017,2018)。
在不同研究程度和信息結構的工作區(qū),對于地質大數(shù)據(jù)的挖掘處理、空間相關性的定量分析以及礦產(chǎn)資源的預測評價,一般可通過知識驅動、數(shù)據(jù)驅動和混合驅動中一種或多種數(shù)學地質方法來實現(xiàn)(Yousefi et al.,2017)。如利用超平面進行數(shù)據(jù)分割分析的支持向量機(SVM,Boser et al.,1992),在地理空間相關性分析和成礦潛力圖繪制中得到了廣泛的應用(Smirnoff et al.,2008;Zuo et al., 2011;季斌等,2015);由多棵決策樹構建而成的隨機森林(RF,Breiman,2001),最近幾年來逐漸應用于地質制圖和成礦預測,并且在與多種機器學習算法應用的比較中表現(xiàn)出了一定的優(yōu)勢(Cracknell et al.,2014;Carranza et al.,2015;Wu et al.,2018;Sun et al.,2019)。這類方法通過對地質空間信息的樣本數(shù)據(jù)集(每個樣本由含礦標簽及相應的特征變量屬性構成)進行訓練和學習,構建針對礦化是否發(fā)生的非線性高性能分類器,并將其應用于研究區(qū)的預測數(shù)據(jù)集,實現(xiàn)成礦概率定量化估算和成礦潛力精確制圖。
湖南省安化縣岳溪礦田位于雪峰弧形構造帶中段之金銻鎢多金屬成礦帶上,與其西南方向的渣滓溪、羊皮帽等銻(金)礦田一樣,均具有較好的找礦前景(張建新,1993)。20世紀初,在該礦田的同心銻礦床就有民采活動,建國后逐步形成了具有一定規(guī)模的開采礦山,現(xiàn)已成為礦田中最大的生產(chǎn)礦山。截至目前,雖然先后有湖南地礦418隊、414隊及湖南有色地勘局二總隊等多個勘探隊伍對其開展了一定程度的地質調查和礦體勘查工作,并從地質特征和礦床成因方面定性地做了一些探討(張建新,1993;劉光召等,2014)。但地質找礦工作未能取得突破性進展。為此,在對同心銻礦床主要地質體進行三維模擬和空間分析的基礎上(秦耀祖等,2019),通過集成岳溪礦田的遙感礦化蝕變、構造緩沖區(qū)和地球化探數(shù)據(jù)等多個地質找礦因子,構建基于機器學習算法的分類預測模型,旨在開展基于數(shù)據(jù)驅動的定量找礦預測工作。
圖1 同心銻礦及其周邊區(qū)域地質簡圖(據(jù)劉光召等,2014修改)Fig.1 Regional geological sketch map of the Tongxin Sb deposit and its surrounding areas 1.二疊系;2.石炭系;3.泥盆系;4.奧陶系;5.寒武系;6.震旦系;7.板溪群五強溪組;8.板溪群馬底驛組;9.斷裂;10.銻礦床(點)
1.2.1 出露地層
礦田內出露的地層有板溪群五強溪組(PtBnw)、震旦系下統(tǒng)江口組(Z1j)、震旦系下統(tǒng)洪江組(Z1h)、震旦系上統(tǒng)金家洞組(Z2j)、泥盆系中統(tǒng)跳馬澗組(D2t)、泥盆系中統(tǒng)棋子橋組 (D2q)以及石炭系中統(tǒng)黃龍組(C2h,如圖2所示)。其中板溪群五強溪組沉積韻律特征明顯,下段以灰綠色石英砂巖、砂質板巖及板巖為主,是主要含礦地層;中段為一套白色、灰白色的巨厚層石英巖、厚層變質石英砂巖,并夾有砂質板巖和粉砂質板巖,常見有浸染狀或細脈狀銻礦化。
圖2 岳溪礦田地質圖(據(jù)劉光召等,2014修改)Fig.2 Geological map of the Yuexi orefield1.石炭系中統(tǒng)黃龍組淺灰色白云巖,底部紫紅色砂巖等;2.泥盆系中統(tǒng)棋子橋組淺灰色生物碎屑灰?guī)r,白云質灰?guī)r;3.泥盆系中統(tǒng)跳馬澗組淺紫紅色陸源碎屑巖系;4.震旦系上統(tǒng)金家洞組淺灰色冰磧礫巖;5.震旦系下統(tǒng)洪江組黑色炭質板狀頁巖;6.震旦系下統(tǒng)江口組灰綠色紋帶板巖;7.板溪群五強溪組中段灰白色巨厚層石英砂巖;8.板溪群五強溪組下段灰綠色石英砂巖夾板巖;9.同心銻礦礦區(qū)界限;10.次級破碎帶;11.斷層;12.河流;13.礦體或礦化區(qū)
1.2.2 主要成礦構造
礦田內與成礦有關的構造主要為貫穿礦田的岳溪深大斷裂(F1),其為成礦流體的運移提供了通道。F1為NE—SW走向的逆斷層,地表出露寬度約20 m,其SW盤(即上升盤)地層被剝蝕至板溪群五強溪組下段(劉光召等,2014)。F1在上部(標高-400 m以上)陡傾斜,下部變緩,且在上盤面出現(xiàn)一個凹糟。在同心銻礦床及其外圍,F(xiàn)1的次級破碎帶群(如1#至8#破碎帶)是主要的導礦和賦礦構造。這些次級斷裂間距小,傾角大,NE部收斂于F1,SW逐漸散開,呈掃帚狀分布,整體呈陡傾斜,在深部依次交匯至F1。
1.2.3 礦體產(chǎn)出特征
礦田內已發(fā)現(xiàn)的礦體主要以團塊狀、細脈狀及浸染狀產(chǎn)出于F1的次級破碎帶群及其附近。破碎帶內的礦體主要呈浸染狀或細脈狀,陡傾斜。在破碎帶轉折處或相鄰破碎帶之間,常有似層狀礦體產(chǎn)出,傾向較緩,延伸30 m左右,走向方向與破碎帶相近,延伸長度40~100 m。其中心位置礦石以高品位的團塊狀為主,邊緣位置呈細脈浸染狀或網(wǎng)脈狀。
礦體的形成是一個極其復雜的非線性過程。對于礦體定位和資源評價,需要考慮到研究區(qū)的礦床地質背景、地質勘探程度以及前期的研究成果和認知。本次研究是在地理信息系統(tǒng)(GIS)平臺上,選用合適的方法和技術,對與成礦及賦礦相關的地質信息進行挖掘、集成和分析,建立地質數(shù)據(jù)庫,進而構建數(shù)學地質模型,開展空間相關性分析、成礦預測及資源評價工作(圖3)。
圖3 找礦預測模型的構建方法和流程Fig.3 Methods and procedure of mineral prospectivity modeling
2.1.1 概念
隨機森林算法通過使用計算機對樣本進行訓練并學習,構建一系列的分類回歸決策樹(CART):h(x,θk),并通過某種策略把這些決策樹進行整合,組成一個樹型分類器{h(x,θk),k=1,2,…,n}的集合,進而獲得更好的學習效果。其中θk作為獨立分布的隨機向量,決定了每棵樹的生長;x為分類器的輸入向量(Breiman,2001)。隨機森林在決策樹的基礎上,引入了引導組合法(Bagging)和隨機子空間(Random subspace)兩個過程,從而使每棵分類樹具有不同的分類能力,從而減少了決策樹因生長過程的不穩(wěn)定性所帶來的差異, 從而改善了預測精度。
CART是一種典型的二叉決策樹。決策樹是一種{h:x-y}形式的樹型結構預測器。通過某種策略,從根節(jié)點開始,對觀測實例x的一個或多個屬性進行測試比較,最終將其屬性標簽預測至葉子節(jié)點(Swain et al.,1977)。CART利用樹的結構將數(shù)據(jù)記錄分成三類節(jié)點:根節(jié)點、中間節(jié)點和葉節(jié)點。對一個多維特征空間,在根節(jié)點和中間節(jié)點尋找最優(yōu)特征(維)并對該特征的取值進行二叉樹分裂。當待預測結果是離散型數(shù)據(jù)時,CART采用Gini指數(shù)作為節(jié)點分裂依據(jù)(蔣艷凰,2009),生成分類決策樹。如果是連續(xù)型數(shù)據(jù)時,則通常采用樣本的最小化誤差平方和(SSE)作為節(jié)點分裂的依據(jù),生成回歸決策樹。
2.1.2 構建過程
在數(shù)據(jù)集D中,帶有標簽(目標變量和特征變量)的樣本總數(shù)為S個。構建隨機森林的方法途徑如下:
(1)Bagging法構建決策樹樣本集。采用Bootstrap采樣法(隨機有放回抽樣)從樣本集DS中選出n(約為70%)個訓練樣本,作為訓練集DT(剩余的30%稱作袋外數(shù)據(jù),可作為測試集DV用來無偏估計模型誤差),用來訓練一棵決策樹。
(3)按照步驟2的分裂過程,采用Bagging法,構建Ntree棵不需要剪枝的決策樹(弱學習器)(方匡南等,2011)。
(4)將構建的多棵決策樹對測試集進行測試,根據(jù)所有樹分類結果的多數(shù)投票法(分類問題)或算術平均法(回歸問題)構建隨機森林模型(強學習器),應用于預測集Dp(即數(shù)據(jù)集D)進行分類預測。
2.1.3 特征變量重要性評估
在基于R環(huán)境的分析平臺(https://www.r-project.org)上,可用基尼系數(shù)下降平均幅度(MDG)和模型準確度下降平均幅度(MDA)來評估隨機森林模型的特征變量重要性。MDG表示每個特征變量在每棵決策樹節(jié)點上對Gini指數(shù)平均減少量所做的貢獻,即每個變量對樹節(jié)點上觀測值異質性的影響;MDA表示將變量隨機化后對模型準確性降低程度的影響。這兩個指標值越大,表示相應變量的重要性越大(李欣海,2013)。
2.2.1 概念
支持向量機是一種二分類模型算法,其核心思想是使用核函數(shù)為高維度原始樣本(輸入空間觀測值)的映像構造一個最優(yōu)超平面,通過空間變換,實現(xiàn)分離重排和線性可分。這個超平面就是最大可能的分類安全邊際,最接近這個邊際的觀測值就是支持向量。對于線性可分的數(shù)據(jù),支持向量機可通過學習得到分離超平面及相應的分類決策函數(shù);當為線性不可分時,則對松弛變量引入調優(yōu)參數(shù),使其滿足新的約束條件。對于線性支持向量機分類器,其公式為:
(1)
式中,(x,xi)是支持向量的內積,即對應向量的乘積之和,αi為該內積的最優(yōu)參數(shù),β0為域值。
對于非線性問題,需進行低維到高維的空間映射變換,實現(xiàn)線性可分。由于變換后維數(shù)增加導致內積計算量增大,故引入核函數(shù)(周永章等,2018),使其不用將觀測值轉換到高維空間,就可以計算其在高維空間中的內積。用xi和xj代表向量,將核函數(shù)(K)、調優(yōu)參數(shù)(γ,用于非線性分類器) 和違反約束時的成本函數(shù)(記為c) 作為關鍵參數(shù)。
線性核函數(shù):
K(xi,xj)=xi·xj
(2)
Sigmod核函數(shù):
K(xi,xj)=tanh(γxi·xj+c)
(3)
多項式核函數(shù):
K(xi,xj)=(γxi·xj+c)d(d≥1)
(4)
徑向基核函數(shù):
K(xi,xj)=exp(-γ|xi-xj|2)
(5)
2.2.2 過程構建
支持向量機數(shù)據(jù)集的劃分(包括DT、DV和DP),同隨機森林一樣。構建支持向量機模型,可先從線性分類器開始,再轉入非線性分類器。對于線性分類器來說,只需要選取最優(yōu)c值,使誤分率達到最小。對于不同的非線性分類器,需要調試多項式的階(degree)、核系數(shù)(c0)及γ等多個參數(shù),使其誤分率達到最小。其中γ過小,分類器就不能很好地處理決策邊界復雜性問題,但若γ過大,則會出現(xiàn)過擬合。將構建的分類器,應用于驗證集進行性能測試,選取最合理的參數(shù),構建分類預測模型。
數(shù)據(jù)結構的復雜性和模型構建的隨機性,都影響著所構建模型的擬合效果。多使用一個特征,在減少SSE的同時,會相應增加R的平方。對于模型的擬合度和可解釋性,應采用多種方式相結合去評估。
隨機森林和支持向量機,均可通過分析混淆矩陣來評估其分類預測性能。混淆矩陣是一個誤差矩陣(圖4),它可對分類結果進行觀測類和預測類的交叉可視化描述(Loomis,1982)。在混淆矩陣中,真陽性(TP)和真陰性(TN)表示預測分類判斷正確,假陽性(FP)和假陰性(FN)則表示預測分類判斷錯誤(Marom et al.,2010)。
圖4 二分類的混淆矩陣Fig.4 Binary confusion matrix
通過混淆矩陣,可以計算出下列指標:
靈敏度(TPR):
(6)
特異度(TNR):
(7)
準確率(A):
(8)
誤分率(CE):
(9)
其中TPR和TNR是一個此消彼長的關系。通過設定一系列預測結果閾值,可得到一系列相應的TPR和TNR。以TPR為縱軸,1-TNR為橫軸,可繪制受試者工作特征曲線(ROC,Provost et al., 1997)。ROC曲線下方面積(AUC),即ROC曲線與X、Y軸所圍繞的面積,可用來表征分類器預測精度,其值在0.5和1之間。AUC越接近于1,說明分類器診斷效果越好(Delong et al.,1988)。
Kappa系數(shù)常用來判斷不同模型在預測結果上是否具有一致性,是一種重要的基于混淆矩陣的分類精度評價指標(Eugenio et al.,2004)。Kappa系數(shù)取值區(qū)間為[-1,1],當Kappa>0時,說明該模型分類是有意義的,且分類可信度跟其值大小成正比,Kappa=1,說明判斷結果完全一致;當Kappa=0時,即一致性與偶然性相同,說明該模型的分類判斷具有偶然性;當Kappa<0時,說明該模型分類在實際運用中沒有意義。
預測效率曲線圖(PEC),也是度量模型預測性能的一個重要指標。PEC曲線,其橫軸是預測數(shù)據(jù)集(Dp)的累計百分比,縱軸是事件發(fā)生的累計百分比(Fabbri et al.,2008)。在同樣的數(shù)據(jù)范圍內,預測到已發(fā)生事件比例高的模型,其預測性能就越好。
F1是岳溪礦田主要的控礦因素,已發(fā)現(xiàn)的礦體主要賦存在F1以南板溪群五強溪組的砂巖中。開展的地質調查與資源勘查工作也集中在該地段內。因此,本次工作將礦田內F1斷裂以南作為研究區(qū),其范圍及地表高程模型如圖5所示??紤]到研究區(qū)范圍大小和所獲取數(shù)據(jù)的密度結構,利用特定尺寸(20 m×20 m),對研究區(qū)進行網(wǎng)格劃分。每個網(wǎng)格將包含目標變量(礦化發(fā)生與否)及其相應的特征變量(地質找礦因子)屬性,將包含礦化的網(wǎng)格選定為正樣本,隨機選定同等數(shù)量不包含礦化發(fā)生的網(wǎng)格作為負樣本,共同構成樣本集。
圖5 岳溪礦田的數(shù)字地形模型Fig.5 Digital terrain model of the Yuexi orefield
3.2.1 化探數(shù)據(jù)
該礦田所實施的化探工程網(wǎng)度為20 m×100 m,分析了地表Sb、As、Hg、Ni、Pb、W、Zn、Cu、Ag和Au等10種元素的含量(圖6)。本次工作在剔除了民采、水流沖刷等干擾因素異常值的基礎上,對各個元素的含量進行統(tǒng)計分析,計算其變異函數(shù),得到變程、塊金效應及基臺等參數(shù),然后根據(jù)相關地質要素的產(chǎn)狀,通過ArcGIS軟件開展了基于球狀模型的克里金(Krige,1951)插值處理(搜索半徑為150 m),以保證研究區(qū)每個網(wǎng)格單元里均有數(shù)據(jù)。
圖6 岳溪礦田化探元素含量圖示Fig.6 Representation of element content from geochemical exploration in the Yuexi orefield
3.2.2 遙感礦化蝕變信息
從地理空間數(shù)據(jù)云(www.gscloud.cn)下載的Landsat8-OLI遙感影像數(shù)據(jù),包含了地表(或近地表)物體豐富的空間信息。根據(jù)遙感技術工作原理和地質異常成礦理論得知,與成礦預測有關的地質信息(成礦、控礦因子和找礦指示標志等)會在遙感影像上表現(xiàn)為“異?!保徊煌牡V化蝕變信息具有不同的反射、輻射電磁波特性,在遙感影像上表現(xiàn)為不同的反射波譜曲線(吳志春等,2010;秦耀祖,2011;趙志芳等,2014)。硅化、黃鐵礦化、絹云母化、白云石化和綠泥石化等圍巖蝕變信息,或多或少會以鐵染和羥基蝕變的形式在相應的OLI影像波段上顯示出反射和吸收的特征現(xiàn)象:鐵染異常在波段Band 2和Band 5上具有明顯的吸收谷,在Band 4上反射率較高;羥基異常在Band 7上有較強的光譜吸收帶,在Band 6反射率較高(馬威等,2016);通過對不同波段組合進行主成分分析(Byrne,1980),可實現(xiàn)羥基及鐵染蝕變信息提取。
由于岳溪礦田位于氣候濕潤的湘中西地區(qū),植被覆蓋率高,因此在ENVI(https://www. harrisgeospatial.com/Software-Technology/ENVI)平臺上,通過計算大氣阻力植被指數(shù)(Kaufman et al.,1992),選取適當分割閾值,對影像數(shù)據(jù)進行掩膜處理(馬建文等,1994),以減少植被信息的干擾。本次工作分別選取B2、B4、B5和B6四個波段及B2、B5、B6和B7四個波段分別進行主成分分析,根據(jù)蝕變信息的吸收和反射特性分別將這兩次主成分分析的PC3和PC4主分量,作為鐵染和羥基蝕變信息,并用其PN值表征蝕變強度,如圖7所示。
圖7 鐵染和羥基蝕變信息強度圖示Fig.7 Representation of the ferric-alteration and hydroxyl-alteration information intensity in study area a.鐵染蝕變;b.羥基蝕變
3.2.3 岳溪斷裂緩沖區(qū)
岳溪礦田內礦體的形成和賦存空間,與到F1的距離關系密切。對F1和礦體開展基于距離緩沖區(qū)的空間相關性分析,有利于構建更為合理的找礦預測模型。因此,以F1所處的單元網(wǎng)格為中心,采用歐氏距離算法(李芳玉等,2005)計算研究區(qū)內每一個網(wǎng)格單元到F1的最短距離,構建的F1以南的緩沖區(qū)(即距離場),如圖8所示。
圖8 F1以南的緩沖區(qū)Fig.8 South buffer zone of the F1
4.1.1 數(shù)據(jù)集劃分
在構建基于機器學習算法(如RF和SVM)的分類與預測模型時,經(jīng)過預處理的化探數(shù)據(jù)、遙感蝕變強度和F1緩沖區(qū)等三類地質找礦因子,無需確定閾值劃分異常區(qū),直接選區(qū)作為研究數(shù)據(jù)集D,數(shù)據(jù)結構包含:坐標信息(E和N)、F1緩沖區(qū)(Dist)、鐵染蝕變(Fe-)、羥基蝕變(—OH)、10類化探元素含量數(shù)據(jù)(Sb、As、Hg、Ni、Pb、W、Zn、Cu、Ag和Au)和目標變量(記為Ore)。將礦化發(fā)生的數(shù)據(jù)單元(358)選定為正樣本,礦化未發(fā)生的數(shù)據(jù)單元作為負樣本,其中負樣本最好是通過工程實施確定礦化未發(fā)生的數(shù)據(jù)單元,并且正負樣本數(shù)量應大體一致(同為358個)。在R平臺上,將樣本集DS隨機劃分為訓練集DT(約70%)和測試集DV(約30%)
4.1.2 構建參數(shù)優(yōu)化
依次選取1至13個特征變量,分別構建決策樹,并計算其整體誤差率。當變量個數(shù)為5時,誤差率最小,約為0.032,故將用于判斷樹節(jié)點分裂的Mtry值確定為5(圖9a)。將Ntree值初定為2 000,計算得出所構建的隨機森林模型的袋外誤差率為1.54%;從模型的穩(wěn)定性圖示可以看出(圖9b),模型誤差在Ntree為500以內均處于震蕩狀態(tài);在此基礎上,找出的最優(yōu)樹數(shù)量Ntree為113,重新生成隨機森林模型,其袋外誤差率被改善為0.96%。
圖9 模型構建參數(shù)圖示Fig.9 Diagram of model construction parametersa.模型整體誤差率;b.模型穩(wěn)定性
使用最優(yōu)構建參數(shù),分別構建了線性和非線性(引入Polynomial、Radial和Sigmoid三種核函數(shù))向量機模型。通過分析其性能參數(shù)(表1)得知,基于Radial內核的向量機模型具有最優(yōu)的分類性能,其準確率值為0.987,Kappa系數(shù)為0.973,均為最高。因此,筆者以γ=0.5、C0=0.1,構建了向量機個數(shù)為271的分類模型。
表1 支持向量機模型參數(shù)表Table 1 Construction and performance parameter of the SVM based models
4.1.3 模型性能評價
根據(jù)上述參數(shù)構建的基于隨機森林和支持向量機的分類模型,對訓練集和驗證集進行分類的混淆矩陣如表2所示。隨機森林模型對訓練樣本實現(xiàn)了完全正確的分類,且在驗證集上獲得了高達0.973的準確率和0.950的Kappa系數(shù),說明其分類效果優(yōu)良;支持向量機模型在訓練集和驗證集上均取得了極高的性能指標,而且其在驗證集上的準確率和Kappa系數(shù)均高于隨機森林模型,說明該模型具有良好和穩(wěn)定的分類性能。通過繪制模型在測試集上的ROC曲線(圖10),計算得出兩個模型的AUC值均為0.998。這些參數(shù)一致表明,構建的兩個模型均具有良好的分類性能。
表2 隨機森林和支持向量機模型的混淆矩陣Table 2 Confusion matrix of the constructed RF and SVM based models
圖10 模型在測試集上的ROC曲線Fig.10 ROC curve of the constructed model on the test-seta.隨機森林模型;b.支持向量機模型
4.1.4 變量重要性評估
隨機森林模型中影響礦化發(fā)生的自變量排序如圖11所示,其MDA和MDG值所表現(xiàn)出的地質找礦因子對礦體定位所作的貢獻基本一致。由此可分析得出:F1緩沖區(qū)和化探獲取的As、Sb含量對找礦預測的重要性要遠大于其他因子,與筆者在實際工作中的認知相符。從多光譜遙感影像中提取的鐵染和羥基蝕變信息,與礦體定位的關聯(lián)不大,原因可能有二個,一是該區(qū)植被覆蓋強烈,無法提取真實的礦化蝕變信息,二是大規(guī)模民采導致礦渣廢渣廣泛分布,且經(jīng)水系搬運和沉積,導致提取的蝕變信息成礦指示意義不大。
圖11 隨機森林模型中影響礦化發(fā)生的自變量排序Fig.11 Ranking of variable importance that associated with mineral occurrence by random forest
4.2.1 成礦概率估算
將上述構建的隨機森林和支持向量機模型,分別應用于DP中,對每一個數(shù)據(jù)單元格進行目標變量分類,并估算出正確分類的概率(即預測成礦概率),其中二者的分類精確度均很高,隨機森林模型為0.918,支持向量機模型高達0.954。從基于這兩個預測模型繪制的成礦概率圖(圖12)中可以看出,概率高值區(qū)位于F1大斷裂附近及礦田東南部,已知礦床(體)均位于預測概率高值區(qū)?;陔S機森林模型的預測概率高值區(qū)具有較好的分帶性,而基于支持向量機模型的預測概率高值區(qū)僅位于已知礦床(體)所在區(qū)。由此可見,支持向量機模型雖然在訓練集和測試集上表現(xiàn)出優(yōu)良的分類性能,但其用于測試集后,預測功能很弱;通過調整核函數(shù)及構建參數(shù),分類性能有所下降,預測功能也未能得到改善。
圖12 岳溪礦田成礦預測概率圖Fig.12 Metallogenic prediction probability map of Yuexi orefielda.隨機森林模型;b.支持向量機模型
4.2.2 成礦潛力制圖
鑒于上述研究,隨機森林模型的預測概率被選擇用于成礦潛力制圖。按照概率從大到小的順序,對研究區(qū)數(shù)據(jù)單元格進行排列,計算出含礦單元和預測單元的累計百分比,制作預測度曲線圖(圖13a)和預測概率曲線圖(圖13b)。在預測度曲線中,其拐點所對應的預測單元累計百分比為7.69%,包含著98.60%的含礦單元,在概率曲線上確定其所對應的概率為62.83%。由此概率閾值可將研究區(qū)劃分為成礦高、低兩個潛力區(qū)(圖13b)。同時,從這兩條曲線上也可以看出,支持向量機模型除了已知含礦單元外,幾乎沒有預測出潛力含礦單元。
圖13 找礦預測模型的預測度曲線圖(a)和預測概率曲線圖(b)Fig.13 Prediction-rate curve(a) and prediction probability curve(b) of the mineral prospecting models
從成礦潛力圖(圖14)上可以看出,已知礦體基本賦存在所劃分的高潛力區(qū)內;北部高潛力區(qū)靠近F1且走向與F1相近,呈跳躍式分布;南部高潛力區(qū)位于礦田東南部,呈近EW向。
圖14 岳溪礦田成礦潛力圖Fig.14 Mineral prospectivity map of the Yuexi orefield1.石炭系中統(tǒng)黃龍組淺灰色白云巖,底部紫紅色砂巖等;2.泥盆系中統(tǒng)棋子橋組淺灰色生物碎屑灰?guī)r,白云質灰?guī)r;3.泥盆系中統(tǒng)跳馬澗組淺紫紅色陸源碎屑巖系;4.震旦系上統(tǒng)金家洞組淺灰色冰磧礫巖;5.震旦系下統(tǒng)洪江組黑色炭質板狀頁巖;6.震旦系下統(tǒng)江口組灰綠色紋帶板巖;7.板溪群五強溪組中段灰白色巨厚層石英砂巖;8.板溪群五強溪組下段灰綠色石英砂巖夾板巖;9.同心銻礦礦區(qū)界限;10.次級破碎帶;11.斷層;12.河流;13.礦體或礦化區(qū)
由此可見,同心銻礦床深邊部,依然是開展找礦工作的重點所在;同心銻礦床外圍西南部,在3線施工的鉆孔,已揭露到礦體,使該預測得到了驗證;礦田東南部有很多民采老窿,本次工作也做出了高潛力預測。在后續(xù)勘查工作的部署上,可以優(yōu)先考慮將預測高概率區(qū)作為找礦靶區(qū),利用槽探和鉆探工程進行揭露和控制,繼而根據(jù)施工效果,可向其深邊部拓展。
(1)通過優(yōu)化構建參數(shù),基于隨機森林和支持向量機的分類預測模型,在訓練集、驗證集上均表現(xiàn)出了優(yōu)良的分類性能;支持向量機模型由于過度訓練,存在著過擬合現(xiàn)象,即便在預測集上取得了極高的分類精度,但其預測功能欠佳。
(2)在所有的地質找礦因子中,構建的岳溪斷裂以南的距離場、地球化學勘探取得的As、Sb含量,對礦體定位有較高的貢獻;從Landsat8-OLI遙感影像中提取的鐵染和羥基蝕變信息,與礦化發(fā)生的關聯(lián)較弱,說明在該研究區(qū),難以提取真正與礦化相關的蝕變信息。
(3)隨機森林模型在預測集上取得了0.918的分類精度,以預測概率62.8%為閾值劃分高、低潛力區(qū),其中高潛力區(qū)占研究區(qū)的7.69%,包含著98.60%的含礦單元,預測效果優(yōu)良;部分預測高潛力區(qū)已經(jīng)得到了實際工程驗證,因此下一步勘查工作可重點部署在本次研究所預測出的高潛力區(qū)。
致謝:感謝湖南金諾礦業(yè)有限公司和安化縣同心銻業(yè)有限責任公司為本次研究安排實地調研事宜及提供相關材料和數(shù)據(jù)。