王 皓,孫鈞青,曾一凡,尚宏波,王甜甜,喬 偉
(1.煤炭科學(xué)研究總院,北京 100013;2.中煤科工西安研究院(集團(tuán))有限公司,陜西 西安 710077;3.陜西省煤礦水害防治技術(shù)重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710077;4.中國(guó)礦業(yè)大學(xué)(北京) 國(guó)家煤礦水害防治工程技術(shù)研究中心,北京 100083)
黃河流域中段蒙陜接壤區(qū)是我國(guó)重要的煤炭生產(chǎn)基地,在能源保供中具有不可替代的戰(zhàn)略地位[1-2]。區(qū)域內(nèi)煤炭資源高強(qiáng)度開采下采動(dòng)裂隙發(fā)育并溝通上覆多個(gè)含水層,不可避免地引發(fā)頂板水害問題[3-4],因此,煤層頂板水害防治一直是蒙陜接壤區(qū)礦井安全生產(chǎn)亟待解決的難題。快速準(zhǔn)確地判別頂板涌水水源是煤層頂板水害防控的前提[5-6],傳統(tǒng)的礦井水源判別方法主要有水位觀測(cè)法、水化學(xué)法[7]、示蹤法[8]等。
近年來,隨著數(shù)學(xué)理論和計(jì)算機(jī)的發(fā)展,利用水化學(xué)法進(jìn)行水源判別的方法日趨成熟,主要集中在多元統(tǒng)計(jì)法[9]、非線性分析法[10]、模糊數(shù)學(xué)[11]和機(jī)器學(xué)習(xí)[12]等領(lǐng)域。Cui Mengke[13]、曲興玥[14]和Zhang Haitao[15]等分別利用動(dòng)態(tài)權(quán)重、馬氏距離和Fisher 判別法構(gòu)建了礦井涌水水源判別模型。與傳統(tǒng)方法相比,機(jī)器學(xué)習(xí)算法在處理非線性、高維數(shù)據(jù)中更具優(yōu)勢(shì),且具有較強(qiáng)的自適應(yīng)性[16]。韓忠[17]、紀(jì)卓辰[18]等分別將主成分分析法(Principal Component Analysis,PCA)和BP(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)、Logistic 回歸方法相結(jié)合,使得判別更加快速準(zhǔn)確;郝謙等[19]將隨機(jī)森林(Random Forest,RF)判別模型與支持向量機(jī)(Support Vector Machine,SVM)、極限學(xué)習(xí)機(jī)(Extreme Learning Machines,ELM)判別模型進(jìn)行比較,證明了RF 具有更高的預(yù)測(cè)精度和魯棒性。機(jī)器學(xué)習(xí)問題常涉及到尋找全局最優(yōu)解或近似最優(yōu)解,而傳統(tǒng)的單點(diǎn)優(yōu)化方法容易陷入局部最優(yōu)解,因此,常用群體智能優(yōu)化算法對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行優(yōu)化[20]。侯恩科[21]、于小鴿[22]等分別使用自適應(yīng)粒子群算法(Adaptive Particle Swarm Algorithm,APSO)和自適應(yīng)鯨魚算法(Ameliorative Whale Optimization Algorithm,AWOA)對(duì)ELM 神經(jīng)網(wǎng)絡(luò)進(jìn)行了改進(jìn),判別效果都得到了顯著增強(qiáng);黃敏[23]、胡友彪[24]等分別使用混沌麻雀搜索和粒子群算法對(duì)RF 模型進(jìn)行了改進(jìn)。人工魚群算法(Artificial FishSwarms Algorithm,AFSA)作為一種新型的智能仿生算法,具有原理簡(jiǎn)單、搜索能力強(qiáng)等優(yōu)勢(shì),在諸多領(lǐng)域均有著廣泛應(yīng)用[25-26]。Jia Dongyao 等[27]使用AFSA 改進(jìn)RF,提高了細(xì)胞的分類性能;李旭鵬等[28]建立了基于AFSA-RF 的流型識(shí)別模型,其識(shí)別精度與穩(wěn)定性高于未優(yōu)化的RF 模型。
因此,筆者以蒙陜接壤區(qū)的3 個(gè)礦井為研究對(duì)象,將常規(guī)無機(jī)指標(biāo)和總有機(jī)碳(Total Organic Carbon,TOC)、UV254、水樣溶解性有機(jī)質(zhì)(Dissolved Organic Matter,DOM)熒光光譜等有機(jī)指標(biāo)作為判別依據(jù),采用PCA對(duì)數(shù)據(jù)集進(jìn)行特征降維,使用人工魚群算法對(duì)隨機(jī)森林的子樹數(shù)目、樹深和內(nèi)部節(jié)點(diǎn)分裂所需的最小樣本數(shù)進(jìn)行尋優(yōu),通過引入遺傳機(jī)制提高AFSA 的全局搜索能力,建立PCA-AFSA-PF 煤層頂板涌水水源判別模型,以提高模型預(yù)測(cè)性能,以期為煤層頂板涌水水源的準(zhǔn)確判別提供新方法。
研究區(qū)域?yàn)槊申兘尤绤^(qū)從東北至西南走向的3 個(gè)典型礦井:A 礦、B 礦和C 礦(圖1)。研究區(qū)礦井位于鄂爾多斯盆地之次級(jí)構(gòu)造單元陜北斜坡及伊陜單斜區(qū),總體形態(tài)呈向NW 或NWW 微傾的單斜構(gòu)造或近水平地層,無落差較大的斷層和明顯的褶皺構(gòu)造,無巖漿巖活動(dòng)痕跡;巖體結(jié)構(gòu)以整塊或?qū)訝罱Y(jié)構(gòu)為主,飽水砂層影響巖體穩(wěn)定,局部地段易發(fā)生礦山工程地質(zhì)問題。此外,研究區(qū)地處毛烏素沙漠,地表絕大部分被第四系松散沉積物覆蓋,地貌以風(fēng)蝕風(fēng)積沙漠丘陵和沙漠灘地為主,容易接受地表水和大氣降雨補(bǔ)給;總體地勢(shì)北部較高,向南逐漸降低;區(qū)域內(nèi)較大水系有無定河及其支流納林河。
圖1 研究區(qū)位置及地層Fig.1 Location and stratigraphic column of the mines in the Inner Mongolia-Shaanxi border region
研究區(qū)礦井的含煤地層均為侏羅系延安組,地層結(jié)構(gòu)相似(圖1),其主要含(隔)水層自上而下為:第四系孔隙含水層,白堊系洛河組孔隙-裂隙含水層,侏羅系安定組相對(duì)隔水層,侏羅系直羅組和延安組裂隙含水層[29]。第四系孔隙發(fā)育,富水性強(qiáng);白堊系結(jié)構(gòu)疏松且易于接受第四系的補(bǔ)給,富水性相對(duì)較好;直羅組與白堊系之間有安定組相對(duì)隔水層且裂隙不發(fā)育,富水性較弱;延安組裂隙不發(fā)育,且泥質(zhì)含量隨埋深的增加而增加,滲透性逐漸變差。
研究區(qū)礦井在建設(shè)過程中存在煤層及其直接頂板富水的問題,煤礦掘進(jìn)工程遇到一定阻礙;未來回采過程中直接充水水源為頂板砂巖裂隙水,間接充水水源為白堊系砂巖孔隙裂隙水;周邊礦井基建階段主要防治水問題集中在井巷工程接近煤層頂板及煤層過程中涌水量較大,頂板富水性較強(qiáng)等方面,可以預(yù)見,后續(xù)施工過程中會(huì)面臨松散沙層、白堊系志丹群、直羅組砂巖含水層一系列防治水問題。
因此,本文以第四系含水層、白堊系含水層、直羅組含水層和延安組含水層為研究對(duì)象,利用水化學(xué)分析和機(jī)器學(xué)習(xí)等手段,研究不同含水層水樣水質(zhì)之間的差異。
本次共采集研究區(qū)水樣92 組,包含地下水水樣80 組,礦井水水樣12 組。地下水水樣自上而下包括第四系水樣22 組、白堊系水樣11 組、直羅組水樣24 組和延安組水樣23 組;礦井水水樣12 組用于判別模型的驗(yàn)證。使用2.5 L 聚乙烯采樣瓶進(jìn)行水樣的采集,嚴(yán)格執(zhí)行裝水、密封、貼標(biāo)等采樣步驟,采集后及時(shí)進(jìn)行測(cè)定與分析。
參考現(xiàn)行的GB/T 14848-2017《地下水質(zhì)量標(biāo)準(zhǔn)》[30],利用電感耦合等離子體質(zhì)譜儀,對(duì)水樣的常規(guī)指標(biāo)進(jìn)行檢測(cè),選取K++Na+、Ca2+、Mg2+、Cl-、S、HC和TDS 這7 項(xiàng)無機(jī)指標(biāo)進(jìn)行后續(xù)分析。
需要測(cè)定的有機(jī)指標(biāo)為TOC、UV254和DOM 三維熒光數(shù)據(jù)。使用multi N/C 2100 專家型總有機(jī)碳/總氮分析儀進(jìn)行TOC 的檢測(cè);使用Evolution 60 紫外可見光度計(jì)檢測(cè)254 nm 處的紫外吸收值。使用熒光分光光度計(jì)(HITACHI F-7000)進(jìn)行DOM 熒光數(shù)據(jù)的提?。涸O(shè)置儀器掃描速度為1 200 nm/min;激發(fā)波長(zhǎng)(Excitation Wavelength,EX)為200~420 nm,間隔為5 nm;發(fā)射波長(zhǎng)(Emission Wavelength,EM)為240~600 nm,間隔為2 nm;為去除環(huán)境噪聲,使用超純水作為空白,校正水的拉曼散射。
DOM 熒光圖譜包含5 個(gè)區(qū)域,分別表示5 種有機(jī)物類型(圖2),其中,Ⅰ區(qū)代表酪氨酸,Ⅱ區(qū)代表色氨酸,Ⅲ區(qū)代表疏水性有機(jī)酸,Ⅳ代表含色氨酸的類蛋白質(zhì),Ⅴ區(qū)代表海洋性腐植酸[31]。利用平行因子法從所有水樣的熒光數(shù)據(jù)中提取出2 種組分,如圖2 所示,經(jīng)分析:組分1(C1)具有1 個(gè)激發(fā)峰(265 nm)和1 個(gè)發(fā)射峰(400 nm),包含了疏水性有機(jī)酸和類腐植酸,且以后者居多;組分2(C2)具有4 個(gè)激發(fā)峰(225 nm/250 nm/280 nm/295 nm)和1 個(gè)發(fā)射峰(308 nm),包含了酪氨酸和含色氨酸的類蛋白質(zhì)。水樣各指標(biāo)的檢測(cè)結(jié)果及提取的有機(jī)組分濃度見表1。
表1 水樣測(cè)試結(jié)果Table 1 Water samples analysis findings
圖2 DOM 各組分三維熒光圖譜Fig.2 Three-dimensional fluorescence spectra of various components of dissolved organic matter (DOM)
為分析采集水樣的水化學(xué)特性,利用測(cè)試得到的表1 中92 組水樣數(shù)據(jù),分別繪制水化學(xué)Piper 三線圖和水樣各指標(biāo)散點(diǎn)柱狀圖,如圖3、圖4 所示。
圖3 水化學(xué)Piper 三線圖Fig.3 Hydrochemical Piper trilinear diagram
圖4 水樣各指標(biāo)散點(diǎn)柱狀圖Fig.4 Scattered point column for various indicators of water samples
由圖3 可知,第四系水樣中陽離子以Ca2+為主,其次為Mg2+和K++Na+;陰離子以 HC為主,其次為S和Cl-,表現(xiàn)為HCO3-Ca 型水,與大氣降水相似,個(gè)別水樣K++Na+濃度較高,表明井田范圍內(nèi)第四系水的補(bǔ)給和運(yùn)移條件存在不均一性。白堊系含水層水樣以HCO3-Ca·Na 和HCO3-Na·Ca 型水為主,與第四系較為接近,這是由于第四系底部局部發(fā)育離石組隔水層,但其分布不均,結(jié)構(gòu)松散且局部存在天窗,所以白堊系含水層易于接收其上覆含水層補(bǔ)給;同時(shí),白堊系水中Na+濃度略有升高,這是沉積巖的風(fēng)化水解、交代作用、混合作用等綜合作用的結(jié)果。直羅組、延安組和礦井水的水樣均分布于水質(zhì)菱形圖右上部,水化學(xué)類型主要為SO4-Na 和SO4-Na·Ca,以堿及強(qiáng)酸為主,表明因蒸發(fā)濃縮和溶濾作用,造成因補(bǔ)給排泄緩慢,徑流條件差,礦化度較高,水質(zhì)類型復(fù)雜化的現(xiàn)象;這也表明這2 個(gè)含水層與淺層第四系水力聯(lián)系較差,這主要與安定組的隔水作用有關(guān)。綜合來看,不同水樣的水化學(xué)類型受到地質(zhì)條件和水-巖相互作用的共同影響,由于水-巖相互作用是一個(gè)復(fù)雜而漫長(zhǎng)的過程,因此,本研究未考慮水-巖相互作用對(duì)水源判識(shí)的影響,主要以水樣檢測(cè)結(jié)果為數(shù)據(jù)基礎(chǔ),對(duì)水源判別方法進(jìn)行研究。
結(jié)合表1 和圖4 進(jìn)行分析可知,無機(jī)指標(biāo)K++Na+、Ca2+、Mg2+、Cl-、S的濃度和TDS 在白堊系至直羅組增加明顯,在直羅組至延安組增加不明顯,延安組個(gè)別水樣的無機(jī)指標(biāo)濃度甚至低于直羅組;UV254和TOC 總體上隨著含水層埋深的增加而降低,但延安組部分水樣其濃度明顯偏高,這主要是由于該地層含有較多的煤炭,地下水在通過這些含煤地層時(shí),溶解并攜帶了較多的有機(jī)物;C1 的濃度在不同含水層中沒有明顯區(qū)分;第四系水樣中C2 的濃度較高,這是由于第四系埋深較淺,有利于生物質(zhì)的積累與保存以及微生物的生長(zhǎng)。礦井水的各指標(biāo)濃度大小與直羅組水、延安組水相似。
為進(jìn)一步分析水樣中各指標(biāo)的相關(guān)性,利用表1 中前80 組水樣數(shù)據(jù),繪制各指標(biāo)相關(guān)系數(shù)矩陣熱力圖,如圖5 所示。
圖5 相關(guān)系數(shù)矩陣熱力圖Fig.5 Thermodynamic diagram of correlation coefficient matrix
在矩陣熱力圖中,圓圈越大,顏色越接近橙色表示相關(guān)性越強(qiáng)。因此,由圖5 可知,各指標(biāo)之間具有明確的相關(guān)性,其中 S與K++Na+、Ca2+、Mg2+、TDS 具有較強(qiáng)的正相關(guān)性;K++Na+與Ca2+、Mg2+、Cl-、TDS 具有較強(qiáng)的正相關(guān)性;Ca2+、Mg2+與TDS 也具有較強(qiáng)的正相關(guān)性。C2 分別與K++Na+、Ca2+、S、TDS 呈現(xiàn)出了明顯的負(fù)相關(guān)性,這表明數(shù)據(jù)集存在信息冗余,若直接用這11 種指標(biāo)進(jìn)行水源識(shí)別,會(huì)增加判別模型的復(fù)雜度和計(jì)算量,降低最終的判別效率和準(zhǔn)確度。
如前所述,判別指標(biāo)之間較強(qiáng)的相關(guān)性會(huì)增加分析的復(fù)雜程度,因此,本文使用PCA 對(duì)判別指標(biāo)數(shù)據(jù)集進(jìn)行降維。分別記K++Na+、Ca2+、Mg2+、Cl-、S、HC、TDS、UV254、TOC、C1、C2 為X1、X2、X3、X4、X5、X6、X7、X8、X9、X10、X11,選取前80 組地下水水樣作為訓(xùn)練樣本,由此得到一個(gè)80×11 的數(shù)據(jù)矩陣X。對(duì)矩陣X進(jìn)行主成分分析,得到其KMO(Kaiser-Meyer-Olkin)值和Bartlett 檢驗(yàn)結(jié)果[32]。其中,KMO 值為0.770,這表明數(shù)據(jù)中的變量間有足夠的共同變異量。Bartlett 檢驗(yàn)包括近似卡方、自由度和顯著性水平:其中,近似卡方為943.711,表明觀測(cè)到的相關(guān)性與完全隨機(jī)的偏差很大,說明數(shù)據(jù)集中的變量之間存在較強(qiáng)的相關(guān)性;自由度為55,意味著數(shù)據(jù)集中包含了相當(dāng)數(shù)量的變量;顯著性水平為0,這也支持變量之間存在相關(guān)性的結(jié)論,因此,可以認(rèn)為在這個(gè)數(shù)據(jù)集的變量之間存在足夠的相關(guān)性,適合進(jìn)行主成分分析。
圖6 為數(shù)據(jù)集的PCA 碎石圖,由圖可知,隨著成分?jǐn)?shù)的增加,特征值逐漸減小,在第6 個(gè)成分后不再有明顯變化;各指標(biāo)總方差解釋見表2,可以看出前6 個(gè)主成分F1-F6的方差累計(jì)貢獻(xiàn)率達(dá)到了94.393%,包含了原始數(shù)據(jù)集的絕大部分信息,因此,選取主成分個(gè)數(shù)為6,前6 個(gè)主成分的數(shù)學(xué)表達(dá)式如下:
表2 總方差解釋Table 2 Total variance interpretations
圖6 PCA 碎石圖Fig.6 PCA macadam
將矩陣X中的值代入式(1)中,得到一個(gè)大小為80×6 的矩陣F,該矩陣即為降維后的數(shù)據(jù)集,使用該數(shù)據(jù)集進(jìn)行后續(xù)的模型訓(xùn)練。
RF 算法具有較好的魯棒性和非線性建模能力[19],但需要調(diào)節(jié)的參數(shù)較多,傳統(tǒng)的參數(shù)調(diào)優(yōu)過程又較為耗時(shí)且不易找到最佳,會(huì)影響水源判別的準(zhǔn)確率。因此,利用人工魚群算法(Artificial Fish Swarm Algorithm,AFSA)對(duì)RF 的決策樹數(shù)目(n_estimators)、樹深(depth)和內(nèi)部節(jié)點(diǎn)分裂所需的最小樣本數(shù)(n_split)進(jìn)行尋優(yōu)。令每條人工魚的狀態(tài)(當(dāng)前位置)Xi=(n_estimators,depth,n_split),人工魚當(dāng)前位置的食物濃度(適應(yīng)度)Yi=f(X)為K折交叉驗(yàn)證后RF 分類器的平均準(zhǔn)確率[33]。
人工魚群的尋優(yōu)機(jī)制包括覓食、聚群、追尾和隨機(jī)4 種行為[34]。覓食行為基于局部搜索機(jī)制,每條人工魚評(píng)估當(dāng)前位置的適應(yīng)度,并與鄰近位置進(jìn)行比較,若鄰近位置適應(yīng)度更高,則向該方向移動(dòng),否則隨機(jī)選擇新方向進(jìn)行探索。聚群行為模仿魚群中個(gè)體間的互動(dòng),當(dāng)個(gè)體發(fā)現(xiàn)周圍同伴處于更優(yōu)位置時(shí),向鄰近同伴的中心位置移動(dòng)。當(dāng)個(gè)體發(fā)現(xiàn)鄰域內(nèi)存在顯著高適應(yīng)度的同伴時(shí),會(huì)直接向此位置移動(dòng),即執(zhí)行追尾行為。此外,每條魚以一定概率隨機(jī)移動(dòng)(隨機(jī)行為),這在一定程度上提高了魚群的探索能力。為了平衡這些行為對(duì)人工魚個(gè)體移動(dòng)決策的影響,設(shè)置每種行為的權(quán)重均為0.5。
雖然AFSA 具有較強(qiáng)的收斂能力和適應(yīng)性,但在搜索過程中,個(gè)體的移動(dòng)和選擇機(jī)制還是會(huì)導(dǎo)致個(gè)體陷入局部最優(yōu)解或徘徊在搜索空間的某個(gè)區(qū)域。因此,本文在人工魚群算法中引入遺傳機(jī)制,遺傳機(jī)制包括個(gè)體的選擇、交叉和變異3 個(gè)過程[35]。個(gè)體選擇確保了優(yōu)秀個(gè)體的遺傳信息得以保留,交叉和變異通過促進(jìn)遺傳信息的混合重組和引入新的遺傳變異,來增加種群的多樣性。通過這3 個(gè)過程,遺傳機(jī)制既保證了種群向更優(yōu)解進(jìn)化,也有效避免魚群因過度同質(zhì)化而陷入局部最優(yōu)解。
1)選擇操作
選擇操作的目的是根據(jù)適應(yīng)度從當(dāng)前種群中選擇生存能力高的個(gè)體,用以參與下一代的繁殖。
其中,fj(t)為群體中的其他個(gè)體;每個(gè)個(gè)體以概率(t)被選為父代個(gè)體。
2)交叉操作
通過交叉操作來組合不同個(gè)體的優(yōu)點(diǎn),產(chǎn)生新的優(yōu)秀個(gè)體。
其中,δ取值區(qū)間為0~1,本文取0.8。
3)變異操作
變異操作用于增加種群的多樣性,這里采用非對(duì)稱高斯變異[36],通過下式實(shí)現(xiàn):
為了使絕大多數(shù)隨機(jī)數(shù)落入均值加減一個(gè)標(biāo)準(zhǔn)差的范圍內(nèi),設(shè)置高斯變異系數(shù) ε為0.5。
圖7 為改進(jìn)PCA-AFSA-RF 水源判別模型流程圖。首先對(duì)原始的水樣指標(biāo)數(shù)據(jù)進(jìn)行預(yù)處理,該過程分為數(shù)據(jù)標(biāo)準(zhǔn)化和主成分提取兩步。為了使數(shù)據(jù)充分參與模型訓(xùn)練,采用K折(K=1,2,···,K)交叉驗(yàn)證法進(jìn)行數(shù)據(jù)集的劃分,將第K折作為訓(xùn)練集,其余K-1 折作為驗(yàn)證集,如此重復(fù)K次,這種方法無需人為劃分訓(xùn)練集與驗(yàn)證集,還可以避免欠擬合或過擬合的發(fā)生。在隨機(jī)森林模型中,對(duì)訓(xùn)練集的水樣進(jìn)行隨機(jī)采樣,得到多個(gè)訓(xùn)練子集,針對(duì)每個(gè)訓(xùn)練子集,使用基尼指數(shù)(Gini)選擇最佳的決策樹分裂點(diǎn),使用分類回歸樹(Classification and Regression Trees,CART)算法遞歸地將數(shù)據(jù)集分裂成更小的子集來構(gòu)建決策樹,根據(jù)所有決策樹的投票結(jié)果對(duì)驗(yàn)證集的水樣進(jìn)行類別預(yù)測(cè)。利用AFSA 對(duì)RF 的決策樹數(shù)目(n_estimators)、樹深(depth)和內(nèi)部節(jié)點(diǎn)分裂所需的最小樣本數(shù)(n_split)進(jìn)行尋優(yōu):首先對(duì)AFSA 中所有人工魚的位置進(jìn)行初始化;將每條人工魚的位置傳遞至RF 模型,RF 模型將K次交叉驗(yàn)證中驗(yàn)證集水樣的平均判別準(zhǔn)確率作為人工魚的適應(yīng)度返回;AFSA 根據(jù)每條人工魚適應(yīng)度執(zhí)行覓食、聚群、追尾和隨機(jī)4 種行為,進(jìn)行位置和適應(yīng)度的初步更新;根據(jù)適應(yīng)度選出參與繁殖的父代,對(duì)父代個(gè)體進(jìn)行交叉操作,用新的子代個(gè)體代替父代;隨后對(duì)新種群進(jìn)行變異操作,每個(gè)個(gè)體以0.5 的概率參與變異;當(dāng)?shù)螖?shù)t達(dá)到最大值T時(shí),算法終止。整個(gè)過程在PyCharm2021 環(huán)境中使用Python 語言實(shí)現(xiàn)。
圖7 改進(jìn)PCA-AFSA-RF 水源判別模型流程Fig.7 Flow chart of the improved PCA-AFSA-RF water-source discriminant model
使用準(zhǔn)確率(Accuracy,Ac)、精確率(Precision,Pr)、召回率(Recall,Rc)和F-measure 指數(shù)(f1_score,f1)對(duì)模型的性能進(jìn)行評(píng)估,具體含義如下:
由于需要判別的水樣有4 種類別,因此,這里N取4。對(duì)于上述4 個(gè)性能指標(biāo),計(jì)算所有K次迭代的平均值作為模型的輸出。
在利用PCA 對(duì)水化學(xué)數(shù)據(jù)降維后,直接使用RF 模型進(jìn)行學(xué)習(xí),由此構(gòu)建PCA-RF 判別模型,這里對(duì)n_estimators,depth和n_split這3 個(gè)參數(shù)不做限制,為了符合訓(xùn)練集和驗(yàn)證集的劃分原則,取交叉驗(yàn)證的折數(shù)(K)為4 和5,選效果最優(yōu)值。此外,為了與PCA-RF水源判別模型的性能進(jìn)行對(duì)比,本文使用SVM、多層感知機(jī)(Multilayer Perceptron,MLP)和ELM 分別構(gòu)建PCA-SVM、PCA-MLP 和PCA-ELM 水源判別模型:對(duì)PCA-SVM 使用線性核函數(shù),最大迭代次數(shù)為300;PCAMLP 中使用擬牛頓法優(yōu)化器,激活函數(shù)為L(zhǎng)ogistic;PCA-ELM 的中間層神經(jīng)元數(shù)目為5。結(jié)果見表3,可以看出PCA-RF 判別模型的Ac、Pr、Rc和f1分別為83.00%、83.17%、80.42%和79.57%,遠(yuǎn)高于其他3 種算法,此時(shí)K=4。同時(shí),使用上述4 種模型對(duì)80 個(gè)訓(xùn)練水樣進(jìn)行回代預(yù)測(cè),實(shí)驗(yàn)顯示PCA-RF、PCA-SVM、PCA-MLP 和PCA-ELM 水源判別模型分別出現(xiàn)了5、25、7 和28 個(gè)誤判,回代準(zhǔn)確率分別為93.75%、68.75%、91.25%和65.00%,對(duì)直羅組水和延安組水的區(qū)分尤為不佳。通過對(duì)比,PCA-RF 水源判別模型的各個(gè)性能指標(biāo)均優(yōu)于其他3 種模型,因此,后續(xù)用AFSA 對(duì)PCA-RF 水源判別模型進(jìn)行優(yōu)化。
表3 4 種水源判別模型性能對(duì)比Table 3 Performance comparison of four water-source discriminant models
在PCA-AFSA-RF 水源判別模型中,設(shè)置AFSA 的最大迭代次數(shù)T為100,n_estimators范圍為1~200,depth范圍為1~50,n_split范圍為2~10,人工魚可視范圍為5,步長(zhǎng)為4,擁擠度因子為0.5,交叉驗(yàn)證的折數(shù)K為4,整個(gè)過程在PyCharm2021 環(huán)境中使用Python 語言實(shí)現(xiàn)。在AFSA 的諸多參數(shù)中,魚群數(shù)量的多少直接影響到搜索空間的覆蓋程度和搜索效率,因此,分別設(shè)置魚群數(shù)量m為10、15、20、30、50,其迭代結(jié)果如圖8所示。由圖可知,在100 次的迭代過程中,魚群數(shù)目為15、20、30 和50 時(shí)均在判別準(zhǔn)確率為92.18%處達(dá)到了收斂,其中魚群數(shù)目為20 時(shí)收斂速度最快,其最佳參數(shù)組合為n_estimators=17,depth=37,n_split=5;魚群數(shù)目為10 時(shí)達(dá)到了收斂但并未收斂到最優(yōu),這是由于數(shù)目過小而陷入了局部最優(yōu)。
為更直觀地體現(xiàn)PCA-AFSA-RF 水源判別模型的優(yōu)勢(shì),繪制了同一水樣數(shù)據(jù)集下PCA-RF 和PCAAFSA-RF 判別模型的性能,如圖9 所示??梢钥闯?,PCA-AFSA-RF 水源判別模型的4 個(gè)判別性能指標(biāo)分別達(dá)到了92.18%、91.11%、87.58%和88.82%,較PCARF 水源判別分別提高了9.18%、7.94%、7.16%和9.25%。
圖9 PCA-AFSA-RF 與PCA-RF 水源判別模型性能對(duì)比Fig.9 Performance comparison of PCA-AFSA-RF and PCA-RF water-source discriminant models
為深入分析PCA-AFSA-RF 水源判別模型的擬合效果,分別用上述兩個(gè)模型對(duì)80 個(gè)水樣進(jìn)行回代,結(jié)果如圖10 所示,由圖可知:PCA-AFSA-RF 水源判別模型出現(xiàn)了2 個(gè)誤判,分別將17 號(hào)(第四系水)和60 號(hào)(延安組水)水樣誤判成白堊系水和直羅組水,回代準(zhǔn)確率為97.5%;PCA-RF 水源判別模型出現(xiàn)了5 個(gè)誤判,分別將17 號(hào)(第四系水)、30 號(hào)(白堊系水)、32 號(hào)(白堊系水)、66 號(hào)(延安組水)、76 號(hào)(延安組水)水樣誤判為白堊系水、第四系水、第四系水、第四系水和直羅組水,回代準(zhǔn)確率為93.75%。
圖10 PCA-AFSA-RF 和PCA-RF 水源判別模型回代判別結(jié)果Fig.10 Back substitution results of PCA-AFSA-RF and PCA-RF water-source discriminant models
為進(jìn)一步驗(yàn)證文中建立的PCA-AFSA-RF 水源判別模型的泛化能力和可靠性,對(duì)12 個(gè)待測(cè)的礦井水水樣進(jìn)行判別,同時(shí)與PCA-RF 判別模型進(jìn)行對(duì)比。其中,1-3 號(hào)礦井水水樣分別取自A 礦井下HF2-1、HF7-2、YS5-2 號(hào)探放水鉆孔,探放水鉆孔終孔層位位于直羅組含水層中下段;4-5 號(hào)礦井水水樣取自A 礦井下掘進(jìn)巷道涌水點(diǎn)。結(jié)合現(xiàn)場(chǎng)實(shí)際判定1-3 號(hào)礦井水水樣來自直羅組含水層,4-5 號(hào)礦井水水樣來自延安組含水層。6-10 號(hào)礦井水水樣分別取自B 礦井下ZJ2、ZJ3、ZJ6、ZJ8、ZJ9 號(hào)探放水鉆孔,探放水鉆孔穿過2 號(hào)煤層2~3 m 終孔,終孔層位位于延安組含水層。11-12 號(hào)礦井水水樣分別取自B 礦副立井巷道出水點(diǎn)。通過對(duì)井下探放水鉆孔出水層位及巷道出水點(diǎn)分析可知,6-10 號(hào)礦井水水樣來自延安組含水層,11 號(hào)礦井水水樣來自直羅組含水層,12 號(hào)礦井水水樣來自延安組含水層。記直羅組水為Z,延安組水為Y,具體判別結(jié)果見表4。
表4 礦井水水樣判別結(jié)果Table 4 Discriminant results of water samples from mines
對(duì)表4 進(jìn)行分析可知,PCA-AFSA-RF 判別模型將A 礦1-3 號(hào)礦井水水樣判別為直羅組水(Z),4-5 號(hào)礦井水水樣判別為延安組水(Y);將B 礦6-10 號(hào)和12 號(hào)礦井水水樣判別為延安組水(Y),11 號(hào)礦井水水樣判別為直羅組水(Z),該模型判別結(jié)果與現(xiàn)場(chǎng)實(shí)際分析的水源類別相一致。而PCA-RF 判別模型出現(xiàn)了2 個(gè)誤判,分別將5 號(hào)礦井水水樣誤判為直羅組水(Z),將11 號(hào)礦井水水樣誤判為延安組水(Y)。綜合分析,文中建立的PCA-AFSA-RF 煤層頂板涌水水源智能判別模型具有較好的可靠性,可為煤層頂板涌水水源的智能判別提供新方法。
a.由不同來源水樣的無機(jī)水化學(xué)指標(biāo)及TOC、UV254和熒光光譜等有機(jī)指標(biāo)構(gòu)建了水樣數(shù)據(jù)集,使用PCA 對(duì)水樣數(shù)據(jù)集進(jìn)行降維,構(gòu)建PCA-AFSA-RF 煤層頂板涌水水源智能判別模型。
b.實(shí)驗(yàn)顯示,構(gòu)建的PCA-RF 模型的準(zhǔn)確率為83.00%,高于PCA-SVM、PCA-MLP 和PCA-ELM 模型。利用AFSA 對(duì)PCA-RF 模型中的決策樹數(shù)目、樹深和內(nèi)部節(jié)點(diǎn)分裂所需的最小樣本數(shù)的最佳組合進(jìn)行尋優(yōu),交叉驗(yàn)證的準(zhǔn)確率達(dá)到了92.18%,較PCA-RF 判別模型提高了9.18%。
c.利用PCA-AFSA-RF 和PCA-RF 水源判別模型對(duì)訓(xùn)練集水樣進(jìn)行回代及對(duì)12 個(gè)待測(cè)礦井水水樣進(jìn)行判別,結(jié)果表明,PCA-AFSA-RF 水源判別模型具有更好的準(zhǔn)確性和泛化能力,可為煤層頂板涌水水源的判別提供新的方法。
d.后續(xù)將深入考慮水文地質(zhì)、工程地質(zhì)、采礦活動(dòng)以及水-巖作用對(duì)煤層頂板涌水水源判別的影響。同時(shí),通過現(xiàn)場(chǎng)定期采樣,不斷更新和擴(kuò)大訓(xùn)練集水樣,以動(dòng)態(tài)調(diào)整模型參數(shù)與結(jié)構(gòu),確保建立的判別模型的長(zhǎng)效性。
符號(hào)注釋:
b和c分別為隨機(jī)森林尋優(yōu)參數(shù)的上下限;C為待判別的水源類別個(gè)數(shù);fi(t)為第i個(gè)人工魚個(gè)體在第t代的適應(yīng)度值;fj(t)為第j個(gè)人工魚個(gè)體在第t代的適應(yīng)度值;K為交叉驗(yàn)證折數(shù);m為設(shè)定的人工魚群數(shù)量;Mi'i'為實(shí)際為類別i'且預(yù)測(cè)為類別i'的水樣數(shù)量;Mi'j'為實(shí)際為類別i'而預(yù)測(cè)為類別j'的水樣數(shù)量;Mj'i'為實(shí)際為類別j'而預(yù)測(cè)為類別i'的水樣數(shù)量;n為當(dāng)前循環(huán)中的人工魚數(shù)目;N(0,α) 為服從均值為0、標(biāo)準(zhǔn)差為α的正態(tài)分布隨機(jī)數(shù);(t)為第i個(gè)人工魚個(gè)體在第t代被選擇的概率;Pri'為類別i'的精確率;Rci'為類別i'的召回率;t為人工魚群算法當(dāng)前的迭代次數(shù);T為設(shè)置的人工魚群算法最大迭代次數(shù);xi(t)和xi(t+1)分別為第i個(gè)人工魚個(gè)體在第t代和第t+1 代的位置;xj(t)和xj(t+1)分別為第j個(gè)人工魚個(gè)體在第t代和第t+1 代的位置;α為高斯變異的標(biāo)準(zhǔn)差;ε為高斯變異系數(shù);δ為交叉操作中的交叉系數(shù)。