陳 濤,丁海琨,張占松,郭建宏,譚辰陽,周雪晴,朱林奇
(1.長(zhǎng)江大學(xué) 油氣資源與勘探技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430100;2.長(zhǎng)江大學(xué) 地球物理與石油資源學(xué)院,湖北 武漢 430100;3.中國石油測(cè)井公司國際合作處,陜西 西安 710077;4.中國科學(xué)院深??茖W(xué)與工程研究所,海南 三亞 572000)
煤層含氣量是煤儲(chǔ)層評(píng)價(jià)研究的關(guān)鍵參數(shù)之一,是煤層產(chǎn)能評(píng)價(jià)、生產(chǎn)布局及資源挖潛的關(guān)鍵所在。而煤層含氣量受成藏地質(zhì)構(gòu)造、地質(zhì)水文特征、煤變程度、煤質(zhì)工業(yè)組分、煤層有效埋深和凈厚度、儲(chǔ)層壓力及滲透率、煤層頂?shù)装鍘r性及厚度等眾多因素的影響[1-3],是眾多因素耦合作用的產(chǎn)物。目前,對(duì)煤儲(chǔ)層含氣量的定量評(píng)價(jià)大致可分為數(shù)值模擬[4-7]、基于測(cè)井參數(shù)[8-11]和實(shí)驗(yàn)組分[12-14]及地震屬性[15-16]的單參變量或多參變量線性回歸預(yù)測(cè)法、參數(shù)井繩索取心現(xiàn)場(chǎng)解吸測(cè)試和人工智能4 大類。然而,參數(shù)井繩索取心法費(fèi)用成本高難以實(shí)現(xiàn);線性回歸法對(duì)于非均質(zhì)性極強(qiáng)的煤儲(chǔ)層難以實(shí)現(xiàn)高精度評(píng)價(jià);由于三相態(tài)含氣量數(shù)值模擬技術(shù)亟待突破,數(shù)值模擬很難實(shí)現(xiàn)生產(chǎn)精細(xì)評(píng)價(jià)。近年來,基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法越來越多地應(yīng)用到非均質(zhì)性極強(qiáng)的非常規(guī)儲(chǔ)層參數(shù)評(píng)價(jià)中,用于挖掘數(shù)據(jù)隱藏的非線性關(guān)系,如循環(huán)神經(jīng)網(wǎng)絡(luò)、BP 神經(jīng)網(wǎng)絡(luò)、SVM 神經(jīng)網(wǎng)絡(luò)、決策樹、長(zhǎng)短期記憶網(wǎng)絡(luò)及融合智能算法等[17-21],研究表明,這些技術(shù)的引入對(duì)煤層含氣量預(yù)測(cè)的可信度及可靠性較好。然而,BP 神經(jīng)網(wǎng)絡(luò)對(duì)樣本量有一定要求,且受參數(shù)影響大,導(dǎo)致訓(xùn)練復(fù)雜性大,局限性明顯;隨機(jī)森林抗干擾能力較強(qiáng),在處理特征遺失及不均衡數(shù)據(jù)時(shí)泛化性好,但對(duì)超出訓(xùn)練集數(shù)據(jù)鄰域的樣本會(huì)出現(xiàn)預(yù)測(cè)盲區(qū),很可能使在進(jìn)行建模時(shí)某些高頻噪聲的樣本出現(xiàn)過擬合影響模型泛化性;支持向量機(jī)無需復(fù)雜的拓?fù)浣Y(jié)構(gòu),對(duì)小樣本適應(yīng)強(qiáng),具有很強(qiáng)的魯棒性,但受噪聲樣本影響較大。而采用通用向量機(jī)[22](GVM)算法作為核心建模技術(shù),很大程度上平衡了上述問題;有研究表明:在少量訓(xùn)練樣本甚至缺失訓(xùn)練樣本的情況下,訓(xùn)練出來的回歸模型仍然具有良好的魯棒性和泛化性[22-23]。為此,基于煤層含氣量測(cè)井響應(yīng)相關(guān)性結(jié)合地球物理理論進(jìn)行曲線重構(gòu),再通過對(duì)Elastic Net 方法添加正則化項(xiàng)施加懲罰來選取敏感特征變量,解決多重共線性問題和冗余參數(shù);提出用改進(jìn)的量子粒子群優(yōu)化算法(IQPSO)對(duì)GVM 模型關(guān)鍵參數(shù)進(jìn)行尋優(yōu),最優(yōu)化處理建模的每個(gè)關(guān)鍵環(huán)節(jié)進(jìn)而使模型整體性能提升,以此構(gòu)建泛化性好、強(qiáng)魯棒性的煤層含氣量高精度預(yù)測(cè)模型,并用實(shí)際區(qū)塊數(shù)據(jù)驗(yàn)證方法的適應(yīng)性和有效性。
研究數(shù)據(jù)來自華北沁水煤田東南部柿莊南區(qū)塊3 號(hào)煤層,是目前勘探開發(fā)的熱點(diǎn)地區(qū)。由于受地質(zhì)構(gòu)造、聚煤沉積環(huán)境、水文地質(zhì)條件、煤層氣成因及來源的差異性響應(yīng),儲(chǔ)層平面非均質(zhì)性極強(qiáng),含氣量測(cè)井響應(yīng)特征復(fù)雜,高精度評(píng)價(jià)難度大[24]。樣品源于勘探區(qū)12 口關(guān)鍵井280 組有效煤心樣品深度部分。樣品含氣量及常規(guī)測(cè)井響應(yīng)數(shù)據(jù)(部分)見表1。
表1 樣品含氣量及常規(guī)測(cè)井響應(yīng)數(shù)據(jù)(部分)Table 1 CBM content of samples and conventional logging data(part)
研究表明,煤層含氣量與有機(jī)質(zhì)和無機(jī)質(zhì)2 種單一組分的相對(duì)豐度存在函數(shù)關(guān)系,有機(jī)質(zhì)含量在某一特定地區(qū)保持相對(duì)穩(wěn)定,而無機(jī)組分在區(qū)塊內(nèi)會(huì)發(fā)生顯著的橫向和縱向變化,并表現(xiàn)為測(cè)井響應(yīng)的差異性。測(cè)井的縱向分辨率相對(duì)較高,不同儲(chǔ)層蘊(yùn)含復(fù)雜的地質(zhì)儲(chǔ)層信息,煤層含氣量響應(yīng)具有特殊性及復(fù)雜性。煤層含氣量與測(cè)井參數(shù)交會(huì)圖如圖1。
圖1 煤層含氣量與測(cè)井參數(shù)交會(huì)圖Fig.1 Cross plot of coal seam gas content and logging parameters
煤層含氣量根本影響因素是煤變程度。理論上,煤層埋深一定程度上影響烴熱分解能力,同時(shí)很大程度上決定了煤層氣的封堵條件,淺煤層含氣量隨埋深增加而升高,當(dāng)埋深達(dá)到某一臨界深度后,受地質(zhì)構(gòu)造、后期的封閉條件及聚煤沉積環(huán)境等影響含氣量解吸緩慢甚至出現(xiàn)降低趨勢(shì),可見煤巖埋深對(duì)含氣量評(píng)價(jià)是受研究區(qū)地質(zhì)因素影響較大的不穩(wěn)定變量。井徑曲線主要反映地層的脆性指數(shù)及機(jī)械強(qiáng)度,與煤巖類型緊密相關(guān),煤層含氣后對(duì)煤巖類型影響甚微,即含氣量對(duì)井徑曲線敏感性較弱。煤巖是電阻率較高的非導(dǎo)電介質(zhì),擴(kuò)散和吸附作用產(chǎn)生自然電位,其本身與含氣量敏感性較弱,但自然電位異常幅度很大程度上取決于黏土含量、泥漿濾液及煤巖厚度等影響,一定程度上表現(xiàn)為含氣量的差異性。煤巖骨架自身放射性較低,其放射性取決于成煤過程吸附的黏土礦物等外來礦物,一方面黏土礦物含量越高,對(duì)應(yīng)煤巖有效孔隙空間就越少,含氣量就越低,同時(shí)黏土吸附削弱了煤巖的吸附能力,降低了其比表面積,致使煤層含氣量一定程度上降低。聲波時(shí)差可反映煤巖的抗壓強(qiáng)度和致密程度,含氣后聲波能量嚴(yán)重衰減,表現(xiàn)為聲波時(shí)差明顯增大甚至出現(xiàn)“周波跳躍”現(xiàn)象,聲波時(shí)差對(duì)含氣量較敏感。煤本身基質(zhì)密度較低,理論上其密度響應(yīng)值與煤層致密程度緊密相關(guān),煤層越致密其孔隙空間越小,含氣量也就越小,實(shí)際上受擴(kuò)徑及黏土含量影響單井表現(xiàn)往往并不是這樣,甚至出現(xiàn)相反的的趨勢(shì)。補(bǔ)償中子反映煤儲(chǔ)層的含氫指數(shù),理論上含氣量越高中子測(cè)井值衰減越劇烈,補(bǔ)償中子越小,但受擴(kuò)徑、泥餅、泥質(zhì)及炭質(zhì)夾矸等一系列因素影響較大,單井有時(shí)表現(xiàn)并不明顯。煤層電阻率很大,但電阻率響應(yīng)值還受煤巖厚度、井眼尺寸、泥漿侵入、孔隙填充及夾矸等較多因素影響,研究區(qū)總體上煤層含氣量與深側(cè)向電阻率呈正相關(guān)。
綜上分析,研究區(qū)煤儲(chǔ)層雙重孔隙結(jié)構(gòu)、強(qiáng)儲(chǔ)層非均質(zhì)性導(dǎo)致煤層含氣量與測(cè)井參數(shù)響應(yīng)極為復(fù)雜,為充分挖掘測(cè)井響應(yīng)特征蘊(yùn)含的儲(chǔ)層信息,提高含氣量評(píng)價(jià)精度,根據(jù)測(cè)井原理結(jié)合其對(duì)含氣性的響應(yīng)特征分析,計(jì)算了9 個(gè)衍生參數(shù),分別為復(fù)合參數(shù)M 和N、三孔隙度差比值C 和B、自然電位幅度差值△SP、雙電阻率差比值△lg(R)和Ra 及雙電阻率對(duì)數(shù)值lg(RD)和lg(RS),計(jì)算公式為:
式中:GR 為自然伽馬,API;DEN 為補(bǔ)償密度,g/cm3;RD 為深側(cè)向電阻率,Ω·m;AC 為聲波時(shí)差,μs/m;CNL 為補(bǔ)償中子,%;SP 為自然電位,mV;SSP為靜自然電位,一般取泥巖基線值,mV;RS 為淺側(cè)向電阻率,Ω·m。
計(jì)算含氣量及測(cè)井以及其衍生參數(shù)之間的Pearson 相關(guān)系數(shù),但Pearson 相關(guān)系數(shù)往往偏重于線性相關(guān)程度而忽略了含氣量與測(cè)井參數(shù)之間的非線性關(guān)系。含氣量與測(cè)井及其衍生參數(shù)相關(guān)性熱圖如圖2。由圖2 可知,各測(cè)井參數(shù)之間存在多重共線性,會(huì)降低模型穩(wěn)定性,且冗余信息很大程度上給模型帶來噪聲干擾,難以進(jìn)行含氣量高精度評(píng)價(jià),因此特征變量的選取非常有必要。
圖2 含氣量與測(cè)井及其衍生參數(shù)相關(guān)性熱圖Fig.2 Heat diagram of correlation between gas content and conventional logging parameters
為充分挖掘儲(chǔ)層信息并解決多重共線性問題,研究引入適合GVM 神經(jīng)網(wǎng)絡(luò)建模的Elastic Net 分析方法優(yōu)選建模特征變量,并針對(duì)GVM 模型參數(shù)進(jìn)行優(yōu)化建立穩(wěn)健的含氣量預(yù)測(cè)模型。
彈性網(wǎng)絡(luò)(Elastic Net,EN)是2005 年由ZouH[25]等在研究嶺回歸(RR)和拉索回歸(LASSO)理論基礎(chǔ)上提出的一種新魯棒正則化方法。式(8)為ElasticNet 方法代價(jià)函數(shù)懲罰項(xiàng),其將拉索回歸和嶺回歸懲罰項(xiàng)加權(quán)組合。該方法繼承LASSO 回歸的稀疏性的同時(shí)很好地解決了共線性問題。Elastic Net 方法被證實(shí)具備很好群組效應(yīng)和稀疏性,對(duì)異常值及重尾誤差具有很好的魯棒性,尤其適用于小樣本數(shù)據(jù)變量篩選。
式中:λ1為懲罰項(xiàng)相對(duì)于擬合錯(cuò)誤的重要程度,大于0;λ2為2 種范數(shù)正則化的比例,取0~1;‖θ‖1為L(zhǎng)1正則化;‖θ‖2為L(zhǎng)2正則化。
通用向量機(jī)(GVM)模型是廈門大學(xué)趙鴻教授在2016 年基于蒙特卡羅(Monte Carlo,MC)算法提出來的一種機(jī)器學(xué)習(xí)新方法[22]。該模型結(jié)合BP 神經(jīng)網(wǎng)絡(luò)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化策略和支持向量機(jī)(SVM)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化策略,采用MC 算法調(diào)整模型權(quán)值直至獲得最優(yōu)模型。該模型被證實(shí)具有很好的泛化能力,對(duì)小樣本具有良好的預(yù)測(cè)效果,且模型對(duì)單個(gè)樣本的微小波動(dòng)具有更強(qiáng)的魯棒性,模型抗噪聲干擾能力強(qiáng)。
GVM 模型主要超參數(shù)為隱含層節(jié)點(diǎn)數(shù)和敏感度控制參數(shù)β,通過將β 控制在一定范圍內(nèi)就可以使模型對(duì)輸入向量的微小波動(dòng)保持強(qiáng)魯棒性,這樣就可以用更多的隱藏層節(jié)點(diǎn)增強(qiáng)模型泛化能力的同時(shí)有效抑制過擬合。同時(shí)采用鏡面對(duì)稱思想固定輸出權(quán)值矩陣W2,通過基于權(quán)值偏導(dǎo)數(shù)的蒙特卡羅(Derivative Monte Carlo,DMC)算法[23]來調(diào)整權(quán)值Wβ、W1和Wb,優(yōu)化模型,減小式(9)代價(jià)函數(shù)使得模型整體逐步收斂到穩(wěn)定最優(yōu)解。
式中:COST 為代價(jià)函數(shù);RMSE 為均方根誤差;N 為樣本個(gè)數(shù)。
GVM 模型性能取決于權(quán)值向量、偏置向量及控制向量。蒙特卡羅算法優(yōu)化GVM 網(wǎng)絡(luò)參數(shù)采用單步變異方式,1 次僅優(yōu)化1 個(gè)權(quán)值,且隱含層節(jié)點(diǎn)數(shù)同條件下一般來說至少10 倍于BP 神經(jīng)網(wǎng)絡(luò),是以犧牲訓(xùn)練時(shí)長(zhǎng)和模型收斂速度來增強(qiáng)模型的魯棒性與穩(wěn)定性。本質(zhì)上來講,優(yōu)化GVM 模型網(wǎng)絡(luò)參數(shù)就是搜索最優(yōu)網(wǎng)絡(luò)參數(shù)使得式(9)取得最小極值。PSO算法就是解決此類問題行之有效的經(jīng)典方法。
PSO 算法是由Eberhart 等[26]于1995 年模擬鳥群覓食行為提出的一種全局最優(yōu)化算法,因其簡(jiǎn)單可行、收斂快、穩(wěn)健性好等優(yōu)點(diǎn)被廣泛應(yīng)用于各領(lǐng)域最優(yōu)化問題中。但該算法星環(huán)狀結(jié)構(gòu)信息交互方式導(dǎo)致搜索尋優(yōu)過程中由于其種群多樣性自進(jìn)化消失快而過早收斂,在解決形如式(9)這種多局部極值問題中很難跳出局部最優(yōu)?;诖耍瑢⒘孔颖忍叵到y(tǒng)引入粒子群算法,并根據(jù)代價(jià)函數(shù)動(dòng)態(tài)調(diào)整比特量子旋轉(zhuǎn)角和交叉變異概率對(duì)量子粒子群算法[27](QPSO)進(jìn)行改進(jìn)提出一種新的量子粒子群算法,使得粒子以更大概率跳出局部最優(yōu)同時(shí)兼顧泛化及求精能力。
綜上,利用Elastic Net 方法優(yōu)選建模特征變量,針對(duì)研究所用小樣本不均衡數(shù)據(jù)選擇具有優(yōu)勢(shì)的GVM 網(wǎng)絡(luò)建立神經(jīng)網(wǎng)絡(luò)模型,考慮到GVM 模型存在的缺陷及粒子群算法(PSO)參數(shù)尋優(yōu)對(duì)本研究適應(yīng)性差,提出了改進(jìn)的量子粒子群算法對(duì)決定模型性能的關(guān)鍵控制參數(shù)進(jìn)行全局優(yōu)化,通過此三者緊密聯(lián)合構(gòu)建高精度、強(qiáng)魯棒性和穩(wěn)定性的煤層含氣量預(yù)測(cè)模型。
3.1.1 特征參數(shù)選取
根據(jù)Elastic Net 方法,在進(jìn)行變量篩選前對(duì)數(shù)據(jù)做標(biāo)準(zhǔn)化處理,消除特征參數(shù)間的差異性,避免因此導(dǎo)致特征丟失。由式(8)可知,EN 特征篩選2個(gè)核心參數(shù)為正則化參數(shù)λ1(λ1>0)和權(quán)重調(diào)節(jié)系數(shù)λ2(0<λ2<1)。為獲得最佳Elastic Net 參數(shù),在python平臺(tái)Elastic NetCV 模塊中,先將數(shù)據(jù)隨機(jī)等分為3組,網(wǎng)格搜索采用3 折交叉驗(yàn)證確定最佳權(quán)重調(diào)節(jié)系數(shù)為λ2=0.32,再根據(jù)均方差MSE 隨不同懲罰系數(shù)的變化曲線基于最小MSE 準(zhǔn)則確定正則化參數(shù)λ1。3 折交叉驗(yàn)證下不同正則化參數(shù)MSE 變化曲線(λ2=0.32)如圖3,最佳正則化系數(shù)為λ1=0.58。
圖3 3 折交叉驗(yàn)證下不同正則化參數(shù)MSE 變化曲線(λ2=0.32)Fig.3 MSE variation curves of different penalty coefficients under 3-fold cross validation(λ2=0.32)
基于所選最佳EN 方法系數(shù)(λ2=0.32,λ1=0.58),EN 方法通過最小角回歸算法(Least Angle Regression, LAR)迭代計(jì)算19 個(gè)測(cè)井及其衍生參數(shù)稀疏系數(shù)[27],將稀疏系數(shù)為0 的冗余變量濾除即為特征參數(shù),該方法降維的同時(shí)很好地解決了多重共線性問題。特征參數(shù)貢獻(xiàn)率如圖4。
圖4 特征參數(shù)貢獻(xiàn)率Fig.4 Contribution rate of characteristic parameters
由圖4 可知,AC、DEN、GR、lg(RD)、CNL、△lg(R)、△SP 7 個(gè)參數(shù)對(duì)模型精度總貢獻(xiàn)率達(dá)到95.38%,因此選取這7 個(gè)參數(shù)作為GVM 模型的優(yōu)選特征。
3.1.2 網(wǎng)絡(luò)結(jié)構(gòu)確定
在進(jìn)行GVM 模型權(quán)值向量、偏置向量及控制向量尋優(yōu)前首先要確定模型結(jié)構(gòu),即要確定隱藏層節(jié)點(diǎn)個(gè)數(shù)。隱藏層節(jié)點(diǎn)個(gè)數(shù)對(duì)模型性能的影響如圖5,MAPE 為平均絕對(duì)百分比誤差,表征模型偏差程度。隨著隱藏層節(jié)點(diǎn)個(gè)數(shù)的增加,模型精度越來越好,模型訓(xùn)練時(shí)長(zhǎng)開始緩慢增加,當(dāng)隱藏層節(jié)點(diǎn)數(shù)超過105 時(shí),模型性能反而下降,精度開始降低,且訓(xùn)練時(shí)長(zhǎng)急劇增長(zhǎng)。基于以上分析,隱藏層節(jié)點(diǎn)數(shù)為105。
圖5 隱藏層節(jié)點(diǎn)個(gè)數(shù)對(duì)模型性能的影響Fig.5 Contribution rate of characteristic parameters
一般來說,GVM 模型要求激活函數(shù)f 滿足非線性、有界性和連續(xù)性??紤]一般情況,利用先驗(yàn)樣本數(shù)據(jù)特征對(duì)GVM 模型常見3 種傳遞函數(shù)性能進(jìn)行模擬對(duì)比,不同傳遞函數(shù)運(yùn)算效率對(duì)比如圖6。由圖6 可知,對(duì)于特征空間3 種傳遞函數(shù)都具有可行性,相對(duì)而言tanh 函數(shù)運(yùn)行效率高且對(duì)DMC 算法來說其參數(shù)變異區(qū)間較廣,容錯(cuò)率較高。因此將tanh 函數(shù)作為GVM 模型的傳遞函數(shù)。
圖6 不同傳遞函數(shù)運(yùn)算效率對(duì)比Fig.6 Contribution rate of characteristic parameters
3.1.3 網(wǎng)絡(luò)參數(shù)優(yōu)化
利用IQPSO 算法優(yōu)化GVM 網(wǎng)絡(luò)參數(shù),每個(gè)量子粒子代表1 組GVM 網(wǎng)絡(luò)參數(shù)(Wβ、W1和Wb),將式(9)作為IQPSO 算法的適應(yīng)度函數(shù)。GVM 參數(shù)尋優(yōu)圖如圖7。
圖7 GVM 參數(shù)尋優(yōu)圖Fig.7 GVM parameter optimization diagram
算法具體流程步驟如下:
步驟1:初始化。利用式(10)量子比特編碼每個(gè)粒子qi,并初始化參數(shù),IQPSO 初始化參數(shù)見表2。包括種群規(guī)模N,最大進(jìn)化代數(shù)Imax,停滯判別參數(shù)ω,交叉驗(yàn)證誤差判別閾值ε,量子門旋轉(zhuǎn)角范圍[θmin,θmax],變異概率范圍[pmmin,pmmax]。
表2 IQPSO 初始化參數(shù)Table 2 Initialization parameters of IQPSO
式中:[cosθij,sinθij]T為1 個(gè)量子比特;M 為量子比特空間維數(shù);θ 為量子粒子相位。
步驟2:隨機(jī)觀測(cè)每個(gè)粒子生成二進(jìn)制解并進(jìn)行解空間轉(zhuǎn)換。
步驟3:采用3 折交叉驗(yàn)證評(píng)價(jià)每個(gè)粒子適應(yīng)度函數(shù),保存全局最優(yōu)解Pg=(pg1,pg2,…,pgM)和當(dāng)前每個(gè)粒子的局部最優(yōu)解PL=(pL1,pL2,…,pLM)。并判斷交叉驗(yàn)證誤差判別閾值ε 和最大進(jìn)化代數(shù)Imax,若滿足則進(jìn)行步驟4,否則進(jìn)行步驟6。
步驟4:采用二進(jìn)制引力搜索算法[28]量子旋轉(zhuǎn)門策略結(jié)合式(10)更新量子相位向量θi=(θi1,θi2,…,θiM),進(jìn)而更新個(gè)體位移。
式中:λ 為控制θ 調(diào)整幅度的常量,經(jīng)反復(fù)實(shí)驗(yàn)?zāi)M取值e0.036效果最佳;t 為時(shí)間。
采用式(11)符合θ“粗中有細(xì)”的調(diào)整策略,有效提高模型性能同時(shí)平衡其泛化能力。
步驟5:停滯參數(shù)ω 判斷,若滿足則利用量子非門進(jìn)行離散交叉變異操作更新進(jìn)化種群使粒子以更大概率快速跳出局部極值。
步驟6:在IQPSO 算法優(yōu)化基礎(chǔ)上,執(zhí)行GVM模型DMC 加速變異算法進(jìn)一步提升模型全局尋優(yōu)能力,直至達(dá)到算法停止條件輸出最優(yōu)解。
為驗(yàn)證改進(jìn)策略,基于上述優(yōu)選的7 個(gè)特征測(cè)井參數(shù)分別用MC 算法、DMC 算法、PSO 尋優(yōu)策略及本文方法優(yōu)化GVM 網(wǎng)絡(luò)參數(shù)建立煤層含氣量預(yù)測(cè)模型。建模過程將280 組樣本數(shù)據(jù)隨機(jī)等分為4組,1 組作為測(cè)試集不參與建模驗(yàn)證模型泛化性,其余3 組進(jìn)行3 折交叉驗(yàn)證用于確定模型參數(shù)。對(duì)建模集(訓(xùn)練集和驗(yàn)證集)和測(cè)試集進(jìn)行測(cè)試對(duì)比,用3 次交叉驗(yàn)證平均均方根誤差和擬合優(yōu)度衡量模型整體性能,并對(duì)各模型進(jìn)行測(cè)試對(duì)比,各算法適應(yīng)度函數(shù)收斂曲線如圖8。
圖8 各算法適應(yīng)度函數(shù)收斂曲線Fig.8 Convergence curves of fitness function of each algorithm
由圖8 可知,在其他條件相同的情況下,尋優(yōu)策略其尋優(yōu)能力優(yōu)于其它3 種方法,而在收斂速度上DMC 算法是最快的。同時(shí)還可看出,MC 算法和DMC 算法盡管收斂速度稍快,但對(duì)于研究目標(biāo)函數(shù)全局尋優(yōu)能力較差,收斂精度稍差,PSO 算法盡管一定程度上增強(qiáng)了全局尋優(yōu)能力,還是陷入了局部最優(yōu)值。而尋優(yōu)策略,雖多次早熟收斂,但隨著迭代次數(shù)增加逐步收斂并在后收斂到全局最優(yōu)達(dá)到不錯(cuò)的收斂精度。由此可見,結(jié)合IQPSO 和DMC 算法的GVM 網(wǎng)絡(luò)參數(shù)尋優(yōu)策略雖然在收斂速度上略有損失,但極大提升了模型精度。
通過擬合優(yōu)度、均方根誤差、平均絕對(duì)百分比誤差和相對(duì)分析誤差4 個(gè)指標(biāo),可以綜合全面地評(píng)估模型性能。各評(píng)價(jià)模型的預(yù)測(cè)精度評(píng)價(jià)指標(biāo)見表3。
由表3 結(jié)果可見,不論是訓(xùn)練集還是驗(yàn)證集,IQPSO 算法優(yōu)化策略GVM 模型預(yù)測(cè)精度均優(yōu)于其他3 種方法。可見采用的GVM 網(wǎng)絡(luò)核心參數(shù)優(yōu)化策略可有效改善模型性能,提高模型預(yù)測(cè)精度。同時(shí)測(cè)試集可以看出,訓(xùn)練得到的模型其測(cè)試集平均均方根誤差為0.648,平均絕對(duì)百分比誤差8.69%,相對(duì)分析誤差3.23,相對(duì)其他3 種方法均有大大的提升,說明該算法泛化性強(qiáng),能有效抑制過擬合。
表3 各評(píng)價(jià)模型的預(yù)測(cè)精度評(píng)價(jià)指標(biāo)Table 3 Evaluation index of prediction precision of each model
GVM 模型集BP 神經(jīng)網(wǎng)絡(luò)模型和SVM 模型優(yōu)點(diǎn)于一體,為驗(yàn)證模型對(duì)所研究問題的有效性及驗(yàn)證模型的魯棒性,將本文模型、基于本文優(yōu)化策略的7×9×1 結(jié)構(gòu)的BP 神經(jīng)網(wǎng)絡(luò)模型和SVM 模型及傳統(tǒng)多元回歸法對(duì)研究區(qū)同一盲井3 號(hào)層進(jìn)行含氣量預(yù)測(cè),A13 井3 號(hào)煤層含氣量預(yù)測(cè)成果如圖9。
圖9 A13 井3 號(hào)煤層含氣量預(yù)測(cè)成果Fig.9 Prediction results of 3# coalbed methane content in A13 well
由圖9 可以看出,多元回歸模型明顯存在“高值偏低,低值偏高”的有偏現(xiàn)象,整體上均比神經(jīng)網(wǎng)絡(luò)含氣量模型差,且多元回歸法預(yù)測(cè)結(jié)果整體為1 條直線,并不符合煤層強(qiáng)非均質(zhì)性的特點(diǎn),因此不合理,參考價(jià)值不大;神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)含氣量整體上形態(tài)走勢(shì)相近,一定程度上符合煤層強(qiáng)非均質(zhì)性的特點(diǎn),BP 神經(jīng)網(wǎng)絡(luò)含氣量模型對(duì)樣本量要求高且訓(xùn)練難度大,也存在有偏現(xiàn)象誤差較大;796~797 m 為夾矸段,理論上含氣量為低值,而支持向量機(jī)含氣量模型表現(xiàn)為平穩(wěn)直線且與正常響應(yīng)段近乎持平,且796.6~797.6 m 存在明顯擴(kuò)徑,盡管經(jīng)過擴(kuò)徑校正,但仍無法消除曲線失真對(duì)含氣量建模的影響??梢钥闯?,支持向量機(jī)含氣量模型抗井徑失真能力明顯不如通用向量機(jī)含氣量模型和BP 神經(jīng)網(wǎng)絡(luò)含氣量模型;在煤層上下測(cè)井響應(yīng)半幅點(diǎn)突變段通用向量機(jī)含氣量預(yù)測(cè)精度明顯優(yōu)于通用向量機(jī)模型和BP神經(jīng)網(wǎng)絡(luò)模型。綜合盲井驗(yàn)證結(jié)果分析,提出的基于彈性神經(jīng)網(wǎng)絡(luò)測(cè)井參數(shù)優(yōu)選和改進(jìn)量子粒子群結(jié)合變異蒙特卡洛算法優(yōu)化通用向量機(jī)模型效果最好,模型穩(wěn)健性好、魯棒性強(qiáng),能滿足該地區(qū)含氣量高精度計(jì)算要求,為煤層氣生產(chǎn)提供總體上有力支撐與指導(dǎo),同時(shí)為煤層含氣量高精度預(yù)測(cè)提供了新方法策略。
1)經(jīng)過常規(guī)交會(huì)圖和含氣量相關(guān)性熱圖分析各測(cè)井及其衍生參數(shù)與煤層含氣量相關(guān)性可知煤層含氣量響應(yīng)特征明顯,不同測(cè)井參數(shù)的含氣量響應(yīng)差異較大,各測(cè)井參數(shù)間存在不同程度的多重共線性。
2)在煤層含氣量預(yù)測(cè)建模過程中,引入彈性網(wǎng)絡(luò)進(jìn)行屬性約簡(jiǎn)解決冗余信息對(duì)含氣量建模精度的影響,真實(shí)定量化表征測(cè)井參數(shù)與煤層含氣量間的非線性關(guān)系。從實(shí)際結(jié)果可知,該特征參數(shù)優(yōu)選策略符合地球物理測(cè)井理論,是行之有效的去冗余化方法,提升了建模精度。
3)針對(duì)煤儲(chǔ)層非均質(zhì)性強(qiáng)且煤層含氣量小樣本不均衡特點(diǎn)引入通用向量機(jī)算法,通過試驗(yàn)調(diào)整并確定了最優(yōu)的GVM 模型拓?fù)浣Y(jié)構(gòu)參數(shù),然后使用改進(jìn)的量子粒子群算法優(yōu)化GVM 模型權(quán)值建立最終煤層含氣量預(yù)測(cè)模型。將該模型與相同策略下的支持向量機(jī)、BP 神經(jīng)網(wǎng)絡(luò)及傳統(tǒng)多元回歸模型進(jìn)行對(duì)比,建模效果優(yōu)于其他方法,能有效滿足勘探區(qū)含氣量高精度要求及生產(chǎn)指導(dǎo),可進(jìn)行推廣使用。