楊磊,王化增,陳子凌
(1.中國(guó)石油大學(xué)經(jīng)濟(jì)管理學(xué)院,山東青島 266580;2.中石化勝利油田東勝集團(tuán)公司,山東東營(yíng) 257091; 3.中石油物資公司,北京 100029)
基于支持向量機(jī)的油氣儲(chǔ)量?jī)r(jià)值等級(jí)評(píng)價(jià)
楊磊1,王化增2,陳子凌3
(1.中國(guó)石油大學(xué)經(jīng)濟(jì)管理學(xué)院,山東青島 266580;2.中石化勝利油田東勝集團(tuán)公司,山東東營(yíng) 257091; 3.中石油物資公司,北京 100029)
針對(duì)油氣儲(chǔ)量的特點(diǎn),對(duì)油氣儲(chǔ)量?jī)r(jià)值的優(yōu)劣等級(jí)進(jìn)行劃分。選取影響油氣儲(chǔ)量?jī)r(jià)值等級(jí)的7個(gè)因素,即儲(chǔ)量規(guī)模、儲(chǔ)量豐度、儲(chǔ)層埋深、原油黏度、滲透率、凝固點(diǎn)和采收率,采用最小二乘支持向量機(jī)模型對(duì)油氣儲(chǔ)量?jī)r(jià)值等級(jí)劃分進(jìn)行仿真,并運(yùn)用網(wǎng)格搜索法確定最小二乘支持向量機(jī)模型的參數(shù)懲罰因子C和核函數(shù)參數(shù)σ。結(jié)果表明,最小二乘支持向量機(jī)是評(píng)價(jià)油氣儲(chǔ)量?jī)r(jià)值等級(jí)的有效方法,訓(xùn)練正判率達(dá)到95%,檢驗(yàn)正判率達(dá)到81%。
最小二乘支持向量機(jī);油氣儲(chǔ)量;價(jià)值分級(jí)
油氣儲(chǔ)量具有經(jīng)濟(jì)性差異,可劃分為經(jīng)濟(jì)儲(chǔ)量、次經(jīng)濟(jì)儲(chǔ)量和非經(jīng)濟(jì)儲(chǔ)量,其中非經(jīng)濟(jì)儲(chǔ)量可能占探明儲(chǔ)量的比例較大。油氣儲(chǔ)量要實(shí)現(xiàn)資產(chǎn)化管理首先應(yīng)確定其價(jià)值的優(yōu)劣等級(jí)。針對(duì)油氣儲(chǔ)量?jī)r(jià)值等級(jí)評(píng)價(jià)問題前人已經(jīng)做了一些研究。孟偉[1]和周曉俊[2]采用灰色多目標(biāo)局勢(shì)決策和模糊聚類理論對(duì)油氣儲(chǔ)量?jī)r(jià)值進(jìn)行分級(jí)評(píng)價(jià)。袁自學(xué)等[3]和胡健等[4]通過一元回歸分析、德爾菲法對(duì)油氣儲(chǔ)量?jī)r(jià)值進(jìn)行分級(jí)評(píng)估。趙慶飛等[5]運(yùn)用層次分析法、德爾菲法對(duì)天然氣儲(chǔ)量?jī)r(jià)值進(jìn)行分級(jí)。以上這些研究多采用主觀方法確定指標(biāo)權(quán)重,忽視了指標(biāo)數(shù)據(jù)本身對(duì)油氣儲(chǔ)量?jī)r(jià)值等級(jí)的影響。王化增和遲國(guó)泰[6]運(yùn)用BP神經(jīng)網(wǎng)絡(luò)的方法對(duì)油氣儲(chǔ)量?jī)r(jià)值等級(jí)進(jìn)行了劃分,該方法對(duì)油氣儲(chǔ)量?jī)r(jià)值優(yōu)劣分級(jí)在參數(shù)合適和樣本足夠多的情況下能夠得到較好的判別效果,但參數(shù)隱層個(gè)數(shù)和學(xué)習(xí)率的確定是一個(gè)難點(diǎn),具體應(yīng)用中這些參數(shù)需根據(jù)實(shí)際情況來確定。筆者采用最小二乘支持向量機(jī)法對(duì)油氣儲(chǔ)量?jī)r(jià)值分級(jí)進(jìn)行仿真,將油氣儲(chǔ)量?jī)r(jià)值劃分為優(yōu)、良、中、差4個(gè)等級(jí)。
支持向量機(jī)(SVM)能較好地解決小樣本、非線性、高維數(shù)和局部極小點(diǎn)等實(shí)際問題,已成為機(jī)器學(xué)習(xí)界的研究熱點(diǎn)之一[7]。最小二乘支持向量機(jī)(LS-SVM)是標(biāo)準(zhǔn)支持向量機(jī)的改進(jìn),該方法用等式約束代替標(biāo)準(zhǔn)支持向量機(jī)算法中的不等式約束,并將求解二次規(guī)劃問題轉(zhuǎn)化為直接求解線性方程組,降低了計(jì)算復(fù)雜度,在許多分類或回歸估計(jì)問題中取得了很好的應(yīng)用效果[8]。
支持向量機(jī)的基本思想是,首先經(jīng)非線性映射φ(x):RN→H把輸入變量從原空間(RN)映射到高維特征空間(H)中,然后在高維特征空間中建立優(yōu)化超平面,并在該空間中進(jìn)行線性分類。在線性情況下只用到了原空間的點(diǎn)積運(yùn)算,在非線性空間中也只須考慮在高維特征空間的內(nèi)積運(yùn)算,甚至不需要知道映射φ的具體形式[9]。
設(shè)樣本集S={(xi,yi)}(i=1,2,…,N),xi為輸入矢量,yi為輸出矢量,N為樣本個(gè)數(shù)。首先將輸入變量從原空間映射到高維空間:φ(x)=(φ1(x),φ2(x),…,φn(x),…)。在高維特征空間中,如果訓(xùn)練數(shù)據(jù)集是線性可分的,則存在分類超平面。為了描述分類超平面,并考慮存在不能被分類超平面正確分類的樣本,引入了松弛向量即誤差量εi≥0,超平面的約束條件為
式中,w為超平面法線方向;b為常數(shù)。
為了得到一個(gè)大邊緣的最優(yōu)超分類面,取訓(xùn)練集到超平面的最小距離最大。對(duì)于最小二乘支持向量機(jī)方法,高維特征空間中線性不可分相對(duì)應(yīng)的優(yōu)化問題轉(zhuǎn)化為如下最優(yōu)問題:
其中,C為常數(shù),控制錯(cuò)分樣本懲罰的程度,實(shí)現(xiàn)在錯(cuò)分樣本的比例與算法復(fù)雜度之間的折中,稱為懲罰因子。要尋找最優(yōu)化分類面,就是要求解式(1)所示的二次規(guī)劃問題,找到唯一的極小點(diǎn)。最小二乘支持向量機(jī)優(yōu)化目標(biāo)采用εi的平方項(xiàng),且不等式約束也變?yōu)槿缦碌仁郊s束:
為了解決該二次規(guī)劃問題,建立拉格朗日函數(shù)
式中,α為拉格朗日乘子。根據(jù)庫(kù)恩-塔克最優(yōu)化條件有
將式(4)消去w和εi,變?yōu)榫€性方程組,可用最小二乘法求得b和α。因此得到的分類決策函數(shù)即最小二乘支持向量機(jī)為
式中,K(x,xi)為核函數(shù)。核函數(shù)將高維特征空間中內(nèi)積運(yùn)算轉(zhuǎn)化為低維輸入空間上一個(gè)簡(jiǎn)單的函數(shù)計(jì)算。選擇不同的核函數(shù)就會(huì)得到不同的支持向量機(jī)。目前,在支持向量機(jī)中經(jīng)常使用的核函數(shù)有以下3種:
目前,還沒有很好的方法來指導(dǎo)具體問題的核函數(shù)的選取。一般地,由于徑向基核函數(shù)是個(gè)可適用于任意分布樣本的普適函數(shù),且僅有一個(gè)參數(shù)寬度系數(shù)σ,并能很好地反映模型選擇的復(fù)雜度,因此被廣為應(yīng)用。如彭濤、楊斌[9-10]等在分類識(shí)別時(shí)對(duì)采用不同核函數(shù)的結(jié)果做了對(duì)比分析,發(fā)現(xiàn)徑向基核函數(shù)分類效果最好。本研究中也做了對(duì)比分析,最終選定了徑向基函數(shù)作為核函數(shù)。
核函數(shù)確定后,最小二乘支持向量機(jī)模型有兩個(gè)參數(shù)需確定:懲罰因子C和核函數(shù)參數(shù)σ。懲罰因子C用于控制模型復(fù)雜度和逼近誤差的折中,C越大則對(duì)數(shù)據(jù)的擬合程度越高,學(xué)習(xí)機(jī)的復(fù)雜度就越高,容易出現(xiàn)“過學(xué)習(xí)”的現(xiàn)象;而C取值過小,則對(duì)經(jīng)驗(yàn)誤差的懲罰小,學(xué)習(xí)機(jī)的復(fù)雜度低,就會(huì)出現(xiàn)“欠學(xué)習(xí)”的現(xiàn)象;當(dāng)C的取值大到一定程度時(shí),最小二乘支持向量機(jī)模型的復(fù)雜度將超過空間復(fù)雜度的最大范圍,那么C繼續(xù)增大將幾乎不會(huì)對(duì)最小二乘支持向量機(jī)的性能產(chǎn)生影響。徑向基核函數(shù)參數(shù)σ的取值直接影響模型的分類精度。
目前,還沒有公認(rèn)的方法來確定這兩個(gè)參數(shù)。本文中采用網(wǎng)格搜索法[10],將C和σ分別作為網(wǎng)格的橫向和縱向,思路是首先將參數(shù)C和σ的選取范圍設(shè)定得較大些,設(shè)定較大步長(zhǎng)進(jìn)行支持向量機(jī)仿真,比較選取不同參數(shù)數(shù)值時(shí)的訓(xùn)練正判率和檢驗(yàn)正判率,選取一組正判率最高的參數(shù)數(shù)值,然后再以該數(shù)值為中心縮小參數(shù)范圍,同時(shí)參數(shù)選取的步長(zhǎng)也適當(dāng)?shù)販p小,即通過這樣的選取方法一步一步縮小參數(shù)選取的范圍,直到得到滿意的訓(xùn)練正判率和檢驗(yàn)正判率為止,此時(shí)C和σ的數(shù)值就非常接近其最優(yōu)數(shù)值。
利用最小二乘支持向量機(jī)方法進(jìn)行油氣儲(chǔ)量?jī)r(jià)值等級(jí)劃分的核心是建立一個(gè)訓(xùn)練樣本集,通過確定合適的核函數(shù)及參數(shù),對(duì)已知樣本集進(jìn)行學(xué)習(xí)與訓(xùn)練,最后確定最優(yōu)決策函數(shù),并利用該函數(shù)進(jìn)行價(jià)值等級(jí)評(píng)價(jià)和預(yù)測(cè)。
油氣儲(chǔ)量?jī)r(jià)值等級(jí)分級(jí)是在地質(zhì)勘探、地質(zhì)評(píng)價(jià)基礎(chǔ)上,根據(jù)已發(fā)現(xiàn)油氣田油氣資源條件對(duì)油氣勘探開發(fā)經(jīng)濟(jì)效益的影響,確定油氣儲(chǔ)量?jī)r(jià)值的優(yōu)劣等級(jí)。油氣儲(chǔ)量?jī)r(jià)值=可采儲(chǔ)量×油氣價(jià)格-總開發(fā)投資-總經(jīng)營(yíng)成本。一定的市場(chǎng)條件下,影響油氣儲(chǔ)量?jī)r(jià)值的因素有可采儲(chǔ)量、開發(fā)投資和經(jīng)營(yíng)成本。依據(jù)油氣儲(chǔ)量資產(chǎn)特點(diǎn)和數(shù)據(jù)可得性,本文中選取了7個(gè)影響油氣儲(chǔ)量?jī)r(jià)值優(yōu)劣的因素,即儲(chǔ)量規(guī)模、儲(chǔ)量豐度、儲(chǔ)層埋深、滲透率、原油黏度、凝固點(diǎn)和采收率,這7個(gè)影響因素作為油氣儲(chǔ)量?jī)r(jià)值分級(jí)支持向量機(jī)的輸入;輸出為油氣儲(chǔ)量的4個(gè)價(jià)值等級(jí),即優(yōu)、良、中、差,分別用1、2、3、4來表示。本文中從中石化勝利油田搜集了99個(gè)已知價(jià)值等級(jí)的油氣儲(chǔ)量區(qū)塊數(shù)據(jù),隨機(jī)選取73個(gè)作為訓(xùn)練樣本,其余26個(gè)作為檢驗(yàn)樣本,具體數(shù)據(jù)見表1和表2,建立影響油氣儲(chǔ)量?jī)r(jià)值等級(jí)因素的樣本集,即最小二乘支持向量機(jī)的學(xué)習(xí)集。
表1 學(xué)習(xí)原始數(shù)據(jù)及判別結(jié)果Tab le 1 Training database and classification result
表2 支持向量機(jī)評(píng)價(jià)結(jié)果Tab le 2 Assessment result of support vector machine
不同性質(zhì)的指標(biāo)對(duì)油氣儲(chǔ)量?jī)r(jià)值影響方向不同,影響油氣儲(chǔ)量?jī)r(jià)值的正向指標(biāo)有儲(chǔ)量規(guī)模、儲(chǔ)量豐度、滲透率和采收率,逆向指標(biāo)有儲(chǔ)層埋深、原油黏度和凝固點(diǎn)。另外,不同指標(biāo)數(shù)據(jù)在數(shù)量級(jí)上有很大差異。因此,有必要對(duì)原始數(shù)據(jù)做標(biāo)準(zhǔn)化處理,將其化為[-1,1]之間的數(shù)。設(shè)xi為原始數(shù)據(jù),yi為標(biāo)準(zhǔn)化處理后的數(shù)據(jù),標(biāo)準(zhǔn)化方式如下:
在學(xué)習(xí)樣本集確定后,支持向量機(jī)的參數(shù)懲罰因子C和核函數(shù)參數(shù)σ的尋求過程實(shí)質(zhì)上就是預(yù)測(cè)模型的建立過程。網(wǎng)格搜索法確定參數(shù)的過程如下:
(1)憑經(jīng)驗(yàn)選定一組懲罰因子C和核參數(shù)σ的范圍,如C取2-10~215,σ取210~2-15;
(2)設(shè)定搜索步長(zhǎng)分別為-1和1,訓(xùn)練支持向量機(jī)并開展檢驗(yàn),得到訓(xùn)練正判率和檢驗(yàn)正判率最高的一組C和σ分別為128和0.5;
(3)重新選定C和σ的范圍,將其范圍縮小,設(shè)定C取2~200,σ取2-3~22;
(4)設(shè)定C的搜索步長(zhǎng)為1,σ的搜索步長(zhǎng)為0.1,訓(xùn)練支持向量機(jī)并開展檢驗(yàn),得出訓(xùn)練正判率和檢驗(yàn)正判率最高的一組C和σ,分別為133和0.57,對(duì)應(yīng)的訓(xùn)練正判率為95%,檢驗(yàn)正判率為81%,符合評(píng)價(jià)要求。因此,該C和σ的數(shù)值就是最小二乘支持向量機(jī)的最優(yōu)參數(shù)。
懲罰因子C和核參數(shù)σ確定后,就可以構(gòu)建出支持向量機(jī)模型,學(xué)習(xí)判別結(jié)果列在表1(其中,區(qū)塊3為訓(xùn)練出錯(cuò)的區(qū)塊)的最后一列。在訓(xùn)練樣本的73個(gè)數(shù)據(jù)中,有4個(gè)出現(xiàn)誤判,正判率達(dá)到95%,在檢驗(yàn)樣本的26個(gè)數(shù)據(jù)中,有5個(gè)出現(xiàn)誤判,正判率達(dá)到81%。
用訓(xùn)練好的油氣儲(chǔ)量?jī)r(jià)值分級(jí)支持向量機(jī)模型對(duì)未知價(jià)值等級(jí)的59個(gè)油氣儲(chǔ)量區(qū)塊進(jìn)行評(píng)價(jià),評(píng)價(jià)結(jié)果列在表2最后一列。結(jié)果顯示,儲(chǔ)量?jī)r(jià)值劃分為良的區(qū)塊有14個(gè),占24%;中等的區(qū)塊有42個(gè),占71%;差的區(qū)塊有3個(gè),占5%;優(yōu)級(jí)區(qū)塊沒有。
(1)最小二乘支持向量機(jī)可以應(yīng)用于油氣儲(chǔ)量?jī)r(jià)值等級(jí)的劃分,訓(xùn)練正判率達(dá)到95%,檢驗(yàn)正判率達(dá)到81%。
(2)網(wǎng)格搜索法是確定最小二乘支持向量機(jī)參數(shù)懲罰因子C和核參數(shù)σ的有效方法。最小二乘支持向量機(jī)模型中,參數(shù)的確定過程也就是向量機(jī)的訓(xùn)練過程。采用網(wǎng)格搜索法逐步縮小參數(shù)的搜索范圍,使確定出的參數(shù)越來越逼近最優(yōu)數(shù)值,簡(jiǎn)單實(shí)用。
(3)在支持向量機(jī)學(xué)習(xí)集中油氣儲(chǔ)量?jī)r(jià)值優(yōu)等的數(shù)據(jù)較少,只有3個(gè),今后需要豐富價(jià)值優(yōu)等的油氣儲(chǔ)量區(qū)塊數(shù)據(jù),使支持向量機(jī)的學(xué)習(xí)樣本更具有代表性。
[1]孟偉.油氣儲(chǔ)量?jī)r(jià)值分級(jí)評(píng)價(jià)研究[J].新疆地質(zhì),2000,18(3):43.
MENGWei.The research of grade reserve value of oil and gas[J].Xinjiang Geology,2000,18(3):43.
[2]周曉俊.油氣儲(chǔ)量?jī)r(jià)值分級(jí)評(píng)價(jià)與風(fēng)險(xiǎn)分析[D].天津:天津大學(xué)管理學(xué)院,2001.
ZHOU Xiao-jun.Graded appraisal of hydrocarbon reserve value and risk analysis[D].Tianjin:School of Management,Tianjin University,2001.
[3]袁自學(xué),酈君一.油氣儲(chǔ)量資產(chǎn)評(píng)估方法和資產(chǎn)化管理探討[M].北京:石油工業(yè)出版社,2000.
[4]胡健,劉永愛,李志學(xué).天然氣儲(chǔ)量的價(jià)值分級(jí)模型設(shè)計(jì)與檢驗(yàn)[J].西北大學(xué)學(xué)報(bào):自然科學(xué)版,2005,35 (4):479-483.
HU Jian,LIU Yong-ai,LIZhi-xue.A model design and checking of value classification of natural gas reserves[J].Journalof Northwest University(Natural Science E-dition),2005,35(4):479-483.
[5]趙慶飛,李麗娜,徐向華,等.天然氣儲(chǔ)量?jī)r(jià)值評(píng)估模型[J].資源與產(chǎn)業(yè),2006,8(2):39-42.
ZHAO Qing-fei,LI Li-na,XU Xiang-hua,et al.Model of value evaluation of natural gas reserves[J].Resources&Industry,2006,8(2):39-42.
[6]王化增,遲國(guó)泰,程硯秋.基于BP神經(jīng)網(wǎng)絡(luò)的油氣儲(chǔ)量?jī)r(jià)值等級(jí)劃分[J].中國(guó)人口·資源與環(huán)境,2010,20(6):41-46.
WANG Hua-zeng,CHIGuo-tai,CHENG Yan-qiu.Applying BP neural network to grade reserve value of oil and gas[J].China Population,Resources and Environment,2010,20(6):41-46.
[7]程愛輝,高茂庭.基于聚類的LS-SVM的入侵檢測(cè)方法研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2010(5):14-16.
CHENG Ai-hui,GAO Mao-ting.Research of the intrusion detection method based on clustering LS-SVM[J].Network Security Technology and Application,2010(5): 14-16.
[8]符楊,張雷,江玉蓉,等.基于可靠性數(shù)據(jù)分析和最小二乘支持向量機(jī)的電力變壓器故障診斷[J].變壓器,2010,47(9):47-50.
FU Yang,ZHANG Lei,JIANG Yu-rong,et al.Power transformer fault diagnosis based on data reliability analysis and least squares support vectormachine[J].Transformer,2010,47(9):47-50.
[9]彭濤,張翔.支持向量機(jī)及其在石油勘探開發(fā)中的應(yīng)用綜述[J].勘探地球物理進(jìn)展,2007,30(2):91-95.
PENG Tao,ZHANG Xiang.Review of supportvectormachine and its applications in petroleum exploration and development[J].Progress in Exploration Geophysics,2007,30(2):91-95.
[10]楊斌,匡立春,孫中春.一種用于測(cè)井油氣層綜合識(shí)別的支持向量機(jī)方法[J].測(cè)井技術(shù),2005,29(6): 511-514.
YANG Bin,KUANG Li-chun,SUN Zhong-chun.On support vector machines method to identify oil&gas zone with logging and mudlog information[J].Well Logging Technology,2005,29(6):511-514.
Assessing value classification of oil and gas reserve based on support vector machine
YANG Lei1,WANG Hua-zeng2,CHEN Zi-ling3
(1.School of Econom ics&Management in China University of Petroleum,Qingdao 266580,China; 2.ShengliOilfield Dongsheng Group of SINOPEC,Dongying 257091,China; 3.Materials Company of PetroChina,Beijing 100029,China)
Based on the characteristics of oil and gas reserve,value classification of oil and gas reserve was assessed.Seven factors influencing value classification of oil and gas reserve were chosen,which were reserve scale,reserve abundance,reserve depth,oil viscosity,permeability,freezing point and recovery ratio.Least square support vector machinemodel was applied to simulate value degradation of oil and gas reserve.The parameters of penalty factor C and kernel function parameter σcan be decided by grid searchingmethod.The results show that least square supportvectormachine is a validmethod in the value classification of oil and gas reserve.The right rate of training is up to 95%and the right rate of testing is up to 81%.
least square support vectormachine;oil and gas reserve;value degradation
X 196
A
10.3969/j.issn.1673-5005.2012.03.033
1673-5005(2012)03-0192-05
2011-12-29
山東省自然科學(xué)基金項(xiàng)目(ZR2009HM010);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(09CX04085B;09CX05015B)
楊磊(1974-),女(漢族),山東東營(yíng)人,講師,博士,研究方向?yàn)榄h(huán)境經(jīng)濟(jì)學(xué)。
(編輯 修榮榮)
中國(guó)石油大學(xué)學(xué)報(bào)(自然科學(xué)版)2012年3期