(中國石化勝利油田管理局,山東 東營 257001)
設(shè)備壽命周期費用(life cycle cost,LCC)是指設(shè)備在整個生命周期的購置,使用、維修、保障等過程中發(fā)生的費用總和[1],是進(jìn)行設(shè)備選型、招標(biāo)、管理的重要依據(jù)。影響設(shè)備LCC的因素眾多,建立準(zhǔn)確和簡單的設(shè)備LCC估算模型比較困難。為此,提出采用主成分分析法,來減少設(shè)備LCC影響因素的數(shù)量;針對LCC估算存在非線性特性,提出在主成分分析的基礎(chǔ)上,采用支持向量機(jī)技術(shù)來建立設(shè)備LCC回歸估算模型。
主成分分析將原數(shù)據(jù)指標(biāo)變量經(jīng)過分析得到幾個主成分,這些主成分是原指標(biāo)的加權(quán)組合,權(quán)數(shù)是基于數(shù)據(jù)分析而得到的指標(biāo)之間的內(nèi)在結(jié)構(gòu)關(guān)系,不受主觀因素的影響[2]。原數(shù)據(jù)的信息會集中在前幾個主成分之中,這幾個主成分就可以達(dá)到較高的貢獻(xiàn)率。
設(shè)X1,X2,…,Xp為某設(shè)備指標(biāo)參數(shù)所涉及的隨機(jī)變量,記X=(X1,X2,…,Xp)T, 其協(xié)方差矩陣為
M=(σij)p×p=E[(X-E(X))(X-E(X))T]
(1)
M是一個p階非負(fù)定矩陣,設(shè)li=(li1,li2,…,lin)T(i=1,2,…,p)為p個常數(shù)向量,考慮如下線性組合:
(2)
X1,X2,…,Xp為某型號設(shè)備的某個指標(biāo)參數(shù)的隨機(jī)變量,因為各參數(shù)的單位不同,數(shù)量級也有很大差別,所以要對這些數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)處理,一般的方法為
(3)
∑=(σij)p×p=
E[(X*-E(X*))(X*-E(X*))T]
(4)
計算得到標(biāo)準(zhǔn)化的矩陣的協(xié)方差矩陣,求得其協(xié)方差矩陣的特征值λ1,λ2,…,λp和相應(yīng)的正交單位化特征向量為e1,e2,…ep,其中ei=(ei1,ei2,…,eip)T,則第i個樣本主成分為
(5)
考慮到費用數(shù)據(jù)樣本少的特點,選取支持向量機(jī)來建模[3-4]。
支持向量機(jī)算法的基本思想為:設(shè)有樣本{(xi,yi)}(i=1,2,…,m),其中,xi∈Rn為輸入量;yi∈Rn為目標(biāo)輸出值。
選擇一個非線性變換Φ(x),將樣本從原空間Rn映射到高維特征空間Ω,并在該高維特征空間構(gòu)造最優(yōu)線性回歸函數(shù):
f(x)=ω·Φ(x)+b
(6)
根據(jù)結(jié)構(gòu)風(fēng)險最小化原則,參數(shù)ω和b可通過最小化式:
(7)
C——控制對超出誤差限的樣本的懲罰因子;
ε——不敏感系數(shù)。
引入拉格朗日函數(shù),將式(7)轉(zhuǎn)化為對偶問題,
(8)
K(xi,xj)——按照Mercer定理定義的內(nèi)積核。
第一步是利用主成分分析法,通過一系列空間轉(zhuǎn)換,用少數(shù)變量來代替原始數(shù)據(jù),減少變量數(shù)量;第二步,利用支持向量機(jī)對處理過的數(shù)據(jù)預(yù)測。主成分與支持向量機(jī)相結(jié)合,克服了支持向量機(jī)計算量大,計算速度慢,效率低的問題。利用Matlab工具編寫相應(yīng)的支持向量機(jī)函數(shù),確定核函數(shù)和設(shè)定參數(shù),對設(shè)備LCC進(jìn)行預(yù)測。
收集得到某五種型號的油井助排器的設(shè)備LCC影響因素P1~P7,見表1。
表1 油井助排器LCC影響因素
利用Matlab工具,使用cov,eig函數(shù)可以得到其線性組合的特征值以及相應(yīng)的正交單位化特征向量,計算結(jié)果見表2。
表2 影響因素的特征值以及正交單位化特征向量
(9)
相關(guān)原始數(shù)據(jù)由以上數(shù)據(jù)可知Y1、Y2、Y3前三個變量的貢獻(xiàn)率已經(jīng)達(dá)到0.80%以上,所以用這三個變量就可以反映出其原始數(shù)據(jù)的絕大部分信息。
支持向量機(jī)回歸,要選擇核函數(shù)的種類,確定懲罰因子C不敏感系數(shù)ε,在核函數(shù)和設(shè)定參數(shù)的選擇上采用基于數(shù)據(jù)的誤差最小原則,因為不同的數(shù)據(jù)包含了不同的特征,會對參數(shù)的選擇產(chǎn)生影響,即不同的問題會有不同的參數(shù)選擇。在2.1中已經(jīng)計算出了原始數(shù)據(jù)的3個主成分?jǐn)?shù)據(jù),將這些數(shù)據(jù)作為輸入訓(xùn)練樣本,通過Matlab程序的循環(huán)計算得到誤差最小的一組參數(shù)。
計算得到設(shè)定參數(shù)C=10,ε=0.000 1,核函數(shù)采用徑向基函數(shù)網(wǎng)絡(luò)K(xi,xj)=φT(xi)φ(xj),表達(dá)式為
(10)
式中:σ2——徑向基核函數(shù)的寬度系數(shù)。
將C、ε、訓(xùn)練樣本{(xi,yi)}輸入Matlab程序得到相應(yīng)的回歸模型,將要預(yù)測的輸入數(shù)據(jù)X1,X2,…,Xp,用式(9)來計算其3個主成分Y1、Y2、Y3,輸出預(yù)測數(shù)據(jù)LCC,見表3??梢钥闯鲱A(yù)測誤差在4%以內(nèi),滿足預(yù)測的要求。
表3 預(yù)測數(shù)據(jù)表
應(yīng)用主成分方法將原始數(shù)據(jù)約簡為3個參數(shù)的數(shù)據(jù)組合,再根據(jù)這些組合數(shù)據(jù)輸入到Matlab中,利用Matlab支持向量機(jī)工具進(jìn)行預(yù)測,可以計算出各點的預(yù)測值,并且可以直接輸出圖形,直觀地看出預(yù)測效果。圖1是以第一主成分為橫坐標(biāo)的總費用預(yù)測圖形,模型預(yù)測數(shù)據(jù)與真實值比較貼近。
圖1 預(yù)測分析
運用主成分的方法,對設(shè)備LCC影響因素進(jìn)行數(shù)據(jù)分析,減少了分析因素的維數(shù),可以減少相關(guān)因素的影響,降低支持向量機(jī)預(yù)測的計算量,同時降低數(shù)據(jù)的不確定性。實例分析表明基于主成分和支持向量機(jī)的LCC建模方法是可行的。
[1] 羅 云,張俊邁,吳奕亮.設(shè)備LCC方法及其應(yīng)用[M].北京:海洋出版社,1992.
[2] 顧紹紅,王永生,王光霞.主成分分析模型在數(shù)據(jù)處理中的應(yīng)用[J].測繪科學(xué)技術(shù)學(xué)報,2007(5):387-390.
[3] 童凱軍,單鈺銘,李海鵬,等.支持向量機(jī)回歸在氣井產(chǎn)能預(yù)測中的應(yīng)用[J].新疆石油地質(zhì), 2008,29(6):382-384.
[4] 黃 虎,嚴(yán)余松,蔣葛夫,等.基于支持向量回歸機(jī)的公路貨運量預(yù)測模型[J].計算機(jī)應(yīng)用研究,2008,25(2):632-634.