同曉
摘要:隨著油田生產開發(fā)的不斷深入,目前,我國大多數的油田已進入高含水或特高含水期。為確保原油的穩(wěn)產以及高產,提高抗擊的能力,必須建立油田開發(fā)動態(tài)預警系統(tǒng)。其中預警指標的選取,則成為建立預警系統(tǒng)時相當重要的一部分,本文將數據挖掘中的關聯(lián)規(guī)則應用于預警指標的選取工作中,并完成了預警指標的選取,為建立油田開發(fā)預警系統(tǒng)提供了基礎。
關鍵詞:關聯(lián)規(guī)則;預警指標;數據挖掘
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)05-0233-02
目前,我國多數油田生產已進入高含水或特高含水期,為保證原油的穩(wěn)產甚至高產,必須及時準確地進行油田開發(fā)動態(tài)的評價與預警。本文利用數據挖掘中的關聯(lián)規(guī)則算法對油田開發(fā)動態(tài)預警系統(tǒng)的預警指標進行確定,通過分析各項開發(fā)指標的關聯(lián)度,確定了與原油產量關聯(lián)度較高的10個生產因素,作為油田開發(fā)動態(tài)預警系統(tǒng)的預警指標,為下一步油田開發(fā)動態(tài)預警系統(tǒng)的完成打下基礎。 將油田生產開發(fā)過程中可能出現(xiàn)的文獻情況提前告知油田開發(fā)管理部門,以盡快做出防范措施,進而保證油田原油的穩(wěn)產以及高產。
1 關聯(lián)規(guī)則
假設I={i1,i2,…,im}是數據項的集合,D是數據庫事務的集合,其中的事務用I表示,I?I。D中所有的事務都有一個唯一的標識TID。設A是一個項集,事務I包含A,當且僅當A?I。
同時滿足最小支持度和置信度閾值的關聯(lián)規(guī)則,稱為強關聯(lián)規(guī)則,一般用0%~100%之間的值表示。項的集合稱為項集,包含項集的事務個數稱之為頻度,如果項集A出現(xiàn)的頻度大于給定的最小支持度,可稱之為頻繁項集。
通常情況下,關聯(lián)規(guī)則挖掘可以理解為兩部分內容:
1)尋找頻繁項目集:找出滿足最小支持度的所有頻繁項集,即就是支持度大于等于最小支持度的項目子集。
2)產生關聯(lián)規(guī)則:在所有的頻繁項集中,找出滿足最小支持度和最小置信度的關聯(lián)規(guī)則。
2 Aprior算法
1994年,Agrawal提了Aprior算法,該算法利用逐層搜索的迭代方法,利用K—1項集可搜索得到K項集。首先,對數據庫進行完整掃描,對每個項的計數進行累加,同時找到所有滿足最小支持度的項,找到頻繁1項集的集合,標記為L1。而后,用L2找出頻繁2項的集合L2,接下來再有L2找到L3,按照這樣的方式不斷迭代,直到頻繁K項搜索完成為止。其中每查找一次L都需要完成一次數據庫的全面掃描。
Aprior算法一般可以分為兩個步驟:連接步和剪枝步。
1)連接步
為了找到Lk,一般會將Lk-與自身進行連接生成集合候選K項集。該集合記為Ck。假設L1和L2為Ik-1中的項集。Apriori 算法假設事務或項集中的項按字典排序排列。對于(k-1)項集L i ,則有排序 L i[1]1 可理解為當(L1[1]=L2[1])∧(L1[2]=L2[2]) ∧(L1[3]=L2[3]) ∧…∧(L1[k-2]=L2[k-2]) ∧(L1[k-1]=L2[k-1])時,則LK-1的元素L1和L2可以完成連接的。 2)剪枝步 定義CK是LK的超集,即就是CK中的項既可以是頻繁項也可以不是,但是它包含所有的頻繁K項。對數據庫進行掃描,確定CK中每個候選集的數目,并且確定LK。 算法步驟描述: 輸入項:事務數據庫D;最小支持度;最小置信度。 輸出項:事務數據庫D中所有的頻繁項集L以及強關聯(lián)規(guī)則。 3 預警指標的選取 油田開發(fā)動態(tài)預警就是以油田的歷史生產數據、地質分析、開發(fā)規(guī)劃、相關生產資料以及專家的咨詢意見為依據,建立的預測體系,將油田面臨的產油波動情況和危險情況預先告知油田開發(fā)管理者和決策層,并分析造成危險狀況的原因,以便油田開發(fā)管理者以及決策層提前做好防范措施,保證原油的穩(wěn)產以及高產。 要完成油田生產預警系統(tǒng)的建立,我們必須要選取合理的預警指標。在油田生產過程中,影響原油產量的因素大體可分為地質因素和人為因素兩大類。地質因素,從某種程度上說是不可改變的,可控性較弱。而人為因素則相對比較容易控制,預警系統(tǒng)選取的預警指標通常也就是這些可控性較強的認為因素,如采油速度、注水量、綜合遞減率等等。 選擇油田生產預警指標的時候,既要建立合理的預警體系的框架,又要確保各個生產指標間的相互獨立性。因此,我們可從油田各項開發(fā)指標中按一定的要求提取出歷史數據,對那些影響原油產量指標參數進行挖掘,找到影響原油產量某些參數的關聯(lián)規(guī)則,從而以更好地選取預警指標,提高預警的準確效率。 我們以采油一廠的歷史數據為基礎,利用數據挖掘中的關聯(lián)規(guī)則完成預警指標的選取。首先完成數據的預處理,然后建立數據倉庫,在此基礎上挖掘所需關聯(lián)規(guī)則。 3.1 數據處理 1)空值處理:本文利用牛頓差值多項式的計算方法,對原始數據中的空值進行填充。 2)噪聲數據:在原油生產過程中,影響原油產量的因素很多,包括可控因素和不可控因素,相應的數據類型也會比較多。在利用 Apriori 算法進行關聯(lián)規(guī)則挖掘之前,我們必須對原始數據進行處理,同時結合實際生產情況和專家提供合理數據范圍,檢查各數據表中的數據,利用聚類或分類的方法來找出噪聲數據,然后將噪聲數據看做空值,利用空值處理的方法替換噪聲數據。 3)數據集成:從數據倉庫中整理數據建立數據集為關聯(lián)規(guī)則的挖掘準備,Apriori算法屬于單維度關聯(lián)規(guī)則挖掘,因此要對原始數據進行變換,使之成為同一個字段類型的數據表。
數據集成方法:首先,確定每一個屬性意義和相應的原始數據;然后,根據各數據表的主鍵和外鍵并找到與它們相連接的源數據。完成數據的集成。接下來進行關聯(lián)規(guī)則挖掘就需要用到這些數據集成。另外,數據集成的過程中,應該將實體類型和驅動分類碼日期屬性進行刪除,來提高數據挖掘的效率。
3.2 關聯(lián)規(guī)則挖掘
本文中將油田開發(fā)過程中的20個生產因素作如下的命名,I1(舉升方式),I 2(月產油量),I 3(采油速度),I 4(月注入量),I5(月虧空),I 6(綜合含水率),I 7(平均動液面),I 8(采出井開井數),I 9(注入開井數),I10(采液速度),I11(井口壓力),I12(綜合遞減率),I13(自然遞減率),I14(平均流壓),I15(綜合氣油比),I16(累積注入孔隙體積),I17(地質儲量采出程度),I18(井口粘度),I19(月注采比),I20(油井利用率)。
對采油一廠的2011年到2013年的數據進行預處理,利用數據挖掘中的Apriori算法進行挖掘,得到如表3-1所示的11項關聯(lián)規(guī)則。
本文設置最小支持度和置信度為0.05和90%。油田生產預警系統(tǒng)的主要對原油產量的數據進行監(jiān)測,所以選取能夠挖掘出原油產量的第三條規(guī)則,表示舉升方式、采油速度、綜合含水率、采液速度、綜合遞減率、自然遞減率、綜合氣油比、地質儲量采出程度、月注采比和油井利用率具有相同變化趨勢次數大于等于23次,并且當這10項指標發(fā)生變化時,原油產量變化的概率是100%。
利用Apriori 算法完成的關聯(lián)規(guī)則挖掘,選取出了用于油田生產動態(tài)預警的預警指標??梢钥闯觯e升方式、采油速度、綜合含水率、采液速度、綜合遞減率、自然遞減率、綜合氣油比、地質儲量采出程度、月注采比和油井利用率這 10 項油田生產指標可以作為下一步建立油田動態(tài)預警系統(tǒng)的預警指標體系。
4 預警系統(tǒng)的建立
完成預警指標的選取之后,我們下一步就是建立預警系統(tǒng),預警系統(tǒng)的主要思想是將檢測得到的生產數據,與預測得到的數據進行差值分析,然后根據差值來確定危險的嚴重程度,給出相應的預警信號。
參考文獻:
[1] 范秋芳,中國石油安全預警及對策研究對策[D] 中國科學技術大學,2007.
[2] 張孝天,油田開發(fā)預警方法研究及應用[M] 中國科技信息,2013(8):37
[3]馬立平,任寶生,趙明.油田水驅開發(fā)動態(tài)系統(tǒng)預警指標體系的構建[J].特種油氣藏,2010,17(4):62-65.
[4] 張增虎.中國石油和化工標準與質量[J]. 2013(02):130.
[5] 張英, 吳茂雪. 關聯(lián)規(guī)則挖掘算法 [J]. 電腦編程技巧與維護,2014(23):17-23.
[6] 岳杰,肖由, 譚露.關聯(lián)規(guī)則挖掘在應急管理系統(tǒng)中的應用[J].冶金自動化,2013(1):56-58.