趙志峰,文 虎,高煒欣,郭 軍
(1.西安科技大學(xué) 能源學(xué)院,陜西 西安 710054; 2.西安石油大學(xué) 電子工程學(xué)院,陜西 西安 710065; 3.教育部 西部礦井開采及災(zāi)害防治重點(diǎn)實(shí)驗(yàn)室,陜西 西安710054)
?
長(zhǎng)輸管道完整性管理中的數(shù)據(jù)挖掘和知識(shí)決策
趙志峰1,2,文 虎1,3,高煒欣2,郭 軍1,3
(1.西安科技大學(xué) 能源學(xué)院,陜西 西安 710054; 2.西安石油大學(xué) 電子工程學(xué)院,陜西 西安 710065; 3.教育部 西部礦井開采及災(zāi)害防治重點(diǎn)實(shí)驗(yàn)室,陜西 西安710054)
為提高長(zhǎng)輸管道完整性管理中數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的能力,針對(duì)管道大數(shù)據(jù)的特點(diǎn),以管道外腐蝕中的土壤腐蝕數(shù)據(jù)管理與分析為例,對(duì)土壤電阻率、氧化還原電位、氯離子含量、硫酸根離子含量、含水量、pH值6種土壤腐蝕多因素指標(biāo),運(yùn)用粗糙集方法構(gòu)造管道土壤腐蝕多因素指標(biāo)數(shù)據(jù)集,建立決策表,進(jìn)行原始數(shù)據(jù)約簡(jiǎn),以及結(jié)構(gòu)重要度分析,從而在多指標(biāo)因素中找到反映該地區(qū)土壤腐蝕特點(diǎn)的核心判別指標(biāo),并根據(jù)其核心指標(biāo)因素利用決策樹規(guī)則,按照多指標(biāo)因素中結(jié)構(gòu)重要度的大小對(duì)決策樹結(jié)構(gòu)進(jìn)行優(yōu)化,建立分類規(guī)則模型,進(jìn)行有針對(duì)性的多因素管道土壤腐蝕診斷決策。利用模型對(duì)川氣東送梁平管道段的檢驗(yàn)樣本進(jìn)行了實(shí)例分析,診斷結(jié)果符合現(xiàn)場(chǎng)實(shí)際情況。
長(zhǎng)輸管道;完整性管理;土壤腐蝕;粗糙集;決策樹
趙志峰,文虎,高煒欣,等.長(zhǎng)輸管道完整性管理中的數(shù)據(jù)挖掘和知識(shí)決策[J].西安石油大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,31(4):109-114.
ZHAO Zhifeng,WEN Hu,GAO Weixin,et al.Data mining and knowledge decision in the integrity management of long-distance pipeline [J].Journal of Xi'an Shiyou University (Natural Science Edition),2016,31(4):109-114.
管道輸送具有高效、成本低、可穿越各種工況的特點(diǎn),在能源運(yùn)輸中發(fā)揮著難以取代的作用??墒枪艿酪坏┌l(fā)生事故不僅會(huì)帶來巨大的經(jīng)濟(jì)損失,也可能會(huì)導(dǎo)致人員傷亡和環(huán)境污染。管道完整性管理作為一種系統(tǒng)性的安全管理模式,是多年來管道安全管理的實(shí)踐體現(xiàn),它以預(yù)防為主的主動(dòng)維護(hù),通過分析并預(yù)測(cè)管道損傷的程度,以保證管道的結(jié)構(gòu)完整性[1]。
長(zhǎng)輸管道完整性管理以數(shù)據(jù)資料的采集、存儲(chǔ)、清洗及數(shù)據(jù)分析與挖掘?yàn)榛A(chǔ),其中數(shù)據(jù)的分析與挖掘是完整性管理的基礎(chǔ)核心和高效應(yīng)用的前提,為管道安全輸送決策服務(wù)[2]。目前,針對(duì)長(zhǎng)輸管道大數(shù)據(jù)分析研究的主要方法有:模糊數(shù)學(xué)邏輯法,由于其在隸屬函數(shù)中參數(shù)閾值的選取具有一定的主觀性,會(huì)對(duì)結(jié)果準(zhǔn)確率有較大影響[3];灰色系統(tǒng)分析法,它的關(guān)聯(lián)度求解算法有著明顯缺陷,導(dǎo)致結(jié)果可能不精確[4];神經(jīng)網(wǎng)絡(luò)分析法,存在著訓(xùn)練不足和訓(xùn)練過度的問題,性能不十分穩(wěn)定[5]。由于上述方法都有一定的局限性,由此可能出現(xiàn)長(zhǎng)輸管道完整性管理中預(yù)測(cè)預(yù)防的精度和準(zhǔn)確率不高,時(shí)效性較差,失去了發(fā)揮完整性管理應(yīng)有的效果。
土壤腐蝕數(shù)據(jù)管理與分析是管道外腐蝕安全管理的重要項(xiàng)目。由于管道工況的差異性,其土壤腐蝕多因素的選取和地域性的不同,造成多因素影響的因素和大小也不相同,由此可能出現(xiàn)管道完整性管理中土壤腐蝕參量選用不完全,甚至未考慮重要的腐蝕環(huán)境因素(如土壤電阻率、氧化還原電位、含水量、土壤pH值)與地域的關(guān)系[6],這種情況下會(huì)導(dǎo)致數(shù)據(jù)分析不完全,所得結(jié)果存在一定的片面性,甚至得到錯(cuò)誤的結(jié)果,影響到長(zhǎng)輸管道完整性管理決策的正確性。
以中石化川氣東送管道完整性管理項(xiàng)目梁平段為例,運(yùn)用基于粗糙集和決策樹的數(shù)學(xué)方法,對(duì)梁平段土壤腐蝕多因素的原始數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn),為該地區(qū)段的管道完整性管理提供決策服務(wù)。
1.1數(shù)據(jù)挖掘
針對(duì)梁平段土壤腐蝕現(xiàn)場(chǎng)采集的數(shù)據(jù),按試片取片數(shù)據(jù)以及采集批次進(jìn)行6種影響因素統(tǒng)計(jì),并隨機(jī)選取20組腐蝕數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,具體見表1。
表1 梁平段管道土壤腐蝕實(shí)際原始樣本指標(biāo)因素值Tab.1 Actual soil corrosion factors of Liangping section pipeline
粗糙集理論是處理不確定問題的數(shù)學(xué)工具,它在不需要考慮任何先驗(yàn)信息的條件下,直接通過對(duì)觀測(cè)數(shù)據(jù)進(jìn)行分析處理,利用粗集算法從決策表中刪除重復(fù)的相同信息和冗余項(xiàng),簡(jiǎn)化條件屬性,從而精簡(jiǎn)決策指標(biāo)[7]。
根據(jù)粗糙集方法將表1作為決策表,其中把長(zhǎng)輸管道土壤腐蝕選取點(diǎn)U={X1,X2,…,X20}作為研究對(duì)象,把管道土壤腐蝕所選取的影響因素T={土壤電阻率,氧化還原電位,氯離子質(zhì)量分?jǐn)?shù),…,pH值}作為條件屬性,管道土壤腐蝕的等級(jí)D={非常嚴(yán)重,嚴(yán)重,中等,輕微,極低}={5,4,3,2,1}作為決策屬性。根據(jù)腐蝕等級(jí)以及土壤腐蝕指標(biāo)因素分類模式要求[9-11]對(duì)表1進(jìn)行標(biāo)準(zhǔn)歸一化處理[8],結(jié)果見表2;結(jié)合粗糙集離散化要求對(duì)表1進(jìn)行離散化處理,見表3。將數(shù)據(jù)冗余項(xiàng)3(或6)、項(xiàng)2(或17)、項(xiàng)7(或14、或18)、項(xiàng)16(或19)刪除,得到的新決策表按約簡(jiǎn)決策規(guī)則進(jìn)行屬性約簡(jiǎn),以及結(jié)構(gòu)重要度分析。
表2 土壤腐蝕指標(biāo)因素分類區(qū)間Tab.2 Classification intervals of pipeline soil corrosion factors
表3 土壤腐蝕因素離散化數(shù)據(jù)Tab.3 Discretization of pipeline soil corrosion factors
1.2屬性約簡(jiǎn)和結(jié)構(gòu)重要度分析
決策表中條件屬性對(duì)于結(jié)果屬性的重要度小時(shí),可從決策表中刪除該條件屬性,進(jìn)而計(jì)算時(shí)去掉該屬性對(duì)結(jié)果屬性分類正域值的大小。值越小,說明該條件屬性對(duì)于決策屬性的重要度越??;值越大,說明該條件屬性對(duì)于決策屬性的重要度越大;其值為零,表示對(duì)結(jié)果屬性無影響,可以刪除。
結(jié)合梁平段管道土壤腐蝕數(shù)據(jù),定義整個(gè)數(shù)據(jù)集合為U,T和J分別為條件屬性集和結(jié)果屬性集,其中條件屬性集T含有:土壤電阻率a,氧化還原電位b,氯離子質(zhì)量分?jǐn)?shù)c,硫酸根離子質(zhì)量分?jǐn)?shù)d,含水率e,pH值f。結(jié)果屬性集J為土壤腐蝕等級(jí)。因此:
U/J={{1,4,5,7,9,11,13,15},{2,3,12,20},{8,10,16}};
U/T={{1,3},{2},{4},{5},{7},{8},{9},{10},{11},{12},{13},{15},{16},{20}};
U/T-a={{1,3},{2,5},{4},{7},{8},{9},{10},{11},{12},{13},{15},{16,20}};
U/T-b={{1,3,20},{2,8,10},{4},{5,13},{7},{9},{11},{12},{15},{16}};
U/T-c={{1,3},{2},{4},{5},{7},{8},{9},{10},{11},{12},{13},{15},{16},{20}};
U/T-d={{1,3},{2},{4},{5},{7,20},{8},{9},{10},{11},{12},{13},{15},{16}};
U/T-e={{1,3,5},{2},{4},{5},{7},{8},{9},{10,16},{11},{12},{13},{15},{20}};
U/T-f={{1,3},{2},{4},{5},{7},{8},{9,13},{10},{11},{12,20},{15}}。
結(jié)果屬性對(duì)各類的正域?yàn)?
POST(J)={2,4,5,7,8,9,10,11,12,13,15,16,20};
POST-a(J)={4,7,8,9,10,11,12,13,15};
POST-b(J)={4,5,7,9,11,12,13,15,16};
POST-c(J)={2,4,5,7,8,9,10,11,12,13,15,16,20};
POST-d(J)={2,4,5,8,9,10,11,12,13,15,16};
POST-e(J)={2,4,7,8,9,10,11,12,13,15,16,20};
POST-f(J)={2,4,5,7,8,9,10,11,12,13,15,16,20}。
各屬性的結(jié)構(gòu)重要度:
根據(jù)以上的計(jì)算可知,該管道外腐蝕土壤影響因素的重要性排序?yàn)椋?TJ(a)=?TJ(b)>?TJ(d)>?TJ(e)>?TJ(f)由于?TJ(c)和?TJ(f)=0,表明這2個(gè)條件屬性對(duì)結(jié)果無意義,可以刪除。同時(shí)刪除數(shù)據(jù)中的非正域項(xiàng)(第1和3項(xiàng))和冗余項(xiàng)第20項(xiàng)(與第12項(xiàng)重復(fù)),土壤腐蝕約簡(jiǎn)項(xiàng)見表4。
表4 土壤腐蝕約簡(jiǎn)項(xiàng)Tab.4 Simplification of pipeline soil corrosion factors
2.1建立決策樹
決策樹是一種樹型結(jié)構(gòu)的遞歸分類模型,它以實(shí)例數(shù)據(jù)為集合空間,利用樹型結(jié)構(gòu)將空間屬性分類,根節(jié)點(diǎn)以分類要求為依據(jù),每個(gè)分節(jié)點(diǎn)為一個(gè)分類問題,并分類成2個(gè)或2個(gè)以上的塊,每個(gè)塊再繼續(xù)分類直至葉節(jié)點(diǎn)的產(chǎn)生,一個(gè)葉節(jié)點(diǎn)就是某個(gè)屬性條件下分類的數(shù)據(jù)。從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的每一條路徑就代表了一條分類規(guī)則[2]。
建立決策樹的關(guān)鍵問題是構(gòu)造決策樹結(jié)構(gòu)的好壞,也就是對(duì)測(cè)試屬性的選擇和決策樹的修剪[13]。為了便于尋找分類規(guī)則,更好地進(jìn)行管道大數(shù)據(jù)中的知識(shí)發(fā)現(xiàn),決策樹的根節(jié)點(diǎn)要選取核心測(cè)試屬性,再通過核心測(cè)試屬性的不同值來構(gòu)造分支,其分支節(jié)點(diǎn)選取結(jié)構(gòu)重要度值大的測(cè)試屬性,運(yùn)用遞歸分類的方法重復(fù)建立。由于管道大數(shù)據(jù)集合空間的特性會(huì)導(dǎo)致過擬合的問題,因此有必要對(duì)決策樹進(jìn)行修剪,即將相反分類規(guī)則以及重復(fù)分類規(guī)則的冗余項(xiàng)刪除,以提高決策樹規(guī)則信息分類的能力。
針對(duì)梁平段管道土壤腐蝕數(shù)據(jù)的例子,選取表4中的前10項(xiàng)為分析數(shù)據(jù),后2項(xiàng)為測(cè)試分類檢驗(yàn)舉例,進(jìn)行土壤腐蝕多因素影響決策樹的屬性選擇、決策樹修剪和知識(shí)分類決策。對(duì)于決策樹的根節(jié)點(diǎn)選擇核心因素指標(biāo)土壤電阻率和氧化還原電位,分支節(jié)點(diǎn)根據(jù)非核屬性結(jié)構(gòu)重要度大小,依次選擇硫酸根離子質(zhì)量分?jǐn)?shù),含水率。葉節(jié)點(diǎn)為結(jié)果屬性土壤腐蝕等級(jí)。管道土壤腐蝕多因素分類決策樹如圖1所示。
圖1 管道土壤腐蝕多因素分類決策樹Fig.1 Multi-factor classification decision tree of pipeline soil corrosion
2.2知識(shí)發(fā)現(xiàn)
對(duì)圖1管道土壤腐蝕多因素分類決策樹進(jìn)行修剪。由于根節(jié)點(diǎn)土壤電阻率a與氧化還原電位b的核心屬性值相等,即結(jié)構(gòu)重要度相同,再根據(jù)分類規(guī)則可以看出:(3,3)-(1)-(3)-4級(jí),(3,3)-(2)-(5)-4級(jí),(4,1)-(2)-(4)-4級(jí),這3條規(guī)則可以被其他針對(duì)土壤腐蝕等級(jí)4級(jí)的分類規(guī)則包含在內(nèi),應(yīng)予以剪除。利用修剪后的決策樹對(duì)表4最后二項(xiàng)數(shù)據(jù)作測(cè)試分類檢驗(yàn),可以看出:第15項(xiàng)(2,4)-(3)-(5)屬于(3,2)-(3)-(3)-4級(jí)和(3,4)-(2)-(5)-4級(jí)之間,可以判定該測(cè)試數(shù)據(jù)結(jié)果屬性級(jí)別為4級(jí)。第16項(xiàng)(2,2)-(2)-(3)屬于(2,1)-(2)-(5)-2級(jí)和(2,2)-(2)-(5)-2級(jí)之間,可以判定該測(cè)試數(shù)據(jù)結(jié)果屬性級(jí)別為2級(jí)。以上測(cè)試數(shù)據(jù)的分析結(jié)果符合其現(xiàn)場(chǎng)實(shí)際結(jié)果屬性級(jí)別,為該管道段的土壤腐蝕多因素分類的知識(shí)決策提供了依據(jù)。
(1)基于粗集-決策樹方法對(duì)梁平段管道的實(shí)例分析,表明只有綜合考慮其管道大數(shù)據(jù)的特性,以及不同區(qū)域環(huán)境影響因素不同的特點(diǎn),進(jìn)行數(shù)據(jù)的挖掘和知識(shí)發(fā)現(xiàn),才能提高長(zhǎng)輸管道完整性管理的針對(duì)性和適應(yīng)性。
(2)運(yùn)用粗集方法的屬性結(jié)構(gòu)重要度分析能充分利用原始數(shù)據(jù)自身的客觀信息,無需任何先驗(yàn)條件和附加信息,進(jìn)行多值和非數(shù)值的重要度處理;而傳統(tǒng)的屬性結(jié)構(gòu)重要度分析法只能處理二值的數(shù)值型模式問題。通過利用粗集核屬性,以及屬性結(jié)構(gòu)重要度值,可以構(gòu)建知識(shí)規(guī)則易發(fā)現(xiàn)、且直觀的決策樹,減少了樹的復(fù)雜度,提高了容錯(cuò)能力和分類的效果。
[1]董紹華.管道完整性管理體系與實(shí)踐[M].北京:中國(guó)石化出版社,2015.
[2]王毅輝,李勇,蔣蓉,等.中國(guó)石油西南油氣田公司管道完整性管理研究與實(shí)踐[J].天然氣工業(yè),2013,33(3):78-83.
WANG Yihui,LI Yong,JIANG Rong,et al.Research and practices of the integrity management of gas pipelines operated by PetroChina Southwest Oil & Gasfield Company[J].Natural Gas Industry,2013,33(3):78-83.
[3]柳華偉,陳楊.模糊綜合評(píng)價(jià)法在埋地管道腐蝕狀況評(píng)價(jià)中的應(yīng)用[J].石油工程建設(shè),2011,37(5):43-45.
LIU Huawei,CHEN Yang.Application of fuzzy integrated evaluation method in evaluating corrosion state of buried pipeline[J].Petroleum Engineering Construction,2011,37(5):43-45.
[4]吳志平,蔣宏業(yè),李又綠,等.油氣管道完整性管理效能評(píng)價(jià)技術(shù)研究[J].天然氣工業(yè),2013,33(12);131-137.
WU Zhiping,JIANG Hongye,LI Youlü,et al.Efficiency appraisal of oil & gas pipeline integrity management[J].Natural Gas Industry,2013,33(12):131-137.
[5]王金秋,李為相,朱承飛.基于粗糙集和BP神經(jīng)網(wǎng)絡(luò)的石化管道外腐蝕程度預(yù)測(cè)應(yīng)用[J].計(jì)算機(jī)測(cè)量與控制,2015,23(1):266-272.
WANG Jinqiu,LI Weixiang,ZHU Chengfei.Application on petrochemical pipeline outside corrosion prediction based on RS and BPNN[J].Computer Measurement & Control,2015,23(1):266-272.
[6]RICHARD McNealy,LUCINDA Smart,STEVEN Osgood.Effect of corrosion growth rate estimated from consecutive assessments on response to in-line inspection anomaly predictions[C].paper 1560-MS presented at the SPE NACE International,11-15 March 2012,Salt Lake City,Utah.
[7]PAWLAK Z.Rough sets[J].International Journal of Information and Computer Science,1982,1(5):341-356.
[8]MANDAL Santosh Kumar,CHAN Felix T S.,TIWARI M K.Leak detection of pipeline:an integrated approach of rough set theory and artificial bee colony trained SVM[J].Expert Systems with Applications,2012,39(3):3071-3080.
[9]秦曉霞.埋地管道土壤腐蝕性與防護(hù)研究[D].青島:中國(guó)石油大學(xué)(華東),2009.
[10]胡世信.陰極保護(hù)手冊(cè)[M].北京:化學(xué)工業(yè)出版社,1999.
[11]劉春波.埋地鋼質(zhì)管道腐蝕防護(hù)模糊綜合評(píng)價(jià)技術(shù)研究[D].北京:北京工業(yè)大學(xué),2007.
[12]張延松,趙英凱.基于PCA和粗糙集構(gòu)建決策樹的變電站故障診斷[J].電力系統(tǒng)保護(hù)與控制,2010,38(14):104-109.
ZHANG Yansong,ZHAO Yingkai.Fault diagnosis of substation by the constructed decision tree based on principal component analysis(PCA) and rough set[J].Power System Protection and Control,2010,38(14):104-109.
[13]黃宇達(dá),范太華.決策樹ID3算法的分析與優(yōu)化[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33(8):3089-3093.
HUANG Yuda,F(xiàn)AN Taihua.ID3 Algorithm for decision tree analysis and optimization[J].Computer Engineering and Design,2012,33(8):3089-3093.
責(zé)任編輯:張新寶
Data Mining and Knowledge Decision in the Integrity Management of Long-distance Pipeline
ZHAO Zhifeng1,2,WEN Hu1,3,GAO Weixin2,GUO Jun1,3
(1.Energy School,Xi'an University of Science and Technology,Xi'an 710054,Shaanxi,China;2.College of Electronic Engineering,Xi'an Shiyou University,Xi'an 710065,Shaanxi,China;3.Key Laboratory of Western Mines and Hazard Prevention,Ministry of Education,Xi'an 710054,Shaanxi,China)
In order to improve the ability of data mining and knowledge discovery in the integrity management of long-distance pipeline,taking the management and analysis of the soil corrosion data of long-distance pipeline external as an example,the multi-factor (the resistivity,oxidation reduction potential,chloride ion content,sulfuric acid root ion content,water content and pH value of soil) data set of pipeline soil corrosion is constructed using rough set method based on the large data characteristics of the pipeline,the decision table is established,the original data of the pipeline are simplified,and the structural importance degree is analyzed to find the key factors reflecting the soil corrosion characteristics in this area from all factors.The structure of decision tree is optimized using decision tree rules according to the structural importance degree of the key factors,and the classification rule model is established to carry out the diagnosis and decision of multi-factor pipeline soil corrosion.The soil corrosion sample of Liangping segment of the natural gas transmission pipeline from Sichuan to east was analyzed using the established model,and the diagnosis and decision result is in line with the actual situation of the field.
long-distance pipeline;integrity management;soil corrosion;rough set;decision tree
A
2016-03-01
陜西省教育廳重點(diǎn)實(shí)驗(yàn)室科研計(jì)劃項(xiàng)目(編號(hào):14JS079);中國(guó)石油科技創(chuàng)新基金研究項(xiàng)目(編號(hào):2014D-5006-0605);2013陜西省教育廳自然科學(xué)專項(xiàng)(編號(hào):2013JK1077)
趙志峰(1978-),男,講師,主要從事安全預(yù)控技術(shù)、檢測(cè)及監(jiān)控技術(shù)的研究。E-mail: zfzhao@xsyu.edu.cn
10.3969/j.issn.1673-064X.2016.04.019
TE832.2
1673-064X(2016)04-0109-06