劉 亮,李 娟,賀 建,楊新超,吳張中,戴聯(lián)雙,李海潤,孟祥海
(1. 國家管網(wǎng)集團工程技術創(chuàng)新有限公司 天津 300450; 2. 南京大學計算機科學與技術系 江蘇 南京 210033;3. 國家管網(wǎng)集團科學技術研究總院分公司 河北 廊坊 065000; 4. 國家管網(wǎng)集團生產(chǎn)部 北京 100097)
由于建設時期技術水平限制和現(xiàn)場焊接施工質量控制等問題,環(huán)焊縫一直是管道最薄弱的環(huán)節(jié),加之容易受土體移動等附加載荷的影響,環(huán)焊縫開裂事故時有發(fā)生。近年來,隨著管道行業(yè)的大發(fā)展,大量新建管道建設投產(chǎn)。雖然新建管道普遍采用高強鋼焊接工藝,管道的制管和施工質量相比20世紀70年代的老管道有了很大提升,但部分管道存在冬季施工中未按照工藝要求進行管體預熱和保溫以及強力組對等問題,導致環(huán)焊縫焊接缺陷問題的凸顯,影響管道安全運行。目前X80高強鋼的使用,也對環(huán)焊縫的研究提出了更高的要求。
目前部分學者對管道環(huán)焊縫開展了研究,帥健等對高鋼級管道環(huán)焊縫主要特征及安全性評價開展了研究[1]。隋永莉對高鋼級環(huán)焊縫的焊接工藝進行了探討[2]。沙勝義等在高鋼級管道環(huán)焊縫安全評價方面開展了相關研究,對環(huán)焊縫的低強匹配、斷裂韌性、沖擊功分散性等問題進行了探討[3]。陳一諾等主要基于內(nèi)檢測數(shù)據(jù)對管體的缺陷情況進行了研究[4]。楊鋒平等對油氣管道環(huán)焊縫失效案例進行了收集和分析,并通過全尺寸試驗研究了影響環(huán)焊縫性能的主要因素[5]。其他學者利用隨機森林等其他機器學習方法開展了數(shù)據(jù)分析研究,吳孝情等利用隨機森林算法開發(fā)了滑坡危險性評價模型[6]。國外對環(huán)焊縫缺陷分析預測方面的內(nèi)容較少,國內(nèi)學者主要對管體的缺陷進行了分析,未基于大數(shù)據(jù)對環(huán)焊縫缺陷進行預測分析,所采集的數(shù)據(jù)也不夠全面?;诖?本文收集分析了4萬余道環(huán)焊縫質量排查過程中的管道基礎數(shù)據(jù)、建設期施工數(shù)據(jù)、檢測數(shù)據(jù)、開挖基本信息、適用性評價數(shù)據(jù)和修復數(shù)據(jù),構建了環(huán)焊縫缺陷不合格性預測分析模型,為有效指導環(huán)焊縫排查工作,提升環(huán)焊縫開挖準確度和有效性提供技術支持。
隨機森林算法于2001年由Breiman提出,是以決策樹為基礎的一種更高級的算法,像決策樹一樣,隨機森林既可以用于回歸也可以用于分類。隨機森林從本質上屬于機器學習中的集成學習,即通過建立模型組合來解決單一預測的問題。
隨機森林采用 Bootstrap 抽樣技術從全部數(shù)據(jù)集中抽取N個訓練集,每個訓練集的大小約為數(shù)據(jù)集的 2/3; 然后依據(jù)抽取的數(shù)據(jù)為每個訓練集建立決策樹,生成由n棵決策樹組成的森林。決策樹生長過程中,從全部M個特征中隨機選取m個特征 (m≤M),在m個特征中根據(jù) Gini 系數(shù)最小原則選出最優(yōu)屬性進行節(jié)點分支;最后由n棵決策樹根據(jù)預測結果采用投票的方式?jīng)Q定預測樣本的類別。
為了靈活控制所輸入文件的內(nèi)容和格式,便于優(yōu)化算法所需的參數(shù),以及后續(xù)其他方法的接入,本文采用python語言進行模型的開發(fā)。
為了保證管道的安全,相關管道企業(yè)開展了油氣管道環(huán)焊縫缺陷排查與治理工作,也有相關專家學者對環(huán)焊縫缺陷的影響因素及治理措施開展了研究[7-9]。環(huán)焊縫缺陷的影響因素眾多,包括焊接施工因素,以及管體材料因素、管道特征因素等[10-14],通過采集相關因素的數(shù)據(jù),采用聚類、分類等數(shù)據(jù)預處理方法進行處理[15-18],然后可以通過機器學習方法對因素進行綜合分析,選出影響環(huán)焊縫質量的主要影響因素。
為保證研究結果的準確性,需要對與環(huán)焊縫相關的數(shù)據(jù)進行廣泛的采集,避免以偏概全。采集的數(shù)據(jù)主要包括管材數(shù)據(jù)、焊接數(shù)據(jù)、內(nèi)檢測數(shù)據(jù)、無損檢測數(shù)據(jù)、開挖數(shù)據(jù)、地理環(huán)境數(shù)據(jù)、氣象數(shù)據(jù)等。前期通過數(shù)據(jù)對齊,對環(huán)焊縫的基礎數(shù)據(jù)進行了收集,在后續(xù)的開挖檢測過程中,通過多種方式對其他數(shù)據(jù)進行了采集和補充。
由于數(shù)據(jù)閾值定義的不規(guī)范性、人為填報的多樣性,會導致數(shù)據(jù)不完整,含有大量的噪聲數(shù)據(jù),因此需要對缺失值、異常值、邏輯錯誤值、非標準化值進行處理。
對采集的環(huán)焊縫相關數(shù)據(jù)進行分析,大部分為分類數(shù)據(jù),在輸入模型之前,需要對數(shù)據(jù)進行規(guī)范化處理。環(huán)焊縫相關數(shù)據(jù)專業(yè)化程度高、復雜性也高,而且分析結果對精度、可靠性要求高,因此需要掌握焊接、無損檢測、材料、內(nèi)檢測、數(shù)據(jù)分析等多種專業(yè)知識,才能較好地完成數(shù)據(jù)預處理工作,在后續(xù)的數(shù)據(jù)分析中才能得到符合或超越人們以往已有知識的認知,才能創(chuàng)造價值。
針對施工日期數(shù)據(jù)進行拆分處理,施工日期一般為年月日,為了便于分析氣溫等因素對環(huán)焊縫缺陷的影響,將施工日期抽取為年份和月份,如2010-12-08可以分為2010年和12月份兩類數(shù)據(jù)。
針對地形、壁厚等缺失值,由于相鄰區(qū)域的地形地貌是相似的,采用最近鄰方法進行補充;由于同一段鋼管或相鄰鋼管壁厚基本是一致的,因此采用最近鄰方法進行補充,如1 016 mm直徑的管道,壁厚一般為17.5 mm。
對采集的環(huán)焊縫相關數(shù)據(jù)進行分析,大部分為分類數(shù)據(jù),在輸入機器學習模型之前,需要對數(shù)據(jù)進行處理。為了保證數(shù)據(jù)可適用于回歸,分類,聚類等多種模型,因此對數(shù)據(jù)進行one-hot編碼,通過編碼將離散特征映射到歐式空間,便于進行特征之間距離的計算或相似度的計算。表1以焊接方式為例,進行one-hot編碼。
〔設計意圖:本次作文訓練課的重點在于指導學生如何把一件事(或活動)的經(jīng)過寫具體,所以提供一篇這次小實驗經(jīng)過寫得簡單的作文,讓學生去交流如何把經(jīng)過寫具體,教師因勢利導歸納方法,做到“不憤不啟,不悱不發(fā)”,接下來結合本次作文展開具體訓練。〕
表1 焊接方式編碼
經(jīng)過對環(huán)焊縫開挖樣本數(shù)據(jù)分析,發(fā)現(xiàn)開挖結果為不合格的焊口為少數(shù),也即正樣本數(shù)量較少,正負比例相差較大,分類不平衡。為保證模型的準確性,提高對少數(shù)樣本的分類性能,本文采用過采樣的方式對數(shù)據(jù)進行處理。
本文依據(jù)環(huán)焊縫影響因素與數(shù)據(jù)特征,通過卡方檢驗方法,計算主要數(shù)據(jù)特征與結果的相關性,見表2。
由表2可知,施工月份所占權重較高,這是由于現(xiàn)場施工情況復雜,在以前的施工條件下,不能穩(wěn)定地保持焊接的溫度、濕度等指標,因此容易產(chǎn)生焊接缺陷。射線底片復評等級同樣有較高的權重,射線檢測質量符合要求則可以較為準確地反映環(huán)焊縫的缺陷情況,一般Ⅲ、Ⅳ級的底片,環(huán)焊縫不合格的情況較多。管節(jié)長度的影響主要是一般存在短節(jié)的地方組裝應力較大,焊接效果不太理想,而且后續(xù)由于應力的持續(xù)作用,會使缺陷擴展。為保障模型的準確性,因此選用以上主要影響因素進行分析。
為構建環(huán)焊縫合格性預測模型,將樣本數(shù)據(jù)隨機分為兩組:70%用于訓練模型和30%用于驗證模型精度。在構建模型中,選取主要的隨機森林參數(shù)有:決策樹的數(shù)目、樹的最大深度以及節(jié)點變量數(shù)。為優(yōu)化模型參數(shù),通過網(wǎng)格搜索法設置一定的閾值與步長,遍歷所有組合情況根據(jù)模型精度尋找最佳參數(shù)。最后得到的最優(yōu)參數(shù)為:決策樹的數(shù)目300、樹的最大深度10、節(jié)點變量數(shù)2。模型構建過程如圖1所示。
圖1 模型構建過程
為保證模型的實用性,需要對模型的泛化能力進行判斷,針對分類模型通常采用ROC-AUC作為評價指標。ROC曲線全稱為受試者工作特征曲線(receiver operating characteristic curve),是根據(jù)一系列不同的二分類方式(分界值或決定閾值),以真陽性率(敏感性)為縱坐標,假陽性率(1-特異性)為橫坐標繪制的曲線。AUC(Area Under Curve)被定義為ROC曲線下的面積。
因為本文主要研究環(huán)焊縫是否合格,為二分類問題,因此測試集中對模型進行內(nèi)部驗證,得到隨機森林、決策樹的AUC,如圖2所示。隨機森林的AUC值為0.99,模型泛化能力較好。
為了對模型的性能進行驗證,開展了不同機器學習模型預測性能比較,將最近鄰模型、支持向量機、決策樹、樸素貝葉斯、隨機森林模型在測試集中進行內(nèi)部驗證,結果見表3。
表3 不同模型比較
本文選擇某管道特定環(huán)焊縫缺陷開展了預測,選取的參數(shù)見表4。
表4 某環(huán)焊縫預測特征
前文建立的預測模型為二分類模型,當預測結果大于50%時認為環(huán)焊縫質量為不合格,當預測結果小于50%時認為環(huán)焊縫質量為合格?;谒⒌哪P?以某條管道的某個環(huán)焊縫為例,采集該環(huán)焊縫相關的數(shù)據(jù),錄入模型所需參數(shù),通過模型計算,預測結果為68%,因此認為該環(huán)焊縫質量為不合格,經(jīng)現(xiàn)場實際開挖驗證,該環(huán)焊縫射線檢測為Ⅳ級,結果為不合格,與模型的預測結果一致,該環(huán)焊縫為質量不合格焊口,需進行修復。由模型分析結果及統(tǒng)計數(shù)據(jù)可知,其中施工月份、焊口類型、管道壁厚、施工單位、缺陷時鐘方位會對環(huán)焊縫的不合格有較為顯著的影響,后續(xù)進一步完善管道應力及開挖數(shù)據(jù),通過數(shù)據(jù)治理可以進一步提高預測準確率。將模型與環(huán)焊縫相關信息平臺集成,可以實現(xiàn)對單道或者多道環(huán)焊縫缺陷不合格性的預測。
本文通過對實際長輸油氣管道環(huán)焊縫開挖數(shù)據(jù)進行處理、分析,運用隨機森林模型對環(huán)焊縫缺陷影響因素進行了重要性分析,并開展了預測研究,在實際的開挖工作中進行了相關驗證。主要得出以下結論。
1)由于人為原因或認知不全面,會導致數(shù)據(jù)采集結果的多樣性,需要結合專業(yè)知識進行數(shù)據(jù)預處理。因為影響環(huán)焊縫缺陷的因素眾多,且有部分關鍵影響因素不易收集,模型可能存在一定的誤差,需要持續(xù)優(yōu)化。
2)通過對環(huán)焊縫影響因素進行建模分析,可以得出隨機森林算法預測準確率較高,具有良好的適用性。針對特定環(huán)焊縫缺陷的預測及開挖驗證,可以進一步驗證模型,并為后續(xù)模型優(yōu)化提供參考。
總之,大量的環(huán)焊縫開挖數(shù)據(jù)是一筆寶貴的數(shù)據(jù)資產(chǎn),通過業(yè)務知識、經(jīng)驗與數(shù)學方法的結合可以分析出用于指導實際工作的規(guī)律。在后續(xù)的工作中,需要科研與業(yè)務人員進一步分析環(huán)焊縫的機理模型,進一步完善影響因素,同時各管道企業(yè)應提高數(shù)據(jù)自動化采集的水平,避免關鍵數(shù)據(jù)缺失,為相關研究奠定基礎,為智慧管網(wǎng)的建設提供支撐。