張行,凌嘉瞳,劉思敏,董紹華
1 中國石油大學(北京)管道技術(shù)與安全研究中心,北京 102249
2 中油國際管道公司,北京 102206
第三方破壞是管道線路安全面臨的主要風險之一,我國2001 年至2020 年由第三方破壞引起的管道事故占事故總量的30%至40%。國內(nèi)外管道安全研究領(lǐng)域?qū)W者多年來一直致力于油氣管道第三方破壞事故風險的研究,重點開展了基于不確定性的第三方破壞事故可能性分析、第三方威脅事件監(jiān)測預(yù)警、第三方破壞事故后果模擬等研究工作[1-3]。由于油氣管網(wǎng)線路點多線長、人文地質(zhì)環(huán)境復雜,部分地區(qū)居民并未正確認識破壞管道的危險后果,仍在管道周邊實施占壓、開挖等活動,或受利益驅(qū)使開展盜油盜氣、破壞管道重要設(shè)施等違法活動;加之各地區(qū)工業(yè)化發(fā)展需求使得地面施工日漸頻繁,各施工企業(yè)與管道運營企業(yè)之間缺乏溝通,因非管道企業(yè)施工造成管道破壞的事故時有發(fā)生,故管道保護工作仍面臨巨大挑戰(zhàn)[4-5]。
隨著信息化技術(shù)的發(fā)展,龐大的手機用戶群提供了大量表示其時空出行序列的手機位置數(shù)據(jù),已經(jīng)成為當前用來感知個人或群體活動規(guī)律的重要資源,在生活服務(wù)領(lǐng)域中得到了廣泛的應(yīng)用[6-8]。例如根據(jù)居民位置信息可為廣告投放篩選出最合適的位置,通過獲取用戶位置信息向其推薦附近熱門商戶和服務(wù)等?;谖恢眯畔⒌漠惓\壽E作為表征用戶異常行為的重要因素之一,使軌跡異常檢測成為了當前位置信息相關(guān)的研究熱點。異常檢測算法已經(jīng)廣泛應(yīng)用于交通領(lǐng)域,例如在同一片海域中識別含異常軌跡的船只[9];基于出租車行駛軌跡發(fā)現(xiàn)繞路欺詐行為,利用車輛GPS定位數(shù)據(jù)對行駛道路擁堵狀態(tài)進行判斷等[10]。
為解決當前第三方破壞識別中存在的實時性不足、監(jiān)測范圍小、數(shù)據(jù)匱乏、活動預(yù)測難、不確定性強的問題,以位置數(shù)據(jù)異常軌跡研究為基礎(chǔ),將位置數(shù)據(jù)引入到管道第三方破壞防范領(lǐng)域,對打孔盜油、私人挖掘、工程建設(shè)類型第三方破壞識別展開研究。提出從位置數(shù)據(jù)中挖掘管道附近用戶的行為模式,提取用戶的活動規(guī)律,為管道第三方破壞活動預(yù)警提供新思路。
用于識別管道第三方破壞行為的移動設(shè)備位置信息不涉及用戶隱私,將采取隱藏用戶真實標識信息的保密措施,通過與通信公司簽訂數(shù)據(jù)使用協(xié)議,說明數(shù)據(jù)使用具體用途并提交技術(shù)可行性方案,向當?shù)毓矙C關(guān)備案,保證位置數(shù)據(jù)使用的合法性。位置數(shù)據(jù)采集方式可通過手機應(yīng)用程序與運營商數(shù)據(jù)采集等多種方式,多樣的數(shù)據(jù)來源保障了管道附近位置信息獲取的可行性。
本文手機定位數(shù)據(jù)來源于移動通信網(wǎng)絡(luò)與手機終端的交互,該交互過程可分為非周期性和周期性位置更新[11]。在數(shù)據(jù)的采集、存儲過程中,由于外部自然、人為環(huán)境的干擾和移動通信網(wǎng)絡(luò)自身存在的缺陷會導致定位數(shù)據(jù)中存在著大量“噪聲”數(shù)據(jù)[12],會對定位數(shù)據(jù)的分析結(jié)果產(chǎn)生極大的影響。本文對收集的定位數(shù)據(jù)預(yù)處理操作如下:對字段缺失或取值不在正常范圍內(nèi)的無效數(shù)據(jù)進行刪除;對漂移數(shù)據(jù)進行糾正或平滑處理;通過對時間間隔的設(shè)定進行時間分片,對定位數(shù)據(jù)進行等時間間隔化處理,使得每條位置數(shù)據(jù)在時間維度上代表的意義相同,為后續(xù)基于聚類算法識別定位數(shù)據(jù)中停留點提供數(shù)據(jù)基礎(chǔ)。
對于油氣管道領(lǐng)域,管道路由走向指出了管道位置的分布情況,管道附近用戶位置數(shù)據(jù)標記了用戶與管道位置的關(guān)系,軌跡停留點識別有助于挖掘位置數(shù)據(jù)中與用戶日常行為特征有關(guān)的重要信息。對用戶軌跡中的停留點進行提取、處理與分析,可在一定程度上對用戶活動規(guī)律進行重新刻畫[13-14]。在與管道相關(guān)的私人挖掘、工程建設(shè)、打孔盜油等第三方破壞活動中,由于破壞活動的實施過程需花費一定時間,其部分移動軌跡一定會表現(xiàn)出停留或在一定區(qū)域內(nèi)移動的狀態(tài),故管道附近用戶的停留點提取是識別管道異常第三方活動的首要研究內(nèi)容,本文將停留點定義為用戶在管道或光纖兩側(cè)一定范圍內(nèi)停留時間超過給定時間閾值的位置。
在對手機位置數(shù)據(jù)進行預(yù)處理后,得到按時間排序的等時間間隔定位數(shù)據(jù),手機用戶在某個地點停留時間的長短可以根據(jù)定位軌跡點在空間上的密度計算得出,但如果僅以空間密度作為唯一依據(jù)進行停留點篩選,可能將處于不同時間段但距離相近點聚集在一起,造成停留點的誤識別。因此本文利用一種基于點排序的時空聚類算法識別停留點[15-16],首先根據(jù)位置數(shù)據(jù)的密度在空間層上對軌跡點進行聚類,再結(jié)合停留點判別時間閾值約束條件,初步實現(xiàn)管道附近區(qū)域手機用戶停留點的獲取。
在基于點排序的時空聚類算法進行停留點識別時,將所采集位置數(shù)據(jù)用于創(chuàng)建初始樣本集D;創(chuàng)建有序隊列Q用于保存核心對象及其對應(yīng)的直接密度可達對象,隊列中元素按可達距離順序從小到大依次進行排列;同時創(chuàng)建結(jié)果隊列O用于存儲已完成訪問處理的樣本點。基于時空聚類方法的停留點識別步驟如下:首先,從樣本集D中隨機選取一個核心對象樣本點作為研究對象存入結(jié)果隊列O中,同時搜索該樣本點給定鄰域半徑內(nèi)所有直接密度可達對象,將所有對象按要求規(guī)則放入有序隊列Q中,此時可達距離最小的元素排在隊首。其次,從有序隊列Q中取出樣本點,將其標記為已訪問樣本點后保存至結(jié)果隊列O中,并對該點進行核心對象判別,若該樣本點為核心對象,則繼續(xù)搜索其給定鄰域半徑內(nèi)直接密度可達點并存儲到有序隊列Q中,每次插入新樣本點到有序隊列Q中都按可達距離排序進行位置更新;按照以上步驟對樣本集D中所有數(shù)據(jù)進行處理。為進一步完成結(jié)果隊列O中的樣本點聚類,依次取出結(jié)果隊列O中樣本點p進行判別。首先進行樣本點p可達距離與給定半徑ε之間的比較,若樣本點p可達距離在給定半徑ε范圍內(nèi),則將該點劃分到當前點簇中,否則進入下一步判別;第二階段判別以樣本點p核心距離與給定半徑ε之間的大小關(guān)系為判斷依據(jù),若樣本點p核心距離大于給定半徑ε,則將該點判斷為噪聲,反之,若樣本點p核心距離不大于給定半徑ε,則將該點劃分到新的聚類中。按照上述判斷流程,遍歷結(jié)果隊列O中所有樣本點。最后,按位置數(shù)據(jù)中時間要素對樣本數(shù)據(jù)進行排序更新,生成以位置數(shù)據(jù)時間戳為橫軸,樣本數(shù)據(jù)可達距離為縱軸的排序圖。
提取管段附近某一時段手機定位數(shù)據(jù)進行停留點識別與分析,表1 列出了預(yù)處理后某手機用戶的定位數(shù)據(jù)。其中,用戶識別碼是經(jīng)脫敏處理后的用戶標識碼,表示用戶身份信息,具有唯一性;時間戳指獲取位置時的時間信息,已完成等時間間隔處理,同一用戶兩條位置數(shù)據(jù)間的時間間隔為2 min,即120 s;經(jīng)度、緯度是位置數(shù)據(jù)中直接獲取到的信息,為方便距離計算,將位置數(shù)據(jù)中經(jīng)度、緯度分別轉(zhuǎn)換為投影坐標下的墨卡托經(jīng)緯度。
表1 定位數(shù)據(jù)Table 1 List of location data
結(jié)合第三方破壞停留時間特征,在本停留點識別中約束條件設(shè)置如下:時間鄰域設(shè)為1800 s,距離鄰域設(shè)為3 m,最小鄰域點數(shù)MinPts設(shè)為15,基于該參數(shù)取值進行停留點識別,可達距離排序圖如圖1 所示。
圖1 可達距離排序圖Fig. 1 Reachable distance sorting graph
從可達距離排序圖可知,樣本點最大可達距離10.2 m,大部分樣本點可達距離集中在1 m附近,當距離鄰域設(shè)定為3 m時,該數(shù)據(jù)集共識別出簇稠密區(qū)A、B、C、D共4 個停留點。從時間戳信息中可以判斷停留時間由長到短依次為A點、D點、B點、C點??蛇_距離排序圖在原位置數(shù)據(jù)中的聚類結(jié)果如圖2 所示。
圖2 聚類結(jié)果圖Fig. 2 Clustering result graph
基于由于第三方破壞行為特點的多樣性,難以對異常行為軌跡的移動特征進行具體的總結(jié)歸納,本文提出利用管道附近移動對象之間的關(guān)聯(lián)性對異常軌跡進行識別。位置特征是軌跡的基本特征之一,包括軌跡分段起始點經(jīng)緯度,軌跡數(shù)據(jù)反映了移動對象的位置活動規(guī)律,標記了第三方用戶在監(jiān)測范圍內(nèi)的空間位置變化情況,通過位置信息可獲取軌跡分段在當前局部空間中的其他近鄰軌跡[17]。第三方人員在管道附近區(qū)域的正常活動普遍具有周期性與規(guī)律性,如果一個對象與鄰域內(nèi)的對象都發(fā)生了偏離,則該對象也一定偏離距離它更遠的對象,換言之,一個基本單元的空間特征往往能被鄰域內(nèi)的基本單元所反映。各軌跡分段按位置特征查找鄰域,軌跡分段tfi的局部空間近鄰包括所有與tfi距離不超過給定距離閾值d的軌跡分段集合。
式中,N(tfi)表示軌跡分段tfi的近鄰軌跡分段集合,DiffS(tfi, tfj)表示軌跡分段tfi與tfj兩條軌跡之間空間距離,具體描述為軌跡段間垂直、水平、角度距離的綜合加權(quán)。
異常軌跡通常被描述為違反某類既定規(guī)則的事件,或是表現(xiàn)出不同于大多數(shù)對象的行為。在不同應(yīng)用場景中,用戶的異常軌跡通常被描述為軌跡異常、地點異常、行動異常等[18-19]。通過對管道附近行人移動特征的研究與分析,要實現(xiàn)對第三方破壞行為的早期預(yù)警,找出第三方破壞的跡象和正在實施的第三方破壞行為,準確識別第三方異常軌跡是關(guān)鍵。將相鄰區(qū)域內(nèi)移動軌跡進行比較,若某一軌跡與大多數(shù)第三方運動軌跡相似,則認為其為正常活動行為,反之判斷為異常行為活動。
提取軌跡的速度、加速度、轉(zhuǎn)角作為判斷異常軌跡移動特征。速度特征作為移動對象的固有屬性之一,表示移動對象運動的快慢程度,在第三方進行異常活動時,相應(yīng)軌跡通常表現(xiàn)為停留或是以極小的速度移動,利用軌跡特征點中的地理位置標記和時間標記來計算手機用戶速度,方向即沿特征點連線方向。加速度特征是移動對象的內(nèi)在屬性之一,表示移動對象速度的變化情況,因為異常行為的出現(xiàn)一般可表現(xiàn)為速度的突變,包括速率和方向,所以加速度是判斷異常軌跡的重要因素。轉(zhuǎn)角特征表示移動對象運動方向的變化量,由目標特征點與緊鄰前、后時刻特征點連線所構(gòu)成的角度,軌跡轉(zhuǎn)角的異常變化一定程度上反映了受外界擾動或影響情況,第三方異常行為軌跡與正常行為軌跡存在的位置偏移現(xiàn)象可用轉(zhuǎn)角特征表示。依據(jù)移動特征計算軌跡分段行為差異度,尋找出在軌跡鄰域內(nèi)發(fā)生移動偏移的軌跡分段。
根據(jù)不同移動特征對異常軌跡識別的重要程度分別賦予恰當?shù)臋?quán)重并進行加權(quán)處理。
DiffD(tfi,tfj)表 示 軌 跡 分 段tfi和tfj的 行 為 差 異 度,以ω1, …… ,ωM分別表示軌跡數(shù)據(jù)每個特征的權(quán)重,disl(tfi,tfj)表示任意兩條軌跡分段tfi和tfj在特征l上的距離。
為了計算軌跡分段的異常程度,將軌跡異常因子(Trajectory Anomaly Factor,TAF)用于表示軌跡分段在其軌跡鄰域內(nèi)移動的異常程度。由于同一用戶軌跡會根據(jù)不同特征點被劃分為多個軌跡分段,所以在計算某一用戶軌跡異常因子時,選取最大異常因子作為該用戶最終軌跡行為差異度。
式中,TAF(tfi) 為軌跡分段tfi的軌跡異常因子,DiffD(tfi,tfj)為軌跡分段tfi和tfj的行 為差 異度,|NTC(tfi)|為軌跡分段tfi鄰域內(nèi)軌跡分段個數(shù)。
決策樹是基于有監(jiān)督學習進行分類的方法,能夠從給定的帶有特征和屬性標簽的樣本中分析特征與屬性間的映射關(guān)系,并以樹狀圖的結(jié)構(gòu)形式呈現(xiàn)決策規(guī)則,實現(xiàn)對新樣本的正確分類[20]?;跉v史破壞數(shù)據(jù)先驗信息,建立異?;顒幼R別決策樹,將第三方人員的行為與管道風險特征結(jié)合,對軌跡行為差異度大的異?;顒舆M行第三方破壞類型的判斷。
管線監(jiān)測范圍內(nèi)待識別的破壞行為與歷史破壞行為通常具有相似性,且第三方人員的破壞行為與管道風險因素之間存在相關(guān)性,本文采用基于數(shù)據(jù)驅(qū)動的方法挖掘第三方人員行為特征。通過第三方破壞風險因素識別與相關(guān)信息收集,將管道風險特征與第三方人員的行為特征作為管道第三方異常活動識別決策樹模型輸入特征[21]。時間和人數(shù)特征按實際數(shù)值給出,其余各特征參數(shù)對應(yīng)下表內(nèi)容給出。
通過建立一種基于決策樹的管道第三方異?;顒幼R別方法,挖掘管道風險特征、第三方活動特征與第三方破壞類型的潛在關(guān)系。利用開源python語言sklearn機器學習工具包,調(diào)用tree模塊,對模型對象進行實例化、訓練、測試,完成一棵完整決策樹的建立。模型建立步驟如下:
(1)確定輸入與輸出。將第三方活動時間、人數(shù)、位置、當?shù)亟?jīng)濟水平、公眾宣傳效果、巡線質(zhì)量、安全標志、人員活動頻率共8 個因素作為輸入特征,第三方破壞類型作為標簽,根據(jù)歷史數(shù)據(jù)建立模型,挖掘各類特征與第三方破壞的關(guān)系。
(2)確定最佳節(jié)點和最佳的分枝。純度用于衡量節(jié)點處各類標簽所占比例,在決策樹模型中以不純度作為衡量最佳節(jié)點與分枝的指標,較低的不純度值表明決策樹對訓練集的擬合效果越好。在異?;顒幼R別模
型中引入信息熵和基尼系數(shù)作為衡量指標分別對節(jié)點不純度進行了計算,結(jié)果表明兩種不純度指標下的模型準確率大小基本相同,最終選擇信息熵作為衡量指標。
表2 特征值表示Table 2 Characteristic value description
表3 當?shù)亟?jīng)濟水平Table 3 Economic level description
表4 公眾宣傳效果Table 4 Publicity effect description
表5 巡線質(zhì)量Table 5 Line inspection quality description
式中,Entropy為信息熵,c為葉子節(jié)點上標簽類別的個數(shù),t為決策樹節(jié)點,i為標簽分類,p(i|t)為標簽分類i在節(jié)點t中的占比,Gini為基尼系數(shù),該模型中的信息熵值是父節(jié)點信息熵與子節(jié)點信息熵之差。
(3)確定最大深度值。為使模型具有更好的泛化性,減輕過擬合對結(jié)果的影響,應(yīng)對決策樹進行剪枝操作。設(shè)置樹的最大深度值(max_depth)是限制過擬合的有效方式,通過計算不同深度下的模型擬合效果以確定最佳決策樹深度值。結(jié)果表明,當決策樹最大深度為4時模型準確率達到最大值,當深度小于4 時決策樹欠擬合且未能覆蓋重要特征;當深度大于4 時,多余的分枝使得模型過擬合,不僅增大了模型計算負擔,而且降低了模型準確率。因此,確定max_depth為4。
圖3 不同深度決策樹準確率Fig. 3 Accuracy of decision trees with different depths
(4)決策樹剪枝策略優(yōu)化。設(shè)置最小葉子節(jié)點樣本數(shù)(min_samples_leaf,msl)與最小劃分樣本數(shù)(min_samples_split,mss)值對決策樹進行優(yōu)化,最小葉子節(jié)點樣本數(shù)msl表示在分枝后的任一子節(jié)點都必須包含至少msl個訓練樣本;最小劃分樣本數(shù)mss表示當節(jié)點包含至少mss個訓練樣本時才允許被分枝。為尋找基于決策樹的異?;顒幼R別模型中最小葉子節(jié)點樣本數(shù)與最小劃分樣本數(shù)的最佳組合,對0~50 之間的數(shù)字組合進行遍歷,最終得出當最小葉子節(jié)點樣本數(shù)為2,最小劃分樣本數(shù)為4 時模型準確率最高。
將所收集到第三方破壞歷史特征數(shù)據(jù)7/10 劃分為訓練集,3/10 劃分為測試集,按照決策樹建立步驟,由訓練集數(shù)據(jù)所建立的異?;顒幼R別決策樹如圖5 所示,該決策樹的結(jié)構(gòu)表明了根據(jù)各類特征對第三方異?;顒宇愋瓦M行判斷的過程,用測試集對模型準確率進行測試,該識別模型準確率為90.9%。
異?;顒宇愋团袛鄾Q策圖如圖4 所示,為5 層決策樹,第一層首先對巡線質(zhì)量特征進行判斷,比較其對應(yīng)特征值與68.203 的大小關(guān)系并進入決策樹第二層,對時間和位置特征進行判斷,以此類推,直到判斷出最終的活動類型。在該決策樹中,entropy為不純度指標,samples值表示樣本個數(shù),value值表示屬于不同類型破壞樣本個數(shù),如value=(10,41,35,14)表示屬于打孔盜油類別樣本數(shù)為10 個,屬于私人挖掘類別樣本數(shù)為41 個,屬于工程破壞類別樣本數(shù)為35個,屬于其他類別樣本數(shù)為14 個;class代表最終分類結(jié)果,不同種顏色代表所屬不同的破壞類型,其中兩個分類結(jié)果為打孔盜油的白色方框不純度指標為1,難以進行判斷,其分類結(jié)果不準確。
圖4 異常活動類型判斷決策圖Fig. 4 Abnormal activity type decision diagram
對不同類型的第三方破壞活動判別特征分別如下,打孔盜油破壞的判別含巡線質(zhì)量、時間、經(jīng)濟水平、位置、人員活動頻率共5 個特征,私人挖掘破壞含巡線質(zhì)量、時間、經(jīng)濟水平共3 個特征,工程破壞含巡線質(zhì)量、位置、人數(shù)共3 個特征。各類特征的重要程度如表6 所示,權(quán)重越大,對應(yīng)特征對模型貢獻度越大,所提取的8 個特征因素中,公眾宣傳效果和安全標志在該模型中對第三方破壞類型的判斷無影響,其余6 個影響因素對破壞類型判斷的影響權(quán)重依次為:巡線質(zhì)量、時間、經(jīng)濟水平、人數(shù)、位置、人員活動頻率。
表6 各特征權(quán)重Table 6 Feature weight
在該模型中,決策樹各分枝判斷依據(jù)及模型的準確率將根據(jù)數(shù)據(jù)量的變化有所更新,當有更多的歷史數(shù)據(jù)作為訓練集輸入到模型中時,需要重新調(diào)整各特征參數(shù),并對模型進行優(yōu)化。
(1)通過對某長輸管段附近第三方活動進行監(jiān)測,基于時空聚類法提取異常停留點,得到了停留點識別決策圖與聚類圖,直觀地反映了管道附近用戶移動規(guī)律。
(2)結(jié)合軌跡位置特征與速度、加速度、轉(zhuǎn)角多個移動特征的軌跡行為差異度計算,綜合體現(xiàn)了軌跡分段在其鄰域內(nèi)移動的異常程度,為管道監(jiān)測范圍內(nèi)第三方異常軌跡的識別提供重要依據(jù)。
(3)針對差異度值較大的用戶軌跡,基于管道第三方破壞行為識別決策樹模型挖掘第三方風險特征與第三方破壞行為的潛在關(guān)系,有助于及時發(fā)現(xiàn)私人挖掘、工程破壞和打孔盜油等第三方管道破壞活動,實現(xiàn)第三方破壞智能防范。