• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      ??漳繕?biāo)航跡數(shù)據(jù)清洗方法和流程研究

      2017-09-30 07:14:59劉帥楊松常歌董亞卓
      網(wǎng)絡(luò)空間安全 2017年9期
      關(guān)鍵詞:算法

      劉帥++楊松++常歌++董亞卓

      摘 要:論文針對??漳繕?biāo)航跡數(shù)據(jù)的內(nèi)容與特點(diǎn),面向??漳繕?biāo)探測效能評估需求,提出了??漳繕?biāo)航跡數(shù)據(jù)清洗方法和流程,包括數(shù)據(jù)格式規(guī)范化處理、數(shù)據(jù)篩選、去離群點(diǎn)和航跡插值等。試驗(yàn)證明,論文提出的數(shù)據(jù)清洗算法能夠優(yōu)化數(shù)據(jù)格式,剔除原始數(shù)據(jù)中的錯(cuò)誤、無效數(shù)據(jù),增加樣本數(shù)量,從而為后續(xù)開展??仗綔y效能評估做好數(shù)據(jù)準(zhǔn)備。

      關(guān)鍵詞:??漳繕?biāo)航跡數(shù)據(jù);數(shù)據(jù)清洗;算法

      中圖分類號(hào):TP391;E917 文獻(xiàn)標(biāo)識(shí)碼:A

      Abstract: Based on the contents and features of the sea and air target trace data, facing the requirements of effectiveness evaluations, this paper puts forward a method and process of the sea and air target trace data cleaning, including data formatting processing, data filtering and so on. The tests prove that the data cleaning algorithm proposed can optimize the data format, eliminate the wrong and invalid data, increase the sample numbers, and prepare the data for the subsequent effectiveness evaluations.

      Key words: the sea and air target trace data; data cleaning; algorithm

      1 引言

      ??漳繕?biāo)航跡數(shù)據(jù)是各??漳繕?biāo)探測系統(tǒng)、海空目標(biāo)信息綜合處理系統(tǒng)、??漳繕?biāo)用戶系統(tǒng)之間生成和傳遞的海上、空中、水下目標(biāo)的位置、屬性、狀態(tài)、時(shí)間等信息數(shù)據(jù)。當(dāng)前,海軍承擔(dān)??漳繕?biāo)探測任務(wù)的裝備主要有各雷達(dá)站、觀通站、海上平臺(tái)、空中平臺(tái)、水下平臺(tái)等,這些平臺(tái)的使命任務(wù)是及時(shí)、準(zhǔn)確地發(fā)現(xiàn)、定位、跟蹤各類海上、空中、水下目標(biāo),對目標(biāo)進(jìn)行初步識(shí)別,并將探測到的原始海空目標(biāo)航跡數(shù)據(jù)上報(bào)至上級(jí)??涨榫C合處理系統(tǒng),??涨榫C合處理系統(tǒng)對各平臺(tái)上報(bào)的海空目標(biāo)航跡數(shù)據(jù)經(jīng)多級(jí)融合處理和識(shí)別認(rèn)證,形成最終的海空目標(biāo)態(tài)勢產(chǎn)品,送往指揮所,輔助指揮員指揮決策。

      因此,要對整個(gè)海空目標(biāo)探測體系的目標(biāo)探測質(zhì)量、信息流轉(zhuǎn)效率、融合識(shí)別流程等進(jìn)行分析評估,就離不開對??漳繕?biāo)探測數(shù)據(jù)的自動(dòng)、準(zhǔn)確的分析、處理和運(yùn)算。當(dāng)前,由于??漳繕?biāo)探測體系內(nèi)包含的系統(tǒng)、平臺(tái)、裝備類型眾多,由多家單位承研承建,而在裝備論證之初對各裝備數(shù)據(jù)記錄的內(nèi)容、格式、量綱等缺少統(tǒng)一要求和規(guī)范,因此,導(dǎo)致整個(gè)體系內(nèi)采集的裝備原始數(shù)據(jù)存在很大程度的不統(tǒng)一、不規(guī)范、不完整等問題,同時(shí)還存在部分空數(shù)據(jù)項(xiàng)和錯(cuò)誤數(shù)據(jù)項(xiàng),因此,需要對原始的海空目標(biāo)航跡數(shù)據(jù)進(jìn)行清洗和規(guī)范化處理,去除無效的數(shù)據(jù)字段、增加標(biāo)識(shí)字段、統(tǒng)一格式與量綱、剔除離群點(diǎn)和錯(cuò)誤點(diǎn),對稀疏航跡進(jìn)行插值,以確保最終入庫參與運(yùn)算的海空目標(biāo)航跡數(shù)據(jù)格式統(tǒng)一、規(guī)范、準(zhǔn)確,以便于后續(xù)的分析運(yùn)算和裝備效能評估。

      當(dāng)前,國外對數(shù)據(jù)清洗的研究主要集中在四個(gè)方面:檢測并清除數(shù)據(jù)異常;檢測并清除近似重復(fù)數(shù)據(jù);數(shù)據(jù)的集成;特定領(lǐng)域的數(shù)據(jù)清洗。國內(nèi)的數(shù)據(jù)清洗技術(shù)研究主要集中在對數(shù)據(jù)質(zhì)量需求很高的行業(yè),他們以各自需求為牽引在特定領(lǐng)域展開相關(guān)研究[1,2]。

      2 ??漳繕?biāo)航跡數(shù)據(jù)內(nèi)容及特點(diǎn)分析

      各海空目標(biāo)探測系統(tǒng)、海空目標(biāo)綜合處理系統(tǒng)和??漳繕?biāo)用戶系統(tǒng)之間傳遞的海空目標(biāo)航跡數(shù)據(jù),主要包括信息字段:??漳繕?biāo)批號(hào)、情報(bào)源號(hào)、目標(biāo)探測時(shí)間、目標(biāo)經(jīng)緯度位置、目標(biāo)方位、目標(biāo)距離、目標(biāo)高度、目標(biāo)類型、目標(biāo)屬性等。原始的??漳繕?biāo)航跡數(shù)據(jù)有四個(gè)特點(diǎn)。

      (1)數(shù)據(jù)規(guī)模大。由于海空目標(biāo)態(tài)勢是動(dòng)態(tài)變化的,海空目標(biāo)航跡數(shù)據(jù)也在不斷更新,因此整個(gè)??漳繕?biāo)探測體系內(nèi)流轉(zhuǎn)的數(shù)據(jù)量非常大,以方向級(jí)空情綜合處理系統(tǒng)為例,平均每秒鐘報(bào)文更新率在100條左右。

      (2)多型裝備數(shù)據(jù)記錄格式不統(tǒng)一。由于在裝備論證之初,缺少對數(shù)據(jù)記錄內(nèi)容、格式、量綱等的頂層規(guī)劃和統(tǒng)一要求,導(dǎo)致當(dāng)前各裝備記錄的數(shù)據(jù)存在內(nèi)容、格式等不統(tǒng)一、不規(guī)范的問題。

      (3)存在大量復(fù)合字段。原始??漳繕?biāo)航跡數(shù)據(jù)中存在大量的復(fù)合數(shù)據(jù)字段,如“年+月+日”、“站號(hào)+批號(hào)”等,需要將這些數(shù)據(jù)記錄拆分成“年”、“月”、“日”、“站號(hào)”、“批號(hào)”這樣的單獨(dú)字段,以用于后續(xù)的處理、分析和運(yùn)算。

      (4)存在離群點(diǎn)和空字段。當(dāng)前,由于??昭b備的探測能力有限,探測結(jié)果經(jīng)常會(huì)出現(xiàn)錯(cuò)誤的離群點(diǎn),需要在掃描到這樣的離群點(diǎn)后,將離群信息記錄下來,并將相應(yīng)的數(shù)據(jù)行刪除,離群點(diǎn)不參與后續(xù)運(yùn)算。另外,采集的原始數(shù)據(jù)還存在部分空字段,即沒有探測到相應(yīng)的目標(biāo)屬性信息,需要在掃描到字段后,對相應(yīng)的字段進(jìn)行記錄和處理,以確保數(shù)據(jù)入庫的整齊性。

      因此,海空目標(biāo)航跡原始數(shù)據(jù)存在數(shù)據(jù)記錄格式不統(tǒng)一、存在復(fù)合字段、存在離群點(diǎn)和空字段等問題,需要建立一套統(tǒng)一的??漳繕?biāo)航跡數(shù)據(jù)格式規(guī)范,將所有裝備的原始數(shù)據(jù)按照規(guī)范的格式要求進(jìn)行數(shù)據(jù)規(guī)范化處理,并按照數(shù)據(jù)后續(xù)運(yùn)算要求,對數(shù)據(jù)進(jìn)行篩選、去錯(cuò)、插值等操作,以保證數(shù)據(jù)整齊入庫,便于后續(xù)評估運(yùn)算。

      3 數(shù)據(jù)格式規(guī)范化

      進(jìn)行數(shù)據(jù)清洗的第一步是建立統(tǒng)一的??漳繕?biāo)航跡數(shù)據(jù)格式規(guī)范,將所有裝備記錄的??漳繕?biāo)航跡數(shù)據(jù)按照統(tǒng)一的內(nèi)容、格式和量綱等要求集中存儲(chǔ)。經(jīng)全面分析后續(xù)開展裝備效能評估的需要,建立??漳繕?biāo)航跡數(shù)據(jù)格式規(guī)范,如表1所示。endprint

      將來自多平臺(tái)的多類數(shù)據(jù)按表1的格式要求進(jìn)行規(guī)范化處理,刪除冗余字段、拆分復(fù)合字段、統(tǒng)一格式與量綱,同時(shí)為了辨識(shí)來自不同試驗(yàn)、不同裝備的多類數(shù)據(jù),需要適當(dāng)增加數(shù)據(jù)標(biāo)識(shí)字段,以實(shí)現(xiàn)數(shù)據(jù)的分門別類存儲(chǔ),便于后續(xù)的數(shù)據(jù)處理和查詢。通過將算法代碼化,實(shí)現(xiàn)對海量的??漳繕?biāo)航跡數(shù)據(jù)的自動(dòng)、快速規(guī)范化處理。本文提出的數(shù)據(jù)格式規(guī)范化方法如圖1所示。

      第一步:輸入原始的海空目標(biāo)航跡數(shù)據(jù)。

      第二步:添加標(biāo)識(shí)字段。增加多源多類數(shù)據(jù)標(biāo)識(shí)、試驗(yàn)標(biāo)識(shí)、裝備標(biāo)識(shí)等字段,如“數(shù)據(jù)類型編號(hào)”、“所屬試驗(yàn)號(hào)”等字段,實(shí)現(xiàn)數(shù)據(jù)的分門別類存儲(chǔ)。

      第三步:刪除冗余字段,拆分復(fù)合字段。按照數(shù)據(jù)格式規(guī)范,從左至右掃描數(shù)據(jù)字段,判斷該數(shù)據(jù)字段是否在數(shù)據(jù)格式規(guī)范中,如果是,則保留,如果不是,則刪除。如果是復(fù)合字段,如“情報(bào)源站號(hào)+批號(hào)”,則提取當(dāng)中的有效字段予以保留存儲(chǔ)。

      第四步:統(tǒng)一數(shù)據(jù)格式、量綱。將所有的字段轉(zhuǎn)換成統(tǒng)一的格式和量綱,如將長度的單位統(tǒng)一為“米”,經(jīng)度、緯度、方位等的單位統(tǒng)一為“度”等。

      第五步:數(shù)據(jù)字段排序。按照規(guī)范的格式要求,將數(shù)據(jù)字段排序。

      第六步:輸出數(shù)據(jù)。

      4 數(shù)據(jù)清洗

      在多系統(tǒng)的數(shù)據(jù)進(jìn)行規(guī)范化之后,數(shù)據(jù)清洗過程是對數(shù)據(jù)中存在的錯(cuò)誤數(shù)據(jù)行、空數(shù)據(jù)行等進(jìn)行進(jìn)一步的細(xì)化處理。

      4.1 數(shù)據(jù)篩選

      ??漳繕?biāo)航跡數(shù)據(jù)規(guī)模龐大,在進(jìn)行裝備效能評估時(shí),通常不需要全部時(shí)段的所有數(shù)據(jù),如演習(xí)過程是10:00至12:00,那么我們就可以重點(diǎn)提取10:00至12:00的數(shù)據(jù)進(jìn)行綜合分析,而不需要考慮全天的數(shù)據(jù)。當(dāng)前,常用的數(shù)據(jù)提取方法有三種:一是按照時(shí)間軸提取,提取固定時(shí)間段或者時(shí)間節(jié)點(diǎn)的數(shù)據(jù);二是根據(jù)經(jīng)緯度進(jìn)行提取,提取重點(diǎn)海域內(nèi)的??漳繕?biāo)航跡數(shù)據(jù);三是根據(jù)演習(xí)關(guān)注的重點(diǎn),提取重點(diǎn)目標(biāo)航跡數(shù)據(jù)。

      4.2 檢測并剔除離群點(diǎn)

      在??漳繕?biāo)航跡數(shù)據(jù)中,存在部分離群點(diǎn),即相應(yīng)的目標(biāo)位置偏離目標(biāo)原有航跡不合理的距離,視其為探測錯(cuò)誤點(diǎn),這樣的航跡點(diǎn),在數(shù)據(jù)監(jiān)測中,要將其記錄下來并刪除相應(yīng)的數(shù)據(jù)行,作為問題進(jìn)行分析,但不參與后續(xù)裝備效能評估運(yùn)算。

      采用基于鄰近性的離群點(diǎn)檢測方法[3],基于距離監(jiān)測離群點(diǎn),對一個(gè)目標(biāo)航跡定義距離閾值r,如果一個(gè)航跡點(diǎn)與相鄰若干個(gè)航跡點(diǎn)的距離在r之內(nèi),則將其視為有效點(diǎn),如果一個(gè)航跡點(diǎn)與其臨近的若干個(gè)航跡點(diǎn)距離超出r,則將其認(rèn)為是離群點(diǎn),記錄并剔除。

      4.3 航跡插值

      采集的原始數(shù)據(jù)中,部分航跡點(diǎn)存在航跡過于稀疏的情況,這樣在后續(xù)計(jì)算中,會(huì)存在樣本量少的問題,對這種情況要將其航跡稀疏現(xiàn)象記錄下來,并進(jìn)行插值處理,增加航跡點(diǎn)數(shù)量。

      采用拉格朗日三點(diǎn)插值法[4],對稀疏的航跡點(diǎn)進(jìn)行插值處理。當(dāng)沒有和真值航跡時(shí)標(biāo)一致的目標(biāo)航跡時(shí),對與真值航跡時(shí)標(biāo)一致的目標(biāo)航跡點(diǎn)數(shù)據(jù)進(jìn)行插值計(jì)算。確保在兩小時(shí)的目標(biāo)航跡上有至少5個(gè)航跡點(diǎn),且相鄰兩個(gè)航跡點(diǎn)間隔不大于20分鐘。

      本文提出的數(shù)據(jù)清洗算法[5]如圖2所示。

      第一步:輸入格式規(guī)范后的數(shù)據(jù)。

      第二步:數(shù)據(jù)篩選。根據(jù)裝備評估需求,對重點(diǎn)時(shí)段、重點(diǎn)目標(biāo)、重點(diǎn)海域的目標(biāo)航跡數(shù)據(jù)進(jìn)行篩選,提取出重點(diǎn)時(shí)間段重點(diǎn)海域的所有航跡數(shù)據(jù),并提取其中的重點(diǎn)目標(biāo)航跡數(shù)據(jù)。

      第三步:剔除離群點(diǎn)。針對重點(diǎn)目標(biāo)航跡數(shù)據(jù),按照時(shí)間軸從前到后掃描每一行數(shù)據(jù)的經(jīng)緯度和探測時(shí)間信息,采用基于鄰近性的方法判斷航跡點(diǎn)是否為錯(cuò)誤的離群點(diǎn),若是則記錄該離群點(diǎn)出現(xiàn)的時(shí)間、經(jīng)緯度、目標(biāo)屬性、探測源、目標(biāo)批號(hào)等信息,并刪除該數(shù)據(jù)行。

      第四步:重點(diǎn)時(shí)段、重點(diǎn)目標(biāo)、重點(diǎn)海域數(shù)據(jù)的分類存儲(chǔ)。

      第五步:針對重點(diǎn)目標(biāo)航跡數(shù)據(jù),綜合比對分析該時(shí)段內(nèi)的目標(biāo)真值數(shù)據(jù),分析目標(biāo)航跡數(shù)據(jù)的稀疏程度,分析目標(biāo)航跡數(shù)據(jù)與真值航跡數(shù)據(jù)中時(shí)間戳相同的數(shù)據(jù)行的數(shù)量(因?yàn)楹罄m(xù)在定位誤差等指標(biāo)的計(jì)算中,要比對同一時(shí)刻的目標(biāo)探測位置和目標(biāo)真值位置,因此要保證時(shí)間戳相同的數(shù)據(jù)行達(dá)到一定數(shù)量,以確保參與計(jì)算的樣本量),設(shè)置閾值R,如果時(shí)間戳重合數(shù)據(jù)行數(shù)量少于R,則需要對目標(biāo)航跡進(jìn)行插值處理,如果時(shí)間戳數(shù)據(jù)行數(shù)量大于R,則無需作任何處理。

      第六步:輸出數(shù)據(jù)。

      5 試驗(yàn)驗(yàn)證

      為驗(yàn)證本文所提出算法的有效性,選取部分樣本數(shù)據(jù),進(jìn)行數(shù)據(jù)規(guī)范化和數(shù)據(jù)清洗。如圖3所示為選取樣本數(shù)據(jù)。樣本數(shù)據(jù)包括原始報(bào)文時(shí)間、站號(hào)、批號(hào)、經(jīng)度、緯度、高度、航速、航向、入庫時(shí)間、目標(biāo)種類、目標(biāo)屬性、情報(bào)源等信息。

      首先進(jìn)行數(shù)據(jù)規(guī)范化處理,增加標(biāo)識(shí)字段、刪除冗余字段、拆分復(fù)合字段,其次進(jìn)行數(shù)據(jù)篩選,設(shè)置篩選條件為入庫時(shí)間從16:31:00至16:41:00,最后進(jìn)行離群點(diǎn)剔除,得到如圖4所示的清洗結(jié)果數(shù)據(jù)。

      原始數(shù)據(jù)中“原始報(bào)文時(shí)間”與“入庫時(shí)間”兩個(gè)字段分別被拆分為 “原始報(bào)文時(shí)間-時(shí)”、“原始報(bào)文時(shí)間-分”、“原始報(bào)文時(shí)間-秒”與“入庫時(shí)間-時(shí)”、“入庫時(shí)間-分”、“入庫時(shí)間-秒”字段。增加了“數(shù)據(jù)類型編號(hào)”、“數(shù)據(jù)所屬試驗(yàn)號(hào)”等標(biāo)識(shí)字段。篩選了重點(diǎn)時(shí)段數(shù)據(jù),同時(shí)原來的第6條報(bào)文,因其經(jīng)緯度位置嚴(yán)重偏離正常航跡,被檢測為離群點(diǎn),記錄離群點(diǎn)信息并刪除該行數(shù)據(jù)。

      試驗(yàn)證明,本文提出的算法能夠?qū)崿F(xiàn)對??漳繕?biāo)原始數(shù)據(jù)的規(guī)范和清洗,實(shí)現(xiàn)對數(shù)據(jù)的有效存儲(chǔ)。

      6 結(jié)束語

      為得到高質(zhì)量的數(shù)據(jù)以備后續(xù)指標(biāo)計(jì)算與效能評估,必須進(jìn)行切實(shí)有效的清洗工作,消除數(shù)據(jù)中的冗余、缺失、離群點(diǎn)、不一致等問題。

      隨著海軍??漳繕?biāo)探測體系內(nèi)多型裝備的不斷發(fā)展,獲取的??漳繕?biāo)航跡數(shù)據(jù)在內(nèi)容上將更加精細(xì)、規(guī)模上更加龐大,當(dāng)前提出的數(shù)據(jù)清洗方法是為了解決當(dāng)前多系統(tǒng)數(shù)據(jù)記錄不統(tǒng)一、不規(guī)范、不完整等問題,在后續(xù)工作中,應(yīng)在裝備規(guī)劃之初,就充分考慮后續(xù)開展裝備效能評估的需要,規(guī)范各裝備數(shù)據(jù)記錄的內(nèi)容、格式、量綱和導(dǎo)出環(huán)節(jié)等,以確保整個(gè)??漳繕?biāo)探測體系內(nèi)數(shù)據(jù)記錄的整齊、統(tǒng)一。

      參考文獻(xiàn)

      [1] 郭逸重.Hadoop分布式數(shù)據(jù)清洗方案[D].廣州:華南理工大學(xué),2012.

      [2] 朱前磊.電子政務(wù)系統(tǒng)中海量數(shù)據(jù)清洗[D].上海:東華大學(xué),2010.

      [3] 范明,孟曉峰.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2010.

      [4] 同濟(jì)大學(xué)數(shù)學(xué)系.高等數(shù)學(xué)[M].北京:高等教育出版社,2014.

      [5] 王紅梅,胡明.算法設(shè)計(jì)與分析[M].北京:清華大學(xué)出版社,2013.endprint

      猜你喜歡
      算法
      基于MapReduce的改進(jìn)Eclat算法
      Travellng thg World Full—time for Rree
      進(jìn)位加法的兩種算法
      基于CC2530的改進(jìn)TPSN算法
      基于BCH和HOG的Mean Shift跟蹤算法
      算法初步兩點(diǎn)追蹤
      基于增強(qiáng)隨機(jī)搜索的OECI-ELM算法
      一種改進(jìn)的整周模糊度去相關(guān)算法
      一種抗CPS控制層欺騙攻擊的算法
      Wiener核的快速提取算法
      襄城县| 武陟县| 永善县| 星座| 丹寨县| 依安县| 磐安县| 夏津县| 措美县| 成安县| 漯河市| 惠州市| 九龙城区| 沾化县| 宁阳县| 小金县| 宜宾县| 石楼县| 九寨沟县| 贵南县| 正镶白旗| 都兰县| 阳东县| 海宁市| 子洲县| 玛多县| 耿马| 乐清市| 恩施市| 班戈县| 石台县| 铜山县| 云南省| 苗栗县| 宁晋县| 新营市| 绥滨县| 谢通门县| 遂溪县| 延寿县| 呼图壁县|