• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      生態(tài)環(huán)境監(jiān)測的數(shù)據(jù)清洗研究

      2019-12-24 03:45:26王志剛毛亞瓊梁永春
      關(guān)鍵詞:監(jiān)測數(shù)據(jù)生態(tài)檢測

      ◆王志剛 毛亞瓊 徐 越 梁永春

      生態(tài)環(huán)境監(jiān)測的數(shù)據(jù)清洗研究

      ◆王志剛1毛亞瓊1徐 越2梁永春2

      (1.青海師范大學(xué) 青海 810008;2.華北科技學(xué)院 河北 101601)

      作為對生態(tài)監(jiān)測數(shù)據(jù)質(zhì)量的提高方法,數(shù)據(jù)清洗是一種有效的處理方法,本文對其的應(yīng)用現(xiàn)狀與前景進行了概述。首先對物聯(lián)網(wǎng)在生態(tài)監(jiān)測數(shù)據(jù)的數(shù)據(jù)清洗的研究背景和特點進行說明。針對監(jiān)測數(shù)據(jù)清洗問題處理方法進行分類,對這幾類問題的解決途徑進行分析介紹。最后根據(jù)現(xiàn)有的處理方法的優(yōu)缺點并結(jié)合生態(tài)監(jiān)測采集數(shù)據(jù)特點提出了進一步數(shù)據(jù)修正改進的方案,對該領(lǐng)域的數(shù)據(jù)清洗研究作出展望。

      生態(tài)監(jiān)測;數(shù)據(jù)清洗

      0 引言

      生態(tài)環(huán)境監(jiān)測數(shù)據(jù)依然遵從一條針對數(shù)據(jù)質(zhì)量保障的原理,即“進去的是垃圾,出來的也是垃圾”。數(shù)據(jù)清洗作為提高數(shù)據(jù)質(zhì)量的重要手段,已有很多研究對數(shù)據(jù)質(zhì)量定義有過深度探討[1],生態(tài)監(jiān)測數(shù)據(jù)的清洗根據(jù)其自身特點,旨在解決其中的正確性(correctness)、完整性(correctness)以及最小性(minimatality)。

      物聯(lián)網(wǎng)數(shù)據(jù)清洗的方法隨著機器學(xué)習(xí)等技術(shù)的發(fā)展,也在逐漸應(yīng)用到數(shù)據(jù)清洗領(lǐng)域,本文在數(shù)據(jù)清洗方法分類上提出將數(shù)據(jù)清洗方法分為基于統(tǒng)計方法與數(shù)據(jù)挖掘方法,并依據(jù)監(jiān)測數(shù)據(jù)特點對數(shù)據(jù)修正填補進一步制定了清洗方案。

      1 生態(tài)監(jiān)測數(shù)特點及相關(guān)概念

      新一代的數(shù)據(jù)采集,主要來源為傳感器數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)以及行業(yè)數(shù)據(jù)三種數(shù)據(jù)來源方式。采集的數(shù)據(jù)可分為線上的行為數(shù)據(jù)與內(nèi)容數(shù)據(jù)兩大類。線上行為數(shù)據(jù)主要包括網(wǎng)頁數(shù)據(jù)、提交表單數(shù)據(jù)、交互型數(shù)據(jù)以及會話數(shù)據(jù)等,而內(nèi)容數(shù)據(jù)包括了電子文檔數(shù)據(jù)、應(yīng)用及操作日志數(shù)據(jù)、音頻視頻數(shù)據(jù)、社交媒體數(shù)據(jù)以及機器數(shù)據(jù)。生態(tài)監(jiān)測數(shù)據(jù)的采集,屬于機器數(shù)據(jù)屬內(nèi)容數(shù)據(jù)的范疇,因此具有自身的一些特點:

      (1)生態(tài)監(jiān)測數(shù)據(jù)類型固定,是由傳感器轉(zhuǎn)換為電信號的物理量或數(shù)字量與模擬量,與互聯(lián)網(wǎng)等直接獲取的文字性等行為數(shù)據(jù)不同,具有本質(zhì)區(qū)別。

      (2)數(shù)據(jù)采集方式具有周期性,通常對某一點的監(jiān)測為固定時間點的瞬時數(shù)據(jù)。

      (3)數(shù)據(jù)具有較強關(guān)聯(lián)性,在生態(tài)環(huán)境中同一地點不同氣象參數(shù)之間或不同地點同一參數(shù)的相關(guān)性大,通過數(shù)據(jù)分析方法得到的相關(guān)系數(shù)高,因此不容忽略,具有較強研究價值。

      2 生態(tài)監(jiān)測數(shù)據(jù)清洗方法及優(yōu)化

      根據(jù)生態(tài)檢測數(shù)據(jù)的特點,數(shù)據(jù)清洗主要處于數(shù)據(jù)傳輸?shù)膶嵗龑樱ㄟ^對重復(fù)對象檢測、異常數(shù)據(jù)處理以及缺失數(shù)據(jù)處理來實現(xiàn)數(shù)據(jù)質(zhì)量的提高。本文將從三種異常處理數(shù)據(jù)的相關(guān)方法進行介紹。

      2.1 重復(fù)記錄

      對多節(jié)點采集數(shù)據(jù)源的情況下,必然在數(shù)據(jù)集成整理時產(chǎn)生多個記錄代表同一對象的情況,或者是同一區(qū)域非常相近的記錄,這樣的數(shù)據(jù)被稱為重復(fù)記錄。針對重復(fù)記錄,在國內(nèi)外大多數(shù)研究者均采用重復(fù)記錄的相似度作為 判別指標(biāo)。采用最多的方法是基于特征相似度(feature based similarity,FBS)[2],最終文獻[3]的國內(nèi)學(xué)者又采用聚集與FBS的方法得到良好的檢測結(jié)果。

      2.2 異常數(shù)據(jù)

      監(jiān)測數(shù)據(jù)的異常,通常由設(shè)備故障、人為制造不合理環(huán)境、自然災(zāi)害等特殊情況造成數(shù)據(jù)產(chǎn)生異常值,最多的便是離群點數(shù)據(jù)。對異常值的判定主要分為基于統(tǒng)計計算的方法以及數(shù)據(jù)挖掘的異常偏離點。數(shù)據(jù)中最明顯的就是不符合業(yè)務(wù)規(guī)則的數(shù)據(jù),違反生態(tài)環(huán)境規(guī)則,文獻[4]在70年代就提出過較為嚴(yán)格的形式化模型Fellegi-Hot。

      電網(wǎng)行業(yè)對監(jiān)測數(shù)據(jù)異常做了大量工作,文獻[5]在廣域測量系統(tǒng)(wide area measurement system,WAMS)的基礎(chǔ)上,采用高位隨機矩陣模型的構(gòu)建,對異常數(shù)據(jù)進行檢測。最新的傳感器監(jiān)測數(shù)據(jù)采集方面檢測方法是文獻[6]提出的詳細(xì)K-均值聚類的方法對異常數(shù)據(jù)檢測,計算出樣本中的異常因子,與回歸模型結(jié)合并將其中異常樣本剔除。

      2.3 缺失數(shù)據(jù)

      數(shù)據(jù)采集時發(fā)生數(shù)據(jù)缺失,產(chǎn)生原因有機器損壞造成數(shù)據(jù)存儲缺失、人為疏忽會刻意篡改以及環(huán)境客觀條件造成信息無法獲取[8]。處理缺失值的方法分為三種,即刪除整條記錄、填充缺失數(shù)據(jù)與不處理數(shù)據(jù)[8]。刪除元組的方法與不處理的方法雖然簡單易行,但僅僅適用于極少量數(shù)據(jù)缺失的情況下,不然對信息的浪費以及數(shù)據(jù)質(zhì)量影響較大。而缺失數(shù)據(jù)填充是大多數(shù)據(jù)應(yīng)用領(lǐng)域會采取的方法,可以保證數(shù)據(jù)清洗后數(shù)據(jù)較高的可用性,一方面可由人為設(shè)置固定值取代,另一方面是采用數(shù)學(xué)統(tǒng)計模型以及機器學(xué)習(xí)等方法進行缺失值的預(yù)測填充。設(shè)置缺失值為固定某個值或篩選值往往以對行業(yè)數(shù)據(jù)了解為前提[9]。利用模型構(gòu)建與機器算法實現(xiàn)雖然更接近真是數(shù)據(jù),但針對不用數(shù)據(jù),不同填充方法也會出現(xiàn)不一樣的效果。宏觀角度,文獻[10]采用高位隨機矩陣模型,在時空特性分析的基礎(chǔ)上推導(dǎo)出異常檢測的理論和方法。

      2.4 生態(tài)監(jiān)測數(shù)據(jù)特性的數(shù)據(jù)清洗

      本文針對生態(tài)監(jiān)測數(shù)據(jù)的特點并結(jié)合上述清洗方法,提出了監(jiān)測異常數(shù)據(jù)的處理方案,側(cè)重處理數(shù)據(jù)的修正及填充。具體步驟如下:

      第一步,對采集數(shù)據(jù)的重復(fù)及異常鑒別;

      第二步,進行異常處理,首先計算數(shù)據(jù)相關(guān)性。然后對數(shù)據(jù)進行分類,分為了分類變量與連續(xù)型變量,對連續(xù)型變量采取離散化處理;

      第三步,對分類變量與離散化后的數(shù)據(jù)利用數(shù)據(jù)間的關(guān)聯(lián)關(guān)系進行模式挖掘與查詢,利用挖掘出的規(guī)則與相關(guān)性得到的閾值篩選并填補缺失值或修正異常值;

      第四步,對連續(xù)型變量進一步采用同規(guī)則的向量回歸計算精確的缺失或異常值。

      采用此方法的優(yōu)勢在于適應(yīng)監(jiān)測數(shù)據(jù)的特點,尤其處理連續(xù)型數(shù)據(jù),利用有限的同規(guī)則數(shù)據(jù)對缺失數(shù)據(jù)進行填補或異常修正,將具有與滑動窗口等效的占用率低以及實時性。另一方面,對數(shù)據(jù)利用統(tǒng)計的方法將生態(tài)監(jiān)測數(shù)據(jù)的相關(guān)性作為規(guī)則挖掘的輔助信息。那么,本節(jié)清洗結(jié)構(gòu)的設(shè)計在時空占用上必然略高于統(tǒng)計方法但低于機器學(xué)習(xí)方法,以此換來更高的數(shù)據(jù)修正精準(zhǔn)度是可接受的。

      3 結(jié)束語

      在生態(tài)數(shù)據(jù)監(jiān)測領(lǐng)域雖然目前很少有專門的數(shù)據(jù)清洗方法研究,但從上述研究分析可以看出,大多數(shù)數(shù)據(jù)清洗的方法適用于監(jiān)測數(shù)據(jù)的清洗。且在很多應(yīng)用研究中對監(jiān)測數(shù)據(jù)的清洗已廣泛應(yīng)用。精準(zhǔn)的數(shù)據(jù)清洗能夠提高生態(tài)環(huán)境下監(jiān)測數(shù)據(jù)的準(zhǔn)確性;提高傳感器設(shè)備的工作效率;能夠及時地發(fā)現(xiàn)數(shù)據(jù)采集環(huán)境的異常狀況或設(shè)備狀態(tài);為監(jiān)測數(shù)據(jù)的進一步研究提供了可靠的數(shù)據(jù)。但是,數(shù)據(jù)異常的識別與處理,仍然在生態(tài)監(jiān)測數(shù)據(jù)領(lǐng)域有很大的研究前景,在后續(xù)的研究中,將實現(xiàn)與已經(jīng)非常成熟的行業(yè)同等效率的數(shù)據(jù)清洗。

      綜合以上不同數(shù)據(jù)清洗方法的特點,本文在生態(tài)環(huán)境數(shù)據(jù)監(jiān)測的適用性方面進行進一步研究,對環(huán)境以及社會都具有深遠(yuǎn)的價值和意義。本文提出采用基礎(chǔ)的統(tǒng)計方法與基于數(shù)據(jù)挖掘關(guān)聯(lián)方法結(jié)合的理論,克服了統(tǒng)計方法的不確定性與機器學(xué)習(xí)方法的復(fù)雜度較高的缺陷。有望在采集數(shù)據(jù)領(lǐng)域獲得更高質(zhì)量的數(shù)據(jù),在今后的研究以及應(yīng)用中將進一步探索和證明。

      [1]宋敏,覃正.國外數(shù)據(jù)質(zhì)量管理研究綜述[J].情報雜志,2007.

      [2]曹建軍,刁興春,汪挺,王芳瀟.領(lǐng)域無關(guān)數(shù)據(jù)清洗研究綜述[J].計算機科學(xué),2010.

      [3]俞榮華,田增平,周傲英.一種檢測多語言文本相似重復(fù)記錄的綜合方法[J].計算機科學(xué),2002.

      [4]陳偉,陳耿,朱文明.基于業(yè)務(wù)規(guī)則的錯誤數(shù)據(jù)清理方法[J].計算機工程與應(yīng)用,2005.

      [5]魏大千,王波,劉滌塵,羅金號,冀星沛.高維隨機矩陣描述下的量測大數(shù)據(jù)建模與異常數(shù)據(jù)檢測方法[J].中國電機工程學(xué)報,2015.

      [6]張仁斌,許輔昊,劉飛,李思嫻.基于K-均值聚類的工業(yè)異常數(shù)據(jù)檢測[J].計算機應(yīng)用研究,2018.

      [7]王雷,張瑞青,盛偉,徐治皋.基于支持向量機的回歸預(yù)測和異常數(shù)據(jù)檢測[J].中國電機工程學(xué)報,2009.

      [8]曄沙.數(shù)據(jù)缺失及其處理方法綜述[J].電子測試,2017.

      [9]唐菱,方若晨,李芙玲,李永飛.大氣環(huán)境監(jiān)測數(shù)據(jù)審核和分析系統(tǒng)的設(shè)計與實現(xiàn)[J].華北科技學(xué)院學(xué)報,2016.

      [10]魏大千,王波,劉滌塵,羅金號,冀星沛.高維隨機矩陣描述下的量測大數(shù)據(jù)建模與異常數(shù)據(jù)檢測方法[J].中國電機工程學(xué)報,2015.

      本文受到國家自然科學(xué)基金(No.61472137),國家重點研發(fā)計劃(No.2017YFC0804108),青海省重點實驗室、重點研發(fā)項目(No.2017-ZJ-752,2017-ZJ-Y21)和河北省物聯(lián)網(wǎng)監(jiān)控工程技術(shù)研究中心項目的資助(No.3142016020)。

      猜你喜歡
      監(jiān)測數(shù)據(jù)生態(tài)檢測
      “不等式”檢測題
      “一元一次不等式”檢測題
      “一元一次不等式組”檢測題
      “生態(tài)養(yǎng)生”娛晚年
      住進呆萌生態(tài)房
      生態(tài)之旅
      GSM-R接口監(jiān)測數(shù)據(jù)精確地理化方法及應(yīng)用
      小波變換在PCB缺陷檢測中的應(yīng)用
      GPS異常監(jiān)測數(shù)據(jù)的關(guān)聯(lián)負(fù)選擇分步識別算法
      基于小波函數(shù)對GNSS監(jiān)測數(shù)據(jù)降噪的應(yīng)用研究
      左贡县| 分宜县| 遵义市| 交口县| 门头沟区| 巴青县| 武穴市| 惠东县| 闽清县| 新乐市| 合川市| 武陟县| 巩留县| 丰城市| 新和县| 文成县| 噶尔县| 闵行区| 灌阳县| 新宾| 乌兰察布市| 大荔县| 保德县| 乐清市| 泗水县| 张家界市| 灵武市| 秦皇岛市| 叙永县| 玉门市| 五峰| 山阴县| 富锦市| 封丘县| 九龙县| 日土县| 小金县| 嘉禾县| 宜昌市| 灌南县| 涞水县|