• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于大數(shù)據(jù)的數(shù)據(jù)清洗技術(shù)及運(yùn)用

      2019-08-01 01:52劉政宇
      關(guān)鍵詞:大數(shù)據(jù)應(yīng)用

      劉政宇

      摘要:本文探討了數(shù)據(jù)清洗技術(shù),研究了大數(shù)據(jù)的數(shù)據(jù)清洗技術(shù)及運(yùn)用,希望為研究數(shù)據(jù)清洗技術(shù)的專家和學(xué)者提供理論參考依據(jù)。

      關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)清洗技術(shù);應(yīng)用

      中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2019)04-0092-01

      0 引言

      大數(shù)據(jù)時(shí)代來臨,數(shù)據(jù)的類型多樣化,數(shù)據(jù)的數(shù)量增多,這給數(shù)據(jù)清洗帶來一定的問題,如何科學(xué)有效的對數(shù)據(jù)清洗,滿足現(xiàn)代企業(yè)發(fā)展需要。傳統(tǒng)的數(shù)據(jù)清洗方法已經(jīng)不適合現(xiàn)代社會發(fā)展需要,尤其大數(shù)據(jù)時(shí)代數(shù)據(jù)的多元化,必須更新現(xiàn)在數(shù)據(jù)清洗技術(shù),提高數(shù)據(jù)清洗的能力,滿足大數(shù)據(jù)時(shí)代數(shù)據(jù)清洗的需要。

      1 數(shù)據(jù)清洗技術(shù)概述

      數(shù)據(jù)在采集的過程中出現(xiàn)錯(cuò)誤的數(shù)據(jù)是一種正?,F(xiàn)象,一旦數(shù)據(jù)在應(yīng)用與模型中已經(jīng)形成,需要在數(shù)據(jù)庫中對錯(cuò)誤數(shù)據(jù)進(jìn)行處理,這時(shí)候需要發(fā)揮數(shù)據(jù)清洗技術(shù)的作用。為了提高數(shù)據(jù)質(zhì)量而剔除數(shù)據(jù)中錯(cuò)誤記錄的一種技術(shù)手段,在實(shí)際應(yīng)用中通常與數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)倉庫技術(shù)、數(shù)據(jù)整合技術(shù)結(jié)合應(yīng)用。在具體數(shù)據(jù)清洗的過程中,根據(jù)清洗數(shù)據(jù)的特點(diǎn),需要選擇合適的數(shù)據(jù)清洗方式,同時(shí)選用其它數(shù)據(jù)分析相應(yīng)的數(shù)據(jù)技術(shù),對錯(cuò)誤的數(shù)據(jù)進(jìn)行科學(xué)有效的清洗,達(dá)到數(shù)據(jù)清洗的目的。

      數(shù)據(jù)清洗技術(shù)的基本原理為:在分析數(shù)據(jù)源特點(diǎn)的基礎(chǔ)上,找出數(shù)據(jù)質(zhì)量問題原因,確定清洗要求,建立起清洗模型,應(yīng)用清洗算法、清洗策略和清洗方案對應(yīng)到數(shù)據(jù)識別與處理中,最終清洗出滿足質(zhì)量要求的數(shù)據(jù)。在對數(shù)據(jù)進(jìn)行處理的過程中,數(shù)據(jù)清洗一般起到重要作用,其需要把錯(cuò)誤的數(shù)據(jù)清洗,這樣對數(shù)據(jù)進(jìn)行分析才有一定的意義。數(shù)據(jù)清洗是數(shù)據(jù)分析、數(shù)據(jù)挖掘的前提,也是數(shù)據(jù)預(yù)處理的關(guān)鍵環(huán)節(jié),可保證數(shù)據(jù)質(zhì)量和數(shù)據(jù)分析的準(zhǔn)確性。數(shù)據(jù)處理是一個(gè)多元化因素,必須利用現(xiàn)有的技術(shù)進(jìn)行科學(xué)有效的進(jìn)行數(shù)據(jù)處理,在數(shù)據(jù)處理的過程中,數(shù)據(jù)清洗起到重要作用,數(shù)據(jù)分析前提必須數(shù)據(jù)正確,數(shù)據(jù)錯(cuò)誤進(jìn)行分析沒有任何意義。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)清洗技術(shù)已經(jīng)被廣泛應(yīng)用于大健康、銀行、移動通信、交通等領(lǐng)域,在一定程度上保證了數(shù)據(jù)質(zhì)量,為大數(shù)據(jù)決策提供了可靠依據(jù)。數(shù)據(jù)清洗應(yīng)用的范圍廣,有數(shù)據(jù)的地方,基本都需要數(shù)據(jù)清洗,在互聯(lián)網(wǎng)+時(shí)代,數(shù)據(jù)采集的多元化,這是增加數(shù)據(jù)錯(cuò)誤的概率,進(jìn)行數(shù)據(jù)清洗是非常必要的,也是非常重要的,是保障數(shù)據(jù)分析正確性起到?jīng)Q定性作用[1,2]。

      2 大數(shù)據(jù)的數(shù)據(jù)清洗技術(shù)及運(yùn)用

      2.1 基于函數(shù)依賴的數(shù)據(jù)清洗技術(shù)

      (1)建立數(shù)據(jù)庫。數(shù)據(jù)庫建立是數(shù)據(jù)清洗的重要過程,對數(shù)據(jù)的分析起到重要作用,數(shù)據(jù)庫對數(shù)據(jù)進(jìn)行有效存儲,數(shù)據(jù)清洗過程中可以通過數(shù)據(jù)庫進(jìn)行數(shù)據(jù)清洗,對數(shù)據(jù)庫中的數(shù)據(jù)質(zhì)量,通過數(shù)據(jù)庫可以優(yōu)化數(shù)據(jù),在數(shù)據(jù)查找中起到重要作用,對原始數(shù)據(jù)庫進(jìn)行科學(xué)有效的添加,刪除,選擇有用數(shù)據(jù)進(jìn)行分析,對一些錯(cuò)誤數(shù)據(jù)可以利用數(shù)據(jù)庫進(jìn)行刪除,提高了數(shù)據(jù)的利用效率,對提升數(shù)據(jù)清洗效果起到重要作用。(2)數(shù)據(jù)篩選。數(shù)據(jù)篩選是數(shù)據(jù)清洗,數(shù)據(jù)挖掘,數(shù)據(jù)分析中常用的手段,在海量的數(shù)據(jù)中,通過數(shù)據(jù)篩選對數(shù)據(jù)進(jìn)行分類,有助于進(jìn)行科學(xué)數(shù)據(jù)清洗,對提高數(shù)據(jù)清洗的效率,保證數(shù)據(jù)清洗的質(zhì)量都起到重要作用。數(shù)據(jù)篩選都需要利用數(shù)據(jù)庫中的字段進(jìn)行數(shù)據(jù)篩選,字段之間有一定的關(guān)聯(lián),通過函數(shù)之間讓字段產(chǎn)生一定聯(lián)系,確定數(shù)據(jù)清洗的關(guān)聯(lián)性,完整性,科學(xué)性,對提升數(shù)據(jù)分析起到促進(jìn)作用。(3)數(shù)據(jù)查找。數(shù)據(jù)查找是數(shù)據(jù)庫的基本功能,在數(shù)據(jù)庫中進(jìn)行數(shù)據(jù)查找非常方便,提高了數(shù)據(jù)查找的效率。在數(shù)據(jù)清洗,數(shù)據(jù)挖掘、數(shù)據(jù)分析中都涉及數(shù)據(jù)查找,數(shù)據(jù)查找對數(shù)據(jù)清洗都起到重要作用,利用數(shù)據(jù)庫字段進(jìn)行查找,提升查找效率,對數(shù)據(jù)之間的實(shí)際應(yīng)用起到重要作用。(4)數(shù)據(jù)清洗。數(shù)據(jù)庫之間利用字段之間的聯(lián)系,對提高數(shù)據(jù)清洗的效率,完成數(shù)據(jù)清洗的能力都起到重要作用,在實(shí)際數(shù)據(jù)清洗的過程中,利用數(shù)據(jù)庫之間函數(shù)之間的關(guān)系,通過字段之間的關(guān)聯(lián),對數(shù)據(jù)清洗,修復(fù)、挖掘、分析等都起到重要作用,對提升數(shù)據(jù)清洗的效率起到重要作用[3]。

      2.2 相似重復(fù)數(shù)據(jù)清洗技術(shù)

      數(shù)據(jù)清洗技術(shù)在具體清洗數(shù)據(jù)的過程中,一般需要結(jié)合算法一起使用,對提高數(shù)據(jù)清洗的效率起到重要作用。基于排列合并算法是數(shù)據(jù)清洗技術(shù)中常用的算法,在數(shù)據(jù)清洗中起到重要作用?;谂帕泻喜⑺惴ㄉ婕皵?shù)據(jù)庫的知識,對字段等進(jìn)行實(shí)踐應(yīng)用,對提高數(shù)據(jù)篩選,數(shù)據(jù)查找等都起到重要作用,對數(shù)據(jù)清洗起到基本保障作用,數(shù)據(jù)清洗的效率提升,對數(shù)據(jù)分析起到重要作用,數(shù)據(jù)庫中字段之間存在一定的關(guān)聯(lián),對其中錯(cuò)誤的數(shù)據(jù)記錄進(jìn)行科學(xué)有效的清洗起到重要作用,在數(shù)據(jù)庫中數(shù)據(jù)冗余現(xiàn)象是一種常態(tài),數(shù)據(jù)清洗重復(fù)記錄,對提高數(shù)據(jù)分析起到重要作用。基于排列合并算法的數(shù)據(jù)清洗技術(shù)對提高數(shù)據(jù)清洗效率起到重要作用,也是符合現(xiàn)代數(shù)據(jù)清洗技術(shù)發(fā)展的需要。

      2.3 不完整數(shù)據(jù)清洗技術(shù)

      不完整數(shù)據(jù)清洗技術(shù)主要針對數(shù)據(jù)庫字段是空值或錯(cuò)誤字段,大數(shù)據(jù)時(shí)代,數(shù)據(jù)類型的多變性,對數(shù)據(jù)庫的數(shù)據(jù)采集,存儲都帶來了一定的挑戰(zhàn),在實(shí)際應(yīng)用過程中,其中在數(shù)據(jù)清洗過程中涉及一些常用數(shù)據(jù)庫函數(shù),比如求和、平均、最大、最小值等。不完整數(shù)據(jù)清洗技術(shù)對數(shù)據(jù)清洗的流程有一定轉(zhuǎn)變,但在實(shí)際清洗過程中根據(jù)需要科學(xué)選擇清洗方法結(jié)合其它數(shù)據(jù)分析技術(shù)進(jìn)行科學(xué)清洗。

      2.4 不一致數(shù)據(jù)修復(fù)技術(shù)

      大數(shù)據(jù)時(shí)代數(shù)據(jù)采集的多樣化,數(shù)據(jù)類型的多元化,這增加了數(shù)據(jù)錯(cuò)誤的概率,同時(shí)為數(shù)據(jù)清洗增加了難度。在數(shù)據(jù)清洗的過程中存在數(shù)據(jù)類型等不一致情況,利用不一致數(shù)據(jù)修復(fù)技術(shù)不一定對數(shù)據(jù)清洗進(jìn)行完整,起到數(shù)據(jù)清洗的效果。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)源受多種因素的影響,違反完整性約束,造成大量不一致數(shù)據(jù)的產(chǎn)生。數(shù)據(jù)不一致的情況也是多樣化,必須對數(shù)據(jù)進(jìn)行篩選,對數(shù)據(jù)科學(xué)進(jìn)行歸類,為數(shù)據(jù)清洗進(jìn)行科學(xué)準(zhǔn)備。在數(shù)據(jù)清洗中,要利用不一致數(shù)據(jù)修復(fù)技術(shù)使不一致數(shù)據(jù)符合完整性約束,進(jìn)而保證數(shù)據(jù)質(zhì)量。但在數(shù)據(jù)實(shí)際清洗過程中,會出現(xiàn)多元化情況,這個(gè)數(shù)據(jù)清洗帶來一定的困難[4]。數(shù)據(jù)修復(fù)流程如:

      (1)檢測數(shù)據(jù)源中的數(shù)據(jù)格式,對數(shù)據(jù)格式進(jìn)行預(yù)處理;(2)檢測預(yù)處理數(shù)據(jù)后的數(shù)據(jù)是否符合完整性,如果不符合,則要修復(fù)數(shù)據(jù)。如果在數(shù)據(jù)修復(fù)之后依然存在著與數(shù)據(jù)完整性約束不一致的情況,則要再次修復(fù)數(shù)據(jù),直到數(shù)據(jù)符合要求;(3)數(shù)據(jù)修復(fù)完成后,將其還原成原格式,為數(shù)據(jù)錄入系統(tǒng)打下基礎(chǔ)。數(shù)據(jù)清洗是數(shù)據(jù)分析的重要過程,需要把一些有問題的數(shù)據(jù)清洗,提高數(shù)據(jù)分析的準(zhǔn)確性,也促使數(shù)據(jù)分析有意義,對促進(jìn)其它行業(yè)的發(fā)展起到重要作用。

      3 結(jié)語

      總之,數(shù)據(jù)清洗是數(shù)據(jù)分析中的重要環(huán)節(jié),在大數(shù)據(jù)時(shí)代,傳統(tǒng)的數(shù)據(jù)清洗方法已經(jīng)不適合現(xiàn)代數(shù)據(jù)分析的要求,必須根據(jù)數(shù)據(jù)的轉(zhuǎn)變,結(jié)合數(shù)據(jù)挖掘等知識進(jìn)行數(shù)據(jù)清洗,提高數(shù)據(jù)清洗的效果,滿足大數(shù)據(jù)時(shí)代企業(yè)對數(shù)據(jù)清洗的要求。

      參考文獻(xiàn)

      [1] 鄧線平.大數(shù)據(jù)清洗的方法論考察[J].江南論壇,2018(3):31-32.

      [2] 葉鷗,張璟,李軍懷.中文數(shù)據(jù)清洗研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2012(14):121-129.

      [3] 譚暉,廖振松,周小翠,賀凡.大數(shù)據(jù)的數(shù)據(jù)清洗方法研究[J].信息通信,2017(01):238-239.

      [4] 王志剛,毛亞瓊,徐越,梁永春.生態(tài)環(huán)境監(jiān)測的數(shù)據(jù)清洗研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2019(1):94-95.

      猜你喜歡
      大數(shù)據(jù)應(yīng)用
      大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      多媒體技術(shù)在小學(xué)語文教學(xué)中的應(yīng)用研究
      江川县| 南昌市| 湟中县| 马鞍山市| 景德镇市| 广南县| 德昌县| 荆州市| 镇平县| 绥化市| 和林格尔县| 淄博市| 临泉县| 连平县| 温州市| 亚东县| 横峰县| 郑州市| 满洲里市| 临清市| 滦平县| 获嘉县| 昌江| 北海市| 新疆| 新竹市| 洛宁县| 封丘县| 德令哈市| 温宿县| 徐州市| 舞钢市| 德江县| 唐山市| 秦皇岛市| 舒兰市| 东至县| 淄博市| 峨眉山市| 长治市| 屏东市|