王梓吉
摘 要:信息技術(shù)的快速發(fā)展,為數(shù)據(jù)的采集和分析提供了有力的技術(shù)基礎(chǔ),作為數(shù)學(xué)與計(jì)算機(jī)學(xué)科的交叉方向,大數(shù)據(jù)技術(shù)的發(fā)展和應(yīng)用價(jià)值已經(jīng)得到人們的認(rèn)可。本文結(jié)合大數(shù)據(jù)技術(shù)的數(shù)據(jù)預(yù)處理需求,從數(shù)學(xué)角度闡述了數(shù)據(jù)預(yù)處理的方法,從分析結(jié)果可知,選取科學(xué)合理的數(shù)學(xué)處理算法可以為數(shù)據(jù)價(jià)值挖掘提供高質(zhì)量的數(shù)據(jù)源,這也是今后數(shù)據(jù)學(xué)科所要解決的關(guān)鍵科學(xué)問題。
關(guān)鍵詞:大數(shù)據(jù);預(yù)處理;抽象數(shù)據(jù);歸一化處理
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-2064(2019)02-0028-02
隨著大數(shù)據(jù)技術(shù)的發(fā)展與應(yīng)用,對(duì)數(shù)據(jù)處理的需求越來越多,其應(yīng)用價(jià)值也十分明顯,大數(shù)據(jù)處理技術(shù)是應(yīng)用數(shù)學(xué)與計(jì)算機(jī)技術(shù)的一個(gè)交叉領(lǐng)域,其主要目的是將大量數(shù)據(jù)進(jìn)行深度分析,進(jìn)而實(shí)現(xiàn)對(duì)其潛在的價(jià)值挖掘[1]。但是在數(shù)據(jù)采集過程中,由于設(shè)備精度、環(huán)境影響以及人為失誤等造成一些數(shù)據(jù)屬性缺失、記錄錯(cuò)誤、噪音污染等,所得到的質(zhì)量不高的數(shù)據(jù),被行業(yè)稱為“臟數(shù)據(jù)”。如果不對(duì)這些數(shù)據(jù)進(jìn)行提前處理,會(huì)導(dǎo)致后續(xù)的數(shù)據(jù)挖掘與分析不夠精確,以至于影響數(shù)據(jù)分析結(jié)果的應(yīng)用[1-2]。
因此,對(duì)數(shù)據(jù)預(yù)處理是大數(shù)據(jù)技術(shù)應(yīng)用的關(guān)鍵環(huán)節(jié)。本文正是基于實(shí)際存在的“臟數(shù)據(jù)”問題,從數(shù)學(xué)應(yīng)用的嚴(yán)謹(jǐn)性出發(fā),深入地闡述數(shù)據(jù)預(yù)處理方法,為得到科學(xué)合理的數(shù)據(jù)分析結(jié)果奠定技術(shù)基礎(chǔ)。
1 大數(shù)據(jù)技術(shù)
1.1 概念
在《大數(shù)據(jù)時(shí)代》中所提到的大數(shù)據(jù)技術(shù),是指不用傳統(tǒng)的隨機(jī)理論進(jìn)行數(shù)據(jù)分析,而采用對(duì)所有數(shù)據(jù)進(jìn)行統(tǒng)一的分析處理的方法,這給數(shù)據(jù)處理帶來了挑戰(zhàn),主要集中在數(shù)據(jù)量很大,要求采用處理速度快的一些數(shù)學(xué)處理方法[1]。
信息技術(shù)是大數(shù)據(jù)時(shí)代的基礎(chǔ),該技術(shù)的發(fā)展與應(yīng)用已經(jīng)使得眾多領(lǐng)域發(fā)生一些技術(shù)革命。由于實(shí)際生產(chǎn)生活中,產(chǎn)生并積累了大量的數(shù)據(jù),而數(shù)據(jù)又潛在地表征了過程的特性,可見,一旦通過科學(xué)合理的數(shù)據(jù)處理方法,其內(nèi)在價(jià)值將會(huì)得到挖掘,進(jìn)而用于優(yōu)化、控制與決策,深層次地發(fā)揮數(shù)據(jù)的價(jià)值。大數(shù)據(jù)由于其樣本量大、精準(zhǔn)度高、科學(xué)性優(yōu)異,同時(shí),大數(shù)據(jù)處理技術(shù)具有高速度、多樣化、高價(jià)值和真實(shí)性等特點(diǎn),已經(jīng)為人們所接受,并逐步得到應(yīng)用。
1.2 大數(shù)據(jù)技術(shù)的處理流程
按照現(xiàn)有通常的大數(shù)據(jù)處理技術(shù),一般的數(shù)據(jù)處理流程如圖1所示[1-3]。
從圖1中可知,第一步是數(shù)據(jù)的采集與收集,這是數(shù)據(jù)大數(shù)據(jù)的源端,主要依賴于信息技術(shù),如傳感器網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)數(shù)據(jù)的采集。第二步是數(shù)據(jù)的預(yù)處理,由于現(xiàn)實(shí)采集的數(shù)據(jù)存在諸如缺陷、不規(guī)則、抽象性等問題,必須經(jīng)過預(yù)處理后才能進(jìn)行計(jì)算分析,這也是本文的重點(diǎn)研究?jī)?nèi)容。第三步是對(duì)得到的規(guī)則的數(shù)據(jù)矩陣進(jìn)行存儲(chǔ)。第四步是數(shù)據(jù)的分析,借助特定模型進(jìn)行數(shù)據(jù)價(jià)值分析。第五步是對(duì)結(jié)果進(jìn)行展示,也是數(shù)據(jù)價(jià)值表現(xiàn)的關(guān)鍵步驟。
從整個(gè)大數(shù)據(jù)的處理流程來看,數(shù)據(jù)預(yù)處理技術(shù)的水平?jīng)Q定了數(shù)據(jù)的真實(shí)性、完整性,對(duì)后續(xù)的數(shù)據(jù)分析起到十分關(guān)鍵的作用,在預(yù)處理環(huán)節(jié)用到很多的數(shù)學(xué)方法,本文接著重點(diǎn)闡述大數(shù)據(jù)預(yù)處理環(huán)節(jié)的相關(guān)數(shù)學(xué)變換與數(shù)學(xué)分析方法。
2 數(shù)據(jù)預(yù)處理技術(shù)分析[3]
2.1 需求分析
在大數(shù)據(jù)背景下,數(shù)據(jù)的收集過程中會(huì)產(chǎn)生諸多問題,例如測(cè)量收集設(shè)備精度不足、數(shù)據(jù)傳輸過程受到環(huán)境干擾、數(shù)據(jù)內(nèi)有環(huán)境噪音、手工輸入的誤操作等多種情況。將會(huì)形成引言中所提到的“臟數(shù)據(jù)”。這些原始數(shù)據(jù),將存在如下系列問題。
(1)雜亂。數(shù)據(jù)僅存放于數(shù)據(jù)集中,缺乏統(tǒng)一性的量化標(biāo)準(zhǔn)與轉(zhuǎn)化標(biāo)準(zhǔn),不利于數(shù)據(jù)的量化可視化分析。例如學(xué)校內(nèi)有關(guān)學(xué)生對(duì)老師喜愛程度的調(diào)查中,“喜愛”、“一般”等名詞便無法用于數(shù)據(jù)分析與處理。這類數(shù)據(jù)通常將通過歸一化處理進(jìn)行量化與分類整理。(2)重復(fù)。數(shù)據(jù)間擁有多個(gè)相同的物理描述與性質(zhì),特別的,對(duì)于要分析的數(shù)據(jù)方向存在重疊,將構(gòu)成數(shù)據(jù)的重復(fù)與冗余數(shù)據(jù)的堆積。這將不利于樣本的分析。例如在數(shù)據(jù)輸入時(shí),對(duì)同一實(shí)體輸入了多次便會(huì)導(dǎo)致數(shù)據(jù)重復(fù)。(3)模糊。在實(shí)驗(yàn)?zāi)P突驅(qū)嶋H系統(tǒng)的設(shè)計(jì)中不可避免的存在一些漏洞與缺陷,導(dǎo)致實(shí)體屬性不清晰或錯(cuò)亂。(4)缺失。數(shù)據(jù)傳輸或記錄過程中出現(xiàn)錯(cuò)誤,導(dǎo)致數(shù)據(jù)缺失。
由于數(shù)據(jù)集的復(fù)雜性,數(shù)據(jù)的正確性及有效性將極大地影響挖掘?qū)W習(xí)的準(zhǔn)確性和有效性。所以對(duì)數(shù)據(jù)進(jìn)行預(yù)處理就成為了分析前的重要工作。數(shù)據(jù)的預(yù)處理方法多種多樣,例如數(shù)據(jù)清洗、數(shù)據(jù)選樣、數(shù)據(jù)變換等。
2.2 數(shù)據(jù)清洗
現(xiàn)實(shí)中采集到的數(shù)據(jù)由于存在各種問題,一般都是不能直接用于價(jià)值分析的,這些不確定數(shù)據(jù)將嚴(yán)重影響大數(shù)據(jù)數(shù)據(jù)分析的準(zhǔn)確性,嚴(yán)重時(shí)更會(huì)使分析結(jié)果失去實(shí)際意義,因此需要按照特定目的進(jìn)行預(yù)處理。而數(shù)據(jù)清洗主要是針對(duì)那些不符合規(guī)則數(shù)據(jù)進(jìn)行處理,如重復(fù)數(shù)據(jù)項(xiàng)、噪聲數(shù)據(jù)項(xiàng)和缺失數(shù)據(jù)項(xiàng)等,對(duì)應(yīng)的處理方法如圖2所示。
重復(fù)數(shù)據(jù)會(huì)導(dǎo)致數(shù)據(jù)挖掘模式變化,因此必須給予剔除,但是如何有效檢測(cè)重復(fù)數(shù)據(jù)需要良好的數(shù)據(jù)分析算法,如采用基于排序-合并原理的基本緊鄰排序算法SNM是經(jīng)常使用的一種高效檢測(cè)算法。噪聲數(shù)據(jù)是指那些異常數(shù)據(jù)不在合理范圍的數(shù)據(jù),常借助周圍數(shù)據(jù)進(jìn)行平滑處理,如進(jìn)行平均值處理等類似分箱方法進(jìn)行有效預(yù)處理。
在實(shí)際的生產(chǎn)生活中,不可避免的會(huì)在數(shù)據(jù)中產(chǎn)生大量的空缺值,這是現(xiàn)實(shí)世界所產(chǎn)生的數(shù)據(jù)集的特點(diǎn),因此只能通過特定算法來盡量彌補(bǔ)誤差。常見的缺失值預(yù)處理方法有:
(1)直接刪除空白的數(shù)據(jù)項(xiàng)。這種方法的優(yōu)勢(shì)顯而易見,效率高技術(shù)含量低。但是對(duì)于樣本容量并不足夠大的數(shù)據(jù)集,就會(huì)造成極大的偏差。樣本標(biāo)準(zhǔn)差σ=其中。顯然對(duì)于N不夠大的樣本,刪除空白數(shù)據(jù)項(xiàng)會(huì)使μ和σ產(chǎn)生較大的誤差。(2)利用填充技術(shù)填充缺失值。由于直接刪除空缺值將有較大可能對(duì)數(shù)據(jù)造成不可逆的損傷,所以將運(yùn)用填充算法補(bǔ)全數(shù)據(jù),這樣不易產(chǎn)生偏差。
1)統(tǒng)計(jì)方法:根據(jù)標(biāo)準(zhǔn)的正態(tài)分布我們可以知道,可以采用數(shù)據(jù)的算術(shù)平均值代替空缺值,這是最簡(jiǎn)單也是最常用的方法。2)分類方法:面對(duì)龐大的數(shù)據(jù)集,可以先將其分類再對(duì)較小的進(jìn)行分析研究。具體方法有“貝葉斯網(wǎng)絡(luò)法”、“神經(jīng)網(wǎng)絡(luò)法”、“K-NN法”和“粗集理論法”等。分類方法對(duì)樣本訓(xùn)練都有較好的包容性,但是容易產(chǎn)生過度學(xué)習(xí)的現(xiàn)象,需要多設(shè)置測(cè)試樣本運(yùn)用更多的算法檢測(cè)挖掘,在此不作過多介紹。3)關(guān)聯(lián)方法:先使用迭代的方法找出所有滿足頻繁的、精確的可能規(guī)則的集合。之后利用啟發(fā)式構(gòu)造分類。4)聚類方法:聚類方法已經(jīng)成為數(shù)據(jù)挖掘的重要技術(shù)之一,成為了知識(shí)挖掘的核心方法。聚類的思想是將相同的實(shí)例聚到一個(gè)集合里,將不相似的聚到另外的集合中。
對(duì)于所有聚類對(duì)象,有E=,d(a,b)=。其中E表示所有對(duì)象的平方誤差的和,mi是Ci的平均值,d是兩個(gè)屬性間的距離。當(dāng)然也可以通過這些公式和另外一些復(fù)雜的算法得出聚類間的相似度,在此不作過多論述。
2.3 數(shù)據(jù)選樣
數(shù)據(jù)選樣分為簡(jiǎn)單隨機(jī)選樣和分層選樣兩種,是數(shù)學(xué)中典型的概率統(tǒng)計(jì)問題。其中簡(jiǎn)單隨機(jī)選樣包括無放回選樣與有放回選樣,簡(jiǎn)單隨機(jī)選樣的算法容易實(shí)現(xiàn),利用中學(xué)中的排列組合與概率知識(shí)配合編程知識(shí)就可以進(jìn)行操作,門檻較低,應(yīng)用廣泛。分層選樣得到的數(shù)據(jù)子集對(duì)于數(shù)據(jù)挖掘更優(yōu)。
2.4 數(shù)據(jù)變換
數(shù)據(jù)變換的目的是將數(shù)據(jù)轉(zhuǎn)換成特定挖掘需要的格式,通常需要結(jié)合實(shí)際的數(shù)據(jù)挖掘算法進(jìn)行特定的數(shù)據(jù)變換,一般可以分為簡(jiǎn)單的函數(shù)變換和統(tǒng)一的規(guī)范化兩種變換方式。
數(shù)據(jù)變換側(cè)重于在變換過程中,將數(shù)據(jù)由原本的不規(guī)范難以表達(dá)難以計(jì)算的,化為規(guī)范化可分析化的,盡量消除數(shù)據(jù)收集儲(chǔ)存過程中造成的本身缺陷。數(shù)據(jù)變換中較為基礎(chǔ)的是簡(jiǎn)單的函數(shù)變換,將數(shù)據(jù)通過一定的數(shù)學(xué)排列,從而采用曲線擬合的方法,利用y=xk,y=lognx,y=ex,y=,y=,y=sinx等函數(shù)擬合,利用函數(shù)來預(yù)測(cè)數(shù)據(jù)的變化趨勢(shì)與變化范圍。較為復(fù)雜的也可以采用不同的復(fù)雜算法,如z-score規(guī)范化算法,使得數(shù)據(jù)變換更加準(zhǔn)確科學(xué)。
除此之外有時(shí)還需要對(duì)數(shù)據(jù)進(jìn)行集成處理,將不同的數(shù)據(jù)源所構(gòu)成的數(shù)據(jù)集合相互整合去除冗余數(shù)據(jù),將上述兩個(gè)或多個(gè)數(shù)據(jù)集整合成同一個(gè)數(shù)據(jù)集后,再運(yùn)用數(shù)據(jù)清洗技術(shù),對(duì)其中的空缺值不準(zhǔn)確值進(jìn)行處理,從而獲得的數(shù)據(jù)集更具有科學(xué)性,精準(zhǔn)性。
3 結(jié)語
數(shù)據(jù)預(yù)處理是大數(shù)據(jù)處理的關(guān)鍵環(huán)節(jié),通過文章對(duì)大數(shù)據(jù)處理技術(shù)及其預(yù)處理階段的一些典型常見技術(shù)進(jìn)行分析與總結(jié),可以知道,目前大部分都是基于幾類典型問題進(jìn)行特定的數(shù)學(xué)處理。但實(shí)際上由于實(shí)際收集數(shù)據(jù)受外部環(huán)境影響大,造成數(shù)據(jù)隨機(jī)性變化、數(shù)據(jù)質(zhì)量很難保證,同時(shí)又由于各個(gè)行業(yè)對(duì)數(shù)據(jù)的要求不同,需要結(jié)合特定應(yīng)用需要采取科學(xué)合理的數(shù)據(jù)預(yù)處理方法,才能為數(shù)據(jù)處理提供高質(zhì)量的數(shù)據(jù)源,因此在應(yīng)用過程中需要結(jié)合實(shí)際領(lǐng)域進(jìn)行選取數(shù)學(xué)方法進(jìn)行靈活應(yīng)用。
參考文獻(xiàn)
[1] 林子雨.大數(shù)據(jù)技術(shù)基礎(chǔ)[M].清華大學(xué)出版社,2013.
[2] 劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(bào):工學(xué)版,2014,48(6):957-972.
[3] 孔欽,葉長(zhǎng)青,孫赟.大數(shù)據(jù)下數(shù)據(jù)預(yù)處理方法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2018(5):1-4.