• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于傅里葉變換和kNNI的周期性時(shí)序數(shù)據(jù)缺失值補(bǔ)全算法

      2017-05-12 16:49:43賈梓健宋騰煒王建新
      軟件工程 2017年3期
      關(guān)鍵詞:傅里葉變換

      賈梓健+宋騰煒+王建新

      摘 要:在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘過(guò)程中,數(shù)據(jù)缺失現(xiàn)象經(jīng)常發(fā)生。對(duì)缺失值的有效補(bǔ)全是數(shù)據(jù)預(yù)處理的重要組成部分,也是后續(xù)分析挖掘工作的基礎(chǔ)。最近鄰填充算法(kNNI)因其易于實(shí)現(xiàn)、計(jì)算方便和局部填充效果好等特性而被廣泛應(yīng)用。但是,它并不涉及全局信息,因而當(dāng)大段缺失值發(fā)生時(shí),補(bǔ)全效果會(huì)有所降低,而對(duì)于具有周期成分的時(shí)序數(shù)據(jù),其效果更是急劇下降。幸運(yùn)的是,傅里葉變換能夠解析出周期數(shù)據(jù)中的不同周期成分,并能在此基礎(chǔ)上通過(guò)逆變換基本實(shí)現(xiàn)數(shù)據(jù)復(fù)原,只不過(guò)其局部復(fù)原能力較弱。因此,本文結(jié)合傅里葉變換對(duì)周期性數(shù)據(jù)的全局復(fù)原能力和kNNI對(duì)局部數(shù)據(jù)的補(bǔ)全能力,提出了基于傅里葉變換的kNNI缺失值補(bǔ)全算法(FkNNI)。通過(guò)對(duì)大量模擬數(shù)據(jù)的測(cè)試結(jié)果表明,該算法比單純的kNNI算法的缺失值補(bǔ)全準(zhǔn)確性有很大提升。

      關(guān)鍵詞:缺失值補(bǔ)全;最近鄰填充算法;周期數(shù)據(jù);傅里葉變換

      中圖分類(lèi)號(hào):TP391.4 文獻(xiàn)標(biāo)識(shí)碼:A

      Abstract:Data missing often occurs during the process of machine learning and data mining.Missing value imputation is an important part of data preprocessing and is also a basis for subsequent work of analysis and mining.The algorithm of k-Nearest Neighbor Imputation (kNNI) is a popular method frequently employed for missing value imputation because it is easy to implement,easy to calculate and effective for local data completion. However,it does not involve global information, and as a result,its effect decreases somewhat when large fragments of missing values occur,especially when there are periodic components in the time series data.Fourier transform, however,is able to analyze the different periodic components in the periodic data,and to roughly restore the data by inverse transform, with its local recovery ability weak only.Therefore,this paper proposes akNNI algorithm based on Fourier transform (FkNNI),combining the global recovery ability of Fourier transform and the local recovery ability of kNNI.Experimental testing results on a large amount of data indicate that the new algorithm is far more accurate than kNNI only.

      Keywords:missing value imputation;kNNI;cyclical data;Fourier transform

      1 引言(Introduction)

      人類(lèi)自2010年便進(jìn)入到大數(shù)據(jù)時(shí)代,大數(shù)據(jù)時(shí)代的來(lái)臨,給數(shù)據(jù)挖掘技術(shù)帶來(lái)了許多機(jī)遇與挑戰(zhàn)。如今,我們對(duì)大數(shù)據(jù)的研究不再采用抽樣調(diào)查的方法,而是對(duì)所有數(shù)據(jù)進(jìn)行全面分析。大數(shù)據(jù)顯著的特點(diǎn)是種類(lèi)多、流速快及數(shù)據(jù)量大,因此需要我們靈活運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)各種數(shù)據(jù)進(jìn)行聚類(lèi)、分類(lèi)、分析,以及對(duì)其趨勢(shì)進(jìn)行預(yù)測(cè)。

      在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中,經(jīng)常會(huì)出現(xiàn)數(shù)據(jù)缺失的現(xiàn)象[1]。造成數(shù)據(jù)損失的原因有很多,如信息意外遺漏、無(wú)法獲取、系統(tǒng)實(shí)時(shí)性要求太高或收集代價(jià)太大等,都可能導(dǎo)致數(shù)據(jù)缺失。數(shù)據(jù)缺失會(huì)影響數(shù)據(jù)挖掘過(guò)程中抽取規(guī)則的準(zhǔn)確性,甚至?xí)?dǎo)致建立錯(cuò)誤的數(shù)據(jù)挖掘模型,目前常用的數(shù)據(jù)缺失值處理方法有如下三類(lèi):

      第一類(lèi)方法直接刪除元組。這種方法簡(jiǎn)單易行,若包含缺失值的元組在整體數(shù)據(jù)中所占比較小,則該方法非常有效。然而,當(dāng)缺失值所占比例波動(dòng)很大時(shí),該方法會(huì)降低數(shù)據(jù)挖掘算法的質(zhì)量。同時(shí),忽略的元組可能包含重要信息,使數(shù)據(jù)發(fā)生偏離,甚至得出錯(cuò)誤的結(jié)論。

      第二類(lèi)方法對(duì)數(shù)據(jù)進(jìn)行推測(cè)和補(bǔ)齊。該方法一般基于統(tǒng)計(jì)學(xué)原理,用不同的算法對(duì)缺失值進(jìn)行填充,常見(jiàn)的數(shù)據(jù)補(bǔ)齊算法有:平均值(或中位數(shù))填充、特殊值填充、熱卡填充、人工填充、k-最近鄰法、回歸和EM算法等。

      第三類(lèi)方法不做任何處理,但并不影響挖掘方法正常運(yùn)行。該方法指直接在包含缺失值的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘,常見(jiàn)的方法有貝葉斯網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)等[1]。

      很多研究表明,采用合適的算法針對(duì)特定的數(shù)據(jù)類(lèi)型的數(shù)據(jù)集,能夠產(chǎn)生較好的填充效果。

      本文的研究對(duì)象是時(shí)序數(shù)據(jù)缺失值的填充方法。與一般數(shù)據(jù)不同,時(shí)序數(shù)據(jù)一般來(lái)說(shuō)具有明顯的趨勢(shì)性和周期性,其全局特點(diǎn)非常明顯。也就是說(shuō),某個(gè)時(shí)間點(diǎn)的數(shù)據(jù)不但與其鄰近數(shù)據(jù)有明顯的關(guān)系,它與全局?jǐn)?shù)據(jù)都有關(guān)聯(lián)。因此,我們不但要采納局部數(shù)據(jù)補(bǔ)全的優(yōu)秀補(bǔ)全算法,也要考慮具有全局?jǐn)?shù)據(jù)處理能力的補(bǔ)全算法,并希望把它們有機(jī)結(jié)合?;谶@樣的思想,本文在kNNI[2]算法的基礎(chǔ)上提出了基于周期頻譜分析的缺失值補(bǔ)全算法,并在模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)上進(jìn)行了驗(yàn)證。

      本文的整體結(jié)構(gòu)如下:第2部分介紹了相關(guān)的工作,包括線(xiàn)性擬合算法、傅里葉變換和kNNI算法算法等,第3部分介紹了FkNNI算法的基本框架,第4部分是實(shí)驗(yàn)結(jié)果和結(jié)論。

      2 相關(guān)工作(Related work)

      缺失值補(bǔ)全算法的核心目標(biāo)是提取數(shù)據(jù)間的相關(guān)關(guān)系,并以此為基礎(chǔ)建立模型,按照模型填充和補(bǔ)全缺失的數(shù)據(jù)。但時(shí)序周期數(shù)據(jù)之間的關(guān)系非常復(fù)雜,涉及數(shù)據(jù)的線(xiàn)性趨勢(shì),也就是數(shù)據(jù)隨時(shí)間變化而在總體趨勢(shì)上的線(xiàn)性增長(zhǎng)或減少的趨勢(shì)。另外一個(gè)關(guān)系是數(shù)據(jù)隨時(shí)間呈現(xiàn)的周期規(guī)律,并且這種周期在大多數(shù)情況下并不是單一周期,而是若干個(gè)周期的合成。因此,需要用傅里葉變換等工具發(fā)現(xiàn)其周期成分,也就是頻譜分析。數(shù)據(jù)間的第三個(gè)關(guān)系是局部數(shù)據(jù)的相似性,也就是相鄰數(shù)據(jù)間的值的差別不會(huì)很大。因此,以下將從線(xiàn)性趨勢(shì)、周期規(guī)律和局部關(guān)系三個(gè)方面,介紹缺失值補(bǔ)全的已有的基礎(chǔ)和成果。

      2.1 線(xiàn)性擬合

      如果離散函數(shù)值{f1,f2,…,fn}中有k個(gè)值缺失,則可以利用非缺失的n-k個(gè)值進(jìn)行線(xiàn)性擬合,得到式(1)所示的公式。然后,對(duì)缺失的k個(gè)值,逐一代入式(1)中,所獲得的線(xiàn)性函數(shù)值就是需要補(bǔ)全的值。

      線(xiàn)性擬合所得的公式(1)不但可以用于補(bǔ)全缺失數(shù)據(jù),也可以在整體數(shù)據(jù)上進(jìn)行消除其增加或減少的趨勢(shì)。例如,如果離散函數(shù)值{f1,f2,…,fn}線(xiàn)性擬合所得到的線(xiàn)性擬合公式為式(1),那么把所有的離散值減去該公式對(duì)應(yīng)的函數(shù)值就可以得到另外一組函數(shù)值{g1,g2,…,gn},這組函數(shù)值具有良好的性質(zhì):其均值是0,其線(xiàn)性擬合公式中參數(shù)a和b的值都是0,因而比原數(shù)據(jù)更適合采用傅里葉變換等的操作。因此,線(xiàn)性擬合操作及基于此的平移旋轉(zhuǎn)工作往往是其它操作的基礎(chǔ)。

      2.2 傅里葉變換分析

      傅里葉變換(Fourier Transform)是一種線(xiàn)性積分變換[4],通過(guò)它可以把信號(hào)從時(shí)間域變換到頻率域,進(jìn)而研究信號(hào)的頻譜結(jié)構(gòu)和變化規(guī)律。它在物理學(xué)、信號(hào)處理、統(tǒng)計(jì)學(xué)、聲學(xué)、光學(xué)等領(lǐng)域都有著廣泛的應(yīng)用。

      很多時(shí)序數(shù)據(jù)雖然看似雜亂無(wú)章,并不能觀(guān)察到其周期,其實(shí)很可能是由多個(gè)周期控制的規(guī)律性極強(qiáng)的數(shù)據(jù)。傅里葉定理表明,對(duì)于任何連續(xù)記錄的時(shí)間序列或信號(hào),都可用無(wú)限疊加的不同頻率的正交的正弦波信號(hào)表示。因此可將時(shí)間序列進(jìn)行傅里葉變換,計(jì)算序列的周期特征并進(jìn)行頻譜分析,進(jìn)而通過(guò)逆變換,對(duì)序列做進(jìn)一步的分析處理。

      在傅里葉逆變換過(guò)程中需要兩個(gè)條件,一個(gè)是每個(gè)正弦波的振幅,另一個(gè)是每個(gè)正弦波的相位差。因此通過(guò)傅里葉變換,我們把看似雜亂無(wú)章的信號(hào)考慮成由一定振幅、相位、頻率的基本正弦信號(hào)組合而成,傅里葉變換的目的就是找出這些基本正弦信號(hào)中振幅較大的頻率,從而找出主要的頻率。

      根據(jù)原信號(hào)的不同類(lèi)型,我們可以把傅立葉變換分為四種類(lèi)別[5,6]:

      (1)非周期性連續(xù)信號(hào):傅立葉變換。

      (2)周期性連續(xù)信號(hào):傅立葉級(jí)數(shù)。

      (3)非周期性離散信號(hào):離散時(shí)域傅立葉變換。

      (4)周期性離散信號(hào):離散傅立葉變換。

      四種原信號(hào)的圖例如圖1所示。

      對(duì)于時(shí)間序列而言,該函數(shù)的值越越大,則說(shuō)明函數(shù)與原始數(shù)據(jù)集越貼近,因此選用結(jié)果較大的正弦函數(shù)用來(lái)進(jìn)行疊加處理。

      如果通過(guò)傅里葉變換的結(jié)果如圖2所示,那么對(duì)周期性離散信號(hào),原始數(shù)據(jù)值f(i)(圖中用虛線(xiàn)表示)和我們進(jìn)行擬合的函數(shù)在該點(diǎn)的值sin(i)(圖中用實(shí)線(xiàn)表示)的貼合程度決定了擬合度的好壞。

      式(5)中的k的選擇要根據(jù)傅里葉變換的實(shí)際情況,就是取周期性非常顯著的幾個(gè)頻率,最小取1,最大一般可以取到7,通常是取2至4,圖2中的逼近函數(shù)的k取1。

      2.3 kNNI算法

      k近鄰算法(kNN)是一種理論比較成熟的、且最簡(jiǎn)單的分類(lèi)算法之一。它操作簡(jiǎn)單,時(shí)間復(fù)雜度低,用于缺失值補(bǔ)全時(shí),其插補(bǔ)精度高,因此被廣泛運(yùn)用于機(jī)器學(xué)習(xí)的眾多領(lǐng)域。它可以作為分類(lèi)算法,其思路為:如果一個(gè)樣本在特征空間中的k個(gè)最相似的樣本中的大多數(shù)屬于某一個(gè)類(lèi)別,則該樣本也屬于這個(gè)類(lèi)別。該算法基本流程如圖3所示。

      kNN算法還可以用于回歸,其原理是在樣本附近取k個(gè)樣本,將這些樣本某屬性的平均值賦給該樣本,將不同距離的鄰居對(duì)該樣本產(chǎn)生的影響賦予不同的權(quán)值。就可以得到該樣本的屬性。

      k近鄰填充算法(k-Nearest Neighbor Imputation Method, kNNI)是kNN算法在缺失值補(bǔ)全領(lǐng)域的應(yīng)用[8]。通過(guò)kNNI來(lái)進(jìn)行缺失值填充的核心思想是計(jì)算缺失數(shù)據(jù)項(xiàng)到各個(gè)完全數(shù)據(jù)集的距離,選取距離該缺失數(shù)據(jù)項(xiàng)的k個(gè)最近鄰數(shù)據(jù)作為基礎(chǔ)和依據(jù),把它們加權(quán),用來(lái)進(jìn)行缺失值填充。

      kNNI算法在缺失值補(bǔ)全時(shí)依然有一些不足之處,例如,(1)當(dāng)樣本不平衡時(shí),如一個(gè)類(lèi)的樣本容量很大,而其他類(lèi)樣本容量很小時(shí),有可能導(dǎo)致當(dāng)輸入一個(gè)新樣本時(shí),該樣本的k個(gè)鄰居中大容量類(lèi)的樣本占多數(shù)。(2)計(jì)算量較大,每一個(gè)待分類(lèi)的樣本都要計(jì)算它到全體已知樣本的距離,才能求得它的k最近鄰點(diǎn)。(3)由kNNI算法選擇的最近鄰居可能導(dǎo)致具有不同方向的偏好,使得分類(lèi)結(jié)果失效。針對(duì)這些問(wèn)題,目前許多可行的解決方法,如采用與距離相關(guān)的權(quán)值的方法或事先對(duì)已知樣本點(diǎn)進(jìn)行剪輯,去除對(duì)分類(lèi)作用不大的樣本等[9]。

      如圖4所示,若原始數(shù)據(jù)點(diǎn)集在處數(shù)據(jù)值缺失,那么kNNI算法即為,選取落在其左右一段等距的區(qū)間內(nèi)的原始數(shù)據(jù)點(diǎn),將這些點(diǎn)的值取均值,即認(rèn)為該值就是處數(shù)據(jù)的缺失值。

      如前文所述,kNNI算法由于很多優(yōu)秀的性質(zhì)而被廣泛采用。然而,kNNI算法的填充準(zhǔn)確性很大程度上依賴(lài)于k值的選擇。而通常k的值要通過(guò)遍歷才能最終確定,這需要大量的計(jì)算投入[10]。

      3 算法框架(Algorithm framework)

      缺失值補(bǔ)全算法的實(shí)質(zhì)是通過(guò)數(shù)據(jù)間內(nèi)在的關(guān)系,發(fā)現(xiàn)其中的模型和規(guī)律,從而從未缺失的數(shù)據(jù)和規(guī)律出發(fā),推測(cè)出缺失的數(shù)據(jù)。我們需要處理的數(shù)據(jù)是生態(tài)監(jiān)測(cè)領(lǐng)域的通量塔檢測(cè)數(shù)據(jù),包含了水中的氧氣含量、二氧化碳含量、碳通量等的時(shí)序數(shù)據(jù),這些數(shù)據(jù)呈現(xiàn)出明顯的趨勢(shì)性和周期性,而且周期性多以天和年為主要周期成分。因此,對(duì)于其中的缺失值補(bǔ)全,需要同時(shí)考慮趨勢(shì)性和周期性,同時(shí)也要考慮近鄰數(shù)據(jù)與缺失數(shù)據(jù)之間的相似關(guān)系。

      對(duì)一個(gè)時(shí)序數(shù)據(jù)序列,F(xiàn)kNNI填充算法主要經(jīng)過(guò)如下幾個(gè)主要步驟:

      步驟1,通過(guò)線(xiàn)性擬合,計(jì)算出如式(1)所示的擬合公式。

      步驟2,在原始數(shù)據(jù)的基礎(chǔ)上,減去式(1)計(jì)算所得的模型值。此時(shí),所有時(shí)序數(shù)據(jù)的平均值是0,且其線(xiàn)性擬合直線(xiàn)就是x軸本身。

      步驟3,通過(guò)式(4)所示的離散傅里葉變換,得到不同周期的正弦函數(shù)對(duì)應(yīng)的系數(shù)(振幅),并找到最主要的幾個(gè)周期,也就是發(fā)現(xiàn)其主要的頻譜。

      步驟4,按照式(5)把缺失值所在的時(shí)間點(diǎn)的數(shù)據(jù)補(bǔ)全為傅里葉逆變換的函數(shù)值。

      步驟5,利用式(1)把補(bǔ)全的數(shù)據(jù)復(fù)原為帶線(xiàn)性趨勢(shì)的數(shù)據(jù),這部分是傅里葉變換所得的補(bǔ)全值。

      步驟6,用kNNI算法,對(duì)鄰近非缺失的值進(jìn)行加權(quán)平均,也得到一個(gè)補(bǔ)全數(shù)據(jù),這是kNNI所得的補(bǔ)全值。

      步驟7,把第5步和第6步所得數(shù)據(jù)進(jìn)行線(xiàn)性加權(quán),如果是大段缺失,則對(duì)第5步所得的補(bǔ)全值占有更大的比重;如果是單點(diǎn)缺失,則要提高kNNI所得補(bǔ)全值的比重。線(xiàn)性組合方式如式(6)所示。

      其中,在0和1之間,是合成的補(bǔ)全值,和分別是傅里葉變換補(bǔ)全值和kNNI補(bǔ)全值。

      由于新提出的算法框架是基于數(shù)據(jù)的全局關(guān)系(傅里葉變換和線(xiàn)性趨勢(shì)所描述的關(guān)系)和局部關(guān)系(kNNI所描述的關(guān)系)兩個(gè)方面,因此稱(chēng)之為FkNNI。

      4 實(shí)驗(yàn)結(jié)果與結(jié)論(Experimental results and conclusions)

      我們采用的原始數(shù)據(jù)是通量塔的時(shí)序數(shù)據(jù)及相關(guān)模擬數(shù)據(jù),在數(shù)據(jù)中人為去除一些數(shù)據(jù),形成缺失值,然然后逐步采用第3部分給出的算法框架,得相應(yīng)的補(bǔ)全值。把原始去除的數(shù)據(jù)與補(bǔ)全數(shù)據(jù)相比較,便可得到對(duì)對(duì)補(bǔ)全算法的精確性的度量。

      實(shí)驗(yàn)和結(jié)果

      通量塔獲取的原始的時(shí)序數(shù)據(jù)如圖5所示,其中橫軸表示時(shí)間,縱軸是時(shí)序數(shù)據(jù)的觀(guān)測(cè)值。為了測(cè)試缺失值填補(bǔ)的精確性,我們事先去除掉一部分?jǐn)?shù)據(jù)作為缺失值。

      然后進(jìn)行FkNNI的第三步驟,根據(jù)式(4),得到振幅比較高的一組基,用于疊加合成最終的函數(shù)。需要求得的是每個(gè)正弦波的幅度,以及每個(gè)正弦波之間的相位差。而通量塔中的時(shí)間序列間間隔為30分鐘,因此正弦波的周期取30分鐘的倍數(shù)。根據(jù)式(4)求前幾個(gè)具有最大振幅的周期,得到的實(shí)際擬合函數(shù)為

      若在時(shí)間序列上,時(shí)刻的數(shù)據(jù)值發(fā)生了缺失,上文中基于離散傅里葉變換求得的函數(shù)在該時(shí)刻的函數(shù)值設(shè)為,利用kNNI算法,取左右各100分鐘的時(shí)間間隔,將落在該區(qū)間內(nèi)的原始數(shù)據(jù)值取均值得到結(jié)果為,根據(jù)式(6),利用FkNNI算法計(jì)算時(shí)刻缺失的數(shù)據(jù)值為兩個(gè)補(bǔ)全值的線(xiàn)性組合。

      式(6)中的,若經(jīng)傅里葉變換后得到的函數(shù)周期性較好,則取較大值,反之取較小值。

      為了驗(yàn)證補(bǔ)全效果,我們隨機(jī)去除5個(gè)時(shí)間點(diǎn)的數(shù)據(jù),人為造成數(shù)據(jù)缺失。這5個(gè)時(shí)間點(diǎn)如表1的第1列所示,缺失前的真實(shí)值在表格的第2列。通過(guò)kNNI算法和FkNNI算法得到的模型值和分別在表格的第3列和第4列。

      從表1可以看出,用新算法FkNNI得到的模型值比kNNI要更接近原始值。事實(shí)上,kNNI補(bǔ)全值的平均誤差為1.2363,而FkNNI補(bǔ)全值的平均誤差只有0.3562,具有一定的優(yōu)勢(shì)。

      通過(guò)表1中的對(duì)比,我們可以看出kNNI算法和FkNNI算法在對(duì)單點(diǎn)的缺失進(jìn)行補(bǔ)全的時(shí)候,都有一定的準(zhǔn)確性。但是影響通量塔中的數(shù)據(jù)的因素很多,難免會(huì)出現(xiàn)整段缺失的現(xiàn)象,此時(shí),如果對(duì)這一段中所有缺失的點(diǎn)都采用kNNI算法進(jìn)行補(bǔ)全的話(huà),這一段上的補(bǔ)全的值大致相同,這與實(shí)際數(shù)據(jù)就會(huì)相差甚遠(yuǎn)。所以此時(shí)我們將采用FkNNI算法,來(lái)較好的復(fù)原一段丟失的數(shù)據(jù)。

      由于我們采用等間隔采樣的數(shù)據(jù),因此,對(duì)于大段缺失的數(shù)據(jù),我們利用缺失點(diǎn)為中心的區(qū)間內(nèi)的非缺失點(diǎn)作為補(bǔ)全的基礎(chǔ)。也就是說(shuō),計(jì)算某個(gè)缺失值時(shí)所采用的兩邊的非缺失點(diǎn)的數(shù)量很有可能不一樣多。

      表2中的數(shù)據(jù)去除了第71至75個(gè)時(shí)刻之間的所有值作為缺失值。表2的第2、3、4列分別是原始值,kNNI補(bǔ)全的模型值和FkNNI補(bǔ)全的模型值。

      從表2可以看出,F(xiàn)kNNI的模型值比kNNI的模型值與原始值之間要相似得多。事實(shí)上,kNNI的模型值的平均誤差是5.0212,而FkNNI的模型值的平均誤差是1.0430,平均誤差非常顯著地降低。

      從表1和表2中的模型比較可以看出,F(xiàn)kNNI算法在缺失值補(bǔ)全的精度上要優(yōu)于kNNI算法,并且對(duì)大段缺失這種優(yōu)勢(shì)更加明顯。對(duì)于含有峰值的大段缺失,kNNI算法不能復(fù)原任何峰值,但FkNNI具備復(fù)原峰值或逼近峰值等能力。

      5 結(jié)論(Conclusions)

      采用數(shù)據(jù)挖掘算法對(duì)數(shù)據(jù)進(jìn)行挖掘并從中發(fā)現(xiàn)知識(shí)的前提是具有較高質(zhì)量的數(shù)據(jù)。然而,由于種種因素,在實(shí)際應(yīng)用中采集的數(shù)據(jù)通常都會(huì)出現(xiàn)缺失。缺失值補(bǔ)全具有重要的理論和實(shí)踐意義。通過(guò)對(duì)時(shí)序數(shù)據(jù)的觀(guān)察和分析,我們認(rèn)為時(shí)序數(shù)據(jù)間的關(guān)系主要由三個(gè)方面構(gòu)成:鄰近數(shù)據(jù)的相似性、數(shù)據(jù)的線(xiàn)性趨勢(shì)和數(shù)據(jù)的周期規(guī)律?;诖耍疚奶岢隽嘶诟道锶~變換的和kNNI的缺失值補(bǔ)全算法FkNNI,準(zhǔn)確把握了數(shù)據(jù)間的內(nèi)在關(guān)系規(guī)律,使得數(shù)據(jù)補(bǔ)全的準(zhǔn)確性有了較大提升;尤其是在大段數(shù)值缺失時(shí),該算法的補(bǔ)全優(yōu)勢(shì)就更為明顯。這為綜合利用數(shù)據(jù)的全局和局部關(guān)系信息提供了新的思路。

      參考文獻(xiàn)(References)

      [1] Tutunji,Tarek A.Parametric System Identification Using Neural Networks[J].Applied Soft Computing Journal,2016,47(1): 251-261.

      [2] Jianxin WANG,et al.Imputating Missing Values with Distance-and Density-Weighted and Quadrant-Based Nearest Neighbors[J].Journal of Computational Information Systems,2015,11(18):6605-6612.

      [3] Tao Zhou,Akil Narayan,ZhiqiangXu.Multivariate Discrete Least-Squares Approximations with a New Type of Collocation Grid[J].SIAM Journal on Scientific Computing,2014,36(5): A2410-A2422.

      [4] 黃雄波.多周期時(shí)序數(shù)據(jù)的傅氏級(jí)數(shù)擬合算法的計(jì)算機(jī)系統(tǒng)應(yīng)化,2015,24(7):142-148.

      [5] 陳崗.離散數(shù)列的傅立葉變換[J].科技資訊,2016,27(9):141-142.

      [6] 司新新,李佳.傅立葉變換在數(shù)字信號(hào)處理中的分類(lèi)研究[J].中國(guó)新通訊,2016,14:122-123.

      [7] J Yang,Y Zhang,W Yin.A Fast Alternating Direction Methodfor TVL1-L2 Signal Reconstruction From Partial Fourier Data[J]. 2010,4(2):288-297.

      [8] Caren Kasler,Yves Tille,Balanced.k-Nearst neighbour imputation[J].Statistics,2016,50(6):1310-1331.

      [9] Luengo J,Saez J A,Herrera F.Missing Data Imputation for Fuzzy Rule-Based Classification Systems[J].Soft Computing,2012,16(5):863-881.

      [10] C.Yozgatligil,et al.Batmaz.Comparison of Missing Value Imputation Methods in Time Series:the Case of Turkish Meteorological Data[J].The Oretical and Applied Climatology, 2013,112:1-2.

      作者簡(jiǎn)介:

      賈梓健(1996-),男,本科生.研究領(lǐng)域:軟件工程.

      宋騰煒(1996-),女,本科生.研究領(lǐng)域:軟件工程.

      王建新(1972-),男,博士,教授.研究領(lǐng)域:軟件測(cè)試,軟件工程,數(shù)據(jù)挖掘.本文通訊作者.

      猜你喜歡
      傅里葉變換
      語(yǔ)譜圖傅里葉變換的二字漢語(yǔ)詞匯語(yǔ)音識(shí)別
      頻域采樣性質(zhì)的推導(dǎo)與理解新思路
      一種新型油介質(zhì)損耗測(cè)試系統(tǒng)研究
      基于脈搏波的醫(yī)療診斷系統(tǒng)的設(shè)計(jì)與研究
      關(guān)于提升復(fù)變函數(shù)與積分變換課堂教學(xué)質(zhì)量的幾點(diǎn)思考
      傅里葉變換證明拉普拉斯變換的性質(zhì)
      《信號(hào)與系統(tǒng)》中傅里葉變換在OFDM移動(dòng)通信系統(tǒng)中的應(yīng)用
      亞太教育(2016年34期)2016-12-26 13:19:56
      《數(shù)字信號(hào)處理》中存在的難點(diǎn)問(wèn)題解析
      亞太教育(2016年34期)2016-12-26 12:51:31
      關(guān)于一類(lèi)發(fā)展方程求解方法的探討
      基于傅里葉變換和Gyrator變換的圖像加密
      松潘县| 龙陵县| 农安县| 沧州市| 洛浦县| 金堂县| 仁化县| 东山县| 萨嘎县| 遵义县| 绥宁县| 万州区| 临沂市| 阳谷县| 永新县| 呼玛县| 九龙城区| 兴安县| 东乡县| 军事| 上林县| 乐东| 武清区| 郁南县| 黎平县| 元江| 鹰潭市| 丹寨县| 五大连池市| 若尔盖县| 西和县| 石家庄市| 韶关市| 顺昌县| 河津市| 庆城县| 鄯善县| 通海县| 扎囊县| 突泉县| 钟山县|