• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多鑒別器生成對抗網(wǎng)絡(luò)的時間序列生成模型

      2023-01-09 12:33:40陸彥輝柳寒李航朱光旭
      通信學(xué)報 2022年10期
      關(guān)鍵詞:鑒別器頻域誤差

      陸彥輝,柳寒,李航,朱光旭

      (1.鄭州大學(xué)電氣與信息工程學(xué)院,河南 鄭州 450001;2.深圳市大數(shù)據(jù)研究院,廣東 深圳 518115)

      0 引言

      近年來,隨著計算能力的提升和5G 網(wǎng)絡(luò)的普及,數(shù)據(jù)生成規(guī)模逐步擴(kuò)大,在生產(chǎn)生活中的作用也日益顯著。越來越多的商業(yè)公司和組織機(jī)構(gòu)依賴于大數(shù)據(jù)分析得到有效的決策[1]。大數(shù)據(jù)分析中一個重要類別是分析與時間相關(guān)的數(shù)據(jù),涉及金融、氣象、石油和醫(yī)學(xué)等多個領(lǐng)域。例如,通過分析金融時間序列來預(yù)測股票價格[2];通過分析氣候時間序列來分析植被的變化[3];通過分析石油產(chǎn)量時間序列來預(yù)測石油的產(chǎn)量[4];通過分析COVID-19 隨時間變化的確診人數(shù)來預(yù)測未來的確診人數(shù)[5]。

      時間序列是按照一定的時間間隔持續(xù)記錄一段時間的數(shù)據(jù),它們通常包含著豐富且復(fù)雜的信息,具備較強(qiáng)的研究和商業(yè)價值。然而,這些數(shù)據(jù)在收集過程中存在著各種各樣的問題,例如,數(shù)據(jù)往往包含隱私信息,無法進(jìn)行公開傳播與實驗[6];傳感器數(shù)據(jù)在收集過程中存在數(shù)據(jù)缺失[7];數(shù)據(jù)收集困難導(dǎo)致可用數(shù)據(jù)集過小,難以滿足模型訓(xùn)練需求[8]。一種可行的解決方案是通過機(jī)器學(xué)習(xí)方法生成大量與真實數(shù)據(jù)相似度較高的數(shù)據(jù),從而滿足模型訓(xùn)練、驗證等應(yīng)用。

      現(xiàn)有基于機(jī)器學(xué)習(xí)的生成模型主要包括變分自動編碼器(VAE,variational auto-encoder)[9]和生成對抗網(wǎng)絡(luò)(GAN,generative adversarial network)[10]。其中,GAN 的研究得到了廣泛的關(guān)注,已有工作提出了多種GAN 模型,可用于生成逼真的圖像和視頻。鑒于GAN 在圖像生成方面的優(yōu)異性能,開發(fā)高質(zhì)量、多樣化和特殊性的時間序列數(shù)據(jù)的工作得以進(jìn)一步展開。

      本文采取多鑒別器對時間序列的多種特征進(jìn)行鑒別,提出了多鑒別器生成對抗網(wǎng)絡(luò)(MDGAN,multi-discriminator generative adversarial network)模型。本文主要研究工作如下。

      1) 本文提出了一種新型的MDGAN 模型,包含時域鑒別器、頻域鑒別器、時頻域鑒別器和自相關(guān)鑒別器,能夠?qū)ι蓴?shù)據(jù)進(jìn)行多角度評估,進(jìn)而提高生成器的合成數(shù)據(jù)質(zhì)量,使合成數(shù)據(jù)更加符合真實時間序列的分布和特征。

      2) 在對所提模型進(jìn)行訓(xùn)練時,本文引入了二分類交叉熵模型,優(yōu)化了原始的GAN 損失函數(shù),使其適配多鑒別器網(wǎng)絡(luò),從而提升了模型訓(xùn)練效果。

      3) 本文采用了不同類型的數(shù)據(jù)集對模型進(jìn)行橫向和縱向的對照實驗,驗證了本文所提模型能夠有效提升合成時間序列的質(zhì)量。

      1 相關(guān)工作

      生成對抗網(wǎng)絡(luò)最早由Goodfellow 提出,其核心主要體現(xiàn)了零和博弈思想。在生成對抗網(wǎng)絡(luò)中,同時訓(xùn)練生成器網(wǎng)絡(luò)和鑒別器網(wǎng)絡(luò)這2 個網(wǎng)絡(luò)。整個網(wǎng)絡(luò)的損失函數(shù)定義為

      其中,pdata表示真實數(shù)據(jù)x的分布,符合隨機(jī)分布pz的噪聲z表示生成器的輸入,G(z)表示生成器生成的合成數(shù)據(jù),D(·) 表示鑒別器對數(shù)據(jù)的評價結(jié)果,E 表示數(shù)學(xué)期望。生成器致力于學(xué)習(xí)真實數(shù)據(jù)的特征,以此生成符合真實數(shù)據(jù)分布的合成數(shù)據(jù);鑒別器致力于分辨輸入是來源于真實數(shù)據(jù)還是合成數(shù)據(jù)。在訓(xùn)練鑒別器的過程中,希望真實數(shù)據(jù)x通過鑒別器的結(jié)果D(x)更接近真實的評價,合成數(shù)據(jù)G(z)通過鑒別器的結(jié)果D(G(z))更接近虛假的評價。而在訓(xùn)練生成器的過程中,希望合成數(shù)據(jù)G(z)通過鑒別器的結(jié)果D(G(z))更接近真實的評價。當(dāng)訓(xùn)練達(dá)到納什平衡時,認(rèn)為生成器的合成數(shù)據(jù)的主要特征已經(jīng)符合真實數(shù)據(jù)的主要特征。

      現(xiàn)有工作以GAN 為基礎(chǔ)進(jìn)行了不同方面的改進(jìn)。Radford 等[11]提出的深度卷積生成對抗網(wǎng)絡(luò)(DCGAN,deep convolutional generative adversarial network)將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到GAN 中,在網(wǎng)絡(luò)架構(gòu)上改進(jìn)了原始GAN。Arjovsky 等[12]提出的WGAN(Wasserstein generative adversarial network)采用Wasserstein 距離指導(dǎo)整個模型的訓(xùn)練,在鑒別器中使用權(quán)重剪枝技術(shù)。Isola 等[13]提出的基于GAN 的Pix2Pix 算法用于圖像像素間的轉(zhuǎn)換,利用條件生成對抗網(wǎng)絡(luò)(CGAN,conditional generative adversarial network)生成圖像。Zhu 等[14]提出了循環(huán)一致性生成對抗網(wǎng)絡(luò)(CycleAN,cycle-consistent adversarial network),以Pix2Pix 為基礎(chǔ),主要應(yīng)用于非配對的圖片生成和轉(zhuǎn)換,可以實現(xiàn)圖片的風(fēng)格轉(zhuǎn)換。Karras 等[15]提出了可以控制樣式的StyleGAN(style-based generator architecture for generative adversarial network),通過修改樣式的特定尺度來控制圖像的生成?,F(xiàn)有工作已經(jīng)將GAN 成功應(yīng)用于圖像、視頻以及自然語言等方向。

      循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,recurrent neural network)具有獨特的環(huán)狀結(jié)構(gòu),很適用于處理連續(xù)時間序列[16]。然而它缺乏學(xué)習(xí)長期依賴關(guān)系的能力,而這種關(guān)系對于根據(jù)過去預(yù)測未來是至關(guān)重要的。RNN 的變體長短期記憶(LSTM,long short term memory)網(wǎng)絡(luò)具有長時間記憶信息的能力,進(jìn)而可以學(xué)習(xí)序列信息的長期依賴關(guān)系[17]。Mogren[18]提出了具有GAN 的連續(xù)循環(huán)神經(jīng)網(wǎng)絡(luò)(C-RNN-GAN,continuous recurrent neural network with adversarial training)模型,是最早利用RNN 的GAN 生成連續(xù)序列數(shù)據(jù)的例子。該模型的生成器是一個LSTM 網(wǎng)絡(luò),鑒別器是一個雙向的LSTM 網(wǎng)絡(luò),通過時間反向傳播和正則化的小批量隨機(jī)梯度下降,訓(xùn)練生成器和鑒別器的網(wǎng)絡(luò)參數(shù)。

      Esteban 等[19]提出了循環(huán)條件生成對抗網(wǎng)絡(luò)(RCGAN,recurrent conditional generative adversarial network)模型。它的生成器和鑒別器都采用RNN,和C-RNN-GAN 不同的是,RCGAN 的生成器和鑒別器的輸入需要加入附加條件來控制結(jié)果。此模型的損失函數(shù)采用二分類交叉熵(BCE,binary cross entropy),能夠描述真實數(shù)據(jù)與合成數(shù)據(jù)之間的關(guān)系。RCGAN 模型是很多后續(xù)工作的模型參照。

      Yoon 等[20]提出了一種時間序列生成對抗網(wǎng)絡(luò)(TimeGAN,time-series generative adversarial network),并利用了傳統(tǒng)的無監(jiān)督GAN 訓(xùn)練方法和更可控的監(jiān)督學(xué)習(xí)方法。具體而言,該網(wǎng)絡(luò)能夠生成具有時間動態(tài)特性的時間序列。TimeGAN 由嵌入網(wǎng)絡(luò)、恢復(fù)網(wǎng)絡(luò)、生成器和鑒別器4 個網(wǎng)絡(luò)組件組成。自動編碼網(wǎng)絡(luò)(前2 個網(wǎng)絡(luò))與生成對抗網(wǎng)絡(luò)(后2 個網(wǎng)絡(luò))聯(lián)合訓(xùn)練,嵌入網(wǎng)絡(luò)和恢復(fù)網(wǎng)絡(luò)負(fù)責(zé)數(shù)據(jù)到隱式特征的轉(zhuǎn)換,生成對抗網(wǎng)絡(luò)在此空間內(nèi)學(xué)習(xí)數(shù)據(jù)的潛在有效特征。

      TimeGAN 主要用于生成短時間序列,因為長時間序列會大大增加生成建模的維數(shù)要求,導(dǎo)致復(fù)雜度過高。為了解決這個問題,Ni 等[21]提出一個名為Signature Wasserstein-1的度量并將其作為鑒別器的評價結(jié)果,同時提出了一種新的生成器,稱為條件自回歸前饋神經(jīng)網(wǎng)絡(luò),它抓住了時間序列的自回歸性質(zhì),加快了訓(xùn)練的速度,整個模型被稱為SigWGAN(signature Wasserstein generative adversarial network)。

      盡管已有工作能夠?qū)崿F(xiàn)多種類型時間序列的生成,但是上述模型也存在不足。一是原始GAN面臨梯度消失的問題。在訓(xùn)練初期,生成器的合成數(shù)據(jù)與真實數(shù)據(jù)相差很大,鑒別器可以利用高置信度區(qū)分二者,但損失函數(shù)無法為生成器提供足夠大的梯度,最終導(dǎo)致梯度消失。二是時間序列的特征提取和利用的問題。時間序列數(shù)據(jù)的特征有多方面,涉及周期性、相關(guān)性和頻域的特征等。單一鑒別器能夠完成對時間序列特征的鑒別,但是不具有針對性。

      對于上述2 個代表性問題,本文設(shè)計了多鑒別器的模型。多鑒別器針對時間序列的不同特征進(jìn)行針對性的鑒別,在初期訓(xùn)練中合成數(shù)據(jù)不會因為某一項特征不明顯而直接導(dǎo)致梯度消失,同時也有助于提高生成器合成數(shù)據(jù)的質(zhì)量。

      2 多鑒別器生成對抗網(wǎng)絡(luò)模型

      本文以GAN 和RNN 為基礎(chǔ)提出了MDGAN的模型。此模型主要由3 個部分組成,分別是數(shù)據(jù)處理、生成器和多鑒別器。多鑒別器GAN 結(jié)構(gòu)如圖1 所示。在整個模型中,生成器輸出的合成數(shù)據(jù)為G(ZN),其中ZN為輸入的隨機(jī)噪聲。合成數(shù)據(jù)經(jīng)過數(shù)據(jù)處理得到T(G(ZN)),真實時間序列XN經(jīng)過數(shù)據(jù)處理得到T(XN)。處理后的數(shù)據(jù)通過多鑒別器進(jìn)行真/假判定。最后,通過計算鑒別器的損失函數(shù)D loss 和生成器的損失函數(shù)G loss 分別更新鑒別器和生成器的網(wǎng)絡(luò)參數(shù)。

      圖1 多鑒別器GAN 結(jié)構(gòu)

      下面,分別介紹模型的組成部分、模型訓(xùn)練中的損失函數(shù)和訓(xùn)練方法。

      2.1 數(shù)據(jù)處理

      數(shù)據(jù)處理的目的是得到數(shù)據(jù)的不同特征。本文以真實時間序列的處理過程為例,介紹數(shù)據(jù)處理的流程。數(shù)據(jù)處理流程如圖2 所示。

      圖2 數(shù)據(jù)處理流程

      真實時間序列XN是一段長度為N的序列。序列可以描述為

      在數(shù)據(jù)處理的過程中,時間序列XN通過傅里葉變換得到頻域數(shù)據(jù)F(XN);通過對時域和頻域數(shù)據(jù)的處理和拼接得到時頻域數(shù)據(jù)TF(XN);通過自相關(guān)處理得到自相關(guān)函數(shù)ACF(XN)。處理后的數(shù)據(jù)按順序組合為T(XN),排序方式為

      T(XN)是將3 種數(shù)據(jù)組合在一起。接下來,對式(3)中的3 個部分分別進(jìn)行介紹。

      2.1.1 傅里葉變換

      離散傅里葉變換(DFT,discrete Fourier transform)是信號分析最基本的方法[22]。該方法將時間序列從時間域變換到頻率域,分析時間序列的頻域結(jié)構(gòu)與變化規(guī)律。本文對長度為N的時間序列XN做M點的離散傅里葉變換。M的取值是2的整數(shù)冪,且大于或等于時間序列的長度N。XN的表達(dá)式為

      其中,x(n)是時間序列XN中的第n個值,X(k)是傅里葉變換后的值。在模型中使用的方法是快速傅里葉變化(FFT,fast Fourier transform)。

      離散傅立葉變換后的數(shù)據(jù)是一組復(fù)數(shù),其中一半數(shù)據(jù)和另一半數(shù)據(jù)是共軛關(guān)系。本文只取一半數(shù)據(jù)F(XN)。F(XN)的表達(dá)式為

      2.1.2 時域與頻域拼接處理

      傅里葉變換只反映數(shù)據(jù)在頻域的特征,為了將時域和頻域的特征聯(lián)系在一起,常用短時傅里葉變換方法,其實質(zhì)是加窗的傅里葉變換。這種方法是一種數(shù)據(jù)變形處理。但是本文希望從原始數(shù)據(jù)出發(fā),得到一種同時包含時域數(shù)據(jù)和頻域數(shù)據(jù)的形式。所以本文采取時域數(shù)據(jù)和頻域數(shù)據(jù)拼接的方法分析特征。

      具體的拼接方法是首先對頻域數(shù)據(jù)取模后得到|F(XN)|。取模是一種對復(fù)數(shù)進(jìn)行計算的方法,假設(shè)復(fù)數(shù)z=a+bi,復(fù)數(shù)模值計算為

      F(XN)中的每一個值都是復(fù)數(shù),對每一個值取模之后,本文可以得到|F(XN)|的表達(dá)式,即

      然后,將頻域數(shù)據(jù)的模值|F(XN)|和時域數(shù)據(jù)XN拼接的數(shù)據(jù)看作一組同時包含時域和頻域特征的數(shù)據(jù),定義為時頻域數(shù)據(jù)TF(XN)。時頻域數(shù)據(jù)TF(XN)的表達(dá)式為

      2.1.3 自相關(guān)函數(shù)處理

      自相關(guān)函數(shù)(ACF,autocorrelation function)在信號處理中經(jīng)常用來分析數(shù)據(jù)并描述數(shù)據(jù)的相似性[23]。通過使用自相關(guān)函數(shù)對時間序列進(jìn)行處理,進(jìn)一步對數(shù)據(jù)在時域上的特征進(jìn)行分析。本文將自相關(guān)函數(shù)定義為ACF(XN)。離散序列的自相關(guān)函數(shù)的表達(dá)式為

      其中,x(n)表示時間序列XN中的第n個值,m表示時間間隔。

      2.2 生成器和鑒別器的網(wǎng)絡(luò)結(jié)構(gòu)

      生成器和鑒別器的網(wǎng)絡(luò)由LSTM 網(wǎng)絡(luò)構(gòu)成。LSTM 網(wǎng)絡(luò)是RNN 的變體,一般用于與時間序列相關(guān)的任務(wù),它由一系列結(jié)構(gòu)相同的神經(jīng)元構(gòu)成,該神經(jīng)元在每個時間步中重復(fù)使用。LSTM 的神經(jīng)元內(nèi)部有一個記憶狀態(tài),在處理序列數(shù)據(jù)時,輸入不僅有序列數(shù)據(jù),還有上一個時刻的記憶狀態(tài),并向下一個時刻輸出當(dāng)前的記憶狀態(tài)。因此LSTM 網(wǎng)絡(luò)是處理時間序列常用的網(wǎng)絡(luò)。

      2.2.1 生成器網(wǎng)絡(luò)

      生成器的網(wǎng)絡(luò)結(jié)構(gòu)主要由LSTM層和全連接層構(gòu)成。生成器在每個時間步的輸入獲取不同的隨機(jī)噪聲向量。隨機(jī)噪聲向量由標(biāo)準(zhǔn)正態(tài)分布采樣得到,并通過LSTM 網(wǎng)絡(luò)進(jìn)行計算。LSTM 網(wǎng)絡(luò)的激活函數(shù)是tanh 函數(shù)。全連接層將LSTM 層的輸出轉(zhuǎn)換為指定的長度。生成器的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

      圖3 生成器的網(wǎng)絡(luò)結(jié)構(gòu)

      LSTM 網(wǎng)絡(luò)的層數(shù)為2,隱藏層的神經(jīng)單元個數(shù)為64。全連接層采用Linear 函數(shù)進(jìn)行轉(zhuǎn)換,并將每個時間步的全連接層的輸出組合后得到合成數(shù)據(jù)。

      2.2.2 鑒別器網(wǎng)絡(luò)

      鑒別器是對合成時間序列和真實時間序列的每個時間步的輸出進(jìn)行鑒別,最后取均值得到真/假的評價。鑒別器的網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。

      圖4 鑒別器的網(wǎng)絡(luò)結(jié)構(gòu)

      Data 表示輸入鑒別器網(wǎng)絡(luò)的數(shù)據(jù),是真實數(shù)據(jù)或合成數(shù)據(jù)以及它們的變體。鑒別器的網(wǎng)絡(luò)結(jié)構(gòu)和生成器的網(wǎng)絡(luò)結(jié)構(gòu)類似。鑒別器的全連接層使用Sigmoid 函數(shù),將最后的輸出轉(zhuǎn)化為[0,1]區(qū)間的值。輸出代表鑒別器對輸入的評價。本文提出的模型包含多個鑒別器,不同的數(shù)據(jù)需要通過不同的鑒別器。

      合成數(shù)據(jù)和真實數(shù)據(jù)的處理過程相同,本文以真實數(shù)據(jù)的鑒別過程為例說明多鑒別器如何對數(shù)據(jù)進(jìn)行鑒別。多鑒別器的處理流程如圖5 所示。

      圖5 多鑒別器的處理流程

      每個鑒別器網(wǎng)絡(luò)的輸出y的取值范圍為[0,1],將4 個鑒別器的輸出數(shù)值進(jìn)行平均,定義最終結(jié)果大于或等于0.5 的是真實數(shù)據(jù)(評價為真),小于0.5 的是合成數(shù)據(jù)(評價為假)。因此,輸出結(jié)果可表示為

      經(jīng)過數(shù)據(jù)處理的數(shù)據(jù)T(XN)在通過頻域鑒別器、時頻域鑒別器和自相關(guān)鑒別器時分別提取出與之相對應(yīng)的數(shù)據(jù)。將不同鑒別器的評價結(jié)果進(jìn)行平均得到最終結(jié)果。

      2.3 模型訓(xùn)練

      MDGAN 模型的訓(xùn)練分2 個部分介紹,第一部分介紹模型的損失函數(shù),第二部分介紹模型的訓(xùn)練過程。

      2.3.1 損失函數(shù)

      MDGAN 模型的訓(xùn)練包括鑒別器和生成器2 個部分的訓(xùn)練。在訓(xùn)練中本文使用二分類交叉熵計算損失函數(shù)。BCE 的計算式為

      鑒別器的目的是分辨出真實數(shù)據(jù)和合成數(shù)據(jù)。在訓(xùn)練中本文使用二分類交叉熵對鑒別器的預(yù)測和數(shù)據(jù)的標(biāo)簽進(jìn)行計算。真實數(shù)據(jù)的標(biāo)簽為1,合成數(shù)據(jù)的標(biāo)簽為0。

      越是優(yōu)秀的鑒別器對真實時間序列的鑒別結(jié)果越接近1,對合成時間序列的鑒別結(jié)果越接近0。因此在鑒別器訓(xùn)練時,本文最小化數(shù)據(jù)通過鑒別器的結(jié)果與對應(yīng)標(biāo)簽的二分類交叉熵。鑒別器的損失函數(shù)為

      因為模型有多個鑒別器,需要分別計算結(jié)果。將計算結(jié)果代入式(12)中,然后利用式(12)對4 種鑒別器的網(wǎng)絡(luò)參數(shù)進(jìn)行更新。4 種鑒別器的計算結(jié)果分別為

      生成器的目的是隨機(jī)噪聲通過生成器生成與真實數(shù)據(jù)類似的合成數(shù)據(jù)。因此生成器生成的合成數(shù)據(jù)在通過鑒別器時,希望得到的評價是真實的。越是優(yōu)秀的生成器生成的合成數(shù)據(jù)通過鑒別器的預(yù)測值越接近1。因此在生成器訓(xùn)練時,本文最小化合成數(shù)據(jù)通過鑒別器的結(jié)果與真實標(biāo)簽的二分類交叉熵。生成器的損失函數(shù)為

      式(12)~式(17)中,Dt代表時域鑒別器,DF代表頻域鑒別器,DTF代表時頻域鑒別器,DACF代表自相關(guān)鑒別器,G代表生成器,yD代表鑒別器結(jié)果,XN代表真實時間序列,G(ZN)代表合成數(shù)據(jù)(1 代表真實,0 代表虛假)。

      2.3.2 訓(xùn)練過程

      在訓(xùn)練過程中,本文需要先對數(shù)據(jù)集進(jìn)行預(yù)處理再進(jìn)行訓(xùn)練。

      數(shù)據(jù)集的預(yù)處理是先取出所有數(shù)據(jù)并進(jìn)行歸一化計算,然后將數(shù)據(jù)分為多個固定長度的序列進(jìn)行隨機(jī)組合。例如,把10 000 個數(shù)據(jù)按20 的固定大小分為500 組,然后將這500 組數(shù)據(jù)進(jìn)行隨機(jī)組合,目的是混合數(shù)據(jù)并使其類似于獨立同分布。將預(yù)處理之后的真實時間序列分布定義為pr,隨機(jī)噪聲數(shù)據(jù)的分布pz是正態(tài)分布。

      在鑒別器和生成器的訓(xùn)練過程中,先對鑒別器進(jìn)行訓(xùn)練,更新鑒別器參數(shù),同時固定生成器的參數(shù);然后對生成器進(jìn)行訓(xùn)練,更新生成器參數(shù),同時固定鑒別器的參數(shù)。重復(fù)上述過程。訓(xùn)練中對參數(shù)更新的方法采用Adam 優(yōu)化算法[24]。多鑒別器生成對抗網(wǎng)絡(luò)生成樣本算法如算法1 所示。

      算法1多鑒別器生成對抗網(wǎng)絡(luò)生成樣本算法

      輸入批量值m,隨機(jī)噪聲z,真實樣本x,學(xué)習(xí)率γ,鑒別器更新次數(shù)nd,Adam 超參β

      輸出生成器G,鑒別器D

      初始化生成器參數(shù)θg,鑒別器參數(shù)θd

      1) whileθghas not converged do

      2) fort=0,1,…,nddo

      3) 獲取真實數(shù)據(jù) (x(1),…,x(m))~pr

      4) 獲取噪聲數(shù)據(jù) (z(1),…,z(m))~pz

      6)endfor

      7)獲取噪聲數(shù)據(jù)(z(1),…,z(m))~pz

      9) end while

      10) returnG,D

      3 實驗結(jié)果分析

      本節(jié)介紹實驗使用的數(shù)據(jù)集和評價指標(biāo),通過評價指標(biāo)對實驗結(jié)果進(jìn)行分析。在實驗中,為了更好地評估模型的性能,本文進(jìn)行了橫向和縱向?qū)Ρ???v向?qū)Ρ戎惺褂肕DGAN 與頻域鑒別器GAN、自相關(guān)鑒別器GAN、時頻域鑒別器GAN 進(jìn)行比較。橫向比較中使用3 種具有代表性的時間序列生成模型與MDGAN 進(jìn)行比較,分別是RCGAN[19]、TimeGAN[20]和SigCWGAN[21]。

      3.1 數(shù)據(jù)集

      本文實驗使用的數(shù)據(jù)集是地磁數(shù)據(jù)集和牛津大學(xué)金融學(xué)院股票數(shù)據(jù)集中的標(biāo)準(zhǔn)普爾500 指數(shù)數(shù)據(jù)集。

      地磁數(shù)據(jù)集共包含11 500 條數(shù)據(jù)。該數(shù)據(jù)是由手機(jī)自帶的地磁傳感器收集的一段5 min 內(nèi)隨手機(jī)姿態(tài)變化的地磁數(shù)據(jù)。地磁數(shù)據(jù)集經(jīng)常用來分析和預(yù)測實驗者使用時手機(jī)的不同姿態(tài)。

      標(biāo)準(zhǔn)普爾500 指數(shù)數(shù)據(jù)集是牛津大學(xué)金融學(xué)院收集的股票數(shù)據(jù),包括2000—2021 年的標(biāo)準(zhǔn)普爾500 指數(shù)數(shù)據(jù)集,共有5 515 條數(shù)據(jù)。每條數(shù)據(jù)包括每天的開盤價格、收盤價格和價格波動率。股票數(shù)據(jù)集經(jīng)常用來分析和預(yù)測股票的趨勢。

      3.2 性能評估

      實驗中采取3 種常用的評估方法,分別是loss函數(shù)收斂性、主成分分析法(PCA,principal component analysis)和誤差分析,分別從定性和定量的角度說明MDGAN 的性能。

      1) loss 函數(shù)收斂性。loss 函數(shù)的收斂性主要用于評價模型的訓(xùn)練速度。

      2) 主成分分析法。主成分分析法用于評價合成數(shù)據(jù)的分布情況,是最常用的線性降維方法。它的目標(biāo)是通過某種線性投影將高維的數(shù)據(jù)映射到低維的空間中,并期望在所投影的維度上數(shù)據(jù)的信息量最大,實現(xiàn)使用較少的數(shù)據(jù)維度保留較多的原數(shù)據(jù)點特性。

      3) 誤差分析。誤差分析評價合成數(shù)據(jù)的準(zhǔn)確性。本文對合成時間序列和真實時間序列進(jìn)行誤差分析,并使用均方誤差(MSE,mean square error)、均方根誤差(RMSE,root mean squared error)、平均絕對誤差(MAE,mean absolute error)和平均絕對誤差百分比(MAPE,mean absolute percentage error)這4 種誤差評價指標(biāo)。

      3.3 縱向?qū)Ρ冉Y(jié)果

      在縱向?qū)Ρ戎?,本文只使用地磁?shù)據(jù)集對模型進(jìn)行比較??v向比較的模型有MDGAN、頻域鑒別器GAN、時頻域鑒別器GAN 和自相關(guān)鑒別器GAN。MDGAN 中包含所有數(shù)據(jù)處理過程和對應(yīng)的鑒別器,其他模型只包含一種數(shù)據(jù)處理過程和對應(yīng)的鑒別器??v向?qū)Ρ仁菫榱苏f明多鑒別器GAN 的合成數(shù)據(jù)比只包含一種鑒別器的GAN 模型的合成數(shù)據(jù)更加接近真實數(shù)據(jù)。

      因為數(shù)據(jù)處理方式不同,4 種模型在loss 函數(shù)收斂性和主成分分析上的對比意義不是很重要,所以在縱向?qū)Ρ戎斜疚闹皇褂谜`差分析對模型合成數(shù)據(jù)的準(zhǔn)確性進(jìn)行分析。誤差對比如表1 所示。

      表1 模型誤差對比

      從表1 可以看出,時頻域鑒別器GAN 的誤差大多略優(yōu)于頻域鑒別器GAN 和自相關(guān)鑒別器GAN 的誤差。但是MDGAN 模型的誤差明顯優(yōu)于另外3 種模型的誤差。所以本文MDGAN 模型生成的合成數(shù)據(jù)更加準(zhǔn)確。

      3.4 橫向?qū)Ρ冉Y(jié)果

      3.4.1 loss 函數(shù)收斂性分析

      為了對比模型的loss 函數(shù)收斂性,本文使用地磁數(shù)據(jù)集對MDGAN、SigCWGAN、TimeGAN和RCGAN 這4 種模型進(jìn)行訓(xùn)練,損失函數(shù)的變化如圖6 所示。其中,Sig loss 表示SigCWGAN模型的損失函數(shù)。

      圖6 訓(xùn)練過程中損失函數(shù)的變化

      由圖6 可以看出,TimeGAN 和RCGAN 模型的loss 函數(shù)在1 000 次左右還沒有趨于穩(wěn)定,但是SigCWGAN 和MDGAN 模型的loss 函數(shù)在400 次左右已經(jīng)趨于穩(wěn)定。這是因為TimeGAN 和RCGAN采用單一鑒別器,在訓(xùn)練過程中這2 種模型會在生成器和鑒別器之間的博弈花費更多的時間,不如多鑒別器GAN 的訓(xùn)練效率高。MDGAN 擁有多個鑒別器,在與生成器的博弈過程中會更加準(zhǔn)確地對序列進(jìn)行評價,這樣有利于生成器快速地獲得數(shù)據(jù)特征。而SigCWGAN 將生成器和鑒別器的損失函數(shù)合為一個損失函數(shù),因此會提高訓(xùn)練的速度。綜上,本文所使用的MDGAN 在模型訓(xùn)練的收斂速度上要優(yōu)于TimeGAN 和RCGAN,與SigCWGAN 不相上下。

      3.4.2 主成分分析

      為了直觀地觀察數(shù)據(jù)的分布,本文采用了主成分分析法將原始數(shù)據(jù)和合成數(shù)據(jù)的特征降維到二維平面,來觀察數(shù)據(jù)之間的差異。

      本文使用2 個數(shù)據(jù)集進(jìn)行實驗,對4 種模型進(jìn)行評價。對比結(jié)果分別如圖7 和圖8 所示。合成數(shù)據(jù)覆蓋部分越大,說明模型越優(yōu)秀。對比2 個數(shù)據(jù)集在4 組模型中的實驗可以看出,MDGAN 模型在2 個數(shù)據(jù)集訓(xùn)練得到的合成數(shù)據(jù)分布均優(yōu)于TimeGAN、SigCWGAN 和RCGAN 的合成數(shù)據(jù)分布。因為MDGAN 模型采用多鑒別器對合成數(shù)據(jù)的多個特征進(jìn)行鑒別,所以合成數(shù)據(jù)的分布更加接近真實數(shù)據(jù)的分布。

      3.4.3 誤差分析

      從圖7 和圖8 中能直觀看到合成數(shù)據(jù)的分布是接近真實數(shù)據(jù)數(shù)據(jù)分布的,但是不能客觀地評價合成數(shù)據(jù)的好壞,因此本文對2 個數(shù)據(jù)集的合成數(shù)據(jù)進(jìn)行誤差分析,分別如表2 和表3 所示。其中,股票數(shù)據(jù)集在預(yù)處理階段已進(jìn)行歸一化處理。

      表2 地磁數(shù)據(jù)集不同模型誤差對比

      圖7 地磁數(shù)據(jù)集PCA 可視化結(jié)果

      圖8 股票數(shù)據(jù)集PCA 可視化結(jié)果

      從表2 和表3 可以看出,MDGAN 的誤差略低于 TimeGAN,但是明顯低于 SigCWGAN 和RCGAN。這說明本文所提模型的準(zhǔn)確性要高于其他3 種模型。

      表3 股票數(shù)據(jù)集不同模型誤差對比

      3.4.4 總體分析

      在loss函數(shù)收斂性方面,MDGAN與SigCWGAN不相上下,明顯高于TimeGAN 和RCGAN。在主成分分析中,MDGAN 模型合成數(shù)據(jù)的分布最接近真實數(shù)據(jù)的分布。在誤差分析中,MDGAN 的誤差略低于TimeGAN,但是明顯低于SigCWGAN 和RCGAN。

      從模型的綜合性能比較,本文所提MDGAN 要略優(yōu)于 SigCWGAN 和 TimeGAN,明顯高于RCGAN。

      4 結(jié)束語

      本文設(shè)計了基于生成對抗網(wǎng)絡(luò)的多鑒別器時間序列生成模型,該模型采用4 種不同的鑒別器對合成數(shù)據(jù)進(jìn)行鑒別,進(jìn)而更好地識別時間序列的數(shù)據(jù)特征,使生成器能夠快速合成高質(zhì)量的數(shù)據(jù)。實驗表明,對于地磁和股票這2 種不同類型的數(shù)據(jù)集,所提模型均能夠合成出與真實數(shù)據(jù)近似度較高的數(shù)據(jù),在模型收斂性、合成數(shù)據(jù)分布以及合成數(shù)據(jù)誤差3 個方面都保持了良好的性能。

      本文所設(shè)計的MDGAN 模型能夠為一些需要大量時間序列數(shù)據(jù)集的用戶提供一個獲取數(shù)據(jù)的有效手段。盡管本文所提模型只通過2 種數(shù)據(jù)集進(jìn)行了實驗驗證,但該模型的設(shè)計思路是可以借鑒并拓展的。在面對更加廣泛的時間數(shù)據(jù)集時,可以采取針對性的特征鑒別,適當(dāng)調(diào)整鑒別器的結(jié)構(gòu),使其達(dá)到復(fù)雜度和精度的最優(yōu)折中。未來可進(jìn)一步對特征提取的環(huán)節(jié)進(jìn)行研究,使生成器輸出的合成數(shù)據(jù)具有更強(qiáng)的可控性。

      猜你喜歡
      鑒別器頻域誤差
      基于雙鑒別器生成對抗網(wǎng)絡(luò)的單目深度估計方法
      角接觸球軸承接觸角誤差控制
      哈爾濱軸承(2020年2期)2020-11-06 09:22:26
      Beidou, le système de navigation par satellite compatible et interopérable
      衛(wèi)星導(dǎo)航信號無模糊抗多徑碼相關(guān)參考波形設(shè)計技術(shù)*
      壓力容器制造誤差探究
      頻域稀疏毫米波人體安檢成像處理和快速成像稀疏陣列設(shè)計
      陣列天線DOA跟蹤環(huán)路鑒別器性能分析
      九十億分之一的“生死”誤差
      山東青年(2016年2期)2016-02-28 14:25:41
      基于改進(jìn)Radon-Wigner變換的目標(biāo)和拖曳式誘餌頻域分離
      一種基于頻域的QPSK窄帶干擾抑制算法
      施秉县| 广元市| 弥渡县| 北碚区| 长武县| 博乐市| 大埔区| 牡丹江市| 育儿| 当雄县| 聂拉木县| 曲周县| 巴林右旗| 光山县| 益阳市| 黑河市| 托克托县| 汉寿县| 灌阳县| 孝昌县| 泊头市| 华安县| 井研县| 嘉荫县| 茂名市| 富宁县| 鄂州市| 平阳县| 景谷| 南平市| 鹤岗市| 临邑县| 台湾省| 皋兰县| 义马市| 余江县| 慈溪市| 张家界市| 都昌县| 九台市| 兴隆县|