侯文濤,柴鑫杰,趙曉樂(lè)
(1.運(yùn)城學(xué)院 數(shù)學(xué)與信息技術(shù)學(xué)院,山西 運(yùn)城 044000;2.北方民族大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,銀川 750021)
混沌系統(tǒng)是指一類非線性動(dòng)力學(xué)系統(tǒng),表現(xiàn)出一些隨機(jī)、不可預(yù)測(cè)的運(yùn)動(dòng)行為,其運(yùn)動(dòng)過(guò)程是高度敏感的,即微小的初始條件差異可能就會(huì)導(dǎo)致非常大的行為差異[1]?;煦缦到y(tǒng)的預(yù)測(cè)一直是研究者關(guān)注的熱點(diǎn)問(wèn)題之一。然而,現(xiàn)實(shí)生活中的混沌系統(tǒng)往往還會(huì)受到外界噪聲的干擾,并且這種干擾是不可避免的[2]。因此在預(yù)測(cè)混沌系統(tǒng)未來(lái)演化的研究中,考慮噪聲的影響尤為重要[3,4]。數(shù)據(jù)科學(xué)和大數(shù)據(jù)背景下, 機(jī)器學(xué)習(xí)技術(shù)在各個(gè)領(lǐng)域都取得了突出的成果[5-7]。各種具有強(qiáng)大擬合和預(yù)測(cè)能力的機(jī)器學(xué)習(xí)算法豐富了混沌系統(tǒng)的預(yù)測(cè)方法[8-13]。支持向量回歸(Support Vector Regression, SVR)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)算法,它具有強(qiáng)大的泛化能力和較好的預(yù)測(cè)性能,在非線性系統(tǒng)的預(yù)測(cè)中具有廣泛的應(yīng)用。因此, 將SVR應(yīng)用于混沌系統(tǒng)的預(yù)測(cè)研究,具有很大的潛力和發(fā)展前景[14]?;诖?本文旨在基于SVR探討Gaussian噪聲和Lévy噪聲激勵(lì)下混沌系統(tǒng)的預(yù)測(cè)問(wèn)題。
支持向量機(jī)[14]的回歸算法又稱支持向量回歸。假設(shè)給定一個(gè)樣本集
Dtrn={(xi,yi)∶i=1,2,…,m},
其中yi∈R,是樣本的標(biāo)簽值,那么模型可以表示為
f(x)=wTx+b,
其中w是權(quán)重項(xiàng),b是偏置項(xiàng)。通過(guò)計(jì)算使f(x)可以和y之間最多可以有的偏差。定義SVR的不敏感損失函數(shù)為L(zhǎng)ε,表達(dá)式為
根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,SVR的結(jié)構(gòu)風(fēng)險(xiǎn)為
(1)
其中C是正則項(xiàng),即懲罰參數(shù)。將(1)式轉(zhuǎn)化為最優(yōu)問(wèn)題為
Gaussian噪聲是一種常見(jiàn)的隨機(jī)信號(hào),其特點(diǎn)是由一組服從正態(tài)分布的隨機(jī)變量構(gòu)成。正態(tài)分布又稱Gaussian分布,是一種連續(xù)的概率分布,可以用其概率密度函數(shù)來(lái)描述。因此Gaussian噪聲在各個(gè)領(lǐng)域中都有著廣泛的應(yīng)用,例如通信、圖像處理、聲音處理等[3,4]。
許多研究表明,真實(shí)的觀測(cè)數(shù)據(jù)通常表現(xiàn)為突變或爆發(fā)。由Lévy噪聲驅(qū)動(dòng)的動(dòng)力系統(tǒng)可以更準(zhǔn)確地對(duì)它們進(jìn)行建模。Lévy噪聲表現(xiàn)出大量的微小波動(dòng),或有強(qiáng)烈的“跳躍”,有望成為描述非線性系統(tǒng)中固有的隨機(jī)波動(dòng)的有力工具。它已經(jīng)在不同領(lǐng)域被檢測(cè)到,Lévy噪聲擾動(dòng)的隨機(jī)模型受到學(xué)者們的廣泛關(guān)注[2]。
本文采用均方誤差損失函數(shù)(MSE)和相對(duì)度量R2評(píng)分來(lái)評(píng)估模型的預(yù)測(cè)精度和預(yù)測(cè)性能[3,4]。MSE和R2評(píng)分定義為
Henon是一種經(jīng)典的二維動(dòng)力系統(tǒng),由法國(guó)數(shù)學(xué)家Michel Hénon在1976年提出[4]。Henon映射的定義為
其中a和b是常數(shù),xn和yn是映射的前一個(gè)狀態(tài)。當(dāng)a=1.4和b=0.3時(shí),Henon系統(tǒng)表現(xiàn)出混沌行為。
我們選取Henon映射的控制參數(shù)a和b分別為1.4和0.3,初始狀態(tài)x0和y0分別隨機(jī)取為0.1和0.1。分量x產(chǎn)生2000點(diǎn),丟棄初始的10000點(diǎn),使序列完全進(jìn)入混沌狀態(tài),取之后的10000點(diǎn)構(gòu)成一維無(wú)噪聲混沌序列,對(duì)Henon系統(tǒng)的混沌狀態(tài)進(jìn)行觀察。將收集到的10000個(gè)數(shù)據(jù)進(jìn)行相空間重構(gòu),利用自相關(guān)法[14]確定延遲階數(shù)為1,Cao的方法[14]確定嵌入維數(shù)為3。
為了量化Gaussian噪聲和Lévy噪聲的影響,我們?cè)跓o(wú)噪聲的確定性數(shù)據(jù)中分別添加了Gaussian擾動(dòng)和α-穩(wěn)定Lévy擾動(dòng)。并且考慮了三種不同的噪聲水平,將標(biāo)準(zhǔn)差設(shè)置為無(wú)噪聲數(shù)據(jù)標(biāo)準(zhǔn)差的0.5%、1%和5%。
將數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集。其中訓(xùn)練集占85%,也即10000點(diǎn)中的前8500點(diǎn);測(cè)試集占15%,也即10000點(diǎn)中的后1500點(diǎn)。
現(xiàn)對(duì)0%(無(wú)噪聲)、0.5%、1%和5%Gaussian噪聲激勵(lì)下的Henon混沌時(shí)間序列基于SVR模型進(jìn)行擬合。SVR網(wǎng)格搜索[15]中,網(wǎng)格搜索取值點(diǎn)如表1所示。
表1 SVR網(wǎng)格搜索超參數(shù)取值點(diǎn)
我們一共需要訓(xùn)練3×5×3=45個(gè)不同的SVR模型,采用網(wǎng)格搜索的交叉驗(yàn)證方法,從中選取MSE最小的模型超參數(shù)作為最優(yōu)的SVR超參數(shù)配置。然后在整個(gè)訓(xùn)練集上重新進(jìn)行一次訓(xùn)練,作為最終的SVR模型。選取時(shí)間序列交叉驗(yàn)證的折數(shù)為5。以0%(無(wú)噪聲)數(shù)據(jù)作為參照,最終選擇的模型超參數(shù)是:核函數(shù)為RBF核,C=100,ε=0.001。將最終選擇的模型應(yīng)用于擬合0.5%、1%和5%Gaussian噪聲激勵(lì)下的Henon混沌時(shí)間序列,最終的擬合效果詳見(jiàn)圖1(a—d)。
a-0%無(wú)噪聲;b-0.5%Gaussian噪聲;c-1%Gaussian噪聲;d-5%Gaussian噪聲。圖1 Gaussian噪聲激勵(lì)下模型擬合預(yù)測(cè)效果圖
同理,將最終選擇的模型應(yīng)用于擬合0.5%、1%和5%Lévy噪聲激勵(lì)下的Henon混沌時(shí)間序列。最終的擬合效果詳見(jiàn)圖2(a—d)。
計(jì)算不同水平Gaussian噪聲和Lévy噪聲下的精度指標(biāo)MSE和R2,詳見(jiàn)表2。由圖1(a—d),圖2(a—d)和表2可知,隨著噪聲水平的增加,MSE越來(lái)越大,R2越來(lái)越小。說(shuō)明受噪聲水平的影響,混沌系統(tǒng)的預(yù)測(cè)性能越來(lái)越差。相比于Gaussian噪聲,Lévy噪聲對(duì)混沌系統(tǒng)預(yù)測(cè)的影響程度更大。
表2 和隨噪聲水平的變化表
股票市場(chǎng)是一個(gè)充滿不確定性的復(fù)雜系統(tǒng),這種不確定性主要是由各種因素的干擾造成,投資者需要通過(guò)分析市場(chǎng)趨勢(shì)來(lái)做出決策。在一個(gè)較短的時(shí)間內(nèi)股票價(jià)格的變化具有很強(qiáng)的規(guī)律性,是一種介于隨機(jī)和確定性之間的混沌現(xiàn)象[16,17]。
雖說(shuō)股票價(jià)格有較強(qiáng)的隨機(jī)性,但也不是不可預(yù)測(cè)的。股票市場(chǎng)中最直觀的屬性便是每日開(kāi)盤價(jià),而股票每日的開(kāi)盤價(jià)是受前幾日的交易情況影響的,并且與最高價(jià)、最低價(jià)、收盤價(jià)和成交量等指標(biāo)關(guān)系緊密。因此選取這四個(gè)指標(biāo)來(lái)預(yù)測(cè)股市短期內(nèi)的開(kāi)盤價(jià)是有意義的。
茅臺(tái)股票是中國(guó)股市中的一只藍(lán)籌股,其價(jià)格波動(dòng)較大。本文借助混沌理論對(duì)茅臺(tái)股票的開(kāi)盤價(jià)進(jìn)行預(yù)測(cè),數(shù)據(jù)來(lái)自于Yahoo Finance網(wǎng)站https://finance.yahoo.com。數(shù)據(jù)選取的時(shí)間段為2010年4月26日到2020年4月24日,共計(jì)2426個(gè)交易日。
首先驗(yàn)證茅臺(tái)開(kāi)盤價(jià)數(shù)據(jù)的混沌性。經(jīng)計(jì)算,x軸的最大李雅普諾夫指數(shù)為347.1064,y軸的最大李雅普諾夫指數(shù)為192.1266,z軸的最大李雅普諾夫指數(shù)為114.1666。三個(gè)方向上的李雅普諾夫指數(shù)均為正數(shù),說(shuō)明茅臺(tái)開(kāi)盤價(jià)數(shù)據(jù)確實(shí)具有混沌特性[18]。進(jìn)一步,由于五個(gè)指標(biāo)之間的數(shù)量級(jí)相差十分巨大,所以對(duì)原始數(shù)據(jù)進(jìn)行歸一化處理,使所有數(shù)據(jù)的取值都集中在0~1之間。最后將歸一化后的茅臺(tái)股票數(shù)據(jù)分成訓(xùn)練集和測(cè)試集,其中訓(xùn)練集包含前85%的數(shù)據(jù),測(cè)試集包含后15%的數(shù)據(jù)。
由于股票市場(chǎng)的異常復(fù)雜性和非線性,股票數(shù)據(jù)序列本身是含有大量噪聲的,這些噪聲肯定會(huì)影響預(yù)測(cè)的準(zhǔn)確率和有效性。根據(jù)2.3可知噪聲會(huì)嚴(yán)重影響預(yù)測(cè)的性能,因此在對(duì)股票序列進(jìn)行預(yù)測(cè)分析之前,必要對(duì)序列進(jìn)行降噪。
小波變換是一種常用的信號(hào)處理技術(shù),可以用來(lái)對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行奇異值降噪處理,消除數(shù)據(jù)中的高頻噪聲,保留數(shù)據(jù)中的低頻信息[19]。本節(jié)使用小波變換對(duì)茅臺(tái)股票價(jià)格數(shù)據(jù)進(jìn)行降噪處理,降噪結(jié)果如圖3所示。其中(a)表示降噪前的原始信號(hào),(b)表示經(jīng)過(guò)小波變換降噪后的信號(hào)。由圖3可知,降噪后的信號(hào)比原始信號(hào)更加平滑,去除了大部分的噪聲信號(hào)。
圖3 降噪前后股票價(jià)格歸一化數(shù)據(jù)比較圖,降噪前(a),降噪后(b)
現(xiàn)基于整理好的茅臺(tái)股票開(kāi)盤價(jià)、最高價(jià)、最低價(jià)、收盤價(jià)和成交量五個(gè)指標(biāo)數(shù)據(jù),利用SVR對(duì)開(kāi)盤價(jià)進(jìn)行擬合[20,21]。SVR網(wǎng)格搜索中,網(wǎng)格搜索取值點(diǎn)如表1所示。
最終選擇的SVR模型超參數(shù)是:核函數(shù)為RBF核,C=1000,ε=0.1。SVR在測(cè)試集上的均方誤差為=7.88389e-07,R2=0.9999890,詳見(jiàn)圖4(b)。比較未進(jìn)行降噪的擬合效果圖4(a),進(jìn)一步說(shuō)明降噪后噪聲激勵(lì)下混沌時(shí)間序列的預(yù)測(cè)精度明顯得到改善。
圖4 降噪前后股票價(jià)格歸一化數(shù)據(jù)預(yù)測(cè)效果圖
該研究主要探討了噪聲激勵(lì)下混沌系統(tǒng)的預(yù)測(cè)問(wèn)題,并以Henon映射為例,實(shí)證分析了Gaussian噪聲和Lévy噪聲對(duì)混沌系統(tǒng)預(yù)測(cè)性能的影響。研究表明噪聲水平越高,混沌系統(tǒng)的預(yù)測(cè)性能越差。Lévy噪聲對(duì)混沌系統(tǒng)預(yù)測(cè)性能的影響遠(yuǎn)大于Gaussian噪聲。接著借助茅臺(tái)股票價(jià)格數(shù)據(jù),進(jìn)一步說(shuō)明噪聲將嚴(yán)重影響混沌系統(tǒng)的預(yù)測(cè)性能。最后,提出的小波變換降噪法對(duì)噪聲激勵(lì)下混沌系統(tǒng)的預(yù)測(cè)性能有明顯改善。
本文基于SVR完成了噪聲激勵(lì)對(duì)混沌系統(tǒng)預(yù)測(cè)性能影響的研究。后續(xù)研究工作的重點(diǎn)包括考慮使用神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等方法提高模型的精度和魯棒性;考慮從多個(gè)方向探索混合噪聲及其處理方法,例如基于卷積神經(jīng)網(wǎng)絡(luò),混合神經(jīng)網(wǎng)絡(luò)等,提高模型對(duì)于噪聲的容忍度和預(yù)測(cè)精度;考慮從多個(gè)應(yīng)用場(chǎng)景出發(fā),探索不同混沌領(lǐng)域中時(shí)間序列的應(yīng)用和預(yù)測(cè)方法,提高模型的應(yīng)用價(jià)值和實(shí)用性。
運(yùn)城學(xué)院學(xué)報(bào)2023年6期