• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于XGBoost的大宗商品價(jià)格預(yù)測(cè)

      2021-05-26 01:17田秋紅廖文琪歐陽漢
      企業(yè)科技與發(fā)展 2021年4期

      田秋紅 廖文琪 歐陽漢

      【摘 要】大宗商品已成為財(cái)富管理與資產(chǎn)管理的重要內(nèi)容,通過搜集數(shù)據(jù)發(fā)現(xiàn)大宗商品價(jià)格走勢(shì)規(guī)律,對(duì)輔助投資者選擇合適的大宗商品進(jìn)行投資等具有重要的意義。文章通過待預(yù)測(cè)的6種有色金屬和5種輔助有色金屬數(shù)據(jù)(包含6種日交易數(shù)據(jù)),7種市場(chǎng)指標(biāo)(包含7種日交易數(shù)據(jù))。解決的問題是在考慮有色金屬具有時(shí)序性的情況下,通過了解背景知識(shí)和對(duì)數(shù)據(jù)的探索,創(chuàng)建了7類新的特征,并根據(jù)每一個(gè)待預(yù)測(cè)金屬的不同待預(yù)測(cè)時(shí)間點(diǎn)的標(biāo)簽,篩選出對(duì)該金屬有著較大影響的特征。在有效數(shù)據(jù)的篩選上,分別選取2003—2017年(缺失鈀、鉑、銀3種金屬數(shù)據(jù))和2013—2017年(包含所有紐約金屬交易所的金屬數(shù)據(jù))建立XGBoost模型進(jìn)行對(duì)比發(fā)現(xiàn),2013—2017年模型的預(yù)測(cè)結(jié)果好于2003—2017年模型的預(yù)測(cè)結(jié)果;在模型選取上,根據(jù)篩選不同金屬的特征,建立CatBoost、SVM、XGBoost 3個(gè)模型進(jìn)行對(duì)比,結(jié)果顯示XGBoost的預(yù)測(cè)結(jié)果明顯好于另外兩個(gè)模型。因此,最終選取2013—2017年的數(shù)據(jù)和XGBoost作為訓(xùn)練數(shù)據(jù)和最終的模型,然后對(duì)每一種待預(yù)測(cè)金屬建立模型(共18個(gè)),分別預(yù)測(cè)各種金屬在2018年1 d、20 d、60 d的漲跌情況。

      【關(guān)鍵詞】大宗商品;XGBoost;特征工程

      【中圖分類號(hào)】F713.32;F274【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1674-0688(2021)04-0150-03

      1 研究意義及現(xiàn)狀

      大宗商品電子交易市場(chǎng)作為一種新興的交易方式,對(duì)促進(jìn)流通現(xiàn)代化、實(shí)現(xiàn)流通創(chuàng)新具有重要意義。目前,中國(guó)經(jīng)濟(jì)的迅速發(fā)展,特別是城市化、市場(chǎng)化進(jìn)程不斷加快,貿(mào)易企業(yè)數(shù)量持續(xù)增長(zhǎng),形成對(duì)大宗商品市場(chǎng)的巨大需求。如果采用最直接也是最簡(jiǎn)明的大宗商品投資方式,直接購(gòu)買大宗商品進(jìn)行投資,可能會(huì)產(chǎn)生很大的運(yùn)輸成本和儲(chǔ)存成本,投資者很少采用這樣的方式。因此,通過搜集數(shù)據(jù)發(fā)現(xiàn)大宗商品價(jià)格走勢(shì)規(guī)律,輔助選擇合適的大宗商品進(jìn)行投資等有著重要的意義 [1]。

      華仁海等人(2004)利用協(xié)整檢驗(yàn)和Granger因果檢驗(yàn)方法對(duì)國(guó)內(nèi)外期貨市場(chǎng)商品進(jìn)行實(shí)證檢驗(yàn),得到不同期貨交易之間可能存在長(zhǎng)期均衡關(guān)系或協(xié)整關(guān)系 [1]。曹旭等人(2017)基于機(jī)器學(xué)習(xí)中的支持向量機(jī)模型,選取大宗商品中金融屬性最強(qiáng)的黃金,對(duì)黃金價(jià)格進(jìn)行預(yù)測(cè),并初步嘗試構(gòu)建一個(gè)擇時(shí)策略。最后預(yù)測(cè)黃金價(jià)格的SVM模型,初步構(gòu)建了一個(gè)擇時(shí)交易策略,并給出在回測(cè)樣本中的回測(cè)結(jié)果 [2]。陳宇韶(2018)提出將皮爾森特征篩選與XGBoost算法結(jié)合的預(yù)測(cè)方法預(yù)測(cè)股票收盤價(jià)。以A股市場(chǎng)600677股票為例,采用皮爾森相關(guān)系數(shù)分析法提取重要特征,并生成高相關(guān)特征的數(shù)據(jù)集,再基于數(shù)據(jù)挖掘算法中表現(xiàn)極為優(yōu)異的XGBoost框架,結(jié)合特征工程處理,取得良好的訓(xùn)練預(yù)測(cè)效果 [3]。

      2 數(shù)據(jù)分析及數(shù)據(jù)清洗

      2.1 數(shù)據(jù)分析

      biendata競(jìng)賽提供了倫敦金屬交易所(LME)數(shù)據(jù)集、紐約商品交易所(COMEX)數(shù)據(jù)集、一些市場(chǎng)指標(biāo)(Indices)數(shù)據(jù)集、待預(yù)測(cè)金屬的標(biāo)簽(Label)4類數(shù)據(jù)集,每一類數(shù)據(jù)集又分為訓(xùn)練集數(shù)據(jù)集和驗(yàn)證集數(shù)據(jù)集。

      本文所使用的數(shù)據(jù)時(shí)間線如圖1所示。

      本文所使用的數(shù)據(jù)時(shí)間線為訓(xùn)練集:2003-01-02至2017-12-29,總共有3 790個(gè)數(shù)據(jù);驗(yàn)證集:2018-01-02至2018-01-02,總共有253個(gè)數(shù)據(jù)。

      2.2 數(shù)據(jù)探索和數(shù)據(jù)預(yù)處理

      2.2.1 數(shù)據(jù)探索

      (1)基礎(chǔ)數(shù)據(jù)查看。以鋁(Aluminium)1d為例進(jìn)行基礎(chǔ)數(shù)據(jù)查看,發(fā)現(xiàn)共有3種類型的數(shù)據(jù),分別是int64、object和float64,其中Unnamed:0為無意義的數(shù)據(jù);Unnamed:0.1為交易日期,Open.Price、High.Price、High.Price、low.Price為鋁金屬的日交易數(shù)據(jù);交易量(Vloume)數(shù)據(jù)則存在缺失情況,缺失243條數(shù)據(jù)。

      (2)標(biāo)簽分布。在查看完所有的數(shù)據(jù)后發(fā)現(xiàn),除了標(biāo)簽之外,所有的數(shù)據(jù)均為連續(xù)性變量,因此查看一下標(biāo)簽的分布情況,6種有色金屬的漲跌情況分布較為均衡。

      2.2.2 數(shù)據(jù)預(yù)處理

      (1)缺失值填補(bǔ)。由于數(shù)據(jù)是基于時(shí)間序列進(jìn)行變化的,如果對(duì)缺失值進(jìn)行均值填補(bǔ)或者中位數(shù)填補(bǔ)時(shí),有可能會(huì)用到來自未來的數(shù)據(jù),為了避免使用到未來數(shù)據(jù)而導(dǎo)致模型過擬合,選擇后值填補(bǔ),即使用前一天的非空值對(duì)當(dāng)天的數(shù)據(jù)進(jìn)行填補(bǔ) [4]。

      (2)時(shí)間線篩選。對(duì)數(shù)據(jù)探索之后發(fā)現(xiàn),除了紐約商品交易所中的鈀、鉑、銀3種金屬的基礎(chǔ)數(shù)據(jù)丟失嚴(yán)重,要到2013-11-11,日交易數(shù)據(jù)才較完整;其余的數(shù)據(jù)在這個(gè)時(shí)間點(diǎn)后,也都基本完整。因此,為了在選擇更多金屬數(shù)據(jù)而舍棄2003—2013年的數(shù)據(jù)還是選擇更長(zhǎng)的時(shí)間線而舍棄鈀、鉑、銀3種金屬之間做一個(gè)簡(jiǎn)易的模型對(duì)比,一個(gè)是不包含鈀、鉑、銀3種金屬的2003—2017年模型,一個(gè)是包含著3種金屬的2013—2017年模型,都采取XGBoost模型,AUC結(jié)果見表1。

      通過對(duì)比發(fā)現(xiàn),2013—2017年的模型比2003—2017年的模型效果要好很多,說明對(duì)預(yù)測(cè)金屬來說,在保證一定數(shù)據(jù)量時(shí),更多的相關(guān)金屬種類數(shù)據(jù)的重要性是大于過于長(zhǎng)的時(shí)間、但缺少相關(guān)金屬種類數(shù)據(jù)的,因此對(duì)有效數(shù)據(jù)的篩選時(shí)間線是2013-11-11至2017-12-31的有關(guān)數(shù)據(jù)。

      3 特征工程

      3.1 特征構(gòu)造

      在了解股票漲跌、大宗商品相關(guān)的背景知識(shí)和查看相關(guān)文獻(xiàn)之后,基于有色金屬的有關(guān)基礎(chǔ)數(shù)據(jù)創(chuàng)建7類特征[5]:range、hl、oc、MA、std_dev、rsi、Williams%R①。其中,創(chuàng)建移動(dòng)平均線時(shí),分短期、中期、長(zhǎng)期指標(biāo),短期指標(biāo)包含3 d、5 d、10 d,中期指標(biāo)包含30 d、75 d,長(zhǎng)期指標(biāo)包含255 d;創(chuàng)建相對(duì)強(qiáng)弱指數(shù)時(shí),選擇的是6 d、12 d、24 d的數(shù)據(jù);創(chuàng)建威廉指數(shù)時(shí),選擇的是12 d、24 d的數(shù)據(jù)。

      3.2 特征選取

      常見的特征選擇方法有過濾法、嵌入法、包裝法 [6]。在這里選擇基于XGBoost的特征重要性排名,在71個(gè)特征中選取了前30個(gè)特征作為模型的特征。

      在分別對(duì)1 d、20 d、60 d的6種金屬進(jìn)行特征篩選后,將出現(xiàn)在篩選后的6種金屬特征中的特征進(jìn)行統(tǒng)計(jì)。其中,1 d的共同特征共有10個(gè),20 d的共同特征共有6個(gè),60 d的共同特征共有8個(gè)。具體來看,對(duì)1d的金屬漲跌預(yù)測(cè)來說,紐約金屬交易所中的銅和鈀金屬影響比較大,在6種金屬預(yù)測(cè)中都出現(xiàn)了這兩種金屬的當(dāng)日開盤收盤價(jià)格差、交易量和最高最低價(jià)格差,以及待預(yù)測(cè)金屬自身屬性中的交易量和漲跌幅。對(duì)20 d的金屬漲跌預(yù)測(cè)來說,中期移動(dòng)平均線中的季線和長(zhǎng)期的移動(dòng)平均線更為重要,6種金屬的特征選擇中都出現(xiàn)了中期移動(dòng)平均線中的季線和所有的長(zhǎng)期移動(dòng)平均線,然后就是市場(chǎng)指標(biāo)中的波動(dòng)率指數(shù)和歐洲斯托克50指數(shù)。對(duì)60 d的金屬漲跌預(yù)測(cè)來說,紐約金屬交易所中鈀、鉑、銀3種金屬的個(gè)人持倉(cāng)量出現(xiàn)比較多,然后是長(zhǎng)期移動(dòng)平均線和市場(chǎng)指標(biāo)的滬深300指數(shù)、美元指數(shù)的影響比較大 [7]。

      4 模型選擇與評(píng)估

      本文專注于銅、鋁、鉛、鎳、鋅及錫6種有色金屬。通過構(gòu)建模型,分別預(yù)測(cè)1 d、20 d、60 d 3個(gè)時(shí)間段的有色金屬價(jià)格走勢(shì)方向(漲/跌)。選擇CatBoost、XGBoost、SVM 3種模型對(duì)數(shù)據(jù)進(jìn)行擬合,根據(jù)AUC進(jìn)行模型篩選,根據(jù)模型結(jié)果顯示可得,XGBoost的預(yù)測(cè)效果均比CatBoost和SVM預(yù)測(cè)效果好,因此決定采用XGBoost進(jìn)行預(yù)測(cè)。為了比較特征篩選后與特征篩選前的模型效果對(duì)比,設(shè)定了包含所有特征的模型1和只含有篩選特征的模型2,選取2013-11-11后的800條數(shù)據(jù)作為訓(xùn)練集,后面的246條數(shù)據(jù)作為測(cè)試集,將數(shù)據(jù)代入XGBoost模型進(jìn)行訓(xùn)練。

      結(jié)果發(fā)現(xiàn),只含有篩選特征的模型2的性能整體都要好于包含所有特征的模型1。因此,選擇特征篩選后的模型2作為最終模型。最終選擇了特征篩選之后的數(shù)據(jù)集和XGBoost模型對(duì)最后的驗(yàn)證集進(jìn)行預(yù)測(cè),最終準(zhǔn)確率為65.11%。

      5 結(jié)論與啟示

      在考慮有色金屬具有時(shí)序性的情況下,針對(duì)有色金屬的收盤價(jià)格創(chuàng)建新的、更有代表性的特征,并針對(duì)不同的金屬和不同的預(yù)測(cè)目標(biāo)進(jìn)行不同的特征選擇。同時(shí),需要選擇一個(gè)適宜的模型,可以通過多種方式進(jìn)行嘗試,根據(jù)模型效果選擇合適的模型,并對(duì)模型進(jìn)行優(yōu)化。針對(duì)每一種待預(yù)測(cè)金屬的不同預(yù)測(cè)時(shí)間點(diǎn),分別建立了一個(gè)模型(共18個(gè)模型)進(jìn)行預(yù)測(cè)。由于各個(gè)不同的模型對(duì)數(shù)據(jù)的擬合程度不同,所以最終選取了在各個(gè)金屬的預(yù)測(cè)中表現(xiàn)都比較好的XGBoost模型。

      文中存在一些不足之處,在特征創(chuàng)建時(shí),只對(duì)待預(yù)測(cè)金屬的交易數(shù)據(jù)進(jìn)行了處理,如果對(duì)市場(chǎng)指標(biāo)、紐約金屬交易所的數(shù)據(jù)也進(jìn)行滑動(dòng)窗口的處理,效果可能會(huì)更好;對(duì)相對(duì)強(qiáng)弱指數(shù)、威廉指數(shù)的時(shí)間線選取如果像移動(dòng)平均線一樣長(zhǎng),可能體現(xiàn)的價(jià)值也會(huì)更全面。創(chuàng)造移動(dòng)平均線,選取的是簡(jiǎn)單移動(dòng)平均算法,這種處理方式的滯后性比較強(qiáng),如果采取滯后性更弱的算法,例如分型自適應(yīng)移動(dòng)平均或赫爾移動(dòng)平均,可能會(huì)有不一樣的結(jié)果。市場(chǎng)內(nèi),本文只考慮了有關(guān)金屬的交易數(shù)據(jù)和市場(chǎng)指標(biāo),沒有考慮金融機(jī)構(gòu)發(fā)布的有關(guān)研報(bào)和新聞;市場(chǎng)外,沒有考慮整體的國(guó)際形勢(shì)和政治、政策因素對(duì)有色金屬帶來的影響 [8]。

      注 釋

      ①range:漲跌幅,表示當(dāng)日的收盤價(jià)與前一日收盤價(jià)價(jià)格差異的比值;hl:表示當(dāng)日最高價(jià)和最低價(jià)的差;oc:表示當(dāng)日開盤價(jià)格和收盤價(jià)格的差;MA:表示收盤價(jià)的移動(dòng)平均線,反映價(jià)格變動(dòng)的趨勢(shì);std_dev:表示收盤價(jià)格過去一段時(shí)間的平均方差線;rsi:相對(duì)強(qiáng)弱指數(shù),通過過去一段時(shí)間收盤價(jià)平均漲數(shù)和平均跌數(shù)來分析市場(chǎng);Williams%R:威廉指數(shù),利用擺動(dòng)點(diǎn)度量市場(chǎng)的超買超賣現(xiàn)象。

      參 考 文 獻(xiàn)

      [1]華仁海,陳百助.國(guó)內(nèi)、國(guó)際期貨市場(chǎng)期貨價(jià)格之間的關(guān)聯(lián)研究[J].經(jīng)濟(jì)學(xué)(季刊),2004(2):727-742.

      [2]曹旭.基于SVM的黃金價(jià)格預(yù)測(cè)模型及其參數(shù)優(yōu)化[D].濟(jì)南:山東大學(xué),2017.

      [3]陳宇韶,唐振軍,羅揚(yáng),等.皮爾森優(yōu)化結(jié)合Xgboost算法的股價(jià)預(yù)測(cè)研究[J].信息技術(shù),2018(9):92-97.

      [4]唐亞平.基于移動(dòng)電信數(shù)據(jù)個(gè)人征信模型研究[D].北京:北京郵電大學(xué),2017.

      [5]鐘一鳴.大宗商品價(jià)格波動(dòng)的影響因素探析——以基本金屬銅為例[J].中國(guó)管理信息化,2012(16):48-49.

      [6]張靖.面向高維小樣本數(shù)據(jù)的分類特征選擇算法研究[D].合肥:合肥工業(yè)大學(xué),2014.

      [7]蔣劍輝,朱穎菲.上海有色金屬價(jià)格指數(shù)(SMMI)與倫敦金屬期貨交易所指數(shù)(LMEX)的相關(guān)性研究[J].浙江統(tǒng)計(jì),2008(9):6-8.

      [8]孫靜嫻.有色金屬行業(yè)環(huán)境信息披露及其影響因素分析[D].南京:南京大學(xué),2012.

      砀山县| 佛学| 西宁市| 新密市| 平远县| 乡城县| 河东区| 吉隆县| 天水市| 汶上县| 甘德县| 南昌县| 汤原县| 长武县| 莱芜市| 太和县| 铜陵市| 广宗县| 惠州市| 右玉县| 虹口区| 鸡泽县| 色达县| 尤溪县| 特克斯县| 色达县| 濉溪县| 十堰市| 庆阳市| 普安县| 十堰市| 江西省| 馆陶县| 沁水县| 新邵县| 都安| 方正县| 宜宾市| 东山县| 临安市| 康平县|