• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)背景下基于網(wǎng)絡(luò)搜索數(shù)據(jù)商品零售價(jià)格指數(shù)預(yù)測研究

      2020-11-04 14:13:46劉立新唐曉彬張斌儒
      統(tǒng)計(jì)與信息論壇 2020年11期
      關(guān)鍵詞:零售價(jià)格粒子變量

      張 瑞,劉立新,唐曉彬,張斌儒

      (1.成都理工大學(xué) 管理科學(xué)學(xué)院,四川 成都 610059;2.對外經(jīng)濟(jì)貿(mào)易大學(xué) 統(tǒng)計(jì)學(xué)院,北京 100029;3.長江師范學(xué)院 財(cái)經(jīng)學(xué)院,重慶 408100)

      一、引 言

      商品零售價(jià)格指數(shù)(Retail Price Index,RPI)是衡量宏觀經(jīng)濟(jì)運(yùn)行狀況的重要指標(biāo)之一,反映一定時(shí)期內(nèi)商品零售價(jià)格變動趨勢和變動程度。RPI的調(diào)整變動不但影響到各地區(qū)居民的生活支出、消費(fèi)與積累的比例;同時(shí),還會對國家財(cái)政收支、市場供需平衡產(chǎn)生巨大影響。各地區(qū)RPI也是地方政府進(jìn)行經(jīng)濟(jì)分析、經(jīng)濟(jì)核算及經(jīng)濟(jì)決策等重要參考指標(biāo),其調(diào)整變動關(guān)系到地方宏觀經(jīng)濟(jì)調(diào)控措施的制定和實(shí)施效果。因此,實(shí)時(shí)監(jiān)測、預(yù)測RPI走勢對地方宏觀經(jīng)濟(jì)健康運(yùn)行具有重要意義。雖然,中國商品零售價(jià)格指數(shù)的合成以抽樣調(diào)查方法為基礎(chǔ),數(shù)據(jù)具有較強(qiáng)的真實(shí)性和權(quán)威性,但同時(shí)存在一定的局限性:首先,RPI數(shù)據(jù)的發(fā)布存在明顯的時(shí)間滯后性,當(dāng)月數(shù)據(jù)在下月中下旬才能發(fā)布,使該指標(biāo)在反映地方宏觀經(jīng)濟(jì)運(yùn)轉(zhuǎn)狀況時(shí)具有時(shí)滯性;其次,在有關(guān)RPI預(yù)測研究中,研究者較難全面獲取與其相關(guān)的經(jīng)濟(jì)指標(biāo)數(shù)據(jù),影響到預(yù)測效果和精度。預(yù)測效果與精度不僅取決于預(yù)測模型合理構(gòu)建,還取決于預(yù)測變量的恰當(dāng)選取,然而引起RPI趨勢變化的因素眾多,不僅有商品供求關(guān)系的經(jīng)濟(jì)因素,還涉及諸如“稅收”“利率”“匯率”等經(jīng)濟(jì)環(huán)境因素,這導(dǎo)致該指數(shù)呈現(xiàn)出復(fù)雜的非線性特征,而傳統(tǒng)的預(yù)測數(shù)據(jù)及方法無法有效地?cái)M合其變化特點(diǎn)。在大數(shù)據(jù)時(shí)代背景下,基于網(wǎng)絡(luò)產(chǎn)生了海量有價(jià)值的網(wǎng)絡(luò)搜索數(shù)據(jù),這為指數(shù)預(yù)測研究提供了新的數(shù)據(jù)來源。網(wǎng)絡(luò)搜索數(shù)據(jù)(如百度指數(shù))常以日度關(guān)鍵詞搜索量與該詞衍生詞總搜索量的比值為統(tǒng)計(jì)對象,具有較強(qiáng)的時(shí)效性,數(shù)據(jù)涉及內(nèi)容全面覆蓋面廣,包含著豐富的價(jià)值信息。同時(shí),伴隨人工智能技術(shù)的不斷完善,非線性預(yù)測技術(shù)取得了長足的發(fā)展,本文擬借助機(jī)器學(xué)習(xí)方法,結(jié)合網(wǎng)絡(luò)搜索數(shù)據(jù),探求一種有效的預(yù)測技術(shù),對宏觀經(jīng)濟(jì)指標(biāo)商品零售價(jià)格指數(shù)進(jìn)行預(yù)測相關(guān)研究,以期彌補(bǔ)RPI發(fā)布滯后等不足。

      隨著智聯(lián)互聯(lián)網(wǎng)時(shí)代到來,互聯(lián)網(wǎng)搜索數(shù)據(jù)成為提高預(yù)測精度的積極補(bǔ)充,廣泛應(yīng)用于社會和經(jīng)濟(jì)等相關(guān)研究中。網(wǎng)絡(luò)使用者通過網(wǎng)絡(luò)搜索行為滿足對所關(guān)注經(jīng)濟(jì)變量信息需求,從而做出相應(yīng)行動決策,其決策行為又對經(jīng)濟(jì)變量產(chǎn)生一定影響,因此網(wǎng)絡(luò)搜尋數(shù)據(jù)的變化實(shí)則為所關(guān)注經(jīng)濟(jì)變量在互聯(lián)網(wǎng)上的一種映射和呈現(xiàn)。一些學(xué)者聚焦于網(wǎng)絡(luò)搜索與經(jīng)濟(jì)變量的相關(guān)性分析和探討,如網(wǎng)絡(luò)搜索與失業(yè)率、通貨膨脹、石油價(jià)格、股票收益率等等[1-2]。研究顯示,網(wǎng)絡(luò)搜尋關(guān)鍵詞與大量經(jīng)濟(jì)變量間存在相關(guān)性,這為經(jīng)濟(jì)變量預(yù)測研究中預(yù)測變量選取和預(yù)測輸入集構(gòu)建奠定了基礎(chǔ)。在基于網(wǎng)絡(luò)搜索數(shù)據(jù)經(jīng)濟(jì)變量預(yù)測研究中,一部分文獻(xiàn)針對指標(biāo)類預(yù)測,利用與房地產(chǎn)相關(guān)搜索數(shù)據(jù)構(gòu)造預(yù)測集,預(yù)測城市房價(jià)指數(shù),以期彌補(bǔ)傳統(tǒng)房價(jià)指數(shù)不足等[3]。另一部分文獻(xiàn)針對非指標(biāo)類預(yù)測,如將搜索關(guān)鍵詞用于股票市場走勢、旅游客流量、酒店入住率等方面預(yù)測[4-5]。相關(guān)研究顯示,網(wǎng)絡(luò)搜索數(shù)據(jù)的引入能顯著提高預(yù)測模型的預(yù)測性能,預(yù)測結(jié)果呈現(xiàn)出較強(qiáng)的時(shí)效性,同時(shí)網(wǎng)絡(luò)數(shù)據(jù)的即時(shí)性能夠很好地彌補(bǔ)傳統(tǒng)的監(jiān)測方法的滯后,具有更強(qiáng)的時(shí)效性。雖然,這些研究在實(shí)證上取得了一定突破,但仍存在一些不足之處:首先,在內(nèi)在機(jī)理方面挖掘得不夠充分,也未形成系統(tǒng)的理論框架,特別是對網(wǎng)絡(luò)搜索數(shù)據(jù)與研究對象之間的內(nèi)在機(jī)理尚未進(jìn)行深入的研究;其次,網(wǎng)絡(luò)搜索數(shù)據(jù)本身存在較大噪聲,如何從海量數(shù)據(jù)中提取有預(yù)測價(jià)值的相關(guān)搜索關(guān)鍵詞,這一數(shù)據(jù)預(yù)處理方法還有待完善。

      在宏觀經(jīng)濟(jì)指標(biāo)走勢預(yù)測技術(shù)選擇中,主要預(yù)測技術(shù)大多集中于傳統(tǒng)ARIMA時(shí)間序列模型、BP神經(jīng)網(wǎng)絡(luò)模型、灰色預(yù)測模型及馬爾科夫狀態(tài)轉(zhuǎn)移模型等。宏觀經(jīng)濟(jì)指標(biāo)走勢變化具有非線性特征,常規(guī)線性預(yù)測模型對其變化趨勢不能精確刻畫; ARIMA模型與BP神經(jīng)網(wǎng)絡(luò)預(yù)測雖具有一定的非線性預(yù)測能力,但ARIMA模型長期預(yù)測效果差,樣本外推能力較弱,BP模型存在收斂速度較慢、易陷入局部最優(yōu)等缺陷;而灰色預(yù)測模型普遍存在預(yù)測精度偏度的問題。張玲玲等和Vapnik在統(tǒng)計(jì)理論的基礎(chǔ)上建立支持向量回歸模型SVR,該模型表現(xiàn)出優(yōu)良的非線性預(yù)測性能,在解決小樣本及高維模型識別問題中顯著優(yōu)于其他模型[6-7]。但是,在運(yùn)用SVR預(yù)測分析時(shí),其預(yù)測精度較大程度依賴于模型的參數(shù)合理優(yōu)化和選擇。目前,SVR參數(shù)尋優(yōu)主要有遺傳算法(GA)、粒子群算法(PSO)和蝙蝠算法(BA)。GA參數(shù)尋優(yōu)主要根據(jù)概率而定,參數(shù)設(shè)置較為復(fù)雜,其預(yù)測結(jié)果缺乏一定的穩(wěn)定性;BA算法也存在收斂精度不高、易陷入局部極值點(diǎn)等缺陷[8];然而PSO在參數(shù)尋優(yōu)過程中表現(xiàn)出優(yōu)良的特性,調(diào)節(jié)參數(shù)少、收斂速度快、簡單易行,較大提升了模型的預(yù)測精度。已有學(xué)者將支持向量回歸參數(shù)優(yōu)化算法應(yīng)用于旅游客流量、房價(jià)指數(shù)等方面預(yù)測研究,均取得了較好的預(yù)測效果[9],但是在宏觀經(jīng)濟(jì)指標(biāo)商品零售價(jià)格指數(shù)預(yù)測研究中鮮有涉及。

      為了彌補(bǔ)傳統(tǒng)預(yù)測變量和預(yù)測技術(shù)的缺陷與不足,本文結(jié)合網(wǎng)絡(luò)搜尋數(shù)據(jù)和政府統(tǒng)計(jì)數(shù)據(jù),構(gòu)建PSO-SVR&US混合模型對宏觀經(jīng)濟(jì)指標(biāo)上海商品零售價(jià)格指數(shù)進(jìn)行預(yù)測。采用PSO優(yōu)化SVR模型參數(shù),以2010年1月至2019年9月百度網(wǎng)絡(luò)搜索數(shù)據(jù)作為模型輸入集。同時(shí),為比較構(gòu)建模型的有效性,文中引入GA-SVR&US(遺傳算法優(yōu)化模型)、BA-SVR&US(蝙蝠算法優(yōu)化模型)、SVR&US(未做參數(shù)優(yōu)化的SVR模型)、PSO-SVR(僅利用RPI歷史數(shù)據(jù)作為輸入集)作為基準(zhǔn)模型進(jìn)行預(yù)測效果對比分析。

      二、理論基礎(chǔ)與邏輯框架

      價(jià)格指數(shù)反映總體商品價(jià)格水平升降程度,均衡價(jià)格理論認(rèn)為商品價(jià)格不僅取決于供求關(guān)系,同時(shí)經(jīng)濟(jì)環(huán)境因素又對供求關(guān)系產(chǎn)生影響,尤其財(cái)政和金融貨幣等宏觀因素為影響商品價(jià)格重要的因素。如政府稅收變動通常會引起商品生產(chǎn)成本的增減,影響商品供求進(jìn)而導(dǎo)致物價(jià)的波動;過度的政府負(fù)債將會導(dǎo)致資金流動性稀缺,使得經(jīng)營者和居民的資金流動性偏少,對整個(gè)商品供求造成沖擊,引起物價(jià)的變動[10];在貨幣政策實(shí)施過程中,常采用調(diào)整準(zhǔn)備金率、利率、公開市場業(yè)務(wù)等方式調(diào)節(jié)貨幣資本的存量和流量,對資產(chǎn)的相對價(jià)格造成影響,改變市場參與各方經(jīng)濟(jì)行為,如企業(yè)、居民投融資及生產(chǎn)消費(fèi)行為等,最終使貨幣政策措施作用于實(shí)體經(jīng)濟(jì),從而調(diào)節(jié)市場商品供求,引起商品物價(jià)動態(tài)變化[11-12]。隨著經(jīng)濟(jì)全球化進(jìn)程加快,國際匯率和國際貿(mào)易波動也會對本國貨幣流通、商品進(jìn)出口、物價(jià)波動產(chǎn)生影響。國際貿(mào)易和匯率的波動直接影響到商品的進(jìn)出口額,對國內(nèi)市場商品供需平衡造成一定的沖擊影響,引起商品價(jià)格的起伏,進(jìn)而通過價(jià)格傳導(dǎo)于物價(jià)指數(shù)[13]。此外,經(jīng)濟(jì)增長、通貨膨脹、就業(yè)率、失業(yè)率等均會對市場整體商品的供求產(chǎn)生影響,引起物價(jià)指數(shù)的波動。

      在信息傳播高度發(fā)達(dá)的今天,一旦商品價(jià)格發(fā)生波動、宏觀經(jīng)濟(jì)環(huán)境產(chǎn)生變化,其相關(guān)信息會通過報(bào)紙、電視、互聯(lián)網(wǎng)平臺等媒介迅速傳播。商品信息關(guān)注者面對媒介傳遞的信息可能呈現(xiàn)兩種相異狀態(tài):確定性接受所得信息狀態(tài)或不確定性認(rèn)知狀態(tài)[2]。確定性認(rèn)知狀態(tài)下信息接收個(gè)體通常不再通過信息搜索來確認(rèn)已知信息;而不確定性認(rèn)知狀態(tài)的個(gè)體可能會進(jìn)一步采用信息搜索去消除其不確定性。在大數(shù)據(jù)時(shí)代背景,網(wǎng)絡(luò)搜索引擎成為大眾獲取所需信息的重要入口,網(wǎng)絡(luò)搜索已然成為消除不確定性最普遍便捷的方式,同時(shí)網(wǎng)絡(luò)搜索行為產(chǎn)生了海量的有價(jià)值的即時(shí)性搜索數(shù)據(jù)[14]。商品信息需求者基于確定信息或通過網(wǎng)絡(luò)搜索掌握商品及商品有關(guān)(如宏觀經(jīng)濟(jì)環(huán)境)充分信息后,常會調(diào)整其行為決策以期獲得最佳效益;如商品的生產(chǎn)者和消費(fèi)者基于商品相關(guān)信息形成的生產(chǎn)決策與消費(fèi)決策,這種供需決策將影響到商品供求,作用于商品的價(jià)格,引起商品價(jià)格的波動。

      當(dāng)市場整體商品價(jià)格和宏觀環(huán)境因素發(fā)生大幅變化時(shí),常會引起商品及商品相關(guān)信息在媒介中傳播頻率越高且傳播范圍越廣,其信息受眾越多,處于確定性接受所得信息狀態(tài)或不確定性認(rèn)知狀態(tài)人群數(shù)量相應(yīng)增加,從而通過互聯(lián)網(wǎng)搜索消除信息不確定性搜索行為也隨之增加,同時(shí)商品信息需求者基于商品及商品相關(guān)信息做出的有關(guān)商品行為決策對商品價(jià)格波動影響也就越大。因此,作為衡量宏觀經(jīng)濟(jì)運(yùn)行狀況的重要指標(biāo),反映一定時(shí)期內(nèi)商品零售價(jià)格變動趨勢和變動程度的零售價(jià)格指數(shù)RPI,與網(wǎng)絡(luò)搜索存在一定關(guān)聯(lián)性,即表現(xiàn)為指數(shù)RPI與某些搜索數(shù)據(jù)在時(shí)間趨勢上相關(guān)性。

      據(jù)此,本文基本研究思路:選取與商品零售價(jià)格指數(shù)相關(guān)網(wǎng)絡(luò)搜索關(guān)鍵詞,采用人工智能中支持向量回歸預(yù)測技術(shù),結(jié)合多種仿生優(yōu)化學(xué)習(xí)算法,對宏觀經(jīng)濟(jì)指標(biāo)商品零售價(jià)格指數(shù)進(jìn)行預(yù)測相關(guān)研究。

      三、預(yù)測技術(shù)設(shè)計(jì)

      (一)支持向量回歸(SVR)

      Vapnik在統(tǒng)計(jì)理論的基礎(chǔ)上建立支持向量回歸模型SVR[7],該模型具有較好的非線性預(yù)測能力,基本原理敘述見下:

      給定存在N個(gè)樣本點(diǎn)的訓(xùn)練數(shù)據(jù)集{(x1,y1),(x2,y2),…,(xN,yN)}?Rn×R,其中Rn為n維輸入空間,R表示輸出空間。通過非線性映射?將輸入向量xi映射到特征空間F,在F上定義線性函數(shù)f(x)為:

      f(x)=〈ω,?(x)〉+b,

      ?:Rn→F,x∈Rn,ω∈F

      (1)

      引入結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù):

      (2)

      其中,‖ω‖2為Euclidean范數(shù),控制模型的復(fù)雜度;C為大于零的常數(shù),稱為調(diào)節(jié)參數(shù),調(diào)節(jié)模型復(fù)雜程度與經(jīng)驗(yàn)風(fēng)險(xiǎn);|yi-f(xi)|為ε不敏感損失函數(shù),控制估計(jì)偏差,使得估計(jì)結(jié)果具有較好的魯棒性,定義形式為:

      |y-f(x)|ε=

      (3)

      于是將上述問題歸結(jié)為帶約束的優(yōu)化模型,等價(jià)轉(zhuǎn)換形式為:

      (4)

      (5)

      其中,β和β*為拉格朗日乘子。利用核函數(shù)K(xi,x)=〈?(xi),?(x)〉將變換空間內(nèi)積轉(zhuǎn)化為原空間內(nèi)積的某一函數(shù)進(jìn)而計(jì)算。本文選取高斯徑向核函數(shù),最終回歸函數(shù)形式為:

      (6)

      綜上,求解SVR模型過程實(shí)質(zhì)上為求解懲罰系數(shù)C、不敏感系數(shù)ε和帶寬σ的三維優(yōu)化問題,即優(yōu)化SVR模型中有關(guān)參數(shù)(C,ε,σ)。其中,正則化參數(shù)C調(diào)節(jié)模型的復(fù)雜度與誤差精度;ε取值大小影響回歸模型的精度;σ反映了訓(xùn)練集分布特征,進(jìn)而決定局部領(lǐng)域的帶寬。

      (二)粒子算法(PSO)

      James和Eberhart基于鳥群覓食行為提出了粒子群優(yōu)化算法(Particle Swarm Optimization,PSO)[15]。PSO基本原理概括如下:

      PSO算法尋優(yōu)過程中,每個(gè)潛在解被看成一個(gè)“粒子”,引入適應(yīng)度函數(shù)以確定每個(gè)粒子對應(yīng)的適應(yīng)值。粒子移動方向及距離由粒子速度所決定,基于粒子本身及不同粒子移動經(jīng)驗(yàn)粒子速度進(jìn)行相應(yīng)動態(tài)調(diào)整,進(jìn)而獲得個(gè)體在可解空間內(nèi)的最優(yōu)。PSO算法首先對粒子與粒子速度進(jìn)行隨機(jī)初始化,粒子個(gè)數(shù)稱為種群規(guī)模m,在n維空間中粒子i的位置為一個(gè)矢量,基于SVR模型中有關(guān)優(yōu)化參數(shù)為(C,ε,σ),所以第i個(gè)粒子在n維空間中位置、飛行速度、當(dāng)前時(shí)刻最優(yōu)位置及所有粒子全局最優(yōu)解分別由式(7)~(10)表示:

      x(k)i=(x(k)i1,x(k)i2,…,x(k)in)

      (7)

      v(k)i=(v(k)i1,v(k)i2,…,v(k)in)

      (8)

      p(k)i=(p(k)i1,p(k)i2,…,p(k)in)

      (9)

      p(k)g=(p(k)g1,p(k)g2,…,p(k)gn)

      (10)

      其中,k=C,ε,σ,i=1,2,…,N,每個(gè)粒子速度及位置更新方程為:

      v(k)i(t+1)=?v(k)i(t)+c1r1(p(k)i-x(k)i(t))+c2r2(p(k)g-x(k)i(t))

      (11)

      x(k)i(t+1)=x(k)i(t)+v(k)i(t+1)

      (12)

      其中,?為慣性權(quán)重因子,調(diào)節(jié)前期飛行速度對當(dāng)期飛行速度的影響;r1、r2為在[0,1]區(qū)間上均勻分布的隨機(jī)數(shù);c1、c2為加速因子,為避免粒子產(chǎn)生盲目搜索行為,通常將速度和位置分別限制在[-vmax,vmax]與[-xmax,xmax]區(qū)間上。適應(yīng)值函數(shù)的選擇能影響到PSO優(yōu)劣,本研究采用均方誤差MSE作為適應(yīng)值函數(shù):

      (13)

      (三)算法流程

      模型的具體算法步驟如下:

      step1:確立訓(xùn)練集和測試集。將網(wǎng)絡(luò)搜索數(shù)據(jù)綜合標(biāo)準(zhǔn)化處理,根據(jù)皮爾遜Pearson交叉相關(guān)分析選取潛在變量,然后采用逐步回歸(Stepwise)確定最終預(yù)測變量進(jìn)而構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集,確立訓(xùn)練集和測試集。

      step2:設(shè)定種群規(guī)模及迭代次數(shù);初始化設(shè)定種群的粒子對(Ci,εi,σi),相應(yīng)的初始位置及速度為(xci,xεi,xσi)、(vci,vεi,vσi)。

      step3:采用適應(yīng)值函數(shù)fitness計(jì)算所有離子對適應(yīng)值,將各粒子最優(yōu)適應(yīng)值fbesti和最優(yōu)位置(pci,pεi,pσi)設(shè)置為其初始適應(yīng)值和初始位置。將粒子群最優(yōu)位置(pcg,pεg,pσg)和最優(yōu)適應(yīng)值fgbesti設(shè)置為其最優(yōu)初始粒子對位置和位置。

      step4:根據(jù)式(11)、(12)對每個(gè)粒子對位置和速度進(jìn)行迭代更新。

      step5:比較每個(gè)粒子對當(dāng)前適應(yīng)值和fbesti,若當(dāng)前適應(yīng)值較優(yōu),則用當(dāng)前位置和實(shí)驗(yàn)值更新前期位置和適應(yīng)值。

      step6:為了避免模型過擬合,在訓(xùn)練集上采用k折交叉驗(yàn)證(k-CV)法獲取最優(yōu)適應(yīng)值,進(jìn)而決定整個(gè)種群的最優(yōu)粒子對。若其適應(yīng)值優(yōu)于fgbesti,那么位置(pcg,pεg,pσg)和其適應(yīng)值更新為當(dāng)前最優(yōu)位置和當(dāng)前適應(yīng)值。考慮到本文研究的樣本容量,取k=5。

      step7:如果達(dá)到停止迭代準(zhǔn)則,則獲得最優(yōu)位置(pcg,pεg,pσg)及適應(yīng)值fgbesti,否則返回step4。經(jīng)如上步驟在訓(xùn)練集上獲取SVR最優(yōu)參數(shù)集,其后在測試集上對參數(shù)優(yōu)化后的SVR實(shí)施預(yù)測驗(yàn)證。

      四、實(shí)證研究

      (一)數(shù)據(jù)來源

      上海作為中國經(jīng)濟(jì)、金融、貿(mào)易、科技創(chuàng)新等中心,是中國與世界交流的重要窗口。上海地區(qū)的商品物價(jià)指數(shù)不僅反映居民生活成本和購買力,而且關(guān)系到國家財(cái)政收支和市場供需平衡狀態(tài)。本文的被預(yù)測變量為上海市統(tǒng)計(jì)局發(fā)布的商品零售價(jià)格指數(shù),用符號yt表示,數(shù)據(jù)來源于上海市統(tǒng)計(jì)局網(wǎng)站(http:∥tjj.sh.gov.cn),時(shí)間范圍為2010年1月至2019年9月。預(yù)測變量為與上海商品零售價(jià)格指數(shù)有關(guān)的網(wǎng)絡(luò)搜索關(guān)鍵詞,數(shù)據(jù)來源于百度搜索指數(shù)(http:∥index.baidu.com),選取2010年1月至2019年9月日度CP趨勢數(shù)據(jù),加總平均整理成月度平均數(shù)據(jù)。由于網(wǎng)絡(luò)搜索數(shù)據(jù)自身存在一定噪聲,并不是所有關(guān)鍵詞均能作為預(yù)測變量,所以通過統(tǒng)計(jì)相關(guān)性分析甄別出具有良好預(yù)測性能的關(guān)鍵詞顯得尤為重要。本文將通過三個(gè)步驟選取出最終預(yù)測變量:

      1.初始網(wǎng)絡(luò)搜索關(guān)鍵詞的確定。本文運(yùn)用百度推薦與文獻(xiàn)查閱方式,分別從宏觀與微觀視角出發(fā),在財(cái)政、貨幣金融、供求、其他四個(gè)方面選取與上海商品零售價(jià)格指數(shù)有關(guān)的74個(gè)基準(zhǔn)關(guān)鍵詞,采用網(wǎng)絡(luò)爬蟲技術(shù)獲取關(guān)鍵詞對應(yīng)時(shí)序數(shù)據(jù)?;鶞?zhǔn)關(guān)鍵詞如表1所示。

      表1 初始網(wǎng)絡(luò)搜索關(guān)鍵詞詞庫

      2.潛在預(yù)測變量選取。皮爾遜交叉相關(guān)分析是基于統(tǒng)計(jì)理論的一種直觀算法,能夠識別不同滯后期時(shí)間序列間的相關(guān)影響,進(jìn)而確保獲得與上海商品零售價(jià)格指數(shù)RPI最具相關(guān)性的預(yù)測變量。取閾值為±0.6,采用皮爾遜Pearson交叉相關(guān)分析選取出六個(gè)具有潛在預(yù)測能力的關(guān)鍵詞。

      3.預(yù)測變量的確定。因?yàn)榫W(wǎng)絡(luò)關(guān)鍵詞對預(yù)測模型的邊際效應(yīng)有限,在構(gòu)建模型的輸入集時(shí),并不是所有潛在預(yù)測變量都能進(jìn)入預(yù)測模型輸入集。為獲取最佳預(yù)測變量,本文采用逐步回歸方法(Stepwise)進(jìn)行甄別和選取,通過設(shè)定顯著性水平為0.05,獲得了最佳預(yù)測能力的四個(gè)搜索關(guān)鍵詞,結(jié)果見表2。

      表2 預(yù)測變量與商品零售價(jià)格指數(shù)yt相關(guān)性分析

      (二)模型輸入集構(gòu)造

      從表2可知,上海商品零售價(jià)格指數(shù)與自身1階滯后項(xiàng)之間存在顯著的正相關(guān),相關(guān)系數(shù)高達(dá) 0.946 0,為提高模型預(yù)測性能,故yt的1階滯后被納入了預(yù)測變量;在商品交換的過程中存在稅負(fù)轉(zhuǎn)嫁,即納稅人通過提高銷售價(jià)格或壓低購進(jìn)價(jià)格的方法,將稅負(fù)轉(zhuǎn)移給消費(fèi)者或供應(yīng)者,稅負(fù)轉(zhuǎn)嫁與物價(jià)變動存在直接聯(lián)系,關(guān)鍵詞“稅收”與商品零售價(jià)格指數(shù)表現(xiàn)出顯著的正相關(guān);國際貿(mào)易波動直接影響到商品的進(jìn)出口額,進(jìn)而對國內(nèi)市場商品供需平衡造成一定的沖擊,造成地方商品價(jià)格的起伏,通過價(jià)格傳導(dǎo)于物價(jià)指數(shù),相關(guān)分析發(fā)現(xiàn),關(guān)鍵詞“國際貿(mào)易”與被預(yù)測變量存在顯著正相關(guān)性;智能互聯(lián)時(shí)代,電腦已經(jīng)成為現(xiàn)代家庭工作生活中不可或缺的物品,購買電腦支出也是生活成本支出一部分;裝修材料價(jià)格的高低影響到居民的居住成本,居住成本高低又涉及到居民生活成本,進(jìn)而對物價(jià)產(chǎn)生影響。表中顯示,關(guān)鍵詞“筆記本電腦”和“裝修材料”與RPI存在顯著的滯后相關(guān)性。

      最終預(yù)測變量為“稅收”“國際貿(mào)易”“筆記本電腦”“裝修材料”,分別用x1,t、x2,t、x3,t-1、x4,t-6表示,其滯后階數(shù)分別為0期、0期、滯后1期及滯后6期,實(shí)驗(yàn)數(shù)據(jù)集可表為:{yt-1,x1,t,x2,t,x3,t-1,x4,t-6:yt},模型的輸入集為{yt-1,x1,t,x2,t,x3,t-1,x4,t-6},yt為模型的輸出變量,樣本容量總共111個(gè)。進(jìn)一步分析可知,輸入集中采用商品零售價(jià)格指數(shù)RPI滯后一階的數(shù)據(jù)(即RPI上月數(shù)據(jù),標(biāo)記為yt-1)及搜索關(guān)鍵詞當(dāng)期及滯后期數(shù)據(jù)預(yù)測RPI當(dāng)月指數(shù)值,而官方RPI當(dāng)月數(shù)據(jù)需在下月中下旬才能獲得,顯然基于最優(yōu)模型的商品零售價(jià)格指數(shù)月度預(yù)測值比官方數(shù)據(jù)公布領(lǐng)先半月左右,其預(yù)測結(jié)果較強(qiáng)的時(shí)效性,一定程度上彌補(bǔ)了RPI數(shù)據(jù)發(fā)布滯后缺陷。

      在模型數(shù)據(jù)輸入中,為了減少異常值和輸入變量不同量級對模型預(yù)測能力的干擾和影響,對數(shù)據(jù)歸一化處理,公式如下:

      (14)

      其中,xi為變量X第i個(gè)樣本點(diǎn),xmin與xmax分別為變量X在樣本區(qū)間內(nèi)最小值及最大值。數(shù)據(jù)歸一化后其值落入[0,1]區(qū)間內(nèi)。數(shù)據(jù)歸一化處理一定程度可提升模型預(yù)測性能。預(yù)測結(jié)束后,其預(yù)測結(jié)果再通過逆變換N-1(xi)獲得對應(yīng)實(shí)際預(yù)測值。考慮到樣本容量和預(yù)測實(shí)驗(yàn)可行性,本文將實(shí)驗(yàn)數(shù)據(jù)劃分成訓(xùn)練集和測試集兩個(gè)部分,前95個(gè)數(shù)據(jù)點(diǎn)用于模型訓(xùn)練,后16個(gè)數(shù)據(jù)點(diǎn)用于預(yù)測檢驗(yàn)。

      (三)模型預(yù)測性能度量指標(biāo)

      為對比模型的預(yù)測性能,本文采用了相關(guān)系數(shù)R、平均絕對誤差比MAPE、均方根誤差RMSE三種指標(biāo)進(jìn)行模型預(yù)測性能評價(jià)。相關(guān)性能指標(biāo)定義如下:

      (15)

      (16)

      (17)

      (四)實(shí)證結(jié)果與評測

      通過比較各模型對上海商品零售價(jià)格指數(shù)預(yù)測的性能和效果,將有助于甄別和選取最優(yōu)預(yù)測模型,表3列示了不同模型在測試集上的預(yù)測值。

      表3 不同模型對上海商品零售價(jià)格指數(shù)預(yù)測結(jié)果對比

      表3所示,五種預(yù)測模型16期預(yù)測結(jié)果顯示,PSO-SVR&US、PSO-SVR、GA-SVR&US、BA-SVR&US、SVR&US最優(yōu)預(yù)測值分別為6個(gè)、3個(gè)、3個(gè)、2個(gè)和2個(gè)。預(yù)測結(jié)果直觀顯示,在上海商品零售指數(shù)預(yù)測研究中,預(yù)測結(jié)果的優(yōu)良不僅取決于網(wǎng)絡(luò)搜索數(shù)據(jù)的引入,還依賴于模型的選擇,其中參數(shù)優(yōu)化的SVR模型預(yù)測效果好于未參數(shù)優(yōu)化的SVR模型,本文所構(gòu)建的PSO-SVR&US混合模型預(yù)測效果最優(yōu)。

      然而,各模型預(yù)測性能是否存在一定的差異,我們還需要對統(tǒng)計(jì)性指標(biāo)進(jìn)行比較驗(yàn)證?;诓煌P皖A(yù)測值的三個(gè)統(tǒng)計(jì)度量指標(biāo)值如表4所示。綜合看,三個(gè)預(yù)測性能統(tǒng)計(jì)指標(biāo)結(jié)果顯示PSO-SVR&US模型預(yù)測性能最優(yōu),其次為GA-SVR&US模型,輸入集中未納入網(wǎng)絡(luò)搜索數(shù)據(jù)的PSO-SVR模型其預(yù)測性能表現(xiàn)較差。這進(jìn)一步印證了上海商品零售價(jià)格指數(shù)預(yù)測中,網(wǎng)絡(luò)搜索數(shù)據(jù)有助于商品零售價(jià)格指數(shù)的預(yù)測研究,預(yù)測效果好壞和預(yù)測精度高低還依賴于最優(yōu)模型的選取,同時(shí)參數(shù)智能優(yōu)化算法的引入提升了支持向量回歸模型的預(yù)測性能。具體而言,從各個(gè)均等系數(shù)R角度看,PSO-SVR&US模型R值最大,預(yù)測值和真實(shí)值相關(guān)性最強(qiáng),而PSO-SVR表現(xiàn)最差;對比五個(gè)模型的絕對誤差百分比MAPE,PSO-SVR&US模型的值為0.269 1%,其值最小。這說明實(shí)際值與預(yù)測值誤差程度最小,模型具有較高的預(yù)測精度。進(jìn)一步,比較統(tǒng)計(jì)性能指標(biāo)RMSE,PSO-SVR&US值為0.331 6,小于其他模型對應(yīng)值,這意味著相比于五種模型,PSO-SVR&US預(yù)測值和實(shí)際值具有最小偏差,擁有較好預(yù)測性能。

      表4 不同預(yù)測模型統(tǒng)計(jì)性能指標(biāo)對比

      在基于PSO-SVR&US混合模型上海商品零售價(jià)格指數(shù)預(yù)測研究中,根據(jù)預(yù)測流程,初始化模型參數(shù)后,結(jié)合訓(xùn)練集數(shù)據(jù)采用PSO對支持向量回歸模型進(jìn)行訓(xùn)練以獲取模型SVR最優(yōu)參數(shù)設(shè)置,隨后在測試集上使用最優(yōu)參數(shù)模型展開預(yù)測實(shí)驗(yàn)。運(yùn)用MATLAB 軟件進(jìn)行實(shí)驗(yàn),訓(xùn)練所獲得PSO-SVR&US模型最優(yōu)參數(shù)為:C=99.998,ε=0.383 3,σ=0.01。為了進(jìn)一步直觀呈現(xiàn)模型預(yù)測效果,圖1給出了訓(xùn)練后模型在樣本區(qū)間內(nèi)的擬合曲線。

      圖1中實(shí)際值和擬合值曲線趨勢特征直觀體現(xiàn)了PSO-SVR&US混合模型擁有較好的擬合效果,預(yù)測值和實(shí)際值變化趨勢較為一致,說明了所選最優(yōu)模型具有良好的預(yù)測性能。泛化能力是指機(jī)器學(xué)習(xí)方法訓(xùn)練出的模型,在訓(xùn)練集預(yù)測性能表現(xiàn)良好,同時(shí)在測試集上也表現(xiàn)出良好的預(yù)測性能,也即是指機(jī)器學(xué)習(xí)算法對新鮮樣本的適應(yīng)能力。通常采用平均絕對誤差比(MAPE%)來反映模型的預(yù)測精度,當(dāng)MAPE%<10時(shí),其預(yù)測精度較高,其值越小模型的擬合程度越高[16]。經(jīng)計(jì)算,平均絕對誤差比(MAPE%)在訓(xùn)練集與測試集上分別為 0.219 9 和 0.269 1,其值遠(yuǎn)小于10,這表明PSO-SVR&US混合模型在訓(xùn)練集和測試集上具有良好的預(yù)測性能,模型的泛化能力較好。

      圖1 訓(xùn)練集和測試集PSO-SVR&US模型擬合效果圖

      (五)穩(wěn)健性分析

      在上述上海商品零售價(jià)格指數(shù)預(yù)測研究關(guān)于最優(yōu)模型的選擇比較過程中,各模型均將實(shí)驗(yàn)數(shù)據(jù)中前95個(gè)數(shù)據(jù)劃為訓(xùn)練集,后16個(gè)數(shù)據(jù)作為測試集。但當(dāng)測試集和訓(xùn)練集樣本容量發(fā)生改變時(shí),所選擇的最優(yōu)模型是否仍然在測試集上具有良好的預(yù)測精度和預(yù)測效果是驗(yàn)證模型預(yù)測性能與模型穩(wěn)健性的依據(jù)。為了檢驗(yàn)本文構(gòu)建的混合模型穩(wěn)健性,如下改變訓(xùn)練集和測試集樣本容量,將實(shí)驗(yàn)數(shù)據(jù)前100期做為訓(xùn)練集,數(shù)據(jù)的后11期作為測試集。在測試集上不同模型預(yù)測結(jié)果和性能指標(biāo)比較分別見表5與表6。

      表中結(jié)果顯示,最優(yōu)模型PSO-SVR&US預(yù)測性能仍優(yōu)于基準(zhǔn)比較模型,從統(tǒng)計(jì)性能指標(biāo)看,MAPE(%) 和RMSE分別為0.318 2和0.370 6,表4中預(yù)測值MAPE(%) 和RMSE分別為 0.269 1 和 0.331 6,對比可看出,在訓(xùn)練集和測試集兩種不同劃分下,統(tǒng)計(jì)指標(biāo)值變差別較小,預(yù)測性能穩(wěn)定。綜上可知,關(guān)于上海商品零售價(jià)格指數(shù)RPI預(yù)測研究中,網(wǎng)絡(luò)搜索數(shù)據(jù)有助于商品零售價(jià)格指數(shù)的預(yù)測研究,并且預(yù)測效果好壞和預(yù)測精度高低還依賴于最優(yōu)模型的選取;最優(yōu)模型PSO-SVR&US模型呈現(xiàn)出良好的預(yù)測性能歸因?yàn)椋菏紫?,支持向量回歸模型SVR在解決非線性、小樣本預(yù)測問題時(shí)擁有優(yōu)良的特性。因?yàn)镾VR是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,故具有較好分類穩(wěn)定性;其次,在SVR模型參數(shù)選擇和優(yōu)化過程中,PSO具有結(jié)構(gòu)簡單、快速收斂、穩(wěn)健性等特征,較大程度上提升了SVR預(yù)測性能,保證了PSO-SVR&US模型良好泛化性。

      表5 不同模型對商品零售價(jià)格指數(shù)(RPI)預(yù)測結(jié)果對比(2018.11—2019.09)

      表6 不同預(yù)測模型統(tǒng)計(jì)性能指標(biāo)對比(預(yù)測11期)

      五、結(jié) 論

      在大數(shù)據(jù)時(shí)代背景下,廣大互聯(lián)網(wǎng)用戶利用搜索引擎獲取更多的私密咨詢,大量的搜索數(shù)據(jù)為研究者提供了更具時(shí)效、反映用戶真實(shí)意愿的信息。在一定程度上對傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)提供了必要的補(bǔ)充和完善,彌補(bǔ)了傳統(tǒng)數(shù)據(jù)獲取成本高、滯后性長等不足,為宏觀經(jīng)濟(jì)指標(biāo)趨勢預(yù)測提供了一種嶄新的視角。本文針對宏觀經(jīng)濟(jì)指標(biāo)上海商品零售價(jià)格指數(shù)非線性變化特征,結(jié)合網(wǎng)絡(luò)搜索數(shù)據(jù),引入支持向量回歸SVR多種參數(shù)優(yōu)化模型對商品零售價(jià)格指數(shù)進(jìn)行預(yù)測研究。在網(wǎng)絡(luò)搜索數(shù)據(jù)的篩選和最終預(yù)測變量確定過程中,模型輸入集中采用商品零售價(jià)格指數(shù)RPI滯后一階的數(shù)據(jù)及搜索關(guān)鍵詞當(dāng)期及滯后期數(shù)據(jù)預(yù)測RPI當(dāng)月指數(shù)值,其預(yù)測結(jié)果比官方數(shù)據(jù)公布領(lǐng)先半月左右,網(wǎng)絡(luò)搜索數(shù)據(jù)的引入使預(yù)測結(jié)果具有較強(qiáng)的時(shí)效性。在最優(yōu)模型的比較和選取中,通過預(yù)測結(jié)果性能指標(biāo)對比顯示,網(wǎng)絡(luò)搜索數(shù)據(jù)有助于商品零售價(jià)格指數(shù)的預(yù)測研究,并且預(yù)測效果好壞和預(yù)測精度高低還依賴于最優(yōu)模型的選取。同時(shí),也驗(yàn)證了PSO-SVR&US模型是一種合適的上海商品零售價(jià)格指數(shù)良好預(yù)測方法,基于最優(yōu)模型的預(yù)測值可為及時(shí)監(jiān)測商品零售價(jià)格指數(shù)變動和經(jīng)濟(jì)宏觀調(diào)控提供有價(jià)值的參考。

      猜你喜歡
      零售價(jià)格粒子變量
      2022年7月復(fù)合肥零售價(jià)格
      2022年8月復(fù)合肥零售價(jià)格
      2022年3月復(fù)合肥零售價(jià)格
      2022年1月復(fù)合肥零售價(jià)格
      抓住不變量解題
      也談分離變量
      基于粒子群優(yōu)化的橋式起重機(jī)模糊PID控制
      基于粒子群優(yōu)化極點(diǎn)配置的空燃比輸出反饋控制
      SL(3,3n)和SU(3,3n)的第一Cartan不變量
      分離變量法:常見的通性通法
      米易县| 姚安县| 康马县| 甘洛县| 遵化市| 榆树市| 邵阳市| 金秀| 达尔| 临沂市| 曲阳县| 桃江县| 彭泽县| 松桃| 石台县| 五常市| 堆龙德庆县| 隆子县| 阿尔山市| 富宁县| 鲁甸县| 昌宁县| 天台县| 张家川| 遂昌县| 图们市| 开远市| 兰考县| 鹿邑县| 保山市| 黎平县| 泸水县| 同江市| 泰兴市| 伊春市| 禄丰县| 阳原县| 海宁市| 大足县| 汕头市| 惠东县|