陳 普,覃盈盈
(1.華東交通大學 經(jīng)濟管理學院,江西 南昌 330013;2.中國人民銀行南寧中心支行,廣西 南寧 530028)
近年來,食品價格的波動常常引起人們的極大關注。比如,豬肉在2019年10月一度達到每千克56元,而不到2年,在2021年9月價格跌去一半多,每千克僅21元。①數(shù)據(jù)源自Wind數(shù)據(jù)庫,22省市豬肉平均價格。文章假設豬肉價格的劇烈波動與母豬存欄量的劇烈變動有著緊密聯(lián)系,并在圖1繪制了豬肉價格指數(shù)環(huán)比和母豬存欄量環(huán)比。從中可以看到,自2018年下半年開始,母豬存欄量開始趨勢性下跌,然后在2019年下半年豬肉價格環(huán)比達到一個最大峰值。然后在2020年初母豬存欄量顯著上升,1年后即2021年初開始,豬肉價格環(huán)比開始持續(xù)下行。
圖1 豬肉價格指數(shù)環(huán)比和母豬存欄量環(huán)比趨勢圖
那么如何為豬肉價格和母豬存欄量建立一個合理的模型捕捉它們間的動態(tài)關系?對于商品價格的研究,經(jīng)濟學中存在一個清晰的研究脈絡,就是下游商品價格往往敏感于上游生產(chǎn)部門的生產(chǎn)波動(楊文玉,2011;Ahmed,2018)。[1][2]為捕捉這種相關性,人們最初通常借助于經(jīng)典的協(xié)整模型進行估計,Palaskas(1995)就利用協(xié)整方法估計了歐洲7個國家農(nóng)產(chǎn)品價格在市場的動態(tài)傳播,他們的研究表明部分農(nóng)產(chǎn)品價格即便在短期內(nèi)出現(xiàn)重大變化,但長期來看,最終會回到一個均衡水平,不過仍有部分農(nóng)產(chǎn)品并未呈現(xiàn)出這種特征。[3]這可能源自標準的線性模型無法捕捉現(xiàn)實的非線性特征,簡單來說,上游產(chǎn)品與下游產(chǎn)品的價差可能會在小于均衡差距時更快擴張,但在遠離均衡差距時緩慢縮減。Cramon-Taubadel(1998)就利用一個閾值向量誤差修正模型來捕捉該特征,他發(fā)現(xiàn)豬肉的生產(chǎn)價格和批發(fā)價格在價差擠壓時更快地恢復到均衡狀態(tài)。[4]前期類似的經(jīng)典文獻還包括 Chavas和 Mehta(2004)[5]、Girapunthong(2004)[6]等發(fā)表的文章。Frey(2007)關于商品上下游的價格傳導做了一個很好的綜述[7],在其之后,為食品價格傳導建模在方法上并未有更大變化,人們更多的是轉移了研究的視角。比如Yu和Gould(2019)從非對稱食品價格建模中尋找市場競爭程度和社會福利變化的信息,白華艷和關建波(2021)從養(yǎng)殖、屠宰和零售三個環(huán)節(jié)討論豬肉價格波動的根源[8],而楊繼生和徐娟(2015)則著力討論了農(nóng)產(chǎn)品生產(chǎn)資料、生產(chǎn)價格直至批發(fā)零售時食品價格的傳遞機制,發(fā)現(xiàn)食品價格上漲主要源自貨幣及其預期主導的需求沖擊[9]。
可以看到食品價格傳導的研究中,向量誤差修正模型(VECM;Chang and Griffith,1998)[10]以及閾值向量誤差修正模型(TVECM;Abddulai,2002;Ricci et al.,2019)[11]均非常常見,因為它們有足夠的能力捕捉上游與下游產(chǎn)品間的動態(tài)關系。但這些模型一個顯著的局限,在于其受制于OLS或極大似然的參數(shù)估計方法,而不能包含太多的內(nèi)生變量。因此,在這些模型中很少能發(fā)現(xiàn)它們包含了超過7階滯后的內(nèi)生變量。例如,Cramon-Taubadel(1998)估計了一個非對稱價格傳導模型以評估德國豬肉價格的傳遞,他們的協(xié)整模型包含了5階滯后。[4]Adbdulai(2002)估計了一個類似的模型以評價瑞士的豬肉價格傳導,他們的模型包含了2階滯后。[11]Antonioli(2019)討論了意大利的傳統(tǒng)有機液體牛奶的價格傳導,他的模型是7階滯后的VECM。[12]
陳秀蘭等提出,在真實的經(jīng)濟體中,許多商品的價格傳導過程往往超過1年,如果在模型中使用月度數(shù)據(jù),滯后階數(shù)必然大于12。[13]例如,母豬存欄量影響著生豬的數(shù)目,生豬的數(shù)目又影響了豬肉的價格,因此,母豬存欄量對于豬肉價格來說是非常重要的。但很明顯,從母豬存欄量的變化傳遞到豬肉價格的變化,時間跨度往往超過12個月①母豬從懷孕到生出小豬大約5個月,從小豬到成年豬出欄需要6-8個月。整個過程大約12個月。。實際上,這一點從圖1也能直觀感受到,從母豬存欄量開始趨勢性變化,到豬肉價格環(huán)比達到峰值,大約間隔一年。因此,如果對母豬存欄量和豬肉價格進行向量自回歸(VAR)或者VECM建模,在月度數(shù)據(jù)情況下我們也許應該對每個內(nèi)生變量包含12階滯后。這就意味著對于包含2個內(nèi)生變量的VECM模型而言,需要估計12×2×2=48參數(shù)。進一步,如果我們要建立TVECM模型的話,則有48×2=96個系數(shù)需要估計。一般而言,宏觀經(jīng)濟研究中100-200個觀測值較為常見,在這樣的樣本數(shù)目下很難用TVECM模型獲得96個穩(wěn)健的估計系數(shù)。估計的參數(shù)越多,預測的表現(xiàn)越壞。同時,遺漏變量也是一個值得關注的問題。通常VECM和VAR無法包含太多內(nèi)生變量。因此,需要考慮是否存在更好的模型可以捕捉價格傳導中的動態(tài)相關,我們發(fā)現(xiàn),隨機森林模型有足夠的能力捕捉這種超長的滯后變量建模。
隨機森林是由Breiman(2001)提出的一種機器學習方法[14],機器學習是以理解數(shù)據(jù)為目的的一個龐大工具集(James et al.,2021)[15]。隨機森林作為機器學習中的一個重要工具,其可包含任意數(shù)目的解釋變量,即便解釋變量的數(shù)目超過觀測值數(shù)目。同時,該模型的預測能力能得到廣泛認可。然而,在價格傳遞的多元時序建模中,還很少有文獻使用機器學習算法建模來捕捉變量間的動態(tài)關系,文章嘗試在此方向上做出探索。首先,我們檢查了VECM、TVECM和隨機森林模型的預測表現(xiàn),發(fā)現(xiàn)隨機森林模型往往能更好地捕捉到價格傳導中的動態(tài)關系。然后,基于Koop(1996)的廣義脈沖的計算思路,重新設計了廣義脈沖的算法以適應隨機森林建模。[16]最后,利用隨機森林模型,我們計算了母豬存欄量沖擊對豬肉價格的動態(tài)影響。相對VECM或TVECM,我們發(fā)現(xiàn)隨機森林模型給出了更多有益的信息,比如不同滯后變量的重要性明顯不同、自變量在不同取值范圍下對豬肉價格沖擊的影響存在巨大差異等。因此,在理論上,文章從機器學習的角度為多變量時間序列建模提供了新的思路;在實踐上,文章的研究結果對于平抑食品價格具有重要的指導意義;特別地,文章的實證結果表明上游母豬存欄量的變化能在之后6個月對豬肉價格造成更大影響,那么及時調整上游母豬存欄量就是穩(wěn)定豬肉價格的重要手段。
文章后續(xù)結構安排如下:第二部分簡單描述了隨機森林、VECM和TVECM模型的估計步驟,然后利用模擬數(shù)據(jù)比較了這三個模型的預測精度。該部分的內(nèi)容使得我們相信隨機森林在動態(tài)建模中通常是一個更優(yōu)的選擇。盡管如此,VECM和TVECM的脈沖響應和方差分解往往有著豐富的經(jīng)濟內(nèi)涵,因此,我們基于隨機森林算法提出了廣義脈沖響應和方差分解的計算方式。第三部分是隨機森林模型的一個應用,討論了母豬存欄量沖擊對豬肉價格的影響。第四部分是全文總結。
文章主要使用隨機森林的方法對豬肉價格進行建模,為表明該方法在該研究上的適用性,將隨機森林與通常食品價格的建模方法VECM和TVECM進行了比較,并提出了廣義脈沖響應和方差分解的算法。
VECM和TVECM都是時間序列分析中非常經(jīng)典的模型。Lutkepoho(2005)和Hamilton(1994)對VECM做出了細致闡述。[17][18]Balke和Fomby(1997),Enders和Granger(1998)以及Hansen和Seo(2002)的文章則是對TVECM一個很好的參考。[19][20][21][此處,為保持內(nèi)容的完備,我們對這兩個模型進行簡單勾勒。一個VECM模型可以如下書寫,
基于Hansen and Seo(2002),一個兩體制的TVECM可以書寫如下,
其中,γ是閾值,腳標H和L分別表示模型中高低兩個體制,利用Hansen和Seo(2002)的集中似然函數(shù)算法,我們在協(xié)整系數(shù)和門檻變量(β,γ)上建立一個二維網(wǎng)格,然后最大化模型(2)的約束似然函數(shù),得到基于每個網(wǎng)格值的(β,γ)的估計值,此時,與最大的相對應的即為最終估計值,我們同時也得到了,和的最終估計系數(shù)。[21]
在機器學習中,一個樣本通常被分為兩部分:訓練集和測試集,前者用于擬合模型,后者用于測試模型的預測表現(xiàn)。在訓練集中,對于第i個觀測值是因變量,而是P維的自變量,對于任意一個觀測值,比如Xip=8,樣本可以分成兩部分。第一部分用S1表示,它滿足Xip>0.8的條件,基于S1的y的擬合值是中的平均值,記為。另一部分用S2表示,它滿足條件Xip<0.8,類似地,是S2的擬合值。通過在范圍內(nèi)逐一搜索Xip值,我們可以找到一個最佳的Xip來最小化如下函數(shù),
類似地,我們可以用相同的邏輯將S1分成S3和S4,將S2分成S5和S6。當算法滿足某些條件時我們就停止拆分,為方便起見,令Sj為終端節(jié)點。這樣,比如當Sj的樣本量小于6時即可停止分裂。這種算法被稱為回歸樹中的遞歸二元分割。然而,利用這種方式估計的模型一般都是通過擬合的:即在樣本內(nèi)擬合效果很好但在測試集中預測效果很差。因此,通常會對該模型再次進行剪枝。剪枝意味著我們不是最小化目標函數(shù)(3),而是最小化了如下函數(shù),
其中J是終端節(jié)點的數(shù)量,而α是一個懲罰參數(shù),α越小,終端節(jié)點就越多。通常情況下,α是通過交叉驗證得到的。比如,將樣本分成10份,其中1份作為測試集,其他9份作為訓練集,然后基于該測試集,可以得到模型預測結果的均方根誤差(RMSE)。其他9份訓練集也可以依次成為測試集,因此,最后的RMSE是10個RMSE的平均值。這樣,不同的值對應于不同的RMSE,而對應最小RMSE的α值就是最終的α值。
上面闡述的單個回歸樹算法,其預測性能并不令人滿意,一個有用的改進就是隨機森林算法。具體而言,是從原始數(shù)據(jù)集中有放回重復抽樣,然后為每一個抽樣樣本集擬合一個模型(或獲得一個回歸樹),將這些模型(或樹)的估計結果進行簡單平均后作為最終結果。但該算法的特殊之處在于在考慮回歸樹中每個節(jié)點的樣本時,只考慮m<p個隨機內(nèi)生變量,這就是隨機森林算法。更多算法細節(jié),請參考Hastie等(2009)。[22]
在價格傳遞機制的研究中,我們主要對變量間的動態(tài)關聯(lián)感興趣。換句話說,當上游部門發(fā)生沖擊時,我們希望有一個模型能夠準確預測下游部門的價格。在傳統(tǒng)文獻中,VECM和TVECM在捕捉這種動態(tài)相關性中有著廣泛應用。然而,隨著機器學習的普及,這一模型可以得到極大改善。為了看到這種改善的程度,我們通過生成不同的數(shù)據(jù)集,使用VECM、TVECM和隨機森林模型進行擬合,并評估這些模型的預測表現(xiàn)。一般來說,宏觀經(jīng)濟學中使用的樣本量約為200個,因此我們生成300個隨機樣本,其中第1至第200個用于擬合模型,第201至第300個用于評估模型的樣本外預測性能。模擬步驟如下:
第二步:使用VECM和基于標準估計程序的隨機森林對樣本1-200進行擬合,并使用RMSE、平均絕對誤差(MAE)和基于樣本201-300的Diebold-Mariano(DM)檢驗來計算預測性能。RMSE和MAE的計算方式分別如公式(6)和(7)所示,DM檢驗源自Diebold和Mariano(1995),DM檢驗的原假設是兩種方法的預測精度相同。
第三步:對每一組新的隨機抽樣重復步驟一和二重復1000次,并對DM檢驗的RMSE、MAP和p值進行平均。在VECM中,我們使用赤池信息準則(AIC)或貝葉斯信息準則(BIC)選擇滯后期。根據(jù)公式(5),24個滯后期是真正的滯后期,但依據(jù)AIC和BIC準則,它們在大多數(shù)情況下選擇了2階滯后。為了比較,我們也用VECM的24階滯后來擬合樣本。在隨機森林中,內(nèi)生變量的數(shù)量不受限制,所以我們選擇6、12和24階滯后來進行估計。三個模型的預測表現(xiàn)見表1的面板A。
表1 VECM與隨機森林預測性能比較
無論pf=6,12還是24,VECM的RMSE和MAE的預測性能都遠遠劣于隨機森林模型的結果。如果通過AIC選擇pv,VECM的RMSE和MAE指標都比隨機森林模型的RMSE和MAE指標高出3-4倍。此外,當pf=pv=24(即滯后階數(shù)取真實值),來自VECM的RMSE和MAE更高,因為估計的參數(shù)更多。此外,DM檢驗的p值總是在1%的水平上顯著。
在許多宏觀時間序列分析中,滯后期通常在6期以內(nèi),因此,我們再次在一個有著較短滯后期的真實模型中,重新觀察三個模型的預測表現(xiàn)。具體來說,c,α,β和εt與上述步驟1相同,但p=6和Φj的情況如下:
在不同的參數(shù)設置下重復步驟1-3,VECM和隨機森林模型的預測性能顯示在表1的面板B。我們觀察到,VECM的RMSE和MAE大約是隨機森林模型的2-3倍。盡管VECM和隨機森林模型的RMSE(或MAE)之比很小,但VECM的預測精度仍然遠遠低于隨機森林模型??偟膩碚f,如果真實模型有較長的滯后階數(shù),VECM的性能會更差①當修改一些其他參數(shù)時,基準結果并沒有改變。。
同時,我們也比較了TVECM和隨機森林的預測表現(xiàn)。我們用TVECM來生成數(shù)據(jù),真實模型的參數(shù)設置為在模型有著較長滯后時(模擬的預測表現(xiàn)見表2的面板B),令Φj取值如下,
表2 TVECM與隨機森林預測性能比較
我們還分析了不同參數(shù)集的模型,但由于基本特征沒有變化,所以結果省略。
盡管我們是用真實的TVECM來生成數(shù)據(jù),但即便基于該模擬數(shù)據(jù),隨機森林模型的性能仍然更優(yōu)。我們注意到,當估計模型的滯后期等于真實滯后期時,TVECM的預測性能(表2的面板A和B的最后兩行)比由AIC選擇估計模型的滯后期時要差。原因是真實滯后期比TVECM中AIC選擇的滯后期要長。一般來說,在傳統(tǒng)計量經(jīng)濟學模型中,當樣本量固定時,參數(shù)越多,估計精度越差。然而,隨機森林模型的預測性能并沒有受到滯后期的實質性影響。因此,我們發(fā)現(xiàn),隨機森林模型在預測精度方面遠遠優(yōu)于VECM和TVECM。一般來說,當滯后期較長時,隨機森林的預測性能會得到有效改善。
因此,我們認為,在諸多利用VECM或者TVECM建模的領域,使用隨機森林是一個更好的建模選項。考慮到VECM和TVECM可以計算有著豐富經(jīng)濟含義的脈沖響應和方差分解,我們在下一節(jié)給出如何利用隨機森林計算相應的脈沖響應和方差分解。
脈沖響應具有豐富的經(jīng)濟含義。在宏觀經(jīng)濟學中,脈沖響應通常被用來進行結構沖擊分析,乘數(shù)效應分析,以及研究宏觀經(jīng)濟變量的動態(tài)變化。在價格傳導建模中,它也被用來顯示上游變量的沖擊對下游變量的影響。然而,由于隨機森林是非參數(shù)化的,脈沖響應不能通過經(jīng)典的算法得到(Lutkepohl,2005)。在這里,我們闡述了一種基于隨機森林的新的廣義脈沖響應算法。一個捕捉y(tǒng)1和y2之間動態(tài)相關關系的隨機森林模型可以寫成如下:
其中f是隨機森林模型。按照Koop等人(1996)對廣義脈沖響應(GIR)的定義,GIRy1衡量的是作用于y1的沖擊對y2的影響,—即對y1的沖擊導致下一期y2的變化。[17]它可以按以下方式計算:
第三步:用與第二步相同的殘差對估計模型進行h期模擬,其中第一個殘差用ε11+δ代替。重復1000次,得到對應于沖擊δ的條件期望值。
第四步:重復第二步和第三步,用ε12+δ替換第一個殘差。
第五步:重復第四步,獲得基準和沖擊條件期望的脈沖響應T,對每個時期進行平均,取兩個樣本平均數(shù)之差,得到GIR。
從上述步驟中,我們可以得到兩個平均數(shù)。第一個是在步驟二和三中,對于任何對1000次模擬的結果進行平均化。第二個是在步驟四和五中,基于所有εt的平均結果T再次被平均化。
一旦得到GIR,按照Lanne和Nyberg(2016)的做法,可以將h期的廣義預測方差分解寫成如下:
公式(10)表示來自沖擊δ1的y1的GFEVD,它是來自沖擊δ1的y1的GIR在所有沖擊的y1的GIR中的百分比。[24]
2019年7月至2021年9月,中國豬肉價格從高峰跌到了低谷,這種大起大落已經(jīng)引起了學術界和政府部門的廣泛關注。理論上,從母豬存欄量沖擊到豬肉價格波動,這種傳導需要近1年時間。如果使用月度數(shù)據(jù),動態(tài)模型需要包括12個滯后期。對于這么長的滯后期,正如前文所述,使用隨機森林模型是理想的。
消費價格指數(shù)包含許多子類別,豬肉價格指數(shù)就是其中之一。我們以豬肉價格指數(shù)的環(huán)比(以下簡稱PI)為因變量,以滯后的PI、母豬存欄量的環(huán)比(以下簡稱SS)及其滯后值為內(nèi)生變量。頻率為月度,所有數(shù)據(jù)均來自Wind數(shù)據(jù)庫。因為PI數(shù)據(jù)的起始日期是2009年2月,所以樣本的時間范圍為2009年2月至2021年11月,樣本量為151,描述性統(tǒng)計見表3。PI的平均值為正,標準差為0.04,而SS的平均值為負,其標準差更小。
表3 描述性統(tǒng)計
研究利用PI和SS數(shù)據(jù),比較VECM和隨機森林的預測性能并按照以下步驟建立VECM模型。第一,對豬肉價格指數(shù)和母豬存欄量以2010年12月為1的定基比數(shù)據(jù)(以下分別稱為RFPI和RFSS)進行單位根檢驗,結果見表4,其中RFPI和RFSS都是一階單整時間序列。然后進行Johansen協(xié)整檢驗,結果見表5,因為當秩為2時,其跡統(tǒng)計量小于5%的臨界值,無法拒絕原假設——有一個協(xié)整關系,因此,認為RFPI和RFSS之間存在一個協(xié)整關系。最后,進行Hansen和Seo(2002)的非線性協(xié)整檢驗:檢驗的統(tǒng)計量為12.61,在10%的水平上不顯著。綜上,傳統(tǒng)的時序建模步驟表明,線性VECM是合適的。
表4 單位根檢驗(Dickey-Fuller檢驗)
表5 約翰森協(xié)整檢驗
為將傳統(tǒng)時序建模與隨機森林建模再次進行比較,我們再次對該數(shù)據(jù)進行了隨機森林建模。鑒于豬肉價格傳導的時間,而隨機森林可以納入任意多的滯后,因此建模時選擇了2年的滯后期(24個月)①研究還嘗試了其他滯后期的模型,最后發(fā)現(xiàn)滯后期為24的模型具有最好的預測性能。。根據(jù)方程(9),我們將PI和SS的24階滯后作為內(nèi)生變量。因此,我們的模型中包含了72個內(nèi)生變量。顯然,基于151個樣本,VAR和VECM模型均不能處理如此多的內(nèi)生變量。此外,在建立模型時,生成了2000棵樹,在每個分割節(jié)點中考慮了18個內(nèi)生變量。需要注意的是,模型中使用的是PI和SS,而不是RFPI和 RFSS②在評估VECM的預測性能時,將定基比又轉化為環(huán)比。。
研究使用滾動窗口來比較VECM和隨機森林的預測性能。具體來說,首先用第1至第127個觀測值作為訓練集來估計模型參數(shù)并訓練模型,用最后24個觀測值(即最近兩年的觀測值)作為測試集來評估超前1步至超前12步的預測表現(xiàn)。其次,我們將第2至第128個觀測值作為訓練集,將第129至第151個觀測值作為測試集,再次得到1至12步超前預測的預測性能。通過向前滾動,可以得到對應超前步數(shù)的預測表現(xiàn)的一個合集。最后,將所有的預測性能按預測的超前步數(shù)進行分組,然后計算出組平均預測性能,這些預測結果展示在圖2中。圓圈代表的是VECM的預測表現(xiàn),三角形代表的是隨機森林的預測表現(xiàn),上圖是RMSE,下圖是MAE,圖中的數(shù)字是DM檢驗的p值。可以看到,無論使用那個預測指標,隨機森林模型的RMSE或MAE總是小于VECM方法的RMSE或MAE,而且這種差異均非常顯著。因此,基于PI和SS數(shù)據(jù),隨機森林方法優(yōu)于VECM。在下一節(jié)中,研究將計算基于隨機森林方法的廣義脈沖響應和廣義預測誤差方差分解。
圖2 VECM和隨機森林的預測表現(xiàn)
GIR衡量一個變量對另一個變量沖擊下的動態(tài)響應。由于GIR取決于沖擊的大小和方向以及變量的歷史取值,按照前文的步驟,我們在圖3中畫出了六個不同大小和方向的GIR,所有這些都是基于樣本中的最后一個時期。為了計算GIR,我們進行了多次模擬。實線是中位數(shù),虛線是90%的置信區(qū)間。圖3第一行的兩張圖片顯示了SS受到的沖擊(=±0.01)對PI的影響,SS的標準差約為0.01;第二行的圖像顯示SS的沖擊=±0.02;第三行的圖像顯示SS的沖擊=±0.04。
圖3中有兩個結論值得注意。第一,SS的正向沖擊對PI的影響與負向沖擊的影響存在很大差異。當沖擊=±0.01時,這一點非常明顯,負沖擊的峰值效應是正沖擊的四倍。當沖擊=±0.02時,負沖擊的峰值效應約為1.2倍。當沖擊=±0.04時,正沖擊的效應呈倒駝峰狀,負沖擊的效應呈單峰狀,絕對峰值大小大致相等。第二,當沖擊加倍時,峰值效應不會加倍。當沖擊從0.01變化到0.02時,峰值效應增加了三倍。然而,當沖擊從-0.01變?yōu)?0.02或從-0.02變?yōu)?0.04時,峰值效應變化很小或根本沒有變化。這意味著PI對SS的負面沖擊的大小變化不是很敏感。正如我們在圖6中觀察到的,PI在SS的大多數(shù)數(shù)值范圍內(nèi)變化不大。然而,在SS的某些數(shù)值范圍內(nèi),PI變化很快,這意味著對SS的沖擊對PI可能有一個閾值效應。
圖3 SS的不同沖擊對PI的影響
為了探索PI的波動來源,我們根據(jù)方程(10)計算廣義預測誤差方差分解,結果見圖4。圖中第一行的沖擊幅度為0.01,第二行和第三行的沖擊幅度分別為0.02和0.04。無論沖擊的幅度是多少,PI的波動主要來自于SS。當沖擊為正(負)時,沖擊越大,PI的波動越大(?。?。
圖 4 PI的GFEVD
在圖1中觀察到PI和SS的變化在大多數(shù)時候是溫和的,而在2019年8月之后,它們的波動都很極端。研究推測,SS對PI可能存在一些閾值效應。在隨機森林模型中,研究包括SS和PI的24階滯后。這個模型是非參數(shù)性的,在有限的空間內(nèi)討論SS的每個滯后期對PI的閾值效應是很困難的。因此,研究首先嘗試找到一些對PI影響較大的SS的重要滯后期,然后用Friedman(2001)的方法計算SS的重要滯后期對PI的偏效應。[25]通過繪制SS對PI的偏效應,我們可以發(fā)現(xiàn)一些有趣的閾值特征。
隨機森林是高度非線性的,所以不能像OLS那樣獲得系數(shù)以定義內(nèi)生變量的重要性。然而,在本研究的模型中,每棵樹都有自己的袋外RMSE,對于PI,2000棵樹的平均RMSE是0.032,是PI標準差的75%。對于SS來說,2000棵樹的平均RMSE是0.010,是SS標準差的60%。隨著更多的內(nèi)生變量被添加到模型中,RSS會下降:它下降得越多,相應的內(nèi)生變量就越重要。圖5顯示了內(nèi)生變量的重要性,即SS對因變量PI的滯后期哪個更多地影響了豬肉價格PI。
圖5 內(nèi)生變量的重要性
從圖5中可以發(fā)現(xiàn)SS的前面6個月滯后期,以及第21、22個月滯后期均有著相對較大的影響,這也意味著傳導時間超過1年,與從母豬存欄量到豬肉價格的理論傳導機制一致。我們選擇了2、6兩個滯后期來計算其對PI的偏效應。Friedman(2001)提出了以下公式來估計內(nèi)生變量的偏效應:
其中f是一個函數(shù),如隨機森林模型;x是一個我們感興趣的內(nèi)生變量;而xic是模型中的其他內(nèi)生變量。
圖6顯示了根據(jù)公式(11),SS的2和6階滯后對PI的偏效應。在圖中的每個子中都可以看到一個PI劇烈變化閾值區(qū)間,即當SS的滯后期接近該閾值區(qū)間時,PI變化很大,但它在其他區(qū)域表現(xiàn)的變化較小。當滯后期為2時,SS的閾值接近于-4.5%,當滯后期為6時,閾值接近于-2%。這意味著,在這個區(qū)間,SS的微小變化會帶來PI的巨大變化。比如對于滯后兩期的SS,在當其增速從-4.5%左右減緩到-4%左右,即增速在這個區(qū)間減緩約0.5%時,PI從2%下降到了0.5%。但若在-1%處減緩0.5%,PI幾乎沒有變化。另外值得指出的是,理論上,SS的沖擊需要一年多的時間才能影響到PI,但滯后1-6期的SS卻有著重要影響,研究認為預期在這里起著重要作用。譬如,當SS有非常明顯的變化時,中間商就會出現(xiàn)對未來豬肉價格的擔憂,從而迅速引起豬肉價格的改變。
圖 6 SS的2、6和15階滯后對PI的偏效應
在食品價格傳導建模中,如果上游部門變量對下游部門變量沖擊的影響有著較長的滯后,那么通常的VECM或者TVECM建模往往很難準確捕捉到這兩個變量間的動態(tài)關系。文章提出用機器學習的隨機森林算法可以良好地解決該問題。
第一,通過在多種模型設定中,利用蒙特卡洛模擬,比較了VECM和TVECM與隨機森林模型的預測性能,發(fā)現(xiàn)在任何情況下,隨機森林模型的預測精度均更優(yōu)。因此,可以認為在利用VECM進行長滯后的建模中,隨機森林模型應該更加合適。第二,為了進一步拓展隨機森林模型在經(jīng)濟研究中的應用,研究提出了基于該模型的廣義脈沖響應和廣義誤差方差分解。第三,利用隨機森林模型,研究評估了中國市場上從母豬存欄量到豬肉價格的價格傳導。據(jù)此,我們觀察到GIR的一些不對稱特征:正向沖擊的峰值效應的絕對值遠遠低于負向沖擊;然而,當沖擊加倍時,峰值效應并沒有加倍。因此,監(jiān)管機構應密切關注負向沖擊。此外,我們還發(fā)現(xiàn),母豬存欄量的前面1至6階滯后對PI有重要影響,而且存在閾值效應,一旦SS接近這些閾值,PI通常有著劇烈的波動。
基于文章的研究結論,為保障未來豬肉價格的平穩(wěn)運行,第一,穩(wěn)定豬肉價格可以從上游源頭入手?,F(xiàn)實生活中人們往往可以直觀感受到豬肉價格的變化,卻并不敏感其上游影響因素的變化。而文章的結論表明,母豬存欄量對豬肉價格變化具有明顯的沖擊效應,存在通暢的“一榮俱榮、一損俱損”的動態(tài)傳導路徑。因此,當豬肉價格按照不利方向發(fā)生變動時,一個有效的策略就是激勵上游母豬存欄的反向變動,以此平抑價格波動。第二,應特別關注母豬存欄量的負向變化。文章結論表明豬肉價格在滯后半年的時間里對母豬存欄量的下跌表現(xiàn)出更強的上漲效應,而對母豬存欄量增加則豬肉價格的下跌卻相對較弱。因此,在政策上應更多關注母豬存欄量下跌,采取多元化養(yǎng)殖、建立完善的儲備制度避免出現(xiàn)大的跌幅。同時,也要注意到,如果豬肉價格下跌,為恢復至均衡水平,那么向下調整母豬存欄量的作用將會非常顯著。第三,設立豬肉價格的預警指標體系,為豬肉價格穩(wěn)定做好提前量。母豬存欄量的跌幅存在一些重要的門檻值,而這些門檻值即為重要的預警指標,在達到該指標之前,母豬存欄量的變化都是正常的,豬肉市場的價格不會經(jīng)歷太多波動,而一旦突破則可能會引起市場較大的波幅。因此,可以建立相應的市場價格風險預警指標,一旦發(fā)現(xiàn)母豬存欄量出現(xiàn)預警信號,要根據(jù)其形成原因和過程,制定相應的風險管理策略,進一步降低其危害程度。