伴隨著宏觀經濟理論的發(fā)展,宏觀經濟預測成為實證分析的另一個重要方面,經濟模型分析應用的一個重要方面,傳統(tǒng)宏觀經濟預測方法的核心思想是通過特定的模型與方法技術發(fā)現(xiàn)統(tǒng)計數(shù)據(jù)的內在規(guī)律,并且利用這種規(guī)律預測未來。
綜合現(xiàn)有的宏觀經濟預測分析方法和應用現(xiàn)狀,宏觀預測模型主要可以分為兩種類型:基于理論驅動的結構模型和基于數(shù)據(jù)驅動的時序模型。
基于理論驅動的結構模型主要是以宏觀經濟理論為基礎,構建數(shù)理分析模型,然后“統(tǒng)計化”,形成經濟計量模型,利用統(tǒng)計數(shù)據(jù)進行參數(shù)估計,并以此分析宏觀經濟變量之間的數(shù)量關系以及對關注變量進行預測,這類模型計算過程復雜,能分析和預測領域眾多,具有很好的經濟解釋性。
基于數(shù)據(jù)驅動的時序模型主要是指不依賴任何經濟理論,純粹依靠數(shù)據(jù)的內在規(guī)律進行建模。這類模型不強調內在的經濟理論邏輯,更多關注變量本身的變化特征和在時間維度上的延續(xù)性,并利用這種數(shù)據(jù)內在的變化模式預測未來。
傳統(tǒng)的宏觀經濟預測模型,經過長期的發(fā)展、更新和改進,建模方法相對完備,無論是理論驅動建模還是數(shù)據(jù)驅動建模,在宏觀經濟預測領域都發(fā)揮著重要作用。但無論是基于經濟理論的模型還是基于數(shù)據(jù)驅動的模型都嚴重依賴經濟系統(tǒng)規(guī)律的延續(xù)性?,F(xiàn)有的宏觀經濟預測模型應用有效性基本的邏輯是通過歷史數(shù)據(jù)發(fā)現(xiàn)經濟運行的基本規(guī)律,通過歷史數(shù)據(jù)中發(fā)現(xiàn)的規(guī)律來預測未來經濟情況。
經濟運行規(guī)律在短時間內發(fā)生變化的可能性較小,但會隨著時間間隔的增加,偏離原有的經濟運行規(guī)律的可能性和程度會越來越大,因此,傳統(tǒng)宏觀經濟預測模型方法的有效性很大程度上依賴于使用的數(shù)據(jù)是否足夠“好”。但傳統(tǒng)宏觀預測分析過程中使用的統(tǒng)計數(shù)據(jù)存在較為嚴重的問題,這也是導致宏觀經濟模型預測分析存在較大“偏誤”的重要原因,也是傳統(tǒng)宏觀經濟預測分析過程中存在的根本性問題。
傳統(tǒng)的統(tǒng)計數(shù)據(jù)主要存在五個方面的缺陷。(1)滯后性。宏觀統(tǒng)計數(shù)據(jù)需要在經濟運行發(fā)生后,通過相關部門統(tǒng)計匯總,這個過程需要較長時間,一般統(tǒng)計的數(shù)據(jù)指標都是滯后一年或者滯后一個季度的數(shù)據(jù)。(2)統(tǒng)計誤差。統(tǒng)計數(shù)據(jù)需要人為搜集并匯總,這個過程人為參與程度較深,并且時間較長,過程較為復雜,很難確保整個過程準確無誤,這樣匯總性的數(shù)據(jù)一般存在較大的統(tǒng)計誤差,使用這種存在統(tǒng)計誤差的數(shù)據(jù)做預測,會進一步增大預測誤差。(3)數(shù)據(jù)獲取成本高。傳統(tǒng)數(shù)據(jù)收集過程較為復雜,需要耗費大量的人力和物力投入,數(shù)據(jù)獲取的成本相對較高。(4)樣本量較少。由于統(tǒng)計樣本和獲取數(shù)據(jù)成本是成反比的,隨著統(tǒng)計樣本量的增加,統(tǒng)計成本也會急速增加,因此,一般會在統(tǒng)計樣本和統(tǒng)計成本之間做一個平衡。例如,居民消費者價格指數(shù)(CPI)的統(tǒng)計,采用的是抽樣調查方法抽選確定調查網點,按照“定人、定點、定時”的原則,直接派人到調查網點采集原始價格,一共涵蓋了8.3萬多家價格數(shù)據(jù),但相對于全國整體的市場數(shù)量,這個樣本量不到整體的1%。(5)顆粒度不夠?,F(xiàn)有的宏觀統(tǒng)計指標相對來講,都是整體性的宏觀指標,例如,CPI指標,涵蓋了食品煙酒、衣著、居住、生活用品及服務、交通和通信、教育文化和娛樂、醫(yī)療保健、其他用品和服務等 8大類、262個基本分類的商品與服務價格,但是,這樣整體性的指標很難為分類行業(yè)的經濟決策做具體性的指導。例如,童裝價格的指數(shù)就無從知曉。
正是由于傳統(tǒng)的統(tǒng)計數(shù)據(jù)存在上述根本性問題,導致了宏觀經濟預測分析過程中,難以做出實時和有效的預測。這也是當前傳統(tǒng)宏觀經濟分析和預測存在的瓶頸性問題。
隨著科技技術進步,特別是計算機和網絡技術的飛速發(fā)展,人類社會積累的各種各樣的數(shù)據(jù)信息越來越多,形成了海量的數(shù)據(jù)信息,一般稱為“大數(shù)據(jù)”。數(shù)據(jù)已經滲透到當今每一個行業(yè)和業(yè)務領域,成為重要的生產要素。人們對大數(shù)據(jù)的挖掘和運用,預示著新一波生產力增長和消費盈余浪潮的到來。大數(shù)據(jù)的產生也對宏觀經濟預測和分析產生了重大的影響。要分析大數(shù)據(jù)在宏觀經濟預測領域的應用和發(fā)展,首先需要明確大數(shù)據(jù)概念和特點,以及與傳統(tǒng)數(shù)據(jù)的區(qū)別,才能準確有效的把握分析的方向。關于大數(shù)據(jù)的具體概念還沒有形成統(tǒng)一的觀點,可以從不同的專家和學者的定義中發(fā)現(xiàn)其特點。
綜合國內外專家和學者對“大數(shù)據(jù)”的描述和定義,發(fā)現(xiàn)能視為“大數(shù)據(jù)”的數(shù)據(jù)具有四大特點。(1)數(shù)據(jù)量巨大。傳統(tǒng)的模型方法收集和應用的數(shù)據(jù)在KB級、MB級數(shù)據(jù)量,而大數(shù)據(jù)的信息量在GB級以上,甚至是TB級、PB級、EB級別的數(shù)據(jù)信息。(2)傳統(tǒng)計算機在可接受的時間內無法處理。傳統(tǒng)計算機計算能力有限,面對巨量的數(shù)據(jù),無法有效勝任分析處理工作。(3)數(shù)據(jù)信息多樣性。傳統(tǒng)的統(tǒng)計數(shù)據(jù)一般為截面數(shù)據(jù),時間序列數(shù)據(jù)或面板數(shù)據(jù),歸結起來都是結構化的數(shù)據(jù)信息,然而大數(shù)據(jù)的數(shù)據(jù)信息擴展了范圍,包含文本、圖片、語音、視頻、網絡搜索、日志信息、URL等。(4)高價值,但價值密度低。一堆無用的,對增強認識事物的能力無幫助的數(shù)據(jù)是不能稱之為“大數(shù)據(jù)”的,高價值體現(xiàn)在“大數(shù)據(jù)”蘊含的信息能夠提供傳統(tǒng)數(shù)據(jù)不能提供的精準信息,但是,由于數(shù)據(jù)量巨大,單個樣本或數(shù)據(jù)單元提供的價值信息降低,只能通過海量的數(shù)據(jù)分析才能提取出來完整的價值信息。
以互聯(lián)網平臺積累為代表的大數(shù)據(jù)做宏觀經濟預測有其獨特的優(yōu)勢。(1)及時性。通過互聯(lián)網平臺積累起來的數(shù)據(jù),就存儲在網絡空間中,交易的數(shù)據(jù)、價格等一切信息在交易發(fā)生時,即刻在網絡中留下痕跡,可以被一定的方法和技術提取出來,用于處理和分析問題,不存在時間滯后性。(2)精準性。網絡平臺提供的數(shù)據(jù),在事件發(fā)生時按照實際的發(fā)生情況記錄信息,減少了人為的操作,提供了相對原始的數(shù)據(jù),而非人為搜集后經過處理后數(shù)據(jù)信息,因而更加準確。(3)相對低成本。由于網絡大數(shù)據(jù)均在事件或交易發(fā)生時,自動被記錄下來,無需人為調查和搜集,通過技術方法提取出來加以整理得到,能夠極大程度上降低獲取數(shù)據(jù)的成本。(4)顆粒度高。傳統(tǒng)的數(shù)據(jù)搜集過程為了降低成本,會盡量搜集總體數(shù)據(jù),而非細化的搜集數(shù)據(jù)信息。網絡大數(shù)據(jù)時代,提取總體數(shù)據(jù)信息和單獨搜集某一類別的數(shù)據(jù)的區(qū)別并不大,可以在不顯著增加成本的前提下,提供更加詳細和更加有意義的數(shù)據(jù)信息。(5)樣本量大。通過利用互聯(lián)網大數(shù)據(jù)信息,可以獲取總體或者接近全體的樣本信息,并非通過統(tǒng)計抽樣的方式來獲取樣本信息從而來推斷總體信息。在這樣的大數(shù)據(jù)支持下,用于計算的樣本量是海量的,并且能極大地接近全樣本,直接獲取最為真實而全面的統(tǒng)計指標信息。
通過上述關于大數(shù)據(jù)概念和特點的分析,可以發(fā)現(xiàn),大數(shù)據(jù)并不是對傳統(tǒng)宏觀預測模型方法的革新,而是對傳統(tǒng)模型宏觀經濟分析預測方法的補充和改進。通過對傳統(tǒng)統(tǒng)計分析方法使用數(shù)據(jù)方面的改進,從而突破傳統(tǒng)方法的根本局限,從而提高模型的預測效果和應用范圍。
傳統(tǒng)宏觀經濟預測方法經過幾十年的發(fā)展,模型多種多樣,較為全面,能對各種各樣情況下的數(shù)據(jù)結構進行分析和預測,但由于使用的數(shù)據(jù)存在種種缺點,導致無法進一步提高模型預測的效果,存在根本性的瓶頸問題。而最近發(fā)展起來的大數(shù)據(jù)以及大數(shù)據(jù)相關技術,無論是爬蟲技術,還是分布式儲存技術,亦或者是云計算等,都是圍繞大數(shù)據(jù)獲取、保存和應對超大型數(shù)據(jù)的計算問題而發(fā)展起來的技術方法,而真正能成為大數(shù)據(jù)獨有的宏觀預測模型的技術方法卻較為缺乏。并且,大數(shù)據(jù)在分析經濟問題時,更多的是采用描述性的方式,較少采用結構性的方法,缺乏經濟理論支撐。
通過大數(shù)據(jù)技術和方法,獲取及時性的數(shù)據(jù),結合傳統(tǒng)的宏觀預測和分析模型,既能有效利用經濟理論解釋經濟問題,又能通過大數(shù)據(jù)獲取的數(shù)據(jù)信息突破傳統(tǒng)統(tǒng)計數(shù)據(jù)存在的問題,有效提高宏觀經濟預測和分析的效果,為宏觀經濟預測和分析帶來新的突破。
另外,由于大數(shù)據(jù)的及時性,突破了傳統(tǒng)統(tǒng)計數(shù)據(jù)的滯后性問題,例如可以通過傳感器收集每天的全部商品交易數(shù)據(jù),直接計算當月的通貨膨脹率,這樣得到的數(shù)據(jù)會是實時的,并且是近乎全樣本數(shù)據(jù),當月數(shù)據(jù)計算當月的CPI,也就突破了利用歷史規(guī)律來預測過程中的“盧卡斯批判”引發(fā)的問題。
由于大數(shù)據(jù)的獨特性,也造成傳統(tǒng)的處理方法難以直接應對大數(shù)據(jù)的分析,需要新的技術方法來處理和分析經濟大數(shù)據(jù)。當前,利用大數(shù)據(jù)分析宏觀經濟問題已經取得一定的成果,但遠遠不夠,受到的局限較大。
傳統(tǒng)的統(tǒng)計和計量模型使用的數(shù)據(jù)是通過統(tǒng)計和調研得到的數(shù)據(jù),都是直接用于處理和分析的結構化數(shù)據(jù)信息。但是,經濟大數(shù)據(jù)信息更多的是隱藏在網絡之中,需要提取出來?,F(xiàn)有可以用作宏觀經濟預測分析的大數(shù)據(jù)獲取來源主要有三種。(1)利用百度指數(shù)和Google Trends等互聯(lián)網公司提供的數(shù)據(jù)信息。這種方式在當前的宏觀經濟問題研究中使用較多,數(shù)據(jù)獲取難度相對較小。(2)利用“網絡爬蟲”技術定制數(shù)據(jù)信息。這種方式優(yōu)勢是可以根據(jù)宏觀預測的目的有針對性地設計程序,從互聯(lián)網絕大部分網站提取需要的數(shù)據(jù)信息,不受平臺局限;缺點是技術難度較大,學習成本較高。(3)企業(yè)大數(shù)據(jù)。企業(yè)數(shù)據(jù)較為完備,并且數(shù)據(jù)質量較好,但存在一個“數(shù)據(jù)壁壘”問題?;舅衅髽I(yè)都將數(shù)據(jù)視為企業(yè)的私有資產,不公開,數(shù)據(jù)難以獲取,購買成本較高。
在宏觀經濟模型中,由于大數(shù)據(jù)價值密度低的問題,往往需要通過大數(shù)據(jù)挖掘技術,獲得足夠多的數(shù)據(jù)信息,這包括多維度上的數(shù)據(jù)信息,因而解釋變量會大大增加,因此研究中會出現(xiàn)高維數(shù)據(jù)問題,即因可得信息過多,往往會出現(xiàn)和被解釋變量相關的解釋變量數(shù)量過多,產生所謂的“維數(shù)災難”。
構成大數(shù)據(jù)信息類型來源多樣,網絡日志、音頻、圖片、URL、文本、地理位置信息等。其中大約只有10%屬于結構化數(shù)據(jù),其余90%的數(shù)據(jù)信息均是非結構化數(shù)據(jù)。宏觀經濟預測分析,離不開對非結構化數(shù)據(jù)的處理。網絡輿情信息等更多的都是文本信息,這些信息的處理均要求使用新的數(shù)據(jù)處理技術,當前這方面應用發(fā)展還較為初級。
絕大多數(shù)情況下,傳統(tǒng)的計量模型宏觀經濟預測,均假設解釋變量與被解釋變量之間呈現(xiàn)某種確定的函數(shù)關系,但通過不同渠道獲取的大數(shù)據(jù)資源,很難直接假定與宏觀經濟指標之間是確定的某種函數(shù)關系,實際過程中,大數(shù)據(jù)解釋變量和宏觀經濟變量之間只存在相關關系,不存在因果關系。這更難以利用傳統(tǒng)的計量模型來處理。
噪聲數(shù)據(jù)是指獲取的對研究目的沒有價值的信息。噪聲數(shù)據(jù)問題的存在,導致兩個方面的嚴重后果。(1)增加了成本。由于數(shù)據(jù)中大量噪聲數(shù)據(jù)的存在,增加了數(shù)據(jù)處理的過程和難度,相應的研究分析成本大幅度增加。(2)增加了研究結論的誤差。由于沒有識別出噪聲數(shù)據(jù),導致研究問題過程中將加入大量無價值數(shù)據(jù)信息,給研究結論帶來不確定性,增加了結果的誤差,導致研究結論無價值,甚至會得到錯誤的結論。
當前大數(shù)據(jù)宏觀經濟研究過程中,數(shù)據(jù)來源范圍越來越廣泛,數(shù)據(jù)的搜集手段在擴展,數(shù)據(jù)搜集能力在增強,但搜集來的大量數(shù)據(jù)并非均與研究目的直接相關聯(lián)。因此,在實際研究過程中,識別出與研究目的最相關的數(shù)據(jù)信息十分重要。當前利用大數(shù)據(jù)做宏觀經濟預測和分析的研究中,大部分直接使用Google 或百度指數(shù),對此問題的討論較少。但隨著未來相關問題研究的深入和細致,噪聲數(shù)據(jù)的處理,將會是一個探討的重點。通過一系列的技術手段,獲得網絡或者其他來源的大數(shù)據(jù)后,均會處理成結構化數(shù)據(jù)用于分析和預測。
本文通過專家學者對“大數(shù)據(jù)”概念的定義,總結出能夠定義為“大數(shù)據(jù)”信息的四個特點:數(shù)據(jù)量巨大;傳統(tǒng)計算機難以計算處理;包含非結構化數(shù)據(jù);信息密度低。在此“大數(shù)據(jù)”的特點上,宏觀經濟領域的“大數(shù)據(jù)”相對于傳統(tǒng)的調查統(tǒng)計數(shù)據(jù)做預測分析具有以下五個方面的優(yōu)勢:及時性;精準性;容易細分;數(shù)據(jù)成本相對低和樣本量巨大。
綜合截至當前學者們利用經濟“大數(shù)據(jù)”做宏觀經濟分析和預測研究成果,主要集中在失業(yè)率、通貨膨脹、社會宏觀消費、房地產市場、選舉問題、社會輿論分析以及GDP 預測等方面。當前國內在失業(yè)率、社會宏觀消費、選舉問題,以及GDP 預測方面研究較為缺乏。
雖然專家和學者已經將“大數(shù)據(jù)”廣泛應用到宏觀經濟預測分析當中,但還需在以下幾個方面進行擴展,這也是未來“大數(shù)據(jù)”在宏觀經濟預測方向發(fā)展的重要方向。現(xiàn)階段,應用“大數(shù)據(jù)”來做宏觀經濟預測和分析的研究主要是將Google Trends和百度指數(shù)等互聯(lián)網公司提供的數(shù)據(jù)來分析經濟問題。這些數(shù)據(jù)均受制于自己的平臺,例如,百度指數(shù)獲取的數(shù)據(jù)只記錄百度用戶在百度搜索引擎上進行搜索的搜索量數(shù)據(jù),這些數(shù)據(jù)信息受局限性大,而且數(shù)據(jù)相對單一。另外,占網絡數(shù)據(jù)信息量90%的非結構化數(shù)據(jù),現(xiàn)階段較少用于做宏觀經濟預測,這個是未來宏觀經濟預測數(shù)據(jù)的重要來源。應用經濟“大數(shù)據(jù)”做宏觀經濟預測時面臨的幾個方面的問題:維度災難;非結構化數(shù)據(jù);非線性關系和噪聲問題。這些問題雖然在當前存在一些解決方案和模型,但是,均無法較好地滿足宏觀經濟預測分析的要求,需要積極探索新的解決方案。