李倩 周迪 李麗
摘要:大數(shù)據(jù)時代的到來,給政府統(tǒng)計工作帶來前所未有的歷史機遇和重要挑戰(zhàn),作為其中之一的消費價格指數(shù)(CPI)編制可謂首當(dāng)其沖,實現(xiàn)CPI與時代接軌已成為當(dāng)務(wù)之急。本文主要研究利用網(wǎng)絡(luò)價格信息改進CPI編制問題。在借鑒國際經(jīng)驗的基礎(chǔ)上,首先是探討如何對網(wǎng)絡(luò)價格數(shù)據(jù)進行收集與整理,包括零售商網(wǎng)站的選取、網(wǎng)絡(luò)價格數(shù)據(jù)收集方法、網(wǎng)絡(luò)價格數(shù)據(jù)的收集過程及數(shù)據(jù)整理;其次是分析基于網(wǎng)絡(luò)數(shù)據(jù)的價格指數(shù)編制面臨的挑戰(zhàn);接著介紹單獨基于網(wǎng)絡(luò)抓取數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)納入傳統(tǒng)CPI統(tǒng)計范圍的價格指數(shù)編制方法;然后總結(jié)基于網(wǎng)絡(luò)數(shù)據(jù)的價格指數(shù)的相關(guān)實證結(jié)果;最后是研究展望。本文研究為我國國家統(tǒng)計局推進網(wǎng)絡(luò)價格在CPI統(tǒng)計中的應(yīng)用提供一些參考。
關(guān)鍵詞:爬蟲技術(shù);網(wǎng)絡(luò)價格數(shù)據(jù);CPI;國際經(jīng)驗
中圖分類號:C813
一、引言
消費價格指數(shù)(CPI)是衡量經(jīng)濟發(fā)展的重要指標,自1925年以來,CPI編制的國家標準不斷更新。2004年國際組織編制的《消費物價指數(shù)手冊:理論與實踐》從理論上對CPI進行了全面闡釋,成為各國統(tǒng)計機構(gòu)編制CPI的重要指導(dǎo)手冊。但從實際應(yīng)用過程看,還需針對不同國家的具體情況給出具有實務(wù)性的操作指導(dǎo),為此國際組織于2009年聯(lián)合頒布了《CPI編制實用指南》,該指南主要側(cè)重實際問題的解決,是對《消費物價指數(shù)手冊:理論與實踐》的補充。為了更好地滿足國民經(jīng)濟核算要求,中國國家統(tǒng)計局于2000年開始啟用與國際接軌的CPI編制方法,但中國 CPI的編制要求與國際規(guī)范相比仍存在較大差距。
大數(shù)據(jù)時代的到來,給政府統(tǒng)計工作帶來前所未有的歷史機遇和重要挑戰(zhàn),作為其中之一的CPI編制可謂首當(dāng)其沖,實現(xiàn)CPI與時代接軌已成為當(dāng)務(wù)之急。有些國家已將收集的網(wǎng)絡(luò)價格納入官方CPI統(tǒng)計中,如2014年瑞典CPI中家用電子設(shè)備有17%的價格數(shù)據(jù)來自于網(wǎng)絡(luò),服裝和鞋類為10%,圖書和媒體為38%,交通服務(wù)費有很大比例來源于網(wǎng)絡(luò);美國CPI的9%是通過網(wǎng)絡(luò)價格計算的;加拿大CPI的5%~10%是通過手工收集網(wǎng)絡(luò)價格計算的;挪威CPI的18%是通過軟件收集網(wǎng)絡(luò)價格計算的;荷蘭CPI中納入了服裝類網(wǎng)絡(luò)價格等。此外,英國等國家網(wǎng)絡(luò)價格數(shù)據(jù)正處于試驗研究階段,尚未正式納入 CPI 編制過程中,單獨編制基于網(wǎng)絡(luò)抓取數(shù)據(jù)的CPI,試驗范圍僅限于部分商品。為推進我國網(wǎng)絡(luò)價格在CPI統(tǒng)計中的應(yīng)用,2013年11月國家統(tǒng)計局與阿里巴巴、百度等11家企業(yè)簽署了大數(shù)據(jù)戰(zhàn)略合作框架協(xié)議;2015年1月國家統(tǒng)計局沈陽調(diào)查總隊積極參與沈陽地區(qū)電視機、洗衣機、電腦和手機商品網(wǎng)購價格的調(diào)查及環(huán)比指數(shù)的測算試點工作;2015年以來,北京調(diào)查總隊積極探索在CPI統(tǒng)計中通過人工定期瀏覽電商網(wǎng)站等方式開展網(wǎng)絡(luò)采價;2015年浙江省針對電視機、空調(diào)、熱水器、電腦、手機等商品在蘇寧易購、京東商城等網(wǎng)絡(luò)銷售平臺中進行互聯(lián)網(wǎng)人工采價試點工作。越來越多的網(wǎng)絡(luò)公司或研究機構(gòu)利用網(wǎng)絡(luò)數(shù)據(jù)即時生產(chǎn)、發(fā)布類似的指數(shù),如麻省理工學(xué)院計算的每日網(wǎng)上價格指數(shù)、阿里研究院推出的阿里巴巴全網(wǎng)網(wǎng)購價格指數(shù)(aSPI)和網(wǎng)購核心商品價格指數(shù)(aSPI-core)、清華大學(xué)項目團隊編制并實時發(fā)布的基于互聯(lián)網(wǎng)在線數(shù)據(jù)的居民消費價格指數(shù)(iCPI)等。
我國統(tǒng)計學(xué)界較早關(guān)注的是如何利用掃描數(shù)據(jù)改進CPI編制。關(guān)于利用網(wǎng)絡(luò)價格改進CPI編制的研究還很少,只有少部分學(xué)者進行了相關(guān)方面的研究,例如基于CPI統(tǒng)計方法的研究和基于CPI編制、公布及數(shù)據(jù)質(zhì)量的相關(guān)研究。在借鑒國際經(jīng)驗的基礎(chǔ)上,本文的結(jié)構(gòu)安排如下:首先是網(wǎng)絡(luò)價格數(shù)據(jù)的收集與整理研究;其次是基于網(wǎng)絡(luò)數(shù)據(jù)的價格指數(shù)編制面臨的挑戰(zhàn)分析;然后是基于網(wǎng)絡(luò)數(shù)據(jù)的價格指數(shù)編制方法和相關(guān)實證結(jié)果梳理;最后是研究展望。本文的研究價值在于可以為我國國家統(tǒng)計局推進網(wǎng)絡(luò)價格在CPI統(tǒng)計中的應(yīng)用提供參考。
二、網(wǎng)絡(luò)價格數(shù)據(jù)的收集與整理
零售商數(shù)量很多,既包括只在線上銷售的純在線零售商(如eBay、亞馬遜等),又包括線上線下均銷售的多渠道零售商(如沃爾瑪、蘇寧易購等)。雖然網(wǎng)上購物越來越受歡迎,但網(wǎng)上購物者并不一定代表典型的消費者,同樣網(wǎng)絡(luò)上的價格可能與實體店價格不同。在收集網(wǎng)絡(luò)價格數(shù)據(jù)時怎么選取代表性零售商網(wǎng)站?怎么收集零售商網(wǎng)站上的網(wǎng)絡(luò)價格數(shù)據(jù)?對收集的網(wǎng)絡(luò)價格數(shù)據(jù)怎么整理?這是本部分主要討論的內(nèi)容。
(一)網(wǎng)絡(luò)價格數(shù)據(jù)的收集
1. 零售商網(wǎng)站的選取
通常從市場份額排名靠前的零售商網(wǎng)站上收集網(wǎng)絡(luò)價格數(shù)據(jù),這類零售商集中了絕大多數(shù)的零售交易,成為“代表性”的數(shù)據(jù)來源。Alberto Cavallo(2017)對10個國家56家大型多渠道零售商的網(wǎng)站和實體店同時收集的價格進行大規(guī)模比較,選取的零售商都進入了各自國家市場份額排名前20位的零售商名單。余芳東(2018)總結(jié)了利用網(wǎng)絡(luò)抓取數(shù)據(jù)編制CPI的實踐做法,其中荷蘭統(tǒng)計局選擇網(wǎng)上銷售量大、線上和線下均有交易的服裝零售商店網(wǎng)站作為抓取價格數(shù)據(jù)的目標網(wǎng)站,挪威統(tǒng)計局每日從在挪威注冊且銷售規(guī)模大的4家在線商店上自動抓取價格數(shù)據(jù)和相關(guān)信息,英國統(tǒng)計局每天從占市場銷售比重較大的3個超市網(wǎng)站(特易購、森斯伯瑞、維特羅斯)抓取CPI采價目錄中食品、非酒精飲料、酒精飲料三類35種食品價格數(shù)據(jù)。
2. 網(wǎng)絡(luò)價格數(shù)據(jù)收集方法
大數(shù)據(jù)處理過程主要包括收集、預(yù)處理、存儲及管理、分析及挖掘、展現(xiàn)和應(yīng)用,目前大數(shù)據(jù)應(yīng)用領(lǐng)域比較典型的有商業(yè)智能、公共服務(wù)、政府決策等領(lǐng)域。
目前主要有兩種方式收集網(wǎng)絡(luò)價格信息,一種是人工收集網(wǎng)絡(luò)代表規(guī)格品價格,另一種是網(wǎng)絡(luò)爬蟲技術(shù)自動收集海量價格數(shù)據(jù)。人工收集方式中調(diào)查員通常從網(wǎng)站上反復(fù)復(fù)制粘貼各代表規(guī)格品的價格相關(guān)信息,并截取圖片以保證收集信息的真實、可靠。這種收集方式較為煩瑣,費時費力,容易出現(xiàn)人為差錯。
網(wǎng)絡(luò)爬蟲技術(shù)是指從網(wǎng)上自動提取數(shù)據(jù)的技術(shù),包括腳本編寫方法和“點擊”方法。腳本編寫方法要求研究人員具有使用Python和PHP等語言編程的能力,網(wǎng)絡(luò)爬蟲程序根據(jù)預(yù)先定義的條件,系統(tǒng)地下載從起點到達的所有網(wǎng)絡(luò)資源。“點擊”方法(如?Import.io)需要較少的編程技能,用戶可以簡單地用鼠標告訴“爬蟲器”他們想從網(wǎng)頁上收集的信息,爬蟲程序遍歷網(wǎng)絡(luò)站點,并從與我們設(shè)置的參數(shù)類似的頁面中提取信息,將數(shù)據(jù)結(jié)構(gòu)化為行和列,并存儲在云服務(wù)器上,以便下載和加載。然后將數(shù)據(jù)加載到合適的軟件中進行分析、計算和存儲,每天同一時間自動收集數(shù)據(jù)。與開源腳本語言相比,這些工具是“閉源”的,能夠使用戶得到更好的支持,更加依賴提供工具的公司,靈活性較差。網(wǎng)絡(luò)爬蟲技術(shù)能及時的、低成本地收集大量數(shù)據(jù),但不如人工收集嚴格,很難控制收集的準確性,面臨標簽挑戰(zhàn)。從互聯(lián)網(wǎng)上自動提取數(shù)據(jù)是為統(tǒng)計目的收集價格的新方法,為了利用這些數(shù)據(jù)有必要解決各種問題,首先是網(wǎng)站結(jié)構(gòu)變化頻繁問題,每個網(wǎng)站使用不同方式存儲信息,當(dāng)網(wǎng)站結(jié)構(gòu)發(fā)生變化時需要對相應(yīng)的網(wǎng)絡(luò)爬蟲重新編程;其次是從網(wǎng)站中頻繁提取大量數(shù)據(jù)的合法性問題,這取決于抓取的數(shù)據(jù)類型、訪問和復(fù)制的信息量、訪問對頁面所有者的系統(tǒng)和數(shù)據(jù)的負面影響程度;在某些情況下,網(wǎng)站管理員還可能在網(wǎng)站上設(shè)置屏蔽機制,以阻止使用網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲技術(shù)在解析頁面復(fù)雜、網(wǎng)站改版頻繁、網(wǎng)絡(luò)阻塞等情況下存在一定的局限性。
在價格收集過程中不同國家使用不同的爬蟲技術(shù),如德國和意大利將web抓取軟件(iMacros)與java編程結(jié)合起來,輸入、選擇、刪除和存儲價格數(shù)據(jù);荷蘭使用r軟件建立自己的網(wǎng)頁抓取框架;英國使用Python軟件編寫自己的網(wǎng)頁抓取程序。
3. 網(wǎng)絡(luò)價格數(shù)據(jù)的收集過程
針對不同的研究目的,研究人員收集不同的網(wǎng)絡(luò)價格數(shù)據(jù)。
為了研究基于網(wǎng)絡(luò)抓取數(shù)據(jù)的CPI,Radzikowski和Mietanka(2016)主要從比價網(wǎng)站上收集了3000多個銷售點的價格數(shù)據(jù),有些數(shù)據(jù)是實時更新的,有些是定期更新的(至少每月更新一次),有些數(shù)據(jù)僅在某些商品價格發(fā)生變化時更新(如宣布新電價時);從比價網(wǎng)站上收集的數(shù)據(jù)能確保在線CPI不受某一零售商及其定價策略的影響,考慮了動態(tài)變化的市場環(huán)境,對于不在比價網(wǎng)站上列出的代表品,從其專門網(wǎng)站(如石油價格行業(yè)門戶網(wǎng)站)上收集。英國統(tǒng)計局從2014年6月到2015年6月每天上午5點從占市場銷售比重較大的特易購、森斯伯瑞、維特羅斯3個超市網(wǎng)站上抓取食品、非酒精飲料、酒精飲料三類35種食品價格數(shù)據(jù),根據(jù)超市網(wǎng)站上展示的商品數(shù)量,每天收集約6500筆價格數(shù)據(jù),數(shù)據(jù)量遠大于傳統(tǒng)的價格數(shù)據(jù)收集量。
為了比較網(wǎng)站價格與實體店價格的相似性,Alberto Cavallo(2017)從2014年12月至2016年3月在全球56家多渠道零售商共收集24000多個產(chǎn)品的38000個線上線下可匹配價格,數(shù)據(jù)覆蓋范圍主要集中在美國,有17家零售商和大約40%的觀察結(jié)果,但在中國的數(shù)據(jù)只有兩家零售商。
Hull等(2017)總結(jié)了瑞典為了調(diào)查網(wǎng)上銷售的水果和蔬菜價格能否提高短期通脹預(yù)測的準確性開展的一項小規(guī)模試點研究。該研究創(chuàng)建了一個自動在線數(shù)據(jù)收集流程,每天從瑞典零售商收集一些選定的水果和蔬菜的在線價格數(shù)據(jù)。所有數(shù)據(jù)收集任務(wù)都在Linux虛擬專用服務(wù)器(VPS)上執(zhí)行,服務(wù)器每天按順序執(zhí)行三個腳本,第一個腳本訪問4家大型雜貨零售商的網(wǎng)站,從所有與水果和蔬菜相關(guān)的頁面中提取代碼,然后在代碼中標識所有產(chǎn)品價格和名稱,并保存在.csv文件中,原始代碼也以.txt格式保存90天,以便糾正以后發(fā)現(xiàn)的錯誤,然后該腳本使用正則表達式過濾數(shù)據(jù),創(chuàng)建只包含目標水果和蔬菜的第二個.csv文件。爬取完數(shù)據(jù)后,服務(wù)器執(zhí)行第二個腳本,將過濾后的數(shù)據(jù)與過去的數(shù)據(jù)合并。最后,服務(wù)器執(zhí)行第三個腳本,檢查錯誤。Powell等(2018)使用兩個數(shù)據(jù)集探究更頻繁的月度綜合CPI預(yù)測目標實現(xiàn)情況,第一個數(shù)據(jù)集包括英國3家大型超市網(wǎng)站的33種商品類別的每日網(wǎng)絡(luò)價格,歷時約14個月;第二個數(shù)據(jù)集包含了相同產(chǎn)品類別的分類CPI值,以及對綜合CPI有貢獻的更多數(shù)據(jù)。
為了探索網(wǎng)絡(luò)價格納入CPI統(tǒng)計,荷蘭統(tǒng)計局每日抓取3家服裝零售商網(wǎng)站的服裝類價格數(shù)據(jù),從每個網(wǎng)站上抓取的數(shù)據(jù)框架至少包括商店網(wǎng)址、商品類型、商品具體名稱、簡要規(guī)格說明和價格數(shù)據(jù)5項基本信息。意大利統(tǒng)計局通過網(wǎng)絡(luò)爬取消費者物價調(diào)和指數(shù)(HICP)中“消費者電子產(chǎn)品”(商品)和“機票”(服務(wù))信息來探討網(wǎng)絡(luò)價格爬蟲技術(shù),一是定期收集消費者電子產(chǎn)品信息,每個產(chǎn)品平均選擇18家左右的商店收集網(wǎng)絡(luò)價格;二是從16家低成本航空公司網(wǎng)站和3家機票銷售網(wǎng)站(Opodo、Travelprice和Edreams)進行機票價格的數(shù)據(jù)搜集,網(wǎng)站上每月登記的基本票價超過960種,但只收集傳統(tǒng)航空公司的機票信息,兩名專家進行這項機票數(shù)據(jù)收集工作,每人每月工作約15小時,為期三天。Kjersti和Leiv(2016)使用Import.io軟件從專注于消費者電子產(chǎn)品和個人護理產(chǎn)品領(lǐng)域的四個主要電商網(wǎng)站爬取數(shù)據(jù),在一年多的時間里,每天爬取大約60種不同消費品的4300份價格觀察報告。
(二)網(wǎng)絡(luò)價格數(shù)據(jù)的整理
由于網(wǎng)站的格式、描述和產(chǎn)品分類等形式多樣,因此需要將抓取的網(wǎng)絡(luò)價格原始數(shù)據(jù)進行整理,以便進行分析和指數(shù)測算。數(shù)據(jù)清洗和處理工作量較大,大約占整個項目時間的 50%~80%。網(wǎng)絡(luò)抓取數(shù)據(jù)不如人工采價嚴格,快速收集的大量數(shù)據(jù)準確性難以控制,特別是對商品無法準確分類,經(jīng)常出現(xiàn)分類錯誤,還需要進行人工檢查,結(jié)合項目描述中關(guān)鍵的數(shù)值信息有助于商品準確分類。研究團隊根據(jù)網(wǎng)絡(luò)爬蟲技術(shù)每日自動抓取的數(shù)據(jù)集文件信息,進行數(shù)據(jù)檢查,檢驗通過之后方可進入指數(shù)編制過程。
三、基于網(wǎng)絡(luò)數(shù)據(jù)的價格指數(shù)編制挑戰(zhàn)
新的數(shù)據(jù)源在質(zhì)量和效率方面都有可能改進官方價格統(tǒng)計,將新的數(shù)據(jù)源集成到價格統(tǒng)計中并不簡單,需要處理多方面的挑戰(zhàn)。
一是使用爬蟲技術(shù)成本效益分析。在開始探索爬蟲技術(shù)之前需要進行充分的成本效益分析,必須投入相當(dāng)多的資源,以便能夠成功地使用它,即使軟件本身可能不需要任何編碼技巧。二是網(wǎng)絡(luò)抓取數(shù)據(jù)的網(wǎng)站問題。每個網(wǎng)站都有一個特定的結(jié)構(gòu),可能隨時更改,導(dǎo)致網(wǎng)站抓取技術(shù)不斷變化。三是網(wǎng)絡(luò)價格與位置對應(yīng)問題。在傳統(tǒng)的價格收集調(diào)查中,選擇市場中最受歡迎的門店或零售營業(yè)額最高的門店進行價格收集,使價格數(shù)據(jù)能夠代表該地區(qū)的大部分消費者,但在網(wǎng)絡(luò)商店的價格收集中,需要在全國各地進行大規(guī)模的調(diào)查,花費巨大。因此,要將這些價格納入CPI,還需要制定一些替代方案。四是價格收集的頻率問題。在標準調(diào)查中,價格是在一周中某一天的高峰時段收集的。選擇高峰時段是為了獲得大多數(shù)消費者支付的價格。在線商店的價格變化非常頻繁,甚至按小時計算,在這種情況下,確定數(shù)據(jù)收集的時間點變得非常困難。五是產(chǎn)品匹配問題?;诰W(wǎng)絡(luò)抓取數(shù)據(jù)的主要問題包括產(chǎn)品分類和指數(shù)聚合,在傳統(tǒng)的價格收集中,價格收集者可以很容易識別產(chǎn)品是否相同,而當(dāng)前的匹配方法無法識別描述更改。由于數(shù)據(jù)量大,不匹配的產(chǎn)品很難找到可比較的替代品,這就限制了某些指標的代表性和樣本量。六是法律問題。經(jīng)常從網(wǎng)站上提取大量數(shù)據(jù)合法嗎?從某企業(yè)的網(wǎng)站提取數(shù)據(jù)需要許可嗎?這取決于正在抓取的數(shù)據(jù)類型、訪問和復(fù)制的信息量以及訪問對頁面所有者的系統(tǒng)和數(shù)據(jù)使用的負面影響程度。需要考慮的一個重要問題是網(wǎng)絡(luò)抓取是否可能違反網(wǎng)絡(luò)站點的使用條款。當(dāng)我們訪問并停留在一個特定的網(wǎng)站時,經(jīng)常同意根據(jù)其條款使用該網(wǎng)站,但一個網(wǎng)站上允許的內(nèi)容可能在另一個網(wǎng)站上被禁止,且在許多情況下網(wǎng)站上根本沒有任何可用的使用條款。大多數(shù)網(wǎng)站都強調(diào)其網(wǎng)站上的所有信息都受到版權(quán)法的保護,未經(jīng)網(wǎng)站所有者的明確同意,不應(yīng)下載或復(fù)制數(shù)據(jù)。然而,《挪威統(tǒng)計法》明確規(guī)定,國家統(tǒng)計局有義務(wù)提供必要的資料以編制官方統(tǒng)計數(shù)字,在法律上有權(quán)收集資料,無需通知資料擁有人。奧地利沒有任何法律程序涉及網(wǎng)絡(luò)抓取的可接受性。但在其他歐洲國家如德國已經(jīng)有了關(guān)于在線數(shù)據(jù)庫所有者的權(quán)利的法庭判決,以防止網(wǎng)絡(luò)抓取者系統(tǒng)地復(fù)制內(nèi)容。
四、基于網(wǎng)絡(luò)數(shù)據(jù)的價格指數(shù)編制方法研究
價格指數(shù)編制方法存在差異,同樣的數(shù)據(jù)在不同的計算方法下會產(chǎn)生不同的指數(shù)結(jié)果。基于網(wǎng)絡(luò)數(shù)據(jù)的價格指數(shù)編制方法研究主要集中在兩個方面:一是單獨基于網(wǎng)絡(luò)抓取數(shù)據(jù)的價格指數(shù)編制方法;二是網(wǎng)絡(luò)數(shù)據(jù)納入傳統(tǒng)CPI統(tǒng)計范圍的價格指數(shù)編制方法。與傳統(tǒng)的CPI數(shù)據(jù)不同,網(wǎng)絡(luò)價格數(shù)據(jù)沒有商品支出權(quán)數(shù),一般按日收集,頻率更高,數(shù)量更大。由于商品網(wǎng)站上展示的產(chǎn)品更新?lián)Q代快,報告期與基期的產(chǎn)品匹配度低,時間上同質(zhì)可比性差,并且由于數(shù)據(jù)量大,不匹配的產(chǎn)品很難找到可比較的替代品,這就限制了某些指標的代表性和樣本量。因此,研究基于網(wǎng)絡(luò)數(shù)據(jù)的價格指數(shù)編制方法十分必要,可以加深我們對價格行為的理解。下面分析幾種適合于高頻率和高容量數(shù)據(jù)的方法,以探討應(yīng)用于網(wǎng)絡(luò)抓取數(shù)據(jù)的最適當(dāng)方法。
(一)單獨基于網(wǎng)絡(luò)抓取數(shù)據(jù)的價格指數(shù)編制方法
1.選取鏈式加權(quán)指數(shù)法計算aSPI
以生活費用理論為基礎(chǔ)的aSPI指數(shù)體系不僅包括價格指數(shù)系列,還包括實物交易量指數(shù)系列。價格指數(shù)反映一定時期內(nèi)網(wǎng)絡(luò)零售商品一般價格變化,實物交易量指數(shù)反映一定時期內(nèi)網(wǎng)絡(luò)零售交易實物量的一般變化。價格與實物交易量指數(shù)系列除總體指數(shù)外,還包括食品、衣著等九個基本分類指數(shù)。aSPI建立在葉子類目每月加權(quán)成交均價基礎(chǔ)上,采用鏈式指數(shù)算法,以反映全網(wǎng)總體網(wǎng)購支出價格水平的變化。鏈式加權(quán)具體實施可采用間接法和直接法兩種方法。
(1)間接法
間接法先計算相鄰時期共有最細類目平均價格的平均值,利用平均值計算相鄰兩期共有最細類目的交易額,交易額之比即為可比價格的不變類目交易物量增長率?;诨趦r格計算的基期交易額,乘以此比率,就得到可比價格的當(dāng)期交易額。將根據(jù)當(dāng)期價格計算的當(dāng)期交易額與可比價格的當(dāng)期交易額相比,就得到當(dāng)期網(wǎng)絡(luò)零售交易額的價格平減指數(shù)。這是一種先計算實際交易物量,再計算物價指數(shù)的間接方法。具體公式如下:
相鄰兩期共有最細類目:
最細類目成交均價:
相鄰兩期平均價格:
物量指數(shù):
物價指數(shù):
以 為基期的指數(shù):
其中, 表示 期淘寶網(wǎng)后臺最細類目集合, 為類目 在 期的第 筆交易, 為類目 在 期的總交易筆數(shù), 為間接法計算的以 -1為基期的 期不變類目物量指數(shù), 為間接法計算的以 -1為基期的 期不變類目物價指數(shù), 為間接法計算的以 =0為基期的 期不變類目物價指數(shù)。
(2)直接法
直接法也是先計算相鄰時期共有最細類目平均價格的平均值,同時還計算共有最細類目在兩個時期的成交量與成交份額。在此基礎(chǔ)上,計算拉氏(Laspeyres)與帕式(Paasche)指數(shù)。作為對通用的拉氏與帕式指數(shù)的額外改進,湯式(Tornqvist)指數(shù)法也可在這一步一道實施,為應(yīng)用者提供更多的選擇。具體公式如下:
最細類目價格指數(shù):
最細類目成交份額:
交易筆數(shù)固定在當(dāng)期、價格固定在上期時的成交份額:
Laspeyres物價指數(shù):
Paasche物價指數(shù):
Tornqvist物價指數(shù):
以 為基期的指數(shù):
其中, 表示以 為基期的 期最細類目 的價格指數(shù), 為最細類目 的當(dāng)期交易份額, 為假定當(dāng)期交易筆數(shù)與上期價格情況下的交易份額占比。
2. 固定基期Jevons指數(shù)(Fixed Based Jevons Index)
固定基期Jevons指數(shù)將基期固定在數(shù)據(jù)集中第1期,并選取所有時期共有產(chǎn)品進行計算。具體公式如下:
其中, 為產(chǎn)品 在時期 的價格, 為所有期共有產(chǎn)品集合, 為 中產(chǎn)品的數(shù)量。
3. 鏈式雙邊Jevons指數(shù)(Chained Bilateral Jevons Indices)
該指數(shù)首先計算 期相對于 -1期的Jevons指數(shù),然后將該指數(shù)序列連乘得到。公式定義如下:
其中, 為第 期相對于 -1期的Jevons指數(shù), 為產(chǎn)品 在時期 的價格, 為 期和 -1期共有的產(chǎn)品集合, 為 中產(chǎn)品的數(shù)量。
4. 單位價值指數(shù)(Unit Value Index)
單位價值指數(shù)定義為時期0和時期 兩個不匹配產(chǎn)品集均值之比,具體公式如下:
其中, 為時期0的產(chǎn)品集, 為 中的產(chǎn)品數(shù)量, 為時期 的產(chǎn)品集, 為 中的產(chǎn)品數(shù)量。
5. GEKS指數(shù)族(GEKS Family of Indices)
GEKS指數(shù)族是一組指數(shù),下面分別介紹其中的GEKS-J指數(shù)、RYGEKS-J指數(shù)、ITRYGEKS指數(shù)、IntGEKS-J指數(shù)。
(1)GEKS-J指數(shù)
GEKS-J指數(shù)是一個多邊指數(shù),使用兩個時間段之間的全路徑計算。以時期0為基期的時期 的GEKS-J價格指數(shù)是以每一個中間點( = 1,…, -1)為連接的時期 相對于時期0的鏈式Jevons價格指數(shù)的幾何平均值。出現(xiàn)在時期 并且出現(xiàn)在時期0或時期 的產(chǎn)品包含在指數(shù)中。具體公式如下:
(2)滾動年份的GEKS鏈式指數(shù)(RYGEKS-J指數(shù))
GEKS-J指數(shù)測算中當(dāng)有新時期的數(shù)據(jù)時需要不斷修正前期數(shù)據(jù),為了克服這個缺點,Ivancic等(2011)提出了RYGEKS-J指數(shù)。RYGEKS-J指數(shù)計算過程是假設(shè)初始窗口包含的數(shù)據(jù)是0至 期的數(shù)據(jù),根據(jù)初始窗口計算第一個GEKS指數(shù)。當(dāng)使用新時期數(shù)據(jù)時,窗口包含的數(shù)據(jù)變成了1到 +1時期的數(shù)據(jù),根據(jù)此窗口數(shù)據(jù)計算第二個GEKS指數(shù),依次類推。公式如下:
其中,窗口長度d選擇的是13個月。
(3)特征虛擬Tornqvist-RYGEKS指數(shù)(ITRYGEKS指數(shù))
RYGEKS指數(shù)中忽視了質(zhì)量變化的影響,因此需要進行質(zhì)量調(diào)整。De Haan和Krsinich(2012)提出了以估算的Tornqvist作為RYGEKS指數(shù)的基礎(chǔ),其中估算的Tornqvist指數(shù)是特征調(diào)整的Tornqvist指數(shù),新產(chǎn)品或消失產(chǎn)品的價格分別使用當(dāng)前或基期的特征回歸來估算,特征回歸假設(shè)產(chǎn)品的價格由一組k個特征決定。估算的Tornqvist指數(shù)定義如下:
其中, 為產(chǎn)品 在時期0的支出份額, 為產(chǎn)品 在時期 的支出份額, 為缺失產(chǎn)品在時期 的估計價格, 為在兩期同時觀察到的產(chǎn)品集, 為時期 觀察到而時期0觀察不到的產(chǎn)品集, 為時期0觀察到而時期 觀察不到的產(chǎn)品集。De Haan和Krsinich(2012)提出了三種計算 的方法,具體如下:
A.線性特征方法
每期使用回歸模型估計特征參數(shù),具體公式如下:
其中, 為截距項, 為特征 對價格的影響程度, 為產(chǎn)品 的特征 的值。
B.加權(quán)時間虛擬特征方法
該模型假定特征參數(shù)不隨時間變化,引入虛擬變量 ,具體公式如下:
其中, 表示特定時間參數(shù)估計。
C.加權(quán)時間產(chǎn)品虛擬方法
該方法中當(dāng)詳細的產(chǎn)品特征信息不可用時引入一個虛擬變量 ,具體公式如下:
其中, 為特定虛擬產(chǎn)品的參數(shù)估計值,第 個產(chǎn)品作為參考產(chǎn)品。該方法認為對消費者來說不同產(chǎn)品的質(zhì)量是不同的,這是一個合理假設(shè),因為潛在特征的數(shù)量很大并且不是所有的特征都可見。
以上三種方法都以支出額為權(quán)重,使用加權(quán)最小二乘估計。
(4)交叉GEKS-J指數(shù)(IntGEKS-J指數(shù))
IntGEKS-J指數(shù)指數(shù)用于處理較長窗口長度下RYGEKS的明顯變平問題。該方法僅包含在時期0、 和 共有的產(chǎn)品集,用 表示。具體公式如下:
如果沒有產(chǎn)品變動(產(chǎn)品進出庫),IntGEKS-J就降低為標準GEKS-J。IntGEKS-J要求產(chǎn)品在更長時間內(nèi)出現(xiàn),導(dǎo)致比標準GEKS-J更有可能“失敗”。
6. 固定效應(yīng)窗口拼接指數(shù)(FEWS)
固定效果窗口拼接產(chǎn)生一個不可修改的并且完全質(zhì)量調(diào)整的價格指數(shù),在詳細的產(chǎn)品規(guī)格水平上有縱向價格和數(shù)量信息。該方法基于固定效應(yīng)指數(shù),定義如下:
其中, 為時期0固定效應(yīng)回歸系數(shù)的估計均值。使用固定效果回歸克服了時間虛擬ITRYGEKS的一些缺點。就像RYGEKS-J一樣,在初始估計窗口之后,新序列被拼接到當(dāng)前序列上,用于后續(xù)的周期,這稱為窗口拼接。窗口拼接本質(zhì)上使用的是估計窗口期間的價格移動,而不是最近期間的價格移動,需要在當(dāng)期指數(shù)質(zhì)量與長期指數(shù)質(zhì)量之間進行權(quán)衡。從長期來看,F(xiàn)EWS方法將消除由于沒有對新產(chǎn)品和正在消失的產(chǎn)品的隱含價格變動進行調(diào)整而產(chǎn)生的任何系統(tǒng)性偏差。該方法的完整描述見Krsinich(2016)。
7. 大型數(shù)據(jù)集聚類價格指數(shù)(CLIP)
CLIP是國家統(tǒng)計局最近開發(fā)的一種價格指數(shù),該指數(shù)將產(chǎn)品分組到集群中,并隨著時間的推移追蹤這些集群。在基期產(chǎn)品根據(jù)特征進行集群,隨著時間的推移集群根據(jù)同一規(guī)則形成,但是形成集群的產(chǎn)品可能會隨著時間的推移而變化,從而導(dǎo)致產(chǎn)品的波動。先對兩個時期集群的幾何平均值作比,為每個集群建立一個單位值指數(shù),然后使用基期集群大小對其進行聚合。具體公式如下:
其中, 為時期0時的集群 , 為時期 時的集群 , 為時期0時集群 的大小。該方法詳情見Metcalfe等(2016)。
(二)網(wǎng)絡(luò)數(shù)據(jù)納入傳統(tǒng)CPI統(tǒng)計范圍的價格指數(shù)編制方法
1. 加權(quán)幾何平均數(shù)方法(加權(quán)GM方法)
價格指數(shù)由分別計算的線下市場相對價格幾何平均數(shù)和線上市場相對價格幾何平均數(shù)
加權(quán)得到。具體公式如下:
2. 利用網(wǎng)絡(luò)價格指數(shù)修正同期CPI方法
利用網(wǎng)絡(luò)商品價格指數(shù)修正同期CPI,具體方法如下:
其中, 表示實體店社會消費品零售額占比, 表示網(wǎng)絡(luò)社會消費品零售總額占比, 為根據(jù)傳統(tǒng)實體店調(diào)查數(shù)據(jù)計算得到的CPI指數(shù), 為根據(jù)電商平臺交易計算的消費品價格指數(shù)。
基于網(wǎng)絡(luò)抓取數(shù)據(jù)編制的價格指數(shù)在數(shù)據(jù)收集技術(shù)、采價點、采價時間、采集數(shù)據(jù)量以及抽樣范圍等方面不同于傳統(tǒng)發(fā)布的CPI。將網(wǎng)絡(luò)數(shù)據(jù)納入傳統(tǒng)CPI編制過程尚處于探索階段,相關(guān)研究比較少,目前主要考慮從數(shù)據(jù)范圍和數(shù)源途徑上納入傳統(tǒng)CPI。將線上線下價格指數(shù)融合可以借鑒模型平均法。模型平均法以其穩(wěn)健性好、遺失有用信息少等諸多優(yōu)點成為目前統(tǒng)計學(xué)和計量經(jīng)濟學(xué)界研究的熱門問題,在經(jīng)濟、金融、生物、醫(yī)學(xué)等領(lǐng)域有著廣泛的應(yīng)用前景。模型平均法主要分為頻率模型平均(FMA)和貝葉斯模型平均(BMA)兩大類,權(quán)重選擇是模型平均理論研究中最重要的問題。學(xué)者對基于FMA的權(quán)重選擇進行了大量研究:Buckland等(1997)根據(jù)信息準則權(quán)重提出了S-AIC和S-BIC方法;Hjort和Claeskens(2003)提出了S-FIC方法;Hansen(2007)基于最小化Mallows準則提出了MMA估計;Liang等(2011)提出OPT方法,同時證明OPT估計是漸進最優(yōu)的;為解決存在異方差的線性模型平均問題,Hansen和Racine(2012)提出JMA方法;Gao等(2016)提出基于刪組交叉驗證的LsoMA方法;Zhu等(2017)提出基于馬氏距離的MMMA方法等。模型平均法將成為線上線下價格指數(shù)融合方法研究的一個方向。
由于網(wǎng)絡(luò)價格具有數(shù)據(jù)規(guī)模大、更新速度快、種類繁多等特征,傳統(tǒng)的價格指數(shù)編制方法存在許多不足,如鏈式價格指數(shù)一般存在鏈式漂移、權(quán)重缺失等問題。而GEKS指數(shù)族能夠有效解決以上不足,在大數(shù)據(jù)背景下應(yīng)用前景廣闊。在此基礎(chǔ)上對于集群產(chǎn)品,運用CLIP編制價格指數(shù)也是一個好的選擇。網(wǎng)絡(luò)數(shù)據(jù)納入傳統(tǒng)CPI統(tǒng)計的價格指數(shù)編制方法研究較少,一般采用線上線下價格指數(shù)加權(quán)平均,模型平均法將成為指數(shù)融合方面一個好的研究方向。
五、基于網(wǎng)絡(luò)數(shù)據(jù)的價格指數(shù)相關(guān)實證結(jié)果
關(guān)于網(wǎng)絡(luò)價格指數(shù)與傳統(tǒng)CPI之間關(guān)系的研究主要有以下觀點:
一是不同學(xué)者關(guān)于網(wǎng)絡(luò)價格指數(shù)與傳統(tǒng)CPI之間變動趨勢的研究結(jié)果不同。劉發(fā)躍和馬丁丑(2015)將aSPI和CPI分別作為線上和線下價格指標,研究發(fā)現(xiàn)線上價格指數(shù)普遍高于線下價格指數(shù),并且波動更大。Metcalfe等(2016)針對食品、非酒精飲料和酒精飲料開發(fā)了web抓取CPI,研究發(fā)現(xiàn)這一指數(shù)與公布的CPI數(shù)據(jù)有類似的長期趨勢,但在價格走勢上有所不同。Alberto Cavallo(2017)通過對10個國家56家大型多渠道零售商的網(wǎng)站和實體店同時收集的價格進行大規(guī)模比較發(fā)現(xiàn),在大約72%的情況下,價格水平是相同的,價格變化不是同步的,但有相似的頻率和平均大小。余芳東(2018)研究發(fā)現(xiàn)基于網(wǎng)絡(luò)抓取數(shù)據(jù)的CPI與基于商店采價數(shù)據(jù)的CPI有著類似的變動趨勢,基于網(wǎng)絡(luò)抓取數(shù)據(jù)的CPI趨勢拐點要比傳統(tǒng)發(fā)布的CPI提前1個月。Radzikowski和Mietanka(2016)認為在線消費者價格指數(shù)與傳統(tǒng)的通脹衡量方法具有互補性。田濤和周薇薇(2017)通過對aSPI指數(shù)及其各分類商品價格指數(shù)與國家統(tǒng)計局公布的CPI歷史數(shù)據(jù)關(guān)聯(lián)關(guān)系定量分析,發(fā)現(xiàn)線上線下商品價格之間存在穩(wěn)定均衡的關(guān)系。
二是認為網(wǎng)絡(luò)價格指數(shù)對傳統(tǒng)CPI具有良好的預(yù)測能力。Hull等(2017)通過研究從瑞典一些在線零售商收集選定的水果和蔬菜的銷售價格,發(fā)現(xiàn)日數(shù)據(jù)信息可以提高短期通貨膨脹預(yù)測的精度。方匡南和曾武雄(2018)通過研究aSPI和基于傳統(tǒng)編制方法的官方CPI之間的關(guān)系,發(fā)現(xiàn)阿里網(wǎng)購價格指數(shù)與官方CPI之間是周期匹配的,阿里網(wǎng)購價格指數(shù)對CPI具有一定的預(yù)警和預(yù)測能力。Powell等(2018)研究的模型揭示了不同產(chǎn)品類別之間動態(tài)行為的不同級別,能夠在產(chǎn)品類別特定的CPI發(fā)布之前立即對其進行良好的預(yù)測,并且認為高頻率的月度綜合CPI預(yù)測是一個可以實現(xiàn)的目標。
此外,價格之間的關(guān)系可能因參考時期不同而不同;盡管線上和線下價格在年度基礎(chǔ)上遵循相似的趨勢,但在某些方面,月度指數(shù)存在顯著差異;不同的采購渠道之間的價格變動可能有很大的差異,與實體店相比,在線商店的定價策略可能有很大不同等。
總之,對于網(wǎng)絡(luò)價格指數(shù)與傳統(tǒng)CPI之間的關(guān)系,不同學(xué)者基于不同研究基礎(chǔ)在兩者變動趨勢、波動幅度等方面得出的結(jié)論有所不同,且認為網(wǎng)絡(luò)價格指數(shù)對傳統(tǒng)CPI有良好的預(yù)警和預(yù)測能力。
六、研究展望
(一)需要更好的方法對數(shù)據(jù)進行分類
目前正在研究無監(jiān)督機器學(xué)習(xí)技術(shù)和有監(jiān)督機器學(xué)習(xí)技術(shù),以提高準確性和效率。無監(jiān)督機器學(xué)習(xí)技術(shù)不需要人工創(chuàng)建訓(xùn)練數(shù)據(jù)集,無監(jiān)督機器學(xué)習(xí)的兩個關(guān)鍵例子是k均值聚類和主成分分析(PCA),它們可以用于從數(shù)據(jù)中推斷結(jié)構(gòu)。有監(jiān)督機器學(xué)習(xí)技術(shù)需要一個訓(xùn)練數(shù)據(jù)集,該訓(xùn)練數(shù)據(jù)集用于訓(xùn)練分類算法,經(jīng)過訓(xùn)練的算法可以用來對不可見數(shù)據(jù)進行分類,有監(jiān)督機器學(xué)習(xí)技術(shù)的例子有邏輯回歸、神經(jīng)網(wǎng)絡(luò)或支持向量機,這些技術(shù)可以根據(jù)價格的特點對價格進行系統(tǒng)的分類。這可以與無監(jiān)督機器學(xué)習(xí)一起使用。此外,需要對網(wǎng)絡(luò)爬蟲器進行編輯,以收集零售商的產(chǎn)品代碼,使用這些代碼和產(chǎn)品描述提高匹配的質(zhì)量,并利用更多的可用數(shù)據(jù)。
(二)探索更好的將高頻數(shù)據(jù)編制成價格指數(shù)的方法
繼續(xù)探索編制高頻指數(shù)的方法,研究如何將網(wǎng)絡(luò)抓取價格與專業(yè)價格收集者選擇的具有代表性的價格相結(jié)合來計算價格指數(shù)。從官方統(tǒng)計機構(gòu)的角度來看,使用在線數(shù)據(jù)是非常有前途的,最有希望的方法是某種形式的混合方法。從在線數(shù)據(jù)中提取的高頻實時指標可以校正利用掃描儀數(shù)據(jù)或傳統(tǒng)的現(xiàn)場采集數(shù)據(jù)等更全面數(shù)據(jù)編制的較不頻繁的官方指標。將價格指數(shù)編制方法與中國實踐更多地結(jié)合是未來的一個研究方向。
(三)更及時地公布新指數(shù)
目前,國家統(tǒng)計局在月后13號左右公布月度傳統(tǒng)CPI,季度、年度則延至月后20號左右,公布滯后。為提高價格指數(shù)的時效性,不論是網(wǎng)絡(luò)價格指數(shù)、傳統(tǒng)CPI還是兩者融合
指數(shù),當(dāng)商品價格信息或?qū)傩孕畔l(fā)生變動時,都應(yīng)及時更新價格指數(shù)?;诖?,應(yīng)進一步探討更及時發(fā)布價格指數(shù)的方法。
注釋:
①互聯(lián)網(wǎng)在線數(shù)據(jù)的居民消費價格指數(shù)(iCPI)項目組成立于2015年9月,由清華大學(xué)社會科學(xué)學(xué)院經(jīng)濟學(xué)研究所的劉濤雄教授、湯珂教授與清華大學(xué)計算機系的許斌教授聯(lián)合指導(dǎo),團隊運用大數(shù)據(jù)的理念和技術(shù)手段,采集來自電商平臺、價格信息網(wǎng)站等的商品價格數(shù)據(jù),設(shè)計和編制了一套基于互聯(lián)網(wǎng)在線大數(shù)據(jù)的居民消費價格指數(shù),可實現(xiàn)每日于網(wǎng)站(www.bdecon.com)可視化發(fā)布,并且可以在CEIC數(shù)據(jù)庫下載,數(shù)列編碼是422327377。
②我國國家統(tǒng)計局測算官方CPI時采用的是鏈式“拉氏”公式,官方CPI測算方法可參考
國家統(tǒng)計局的走進CPI專題(http://www.stats.gov.cn/ztjc/tjzs/zjcpi/index_1.html)。
參考文獻:
[1]易冰,趙子?xùn)|,劉洪波.CPI中人工采集網(wǎng)絡(luò)價格的實踐與思考[J].中國統(tǒng)計,2014,(9):9-10.
[2] 余芳東.國外網(wǎng)絡(luò)抓取數(shù)據(jù)在CPI統(tǒng)計中的應(yīng)用實踐[J].調(diào)研世界,2018,(7):3-6.
[3]陳相成,喬晗.掃描數(shù)據(jù)支持下CPI編制方法研究[J].統(tǒng)計研究,2013,(1):23-30.
[4]陳夢根,劉浩.大數(shù)據(jù)對CPI統(tǒng)計的影響及方法改進研究[J].統(tǒng)計與信息論壇,2015,30(6):8-13.
[5]李平.對我國現(xiàn)行CPI統(tǒng)計方法的思考及完善意見[J].價格理論與實踐,2007,(3):56-57.
[6]宋晨.我國現(xiàn)行居民消費價格指數(shù)編制方法的改進研究[D].北京:中國石油大學(xué),2009.
[7]許滌龍,謝敏.CPI編制方法的國際比較[J].中國統(tǒng)計,2008,(7):28.
[8]高艷云.中美CPI數(shù)據(jù)質(zhì)量的比較分析——基于國際貨幣基金組織的DQAF框架[J].統(tǒng)計研究,2008,(11):51-56.
[9]高艷云. CPI 編制及公布的國際比較[J].統(tǒng)計研究,2009,(9):15-20.
[10]石剛. 提高 CPI 數(shù)據(jù)質(zhì)量的編制技術(shù)研究評述[J].統(tǒng)計研究,2012,(5):105-112.
[11]Alberto Cavallo. Are Online and Offline Prices Similar?Evidence from LargeMulti-ChannelRetailers[J]. American Economic Review,2017,107(1):283-303.
[12]Radzikowski B,Mietanka A. Online CASE CPI[C].First International Conference on Advanced Research Methods and Analytics,2016.
[13]Hull I,L?f M,Tibblin M. Price Information Collected Online and Short-term Inflation Forecasts [C]. IFC-Bank Indonesia Satellite Seminar on“Big Data”at the ISI Regional StatisticsConference,2017.
[14]Powell B,Nason G,Elliott D,et al. Tracking and Modelling Prices Using Web-scraped Price Microdata:towards Automated Daily Consumer Price Index Forecasting[J]. Journal of the Royal Statistical Society:Series A(Statistics in Society),2018,181(3):737-756.
[15]Kjersti N H,Leiv T SR. Keeping Up with the Modern Consumer-Online Data in Price Statistics[J]. Conference of Nordic Statisticians Stockholm,2016,(8):22-24.
[16]Ivancic L,Diewert W E,F(xiàn)ox K J.Scanner Data,Time Aggregation and the Construction??? of Price Indexes[J]. Journal of Econometrics,2011,161(1):24-35.
[17]De HaanJ,KrsinichF. The Treatment of Unmatched Items in Rolling Year GEKS Prices Indexes:Evidence from New Zealand Scanner Data[C]. Meeting of Groups of Experts on Consumer Price Indices Organized Jointly by UNECE and ILO at the United Nations Palais des Nations,Geneva Switzerland,2012.
[18]KrsinichF.The FEWS Index:Fixed Effects with a Window Splice[J]. Journal of Official?? Statistics,2016,32(2):375-404.
[19]Metcalfe L,Breton R,et al. Research Indices Using Web Scraped Price Data:Clustering Large Datasets into Price Indices(CLIP)[C]. Office for National Statistics of UK,2016.
[20]Buckland S T,Burnham K P,Augustin N H. Model Selection:An Integral Part of Inference[J]. Biometrics,1997,53(2):603-618.
[21]Hjort N L,Claeskens G. Frequentist Model Average Estimators[J]. Journal of the AmericanStatistical Association,2003,98(464):879-899.
[22]Hansen B E. Least Squares Model Averaging[J]. Econometrica,2007,75(4):1175-1189.
[23] Liang H,Zou G,Wan A T K,et al. Optimal Weight Choice for Frequentist Model Average estimators[J]. Journal of the American Statistical Association,2011,106(495):1053-1066.
[24] Hansen B E,Racine J S. Jackknife Model Averaging[J]. Journal of Econometrics,2012,167(1):38-46.
[25] Gao Y,Zhang X,Wang S,et al. Model Averaging Based on Leave-subject-out Cross-validation[J]. Journal of Econometrics,2016,192(1):139-151.
[26] Zhu R,Zou G,Zhang X. Model Averaging for Multivariate Multiple Regression Models[J].Statistics,2017,52(1):1-23.
[27]劉發(fā)躍,馬丁丑. 網(wǎng)上與網(wǎng)下兩類價格指數(shù)差異的收斂性分析[J].統(tǒng)計與決策,2015,(20):29-32.
[28]田濤,周薇薇.大數(shù)據(jù)背景下線上商品價格變動對CPI的影響[J].統(tǒng)計與決策,2017,(13):34-38.
[29]方匡南,曾武雄. 阿里網(wǎng)購價格指數(shù)與官方CPI的關(guān)系[J].統(tǒng)計與信息論壇,2018,(2):28-35.
The Review on How to Improve CPI Compilation by Using Online Price information and Learning International Experience
Li Qian, Zhou Di,LiLi
?(1.School of Information Management and Statistics, Hubei University of Economics, Wuhan 430205, China;2.School of Mathematics and Statistics, Guangdong University of Foreign Studies, Guangzhou510006, China)
Abstract: The arrival of the era of big data has brought unprecedented historical opportunities and important challenges to the government's statistical work. As one of them, the compilation of consumer price index (CPI) is the first to bear the brunt. It has become an urgent task to bring CPI into line with The Times. This paper mainly studies how to improve CPI compilation by using network price information. On the basis of drawing lessons from international experience, firstly,it is the collection and collation of network price data, including the selection of retailers, network price data collection methods, network price data collection process and data collation; Secondly, it is the challenge of price index compiling based on network data;Then the price index compilation method based on the network data is introduced, including the price index compilation method based on the network capture data alone and the price index compilation method that the network data is included in the traditional CPI statistical range;Then the empirical results of price index based on network datais introduced;Finally, it is the research prospect. This study provides some references for the national bureau of statistics to promote the application of network price in CPI statistics.
Keywords: Crawler Technology; Network Price Data; The CPI; International Experience