付麗麗
【摘 要】本文是研究網(wǎng)絡(luò)搜索數(shù)據(jù)與北京CPI的關(guān)系及預(yù)測(cè)能力的先導(dǎo)步驟,利用與CPI相關(guān)的關(guān)鍵詞在百度指數(shù)網(wǎng)站獲取的搜索數(shù)據(jù),探究采用因子分析法進(jìn)行網(wǎng)絡(luò)搜索指數(shù)的合成,最后給出了北京CPI網(wǎng)絡(luò)搜索指數(shù)的合成公式。
【關(guān)鍵詞】網(wǎng)絡(luò)搜索指數(shù);指數(shù)合成;CPI
中圖分類號(hào): F224;F49文獻(xiàn)標(biāo)識(shí)碼: A文章編號(hào): 2095-2457(2019)19-0078-002
DOI:10.19694/j.cnki.issn2095-2457.2019.19.036
1 問(wèn)題提出
居民消費(fèi)價(jià)格指數(shù)(Consumer Price Index,CPI)是反映宏觀經(jīng)濟(jì)形勢(shì)特別是通貨膨脹程度的一個(gè)重要指標(biāo),它體現(xiàn)了居民的生活成本高低。北京市統(tǒng)計(jì)局通過(guò)人工方式在全市固定地點(diǎn)通過(guò)手持?jǐn)?shù)據(jù)采集器定時(shí)調(diào)查商品價(jià)格,每個(gè)月發(fā)布一次CPI數(shù)據(jù)。隨著大數(shù)據(jù)日益受到重視,一些學(xué)者已經(jīng)開(kāi)始運(yùn)用網(wǎng)絡(luò)搜索數(shù)據(jù)來(lái)研究失業(yè)率(Ettredge et al.,2005)[1]、CPI(孟婷婷、2017)[2]等從宏觀經(jīng)濟(jì)現(xiàn)象,對(duì)互聯(lián)網(wǎng)用戶利用關(guān)鍵詞在網(wǎng)絡(luò)進(jìn)行搜索而產(chǎn)生的沉淀在搜索引擎等網(wǎng)站上的大數(shù)據(jù)對(duì)經(jīng)濟(jì)現(xiàn)象進(jìn)行預(yù)測(cè)。
網(wǎng)絡(luò)搜索數(shù)據(jù)能否成功預(yù)測(cè)經(jīng)濟(jì)現(xiàn)象,關(guān)鍵在于關(guān)鍵詞的選擇以及隨后的搜索指數(shù)合成方法。關(guān)鍵詞的產(chǎn)生有兩種方式:一種是互聯(lián)網(wǎng)用戶根據(jù)自己的學(xué)識(shí)、需求、認(rèn)知而主動(dòng)思考出來(lái)的,一種是網(wǎng)站根據(jù)用戶的搜索行為主動(dòng)推薦的。與CPI相關(guān)的關(guān)鍵詞的選擇就是選取與實(shí)際CPI指數(shù)走勢(shì)相關(guān)且趨向一致的那些關(guān)鍵詞的搜索數(shù)據(jù)。關(guān)鍵詞選擇好后不能直接利用關(guān)鍵詞在網(wǎng)站上的搜索數(shù)據(jù)來(lái)建立預(yù)測(cè)模型,這是因?yàn)?,相關(guān)的關(guān)鍵詞的數(shù)量較多,關(guān)鍵詞之間有共線性,如果僅僅用各個(gè)關(guān)鍵詞的搜索數(shù)據(jù)直接構(gòu)建模型,模型會(huì)比較復(fù)雜,各變量間的共線性問(wèn)題會(huì)使模型達(dá)不到理想的效果,因此需要進(jìn)行關(guān)鍵詞搜索數(shù)據(jù)(網(wǎng)絡(luò)搜索指數(shù))的合成。本文正是基于這一目的,以百度的關(guān)鍵詞搜索指數(shù)為樣本來(lái)探索用因子分析的方法進(jìn)行關(guān)鍵詞搜索指數(shù)的合成,為后續(xù)構(gòu)建預(yù)測(cè)模型打下基礎(chǔ)。
2 文獻(xiàn)綜述
從查閱的文獻(xiàn)來(lái)看,網(wǎng)絡(luò)搜索指數(shù)的文獻(xiàn)多散見(jiàn)于各種研究網(wǎng)絡(luò)搜索指數(shù)與經(jīng)濟(jì)及社會(huì)現(xiàn)象的文獻(xiàn)里,作為模型構(gòu)建前數(shù)據(jù)處理的一種方式,只有極個(gè)別的文獻(xiàn)研究了網(wǎng)絡(luò)搜索指數(shù)的方法。彭賡等(2013)采用谷歌趨勢(shì)推薦關(guān)鍵詞的功能進(jìn)行了四層推薦選取關(guān)鍵詞,之后采用逐步回歸法進(jìn)行搜索指數(shù)的合成[3]。崔東佳(2014)通過(guò)百度搜索引擎搜索與奇瑞、大眾及寶馬三個(gè)品牌汽車相關(guān)的關(guān)鍵詞,通過(guò)采用綜合賦權(quán)、錯(cuò)位逐步合成方法對(duì)三個(gè)品牌相關(guān)的關(guān)鍵詞得到的搜索量計(jì)算相應(yīng)的網(wǎng)絡(luò)搜索指數(shù)[4]。孫毅等(2014)認(rèn)為現(xiàn)有的網(wǎng)絡(luò)搜索指數(shù)的方法主要有直接合成法、相關(guān)性合成法、時(shí)差相關(guān)合成法[5]。殷三杰(2018)運(yùn)用文本挖掘方法及時(shí)差相關(guān)分析法篩選關(guān)鍵詞,接著使用逐步回歸分析、Adaptive-Lasso算法、主成分分析三種降維方法進(jìn)行比較,用于選擇變量[6]。
從以往的文獻(xiàn)可以看出,網(wǎng)絡(luò)搜索的指數(shù)有不同的合成方法。因子分析是針對(duì)變量間有相關(guān)性且變量數(shù)量比較多的情況下的一種降維方法,它能夠從眾多的原有變量中綜合出少數(shù)具有代表性的因子,因此本文嘗試用這種方法進(jìn)行網(wǎng)絡(luò)搜索指數(shù)的合成。
3 數(shù)據(jù)的采集和預(yù)處理
本文的樣本數(shù)據(jù)來(lái)自于百度指數(shù)平臺(tái)上的數(shù)據(jù),選取“CPI”為初始關(guān)鍵詞,利用百度CPI需求圖譜推薦的20個(gè)關(guān)鍵詞,篩選出重復(fù)的、不相關(guān)的、無(wú)意義的關(guān)鍵詞,保留了四個(gè)關(guān)鍵詞,進(jìn)行第二層選取,依此類推到第四層,共得到151個(gè)關(guān)鍵詞。之后,采集這些關(guān)鍵詞的搜索指數(shù),時(shí)間范圍是2013年1月至2018年12月共72個(gè)月的月度數(shù)據(jù),采集區(qū)域的選項(xiàng)是北京,采集設(shè)備的選項(xiàng)是PC端。北京CPI數(shù)據(jù)來(lái)自于國(guó)家統(tǒng)計(jì)局的同比月度數(shù)據(jù)。
用以上151個(gè)關(guān)鍵詞在百度指數(shù)平臺(tái)上獲取的搜索數(shù)據(jù),與實(shí)際的CPI值進(jìn)行皮爾遜(Pearson)相關(guān)系數(shù)的計(jì)算,選取了相關(guān)系數(shù)大于0.4的關(guān)鍵詞共計(jì)18個(gè)。
4 因子分析
4.1 前提條件檢驗(yàn)
因子分析要求原有的變量之間應(yīng)該具有較強(qiáng)的相關(guān)關(guān)系,利用KMO檢驗(yàn)和巴特利特球體檢驗(yàn)來(lái)判斷原始變量是否適合做因子分析。
運(yùn)行軟件所得檢驗(yàn)結(jié)果如表1所示。
根據(jù)檢驗(yàn)結(jié)果,數(shù)據(jù)的KMO檢驗(yàn)值為0.678>0.6,Bartlett球體檢驗(yàn)相應(yīng)的概率值接近0.000,小于顯著性水平0.05,表明數(shù)據(jù)適合作因子分析。
4.2 因子提取
本文選取特征值大于1的因子,并且根據(jù)公共因子在變量總方差中所占的累計(jì)百分?jǐn)?shù)來(lái)選取因子。根據(jù)因子提取和因子旋轉(zhuǎn)結(jié)果,前四個(gè)因子的特征值分別為6.839、4.280、2.205、1.032,各因子的貢獻(xiàn)率分別為37.995%、23.777%、12.251%、5.732%,能夠解釋原有18個(gè)變量總方差的79.755%。據(jù)此,本文將提取4個(gè)公共因子。
按照方差極大法對(duì)因子載荷矩陣旋轉(zhuǎn)后得到結(jié)果如表2所示。
從表2可以看出,第1個(gè)因子在物價(jià)上漲、CPI是什么、物價(jià)、CPI、外匯牌價(jià)表、中國(guó)投資、存款這七個(gè)變量上有較高的載荷。加息、央行、央行加息、存款利率、通脹、通貨膨脹這六個(gè)變量在第2個(gè)因子的載荷較高。準(zhǔn)備金、物價(jià)指數(shù)、美元匯率在第三個(gè)因子上的載荷較高。中國(guó)股市、基金在第四個(gè)因子的載荷較高。
通過(guò)因子得分的協(xié)方差矩陣,可以看出,4個(gè)因子完全是正交的、沒(méi)有線性相關(guān)性。這說(shuō)明提取的四個(gè)因子能夠解釋原有18個(gè)變量所包含的信息。
4.3 網(wǎng)絡(luò)搜索指數(shù)合成計(jì)算
按照這四個(gè)因子分別占四個(gè)因子累計(jì)方差貢獻(xiàn)率的比值來(lái)計(jì)算四個(gè)因子的系數(shù)即權(quán)重。由此得出北京CPI的網(wǎng)絡(luò)搜索綜合指數(shù)的計(jì)算公式為:
F=0.48F1+0.3F2+0.15F3+0.07F4
5 結(jié)論
本文基于CPI相關(guān)的關(guān)鍵詞的百度網(wǎng)絡(luò)搜索數(shù)據(jù),利用因子分析法探索了網(wǎng)絡(luò)搜索指數(shù)合成的方法,并給出了樣本數(shù)據(jù)的北京CPI網(wǎng)絡(luò)搜索綜合指數(shù)的計(jì)算公式。這其中的難點(diǎn)就在于如何篩選出能夠反映所要預(yù)測(cè)某一現(xiàn)象的關(guān)鍵詞,這是采用任何網(wǎng)絡(luò)搜索指數(shù)合成方法的前提。
【參考文獻(xiàn)】
[1]MICHAEL E, JOHN G,GILBERT K. Using web-based search data to predict macroeconomic statistics[J]. Communications of the ACM,2005,48(11):87-92.
[2]孟婷婷.我國(guó)CPI波動(dòng)及外部影響因素研究[D].首都經(jīng)濟(jì)貿(mào)易大學(xué),2017.
[3]彭賡,蘇亞軍,李娜.失業(yè)率預(yù)測(cè)研究——基于網(wǎng)絡(luò)搜索數(shù)據(jù)及改進(jìn)的逐步回歸模型[J].現(xiàn)代管理科學(xué),2013(12):40-43.
[4]崔東佳.大數(shù)據(jù)時(shí)代背景下的品牌汽車銷量預(yù)測(cè)的實(shí)證研究[D].河南大學(xué)碩士學(xué)位論文,2014.
[5]孫毅,戴維,董紀(jì)昌,呂本富.基于主成分分析的網(wǎng)絡(luò)搜索數(shù)據(jù)合成方法研究[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2014,44(21).
[6]殷三杰.加入網(wǎng)絡(luò)搜索數(shù)據(jù)的居民消費(fèi)價(jià)格指數(shù)預(yù)測(cè)[D].西北師范大學(xué),2018.