黃蓉 陳曉衛(wèi)
摘 要:網(wǎng)絡(luò)搜索數(shù)據(jù)包含了社會各個領(lǐng)域的興趣和關(guān)注點,本文根據(jù)支出法中的微觀經(jīng)濟(jì)要素來研究網(wǎng)絡(luò)搜索數(shù)據(jù)與我國國內(nèi)生產(chǎn)總值(GDP)之間的相關(guān)性,以及兩者之間的先行滯后關(guān)系。關(guān)鍵詞數(shù)據(jù)與GDP數(shù)據(jù)均為季度數(shù)據(jù),先對兩者進(jìn)行季節(jié)調(diào)整;再對參與分析的21組網(wǎng)絡(luò)搜索關(guān)鍵詞數(shù)據(jù)做主成分分析,共提取出三個主成分,占關(guān)鍵詞總方差的86.94%;然后根據(jù)三個主成分構(gòu)建網(wǎng)絡(luò)搜索綜合指數(shù)。將網(wǎng)絡(luò)搜索綜合指數(shù)與標(biāo)準(zhǔn)化之后的GDP數(shù)據(jù)做分析發(fā)現(xiàn)兩者存在長期穩(wěn)定的協(xié)整關(guān)系,Granger因果關(guān)系檢驗的結(jié)果說明網(wǎng)絡(luò)搜索綜合指數(shù)是標(biāo)準(zhǔn)化之后的GDP數(shù)據(jù)的Granger原因,對于GDP的預(yù)測有一定的幫助。
關(guān)鍵詞:網(wǎng)絡(luò)搜索數(shù)據(jù);GDP;季節(jié)調(diào)整;主成分分析;協(xié)整關(guān)系
1 引言
根據(jù)2014年1月中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)公布的《2013年中國網(wǎng)民搜索行為研究報告》指出:2013年,國內(nèi)搜索行業(yè)呈現(xiàn)多元化的發(fā)展趨勢,新進(jìn)入的搜索引擎和現(xiàn)有搜索競爭較為激烈,不斷細(xì)分的搜索市場和性能持續(xù)提升的終端設(shè)備正改變著用戶的搜索習(xí)慣。綜合搜索仍然是最基本的搜索工具,過去半年,搜索網(wǎng)民使用過的綜合搜索網(wǎng)站的比例達(dá)98.0%,此外,通過購物網(wǎng)站、視頻網(wǎng)站、微博進(jìn)行過搜索的網(wǎng)民比例也在50%以上。CNNIC每半年對網(wǎng)民數(shù)量進(jìn)行統(tǒng)計,結(jié)果顯示,截止2014年6月30日,我國網(wǎng)民數(shù)量達(dá)到6.32億,接近總?cè)丝诘?0%。從中國互聯(lián)網(wǎng)絡(luò)信息中心2013年出版的《第33次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》可以得到,我國網(wǎng)民年齡結(jié)構(gòu)中,10-59歲的階段占據(jù)了總?cè)丝诘慕^大部分,這部分人群不僅是網(wǎng)絡(luò)的常客,也是社會經(jīng)濟(jì)發(fā)展的主力軍,他們擁有很強的生產(chǎn)能力及消費能力,因此通過網(wǎng)絡(luò)搜索數(shù)據(jù)探討網(wǎng)民的消費活動,研究其消費方式及主要消費內(nèi)容,通過產(chǎn)品形態(tài)來驗證網(wǎng)絡(luò)搜索數(shù)據(jù)行為與GDP的相關(guān)性分析是具有現(xiàn)實意義的。
2 概念框架的構(gòu)建
本文主要把生產(chǎn)者生產(chǎn)及居民消費過程劃分為需求、信息搜尋、決策三個過程,生產(chǎn)者有投資需求之后,通過網(wǎng)絡(luò)搜索投資相關(guān)信息,對其生產(chǎn)決策將產(chǎn)生一定的影響,同樣地,消費者有消費需求之后,通過網(wǎng)絡(luò)搜索消費相關(guān)關(guān)鍵詞,能夠?qū)ζ湎M決策產(chǎn)生一定的影響,然而生產(chǎn)和消費影響市場價格,消費者與生產(chǎn)者也可通過網(wǎng)絡(luò)搜索信息來了解當(dāng)期市場價格。
總的來講,不論是消費還是生產(chǎn),不論是市場價格體系還是宏觀經(jīng)濟(jì)體系,均與網(wǎng)絡(luò)搜索有很強的相關(guān)性,因此通過網(wǎng)絡(luò)搜索關(guān)鍵詞,分析關(guān)鍵詞的指數(shù)變化與GDP的變化是否具有相關(guān)關(guān)系是具有一定的理論基礎(chǔ)的。
3 研究方法及流程
主要對網(wǎng)絡(luò)搜索數(shù)據(jù)與我國GDP的相關(guān)性進(jìn)行研究,通過用戶運用搜索引擎搜索相關(guān)關(guān)鍵詞這一方式,來分析其能夠?qū)褿DP產(chǎn)生什么樣的影響。
簡單來講,研究過程為:數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)分析三方面。
(一)數(shù)據(jù)獲取
獲取數(shù)據(jù)是分析的基礎(chǔ),數(shù)據(jù)獲取首先要選用搜索引擎,縱觀全球,運用最多的引擎是谷歌,但在我國,由于網(wǎng)絡(luò)限制的影響,用戶運用最多的是百度引擎,因此運用百度搜索數(shù)據(jù)來對GDP的趨勢進(jìn)行預(yù)測是更符合實際的。
第二,獲取數(shù)據(jù)需要對關(guān)鍵詞初選并進(jìn)行挖掘。根據(jù)GDP的定義、作用、影響因素等,運用Google correlate 關(guān)鍵詞挖掘工具和SEO 關(guān)鍵字挖掘工具以及ICTCLAS 漢語分詞系統(tǒng)三者結(jié)合選出與GDP相關(guān)系數(shù)最大的關(guān)鍵詞,本文共初選關(guān)鍵詞33個。
第三,關(guān)鍵詞指標(biāo)獲取。將第二步獲取的33個關(guān)鍵詞導(dǎo)入百度指數(shù),搜索2011年初至2014年末的關(guān)鍵詞月度指標(biāo)共48組。
第四,GDP季度數(shù)據(jù)獲取。在國家統(tǒng)計局公布的歷年數(shù)據(jù)中,查找2011年初至2014年末的我國GDP季度數(shù)據(jù)共16組。
(二)數(shù)據(jù)處理
由于國家統(tǒng)計局公布的GDP數(shù)據(jù)最小單位為季度數(shù)據(jù),并且是相對數(shù)據(jù),因此需要將前期獲取的48組關(guān)鍵詞月度數(shù)據(jù)數(shù)據(jù)轉(zhuǎn)化為季度數(shù)據(jù),而且百度指數(shù)上的關(guān)鍵詞指標(biāo)是絕對指標(biāo),所以還需將關(guān)鍵詞數(shù)據(jù)轉(zhuǎn)化為相對指標(biāo),才能夠與GDP數(shù)據(jù)進(jìn)行分析。
(三)數(shù)據(jù)分析
由于GDP數(shù)據(jù)具有很強的時間性,因此運用Eviews對GDP及關(guān)鍵詞數(shù)據(jù)進(jìn)行時間序列分析,但若將所選中的33個關(guān)鍵詞全部導(dǎo)入作為變量,可能會很復(fù)雜,因此運用SPSS軟件先對關(guān)鍵詞數(shù)據(jù)進(jìn)行主成分分析,提取出具有代表性的幾個主成分,再與GDP進(jìn)行相關(guān)性分析。
4 網(wǎng)絡(luò)搜索數(shù)據(jù)與GDP相關(guān)性實證分析
(一)關(guān)鍵詞選取與預(yù)處理
不同的網(wǎng)絡(luò)搜索關(guān)鍵詞在網(wǎng)絡(luò)上會有不同的關(guān)鍵詞信息,但選取關(guān)鍵詞不能僅僅靠平時的經(jīng)驗和熟悉程度,而要選擇科學(xué)的取詞方法來進(jìn)行關(guān)鍵詞挑選。前文已經(jīng)提到,選取關(guān)鍵詞采用Google correlate 關(guān)鍵詞挖掘工具、SEO 關(guān)鍵字挖掘工具和ICTCLAS 漢語分詞系統(tǒng)三者結(jié)合來進(jìn)行關(guān)鍵詞挖掘,從宏觀方面選擇了經(jīng)濟(jì)發(fā)展形勢、企業(yè)投資、勞動報酬、就業(yè)率等關(guān)鍵詞,根據(jù)以上宏觀因素,再利用百度指數(shù)關(guān)鍵詞推薦功能,選擇與影響我國GDP的宏觀因素相關(guān)的關(guān)鍵詞共有1300多個,剔除重復(fù)及數(shù)據(jù)量較少的關(guān)鍵詞,組成初始關(guān)鍵詞組,共有101個。將初始關(guān)鍵詞組逐個導(dǎo)入百度指數(shù)之中,剔除百度指數(shù)中沒有收錄而且每月搜索指數(shù)較低的關(guān)鍵詞,最終選取了33個關(guān)鍵詞來進(jìn)行分析。
(二)網(wǎng)絡(luò)搜索綜合指數(shù)和季節(jié)調(diào)整及標(biāo)準(zhǔn)化之后的GDP數(shù)據(jù)的協(xié)整性
1.序時圖判斷平穩(wěn)性,對兩組數(shù)據(jù)做序時圖,發(fā)現(xiàn)兩者均存在明顯的線性趨勢,需進(jìn)行單整檢驗。
2.對兩組數(shù)據(jù)進(jìn)行單整檢驗,首先分別對GDP數(shù)據(jù)與X數(shù)據(jù)進(jìn)行ADF檢驗,發(fā)現(xiàn),兩者都是一階單整。
3.Johansen Cointegration Test檢驗兩者是否存在協(xié)整關(guān)系,結(jié)果發(fā)現(xiàn)不能拒絕存在一個協(xié)整關(guān)系,具體見下表:
(三)網(wǎng)絡(luò)搜索綜合指數(shù)和季節(jié)調(diào)整及標(biāo)準(zhǔn)化之后的GDP數(shù)據(jù)的Granger因果檢驗
經(jīng)驗證GDP與X存在協(xié)整關(guān)系,對兩者做格蘭杰因果檢驗,發(fā)現(xiàn)X does not Granger Cause GDP的概率為0.037, GDP does not Granger Cause X的概率為0.9269說明網(wǎng)絡(luò)搜索綜合指數(shù)X是季節(jié)調(diào)整及標(biāo)準(zhǔn)化之后的GDP數(shù)據(jù)的Granger原因,對GDP預(yù)測有幫助。
5 結(jié)論與不足之處
本文先從理論上分析網(wǎng)絡(luò)搜索數(shù)據(jù)與GDP發(fā)展的相關(guān)性,進(jìn)一步分析網(wǎng)絡(luò)搜索數(shù)據(jù)與GDP發(fā)展具有相同的增長趨勢,再通過實證分析對其相關(guān)性進(jìn)行驗證,并且做了Granger因果關(guān)系檢驗,得到的相關(guān)結(jié)論如下:
(1)對GDP的分析基于居民消費為中心展開,消費者消費及生產(chǎn)者生產(chǎn)在互聯(lián)網(wǎng)上均有體現(xiàn),消費者有消費需求,就會通過互聯(lián)網(wǎng)搜索相關(guān)信息,生產(chǎn)者有生產(chǎn)需求,也會通過互聯(lián)網(wǎng)了解生產(chǎn)渠道,生產(chǎn)品相等相關(guān)信息,以上變化在互聯(lián)網(wǎng)上表現(xiàn)為瀏覽指數(shù)的變化,在商品市場中則表現(xiàn)為GDP、CPI等指標(biāo)的變化,兩者的變化都是對同一事物的反映,因此兩者具有一定的相關(guān)關(guān)系。
(2)實證分析結(jié)果表明:網(wǎng)絡(luò)搜索數(shù)據(jù)與GDP之間存在長期穩(wěn)定的協(xié)整關(guān)系。
(3)Ganger因果檢驗的結(jié)果說明網(wǎng)絡(luò)搜索綜合指數(shù)X是季節(jié)調(diào)整及標(biāo)準(zhǔn)化之后的GDP數(shù)據(jù)的Granger原因,對GDP預(yù)測有幫助。
總的來講,用網(wǎng)絡(luò)搜索數(shù)據(jù)與GDP來進(jìn)行相關(guān)性分析還存在一些問題,有待進(jìn)一步改善。首先,本文選擇百度引擎來做相關(guān)分析是因為我國運用百度引擎的用戶占大多數(shù),但是百度指數(shù)的相關(guān)數(shù)據(jù)是由2011年開始做記錄的,從2011年第一季度到2014年第四季度僅有16組數(shù)據(jù),所能夠搜集的數(shù)據(jù)量較少,如今2015年第一季度才剛剛過去,因此模型預(yù)測僅有2015年第一季度作為對照,能夠驗證模型的數(shù)據(jù)較少,谷歌趨勢上的數(shù)據(jù)從2009年開始,但就我國來講,運用谷歌引擎來進(jìn)行搜索的用戶僅有極少部分,因此用谷歌數(shù)據(jù)來進(jìn)行分析是沒有依據(jù)的,若今后能夠運用各個引擎綜合分析,就能大大提高預(yù)測精度。其次,關(guān)鍵詞的選擇對模型的建立具有至關(guān)重要的作用,相關(guān)關(guān)鍵詞的選擇是否準(zhǔn)確全面,將直接決定預(yù)測的結(jié)果,與GDP相關(guān)的關(guān)鍵詞頁并不是一層不變的,所以要建立科學(xué)的流動關(guān)鍵詞庫,使其能夠快速準(zhǔn)確的反映居民消費的動態(tài)現(xiàn)象。
參考文獻(xiàn)
[1] 張崇,呂本富,彭賡,劉穎.網(wǎng)絡(luò)搜索數(shù)據(jù)與CPI相關(guān)性研究[J].管理科學(xué)學(xué)報,2012(07).50-58.
[2] 中國互聯(lián)網(wǎng)絡(luò)信息中心.《2013年中國網(wǎng)民搜索行為研究報告》[EB/OL],2013.
[3] 中國互聯(lián)網(wǎng)絡(luò)信息中心.2014年中國網(wǎng)民數(shù)量統(tǒng)計基本數(shù)據(jù)[EB/OL],2014.
[4] 樊國虎.網(wǎng)絡(luò)搜索數(shù)據(jù)與消費者信息指數(shù)的相關(guān)性研究[J].經(jīng)濟(jì)與管理,2014.
[5] Askitas N,Zimmermann K F. Google econometrics and unemployment forecasting[J]. Applied Economics Quarterly,2009,(2).107 -120.
[6] Cho H i,Varian H. Predicting the Present with Google Trends[C]. Technical Report,2012,88.2-9.
[7] 劉穎,呂本富,彭賡.網(wǎng)絡(luò)搜索對股票市場的預(yù)測能力:理論分析與實證檢驗[J].經(jīng)濟(jì)管理,2011(1).172-179.
[8] 袁慶玉,彭賡,劉穎等.基于網(wǎng)絡(luò)關(guān)鍵詞搜索數(shù)據(jù)的汽車銷量預(yù)測研究[A].管理學(xué)家,2011(01).13-22.
[9] 董倩、孫娜娜、李偉.基于網(wǎng)絡(luò)搜索數(shù)據(jù)的房地產(chǎn)價格預(yù)測[J].統(tǒng)計研究,2014,31(10).
[10] 朱輝. 淺析中國國內(nèi)生產(chǎn)總值的核算,集團(tuán)經(jīng)濟(jì)研究[J]. 2006(33).
[11] 鄭佩楓. 試探微博公眾輿論場的新特征,魅力中國[J]. 2014(07).