李憶 文瑞 楊立成
〔摘要〕網(wǎng)絡(luò)搜索數(shù)據(jù)是消費者在信息搜集和購買決策過程中真實足跡的反映,對了解消費者購買需求具有重要價值。本文運用與現(xiàn)有研究不同的關(guān)鍵詞獲取方法,以我國汽車市場為背景,研究網(wǎng)絡(luò)搜索數(shù)據(jù)與銷量之間的關(guān)系。首先,確定網(wǎng)絡(luò)搜索數(shù)據(jù)的關(guān)鍵詞,主要運用了文本挖掘技術(shù),具體而言:①對抓取的汽車論壇文本進(jìn)行Jieba分詞;②利用Word2vec模型把分詞結(jié)果轉(zhuǎn)化為向量空間模型形式;③結(jié)合TF-IDF算法和余弦相似度算法確定關(guān)鍵詞。然后,基于108個月的長面板數(shù)據(jù),建立網(wǎng)絡(luò)搜索與汽車銷量的固定效應(yīng)模型。最后,采取滾動窗口的方式預(yù)測最近12個月的汽車銷量。實證結(jié)果顯示:網(wǎng)絡(luò)搜索與汽車銷量之間存在長期均衡關(guān)系,回歸模型可以解釋76%的方差;網(wǎng)絡(luò)搜索數(shù)據(jù)有助于預(yù)測我國汽車銷量。
〔關(guān)鍵詞〕網(wǎng)絡(luò)搜索數(shù)據(jù);消費者;購買需求;汽車銷量;文本挖掘;關(guān)鍵詞獲??;長面板數(shù)據(jù);預(yù)測
DOI:10.3969/j.issn.1008-0821.2016.08.026
〔中圖分類號〕F27213〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2016)08-0131-06
〔Abstract〕The online searching data reflects the real traces that consumers leave behind while gathering some information or making purchase decisions.The online searching data benefits us to know the information of what is the consumers need.In our paper,the selection of keywords differents from the existing researches,on the background of Chinas automobile market,the paper researched the relationship between online searching data and Chinese automobile sales.Firstly,identified the key words of online searching mainly according the text mining technology,to be specific:①Using Jieba segmenting the automobile BBS text captured to words;②Converting segmentary words to the Vector space model by Word2vec model;③Combining TF-IDF algorithm and cosine similarity algorithm to determinate the key words.Then,based on the 108 months long panel data,the paper established a fixed effect model between the online searching data and the automobile sales.Finally,the paper forecasted the automobile sales in nearly 12 months.The empirical result showed that:there is a Long-run equilibrium relationship between the online searching data and the automobile sales,and regression model can explain 76% of the variance.The holdout analysis suggested that online searching data can be of substantial use to forecast the Chinas automobile sales.
〔Key words〕online searching data;consumer;purchase decision;automobile sales;text mining;keywords obtaining;long panel data;forcast
搜索引擎已經(jīng)成為消費者決策過程中信息搜索和評價過程的起點,根據(jù)在CNNIC調(diào)查社區(qū)進(jìn)行的搜索營銷調(diào)查顯示,有77%的互聯(lián)網(wǎng)用戶在購買產(chǎn)品之前會上網(wǎng)搜索信息[1]。網(wǎng)民的搜索需求在一定程度上反映了他們的關(guān)注點和意圖,而網(wǎng)絡(luò)搜索數(shù)據(jù)正是對網(wǎng)民搜索需求的客觀記錄。網(wǎng)絡(luò)搜索數(shù)據(jù)的這一特性使其能夠映射用戶實際生活中的行為特點,并影響企業(yè)經(jīng)營和政府管理方式,成為目前研究大數(shù)據(jù)的主要方向之一。
本文以我國汽車市場為背景,研究網(wǎng)絡(luò)搜索數(shù)據(jù)與汽車銷量之間的關(guān)系。之所以選擇汽車作為研究對象,是因為汽車產(chǎn)品屬性復(fù)雜并且要求較大資金投入,消費者在購買汽車時會對汽車產(chǎn)品各種屬性進(jìn)行仔細(xì)考察和評估。不僅如此,汽車也是研究消費者外部搜索相關(guān)文獻(xiàn)中最為常用的產(chǎn)品對象之一[2]。
1研究意義與思路
11研究意義
網(wǎng)絡(luò)搜索數(shù)據(jù)的利用價值已經(jīng)得到了學(xué)術(shù)界的廣泛關(guān)注。國外學(xué)者在房地產(chǎn)[3]、就業(yè)[4]、股票[5]、汽車和旅游[6]等眾多領(lǐng)域都驗證了谷歌搜索數(shù)據(jù)的作用。但是在中國,百度是應(yīng)用最多的搜索引擎,因而用百度搜索指數(shù)研究中國的社會經(jīng)濟(jì)行為更符合實際情況。任樂通過計算相關(guān)系數(shù)、確定領(lǐng)先階數(shù)并合成百度搜索指數(shù),實證了北京市搜索數(shù)據(jù)與月旅游客流量之間的相關(guān)關(guān)系[7];袁慶玉等從網(wǎng)絡(luò)關(guān)鍵詞搜索數(shù)據(jù)與汽車銷量的角度建立了理論基礎(chǔ)框架,采用綜合賦權(quán)法對關(guān)鍵詞進(jìn)行提取,預(yù)測了汽車銷量[8]。
但是對國內(nèi)現(xiàn)有研究而言,利用網(wǎng)絡(luò)搜索數(shù)據(jù)預(yù)測用戶需求仍屬于一個新的研究領(lǐng)域,并沒有形成系統(tǒng)的研究體系,還存在以下不足:(1)對于關(guān)鍵詞的選取還存在爭議。多數(shù)研究是直接指定關(guān)鍵詞,或者是結(jié)合百度自動生成的關(guān)鍵詞來提取指數(shù),并沒有考慮關(guān)鍵詞能否代表用戶實際的網(wǎng)絡(luò)搜索行為。(2)預(yù)測模型多采用時間序列的靜態(tài)回歸或者是對短面板數(shù)據(jù)的建模,不利于控制不同個體間的差異,也不利于準(zhǔn)確地反映和刻畫在時間推移的過程中網(wǎng)絡(luò)搜索數(shù)據(jù)對銷售影響的動態(tài)變化。
為彌補現(xiàn)有研究存在的不足,本文在關(guān)鍵詞選擇和模型設(shè)定上都作出了改進(jìn),目的是驗證網(wǎng)絡(luò)搜索數(shù)據(jù)如何反映當(dāng)前的汽車銷量并預(yù)測未來的銷量變化趨勢。本文的主要工作是:提出了一套結(jié)構(gòu)化的流程來提取網(wǎng)絡(luò)搜索數(shù)據(jù)關(guān)鍵詞,并應(yīng)用于我國汽車市場的研究。該流程為網(wǎng)絡(luò)搜索數(shù)據(jù)在其他領(lǐng)域的研究提供了參考。
12研究思路
本文的研究思路如下:①對汽車銷量預(yù)測和網(wǎng)絡(luò)搜索數(shù)據(jù)應(yīng)用的相關(guān)研究進(jìn)行梳理,總結(jié)出現(xiàn)有研究存在的不足;②以2007-2015年國內(nèi)市場的汽車銷量為研究對象,基于文本挖掘技術(shù),提出一套結(jié)構(gòu)化的流程,獲得網(wǎng)絡(luò)搜索數(shù)據(jù)的關(guān)鍵詞,用于提取出百度搜索指數(shù);③為避免百度搜索指數(shù)和汽車銷量之間存在偽回歸的可能性,對變量做了單位根檢驗和格蘭杰因果檢驗;④基于108個月的長面板數(shù)據(jù),建立百度搜索指數(shù)與汽車銷量的固定效應(yīng)模型,據(jù)此驗證網(wǎng)絡(luò)搜索數(shù)據(jù)如何反映當(dāng)前的銷量;⑤采用滾動窗口的方式預(yù)測最近12個月的汽車銷量,來檢驗網(wǎng)絡(luò)搜索數(shù)據(jù)的預(yù)測效力。
2文獻(xiàn)綜述
21有關(guān)汽車銷量預(yù)測的相關(guān)研究
關(guān)于國內(nèi)汽車銷量的預(yù)測,從以往的相關(guān)研究來看,學(xué)者從定性和定量兩個方面進(jìn)行了相關(guān)研究。在定性方面,如:門峰等針對我國汽車產(chǎn)業(yè)的發(fā)展方向進(jìn)行研究,認(rèn)為我國汽車產(chǎn)業(yè)已經(jīng)成為國民經(jīng)濟(jì)的重要支柱產(chǎn)業(yè),并預(yù)測未來5~10年是我國由汽車工業(yè)大國向汽車工業(yè)強國轉(zhuǎn)變的重要時期[9];王莉分析了國際金融危機給中國汽車行業(yè)帶來的總體影響[10]。定量方面的研究則可以分為兩個層面:一是單方法預(yù)測法(包括多元回歸分析法、時間序列預(yù)測法、神經(jīng)網(wǎng)絡(luò)分析法),如:陳歡通過定性灰色預(yù)測模型的方法對汽車銷量進(jìn)行了預(yù)測[11],該方法能夠反映復(fù)雜數(shù)據(jù)的非線性和汽車銷量數(shù)據(jù)自身的規(guī)律性,但對歷史數(shù)據(jù)過于依賴,歷史數(shù)據(jù)越多,預(yù)測結(jié)果越可靠;郭順生等基于時間序列ARMA模型對中國汽車的月銷量數(shù)據(jù)進(jìn)行預(yù)測[12];汪玉秀等綜合汽車顏色、排量及版本類型3個因素,建立了馬爾科夫過程的4S店汽車銷量預(yù)測模型(預(yù)測絕對誤差均小于5%)[13]。二是組合預(yù)測方法,如:李響等基于ARMA模型與RBF神經(jīng)網(wǎng)絡(luò)相結(jié)合的混合模型預(yù)測了天津市日汽車銷量,認(rèn)為組合模型相對于單一的預(yù)測模型有較高的預(yù)測精度[14];蔡賓等采用改進(jìn)差分進(jìn)化算法和灰色模型對幾個主要汽車品牌的銷量進(jìn)行了預(yù)測,并對汽車銷量的發(fā)展趨勢作出了判斷[15];李莉通過建立灰色模型和馬爾科夫模型相結(jié)合的組合預(yù)測模型預(yù)測了我國小排量汽車的銷量,該模型整合了GM(1,1)模型處理光滑序列的有效性和灰色馬爾科夫鏈處理隨機序列的有效性,反映出了數(shù)據(jù)序列的發(fā)展趨勢[16]。
無論是傳統(tǒng)的定性預(yù)測方法,還是定量預(yù)測都只能依賴于歷史數(shù)據(jù),但歷史數(shù)據(jù)具有很強的延遲性,而且其預(yù)測的粒度較大,一般為汽車銷量的年度數(shù)據(jù)。另外,與傳統(tǒng)的預(yù)測方法相比,人工智能建模方法雖然預(yù)測精度較高,但也存在算法復(fù)雜性高,應(yīng)用廣泛性和對原始數(shù)據(jù)的變化趨勢依賴性較強等缺陷和不足。
22基于網(wǎng)絡(luò)搜索數(shù)據(jù)的經(jīng)濟(jì)類、社會類行為相關(guān)性研究目前基于網(wǎng)絡(luò)搜索數(shù)據(jù)的經(jīng)濟(jì)社會類行為預(yù)測已成為各領(lǐng)域?qū)W者們研究的一個新的熱點,并在國內(nèi)外都取得了一定的研究成果。在宏觀經(jīng)濟(jì)領(lǐng)域,Vosen等利用網(wǎng)絡(luò)搜索趨勢也對家庭支出做出了預(yù)測[17];Choi等研究如何利用網(wǎng)絡(luò)搜索數(shù)據(jù)預(yù)測短期經(jīng)濟(jì)價值,文中的例子包括房地產(chǎn)、失業(yè)索賠、旅游目的地規(guī)劃和消費者信心[18]。在社會領(lǐng)域,Ripberger等使用網(wǎng)絡(luò)Query搜索數(shù)據(jù)對公眾的注意力進(jìn)行衡量,取得了良好效果[19]。國內(nèi)學(xué)者張崇等揭示了網(wǎng)絡(luò)搜索數(shù)據(jù)與居民消費價格指數(shù)(CPI)之間存在一定的相關(guān)關(guān)系和先行滯后關(guān)系,并取得了良好的預(yù)測效果[20]。董倩等發(fā)現(xiàn)網(wǎng)絡(luò)搜索數(shù)據(jù)不但能夠較好地預(yù)測房價指數(shù),而且能夠分析經(jīng)濟(jì)主體行為的趨勢與規(guī)律,有一定的時效性[21]。孫毅等對相關(guān)研究進(jìn)行了綜述,提出基于網(wǎng)絡(luò)搜索數(shù)據(jù)的相關(guān)性研究是典型的交叉研究,而對于網(wǎng)絡(luò)搜索數(shù)據(jù)與經(jīng)濟(jì)行為之間的相關(guān)性的機理分析、關(guān)鍵詞的選擇和數(shù)據(jù)處理模型選擇是需要解決的關(guān)鍵問題[22]。
網(wǎng)絡(luò)搜索數(shù)據(jù)也開始用來預(yù)測汽車銷量。Du等發(fā)現(xiàn)從谷歌搜索數(shù)據(jù)中對38個主要汽車品牌提取出來的7大趨勢可以從品牌層面解釋美國市場74%的汽車銷量[23]。國內(nèi)學(xué)者王煉等以百度搜索指數(shù)為數(shù)據(jù)基礎(chǔ),探討網(wǎng)絡(luò)搜索在我國汽車市場的預(yù)測作用,結(jié)果顯示網(wǎng)絡(luò)搜索數(shù)據(jù)對汽車銷量具有顯著的正向影響,研究還發(fā)現(xiàn),在其他傳統(tǒng)指標(biāo)的數(shù)據(jù)無法獲得時,網(wǎng)絡(luò)搜索數(shù)據(jù)依然能夠發(fā)揮重要預(yù)測作用[24]。但王煉等是對短面板數(shù)據(jù)進(jìn)行建模回歸,數(shù)據(jù)量較少,不利于刻畫百度搜索指數(shù)與社會經(jīng)濟(jì)活動的動態(tài)變化,也不能確定變量之間是否存在著長期的均衡關(guān)系。
綜上所述,雖然網(wǎng)絡(luò)搜索數(shù)據(jù)可以作為傳統(tǒng)數(shù)據(jù)的良好補充來實現(xiàn)對市場需求的預(yù)測,但仍有以下方面可以改進(jìn):(1)該領(lǐng)域的很多研究都是以谷歌趨勢為數(shù)據(jù)源。雖然谷歌是全球最大的搜索引擎,但依然存在很多像中國這樣的國家偏向于使用本地的搜索引擎,因而應(yīng)用百度搜索指數(shù)研究我國市場需求更符合實際情況。(2)在確定獲取百度搜索指數(shù)的關(guān)鍵詞上,并沒有一個系統(tǒng)化、統(tǒng)一的的方法。之前的研究普遍都是手動指定關(guān)鍵詞,或者是利用百度自動生成的詞。在本文中,我們基于文本挖掘技術(shù),提出了一個結(jié)構(gòu)化的流程來確定檢索關(guān)鍵詞,可以真實地反映出用戶網(wǎng)絡(luò)搜索的習(xí)慣。(3)以往的研究大都采用時間序列數(shù)據(jù),或是短面板數(shù)據(jù),不利于檢驗更復(fù)雜的行為模型。本文收集了國內(nèi)市場最近9年的汽車月度銷量數(shù)據(jù),采用長面板數(shù)據(jù)建模,可以準(zhǔn)確地反映和刻畫在時間長期推移的過程中網(wǎng)絡(luò)搜索數(shù)據(jù)對銷售影響的動態(tài)變化。
3實證分析
31數(shù)據(jù)來源
311汽車銷量
本文的汽車銷量數(shù)據(jù)來源于搜狐網(wǎng)站汽車頻道(http∥db.auto.sohu.com/cxdata/),該數(shù)據(jù)為月度更新數(shù)據(jù)。為了研究網(wǎng)絡(luò)搜索數(shù)據(jù)與汽車銷量之間的長期相關(guān)關(guān)系,我們選取的時間段為2007年1月至2015年12月,共108個月??紤]到車型數(shù)據(jù)在此期間的持續(xù)可獲得性,我們將連續(xù)12個月無銷量的車型排除。最終,我們收集了55款車型在此期間的國內(nèi)市場月度銷量數(shù)據(jù)。
312網(wǎng)絡(luò)搜索
本文使用的網(wǎng)絡(luò)搜索數(shù)據(jù)源于百度搜索指數(shù)。百度(baidu.com)是全球最大的中文搜索引擎,截至2015年第三季度,百度在國內(nèi)的市場份額達(dá)到823%,遠(yuǎn)超過其后的“谷歌中國”(79%)、搜狗(48%)、360搜索(38%)[25]。百度搜索指數(shù)是以百度網(wǎng)頁搜索為基礎(chǔ)的免費海量數(shù)據(jù)分析服務(wù),可以反映不同關(guān)鍵詞在過去一段時間里的“用戶關(guān)注度”。用戶關(guān)注度以數(shù)千萬網(wǎng)民在百度的搜索量為數(shù)據(jù)基礎(chǔ),以關(guān)鍵詞為統(tǒng)計對象,代表了各個關(guān)鍵詞在百度網(wǎng)頁搜索中的搜索頻次,每天更新1次。圖1是網(wǎng)絡(luò)搜索數(shù)據(jù)的1個示例。顯示的是兩款車型“普力馬”和“福美來”在2015年用戶關(guān)注度的變化趨勢??梢钥吹剑?015年的大部分時間里,“福美來”受關(guān)注程度要高于“普力馬”,在2月初,“普力馬”的用戶關(guān)注度大幅上升而超過“福美來”,而在6月份以后,“普力馬”的受關(guān)注程度又始終低于“福美來”。
32遴選關(guān)鍵詞
在研究汽車銷量與百度搜索指數(shù)之間關(guān)系的過程中,選取恰當(dāng)?shù)木W(wǎng)絡(luò)搜索關(guān)鍵詞是非常重要的,直接影響研究結(jié)果的可靠性。一方面,由于汽車是屬性復(fù)雜并且要求較大資金投入的產(chǎn)品,消費者在購買汽車時會對汽車的各種屬性進(jìn)行仔細(xì)考察和評估。另一方面,根據(jù)CNNIC調(diào)查社區(qū)開展的搜索營銷調(diào)查結(jié)果,有77%的互聯(lián)網(wǎng)用戶在購買產(chǎn)品前會上網(wǎng)搜索信息[1]??紤]到這一點,我們選取了用戶活躍度最高的汽車論壇——汽車之家論壇來提取關(guān)鍵詞。為了準(zhǔn)確地反映消費者考慮購買汽車并上網(wǎng)搜索信息時所采用的搜索詞,我們采取以下詳細(xì)步驟來確定搜索關(guān)鍵詞。
321確定基本詞條
我們根據(jù)搜狐網(wǎng)站汽車頻道(http:∥db.auto.sohu.com/cxdata/)所提供的車型名以及“品牌名+車型名”的組合(如:A4L以及奧迪A4L)來作為最初的基本詞條。
322獲取基本詞條的近義詞
在汽車之家論壇(http:∥club.autohome.com.cn/)該車型的論壇主題下,通過自主開發(fā)的軟件程序,采用抓取網(wǎng)頁的方式收集了論壇帖子的內(nèi)容。為了更準(zhǔn)確地確定關(guān)鍵詞,我們用文本挖掘技術(shù)找出基本詞條的同義詞。具體過程為:先對抓取后的文本語料進(jìn)行Jieba分詞;利用深度學(xué)習(xí)的Word2vec模型對分好詞的語料做訓(xùn)練,把詞轉(zhuǎn)化為向量空間模型的形式;然后結(jié)合TF-IDF算法和余弦相似度算法找出與基本詞條相似的詞條(對于延伸詞條我們不予考慮,如A4L油耗),即近義詞。對找出來的近義詞繼續(xù)做訓(xùn)練,重復(fù)多次,總共得到了452個詞條。經(jīng)過結(jié)構(gòu)化查詢語言(SQL)去重后得到了318個詞條。
323選取論壇高頻詞條
對每一詞條我們都在論壇的文本中統(tǒng)計出詞頻,并選取詞頻較多的詞作為百度搜索指數(shù)中檢索的目標(biāo)關(guān)鍵詞。對于仍有歧義的詞條,我們會加上品牌名來作為目標(biāo)檢索關(guān)鍵詞,如“金剛”,目標(biāo)詞則為“吉利金剛”。類似的例子還包括“雨燕”、“北斗星”、“高爾夫”等。
324確定最終搜索詞條
對目標(biāo)詞在百度搜索指數(shù)中進(jìn)行檢索,我們選取在百度指數(shù)中排名最高的詞作為關(guān)鍵詞。對于仍不能確定排名的詞,我們再選取其與銷量之間在不同滯后期0~6期皮爾遜相關(guān)系數(shù)最高的詞作為搜索關(guān)鍵詞。最終得到了55款車型可各自用于百度指數(shù)檢索的惟一關(guān)鍵詞。
對每一個關(guān)鍵詞指數(shù)我們都計算了其與銷量在0~12滯后期的皮爾遜相關(guān)系數(shù),表1是關(guān)鍵詞的百度搜索指數(shù)與銷量之間基于最大皮爾遜相關(guān)系數(shù)的滯后階數(shù)??梢钥闯鰷笃谄毡榧性?~2期,且其中大多數(shù)滯后期都為0期。對該現(xiàn)象可能的解釋是:盡管現(xiàn)實當(dāng)中消費者在最終購買前可能會產(chǎn)生幾個月的信息搜索和評價過程,但是他們搜索的數(shù)量和強度都比較小,直到在購買的前1個月其搜索數(shù)量會達(dá)到1個臨界點。
4百度搜索指數(shù)與汽車銷量的關(guān)系
41單位根檢驗
本文選擇實際汽車銷量(S)為因變量,以百度搜索指數(shù)(B)為自變量。為了減少異方差對檢驗結(jié)果帶來的影響,本文數(shù)據(jù)全部對數(shù)處理(lnS,lnB),這樣處理也是考慮到了銷量和搜索指數(shù)的偏斜分布。進(jìn)行對數(shù)處理還有一個好處是,在解釋估計結(jié)果時能夠以百分比變化而非絕對值的變化解釋搜索的預(yù)測作用。
由于本文的樣本數(shù)據(jù)均為面板數(shù)據(jù),和時間序列數(shù)據(jù)一樣,為了保證變量的平穩(wěn)性和避免偽回歸現(xiàn)象,在建立計量經(jīng)濟(jì)學(xué)模型之前要對變量進(jìn)行單位根檢驗和協(xié)整檢驗。常用的面板數(shù)據(jù)單位根檢驗方法有LLC檢驗、PP檢驗、IPS檢驗和ADF檢驗等,本文采用這4種方法同時進(jìn)行檢驗,檢驗結(jié)果如表2所示,由于檢驗原理不同,不同檢驗方法的結(jié)果不盡相同,本文以4種方法結(jié)果一致為準(zhǔn),得到汽車銷量和網(wǎng)絡(luò)搜索指數(shù)在所有情況下都為水平平穩(wěn)。由于協(xié)整檢驗的目的是看一組非平穩(wěn)序列的線性組合是否具有協(xié)整關(guān)系[26],所以本文不再對汽車銷量和網(wǎng)絡(luò)搜索數(shù)據(jù)做協(xié)整檢驗,而直接進(jìn)入Granger因果檢驗。
42格蘭杰因果檢驗
從實際生活來看,消費者會在購買汽車前上網(wǎng)搜索信息,那么網(wǎng)絡(luò)搜索發(fā)生在購買汽車之前,也即百度搜索指數(shù)是汽車銷量的原因,為了驗證實際數(shù)據(jù)能否支撐該結(jié)論,必須進(jìn)行格蘭杰因果檢驗,檢驗的前提條件是數(shù)據(jù)平穩(wěn)。從網(wǎng)絡(luò)搜索到汽車購買,實際產(chǎn)出滯后期有0~2個月,但本研究以網(wǎng)絡(luò)搜索數(shù)據(jù)對汽車銷量的預(yù)測為目的,對同期影響不作考慮。因此本文在進(jìn)行格蘭杰因果檢驗時將滯后期設(shè)定為1~2期,結(jié)果如表3所示。
從格蘭杰因果檢驗的結(jié)果看,在滯后1期和2期的情況下網(wǎng)絡(luò)搜索指數(shù)與汽車銷量存在著雙向互動的因果關(guān)系。但格蘭杰因果檢驗度量對汽車銷量進(jìn)行預(yù)測時,網(wǎng)絡(luò)搜索數(shù)據(jù)的前期信息對均方誤差MSE減少的貢獻(xiàn)要大于另外一種情況。因此網(wǎng)絡(luò)搜索數(shù)據(jù)對汽車銷量具有預(yù)測作用。
51模型設(shè)定
采用面板數(shù)據(jù)分析網(wǎng)絡(luò)搜索與銷量關(guān)系時,首先需要用F檢驗來分析是采用混合回歸還是面板數(shù)據(jù),結(jié)果發(fā)現(xiàn)本文應(yīng)該采用面板數(shù)據(jù)。在研究它們的關(guān)系時很有可能會產(chǎn)生遺漏相關(guān)變量的問題。在回歸模型中,遺漏重要的相關(guān)變量是導(dǎo)致內(nèi)生性的主要原因。因為一旦這個被遺漏的變量同時與因變量和目標(biāo)自變量相關(guān),那么目標(biāo)自變量與隨機擾動項的無關(guān)性假定就不再成立,這時如果用最小二乘估計,目標(biāo)自變量的估計就是有偏的。出于此考慮,本文首先采用固定效應(yīng)模型對面板數(shù)據(jù)做估計,由此來控制由于遺漏變量而產(chǎn)生的內(nèi)生性影響,用固定效應(yīng)模型控制截面變異也是面板數(shù)據(jù)模型對于截面數(shù)據(jù)模型的一大優(yōu)勢所在,而且Hausman檢驗的結(jié)果也拒絕了采用隨機效應(yīng)模型來建模??紤]到銷量與網(wǎng)絡(luò)搜索之間存在滯后期,在該模型當(dāng)中,使用前一期搜索指數(shù)和前兩期搜索指數(shù)作為自變量,以檢驗前1個月網(wǎng)絡(luò)搜索和前兩期搜索是否都能夠預(yù)測銷量。對車型i在時間t的銷量有如下模型:
圖2為福克斯三廂實際銷量數(shù)據(jù)和預(yù)測銷量數(shù)據(jù)的對比圖,其中l(wèi)nS為實際銷量數(shù)據(jù)的對數(shù)值,lnF1、lnF2分別為提前1個月和2個月的預(yù)測。從對比圖可以看出,百度搜索指數(shù)與汽車銷量結(jié)合程度較好,模型預(yù)測效果很好。該結(jié)果再次體現(xiàn)了網(wǎng)絡(luò)搜索數(shù)據(jù)的預(yù)測效力。圖2??怂谷龓麑嶋H銷量數(shù)據(jù)與預(yù)測數(shù)據(jù)對比圖
按照Hyndman[28]提出的方法,本文選擇平均絕對誤差(MAE)作為評價預(yù)測效力的指標(biāo)。平均絕對誤差的單位與因變量的單位一致,易于解釋。此外,本文還計算了預(yù)測值的均方根誤差(RMSE),因為這一指標(biāo)比平均絕對誤差對異常值更加敏感,同時使用能夠更加全面地評價模型的預(yù)測效力??紤]到要反映誤差大小的相對值,本文又計算了不受量綱影響的平均相對誤差MPE。
預(yù)測結(jié)果顯示在表5當(dāng)中,模型預(yù)測效果很好,加入百度搜索指數(shù)之后模型的擬合優(yōu)度和預(yù)測精度都有了提高,這和格蘭杰因果檢驗百度搜索指數(shù)是汽車銷量的原因一致。對比網(wǎng)絡(luò)搜索提前1個月和提前2個月的預(yù)測誤差,可看出總體差別不大,提前1個月的百度搜索指數(shù)預(yù)測效果要略優(yōu)于提前2個月的預(yù)測。表5各預(yù)測期樣本外預(yù)測誤差結(jié)果
誤差指標(biāo)MAERMSE〖〗MPE提前1個月098315790342提前2個月0986158003426結(jié)語
本文用文本挖掘技術(shù),對汽車之家論壇帖子提取關(guān)鍵詞,以關(guān)鍵詞的百度搜索指數(shù)為數(shù)據(jù)基礎(chǔ),研究了網(wǎng)絡(luò)搜索數(shù)據(jù)與我國汽車銷量之間的關(guān)系,發(fā)現(xiàn):①網(wǎng)絡(luò)搜索數(shù)據(jù)與汽車銷量之間存在著長期均衡關(guān)系,且網(wǎng)絡(luò)搜索數(shù)據(jù)可以解釋汽車銷量76%的方差;②可以用提前1個月或2個月的網(wǎng)絡(luò)搜索數(shù)據(jù),對我國汽車銷量做預(yù)測。
本文的理論意義在于:①基于文本挖掘技術(shù),提出了結(jié)構(gòu)化的流程確定搜索數(shù)據(jù)關(guān)鍵詞,為網(wǎng)絡(luò)搜索數(shù)據(jù)在其他領(lǐng)域的研究提供了參考;②對近9年的長面板數(shù)據(jù)建立模型,檢驗了網(wǎng)絡(luò)搜索數(shù)據(jù)對汽車銷量的預(yù)測作用。本文的實踐意義在于:在不依賴歷史銷量數(shù)據(jù)的情況下,可以預(yù)測中國市場的汽車銷量變動情況,有利于汽車企業(yè)制定相關(guān)營銷策略和調(diào)整生產(chǎn)計劃,同時也為政府部門制定相關(guān)政策提供了參考。
本文的研究局限體現(xiàn)在:采用固定效應(yīng)模型來探索網(wǎng)絡(luò)搜索數(shù)據(jù)對我國汽車銷量的影響,在預(yù)測效果上還可以使用其他模型來完善。另一方面,本文是基于汽車之家論壇來確定網(wǎng)絡(luò)檢索的關(guān)鍵詞,但在以后的研究上可以考慮綜合如微信、微博、博客等其他社交媒體來全方位捕捉消費者的在線行為足跡。
參考文獻(xiàn)
[1]中國互聯(lián)網(wǎng)絡(luò)信息中心.2012年中國網(wǎng)民消費行為調(diào)查報告[R].中國互聯(lián)網(wǎng)絡(luò)信息中心,2013.http:∥www.cnnic.cn/hlwfzyj/hlwxzbg/dzswbg/201301/t2013011638522.htm,4-4.
[2]Klein L R.Evaluating the Potential of Interactive Media through a New Lens:Search versus Experience Goods[J].Journal of Business Research,1998,41(3):195-203.
[3]Wu L,Brynjolfsson E.The Future of Prediction:How Google Searches Foreshadow Housing Prices and Sales[J].Social Science Electronic Publishing,2014.