劉寬斌,張 濤
(1.西南大學(xué) 經(jīng)濟(jì)管理學(xué)院, 重慶 400716; 2.中國(guó)社會(huì)科學(xué)院 數(shù)量經(jīng)濟(jì)與技術(shù)經(jīng)濟(jì)研究所, 北京 100735)
現(xiàn)代科技技術(shù)的進(jìn)步不僅改變了人類(lèi)生產(chǎn)、生活的方式,也改變了人類(lèi)認(rèn)識(shí)事物的方式。近年來(lái),隨著計(jì)算機(jī)技術(shù)以及互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,人類(lèi)能存儲(chǔ)下來(lái)的數(shù)據(jù)信息量出現(xiàn)了爆炸式的增長(zhǎng)。互聯(lián)網(wǎng)出現(xiàn)之前,人類(lèi)存儲(chǔ)數(shù)據(jù)信息最方便也最常用的方式是書(shū)籍。據(jù)國(guó)際數(shù)據(jù)公司(IDC)的研究報(bào)告顯示,截止到2012年,人類(lèi)所有印刷材料所記錄的數(shù)據(jù)信息總量為200PB ,而在互聯(lián)網(wǎng)時(shí)代,僅2008年一年產(chǎn)生的數(shù)據(jù)信息量就高達(dá)0.49ZB,并且數(shù)據(jù)信息量的產(chǎn)生呈現(xiàn)加速趨勢(shì),2009年產(chǎn)生了0.8ZB的數(shù)據(jù),2010年為1.2ZB,到2011年就達(dá)到1.82ZB(1)https://www.idc.com/.。據(jù)2017年IDC的研究報(bào)告估計(jì),到2025年人類(lèi)產(chǎn)生的數(shù)據(jù)信息量將高達(dá)163ZB,將比2016年創(chuàng)造的數(shù)據(jù)信息量增加10倍(2)數(shù)據(jù)來(lái)源于IDC 2017年發(fā)布的白皮書(shū)《數(shù)據(jù)時(shí)代 2025》。?;ヂ?lián)網(wǎng)時(shí)代不僅數(shù)據(jù)信息量出現(xiàn)高速增長(zhǎng),參與數(shù)據(jù)信息創(chuàng)造和使用的群體或?qū)ο笠舶l(fā)生了改變。在人類(lèi)還處于印刷時(shí)代時(shí),被記錄下來(lái)的數(shù)據(jù)信息源頭只能是那些能夠?qū)憰?shū)的個(gè)人或有出版書(shū)籍能力的單位以及其他愿意用紙質(zhì)文件記錄信息的群體,這一記錄數(shù)據(jù)的方式很大程度上限制了數(shù)據(jù)信息源。社會(huì)中的廣大普通成員及企業(yè)單位產(chǎn)生的、無(wú)法用紙質(zhì)文件記錄的信息均被遺失,這些信息都是描述整個(gè)社會(huì)運(yùn)行狀況信息的組成部分,但受限于條件,均無(wú)法被保存下來(lái)。進(jìn)入當(dāng)前計(jì)算機(jī)和互聯(lián)網(wǎng)的時(shí)代,普通個(gè)人能通過(guò)互聯(lián)網(wǎng)與他人分享生活狀況,對(duì)社會(huì)事件表達(dá)自己的看法;工廠企業(yè)已經(jīng)在一定程度上實(shí)現(xiàn)了電子化,甚至信息化,能夠被記錄的不僅僅是企業(yè)的財(cái)務(wù)狀況、人員變動(dòng)等基礎(chǔ)信息,還能記錄企業(yè)工廠機(jī)器運(yùn)行信息等,所有的這些信息均被存儲(chǔ)在互聯(lián)網(wǎng)平臺(tái)或者企業(yè)的數(shù)據(jù)庫(kù)中并被長(zhǎng)期保存。這類(lèi)信息量巨大、數(shù)據(jù)源頭廣泛的數(shù)據(jù)信息被稱(chēng)為“大數(shù)據(jù)”。
大數(shù)據(jù)對(duì)人類(lèi)生產(chǎn)生活產(chǎn)生了巨大的影響,也給研究人類(lèi)社會(huì)經(jīng)濟(jì)規(guī)律的經(jīng)濟(jì)學(xué)帶來(lái)改變。大數(shù)據(jù)可以從以下3個(gè)方面給經(jīng)濟(jì)學(xué)問(wèn)題研究帶來(lái)較大影響:檢驗(yàn)當(dāng)前經(jīng)濟(jì)理論的正確性、提供識(shí)別此前不能被識(shí)別的影響因素、提供經(jīng)濟(jì)理論新見(jiàn)解[1]。當(dāng)前大數(shù)據(jù),特別是網(wǎng)絡(luò)大數(shù)據(jù)已經(jīng)開(kāi)始被應(yīng)用到經(jīng)濟(jì)問(wèn)題的分析當(dāng)中,主要包括失業(yè)率、通貨膨脹、社會(huì)宏觀經(jīng)濟(jì)消費(fèi)量、房地產(chǎn)市場(chǎng)、選舉、社會(huì)輿情分析以及國(guó)內(nèi)生產(chǎn)總值(GDP)等問(wèn)題的研究[2]。雖然大數(shù)據(jù)已經(jīng)在眾多經(jīng)濟(jì)學(xué)領(lǐng)域開(kāi)始被應(yīng)用,但當(dāng)前對(duì)大數(shù)據(jù)應(yīng)用于經(jīng)濟(jì)學(xué)領(lǐng)域的研究范式問(wèn)題卻缺乏探討,導(dǎo)致當(dāng)前大多使用大數(shù)據(jù)分析經(jīng)濟(jì)學(xué)問(wèn)題時(shí)缺乏理論依據(jù),最終的研究結(jié)論也難以從經(jīng)濟(jì)學(xué)的角度來(lái)解釋。
本研究試圖從網(wǎng)絡(luò)大數(shù)據(jù)的角度探討大數(shù)據(jù)的概念、特點(diǎn),分析大數(shù)據(jù)應(yīng)用于經(jīng)濟(jì)學(xué)研究時(shí)與傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)的區(qū)別以及大數(shù)據(jù)本身具有的優(yōu)勢(shì),總結(jié)當(dāng)前大數(shù)據(jù)應(yīng)用于經(jīng)濟(jì)學(xué)分析過(guò)程中存在的問(wèn)題,并在以上分析基礎(chǔ)上探討大數(shù)據(jù)應(yīng)用于經(jīng)濟(jì)學(xué)分析時(shí)的范式問(wèn)題,為大數(shù)據(jù)應(yīng)用于經(jīng)濟(jì)學(xué)分析的研究范式提供思考。
為分析大數(shù)據(jù)在經(jīng)濟(jì)學(xué)中的應(yīng)用范式,首先需要清晰界定大數(shù)據(jù)的概念并且總結(jié)出大數(shù)據(jù)相比于傳統(tǒng)的統(tǒng)計(jì)數(shù)據(jù)所具有的獨(dú)特優(yōu)勢(shì)。大數(shù)據(jù)是當(dāng)前研究的熱點(diǎn),但關(guān)于大數(shù)據(jù)的概念或定義卻難以統(tǒng)一。為分析大數(shù)據(jù)的概念、特點(diǎn),本文從大數(shù)據(jù)的概念演進(jìn)的角度來(lái)分析。大數(shù)據(jù)的概念有一個(gè)逐步發(fā)展的過(guò)程,不同時(shí)期、不同學(xué)者從各自不同研究領(lǐng)域提出了不同的見(jiàn)解。
最初,大多數(shù)學(xué)者對(duì)大數(shù)據(jù)的界定是從計(jì)算機(jī)技術(shù)角度來(lái)描述,重點(diǎn)關(guān)注大數(shù)據(jù)信息的體量,強(qiáng)調(diào)大數(shù)據(jù)信息難以被當(dāng)時(shí)的計(jì)算機(jī)處理和分析。例如,2013年來(lái)自亞馬遜公司的數(shù)據(jù)科學(xué)家約翰·老薩(John Rauser)在一次計(jì)算機(jī)研討會(huì)上將大數(shù)據(jù)描述為“超過(guò)一臺(tái)計(jì)算機(jī)處理能力的數(shù)據(jù)量”(3)https://www.networkworld.com/article/2188435/defining-big-data-depends-on-who-s-doing-the-defining.html.,這樣的定義方式局限于大數(shù)據(jù)“量級(jí)大”特點(diǎn)。另外,日本野村綜合研究所研究員城田真琴在其文章中將大數(shù)據(jù)定義為“用當(dāng)期企業(yè)數(shù)據(jù)庫(kù)中占主流地位的關(guān)系型數(shù)據(jù)庫(kù)無(wú)法進(jìn)行管理的、具有復(fù)雜結(jié)構(gòu)的數(shù)據(jù)”[3]。該定義增加了數(shù)據(jù)的“響應(yīng)時(shí)間”,認(rèn)為大數(shù)據(jù)是數(shù)據(jù)量巨大,導(dǎo)致數(shù)據(jù)查詢時(shí)間超過(guò)了容忍范圍的數(shù)據(jù)集合。中國(guó)工程院院士李國(guó)杰也有過(guò)類(lèi)似表述[4]。全球著名的管理咨詢公司,也是世界上首次系統(tǒng)闡述大數(shù)據(jù)概念和應(yīng)用的公司麥肯錫(McKinsey)定義大數(shù)據(jù)為:數(shù)據(jù)量大小超過(guò)典型數(shù)據(jù)庫(kù)軟件采集、存儲(chǔ)、管理和分析等能力的數(shù)據(jù)集[5]。研究機(jī)構(gòu)高德納(Gartner)認(rèn)為大數(shù)據(jù)需要新的處理模型才能增強(qiáng)決策力、洞察力、優(yōu)化分析能力的高增長(zhǎng)和多樣化的信息資產(chǎn)(4)https://www.gartner.com/en/information-technology/glossary/big-data.。約翰·沃克(John Walker S)通過(guò)“4V”特征來(lái)定義大數(shù)據(jù),認(rèn)為大數(shù)據(jù)信息應(yīng)該滿足數(shù)據(jù)量巨大(Volume)、數(shù)據(jù)處理速度極快(Velocity)、數(shù)據(jù)形式多種多樣而不局限于結(jié)構(gòu)化的數(shù)據(jù)信息(Variety),有價(jià)值的信息隱含在海量的數(shù)據(jù)信息中,需要通過(guò)數(shù)據(jù)挖掘的技術(shù)方法提取出來(lái)(Value)[6]。維基百科中對(duì)“大數(shù)據(jù)”的定義是:利用傳統(tǒng)的計(jì)算機(jī)和方法來(lái)管理、處理消耗的時(shí)間超過(guò)可接受范圍的數(shù)據(jù)集。
國(guó)內(nèi)學(xué)者對(duì)大數(shù)據(jù)的概念也有所闡述?!洞髷?shù)據(jù)時(shí)代的歷史機(jī)遇》一書(shū)作者認(rèn)為大數(shù)據(jù)是指“在多樣的或者大量數(shù)據(jù)中,迅速獲取信息的能力”[7]。中科院院士徐宗本認(rèn)為,大數(shù)據(jù)是指不能夠集中存儲(chǔ),并且難以在可接受的時(shí)間內(nèi)分析處理的數(shù)據(jù),其中個(gè)體和部分?jǐn)?shù)據(jù)呈現(xiàn)低價(jià)值性而整體呈現(xiàn)高價(jià)值的海量復(fù)雜數(shù)據(jù)集[8]。中國(guó)通訊院(CAICT)在發(fā)布的《大數(shù)據(jù)白皮書(shū)(2016)》(5)http://www.cac.gov.cn/2016-12/28/c_1121534609.htm.中給大數(shù)據(jù)的定義是“復(fù)雜混合體的認(rèn)知理念”。
在此,可以將關(guān)于大數(shù)據(jù)概念的不同闡述總結(jié)如表1。
表1 關(guān)于大數(shù)據(jù)概念的主要表述
通過(guò)以上對(duì)大數(shù)據(jù)概念的梳理可以看到,不同的機(jī)構(gòu)和研究者對(duì)大數(shù)據(jù)的理解存在一定的差異,但均是從技術(shù)角度來(lái)界定,強(qiáng)調(diào)大數(shù)據(jù)信息體量超過(guò)了傳統(tǒng)計(jì)算機(jī)技術(shù)處理能力范圍。也有從價(jià)值角度來(lái)理解大數(shù)據(jù)概念的觀點(diǎn),主要的觀點(diǎn)總結(jié)如表2。
表2 大數(shù)據(jù)概念外延
學(xué)者對(duì)大數(shù)據(jù)的概念外延表述時(shí)更多強(qiáng)調(diào)大數(shù)據(jù)的價(jià)值,認(rèn)為大數(shù)據(jù)的核心在于能夠創(chuàng)造價(jià)值,而不是數(shù)據(jù)集本身。
通過(guò)這些專(zhuān)家和學(xué)者對(duì)“大數(shù)據(jù)”的描述或界定發(fā)現(xiàn)能被視為“大數(shù)據(jù)”的數(shù)據(jù)信息應(yīng)該具有如下特點(diǎn):
(1)數(shù)據(jù)體量大。傳統(tǒng)統(tǒng)計(jì)方法收集的數(shù)據(jù)信息量一般為KB級(jí)、MB級(jí),而大數(shù)據(jù)的信息量在GB級(jí)以上,甚至是TB、PB、EB級(jí)別的數(shù)據(jù)信息。
(2)傳統(tǒng)計(jì)算機(jī)在可接受的時(shí)間內(nèi)無(wú)法處理。傳統(tǒng)計(jì)算機(jī)計(jì)算能力有限,面對(duì)巨量的數(shù)據(jù)信息,無(wú)法有效勝任分析處理工作。
(3)數(shù)據(jù)信息多樣性。傳統(tǒng)的統(tǒng)計(jì)數(shù)據(jù)一般為截面數(shù)據(jù)、時(shí)間序列數(shù)據(jù)或面板數(shù)據(jù),歸結(jié)起來(lái)都是結(jié)構(gòu)化的數(shù)據(jù)信息,而大數(shù)據(jù)的數(shù)據(jù)信息擴(kuò)展了范圍,不僅包括結(jié)構(gòu)化的數(shù)據(jù),還包含文本、圖片、語(yǔ)音、視頻、網(wǎng)絡(luò)搜索、日志信息、URL等。
(4)高價(jià)值,但價(jià)值密度低。一堆無(wú)用的,對(duì)增強(qiáng)認(rèn)識(shí)事物能力無(wú)幫助的數(shù)據(jù)是不能稱(chēng)之為“大數(shù)據(jù)”的,高價(jià)值體現(xiàn)在“大數(shù)據(jù)”蘊(yùn)含的信息能夠提供傳統(tǒng)數(shù)據(jù)不能提供的精準(zhǔn)信息,但是由于數(shù)據(jù)量巨大,單個(gè)樣本或數(shù)據(jù)單元提供的價(jià)值信息降低,只能通過(guò)海量的數(shù)據(jù)分析才能提取出完整的價(jià)值信息。
當(dāng)前,應(yīng)用于經(jīng)濟(jì)學(xué)研究的大數(shù)據(jù)信息主要來(lái)源為網(wǎng)絡(luò)大數(shù)據(jù),包括百度搜索指數(shù)[12-13]、微博[14-15]、網(wǎng)絡(luò)新聞信息[16-17]等?;诖?,本研究以網(wǎng)絡(luò)大數(shù)據(jù)為主要分析對(duì)象,介紹網(wǎng)絡(luò)大數(shù)據(jù)在經(jīng)濟(jì)學(xué)研究中的優(yōu)勢(shì)。網(wǎng)絡(luò)大數(shù)據(jù)是指通過(guò)網(wǎng)絡(luò)平臺(tái)匯聚的數(shù)字、文本、圖片、語(yǔ)音、視頻等各類(lèi)信息,這些數(shù)據(jù)信息具有能被數(shù)據(jù)提供者以外的人通過(guò)網(wǎng)絡(luò)平臺(tái)及時(shí)獲取的可能,是極度分散又涵蓋范圍極廣的超大數(shù)據(jù)集。相比于傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù),這類(lèi)大數(shù)據(jù)信息具有如下獨(dú)特的屬性:
(1)時(shí)效性極強(qiáng)。通過(guò)互聯(lián)網(wǎng)平臺(tái)積累起來(lái)的數(shù)據(jù)信息存儲(chǔ)于網(wǎng)絡(luò)空間中,包括交易的數(shù)量、銷(xiāo)售的價(jià)格、發(fā)表的言論、檢索的關(guān)鍵詞等,這些信息在發(fā)生時(shí),實(shí)時(shí)在網(wǎng)絡(luò)中留下記錄痕跡,可以被一定的方法和技術(shù)提取出來(lái),用于處理和分析問(wèn)題,不存在時(shí)間滯后性。這是網(wǎng)絡(luò)大數(shù)據(jù)與傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)之間重要的區(qū)別。
(2)數(shù)據(jù)真實(shí)性強(qiáng)。網(wǎng)絡(luò)平臺(tái)記錄下的信息是在事件發(fā)生時(shí)按照實(shí)際的發(fā)生情況自動(dòng)記錄,減少了人為的干預(yù),提供原始的數(shù)據(jù),而非人為搜集經(jīng)過(guò)處理后的數(shù)據(jù)信息,相對(duì)更加真實(shí)。這里的真實(shí)性主要是指網(wǎng)絡(luò)痕跡信息是真實(shí)的,被篡改的概率較小。
(3)獲取數(shù)據(jù)成本較低。由于網(wǎng)絡(luò)大數(shù)據(jù)信息均在事件或交易發(fā)生時(shí)自動(dòng)被記錄下來(lái),無(wú)需人為調(diào)查和搜集,通過(guò)一定的技術(shù)方法即可提取出來(lái),并用于經(jīng)濟(jì)問(wèn)題的分析?;诔绦蚧臄?shù)據(jù)搜集方式能夠極大地節(jié)約人力成本的投入,相比于傳統(tǒng)人工填報(bào)的方式,能夠極大壓縮數(shù)據(jù)搜集成本。
(4)數(shù)據(jù)細(xì)分度高。為了降低成本,傳統(tǒng)的數(shù)據(jù)搜集會(huì)盡量搜集總量數(shù)據(jù),而非細(xì)分?jǐn)?shù)據(jù)信息。網(wǎng)絡(luò)大數(shù)據(jù)時(shí)代,提取總量數(shù)據(jù)信息與提取細(xì)分?jǐn)?shù)據(jù)信息的難度差異并不大,因此可以在不顯著增加成本的前提下,提供更加詳細(xì)和更加有意義的數(shù)據(jù)信息,這主要是由網(wǎng)絡(luò)數(shù)據(jù)搜集方式?jīng)Q定的。網(wǎng)絡(luò)數(shù)據(jù)信息繁雜,并且信息量巨大,數(shù)據(jù)搜集方式基本上是程序化的,利用計(jì)算機(jī)強(qiáng)大的數(shù)據(jù)處理能力和計(jì)算速度對(duì)數(shù)據(jù)按照設(shè)計(jì)者的思路來(lái)搜集并處理。由于所有個(gè)體微觀行為或其他標(biāo)識(shí)性信息均能夠通過(guò)一定方式獲取,設(shè)計(jì)者通過(guò)修改數(shù)據(jù)搜集和處理的程序即可改變數(shù)據(jù)的搜集范圍,能夠方便地處理細(xì)分化領(lǐng)域的數(shù)據(jù)信息。
(5)大樣本。利用互聯(lián)網(wǎng)大數(shù)據(jù)信息,可以獲取總體或者接近全體的樣本信息,而非通過(guò)統(tǒng)計(jì)抽樣的方式獲取樣本信息來(lái)推斷總體信息。在這樣的大數(shù)據(jù)支持下,用于計(jì)算的樣本量是海量的,并且能較大程度上接近全樣本,直接獲取較為全面的數(shù)據(jù)信息。傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)受制于搜集成本,基本上會(huì)基于統(tǒng)計(jì)理論,設(shè)計(jì)一定的抽樣方式,從整體中獲取少量樣本數(shù)據(jù)信息,利用抽樣的樣本信息來(lái)估計(jì)整體水平。這種方式獲取的數(shù)據(jù)質(zhì)量嚴(yán)重依賴(lài)于抽樣方法設(shè)計(jì)的合理性、數(shù)據(jù)采集過(guò)程的準(zhǔn)確性以及數(shù)據(jù)分析方案的科學(xué)性,容易造成選擇性偏差、數(shù)據(jù)失真、估計(jì)誤差等問(wèn)題。利用接近全樣本的數(shù)據(jù)信息能夠有效緩解上述弊端。
以上總結(jié)了網(wǎng)絡(luò)大數(shù)據(jù)信息的優(yōu)點(diǎn),這些優(yōu)點(diǎn)能給經(jīng)濟(jì)學(xué)研究帶來(lái)巨大的改變,主要體現(xiàn)在以下幾個(gè)方面:首先,經(jīng)濟(jì)指標(biāo)實(shí)時(shí)監(jiān)控(Now casting)成為可能,由于大數(shù)據(jù)具有較強(qiáng)時(shí)效性,能夠在短時(shí)間獲取海量的實(shí)時(shí)數(shù)據(jù),通過(guò)構(gòu)建網(wǎng)絡(luò)大數(shù)據(jù)與經(jīng)濟(jì)指標(biāo)之間的聯(lián)系,能夠?qū)崿F(xiàn)對(duì)經(jīng)濟(jì)狀況的實(shí)時(shí)監(jiān)控。其次,經(jīng)濟(jì)運(yùn)行“拐點(diǎn)”預(yù)測(cè)成為可能,傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)受制于滯后性問(wèn)題,只能利用歷史數(shù)據(jù)來(lái)歸納經(jīng)濟(jì)運(yùn)行規(guī)律,利用歷史規(guī)律來(lái)預(yù)測(cè)未來(lái),但大數(shù)據(jù)信息具有較好的時(shí)效性,能夠在更短的時(shí)間內(nèi)發(fā)現(xiàn)經(jīng)濟(jì)運(yùn)行的“拐點(diǎn)”,并指導(dǎo)做出及時(shí)的調(diào)控。第三,經(jīng)濟(jì)問(wèn)題宏微觀一體化研究成為可能。利用傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)做經(jīng)濟(jì)問(wèn)題分析時(shí),微觀數(shù)據(jù)信息無(wú)法直接用于分析宏觀經(jīng)濟(jì)問(wèn)題,大數(shù)據(jù)雖然獲取的是微觀個(gè)體的數(shù)據(jù)信息,但樣本量卻涵蓋了數(shù)以億計(jì)的群體(6)根據(jù)中國(guó)互聯(lián)網(wǎng)信息中心(China Internet Network Information Center,縮寫(xiě)CNNIC)統(tǒng)計(jì),截至2018年6月,我國(guó)網(wǎng)民規(guī)模已經(jīng)達(dá)到8.02億人,相比于2017年末增加3.8%,互聯(lián)網(wǎng)在全國(guó)普及率高達(dá)57.7%。 另?yè)?jù)互聯(lián)網(wǎng)數(shù)據(jù)研究機(jī)構(gòu)We Are Social和Hootsuite共同發(fā)布的“數(shù)字2018”(Digital in 2018)互聯(lián)網(wǎng)研究報(bào)告顯示2017年末全球網(wǎng)民人數(shù)達(dá)40億人,占全球總?cè)藬?shù)的50%。,匯聚這樣的數(shù)據(jù)信息量,足以反映宏觀經(jīng)濟(jì)狀況。最后,大數(shù)據(jù)信息能夠擴(kuò)展經(jīng)濟(jì)學(xué)研究范圍,傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)受制于數(shù)據(jù)搜集方式,難以統(tǒng)計(jì)全面的信息,而大數(shù)據(jù)可以更加細(xì)致地分析經(jīng)濟(jì)現(xiàn)象,擴(kuò)展經(jīng)濟(jì)問(wèn)題的研究范圍。
經(jīng)過(guò)以上的分析可以看到,由于大數(shù)據(jù)信息與傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)存在較大的差異,在經(jīng)濟(jì)問(wèn)題分析時(shí)具有獨(dú)特優(yōu)勢(shì),因此能夠給經(jīng)濟(jì)問(wèn)題的研究帶來(lái)巨大改變。但大數(shù)據(jù)信息的出現(xiàn)僅是對(duì)傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)的補(bǔ)充,是應(yīng)該融入到傳統(tǒng)經(jīng)濟(jì)問(wèn)題的研究過(guò)程當(dāng)中,還是對(duì)傳統(tǒng)經(jīng)濟(jì)問(wèn)題分析范式的顛覆?當(dāng)前對(duì)該問(wèn)題的探討較少,但對(duì)這一問(wèn)題的回答又十分重要,關(guān)系到利用大數(shù)據(jù)信息分析經(jīng)濟(jì)學(xué)問(wèn)題的科學(xué)性。接下來(lái)本文將就這一問(wèn)題進(jìn)行分析。
當(dāng)前,應(yīng)用大數(shù)據(jù)分析經(jīng)濟(jì)問(wèn)題的研究缺乏機(jī)制分析,而機(jī)制分析對(duì)規(guī)范的經(jīng)濟(jì)問(wèn)題研究十分重要。本節(jié)內(nèi)容首先在總結(jié)傳統(tǒng)經(jīng)濟(jì)問(wèn)題分析范式的基礎(chǔ)上提出應(yīng)用大數(shù)據(jù)來(lái)做經(jīng)濟(jì)分析的研究范式。本研究認(rèn)為大數(shù)據(jù)信息應(yīng)用于經(jīng)濟(jì)分析,是對(duì)傳統(tǒng)經(jīng)濟(jì)學(xué)分析方法中數(shù)據(jù)缺陷的改進(jìn),而非對(duì)傳統(tǒng)分析方法范式的顛覆。
傳統(tǒng)的經(jīng)濟(jì)問(wèn)題分析方法強(qiáng)調(diào)經(jīng)濟(jì)模型背后的理論基礎(chǔ),無(wú)論是統(tǒng)計(jì)學(xué)理論還是經(jīng)濟(jì)學(xué)理論基礎(chǔ),均能夠?yàn)榻?jīng)濟(jì)模型穩(wěn)定性提供良好的支撐。傳統(tǒng)的經(jīng)濟(jì)學(xué)研究從方法論上來(lái)說(shuō)是演繹法,其基本范式為“假設(shè)—檢驗(yàn)”。在具體的經(jīng)濟(jì)問(wèn)題研究過(guò)程中,通過(guò)已經(jīng)接受的經(jīng)濟(jì)規(guī)律進(jìn)行經(jīng)濟(jì)學(xué)邏輯推導(dǎo),并基于一定的約束性條件,給出所研究的經(jīng)濟(jì)問(wèn)題規(guī)律認(rèn)識(shí)的假說(shuō),最后利用經(jīng)驗(yàn)事實(shí)的數(shù)據(jù)信息來(lái)檢驗(yàn)或驗(yàn)證假說(shuō)的成立與否。若實(shí)證檢驗(yàn)結(jié)果與假說(shuō)一致,則暫時(shí)接受假說(shuō)關(guān)于事物關(guān)系的判斷,并指導(dǎo)實(shí)踐活動(dòng);否則,拒絕假說(shuō),修改假設(shè)、重新進(jìn)行邏輯推導(dǎo)并提出新的假說(shuō),再次進(jìn)行驗(yàn)證分析。傳統(tǒng)經(jīng)濟(jì)學(xué)的研究方法基于邏輯演繹推導(dǎo)結(jié)論,其遵循嚴(yán)格的科學(xué)規(guī)范,這種演繹推導(dǎo)的范式與自然科學(xué)并沒(méi)有本質(zhì)的區(qū)別[18]。其基本的研究范式可以用圖1表示。
圖1 傳統(tǒng)經(jīng)濟(jì)學(xué)研究的基本范式(7)借鑒汪毅霖[18]對(duì)經(jīng)濟(jì)學(xué)研究問(wèn)題范式的總結(jié)。
傳統(tǒng)經(jīng)濟(jì)學(xué)研究方法的邏輯背景是經(jīng)濟(jì)學(xué)研究可解釋性的基本要求以及傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)的有限樣本信息。首先,經(jīng)濟(jì)學(xué)是研究人類(lèi)經(jīng)濟(jì)活動(dòng)規(guī)律的學(xué)科,研究發(fā)現(xiàn)經(jīng)濟(jì)規(guī)律,以指導(dǎo)經(jīng)濟(jì)活動(dòng),創(chuàng)造價(jià)值。為了能夠指導(dǎo)經(jīng)濟(jì)活動(dòng),經(jīng)濟(jì)學(xué)的研究結(jié)論必須具有一定的理論可解釋性,若只是經(jīng)驗(yàn)總結(jié),難免造成“地心說(shuō)”類(lèi)的錯(cuò)誤判斷(8)“地心說(shuō)”是古代人對(duì)觀察到的現(xiàn)象進(jìn)行的經(jīng)驗(yàn)總結(jié)。,難以稱(chēng)為科學(xué);其次,由于數(shù)據(jù)采集手段以及成本的限制,傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)樣本量有限,基本依靠有限樣本來(lái)推斷總體的規(guī)律,為了實(shí)現(xiàn)這一目的,需要對(duì)樣本數(shù)據(jù)的統(tǒng)計(jì)屬性進(jìn)行大量假設(shè)或限制,以滿足有限樣本能夠代表總體樣本的統(tǒng)計(jì)規(guī)律。
基于前文可知大數(shù)據(jù)信息與傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)之間存在較大差異,在分析經(jīng)濟(jì)問(wèn)題時(shí)具有獨(dú)特的優(yōu)勢(shì),將大數(shù)據(jù)應(yīng)用于經(jīng)濟(jì)問(wèn)題的研究分析中應(yīng)該遵循怎樣的研究范式呢?接下來(lái)將就這一問(wèn)題進(jìn)行探討。
維克托·麥爾-舍恩伯格(Viktor Mayer-Schonberger)的著作《大數(shù)據(jù)時(shí)代》(BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink)認(rèn)為在大數(shù)據(jù)時(shí)代,研究問(wèn)題時(shí)不必注重?cái)?shù)據(jù)之間的“因果關(guān)系”,而只需要關(guān)注數(shù)據(jù)之間的“相關(guān)關(guān)系”即可[6]。因此,當(dāng)前許多利用大數(shù)據(jù)信息來(lái)做經(jīng)濟(jì)分析或預(yù)測(cè)的研究并不探求經(jīng)濟(jì)變量之間的內(nèi)在邏輯聯(lián)系,而是獲取大數(shù)據(jù)信息后就直接用于模型分析,最后查看模型的效果,得出研究結(jié)論[19-24]。這種分析研究問(wèn)題的方法從方法論的角度可以認(rèn)為是歸納法,而歸納法研究問(wèn)題的基本范式為“歸納—總結(jié)”。
由于大數(shù)據(jù)應(yīng)用于經(jīng)濟(jì)學(xué)問(wèn)題分析的研究還未形成標(biāo)準(zhǔn)的研究范式,還處于探索的過(guò)程中,因此,當(dāng)前的大部分研究都只是應(yīng)用大數(shù)據(jù)信息來(lái)分析經(jīng)濟(jì)學(xué)問(wèn)題的嘗試,但這些研究大都過(guò)分強(qiáng)調(diào)大數(shù)據(jù)分析問(wèn)題時(shí)的“相關(guān)性”,較少去分析“因果性”問(wèn)題。這樣的處理方式的好處是研究者有充分的自由空間,設(shè)計(jì)模型時(shí)不再受到約束條件的限制,發(fā)現(xiàn)和應(yīng)用數(shù)據(jù)來(lái)分析經(jīng)濟(jì)問(wèn)題變得簡(jiǎn)單化,讓數(shù)據(jù)自己發(fā)聲。如果通過(guò)數(shù)據(jù)發(fā)現(xiàn)了某種規(guī)律就認(rèn)為是真理,經(jīng)濟(jì)規(guī)律成了數(shù)據(jù)間相關(guān)關(guān)系的副產(chǎn)品,而非理性推導(dǎo)的必然結(jié)果。當(dāng)前,大數(shù)據(jù)研究夸大相關(guān)性的作用,有意忽視經(jīng)濟(jì)問(wèn)題的因果關(guān)系,這樣的研究范式難以讓大數(shù)據(jù)經(jīng)濟(jì)分析成為一門(mén)真正的科學(xué),可能會(huì)成為一種迷信式的思維[18]。這樣的經(jīng)濟(jì)問(wèn)題研究方式將導(dǎo)致研究結(jié)論難以解釋并且缺乏說(shuō)服力。經(jīng)濟(jì)問(wèn)題的研究目的是解釋經(jīng)濟(jì)問(wèn)題、指導(dǎo)經(jīng)濟(jì)活動(dòng),若經(jīng)濟(jì)研究的結(jié)論僅僅依靠的是數(shù)據(jù)之間的相關(guān)性表現(xiàn),則難以從理論上解釋為何具有這樣的相關(guān)性,難以形成對(duì)經(jīng)濟(jì)規(guī)律認(rèn)識(shí)的邏輯體系。另外,在大樣本數(shù)據(jù)信息的條件下篩選變量之間的相關(guān)性,會(huì)存在“強(qiáng)相關(guān)性表現(xiàn)是否是偶然現(xiàn)象”這樣的疑問(wèn),研究結(jié)論缺乏說(shuō)服力。
本研究認(rèn)為將大數(shù)據(jù)信息應(yīng)用于經(jīng)濟(jì)問(wèn)題的分析是對(duì)傳統(tǒng)經(jīng)濟(jì)問(wèn)題研究方法中數(shù)據(jù)缺陷的改進(jìn),而非對(duì)傳統(tǒng)經(jīng)濟(jì)學(xué)研究方法范式的顛覆。因此,應(yīng)用大數(shù)據(jù)來(lái)分析經(jīng)濟(jì)問(wèn)題時(shí),依然需要遵循一般化的經(jīng)濟(jì)問(wèn)題研究范式。但由于大數(shù)據(jù)自身的信息特點(diǎn),也會(huì)對(duì)一般化的經(jīng)濟(jì)問(wèn)題的研究范式產(chǎn)生影響,這種影響主要是關(guān)于數(shù)據(jù)信息方面的假設(shè)。因?yàn)榇髷?shù)據(jù)信息的來(lái)源廣泛,而且數(shù)據(jù)信息量巨大,獲取全樣本或近乎全樣本的數(shù)據(jù)信息成為可能。傳統(tǒng)經(jīng)濟(jì)問(wèn)題研究使用的數(shù)據(jù)基本要求滿足一定的抽樣理論,以使獲取的數(shù)據(jù)具有足夠的代表性,而近乎全樣本的信息量則不再考慮樣本的代表性問(wèn)題,可以放寬數(shù)據(jù)統(tǒng)計(jì)屬性的假設(shè)。
大數(shù)據(jù)信息又增加了一個(gè)問(wèn)題,那就是數(shù)據(jù)噪聲的問(wèn)題。大數(shù)據(jù)信息量巨大,但數(shù)據(jù)信息中無(wú)效信息也急劇增加,如果無(wú)法有效地去除噪聲信息,將對(duì)經(jīng)濟(jì)問(wèn)題的研究結(jié)果造成巨大的影響,甚至導(dǎo)致對(duì)經(jīng)濟(jì)問(wèn)題規(guī)律認(rèn)識(shí)的錯(cuò)誤判斷,沒(méi)有經(jīng)過(guò)去噪處理的大數(shù)據(jù)信息將會(huì)導(dǎo)致“垃圾進(jìn)入,垃圾輸出”(garbage in,garbage out)。在具體經(jīng)濟(jì)問(wèn)題的分析過(guò)程中,網(wǎng)絡(luò)數(shù)據(jù)信息的使用需要很強(qiáng)的技巧性來(lái)剝離與研究問(wèn)題不相關(guān)的網(wǎng)絡(luò)信息。例如在使用網(wǎng)民網(wǎng)絡(luò)搜索“通貨膨脹”的頻率信息時(shí),針對(duì)該搜索行為的動(dòng)機(jī)可能是關(guān)注市場(chǎng)價(jià)格整體變動(dòng),也可能是查看經(jīng)濟(jì)學(xué)名詞的含義,而這兩種不同的搜索動(dòng)機(jī)對(duì)具體的經(jīng)濟(jì)問(wèn)題研究具有不同的意義,因此在利用網(wǎng)絡(luò)數(shù)據(jù)時(shí)需要通過(guò)特定的方式來(lái)識(shí)別、剔除與研究問(wèn)題無(wú)關(guān)的信息。若處理不當(dāng),可能會(huì)導(dǎo)致研究結(jié)論與真實(shí)情況之間存在較大的偏差。
當(dāng)前,針對(duì)大數(shù)據(jù)信息的去噪方法,主要是通過(guò)統(tǒng)計(jì)學(xué)的方式來(lái)篩選[25-27],但這種方式依然基于“歸納—總結(jié)”的研究范式,只要具有統(tǒng)計(jì)學(xué)意義上的強(qiáng)相關(guān)性或者滿足其他的相關(guān)性就認(rèn)為數(shù)據(jù)信息有助于預(yù)測(cè)和分析經(jīng)濟(jì)問(wèn)題。這樣的研究思路依然避免不了“偽回歸”類(lèi)的錯(cuò)誤,以此為依據(jù)的研究結(jié)論也不具有強(qiáng)說(shuō)服力。例如Ginsberg等利用“谷歌”數(shù)據(jù)庫(kù),基于相關(guān)性來(lái)篩選與流感相關(guān)的“關(guān)鍵詞”,最終得到了5 000多萬(wàn)個(gè)“關(guān)鍵詞”的搜索時(shí)間序列數(shù)據(jù),并利用該大數(shù)據(jù)信息來(lái)預(yù)測(cè)流感爆發(fā)時(shí)間,得到了較好的預(yù)測(cè)效果[27],相關(guān)成果發(fā)表在《NATURE》雜志上,轟動(dòng)一時(shí)。但這樣的研究思路得出的規(guī)律卻無(wú)法應(yīng)用于現(xiàn)實(shí)。2014年,《SCIENCE》雜志發(fā)表的一篇文章指出Ginsberg等的預(yù)測(cè)方法存在嚴(yán)重的問(wèn)題,應(yīng)用該方法來(lái)預(yù)測(cè)2011年8月至2013年9月流感爆發(fā)時(shí)間的結(jié)果誤差比傳統(tǒng)統(tǒng)計(jì)方法預(yù)測(cè)結(jié)果更高[28]。該研究以相關(guān)性為依據(jù)選擇網(wǎng)絡(luò)數(shù)據(jù)信息,缺乏對(duì)網(wǎng)絡(luò)數(shù)據(jù)背后行為動(dòng)機(jī)的考察,導(dǎo)致模型高精度的預(yù)測(cè)效果難以持續(xù)。在面對(duì)海量數(shù)據(jù)信息時(shí),總能找到與研究問(wèn)題強(qiáng)相關(guān)的數(shù)據(jù),但強(qiáng)相關(guān)并不一定意味著存在直接的邏輯關(guān)系。因此,本研究認(rèn)為針對(duì)大數(shù)據(jù)的“去噪”處理也應(yīng)該基于經(jīng)濟(jì)學(xué)的理論分析,在篩選數(shù)據(jù)信息時(shí),應(yīng)在經(jīng)濟(jì)學(xué)理論指導(dǎo)下判斷哪些數(shù)據(jù)信息應(yīng)該被收納到經(jīng)濟(jì)學(xué)問(wèn)題的分析中,而不應(yīng)該僅僅只是考察統(tǒng)計(jì)關(guān)系。
基于以上的分析,本研究總結(jié)了利用大數(shù)據(jù)做經(jīng)濟(jì)學(xué)問(wèn)題分析時(shí)的一般范式,如圖2。
圖2 大數(shù)據(jù)對(duì)傳統(tǒng)經(jīng)濟(jì)學(xué)問(wèn)題研究范式的改進(jìn)
大數(shù)據(jù)(Big Data)概念自1997年首次提出來(lái)后(9)美國(guó)宇航局研究員邁克爾·考克斯(Michael Cox)以及大衛(wèi)·埃爾斯沃斯(David Ellsworth)在當(dāng)年美國(guó)電子電器工程師學(xué)會(huì)(IEEE)舉辦的第八屆可視化會(huì)議上將超級(jí)計(jì)算模擬飛機(jī)在飛行過(guò)程中氣流的超大信息稱(chēng)之為“大數(shù)據(jù)”。,自然科學(xué)和社會(huì)科學(xué)工作者均對(duì)其產(chǎn)生了濃厚的興趣。自然科學(xué)關(guān)注大數(shù)據(jù)的技術(shù)特征,包括數(shù)據(jù)量的大小,是否能夠在較短的時(shí)間獲取以及是否能夠在傳統(tǒng)計(jì)算機(jī)上在可接受的時(shí)間內(nèi)處理和分析等技術(shù)細(xì)節(jié);社會(huì)科學(xué)則更加關(guān)注大數(shù)據(jù)的價(jià)值特征,強(qiáng)調(diào)大數(shù)據(jù)能夠增強(qiáng)當(dāng)前人類(lèi)對(duì)社會(huì)經(jīng)濟(jì)問(wèn)題的認(rèn)識(shí)能力,能夠改進(jìn)人類(lèi)社會(huì)生產(chǎn)和生活方式。整體而言,大數(shù)據(jù)信息具有體量大、難處理、信息多樣性以及高價(jià)值的特征,具有這樣特征的大數(shù)據(jù)信息應(yīng)用于經(jīng)濟(jì)學(xué)問(wèn)題的分析能夠帶來(lái)傳統(tǒng)數(shù)據(jù)無(wú)法具備的一些優(yōu)勢(shì),包括高時(shí)效性、數(shù)據(jù)誤差率低、數(shù)據(jù)成本低、數(shù)據(jù)細(xì)分度高以及大樣本屬性。傳統(tǒng)經(jīng)濟(jì)學(xué)主要研究因果判斷問(wèn)題,基于抽樣理論獲取有限樣本信息用于實(shí)證,并在一系列嚴(yán)格假設(shè)基礎(chǔ)上推斷因果關(guān)系。這樣的研究范式對(duì)樣本數(shù)據(jù)信息的假設(shè)過(guò)于嚴(yán)苛,以至于有些假設(shè)在實(shí)際問(wèn)題中難以完全滿足,因此具有一定的局限性。大數(shù)據(jù)信息在一定程度上能夠緩解小樣本或者有限樣本的缺陷,有助于適當(dāng)放寬對(duì)樣本數(shù)據(jù)的假設(shè)條件,進(jìn)而帶來(lái)經(jīng)濟(jì)學(xué)問(wèn)題分析范式的改進(jìn)。
大數(shù)據(jù)時(shí)代的來(lái)臨,帶來(lái)了與傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)不同屬性的數(shù)據(jù)信息,經(jīng)濟(jì)學(xué)問(wèn)題研究者為之興奮,甚至認(rèn)為大數(shù)據(jù)已經(jīng)突破傳統(tǒng)假設(shè)檢驗(yàn)的研究范式,大數(shù)據(jù)使得因果關(guān)系變得不太重要[29]。做出如此樂(lè)觀判斷的主要依據(jù)是大數(shù)據(jù)可能獲取總體樣本信息,暫且認(rèn)為這種判斷是合理的,即使如此,經(jīng)濟(jì)學(xué)研究經(jīng)濟(jì)規(guī)律,總體數(shù)據(jù)信息僅僅是經(jīng)濟(jì)規(guī)律影響下的外在表現(xiàn)而已,而從經(jīng)濟(jì)內(nèi)在規(guī)律到外在表現(xiàn)之間并不是一一對(duì)應(yīng)的關(guān)系。例如我們分析X影響Y的問(wèn)題時(shí),并不會(huì)簡(jiǎn)單看兩者之間的相關(guān)系數(shù)就判斷他們之間的關(guān)系,而是會(huì)通過(guò)計(jì)量模型控制其他重要的影響因素,更多可能的影響因素則放置到隨機(jī)干擾項(xiàng)中。全樣本信息也僅僅能獲取某一維度或有限維度的信息量,無(wú)法獲取影響Y的全息數(shù)據(jù)信息(10)筆者認(rèn)為的全息數(shù)據(jù)信息是能夠描述影響該經(jīng)濟(jì)規(guī)律或現(xiàn)象的一切有關(guān)因素的數(shù)據(jù)信息。。在全息數(shù)據(jù)信息條件下,或許可以顛覆傳統(tǒng)經(jīng)濟(jì)學(xué)研究范式,通過(guò)簡(jiǎn)單的數(shù)據(jù)統(tǒng)計(jì)分析即可發(fā)現(xiàn)經(jīng)濟(jì)規(guī)律,但在可見(jiàn)的未來(lái),全息數(shù)據(jù)信息依然是無(wú)法實(shí)現(xiàn)的目標(biāo)。
大數(shù)據(jù)的出現(xiàn)給當(dāng)前的經(jīng)濟(jì)學(xué)研究帶來(lái)了不同的數(shù)據(jù)信息來(lái)源,通過(guò)這些數(shù)據(jù)來(lái)源獲取的數(shù)據(jù)信息能夠改進(jìn)傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)的不足。由于大數(shù)據(jù)信息并不等同于全息數(shù)據(jù)信息,因此無(wú)法完全涵蓋影響某一經(jīng)濟(jì)學(xué)問(wèn)題的全部因素。基于以上的分析,大數(shù)據(jù)僅是對(duì)傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)的補(bǔ)充,能在局部改變經(jīng)濟(jì)學(xué)的研究范式,而非對(duì)傳統(tǒng)經(jīng)濟(jì)問(wèn)題研究范式的顛覆。
當(dāng)前,大數(shù)據(jù)在經(jīng)濟(jì)學(xué)中的應(yīng)用相對(duì)混亂,還沒(méi)有形成固定范式。另外,大數(shù)據(jù)概念發(fā)展至今,也依然沒(méi)有形成廣泛認(rèn)可的理論來(lái)支撐大數(shù)據(jù)的應(yīng)用。截至目前,最為常用的大數(shù)據(jù)信息為網(wǎng)絡(luò)搜索數(shù)據(jù)以及文本數(shù)據(jù)。本研究認(rèn)為未來(lái)可以研究網(wǎng)民檢索行為的規(guī)律,組成大數(shù)據(jù)理論的一部分,為應(yīng)用大數(shù)據(jù)信息來(lái)分析經(jīng)濟(jì)問(wèn)題提供理論支撐。此外,隨著自然語(yǔ)言處理(NLP)技術(shù)的發(fā)展,文本數(shù)據(jù)將極大擴(kuò)展經(jīng)濟(jì)問(wèn)題研究思路,為大數(shù)據(jù)理論分析和應(yīng)用帶來(lái)廣闊的應(yīng)用前景。大數(shù)據(jù)噪聲是影響大數(shù)據(jù)應(yīng)用于經(jīng)濟(jì)問(wèn)題分析的主要因素,探索合理有效的大數(shù)據(jù)去噪方法或理論是未來(lái)大數(shù)據(jù)應(yīng)用研究的主要方向。