張學(xué)立
摘要:隨著國(guó)際貿(mào)易理論的發(fā)展以及微觀計(jì)量經(jīng)濟(jì)學(xué)的引入,越來越多的研究關(guān)注到了微觀企業(yè)行為在國(guó)際貿(mào)易中起到的作用,中國(guó)經(jīng)濟(jì)學(xué)者越來越重視微觀數(shù)據(jù)的開發(fā)和使用。其中,中國(guó)工業(yè)企業(yè)數(shù)據(jù)庫(kù)和海關(guān)貿(mào)易數(shù)據(jù)庫(kù)成為國(guó)內(nèi)外學(xué)者研究中國(guó)企業(yè)在國(guó)際貿(mào)易中行為和績(jī)效的主要數(shù)據(jù)庫(kù)。但是,將企業(yè)層面的生產(chǎn)數(shù)據(jù)和產(chǎn)品層面的貿(mào)易數(shù)據(jù)合并會(huì)面臨一定的技術(shù)問題。兩組數(shù)據(jù)庫(kù)的編碼系統(tǒng)完全不同,企業(yè)數(shù)據(jù)庫(kù)中企業(yè)編號(hào)為9位,而貿(mào)易數(shù)據(jù)庫(kù)中企業(yè)編號(hào)為10位,將兩個(gè)數(shù)據(jù)庫(kù)匹配起來是有困難的。本文介紹了將兩個(gè)數(shù)據(jù)庫(kù)合并的幾種方法,并給出了各種方法匹配出來的效果。
關(guān)鍵詞:中國(guó)工業(yè)企業(yè)數(shù)據(jù)庫(kù);海關(guān)貿(mào)易數(shù)據(jù)庫(kù);合并
一、中國(guó)工業(yè)企業(yè)數(shù)據(jù)庫(kù)和海關(guān)貿(mào)易數(shù)據(jù)庫(kù)使用概況
在經(jīng)驗(yàn)研究中,企業(yè)級(jí)和產(chǎn)品級(jí)的微觀數(shù)據(jù)正在受到越來越多的重視。數(shù)據(jù)是經(jīng)驗(yàn)研究的根本,因此數(shù)據(jù)質(zhì)量的好壞直接決定了經(jīng)驗(yàn)研究的質(zhì)量。其中,中國(guó)工業(yè)企業(yè)數(shù)據(jù)庫(kù)和海關(guān)貿(mào)易數(shù)據(jù)庫(kù)成為國(guó)內(nèi)外學(xué)者研究中國(guó)企業(yè)在國(guó)際貿(mào)易中行為和績(jī)效的主要數(shù)據(jù)庫(kù)。他們的研究成果廣泛的發(fā)表在國(guó)內(nèi)著名學(xué)術(shù)期刊上,包括《經(jīng)濟(jì)研究》、《管理世界》、《經(jīng)濟(jì)學(xué)(季刊)》、《世界經(jīng)濟(jì)》等。
楊汝岱在《區(qū)位地理與企業(yè)出口產(chǎn)品價(jià)格差異研究》中用兩個(gè)數(shù)據(jù)庫(kù)從區(qū)位地理的角度解釋中國(guó)出口產(chǎn)品的價(jià)格差異,越偏遠(yuǎn)的地方,企業(yè)出口產(chǎn)品的價(jià)格相對(duì)越低,初步反映出我國(guó)出口產(chǎn)業(yè)的梯度分工模式。余淼杰在《企業(yè)出口強(qiáng)度與進(jìn)口中間品貿(mào)易自由化:來自中國(guó)企業(yè)的實(shí)證研究》一文中,使用中國(guó)制造企業(yè)數(shù)據(jù)和貿(mào)易數(shù)據(jù),發(fā)現(xiàn)企業(yè)面臨的中間品關(guān)稅的下降顯著提高了企業(yè)的出口強(qiáng)度,即出口占銷售的比例。戴覓在《中國(guó)出口企業(yè)生產(chǎn)率之謎:加工貿(mào)易的作用》一文中,通過2000—2006年企業(yè)—海關(guān)數(shù)據(jù)的分析表明,中國(guó)存在“出口企業(yè)生產(chǎn)率之謎”完全是由中國(guó)大量的加工貿(mào)易企業(yè)導(dǎo)致。除此之外,還有一系列研究運(yùn)用中國(guó)工業(yè)企業(yè)數(shù)據(jù)庫(kù)和海關(guān)貿(mào)易數(shù)據(jù)庫(kù)得出了很好的結(jié)論。
但是,將企業(yè)層面的生產(chǎn)數(shù)據(jù)和產(chǎn)品層面的貿(mào)易數(shù)據(jù)合并會(huì)面臨一定的技術(shù)問題。兩組數(shù)據(jù)庫(kù)的編碼系統(tǒng)完全不同,企業(yè)數(shù)據(jù)庫(kù)中企業(yè)編號(hào)為9位,而貿(mào)易數(shù)據(jù)庫(kù)中企業(yè)編號(hào)為10位,將兩個(gè)數(shù)據(jù)庫(kù)匹配起來是有困難的。并且,兩個(gè)數(shù)據(jù)庫(kù)原始數(shù)據(jù)存在很多問題,如樣本匹配混亂、指標(biāo)缺失、變量大小異常、側(cè)度誤差明顯和變量定義模糊等嚴(yán)重問題。本文介紹了將兩個(gè)數(shù)據(jù)庫(kù)合并的幾種方法,并給出如何整理數(shù)據(jù),剔除異常值的步驟和建議。
文章余下部分安排如下:第二部分簡(jiǎn)要介紹了兩個(gè)數(shù)據(jù)庫(kù)的特征;第三部分介紹了兩個(gè)數(shù)據(jù)庫(kù)的并方法;第四部分是結(jié)論和建議。
二、兩個(gè)數(shù)據(jù)庫(kù)基本介紹
(一)中國(guó)工業(yè)企業(yè)數(shù)據(jù)庫(kù)的基本介紹
中國(guó)制造業(yè)企業(yè)數(shù)據(jù)庫(kù)由國(guó)家統(tǒng)計(jì)局建立,它的數(shù)據(jù)主要來自于樣本企業(yè)提交給當(dāng)?shù)亟y(tǒng)計(jì)局的季報(bào)和年報(bào)匯總。包括2000年到2006年每年約230000個(gè)制造業(yè)企業(yè)的生產(chǎn)信息。這套數(shù)據(jù)包括了3張會(huì)計(jì)報(bào)表:損益表,資產(chǎn)負(fù)債表和現(xiàn)金流量表,共100多個(gè)會(huì)計(jì)變量。這套數(shù)據(jù)每年涵蓋的企業(yè)生產(chǎn)總值占中國(guó)總工業(yè)生產(chǎn)總值約95%,實(shí)際上《中國(guó)統(tǒng)計(jì)年鑒》中的加總的工業(yè)數(shù)據(jù)就是從這套數(shù)據(jù)加總而來。數(shù)據(jù)包括兩大類型企業(yè),所有國(guó)有企業(yè)以及年銷售額在500萬元以上的非國(guó)有企業(yè)。企業(yè)數(shù)目從2000年的162885家增長(zhǎng)到了2006年的301961家。
(二)海關(guān)貿(mào)易數(shù)據(jù)庫(kù)的基本介紹
海關(guān)數(shù)據(jù)庫(kù)包括了2000-2006年產(chǎn)品層面交易的月度數(shù)據(jù)。每個(gè)產(chǎn)品都是在HS8位碼上,產(chǎn)品數(shù)量從2000年1月的78種增加到2006年12月的230種,每年平均的觀測(cè)值數(shù)目由2000年的1000萬增加到2006年的1600萬,最終這7年的觀測(cè)值總數(shù)約為118333831個(gè),大約有286819家企業(yè)參與了國(guó)際貿(mào)易。
三、兩個(gè)數(shù)據(jù)庫(kù)合并的方法
(一)按企業(yè)名稱對(duì)接兩個(gè)數(shù)據(jù)庫(kù)
根據(jù)企業(yè)的姓名和年份匹配,在同一年的兩套數(shù)據(jù)中有相同的名字則認(rèn)為是同一個(gè)企業(yè)。年份這一變量對(duì)于匹配是重要的,因?yàn)橐恍┢髽I(yè)在不同年份企業(yè)名稱可能不同,并且新進(jìn)入的企業(yè)有可能采用他們?cè)瓉淼拿Q。
《中國(guó)的多產(chǎn)品出口企業(yè)及其產(chǎn)品范圍:事實(shí)與解釋》采用此種方法,目的是為了剔除中間商。同時(shí)出現(xiàn)在海關(guān)數(shù)據(jù)庫(kù)和工業(yè)企業(yè)數(shù)據(jù)庫(kù)中的企業(yè)必然不是純粹的中間商,因此留下來的樣本就是剔除了中間商的樣本。用此種方法合并,最后得到2000-2005年的企業(yè)數(shù)量分別為22631,26038,30629,37103,42259,44136家。合并后的數(shù)據(jù)庫(kù)企業(yè)出口額達(dá)到了原海關(guān)數(shù)據(jù)中出口額的60%。這樣,合并后的數(shù)據(jù)就近包括有出口行為的工業(yè)企業(yè)的進(jìn)出口和企業(yè)的投入產(chǎn)出信息。
兩篇文章匹配出的結(jié)果一樣。
(二)使用郵政編碼和電話號(hào)碼對(duì)企業(yè)進(jìn)行識(shí)別
通過企業(yè)的郵政編碼和最后7位電話號(hào)碼進(jìn)行匹配,因?yàn)樵诿恳粋€(gè)郵政地區(qū)中,企業(yè)的號(hào)碼不同。《加工貿(mào)易、企業(yè)生產(chǎn)率和關(guān)稅減免——來自中國(guó)產(chǎn)品面的數(shù)據(jù)》一文采用此種方法。篩選之后,有218024家企業(yè)的產(chǎn)品貿(mào)易數(shù)據(jù)(海關(guān)貿(mào)易數(shù)據(jù))保持有效,占到了全部640352個(gè)企業(yè)樣本中的34%。同理,對(duì)企業(yè)數(shù)據(jù)集,剔除掉其中郵政編碼或電話號(hào)碼無效的樣本后,剩余的企業(yè)樣本數(shù)為973207。繼續(xù)按照先前的標(biāo)準(zhǔn)進(jìn)行篩選,則還剩下433273個(gè)企業(yè)樣本,占到了973207家企業(yè)中的44.5%。在此基礎(chǔ)上,文章將產(chǎn)品貿(mào)易數(shù)據(jù)和企業(yè)生產(chǎn)數(shù)據(jù)歸并整合起來。
(三)采用企業(yè)名稱以及郵政編碼和電話號(hào)碼兩種方法匹配,然后取并集
《企業(yè)出口強(qiáng)度與進(jìn)口中間品貿(mào)易自由化:來自中國(guó)企業(yè)的實(shí)證研究》一文首先根據(jù)企業(yè)的姓名和年份匹配,在同一年的兩套數(shù)據(jù)中有相同的名字則認(rèn)為是同一個(gè)企業(yè)。這樣如果使用原始的工業(yè)企業(yè)數(shù)據(jù),我們可以匹配到83679家企業(yè)。如果使用篩選(根據(jù)“通用會(huì)計(jì)準(zhǔn)則”(GAPP)中的規(guī)定)過后的,我們可以匹配到69623家企業(yè)。第二種方法通過企業(yè)的郵政編碼和最后7位電話號(hào)碼進(jìn)行匹配。
一些企業(yè)有可能在工業(yè)庫(kù)或海關(guān)庫(kù)中沒有匯報(bào)企業(yè)名稱,同樣,其郵編和電話號(hào)碼也可能只出現(xiàn)在一套數(shù)據(jù)中。為了保證能匹配到更多的企業(yè),將兩種方法得到的數(shù)據(jù)取并集。如此,用原始工業(yè)企業(yè)數(shù)據(jù)成功匹配的企業(yè)數(shù)有90558個(gè)。篩選(根據(jù)“通用會(huì)計(jì)準(zhǔn)則”(GAPP)中的規(guī)定)后的有76823個(gè)。
(四)將企業(yè)名稱拆分成若干詞段,用這些詞段去搜尋匹配
在數(shù)據(jù)匹配上,首先按每家企業(yè)的企業(yè)名稱完全匹配,接下來將不能完全匹配上的海關(guān)庫(kù)企業(yè)中,按貿(mào)易額大小排序,將每家企業(yè)的企業(yè)名稱拆分成若干詞段,用這些詞段去和工業(yè)庫(kù)企業(yè)名稱搜尋匹配,如果每個(gè)詞段都能匹配上,賦值匹配類型為“1”,如果只有部分詞段匹配上,按匹配要求的精度可逐步賦值。
四、小結(jié)和建議
從現(xiàn)有文獻(xiàn)來看,合并兩個(gè)數(shù)據(jù)庫(kù)的主要方法有:1.通過企業(yè)名稱和年份進(jìn)行匹配;2.郵政編碼和最后7位電話號(hào)碼進(jìn)行匹配;3.將企業(yè)名稱分為若干詞段來匹配;4.代碼表轉(zhuǎn)換。由于第三種方法要求匹配的精度不好確定,以及第四種方法代碼表轉(zhuǎn)換不全面,不建議使用。建議使用第一種和第二種方法匹配所得到的數(shù)據(jù)取并集。
參考文獻(xiàn):
[1]錢學(xué)鋒,王勝,陳勇兵.中國(guó)的多產(chǎn)品出口企業(yè)及其產(chǎn)品范圍:事實(shí)與解釋[J].管理世界,2013(01):9-27.
[2]楊汝岱,李艷.區(qū)位地理與企業(yè)出口產(chǎn)品價(jià)格差異研究[J]管理世界,2013(07):21-30.
[3]戴覓,余淼杰.中國(guó)出口企業(yè)生產(chǎn)率之謎:加工貿(mào)易的作用[J].經(jīng)濟(jì)學(xué):季刊,2014,13(02).
[4]陳勇兵,李燕,周世民.中國(guó)企業(yè)出口持續(xù)時(shí)間及其決定因素[J].經(jīng)濟(jì)研究,2012(07):48-61.