白燕燕,楚菲菲,趙永強
統(tǒng)計面臨新挑戰(zhàn)
白燕燕1,楚菲菲1,趙永強2
(1.蘭州財經(jīng)大學(xué),甘肅 蘭州730000;2.內(nèi)蒙古工業(yè)大學(xué)理學(xué)院,內(nèi)蒙古呼和浩特010051)
“大數(shù)據(jù)”是伴隨著網(wǎng)絡(luò)新技術(shù)的發(fā)展產(chǎn)生的數(shù)據(jù)形態(tài),本質(zhì)上是數(shù)據(jù)生產(chǎn)、傳輸和應(yīng)用的社會化?!按髷?shù)據(jù)”不在于數(shù)據(jù)量的多少,而是一種“以數(shù)據(jù)為大”的方法論,對傳統(tǒng)統(tǒng)計工作的理念、方法以及價值將產(chǎn)生重大的沖擊,對當(dāng)前統(tǒng)計管理體制、機構(gòu)設(shè)置、數(shù)據(jù)價值等形成了挑戰(zhàn)。政府統(tǒng)計應(yīng)當(dāng)借助于“大數(shù)據(jù)”所帶來的有利條件,從優(yōu)化統(tǒng)計機構(gòu)設(shè)置、推進統(tǒng)計業(yè)務(wù)數(shù)據(jù)化,提高數(shù)據(jù)挖掘分析能力等方面加快推進政府統(tǒng)計的改革。
大數(shù)據(jù);統(tǒng)計;數(shù)據(jù)挖掘
1.1當(dāng)代大數(shù)據(jù)的特點
在當(dāng)代世界,網(wǎng)絡(luò)上越來越多的數(shù)據(jù)是在我們周圍不斷增多的電子設(shè)備傳感器上產(chǎn)生的。隨著數(shù)據(jù)的數(shù)量和頻率的增加,“大數(shù)據(jù)”的概念應(yīng)用而生。其特點是數(shù)量巨大(volume)、增長迅速(velocity)、形式多樣(variety),即3V的特點。大數(shù)據(jù)主要是非結(jié)構(gòu)化的數(shù)據(jù),這意味著它沒有預(yù)定義的數(shù)據(jù)模型,并且不同于傳統(tǒng)的關(guān)系數(shù)據(jù)庫。大數(shù)據(jù)除了在私有企業(yè)創(chuàng)造新的商業(yè)機會外,也可以將有趣的官方統(tǒng)計數(shù)據(jù)作為輸入,或者結(jié)合如抽樣調(diào)查和行政登記這樣更傳統(tǒng)的數(shù)據(jù)源進行分析。然而,收集的信息用大數(shù)據(jù)方法合并成一個統(tǒng)計生產(chǎn)過程并不容易。因此,本文將試圖解決兩個基本問題,即What和How:國家統(tǒng)計局應(yīng)該注重什么樣的子集大數(shù)據(jù)并給予官方統(tǒng)計?國家統(tǒng)計局如何利用大數(shù)據(jù)并克服它所帶來的挑戰(zhàn)?
1.2統(tǒng)計的可靠性
數(shù)據(jù)革命是跟蹤并儲存人們產(chǎn)生的行動、選擇、喜好,以此來了解他們的日常生活。官方統(tǒng)計數(shù)據(jù)也會持續(xù)產(chǎn)生有關(guān)信息,使之產(chǎn)生一個獲得豐富深入了解人類社會經(jīng)驗、補充以往收集到的數(shù)據(jù)指標(biāo)的巨大機會。
相比傳統(tǒng)的官方統(tǒng)計資源,大數(shù)據(jù)方法會產(chǎn)生相關(guān)性更強、即時度更高的統(tǒng)計數(shù)據(jù)。官方統(tǒng)計不是完全依賴調(diào)查數(shù)據(jù)收集,而是依靠政府項目管理來獲取數(shù)據(jù)。對于數(shù)據(jù)的獲取,國家顯然比私營企業(yè)容易,因為國家統(tǒng)計局的特權(quán)往往來源于立法。
大數(shù)據(jù)現(xiàn)象使我們認(rèn)識到,我們的世界現(xiàn)在已經(jīng)充滿數(shù)據(jù)。因此,官方統(tǒng)計的意義是不容忽視的。而我們需要解決的一個問題是,大數(shù)據(jù)如何能幫助我們預(yù)測更準(zhǔn)確及時的經(jīng)濟、社會和環(huán)境等現(xiàn)象?這是官方統(tǒng)計所面臨的挑戰(zhàn)。
2.1統(tǒng)計的定義
統(tǒng)計的定義是由官方統(tǒng)計的基本原則來界定的,其原則是民主社會信息系統(tǒng)不可或缺的重要元素,它提供有關(guān)經(jīng)濟,人口,社會和環(huán)境狀況的數(shù)據(jù)。官方統(tǒng)計服務(wù)于政府,經(jīng)濟和公眾。到目前為止,國家統(tǒng)計局(NSO)和國際組織(IO)主要由兩種方式產(chǎn)生數(shù)據(jù):抽樣調(diào)查和存儲器中的管理性數(shù)據(jù)。大數(shù)據(jù)來源主要分為以下幾類:行政(產(chǎn)生于對計劃的管理,無論其是否為政府)。如電子病歷,醫(yī)院探訪,保險記錄,銀行記錄,食品銀行等;商業(yè)或交易 (兩個實體之間所產(chǎn)生的交易)。如信用卡交易,在線交易(包括移動設(shè)備)等;傳感器,例如衛(wèi)星圖像,道路傳感器,氣候傳感器;跟蹤設(shè)備(移動電話、GPS跟蹤數(shù)據(jù));行為,在線搜索(關(guān)于產(chǎn)品、服務(wù)或任何其他類型的信息)網(wǎng)絡(luò)頁面視圖等;主觀觀點(社會媒體上的評論等).
行政數(shù)據(jù)是國家統(tǒng)計局(NSO)用于統(tǒng)計目的的主要數(shù)據(jù)來源之一。行政數(shù)據(jù)被收集于統(tǒng)計辦公室,并應(yīng)用于官方統(tǒng)計。管理數(shù)據(jù)按統(tǒng)計局規(guī)定,周期性收集并應(yīng)用于官方統(tǒng)計。傳統(tǒng)上,國家統(tǒng)計局用結(jié)構(gòu)化的方式進行公共管理、處理、存儲和使用。
2.2統(tǒng)計使用大數(shù)據(jù)所面臨的挑戰(zhàn)
大數(shù)據(jù)在官方統(tǒng)計中的使用面臨一些挑戰(zhàn),主要的挑戰(zhàn)類型有以下幾個方面。立法,即相對于數(shù)據(jù)訪問和使用的權(quán)利;隱私權(quán),即管理公共信托和接收的數(shù)據(jù)再利用它鏈接到其他來源;金融,即采購數(shù)據(jù)的潛在成本與效益;管理,即有關(guān)數(shù)據(jù)管理和保護的政策和指令;方法論,即數(shù)據(jù)質(zhì)量和統(tǒng)計方法的適用性;技術(shù),即與信息技術(shù)有關(guān)的問題。
2.2.1法律的局限性
在一些如加拿大這樣的國家中,法律提供從政府和非政府機構(gòu)訪問數(shù)據(jù)的權(quán)利,而其他如愛爾蘭這樣數(shù)據(jù)的權(quán)利。這可能會引起訪問某些類型大數(shù)據(jù)的局限性。國家統(tǒng)計局(NSO)訪問數(shù)據(jù)的權(quán)利,原則上應(yīng)該由法律來建立,但是往往沒有特定法律條款來充分維護數(shù)據(jù)擁有者的權(quán)利。即使立法提供訪問所有的數(shù)據(jù)類型,用于訪問統(tǒng)計數(shù)據(jù)的目的在某種程度上可能還需要證明,這不會因國家的不同而不同。
2.2.2隱私的保護
定義隱私可能因國家而異,但一般定義為個人的權(quán)利,它是一種可能會被泄露的信息,能用來控制或影響個人的工作和生活。就像公司一樣,希望保存他們的競爭力,保護他們的消費者。隱私是民主的支柱。大數(shù)據(jù)的問題,是服務(wù)和設(shè)備上以用戶生成的數(shù)據(jù)很可能沒有被大眾意識到,或者不知道這些數(shù)據(jù)可以用來做什么。這樣的數(shù)據(jù)將會積成更大的數(shù)據(jù)天池,引發(fā)個人的隱私問題。
2.2.3潛在成本與權(quán)益的權(quán)衡
國家統(tǒng)計局獲得數(shù)據(jù)可能需要付出代價,尤其是獲取私營部門的數(shù)據(jù)。如果立法對采集周圍外部數(shù)據(jù)的財務(wù)模式保持沉默,國家統(tǒng)計局就必須做出正確的決定,以平衡質(zhì)量(其中包括相關(guān)性,及時性,準(zhǔn)確性,一致性,可訪問性和可解釋性),減少成本,從而減輕財政負(fù)擔(dān)。大數(shù)據(jù)的成本可能對國家統(tǒng)計局是一筆很大的花銷,但其潛在的收益遠(yuǎn)遠(yuǎn)大于成本,并且大數(shù)據(jù)可能會提供相關(guān)信息,以提高政府工作的效率(如醫(yī)療系統(tǒng))。政府的采購規(guī)則也可能因此發(fā)揮作用。美國科技基金聯(lián)邦大數(shù)據(jù)委員會(TechAmericaFoundation'sFederalBigdataCommission)在美國的一次報告中指出,轉(zhuǎn)型大數(shù)據(jù)的成功在于,了解一個特定機構(gòu)在關(guān)鍵業(yè)務(wù)中的需求,并根據(jù)這個需求去制定正確的方法,以此來利用可能的手段,采取側(cè)重于服務(wù)的措施,以達到有利結(jié)果。2.2.4方法論的新要求
行政數(shù)據(jù)存在的問題,是大數(shù)據(jù)根本問題的代表。而對于大數(shù)據(jù),數(shù)據(jù)是第一位的,接著官方統(tǒng)計學(xué)家就會對應(yīng)建立一個數(shù)據(jù)框。這就提出了一個問題,產(chǎn)生一個連貫綜合的國家官方統(tǒng)計體系的方法是唯一的么?
另一個問題是IT方法論。面對越來越多需要分析的數(shù)據(jù),傳統(tǒng)的統(tǒng)計方法對小樣本的透徹分析也會有困難。在最簡單的情況下,它們也是不夠快的,所以需要新的統(tǒng)計分析方法和工具:從大量數(shù)據(jù)中發(fā)現(xiàn)有價值的信息的方法。如數(shù)據(jù)的可視化的方法,文本數(shù)據(jù)流挖掘技術(shù),都能從大量的數(shù)據(jù)中提取有價值的小部分?jǐn)?shù)據(jù),在信息統(tǒng)計整合的過程中能夠發(fā)現(xiàn)方法。如大規(guī)模的關(guān)聯(lián),宏微觀一體化等統(tǒng)計方法。這些方法都特別適合大型的數(shù)據(jù)庫。需要注意的是,方法是需要開發(fā)的,我們要做的就是在它使用于大型的數(shù)據(jù)庫時,可以迅速的產(chǎn)生可靠的結(jié)果。
對于數(shù)據(jù)采集這一板塊,大數(shù)據(jù)時代提出了收集和整合不同來源、不同類型數(shù)據(jù)的可能性。在不久的將來,利用組合的數(shù)據(jù)源來產(chǎn)生新的信息是特別有趣的一種挑戰(zhàn)。結(jié)合“傳統(tǒng)”的數(shù)據(jù)源(諸如調(diào)查數(shù)據(jù)和管理數(shù)據(jù)),用新的數(shù)據(jù)源提供機會來描述“智能”社區(qū)的行為,將又是一個未開發(fā)的領(lǐng)域,由此,可迎來新的機遇。
探索得到的大數(shù)據(jù)對于官方統(tǒng)計潛在目的的可行性研究包括使用信息和通信技術(shù) (ICT)的統(tǒng)計,在信息社會利用互聯(lián)網(wǎng)流量來匯總數(shù)據(jù)的可行性研究。歐盟統(tǒng)計局的目標(biāo)是在試點評估“以用戶為中心”和“以網(wǎng)絡(luò)為中心”的測量方法的可行性。
3.1交通和運輸統(tǒng)計
在荷蘭,一天大約產(chǎn)生8000萬的交通循環(huán)檢測記錄。這些數(shù)據(jù)可以作為交通和運輸統(tǒng)計的信息來源,也可能用于對其他經(jīng)濟現(xiàn)象的統(tǒng)計。該數(shù)據(jù)的提供非常精細(xì),更具體地說,在荷蘭的道路有超過1萬個檢測回路,這些回路每分鐘對過往的各類車輛的長度和數(shù)量為指標(biāo)來計算。長度類別的不同使得汽車和卡車產(chǎn)生差異。而這個分類嚴(yán)重的受到覆蓋面和選擇性的影響。檢測到的車輛數(shù)不適用于每分鐘,因為不是所有的荷蘭道路都有檢測回路。即使在最詳細(xì)檢測下,各個環(huán)路檢測到的車輛數(shù)目也是不穩(wěn)定的,這說明我們需要一個更好的統(tǒng)計方法。從大量數(shù)據(jù)中獲取信息是統(tǒng)計學(xué)上的一個重大挑戰(zhàn)。這些數(shù)據(jù)的充分利用,預(yù)示著有關(guān)經(jīng)濟發(fā)展的更詳細(xì)的交通信息將能得到更快更可靠的統(tǒng)計。
3.2社交媒體數(shù)據(jù)統(tǒng)計
在荷蘭每天大約產(chǎn)生100萬的公共社交媒體信息,這些信息可提供給任何使用互聯(lián)網(wǎng)的人。在社會化媒體上,人們自愿分享信息、討論感興趣的話題、聯(lián)系家人和朋友,這些其實都可作為數(shù)據(jù)源。為了回應(yīng)社交媒體是否為一個有趣的可進行統(tǒng)計的數(shù)據(jù)源,荷蘭統(tǒng)計局從兩個方面研究了荷蘭社會媒體的消息,即內(nèi)容和情緒。荷蘭統(tǒng)計局在Twitter(在研究荷蘭社會化媒體時,Twitter是主要的公共社交媒體)上的信息內(nèi)容,大約50%的信息是無意義的,其余的信息主要討論了業(yè)余時間活動(20%)、工作(15%)、媒體(電視和廣播10%)、政治(5%),更嚴(yán)重的是“胡言亂語”阻礙了有用的信息,而且這些對文本挖掘的方法也有負(fù)面的影響。社會媒體信息決定的情緒透露了一個對統(tǒng)計數(shù)據(jù)源來說很有趣的潛在用途。荷蘭社會媒體消息情緒被認(rèn)為與荷蘭消費者信心高度相關(guān),特別是對經(jīng)濟形勢的看法。這些關(guān)系在每月和每周是非常穩(wěn)定的。但是,日報數(shù)據(jù)顯示出這是極不穩(wěn)定的行為。這些都突出強調(diào)了消費者信心的周線指標(biāo)可能是繼上周研究的第一個工作日產(chǎn)生的,這展示了快速傳遞結(jié)果的能力。
大數(shù)據(jù)與官方統(tǒng)計的結(jié)合,代表了一些類似于已經(jīng)在過去的幾十年中涉及的使用管理數(shù)據(jù)和官方統(tǒng)計數(shù)據(jù)的情況。與眾不同的是,其對結(jié)合兩者所做的統(tǒng)計建模可能有更廣泛的應(yīng)用。這樣,可在維持官方統(tǒng)計的質(zhì)量下,增強他們從大數(shù)據(jù)中獲得接近實時的測量效率。
使用大量的數(shù)據(jù)并不是一件容易的事。在數(shù)據(jù)探索階段,大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)相比較將花費大量的時間。其結(jié)果是,“新”的探索和分析方法是必需的。因為很多的方法都存在,并且已經(jīng)使用,但是在官方統(tǒng)計領(lǐng)域它是新的。例如可視化方法,文本挖掘,以及高性能計算。
雖然國家統(tǒng)計局的很多統(tǒng)計人員都積極參與到了大數(shù)據(jù)技術(shù)方面,但大數(shù)據(jù)技術(shù)方法仍是私營部門的最重要的需求。官方統(tǒng)計需要合適的大數(shù)據(jù)分析工具和系統(tǒng),這必然要求國家統(tǒng)計局參與其中。國家統(tǒng)計局與私營部門之間的協(xié)同效應(yīng)不僅限于技術(shù)問題。國家統(tǒng)計局與私有數(shù)據(jù)源的業(yè)主合作是至關(guān)重要的,它觸及敏感問題,如隱私、誠信、企業(yè)的競爭力、國家統(tǒng)計局的法律框架等。在這一領(lǐng)域中,授予國家統(tǒng)計局特權(quán)進入采購私有的大數(shù)據(jù),處理一些問題應(yīng)該是優(yōu)先行動的一部分。
使用大數(shù)據(jù),需要用不同的思維方式并擁有新技能的統(tǒng)計人員。官方統(tǒng)計需要可以處理更多數(shù)據(jù)、善于統(tǒng)計分析、擁有統(tǒng)計思維方式的人員,因為處理數(shù)據(jù)和IT技術(shù)(如編程技巧)密不可分。除此之外,這類人員還需從數(shù)據(jù)中提取有價值的“知識”的能力。雖然大數(shù)據(jù)統(tǒng)計和“數(shù)據(jù)科學(xué)家”普遍存在長期的技術(shù)問題,但可通過大學(xué)課程的調(diào)整來解決(有些大學(xué)已經(jīng)開始提供相關(guān)的課程),從短期到中期而言,國家統(tǒng)計局應(yīng)經(jīng)過專門培訓(xùn)來發(fā)展必要的內(nèi)部分析能力人員。這樣,對國際合作及對官方統(tǒng)計界都是非常有益的。
[1] 維克托·邁爾·伯舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代[M].盛楊燕,周濤,譯.浙江人民出版社.
[2] 馬建堂.大數(shù)據(jù)在政府統(tǒng)計中的探索與應(yīng)用[M].中國統(tǒng)計出版社,23013,10.
[3]Exploiting'Big Data'for Policy'for the 9th meeting of the OECDCommitteeonStatistics,2012.
[4]Using Adminis trative and Secondary Sources for Official Statistics-AHandbook of Principles and Practices,UNECE publication,2012.
[5]Bollier,D.The Promise and Peril of Big Data,The AspenInsti tute,WashingtonDC,2012.
[6]Manyika et al.‘Big data'The next Frontier for Innovation,Competition and Productivity'McKinsey Global Institute,2011,May.
[7]The Conference Board,The Conference.Board Help Wante dOnLineDataSeriesTechnicalNotes,2011.
[8] 原鵬飛.國際官方統(tǒng)計打會論文綜述[J].統(tǒng)計研究,2013,30(5):105-112.
G644