◎于 躍
◎王慶華
(吉林大學 行政學院,吉林長春130012)
大數(shù)據(jù)的特質(zhì)及其安全和信用風險
◎于 躍
◎王慶華
(吉林大學 行政學院,吉林長春130012)
大數(shù)據(jù)已成為國家基礎(chǔ)性戰(zhàn)略資源,納入國家行動計劃。大數(shù)據(jù)之“特質(zhì)”,體現(xiàn)在“5V”+“5S”上,即擁有大體量(Volumes)、大品種(Variety)、大速度(Velocity)、大真實(Veracity)、大價值(Value)、大范圍(Scope)、大結(jié)構(gòu)(Structure)、大存儲(Storage)、大策略(Strategy)、大靈魂(Spirit)等方面。認清大數(shù)據(jù)之十大特質(zhì),了解其中潛藏的或可能引發(fā)的諸多安全和信用風險,對引領(lǐng)大數(shù)據(jù)健康有序發(fā)展十分重要。
政府管理;電子政府;互聯(lián)網(wǎng);大數(shù)據(jù);安全風險;信用風險
隨著大數(shù)據(jù)時代的開啟,大數(shù)據(jù)話題被廣泛傳播,大數(shù)據(jù)思維被大肆渲染,大數(shù)據(jù)技術(shù)被一再推介,加之大數(shù)據(jù)已成為國家基礎(chǔ)性戰(zhàn)略資源,大數(shù)據(jù)挖掘和利用能力也被認為是大數(shù)據(jù)時代一國競爭力的重要來源和關(guān)鍵內(nèi)容,使得研究大數(shù)據(jù)漸成學界和業(yè)界的熱點,追隨大數(shù)據(jù)也被政府納入國家行動計劃。其實,大數(shù)據(jù)之“大”,不只限于專家們早已解說的“5V”,即擁有大體量(Volumes)、大品種(Variety)、大速度(Velocity)、大真實(Veracity)和大價值(Value)等特質(zhì);它還體現(xiàn)在本文所闡釋的“5S”上,即擁有大范圍(Scope)、大結(jié)構(gòu)(Structure)、大存儲(Storage)、大策略(Strategy)和大靈魂(Spirit)等特質(zhì)?!?V”體現(xiàn)的主要是優(yōu)勢和機遇,“5S”展現(xiàn)的更多是難題和挑戰(zhàn),但不可否認的嚴峻現(xiàn)實是,無論哪一種特質(zhì),都潛藏著安全風險,都可能引發(fā)信用危機。鑒于在問題開始顯現(xiàn)而具體解決思路和方法還不很明朗的情況下,提出問題、分析問題比解決問題更重要,本文旨在揭示大數(shù)據(jù)的十大特質(zhì)及其潛藏的或可能引發(fā)的安全和信用風險,提請人們重視,而把這些問題的解決留待多領(lǐng)域?qū)<胰パ芯俊?/p>
大數(shù)據(jù)的特質(zhì)首先表現(xiàn)在其體量或容量大,大到在可承受的時間范圍內(nèi)用常規(guī)的軟件工具無法捕捉、管理和處理的程度。以中國為例,2013年產(chǎn)生的數(shù)據(jù)問題超過0.8ZB,是2012年的兩倍,相當于2009年全球數(shù)據(jù)總量。預(yù)計到2020年,產(chǎn)生的數(shù)據(jù)總量將超過8.5ZB,相當于2013年的10倍[1]。中國網(wǎng)民現(xiàn)已超過6.68億人,如此大規(guī)模的網(wǎng)民每天上網(wǎng)產(chǎn)生的數(shù)據(jù)也足夠龐大。這些數(shù)字提醒我們,無論是在現(xiàn)在還是未來,政府都必須面對海量數(shù)據(jù)所帶來的沖擊,要么駕馭它,要么被它淹沒,不可能置身其外。
大數(shù)據(jù)因其體量大而更趨全面,其自身優(yōu)勢是十分明顯的。首先,誰掌握了大數(shù)據(jù),誰就可以彌補以往只能依靠抽樣數(shù)據(jù)、局部數(shù)據(jù)、片面數(shù)據(jù)、理論假設(shè)和實踐經(jīng)驗進行管理和決策的缺陷,且可依此預(yù)測趨勢和贏得先機,此為其優(yōu)勢和機遇所在。但是,利用優(yōu)勢和贏得機遇靠的主要是大數(shù)據(jù)技術(shù)實力,鑒于缺乏高素質(zhì)專業(yè)技術(shù)人才且現(xiàn)有人員培訓不足的政府是不可能具備這樣的技術(shù)實力的,因此,政府尋找專業(yè)化的合作伙伴成為必然選擇,由此,合作伙伴在與政府的長期合作中自然“合理”地擁有了政府的大數(shù)據(jù),再加上其日積月累沉淀的商業(yè)數(shù)據(jù),其數(shù)據(jù)資產(chǎn)擁有量將遠勝同行業(yè)對手,甚至會超過政府,政府在向其購買數(shù)據(jù)服務(wù),依靠其資源和能力挖掘、分析數(shù)據(jù)的過程中,其信用亦會成為政府大數(shù)據(jù)安全風險的關(guān)鍵掣肘因素。其次,因為大數(shù)據(jù)的全面,包容了來自各種正規(guī)的、非正規(guī)的渠道的各類數(shù)據(jù),這些來源廣泛、渠道眾多、日積月累形成的大數(shù)據(jù)本是出于不同目的、立場、能力沉淀的結(jié)果,其中也有相當多的數(shù)據(jù)是企業(yè)出于商業(yè)目的以隱密搜集、近零成本、漠視所有者權(quán)利的方式得到的,這些獲取渠道和取用方式注定了大數(shù)據(jù)中真實與虛假混雜、歷史與現(xiàn)實不同,即質(zhì)量不一、時效參差。包容、超脫的結(jié)果,是在原有社會隱私權(quán)規(guī)則體系不再奏效而數(shù)據(jù)安全保護方面的法律法規(guī)又不健全的大數(shù)據(jù)時代,數(shù)據(jù)占有者極易操控和利用其所擁有的大數(shù)據(jù),為謀求私利而泄露數(shù)據(jù)貢獻者的隱私,侵害其信息權(quán)利,甚至危及社會安全和政府信用。如超過6.68億的網(wǎng)民利用各類搜索引擎查找某類信息或利用電子郵件等通信工具聯(lián)系某人之后,雖可利用安全工具軟件清除自己電腦的上網(wǎng)痕跡及相關(guān)信息,但卻無從消除甚至知曉搜索引擎或網(wǎng)絡(luò)運營商是否有意無意中存下了這些記錄。而實際上,搜索引擎所有者和網(wǎng)絡(luò)運營商正是憑借這些記錄采集大數(shù)據(jù),成為大數(shù)據(jù)實際的占有者。待大數(shù)據(jù)累積達成一定規(guī)模之后,大數(shù)據(jù)占有者就可以借此累積龐大的數(shù)據(jù)資產(chǎn),并從中獲利,而其中蘊含的泄露網(wǎng)民個人隱私和侵犯網(wǎng)民信息權(quán)利的風險遠超想象,需要政府采取嚴格的管理措施來保護數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全,對違法違規(guī)者造成的影響進行風險控制和嚴格管制。如果政府做不到,違法違規(guī)者會進一步侵害國家安全和社會權(quán)益,安全風險將更難掌控。
需要警惕的是,大數(shù)據(jù)的全面是相對的,真正全面、相對全面和以為全面畢竟不同,何況還有大量的干擾性數(shù)據(jù)混雜其間,所以政府在利用大數(shù)據(jù)進行管理和決策時既需要依賴機器和技術(shù),也需要人的深刻的洞察能力和合作溝通能力。此外,究竟數(shù)據(jù)量級達到何種規(guī)模才算完整,至今也沒有定論,在這種情況下,政府在利用大數(shù)據(jù)進行社會管理、公共服務(wù)和科學決策時,就必須同時考慮傳統(tǒng)數(shù)據(jù)的利用,以規(guī)避數(shù)據(jù)不完整可能帶來的風險,維護政府信息信用。
大數(shù)據(jù)之大品種,既體現(xiàn)在大數(shù)據(jù)可以聚集采集自以往難以企及的領(lǐng)域、層次和深度的數(shù)據(jù),創(chuàng)造前所未有的量化維度,增強其多樣性、系統(tǒng)性和相關(guān)性;體現(xiàn)在大數(shù)據(jù)的貢獻者們來自不同社會階層、不同地域,代表不同利益群體或利益集團的數(shù)據(jù)貢獻者們主動傳播、分享、交換的各類數(shù)據(jù),賦予大數(shù)據(jù)以代表性、傾向性和復(fù)雜性;也體現(xiàn)在呈現(xiàn)文字、圖片、音頻、視頻、互動、三維等多種不同形態(tài)的數(shù)據(jù)多樣性。更多的數(shù)據(jù)采集與貢獻成就了大數(shù)據(jù)的多樣性類別特質(zhì),即增多了數(shù)據(jù)獲取的渠道,放大了數(shù)據(jù)內(nèi)容的范圍,增加了數(shù)據(jù)理解的深度,呈現(xiàn)出數(shù)據(jù)的不同類別。當然,在渠道、范圍、深度、類別擴展的同時,新的安全和信用風險也不期而至。以手機用戶數(shù)據(jù)為例,如今,用戶個人成為數(shù)據(jù)產(chǎn)生的主要來源,移動運營商或服務(wù)提供商能夠全面、準確、及時地獲取其所有移動用戶每時每刻的方位、聯(lián)系號碼和短信內(nèi)容等用戶信息,并可通過大數(shù)據(jù)分析推斷出每個用戶的行動軌跡、行為規(guī)律、興趣偏好以及關(guān)系網(wǎng)絡(luò),而用戶在將其位置、行為、文字、視頻、圖片信息在內(nèi)的真實數(shù)據(jù)提供給移動運營商和服務(wù)提供商以獲取更有針對性的、更好的信息化服務(wù)的同時,也極大地增加了暴露手機用戶的個人隱私的風險,給其帶來不同程度的安全隱患,也給移動運營商和服務(wù)提供商自身帶來了信用風險。再以貢獻者們?yōu)槔捎谒麄兪芙逃潭炔煌?,代表利益不同,認知水平不同,判斷能力不同,所提供的數(shù)據(jù)雖種類多樣,但客觀性、真實性和準確性參差不齊,所以,要獲得可靠數(shù)據(jù),最大的挑戰(zhàn)在于數(shù)據(jù)整合,提高數(shù)據(jù)質(zhì)量的關(guān)鍵在于在整合數(shù)據(jù)中融入更多的民主、參與、理性和合作,否則大品種就會成為大雜燴,弱能力極易導(dǎo)致大危機。當然,大品種蘊藏的安全和信用風險,是可以通過進一步擴大大數(shù)據(jù)的規(guī)模,增加大數(shù)據(jù)的流動性和分享性,進一步推動數(shù)據(jù)的開放,以及施以評估手段等方式來解決的。這一切需要政府做出實質(zhì)性努力,加以行政性推動。
如果按現(xiàn)在存儲容量每年以40%的增長速度計算,到2017年需要存儲的數(shù)據(jù)量會大于存儲設(shè)備的總?cè)萘?,且預(yù)計到2020年全球數(shù)據(jù)總量將超過40ZB[2],這說明大數(shù)據(jù)產(chǎn)量增長的高速度。此外,大數(shù)據(jù)之大體量和大品種的優(yōu)勢發(fā)揮,以及大數(shù)據(jù)的價值利用,取決于大數(shù)據(jù)技術(shù)的大速度,如今大數(shù)據(jù)技術(shù)的能量已達到幾秒鐘能處理上億次數(shù)據(jù)的速度,這是在數(shù)據(jù)爆炸式增長和新數(shù)據(jù)不斷涌現(xiàn)的情勢下快速獲取有價值信息的必備條件。在傳統(tǒng)的決策模式下,更多的決策依賴于內(nèi)部數(shù)據(jù),互聯(lián)網(wǎng)的出現(xiàn)使得數(shù)據(jù)流動起來,數(shù)據(jù)在流動的過程中得以增值,而大數(shù)據(jù)應(yīng)用的需求,又對數(shù)據(jù)的流動速度提出了新的要求,割裂的、孤立的、靜態(tài)的數(shù)據(jù)只會讓決策者陷落到自己設(shè)置的“信息孤島”中去。唯賴大速度,方能使大數(shù)據(jù)實現(xiàn)實時處理并得到有效利用,進而容忍其大真實,去冗降噪,實現(xiàn)其大價值。否則,大體量和大品種的數(shù)據(jù)不但不能成就大數(shù)據(jù)的優(yōu)勢,反而會變成大數(shù)據(jù)的拖累。此外,促進大數(shù)據(jù)突破性發(fā)展的關(guān)鍵在于解決數(shù)據(jù)的獲取性和流動性問題。而對于這兩個問題的解決,首先需要解決數(shù)據(jù)的獲取速度和流動速度問題,因為它們決定著數(shù)據(jù)的價值、意義、時效性、響應(yīng)性,關(guān)系到用戶的體驗感、成就感和滿意度??梢?,如果數(shù)據(jù)獲取和流動速度低下,大數(shù)據(jù)的效用將大打折扣,人類處理更多數(shù)據(jù)的機會、條件和能力將受到限制。同時,對于政府來說,大規(guī)模的、高速流動的數(shù)據(jù)很難被完全清洗或攔截,數(shù)據(jù)的高速流動帶來了更多數(shù)據(jù)的跨境遷移,未來有可能會有越來越多的涉及安全的數(shù)據(jù)將被存儲在世界各地的云數(shù)據(jù)中心,這些是對政府應(yīng)對大數(shù)據(jù)的能力的考驗,美國的“棱鏡事件”已經(jīng)為我們敲響了警鐘。所以對政府來說,如何促進自身以及全社會的數(shù)據(jù)的流動,在獲取更大價值的同時,保證秘密數(shù)據(jù)的安全性,管理好數(shù)據(jù)的跨境流動,是大數(shù)據(jù)時代賦予政府的重要使命。
大真實是由美國快捷藥方公司(Express Scripts)的首席數(shù)據(jù)官(CDO)Inderpal Bhandar在波士頓大數(shù)據(jù)創(chuàng)新高峰會(Big Data Innovation Summit)上首次提出的。大數(shù)據(jù)的大真實指的并不是數(shù)據(jù)本身的真實性,而是在數(shù)據(jù)分析中應(yīng)注意分析并過濾數(shù)據(jù)中有偏差、偽造、異常的部分,防止這些差異數(shù)據(jù)破壞數(shù)據(jù)系統(tǒng)的準確性,進而影響決策。大數(shù)據(jù)對于數(shù)據(jù)真實性的寬容度遠高于傳統(tǒng)數(shù)據(jù),這使得人們得以擺脫過度依賴數(shù)據(jù)精確性的羈絆,大真實的數(shù)據(jù)觀念由此確立。依賴這種“要效率不要絕對精確,要相關(guān)不要因果”[3]的大真實,一方面,降低了數(shù)據(jù)真實性的門檻,導(dǎo)致數(shù)據(jù)形態(tài)的改變,即允許數(shù)據(jù)以不完美、不真實、大混雜的形態(tài)進入數(shù)據(jù)系統(tǒng);另一方面,即時數(shù)據(jù)如此之多,累積起海量數(shù)據(jù),建構(gòu)起相關(guān)關(guān)系,如輔以適當?shù)臄?shù)學算法模型,完全能夠利用數(shù)據(jù)挖掘算法識別出數(shù)據(jù)的真實性,幫助用戶掌握事物的大體狀況和預(yù)測其可能的發(fā)展方向。如此一來,大數(shù)據(jù)得以強大,相關(guān)關(guān)系更近真相。但無奈的是,“在廣泛流行的技術(shù)的幫助下,遺忘已經(jīng)變成了例外,而記憶卻成了常態(tài)”[4]6。喪失遺忘能力導(dǎo)致的后果是,有關(guān)數(shù)據(jù)貢獻者的隱私和信用等數(shù)據(jù)所有者不情愿保留的大真實數(shù)據(jù)被長久地保存下來,甚至保存時間比我們的壽命還要長,這類記憶后果需要數(shù)據(jù)貢獻者余生來承受。例如,加拿大心理咨詢師費爾德瑪就因為他在2001年為一本交叉學科雜志所寫的文章中提到自己在20世紀60年代曾服用過致幻劑,就在穿過美國與加拿大邊境時被扣留了4個小時,被告知不準再進入美國境內(nèi)。他從來沒預(yù)料到,他在那樣一本晦澀雜志上發(fā)表的文章,居然能在全球化的網(wǎng)絡(luò)上如此容易地被找到,使自己成為數(shù)字化記憶的受害者,不得不為過去快40年了的錯事買單[4]8。由此,大數(shù)據(jù)的適時清洗、遺忘機制以及共同存儲期限的設(shè)定,亦應(yīng)成為政府履行保護公民隱私和信用安全職責的一部分,因為學會遺忘和懂得寬恕畢竟是人類所需要的。
還以移動運營商為例,他們有出于商業(yè)利益出賣手機用戶隱私信息的主觀性可能和客觀性可行。目前,中國擁有超過12.29億部手機,其每天新增的數(shù)據(jù)量可謂龐大,鑒于這些大數(shù)據(jù)包含大量牽涉行為主體隱私、相關(guān)關(guān)系、安全和信用的信息,只要大數(shù)據(jù)占有者利用數(shù)據(jù)分析系統(tǒng)對相關(guān)數(shù)據(jù)進行綜合分析并建立關(guān)聯(lián),即可依據(jù)用戶手機號碼、聯(lián)系號碼、短信線索等盡數(shù)掌握數(shù)據(jù)貢獻者的一舉一動,分析出其行為習慣、興趣偏好,并對其進行定位。而利用哪些數(shù)據(jù),使用其中哪些成分,用于何種用途,輸送給何類組織或個人,以及采取怎樣的數(shù)據(jù)模型加以運用等都是由大數(shù)據(jù)占有者決定的,相關(guān)約束機制幾近闕如??梢?,在信息安全體系還不健全、國家信用體系尚未建立、大數(shù)據(jù)占有者的行為難以規(guī)范的現(xiàn)實條件下,出于自身利益需求和商業(yè)競爭目的而泄露數(shù)據(jù)貢獻者隱私的風險難以避免,安全和信用問題可能時時發(fā)生,如果政府不能制定相關(guān)政策保護公民免受監(jiān)視與記憶的傷害,不能采取有效措施打擊侵權(quán)行為和控制安全風險,不僅手機用戶利益和財產(chǎn)受損,政府權(quán)威和國家形象也必定深受影響。因此,政府需要教育公民在網(wǎng)上謹慎言行,注意自我保護。此外,大真實畢竟不是真真實,倘若真實數(shù)據(jù)不被認同,錯誤數(shù)據(jù)擅加利用,無論是對公民隱私和權(quán)利,還是對政府管理和決策,其負面影響都將是致命性的打擊,由此可能引致的社會政治和經(jīng)濟秩序的混亂也是需要警惕的。
在大數(shù)據(jù)時代,數(shù)據(jù)已經(jīng)具備商品或資產(chǎn)屬性,可以像其他商品或資產(chǎn)一樣進行買賣與交換,只是“從對數(shù)據(jù)的交易、記錄到對數(shù)據(jù)的分析、比較、提煉、再分析”[5]等一系列證析過程的轉(zhuǎn)化成就了大數(shù)據(jù)之大價值。大價值的優(yōu)勢具體體現(xiàn)為其大用途,緣其“有用”。據(jù)已有研究成果,大數(shù)據(jù)的有用性體現(xiàn)在以下方面:它作為巨大的經(jīng)濟商品或資產(chǎn),不會因為共享而缺損,卻可通過復(fù)用而增值,產(chǎn)生效益;它作為得力的數(shù)據(jù)資源,可以提供更多數(shù)據(jù)和相關(guān)關(guān)系,助力人們高效獲取有用數(shù)據(jù),輔助管理和決策;它作為有力的思維工具,能擴展人的數(shù)據(jù)分析能力,使精英人士和普通公眾平等共享數(shù)據(jù),并從中獲取利益和創(chuàng)造價值。無疑,作為全球人口、市場和計算設(shè)備保有量的大國,中國是數(shù)據(jù)大國,也理應(yīng)成為數(shù)據(jù)強國,以依賴所擁有的巨大的數(shù)據(jù)資產(chǎn)創(chuàng)造巨大的商業(yè)機會。然而,盡管技術(shù)專家們保證大數(shù)據(jù)能幫助組織在適當?shù)臅r機做出正確決策,但由于大數(shù)據(jù)分析處理中存在諸多不可知因素,如數(shù)據(jù)價值密度低的問題,以及大數(shù)據(jù)的價值會隨著時間推移發(fā)生變化等,其決策風險仍是難以預(yù)料的。何況,數(shù)據(jù)貢獻者要維護自身權(quán)益,保護自身安全;數(shù)據(jù)占有者要深挖數(shù)據(jù)價值,爭取更大利益;而數(shù)據(jù)使用者則希望高質(zhì)高效地共享數(shù)據(jù),謀求最大價值。諸如此類的利益訴求和目標追求,使得必須保證大數(shù)據(jù)應(yīng)用的公正公開以及維護數(shù)據(jù)所有者的隱私安全成為利益相關(guān)方的普適規(guī)則和共同選擇,而這些都需要政府的努力。當然,利益相關(guān)方技術(shù)上的不平等,蘊藏著技術(shù)強勢方產(chǎn)生數(shù)據(jù)獨裁的風險;而利益相關(guān)方經(jīng)濟上的不平等,意味著其享用帶寬和使用數(shù)據(jù)頻率必有差距,數(shù)字鴻溝會帶來信用風險。為公平、公正地發(fā)揮大數(shù)據(jù)的大價值,大數(shù)據(jù)建設(shè)和運營中的民主與法治、分權(quán)與制衡、自由與約束、資費與效益等也急需政府勤勉運籌。
我們知道,大數(shù)據(jù)的數(shù)據(jù)量是空前巨大的,但隨著大數(shù)據(jù)應(yīng)用的深入,大數(shù)據(jù)的準入門檻在逐步降低,大數(shù)據(jù)的大范圍打破了原有數(shù)據(jù)間不同類型、不同來源的邊界,讓一個個“信息孤島”之間的數(shù)據(jù)合縱連橫,所以大范圍無疑是重要的,因為大范圍必然涉及更多數(shù)據(jù),可以惠及更多用戶。但大范圍同時又是困難的,因為大范圍和大用戶必然要求大服務(wù),而大服務(wù)也可能帶來大麻煩。面對現(xiàn)在日益龐大的數(shù)據(jù)量,我們可以不考慮數(shù)據(jù)的邊界有多大,但不能不限定數(shù)據(jù)的應(yīng)用邊界在哪里。大范圍導(dǎo)致的大服務(wù),必然反映在數(shù)據(jù)手段的大規(guī)模應(yīng)用上。以中國為例,規(guī)模超6.68億的網(wǎng)民每天使用電腦上網(wǎng)產(chǎn)生的數(shù)據(jù)可謂大規(guī)模。當網(wǎng)民利用各類搜索引擎查找某類信息或利用電子郵件等通信工具聯(lián)系某人之后,雖可利用安全工具軟件清除掉電腦的上網(wǎng)痕跡及相關(guān)信息,但卻無法避免搜索引擎所有者或網(wǎng)絡(luò)運營商存下這些信息,借此建立起網(wǎng)民間的相關(guān)關(guān)系,也無從知曉甚至獲取搜索引擎所有者或網(wǎng)絡(luò)運營商所存儲的大量隱私記錄,這些記錄極有可能涉及網(wǎng)民的宗教信仰、興趣愛好、行為習慣、家庭關(guān)系等隱私信息,成為利益相關(guān)者利用和攻擊用戶的“槍械”。正如槍械設(shè)計師卡拉什尼科夫所言,“槍械是無罪的,有罪的是扣動扳機的人”[6],不受限制的大數(shù)據(jù)應(yīng)用將會帶來無法估量的隱私侵害,大數(shù)據(jù)的應(yīng)用邊界就是大數(shù)據(jù)服務(wù)的隱私底線。搜索引擎所有者和網(wǎng)絡(luò)運營商借此采集加工成大數(shù)據(jù),成為大數(shù)據(jù)占有者,進而操控這些“槍械”謀取利益。如通過分析用戶心理狀況和從眾心理等對網(wǎng)絡(luò)用戶日常購物行為進行引導(dǎo)就可進行有效的商品營銷。但搜索引擎所有者或網(wǎng)絡(luò)運營商是否對其中的隱私數(shù)據(jù)擅自利用,可否對網(wǎng)民人身安全造成損害,以及由此導(dǎo)致的安全和信用風險,是網(wǎng)民依靠一己力量所無法規(guī)避的,需要政府清潔網(wǎng)絡(luò)環(huán)境和構(gòu)建信用體系加以規(guī)范。以塔吉特百貨為例:在美國,公民的出生記錄是公開數(shù)據(jù),所以如何吸引新生兒家庭消費成為每一家零售商的重要項目。塔吉特百貨(Target)的顧客數(shù)據(jù)分析部(Guest Data&Analytical Services)為搶占消費潛力巨大的客戶群體建立了一個數(shù)據(jù)模型,可以及早地將孕期客戶從客戶群體中分離出來,搶占客戶資源,進行有針對性的產(chǎn)品推送。而一位美國的父親也正是因為這種類型的產(chǎn)品推送意外地得知自己16歲的女兒懷孕的消息。從商家的角度來看,這是一次利用大數(shù)據(jù)精準營銷的典型案例,而從用戶角度來看,這可以看作一次大數(shù)據(jù)應(yīng)用越界而造成的隱私侵害。所以,從這樣一個商業(yè)化的大數(shù)據(jù)應(yīng)用也可以衍生出一種基于隱私保護的大數(shù)據(jù)服務(wù)。
大數(shù)據(jù)的大結(jié)構(gòu)指的是大數(shù)據(jù)涵蓋結(jié)構(gòu)復(fù)雜、種類多樣、規(guī)模很大的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。以往計算機處理的數(shù)據(jù)通常是事先定義好的、以表格形式保存的結(jié)構(gòu)化數(shù)據(jù),而如今互聯(lián)網(wǎng)上流動的和遍及各個角落的傳感器產(chǎn)生的大多是半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)應(yīng)用的出現(xiàn),使得原本埋藏在郵件、文檔、網(wǎng)頁、社交媒體、感知數(shù)據(jù)之中的文本、音頻、圖片、視頻、模擬信號等非結(jié)構(gòu)化數(shù)據(jù)可以得到更有效的利用,非結(jié)構(gòu)化數(shù)據(jù)已逐漸成為大數(shù)據(jù)的代名詞。IDC(Internet Data Center,互聯(lián)網(wǎng)數(shù)據(jù)中心)在2010年的一份研究報告中就曾顯示:從數(shù)據(jù)總量來看,當前的企業(yè)數(shù)據(jù),其中有超過80%的數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),并預(yù)計在2012年,非結(jié)構(gòu)化數(shù)據(jù)將占整個互聯(lián)網(wǎng)數(shù)據(jù)的75%以上;從數(shù)據(jù)增量來看,2010年全球結(jié)構(gòu)化數(shù)據(jù)增長速度約為32%,而非結(jié)構(gòu)化數(shù)據(jù)增速則高達63%,且非結(jié)構(gòu)化數(shù)據(jù)中50%—75%的數(shù)據(jù)都來自人際交互[7]。信息技術(shù)的不斷發(fā)展,使得以往難以企及的數(shù)據(jù),變得便于采集和存儲?!按髷?shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)處理最大的不同就是重點關(guān)注非結(jié)構(gòu)化信息,大數(shù)據(jù)關(guān)注包含大量細節(jié)信息的非結(jié)構(gòu)化數(shù)據(jù)”[8]。這種混雜性的數(shù)據(jù)結(jié)構(gòu)不僅顯示出大數(shù)據(jù)之搜集范圍大、加工程度不一、表現(xiàn)形式不規(guī)則,還表現(xiàn)為其來源廣泛、性質(zhì)復(fù)雜、變量眾多、變化經(jīng)常。在這種情形下,既然精確性已不能夠獲得,索性降低精確度門檻,包容并承認其混雜性;既然因果關(guān)系太過復(fù)雜,暫且放棄因果追究,轉(zhuǎn)而發(fā)現(xiàn)相關(guān)關(guān)系。至于承認與發(fā)現(xiàn)是否可靠,能否安全,有否信用,也不予追究查證,唯信龐大數(shù)據(jù)足以覆蓋一切真實,這對整體全局敘事而言也許適合,但對個體局部求證而言,顯然有失公允,凸顯出對個人安全和信用的損害。
爆炸式增長的數(shù)據(jù),對數(shù)據(jù)的采集速度和采集能力提出了新的挑戰(zhàn),采集的海量數(shù)據(jù)又使得數(shù)據(jù)存儲系統(tǒng)需要具備更強大的數(shù)據(jù)存儲空間、付出更大的存儲成本。大存儲是大數(shù)據(jù)帶來的大挑戰(zhàn)。大數(shù)據(jù)需要低成本、高效率的大存儲,云計算因具此優(yōu)勢的數(shù)據(jù)存儲、分享和挖掘手段而被選用。云計算環(huán)境搭建有三條路徑:公用云、專有云和混合云。其中,公用云一般由第三方運行,在信息安全方面需要承擔相對較大的風險;專有云由自身擁有,降低了安全風險,但信用風險升高了;混合云雖可規(guī)避兩者短處,但極有可能出現(xiàn)兩者長處無法施展而短處卻共同存在的情況[9]??梢?,無論采取哪種路徑,安全和信用風險都相伴而行。目前,“互聯(lián)網(wǎng)+各行各業(yè)”仰賴的新基礎(chǔ)設(shè)施就包括“云、網(wǎng)、端”[10],這使得各行各業(yè)運作涉及的網(wǎng)絡(luò)、設(shè)備和人更多,安全和信用風險增大。而當人類越來越需要依賴云計算,就得時時處處與云服務(wù)商打交道,包括用戶要調(diào)用和處理自己存儲于云中的大數(shù)據(jù)都得向云服務(wù)商申請、付費并接受應(yīng)用裁決。伴隨著云計算的迅速普及和各行各業(yè)數(shù)據(jù)資產(chǎn)保存和利用意識的持續(xù)增強,數(shù)據(jù)所有權(quán)和占有權(quán)分離導(dǎo)致的問題將更加雪上加霜,如數(shù)據(jù)所有者不能自己對自己的數(shù)據(jù)做主,數(shù)據(jù)占有者卻可以任意侵入數(shù)據(jù)所有者的隱私領(lǐng)地等,會促使安全與信用風險進一步升級。當然,這些風險更多的是人為造成的。為此,政府可以借助預(yù)測告誡數(shù)據(jù)強者(即數(shù)據(jù)占有者)權(quán)衡利弊,促發(fā)自省,通過制定規(guī)則約束數(shù)據(jù)強者,保護數(shù)據(jù)弱者(即數(shù)據(jù)所有者)。須知,數(shù)據(jù)所有者貢獻越大,數(shù)據(jù)占有者的成本越低,誠實守信才能合作共贏。
要贏得大競爭,必擁有大策略。大策略涉及大戰(zhàn)略,也包括行動方案。已知的涉及大數(shù)據(jù)的大策略尤其是行動方案,更多的是基于技術(shù)及其應(yīng)用的,市場經(jīng)濟制度和法治體系的保障支撐力度不夠,加之社會主體、制度因素、非制度因素等社會風險加大[11],使得大數(shù)據(jù)極有可能演變?yōu)閿?shù)據(jù)占有者掌控網(wǎng)絡(luò)和攻擊網(wǎng)民的利器,這樣的風險不同程度地存在于網(wǎng)絡(luò)世界的各個角落,危害數(shù)據(jù)安全、網(wǎng)絡(luò)安全甚至國家安全的事件也時有發(fā)生。盡管各國政府對大數(shù)據(jù)應(yīng)用及發(fā)展給予高度重視,如2012年3月美國政府撥款2億美元啟動《大數(shù)據(jù)研究和發(fā)展倡議》(Big Data Research and Development Initiative)計劃,將對大數(shù)據(jù)的研究上升為國家意志;2015年9月,中國《促進大數(shù)據(jù)發(fā)展行動綱要》出臺,國務(wù)院系統(tǒng)部署大數(shù)據(jù)發(fā)展工作,但受各國信息基礎(chǔ)環(huán)境和技術(shù)發(fā)展條件制約,大數(shù)據(jù)所引發(fā)的不同層面的安全和信用風險亟待各國采取有效策略分而治之。目前,在加強大數(shù)據(jù)技術(shù)策略之外,更多地尋求制定國家大數(shù)據(jù)產(chǎn)業(yè)發(fā)展戰(zhàn)略和法律法規(guī)做保障是明智之舉。為此,相關(guān)研究和聯(lián)合攻關(guān)亟待開展,以指導(dǎo)其發(fā)展。現(xiàn)實情況下的政府責任包括:不僅要保護企業(yè)商業(yè)秘密和公民個人隱私,還要保障國家安全和政府信用。鑒于網(wǎng)絡(luò)安全執(zhí)法中查處群體易,追究個體難,政府可從政策制定、資源投入、人才培養(yǎng)等方面入手,通過逐漸建立和完善政府信用體系、企業(yè)信用體系、個人信用體系等來規(guī)避大數(shù)據(jù)可能引發(fā)的各種安全和信用風險,鼓勵全社會厲行保護信息自由又善待彼此隱私的行動。
大數(shù)據(jù)之大靈魂,首先,體現(xiàn)在它是人類廣泛參與和集體智慧貢獻的成果——泛在化;其次,體現(xiàn)在它通過降低技術(shù)準入門檻,使更多企業(yè)能夠從事大數(shù)據(jù)的組織與管理、分析與發(fā)現(xiàn)、應(yīng)用與服務(wù)等活動,更多公民具備了數(shù)據(jù)挖掘和利用能力——平等化;再次,體現(xiàn)在它成為現(xiàn)代社會信息基礎(chǔ)設(shè)施,不斷融合與改變著各領(lǐng)域各行業(yè)各類人群的生產(chǎn)與生活方式——變革性;最后,體現(xiàn)在它是與物質(zhì)、能量、人力一樣重要的戰(zhàn)略資源,影響著國家經(jīng)濟發(fā)展和社會進步——戰(zhàn)略性。泛在化、平等化、變革性、戰(zhàn)略性鑄就的大靈魂,是人與人合作的成果,它最終契入數(shù)據(jù)乃至人的靈魂,引導(dǎo)與駕馭的威力不可謂不強大,但人與人在其中做出的誠信與不誠信的選擇,極易因其便利且缺乏有效監(jiān)管而演變成數(shù)據(jù)安全和信用災(zāi)難。為此,迎接大數(shù)據(jù)挑戰(zhàn),政府必須承擔的責任至少應(yīng)該包括:建立大數(shù)據(jù)環(huán)境,為之營造良好生態(tài);統(tǒng)籌大數(shù)據(jù)規(guī)劃,鼓勵各行業(yè)攜手參與;推動大數(shù)據(jù)建設(shè),制定數(shù)據(jù)保護規(guī)則;推廣大數(shù)據(jù)應(yīng)用,贏得競爭優(yōu)勢和價值財富。這些重大責任的承擔,使政府面臨重大的風險挑戰(zhàn)。比如,數(shù)據(jù)真實性門檻的降低勢必影響數(shù)據(jù)質(zhì)量,監(jiān)管數(shù)據(jù)清洗以維護其績效成為政府必須承擔的職責;數(shù)據(jù)資源屬于戰(zhàn)略資源,決定國家命脈,其合理開發(fā)、利用、儲備、分配和消費事關(guān)社會公正以及公民權(quán)益保障,需要政府主導(dǎo)籌劃。難題事關(guān)政府的信用和能力,亟須政府聯(lián)合社會力量共同解決。只因政府自身也存在信用缺失甚至信任危機以及技術(shù)能力有限等問題,令其在克服難題時力量不夠強大,需要自我革命。
“科學征服人心靠的是方便、實用、安全、高效,但實際效果往往相反”[12]?!?V”+“5S”在體現(xiàn)大數(shù)據(jù)諸多優(yōu)勢的同時,也展現(xiàn)了大數(shù)據(jù)帶來的各種挑戰(zhàn)。但無論是大數(shù)據(jù)的優(yōu)勢還是挑戰(zhàn),透露出的安全和信用風險是毋庸置疑的,政府絕不能熟視無睹,必須認識到:一方面,良好的安全和信用體系是大數(shù)據(jù)健康發(fā)展的有效保障,面對各種安全和信用問題,必須樹立大安全、大信用觀念以及大民主、大開放和大理性意識,掌握深入研析和預(yù)判應(yīng)對大數(shù)據(jù)挖掘和利用中的各種安全與信用問題的良策的能力,為應(yīng)對潛在危機和規(guī)避更大風險提供法律、管理和技術(shù)等多維安全和信用預(yù)案,以將大數(shù)據(jù)可能產(chǎn)生的危機和風險控制在可接受的范圍之內(nèi)。這也是保證大數(shù)據(jù)時代一國數(shù)據(jù)秩序和信息安全的應(yīng)有舉措。另一方面,要認識到中國是信息弱國,在技術(shù)上,尤其是在安全技術(shù)上,還處于被動依附他國的地位,因此要立足于現(xiàn)實技術(shù)國情,鼓勵基礎(chǔ)研發(fā)和自主創(chuàng)新,尋求安全技術(shù)產(chǎn)品的突破之路。而在科學、合理、可行的安全策略還沒有設(shè)計完善的情況下,小心謹慎地籌謀大數(shù)據(jù)開發(fā)利用的范圍、方式和方法,把數(shù)據(jù)公開至數(shù)據(jù)開放、“+互聯(lián)網(wǎng)”至“互聯(lián)網(wǎng)+”的路選好、做對,是非常關(guān)鍵的。
[1]涂之沛.數(shù)據(jù)之巔:大數(shù)據(jù)革命、歷史、現(xiàn)實與未來[M].北京:中信出版社,2015:21.
[2]周文.2020年全球數(shù)據(jù)總量將超40ZB大數(shù)據(jù)落地成焦點[EB/OL](2013-08-29)[2015-05-11].http://net.chinabyte.com/139/12703139.shtml.
[3]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013:8.
[4]維克托·邁爾-舍恩伯格.刪除——大數(shù)據(jù)取舍之道[M].杭州:浙江人民出版社,2013.
[5]鄭毅.證析——大數(shù)據(jù)與基于證據(jù)的決策[M].北京:華夏出版社,2012:2.
[6]“互聯(lián)網(wǎng)時代”主創(chuàng)團隊.互聯(lián)網(wǎng)時代[M].北京:北京聯(lián)合出版公司,2015:183.
[7]GANTZ J,REINSEL D.Extracting Value from Chaos[J].IDC IView,2011,(6):1-12.
[8]馬建光,姜巍.大數(shù)據(jù)的概念、特征及其應(yīng)用[J].國防科技,2013,(2):10-17.
[9]張銳昕,張喬.云計算環(huán)境下政府信息資源管理運行和約束機制[J].情報科學,2014,(11):45-49.
[10]阿里研究院.互聯(lián)網(wǎng)+未來空間無限[M].北京:人民出版社,2015:21.
[11]張毅,陳友福,徐曉林.我國智慧城市建設(shè)的社會風險因素分析[J].行政論壇,2015,(4):44-47.
[12]仲昭川.互聯(lián)網(wǎng)哲學[M].北京:電子工業(yè)出版社,2015:11.
(責任編輯:于健慧)
TP311.13
A
1005-460X(2016)01-0083-06
2015-07-30
國家社會科學規(guī)劃基金重點項目“電子政府構(gòu)建和運行的保障體系研究”(13AZZ016)
于躍(1989—),男,吉林長春人,博士研究生,從事公共政策和電子政務(wù)研究;王慶華(1966—),女,黑龍江大慶人,博士,教授,博士研究生導(dǎo)師,從事公共政策和公共經(jīng)濟研究。