高曉峰
(中共揚中市委黨校,江蘇 揚中212200)
大數(shù)據(jù)這個概念首先于2008年9月在美國由《自然》雜志提出;2011年5月,美國《科學》雜志使用社會調查的方式,第一次分析了大數(shù)據(jù)對于人類生活產生的影響。
2011年美國麥肯錫研究院正式對大數(shù)據(jù)進行定義,英文名字叫做Big Data。
所謂大數(shù)據(jù),就是在一定范圍內難以用常規(guī)工具收集、分析、管理的數(shù)據(jù)集合。大數(shù)據(jù)屬于一種信息資產,具有多樣化、海量、增長速度快等特點。通過新型的處理方式,人們獲得一些有用的信息,從而可以優(yōu)化流程,提升管理者的洞察力和決策力。
從以上大數(shù)據(jù)定義可以看出來,大數(shù)據(jù)有以下幾個特征。
第一個特征:價值量高
大數(shù)據(jù)具有非常巨大的潛在價值,可以應用到人類生產生活的各個方面,極大提高了人類的生產力。但是從其具體收集的數(shù)據(jù)來看,其價值密度卻非常低,因為大數(shù)據(jù)對于數(shù)據(jù)的收集幾乎是全方面的,不管有用沒用都會全部搜集過來。如某個具體的人在某購物平臺上瀏覽商品,過程中他瀏覽了什么商品,某個具體的商品瀏覽了多長時間,每天使用這個購物平臺的APP幾次,習慣采取什么樣的支付方式,喜歡購買什么產品,這些數(shù)據(jù)都是價值量不高的數(shù)據(jù)。然后在此基礎上分析出有用的數(shù)據(jù),而這部分數(shù)據(jù)的價值非常高。例如將成千上萬的用戶數(shù)據(jù)集中起來,信息量將會很大,其價值也會很大。如果對這些數(shù)據(jù)進行匯總和分類,就能得出消費者的某些偏好,從而使得這些數(shù)據(jù)具有巨大的商業(yè)價值。
第二個特征:體量大
大數(shù)據(jù)的“大”字就體現(xiàn)在體量大。大數(shù)據(jù)在收集數(shù)據(jù)的階段一般不對數(shù)據(jù)進行區(qū)分,不會區(qū)分待收集的數(shù)據(jù)是否有價值,雖然看起來某些數(shù)據(jù)沒有價值,但是當這些數(shù)據(jù)的體量大到一定程度時,就會形成巨大價值。如生活中的一些數(shù)據(jù)看起來沒有用處,但是當整個城市乃至地區(qū)的這類數(shù)據(jù)集中起來,就能說明很多問題,如反映該地區(qū)人的健康狀況,醫(yī)療需求等。
第三個特征:速度快
這里的速度快是指數(shù)據(jù)形成的速度非???,幾乎每18個月整個人類形成的數(shù)據(jù)就會翻一番。根據(jù)IBM公司的研究表明,2012年前人類總共形成的數(shù)據(jù)總量約為200EB,但是這個數(shù)據(jù)正在以每18個月翻一番的速度增加。因為信息技術的高速發(fā)展,收集和存儲數(shù)據(jù)的難度和成本越來越低,每年會有大量的數(shù)據(jù)被保存。所以大數(shù)據(jù)定義強調,大數(shù)據(jù)是常規(guī)方式無法收集和整理的數(shù)據(jù),只有在信息技術高度發(fā)達的情況下,才能進行大數(shù)據(jù)的收集、分析和管理。
第四個特征:種類多
大數(shù)據(jù)之所以稱之為“大”,不僅是指其數(shù)據(jù)的體量大,而且還指其范圍大。不但人類生產生活當中各類數(shù)據(jù)可以收集,乃至自然界的各種數(shù)據(jù)都是構成大數(shù)據(jù)的一部分。光僅是人類生產生活當中數(shù)據(jù)的種類,就龐大到難以想象。此前人類社會的數(shù)據(jù)量之所以較小,并不是產生的數(shù)據(jù)量小,而是那個時代的數(shù)據(jù)搜集和保存手段非常有限,所以能夠流傳到后世的數(shù)據(jù)較少。進入信息社會之后,人類收集保存數(shù)據(jù)的能力猛增,而數(shù)據(jù)收集的途徑也有了巨大拓展,從而使得整個大數(shù)據(jù)涉及的領域和種類非常繁多。
大數(shù)據(jù)的數(shù)據(jù)量非常龐大,即使在現(xiàn)代信息社會要對其進行收集也是一項浩大的工程,人們如此熱衷于收集大數(shù)據(jù),其實也是因為大數(shù)據(jù)對人類社會活動非常有用,所以才會如此耗費精力,進行大數(shù)據(jù)的收集、整理和分析。
整個人類社會已經(jīng)進入了信息化社會的時代,在大部分國家,個人開始擁有各種信息化終端,包括臺式電腦、筆記本、平板電腦、智能手機等。這些個人終端,使得人類生活發(fā)生了翻天覆地的變化。在大數(shù)據(jù)技術得以廣泛應用之前,互聯(lián)網(wǎng)時代雖然給人類帶來了巨大便利,而大數(shù)據(jù)技術廣泛應用后,這種便利被推向了極致。
在移動互聯(lián)網(wǎng)、電子商務、社交媒體、物聯(lián)網(wǎng)等各個領域,大數(shù)據(jù)正在日益改變人類的生活。此前人們獲得信息的最主要途徑是電視和報紙,但是現(xiàn)在移動互聯(lián)網(wǎng)已經(jīng)逐漸取代了這兩種途徑,人們不但可以從網(wǎng)上獲取各種各樣的信息,大數(shù)據(jù)系統(tǒng)還能根據(jù)個人喜好,更有針對性地對用戶投放其感興趣的資訊。在社交媒體領域,大數(shù)據(jù)系統(tǒng)也會針對其此前的記錄,推薦其感興趣的話題和好友。在電子商務領域,大數(shù)據(jù)的應用更加能夠促進用戶消費的提升,因為系統(tǒng)推薦出來的產品,都是用戶近期想要購買的東西。
這些現(xiàn)象說明,盡管每一個人產生的數(shù)據(jù)并不具備太高價值,但是將大量用戶產生的數(shù)據(jù)進行收集整理分析,將會形成具有較大價值量的數(shù)據(jù),從而能夠指導各種社會生活,包括生產和銷售等,最終形成巨大的經(jīng)濟價值和社會價值,催生社會變革的偉大力量。美國在2020年就以我國字節(jié)跳動的Tiktok軟件以及騰訊公司的WeChat軟件危害美方國家安全為由,禁止其在美國國內的使用。這兩款APP自身沒有什么危害,但是因為其數(shù)據(jù)收集功能,使得美方非常忌憚,擔心其搜集美國用戶的各種數(shù)據(jù),傳回國內,從而使得我國能夠掌握很多有用情報和數(shù)據(jù)。
大數(shù)據(jù)產生于信息時代,因為只有信息技術高度發(fā)達,人類才能夠非常方便地收集數(shù)據(jù)。信息時代之前整個人類社會也會產生大量的數(shù)據(jù),但是因為收集手段的落后,只能對這些數(shù)據(jù)當中最為重要的部分進行收集,其他部分只能放棄。如封建社會對于戶籍的統(tǒng)計以及田畝歸屬,只能記錄最為重要的基本信息,如戶籍當中的人口姓名、性別、住所,田畝信息當中的位置、面積、所有人等,但是對于這兩者當中的其他不太重要的特征和數(shù)據(jù),則無法記錄。因為一旦記錄這些東西,一方面將會消耗大量的人力物力,同時也會占用大量的儲存介質和空間。就像古代最早使用的竹簡,以及后來使用的紙張,這些介質的本身能夠儲藏的信息量較小,而且體積較大,非常占用空間。
而大數(shù)據(jù)技術的出現(xiàn),一方面是因為信息收集手段的提升,另一方面也是存儲科技的提升以及存儲業(yè)務的大量出現(xiàn)。大數(shù)據(jù)一方面依靠信息收集手段的提升。由于當前大數(shù)據(jù)業(yè)務量不斷提升,以及發(fā)展大數(shù)據(jù)需要更多的設備和存儲空間,因此促進了信息技術以及芯片、服務器領域的高速發(fā)展。另一方面,大量數(shù)據(jù)的收集需要海量的存儲空間?;蛟S大數(shù)據(jù)技術的出現(xiàn)得益于存儲技術的提升,但海量大數(shù)據(jù)的產生,同時也會促進如云計算、網(wǎng)絡云盤、云存儲等領域的高速發(fā)展。此外,對大數(shù)據(jù)進行分析和研究,對大數(shù)據(jù)進行各種應用,已經(jīng)成為一門新興的學科。
大數(shù)據(jù)時代,人們將會變得越來越“懶”。在人類生活的各個領域,大數(shù)據(jù)的存在使得人們生活的便利程度在不斷提升,消費者在消費的時候,大數(shù)據(jù)系統(tǒng)將會給出客戶最喜歡的消費方式;而在商業(yè)領域,可以通過大數(shù)據(jù)即時掌握市場的動態(tài)以及消費者的需求,從而能夠迅速做出應對,以滿足市場和消費者的需求;在一些科技領域,大數(shù)據(jù)能夠幫助研究者找準研究方向,從而使得研發(fā)更具有目的性和指向性,更加能夠貼近人類的生活和工作。
傳統(tǒng)的科學研究基本思路是大膽假設,嚴格論證,這樣的研究方式要求對科學研究方向上的任何可能性進行分析,然后找到正確的思路。從這一點來說,這種方式類似于大數(shù)據(jù)的分析方式。未來的科學研究,必然會通過對研究對象進行大量數(shù)據(jù)的收集和分析,挖掘出一些規(guī)律性的東西,然后進行研究和分析,最終取得成果。所以說,大數(shù)據(jù)的廣泛應用,必然會對科學研究的方式產生巨大影響,從而使得研究方式產生重大變革。
大數(shù)據(jù)如此重要,必然會引發(fā)對大數(shù)據(jù)的濫用,從而給社會和個人造成損失和困擾,所以必須對大數(shù)據(jù)進行安全等級劃分。
在數(shù)據(jù)保護領域,數(shù)據(jù)等級劃分也是一項關鍵性的工作,必須根據(jù)數(shù)據(jù)的各種不同特點,制定統(tǒng)一的標準,采用準確和完善的方法,將數(shù)據(jù)劃分成不同等級,從而采取不同的方式保護數(shù)據(jù)的安全。同理,對大數(shù)據(jù)也必須采用類似的分類方法,進行不同等級大數(shù)據(jù)的劃分。
由于大數(shù)據(jù)自身的特點,大部分數(shù)據(jù)的價值密度較低,不可能對這些數(shù)據(jù)全部進行保護,一旦全部進行保護,也使得外界無法獲得海量的數(shù)據(jù)進行分析,從而也失去了大數(shù)據(jù)科技的意義,所以一般說來,對大數(shù)據(jù)可以采用價值密度以及隱私程度的標準進行劃分。按照這個標準,可以將數(shù)據(jù)劃分成三個等級。
大數(shù)據(jù)本身就是大量低價值密度數(shù)據(jù)的集合,大數(shù)據(jù)當中大量的數(shù)據(jù)都是一些基本數(shù)據(jù),而這些基本數(shù)據(jù)支撐了大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)庫,通過對這些數(shù)據(jù)的收集、分析以及公布,不會對個人和社會造成影響。如一個地區(qū)的多年天氣情況,某個地區(qū)的用戶更偏好購買某種服裝等,這些數(shù)據(jù)就是一些低價值密度的數(shù)據(jù),對于這樣的數(shù)據(jù)往往不需要進行太多保護。
對價值密度數(shù)據(jù)進行分析得出二次處理后的數(shù)據(jù),或者直接在某個領域非常具體的數(shù)據(jù),如某個地區(qū)的用戶在某個時間段,更傾向于購買哪一種具體產品;或者在購物平臺更傾向于花費具體的金額購買什么樣的產品和服務。這樣的數(shù)據(jù)已經(jīng)能夠對商業(yè)行為起到巨大的引導作用,具備了極大的商業(yè)價值。這樣的數(shù)據(jù)就是高價值密度的重要數(shù)據(jù),對于這樣的數(shù)據(jù),必須保持謹慎使用的原則,而且必須進行一定的保護。
大數(shù)據(jù)當中其實還有很多非常隱私和機密的信息,如個人的健康狀況、平時購買什么樣的藥品、銀行卡號、密碼、家庭地址、電話號碼等等。這些數(shù)據(jù)都是重要的隱私信息,一旦泄露將會對個人造成重大影響,甚至會導致重大損失,所以對于這部分數(shù)據(jù),必須進行嚴格保護,嚴防泄露。
另外,還有一些機密數(shù)據(jù),如涉及到國家地理、道路等方面的信息,或是重要機構的網(wǎng)絡信息等。這些數(shù)據(jù)可能看起來不太重要,但是如果泄露出去,很有可能會被他國用作軍事用途,會對我國的安全造成巨大威脅,這部分數(shù)據(jù)也是必須受到嚴格保護的數(shù)據(jù)。
針對大數(shù)據(jù)的這些特點,必須采取分級保護的措施。
很多網(wǎng)站對于數(shù)據(jù)的保護措施不是十分嚴格,有時候一些沒有權限的用戶往往能夠獲取到很多信息。所以對于重要數(shù)據(jù)必須進行分級授權保護,未經(jīng)授權的用戶,無法訪問數(shù)據(jù)。未經(jīng)授權或者權限較低的用戶,只能在有限的范圍內,獲取一些不太重要的信息。授權訪問的好處是避免一些敏感數(shù)據(jù)在公共區(qū)域被輕易獲取,增加了獲取超權限數(shù)據(jù)的成本。此前或許只要取得一些普通權限的賬號就能獲取很多重要數(shù)據(jù),但是分級授權保護后,必須獲得具備足夠權限的賬號才能獲取數(shù)據(jù)。一般說來,普通用戶的普通賬號安全防護措施不太強,而高權限賬號肯定會更加難以攻破和獲得,從而增強了數(shù)據(jù)的安全性。
對于一些重要的數(shù)據(jù),必須采取更為嚴格的保護措施,如將重要數(shù)據(jù)和外界網(wǎng)絡斷開,如果想要訪問,只能通過內網(wǎng)訪問。而且對于內網(wǎng)的訪問終端和介質,也必須進行嚴格管理,只有經(jīng)過授權的終端和存儲介質,才能訪問特定的數(shù)據(jù)。這一點在銀行等領域體現(xiàn)較多,即使擁有賬號和密碼,如果沒有相應的加密狗或者其他加密裝置的話,依然無法訪問數(shù)據(jù)。而在政府部門內部進行文件交換的系統(tǒng),完全和外網(wǎng)物理隔離,只有通過內部專線才能
實現(xiàn)對文件的接收和訪問。
對于機密信息,除了采取以上保護措施外,還必須進行加密,通過一定的算法,將機密信息進行加密保護,即使這些信息因為一些不可預見的原因被泄露了出去,但是因為經(jīng)過了嚴格的加密,獲取者也無法獲得信息的具體內容,這就相當于給機密信息加上了一道鎖,使信息更加安全。對數(shù)據(jù)進行復雜的加密將會增加數(shù)據(jù)的體積,同時增加讀取的難度和讀取的時間,這是弊端。但是這樣做的好處是增加破解的難度,如果以現(xiàn)有計算機算力水平破解某個數(shù)據(jù),耗費時間達到幾十年的話,那么可以認為這個數(shù)據(jù)是無法破解的,因為等到數(shù)十年之后即使破解出來了,數(shù)據(jù)也失去了時效性,幾乎不具備價值。但是如果不加密或者進行簡單加密的話,又會非常容易破解。因此,應對加密復雜程度要進行權衡,找到最佳加密方案。
隨著電子商務和電子政務的發(fā)展,網(wǎng)絡上涉及到這方面的內容很多,特別是關于一些可以公開的重要文件以及重要合同等數(shù)據(jù)非常容易遭到篡改,從而對社會和個人形成誤導。對于這樣的關鍵信息,必須采用防篡改措施,如采用區(qū)塊鏈技術,采用分布存儲的方式,類似于比特幣的技術,只能獲取該信息,但是無法對信息進行修改。大數(shù)據(jù)技術和區(qū)塊鏈技術都有彼此的優(yōu)點和不足,如果能夠將大數(shù)據(jù)技術和區(qū)塊鏈技術相結合,取大數(shù)據(jù)技術對數(shù)據(jù)的強大收集和分析能力,結合區(qū)塊鏈技術的防篡改性,將一些不希望被篡改的數(shù)據(jù)經(jīng)過加密后通過行業(yè)區(qū)塊鏈網(wǎng)絡或者內部區(qū)塊鏈網(wǎng)絡進行存儲,可以有效避免重要關鍵信息的篡改,從而能夠保證數(shù)據(jù)的真實可靠性。
信息系統(tǒng)是數(shù)據(jù)的承載體,只有擁有安全的信息系統(tǒng),才能保證數(shù)據(jù)的完整和安全。如果信息系統(tǒng)和數(shù)據(jù)遭到破壞,將會嚴重影響信息的使用以及安全。所以必須建立完善的應急措施,多對數(shù)據(jù)進行備份,建立完善的備用系統(tǒng)。在主系統(tǒng)遭到破壞后,立即能夠開展相應的應急措施,如立即啟用備用系統(tǒng),并調取備份文件,完成對數(shù)據(jù)的恢復,確保信息的安全。同時能夠在短期內修復主系統(tǒng),恢復數(shù)據(jù)的提供。
網(wǎng)絡攻擊是竊取重要數(shù)據(jù)以及癱瘓重要網(wǎng)絡的常見手段,此行為能夠對數(shù)據(jù)安全形成巨大威脅。所以大數(shù)據(jù)系統(tǒng)必須做好防攻擊措施,如此前所講的將重要數(shù)據(jù)隔斷和互聯(lián)網(wǎng)的物理連接等。另外,信息系統(tǒng)必須經(jīng)常查找并修復可能被利用的漏洞,建立起防攻擊的規(guī)則,限制攻擊行為的頻次以及數(shù)據(jù)廣播的攻擊。另外,還必須建立起安全有效的系統(tǒng)日志功能,能夠對各種行為進行記錄,即使遭到攻擊,也可以溯源,甚至能夠對攻擊者采取措施,追究其責任。
目前關于數(shù)據(jù)流通和保護方面的立法還不完善,對于數(shù)據(jù)的流通以及保護的法律條文雖然也有一些,但是分布在多個不同的法律法規(guī)當中。如《網(wǎng)絡安全法》《中華人民共和國保守國家秘密法》《征信業(yè)管理條例》《地圖管理條例》等。其中《網(wǎng)絡安全法》并沒有對重要數(shù)據(jù)進行精確的定義,其范圍和界限也顯得非常模糊,也未對大數(shù)據(jù)進行分級定義。這樣的情況就導致關于大數(shù)據(jù)相關業(yè)務游走在法律的邊緣,一方面受到利益驅動大肆搜集各種數(shù)據(jù)包括隱私數(shù)據(jù);另一方面缺乏足夠的法律依據(jù),導致一些重要數(shù)據(jù)會產生跨境流動,轉移到美國等發(fā)達國家,進一步加強其數(shù)字霸權。不過相關部門已經(jīng)意識到這個問題的嚴重性,開始著手解決這種現(xiàn)狀。如近期對某打車APP進行下架處理,同時對一些公司的人臉識別APP進行甄別,其主要目的就是從行動層杜絕這種數(shù)據(jù)跨境流動的灰色行為。以上做法可以看做是對美方禁止我國字節(jié)跳動以及騰訊公司APP的對應反制行為,這也能看出我國對數(shù)據(jù)保護領域已經(jīng)有了足夠重視。相關部門肯定會針對這一現(xiàn)狀進行立法,對數(shù)據(jù)進行分級,并對重要數(shù)據(jù)從法律層面進行嚴格的保護和控制。