王珺 趙未未
摘 ?要:隨著科技及網(wǎng)絡的普及,大數(shù)據(jù)發(fā)展趨勢勢不可擋。但大數(shù)據(jù)也帶來了隱私弊病。文章將圍繞大數(shù)據(jù)所引發(fā)的行為分析問題進行探討。
關鍵詞:大數(shù)據(jù);大數(shù)據(jù)來源;大數(shù)據(jù)存儲;行為分析
前言
隨著科技與網(wǎng)絡時代的到來,新型社交工具以及傳感器的大范圍使用,數(shù)據(jù)呈現(xiàn)急速發(fā)展的趨勢,大數(shù)據(jù)時代隨之到來。大數(shù)據(jù)(big data),是指無法在可承受的時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。比較具有代表性意義的大數(shù)據(jù)定義為3v定義,即規(guī)模性(volume)、多樣性(variety)、高速性(velocity)。這里就大數(shù)據(jù)來源、存儲對于大數(shù)據(jù)所引發(fā)的行為分析存在的問題進行淺析。
1 大數(shù)據(jù)來源
隨著互聯(lián)網(wǎng)發(fā)展,各種信息發(fā)布平臺的不斷推出,數(shù)據(jù)產生方式發(fā)生了巨大轉變。由此,數(shù)據(jù)的規(guī)模、類型、模式與數(shù)據(jù)的關系處理方式以及處理工具發(fā)生了變化,完成了數(shù)據(jù)向大數(shù)據(jù)的轉變。
數(shù)據(jù)的產生方式經歷了運營式系統(tǒng)階段到用戶原創(chuàng)內容階段最終到感知系統(tǒng)階段的演變,即從被動到主動最終到自動的過程。
被動數(shù)據(jù)(運營系統(tǒng)階段)的產生與運營活動及數(shù)據(jù)庫的普遍使用密切相關,如超市購物的、醫(yī)院就診、學校教育等在想用數(shù)據(jù)庫中均會產生相關數(shù)據(jù);進入web2.0時代,微博、騰訊qq等新型社交工具的產生以及手機、平板電腦等新型移動設備的出現(xiàn)不僅增加了數(shù)據(jù)產生客體人數(shù),同時使得用戶主動提交自己的行為,并與自己的社交圈進行了實時的互動。因此,主動型數(shù)據(jù)(用戶原創(chuàng)內容階段)應運而生。而技術的發(fā)展,源源不斷的數(shù)據(jù)產生正式迎來了自動數(shù)據(jù)(感知系統(tǒng)階段)的時代。眾多機器所配備的連續(xù)測量和報告運行裝置,對公眾場合進行全方位監(jiān)控的微小傳感器等都會自動地、時刻地產生大量的數(shù)據(jù)。這三類來源不同的數(shù)據(jù)共同推進了大數(shù)據(jù)的產生。
2 大數(shù)據(jù)存儲
在信息迅速增長的當代,數(shù)據(jù)的形式存在文字、圖像、音頻、視頻等多種形式,計算機也不再是單單用來進行科學計算的工具。多樣化的數(shù)據(jù)存儲使得數(shù)據(jù)存儲模式越來越復雜,應運而生的數(shù)據(jù)庫系統(tǒng)產生于20世紀60年代,以層次和網(wǎng)狀數(shù)據(jù)庫系統(tǒng)為開端,關系數(shù)據(jù)模型產生帶動了關系數(shù)據(jù)庫的發(fā)展。然而,隨著web2.0時代對網(wǎng)絡一致性、實時性要求降低,而讀寫要求極大提高,網(wǎng)絡關系數(shù)據(jù)庫雖使用通用的SQL語言且容易理解、易于維護,卻在互聯(lián)網(wǎng)數(shù)據(jù)膨脹的web2.0時代就已經在數(shù)據(jù)存儲和處理上顯得有些力不從心了。為充分實現(xiàn)海量數(shù)據(jù)按不同模式存儲、充分挖掘和利用,NoSQL代替關系型數(shù)據(jù)庫成為新的數(shù)據(jù)存儲主流方式。
大數(shù)據(jù)的存儲是一種數(shù)據(jù)先于模式的存儲方式,這使得大數(shù)據(jù)的存儲具有極大靈活性和可擴展性,例如,谷歌引以為傲的文件系統(tǒng)GFS和colossus,Mongodb數(shù)據(jù)庫等,都在大數(shù)據(jù)存儲效率方面表現(xiàn)出比較傳統(tǒng)關系型數(shù)據(jù)庫有極大的優(yōu)勢。但NoSQL中并沒有嚴格的隱私保護機制,這使得網(wǎng)頁瀏覽者的瀏覽數(shù)據(jù)和位置數(shù)據(jù)等隱私極容易泄露。首先,在數(shù)據(jù)管理人員進行數(shù)據(jù)分析時,NoSQL并不存在關系數(shù)據(jù)庫及嚴格的訪問控制機制,這使得用戶隱私有一定可能性被竊取;其次,數(shù)據(jù)存儲程序又存在種種漏洞,用戶隱私極容易泄漏。
3 大數(shù)據(jù)分析行為導向
在互聯(lián)網(wǎng)發(fā)展步入大數(shù)據(jù)時代后,利用大數(shù)據(jù)為企業(yè)挖掘商業(yè)價值成了一種新的趨勢。通過瀏覽網(wǎng)頁過程中用戶的行為,分析出每個用戶的即時需要、潛在需要,來進行精準營銷,在節(jié)約資源和成本的前提下提高銷量、完善產品運營,進而挖掘潛在的商業(yè)價值,提升企業(yè)的競爭優(yōu)勢。
用戶畫像(Persona)就是大數(shù)據(jù)分析行為導向的很好例子。用戶畫像是將用戶以屬性標簽的集合為形式制作的用戶虛擬代表。企業(yè)將頁面或用戶注冊中所包含的數(shù)據(jù)利用數(shù)據(jù)分析平臺進行處理,挑選有用的信息進行標簽化,這使得每一位用戶在網(wǎng)站運營的商家看來都好似看得到的實體。在互聯(lián)網(wǎng)的營銷競爭中,用戶畫像為企業(yè)提供了網(wǎng)絡用戶足夠多的信息基礎,這可以幫助企業(yè)快速找到精準的用戶群和用戶需求,以及更廣泛的反饋信息。例如阿里巴巴的高端APASS用戶畫像。如今的電子商務企業(yè)客源模式轉變,由最初的吸引新用戶的加入逐漸轉變?yōu)榱糇±嫌脩?,在盡量節(jié)約成本的條件下,阿里正需要了解每一個高端用戶的“本身”,即客戶的社會屬性、生活習慣、消費行為等,利用這些信息進行廣告的精準投放。
然而,這樣的信息分析行為導向的方式并不是絕對安全的。首先,用戶在頁面的輸入有可能會被不良商家或網(wǎng)絡黑客所竊取,例如某人在社交網(wǎng)站上填寫并保存了一個表單,這樣的表單便會被存入網(wǎng)站后臺的數(shù)據(jù)庫,某一時刻便會被別有用意者所竊取和利用;其次,用戶瀏覽的網(wǎng)頁記錄是許多的“用戶標簽”,它們作為可以利用的用戶屬性,既是商家進行精確營銷的切入點,更是用戶私密信息泄露的突破口;此外,瀏覽網(wǎng)站時產生的地理位置信息為帶有商業(yè)目的的商家利用,也會成為網(wǎng)絡不安全因素。
有許多案例佐證,不正當目的的大數(shù)據(jù)分析會泄露隱私,這里以“棱鏡門”事件為例。2013年6月,斯諾登曝光了美國NSA自2007年就開始實行的棱鏡計劃(PRISM),根據(jù)棱鏡計劃,美國NSA能夠透過社交網(wǎng)站、電話公司或搜索引擎網(wǎng)站等窺測到大量個人聊天日志、存儲的數(shù)據(jù)、語音通信、文件傳輸、個人社交網(wǎng)絡數(shù)據(jù),利用正在快速發(fā)展的超級計算機和幾乎完備的大數(shù)據(jù)分析方法,將看似不關聯(lián)的數(shù)據(jù)以超級快的速度加以歸納、計算與分析。雖然美國政府將這樣的大數(shù)據(jù)搜集的目的歸為反恐,但個人數(shù)據(jù)隱私的泄漏也是不可避免的。在日常生活中,每個人都避免不了用手機的數(shù)據(jù)連接功能,若利用不具備良好的隱私保護功能的手機進行數(shù)據(jù)連接上網(wǎng)時,會產生大量可輕易被獲取的個人數(shù)據(jù),如地理位置信息、需求偏好或是行為動向的信息等。電子科技大學互聯(lián)網(wǎng)科學中心主任周濤教授介紹了公開的一項最新研究成果:某個手機用戶只要曾出現(xiàn)在4個基站的服務區(qū),利用大數(shù)據(jù)模型,研究者就能把他從百萬用戶中區(qū)分出來,識別他的身份,準確率為95%。這樣的研究結論也證實了“棱鏡門”是現(xiàn)實可行且方便的。
4 結束語
大數(shù)據(jù)出現(xiàn)即應用帶來了諸多政治、文化及經濟效益。其公開性,高效性與個人隱私問題則存在了很大沖突。需采取有效措施,進行不同效應之間的折中處理,從個人層面、組織層面以及社會層面全面推進大數(shù)據(jù)隱私問題建設。
參考文獻
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J].2012.
[2]關作森,陳友,李偉基,等.淘寶客戶信息隱私保護的現(xiàn)狀分析與對策研究[J].2013.