陳蘭杰,聞 航(河北大學管理學院)
開放政府數(shù)據(jù)擁有政治、經(jīng)濟和社會等多個方面的巨大價值,已引起全球眾多國家的重視。然而,開放政府數(shù)據(jù)資源包含著數(shù)據(jù)所有者的個人隱私,如果不加以處理就直接上傳會對數(shù)據(jù)所有者的權(quán)益造成侵害,使其對開放政府數(shù)據(jù)產(chǎn)生抵觸心理,不利于開放政府數(shù)據(jù)工作的開展。同時,數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展使得有數(shù)據(jù)分析能力的數(shù)據(jù)使用者能夠?qū)Χ喾N渠道發(fā)布的政府數(shù)據(jù)進行融合挖掘處理,使匿名化的個人隱私重現(xiàn),在經(jīng)濟上通過知識鴻溝價格歧視將消費者剩余榨干到臨界值[1],而在政治上構(gòu)建個人畫像不僅會對數(shù)據(jù)所有者的個人隱私造成侵犯,而且會對社會穩(wěn)定甚至是國家安全造成威脅。區(qū)塊鏈是近年來新興的技術(shù),具有去中心自組織、分布式記錄、不可篡改等特點,在開放政府數(shù)據(jù)過程中引入?yún)^(qū)塊鏈技術(shù),可以在發(fā)揮開放政府數(shù)據(jù)價值的同時,充分保護開放政府數(shù)據(jù)中數(shù)據(jù)所有者的個人隱私不受侵犯。
目前,國內(nèi)外有關(guān)開放政府數(shù)據(jù)中個人隱私保護的研究略有不同。國內(nèi)關(guān)于開放政府數(shù)據(jù)中個人隱私保護的研究主要包括:開放政府數(shù)據(jù)中個人隱私保護的利益相關(guān)者及其相關(guān)概念研究[2-6]、有關(guān)法規(guī)及政策研究[7-10]、開放政府數(shù)據(jù)中個人隱私保護機制和保護策略的研究[11-14]。國外有關(guān)開放政府數(shù)據(jù)中個人隱私保護的研究主要有:基于實踐經(jīng)驗的研究[15-16]、與法律法規(guī)以及政策相關(guān)的研究[17-19]、有關(guān)組織機構(gòu)和職位設(shè)置的研究[20-21]、隱私影響評估的研究[22-23]等。通過文獻梳理發(fā)現(xiàn),當前有關(guān)開放政府數(shù)據(jù)中個人隱私保護的研究主要集中在基本內(nèi)涵研究、法律法規(guī)及政策研究、對策建議研究、對國外先進經(jīng)驗的借鑒等,大多停留在基本理論研究的層面上,僅有少數(shù)文章從技術(shù)層面進行研究,但也基本上停留在對技術(shù)的簡單介紹層面上,對于如何運用這些技術(shù)在現(xiàn)實工作中解決實際問題沒有回答。造成以上現(xiàn)象的原因主要有兩個方面:開放政府數(shù)據(jù)中個人隱私保護近幾年才受到人們的關(guān)注,剛剛成為研究的熱點;運用以前的技術(shù)手段無法解決開放政府數(shù)據(jù)中個人隱私保護問題。
區(qū)塊鏈技術(shù)的出現(xiàn)從技術(shù)角度為開放政府數(shù)據(jù)個人隱私保護提供了新的解決思路。本研究旨在構(gòu)建區(qū)塊鏈技術(shù)在開放政府數(shù)據(jù)個人隱私保護模型,并探討其運行機理,以期拋磚引玉,推動區(qū)塊鏈技術(shù)在開放政府數(shù)據(jù)中的應(yīng)用。
區(qū)塊鏈技術(shù)是指采取密碼學的方法進行存儲和驗證的鏈式結(jié)構(gòu),是一種不可篡改和偽造的分布式數(shù)據(jù)庫,利用節(jié)點共識算法進行生成和更新,是一種去中心化的基礎(chǔ)架構(gòu)[24]。區(qū)塊鏈技術(shù)也被稱為分布式賬本技術(shù),是一種互聯(lián)網(wǎng)數(shù)據(jù)庫技術(shù)[25]。由上述定義可以看出,區(qū)塊鏈本質(zhì)上是一種去中心化、匿名化、分布式、不可任意修改的存儲技術(shù),其對數(shù)據(jù)利用的追蹤具有天然優(yōu)勢。
區(qū)塊鏈的基礎(chǔ)架構(gòu)模型是一種棧分層模型,目前公認的模型共有6 層(見圖1)。數(shù)據(jù)層包含區(qū)塊鏈的底層技術(shù),用來描述區(qū)塊鏈的物理形式,通過各種技術(shù)保障數(shù)據(jù)存儲的安全;網(wǎng)絡(luò)層實現(xiàn)區(qū)塊鏈中各個節(jié)點之間的通訊,確保各個節(jié)點之間平等的關(guān)系;共識層包括不同使用場景下的各種算法,達到各個節(jié)點數(shù)據(jù)一致的目的;激勵層是對區(qū)塊鏈中礦工的一種獎勵機制,吸引更多的用戶使用;合約層主要包括智能合約和腳本代碼,從而實現(xiàn)機器自動化執(zhí)行,減少人為干預;應(yīng)用層是區(qū)塊鏈的實際應(yīng)用場景,與用戶直接產(chǎn)生交互[26]。
圖1 區(qū)塊鏈基礎(chǔ)架構(gòu)模型
從根本上來說,區(qū)塊鏈是一種去中心化的數(shù)據(jù)庫技術(shù),具有去中心化、自動化、可追溯、非對稱加密的特點。去中心化是指在區(qū)塊鏈中的全部節(jié)點都儲存著相同的、全部的數(shù)據(jù)信息,實現(xiàn)去中心化的目的,既保證了采用區(qū)塊鏈技術(shù)進行數(shù)據(jù)存儲的應(yīng)用實現(xiàn)開放透明、安全可信的功能[27],又避免了傳統(tǒng)數(shù)據(jù)存儲中心數(shù)據(jù)庫因遭受攻擊而對數(shù)據(jù)所有者個人隱私造成侵犯。自動化是指在區(qū)塊鏈系統(tǒng)中鍵入計算機程序代碼,當符合代碼程序后自動進行執(zhí)行,不符合代碼程序則進行拒絕寫入的操作。該段計算機程序代碼又可以稱為智能合約,利用它可以提升開放政府數(shù)據(jù)對涉及數(shù)據(jù)所有者個人隱私內(nèi)容的處理速度和準確度,減少間接使用所導致的個人隱私泄露問題[28]。可追溯是指利用時間戳和梅克爾樹技術(shù)追蹤、記錄信息資源的變化和傳輸活動,確保數(shù)據(jù)所有者的信息真實性和完整性[29],減少因為數(shù)據(jù)污染造成的開放政府數(shù)據(jù)中個人隱私侵犯事件的發(fā)生。非對稱加密是一種密鑰的保密方法,其相比對稱加密更加安全。加密時使用系統(tǒng)中所有使用者都能見到的公鑰,系統(tǒng)中的每一位用戶都可以使用這個公鑰來對一段要發(fā)送的信息進行加密操作,而信息接受者需要用對應(yīng)的密鑰進行解密操作。密鑰只有信息擁有者知道,被加密過的信息只有擁有對應(yīng)密鑰的人才能夠解密[30]。利用非對稱加密技術(shù)可以降低開放政府數(shù)據(jù)在上傳下載過程中被竊取、污染、篡改等的可能性,從而對數(shù)據(jù)所有者的個人隱私進行保護。
在開放政府數(shù)據(jù)的采集和創(chuàng)建過程中,不可避免地會涉及到數(shù)據(jù)所有者的個人隱私,這些原始數(shù)據(jù)一旦泄露將會對個人隱私、商業(yè)秘密乃至國家安全造成不可估量的威脅。因此,應(yīng)安排具有相關(guān)資質(zhì)的政府工作人員負責原始數(shù)據(jù)的采集和創(chuàng)建工作,這對于國家安全和社會穩(wěn)定具有重要的戰(zhàn)略意義。但是在實際的生活和工作中,由于開放政府數(shù)據(jù)的范圍廣、數(shù)量大,經(jīng)常出現(xiàn)政府機構(gòu)工作人員越權(quán)采集涉及個人隱私數(shù)據(jù)資源、企業(yè)單位非法創(chuàng)建涉及個人隱私的數(shù)據(jù)資源的情況。加之我國目前已有的法律法規(guī)和相關(guān)政策并沒有對個人隱私的內(nèi)涵和范圍進行明確的界定,這就導致在采集和創(chuàng)建政府開放數(shù)據(jù)時容易出現(xiàn)對個人隱私信息的不當操作,從而給廣大人民群眾帶來許多不必要的困擾。
開放政府數(shù)據(jù)的資源在發(fā)布之前要進行加工和處理,對數(shù)據(jù)進行規(guī)范化的處理不僅有利于提高數(shù)據(jù)的可獲取和可利用性,更重要的是能夠提高對數(shù)據(jù)所有者個人隱私的保護。但是,目前我國對于數(shù)據(jù)處理的方式和程度缺乏統(tǒng)一的標準,盡管國家有關(guān)部門發(fā)布了不少標準,但普遍宏觀籠統(tǒng)、缺乏可操作性,而且這些標準在內(nèi)容上也存在著不統(tǒng)一的問題。以現(xiàn)在最常用的數(shù)據(jù)脫敏技術(shù)為例,因其涉及的開放政府數(shù)據(jù)信息資源眾多,且各個政府部門缺乏有效的交流溝通,導致各個政府部門的處理方式不盡相同,不利于開放政府數(shù)據(jù)工作的開展。因此,數(shù)據(jù)脫敏等技術(shù)需要一個統(tǒng)一的標準來規(guī)范開發(fā)政府數(shù)據(jù)加工與處理階段的工作,但是我國目前尚未出臺相關(guān)標準。
我國各級政府部門積極響應(yīng)《促進大數(shù)據(jù)發(fā)展行動綱要》的號召,采取適合當?shù)氐拇胧┲﹂_放政府數(shù)據(jù)工作的開展,且大多取得了不俗的成績。但是我國幅員遼闊,各個政府行政單位分屬不同的領(lǐng)導機構(gòu),加工處理好的數(shù)據(jù)資源一般都存儲在各自的服務(wù)器上。又因行政級別的不同,縣鄉(xiāng)級的政府單位硬件設(shè)備與省市級政府單位有著很大的區(qū)別,且往往縣鄉(xiāng)級單位擔負著原始數(shù)據(jù)存儲的任務(wù),容易受到黑客和不法分子的攻擊,導致包含民眾個人隱私的元數(shù)據(jù)資源被竊取。省市級政府單位擁有海量的數(shù)據(jù)存儲,但傳統(tǒng)的數(shù)據(jù)庫存儲技術(shù)處理數(shù)據(jù)備份會產(chǎn)生大量的數(shù)據(jù)冗余。為了更加便捷地進行開放政府數(shù)據(jù)工作,不同單位政府部門之間、相同政府部門的政府數(shù)據(jù)管理平臺和開放政府數(shù)據(jù)平臺之間的數(shù)據(jù)傳輸已基本實現(xiàn)了網(wǎng)絡(luò)化。但是在傳輸?shù)倪^程中極少采取密碼技術(shù)來確保數(shù)據(jù)的安全,與開放數(shù)據(jù)晴雨表排名前列的國家相比,我國在數(shù)據(jù)所有者個人隱私保護方面仍然有著較大差距。
政府在政府數(shù)據(jù)開放平臺共享開放數(shù)據(jù)資源,有需求者可以通過政府數(shù)據(jù)開放平臺自行下載,但是目前政府開放數(shù)據(jù)平臺與數(shù)據(jù)需求者之間的共享數(shù)據(jù)通道采取的不是安全的協(xié)議,容易造成數(shù)據(jù)資源在獲取的過程中被第三方篡改、污染,導致數(shù)據(jù)需求者得不到真實、完整的數(shù)據(jù)資源,最終使開放政府數(shù)據(jù)失去應(yīng)有的價值,對民眾造成不良影響。開放政府數(shù)據(jù)資源通常采用數(shù)據(jù)脫敏技術(shù)進行處理,從而避免個人隱私遭到泄露。但是隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,許多經(jīng)過數(shù)據(jù)挖掘處理的開放政府數(shù)據(jù)資源依舊可以被識別出來,導致許多不法企業(yè)和個人從公開或非公開的渠道收集民眾的個人信息。
開放政府數(shù)據(jù)可以通過對數(shù)據(jù)資源的挖掘產(chǎn)生經(jīng)濟價值,但同時如果處理不當則會產(chǎn)生侵權(quán)事件。然而,民眾對于數(shù)據(jù)受到侵犯后如何進行維權(quán)卻知之甚少。隨著互聯(lián)網(wǎng)的普及,越來越多的民眾選擇在網(wǎng)絡(luò)進行維權(quán)發(fā)聲,部分網(wǎng)絡(luò)民眾容易受到惡意企業(yè)或個人的利用,盲目跟風,對政府部門工作人員進行人身攻擊,造成惡劣的影響。民眾既是開放政府數(shù)據(jù)過程中數(shù)據(jù)的所有者,也是數(shù)據(jù)的使用者,盡管數(shù)據(jù)的開發(fā)利用需要較強的數(shù)據(jù)挖掘和數(shù)據(jù)處理能力,但是我們不能據(jù)此就將民眾從數(shù)據(jù)使用者中排除出去。民眾參與到數(shù)據(jù)的使用中來,開放政府數(shù)據(jù)才會在更大的范圍內(nèi)產(chǎn)生影響,才能營造良性的開放政府數(shù)據(jù)生態(tài)環(huán)境。作為數(shù)據(jù)的所有者,民眾在發(fā)現(xiàn)開放政府數(shù)據(jù)中存在個人隱私遭到濫用的情況時,政府應(yīng)當有專門的渠道用于民眾反饋,并進一步要求政府部門進行相應(yīng)處理。
依據(jù)信息資源生命周期理論,可將開放政府數(shù)據(jù)分為采集創(chuàng)建、加工處理、存儲共享和開發(fā)利用四個階段。在此基礎(chǔ)上,筆者通過文獻梳理以及總結(jié)實際工作中遇到的現(xiàn)實問題,增加了侵權(quán)反饋階段。結(jié)合區(qū)塊鏈基礎(chǔ)架構(gòu)模型和區(qū)塊鏈的相關(guān)特性,筆者構(gòu)建了開放政府數(shù)據(jù)個人隱私保護模型,并在該模型中引入在開放政府數(shù)據(jù)過程中相關(guān)利益者(見圖2)。
圖2 基于區(qū)塊鏈的開放政府數(shù)據(jù)個人隱私保護模型
(1)采集創(chuàng)建階段。開放政府數(shù)據(jù)的采集和創(chuàng)建階段對應(yīng)區(qū)塊鏈基礎(chǔ)架構(gòu)的數(shù)據(jù)層,是開放政府數(shù)據(jù)的基礎(chǔ)階段。區(qū)塊鏈技術(shù)網(wǎng)絡(luò)層的時間戳和梅克爾樹技術(shù)可以為開放政府數(shù)據(jù)資源提供簡潔的隸屬證明,使得數(shù)據(jù)資源具有可追溯性,從而減少數(shù)據(jù)在采集創(chuàng)建階段泄露的風險。同時,政府工作人員在進行數(shù)據(jù)采集創(chuàng)建時采用時間戳技術(shù)可以為完成采集的數(shù)據(jù)資源提供時間證明。一旦發(fā)生數(shù)據(jù)泄露造成個人隱私侵權(quán)的事件發(fā)生,可以利用區(qū)塊鏈的可追溯性調(diào)查是在何時何地何人導致了數(shù)據(jù)的泄露,還可以對電子數(shù)據(jù)資源的完整性和真實性進行驗證。
(2)加工處理階段。開放政府數(shù)據(jù)的加工和處理階段對應(yīng)區(qū)塊鏈基礎(chǔ)框架的合約層。開放政府數(shù)據(jù)的數(shù)據(jù)資源數(shù)量龐大,處理起來十分困難。利用區(qū)塊鏈的智能合約不但可以減少政府工作人員的工作量,同時可以提高識別的準確度和效率。智能合約改變了傳統(tǒng)的對原始數(shù)據(jù)進行加工處理的標準和方法,打破了傳統(tǒng)政府部門各自為政的弊端,智能合約代碼根據(jù)開放政府數(shù)據(jù)中個人隱私保護的法律、法規(guī)及相關(guān)政策進行編制。使用者在區(qū)塊鏈指定的合約中鍵入指定的代碼后,系統(tǒng)將根據(jù)代碼推斷是否執(zhí)行智能合約對數(shù)據(jù)進行處理;進行數(shù)據(jù)加工處理時,按照智能合約的統(tǒng)一標準對數(shù)據(jù)中涉及的隱私信息進行脫敏處理,確保涉及用戶隱私的數(shù)據(jù)不會上傳到網(wǎng)絡(luò)中;利用智能合約還可進行全網(wǎng)監(jiān)控,當發(fā)現(xiàn)涉及個人隱私的數(shù)據(jù)出現(xiàn)在網(wǎng)絡(luò)中時,可以進行全網(wǎng)報警,并永久記錄涉事部門的事發(fā)原因和處理措施。
(3)存儲共享階段。開放政府數(shù)據(jù)的存儲和共享階段對應(yīng)區(qū)塊鏈基礎(chǔ)架構(gòu)的網(wǎng)絡(luò)層。傳統(tǒng)中心化的數(shù)據(jù)存儲和共享的管理模式普遍存在著成本昂貴、備份繁瑣、數(shù)據(jù)易受攻擊等弊病,開放政府數(shù)據(jù)過程中數(shù)據(jù)的存儲和共享需要價格低廉、處理高效、安全程度高的數(shù)據(jù)庫存儲模式。區(qū)塊鏈采取的是一種分布式存儲的模式,提高了數(shù)據(jù)庫的容錯率和安全度,即使某些區(qū)塊鏈的數(shù)據(jù)受到黑客和不法分子的攻擊遭到破壞,依舊可以使用其他節(jié)點存儲的完整的數(shù)據(jù)副本。采取分布式存儲技術(shù)后,單個數(shù)據(jù)的修改在沒有被全網(wǎng)認可的情況下沒有任何作用,可以避免篡改、污染、虛假數(shù)據(jù)對用戶個人隱私造成傷害。區(qū)塊鏈網(wǎng)絡(luò)是一種點對點網(wǎng)絡(luò),節(jié)點之間采取中繼轉(zhuǎn)發(fā)模式進行通信,很難實現(xiàn)網(wǎng)絡(luò)監(jiān)聽,避免數(shù)據(jù)在共享傳輸?shù)倪^程中被第三方截取。
(4)開發(fā)利用階段。開放政府數(shù)據(jù)的開發(fā)和利用階段對應(yīng)區(qū)塊鏈基礎(chǔ)框架的應(yīng)用層,是實現(xiàn)開放政府數(shù)據(jù)資源傳遞到網(wǎng)絡(luò)的最終形式,也是開放政府數(shù)據(jù)的根本價值所在。政府部門利用區(qū)塊鏈非對稱加密技術(shù)中的公開密鑰和私有密鑰管理可以有效地進行開放政府數(shù)據(jù)資源的權(quán)限管理工作,對數(shù)據(jù)使用者進行監(jiān)管和審計,一旦發(fā)現(xiàn)數(shù)據(jù)使用者在利用數(shù)據(jù)挖掘、數(shù)據(jù)融合的過程中對數(shù)據(jù)所有者的個人隱私造成損害,政府有關(guān)部門可以及時采取措施,對數(shù)據(jù)使用者的私有秘鑰權(quán)限進行限定處理,并在全網(wǎng)進行廣播。對于屢教不改者的數(shù)據(jù)使用者,有關(guān)部門可以徹底收回其私有秘鑰使用權(quán)限,并將其拉入黑名單或者從區(qū)塊鏈網(wǎng)絡(luò)中進行刪除。
(5) 侵權(quán)反饋階段。開放政府數(shù)據(jù)的侵權(quán)和反饋階段對應(yīng)區(qū)塊鏈基礎(chǔ)架構(gòu)的激勵層,對實現(xiàn)開放政府數(shù)據(jù)工作有著非常重要的意義。在區(qū)塊鏈中,每個用戶都可以通過自己的主機節(jié)點將生成的數(shù)據(jù)進行全網(wǎng)廣播,經(jīng)過全網(wǎng)51%的用戶進行核實認證后寫入到區(qū)塊鏈上。在開放政府數(shù)據(jù)過程中,數(shù)據(jù)所有者可以利用全網(wǎng)廣播的形式將在實際工作生活中遇到的侵犯個人隱私權(quán)的事件上傳到政府相關(guān)部門,這些信息經(jīng)過審核確保真實無誤后會被記錄到區(qū)塊鏈中,數(shù)據(jù)被全網(wǎng)監(jiān)控,從而不會被相關(guān)利益者篡改。同時,數(shù)據(jù)所有者的反饋信息在全網(wǎng)廣播可以避免不法之徒歪曲抹黑原反饋信息,煽動民眾對政府工作人員進行人身攻擊等事情發(fā)生,加強政府、數(shù)據(jù)所有者、數(shù)據(jù)使用者之間的互動反饋,從而構(gòu)建良好的開放政府數(shù)據(jù)生態(tài)環(huán)境。
在《促進大數(shù)據(jù)發(fā)展行動綱要》 的推動下,北京、上海、貴州、廣東等地在開放政府數(shù)據(jù)工作中取得了不錯的成效。但在開放政府數(shù)據(jù)開發(fā)利用的過程中,仍有許多企業(yè)在利益的驅(qū)使下侵犯數(shù)據(jù)所有者的個人隱私。本研究結(jié)合區(qū)塊鏈基礎(chǔ)架構(gòu)模型和信息資源生命周期理論,構(gòu)建基于區(qū)塊鏈的開放政府數(shù)據(jù)個人隱私保護模型,并從開放政府數(shù)據(jù)全流程角度對其實現(xiàn)機理進行了闡述。運用區(qū)塊鏈技術(shù)可以解決開放政府數(shù)據(jù)個人隱私保護領(lǐng)域的問題,但是作為新技術(shù),區(qū)塊鏈在擴展性、穩(wěn)定性、管理模式等方面還不完善,存在著諸如數(shù)據(jù)存儲量會隨著時間越來越大,更新速度慢、資源損耗大等問題,如何實現(xiàn)開放政府數(shù)據(jù)中區(qū)塊鏈技術(shù)優(yōu)化是今后研究的重要方向。