葉俊 于天嬌 郭禎 荊兆星
摘 ? 要:目前,數(shù)據(jù)統(tǒng)計(jì)廣泛應(yīng)用于社會(huì)經(jīng)濟(jì)生活的各個(gè)方面,對(duì)醫(yī)療數(shù)據(jù)進(jìn)行統(tǒng)計(jì)已成為醫(yī)院工作不可或缺的環(huán)節(jié),然而傳統(tǒng)的方法存在數(shù)據(jù)篡改、信息泄露的風(fēng)險(xiǎn)。文章基于區(qū)塊鏈技術(shù),提出了一種新型的醫(yī)療數(shù)據(jù)統(tǒng)計(jì)方案,利用區(qū)塊鏈的不可篡改性,有效避免了數(shù)據(jù)篡改的風(fēng)險(xiǎn);使用同態(tài)加密和保序加密算法,實(shí)現(xiàn)鏈上數(shù)據(jù)的隱私保護(hù);利用智能合約一方面對(duì)密文進(jìn)行統(tǒng)計(jì),確保統(tǒng)計(jì)結(jié)果的正確性;另一方面,實(shí)現(xiàn)在密文狀態(tài)下的數(shù)據(jù)排序。若某機(jī)構(gòu)對(duì)排序結(jié)果存在異議,可向監(jiān)管機(jī)構(gòu)提出申請(qǐng),監(jiān)管機(jī)構(gòu)通過解密鏈上數(shù)據(jù)進(jìn)行結(jié)果審查,并將審查結(jié)果返回,實(shí)現(xiàn)結(jié)果可驗(yàn)證。
關(guān)鍵詞:區(qū)塊鏈;同態(tài)加密;保序加密;智能合約
中圖分類號(hào):TP309 ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Abstract: Data statistics work involves various aspects of socioeconomic activities nowadays, and the statistics of medical data has become an indispensable part of hospital work. While the traditional methods have the risk of data tampering and information leakage. Based on the blockchain technology, a new data statistical scheme is proposed in this paper. The non temperability of blockchain is utilized to effectively avoid the risk of data tampering. Homomorphic encryption algorithm is used to achieve the privacy protection of data on the chain. At the same time, the ciphertext is counted regularly by using the smart contract to ensure the correctness of the statistical results. On the other hand, the statistical results are encrypted with order preserving to achieve data sorting in ciphertext state. When an institution has any objection to the ranking results, it can apply to the supervisory authority, which will review the results by decrypting the data on the chain and return the review results, so that the results can be verified.
Key words: blockchain; homomorphic encryption; order-preserving encryption(OPE); smart contract
1 引言
統(tǒng)計(jì)是通過數(shù)字來揭露事務(wù)在一定時(shí)間內(nèi)的數(shù)據(jù)變化規(guī)律,可有效幫助人們對(duì)事務(wù)進(jìn)行定量分析,從而促進(jìn)人們做出正確的決策[1]。大到對(duì)國家GDP、人口數(shù)據(jù)的統(tǒng)計(jì),小到對(duì)學(xué)生成績統(tǒng)計(jì),數(shù)據(jù)統(tǒng)計(jì)已涉及到社會(huì)、文化、國民經(jīng)濟(jì)、人民生活等各個(gè)領(lǐng)域,通過統(tǒng)計(jì)可以實(shí)現(xiàn)對(duì)不同事務(wù)進(jìn)行有聯(lián)系的定性分析。
數(shù)據(jù)統(tǒng)計(jì)作為經(jīng)濟(jì)信息的重要組成部分,在社會(huì)經(jīng)濟(jì)中發(fā)揮著極其重要的作用,準(zhǔn)確無誤的統(tǒng)計(jì)結(jié)果是檢測(cè)社會(huì)經(jīng)濟(jì)活動(dòng)規(guī)律的重要指標(biāo)之一,是進(jìn)行科學(xué)決策和管理的重要依據(jù)。然而目前數(shù)據(jù)統(tǒng)計(jì)采集仍然存在較大問題:一是統(tǒng)計(jì)基礎(chǔ)工作薄弱,統(tǒng)計(jì)工作人員對(duì)原始數(shù)據(jù)記錄混亂、拼湊數(shù)據(jù)、數(shù)據(jù)邏輯性錯(cuò)誤等,極大影響了后期整理難度,降低了數(shù)據(jù)的真實(shí)性和有效性;二是報(bào)表人責(zé)任意識(shí)弱,工作敷衍不嚴(yán)謹(jǐn),對(duì)統(tǒng)計(jì)數(shù)據(jù)來源不能嚴(yán)格審查,嚴(yán)重影響統(tǒng)計(jì)數(shù)據(jù)質(zhì)量;三是缺乏有效評(píng)估和監(jiān)督機(jī)制,部分統(tǒng)計(jì)部門為了局部利益會(huì)對(duì)統(tǒng)計(jì)工作進(jìn)行行政干預(yù),縱容統(tǒng)計(jì)數(shù)據(jù)作假,數(shù)據(jù)統(tǒng)計(jì)不透明,很難確保統(tǒng)計(jì)結(jié)果的準(zhǔn)確性[2]。
在現(xiàn)代化醫(yī)療體系結(jié)構(gòu)中,每個(gè)病患在就診過程中會(huì)產(chǎn)生大量的電子醫(yī)療記錄,其中包括患者的個(gè)人信息、病歷及各項(xiàng)檢查數(shù)據(jù)等。這些記錄通常會(huì)傳送到醫(yī)療的云服務(wù)器中存儲(chǔ),這不僅給病歷數(shù)據(jù)的統(tǒng)計(jì)帶來便利,也節(jié)省了大量醫(yī)生手寫病歷的時(shí)間。高效準(zhǔn)確的醫(yī)療數(shù)據(jù)統(tǒng)計(jì)以及統(tǒng)計(jì)數(shù)據(jù)價(jià)值的有效流通,給醫(yī)療機(jī)構(gòu)科學(xué)決策和科學(xué)管理提供了可靠的數(shù)據(jù)依據(jù)[3]。然而在統(tǒng)計(jì)過程中,一方面因大多數(shù)醫(yī)院信息化技術(shù)人員水平不一,導(dǎo)致統(tǒng)計(jì)結(jié)果的正確性相差較大[4];另一方面各醫(yī)院相互獨(dú)立進(jìn)行統(tǒng)計(jì)工作,存在數(shù)據(jù)易篡改問題,而且無法實(shí)現(xiàn)統(tǒng)計(jì)數(shù)據(jù)共享。因此,亟需改善現(xiàn)有統(tǒng)計(jì)方案,增強(qiáng)數(shù)據(jù)統(tǒng)計(jì)的正確性和可共享性。
比特幣[5]市值的一路增長,其底層區(qū)塊鏈技術(shù)也得到政府、企業(yè)和學(xué)術(shù)界高度的重視。我國也相繼出臺(tái)了許多關(guān)于區(qū)塊鏈的發(fā)展政策。2016年,《關(guān)于印發(fā)“十三五”國家信息化規(guī)劃的通知》[6]中,首次將區(qū)塊鏈作為一項(xiàng)戰(zhàn)略性前沿技術(shù)、顛覆性技術(shù)。2017年,國內(nèi)多省份、直轄市均出臺(tái)了針對(duì)區(qū)塊鏈產(chǎn)業(yè)發(fā)展的相關(guān)指導(dǎo)意見和區(qū)塊鏈專項(xiàng)扶持政策,加快了各地區(qū)塊鏈的發(fā)展步伐。2018年10月8日,海南省工信廳正式授牌海南生態(tài)軟件園設(shè)立“海南自貿(mào)區(qū)(港)區(qū)塊鏈試驗(yàn)區(qū)”,該試驗(yàn)區(qū)是國內(nèi)首個(gè)正式授牌的區(qū)塊鏈試驗(yàn)區(qū)。
區(qū)塊鏈作為一種新型分布式數(shù)據(jù)庫存儲(chǔ)技術(shù),具有開放性、可追溯、不可篡改等特性,對(duì)于解決數(shù)據(jù)統(tǒng)計(jì)面臨的數(shù)據(jù)易篡改、結(jié)果不準(zhǔn)確等問題有著天然優(yōu)勢(shì)。然而鏈上數(shù)據(jù)具有高度透明性,為了保證鏈上數(shù)據(jù)的隱私性,有必要在數(shù)據(jù)上鏈前進(jìn)行加密處理,且需要采用一定的技術(shù)完成對(duì)鏈上數(shù)據(jù)的匿名操作。
保序加密(Order Preserving Encryption,OPE)于2004年由Agrawal等人[7]首次提出,該加密方案使得密文與明文保持相同的順序,可以實(shí)現(xiàn)在不透露任何明文信息的情況下,直接對(duì)密文進(jìn)行查詢操作,且達(dá)到與明文查詢相同的效率,能夠很好保護(hù)用戶數(shù)據(jù)的隱私。保序加密分為一對(duì)一保序加密和一對(duì)多保序加密。前者指相同的明文加密得到相同的密文,后者指同一個(gè)明文可能得到不同的密文。Boldyreva等人[8]引入了保序明文不可區(qū)分的安全性定義(Indistinguishability under Ordered Chosen Plaintext Attack,IND-OCPA),并證明該保序加密密文是線性增長的,故不能夠達(dá)到理想安全性的目的。后提出選擇密文攻擊下偽隨機(jī)保序函數(shù)(Pseudorandom Order-Preserving Function under Chosen Ciphertext Attack, POPF-CCA),并提出相應(yīng)的保序加密方案。Popa等人[9]提出一種新型的保序加密算法(mOPE),該方案實(shí)現(xiàn)了理想的IND-OCPA安全。Florian Kerschbaum[10]提出了一種隱藏頻率的保序加密方案,通過隨機(jī)化密文來隱藏明文的頻率,在保證信息機(jī)密性的同時(shí)增強(qiáng)了密文安全性。
本文針對(duì)目前存在的數(shù)據(jù)統(tǒng)計(jì)中易篡改、易泄露等問題,提出了基于區(qū)塊鏈技術(shù)的可驗(yàn)證數(shù)據(jù)統(tǒng)計(jì)方案,使用區(qū)塊鏈降低第三方信任機(jī)構(gòu)的約束,增強(qiáng)了數(shù)據(jù)透明性,同時(shí)很好的抵御了數(shù)據(jù)被篡改的可能。采用同態(tài)加密和保序加密實(shí)現(xiàn)對(duì)鏈上數(shù)據(jù)的隱私保護(hù)。利用智能合約自動(dòng)完成對(duì)數(shù)據(jù)的匿名統(tǒng)計(jì)和排序,當(dāng)某機(jī)構(gòu)對(duì)排序結(jié)果存在異議時(shí),可通過監(jiān)管機(jī)構(gòu)驗(yàn)證結(jié)果的正確性。
2 預(yù)備知識(shí)
2.1 保序加密
保序加密保證了密文與明文順序的一致性,現(xiàn)多用于對(duì)云環(huán)境下的數(shù)據(jù)庫數(shù)據(jù)機(jī)密性保護(hù),可以高效處理涉及加密數(shù)據(jù)排序和范圍查詢。保序加密方案一般包含三個(gè)算法,記作一個(gè)三元組(GenKey,Enc,Dec),其明文空間設(shè)為D,密文空間設(shè)為R。
2.3 區(qū)塊鏈概述
區(qū)塊鏈?zhǔn)潜忍貛诺牡讓蛹夹g(shù),具有匿名性、不可篡改、開放性等特點(diǎn)。區(qū)塊鏈系統(tǒng)中每一個(gè)節(jié)點(diǎn)地位平等,不存在第三方的約束控制,兩個(gè)互不信任的雙方,無需第三方,可以直接點(diǎn)對(duì)點(diǎn)進(jìn)行交易,且交易雙方并無法獲得對(duì)方的真實(shí)身份,很好的保護(hù)了用戶的身份隱私。區(qū)塊鏈?zhǔn)歉鶕?jù)時(shí)間順序?qū)⒚總€(gè)數(shù)據(jù)區(qū)塊相連形成的鏈?zhǔn)浇Y(jié)構(gòu),時(shí)間戳和鏈?zhǔn)浇Y(jié)構(gòu)的特性增加了鏈上數(shù)據(jù)被篡改的難度。區(qū)塊鏈上數(shù)據(jù)是公開透明的,任何人都能夠查看區(qū)塊鏈上數(shù)據(jù)。
區(qū)塊鏈的數(shù)據(jù)結(jié)構(gòu)如圖1所示。其中包含區(qū)塊頭和區(qū)塊體兩部分,區(qū)塊頭中有前一區(qū)塊的哈希值、時(shí)間戳、隨機(jī)數(shù)、Merkle樹根等信息,每個(gè)區(qū)塊都保存有前一區(qū)塊的哈希值,從而實(shí)現(xiàn)向前鏈接形成鏈?zhǔn)浇Y(jié)構(gòu),使得鏈上數(shù)據(jù)具有可追溯性。
區(qū)塊鏈的發(fā)展歷史可以分為三個(gè)階段:區(qū)塊鏈1.0、區(qū)塊鏈2.0、區(qū)塊鏈3.0。區(qū)塊鏈1.0-可編輯貨幣是以比特幣為代表的加密數(shù)字貨幣,相繼出現(xiàn)一系列加密貨幣,如以太幣(ETH)、瑞波幣(XRP)、萊特幣(LTC)、未來幣(NXT)等。而數(shù)字貨幣大多用在轉(zhuǎn)賬、支付等方面。區(qū)塊鏈2.0-可編程金融:?jiǎn)螁蔚臄?shù)字貨幣已經(jīng)沒法滿足社會(huì)發(fā)展的需求,2013年12月,Vitalik Buterin發(fā)表“以太項(xiàng)目”白皮書[12],首次將近乎圖靈完備的智能合約運(yùn)用到區(qū)塊鏈中,智能合約的提出使得區(qū)塊鏈可以運(yùn)用到除數(shù)字貨幣外的更多領(lǐng)域。區(qū)塊鏈3.0-可編程社會(huì):近年來,隨著區(qū)塊鏈技術(shù)的發(fā)展,區(qū)塊鏈已被運(yùn)用到各個(gè)行業(yè)(政府、文化、醫(yī)療、審計(jì)、物聯(lián)網(wǎng)等),也在不斷地改變著生活。
2.4 智能合約
2013年末,以太坊[12]平臺(tái)首次將智能合約(Smart contract)運(yùn)用到公有區(qū)塊鏈上,任何人都可以去創(chuàng)建合約和去中心化應(yīng)用。智能合約可以看成一段在區(qū)塊鏈中自動(dòng)執(zhí)行的用戶定義的程序。在以太坊中,智能合約在以太虛擬機(jī)(EVM)中執(zhí)行,合約由多人共同部署,一旦部署成功,合約內(nèi)容將無法修改,當(dāng)滿足某種條件時(shí),合約會(huì)被激活自動(dòng)執(zhí)行,且不會(huì)受到人為的干預(yù),最后將運(yùn)行結(jié)果返回給用戶。使用智能合約無法修改、自動(dòng)執(zhí)行的特性,可以用來代替可信第三方完成數(shù)據(jù)統(tǒng)計(jì),確保統(tǒng)計(jì)結(jié)果的準(zhǔn)確性。
智能合約的出現(xiàn),極大的增加了區(qū)塊鏈技術(shù)的應(yīng)用領(lǐng)域。如果說區(qū)塊鏈提供了一種可信的數(shù)據(jù),那么區(qū)塊鏈上的智能合約就提供了一種可信的計(jì)算。在金融應(yīng)用中,智能合約可以自動(dòng)處理付款交易過程,如針對(duì)保險(xiǎn)業(yè)務(wù),可以在某種情況下自動(dòng)支付用戶賠償金,能夠有效消除騙保等問題。在公證領(lǐng)域,智能合約利用區(qū)塊鏈數(shù)據(jù)的不可篡改性,可對(duì)知識(shí)產(chǎn)權(quán)進(jìn)行存在性證明。在物聯(lián)網(wǎng)領(lǐng)域,智能合約的加入,可以自動(dòng)執(zhí)行復(fù)雜的多步驟流程,從而可以節(jié)省大量的成本與時(shí)間[13]。
3 基于區(qū)塊鏈的可驗(yàn)證醫(yī)療數(shù)據(jù)統(tǒng)計(jì)方案
3.1系統(tǒng)模型
本文針對(duì)數(shù)據(jù)統(tǒng)計(jì)不透明,易篡改等問題,提出了一種基于區(qū)塊鏈技術(shù)的可驗(yàn)證醫(yī)療數(shù)據(jù)統(tǒng)計(jì)方案。該方案中包括幾個(gè)實(shí)體:授權(quán)機(jī)構(gòu)CA、醫(yī)院Hos、智能合約SC、監(jiān)管機(jī)構(gòu)SA。
授權(quán)機(jī)構(gòu)CA:驗(yàn)證機(jī)構(gòu)身份,并頒發(fā)認(rèn)證證書以及密鑰。
醫(yī)院Hos:指擁有數(shù)據(jù)的鏈上機(jī)構(gòu)。為了保護(hù)數(shù)據(jù)的隱私性,各醫(yī)療機(jī)構(gòu)使用加密算法對(duì)數(shù)據(jù)進(jìn)行加密處理后上傳至區(qū)塊鏈。
智能合約SC:鏈上智能合約對(duì)鏈上數(shù)據(jù)進(jìn)行密文統(tǒng)計(jì),在不泄露數(shù)據(jù)明文的情況下,對(duì)數(shù)據(jù)密文進(jìn)行排序處理,并將排序結(jié)果公布上鏈。
[8] Boldyreva A, Chenette N, Lee Y, et al. Order-preserving symmetric encryption[C]. Annual International Conference on the Theory and Applications of Cryptographic Techniques, 2009: 224-241.
[9] Popa R A, Li F H, Zeldovich N. An ideal-security protocol for order-preserving encoding[C]. Proceedings of the 34th ?IEEE Symposium on Security and Privacy(S&P), 2013: 463-477.
[10] Kerschbaum F. Frequency-hiding order-preserving encryption[C]. Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security, 2015: 656-667.
[11] Paillier P. Public-key cryptosystems based on composite degree residuosity classes[C]. International Conference on the Theory and Applications of Cryptographic Techniques(EUROCRYPT), 1999: 223-238.
[12] Ethereum White Paper. A next-generation smart contract and decentralized application platform[EB/OL]. https://github.com/ethereum/wiki/wiki/WhitePaper.
[13] Christidis K, Devetsikiotis M. Blockchains and Smart Contracts for the Internet of Things[J]. IEEE Access, 2016, 4: 2292-2303.