醫(yī)療信息化領(lǐng)域中基因數(shù)據(jù)隱私安全的現(xiàn)狀與對策

2019-03-05 17:24:58王樂子母健康王思圓弓孟春

醫(yī)學(xué)信息學(xué)雜志 2019年1期

王樂子母健康郭昊王思圓弓孟春

(神州數(shù)碼醫(yī)療科技股份有限公司北京 100000)

1 引言

針對人類基因數(shù)據(jù)的研究發(fā)展已久，從達(dá)爾文的《物種起源》到孟德爾遺傳定律，德國科學(xué)家米歇爾發(fā)現(xiàn)DNA，劍橋大學(xué)的詹姆斯·沃森和弗朗西斯·克里克發(fā)現(xiàn)DNA的雙螺旋結(jié)構(gòu)，再到20世紀(jì)與曼哈頓原子彈計劃、阿波羅登月計劃并稱為人類自然科學(xué)史上3個重點計劃的人類基因組計劃[1-3]，以及近年來基因相關(guān)的精準(zhǔn)醫(yī)療，漫長的發(fā)展過程也使得基因數(shù)據(jù)更加重要。隨著生物醫(yī)學(xué)和計算機(jī)相關(guān)領(lǐng)域的發(fā)展，基因組學(xué)的研究必將為人類醫(yī)療健康發(fā)揮重要效用。然而基因數(shù)據(jù)隱私問題也成為應(yīng)用研究過程中重要的環(huán)節(jié)，因為這些隱私數(shù)據(jù)可能包含個人背景資料、生活習(xí)慣、生理和精神情況等極為敏感的信息，另外這些醫(yī)療數(shù)據(jù)還蘊(yùn)含著極大的商業(yè)價值[4-6]，所以在最大限度使用基因數(shù)據(jù)的同時確保隱私數(shù)據(jù)安全的研究勢在必行，主要從法律和技術(shù)兩個方面進(jìn)行。

2 基因數(shù)據(jù)安全研究

2.1 數(shù)據(jù)安全相關(guān)法案

個人數(shù)據(jù)的安全是數(shù)據(jù)在使用過程中的根本問題。美國在健康衛(wèi)生領(lǐng)域頒布的《健康保險流通與責(zé)任法案》(Health Insurance Portability and Accountability Act，HIPAA)[7-10]以及歐盟頒布的《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation,GDPR)[11-15]都體現(xiàn)出發(fā)達(dá)國家對于個人隱私保護(hù)的重視。我國現(xiàn)階段雖然沒有針對個人隱私信息保護(hù)的立法，但在多部法律法規(guī)中均有對個人信息數(shù)據(jù)保護(hù)的規(guī)定，也在不斷向各界征求新的立法意見?；驍?shù)據(jù)是極為隱私的個人數(shù)據(jù)，通過基因測序后以數(shù)據(jù)庫形式存在，當(dāng)研究人員在使用這些數(shù)據(jù)進(jìn)行基因疾病篩選、研究患者發(fā)病率、尋找疾病基因靶點時均會涉及個人基因庫隱私安全的問題[16-18]。目前我國正在開展的千人基因計劃，以后可能會涉及百萬人群的基因組研究，其內(nèi)容牽涉國人基因機(jī)構(gòu)的組成、功能、演化等極為敏感的數(shù)據(jù)，一旦泄露會給國家及人民帶來難以估計的損失和危害，所以在能夠滿足科研需求的情形下保證基因組數(shù)據(jù)的安全是迫切需要攻克的難關(guān)。

2.2 現(xiàn)有基因數(shù)據(jù)安全算法

2.2.1K-匿名方法由Sweeny[19]等提出，主要是用來解決鏈接攻擊個人數(shù)據(jù)隱私問題。基因數(shù)據(jù)隱私保護(hù)需要迫切，K-匿名方法不能完全保證將數(shù)據(jù)庫中的DNA序列數(shù)據(jù)信息與這些數(shù)據(jù)信息提供者的個人身份信息之間的聯(lián)系切斷，于是DNALA被開發(fā)出來。DNALA是K-匿名方法應(yīng)用到DNA數(shù)據(jù)隱私保護(hù)的一種方法，主要是對DNA數(shù)據(jù)模糊化處理，使得在數(shù)據(jù)集中的每個序列都至少有K-1個完全相同的序列，通過這種方法來防止攻擊者的路徑攻擊，為保證數(shù)據(jù)的安全性降低數(shù)據(jù)的精度。另外該方法在數(shù)據(jù)預(yù)處理時用的是多序列對比，這個過程需要運(yùn)算時間較長，在后面的數(shù)據(jù)處理中對序列利用貪心算法分組時精度不高。針對該問題的改進(jìn)策略是在數(shù)據(jù)預(yù)處理階段將多序列對比改為兩兩序列對比，這樣就可以減少預(yù)處理階段所用時間。研究人員為減少該方法對數(shù)據(jù)精度的影響，在原來的基礎(chǔ)上提出隨機(jī)爬山法，即以隨機(jī)爬山法替代貪心算法，得到新的算法——Savior。經(jīng)實驗表明Savior對數(shù)據(jù)的變動程度遠(yuǎn)遠(yuǎn)小于DNALA，可以通過爬山次數(shù)這個參數(shù)來影響進(jìn)程中的數(shù)據(jù)精度。因此通過對K-匿名算法進(jìn)一步研究也成為保護(hù)基因數(shù)據(jù)安全的一個方向。

2.2.2 差分隱私方法由計算機(jī)密碼領(lǐng)域的專家Bonnie Berger和Sean Simmons提出[20]，可以用來保護(hù)基因組的數(shù)據(jù)庫，從而防止個人基因組數(shù)據(jù)被泄露。以往的隱私模型存在兩個主要缺點。其一，面對新型的攻擊模式，如背景知識、合成式、deFinetti等，分組的隱私保護(hù)模型難以提供有效的安全防護(hù)，攻擊者掌握的知識背景與這類模型的安全性相關(guān)，而完全定義所有的知識背景極為困難。只有和背景知識無關(guān)的隱私安全保護(hù)模型在面臨新型攻擊時才能對數(shù)據(jù)形成有效的防護(hù)。其二，以往的模型在參數(shù)變化時不能對數(shù)據(jù)隱私水平進(jìn)行定量計算分析，而這將極為影響此類模型處理后的數(shù)據(jù)可信度。差分隱私模型的出現(xiàn)能夠克服以上兩個缺點，具有較好的魯棒性，能夠抵擋攻擊者各種攻擊方式。差分隱私模型就是確保任意一個元素不管是否存在數(shù)據(jù)集中，其對最后的結(jié)果查詢影響極小。這是由于該算法不需要知道攻擊者掌握多少隱私數(shù)據(jù)相關(guān)的情況背景，對數(shù)據(jù)庫進(jìn)行隨機(jī)變化、增加噪聲，即在不影響整體的前提下對個人信息進(jìn)行遮掩，這種輸出的信息存在允許范圍內(nèi)的錯誤，從而達(dá)到保護(hù)個人數(shù)據(jù)隱私的目的。另外差分隱私模型建立在嚴(yán)格數(shù)學(xué)邏輯理論之上，不僅對數(shù)據(jù)隱私保護(hù)進(jìn)行嚴(yán)密的定義，還提供評估的量化方法，使得模型在不同參數(shù)下輸出的數(shù)據(jù)集的隱私保護(hù)水平具有可比性。隱私保護(hù)模型的可靠性使其逐漸成為數(shù)據(jù)隱私防護(hù)方面的研究熱點。

2.2.3 區(qū)塊鏈技術(shù)[21]這是一種按照時間的順序?qū)?shù)據(jù)塊組合起來的鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu)，也是一種以密碼學(xué)為基礎(chǔ)的分布式賬本數(shù)據(jù)庫。由于區(qū)塊鏈具有數(shù)據(jù)庫的屬性，可以對輸入的數(shù)據(jù)信息進(jìn)行保存和讀取。另外只要有需求都可以通過構(gòu)建服務(wù)器的方式加入?yún)^(qū)塊鏈網(wǎng)絡(luò)結(jié)構(gòu)，成為整個區(qū)塊鏈網(wǎng)絡(luò)中眾多節(jié)點中的一個節(jié)點。龐大的網(wǎng)絡(luò)中所有節(jié)點都是平等的，沒有中心節(jié)點，所以區(qū)塊鏈起到信任中介的作用，通過嚴(yán)密的數(shù)學(xué)邏輯算法保證基因數(shù)據(jù)的安全傳輸。區(qū)塊鏈技術(shù)在基因隱私保護(hù)方面的特點是個人可以通過設(shè)置訪問權(quán)限的方式使基因數(shù)據(jù)研究者得到授權(quán)，其只能得到公布的共享信息，也可以依據(jù)區(qū)塊鏈的特性捕捉到個人數(shù)據(jù)的使用者。這個過程使用非對稱加密——公鑰加密，區(qū)塊鏈用戶通過加密其鏈上數(shù)據(jù)以確保隱私性。當(dāng)基因數(shù)據(jù)被用于出售或捐贈時，數(shù)據(jù)的購買方或接收方通過被授予的私鑰來解密數(shù)據(jù)信息，以保證數(shù)據(jù)不被兩者之外的人或機(jī)構(gòu)訪問?？梢钥闯鰠^(qū)塊鏈在保護(hù)用戶隱私的同時還為研究機(jī)構(gòu)深入研究特定人群的遺傳規(guī)律提供一個安全平臺。區(qū)塊鏈中加密塊的使用使得個人數(shù)據(jù)的修改及被惡性篡改的風(fēng)險大大降低，從而為研究人員確保數(shù)據(jù)庫的真實性。此外區(qū)塊鏈技術(shù)還可以用于基因數(shù)據(jù)的管理，相關(guān)研究機(jī)構(gòu)和企業(yè)通過獲得準(zhǔn)許證到基因鏈上存儲其擁有的基因數(shù)據(jù)，這將能夠避免倫理方面的問題。總之，隨著基因技術(shù)的日趨成熟以及基因?qū)W臨床數(shù)據(jù)的不斷積累，在基因數(shù)據(jù)安全保護(hù)和應(yīng)用方面會涌現(xiàn)更多深入的研究和全新方向。

3 基因數(shù)據(jù)安全使用與共享模式

3.1 國內(nèi)

3.1.1 國家基因庫目前全球基因數(shù)據(jù)醫(yī)療領(lǐng)域的資金規(guī)模已超過600億美元，其中基因精準(zhǔn)診斷和基因精準(zhǔn)治療所占的資金規(guī)模分別約100億美元和約500億美元。全球精準(zhǔn)醫(yī)療領(lǐng)域的增長速度達(dá)到15%。我國“十三五”計劃指出在2030年之前對精準(zhǔn)醫(yī)療市場的投入資金將達(dá)到600億元，這些資金由中央財政、地方財政、企業(yè)機(jī)構(gòu)共同支付。在如此巨大的財政支持下，國內(nèi)外對基因數(shù)據(jù)的使用分析能力與數(shù)據(jù)共享需求都在迅猛增長。面對如此龐大的市場，基因數(shù)據(jù)的隱私安全問題顯得尤為重要。我國最具代表性的基因使用與共享的嘗試是國家基因庫(China National Genbank，CNGB)[22]。CNGB于2016年9月22日正式對外運(yùn)行，是目前我國首個獲批籌建的國家級基因庫，也是繼美國的GenBank[23]、日本的DDBJ[24]及歐盟的EBI[25]之后建成的戰(zhàn)略級基因庫。CNGB管理用于研發(fā)的樣本和數(shù)據(jù)共享，采取設(shè)置無限制和受控數(shù)據(jù)訪問機(jī)制的方式，結(jié)合身份驗證、分層訪問控制和可審計的備案記錄等技術(shù)手段。CNGB只接受出于科研目的的訪問請求，數(shù)據(jù)權(quán)限的管理和控制在數(shù)據(jù)提交者手中，數(shù)據(jù)提交者在提交數(shù)據(jù)時必須確定數(shù)據(jù)的受控范圍，如果被設(shè)定為受控數(shù)據(jù),則研究者必須向數(shù)據(jù)分析師協(xié)會(Certified Data Analyst Institute，CDA)提交數(shù)據(jù)權(quán)限申請，經(jīng)CDA審批并授權(quán)后才可以下載和使用。CNGB的監(jiān)管體系采用大型國際數(shù)據(jù)庫常規(guī)辦法，CNGB同意機(jī)構(gòu)審查委員會(Institution Review Board，IRB)定期檢查其已經(jīng)獲得批準(zhǔn)的、涉及數(shù)據(jù)訪問的項目。IRB有權(quán)調(diào)查其中任何的負(fù)面事件并可以暫?；蛘呓K止違反訪問條款或道德條例的項目。

3.1.2 推進(jìn)行業(yè)規(guī)范的發(fā)展 2017年4月華中科技大學(xué)與CNGB聯(lián)合起草的《生物樣本庫樣本/數(shù)據(jù)共享理論指南與管理規(guī)范》(征求意見稿)并對外發(fā)布，該指南明確界定樣本或數(shù)據(jù)從收集、管理(存儲安全、傳輸安全、使用安全和出境管理等)、國際研究合作、知識產(chǎn)權(quán)以及相關(guān)利益分配等的管理過程和規(guī)范。該指南參考包括國際生物與環(huán)境樣本庫協(xié)會(The International Society for Biological and Environmental Repositories，ISBER)相關(guān)實踐及英國生物庫(UK Biobank)倫理與治理框架在內(nèi)的國際上遺傳資源數(shù)據(jù)庫和生物樣本庫的經(jīng)驗，同時還整合梳理國內(nèi)有關(guān)管理部門的管理規(guī)定，為各種生物樣本庫的規(guī)范化管理奠定強(qiáng)有力的基礎(chǔ)。另外指南中規(guī)定數(shù)據(jù)安全和隱患保護(hù)是處理數(shù)據(jù)時的安全準(zhǔn)則。所有涉及人類樣本或數(shù)據(jù)的相關(guān)項目均需要強(qiáng)制接受IRB的審查。同時該規(guī)范進(jìn)一步規(guī)定跨境樣本和數(shù)據(jù)共享的規(guī)則，數(shù)據(jù)的使用僅限于科學(xué)研究。盡管人類基因組計劃完成多年，但人類基因組數(shù)據(jù)的醫(yī)療資源儲存方式仍然是相互隔離的，為解決這一現(xiàn)狀對精準(zhǔn)醫(yī)療發(fā)展的制約，全球很多組織都在嘗試打破隔離。在中國，盡管包括CNGB在內(nèi)的很多組織都在積極推進(jìn)基因的共享和使用，其自身的規(guī)范也參考大量國際公認(rèn)數(shù)據(jù)共享標(biāo)準(zhǔn)，對于涉及的跨境背景擁有一套完整的安全保護(hù)規(guī)范，然而除非得到中國人類遺傳資源管理辦的許可，目前所有共享僅限于中國境內(nèi)使用。中國基因數(shù)據(jù)在國際間的共享仍處于初級階段，而在國際上很多組織嘗試不同的辦法進(jìn)行數(shù)據(jù)的共享和使用。

3.2 國外

全球基因組學(xué)與健康聯(lián)盟(GA4GH)[26]是由生命科學(xué)研究機(jī)構(gòu)、醫(yī)療機(jī)構(gòu)以及研究型大學(xué)等組合成的聯(lián)盟組織，主持發(fā)起制定基因組學(xué)和健康數(shù)據(jù)的共享框架。目的是為所有機(jī)構(gòu)或個人提供、存儲、訪問、管理或使用基因組及健康相關(guān)數(shù)據(jù)。研究人員向指定醫(yī)院發(fā)送數(shù)據(jù)查詢指令，該指定醫(yī)院來決定數(shù)據(jù)共享程度以及共享對象，通過該方法避免隱私方面的問題。其中Beacon項目是GA4GH在基因數(shù)據(jù)共享方面具有代表性的一個項目，重點在于聯(lián)合全球具有數(shù)據(jù)共享意向的各大企業(yè)和研究機(jī)構(gòu)，從而分享使用其基因數(shù)據(jù)庫，建立具有信息安全性、使用簡便的國際信息共享數(shù)據(jù)庫。Beacon項目設(shè)計一個簡單的網(wǎng)絡(luò)平臺，任何使用者都可以在不違反隱私規(guī)則的條件下提出其他實驗室所掌握的基因組數(shù)據(jù)的相關(guān)問題，使用者可以發(fā)出類似“你是否有一個基因包含‘A’在3號染色體的位點100,735處？”的問題，得到“Yes”或“No”的答復(fù)。每愿意提供類似這種平臺服務(wù)的機(jī)構(gòu)都被稱作Beacon。針對難以收集數(shù)據(jù)的罕見病或者有強(qiáng)遺傳傾向的家族疾病的研究，由于此類研究涉及的基因往往具有極強(qiáng)的特異性，需通過重復(fù)詢問，可以唯一定位某個持有罕見基因的人在該平臺中的風(fēng)險是否存在。GA4GH目前也在推行所有者同意書，該同意書對基因組數(shù)據(jù)提供者所享有的權(quán)利做出明確規(guī)定，與其他大多數(shù)同意書相比，該同意書允許全球范圍內(nèi)的研究人員進(jìn)行受控訪問。如果某個機(jī)構(gòu)查詢的問題多次涉及同一個人，則認(rèn)為該機(jī)構(gòu)在有意探尋該人的隱私，將封鎖該機(jī)構(gòu)的查詢權(quán)限。同時一些相關(guān)隱私算法的研究也在進(jìn)行中，通過變更閾值，隨機(jī)反轉(zhuǎn)，加密交換的方式來保障個人隱私安全。

4 基因醫(yī)療數(shù)據(jù)安全領(lǐng)域存在的問題和建議

4.1 盡快建立和完善相關(guān)法律法規(guī)及監(jiān)管機(jī)制

基因精準(zhǔn)醫(yī)療的核心是基因數(shù)據(jù)庫的建立，然而在建立基因數(shù)據(jù)庫的過程中，涉及個人基因數(shù)據(jù)隱私、倫理的相關(guān)問題也會隨之產(chǎn)生。由于基因精準(zhǔn)醫(yī)療處于起步階段，相應(yīng)的技術(shù)標(biāo)準(zhǔn)、共享平臺、法律法規(guī)還沒有建立起來，在使用、保存、傳輸基因數(shù)據(jù)時有極大的泄露風(fēng)險?，F(xiàn)今各國都在積極探索相應(yīng)的法律條文，2016年美國食品藥物管理局(Food and Drug Administration，F(xiàn)DA)頒布基于下一代測序(Next Generation Sequencing，NGS)技術(shù)的設(shè)計、開發(fā)及檢測結(jié)果診斷標(biāo)準(zhǔn)指南，規(guī)定相關(guān)研究機(jī)構(gòu)要嚴(yán)格遵守FDA標(biāo)準(zhǔn)分析檢測結(jié)果的有效性，盡量減少錯誤結(jié)果。我國針對基因檢測方面也頒布相關(guān)法規(guī)條文，如《藥物代謝酶和藥物作用靶點基因檢測技術(shù)指南(試行)》、《腫瘤個體化治療檢測技術(shù)指南(試行)》等。然而法律規(guī)定只是在技術(shù)層面的規(guī)范指導(dǎo)，缺乏確切的法律方面的監(jiān)管與規(guī)范。為使基因精準(zhǔn)醫(yī)療有條不紊的發(fā)展，國家政府應(yīng)明確國家衛(wèi)健委和食品藥品管理局在精準(zhǔn)醫(yī)療領(lǐng)域的相應(yīng)監(jiān)督職責(zé)并進(jìn)一步細(xì)化相關(guān)法案。

4.2 建立基因精準(zhǔn)醫(yī)療數(shù)據(jù)共享平臺

精準(zhǔn)醫(yī)療的基礎(chǔ)是數(shù)據(jù)的累積，在數(shù)據(jù)安全的前提下應(yīng)建立精準(zhǔn)醫(yī)療基因數(shù)據(jù)共享平臺。我國在建立平臺時可以參考美國FDA與DNAnexus生物信息公司構(gòu)建的精準(zhǔn)醫(yī)療FDA平臺[27]，該平臺為新型的基因測序研究提供云工具，可以幫助研究者上傳臨床驗證成果和共享基因數(shù)據(jù)信息，其他研究機(jī)構(gòu)也可以在該平臺上調(diào)用、驗證、分享其他人或機(jī)構(gòu)的研究成果。構(gòu)建平臺時會涉及數(shù)據(jù)整合標(biāo)準(zhǔn)、信息安全構(gòu)架以及規(guī)范、平臺基礎(chǔ)構(gòu)架技術(shù)體系、大數(shù)據(jù)分析技術(shù)。國家層面相應(yīng)標(biāo)準(zhǔn)規(guī)范以及技術(shù)發(fā)展支持應(yīng)建立在精準(zhǔn)醫(yī)療基因方面，另外通過現(xiàn)有的電子病歷系統(tǒng)，共同加入基因測序數(shù)據(jù)信息，為建立精準(zhǔn)醫(yī)療基因數(shù)據(jù)共享平臺奠定基礎(chǔ)。也可以在現(xiàn)有的電子病歷系統(tǒng)基礎(chǔ)上加入基因測序數(shù)據(jù)信息，建立標(biāo)準(zhǔn)化、結(jié)構(gòu)化和統(tǒng)一編碼的電子病歷數(shù)據(jù)共享系統(tǒng)。

4.3 推動基因組數(shù)據(jù)安全共享算法研究

基因組學(xué)領(lǐng)域發(fā)展面臨的問題在于已收集的大量數(shù)據(jù)難以共享，其中一個關(guān)鍵因素是數(shù)據(jù)所占的存儲空間，基因自身大小導(dǎo)致很多問題，如單人的全基因數(shù)據(jù)大小可達(dá)100G左右，即使是原始數(shù)據(jù)也有10G左右。然而DNA序列具有不同于其他數(shù)據(jù)的序列特征，導(dǎo)致目前通用的數(shù)據(jù)壓縮算法[28]難以進(jìn)行有效壓縮，其時間和空間代價很大，因此研究基因序列壓縮算法對于基因數(shù)據(jù)的使用和共享具有重要意義。此外患者的隱私保護(hù)也是基因數(shù)據(jù)共享過程中無法回避的問題，因為個人基因組數(shù)據(jù)所含有的信息與個人和其家庭密切相關(guān)，除在法律和安全共享平臺方面進(jìn)行規(guī)范外，在數(shù)據(jù)共享安全算法方面也應(yīng)展開深入研究。除區(qū)塊鏈研究方向外，可搜索加密技術(shù)也是保護(hù)用戶隱私的方向[29-30]。傳統(tǒng)的搜索算法是基于明文的技術(shù)，這個過程中不論是查詢者提交的查詢字段，還是服務(wù)器數(shù)據(jù)庫中的信息數(shù)據(jù)均是以明文的形式出現(xiàn)的，這種情況極容易造成信息泄露，從而侵害個人數(shù)據(jù)信息安全?？伤阉骷用芗夹g(shù)是用密碼學(xué)技術(shù)在密文的形式下進(jìn)行搜索查詢，但該技術(shù)在大規(guī)模應(yīng)用方面需要深入研究。

5 結(jié)語

總的來說基因數(shù)據(jù)的安全既要國家政府在法律層面進(jìn)行規(guī)范化，也需要在技術(shù)層面深入研究。目前我國政府雖然對基因數(shù)據(jù)隱私保護(hù)進(jìn)行規(guī)定，但是現(xiàn)階段還沒有建立起完整的基因數(shù)據(jù)隱私安全立法系統(tǒng)，涉及的基因隱私法律分散于法律及行政規(guī)范中，缺少層次性、針對性及統(tǒng)一性。另外在安全技術(shù)層面的研究也有待深入。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看