王樂子 母健康 郭 昊 王思圓 弓孟春
(神州數(shù)碼醫(yī)療科技股份有限公司 北京 100000)
針對人類基因數(shù)據(jù)的研究發(fā)展已久,從達(dá)爾文的《物種起源》到孟德爾遺傳定律,德國科學(xué)家米歇爾發(fā)現(xiàn)DNA,劍橋大學(xué)的詹姆斯·沃森和弗朗西斯·克里克發(fā)現(xiàn)DNA的雙螺旋結(jié)構(gòu),再到20世紀(jì)與曼哈頓原子彈計劃、阿波羅登月計劃并稱為人類自然科學(xué)史上3個重點計劃的人類基因組計劃[1-3],以及近年來基因相關(guān)的精準(zhǔn)醫(yī)療,漫長的發(fā)展過程也使得基因數(shù)據(jù)更加重要。隨著生物醫(yī)學(xué)和計算機(jī)相關(guān)領(lǐng)域的發(fā)展,基因組學(xué)的研究必將為人類醫(yī)療健康發(fā)揮重要效用。然而基因數(shù)據(jù)隱私問題也成為應(yīng)用研究過程中重要的環(huán)節(jié),因為這些隱私數(shù)據(jù)可能包含個人背景資料、生活習(xí)慣、生理和精神情況等極為敏感的信息,另外這些醫(yī)療數(shù)據(jù)還蘊(yùn)含著極大的商業(yè)價值[4-6],所以在最大限度使用基因數(shù)據(jù)的同時確保隱私數(shù)據(jù)安全的研究勢在必行,主要從法律和技術(shù)兩個方面進(jìn)行。
個人數(shù)據(jù)的安全是數(shù)據(jù)在使用過程中的根本問題。美國在健康衛(wèi)生領(lǐng)域頒布的《健康保險流通與責(zé)任法案》(Health Insurance Portability and Accountability Act,HIPAA)[7-10]以及歐盟頒布的《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation,GDPR)[11-15]都體現(xiàn)出發(fā)達(dá)國家對于個人隱私保護(hù)的重視。我國現(xiàn)階段雖然沒有針對個人隱私信息保護(hù)的立法,但在多部法律法規(guī)中均有對個人信息數(shù)據(jù)保護(hù)的規(guī)定,也在不斷向各界征求新的立法意見?;驍?shù)據(jù)是極為隱私的個人數(shù)據(jù),通過基因測序后以數(shù)據(jù)庫形式存在,當(dāng)研究人員在使用這些數(shù)據(jù)進(jìn)行基因疾病篩選、研究患者發(fā)病率、尋找疾病基因靶點時均會涉及個人基因庫隱私安全的問題[16-18]。目前我國正在開展的千人基因計劃,以后可能會涉及百萬人群的基因組研究,其內(nèi)容牽涉國人基因機(jī)構(gòu)的組成、功能、演化等極為敏感的數(shù)據(jù),一旦泄露會給國家及人民帶來難以估計的損失和危害,所以在能夠滿足科研需求的情形下保證基因組數(shù)據(jù)的安全是迫切需要攻克的難關(guān)。
2.2.1K-匿名方法 由Sweeny[19]等提出,主要是用來解決鏈接攻擊個人數(shù)據(jù)隱私問題。基因數(shù)據(jù)隱私保護(hù)需要迫切,K-匿名方法不能完全保證將數(shù)據(jù)庫中的DNA序列數(shù)據(jù)信息與這些數(shù)據(jù)信息提供者的個人身份信息之間的聯(lián)系切斷,于是DNALA被開發(fā)出來。DNALA是K-匿名方法應(yīng)用到DNA數(shù)據(jù)隱私保護(hù)的一種方法,主要是對DNA數(shù)據(jù)模糊化處理,使得在數(shù)據(jù)集中的每個序列都至少有K-1個完全相同的序列,通過這種方法來防止攻擊者的路徑攻擊,為保證數(shù)據(jù)的安全性降低數(shù)據(jù)的精度。另外該方法在數(shù)據(jù)預(yù)處理時用的是多序列對比,這個過程需要運(yùn)算時間較長,在后面的數(shù)據(jù)處理中對序列利用貪心算法分組時精度不高。針對該問題的改進(jìn)策略是在數(shù)據(jù)預(yù)處理階段將多序列對比改為兩兩序列對比,這樣就可以減少預(yù)處理階段所用時間。研究人員為減少該方法對數(shù)據(jù)精度的影響,在原來的基礎(chǔ)上提出隨機(jī)爬山法,即以隨機(jī)爬山法替代貪心算法,得到新的算法——Savior。經(jīng)實驗表明Savior對數(shù)據(jù)的變動程度遠(yuǎn)遠(yuǎn)小于DNALA,可以通過爬山次數(shù)這個參數(shù)來影響進(jìn)程中的數(shù)據(jù)精度。因此通過對K-匿名算法進(jìn)一步研究也成為保護(hù)基因數(shù)據(jù)安全的一個方向。
2.2.2 差分隱私方法 由計算機(jī)密碼領(lǐng)域的專家Bonnie Berger和Sean Simmons提出[20],可以用來保護(hù)基因組的數(shù)據(jù)庫,從而防止個人基因組數(shù)據(jù)被泄露。以往的隱私模型存在兩個主要缺點。其一,面對新型的攻擊模式,如背景知識、合成式、deFinetti等,分組的隱私保護(hù)模型難以提供有效的安全防護(hù),攻擊者掌握的知識背景與這類模型的安全性相關(guān),而完全定義所有的知識背景極為困難。只有和背景知識無關(guān)的隱私安全保護(hù)模型在面臨新型攻擊時才能對數(shù)據(jù)形成有效的防護(hù)。其二,以往的模型在參數(shù)變化時不能對數(shù)據(jù)隱私水平進(jìn)行定量計算分析,而這將極為影響此類模型處理后的數(shù)據(jù)可信度。差分隱私模型的出現(xiàn)能夠克服以上兩個缺點,具有較好的魯棒性,能夠抵擋攻擊者各種攻擊方式。差分隱私模型就是確保任意一個元素不管是否存在數(shù)據(jù)集中,其對最后的結(jié)果查詢影響極小。這是由于該算法不需要知道攻擊者掌握多少隱私數(shù)據(jù)相關(guān)的情況背景,對數(shù)據(jù)庫進(jìn)行隨機(jī)變化、增加噪聲,即在不影響整體的前提下對個人信息進(jìn)行遮掩,這種輸出的信息存在允許范圍內(nèi)的錯誤,從而達(dá)到保護(hù)個人數(shù)據(jù)隱私的目的。另外差分隱私模型建立在嚴(yán)格數(shù)學(xué)邏輯理論之上,不僅對數(shù)據(jù)隱私保護(hù)進(jìn)行嚴(yán)密的定義,還提供評估的量化方法,使得模型在不同參數(shù)下輸出的數(shù)據(jù)集的隱私保護(hù)水平具有可比性。隱私保護(hù)模型的可靠性使其逐漸成為數(shù)據(jù)隱私防護(hù)方面的研究熱點。
2.2.3 區(qū)塊鏈技術(shù)[21]這是一種按照時間的順序?qū)?shù)據(jù)塊組合起來的鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu),也是一種以密碼學(xué)為基礎(chǔ)的分布式賬本數(shù)據(jù)庫。由于區(qū)塊鏈具有數(shù)據(jù)庫的屬性,可以對輸入的數(shù)據(jù)信息進(jìn)行保存和讀取。另外只要有需求都可以通過構(gòu)建服務(wù)器的方式加入?yún)^(qū)塊鏈網(wǎng)絡(luò)結(jié)構(gòu),成為整個區(qū)塊鏈網(wǎng)絡(luò)中眾多節(jié)點中的一個節(jié)點。龐大的網(wǎng)絡(luò)中所有節(jié)點都是平等的,沒有中心節(jié)點,所以區(qū)塊鏈起到信任中介的作用,通過嚴(yán)密的數(shù)學(xué)邏輯算法保證基因數(shù)據(jù)的安全傳輸。區(qū)塊鏈技術(shù)在基因隱私保護(hù)方面的特點是個人可以通過設(shè)置訪問權(quán)限的方式使基因數(shù)據(jù)研究者得到授權(quán),其只能得到公布的共享信息,也可以依據(jù)區(qū)塊鏈的特性捕捉到個人數(shù)據(jù)的使用者。這個過程使用非對稱加密——公鑰加密,區(qū)塊鏈用戶通過加密其鏈上數(shù)據(jù)以確保隱私性。當(dāng)基因數(shù)據(jù)被用于出售或捐贈時,數(shù)據(jù)的購買方或接收方通過被授予的私鑰來解密數(shù)據(jù)信息,以保證數(shù)據(jù)不被兩者之外的人或機(jī)構(gòu)訪問??梢钥闯鰠^(qū)塊鏈在保護(hù)用戶隱私的同時還為研究機(jī)構(gòu)深入研究特定人群的遺傳規(guī)律提供一個安全平臺。區(qū)塊鏈中加密塊的使用使得個人數(shù)據(jù)的修改及被惡性篡改的風(fēng)險大大降低,從而為研究人員確保數(shù)據(jù)庫的真實性。此外區(qū)塊鏈技術(shù)還可以用于基因數(shù)據(jù)的管理,相關(guān)研究機(jī)構(gòu)和企業(yè)通過獲得準(zhǔn)許證到基因鏈上存儲其擁有的基因數(shù)據(jù),這將能夠避免倫理方面的問題。總之,隨著基因技術(shù)的日趨成熟以及基因?qū)W臨床數(shù)據(jù)的不斷積累,在基因數(shù)據(jù)安全保護(hù)和應(yīng)用方面會涌現(xiàn)更多深入的研究和全新方向。
3.1.1 國家基因庫 目前全球基因數(shù)據(jù)醫(yī)療領(lǐng)域的資金規(guī)模已超過600億美元,其中基因精準(zhǔn)診斷和基因精準(zhǔn)治療所占的資金規(guī)模分別約100億美元和約500億美元。全球精準(zhǔn)醫(yī)療領(lǐng)域的增長速度達(dá)到15%。我國“十三五”計劃指出在2030年之前對精準(zhǔn)醫(yī)療市場的投入資金將達(dá)到600億元,這些資金由中央財政、地方財政、企業(yè)機(jī)構(gòu)共同支付。在如此巨大的財政支持下,國內(nèi)外對基因數(shù)據(jù)的使用分析能力與數(shù)據(jù)共享需求都在迅猛增長。面對如此龐大的市場,基因數(shù)據(jù)的隱私安全問題顯得尤為重要。我國最具代表性的基因使用與共享的嘗試是國家基因庫(China National Genbank,CNGB)[22]。CNGB于2016年9月22日正式對外運(yùn)行,是目前我國首個獲批籌建的國家級基因庫,也是繼美國的GenBank[23]、日本的DDBJ[24]及歐盟的EBI[25]之后建成的戰(zhàn)略級基因庫。CNGB管理用于研發(fā)的樣本和數(shù)據(jù)共享,采取設(shè)置無限制和受控數(shù)據(jù)訪問機(jī)制的方式,結(jié)合身份驗證、分層訪問控制和可審計的備案記錄等技術(shù)手段。CNGB只接受出于科研目的的訪問請求,數(shù)據(jù)權(quán)限的管理和控制在數(shù)據(jù)提交者手中,數(shù)據(jù)提交者在提交數(shù)據(jù)時必須確定數(shù)據(jù)的受控范圍,如果被設(shè)定為受控數(shù)據(jù),則研究者必須向數(shù)據(jù)分析師協(xié)會(Certified Data Analyst Institute,CDA)提交數(shù)據(jù)權(quán)限申請,經(jīng)CDA審批并授權(quán)后才可以下載和使用。CNGB的監(jiān)管體系采用大型國際數(shù)據(jù)庫常規(guī)辦法,CNGB同意機(jī)構(gòu)審查委員會(Institution Review Board,IRB)定期檢查其已經(jīng)獲得批準(zhǔn)的、涉及數(shù)據(jù)訪問的項目。IRB有權(quán)調(diào)查其中任何的負(fù)面事件并可以暫?;蛘呓K止違反訪問條款或道德條例的項目。
3.1.2 推進(jìn)行業(yè)規(guī)范的發(fā)展 2017年4月華中科技大學(xué)與CNGB聯(lián)合起草的《生物樣本庫樣本/數(shù)據(jù)共享理論指南與管理規(guī)范》(征求意見稿)并對外發(fā)布,該指南明確界定樣本或數(shù)據(jù)從收集、管理(存儲安全、傳輸安全、使用安全和出境管理等)、國際研究合作、知識產(chǎn)權(quán)以及相關(guān)利益分配等的管理過程和規(guī)范。該指南參考包括國際生物與環(huán)境樣本庫協(xié)會(The International Society for Biological and Environmental Repositories,ISBER)相關(guān)實踐及英國生物庫(UK Biobank)倫理與治理框架在內(nèi)的國際上遺傳資源數(shù)據(jù)庫和生物樣本庫的經(jīng)驗,同時還整合梳理國內(nèi)有關(guān)管理部門的管理規(guī)定,為各種生物樣本庫的規(guī)范化管理奠定強(qiáng)有力的基礎(chǔ)。另外指南中規(guī)定數(shù)據(jù)安全和隱患保護(hù)是處理數(shù)據(jù)時的安全準(zhǔn)則。所有涉及人類樣本或數(shù)據(jù)的相關(guān)項目均需要強(qiáng)制接受IRB的審查。同時該規(guī)范進(jìn)一步規(guī)定跨境樣本和數(shù)據(jù)共享的規(guī)則,數(shù)據(jù)的使用僅限于科學(xué)研究。盡管人類基因組計劃完成多年,但人類基因組數(shù)據(jù)的醫(yī)療資源儲存方式仍然是相互隔離的,為解決這一現(xiàn)狀對精準(zhǔn)醫(yī)療發(fā)展的制約,全球很多組織都在嘗試打破隔離。在中國,盡管包括CNGB在內(nèi)的很多組織都在積極推進(jìn)基因的共享和使用,其自身的規(guī)范也參考大量國際公認(rèn)數(shù)據(jù)共享標(biāo)準(zhǔn),對于涉及的跨境背景擁有一套完整的安全保護(hù)規(guī)范,然而除非得到中國人類遺傳資源管理辦的許可,目前所有共享僅限于中國境內(nèi)使用。中國基因數(shù)據(jù)在國際間的共享仍處于初級階段,而在國際上很多組織嘗試不同的辦法進(jìn)行數(shù)據(jù)的共享和使用。
全球基因組學(xué)與健康聯(lián)盟(GA4GH)[26]是由生命科學(xué)研究機(jī)構(gòu)、醫(yī)療機(jī)構(gòu)以及研究型大學(xué)等組合成的聯(lián)盟組織,主持發(fā)起制定基因組學(xué)和健康數(shù)據(jù)的共享框架。目的是為所有機(jī)構(gòu)或個人提供、存儲、訪問、管理或使用基因組及健康相關(guān)數(shù)據(jù)。研究人員向指定醫(yī)院發(fā)送數(shù)據(jù)查詢指令,該指定醫(yī)院來決定數(shù)據(jù)共享程度以及共享對象,通過該方法避免隱私方面的問題。其中Beacon項目是GA4GH在基因數(shù)據(jù)共享方面具有代表性的一個項目,重點在于聯(lián)合全球具有數(shù)據(jù)共享意向的各大企業(yè)和研究機(jī)構(gòu),從而分享使用其基因數(shù)據(jù)庫,建立具有信息安全性、使用簡便的國際信息共享數(shù)據(jù)庫。Beacon項目設(shè)計一個簡單的網(wǎng)絡(luò)平臺,任何使用者都可以在不違反隱私規(guī)則的條件下提出其他實驗室所掌握的基因組數(shù)據(jù)的相關(guān)問題,使用者可以發(fā)出類似“你是否有一個基因包含‘A’在3號染色體的位點100,735處?”的問題,得到“Yes”或“No”的答復(fù)。每愿意提供類似這種平臺服務(wù)的機(jī)構(gòu)都被稱作Beacon。針對難以收集數(shù)據(jù)的罕見病或者有強(qiáng)遺傳傾向的家族疾病的研究,由于此類研究涉及的基因往往具有極強(qiáng)的特異性,需通過重復(fù)詢問,可以唯一定位某個持有罕見基因的人在該平臺中的風(fēng)險是否存在。GA4GH目前也在推行所有者同意書,該同意書對基因組數(shù)據(jù)提供者所享有的權(quán)利做出明確規(guī)定,與其他大多數(shù)同意書相比,該同意書允許全球范圍內(nèi)的研究人員進(jìn)行受控訪問。如果某個機(jī)構(gòu)查詢的問題多次涉及同一個人,則認(rèn)為該機(jī)構(gòu)在有意探尋該人的隱私,將封鎖該機(jī)構(gòu)的查詢權(quán)限。同時一些相關(guān)隱私算法的研究也在進(jìn)行中,通過變更閾值,隨機(jī)反轉(zhuǎn),加密交換的方式來保障個人隱私安全。
基因精準(zhǔn)醫(yī)療的核心是基因數(shù)據(jù)庫的建立,然而在建立基因數(shù)據(jù)庫的過程中,涉及個人基因數(shù)據(jù)隱私、倫理的相關(guān)問題也會隨之產(chǎn)生。由于基因精準(zhǔn)醫(yī)療處于起步階段,相應(yīng)的技術(shù)標(biāo)準(zhǔn)、共享平臺、法律法規(guī)還沒有建立起來,在使用、保存、傳輸基因數(shù)據(jù)時有極大的泄露風(fēng)險?,F(xiàn)今各國都在積極探索相應(yīng)的法律條文,2016年美國食品藥物管理局(Food and Drug Administration,F(xiàn)DA)頒布基于下一代測序(Next Generation Sequencing,NGS)技術(shù)的設(shè)計、開發(fā)及檢測結(jié)果診斷標(biāo)準(zhǔn)指南,規(guī)定相關(guān)研究機(jī)構(gòu)要嚴(yán)格遵守FDA標(biāo)準(zhǔn)分析檢測結(jié)果的有效性,盡量減少錯誤結(jié)果。我國針對基因檢測方面也頒布相關(guān)法規(guī)條文,如《藥物代謝酶和藥物作用靶點基因檢測技術(shù)指南(試行)》、《腫瘤個體化治療檢測技術(shù)指南(試行)》等。然而法律規(guī)定只是在技術(shù)層面的規(guī)范指導(dǎo),缺乏確切的法律方面的監(jiān)管與規(guī)范。為使基因精準(zhǔn)醫(yī)療有條不紊的發(fā)展,國家政府應(yīng)明確國家衛(wèi)健委和食品藥品管理局在精準(zhǔn)醫(yī)療領(lǐng)域的相應(yīng)監(jiān)督職責(zé)并進(jìn)一步細(xì)化相關(guān)法案。
精準(zhǔn)醫(yī)療的基礎(chǔ)是數(shù)據(jù)的累積,在數(shù)據(jù)安全的前提下應(yīng)建立精準(zhǔn)醫(yī)療基因數(shù)據(jù)共享平臺。我國在建立平臺時可以參考美國FDA與DNAnexus生物信息公司構(gòu)建的精準(zhǔn)醫(yī)療FDA平臺[27],該平臺為新型的基因測序研究提供云工具,可以幫助研究者上傳臨床驗證成果和共享基因數(shù)據(jù)信息,其他研究機(jī)構(gòu)也可以在該平臺上調(diào)用、驗證、分享其他人或機(jī)構(gòu)的研究成果。構(gòu)建平臺時會涉及數(shù)據(jù)整合標(biāo)準(zhǔn)、信息安全構(gòu)架以及規(guī)范、平臺基礎(chǔ)構(gòu)架技術(shù)體系、大數(shù)據(jù)分析技術(shù)。國家層面相應(yīng)標(biāo)準(zhǔn)規(guī)范以及技術(shù)發(fā)展支持應(yīng)建立在精準(zhǔn)醫(yī)療基因方面,另外通過現(xiàn)有的電子病歷系統(tǒng),共同加入基因測序數(shù)據(jù)信息,為建立精準(zhǔn)醫(yī)療基因數(shù)據(jù)共享平臺奠定基礎(chǔ)。也可以在現(xiàn)有的電子病歷系統(tǒng)基礎(chǔ)上加入基因測序數(shù)據(jù)信息,建立標(biāo)準(zhǔn)化、結(jié)構(gòu)化和統(tǒng)一編碼的電子病歷數(shù)據(jù)共享系統(tǒng)。
基因組學(xué)領(lǐng)域發(fā)展面臨的問題在于已收集的大量數(shù)據(jù)難以共享,其中一個關(guān)鍵因素是數(shù)據(jù)所占的存儲空間,基因自身大小導(dǎo)致很多問題,如單人的全基因數(shù)據(jù)大小可達(dá)100G左右,即使是原始數(shù)據(jù)也有10G左右。然而DNA序列具有不同于其他數(shù)據(jù)的序列特征,導(dǎo)致目前通用的數(shù)據(jù)壓縮算法[28]難以進(jìn)行有效壓縮,其時間和空間代價很大,因此研究基因序列壓縮算法對于基因數(shù)據(jù)的使用和共享具有重要意義。此外患者的隱私保護(hù)也是基因數(shù)據(jù)共享過程中無法回避的問題,因為個人基因組數(shù)據(jù)所含有的信息與個人和其家庭密切相關(guān),除在法律和安全共享平臺方面進(jìn)行規(guī)范外,在數(shù)據(jù)共享安全算法方面也應(yīng)展開深入研究。除區(qū)塊鏈研究方向外,可搜索加密技術(shù)也是保護(hù)用戶隱私的方向[29-30]。傳統(tǒng)的搜索算法是基于明文的技術(shù),這個過程中不論是查詢者提交的查詢字段,還是服務(wù)器數(shù)據(jù)庫中的信息數(shù)據(jù)均是以明文的形式出現(xiàn)的,這種情況極容易造成信息泄露,從而侵害個人數(shù)據(jù)信息安全??伤阉骷用芗夹g(shù)是用密碼學(xué)技術(shù)在密文的形式下進(jìn)行搜索查詢,但該技術(shù)在大規(guī)模應(yīng)用方面需要深入研究。
總的來說基因數(shù)據(jù)的安全既要國家政府在法律層面進(jìn)行規(guī)范化,也需要在技術(shù)層面深入研究。目前我國政府雖然對基因數(shù)據(jù)隱私保護(hù)進(jìn)行規(guī)定,但是現(xiàn)階段還沒有建立起完整的基因數(shù)據(jù)隱私安全立法系統(tǒng),涉及的基因隱私法律分散于法律及行政規(guī)范中,缺少層次性、針對性及統(tǒng)一性。另外在安全技術(shù)層面的研究也有待深入。