• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      差分隱私DNA模體識(shí)別安全共享平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)

      2019-01-07 11:57:26,,,
      計(jì)算機(jī)測(cè)量與控制 2018年12期
      關(guān)鍵詞:模體精確度差分

      , , ,

      (徐州醫(yī)科大學(xué) 醫(yī)學(xué)信息學(xué)院,江蘇 徐州 221006)

      0 引言

      DNA模體識(shí)別(motif finding)作為生物序列分析的基礎(chǔ)研究方法之一,對(duì)研究基因的表達(dá)調(diào)控機(jī)制、發(fā)現(xiàn)DNA功能位點(diǎn)有著重要意義[1-2]。但是,DNA數(shù)據(jù)蘊(yùn)含豐富的隱私信息,這些隱私信息的泄露問(wèn)題成為了DNA序列分析發(fā)展的瓶頸之一[3-5]。與此同時(shí),Homer等人也通過(guò)實(shí)驗(yàn)證實(shí):基因序列分析研究中確實(shí)存在極高的隱私泄露風(fēng)險(xiǎn)[6]。該結(jié)論導(dǎo)致多個(gè)知名生物數(shù)據(jù)平臺(tái)暫停DNA數(shù)據(jù)共享服務(wù),嚴(yán)重阻礙DNA序列分析研究的發(fā)展,隱私泄露已經(jīng)成為了 DNA序列分析技術(shù)發(fā)展中亟待解決的關(guān)鍵性問(wèn)題。

      目前,國(guó)外學(xué)者對(duì)DNA序列分析的隱私保護(hù)研究主要集中在差分隱私保護(hù)技術(shù)上,并取得了一些成果[7-11]。差分隱私技術(shù)設(shè)定了一個(gè)嚴(yán)格的攻擊模型,能夠?qū)﹄[私泄露風(fēng)險(xiǎn)進(jìn)行嚴(yán)謹(jǐn)、定量化的推導(dǎo)與證明。而差分隱私模型的特性是能夠在攻擊者已掌握除某一條 DNA 序列之外的所有數(shù)據(jù)信息時(shí),仍然保證該 DNA 序列隱私信息的安全性。但是,由于DNA數(shù)據(jù)的高度敏感性,往往容易造成差分隱私對(duì)DNA序列分析結(jié)果的過(guò)度加噪,從而導(dǎo)致分析結(jié)果失去應(yīng)有價(jià)值。因此,在進(jìn)行差分隱私DNA序列分析研究時(shí),分析方法既要保證結(jié)果安全性又要保證結(jié)果的高可用性。

      對(duì)此,Uhler等人[7]將差分隱私加噪融入到DNA序列分析過(guò)程中,并提出差分隱私MAFs(Minor allele frequencies)、差分隱私卡方檢驗(yàn)、差分隱私p-values等數(shù)據(jù)發(fā)布方法,且從理論和實(shí)驗(yàn)兩個(gè)方面證明了這些方法的可行性。其后,Simmons等人[11]對(duì)已有研究成果進(jìn)行改進(jìn),并針對(duì)人口分層因素影響差分隱私DNA序列分析方法精確度的問(wèn)題,提出了PrivSTRAT算法和PrivLMM算法,該研究成果引起國(guó)內(nèi)外學(xué)術(shù)界廣泛關(guān)注。

      而在模體識(shí)別領(lǐng)域,Chen等人[12]指出利用差分隱私可以有效地解決DNA模體識(shí)別的隱私泄露問(wèn)題,并成功提出了一種基于n-gram的差分隱私保護(hù)方法(以下簡(jiǎn)稱N-gram算法),該方法一種單純追求效率的識(shí)別方法,在處理較大數(shù)據(jù)集時(shí)需要消耗較多隱私預(yù)算,無(wú)法保證識(shí)別結(jié)果的精確度。對(duì)此,作者在文獻(xiàn)[13]提出一種高精度的方法DP-CFMF (differential privacy-closed frequent motif finding),該方法在利用閉頻繁模式的概念對(duì)識(shí)別模體中的冗余度進(jìn)行約減,并減少了隱私預(yù)算分配過(guò)程,從而在保證DNA隱私安全的同時(shí)提高了模體識(shí)別的精確度。但是,國(guó)內(nèi)外尚未有數(shù)據(jù)共享平臺(tái)支撐DNA模體的安全識(shí)別和研究工作。因而,建立一個(gè)DNA模體識(shí)別安全共享平臺(tái)成為了模體識(shí)別研究領(lǐng)域中亟待解決的問(wèn)題。

      基于以上研究,本文設(shè)計(jì)并實(shí)現(xiàn)了一種差分隱私DNA模體識(shí)別安全共享平臺(tái)。該平臺(tái)通過(guò)客戶端實(shí)現(xiàn)數(shù)據(jù)源選擇、算法選擇、隱私預(yù)算設(shè)置、結(jié)果評(píng)估及圖形化結(jié)果等功能,并利用多種差分隱私模體識(shí)別方法實(shí)現(xiàn)不同需求的DNA模體安全識(shí)別任務(wù)。此外,該平臺(tái)允許用戶自主上傳、共享DNA數(shù)據(jù)集,并對(duì)上傳的數(shù)據(jù)集進(jìn)行差分隱私模體識(shí)別,在實(shí)現(xiàn)DNA數(shù)據(jù)安全共享的同時(shí),為DNA模體識(shí)別領(lǐng)域研究人員的科研工作提供了有力支撐。

      1 平臺(tái)總體設(shè)計(jì)

      差分隱私模體識(shí)別平臺(tái)主要由平臺(tái)運(yùn)行端、DNA數(shù)據(jù)庫(kù)服務(wù)器端及客戶端三部分組成(圖1所示為平臺(tái)總體結(jié)構(gòu)圖)。用戶通過(guò)客戶端對(duì)模體識(shí)別過(guò)程中的DNA數(shù)據(jù)庫(kù)連接、隱私預(yù)算配置、算法參數(shù)配置及結(jié)果顯示方式等相關(guān)信息進(jìn)行配置,信息配置包含任務(wù)開啟、結(jié)果顯示、DNA數(shù)據(jù)導(dǎo)入導(dǎo)出和DNA數(shù)據(jù)上傳及共享等指令,并通過(guò)多元網(wǎng)絡(luò)將指令傳輸給平臺(tái)運(yùn)行端;平臺(tái)運(yùn)行端在收到任務(wù)執(zhí)行指令后,讀取隱私預(yù)算配置信息、數(shù)據(jù)源選擇信息、數(shù)據(jù)規(guī)約信息,并執(zhí)行DNA模體識(shí)別操作;最后,平臺(tái)運(yùn)行端將處理完成后的結(jié)果通過(guò)多元網(wǎng)絡(luò)呈現(xiàn)給客戶端,并提供結(jié)果集展示、本地存儲(chǔ)、結(jié)果質(zhì)量評(píng)估及圖形化展示等功能。

      圖1 平臺(tái)總體結(jié)構(gòu)圖

      2 平臺(tái)軟件設(shè)計(jì)

      差分隱私模體識(shí)別平臺(tái)主要由平臺(tái)運(yùn)行端、DNA數(shù)據(jù)庫(kù)服務(wù)器端及客戶端三部分組成(圖1所示為平臺(tái)總體結(jié)構(gòu)圖)。用戶通過(guò)客戶端對(duì)模體識(shí)別過(guò)程中的DNA數(shù)據(jù)庫(kù)連接、隱私預(yù)算配置、算法參數(shù)配置及結(jié)果顯示方式等相關(guān)信息進(jìn)行配置,信息配置包含任務(wù)開啟、結(jié)果顯示、DNA數(shù)據(jù)導(dǎo)入導(dǎo)出和DNA數(shù)據(jù)上傳及共享等指令,并通過(guò)多元網(wǎng)絡(luò)將指令傳輸給平臺(tái)運(yùn)行端;平臺(tái)運(yùn)行端在收到任務(wù)執(zhí)行指令后,讀取隱私預(yù)算配置信息、數(shù)據(jù)源選擇信息、數(shù)據(jù)規(guī)約信息,并執(zhí)行DNA模體識(shí)別操作;最后,平臺(tái)運(yùn)行端將處理完成后的結(jié)果通過(guò)多元網(wǎng)絡(luò)呈現(xiàn)給客戶端,并提供結(jié)果集展示、本地存儲(chǔ)、結(jié)果質(zhì)量評(píng)估及圖形化展示等功能。平臺(tái)各子程序具備的功能見表1。

      表1 各程序具備功能

      主程序進(jìn)行平臺(tái)初始化和各子程序的調(diào)用,多元網(wǎng)絡(luò)通信子程序負(fù)責(zé)客戶端的配置信息及數(shù)據(jù)庫(kù)的上傳。而平臺(tái)端在收到客戶端的任務(wù)開始指令后,將調(diào)用服務(wù)器內(nèi)置DNA數(shù)據(jù)庫(kù)或者用戶上傳的數(shù)據(jù)庫(kù),并對(duì)其進(jìn)行差分隱私模體識(shí)別,最后將識(shí)別結(jié)果和數(shù)據(jù)可用性評(píng)估通過(guò)客戶端圖形化界面顯示給用戶。平臺(tái)軟件流程圖如圖2所示。

      圖2 平臺(tái)軟件流程圖

      3 平臺(tái)DNA模體識(shí)別算法設(shè)計(jì)

      3.1 差分隱私基本概念

      差分隱私是一種基于數(shù)據(jù)失真的隱私保護(hù)模型,該模型通過(guò)向查詢結(jié)果中添加適當(dāng)噪音實(shí)現(xiàn)數(shù)據(jù)分析與共享的隱私保護(hù)。差分隱私模型建立在嚴(yán)格的數(shù)學(xué)推導(dǎo)之上,能夠在攻擊者擁有最大背景知識(shí)情況下保護(hù)數(shù)據(jù)中的個(gè)人隱私信息。該模型的原理為:在任一數(shù)據(jù)集中添加或刪除一條數(shù)據(jù),這一操作不會(huì)影響數(shù)據(jù)分析的結(jié)果。差分隱私模型的具體定義如下:

      定義1:給定兩個(gè)數(shù)據(jù)集D和D',這兩個(gè)數(shù)據(jù)集之間最多相差一條數(shù)據(jù),即兄弟數(shù)據(jù)集。同時(shí),給定一個(gè)具有隱私保護(hù)的算法A,range(A)是算法A分析結(jié)果的取值范圍,若算法A在給定的兩個(gè)數(shù)據(jù)集D和D'上的任一分析結(jié)果O(其中O∈range(A))滿足下列不等式,則算法A滿足ε-差分隱私。

      |Pr[A(D)=O]|≤eε×|Pr[A(D')=O]|

      上述不等式中,查詢結(jié)果的概率Pr[·]取決于算法A的隨機(jī)性,也代表著數(shù)據(jù)集中個(gè)人隱私泄露的風(fēng)險(xiǎn)。而隱私預(yù)算參數(shù)ε表示對(duì)數(shù)據(jù)集的隱私保護(hù)程度。一般來(lái)說(shuō),ε越小,數(shù)據(jù)集的隱私保護(hù)程度越高。

      為實(shí)現(xiàn)差分隱私模型,一般方法是向算法分析的結(jié)果中添加噪聲,噪聲添加技術(shù)主要分為拉普拉斯機(jī)制和指數(shù)機(jī)制,而基于不同噪聲機(jī)制且滿足差分隱私的數(shù)據(jù)分析算法所需噪音大小與算法的全局敏感性密切相關(guān)。

      定義2:對(duì)于任意函數(shù)f:D→Rd,該函數(shù)f的全局敏感性Δf可以表示為:

      由定義1可知,兩個(gè)數(shù)據(jù)集D和D'為兄弟數(shù)據(jù)集,即兩個(gè)數(shù)據(jù)集最多相差一條數(shù)據(jù)。R表示通過(guò)函數(shù)f,數(shù)據(jù)集D能夠映射的實(shí)數(shù)空間,d表示映射結(jié)果的維度,p表示全局敏感度Δf是利用Lp進(jìn)行度量距離,而本文涉及到的算法均使用L1度量距離。

      為使DNA模體識(shí)別方法滿足差分隱私模型,本文使用的噪音機(jī)制均為拉普拉斯機(jī)制,該機(jī)制主要通過(guò)拉普拉斯分布產(chǎn)生的隨機(jī)算子擾動(dòng)真實(shí)DNA模體識(shí)別頻率來(lái)實(shí)現(xiàn)差分隱私保護(hù)。

      定義3:對(duì)于任一函數(shù)f:D→d,如果算法A的分析結(jié)果滿足以下等式,則可以認(rèn)為算法A滿足ε-差分隱私。

      A(D)=f(D)+

      在定義3中,任一拉普拉斯變量Lapi(Δf/ε)(1≤i≤d)相互獨(dú)立。由等式可知,拉普拉斯機(jī)制添加的噪音量與Δf成正比,與ε成反比。換而言之,算法A全局敏感性越大,需要添加的噪音量越大。

      3.2 差分隱私DNA模體識(shí)別算法

      在平臺(tái)運(yùn)行端內(nèi)置多種差分隱私模體識(shí)別方法,除了經(jīng)典的N-gram算法、Simple算法外,還包括自主設(shè)計(jì)的基于差分隱私保護(hù)模型的DNA閉頻繁模體識(shí)別算法——DP-CFMF,其原理通過(guò)構(gòu)建閉頻繁擾動(dòng)探索樹,利用閉頻繁模體模型對(duì)擾動(dòng)探索樹進(jìn)行剪枝,該步驟能夠減少模體結(jié)果集冗余的同時(shí),減少隱私預(yù)算的消耗;而且,利用探索樹結(jié)構(gòu)能夠提高內(nèi)存使用和模體搜索的效率,并能夠快速有效地分配隱私預(yù)算;此外,該方法采用最優(yōu)線性無(wú)偏估計(jì)對(duì)加噪支持度計(jì)數(shù)進(jìn)行一致性約束處理,提高數(shù)據(jù)的可用性。該方法主要包括模式分解單元、構(gòu)建閉頻繁擾動(dòng)樹單元、識(shí)別模體單元和一致性約束后置處理單元,其具體流程如下:

      1)模式分解單元:利用nmax參數(shù)對(duì)DNA原始數(shù)據(jù)集進(jìn)行模式分解,獲得數(shù)據(jù)集中長(zhǎng)度為nmax-1和nmax模體及其支持度計(jì)數(shù);

      2)構(gòu)建閉頻繁擾動(dòng)樹單元:利用長(zhǎng)度為nmax-1和nmax模體構(gòu)建探索樹,利用閉頻繁模體等價(jià)關(guān)系進(jìn)行剪枝,然后對(duì)每一個(gè)模體的支持度計(jì)數(shù)添加相應(yīng)的拉普拉斯噪聲,獲得由剪枝后nmax-1模體和nmax模體組成的閉頻繁擾動(dòng)探索樹;

      3)一致性約束后置處理單元:利用最優(yōu)線性無(wú)偏估計(jì)方法對(duì)擾動(dòng)探索樹的每一個(gè)節(jié)點(diǎn)的支持度計(jì)數(shù)進(jìn)行一致性約束后置處理,獲得滿足樹的一致性約束的支持度計(jì)數(shù);

      4)識(shí)別模體單元:在N-gram模型的基礎(chǔ)上利用馬爾可夫假設(shè)方法進(jìn)行預(yù)測(cè)所有nmax+1模體的支持度計(jì)數(shù),不斷迭代獲取長(zhǎng)度在[nmax,Lu]之間的模體,求解每個(gè)模體的聯(lián)合支持度計(jì)數(shù),獲得長(zhǎng)度在[nmax,Lu]之間的頻繁模體。

      相比于N-gram方法來(lái)說(shuō),DP-CFMF具有較高的精確度,且其需要使用到的隱私預(yù)算較少,可以滿足多數(shù)情況下的隱私保護(hù);而N-gram算法具有較高的效率,但其處理較大數(shù)據(jù)集時(shí)需要消耗大量的隱私預(yù)算,甚至可能超出隱私預(yù)算上限,從而導(dǎo)致識(shí)別過(guò)程異常,因此N-gram適用于較小DNA數(shù)據(jù)集的安全識(shí)別。在使用該平臺(tái)時(shí),用戶可以根據(jù)自己不同的情況做出相應(yīng)的選擇。

      4 平臺(tái)測(cè)試與分析

      4.1 差分隱私模體識(shí)別算法測(cè)試

      本文將真實(shí)數(shù)據(jù)集Upstream數(shù)據(jù)作為內(nèi)置數(shù)據(jù)源對(duì)平臺(tái)算法性能進(jìn)行測(cè)試,該數(shù)據(jù)集包含487760條DNA序列。測(cè)試時(shí),在客戶端配置差分隱私保護(hù)預(yù)算、模體識(shí)別參數(shù)、圖像化顯示等信息。實(shí)驗(yàn)所使用的軟硬件環(huán)境為:4G內(nèi)存,平臺(tái)端運(yùn)行環(huán)境為L(zhǎng)inux,算法開發(fā)語(yǔ)言為Python,客戶端運(yùn)行環(huán)境為Window10,客戶端開發(fā)語(yǔ)言為C#,數(shù)據(jù)庫(kù)為SQL sever 2008。圖3是在不同隱私預(yù)算下對(duì)Upstream數(shù)據(jù)集執(zhí)行平臺(tái)算法測(cè)試,其他參數(shù)默認(rèn)值見文獻(xiàn)[13]。由圖可知,兩種方法均可以完成在Upstream數(shù)據(jù)集上的差分隱私模體識(shí)別,且具有良好的精確度。此外DP-CFMF精確度要高于N-gram方法,更適合于高精度要求的任務(wù),而N-gram方法相對(duì)來(lái)說(shuō)精確度略低,比較適合處理效率要求較高的任務(wù)。

      圖3 Upstream數(shù)據(jù)集在不同epsilon下的精確度對(duì)比

      為測(cè)試研究人員在共享DNA數(shù)據(jù)庫(kù)場(chǎng)景下的算法運(yùn)行效果,本文在客戶端中將真實(shí)數(shù)據(jù)集Washington數(shù)據(jù)設(shè)置為待共享數(shù)據(jù)集,該數(shù)據(jù)集共包含14126條數(shù)據(jù)。實(shí)驗(yàn)中,客戶端通過(guò)互聯(lián)網(wǎng)將Washington數(shù)據(jù)集傳輸?shù)椒?wù)器端。數(shù)據(jù)共享到服務(wù)器端后,本文對(duì)Washington集進(jìn)行了不同隱私預(yù)算的模體識(shí)別測(cè)試,測(cè)試結(jié)果如圖4所示,DP-CFMF和N-gram算法的精確度均可達(dá)到70%以上。由此可知,通過(guò)該平臺(tái)可以較好地實(shí)驗(yàn)DNA數(shù)據(jù)的安全共享。

      圖4 Washington數(shù)據(jù)集在不同epsilon下的精確度對(duì)比

      4.2 客戶端總體功能測(cè)試

      在客戶端總體功能測(cè)試中,本文主要對(duì)安全共享平臺(tái)進(jìn)行了參數(shù)設(shè)置、數(shù)據(jù)共享、模體識(shí)別質(zhì)量評(píng)估等功能的測(cè)試。通過(guò)測(cè)試可知,客戶端能夠?qū)崿F(xiàn)內(nèi)置DNA數(shù)據(jù)進(jìn)行選擇、規(guī)約數(shù)據(jù)大小、描述共享數(shù)據(jù)集、設(shè)置差分隱私模體識(shí)別參數(shù)、選擇結(jié)果反饋方式等操作,并將相關(guān)指令發(fā)送給平臺(tái)端。平臺(tái)端對(duì)于客戶端的請(qǐng)求均做出了響應(yīng),并進(jìn)行了相應(yīng)操作后將結(jié)果反饋給客戶端。測(cè)試結(jié)果表明:平臺(tái)端和客戶端各子程序模塊均能成功運(yùn)行,能滿足設(shè)計(jì)需求。

      5 結(jié)論

      本文描述了差分隱私DNA模體識(shí)別安全共享平臺(tái)設(shè)計(jì)與實(shí)現(xiàn),該平臺(tái)利用C/S架構(gòu),允許用戶在客戶端進(jìn)行隱私預(yù)算及算法參數(shù)配置、選擇DNA數(shù)據(jù)庫(kù)、上傳及共享DNA數(shù)據(jù)集、結(jié)果保存方式等操作,并通過(guò)多元網(wǎng)絡(luò)將指令傳入平臺(tái)端。平臺(tái)端接收到客戶端端指令后,讀取、導(dǎo)入用戶所選擇的數(shù)據(jù)源,利用差分隱私DNA模體識(shí)別方法對(duì)DNA數(shù)據(jù)進(jìn)行識(shí)別,然后將結(jié)果通過(guò)客戶端的客戶端圖形化展示給用戶。測(cè)試結(jié)果證明,該平臺(tái)提供的差分隱私模體識(shí)別方法能夠有效實(shí)現(xiàn)DNA數(shù)據(jù)的安全識(shí)別,并能滿足用戶多種需求。同時(shí),平臺(tái)提供的自主上傳數(shù)據(jù)和隱私預(yù)算配置等功能幫助生物學(xué)研究人員開展定制化研究工作,為生物序列的安全共享與研究提供有力支撐。

      猜你喜歡
      模體精確度差分
      數(shù)列與差分
      基于Matrix Profile的時(shí)間序列變長(zhǎng)模體挖掘
      研究核心素養(yǎng)呈現(xiàn)特征提高復(fù)習(xí)教學(xué)精確度
      “硬核”定位系統(tǒng)入駐兗礦集團(tuán),精確度以厘米計(jì)算
      植入(l, d)模體發(fā)現(xiàn)若干算法的實(shí)現(xiàn)與比較
      基于網(wǎng)絡(luò)模體特征攻擊的網(wǎng)絡(luò)抗毀性研究
      基于模體演化的時(shí)序鏈路預(yù)測(cè)方法
      基于差分隱私的大數(shù)據(jù)隱私保護(hù)
      相對(duì)差分單項(xiàng)測(cè)距△DOR
      太空探索(2014年1期)2014-07-10 13:41:50
      差分放大器在生理學(xué)中的應(yīng)用
      秦皇岛市| 中卫市| 招远市| 马鞍山市| 河西区| 滁州市| 万源市| 冕宁县| 皮山县| 昔阳县| 东海县| 东台市| 嘉义市| 班玛县| 奇台县| 邓州市| 若羌县| 长春市| 临高县| 曲麻莱县| 新营市| 清水县| 上林县| 根河市| 甘泉县| 青神县| 巴南区| 泰安市| 城口县| 涟源市| 长宁区| 克山县| 桓台县| 海宁市| 西乌珠穆沁旗| 敦煌市| 陆川县| 牟定县| 靖江市| 浮梁县| 和平县|