• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于生成對(duì)抗網(wǎng)絡(luò)技術(shù)的醫(yī)療仿真數(shù)據(jù)生成方法

      2022-03-31 07:11:28向夏雨王佳慧王子睿段少明潘鶴中莊榮飛韓培義劉川意
      通信學(xué)報(bào) 2022年3期
      關(guān)鍵詞:可用性原始數(shù)據(jù)分類

      向夏雨,王佳慧,王子睿,段少明,潘鶴中,莊榮飛,韓培義,4,劉川意,4

      (1.北京郵電大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,北京 100876;2.國(guó)家信息中心信息與網(wǎng)絡(luò)安全部,北京 100045;3.哈爾濱工業(yè)大學(xué)(深圳)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,廣東 深圳 518055;4.鵬城實(shí)驗(yàn)室網(wǎng)絡(luò)部,廣東 深圳 518066)

      0 引言

      醫(yī)療大數(shù)據(jù)的激增并不意味著數(shù)據(jù)科學(xué)家可以輕易地獲取真實(shí)數(shù)據(jù)。例如,一家醫(yī)院希望將電子健康檔案(EHR,electronic health record)分享給一所大學(xué)用于研究,然而數(shù)據(jù)共享必須經(jīng)過仔細(xì)的倫理審查,以免泄露病人的隱私[1]。此過程通常需要幾個(gè)月的時(shí)間,最終還不能保證該學(xué)校可以獲得批準(zhǔn)。

      為了解決上述難題,最新工作基于生成對(duì)抗網(wǎng)絡(luò)(GAN,generative adversarial network)技術(shù)進(jìn)行了廣泛的研究,以期提供一種更安全的數(shù)據(jù)共享方式[2]。但是與GAN 用于生成非結(jié)構(gòu)化數(shù)據(jù)的成功相比,基于GAN 的結(jié)構(gòu)化仿真數(shù)據(jù)合成仍處于起步階段。

      結(jié)構(gòu)化數(shù)據(jù)的混合數(shù)據(jù)類型、特征的關(guān)聯(lián)關(guān)系、多模態(tài)的數(shù)據(jù)分布、不平衡的數(shù)據(jù)標(biāo)簽這幾個(gè)獨(dú)特屬性對(duì)GAN 模型的設(shè)計(jì)提出了挑戰(zhàn)[3]。具體而言,結(jié)構(gòu)化數(shù)據(jù)集往往包含各種定類特征,并且機(jī)器學(xué)習(xí)通常要求對(duì)訓(xùn)練的變量進(jìn)行矢量表示。常規(guī)的獨(dú)熱編碼首先將定類屬性轉(zhuǎn)換為多個(gè)數(shù)值模擬,然后將其用于建模[4]。

      盡管獨(dú)熱編碼技術(shù)簡(jiǎn)單易行,但其主要缺點(diǎn)是隨著特征類別的增加,或者當(dāng)數(shù)據(jù)集中存在數(shù)百萬(wàn)的實(shí)體時(shí),將不可避免地產(chǎn)生維數(shù)災(zāi)難效應(yīng)。通常對(duì)于基數(shù)為d的變量,其對(duì)應(yīng)向量將具有d個(gè)維度,所形成的稀疏矩陣難以進(jìn)行有效的機(jī)器學(xué)習(xí)訓(xùn)練[5]。其次,一位有效編碼的特點(diǎn)是將類別分開表示為獨(dú)立不相關(guān)的概念,這是因?yàn)槿我?個(gè)向量之間的內(nèi)積為零,且每個(gè)向量在歐幾里得空間中彼此距離相等,這樣帶來的后果是消除了特征底層表示中的重要關(guān)聯(lián)結(jié)構(gòu)[5]。對(duì)于結(jié)構(gòu)化EHR中的定類特征而言,前期特征編碼工作[2-3]尚未針對(duì)性地解決醫(yī)療實(shí)體之間所存在的層級(jí)結(jié)構(gòu),從而導(dǎo)致現(xiàn)有的結(jié)構(gòu)化仿真數(shù)據(jù)生成方案不適用于醫(yī)療數(shù)據(jù)集[6]。

      因此,本文旨在研究數(shù)據(jù)中間表示學(xué)習(xí)(DIRL,data intermediate representation learning),以克服生成對(duì)抗網(wǎng)絡(luò)用于結(jié)構(gòu)化數(shù)據(jù)建模的局限性。在機(jī)器學(xué)習(xí)中,表示學(xué)習(xí)[7]可以從原始數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)特征或構(gòu)建分類器所需的有效信息,這取代了過去手動(dòng)的特征工程,允許程序?qū)W習(xí)相關(guān)特征并使用它們執(zhí)行特定任務(wù)。直觀上觀察,基于同一空間的低維表示相比于獨(dú)熱編碼更有效,這是因?yàn)樘卣髑度朐诒A籼卣飨蛄靠臻g語(yǔ)義的同時(shí),也僅僅由少量的實(shí)數(shù)點(diǎn)表示。

      綜上所述,正確表示數(shù)據(jù)是訓(xùn)練GAN 的關(guān)鍵,通過對(duì)分類和連續(xù)變量采取合適的表示形式,并設(shè)計(jì)合理的GAN 模型架構(gòu),可以訓(xùn)練出高質(zhì)量的神經(jīng)網(wǎng)絡(luò)模型用于仿真數(shù)據(jù)的生成。

      本文具體的貢獻(xiàn)如下。

      1)基于表示學(xué)習(xí)的定類變量建模,利用雙曲空間對(duì)大規(guī)模醫(yī)學(xué)類別實(shí)體進(jìn)行低維、稠密向量的映射,將龐加萊球模型與黎曼隨機(jī)梯度下降優(yōu)化算法用于建模特征層次關(guān)系,以此有效地保留潛在分層結(jié)構(gòu)與關(guān)聯(lián)關(guān)系,為GAN 的原始數(shù)據(jù)訓(xùn)練提供基礎(chǔ)。

      2)基于高斯耦合的生成對(duì)抗網(wǎng)絡(luò)技術(shù),利用生成模型創(chuàng)建近似于原始數(shù)據(jù)分布的仿真數(shù)據(jù),首先使用高斯耦合對(duì)數(shù)據(jù)表中多元非線性的隨機(jī)變量進(jìn)行建模,以此捕捉不同特征之間的統(tǒng)計(jì)特性;隨后利用優(yōu)化的WGAN(Wasserstein generative adversarial network)為分類、連續(xù)等結(jié)構(gòu)化數(shù)據(jù)類型提供合成數(shù)據(jù),通過該技術(shù)在真實(shí)EHR 的使用受到限制時(shí)代替真實(shí)EHR。

      3)基于隱私性和可用性指標(biāo)的評(píng)估技術(shù),利用距離的方式檢驗(yàn)假數(shù)據(jù)的隱私性,使用最近鄰對(duì)抗精度、隱私損失、散度值與差異分?jǐn)?shù)定量描述與真實(shí)數(shù)據(jù)之間的差異;利用分類算法綜合檢驗(yàn)仿真數(shù)據(jù)的可用性,提出統(tǒng)計(jì)平均的機(jī)器學(xué)習(xí)分類指標(biāo),公正評(píng)判仿真數(shù)據(jù)相較于原始EHR 的再入院預(yù)測(cè)效果。

      最終實(shí)驗(yàn)表明,相較于當(dāng)前結(jié)構(gòu)化假數(shù)據(jù)生成的SOTA(state-of-the-art)技術(shù)——CTGAN(conditional tabular generative adversarial network)[8]而言,本文提出的方案可以更好地表征結(jié)構(gòu)化EHR中的分類和連續(xù)特征,最終在生成數(shù)據(jù)的可用性方面實(shí)現(xiàn)了超過15%的提升,從而為隱私保護(hù)前提下醫(yī)療EHR 的發(fā)布和挖掘提供更可靠的依據(jù)。

      1 相關(guān)工作

      1.1 數(shù)據(jù)脫敏

      數(shù)據(jù)脫敏[9]是指對(duì)敏感信息按照預(yù)設(shè)的規(guī)則和算法進(jìn)行數(shù)據(jù)變形或隱去敏感信息,從而使個(gè)人身份無法識(shí)別。

      1)傳統(tǒng)數(shù)據(jù)脫敏技術(shù)

      傳統(tǒng)的數(shù)據(jù)脫敏技術(shù)可分為基于非數(shù)據(jù)擾亂的數(shù)據(jù)脫敏技術(shù)和基于數(shù)據(jù)擾亂的數(shù)據(jù)脫敏技術(shù)[9]。前者(例如數(shù)據(jù)抽樣、去標(biāo)識(shí)化)不會(huì)降低數(shù)據(jù)的真實(shí)性,可基于原始數(shù)據(jù)減少敏感細(xì)節(jié)或者對(duì)其進(jìn)行部分抑制,但是會(huì)降低預(yù)測(cè)的準(zhǔn)確性[10];經(jīng)過后者(例如數(shù)據(jù)置換、數(shù)據(jù)噪聲、數(shù)據(jù)遮掩)擾亂后的數(shù)據(jù)通常是不真實(shí)的,即受到了一定程度的修改。相比于前者,基于數(shù)據(jù)擾亂的脫敏技術(shù)往往可以更好地保留原始數(shù)據(jù)的統(tǒng)計(jì)分布特性[11]。

      本文涉及的傳統(tǒng)數(shù)據(jù)脫敏技術(shù)為去標(biāo)識(shí)化技術(shù)[12],其定義為對(duì)相應(yīng)的標(biāo)識(shí)符進(jìn)行直接刪除的操作。在不借助任何背景知識(shí)的情況下,該過程無法識(shí)別特定主體。

      本文所用到的開源CERNER Health Facts 數(shù)據(jù)庫(kù)的糖尿病患者EHR[13]中,所有數(shù)據(jù)在提供給數(shù)據(jù)分析師之前均已根據(jù)美國(guó)健康保險(xiǎn)流通與責(zé)任法案(HIPAA,health insurance portability and accountability act)進(jìn)行了身份去標(biāo)識(shí)化處理。

      2)新型數(shù)據(jù)脫敏技術(shù)——基于生成對(duì)抗網(wǎng)絡(luò)的仿真數(shù)據(jù)生成

      傳統(tǒng)的數(shù)據(jù)脫敏技術(shù)通常需要手工制定脫敏規(guī)則與策略,對(duì)不同場(chǎng)景、不同任務(wù)和海量的數(shù)據(jù)而言,該方案存在巨大的效率缺陷。

      生成對(duì)抗網(wǎng)絡(luò)[2]是一種學(xué)習(xí)數(shù)據(jù)潛在分布的無監(jiān)督生成模型,通過GAN 可以創(chuàng)建仿真的訓(xùn)練數(shù)據(jù)。在這種情況下,醫(yī)院不需要發(fā)布原始EHR,僅提供合成數(shù)據(jù)供數(shù)據(jù)科學(xué)家使用,從而可以避免敏感信息的泄露。但是使用該方法的前提是GAN 所生成的數(shù)據(jù)應(yīng)盡可能地貼近原始數(shù)據(jù)的分布,以使機(jī)器學(xué)習(xí)算法在此訓(xùn)練集上建模時(shí),其隱私性和可用性均得到保障。

      1.2 表示學(xué)習(xí)和生成對(duì)抗網(wǎng)絡(luò)

      數(shù)據(jù)中間表示學(xué)習(xí)是在保護(hù)數(shù)據(jù)隱私的前提下,通過有效預(yù)測(cè)任務(wù)學(xué)習(xí)特征的中間表示(嵌入)。Osia 等[14]提出了一種特征維數(shù)縮減(FDR,feature dimension reduction)技術(shù),該技術(shù)對(duì)提取的特征進(jìn)行精煉以去除多余的信息,并采用暹羅微調(diào)方法保護(hù)敏感信息免受侵害,但是并沒有系統(tǒng)地在隱私性和可用性之間進(jìn)行折中。隨著GAN的提出[2],學(xué)者們已經(jīng)研究了幾種使用GAN 來保護(hù)數(shù)據(jù)隱私的方法,其目的是模擬攻擊者和防御者之間的博弈,它們以相互沖突的可用性與隱私性為目標(biāo)進(jìn)行攻守。Xiao 等[15]和Liu 等[16]設(shè)計(jì)了一種基于GAN 的中間表示學(xué)習(xí),該方法在保留隱私性的同時(shí)最大限度地保證了任務(wù)的實(shí)用性。這種對(duì)抗類型的機(jī)制通過模擬解碼器或分類器的隱私攻擊,旨在推斷敏感信息;而編碼器則不斷試圖隱藏私有信息,旨在保護(hù)隱私信息不被泄露。這種機(jī)制通過持續(xù)地學(xué)習(xí)來提高效用,最終使任務(wù)損失函數(shù)最小。然而這些工作并未針對(duì)結(jié)構(gòu)化數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)和驗(yàn)證。Li 等[17]介紹了一個(gè)與任務(wù)無關(guān)的隱私保護(hù)數(shù)據(jù)眾包框架,目的是學(xué)習(xí)一個(gè)特征提取器,使其可以從提取的中間特征里刪除相應(yīng)的隱私信息,將嵌入原始數(shù)據(jù)的初始信息用于機(jī)器學(xué)習(xí)下游任務(wù)。

      上述解決方案背后的相同思想是利用GAN 來混淆原始數(shù)據(jù)和特征,防止隱私泄露。但是,這些最新的嵌入機(jī)制無法準(zhǔn)確地處理定類屬性的潛在分層結(jié)構(gòu),而這正是層級(jí)相互關(guān)聯(lián)醫(yī)療實(shí)體的關(guān)鍵特性所在[18]。

      2 基于表示學(xué)習(xí)的生成對(duì)抗網(wǎng)絡(luò)方法

      基于表示學(xué)習(xí)的生成對(duì)抗網(wǎng)絡(luò)技術(shù)是一種基于GAN 的方法,旨在對(duì)結(jié)構(gòu)化數(shù)據(jù)分布進(jìn)行建模。本節(jié)基于龐加萊球模型對(duì)醫(yī)療關(guān)系實(shí)體實(shí)施數(shù)據(jù)嵌入處理,并利用黎曼隨機(jī)梯度下降算法對(duì)其進(jìn)行優(yōu)化(2.1 節(jié)),以此保留特征潛在分層結(jié)構(gòu)與關(guān)聯(lián)關(guān)系,為GAN 的原始數(shù)據(jù)訓(xùn)練提供基礎(chǔ)。在EHR的分類特征得到有效的預(yù)處理后,本文利用高斯耦合的方式對(duì)變量的多元分布進(jìn)行建模,并基于全連接網(wǎng)絡(luò)和最新的WGAN 技術(shù)生成近似于真實(shí)數(shù)據(jù)的仿真數(shù)據(jù)(2.2 節(jié))。

      2.1 分類特征的雙曲空間數(shù)據(jù)嵌入

      結(jié)構(gòu)化數(shù)據(jù)中類別變量的處理通常使用獨(dú)熱編碼,而這種方法容易帶來空間爆炸的問題。受到數(shù)據(jù)中間表示學(xué)習(xí)最新進(jìn)展的啟發(fā),本節(jié)將分類特征嵌入低維坐標(biāo)軸中以提高空間效率,并保留其潛在的屬性層次結(jié)構(gòu)。

      ICD-9 是《疾病和相關(guān)健康問題國(guó)際統(tǒng)計(jì)分類》的第9 版,由衛(wèi)生組織統(tǒng)一規(guī)范[19]。ICD-9 臨床修改代碼(ICD-9-CM)是ICD-9 版本的更新。如表1所示,ICD-9-CM 代碼將不同類別的疾病類型劃分成不同的值域,如390~459,785 對(duì)應(yīng)循環(huán)系統(tǒng)疾??;250.xx 對(duì)應(yīng)糖尿病等。

      表1 ICD-9-CM 疾病類別展示

      這種編號(hào)的醫(yī)學(xué)本體通常是按照層次組織的。圖1 顯示了一個(gè)示例:其中ICD 240~279(不包含250)是整個(gè)ICD-9-CM 1 000 多種疾病中的一個(gè)大類別,表示“內(nèi)分泌、營(yíng)養(yǎng)和代謝性疾病以及免疫性疾病”類型。該類別中的子類別為240~246、249~259、260~269 等,代表了不同類型的疾病種類,例如“甲狀腺疾病”“其他內(nèi)分泌腺疾病”和“營(yíng)養(yǎng)缺乏癥”。249.x和255.x 被認(rèn)為是特定疾病相對(duì)應(yīng)的葉節(jié)點(diǎn),隸屬于單個(gè)子類別(249~259),代表“患有其他昏迷的繼發(fā)性糖尿病”和“腎上腺疾病”的準(zhǔn)確疾病描述。

      圖1 ICD-9-CM 類別層次示例

      ICD-9-CM 的醫(yī)學(xué)本體庫(kù)較大,每個(gè)診斷代碼都可以視為一個(gè)獨(dú)立的特征。因此,將獨(dú)熱編碼技術(shù)用于進(jìn)一步的處理和建模是不可行的,因?yàn)樗鼤?huì)產(chǎn)生巨大的稀疏矩陣。

      一般而言,合適的數(shù)據(jù)中間表示可帶來良好的模型性能[20]。根據(jù)ICD-9-CM 代碼的性質(zhì),在表示這些概念時(shí)需盡可能保留其分級(jí)的結(jié)構(gòu)。對(duì)于文本數(shù)據(jù)而言,歐幾里得空間是使用最廣泛的一種數(shù)據(jù)嵌入方法。但是,對(duì)于具有明顯層次的醫(yī)學(xué)本體來說,雙曲方法[21]更加適合,這是因?yàn)樵摲椒梢栽谳^低維度上保留正確的層級(jí)排名。

      龐加萊球模型是類似于n維球體的n維雙曲幾何模型,所有點(diǎn)都嵌入在內(nèi)。任何度量空間的特征都是基于u與v兩點(diǎn)之間的距離。在雙曲空間中,特別是對(duì)于龐加萊球模型而言,其兩點(diǎn)之間的距離定義為

      鑒于龐加萊球模型的幾何性質(zhì),其可以用來對(duì)實(shí)體進(jìn)行層次性的建模。對(duì)于嵌入雙曲空間中的分層結(jié)構(gòu),根節(jié)點(diǎn)將放置在離中心較近的區(qū)域,而葉節(jié)點(diǎn)將被分配在靠近球體的邊界,這是為了確保葉節(jié)點(diǎn)與其他葉節(jié)點(diǎn)之間保持合理的距離。

      為了學(xué)習(xí)醫(yī)學(xué)本體的表示,本節(jié)定義一個(gè)損失函數(shù),旨在最小化相似本體嵌入之間的雙曲線距離,并最大化不相似本體嵌入之間的雙曲線距離。本節(jié)遵循文獻(xiàn)[22]的工作,使用黎曼隨機(jī)梯度下降來優(yōu)化以下?lián)p失函數(shù)

      式(2)表明,任何有限樹都可以嵌入有限的雙曲空間中,從而近似保留實(shí)體之間的距離。本文方法利用雙曲空間的特定模型,即龐加萊球模型,因?yàn)樗浅_m合基于梯度的優(yōu)化。這使本文能夠開發(fā)一種基于黎曼優(yōu)化的高效算法來計(jì)算嵌入,該算法易于并行化并且可以擴(kuò)展到海量EHR。

      圖2 顯示了基于二維空間Poincaré 模型的數(shù)據(jù)嵌入功能。該方法使用了數(shù)據(jù)中間表示,能夠?qū)W習(xí)大規(guī)模的分類實(shí)體,并保持相似醫(yī)學(xué)本體之間的數(shù)據(jù)關(guān)聯(lián)嵌入。由圖2 可知,ICD-9-CM中的不同疾病大類別已經(jīng)被分開。與此同時(shí),在對(duì)應(yīng)的每個(gè)大類中,存在多個(gè)子類別;由于子類別隸屬于單個(gè)大類別,故該大類別中的每個(gè)子類別僅與所在大類別之間的距離非常相近,與不同大類別之間的距離相對(duì)較遠(yuǎn),這種情況對(duì)于其葉節(jié)點(diǎn)也是如此。

      圖2 基于二維空間Poincaré 模型的數(shù)據(jù)嵌入功能

      通過本節(jié)提出的數(shù)據(jù)中間表示學(xué)習(xí)的方法,將相似的醫(yī)學(xué)實(shí)體聚集在一起,并使不同類型疾病之間的距離盡可能分開,從而保留本體的有效層級(jí)信息。

      在訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型之前,正確表示原始數(shù)據(jù)是關(guān)鍵環(huán)節(jié)。本節(jié)通過對(duì)定類醫(yī)療實(shí)體特征采取二維空間Poincaré 模型的表示形式,為訓(xùn)練高質(zhì)量的GAN 模型提供必要的前提條件。

      2.2 結(jié)構(gòu)化EHR 的仿真數(shù)據(jù)生成

      本文使用了UCI Machine Learning Repository 的EHR 國(guó)家數(shù)據(jù)倉(cāng)庫(kù),該數(shù)據(jù)庫(kù)收集了美國(guó)130 所醫(yī)院的10 年臨床護(hù)理和綜合交付網(wǎng)絡(luò)的全面臨床記錄[13],包括50 類特征,例如人口統(tǒng)計(jì)信息、診斷結(jié)果、糖尿病藥物使用清單、入院前一年的就診次數(shù)以及代表患者和醫(yī)院結(jié)果的保險(xiǎn)信息。本文從EHR 原始數(shù)據(jù)庫(kù)中提取滿足以下條件的住院信息。

      1)一次住院記錄。

      2)一類糖尿病的住院,即在此期間醫(yī)生將任何類型的糖尿病輸入系統(tǒng)中作為診斷。

      3)住院時(shí)間最少一天,最多14 天。

      4)住院期間進(jìn)行了實(shí)驗(yàn)測(cè)試和化驗(yàn)檢查。

      5)住院期間服用了藥物。

      該糖尿病數(shù)據(jù)集包含101 766 例住院患者的病歷數(shù)據(jù)、醫(yī)生的專業(yè)知識(shí)、人口統(tǒng)計(jì)學(xué)特征(年齡、性別和種族)、診斷和住院程序(由ICD-9-CM 進(jìn)行編碼)、實(shí)驗(yàn)室數(shù)據(jù)、藥房數(shù)據(jù)、院內(nèi)死亡率和醫(yī)院特征等。所有數(shù)據(jù)在提供給數(shù)據(jù)分析師之前均已根據(jù)HIPAA 進(jìn)行了身份去標(biāo)識(shí)化處理。

      為了獲得干凈、唯一和經(jīng)過轉(zhuǎn)換的數(shù)據(jù)集進(jìn)行分析,本節(jié)利用了2 個(gè)主要的預(yù)處理步驟,如圖3 所示,其中包括數(shù)據(jù)清理和特征轉(zhuǎn)換。最初的糖尿病原始數(shù)據(jù)集包含101 766 例住院記錄和50 個(gè)數(shù)據(jù)特征。數(shù)據(jù)清理在患者記錄(行)和數(shù)據(jù)變量(列)中進(jìn)行,最終產(chǎn)生69 990 個(gè)不同的記錄和40 個(gè)特征。

      圖3 EHR 預(yù)處理流程

      上述數(shù)據(jù)集可用于患者再入院的數(shù)據(jù)特征分析和預(yù)測(cè),其中數(shù)據(jù)集中包含39 個(gè)潛在的預(yù)測(cè)因素和一項(xiàng)結(jié)果變量,即30 天內(nèi)是否再入院。本節(jié)將再入院狀態(tài)定義為具有2 種結(jié)果:“再入院”(患者在出院后30 天內(nèi)再次住院)或“無再入院”(患者在30 天后再次住院和沒有再次住院)。

      本節(jié)定義原始數(shù)據(jù)為Γ=[X;Y],仿真數(shù)據(jù)為?!?[X′;Y′],其中每個(gè)xi∈X和yi∈Y分別對(duì)應(yīng)數(shù)據(jù)集中的特征和標(biāo)簽。通過Γ訓(xùn)練一個(gè)分類器f:X→Y(通過?!溆?xùn)練一個(gè)分類器f′:X′→Y′),使xi∈X被映射至對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽f(xi),即0(無再入院)或1(再入院)。

      出院后再入院的定義是指在規(guī)定的時(shí)間段內(nèi)出院患者再次住院的情況。再入院率已越來越多地被用作衛(wèi)生服務(wù)研究中的一項(xiàng)成果指標(biāo)和衛(wèi)生系統(tǒng)的質(zhì)量基準(zhǔn)。出于倫理審查和保護(hù)原始數(shù)據(jù)隱私的考慮,本節(jié)將生成對(duì)抗網(wǎng)絡(luò)技術(shù)用于該結(jié)構(gòu)化EHR 的仿真數(shù)據(jù)生成,最終僅提供合成的數(shù)據(jù)給數(shù)據(jù)分析師挖掘使用。

      生成模型本質(zhì)上是一種機(jī)器學(xué)習(xí)模型,試圖研究現(xiàn)實(shí)世界中的數(shù)據(jù)分布,然后從學(xué)習(xí)到的分布中隨機(jī)抽取樣本。它符合創(chuàng)建仿真數(shù)據(jù)的目標(biāo)——試圖擬合原始數(shù)據(jù),以便從中獲取樣本數(shù)據(jù)進(jìn)行建模。這種機(jī)制的一個(gè)主要特征是滿足了保護(hù)隱私的要求[8]。

      傳統(tǒng)的GAN 由生成器和判別器組成,生成器的任務(wù)是創(chuàng)建任意數(shù)據(jù)分布的實(shí)際樣本,而判別器的目標(biāo)是正確區(qū)分生成器參數(shù)化的分布與真實(shí)訓(xùn)練數(shù)據(jù)是否相同。生成器和判別器同步進(jìn)行極小化極大化博弈,因?yàn)楫?dāng)達(dá)到理想狀態(tài)時(shí)兩者處于納什平衡,即在生成器準(zhǔn)確擬合數(shù)據(jù)分布的情況下,判別器無法判別樣本數(shù)據(jù)是否真實(shí)。

      普通GAN 的主要缺點(diǎn)在于沒有提供控制生成數(shù)據(jù)的自主權(quán),也沒有支持生成分類數(shù)據(jù)的可能性[23]。其中,一種對(duì)GAN 的優(yōu)化是WGAN[23]。WGAN改進(jìn)了模型訓(xùn)練時(shí)的穩(wěn)定性,并提供了與生成數(shù)據(jù)質(zhì)量相關(guān)的損失函數(shù)。經(jīng)過分析發(fā)現(xiàn),使用Wasserstein 方法在生成器網(wǎng)絡(luò)中設(shè)置對(duì)應(yīng)的softmax 輸出(維數(shù)等于每個(gè)分類變量的定類值數(shù)量),能夠使GAN 創(chuàng)建定類數(shù)據(jù)。

      因此,本節(jié)提出一種新的仿真數(shù)據(jù)生成方法,為包含分類、連續(xù)和序數(shù)等特征類型的結(jié)構(gòu)化數(shù)據(jù)集提供合成偽造數(shù)據(jù)的技術(shù)。該方案利用WGAN,同時(shí)采用基于“合成數(shù)據(jù)倉(cāng)庫(kù)”[24]編碼方法的新變體為變量的多元分布實(shí)施建模,具體步驟如下。

      首先,通過高斯耦合對(duì)多元非線性的隨機(jī)變量進(jìn)行相關(guān)性的建模,以此學(xué)習(xí)原始結(jié)構(gòu)化數(shù)據(jù),從而捕捉不同特征之間的統(tǒng)計(jì)分布屬性。當(dāng)不同隨機(jī)變量的邊緣分布相互之間并不獨(dú)立時(shí),Copula 相較于傳統(tǒng)方法的優(yōu)勢(shì)是使聯(lián)合分布建模變得容易。因?yàn)楹?jiǎn)單的相關(guān)系數(shù)只能衡量線性的相關(guān)關(guān)系,不能衡量非線性的關(guān)聯(lián),所以這個(gè)時(shí)候只能利用Copula 把不同的分布連接起來。2.1 節(jié)已經(jīng)對(duì)分類特征做了數(shù)值化的預(yù)處理,并將其映射到二維數(shù)據(jù)嵌入的表示空間,這樣使高斯耦合能夠直接對(duì)分類數(shù)據(jù)實(shí)現(xiàn)操作。相較于傳統(tǒng)“合成數(shù)據(jù)倉(cāng)庫(kù)”編碼方法,本文提出的方法將分類數(shù)據(jù)替換至[0,1]值域[24],提供了更好的可靠性,同時(shí)也對(duì)表格中列的分布找到一個(gè)準(zhǔn)確的估計(jì),為下一步生成仿真數(shù)據(jù)提供基礎(chǔ)。

      隨后,在WGAN 生成仿真數(shù)據(jù)[23]的基礎(chǔ)上,本節(jié)尋求訓(xùn)練生成器模型的另一種方法,從而更好地估計(jì)給定訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)分布,整體流程如圖4所示。WGAN 沒有使用判別器將生成的數(shù)據(jù)條目劃分為真實(shí)或偽造,而是采用評(píng)價(jià)網(wǎng)絡(luò)的方式對(duì)記錄的真實(shí)性或偽造性進(jìn)行評(píng)判,如算法1 所示。這種變化是受理論論證的啟發(fā)而實(shí)施的,即訓(xùn)練生成器應(yīng)尋求使訓(xùn)練數(shù)據(jù)集中觀察到的數(shù)據(jù)分布與所生成示例中觀察到分布之間的Wasserstein 距離最小。

      圖4 基于生成對(duì)抗網(wǎng)絡(luò)的仿真數(shù)據(jù)生成

      算法1WTRAIN(m,αd,αg,Td,Tg,cp)

      輸入批量值m,鑒別器學(xué)習(xí)率αd,生成器學(xué)習(xí)率αg,鑒別器迭代次數(shù)Td,生成器迭代次數(shù)Tg,裁剪參數(shù)cp

      輸出生成器G,鑒別器D

      初始化判別器的參數(shù)和生成器的參數(shù)

      這就意味著,通過選擇合適的損失函數(shù)能夠生成高質(zhì)量的假數(shù)據(jù),以此保證仿真數(shù)據(jù)的分布與真實(shí)數(shù)據(jù)的分布盡可能一致。損失函數(shù)定義為

      綜上,本節(jié)針對(duì)傳統(tǒng)處理分類特征的缺陷提出了基于雙曲空間數(shù)據(jù)嵌入的方法,通過將屬性投射至低維空間以稠密的向量表示,從而保留其層級(jí)結(jié)構(gòu)。此外,本文提出了基于高斯耦合的改進(jìn)WGAN 用于結(jié)構(gòu)化的仿真數(shù)據(jù)生成,對(duì)EHR中的連續(xù)、分類等屬性進(jìn)行擬合,提供與真實(shí)訓(xùn)練數(shù)據(jù)相似并能夠保護(hù)隱私的仿真數(shù)據(jù),供數(shù)據(jù)分析師分析使用。

      3 實(shí)驗(yàn)結(jié)果分析

      本節(jié)首先介紹了實(shí)驗(yàn)環(huán)境以及提出的評(píng)估分析指標(biāo)——隱私性與可用性的衡量標(biāo)準(zhǔn)。然后檢驗(yàn)了方法的有效性,并與當(dāng)前最新工作進(jìn)行了比較。最后通過消融實(shí)驗(yàn)驗(yàn)證了組件的作用,證明了本文方案的優(yōu)越性。

      3.1 實(shí)驗(yàn)環(huán)境

      基于 GAN 的仿真數(shù)據(jù)生成主要使用Tensorflow、Numpy和Pandas。所有機(jī)器學(xué)習(xí)建模和分析均使用Python 3.6中的Sklearn 0.21版本軟件包,可用性預(yù)測(cè)使用Lazy Predict 庫(kù)。

      3.2 評(píng)估指標(biāo)

      為了驗(yàn)證經(jīng)過數(shù)據(jù)嵌入處理的EHR 所生成的仿真數(shù)據(jù)效果,基于前期相關(guān)工作[25],本節(jié)定義了隱私性和可用性兩方面的評(píng)估指標(biāo)。具體的分析和結(jié)果將在后續(xù)的實(shí)驗(yàn)部分呈現(xiàn)。

      3.2.1 隱私性指標(biāo)

      考慮2 個(gè)數(shù)據(jù)分布PT和PS,其中T對(duì)應(yīng)真實(shí)數(shù)據(jù)分布,S對(duì)應(yīng)合成數(shù)據(jù)分布。從2 個(gè)數(shù)據(jù)集中隨機(jī)抽取的樣本數(shù)據(jù)分別為和

      直觀上理解,對(duì)于2 個(gè)數(shù)據(jù)集中的任意兩點(diǎn),如果基于距離遠(yuǎn)近的評(píng)估方式,假設(shè)兩者之間的距離足夠遠(yuǎn),則意味著真實(shí)數(shù)據(jù)的訓(xùn)練集/測(cè)試集與生成數(shù)據(jù)的訓(xùn)練集/測(cè)試集不相同,這就表明隱私性得到了保障。

      本節(jié)將辨別數(shù)據(jù)是否真實(shí)的能力通過最近鄰的概念進(jìn)行定義,真實(shí)數(shù)據(jù)中的一個(gè)點(diǎn)與仿真數(shù)據(jù)中最相近的一個(gè)點(diǎn)的距離為

      從真實(shí)數(shù)據(jù)中同一分布中抽取的n-1 個(gè)樣本與原始分布的最近鄰距離為

      基于此,本節(jié)提出最近鄰對(duì)抗精度的定義,如式(7)所示。

      其中,1(·)為指示函數(shù),如果判斷為真,則返回結(jié)果為1,反之為0。對(duì)于真實(shí)數(shù)據(jù)中的任意一個(gè)點(diǎn),如果它與合成數(shù)據(jù)中任意點(diǎn)的距離都足夠遠(yuǎn),則可以認(rèn)為該點(diǎn)是“真陽(yáng)性”,從而保證隱私未遭到泄露;同理,合成數(shù)據(jù)中任意一點(diǎn)都應(yīng)與真實(shí)數(shù)據(jù)中的點(diǎn)相距足夠遠(yuǎn)以便被判定為“真陰性”。所以,本節(jié)提出的最近鄰對(duì)抗精度是作為區(qū)分真實(shí)數(shù)據(jù)和仿真數(shù)據(jù)對(duì)抗分類器的性能指標(biāo),如果不能辨別真實(shí)數(shù)據(jù)集與仿真數(shù)據(jù)集之間的差異,則該結(jié)果為0.5。

      更多地,隱私損失的概念源自最近鄰對(duì)抗精度,旨在對(duì)真實(shí)數(shù)據(jù)的訓(xùn)練集/測(cè)試集與生成數(shù)據(jù)的訓(xùn)練集/測(cè)試集之間最近鄰對(duì)抗精度的差異開展比較,如式(8)所示。

      假設(shè)真實(shí)數(shù)據(jù)的訓(xùn)練集/測(cè)試集與生成數(shù)據(jù)的訓(xùn)練集/測(cè)試集之間的最近鄰對(duì)抗精度分別為0.5,則最終隱私損失結(jié)果為0。

      額外地,本節(jié)利用散度值和差異分?jǐn)?shù)進(jìn)一步比較真實(shí)數(shù)據(jù)集和合成數(shù)據(jù)集之間的差異。散度值旨在衡量真實(shí)數(shù)據(jù)分布PT和合成數(shù)據(jù)分布PS 之間的距離[26],其值域大于或等于0;生成對(duì)抗網(wǎng)絡(luò)的目的是希望合成數(shù)據(jù)的分布盡可能地逼近甚至等于原始數(shù)據(jù)的真實(shí)概率分布,從而使散度值接近最小值。差異分?jǐn)?shù)[27]定量地描述了深度學(xué)習(xí)模型與數(shù)據(jù)的吻合程度。其中,較大的數(shù)值表示生成模型對(duì)數(shù)據(jù)的擬合度較差,0 表示模型的擬合度最好。在大多數(shù)情況下,給定模型的參數(shù)估計(jì)值旨在確保模型的差異函數(shù)得分最低。

      值得注意的是,假設(shè)真實(shí)數(shù)據(jù)和合成數(shù)據(jù)之間存在明顯差異,那么訓(xùn)練集和測(cè)試集的最近鄰對(duì)抗精度都同時(shí)大于0.5,兩者的隱私損失差值卻為0。此時(shí),需要通過可用性評(píng)估的方式分析仿真數(shù)據(jù)的好壞。

      3.2.2 可用性指標(biāo)

      可用性評(píng)估基于糖尿病患者的EHR 數(shù)據(jù)集進(jìn)行再入院分類預(yù)測(cè)任務(wù),其目的是使用各種機(jī)器學(xué)習(xí)算法評(píng)估預(yù)測(cè)性能,以便交叉驗(yàn)證合成數(shù)據(jù)的有效性。在再入院預(yù)測(cè)任務(wù)中,準(zhǔn)確率是常見的基礎(chǔ)評(píng)估方式。本節(jié)同時(shí)使用F1 值進(jìn)行再入院分類準(zhǔn)確性的比較,F(xiàn)1 值定義為精確度和召回率的調(diào)和均值,且認(rèn)為精確度和召回率同等重要,相當(dāng)于精確度和召回率的綜合評(píng)價(jià)指標(biāo)。一般而言,F(xiàn)1 值越高,意味著模型越好,表明具有預(yù)測(cè)重新入院任務(wù)的能力,從而證明本文提出的仿真數(shù)據(jù)生成方法能夠出于隱私目的生成“真實(shí)、可用”的數(shù)據(jù)。

      進(jìn)一步地,本文利用絕大多數(shù)分類算法綜合檢驗(yàn)合成數(shù)據(jù)的可用性,提出可用性統(tǒng)計(jì)平均準(zhǔn)確率和F1值評(píng)判仿真數(shù)據(jù)相較于原始EHR 的再入院預(yù)測(cè)效果。

      可用性統(tǒng)計(jì)平均的定義是在某一給定分類任務(wù)上的平均得分,即

      其中,μ表示統(tǒng)計(jì)平均值,∑Xi表示所有分類算法預(yù)測(cè)值的總和(例如準(zhǔn)確率、F1 值),N表示分類算法的總數(shù)。基于可用性統(tǒng)計(jì)平均可以實(shí)現(xiàn)更加公正的機(jī)器學(xué)習(xí)下游任務(wù)評(píng)測(cè),而不依賴于單個(gè)算法的預(yù)測(cè)結(jié)果。

      3.3 隱私性評(píng)估分析

      本節(jié)開始將重點(diǎn)評(píng)估原始糖尿病EHR 相比于合成糖尿病EHR 的真實(shí)性,重點(diǎn)是隱私性-可用性的平衡。為了量化隱私保護(hù)的措施,本節(jié)驗(yàn)證多個(gè)指標(biāo)評(píng)估其性能優(yōu)劣。

      本節(jié)首先對(duì)生成數(shù)據(jù)集與原始數(shù)據(jù)集之間的最近鄰對(duì)抗精度和隱私損失進(jìn)行了實(shí)驗(yàn)比較。與此同時(shí),為了多維度地評(píng)估合成數(shù)據(jù)的質(zhì)量,本節(jié)對(duì)比了不同數(shù)據(jù)量(100 萬(wàn)、75 萬(wàn)、50 萬(wàn)、25 萬(wàn)、10 萬(wàn)、5 萬(wàn)和2 萬(wàn))的仿真數(shù)據(jù)之間的表現(xiàn)。更多地,本節(jié)橫向比較了當(dāng)前結(jié)構(gòu)化假數(shù)據(jù)生成的SOTA 技術(shù)——CTGAN,它基于GAN 來構(gòu)建數(shù)據(jù)表。CTGAN 的研究顯示,它在85%案例中的表現(xiàn)優(yōu)于經(jīng)典的合成數(shù)據(jù)技術(shù)[8]。為公平地進(jìn)行比較,本節(jié)基于CTGAN 生成了不同數(shù)據(jù)量(100 萬(wàn)、75 萬(wàn)、50 萬(wàn)、25 萬(wàn)、10 萬(wàn)、5 萬(wàn)和2 萬(wàn))的仿真數(shù)據(jù),展示最好的結(jié)果并與本文方案展開比較,如表2 所示。

      表2 生成數(shù)據(jù)集的最近鄰對(duì)抗精度與隱私損失

      從表2中可以觀察到,訓(xùn)練集和測(cè)試集相應(yīng)的最近鄰對(duì)抗精度均為0.7~0.8。與此同時(shí),若分別評(píng)估訓(xùn)練集與測(cè)試集,則發(fā)現(xiàn)訓(xùn)練集中的最近鄰對(duì)抗精度更偏離理想精度0.5,而測(cè)試集中的數(shù)值相對(duì)更小,意味著擁有更好的表現(xiàn)。導(dǎo)致這種情況的一個(gè)很重要的原因可能是訓(xùn)練集中數(shù)據(jù)量較大(48 993 例),而測(cè)試集中數(shù)據(jù)量較?。?0 997 例),數(shù)據(jù)量增大無疑給生成對(duì)抗網(wǎng)絡(luò)合成假數(shù)據(jù)增加了難度。

      對(duì)于表2中的隱私損失指標(biāo)而言,100 萬(wàn)數(shù)據(jù)量的假數(shù)據(jù)達(dá)到了最優(yōu)的指標(biāo)-0.079,為此可以初步推斷合成數(shù)據(jù)的隱私性能并非與生成數(shù)據(jù)的數(shù)據(jù)量大小直接相關(guān)。

      在此基礎(chǔ)上,本節(jié)對(duì)經(jīng)過數(shù)據(jù)嵌入的合成數(shù)據(jù)集和未經(jīng)數(shù)據(jù)嵌入的合成數(shù)據(jù)進(jìn)行了比較,鑒于100 萬(wàn)數(shù)據(jù)量的(數(shù)據(jù)嵌入)假數(shù)據(jù)得到了最優(yōu)結(jié)果,故原始獨(dú)熱編碼的合成數(shù)據(jù)(No Embedding)也生成100萬(wàn)的假數(shù)據(jù)。從表2中發(fā)現(xiàn),未經(jīng)數(shù)據(jù)嵌入的EHR訓(xùn)練集/測(cè)試集的最近鄰對(duì)抗精度相對(duì)較差,這表明該仿真數(shù)據(jù)所形成的隱私保護(hù)能力相對(duì)局限。

      對(duì)于CTGAN 而言,其表現(xiàn)并沒有優(yōu)于本文提出的方法。CTGAN 訓(xùn)練集與測(cè)試集的最近鄰對(duì)抗精度為0.912和0.831,隱私損失為0.081。一個(gè)可能的原因是對(duì)于分類數(shù)據(jù)而言,CTGAN 利用高維的獨(dú)熱編碼和歸一化的形式表示原始的一維數(shù)據(jù),這樣直接導(dǎo)致GAN 更難以學(xué)習(xí)到各維度之間的關(guān)系。而本文利用表示學(xué)習(xí)保留了醫(yī)療本體的層級(jí)結(jié)構(gòu),從而可以很好地保留關(guān)聯(lián)信息。

      如上文所描述的特例,即便對(duì)應(yīng)的隱私損失約等于0,但是仍無法說明該數(shù)據(jù)得到保障。為證實(shí)該結(jié)論,下面對(duì)生成數(shù)據(jù)與原始數(shù)據(jù)之間的擬合效果進(jìn)行可視化展示。

      圖5 對(duì)原始數(shù)據(jù)與仿真數(shù)據(jù)的部分特征實(shí)施了可視化對(duì)比分析。結(jié)果表明,大部分特征都實(shí)現(xiàn)了較好的擬合效果。

      圖6 比較了經(jīng)過數(shù)據(jù)嵌入處理的100 萬(wàn)生成數(shù)據(jù)(圖6(a))與未經(jīng)數(shù)據(jù)嵌入處理的100 萬(wàn)生成數(shù)據(jù)(圖6(b)),并展示了它們相較于原始數(shù)據(jù)分布的區(qū)別。鑒于糖尿病患者EHR中存在大量具有相關(guān)性的變量特征,假如逐個(gè)對(duì)其分析,則往往是孤立不全面的。故本節(jié)采用主成分分析的方法對(duì)屬性降維,以便更加直觀和全面地觀察原始數(shù)據(jù)與合成數(shù)據(jù)之間的差異。

      從圖6 可以看到,基于數(shù)據(jù)嵌入處理的仿真數(shù)據(jù)對(duì)原始數(shù)據(jù)有一個(gè)合理的擬合;利用獨(dú)熱編碼生成的仿真數(shù)據(jù)對(duì)原始數(shù)據(jù)的特征分布無任何擬合,對(duì)應(yīng)表2中第2、3 列。

      上述結(jié)果表明,原始數(shù)據(jù)集得到數(shù)據(jù)嵌入后的隱私性能要優(yōu)于傳統(tǒng)獨(dú)熱編碼的合成數(shù)據(jù)生成方案,無論是基于最近鄰對(duì)抗精度,還是就整體合成數(shù)據(jù)集的隱私損失而言,從而證明了本文數(shù)據(jù)脫敏方案的優(yōu)勢(shì)。其重要原因在于傳統(tǒng)采用獨(dú)熱編碼的分類特征創(chuàng)建了大量冗余0/1 屬性,給生成對(duì)抗網(wǎng)絡(luò)的擬合帶來障礙,故不利于仿真數(shù)據(jù)的合成。

      另外,值得注意的是,所有生成數(shù)據(jù)的隱私損失均接近于0,并且100 萬(wàn)最優(yōu)隱私損失的差異微小到可忽略不計(jì)。這在一定程度上證明了基于改進(jìn)的生成對(duì)抗網(wǎng)絡(luò)技術(shù)對(duì)原始數(shù)據(jù)集實(shí)現(xiàn)了可觀的隱私保護(hù)。本節(jié)引入其他相關(guān)指標(biāo)進(jìn)一步為仿真數(shù)據(jù)集的質(zhì)量提供參考。

      本節(jié)采用散度值和差異分?jǐn)?shù)輔助驗(yàn)證生成數(shù)據(jù)的質(zhì)量,如表3 所示。實(shí)驗(yàn)依舊對(duì)比了不同數(shù)據(jù)量的仿真數(shù)據(jù)和未經(jīng)數(shù)據(jù)嵌入處理的100萬(wàn)仿真數(shù)據(jù)的表現(xiàn),并基于真實(shí)數(shù)據(jù)的訓(xùn)練集/測(cè)試集與生成數(shù)據(jù)的訓(xùn)練集/測(cè)試集的散度值、差異分?jǐn)?shù)指標(biāo)評(píng)估它們的性能。同樣地,本節(jié)基于CTGAN 所生成最好的仿真數(shù)據(jù)散度值和差異分?jǐn)?shù)指標(biāo)進(jìn)行了橫向?qū)Ρ取?/p>

      表3 生成數(shù)據(jù)集的散度值與差異分?jǐn)?shù)

      就散度值而言,本節(jié)將原始訓(xùn)練集/測(cè)試集和生成數(shù)據(jù)的訓(xùn)練集/測(cè)試集進(jìn)行了比較,對(duì)應(yīng)值域分布為0.17~0.24。其中,100 萬(wàn)、10 萬(wàn)和5 萬(wàn)假數(shù)據(jù)集均有良好表現(xiàn),這說明所生成的假數(shù)據(jù)與真實(shí)數(shù)據(jù)集之間有較好的相似性。更重要的是,若單獨(dú)評(píng)估訓(xùn)練集與測(cè)試集,則發(fā)現(xiàn)絕大多數(shù)訓(xùn)練集中的散度值較偏離理想值0,而測(cè)試集中的數(shù)值較小,表明其擁有相對(duì)理想的表現(xiàn)。該結(jié)論與表2中的發(fā)現(xiàn)吻合,即訓(xùn)練集中數(shù)據(jù)量較大(48 993 例),而測(cè)試集中數(shù)據(jù)量較小(20 997 例),數(shù)據(jù)量增大時(shí)無疑給生成對(duì)抗網(wǎng)絡(luò)合成假數(shù)據(jù)增加了難度。

      就差異分?jǐn)?shù)而言,本節(jié)旨在通過該指標(biāo)定量地描述真實(shí)數(shù)據(jù)分布和合成數(shù)據(jù)分布的相似程度。首先計(jì)算原始EHR中訓(xùn)練集與測(cè)試集之間的差異分?jǐn)?shù),得到的結(jié)果為2.412,這也為后續(xù)的實(shí)驗(yàn)定下了基線。假設(shè)所生成的數(shù)據(jù)與原始數(shù)據(jù)的差異分?jǐn)?shù)過大且未趨近于0 時(shí),則顯示生成數(shù)據(jù)的質(zhì)量較差。

      宏觀來看,通過對(duì)比合成數(shù)據(jù)的訓(xùn)練集與測(cè)試集,其差異分?jǐn)?shù)均小于原始數(shù)據(jù)集中的數(shù)值;但通過對(duì)比兩者之間的差異分?jǐn)?shù),它們均表現(xiàn)出如上文中測(cè)試集明顯優(yōu)于訓(xùn)練集的結(jié)果。最后,實(shí)驗(yàn)驗(yàn)證了不同合成數(shù)據(jù)集之間的區(qū)別,差異分?jǐn)?shù)都已得到較好的結(jié)果,這也表明所生成的假數(shù)據(jù)內(nèi)部能夠保持良好的一致性。

      從表3中同樣得出與表2中原始數(shù)據(jù)集經(jīng)過數(shù)據(jù)嵌入后的性能要優(yōu)于傳統(tǒng)獨(dú)熱編碼的仿真數(shù)據(jù)生成方案的結(jié)論,即合成數(shù)據(jù)的訓(xùn)練集和測(cè)試集與原始數(shù)據(jù)集之間的散度值與差異分?jǐn)?shù)較大,對(duì)其性能有相應(yīng)的損耗。

      此外,鑒于所使用的EHR 是一份不平衡的數(shù)據(jù)集,CTGAN 沒有真正解決訓(xùn)練數(shù)據(jù)不平衡而造成生成數(shù)據(jù)真實(shí)性較低的問題[8]。最后,不同合成數(shù)據(jù)集之間的差異能夠維持基本的一致性。

      綜上所述,若單純從隱私角度評(píng)判,本節(jié)所生成數(shù)據(jù)集具有很好的保密性質(zhì)。相對(duì)于傳統(tǒng)無數(shù)據(jù)嵌入以及最新的結(jié)構(gòu)化假數(shù)據(jù)生成CTGAN 技術(shù)而言,本文提出的方法能夠?qū)⒆罱弻?duì)抗精度、隱私損失、散度值以及差異分?jǐn)?shù)控制在較小的范圍。值得注意的是,這不完全意味著生成的數(shù)據(jù)集是理想的,因?yàn)榧僭O(shè)該合成數(shù)據(jù)在可用性預(yù)測(cè)方面的表現(xiàn)異常拙劣,則仿真數(shù)據(jù)集在真實(shí)場(chǎng)景中也無任何實(shí)用價(jià)值可言。所以3.4節(jié)將采用可用性的評(píng)估方式基于EHR進(jìn)行再入院的預(yù)測(cè),以此與原始數(shù)據(jù)比較。

      3.4 可用性評(píng)估分析

      為了研究所生成的仿真數(shù)據(jù)用于再入院預(yù)測(cè)的可用性,本節(jié)首先基于大量的分類算法訓(xùn)練多個(gè)機(jī)器學(xué)習(xí)模型;同時(shí)為了盡可能公正地評(píng)估合成數(shù)據(jù)的效果,本節(jié)通過使用Scikit-Learn中所有的分類算法以實(shí)施驗(yàn)證。總體來說,Scikit-Learn中包含26 個(gè)可用于分類任務(wù)的算法。接下來,實(shí)驗(yàn)通過EHR 的訓(xùn)練集(48 993 例)訓(xùn)練26 種機(jī)器學(xué)習(xí)模型。最后,將測(cè)試集(20 997 例)用于評(píng)估訓(xùn)練模型的預(yù)測(cè)能力,為數(shù)據(jù)集的可用性提供參考標(biāo)準(zhǔn)。

      為了獲得更好的預(yù)測(cè)精度,本節(jié)采納網(wǎng)格搜索的遍歷方式尋找最佳性能的超參數(shù)組合,實(shí)現(xiàn)模型的泛化優(yōu)化。表4和表5 在分類任務(wù)的背景下計(jì)算了3 個(gè)評(píng)估指標(biāo),包括準(zhǔn)確率、F1 值和建模所需要的時(shí)間消耗。此外,本節(jié)多維度地評(píng)估合成數(shù)據(jù)的質(zhì)量,以對(duì)比生成不同數(shù)據(jù)量(100 萬(wàn)、75 萬(wàn)、50 萬(wàn)、25 萬(wàn)、10 萬(wàn)、5 萬(wàn)和2 萬(wàn))的仿真數(shù)據(jù)和原始數(shù)據(jù)之間的可用性表現(xiàn)差異??紤]到篇幅原因,表4僅展示了原始數(shù)據(jù)集與10 萬(wàn)合成數(shù)據(jù)集之間的再入院預(yù)測(cè)效果。

      在表4中,F(xiàn)1 值是最重要的分類評(píng)估指標(biāo),其數(shù)值越大,說明合成數(shù)據(jù)能夠提供更高的可用性。不同于以往的工作[3,8],本節(jié)提出采用可用性統(tǒng)計(jì)平均的思想來檢驗(yàn)所生成數(shù)據(jù)的有效性,這意味著評(píng)判方法不是單純依賴于一兩個(gè)算法表現(xiàn)的優(yōu)劣,而是基于所有可用的分類算法,對(duì)它們求得統(tǒng)計(jì)平均后綜合評(píng)估預(yù)測(cè)精度,以期得到公正性。

      從表4中可以觀察到,原始獨(dú)熱編碼測(cè)試集中統(tǒng)計(jì)平均F1 值為0.794,相較于未經(jīng)過任何調(diào)參優(yōu)化的模型和采樣算法有了明顯的提升。與此同時(shí),從單個(gè)算法來看,表4中的Perceptron和LogisticRegression算法的F1 值均達(dá)到0.8 以上。所以從這個(gè)角度總結(jié),本節(jié)所使用的網(wǎng)格搜索方法對(duì)模型性能的提升有較大的幫助。

      因此在表5中,本節(jié)基于不同數(shù)據(jù)量的生成數(shù)據(jù)與原始數(shù)據(jù)展開深入的分析比較。同時(shí)測(cè)試了CTGAN所生成的最好仿真數(shù)據(jù)量在EHR 進(jìn)行預(yù)測(cè)的效果。

      表5 原始數(shù)據(jù)集與合成數(shù)據(jù)集的再入院預(yù)測(cè)

      已知本文所提出的假數(shù)據(jù)生成方法在10 萬(wàn)數(shù)據(jù)集上實(shí)現(xiàn)了最優(yōu)的F1 值,即0.821。而原始獨(dú)熱編碼測(cè)試集中統(tǒng)計(jì)平均F1 值為0.794,其中展示了超過2%的提升。這也意味著,所生成的假數(shù)據(jù)可以在保護(hù)隱私的同時(shí),依然具有良好的可用性。同時(shí)對(duì)于CTGAN 而言,其分類預(yù)測(cè)準(zhǔn)確性比本文提出的方法的最優(yōu)值下降了15%。

      結(jié)合表4和表5,本節(jié)對(duì)生成數(shù)據(jù)的可用性驗(yàn)證進(jìn)行總結(jié),就合成數(shù)據(jù)集而言,在保證其隱私性的前提下(見3.3 節(jié)),需額外評(píng)估其可用性以便實(shí)現(xiàn)對(duì)該EHR 優(yōu)劣的綜合評(píng)判。

      本節(jié)實(shí)驗(yàn)驗(yàn)證了相對(duì)于傳統(tǒng)無數(shù)據(jù)嵌入以及最新的結(jié)構(gòu)化假數(shù)據(jù)生成CTGAN 技術(shù)而言,本文提出的方法在機(jī)器學(xué)習(xí)下游任務(wù)中,特別是醫(yī)療數(shù)據(jù)的建模,擁有著更好的表現(xiàn)。

      3.5 消融實(shí)驗(yàn)分析

      本節(jié)基于消融研究[28]實(shí)施并驗(yàn)證了本文提出的方法,進(jìn)而明確模型中每個(gè)組件的作用。表6 展示了消融實(shí)驗(yàn)組件的驗(yàn)證結(jié)果。

      從表6中可以觀察到,數(shù)據(jù)嵌入比獨(dú)熱編碼的方案更有效,WGAN 比Vanilla GAN 更適合生成仿真數(shù)據(jù)。

      表6 消融實(shí)驗(yàn)組件的驗(yàn)證結(jié)果

      4 結(jié)束語(yǔ)

      本文對(duì)基于生成對(duì)抗網(wǎng)絡(luò)的仿真數(shù)據(jù)生成技術(shù)進(jìn)行了研究,在此基礎(chǔ)上提出了相應(yīng)的衡量指標(biāo),驗(yàn)證了仿真數(shù)據(jù)集的隱私性,并比較了多個(gè)機(jī)器學(xué)習(xí)模型以此評(píng)估仿真數(shù)據(jù)集的可用性表現(xiàn)。

      本文發(fā)現(xiàn)雙曲空間的分類特征嵌入能夠以較少的維數(shù)表示大規(guī)模醫(yī)學(xué)實(shí)體之間的層次結(jié)構(gòu),避免了由于類別過多且稀疏而引起的空間爆炸問題,同時(shí)保留了屬性內(nèi)在的關(guān)聯(lián)關(guān)系,為醫(yī)療數(shù)據(jù)的多模態(tài)問題提供了一種解決思路。

      基于分類特征嵌入的生成對(duì)抗網(wǎng)絡(luò)技術(shù)通過創(chuàng)造合成數(shù)據(jù)集來提供隱私保護(hù)的替代方法,從而減少了直接發(fā)布原始數(shù)據(jù)的潛在風(fēng)險(xiǎn)。本文通過保持隱私性和實(shí)用性的平衡來證明所提方法的可靠性。最終,本文希望能夠通過此方式減少敏感信息泄露的可能,為數(shù)據(jù)分析師進(jìn)行隱私保護(hù)下的數(shù)據(jù)挖掘提供一種更有效的途徑。

      猜你喜歡
      可用性原始數(shù)據(jù)分類
      基于文獻(xiàn)計(jì)量學(xué)的界面設(shè)計(jì)可用性中外對(duì)比研究
      包裝工程(2023年24期)2023-12-27 09:18:26
      GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
      基于輻射傳輸模型的GOCI晨昏時(shí)段數(shù)據(jù)的可用性分析
      分類算一算
      受特定變化趨勢(shì)限制的傳感器數(shù)據(jù)處理方法研究
      分類討論求坐標(biāo)
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      全新Mentor DRS360 平臺(tái)借助集中式原始數(shù)據(jù)融合及直接實(shí)時(shí)傳感技術(shù)實(shí)現(xiàn)5 級(jí)自動(dòng)駕駛
      汽車零部件(2017年4期)2017-07-12 17:05:53
      空客A320模擬機(jī)FD1+2可用性的討論
      河南科技(2015年7期)2015-03-11 16:23:13
      瓦房店市| 石阡县| 南投县| 甘南县| 偏关县| 辽宁省| 磴口县| 广元市| 广州市| 筠连县| 盐池县| 正蓝旗| 任丘市| 锦屏县| 博兴县| 黄大仙区| 永修县| 辽阳市| 新和县| 盖州市| 宝应县| 天台县| 兴业县| 女性| 临桂县| 北川| 珠海市| 葫芦岛市| 奉化市| 广东省| 长子县| 南汇区| 监利县| 湖北省| 图们市| 利辛县| 扶沟县| 大名县| 通山县| 布拖县| 高安市|