• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于一維卷積神經網絡的糖尿病周圍神經病變預測模型研究

      2022-01-24 14:00:10侯偉趙耕劉玉良楊偉明郭麗
      中國醫(yī)學物理學雜志 2022年1期
      關鍵詞:卷積神經網絡樣本

      侯偉,趙耕,劉玉良,楊偉明,郭麗

      1.天津科技大學電子信息與自動化學院,天津 300222;2.天津醫(yī)科大學代謝病醫(yī)院檢驗科,天津 300070

      前言

      目前,糖尿病是全世界已知的并發(fā)癥最多的疾病,對人類健康造成了很大的影響。臨床研究顯示,30%以上的患者會在糖尿病確診以后的幾年內,引發(fā)糖尿病并發(fā)癥,而且可能出現不止一種并發(fā)癥[1],糖尿病并發(fā)癥患者的死亡率比只患有糖尿病患者的死亡率要高,所以更應該引起足夠的重視[2]。其中,糖尿病周圍神經病變(Diabetic Peripheral Neuropathy,DPN)作為糖尿病慢性并發(fā)癥中最常見一種,會導致患者出現一系列周圍神經功能障礙癥狀,而且下肢癥狀比上肢更常見[3]。60%~90%的糖尿病患者有不同程度的DPN 并發(fā)癥,其發(fā)病機制目前尚不明確,并且很難通過藥物根治,甚至會對身體造成不可逆轉的損傷[4],嚴重影響了患者的生活質量。對于DPN患者來說,除了對血糖控制和對癥處理以外,目前并沒有其他更好的治療手段[5],而預防是現階段最好的治療措施。因此,早期預防顯得尤為重要,越早開始治療,預后效果越好,治愈率也會相應地提高,建立疾病預測模型是預防DPN的一種有效措施。

      目前深度學習作為人工智能領域最熱門的一個方向,在圖像處理、語音識別等應用領域得到了很大的發(fā)展[6],在醫(yī)療領域的應用也越來越多。深度學習本質上是一個復雜的機器學習算法,是在神經網絡基礎上的延伸和拓展,它的優(yōu)勢在于可以自動提取特征,避免用傳統(tǒng)人工提取的方式來獲取特征信息[7]。深度學習具有很強大的特征學習能力,可以發(fā)掘出數據中更深層次的有用特征。與傳統(tǒng)機器學習算法相比,深度學習覆蓋范圍廣,能夠適應于不同的領域和應用[8]。隨著醫(yī)療信息化的發(fā)展,各大醫(yī)院在患者的治療過程中保留了豐富的電子病歷數據。不論是疾病類別還是數據的數量級都有了大幅提升,病歷數據的積累不僅可以提高輔助診療的準確率,而且可以作為醫(yī)學研究的資源來使用。病歷中的數據主要為自由文本,是一種高維、離散的數據,并且包含了患者大量的化驗指標以及診療記錄等信息[9]。

      DPN 屬于糖尿病并發(fā)癥疾病,與化驗指標有著很大的關系,由血液和尿液化驗指標就可以完成初步篩查,因此,可將深度學習方法應用到DPN 病歷數據處理當中,通過對病歷數據進行學習和分析來構建DPN預測模型。

      卷積神經網絡(Convolutional Neural Networks,CNN)作為典型的深度學習方法之一,是一種包含卷積計算且具有深度結構的前饋神經網絡[10],它的主要特點是具有良好的自學習能力、自適應性能以及容錯能力[11],可以自動地完成提取輸入數據的特征工作,將提取到的特征信息用于進一步的分類或者預測[12]。其中一維卷積神經網絡(1D-CNN)主要應用于序列類的數據處理,所以本研究采用1D-CNN自動識別病歷中的臨床變量和指標,通過學習和挖掘數據的指標信息以及內在規(guī)律,從而可以初步判定是否患有DPN 疾病。這樣可以輔助醫(yī)生診斷和治療,提前篩查患者的得病情況,進而提升了醫(yī)生的診療效率;而且患者可以對自己病情進行自我管理與及時監(jiān)測,從而降低DPN疾病的發(fā)病率、復發(fā)率。

      1 數據預處理

      1.1 數據描述

      本研究所使用的數據來源于天津醫(yī)科大學代謝病醫(yī)院。按照國際通用的做法,醫(yī)學檢驗數據去掉病案號、姓名、電話和住址等信息,經過脫敏處理之后,該數據總共包含898 個數據樣本,每個樣本包括51 個指標變量,記錄了就診患者的體征和臨床指標。這些數據樣本中包含了DPN 患者和非DPN 患者,并且每條數據中包含了與DPN 相關的指標:性別、年齡、空腹靜脈血糖、糖化血紅蛋白、白細胞、葡萄糖、膽紅素等。DPN 原始數據集存在格式混亂、異常值、缺失值、特征冗余、特征緯度高等問題,因此需要對其進行預處理來提高數據的質量,進而改善模型的預測效果。

      1.2 數據清洗

      原始數據格式混亂,需要將數據整合為1 行1 條患者信息的形式,每1條數據包括各項指標與診斷結果,之后的數據處理都是以此表為基礎進行的。數據清洗是數據預處理中的重要步驟,主要包括剔除異常值和缺失值處理等內容。對于某些不符合要求或有明顯錯誤的數據,比如尿液顏色出現了數字、化驗指標不符合常理等問題,可將這些錯誤的指標當作缺失值來處理,利用現有的指標對數據進行缺失值填補;但是對于個別的特征指標,如果出現它與平均值的偏差超過兩倍標準差的異常情況,則直接剔除該異常指標,同時使用缺失值處理方法來處理。

      此外,由于DPN 屬于糖尿病并發(fā)癥,而并發(fā)癥多發(fā)生在年齡較大的人群中,所以本研究將刪除年齡在20 歲以下的病歷數據。在原始數據中本來還存在著一些空缺值,對于指標缺失嚴重的數據,直接將其刪除,本研究刪除了樣本中5條數據,占比非常小,因此并不會影響整體的數據量。對于有些缺失率低的數據,同樣選擇缺失值填補。本研究需要填充的特征缺失值有總膽紅素3 個、白細胞1 個、糖化血紅蛋白2 個,都采用K-means 的方法進行填補,它是利用歐式距離或相關分析來確定離缺失值最近的K個數據,再把這K個值通過加權平均來估算該數據的缺失樣本。該方法根據缺失值以外的特征信息來對缺失值進行相似性的填補,有效地提高了數據的利用率。

      1.3 數值化處理

      對于非數值型的指標,需要進行數值化處理,主要目的是為了方便預測模型的構建。將非數值型的指標變量轉化為0~3 等級劃分變量。DPN 作為糖尿病并發(fā)癥的一種,患病率與年齡有很大的關系,年齡越大患病率越高,所以年齡也按照年齡段進行等級劃分。對于其他數值型化驗指標不做轉換處理。具體指標賦值情況如表1所示。其中“+”、“-”分別代表陽性和陰性;“1+”、“2+”、“3+”代表某一項指標的嚴重程度,數字越大代表指標的嚴重程度越高,DPN診斷結果作為預測模型的因變量指標,其中1 代表DPN 患者,0 代表非DPN 患者。經過數值化處理,數據類型得到了很好的統(tǒng)一。

      表1 指標賦值表Table 1 Index assignment

      1.4 數據標準化

      為了消除特征之間的量綱影響,將其轉換為無量綱的純數值,便于不同單位或量級的特征進行比較或加權,需要進行標準化處理。數據的標準化(normalization)是將數據按一定的比例壓縮,使之縮小到一個小的特定區(qū)間里。最常用的標準化方法為z-score標準化,其函數公式為:

      其中,μ為某一特征的總體平均值,σ為某一特征的總體標準差,x為某一特征的值。數據經過z-score 標準化處理以后,有效地把數據變換為統(tǒng)一的標準,使得不同特征之間具有了一定的可比性。

      1.5 特征相關性分析

      由于原始數據的指標較多,部分指標彼此之間可能存在一定的冗余度,這樣會對模型預測精度造成一定的干擾和影響。在數據預處理之后,通過熱力圖對各個臨床指標進行相關性分析,從而衡量指標之間的關聯程度。熱力圖是一種非常流行的數據展示方法,展示各個變量的分布情況,通常用數據處理庫函數Seaborn繪制,它是基于Matplotlib的Python可視化庫,可以提供一種高度交互式界面。熱力圖如圖1所示,圖中的每個方塊里的顏色深淺代表橫縱坐標上的指標相關程度,顏色越淺代表相關性越大,可以很直觀地反映出特征之間的相關情況。熱力圖右側的刻度展示了不同相關系數對應的顏色深淺,橫縱坐標0~50 代表指標變量,51 代表診斷結果。由圖中可以看到,靠近對角線和右下角出現了很多淺色的方塊,說明部分指標之間相關性較高,即存在很強的多重共線性,說明特征之間存在一定的冗余度,為此需進行下一步降維處理。

      圖1 熱力圖Figure 1 Thermodynamic diagram

      1.6 主成分分析(Principal Component Analysis,PCA)

      PCA 是實際應用中最常用的數據降維方法。PCA 的主要思想是通過某種線性投影的方式,將高維的數據映射到低維的空間中表示,即用更少的k維特征代替原先的n維特征,這k維被稱為主成分,并且在所投影的維度上特征的方差是最大的[13]。PCA 原理如圖2所示。

      圖2 PCA原理Figure 2 Principle of principal component analysis

      具體來說,用scikit-learn 工具里的sklearn.decomposition 包來實現PCA 降維,通過參數n_components 指定PCA 降維后的特征維度數目或者所占比例,在這里指定參數n_components=0.98,即占總方差值98%的維度數量,最終降維后的維度數為34,也就是有34個投影特征被保留。

      2 預測模型的建立

      預處理后的數據不僅可以提高數據的質量,而且可以降低模型訓練所需要的時間,提高預測模型的精度。經過一系列的數據處理工作,最終確定892個樣本用于研究,并且經PCA降維操作后,得到34個指標,將其作為預測模型的輸入變量。然后采用支持向量機(Support Vector Machine,SVM)、BP 神經網絡、1D-CNN 3種算法分別建立預測模型。

      2.1 SVM

      SVM是目前最好的監(jiān)督學習算法之一,基本模型是在特征空間上找到最佳的分離超平面使得訓練集上正負樣本間隔最大。SVM算法常用來解決二分類問題,并且在對非線性、小樣本、高維數的問題解決上有較大的優(yōu)勢,被廣泛應用于處理分類和預測問題[14]。

      核函數將數據映射到高維特征空間,從而在高維空間中尋找最佳的超平面,然后再對其分類。核函數選用高斯函數,在經過數據預處理以后,采用交叉驗證的網格搜索算法,搜索SVM 兩個最優(yōu)參數:懲罰系數C和核函數參數gamma。最終通過網格搜索得到最優(yōu)參數C為5,gamma為0.02。參數調優(yōu)之后,使用測試集驗證模型的預測性能。

      2.2 BP神經網絡

      BP神經網絡是一種按誤差反向傳播訓練的多層前饋神經網絡,是人工神經網絡基礎上進行的延伸和擴展。它的學習過程分為前向傳播和反向傳播兩個階段。前向傳播時,樣本從輸入層傳入,經過若干隱藏層,最后從輸出層傳出,然后實際輸出值與期望值進行對比,若在輸出層得不到預期的結果,則進入反向傳播階段,根據實際值與預測值之間的誤差來更新神經網絡中權重和偏置[15]。

      網絡輸入層的維度為降維后的特征數量,即34個。輸入層的輸出維度設為64,最后一層為預測結果,輸出層節(jié)點數為1。隱藏層的節(jié)點按照經驗選取,經過反復的嘗試,隱藏層選為4層,節(jié)點數依次為48、48、48、64。隱藏層的激活函數采用relu函數,因為它可以避免梯度消失的問題,加快收斂速度和計算速度,為了避免過擬合的出現,加入Dropout層。模型采用梯度下降法調整網絡權值,進而更新網絡參數。

      2.3 1D-CNN

      1D-CNN 中的輸入是一維向量,因此其卷積核也相應的采用一維結構,每個卷積層和池化層的輸出同樣也是一維特征向量,因此被廣泛使用在序列數據的特征識別以及提取上[16]。1D-CNN 是一種端到端的模型結構,魯棒性極高,若輸入為電子病歷數據,通過對病人的醫(yī)療數據進行學習和分析,從而給出可靠診斷與預測。跟二維類似,它同樣具有局部連接和權值共享的特性。其中,局部連接利用空間拓撲結構建立相鄰層之間的非全連接空間關系減少了模型需要訓練的參數個數[17];權值共享用于避免算法過擬合。在結構上,它由卷積層、激活層、池化層和全連接層構成。

      卷積層的作用是對輸入數據進行特征的提取,通過一個卷積核依次滑動對目標輸入進行局部的卷積操作,卷積核就是一個局部感受野所學習到的權重矩陣[18]。該層主要的特點就是采用了權值共享和局部連接方式,一維卷積的運算如式(2)所示:

      其中,*表示卷積運算,yi為第i個輸出特征圖,xi為第i個輸入特征圖,kij為本層卷積計算所用到的卷積核,bj為第j個特征圖的偏置。在CNN 中,非線性激活函數一般會選擇relu 函數,relu 函數的特點主要是能夠使一些神經元的輸出為0,提高了網絡結構的稀疏性,并且降低了參數的相互依存關系,抑制了過擬合問題的出現。

      池化層通常又稱為下采樣層,其主要作用是在保持特征不變性的前提下去掉一些冗余信息把重要的特征抽取出來[19],在一定程度上可以防止過擬合。池化方法主要分為兩種:最大值池化法、平均值池化法,它們分別用公式(3)、公式(4)表示:

      其中,p為池化得到的特征矩陣,l為特征圖的寬度,a為卷積層激活后的特征矩陣。最大值池化和平均值池化分別計算相鄰矩形區(qū)域內的最大值和平均值,而通過最大值池化可以得到與位置無關的信息[20]。

      全連接層主要用來完成最后的預測工作。該層每個輸出神經元都和上一層神經元相連接,對輸入特征進行組合運算,然后使用激活函數輸出預測結果。對于預測問題,輸出層給出的是預測類別的概率值。一般用0.5作為閾值,輸出概率值≤0.5時,為未患DPN,輸出概率值>0.5 時,為患有DPN。因此用sigmoid函數作為輸出層的激活函數。

      本文構造了11層的1D-CNN,如圖3所示,包括1個輸入層、6 個一維卷積層、3 個池化層、1 個Dropout層和1個全連接層。該網絡模型采用梯度下降法,實現損失函數的最小化,然后對網絡結構中的權重參數進行逐層逆向調整,模型采用卷積層和池化層交替設置的方式完成自適應特征學習,這樣反復交替會學到更抽象的特征。

      圖3 一維卷積神經網絡模型結構Figure 3 Structure of one-dimensional convolution neural network model

      輸入數據的矩陣大小為34×1,第一個卷積層:卷積核長度為3,深度為1,共有64 個卷積核,步長為1,卷完后數據由34×1 變?yōu)?2×64;第二個卷積層參數和第一個卷積層一樣,經兩層卷積之后得到的矩陣大小為30×64;接著進入池化層,池化層的窗口大小設為2,這意味著該層的輸出矩陣大小僅為輸入矩陣的二分之一,所以池化完矩陣大小為15×64;接著再經過3 層卷積層和最大池化層得到的矩陣大小為4×128;再通過1次卷積和平均池化操作,進一步提取更抽象的特征,這樣會把多維向量平鋪成一維向量,輸出矩陣的大小為1×256;下一步加入Dropout層,比率設置為0.7,即隨機將Dropout 層70%的神經元權重賦了零值,這樣可以減弱神經元節(jié)點間的聯合適應性[21],并且增強了泛化能力。該層的輸出仍然是1×256 的神經元矩陣。最后輸入到全連接層并且用sigmoid激活后,獲得對輸入數據的DPN預測值。

      3 實驗結果與分析

      本次實驗將樣本數據隨意打亂后,抽取80%的樣本數據作為訓練集用于訓練預測模型,剩余20%的數據作為測試集。訓練模型時,BP 神經網絡和1D-CNN 都以交叉熵作為損失函數,使用Adam 優(yōu)化器,將學習率設為0.000 2,迭代次數為200次,模型訓練完畢后,將測試集樣本輸入網絡進行預測。本研究選用準確率、召回率、F1 值和AUC 值來對模型進行評估,模型評估在相同的實驗環(huán)境下進行,分別將構建的3 種DPN 預測模型在測試集上進行驗證。它們的受試者工作特征(Receiver Operating characteristic Curve,ROC)曲線如圖4所示。

      圖4 3種ROC曲線Figure 4 Receiver operating characteristic curve of different models

      圖4中的橫坐標是假陽率,表示在陰性樣本中,被識別為陽性的概率,縱坐標為真陽率,表示在陽性樣本中,被識別為陽性的概率。ROC曲線越接近左上角,則模型性能越好。AUC值表示ROC曲線下面積,它越接近于1,說明預測效果越好。從圖中可以看到,1D-CNN的AUC值為0.98,高于其他模型。最后計算并整理每個模型的指標值,預測結果如表2所示。

      從表2可以看到,3 種DPN 預測模型的測試集上預測準確率都在96%以上,但是1D-CNN 模型的預測準確率最高,達到了98.3%。從召回率的角度來看,BP 模型和1D-CNN 模型非常接近,但是高于SVM。F1 值是精確率和召回率的綜合指標,顯然1D-CNN模型高于其他兩個模型;綜合對比發(fā)現,1DCNN 模型預測效果最佳,有較好的學習能力和泛化能力,說明該模型在處理本文所采用的病歷文本數據具有更好的適應性,該模型在DPN 疾病預測方面具有很高的應用價值。

      表2 預測結果比較Table 2 Comparison of prediction results

      4 結語

      本文通過1D-CNN 建立的DPN 預測模型,表現出較好的預測性能,具有一定的現實應用價值。它不僅可以幫助醫(yī)生進行診斷決策,對DPN 的早期篩查起到很好的輔助作用,而且患者也可以對自己病情進行實時監(jiān)測與預防。因此本研究為DPN 患者發(fā)病預測提供了一種新方法。但本論文也有一定局限性,仍需進一步完善。由于條件限制,所用到的數據集樣本數量相對較少,數據類型比較單一,因此在以后的研究中,將融入更大、更全面的醫(yī)療樣本集,比如醫(yī)囑信息、住院記錄以及影像數據等,以進一步完善預測模型。

      猜你喜歡
      卷積神經網絡樣本
      基于3D-Winograd的快速卷積算法設計及FPGA實現
      用樣本估計總體復習點撥
      神經網絡抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      推動醫(yī)改的“直銷樣本”
      基于傅里葉域卷積表示的目標跟蹤算法
      隨機微分方程的樣本Lyapunov二次型估計
      基于神經網絡的拉矯機控制模型建立
      重型機械(2016年1期)2016-03-01 03:42:04
      村企共贏的樣本
      復數神經網絡在基于WiFi的室內LBS應用
      游戏| 康乐县| 隆子县| 丰镇市| 青川县| 宜阳县| 息烽县| 汶川县| 红安县| 广昌县| 东莞市| 成武县| 万载县| 盐边县| 隆子县| 竹山县| 囊谦县| 宁武县| 即墨市| 嘉鱼县| 离岛区| 托里县| 武强县| 枣庄市| 亳州市| 崇明县| 垣曲县| 濮阳县| 黄冈市| 离岛区| 罗田县| 天津市| 卓资县| 罗源县| 鄂伦春自治旗| 福建省| 沿河| 万源市| 蓬莱市| 化隆| 灵川县|