摘" 要: 為了能夠?qū)A侩娮釉\療信息中的異常數(shù)據(jù)進行識別,提出一種融合語義感知與模型生成的異常醫(yī)療數(shù)據(jù)識別算法。通過融入膠囊神經(jīng)網(wǎng)絡(luò)并改進Transformer網(wǎng)絡(luò),實現(xiàn)了對醫(yī)療電子病歷結(jié)構(gòu)和生成語義特征的感知提?。唤Y(jié)合膠囊神經(jīng)網(wǎng)絡(luò)和Transformer網(wǎng)絡(luò)的損失函數(shù),加速了模型的收斂,從而提高了模型的異常數(shù)據(jù)識別準確率。在電子病歷數(shù)據(jù)集上進行的實驗結(jié)果表明,所提模型的準確率可達94.2%,高于多種現(xiàn)有的主流異常數(shù)據(jù)識別診斷模型。證明該模型算法能夠?qū)︶t(yī)療電子病歷實現(xiàn)語義感知和異常數(shù)據(jù)識別,為實現(xiàn)智能化的輔助診療提供了技術(shù)基礎(chǔ)。
關(guān)鍵詞: 電子病歷; 異常數(shù)據(jù)識別; 語義感知; 模型生成; 膠囊神經(jīng)網(wǎng)絡(luò); Transformer網(wǎng)絡(luò); 語義特征提取
中圖分類號: TN911.72?34; TP183; TP391.1" " " " " 文獻標識碼: A" " " " " " " "文章編號: 1004?373X(2025)04?0159?05
Design of abnormal medical data recognition algorithm based on semantic
perception and model generation
GAO Yu, HAN Zhiyong
(Jinzhou Medical University, Jinzhou 121000, China)
Abstract: In order to identify abnormal data in massive electronic diagnosis and treatment information, an abnormal medical data recognition algorithm that integrates semantic perception and model generation is proposed. By integrating capsule neural network and improving Transformer network, perceptual extraction of the structure and semantic features of medical electronic medical record is realized. The loss functions of the capsule neural network and Transformer network are combined to accelerate the convergence speed, so as to improve the accuracy of abnormal data identification. The experimental results conducted on the electronic medical record dataset show that the accuracy of the proposed model can reach 94.2%, which is higher than various existing mainstream abnormal data recognition and diagnosis models. It proves that this model algorithm can realize semantic perception and abnormal data recognition for medical electronic medical records, providing the technical foundation for intelligent auxiliary diagnosis and treatment.
Keywords: electronic medical record; anomaly data recognition; semantic perception; model generation; capsule neural networks; Transformer network; semantic feature extraction
0" 引" 言
隨著智慧醫(yī)院理念的提出,醫(yī)療機構(gòu)對于信息化建設(shè)的要求越來越高,并通過逐步使用信息化系統(tǒng)代替了多種類型的人工作業(yè)[1]。醫(yī)療信息化的深入發(fā)展使相關(guān)的電子數(shù)據(jù)量呈現(xiàn)出了爆炸式的增長,電子病歷中包含了大量的患者個人信息,包括患病情況、診療記錄和用藥方案等。深入挖掘和分析這些數(shù)據(jù)中所蘊含的豐富知識和規(guī)律,能夠有效促進醫(yī)學的進步與發(fā)展。然而,由于病歷數(shù)據(jù)中的文本和結(jié)構(gòu)較為復雜,且包含了大量的專業(yè)詞匯,因此數(shù)據(jù)處理的難度較高[2?3]。而如何對異常數(shù)據(jù)進行準確識別分析,也是當前醫(yī)療信息化領(lǐng)域所面臨的主要問題之一。傳統(tǒng)的數(shù)據(jù)處理方法通常難以應(yīng)對大規(guī)模、高維度的醫(yī)療數(shù)據(jù),且缺乏智能化的識別能力。這些方法費時、費力且缺乏專業(yè)性,對電子病歷的異常數(shù)據(jù)識別效果較差,因此設(shè)計一種能夠高效、準確地識別異常醫(yī)療數(shù)據(jù)的算法具有重要的理論意義和應(yīng)用價值[4?5]。
隨著深度學習技術(shù)的快速發(fā)展,已有眾多學者利用神經(jīng)網(wǎng)絡(luò)等技術(shù)大幅提升了對異常數(shù)據(jù)的識別準確度[6]。文獻[7]提出一種基于深度學習的異常檢測方法,實現(xiàn)了大規(guī)模數(shù)據(jù)中異常點的識別,并能夠獲取到異常點背后所蘊含的有價值信息。文獻[8]基于數(shù)據(jù)融合長短期記憶(Data Fusion?Long Short?Term Memory, DF?LSTM)網(wǎng)絡(luò)構(gòu)建了一種大型醫(yī)療設(shè)備異常檢測模型,用于識別醫(yī)療設(shè)備的異常情況,且具有較高的準確率。文獻[9]在傳統(tǒng)K?means算法基礎(chǔ)上融入了密度峰值法(Density Peaks Clustering, DPC)和主成分分析降維算法(Principal Component Analysis, PCA),實現(xiàn)了對醫(yī)療異常數(shù)據(jù)的準確識別,準確率達到了79.2%。在上述研究背景下,本文以智慧醫(yī)院為應(yīng)用目的,提出了一種融合語義感知與模型生成的異常醫(yī)療數(shù)據(jù)識別算法。
1" 基礎(chǔ)理論設(shè)計
為了能夠?qū)﹄娮硬v的語義進行感知和異常數(shù)據(jù)識別,本文以Transformer作為模型的主要網(wǎng)絡(luò)結(jié)構(gòu)展開設(shè)計。Transformer最早于2017年由谷歌團隊Vaswani等學者提出,由于其出色的性能表現(xiàn),被廣泛應(yīng)用于自然語言處理中[10?11]。
Transformer網(wǎng)絡(luò)主要包括編碼網(wǎng)絡(luò)、解碼網(wǎng)絡(luò)、位置編碼三個部分,并且每個編、解碼網(wǎng)絡(luò)均由N個多頭注意力機制、層歸一化以及前饋神經(jīng)網(wǎng)絡(luò)組成,具體結(jié)構(gòu)如圖1所示。Transformer網(wǎng)絡(luò)中最核心的是注意力機制,其可以捕捉長序列之間的關(guān)系,實現(xiàn)上下語義之間的關(guān)聯(lián)。
在注意力機制模塊中,對于輸入序列[X=x1,x2,…,xn,X∈Rn×d]而言,n和d為序列的長度和維度,其通過注意力層轉(zhuǎn)換后即可得到鍵矩陣K、查詢矩陣Q和值矩陣V,且鍵矩陣和值矩陣是一一對應(yīng)的。
首先需通過K和Q計算相關(guān)性,接著對V進行加權(quán)求和,以此得到注意力輸出,具體計算過程為:
[AttQ,K,V=SoftmaxQ?KTdQ·V] (1)
式中:[K∈Rn×dK],[Q∈Rn×dQ],[V∈Rn×dV];[Q?KT]表示序列中不同實體之間的相關(guān)性值;[1dQ]為一個縮放因子,其作用是保持優(yōu)化模型時梯度的穩(wěn)定性。在編碼網(wǎng)絡(luò)中,K、Q、V矩陣由輸入X經(jīng)過全連接層計算獲得;在解碼網(wǎng)絡(luò)中,Q通過解碼器的輸入線性變換而來,K和V則是根據(jù)編碼器的輸出計算得到。
為了能夠進一步使注意力機制得到更為豐富的語義特征,從而提高模型性能,Transformer引入了多頭注意力機制。將輸入序列X線性變換分成h組[Ki,Qi,Vi],并分別計算其自注意力,其中i∈(0,1,2,[…,]h-1)。接著利用權(quán)重矩陣[W∈RhdV×d]投影h個組的輸出,計算公式為:
[MultiHeadAttX=Att0X,Att1X,…,Atth-1XW] (2)
[AttiX=SoftmaxQi?KTidQi·Vi]" "(3)
前饋神經(jīng)網(wǎng)絡(luò)包含激活函數(shù)ReLU的兩層神經(jīng)網(wǎng)絡(luò),其作用是非線性激活,計算公式為:
[FFNx=max0,xW1+b1W2+b2] (4)
式中:[W1]、[W2]、[b1]、[b2]為學習參數(shù)。
從多頭注意力的計算方式可以看出,當輸入序列的位置發(fā)生變化時,并不會影響輸出結(jié)果。為打破這種不變性,文中引入位置編碼來對序列信息的位置進行處理,計算公式為:
[PEpos,2i=sinpos10 0002i/dmodel]" "(5)
[PEpos,2i+1=cospos10 0002i/dmodel] (6)
式中:PE表示位置編碼;i表示維度;pos表示輸入序列的位置。從式中可以看出,奇偶位置所采用的編碼方式不同,而且此類編碼可以將位置歸一化到固定的區(qū)間。
2" 異常醫(yī)療數(shù)據(jù)識別模型
2.1" 整體架構(gòu)
為了能夠準確識別出電子病歷中的異常數(shù)據(jù),輔助臨床醫(yī)生進行診療,幫助監(jiān)管者更好地發(fā)現(xiàn)電子病歷中存在的問題,本文基于語義感知與模型生成技術(shù),提出了一種異常醫(yī)療數(shù)據(jù)的識別算法模型。該模型主要以Transformer網(wǎng)絡(luò)為主,同時融入膠囊神經(jīng)網(wǎng)絡(luò)進一步提升算法模型的識別準確性,整體結(jié)構(gòu)如圖2所示。
首先對電子病歷數(shù)據(jù)進行預處理,并將結(jié)果送入膠囊神經(jīng)網(wǎng)絡(luò)提取表層和結(jié)構(gòu)語義特征中;然后利用改進的Transformer網(wǎng)絡(luò)實現(xiàn)對電子病歷深層次語義特征的提取;最后將兩者的特征進行融合,完成對電子病歷語義感知和異常數(shù)據(jù)的識別。本文所提模型融合了膠囊神經(jīng)網(wǎng)絡(luò),對電子病歷上下結(jié)構(gòu)和表層語義特征進行提取,并考慮了電子病歷內(nèi)在的結(jié)構(gòu)邏輯,實現(xiàn)了對語義的感知。該模型對Transformer網(wǎng)絡(luò)進行改進,使用雙向Transformer網(wǎng)絡(luò),并使用注意力機制和位置編碼模塊,從而大幅提升了對長距離語義依存信息的學習能力。同時,模型還結(jié)合了膠囊神經(jīng)網(wǎng)絡(luò)和改進Transformer網(wǎng)絡(luò)的損失,不但能夠加速收斂,而且提高了識別的準確性。
2.2" 膠囊神經(jīng)網(wǎng)絡(luò)
由于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)在神經(jīng)元傳遞過程中表現(xiàn)為標量,并不存在方向,所以無法表示高層次特征和低層次特征空間的關(guān)系,而且CNN中的池化層易丟失有價值的信息。因此,本文選用膠囊神經(jīng)網(wǎng)絡(luò)來提取上下結(jié)構(gòu)和淺層特征。
膠囊神經(jīng)網(wǎng)絡(luò)(Capsule Neural Networks, CapsNets)將神經(jīng)網(wǎng)絡(luò)中的個體神經(jīng)元替換成了一組由神經(jīng)元組成的向量,并將其包裹在一起,組成一個膠囊[12?13]。普通神經(jīng)元與向量神經(jīng)元的結(jié)構(gòu)對比,如圖3所示。CapsNets的每層網(wǎng)絡(luò)都包含有多個膠囊單元,其中最重要的是動態(tài)路由機制,其可以確保在信息選擇時,能夠?qū)r序子膠囊獲得的特征傳遞給與預測最一致的時序父膠囊。
假設(shè)上一層膠囊為父膠囊,下一層膠囊為子膠囊,父膠囊層第i個神經(jīng)元為[ui],其權(quán)重矩陣為[Wij],除第一層外,其余層膠囊的總輸入為[sj],最后通過非線性激活函數(shù)(Squash)計算得到輸出結(jié)果[vj]。
[sj=icijujii=1nXi]" " " (7)
[uji=Wijuii=1nXi]" " " (8)
[vj=sj21+sj2·sjsj]" " " (9)
式中:[cij]表示迭代路由的耦合系數(shù); [uji]表示預測向量;[uji]表示實際向量。
通過調(diào)整耦合系數(shù)的大小決定路由最終抵達的時序父膠囊,具體過程如式(10)所示。
[cij=ebijkebik]" " " " " (10)
所有膠囊之間的耦合系數(shù)之和為1,通過Softmax函數(shù)可以計算路由耦合系數(shù),計算公式為:
[bij=b′ij+vjuji]" " "(11)
式中[bij]表示膠囊i到j(luò)的對數(shù)先驗概率。每次當動態(tài)路由在前向傳播時,先將[b′ij]初始化為0,然后利用式(11)對其進行重新計算,同時使得路由耦合系數(shù)也發(fā)生更新,接著通過前向傳播進一步更新[sj]來獲得[vj],以此不斷迭代循環(huán),最終得到最佳的一組耦合系數(shù)。
2.3" 改進Transformer網(wǎng)絡(luò)
CapsNets對結(jié)構(gòu)和淺層語義特征進行提取后,使用改進Transformer網(wǎng)絡(luò),即BERT網(wǎng)絡(luò)來實現(xiàn)對電子病歷專業(yè)詞匯和深層語義特征的提取。BERT網(wǎng)絡(luò)[14?15]是在原始Transformer網(wǎng)絡(luò)的基礎(chǔ)上加入一個雙向Transformer網(wǎng)絡(luò),并使用注意力機制和位置編碼模塊來提高對長距離語義依存信息的學習能力,增強局部和全局特征的提取能力。
BERT網(wǎng)絡(luò)能夠有效解決一詞多義的問題,并通過數(shù)據(jù)集訓練來克服數(shù)據(jù)規(guī)模導致的欠擬合問題,從而提高整個模型的泛化能力。此外,該網(wǎng)絡(luò)還能夠捕捉到不同維度數(shù)據(jù)的語義特征,低層用于提取實體的語義信息,中層可以提取句法特征,而高層則提取深層次的語義特征。
2.4" 損失函數(shù)
本文提出模型的損失主要由CapsNets和改進Transformer網(wǎng)絡(luò)損失兩個部分構(gòu)成,而CapsNets損失又可分為間隔損失和重構(gòu)。間隔損失的計算公式為:
[Lk=Tkmax0,m+-vk2+λ1-Tkmax0,vk-m-2] (12)
式中:[Tk]表示類別是否存在,當其值為1表示存在,為0則表示不存在;[m+]和[m-]分別表示懲罰假陽性的上下限;[λ]為調(diào)節(jié)系數(shù)。
重構(gòu)損失的計算公式為:
[Lrec=λMSELossDt-Dr]" (13)
式中:[Dt]表示原始數(shù)據(jù);[Dr]表示重構(gòu)數(shù)據(jù)。CapsNets損失可表示為:
[LLoss=Lk+Lrec]" " " " (14)
改進Transformer網(wǎng)絡(luò)損失使用均方誤差損失函數(shù),表達如下:
[LBERT=1ki=1kyi-yi2]" " (15)
式中:k表示樣本數(shù);y表示真實值;[yi]表示預測值。
3" 實驗和分析
3.1" 數(shù)據(jù)集
本文數(shù)據(jù)集由3家醫(yī)療機構(gòu)的電子病歷構(gòu)成,這些病歷詳細記錄了患者門急診、住院的診療情況,包含了結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化文本描述。為了能夠均衡抽取電子病歷樣本數(shù)據(jù),選取2021—2023年的電子病歷用于實驗,每年隨機抽取5 000份病例,并按照70%和30%的比例隨機劃分為訓練集與測試集。
3.2" 實驗環(huán)境
實驗環(huán)境配置為:操作系統(tǒng)Windows 10,處理器i5?10400F,內(nèi)存64 GB,顯卡GTX1080Ti。采用的編程語言為Python,算法模型基于PyTorch 1.0實現(xiàn)。
算法模型分為CapsNets和改進Transformer網(wǎng)絡(luò)兩個部分進行參數(shù)設(shè)置。在CapsNets中,特征提取層由3層1D?CNN組成,其內(nèi)核大小為3,步長為1;子膠囊層的膠囊為4維,個數(shù)為16,父膠囊則由8維膠囊組成,個數(shù)為32。在改進Transformer網(wǎng)絡(luò)中,隨機初始化原始參數(shù),優(yōu)化函數(shù)為Nadam,學習率設(shè)置為0.01,整個算法模型的Batch size為50,訓練次數(shù)為200。
3.3" 結(jié)果與分析
為了驗證模型能夠準確地感知電子病歷的語義,并從海量結(jié)構(gòu)和非結(jié)構(gòu)數(shù)據(jù)中發(fā)現(xiàn)異常數(shù)據(jù),本文使用準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1分數(shù)這4個指標來評估模型的識別能力。準確率表示預測正確的電子病歷數(shù)占總電子病歷數(shù)的比例;精確率表示預測正確的正例電子病歷占判斷為正例電子病歷的比例;召回率表示判斷正確的正例電子病歷占實際為正例電子病歷的比例;F1分數(shù)為調(diào)和平均數(shù)。以上指標計算公式如下:
[Accuracy=TP+TNTP+TN+FP+FN]" " (16)
[Precision=TPTP+FP]" " " " (17)
[Recall=TPTP+FN]" " " " " (18)
[F1=2TP2TP+FP+FN]" " " " (19)
圖4給出了整個算法模型的ROC曲線圖,實線表示測試集,虛線表示訓練集。從圖中可以看出,在迭代70次后,模型結(jié)果趨于穩(wěn)定,達到了最佳的預測準確率0.942。
為進一步證明本文算法模型各部分對整個模型識別異常數(shù)據(jù)準確率均有提升的作用,又進行了消融實驗,結(jié)果如表1所示。
從表1中可以看出:僅使用Transformer網(wǎng)絡(luò)模型的準確率為80.1%;單一改進Transformer網(wǎng)絡(luò)模型的準確率為84.7%;而隨著膠囊神經(jīng)網(wǎng)絡(luò)的加入,識別準確率逐步提升并達到最高94.2%。
為進一步驗證所提算法模型的識別效果,文中還將其與目前的主流異常分類模型進行了對比,結(jié)果如表2所示。由表中結(jié)果可以看出,本文模型的準確率比CNN高出18.4%,比LSTM網(wǎng)絡(luò)模型高出12.3%,比Transformer網(wǎng)絡(luò)模型高出14.1%,且其他3個指標也均為最高。
4" 結(jié)" 語
醫(yī)療信息化的快速發(fā)展使得相關(guān)機構(gòu)的醫(yī)療電子數(shù)據(jù)出現(xiàn)了海量增長,如電子病歷,其是臨床醫(yī)生診療記錄和診斷的重要依據(jù)。為實現(xiàn)對電子病歷異常數(shù)據(jù)的準確識別,本文提出了一種融合語義感知與模型生成的異常醫(yī)療數(shù)據(jù)識別算法。該算法模型通過融合膠囊神經(jīng)網(wǎng)絡(luò)對電子病歷結(jié)構(gòu)和表層語義特征進行提取,并對Transformer網(wǎng)絡(luò)進行改進,獲取到了更深層的語義特征;同時還結(jié)合了這兩個網(wǎng)絡(luò)的損失函數(shù),優(yōu)化了模型的收斂性。實驗結(jié)果表明,本文模型能夠?qū)﹄娮硬v的語義和異常數(shù)據(jù)進行識別,對于實現(xiàn)智能化的臨床輔助診療具有重要的意義。未來將進一步優(yōu)化算法設(shè)計,提高異常識別的精度和效率。
參考文獻
[1] 姚遠,龐震.基于改進K?means聚類的醫(yī)療信息系統(tǒng)信息安全檢測方法[J].信息技術(shù),2023,47(1):154?157.
[2] 吉旭瑞,魏德健,張俊忠,等.中文電子病歷信息提取方法研究綜述[J].計算機工程與科學,2024,46(2):325?337.
[3] 倪凌.基于雙向長短期記憶網(wǎng)絡(luò)的醫(yī)院電子病歷數(shù)據(jù)挖掘[J].計算機應(yīng)用與軟件,2023,40(6):70?76.
[4] 黃晞.基于數(shù)據(jù)挖掘的醫(yī)療信息管理系統(tǒng)設(shè)計[J].微型電腦應(yīng)用,2021,37(3):35?38.
[5] 李騰,方保坤,馬卓,等.基于同態(tài)加密的醫(yī)療數(shù)據(jù)密文異常檢測方法[J].中國科學:信息科學,2023,53(7):1368?1391.
[6] 汪家偉,余曉.基于深度學習的文本分類研究綜述[J].電子科技,2024,37(1):81?86.
[7] 賈浩陽.基于深度學習的異常檢測方法研究[D].桂林:桂林電子科技大學,2022.
[8] 王玲玲,李昕,邢魯民,等.基于數(shù)據(jù)融合長短期記憶的大型醫(yī)療設(shè)備異常檢測模型研究[J].中國醫(yī)學裝備,2023,20(4):134?138.
[9] 郭克難.基于融合改進K?means聚類算法的數(shù)據(jù)檢測技術(shù)[J].電子設(shè)計工程,2024,32(5):41?45.
[10] 龐江飛,孫占全.基于Transformer的多編碼器端到端語音識別[J].電子科技,2024,37(4):1?7.
[11] 孫子文,錢立志,楊傳棟,等.基于Transformer的視覺目標跟蹤方法綜述[J].計算機應(yīng)用,2024,44(5):1644?1654.
[12] 賈翔順,陳瑋,尹鐘.融合膠囊網(wǎng)絡(luò)的雙通道神經(jīng)網(wǎng)絡(luò)文本分類模型[J].中文信息學報,2023,37(11):91?99.
[13] 陽予晉,王堃,陳志剛,等.基于膠囊網(wǎng)絡(luò)的異常多分類模型[J].計算機工程與科學,2024,46(3):427?439.
[14] 李錦,夏鴻斌,劉淵.基于BERT的雙特征融合注意力的方面情感分析模型[J].計算機科學與探索,2024,18(1):205?216.
[15] 陳錫,陳奧博.基于掩碼矩陣?BERT注意力機制的神經(jīng)機器翻譯[J].現(xiàn)代電子技術(shù),2023,46(21):111?116.
作者簡介:高" 昱(1966—),女,滿族,遼寧錦州人,碩士研究生,副教授,研究方向為智能醫(yī)學工程。