摘要:針對醫(yī)生高強度的閱片和病歷撰寫工作耗時費力、重復(fù)枯燥,占用大量的工作時間等問題,提出了一種基于深度學(xué)習(xí)的病歷自動生成方法。利用預(yù)訓(xùn)練的ResNet-101對X光影像數(shù)據(jù)的特征進行提取,將提取的特征輸入LSTM進行相對應(yīng)的診斷結(jié)果的預(yù)測,進而實現(xiàn)病歷的自動生成。實驗結(jié)果表明,利用深度學(xué)習(xí)技術(shù)能生成較高質(zhì)量的病歷。
關(guān)鍵詞:病歷自動生成;ResNet-101;深度學(xué)習(xí);X光影像;LSTM
1引言及背景
隨著社會的不斷發(fā)展和生活水平的不斷提高,醫(yī)療技術(shù)也不斷發(fā)展豐富,普通 X 線攝影,計算機斷層掃描(CT),以及磁共振成像(MRI)的出現(xiàn),極大提高了疾病的診斷率。但隨著醫(yī)院病人逐年增多,醫(yī)生的數(shù)量遠(yuǎn)遠(yuǎn)不足。如何使相對匱乏的醫(yī)療資源滿足人們對健康的需求,是當(dāng)前迫切需要解決的問題。
隨著近年來深度學(xué)習(xí)和計算機硬件的飛速發(fā)展,醫(yī)學(xué)病歷的自動生成成為了近年來計算機與醫(yī)療圖像新興的交叉方向[1]。因此,通過深度學(xué)習(xí)的方法,使用計算機代替醫(yī)生進行機械的影像報告撰寫工作,這樣既避免了經(jīng)驗不足的醫(yī)生在閱片診斷中產(chǎn)生的誤診情況,又使得更多的資深醫(yī)生可以從繁重的重復(fù)性工作中解脫出來,將更多的時間投入病人的診治中去。
2算法設(shè)計
本文先使用ImageNet預(yù)訓(xùn)練的ResNet-101模型對病人的X光影像數(shù)據(jù)進行圖像特征提取;隨后講與影像對應(yīng)的病歷進行預(yù)處理,包括構(gòu)建字典,數(shù)據(jù)對齊,字詞向量嵌入等過程得到文本特征;最后將圖像特征與文本特征一同輸入LSTM網(wǎng)絡(luò),對病歷進行預(yù)測。本文算法流程圖如圖1所示。
2.1圖像特征的提取
本文結(jié)合選取ResNet-101的方法來實現(xiàn)X光影像的快速特征提取。ResNet網(wǎng)絡(luò)在2015年被提出時以精妙的殘差連接極大增強了模型的圖像特征提取能力,并在ImageNet分類任務(wù)上獲得第一名。ResNet-101是指卷積層和全連接層合計101層的ResNet的改進網(wǎng)絡(luò)。通過在ImageNet數(shù)據(jù)集上進行預(yù)訓(xùn)練,使得網(wǎng)絡(luò)具有很強的圖像特征提取能力。
2.2文本特征的提取
要對病歷中的文本進行特征提取,首先需要選取合適的詞向量生成模型將文本隱式轉(zhuǎn)換到文本特征空間。不同于經(jīng)典詞向量生成模型,如Word2Vec,Glove,本文直接使用Embedding層進行詞向量的生成,這極大降低了詞向量的生成時間。此外,本文將英文病歷語料分為詞向量粒度和句向量粒度,使用不同的模型進行特征提取,隨后將其進行拼接,這使得生成得文本特征包含一定的上下文信息。
3實驗
3.1 實驗設(shè)計
為驗證本文算法,本文模型采用PaddlePaddle2.0進行實現(xiàn),運行環(huán)境為Linux系統(tǒng),V100-32G顯卡,32G內(nèi)存。使用數(shù)據(jù)為印第安納大學(xué)胸部 X 射線數(shù)據(jù)集,該數(shù)據(jù)集包含 7,470 對X 射線圖像及其相應(yīng)的診斷報告。訓(xùn)練批次數(shù)量為32,學(xué)習(xí)率為0.001,將模型訓(xùn)練50次,損失函數(shù)采用交叉熵?fù)p失函數(shù)。
3.2 實驗結(jié)果
如圖2所示,將一張X光數(shù)據(jù)送入訓(xùn)練好的模型即得到訓(xùn)練結(jié)果。
通過對比輸出結(jié)果與真實標(biāo)注結(jié)果,不難發(fā)現(xiàn),模型的輸出結(jié)果與真實標(biāo)注語義上有所吻合,這說明模型學(xué)到了文本特征與圖像特征的映射關(guān)系。生成的文本較短,這可能是由于數(shù)據(jù)量較少使得模型學(xué)習(xí)能力不夠。
4總結(jié)
通過預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)有效提取圖像特征,應(yīng)用Embedding層快速提取病歷的文本特征,最后通過LSTM網(wǎng)絡(luò)即能對病歷進行生成。本文論證了利用深度學(xué)習(xí)技術(shù)對X光圖像進行病歷生成的可行性
參考文獻(xiàn):
[1]姜會珍,胡海洋,馬璉,趙從樸,張鋒,陳婕卿,曾可,王曉露,朱衛(wèi)國.基于醫(yī)患對話的病歷自動生成技術(shù)研究[J].中國數(shù)字醫(yī)學(xué),2021,16(10):36-40.
作者簡介:徐鵬(1997-2),性別:男,民族:漢,籍貫:陜西省咸陽市,學(xué)歷:碩士研究生,單位:重慶交通大學(xué)信息科學(xué)與工程學(xué)院,研究方向:醫(yī)學(xué)影像處理 ?單位所在地和郵編:重慶市 400074