• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種超聲心動圖關(guān)鍵幀智能檢測方法

      2024-02-18 05:30:06史中青戚占如曾子煬郭冠軍羅守華
      關(guān)鍵詞:關(guān)鍵幀集上心動圖

      杜 悅,史中青,戚占如,曾子煬,郭冠軍,姚 靜,羅守華,顧 寧,4*

      1南京醫(yī)科大學(xué)生物醫(yī)學(xué)工程與信息學(xué)院,江蘇 南京 211166;2.南京大學(xué)醫(yī)學(xué)院附屬鼓樓醫(yī)院超聲醫(yī)學(xué)科,江蘇 南京 210008;3東南大學(xué)生物科學(xué)與醫(yī)學(xué)工程學(xué)院,江蘇 南京 210096;4南京大學(xué)醫(yī)學(xué)院,江蘇 南京 210093

      超聲心動圖是一種無創(chuàng)、安全的醫(yī)學(xué)成像方式,被廣泛應(yīng)用于心臟病患者的診斷和治療[1]。超聲心動圖關(guān)鍵幀檢測,通常指超聲心動圖動態(tài)圖像舒張末期(end-diastole,ED)和收縮末期(end-systole,ES)幀的檢測,是超聲心動圖檢查的必要步驟,也是心臟大小量化、功能評價的重要基礎(chǔ)。超聲心動圖中,ED 幀可定義為二尖瓣(mitral valve,MV)關(guān)閉后第1幀、心動周期中左心室(left ventricle,LV)徑線或容量最大的停幀,ES 幀可定義為主動脈瓣(aortic valve,AV)關(guān)閉后的第1 幀、心動周期中LV 徑線或容量最小的停幀,分別對應(yīng)心電圖(electrocardiogram,ECG)中R 波波峰與T 波終點的相應(yīng)幀[2-3](圖1)。目前臨床場景下關(guān)鍵幀的識別,主要依靠超聲醫(yī)師肉眼觀測超聲心動圖中LV容積或ECG波形,存在人工成本高、操作者經(jīng)驗依賴性高、可重復(fù)性差的問題。因此,實現(xiàn)對超聲心動圖中ED 和ES幀的高精度自動檢測具有重要的意義。

      圖1 心尖四腔切面ED和ES幀F(xiàn)igure 1 ED and ES frame of apical four chambers view

      研究人員在超聲心動圖ED、ES 幀自動檢測方面做出了許多努力,早期研究中最常見的方法是LV分割法,即基于心臟超聲圖像中LV 的分割結(jié)果計算LV 面積確定ED 和ES 幀[4-7]。然而,心臟超聲圖像的LV 分割需要復(fù)雜的預(yù)處理步驟,且超聲圖像具有信噪比低、邊緣模糊等特性,容易導(dǎo)致分割效果欠佳,進而影響ED和ES幀的檢測結(jié)果。近年來,深度學(xué)習(xí)(deep learning,DL)在各類自然圖像處理任務(wù)中表現(xiàn)出優(yōu)異性能,因此被廣泛應(yīng)用于超聲心動圖的圖像處理與分析中[8-12]。一些研究將DL 引入超聲心動圖關(guān)鍵幀檢測領(lǐng)域,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)檢 測ED、ES 幀。Dezaki 等[13]借鑒了Kong 等[14]在MRI 中ED、ES 幀檢測的研究,結(jié)合ResNet[15]與長短期記憶單元(long short-term memory,LSTM)[16]提出了深度殘差遞歸神經(jīng)網(wǎng)絡(luò),以提取固定長度心臟超聲圖像序列的時空特征,實現(xiàn)ED和ES幀的檢測,但需要對輸入的超聲序列進行預(yù)處理,以分離單個心動周期。Taheri等[17]對此進行了改進,將可變長度的超聲序列輸入到結(jié)合了DenseNet 和門控單元的模塊中,并提出了全局極值損失函數(shù)進一步提高ED、ES幀檢測性能,然而輸入的視頻仍只能包含1 個心動周期,導(dǎo)致檢測結(jié)果存在偏差。Fiorito 等[18]將3D CNN 與LSTM 的混合模型應(yīng)用于超聲心動圖視頻的時空特征提取,對各幀進行舒張期和收縮期分類,將ED 和ES 幀確定為兩種狀態(tài)之間的切換幀,可用于任意長度的序列,但仍只能檢測包含1對ED和ES幀的視頻,對于視頻中其他ED 幀,需要依賴QRS 復(fù)雜波進行預(yù)測。Lane等[19]結(jié)合ResNet與LSTM提取超聲序列的時空信息,證明了DL技術(shù)用于包含多個心動周期的任意長度超聲序列ED和ES幀識別的可行性,但其計算上相對復(fù)雜,推理耗時長。

      針對現(xiàn)階段相關(guān)研究存在的不足,本研究提出了一種超聲心動圖關(guān)鍵幀智能檢測方法,該方法無需分割LV 且不依賴ECG,結(jié)合ResNet 與Video Swin Transformer(VST)[20],直接從任意長度的二維心臟超聲圖像序列中自動、精確地識別出多個心動周期的ED和ES幀。這種方法適用于超聲心動圖常見的心尖切面,具有較強的實用性。

      1 對象和方法

      1.1 對象

      1.1.1 南京鼓樓醫(yī)院數(shù)據(jù)集

      選取2022 年8—12 月在南京大學(xué)醫(yī)學(xué)院附屬鼓樓醫(yī)院超聲醫(yī)學(xué)科完成二維經(jīng)胸超聲心動圖檢查的190 例受檢者,獲取包括心尖二腔(apical two chambers,A2C)、心尖三腔(apical three chambers,A3C)與心尖四腔(apical four chambers,A4C)3 類臨床檢查常用切面共計663 個動態(tài)圖像(A2C、A3C 與A4C 切面的圖像數(shù)目分別為249、134 與280,圖2)。上述動態(tài)圖像均采集自Philips Medical Systems 和GE Vingmed Ultrasound 設(shè)備,幀數(shù)在14~493 幀之間,且包含不同數(shù)量的完整心動周期。研究已獲得南京大學(xué)醫(yī)學(xué)院附屬鼓樓醫(yī)院醫(yī)學(xué)倫理委員會的倫理審查批準(zhǔn)(批件號:2022-337-01)。

      圖2 二維超聲心動圖3類切面Figure 2 Three types of two-dimensional echocardiography views

      為便于圖像的后續(xù)處理與分析,本研究基于ITK 與OpenCV 解析DICOM 格式的原始超聲數(shù)據(jù),將其轉(zhuǎn)換為AVI格式的視頻。為使數(shù)據(jù)完全獨立于ECG,所得到的視頻均基于傳統(tǒng)的圖像處理技術(shù),包括閾值分割、霍夫直線檢測以及形態(tài)學(xué)操作等進行處理,刪除了ECG 以及掃描扇區(qū)外的文字信息,并使用雙線性插值將每幀圖像采樣到320×320 像素。建立的南京鼓樓醫(yī)院數(shù)據(jù)集中,每一類切面的數(shù)據(jù)按4∶1的比例,分別劃分到訓(xùn)練集與測試集中。

      1.1.2 EchoNet-Dynamic-Tiny數(shù)據(jù)集

      EchoNet-Dynamic 數(shù)據(jù)集[21]源自斯坦福大學(xué)醫(yī)學(xué)院2016—2018年收集的受試者數(shù)據(jù),包括10 030個A4C 視頻,采集設(shè)備為Siemens Healthineers 和Philips Healthcare,每個視頻經(jīng)過匿名化處理,刪除了掃描扇區(qū)以外的文本等信息,并通過3 次降采樣插值將每幀圖像大小調(diào)整為112×112 像素。本研究從EchoNet-Dynamic數(shù)據(jù)集中選取了按視頻名稱升序排列的前280個A4C視頻,與南京鼓樓醫(yī)院數(shù)據(jù)集中A4C 的數(shù)量保持一致,建立了EchoNet-Dynamic-Tiny數(shù)據(jù)集,并將這些數(shù)據(jù)按4∶1的比例,分別劃分到訓(xùn)練集與測試集中。

      1.2 方法

      1.2.1 數(shù)據(jù)標(biāo)記

      在3 名經(jīng)驗豐富的超聲醫(yī)師的指導(dǎo)下,對所有視頻進行手動標(biāo)記(對于標(biāo)記不一致的視頻,3位醫(yī)師重新對其進行標(biāo)記,然后取多數(shù)投票結(jié)果),確定各心動周期的ED、ES幀索引?;诟咚狗植加嬎阋曨l各幀為關(guān)鍵幀的概率,見式1,其中x表示幀索引,μ表示ED 或ES 幀所在的幀索引,ρ(x)表示每一幀為ED或ES幀的概率,σ為常數(shù),本研究中設(shè)置為10。

      將當(dāng)前心動周期ED幀與下一相鄰心動周期ED幀的概率設(shè)置為1.0,兩幀之間其余幀的概率基于高斯概率密度函數(shù)進行插值,得到該心動周期中每一幀為ED 幀的概率曲線,ES 幀概率曲線的生成方式與之類似。值得注意的是,為確保概率密度函數(shù)在視頻起始與終止階段設(shè)定合理,本研究對起始與終止階段的關(guān)鍵幀進行了假定(即μ可能為負數(shù)或大于視頻總幀數(shù)的值),并在訓(xùn)練與測試過程中僅保留視頻總幀數(shù)范圍內(nèi)幀索引對應(yīng)的概率曲線。假設(shè)當(dāng)前視頻總幀數(shù)為58,標(biāo)記的ED 幀索引為20、66,ES幀索引為-1、43,生成ED、ES概率曲線(圖3)。

      圖3 每一幀為ED幀或ES幀的概率Figure 3 The probability of each frame being an ED frame or and ES frame

      1.2.2 ResNet+VST模型

      本研究提出的超聲心動圖關(guān)鍵幀智能檢測模型ResNet+VST,其整體框架見圖4,該模型采用CNN與視頻旋轉(zhuǎn)變壓器VST的混合架構(gòu),旨在分析心臟超聲視頻并提取其時空特征。首先使用CNN捕獲輸入視頻幀的空間特征,然后結(jié)合VST 提取視頻中的時間動態(tài)信息,將這些特征整合到全連接層中,最終輸出各幀為ED 或ES 幀的預(yù)測概率(圖4A)。利用滑動窗口對任意長度超聲序列推理(圖4B),首先使用滑動窗口對超聲視頻進行分割,生成固定長度、重疊、分塊的超聲序列片段,其次將各序列片段輸入到神經(jīng)網(wǎng)絡(luò)以生成各幀為關(guān)鍵幀的概率,將所有幀在關(guān)聯(lián)窗口下預(yù)測值的均值作為最終結(jié)果。

      圖4 超聲心動圖關(guān)鍵幀智能檢測方法框架Figure 4 Framework of intelligent detection method for key frames of echocardiography

      神經(jīng)網(wǎng)絡(luò)架構(gòu):為充分提取超聲心動圖的時空信息,采用深度神經(jīng)網(wǎng)絡(luò)架構(gòu)ResNet 作為編碼器,對超聲序列中每一幀的空間特征進行編碼,然后將獲取的空間特征傳遞給VST,以捕獲這些空間特征之間的時間依賴關(guān)系。

      空間特征提取:首先,使用ResNet 編碼器從每幀圖像中捕獲空間特征。ResNet 網(wǎng)絡(luò)由一系列的殘差塊堆疊而成,每個塊包含多個卷積層,通過跨層連接構(gòu)造本體映射x和殘差映射F(x),最終學(xué)習(xí)的結(jié)果為H(x)=F(x)+x,這種結(jié)構(gòu)有效地解決了深層網(wǎng)絡(luò)訓(xùn)練時可能存在的梯度彌散問題,利于網(wǎng)絡(luò)提取圖像深層特征。

      時間特征提?。簡螏瑘D像空間特征被傳遞到VST,以進行輸入序列片段各幀之間的關(guān)聯(lián)信息提取。VST由模型階段和頭2個部分組成。模型階段由多個重復(fù)的階段組成,每個階段包括VST 塊和融合塊。VST模塊引入了視頻窗口多頭自注意力機制(video windows multi-head self-attention,video WMSA)和視頻位移窗口多頭自注意力機制(video shifted windows multi-head self-attention,video SWMSA),允許在局部窗口內(nèi)并行計算,以捕獲視頻序列中的長程時空依賴關(guān)系。融合塊類似于最大池化,用于降采樣、增加通道數(shù),同時保持視頻幀數(shù)不變。經(jīng)過模型階段之后,獲得多幀數(shù)據(jù)的高維特征,最后使用頭進行特征融合。完整的VST塊結(jié)構(gòu)見圖5。

      圖5 VST模塊Figure 5 VST module

      模型推理:為使模型能夠處理任意長度的二維超聲心動圖視頻,引入滑動窗口技術(shù),將視頻劃分為多個重疊的序列片段,輸入到神經(jīng)網(wǎng)絡(luò)中,以獲得各序列片段中每一幀被預(yù)測為ED或ES幀的概率值。接著,對原始視頻各幀關(guān)聯(lián)窗口的所有預(yù)測值求均值,從而得到相應(yīng)幀為關(guān)鍵幀的概率。計算見式2,其中為第n個序列片段中第i幀的預(yù)測值,yt為原始視頻中第t幀為關(guān)鍵幀的概率值,N代表原始視頻每幀關(guān)聯(lián)的窗口數(shù)量。最后,通過查找概率的極大值確定網(wǎng)絡(luò)預(yù)測的原始視頻關(guān)鍵幀,曲線極大值用紅色點表示(圖6)。

      圖6 網(wǎng)絡(luò)預(yù)測結(jié)果Figure 6 Network prediction result

      1.2.3 實驗細節(jié)

      實驗環(huán)境:配置見表1。

      表1 實驗環(huán)境配置Table 1 Configuration of experimental environment

      數(shù)據(jù)增強:為提高模型的泛化能力并減少過擬合,在模型訓(xùn)練階段對數(shù)據(jù)進行了空間和時間兩個維度的增強??臻g數(shù)據(jù)增強包括:縮放、隨機旋轉(zhuǎn),值得注意的是,所使用的心臟超聲數(shù)據(jù)MV 結(jié)構(gòu)具有特定的方向和生理特征,因此不宜用翻轉(zhuǎn)操作;時間數(shù)據(jù)增強方面,隨機以1、2、4 的步長對視頻幀進行等間隔采樣,以豐富樣本的時間尺度,強化模型對不同尺度時間特征的提取能力,若采樣至視頻末端,序列幀數(shù)小于采樣大小,則補充零幀。

      訓(xùn)練細節(jié):在南京鼓樓醫(yī)院數(shù)據(jù)集上,網(wǎng)絡(luò)輸入圖像大小為320×320 像素;在EchoNet-Dynamic-Tiny 數(shù)據(jù)集上,網(wǎng)絡(luò)輸入圖像大小為112×112 像素。使用ResNet50作為空間特征編碼器,并使用在ImageNet 數(shù)據(jù)集上經(jīng)過預(yù)訓(xùn)練的模型權(quán)重,以提高訓(xùn)練效率。選用Adam網(wǎng)絡(luò)優(yōu)化器,初始學(xué)習(xí)率設(shè)置為10-5,并采用多步長學(xué)習(xí)率衰減策略,訓(xùn)練輪數(shù)(epoch)設(shè)為500,在現(xiàn)有數(shù)據(jù)集規(guī)模下,批大小(batch size)設(shè)置為4,設(shè)置序列采樣大小為16,以均衡物理顯存與時序感受野,丟棄單元(dropout)概率為0.5,以增強模型泛化性,損失函數(shù)采用均方誤差(mean square error,MSE),以提高對異常值的敏感度并確保關(guān)鍵幀概率值的時間平滑性(式3),其中分別表示為第n個樣本中第t幀的真實標(biāo)簽和網(wǎng)絡(luò)預(yù)測概率值。

      測試細節(jié):在南京鼓樓醫(yī)院數(shù)據(jù)集上,網(wǎng)絡(luò)輸入圖像大小為224×224 像素,在EchoNet-Dynamic-Tiny 數(shù)據(jù)集上,網(wǎng)絡(luò)輸入圖像大小為112×112 像素。幀采樣步長設(shè)置為1,滑動窗口步長統(tǒng)一設(shè)置為1,窗口寬度統(tǒng)一設(shè)置為16幀,在處理每個視頻末端時,若序列長度<16幀,則在其末尾填充0幀,且計算關(guān)鍵幀概率時,0幀不納入計算范疇。

      1.2.4 評估指標(biāo)

      使用平均幀差(average frame difference,AFD)[11]衡量所提出方法的預(yù)測結(jié)果與真實標(biāo)簽之間的絕對誤差大?。ㄊ?、5),其中,yi代表ED 或ES 幀的真實標(biāo)簽,表示ED或ES的預(yù)測幀索引,N是測試集內(nèi)ED或ES幀的總數(shù)量。

      1.3 統(tǒng)計學(xué)方法

      實驗數(shù)據(jù)采用Python 3.8 軟件進行統(tǒng)計學(xué)分析,計量資料以均數(shù)±標(biāo)準(zhǔn)差()表示,計數(shù)資料以百分數(shù)(%)表示。多組樣本均數(shù)比較采用單因素方差分析(one-way ANOVA),P<0.05為差異有統(tǒng)計學(xué)意義。

      2 結(jié)果

      為詳盡分析ResNet+VST 模型的準(zhǔn)確性與魯棒性,本研究分別在南京鼓樓醫(yī)院數(shù)據(jù)集與EchoNet-Dynamic-Tiny 數(shù)據(jù)集上進行實驗,使用1.2.4 節(jié)評估指標(biāo)衡量模型在測試集上的準(zhǔn)確性。

      本研究在南京鼓樓醫(yī)院數(shù)據(jù)集上,分析了ResNet+VST模型預(yù)測結(jié)果與真實標(biāo)簽的差異,表明其準(zhǔn)確性(2.1.1),并將其與現(xiàn)階段較為先進的3D CNN+LSTM[10]與ResNet+LSTM[11]模型進行對比,表明其先進性(2.1.2);進一步地,本研究基于公開數(shù)據(jù)集EchoNet-Dynamic 構(gòu)建的EchoNet-Dynamic-Tiny 子數(shù)據(jù)集上,分析了前述3 種模型相應(yīng)的性能表現(xiàn)(2.2),更充分地衡量ResNet+VST 模型的泛化性,便于后續(xù)研究者對該模型性能表現(xiàn)進行更客觀詳盡的評估。

      2.1 南京鼓樓醫(yī)院數(shù)據(jù)集

      2.1.1 模型預(yù)測結(jié)果與真實標(biāo)簽對比

      在A2C、A3C、A4C 切面上,ResNet+VST 模型的心動周期檢出率均高于97%,ED、ES的AFD均小于1.65(表2),且模型預(yù)測值與真實標(biāo)簽之間顯示出高度一致性(圖7)。

      表2 3類切面模型心動周期檢出率與關(guān)鍵幀檢測平均幀差情況Table 2 Detection rate of cardiac cycle and average frame difference of key frame detection in three types of view models

      圖7 ED和ES模型預(yù)測與真實標(biāo)簽一致性對比Figure 7 Comparison of consistency between ED and ES model prediction and label

      在A2C、A3C 和A4C 切面中各隨機挑選1 個視頻,將ResNet+VST模型的關(guān)鍵幀檢測結(jié)果與視頻幀進行匹配。對于A2C 的ED、ES 幀,以及A3C 的ED幀,預(yù)測結(jié)果均與人工標(biāo)注僅相差1幀,且預(yù)測幀與真實標(biāo)簽幀的圖像內(nèi)容較為接近(圖8A、B);對于A3C的ES幀與A4C的ED、ES幀,預(yù)測結(jié)果與人工標(biāo)注完全一致(圖8B、C)。

      圖8 A2C、A3C和A4C切面上ResNet+VST模型關(guān)鍵幀檢測結(jié)果與真實標(biāo)簽對應(yīng)視頻幀示例Figure 8 Examples of video frames corresponding to the detection results of key frames of ResNet+VST model and labels on A2C,A3C and A4C views

      2.1.2 不同模型對比

      在相同的預(yù)處理、數(shù)據(jù)增強和超參數(shù)設(shè)置下,將所提出的模型與3D CNN+LSTM[10]和ResNet+LSTM[11]關(guān)鍵幀檢測模型在臨床應(yīng)用場景更多的A4C切面上進行比較(表3)。ResNet+VST模型在檢測精度、推理時間方面均優(yōu)于其他兩個模型。單因素方差分析結(jié)果顯示,3 種模型之間存在顯著性差異(P<0.05)。Tukey檢驗結(jié)果進一步證明,ResNet+VST 模型與3D CNN+LSTM 以及ResNet+LSTM 模型之間均存在顯著性差異(P<0.05)。

      表3 南京鼓樓醫(yī)院數(shù)據(jù)集A4C切面不同模型ED、ES幀檢測誤差與推理時間對比Table 3 Comparison of detection error and inferencing time of ED and ES frames of different models on A4C view of Nanjing Drum Tower Hospital dataset()

      表3 南京鼓樓醫(yī)院數(shù)據(jù)集A4C切面不同模型ED、ES幀檢測誤差與推理時間對比Table 3 Comparison of detection error and inferencing time of ED and ES frames of different models on A4C view of Nanjing Drum Tower Hospital dataset()

      A:ResNet+VST model.B:3D CNN+LSTM model.C:ResNet+LSTM model.Compared with B,*P <0.05;Compared with C,#P <0.05.

      2.2 EchoNet-Dynamic-Tiny數(shù)據(jù)集

      從EchoNet-Dynamic-Tiny 數(shù)據(jù)集中隨機挑選1個視頻,將ResNet+VST模型的關(guān)鍵幀檢測結(jié)果與視頻幀進行匹配。結(jié)果顯示模型的ES 預(yù)測幀與真實標(biāo)簽完全一致,而ED 預(yù)測幀與真實標(biāo)簽幀非常接近且圖像內(nèi)容相似度較高(圖9)。

      圖9 EchoNet-Dynamic-Tiny數(shù)據(jù)集ResNet+VST模型關(guān)鍵幀檢測結(jié)果與真實標(biāo)簽對應(yīng)視頻幀示例Figure 9 Example of video frames corresponding to the keyframe detection results of the EchoNet-Dynamic-Tiny dataset ResNet+VST model and label

      使用EchoNet-Dynamic-Tiny 數(shù)據(jù)集,將所提出的ResNet+VST 模型與3D CNN+LSTM[10]、ResNet+LSTM[11]模型進行比較(表4)。針對公開的超聲心動圖數(shù)據(jù)集,所提出的ResNet+VST模型在關(guān)鍵幀檢測任務(wù)中的預(yù)測結(jié)果與真實標(biāo)簽更為接近,表現(xiàn)出更高的準(zhǔn)確性與更快的推理速度。單因素方差分析結(jié)果顯示,3 種模型之間存在顯著性差異(P<0.05)。Tukey檢驗結(jié)果進一步證明,ResNet+VST 模型與3D CNN+LSTM 以及ResNet+LSTM 模型之間均存在顯著性差異(P<0.05)。

      表4 EchoNet-Dynamic-Tiny數(shù)據(jù)集A4C切面不同模型ED、ES幀檢測誤差與推理時間對比Table 4 Comparison of detection error and inferencing time of ED and ES frames of different models on A4C view of Echo-Net-Dynamic-Tiny dataset()

      表4 EchoNet-Dynamic-Tiny數(shù)據(jù)集A4C切面不同模型ED、ES幀檢測誤差與推理時間對比Table 4 Comparison of detection error and inferencing time of ED and ES frames of different models on A4C view of Echo-Net-Dynamic-Tiny dataset()

      A:ResNet+VST model.B:3D CNN+LSTM model.C:ResNet+LSTM model.Compared with B,*P <0.05;Compared with C,#P <0.05.

      3 討論

      超聲心動圖憑借無創(chuàng)、無輻射、安全等特點,成為心臟疾病診斷的主要醫(yī)學(xué)影像手段。其中,ED和ES 幀檢測對于評估超聲心動圖圖像質(zhì)量和測量心臟參數(shù)至關(guān)重要。臨床上ED和ES幀的選定主要依靠醫(yī)師借助ECG或目測LV的容積,可重復(fù)性差,相比之下,自動檢測快速、高效、可重復(fù)性好。目前已有一些基于DL 的超聲心動圖關(guān)鍵幀智能檢測方法[6-7,11-14,16-18],但它們主要關(guān)注A4C切面,并且無法同時滿足檢測精度和推理耗時的要求。為解決這些問題,本研究提出了一種新的關(guān)鍵幀檢測模型ResNet+VST,該模型結(jié)合了帶有跨層連接的ResNet和帶有自注意力機制的VST,能夠有效提取超聲序列圖像的復(fù)雜時空信息,并結(jié)合曲線回歸策略,將網(wǎng)絡(luò)輸出回歸為關(guān)鍵幀的概率,將復(fù)雜的關(guān)鍵幀檢測問題轉(zhuǎn)化為概率曲線回歸問題。

      本研究結(jié)果表明,ResNet+VST模型在南京鼓樓醫(yī)院數(shù)據(jù)集和EchoNet-Dynamic-Tiny 數(shù)據(jù)集上表現(xiàn)良好。在南京鼓樓醫(yī)院數(shù)據(jù)集A2C、A3C、A4C 3 類切面上,模型預(yù)測的心動周期數(shù)量與真實數(shù)量均較為接近,證明了所提出方法的有效性,模型預(yù)測的ED 和ES 幀與真實標(biāo)簽之間的AFD 均小于1.65,表明模型擁有較高的準(zhǔn)確率且預(yù)測值與真實標(biāo)簽之間顯示出高度一致性;在EchoNet-Dynamic-Tiny數(shù)據(jù)集A4C切面上,模型預(yù)測的ED和ES幀的AFD均小于1.75,且相比3D CNN+LSTM[10]、ResNet+LSTM[11]模型,ResNet+VST 模型在2個數(shù)據(jù)集上的預(yù)測結(jié)果更接近真實標(biāo)簽,各模型預(yù)測結(jié)果之間均存在顯著性差異。此外,與利用LSTM 進行時序建模的相關(guān)研究[10-11]相比,ResNet+VST 模型計算上高度并行,減少了推理時間的消耗,在Intel(R)Core(TM)i5-12600KF CPU與NVIDIA GeForce?GTX 3090Ti GPU的硬件條件下,在南京鼓樓醫(yī)院數(shù)據(jù)集上,當(dāng)輸入圖像大小設(shè)置為224×224像素時,16幀的超聲序列片段推理平均耗時僅為21 ms,而在EchoNet-Dynamic-Tiny數(shù)據(jù)集上,當(dāng)圖像大小設(shè)置為112×112像素時,推理耗時更短,僅為10 ms,基本滿足臨床需求。

      然而,本研究仍存在不足之處:①數(shù)據(jù)量較少,ResNet+VST 模型檢測性能的更全面、充分評估,需要更大規(guī)模的數(shù)據(jù)集支持;②數(shù)據(jù)來源較為單一,僅在兩個數(shù)據(jù)集上進行實驗,對模型泛化性的評估能效不足;③部分數(shù)據(jù)中關(guān)鍵幀位置位于超聲動態(tài)圖像的起止端,ResNet+VST模型在這類問題上表現(xiàn)欠佳,后續(xù)考慮結(jié)合時序建模領(lǐng)域的最新研究,如新型RNN架構(gòu)[22];④部分樣本的射血階段持續(xù)時間較短,與ED之間的時間間隔較小,這容易導(dǎo)致標(biāo)注者之間、標(biāo)注者內(nèi)部的標(biāo)注結(jié)果存在分歧,自然地,模型同樣可能將射血階段幀誤判為ED 幀,與真實標(biāo)簽存在較大偏差(圖10)。因此,進一步研究標(biāo)注者之間和標(biāo)注者內(nèi)部的差異是必要的。

      圖10 ResNet+VST模型預(yù)測異常示例Figure 10 Example of abnormal prediction by ResNet+VST model

      綜上所述,本研究所提出的基于DL 的超聲心動圖關(guān)鍵幀智能檢測模型ResNet+VST,適用任意長度且包含多個心動周期不同切面的超聲心動圖。與目前常用的方法相比,該模型在檢測精度和速度方面均具有顯著的優(yōu)勢,基本滿足臨床及實際應(yīng)用需求,具有良好的應(yīng)用價值。未來該模型有望作為超聲心動圖圖像質(zhì)量自動評估以及腔室容積、射血分數(shù)等心臟參數(shù)自動測量的預(yù)處理步驟,以實現(xiàn)更準(zhǔn)確和快速的心臟圖像分析。

      猜你喜歡
      關(guān)鍵幀集上心動圖
      超聲心動圖診斷Fabry病1例
      王新房:中國超聲心動圖之父
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      早孕期超聲心動圖在胎兒嚴(yán)重先心病中的應(yīng)用
      超聲心動圖診斷Loffler心內(nèi)膜炎1例
      復(fù)扇形指標(biāo)集上的分布混沌
      基于改進關(guān)鍵幀選擇的RGB-D SLAM算法
      基于相關(guān)系數(shù)的道路監(jiān)控視頻關(guān)鍵幀提取算法
      基于聚散熵及運動目標(biāo)檢測的監(jiān)控視頻關(guān)鍵幀提取
      柳河县| 固始县| 冀州市| 疏附县| 大庆市| 南华县| 扬中市| 贵南县| 江源县| 厦门市| 兴安县| 凤城市| 灵宝市| 盐池县| 呼图壁县| 明溪县| 双桥区| 长白| 德惠市| 霞浦县| 临颍县| 庐江县| 永修县| 建阳市| 成都市| 镇康县| 神木县| 曲沃县| 称多县| 和田县| 鲁甸县| 海原县| 义马市| 临猗县| 东丽区| 留坝县| 张家界市| 沅江市| 杨浦区| 玉龙| 荥经县|