由于兒童心臟大小隨年齡變化顯著,且兒童心率較快,超聲心動圖心臟邊界相較成人更模糊,因此兒科超聲心動圖的準確分割是一項具有挑戰性的任務。針對上述問題,本文提出了一種結合通道注意力和尺度注意力的雙解碼器網絡模型。首先,利用結合深監督策略的注意力引導解碼器,獲取心室區域的注意力圖;然后,將產生的心室注意力通過跳躍連接返回到網絡的多個層,調整編碼器生成的特征權重,突出左右心室區域;最后,通過尺度注意力模塊和通道注意力模塊強化左右心室邊緣特征。實驗結果表明,本文所提方法在所采集的雙側心室分割數據集中,平均戴斯系數(DSC)達到90.63%,優于醫學圖像分割領域一些常規和最新方法,尤其在心室邊緣處分割更清晰。本文的研究可為兒科超聲心動圖雙側心室分割以及后續先天性心臟病輔助診斷提供新的解決方案。
引用本文: 龐俊, 王永雄, 陳麗君, 張佳鵬, 劉金龍, 裴剛. 面向兒科超聲心動圖雙側心室分割的注意力引導網絡. 生物醫學工程學雜志, 2023, 40(5): 928-937. doi: 10.7507/1001-5515.202304038 復制
0 引言
先天性心臟病(congenital heart disease,CHD)在全國多地均位居新生兒出生缺陷首位,也是心血管外科治療患者數排行第二位的病種[1]。超聲心動圖儀是目前臨床常規心臟檢查中使用最廣泛的心臟成像設備,對心血管疾病的診斷和評估起著至關重要的作用。臨床評價指標,如心臟舒張期末期容積(end-diastolic volume,ED)、收縮期末期容積(end-systolic volume,ES)和射血分數(ejection fractions,EF)的計算十分重要,這些參數的獲取需要對超聲心動圖中的心室進行準確分割。然而,要實現超聲心動圖心室的精確分割還存在諸多困難,如心肌和血池之間的對比度低、超聲圖像中含有的偽影,以及不同病患心臟結構的形狀、質地和運動變異性等差異較大,均會影響最終的分割結果[2-3]。尤其對于嬰幼兒等兒科患者來說,患者間心臟大小樣本方差較大、心率較快,超聲心動圖心臟邊界相較成人更加模糊[4],因此對兒科超聲心動圖進行分割更加困難。
根據已有文獻顯示,現有的超聲心動圖分割主要集中在左心室分割[5-9]。Carneiro等[5]提出了一種左心室心內膜跟蹤方法,采用多個動態分割模型和深度學習方法實現了精確的左心室分割。Leclerc等[6]在超聲心動圖像分割任務中對比了常用的深度學習方法、結構化的隨機森林方法以及B樣條顯性活動表面模型,發現基于U型網絡(U-net)模型[7]的準確率和效率最高。Moradi等[8]結合特征金字塔和擴張卷積模型,利用解碼器所有尺度的特征預測分割,得到了更準確的左心室內膜分割邊緣。Leclerc等[9]提出一種多階段的方法,包括用于定位的區域生成網絡(region proposal network,RPN)和用于分割的U-net,有效提高了左心室分割的準確性。另一方面,隨著心臟病學的發展,右心室的分割在提高心血管疾病診斷效率上扮演著越來越重要的角色,并且它可以為左心室的分割提供有價值的信息以作參考。然而,目前尚缺乏同時分割左右心室的方法,為此本文旨在探索一種實現左右心室同時分割的有效方法。
針對超聲心動圖邊界模糊、分割困難等問題,現有方法大多采用級聯網絡,遵循由粗到細的分割策略[10-12]。例如,Bullock等[10]提出了X射線圖像分割級聯網絡(X-Net)以加強邊界分割。Du等[11]在級聯網絡中采用膨脹卷積和多層池化模塊代替普通卷積,提取多尺度特征分割右心室。Leclerc等[12]設計了一種多級注意力網絡,其一級分割網絡生成心室和心肌部分的總體二值映射,所得結果和輸入圖像相乘作為二級分割網絡輸入,分別分割心室和心肌部分。該方法有效地減少了邊界的錯誤分割,但整體精度沒有明顯提高。在上述使用級聯策略的網絡中,各個網絡相對獨立,訓練過程困難,容易導致欠擬合,導致此類方法無法顯著提高分割精度。針對這一問題,本文設計了一種雙解碼器的網絡模型,產生心室區域注意力和最終分割結果,在粗分割和細分割任務中僅使用同一個編碼器,在單個網絡中實現了傳統級聯網絡的兩個步驟,緩解了欠擬合的問題。
受人類知覺和視覺認知的啟發,Itti等[13]提出了注意力機制,它可以明顯提高網絡性能,并且已廣泛用于突出感興趣區域(region of interest,ROI)和抑制無關信息[14-16]。超聲心臟圖像中存在大量噪聲,這可能導致分割精度降低,為此,在現有心臟圖像分析中也大量使用注意力機制以強化心室區域[17-18]。Song等[17]設計了多尺度注意力機制和雙邊注意力模塊提高心臟7個子結構區域的分割精度。Guo等[18]在超聲心動圖分割任務中提出了一個雙路徑特征提取模塊(dual-path feature extraction module,DP-FEM),通過通道注意力機制強化判別性的特征。同時,他們還設計了基于空間注意力的高低特征融合模塊(high-and-low-level feature fusion module,HL-FFM),將來自高層特征的豐富語義信息與低層特征的空間信息進行選擇性融合。這些基于注意力的方法,有效改善了模型在心臟邊界處的預測結果。受此啟發,本文嘗試在網絡層面以及模塊層面分別使用多種不同的注意力策略。具體而言,即在網絡層面,通過注意力預測圖,引導兩個解碼器。同時,針對注意力圖生成過程中可能缺乏解釋性的問題,引入深監督策略,以提升注意力引導的可解釋性和有效性。在模塊層面,本文針對小兒心臟大小隨年齡增長變化顯著以及心室邊界模糊的特性,采用了尺度注意力模塊(scale attention module,SAM)和通道注意力模塊(channel attention module,CAM)以強化邊緣并保留更多的上下文信息。
綜上所述,本文提出了一種新的用于兒科超聲心動圖雙側心室分割的雙解碼器網絡模型。該模型重點關注心室邊緣分割精度的提升,以提高兒科CHD的診斷、預后和治療的效率。主要創新包括:① 本研究設計了雙解碼器網絡模型,將注意力引導解碼器(attention-guided decoder,AGD)集成到網絡的參數化跳躍連接中,用于生成空間注意力,進而改善編碼器產生的特征圖,從而加強心室區域的全局信息;再利用預測解碼器對左右兩心室區域細分;最終期望該模型能改善傳統級聯網絡的欠擬合問題,有效提升心室和邊緣的分割精度。② 在AGD中引入深監督策略,以期提升注意力引導的可解釋性和有效性。③ 為了解決小兒心室大小隨年齡增長變化顯著、超聲心動圖心室邊界模糊等客觀因素所引起的心室邊界分割不準確的問題,本文提出采用SAM為不同尺度特征圖分配注意力權重,同時使用帶有全局平均池化和全局最大池化的CAM加權重要特征通道,以求保留更多全局上下文信息。本研究期望實現雙側心室分割,同時有效提升心室分割網絡模型的性能,使得需要借助精確分割結果來進行定量評估的心臟血流動力學參數更具有臨床意義。
1 注意力引導的雙側心室分割模型
本文設計的網絡模型由AGD、參數化跳躍連接、帶有CAM和SAM的預測解碼器組成。網絡模型的骨干網絡采用強魯棒性的U-net,具體表現為:在編碼特征提取階段,卷積層采用3 × 3卷積核,每一層輸出的通道維數依次為64、128、256、512、512;X3、X4、X5為網絡編碼器第3、4、5層分別提取的特征圖;在解碼特征融合階段,卷積層同樣采用3×3卷積核,每一層輸出的通道維數依次為512、256、128、64;同時在編碼器和解碼器之間采用含參數ai(i = 1, 2, ···, 5)的跳躍連接,詳細結構如圖1所示。

網絡模型的整個分割過程利用雙解碼器實現由粗到細的分割策略。AGD執行粗分割步驟,通過從編碼器中提取語義豐富的特征,生成空間注意力圖,從而指導后續的左右二心室分割任務。為了提高細分割性能,加速收斂,本文還在AGD中引入深監督,即利用輸入圖像的二值標簽監督生成的注意力圖。與目前基于注意力的醫學圖像分割方法在“黑箱”中產生注意力相比,AGD生成注意力的過程更具有可解釋性。預測解碼器部分包含4個CAM和1個SAM,執行細分割步驟。CAM用于細化網絡中低層和高層拼接特征,使更多相關的通道被賦予更高的加權系數。最后,本文綜合利用預測解碼器產生的多尺度特征進行預測,采用SAM強化最相關尺度的特征,再經過輸出通道為3的1×1卷積層和歸一化指數函數柔性最大(softmax)層得到最終的分割結果。下面詳細介紹模型的重點部分。
1.1 結合深監督策略的AGD
在由粗到細的級聯分割策略中,分割的第一步是粗分割,以期找到輸入圖像中的ROI。本文提出了一個AGD執行粗分割。具體而言,即AGD生成與ROI相關的注意力圖,再通過參數化的跳躍連接將注意力圖集成到網絡中以細化特征表示,進而提高左右二心室分割性能。
AGD的基本網絡結構是基于全卷積網絡(fully convolutional networks,FCN)的特征融合模塊,如圖2所示。為了減少參數和硬件占用,從編碼器中最后三層中提取語義豐富的特征圖送到AGD中。首先對低空間分辨率的特征圖進行雙線性插值;再將上采樣后的特征圖進行通道壓縮,壓縮可以抑制通道間不相關信息;然后將壓縮后的特征和上層的高空間分辨率的特征圖進行相加,實現特征融合;最后,將三個特征圖進行融合,得到最終目標區域(左右心室)的空間注意力映射圖。

AGD的計算過程如下:Xi∈RC×H×W,i∈(3, 4, 5)為網絡編碼器第3、4、5層分別提取的特征圖。特征壓縮和特征融合如式(1)~式(2)所示:
![]() |
![]() |
其中, F4表示融合了X4和X5的融合特征,F3表示融合了X3和F4的融合特征,WC5和WC4分別表示相對應的通道壓縮卷積,作用是將下層經過線性插值后的特征圖通道壓縮至和上層通道數一致;W4表示用于融合X4和X5的特征融合卷積;表示上下兩層的特征圖逐像素相加;T表示轉置符號。最終,AGD的輸出Y計算如式(3)所示:
![]() |
其中,W3表示用于融合X3和F4的特征融合卷積;WOUT表示輸出卷積,輸出通道為1;表示S型激活函數(sigmoid)。
傳統的計算機視覺中注意力機制自動生成注意力圖,但生成過程通常難以解釋[19]。為此,本文在AGD中引入深監督策略。在遵循從粗到細的分割策略中,首先生成一個二值標簽yb,其中前景為整個左右兩心室部分,背景為超聲心動圖中除心室以外其他所有部分。yb計算如式(4)所示:
![]() |
其中, yl和yr分別代表左、右心室的二值標簽,然后利用二值損失函數Lb計算yb與注意力圖Y之間的二值損失l,其中Lb由交叉熵損失LC和戴斯損失LD組合而成,如式(5)~式(6)所示:
![]() |
![]() |
此二值損失l用于指導AGD中的參數更新。通過引入深監督,注意力圖Y由輸入圖像的二值標簽yb監督。這樣,先完成了左右二心室分割任務的分解任務,即首先提取整個心室區域,然后再將心室區域細分成左心室和右心室部分。這樣的任務分解遵循了由粗到細的分割策略,降低了同時分割左右心室的難度。與傳統的注意力機制相比,本文方法的注意力圖的產生更具說服力和可解釋性。
1.2 帶有參數的跳躍連接
為了矯正編碼器產生的特征圖,本文將AGD生成的注意力圖集成到網絡編碼器和預測解碼器的跳躍連接中。在跳躍連接中,還引入額外的殘差路徑恢復原始特征圖的信息,進一步提高分割性能。與傳統殘差連接相比,殘差路徑中αi, i∈(1, 2, 3, 4, 5)代表網絡的可學習參數,在網絡反向傳播過程中更新,如圖1所示。經過矯正后的特征圖FZi, i∈(1, 2, 3, 4, 5)計算如式(7)所示:
![]() |
其中,Fi, i∈(1, 2, 3, 4, 5)代表編碼器產生的原始特征圖,Yi, i∈(1, 2, 3, 4, 5)代表AGD產生的空間注意力圖Y經過尺寸調整后的結果,矯正后的特征圖FZi被送到預測解碼器中進行左右心室的分割預測。帶有參數的跳躍連接可以增加網絡的非線性能力,幫助網絡找出每條殘差路徑中最優參數,從而提高跳躍連接的有效性。
1.3 CAM
編碼器產生的低級特征和AGD生成的注意力圖相乘,實現空間注意力矯正。然后,經過空間注意力矯正的低級特征和預測解碼器輸出的高級特征進行通道拼接,如圖1所示。由于特征語義級別不同,跳躍連接的兩個輸入對于分割任務有不同的重要性。其中來自編碼器的特征通道主要包含低級信息,包括邊緣、紋理等底層特征,用于捕捉圖像的細節和局部結構;而來自預測解碼器的特征通道包含更多語義信息,用于描述全局結構和語義分割等高級特征。因此,為了更好地挖掘最有用的特征通道,引入了通道注意力機制,自動突出相關的特征通道,同時抑制不相關的通道。本文所提出的CAM的細節如圖3所示。

輸入x表示通道拼接之后的特征圖,首先使用全局平均池化和全局最大池化獲取每個通道的全局信息,輸出分別表示為Pavg(x)和Pmax(x)。多層感知機(multilayer perceptron,MLP)用于獲得通道注意力系數β,MLP由兩個全連接層實現,其中第一層的輸出通道為C/r,然后經過線性整流函數(rectified liner units,ReLU),第二層的輸出通道為C,設置r = 2獲得性能和計算成本的平衡。對于Pavg(x)和Pmax(x)使用的MLP是權值共享的,它們的結果相加再經過sigmoid得到β。CAM的輸出yCAM通過殘差連接實現,如式(8)所示:
![]() |
1.4 SAM
在皮膚病分割任務中,對于不同大小的皮膚病變,不同尺度的特征圖與其具有不同的相關性,SAM能夠自動確定每個像素的尺度權重,以便網絡能夠自適應不同大小的分割目標[20]。類似地,在兒科心動圖心室分割任務中,小兒心室部分差異過大,給兒童心室分割帶來了挑戰。因此,為了更好地強化心室多尺度的邊緣細節,提升分割精度,本文采用了皮膚病分割任務中的SAM。該模塊被放置于網絡末端,如圖1所示。
SAM的網絡結構圖如圖4所示,首先使用雙線性插值將解碼器得到的不同尺度下的特征圖Si, i∈(1, 2, 3, 4)重新采樣原始圖像大小。為了降低計算成本,利用1 × 1卷積將這些特征圖壓縮為4個通道,并將不同尺度的壓縮結果拼接成混合特征圖 作為SAM的輸入。與CAM相類似,將全局平均池化和全局最大池化與共享權值的MLP結合,以獲得每個通道的系數。由于這里的輸入
融合了解碼器不同尺度的特征圖,所以這里的通道系數就是不同尺度下的特征圖與分割對象具有的相關性,即尺度注意力系數。尺度注意力系數向量記為
。為了在每個像素上分布多尺度注意力權重,本文額外使用空間注意力模塊(spatial attention module,LA*),以
作為輸入,生成空間級注意力系數
,因此
就表示每個尺度的像素級注意力。LA*由一個3 × 3和一個1 × 1的卷積層組成,它們輸出通道均為4。SAM也使用了殘差連接進行訓練,其輸出ySAM的計算過程如式(9)所示:

![]() |
由于網絡預測解碼器會產生不同尺度的特征圖,SAM可以幫助網絡找到其中對分割結果作用最有效的尺度的特征圖,并給與它更大的權重,有效地保留了圖像邊緣信息。
2 實驗和結果分析
為了驗證AGD對于最后分割結果的效果,本文在編碼器產生的不同尺度特征圖組合下依次進行了實驗對比。此外,為了驗證SAM對于分割效果的有效性,選擇解碼器不同尺度特征圖組合進行分割預測,選擇效果最優的組合。最后,為了驗證算法的優越性,將所提出方法與經典算法以及最新的醫學圖像分割方法做了對比實驗,并給出實驗分析。
2.1 實驗數據
本文使用的數據由上海兒童醫學中心采集。原始數據包含65個三維(three dimensional,3D)兒童超聲心動圖視頻序列。這些數據來自飛利浦超聲診斷儀(iE33,Philips,美國),兒童患者年齡從0~2歲不等。所有數據均獲得患者監護人的知情同意,并且通過了上海交通大學醫學院附屬上海兒童醫學中心的本地倫理審查委員會的批準(批文編號:SCMCIRB-Y2020056)。經過預處理和標注,生成了包括2 280張含完整左右心室的二維(two dimensional,2D)兒科超聲心動圖像及對應的標簽,然后按照3:1:1的比例依次劃分為訓練集、驗證集和測試集。由于網絡中AGD需要二值標簽進行監督,所以本文還對標簽額外進行了二值處理。
2.2 實驗環境及設置
實驗環境為:操作系統Windows(10 64位,Microsoft,美國);顯卡RTX 2060 SUPER(Nvidia,美國),編譯集成環境PyCharm 2021(JetBrains,捷克),最大迭代輪數設為400。本文選擇適應性矩估計(adaptive moment estimation,Adam)作為優化器進行訓練,批大小設置為8,權重衰減為10?5,采用動態學習率,初始學習率設置為10?2,其更新過程如式(10)所示:
![]() |
其中,lr表示當前學習率,lr0表示初始學習率,e是當前迭代輪數,Ne為總迭代輪數,kmin為初始學習率乘上的最小比例,設置kmin = 10?2。
2.3 評估指標
本文主要針對左、右心室兩個區域的分割精度進行評價。分別以戴斯相似系數(Dice similarity coefficient,DSC)、左右心室分割的精確率(precision)和召回率(recall)評估預測分割結果。其中,DSC用于度量兩個集合的相似度,計算如式(11)所示:
![]() |
其中,Ra和Rb分別表示算法分割的區域和標簽,真陽性(true positive,TP)表示預測為正樣本,實際為正樣本;假陽性(false positive,FP)表示預測為正樣本,實際為負樣本;假陰性(false negative,FN)表示預測為負樣本,實際為正樣本。
precision和recall的定義如式(12)、式(13)所示:
![]() |
![]() |
為了給出更加清晰的定量分析,分別計算出左心室分割的precision(left ventricular precision,L-pre)、左心室分割的recall(left ventricular recall,L-recall)、右心室分割的precision(right ventricular precision,R-pre)和右心室分割的recall(right ventricular recall,R-recall)。
2.4 消融實驗
2.4.1 AGD對分割結果的影響
AGD輸出的注意力圖會返回到網絡中,通過跳躍連接引導特征圖更加關注ROI區域。因此,本文首先研究AGD特征融合過程和其輸出返回到網絡跳躍連接中位置(連接層)的影響。結果如表1所示,加粗字體表示每列最優值,下劃線表示次優值。

這里U-net表示僅使用基本骨架U-net進行訓練,AGD(1~k),(k = 2, 3, 4, 5)表示AGD融合了編碼器第3、4、5層特征圖特征的基礎上,輸出作用于網絡編碼器第1~k層。如表1所示,AGD的引入會在U-net基礎上提升網絡的分割性能,當注意力圖引導網絡編碼器的特征層數升高時,網絡的分割性能也會有所提升。當注意力圖作用于網絡編碼器第1~5層時得到分割定量結果的最佳值,DSC達到了89.97%,L-recall和R-recall也均是最優值。為了驗證AGD內部特征融合部分對網絡的影響,在注意力圖作用于編碼器第1~5層的基礎上,本文將編碼器不同層的特征圖組合作為AGD的輸入進行實驗。AGD(1~5, X3 + X4)表示將編碼器第3、4層特征圖組合作為AGD的輸入進行特征融合,AGD(1~5, X4 + X5)表示將編碼器第4、5層特征圖組合作為輸入進行特征融合。如表1所示,雖然不同組合的特征圖作為AGD的輸入和U-net相比,會有效提升網絡性能,但是,當把編碼器第3、4、5層特征圖進行融合能達到最佳的效果。
2.4.2 SAM對分割結果的影響
為了研究不同尺度特征圖的組合對左右二心室分割的影響,本文將解碼器不同尺度的特征圖進行拼接作為SAM的輸入進行消融實驗。SAM(1~k)(k = 2, 3, 4, 5)表示將解碼器第1~k層的特征圖進行拼接。
定量比較結果如表2所示,加粗字體表示每列最優值,下劃線表示次優值。本研究發現,多個尺度的特征組合優于只使用U-net的情況。將尺度 1~4的特征進行拼接時,DSC獲得了89.44%的最佳值。然而,當把5個尺度的特征全部結合起來時,DSC有了大幅度的下降。這表明最低分辨率水平的特征圖不適合進行像素級的預測。因此,在網絡中只融合了尺度1~4的特征。

2.5 各類分割算法分割左右心室效果的對比
在這項工作中,本文將所提出的方法與7種醫學圖像分割領域的網絡進行了對比,其中注意力U-net(attention U-net)[21]、嵌套U-net(U-net++)[22]和深度研究實驗室v3+網絡(Deeplabv3+)[23]是醫學圖像分割領域的經典網絡;先驗注意力網絡(prior attention network,PAnet)、改進U-net(refining U-net,RU-net)和殘差空洞U-net(residual dilation U-net,ResDUnet)[24]是超聲圖像分割領域最新的方法,有效性在左心室內外邊界(心內膜和心外膜)分割和左心室分割任務中均得到了驗證。本文將這7種方法與提出的方法均在自采集的數據集上進行了實驗。
不同算法在左右二心室分割驗證集上的定量結果如表3所示,加粗字體表示每列最優值,下劃線表示次優值,可以看出所有的分割算法在DSC上都有很好的表現,本文的方法獲得了90.63%的DSC,比U-net的87.54%提高了3.09%。雖然在L-pre和R-pre得分上,本文的方法略低于ResDUnet,但是,在recall得分上,本文的方法又取得了所有分割算法中最優結果。其中,L-recall為87.90%,R-recall為86.29%,主要是因為AGD生成的注意力映射可以細化編碼器產生的特征圖,幫助模型更準確地檢測到心室區域,實現粗分割,在最終的細化分割中引入了SAM,結合了解碼器不同尺度的特征,對左右心室區域進行更精細的預測,因此recall更高。

不同分割算法的分割結果可視化如圖5所示,原始圖像1邊緣輪廓清晰;原始圖像2亮度不均勻且存在偽影,紅線框突出了一些錯誤的分割區域。可以看到其他算法會出現錯誤分割的問題,如attention U-net會將背景預測為心室,U-net++會把右心室錯誤預測為左心室。對比而言,本文的算法分割結果和標簽吻合度最高。

分割結果邊緣的可視化如圖6所示,圖6中本文方法與DSC得分較高的其他三個方法進行了比較,第1、2行分別為右心室和左心室分割的邊緣可視化,圖6中紅色箭頭突出了一些分割不準確的邊界。可以看出:和其他的方法相比,無論是在左右心室中間心肌部分,還是在左心室的前側壁部分,本文方法分割的邊界和標簽邊界重合度最高。同時,在右心室邊界的分割上也能達到很高的精度,這是因為本文采用了CAM與SAM,使網絡更加關注對提升分割精確度更重要的相關特征通道與尺度特征。因此分割結果更準確,邊界部分丟失的預測區域也更少。

3 結論
本文提出了一種基于兒科超聲心動圖心室分割的雙解碼器模型,遵循了由粗到細的分割策略,實現了兒童超聲心動圖的雙側心室高精度分割。其中,由AGD生成的注意力圖引導編碼器關注分割對象,增強了模型的魯棒性。AGD結合深監督使注意力的產生更具有可解釋性。同時,本文還通過CAM與SAM,將多通道、多尺度特征融合,提升了分割效果。本文提出的分割模型比經典U-net以及一些最新的醫學圖像分割網絡具有更高的分割精度,能夠同時分割左右心室并且提升了心室邊緣分割的準確性,可以為臨床診斷提供有力的參考依據。本課題組今后的研究擬增加心臟超聲圖數據,例如其他成像角度的數據,并將2D分割任務拓展到3D分割任務。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:龐俊主要負責模型搭建、實驗設計、算法實現和論文撰寫。王永雄主要負責提供實驗指導和論文審閱修訂。陳麗君、劉金龍負責兒科超聲心動數據采集和標注。張佳鵬和裴剛負責數據的記錄和分析。
倫理聲明:本研究通過了上海交通大學醫學院附屬上海兒童醫學中心機構倫理委員會的審批(批文編號:SCMCIRB-Y2020056)。
0 引言
先天性心臟病(congenital heart disease,CHD)在全國多地均位居新生兒出生缺陷首位,也是心血管外科治療患者數排行第二位的病種[1]。超聲心動圖儀是目前臨床常規心臟檢查中使用最廣泛的心臟成像設備,對心血管疾病的診斷和評估起著至關重要的作用。臨床評價指標,如心臟舒張期末期容積(end-diastolic volume,ED)、收縮期末期容積(end-systolic volume,ES)和射血分數(ejection fractions,EF)的計算十分重要,這些參數的獲取需要對超聲心動圖中的心室進行準確分割。然而,要實現超聲心動圖心室的精確分割還存在諸多困難,如心肌和血池之間的對比度低、超聲圖像中含有的偽影,以及不同病患心臟結構的形狀、質地和運動變異性等差異較大,均會影響最終的分割結果[2-3]。尤其對于嬰幼兒等兒科患者來說,患者間心臟大小樣本方差較大、心率較快,超聲心動圖心臟邊界相較成人更加模糊[4],因此對兒科超聲心動圖進行分割更加困難。
根據已有文獻顯示,現有的超聲心動圖分割主要集中在左心室分割[5-9]。Carneiro等[5]提出了一種左心室心內膜跟蹤方法,采用多個動態分割模型和深度學習方法實現了精確的左心室分割。Leclerc等[6]在超聲心動圖像分割任務中對比了常用的深度學習方法、結構化的隨機森林方法以及B樣條顯性活動表面模型,發現基于U型網絡(U-net)模型[7]的準確率和效率最高。Moradi等[8]結合特征金字塔和擴張卷積模型,利用解碼器所有尺度的特征預測分割,得到了更準確的左心室內膜分割邊緣。Leclerc等[9]提出一種多階段的方法,包括用于定位的區域生成網絡(region proposal network,RPN)和用于分割的U-net,有效提高了左心室分割的準確性。另一方面,隨著心臟病學的發展,右心室的分割在提高心血管疾病診斷效率上扮演著越來越重要的角色,并且它可以為左心室的分割提供有價值的信息以作參考。然而,目前尚缺乏同時分割左右心室的方法,為此本文旨在探索一種實現左右心室同時分割的有效方法。
針對超聲心動圖邊界模糊、分割困難等問題,現有方法大多采用級聯網絡,遵循由粗到細的分割策略[10-12]。例如,Bullock等[10]提出了X射線圖像分割級聯網絡(X-Net)以加強邊界分割。Du等[11]在級聯網絡中采用膨脹卷積和多層池化模塊代替普通卷積,提取多尺度特征分割右心室。Leclerc等[12]設計了一種多級注意力網絡,其一級分割網絡生成心室和心肌部分的總體二值映射,所得結果和輸入圖像相乘作為二級分割網絡輸入,分別分割心室和心肌部分。該方法有效地減少了邊界的錯誤分割,但整體精度沒有明顯提高。在上述使用級聯策略的網絡中,各個網絡相對獨立,訓練過程困難,容易導致欠擬合,導致此類方法無法顯著提高分割精度。針對這一問題,本文設計了一種雙解碼器的網絡模型,產生心室區域注意力和最終分割結果,在粗分割和細分割任務中僅使用同一個編碼器,在單個網絡中實現了傳統級聯網絡的兩個步驟,緩解了欠擬合的問題。
受人類知覺和視覺認知的啟發,Itti等[13]提出了注意力機制,它可以明顯提高網絡性能,并且已廣泛用于突出感興趣區域(region of interest,ROI)和抑制無關信息[14-16]。超聲心臟圖像中存在大量噪聲,這可能導致分割精度降低,為此,在現有心臟圖像分析中也大量使用注意力機制以強化心室區域[17-18]。Song等[17]設計了多尺度注意力機制和雙邊注意力模塊提高心臟7個子結構區域的分割精度。Guo等[18]在超聲心動圖分割任務中提出了一個雙路徑特征提取模塊(dual-path feature extraction module,DP-FEM),通過通道注意力機制強化判別性的特征。同時,他們還設計了基于空間注意力的高低特征融合模塊(high-and-low-level feature fusion module,HL-FFM),將來自高層特征的豐富語義信息與低層特征的空間信息進行選擇性融合。這些基于注意力的方法,有效改善了模型在心臟邊界處的預測結果。受此啟發,本文嘗試在網絡層面以及模塊層面分別使用多種不同的注意力策略。具體而言,即在網絡層面,通過注意力預測圖,引導兩個解碼器。同時,針對注意力圖生成過程中可能缺乏解釋性的問題,引入深監督策略,以提升注意力引導的可解釋性和有效性。在模塊層面,本文針對小兒心臟大小隨年齡增長變化顯著以及心室邊界模糊的特性,采用了尺度注意力模塊(scale attention module,SAM)和通道注意力模塊(channel attention module,CAM)以強化邊緣并保留更多的上下文信息。
綜上所述,本文提出了一種新的用于兒科超聲心動圖雙側心室分割的雙解碼器網絡模型。該模型重點關注心室邊緣分割精度的提升,以提高兒科CHD的診斷、預后和治療的效率。主要創新包括:① 本研究設計了雙解碼器網絡模型,將注意力引導解碼器(attention-guided decoder,AGD)集成到網絡的參數化跳躍連接中,用于生成空間注意力,進而改善編碼器產生的特征圖,從而加強心室區域的全局信息;再利用預測解碼器對左右兩心室區域細分;最終期望該模型能改善傳統級聯網絡的欠擬合問題,有效提升心室和邊緣的分割精度。② 在AGD中引入深監督策略,以期提升注意力引導的可解釋性和有效性。③ 為了解決小兒心室大小隨年齡增長變化顯著、超聲心動圖心室邊界模糊等客觀因素所引起的心室邊界分割不準確的問題,本文提出采用SAM為不同尺度特征圖分配注意力權重,同時使用帶有全局平均池化和全局最大池化的CAM加權重要特征通道,以求保留更多全局上下文信息。本研究期望實現雙側心室分割,同時有效提升心室分割網絡模型的性能,使得需要借助精確分割結果來進行定量評估的心臟血流動力學參數更具有臨床意義。
1 注意力引導的雙側心室分割模型
本文設計的網絡模型由AGD、參數化跳躍連接、帶有CAM和SAM的預測解碼器組成。網絡模型的骨干網絡采用強魯棒性的U-net,具體表現為:在編碼特征提取階段,卷積層采用3 × 3卷積核,每一層輸出的通道維數依次為64、128、256、512、512;X3、X4、X5為網絡編碼器第3、4、5層分別提取的特征圖;在解碼特征融合階段,卷積層同樣采用3×3卷積核,每一層輸出的通道維數依次為512、256、128、64;同時在編碼器和解碼器之間采用含參數ai(i = 1, 2, ···, 5)的跳躍連接,詳細結構如圖1所示。

網絡模型的整個分割過程利用雙解碼器實現由粗到細的分割策略。AGD執行粗分割步驟,通過從編碼器中提取語義豐富的特征,生成空間注意力圖,從而指導后續的左右二心室分割任務。為了提高細分割性能,加速收斂,本文還在AGD中引入深監督,即利用輸入圖像的二值標簽監督生成的注意力圖。與目前基于注意力的醫學圖像分割方法在“黑箱”中產生注意力相比,AGD生成注意力的過程更具有可解釋性。預測解碼器部分包含4個CAM和1個SAM,執行細分割步驟。CAM用于細化網絡中低層和高層拼接特征,使更多相關的通道被賦予更高的加權系數。最后,本文綜合利用預測解碼器產生的多尺度特征進行預測,采用SAM強化最相關尺度的特征,再經過輸出通道為3的1×1卷積層和歸一化指數函數柔性最大(softmax)層得到最終的分割結果。下面詳細介紹模型的重點部分。
1.1 結合深監督策略的AGD
在由粗到細的級聯分割策略中,分割的第一步是粗分割,以期找到輸入圖像中的ROI。本文提出了一個AGD執行粗分割。具體而言,即AGD生成與ROI相關的注意力圖,再通過參數化的跳躍連接將注意力圖集成到網絡中以細化特征表示,進而提高左右二心室分割性能。
AGD的基本網絡結構是基于全卷積網絡(fully convolutional networks,FCN)的特征融合模塊,如圖2所示。為了減少參數和硬件占用,從編碼器中最后三層中提取語義豐富的特征圖送到AGD中。首先對低空間分辨率的特征圖進行雙線性插值;再將上采樣后的特征圖進行通道壓縮,壓縮可以抑制通道間不相關信息;然后將壓縮后的特征和上層的高空間分辨率的特征圖進行相加,實現特征融合;最后,將三個特征圖進行融合,得到最終目標區域(左右心室)的空間注意力映射圖。

AGD的計算過程如下:Xi∈RC×H×W,i∈(3, 4, 5)為網絡編碼器第3、4、5層分別提取的特征圖。特征壓縮和特征融合如式(1)~式(2)所示:
![]() |
![]() |
其中, F4表示融合了X4和X5的融合特征,F3表示融合了X3和F4的融合特征,WC5和WC4分別表示相對應的通道壓縮卷積,作用是將下層經過線性插值后的特征圖通道壓縮至和上層通道數一致;W4表示用于融合X4和X5的特征融合卷積;表示上下兩層的特征圖逐像素相加;T表示轉置符號。最終,AGD的輸出Y計算如式(3)所示:
![]() |
其中,W3表示用于融合X3和F4的特征融合卷積;WOUT表示輸出卷積,輸出通道為1;表示S型激活函數(sigmoid)。
傳統的計算機視覺中注意力機制自動生成注意力圖,但生成過程通常難以解釋[19]。為此,本文在AGD中引入深監督策略。在遵循從粗到細的分割策略中,首先生成一個二值標簽yb,其中前景為整個左右兩心室部分,背景為超聲心動圖中除心室以外其他所有部分。yb計算如式(4)所示:
![]() |
其中, yl和yr分別代表左、右心室的二值標簽,然后利用二值損失函數Lb計算yb與注意力圖Y之間的二值損失l,其中Lb由交叉熵損失LC和戴斯損失LD組合而成,如式(5)~式(6)所示:
![]() |
![]() |
此二值損失l用于指導AGD中的參數更新。通過引入深監督,注意力圖Y由輸入圖像的二值標簽yb監督。這樣,先完成了左右二心室分割任務的分解任務,即首先提取整個心室區域,然后再將心室區域細分成左心室和右心室部分。這樣的任務分解遵循了由粗到細的分割策略,降低了同時分割左右心室的難度。與傳統的注意力機制相比,本文方法的注意力圖的產生更具說服力和可解釋性。
1.2 帶有參數的跳躍連接
為了矯正編碼器產生的特征圖,本文將AGD生成的注意力圖集成到網絡編碼器和預測解碼器的跳躍連接中。在跳躍連接中,還引入額外的殘差路徑恢復原始特征圖的信息,進一步提高分割性能。與傳統殘差連接相比,殘差路徑中αi, i∈(1, 2, 3, 4, 5)代表網絡的可學習參數,在網絡反向傳播過程中更新,如圖1所示。經過矯正后的特征圖FZi, i∈(1, 2, 3, 4, 5)計算如式(7)所示:
![]() |
其中,Fi, i∈(1, 2, 3, 4, 5)代表編碼器產生的原始特征圖,Yi, i∈(1, 2, 3, 4, 5)代表AGD產生的空間注意力圖Y經過尺寸調整后的結果,矯正后的特征圖FZi被送到預測解碼器中進行左右心室的分割預測。帶有參數的跳躍連接可以增加網絡的非線性能力,幫助網絡找出每條殘差路徑中最優參數,從而提高跳躍連接的有效性。
1.3 CAM
編碼器產生的低級特征和AGD生成的注意力圖相乘,實現空間注意力矯正。然后,經過空間注意力矯正的低級特征和預測解碼器輸出的高級特征進行通道拼接,如圖1所示。由于特征語義級別不同,跳躍連接的兩個輸入對于分割任務有不同的重要性。其中來自編碼器的特征通道主要包含低級信息,包括邊緣、紋理等底層特征,用于捕捉圖像的細節和局部結構;而來自預測解碼器的特征通道包含更多語義信息,用于描述全局結構和語義分割等高級特征。因此,為了更好地挖掘最有用的特征通道,引入了通道注意力機制,自動突出相關的特征通道,同時抑制不相關的通道。本文所提出的CAM的細節如圖3所示。

輸入x表示通道拼接之后的特征圖,首先使用全局平均池化和全局最大池化獲取每個通道的全局信息,輸出分別表示為Pavg(x)和Pmax(x)。多層感知機(multilayer perceptron,MLP)用于獲得通道注意力系數β,MLP由兩個全連接層實現,其中第一層的輸出通道為C/r,然后經過線性整流函數(rectified liner units,ReLU),第二層的輸出通道為C,設置r = 2獲得性能和計算成本的平衡。對于Pavg(x)和Pmax(x)使用的MLP是權值共享的,它們的結果相加再經過sigmoid得到β。CAM的輸出yCAM通過殘差連接實現,如式(8)所示:
![]() |
1.4 SAM
在皮膚病分割任務中,對于不同大小的皮膚病變,不同尺度的特征圖與其具有不同的相關性,SAM能夠自動確定每個像素的尺度權重,以便網絡能夠自適應不同大小的分割目標[20]。類似地,在兒科心動圖心室分割任務中,小兒心室部分差異過大,給兒童心室分割帶來了挑戰。因此,為了更好地強化心室多尺度的邊緣細節,提升分割精度,本文采用了皮膚病分割任務中的SAM。該模塊被放置于網絡末端,如圖1所示。
SAM的網絡結構圖如圖4所示,首先使用雙線性插值將解碼器得到的不同尺度下的特征圖Si, i∈(1, 2, 3, 4)重新采樣原始圖像大小。為了降低計算成本,利用1 × 1卷積將這些特征圖壓縮為4個通道,并將不同尺度的壓縮結果拼接成混合特征圖 作為SAM的輸入。與CAM相類似,將全局平均池化和全局最大池化與共享權值的MLP結合,以獲得每個通道的系數。由于這里的輸入
融合了解碼器不同尺度的特征圖,所以這里的通道系數就是不同尺度下的特征圖與分割對象具有的相關性,即尺度注意力系數。尺度注意力系數向量記為
。為了在每個像素上分布多尺度注意力權重,本文額外使用空間注意力模塊(spatial attention module,LA*),以
作為輸入,生成空間級注意力系數
,因此
就表示每個尺度的像素級注意力。LA*由一個3 × 3和一個1 × 1的卷積層組成,它們輸出通道均為4。SAM也使用了殘差連接進行訓練,其輸出ySAM的計算過程如式(9)所示:

![]() |
由于網絡預測解碼器會產生不同尺度的特征圖,SAM可以幫助網絡找到其中對分割結果作用最有效的尺度的特征圖,并給與它更大的權重,有效地保留了圖像邊緣信息。
2 實驗和結果分析
為了驗證AGD對于最后分割結果的效果,本文在編碼器產生的不同尺度特征圖組合下依次進行了實驗對比。此外,為了驗證SAM對于分割效果的有效性,選擇解碼器不同尺度特征圖組合進行分割預測,選擇效果最優的組合。最后,為了驗證算法的優越性,將所提出方法與經典算法以及最新的醫學圖像分割方法做了對比實驗,并給出實驗分析。
2.1 實驗數據
本文使用的數據由上海兒童醫學中心采集。原始數據包含65個三維(three dimensional,3D)兒童超聲心動圖視頻序列。這些數據來自飛利浦超聲診斷儀(iE33,Philips,美國),兒童患者年齡從0~2歲不等。所有數據均獲得患者監護人的知情同意,并且通過了上海交通大學醫學院附屬上海兒童醫學中心的本地倫理審查委員會的批準(批文編號:SCMCIRB-Y2020056)。經過預處理和標注,生成了包括2 280張含完整左右心室的二維(two dimensional,2D)兒科超聲心動圖像及對應的標簽,然后按照3:1:1的比例依次劃分為訓練集、驗證集和測試集。由于網絡中AGD需要二值標簽進行監督,所以本文還對標簽額外進行了二值處理。
2.2 實驗環境及設置
實驗環境為:操作系統Windows(10 64位,Microsoft,美國);顯卡RTX 2060 SUPER(Nvidia,美國),編譯集成環境PyCharm 2021(JetBrains,捷克),最大迭代輪數設為400。本文選擇適應性矩估計(adaptive moment estimation,Adam)作為優化器進行訓練,批大小設置為8,權重衰減為10?5,采用動態學習率,初始學習率設置為10?2,其更新過程如式(10)所示:
![]() |
其中,lr表示當前學習率,lr0表示初始學習率,e是當前迭代輪數,Ne為總迭代輪數,kmin為初始學習率乘上的最小比例,設置kmin = 10?2。
2.3 評估指標
本文主要針對左、右心室兩個區域的分割精度進行評價。分別以戴斯相似系數(Dice similarity coefficient,DSC)、左右心室分割的精確率(precision)和召回率(recall)評估預測分割結果。其中,DSC用于度量兩個集合的相似度,計算如式(11)所示:
![]() |
其中,Ra和Rb分別表示算法分割的區域和標簽,真陽性(true positive,TP)表示預測為正樣本,實際為正樣本;假陽性(false positive,FP)表示預測為正樣本,實際為負樣本;假陰性(false negative,FN)表示預測為負樣本,實際為正樣本。
precision和recall的定義如式(12)、式(13)所示:
![]() |
![]() |
為了給出更加清晰的定量分析,分別計算出左心室分割的precision(left ventricular precision,L-pre)、左心室分割的recall(left ventricular recall,L-recall)、右心室分割的precision(right ventricular precision,R-pre)和右心室分割的recall(right ventricular recall,R-recall)。
2.4 消融實驗
2.4.1 AGD對分割結果的影響
AGD輸出的注意力圖會返回到網絡中,通過跳躍連接引導特征圖更加關注ROI區域。因此,本文首先研究AGD特征融合過程和其輸出返回到網絡跳躍連接中位置(連接層)的影響。結果如表1所示,加粗字體表示每列最優值,下劃線表示次優值。

這里U-net表示僅使用基本骨架U-net進行訓練,AGD(1~k),(k = 2, 3, 4, 5)表示AGD融合了編碼器第3、4、5層特征圖特征的基礎上,輸出作用于網絡編碼器第1~k層。如表1所示,AGD的引入會在U-net基礎上提升網絡的分割性能,當注意力圖引導網絡編碼器的特征層數升高時,網絡的分割性能也會有所提升。當注意力圖作用于網絡編碼器第1~5層時得到分割定量結果的最佳值,DSC達到了89.97%,L-recall和R-recall也均是最優值。為了驗證AGD內部特征融合部分對網絡的影響,在注意力圖作用于編碼器第1~5層的基礎上,本文將編碼器不同層的特征圖組合作為AGD的輸入進行實驗。AGD(1~5, X3 + X4)表示將編碼器第3、4層特征圖組合作為AGD的輸入進行特征融合,AGD(1~5, X4 + X5)表示將編碼器第4、5層特征圖組合作為輸入進行特征融合。如表1所示,雖然不同組合的特征圖作為AGD的輸入和U-net相比,會有效提升網絡性能,但是,當把編碼器第3、4、5層特征圖進行融合能達到最佳的效果。
2.4.2 SAM對分割結果的影響
為了研究不同尺度特征圖的組合對左右二心室分割的影響,本文將解碼器不同尺度的特征圖進行拼接作為SAM的輸入進行消融實驗。SAM(1~k)(k = 2, 3, 4, 5)表示將解碼器第1~k層的特征圖進行拼接。
定量比較結果如表2所示,加粗字體表示每列最優值,下劃線表示次優值。本研究發現,多個尺度的特征組合優于只使用U-net的情況。將尺度 1~4的特征進行拼接時,DSC獲得了89.44%的最佳值。然而,當把5個尺度的特征全部結合起來時,DSC有了大幅度的下降。這表明最低分辨率水平的特征圖不適合進行像素級的預測。因此,在網絡中只融合了尺度1~4的特征。

2.5 各類分割算法分割左右心室效果的對比
在這項工作中,本文將所提出的方法與7種醫學圖像分割領域的網絡進行了對比,其中注意力U-net(attention U-net)[21]、嵌套U-net(U-net++)[22]和深度研究實驗室v3+網絡(Deeplabv3+)[23]是醫學圖像分割領域的經典網絡;先驗注意力網絡(prior attention network,PAnet)、改進U-net(refining U-net,RU-net)和殘差空洞U-net(residual dilation U-net,ResDUnet)[24]是超聲圖像分割領域最新的方法,有效性在左心室內外邊界(心內膜和心外膜)分割和左心室分割任務中均得到了驗證。本文將這7種方法與提出的方法均在自采集的數據集上進行了實驗。
不同算法在左右二心室分割驗證集上的定量結果如表3所示,加粗字體表示每列最優值,下劃線表示次優值,可以看出所有的分割算法在DSC上都有很好的表現,本文的方法獲得了90.63%的DSC,比U-net的87.54%提高了3.09%。雖然在L-pre和R-pre得分上,本文的方法略低于ResDUnet,但是,在recall得分上,本文的方法又取得了所有分割算法中最優結果。其中,L-recall為87.90%,R-recall為86.29%,主要是因為AGD生成的注意力映射可以細化編碼器產生的特征圖,幫助模型更準確地檢測到心室區域,實現粗分割,在最終的細化分割中引入了SAM,結合了解碼器不同尺度的特征,對左右心室區域進行更精細的預測,因此recall更高。

不同分割算法的分割結果可視化如圖5所示,原始圖像1邊緣輪廓清晰;原始圖像2亮度不均勻且存在偽影,紅線框突出了一些錯誤的分割區域。可以看到其他算法會出現錯誤分割的問題,如attention U-net會將背景預測為心室,U-net++會把右心室錯誤預測為左心室。對比而言,本文的算法分割結果和標簽吻合度最高。

分割結果邊緣的可視化如圖6所示,圖6中本文方法與DSC得分較高的其他三個方法進行了比較,第1、2行分別為右心室和左心室分割的邊緣可視化,圖6中紅色箭頭突出了一些分割不準確的邊界。可以看出:和其他的方法相比,無論是在左右心室中間心肌部分,還是在左心室的前側壁部分,本文方法分割的邊界和標簽邊界重合度最高。同時,在右心室邊界的分割上也能達到很高的精度,這是因為本文采用了CAM與SAM,使網絡更加關注對提升分割精確度更重要的相關特征通道與尺度特征。因此分割結果更準確,邊界部分丟失的預測區域也更少。

3 結論
本文提出了一種基于兒科超聲心動圖心室分割的雙解碼器模型,遵循了由粗到細的分割策略,實現了兒童超聲心動圖的雙側心室高精度分割。其中,由AGD生成的注意力圖引導編碼器關注分割對象,增強了模型的魯棒性。AGD結合深監督使注意力的產生更具有可解釋性。同時,本文還通過CAM與SAM,將多通道、多尺度特征融合,提升了分割效果。本文提出的分割模型比經典U-net以及一些最新的醫學圖像分割網絡具有更高的分割精度,能夠同時分割左右心室并且提升了心室邊緣分割的準確性,可以為臨床診斷提供有力的參考依據。本課題組今后的研究擬增加心臟超聲圖數據,例如其他成像角度的數據,并將2D分割任務拓展到3D分割任務。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:龐俊主要負責模型搭建、實驗設計、算法實現和論文撰寫。王永雄主要負責提供實驗指導和論文審閱修訂。陳麗君、劉金龍負責兒科超聲心動數據采集和標注。張佳鵬和裴剛負責數據的記錄和分析。
倫理聲明:本研究通過了上海交通大學醫學院附屬上海兒童醫學中心機構倫理委員會的審批(批文編號:SCMCIRB-Y2020056)。