阿爾茨海默病(AD)是一種進行性、不可逆的神經系統退行性疾病,基于磁共振成像(MRI)的神經影像學檢查是進行AD篩查與診斷最直觀、可靠的方法之一。臨床上頭顱MRI檢測會產生多模態影像數據,為解決多模態MRI處理與信息融合的問題,本文提出基于廣義卷積神經網絡(gCNN)的結構MRI和功能MRI特征提取與融合方法。該方法針對結構MRI提出基于混合注意力機制的三維殘差U型網絡(3D HA-ResUNet)進行特征表示與分類;針對功能MRI提出U型圖卷積神經網絡(U-GCN)進行腦功能網絡的節點特征表示與分類。在兩類影像特征融合的基礎上,基于離散二進制粒子群優化算法篩選最優特征子集,并使用機器學習分類器輸出預測結果。來自AD神經影像學計劃(ADNI)開源數據庫的多模態數據集驗證結果表明,本文所提出的模型在各自數據域內都有優秀的表現,而gCNN框架結合了兩類模型的優勢,進一步提高使用單一模態MRI的方法性能,將分類準確率和敏感性分別提升了5.56%和11.11%。綜上,本文所提出的基于gCNN的多模態MRI分類方法可以為AD的輔助診斷提供技術基礎。
引用本文: 覃智威, 劉釗, 陸允敏, 朱平. 基于廣義卷積神經網絡的阿爾茨海默病多模態磁共振圖像分類方法研究. 生物醫學工程學雜志, 2023, 40(2): 217-225. doi: 10.7507/1001-5515.202212046 復制
0 引言
阿爾茨海默病(Alzheimer’s disease,AD)是一種起病隱匿、進行性發展的神經系統退行性疾病,臨床上以記憶障礙、語言障礙、執行功能障礙以及人格和行為改變等全面性癡呆表現為特征。隨著AD病程進展加深,將嚴重影響患者的生活質量,以至威脅生命健康[1-2]。AD的發病機制迄今尚不明確,臨床癡呆階段的AD患者往往已經出現不可逆的神經功能損傷,難以通過治療逆轉病程。早發現、早診斷、早治療是目前延緩AD進展的最有效方式。得益于醫學成像技術和設備的不斷發展,磁共振成像(magnetic resonance imaging,MRI)為人類大腦的結構和功能研究提供了不同的觀察視角,也成為基于神經影像的AD檢測與診斷中最規范和廣泛使用的方法之一。其中,結構MRI(structural MRI,sMRI)通過三維(three-dimensional,3D)視角展現腦組織結構,直觀地提供組織結構的病變等信息,也為進一步的測量分析提供基礎[3];功能MRI(functional MRI,fMRI)基于大腦進行某項活動時局部腦區血氧水平的變化,可提供腦區活動情況的客觀數據[4]。
為了優化傳統的手工或半自動閱片流程,避免大量時間消耗和過度依賴專家的個人知識和經驗,近年來,基于經典機器學習和深度學習的MRI處理方法已展開了大量研究。針對sMRI數據特點開展圖像特征提取方法的研究,可根據特征表示結果對受試者進行分類,從而能夠為AD的臨床診斷提供重要依據。在使用sMRI對AD病程階段進行分類的研究中,研究者使用基于體素的形態學測量(voxel-based morphometry,VBM)等方法提取圖像特征(如灰質體積、白質體積、大腦皮層厚度等),并將這些數值化的特征輸入到基于機器學習方法的分類器中進行分類[5-7]。而與傳統圖像處理方法相比,深度學習具有獨特優勢:深度學習模型可以通過端到端訓練進行自動特征提取與表示。作為深度學習的代表性技術,卷積神經網絡(convolutional neural network,CNN)在sMRI特征表示與分類方面的應用得到了廣泛研究。研究者通過設計二維(two-dimensional,2D)CNN框架從不同的切片方向對3D sMRI進行特征提取與分類[8-9],或直接構建3D CNN模型對sMRI數據整體進行特征學習[10-11]。
另一方面,雖然同樣可以使用深度學習方法將fMRI作為類似sMRI的圖像數據進行處理[12-13],但因為fMRI包含時間序列,屬于四維圖像,一般的3D CNN對于這類數據的表示能力有限。而比較適合fMRI的處理方法是將其由圖像數據轉化為基于圖論的腦功能連接網絡,針對復雜腦功能連接網絡的分析可以為揭示大腦功能活動變化及與疾病相關的變化提供定量的參考[14]。由fMRI構建的腦功能連接網絡屬于不規則數據,以CNN為代表的深度神經網絡不能直接應用其上,因而需要研究圖神經網絡(graph neural networks,GNN)來進行不規則數據的特征表示學習。在神經科學領域,圖卷積神經網絡(graph convolutional networks,GCN)是最常應用于腦連接研究中的GNN模型[15],其擴展了CNN的表示學習能力,使其可以應用于圖形式的復雜腦功能連接網絡數據。研究者在構建腦功能連接網絡時,基于圖論分析獲取節點附加特征[16],使圖數據的信息量更為豐富,并建立GCN模型對數據進行特征表示與分類[17-19]。
對于臨床前期的AD檢測,僅僅使用單一模態的MRI數據很多時候未必能滿足早期診斷的需要。因而在臨床實踐中,往往是獲取多種模態的神經影像,針對多模態數據進行綜合分析。雖然國內外學者分別針對sMRI與fMRI的處理開展了許多研究,但是相關研究很少能同時考慮兩種模態的MRI數據,并構建一個處理多模態MRI的深度學習框架,因此本文面向AD的輔助診斷,設計兩類CNN模型分別進行兩種模態的MRI數據特征學習:①針對sMRI建立基于混合注意力機制的3D殘差U型網絡(3D residual U-shaped network based on hybrid attention mechanism,3D HA-ResUNet)模型,并將這一U型CNN框架拓展至圖數據領域,構建針對fMRI的U型GCN(U-shaped GCN,U-GCN)模型;②在兩類模型基礎上,通過特征融合與特征選擇,實現更高精度的AD綜合輔助診斷。所提出的框架如圖1所示,既能針對單一模態MRI進行處理,又能結合兩種模態影像信息得出綜合輔助診斷依據。由于兩類CNN所應用的數據域不同,因此本文提出的兩類CNN模型綜合簡稱廣義CNN(generalized CNN,gCNN)。

1 數據處理
1.1 數據來源
本研究所使用的數據來自開源數據庫AD神經影像學計劃(AD neuroimaging initiative,ADNI)(http://adni.loni.usc.edu/),ADNI包含AD早期檢測的多模態影像學、臨床、遺傳和生化指標等多維度數據供研究者公開使用。根據研究需要,本文選取ADNI中配套的T1加權sMRI及靜息態fMRI(resting-state fMRI,rs-fMRI)。數據集包含44個AD樣本和47個正常隊列(normal cohort,NC)樣本。由于sMRI和fMRI的特點不同,以及后續所使用的分析方法不同,需要分別針對這兩類MRI進行不同的預處理。
1.2 sMRI預處理
T1加權sMRI直觀而清晰地展現了腦組織結構,其成像特點更符合人類的視覺感知特性,本文基于計算機編程語言Python 3.6.0(Python Software Foundation,美國)采用一般化的預處理流程:① 顱骨去除(skull-stripping),將圖像中顱骨及其它外部組織分割去除,僅保留顱內的腦灰質和腦白質等關鍵組織;② 圖像剪裁,將圖像中無關的背景部分(通常是暗黑色背景)進行剪裁;③ 圖像尺寸縮放,將圖像縮放至后續3D CNN模型的數據輸入尺寸;④ 圖像歸一化,將圖像的像素值歸一化,如式(1)所示:
![]() |
其中,x為圖像的像素值,μ(x)和σ(x)分別為像素值的均值與標準差。
1.3 fMRI預處理
通過fMRI建立腦功能連接網絡,是研究大腦不同區域之間內在功能聯系及連接強度的有效方法。本研究針對rs-fMRI構建腦功能連接網絡,獲取fMRI的圖表示,再將這一圖表示作為后續GCN的輸入,利用GCN實現圖數據的節點嵌入,最終完成圖像分類任務。為了構建腦功能連接網絡的圖表示,首先基于標準步驟對rs-fMRI進行預處理,包括:時間校正、頭動校正、標準化、空間平滑、消除協變量影響、消除趨勢和時域濾波。
2 方法
本文所提出的基于gCNN的多模態MRI分類框架如圖1所示,包含基于gCNN的雙模態MRI特征提取階段、特征融合與特征選擇階段以及分類預測階段。針對sMRI數據,提出3D HA-ResUNet進行特征表示;針對fMRI數據,將CNN中發揮強大表示學習能力的U型網絡(U-Net)框架拓展到圖數據域,提出U-GCN模型進行腦功能連接網絡節點特征表示。對兩類模態數據特征進行向量融合,并基于優化算法進行最優特征子集篩選,使用機器學習方法構造特征分類器輸出預測結果,獲得AD的綜合輔助診斷依據。
2.1 3D CNN模型構建
本文所提出的3D CNN模型架構如圖2所示,包含下采樣與上采樣左右分支的U-Net骨架[20]和殘差連接模塊。模型左半分支利用輸入層接收3D圖像輸入,初始卷積模塊包含一層3D卷積層(3D convolution,Conv3D),每個下采樣模塊均包含兩層Conv3D層與一層3D平均池化層。右半分支的上采樣模塊包含一層3D上采樣層和Conv3D層,其后連接混合注意力模塊,最后的卷積模塊由一層Conv3D層和3D全局平均池化(global average pooling,GAP)層組成,經由全連接層輸出模型的預測結果。殘差連接模塊充當U-Net左右分支間的連接橋梁,特征通過殘差連接的方式進行融合以處理深度神經網絡中的梯度消失問題[21]。每個殘差連接塊由Conv3D層、批量標準化層以及修正線性單元(rectified linear unit,ReLU)激活函數組成,圖2中的“⊕”表示矩陣對應元素相加。在此基礎上,融合包含空間注意力與高效通道注意力機制的混合注意力模塊,以進一步提升模型的分類性能。所提出的混合注意力模塊包含由3D GAP層、一維卷積層(one-dimensional convolution,Conv1D)和S型生長曲線(sigmoid)激活函數組成的通道注意力部分,以及由并行的平均池化層與最大池化層、3D特征圖拼接層和Conv3D層組成的空間注意力部分,圖2中“?”表示矩陣點乘運算。混合注意力模塊可以很好地與U-Net的跳躍連接相結合:通過網絡左右分支同尺度間的跳躍連接充分融合基于混合注意力提取的低層級與高層級特征。將這兩類特征連接起來,不僅集成了低層級與高層級特征,并能根據網絡的特性以及所處理圖像數據的屬性分配注意力權重,使得模型可以關注不同層級特征中更有價值的信息。

其中,3D空間注意力塊接收C個維度為H × W × D的3D特征圖輸入(以符號F in表示),通過通道平均池化(以符號AvgPool表示)和最大池化(以符號MaxPool表示)將每個特征圖輸入轉化為兩個新的3D特征圖,并在通道方向上將兩個新的3D特征圖進行拼接(以符號[ ; ]表示)。利用Conv3D對拼接后的特征圖進行卷積運算,生成一個3D空間注意力矩陣(以符號Wspatial表示),其值即為分配給3D特征圖的空間注意力權重。C個3D特征圖共享同一個3D空間注意力矩陣,最終輸出的特征圖(以符號表示,c表示不同通道)是每個原始輸入特征圖(以符號
表示)與這個3D空間注意力矩陣的哈達瑪積(以符號
表示)。3D空間注意力塊的求解如式(2)~式(3)所示:
![]() |
![]() |
3D通道注意力塊基于擠壓—激勵網絡(squeeze-and-excitation networks,SENet)[22]的經典架構建立,通過GAP將輸入的C個維度為H × W × D的3D特征圖(F in)壓縮成一個1×1×C的特征向量。采用Conv1D和sigmoid激活函數(以σ(·)表示)來生成一維通道注意力權重()。最終,將原始輸入特征圖與通道注意力向量相乘以獲得新的特征圖(Fout),其中每個3D特征圖被賦予不同的通道權重。3D通道注意力塊的計算過程如式(4)~式(5)所示:
![]() |
![]() |
2.2 GCN模型構建
定義一組頂點(或節點)為V,頂點間的連接為E,節點間的鄰接關系以鄰接矩陣A表示,節點的特征以矩陣X來表示,則圖可以記為G = (V, E, A, X)。通過定義rs-fMRI圖像中的節點并建立節點間的連接得到大腦復雜網絡的圖表示。使用基于大腦結構的解剖圖譜來分割固定的空間感興趣區(region of interest,ROI)實現腦節點的定義[23-24];節點之間的連接對應于ROI之間的時間序列的相關性,不同節點間的相關性計算結果構成了一個對稱的腦功能連接矩陣。
在對腦功能連接網絡進行特征表示時,使用GCN來進行圖的特征映射。圖卷積操作旨在通過聚合節點本身及其鄰接節點的特征來生成新的節點表示。對于多層GCN,每層卷積層接收前一層的節點特征輸出,特征信息處理規則如式(6)所示[25]:
![]() |
其中, 是考慮自身節點信息的鄰接矩陣,
是對
的行求和的對角陣。σ是激活函數,W (l)是要在網絡第l層訓練的權重矩陣。H (l + 1)和H (l)分別是第l + 1層和第l層的節點特征輸入,首層(l = 0)的節點特征輸入即為H (0) = X,X為原始圖的節點特征矩陣。
本文基于GCN的節點表示方法,提出結合節點附加特征的U-GCN建模方法,模型架構如圖3所示。U-GCN也包含作為編碼器的左半分支,作為解碼器的右半分支,以及左右分支間的連接模塊。左半分支的輸入層接收原始圖數據輸入,編碼器包含兩個圖下采樣模塊,每個圖下采樣模塊均包含一層GCN層、ReLU激活函數與圖下采樣層。右半分支解碼器包含兩個圖上采樣模塊,每個模塊均包含一層圖上采樣層、GCN層和ReLU激活函數。上采樣后由GAP層完成圖的粗化,丟棄(dropout)層防止模型過擬合,最終由全連接層輸出模型預測結果。左右分支的連接模塊則由3個包含GCN層與ReLU激活函數的子模塊組成。

與圖像這類網格化的數據不同,圖中的節點沒有空間位置和順序信息,因此CNN中的下采樣與上采樣方法需要重新設計以應用于圖數據。本文所設計的圖下采樣核心思路是根據特征得分排序,選擇一組節點子集形成一個更小的圖,保證新的子圖中相應節點的連接與原圖一致[26],如式(7)~式(10)所示:
![]() |
![]() |
![]() |
![]() |
其中,p為線性(linear)函數中可學習的投影向量,b為偏差分量,T為轉置符號,使用sigmoid函數計算特征向量得分yscore;index為得分高的k個子節點的索引;A和X為輸入的鄰接矩陣與節點特征矩陣,Adown與Xdown是圖下采樣后的鄰接矩陣與節點特征矩陣;是具有C個元素的單位向量,C為節點特征維度;
表示兩個同階矩陣間逐元素相乘的哈達瑪積。
經過圖下采樣,n個節點的圖輸入變為k個節點的新圖。圖上采樣則是逆向操作,把k個節點的圖重新擴展為n節點,同時保持原n節點的圖中各個節點的連接關系,如式(11)~式(12)所示:
![]() |
![]() |
其中,j表示節點索引編號,Xup與Aup是圖上采樣后的節點特征矩陣與鄰接矩陣,Xinput與A為輸入的節點特征矩陣與下采樣前的鄰接矩陣,是值為0的行向量。
在U-GCN中,跳躍連接可以在各級圖結構上實現信息跨網絡層的傳遞與融合,其節點特征聚合規則如式(13)所示:
![]() |
其中,Xencoder和Xdecoder分別為網絡左分支編碼器與右分支解碼器在對應層級上圖的節點特征矩陣,跳躍連接將左右節點特征直接累加實現聚合得到Xaggregation。而左右分支對應層級的圖結構相同,即鄰接矩陣Aencoder和Adecoder保持不變,如式 (14) 所示:
![]() |
2.3 特征融合與特征選擇
經過gCNN的特征表示過程,分屬不同域的MRI數據特征,如sMRI中的組織體素密度、結構空間關系;fMRI腦功能連接網絡的功能活動屬性、節點信息傳輸效率等,均可被神經網絡提取并抽象,最終都轉化為數值特征形式。特征融合與特征選擇等特征工程得以在這些數值特征上開展。
sMRI經由3D HA-ResUNet產生包含抽象語義信息的3D特征圖,通過3D GAP將3D特征圖壓縮為一維特征向量。基于fMRI的腦功能連接網絡經由U-GCN實現節點嵌入,產生新的圖,再通過GAP將節點特征聚合完成圖粗化,獲得一維特征向量。通過一維特征向量首尾拼接獲得維度增加的融合特征向量,其維度為兩類特征向量之和,特征向量的計算過程如式(15)所示:
![]() |
其中,和
分別表示來自sMRI的3D特征圖和來自fMRI腦功能連接網絡的圖,3D GAP表示針對3D特征圖的GAP計算,GraphGAP表示針對圖的GAP計算,concat(·)表示特征向量拼接,f out為融合特征向量。
為進一步篩選出最優特征子集,充分發揮融合特征的優勢,本節研究采用粒子群優化算法(particle swarm optimization,PSO)[27]進行包裹式特征選擇。通過PSO的粒子尋優,搜索一組包含0和1的特征掩碼x,掩碼維度等于問題維度D,也即特征維數;掩碼x與融合特征f逐元素相乘即產生經過篩選的特征子集。通常情況下粒子的位置是連續變化的,而特征掩碼中則為0和1的離散變量,因此使用二進制版本PSO解決0和1的離散變量優化問題[28]。對于第i個粒子的第t+1迭代步,速度和其中第d維分量的位置
更新公式如式(16)和式(17)所示:
![]() |
![]() |
其中,上標t表示第t迭代步,xi(t)和vi(t)分別是第i個粒子在第t迭代步的位置和速度,pi(t)為第i個粒子截止到第t迭代步所搜索到的個體最優解,g(t)是全部粒子截止到第t迭代步所搜索到的全局最優解。ω為慣性系數,c1和c2分別是認知系數和社會系數,r1和r2是在[0, 1]區間生成的隨機數。S(·)為sigmoid函數,如式(18)所示:
![]() |
其中,x為函數輸入,e為自然常數。
待優化算法迭代收斂或達到最大迭代數后獲得最終的掩碼向量。最優掩碼向量與融合特征向量逐元素相乘篩選出最優特征子集。該最優特征子集輸入到基于機器學習方法構造的特征分類器中,輸出分類預測結果,獲得AD的綜合輔助診斷依據。
3 結果
3.1 分類方法評價指標
本研究通過構建深度學習模型,將輸入的腦MRI數據轉換至特征空間,根據提取的特征對影像進行分類,屬于分類問題,故而采用經典的分類評估指標對模型進行評價:準確率(accuracy,ACC)、敏感性(sensitivity,SEN)、特異性(specificity,SPE)、精確度(precision,PRE)。各指標的計算如式(19)~式(22)所示:
![]() |
![]() |
![]() |
![]() |
其中,真陽性(true positive,TP)表示正類別中模型正確預測樣本的數量;真陰性(true negative,TN)表示負類別中模型正確預測樣本的數量;假陽性(false positive,FP)表示負類別中模型錯誤預測樣本的數量;假陰性(false negative,FN)表示正類別中模型錯誤預測樣本的數量。針對本研究所使用的ADNI數據集,陽性為AD樣本,陰性為NC樣本。在這些指標中,SEN也被稱為真陽性率,SPE被稱為真陰性率,它們屬于醫學診斷領域中的關鍵指標。
除了使用經典的分類評估指標來評價分類模型精度,本文還進一步使用更為綜合的指標,綜合考慮SEN與SPE的幾何平均值(geometric mean,G-mean),如式(23)所示:
![]() |
3.2 對比方法
為了測試所提出的gCNN模型對于sMRI與rs-fMRI的特征提取與分類性能,以及將兩類MRI圖像特征融合的效果,本節從基于CNN(面向圖像特征提取)與GCN(面向圖表示)的方法中各選了幾種具有代表性的方法進行比較。
(1)基于sMRI數據的方法
用于sMRI數據處理的方法包括基于多層極限學習機(multilayer extreme learning machine,ML-ELM)[29]的3D ML-ELM模型和基于CNN的方法:不同網絡深度,即分別具有49層和17層卷積層的3D殘差網絡(residual network,ResNet)[21]:3D ResNet50和3D ResNet18。
(2)基于fMRI數據的方法
針對fMRI數據,基于GCN的方法從不同角度對圖的結構表示、節點的特征聚合與嵌入形式進行設計,包括:① 以節點為中心進行鄰域采樣的GCN(GraphSAGE)[30];② 使用多個圖卷積核的拓撲自適應GCN(topology adaptive GCN,TAGCN)[31];③ 考慮高階圖結構的GNN(higher-order GNN)[32]。
3.3 實驗結果分析與討論
對于ADNI中收集的sMRI-fMRI配套數據樣本,以7:1:2的比例將數據集隨機劃分為訓練集、驗證集和測試集。根據2.3節中的離散二進制PSO算法,對融合了結構與功能MRI特征的向量進行特征選擇。在50次迭代后,PSO算法收斂,最終產生特征選擇結果:融合特征由128維降為51維,作為后續分類的輸入。
不同方法的計算結果如表1所示。在僅使用sMRI數據的方法對比中,本文所提出的3D HA-ResUNet綜合表現最優:整體ACC比排第二的3D ResNet50高5.56%;獲得了100%的SEN,即方法將所有AD樣本篩出。在僅使用fMRI數據的各方法對比中,本文所提出的U-GCN展現出較明顯的優勢:各項評估指標均得分最高,在SEN與SPE間也表現出良好的平衡。Higher-order GNN方法表現次之,TAGCN與GraphSAGE方法表現相當,這3個對比方法均有較明顯預測偏向,容易將輸入樣本預測為AD樣本(即陽性)。

在3D HA-ResUNet與U-GCN特征提取與融合的基礎之上,結合基于PSO的特征選擇,gCNN模型的預測性能進一步提升:對比其它方法,各項評估指標均是最優;相比單獨使用fMRI數據也表現較好的U-GCN方法,多模態特征融合使得ACC、SEN與G-mean分數分別提升了5.56%、11.11%和5.04%。特別地,在不降低SPE的情況下,將SEN提升至100%,展現出優秀的AD樣本篩檢潛力。因此,所提出的gCNN模型由于同時考慮結構與功能MRI數據特征,可以結合兩類模態MRI處理方法的優勢,展現更優的泛化能力。
4 結論
本文針對AD早期診斷需要綜合考慮多模態MRI信息的問題,研究多模態圖像的特征聯合表示框架,提出了基于gCNN的結構和功能MRI特征提取與融合方法。所提出的方法使用3D HA-ResUNet提取SMRI特征,使用U-GCN進行fMRI腦功能連接網絡的節點嵌入,融合兩者特征并基于離散二進制PSO進行最優特征子集篩選,最終基于機器學習分類器輸出輔助診斷依據。多模態數據集驗證結果表明,所提出的AD綜合輔助診斷模型結合了3D HA-ResUNet和U-GCN兩種方法在各自數據域的優勢,進一步提高使用單一模態MRI的方法性能,將ACC和SEN分別提升了5.56%和11.11%。本研究展現了基于gCNN的多模態MRI特征提取與融合方法的有效性,為AD的輔助診斷提供技術基礎。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:覃智威負責算法研究與程序設計,實驗數據處理,文章構思與論文撰寫;劉釗負責論文框架設計與論文修改;陸允敏負責項目統籌,數據收集及論文審閱;朱平負責選題指導,數據分析指導及論文審閱修訂。
0 引言
阿爾茨海默病(Alzheimer’s disease,AD)是一種起病隱匿、進行性發展的神經系統退行性疾病,臨床上以記憶障礙、語言障礙、執行功能障礙以及人格和行為改變等全面性癡呆表現為特征。隨著AD病程進展加深,將嚴重影響患者的生活質量,以至威脅生命健康[1-2]。AD的發病機制迄今尚不明確,臨床癡呆階段的AD患者往往已經出現不可逆的神經功能損傷,難以通過治療逆轉病程。早發現、早診斷、早治療是目前延緩AD進展的最有效方式。得益于醫學成像技術和設備的不斷發展,磁共振成像(magnetic resonance imaging,MRI)為人類大腦的結構和功能研究提供了不同的觀察視角,也成為基于神經影像的AD檢測與診斷中最規范和廣泛使用的方法之一。其中,結構MRI(structural MRI,sMRI)通過三維(three-dimensional,3D)視角展現腦組織結構,直觀地提供組織結構的病變等信息,也為進一步的測量分析提供基礎[3];功能MRI(functional MRI,fMRI)基于大腦進行某項活動時局部腦區血氧水平的變化,可提供腦區活動情況的客觀數據[4]。
為了優化傳統的手工或半自動閱片流程,避免大量時間消耗和過度依賴專家的個人知識和經驗,近年來,基于經典機器學習和深度學習的MRI處理方法已展開了大量研究。針對sMRI數據特點開展圖像特征提取方法的研究,可根據特征表示結果對受試者進行分類,從而能夠為AD的臨床診斷提供重要依據。在使用sMRI對AD病程階段進行分類的研究中,研究者使用基于體素的形態學測量(voxel-based morphometry,VBM)等方法提取圖像特征(如灰質體積、白質體積、大腦皮層厚度等),并將這些數值化的特征輸入到基于機器學習方法的分類器中進行分類[5-7]。而與傳統圖像處理方法相比,深度學習具有獨特優勢:深度學習模型可以通過端到端訓練進行自動特征提取與表示。作為深度學習的代表性技術,卷積神經網絡(convolutional neural network,CNN)在sMRI特征表示與分類方面的應用得到了廣泛研究。研究者通過設計二維(two-dimensional,2D)CNN框架從不同的切片方向對3D sMRI進行特征提取與分類[8-9],或直接構建3D CNN模型對sMRI數據整體進行特征學習[10-11]。
另一方面,雖然同樣可以使用深度學習方法將fMRI作為類似sMRI的圖像數據進行處理[12-13],但因為fMRI包含時間序列,屬于四維圖像,一般的3D CNN對于這類數據的表示能力有限。而比較適合fMRI的處理方法是將其由圖像數據轉化為基于圖論的腦功能連接網絡,針對復雜腦功能連接網絡的分析可以為揭示大腦功能活動變化及與疾病相關的變化提供定量的參考[14]。由fMRI構建的腦功能連接網絡屬于不規則數據,以CNN為代表的深度神經網絡不能直接應用其上,因而需要研究圖神經網絡(graph neural networks,GNN)來進行不規則數據的特征表示學習。在神經科學領域,圖卷積神經網絡(graph convolutional networks,GCN)是最常應用于腦連接研究中的GNN模型[15],其擴展了CNN的表示學習能力,使其可以應用于圖形式的復雜腦功能連接網絡數據。研究者在構建腦功能連接網絡時,基于圖論分析獲取節點附加特征[16],使圖數據的信息量更為豐富,并建立GCN模型對數據進行特征表示與分類[17-19]。
對于臨床前期的AD檢測,僅僅使用單一模態的MRI數據很多時候未必能滿足早期診斷的需要。因而在臨床實踐中,往往是獲取多種模態的神經影像,針對多模態數據進行綜合分析。雖然國內外學者分別針對sMRI與fMRI的處理開展了許多研究,但是相關研究很少能同時考慮兩種模態的MRI數據,并構建一個處理多模態MRI的深度學習框架,因此本文面向AD的輔助診斷,設計兩類CNN模型分別進行兩種模態的MRI數據特征學習:①針對sMRI建立基于混合注意力機制的3D殘差U型網絡(3D residual U-shaped network based on hybrid attention mechanism,3D HA-ResUNet)模型,并將這一U型CNN框架拓展至圖數據領域,構建針對fMRI的U型GCN(U-shaped GCN,U-GCN)模型;②在兩類模型基礎上,通過特征融合與特征選擇,實現更高精度的AD綜合輔助診斷。所提出的框架如圖1所示,既能針對單一模態MRI進行處理,又能結合兩種模態影像信息得出綜合輔助診斷依據。由于兩類CNN所應用的數據域不同,因此本文提出的兩類CNN模型綜合簡稱廣義CNN(generalized CNN,gCNN)。

1 數據處理
1.1 數據來源
本研究所使用的數據來自開源數據庫AD神經影像學計劃(AD neuroimaging initiative,ADNI)(http://adni.loni.usc.edu/),ADNI包含AD早期檢測的多模態影像學、臨床、遺傳和生化指標等多維度數據供研究者公開使用。根據研究需要,本文選取ADNI中配套的T1加權sMRI及靜息態fMRI(resting-state fMRI,rs-fMRI)。數據集包含44個AD樣本和47個正常隊列(normal cohort,NC)樣本。由于sMRI和fMRI的特點不同,以及后續所使用的分析方法不同,需要分別針對這兩類MRI進行不同的預處理。
1.2 sMRI預處理
T1加權sMRI直觀而清晰地展現了腦組織結構,其成像特點更符合人類的視覺感知特性,本文基于計算機編程語言Python 3.6.0(Python Software Foundation,美國)采用一般化的預處理流程:① 顱骨去除(skull-stripping),將圖像中顱骨及其它外部組織分割去除,僅保留顱內的腦灰質和腦白質等關鍵組織;② 圖像剪裁,將圖像中無關的背景部分(通常是暗黑色背景)進行剪裁;③ 圖像尺寸縮放,將圖像縮放至后續3D CNN模型的數據輸入尺寸;④ 圖像歸一化,將圖像的像素值歸一化,如式(1)所示:
![]() |
其中,x為圖像的像素值,μ(x)和σ(x)分別為像素值的均值與標準差。
1.3 fMRI預處理
通過fMRI建立腦功能連接網絡,是研究大腦不同區域之間內在功能聯系及連接強度的有效方法。本研究針對rs-fMRI構建腦功能連接網絡,獲取fMRI的圖表示,再將這一圖表示作為后續GCN的輸入,利用GCN實現圖數據的節點嵌入,最終完成圖像分類任務。為了構建腦功能連接網絡的圖表示,首先基于標準步驟對rs-fMRI進行預處理,包括:時間校正、頭動校正、標準化、空間平滑、消除協變量影響、消除趨勢和時域濾波。
2 方法
本文所提出的基于gCNN的多模態MRI分類框架如圖1所示,包含基于gCNN的雙模態MRI特征提取階段、特征融合與特征選擇階段以及分類預測階段。針對sMRI數據,提出3D HA-ResUNet進行特征表示;針對fMRI數據,將CNN中發揮強大表示學習能力的U型網絡(U-Net)框架拓展到圖數據域,提出U-GCN模型進行腦功能連接網絡節點特征表示。對兩類模態數據特征進行向量融合,并基于優化算法進行最優特征子集篩選,使用機器學習方法構造特征分類器輸出預測結果,獲得AD的綜合輔助診斷依據。
2.1 3D CNN模型構建
本文所提出的3D CNN模型架構如圖2所示,包含下采樣與上采樣左右分支的U-Net骨架[20]和殘差連接模塊。模型左半分支利用輸入層接收3D圖像輸入,初始卷積模塊包含一層3D卷積層(3D convolution,Conv3D),每個下采樣模塊均包含兩層Conv3D層與一層3D平均池化層。右半分支的上采樣模塊包含一層3D上采樣層和Conv3D層,其后連接混合注意力模塊,最后的卷積模塊由一層Conv3D層和3D全局平均池化(global average pooling,GAP)層組成,經由全連接層輸出模型的預測結果。殘差連接模塊充當U-Net左右分支間的連接橋梁,特征通過殘差連接的方式進行融合以處理深度神經網絡中的梯度消失問題[21]。每個殘差連接塊由Conv3D層、批量標準化層以及修正線性單元(rectified linear unit,ReLU)激活函數組成,圖2中的“⊕”表示矩陣對應元素相加。在此基礎上,融合包含空間注意力與高效通道注意力機制的混合注意力模塊,以進一步提升模型的分類性能。所提出的混合注意力模塊包含由3D GAP層、一維卷積層(one-dimensional convolution,Conv1D)和S型生長曲線(sigmoid)激活函數組成的通道注意力部分,以及由并行的平均池化層與最大池化層、3D特征圖拼接層和Conv3D層組成的空間注意力部分,圖2中“?”表示矩陣點乘運算。混合注意力模塊可以很好地與U-Net的跳躍連接相結合:通過網絡左右分支同尺度間的跳躍連接充分融合基于混合注意力提取的低層級與高層級特征。將這兩類特征連接起來,不僅集成了低層級與高層級特征,并能根據網絡的特性以及所處理圖像數據的屬性分配注意力權重,使得模型可以關注不同層級特征中更有價值的信息。

其中,3D空間注意力塊接收C個維度為H × W × D的3D特征圖輸入(以符號F in表示),通過通道平均池化(以符號AvgPool表示)和最大池化(以符號MaxPool表示)將每個特征圖輸入轉化為兩個新的3D特征圖,并在通道方向上將兩個新的3D特征圖進行拼接(以符號[ ; ]表示)。利用Conv3D對拼接后的特征圖進行卷積運算,生成一個3D空間注意力矩陣(以符號Wspatial表示),其值即為分配給3D特征圖的空間注意力權重。C個3D特征圖共享同一個3D空間注意力矩陣,最終輸出的特征圖(以符號表示,c表示不同通道)是每個原始輸入特征圖(以符號
表示)與這個3D空間注意力矩陣的哈達瑪積(以符號
表示)。3D空間注意力塊的求解如式(2)~式(3)所示:
![]() |
![]() |
3D通道注意力塊基于擠壓—激勵網絡(squeeze-and-excitation networks,SENet)[22]的經典架構建立,通過GAP將輸入的C個維度為H × W × D的3D特征圖(F in)壓縮成一個1×1×C的特征向量。采用Conv1D和sigmoid激活函數(以σ(·)表示)來生成一維通道注意力權重()。最終,將原始輸入特征圖與通道注意力向量相乘以獲得新的特征圖(Fout),其中每個3D特征圖被賦予不同的通道權重。3D通道注意力塊的計算過程如式(4)~式(5)所示:
![]() |
![]() |
2.2 GCN模型構建
定義一組頂點(或節點)為V,頂點間的連接為E,節點間的鄰接關系以鄰接矩陣A表示,節點的特征以矩陣X來表示,則圖可以記為G = (V, E, A, X)。通過定義rs-fMRI圖像中的節點并建立節點間的連接得到大腦復雜網絡的圖表示。使用基于大腦結構的解剖圖譜來分割固定的空間感興趣區(region of interest,ROI)實現腦節點的定義[23-24];節點之間的連接對應于ROI之間的時間序列的相關性,不同節點間的相關性計算結果構成了一個對稱的腦功能連接矩陣。
在對腦功能連接網絡進行特征表示時,使用GCN來進行圖的特征映射。圖卷積操作旨在通過聚合節點本身及其鄰接節點的特征來生成新的節點表示。對于多層GCN,每層卷積層接收前一層的節點特征輸出,特征信息處理規則如式(6)所示[25]:
![]() |
其中, 是考慮自身節點信息的鄰接矩陣,
是對
的行求和的對角陣。σ是激活函數,W (l)是要在網絡第l層訓練的權重矩陣。H (l + 1)和H (l)分別是第l + 1層和第l層的節點特征輸入,首層(l = 0)的節點特征輸入即為H (0) = X,X為原始圖的節點特征矩陣。
本文基于GCN的節點表示方法,提出結合節點附加特征的U-GCN建模方法,模型架構如圖3所示。U-GCN也包含作為編碼器的左半分支,作為解碼器的右半分支,以及左右分支間的連接模塊。左半分支的輸入層接收原始圖數據輸入,編碼器包含兩個圖下采樣模塊,每個圖下采樣模塊均包含一層GCN層、ReLU激活函數與圖下采樣層。右半分支解碼器包含兩個圖上采樣模塊,每個模塊均包含一層圖上采樣層、GCN層和ReLU激活函數。上采樣后由GAP層完成圖的粗化,丟棄(dropout)層防止模型過擬合,最終由全連接層輸出模型預測結果。左右分支的連接模塊則由3個包含GCN層與ReLU激活函數的子模塊組成。

與圖像這類網格化的數據不同,圖中的節點沒有空間位置和順序信息,因此CNN中的下采樣與上采樣方法需要重新設計以應用于圖數據。本文所設計的圖下采樣核心思路是根據特征得分排序,選擇一組節點子集形成一個更小的圖,保證新的子圖中相應節點的連接與原圖一致[26],如式(7)~式(10)所示:
![]() |
![]() |
![]() |
![]() |
其中,p為線性(linear)函數中可學習的投影向量,b為偏差分量,T為轉置符號,使用sigmoid函數計算特征向量得分yscore;index為得分高的k個子節點的索引;A和X為輸入的鄰接矩陣與節點特征矩陣,Adown與Xdown是圖下采樣后的鄰接矩陣與節點特征矩陣;是具有C個元素的單位向量,C為節點特征維度;
表示兩個同階矩陣間逐元素相乘的哈達瑪積。
經過圖下采樣,n個節點的圖輸入變為k個節點的新圖。圖上采樣則是逆向操作,把k個節點的圖重新擴展為n節點,同時保持原n節點的圖中各個節點的連接關系,如式(11)~式(12)所示:
![]() |
![]() |
其中,j表示節點索引編號,Xup與Aup是圖上采樣后的節點特征矩陣與鄰接矩陣,Xinput與A為輸入的節點特征矩陣與下采樣前的鄰接矩陣,是值為0的行向量。
在U-GCN中,跳躍連接可以在各級圖結構上實現信息跨網絡層的傳遞與融合,其節點特征聚合規則如式(13)所示:
![]() |
其中,Xencoder和Xdecoder分別為網絡左分支編碼器與右分支解碼器在對應層級上圖的節點特征矩陣,跳躍連接將左右節點特征直接累加實現聚合得到Xaggregation。而左右分支對應層級的圖結構相同,即鄰接矩陣Aencoder和Adecoder保持不變,如式 (14) 所示:
![]() |
2.3 特征融合與特征選擇
經過gCNN的特征表示過程,分屬不同域的MRI數據特征,如sMRI中的組織體素密度、結構空間關系;fMRI腦功能連接網絡的功能活動屬性、節點信息傳輸效率等,均可被神經網絡提取并抽象,最終都轉化為數值特征形式。特征融合與特征選擇等特征工程得以在這些數值特征上開展。
sMRI經由3D HA-ResUNet產生包含抽象語義信息的3D特征圖,通過3D GAP將3D特征圖壓縮為一維特征向量。基于fMRI的腦功能連接網絡經由U-GCN實現節點嵌入,產生新的圖,再通過GAP將節點特征聚合完成圖粗化,獲得一維特征向量。通過一維特征向量首尾拼接獲得維度增加的融合特征向量,其維度為兩類特征向量之和,特征向量的計算過程如式(15)所示:
![]() |
其中,和
分別表示來自sMRI的3D特征圖和來自fMRI腦功能連接網絡的圖,3D GAP表示針對3D特征圖的GAP計算,GraphGAP表示針對圖的GAP計算,concat(·)表示特征向量拼接,f out為融合特征向量。
為進一步篩選出最優特征子集,充分發揮融合特征的優勢,本節研究采用粒子群優化算法(particle swarm optimization,PSO)[27]進行包裹式特征選擇。通過PSO的粒子尋優,搜索一組包含0和1的特征掩碼x,掩碼維度等于問題維度D,也即特征維數;掩碼x與融合特征f逐元素相乘即產生經過篩選的特征子集。通常情況下粒子的位置是連續變化的,而特征掩碼中則為0和1的離散變量,因此使用二進制版本PSO解決0和1的離散變量優化問題[28]。對于第i個粒子的第t+1迭代步,速度和其中第d維分量的位置
更新公式如式(16)和式(17)所示:
![]() |
![]() |
其中,上標t表示第t迭代步,xi(t)和vi(t)分別是第i個粒子在第t迭代步的位置和速度,pi(t)為第i個粒子截止到第t迭代步所搜索到的個體最優解,g(t)是全部粒子截止到第t迭代步所搜索到的全局最優解。ω為慣性系數,c1和c2分別是認知系數和社會系數,r1和r2是在[0, 1]區間生成的隨機數。S(·)為sigmoid函數,如式(18)所示:
![]() |
其中,x為函數輸入,e為自然常數。
待優化算法迭代收斂或達到最大迭代數后獲得最終的掩碼向量。最優掩碼向量與融合特征向量逐元素相乘篩選出最優特征子集。該最優特征子集輸入到基于機器學習方法構造的特征分類器中,輸出分類預測結果,獲得AD的綜合輔助診斷依據。
3 結果
3.1 分類方法評價指標
本研究通過構建深度學習模型,將輸入的腦MRI數據轉換至特征空間,根據提取的特征對影像進行分類,屬于分類問題,故而采用經典的分類評估指標對模型進行評價:準確率(accuracy,ACC)、敏感性(sensitivity,SEN)、特異性(specificity,SPE)、精確度(precision,PRE)。各指標的計算如式(19)~式(22)所示:
![]() |
![]() |
![]() |
![]() |
其中,真陽性(true positive,TP)表示正類別中模型正確預測樣本的數量;真陰性(true negative,TN)表示負類別中模型正確預測樣本的數量;假陽性(false positive,FP)表示負類別中模型錯誤預測樣本的數量;假陰性(false negative,FN)表示正類別中模型錯誤預測樣本的數量。針對本研究所使用的ADNI數據集,陽性為AD樣本,陰性為NC樣本。在這些指標中,SEN也被稱為真陽性率,SPE被稱為真陰性率,它們屬于醫學診斷領域中的關鍵指標。
除了使用經典的分類評估指標來評價分類模型精度,本文還進一步使用更為綜合的指標,綜合考慮SEN與SPE的幾何平均值(geometric mean,G-mean),如式(23)所示:
![]() |
3.2 對比方法
為了測試所提出的gCNN模型對于sMRI與rs-fMRI的特征提取與分類性能,以及將兩類MRI圖像特征融合的效果,本節從基于CNN(面向圖像特征提取)與GCN(面向圖表示)的方法中各選了幾種具有代表性的方法進行比較。
(1)基于sMRI數據的方法
用于sMRI數據處理的方法包括基于多層極限學習機(multilayer extreme learning machine,ML-ELM)[29]的3D ML-ELM模型和基于CNN的方法:不同網絡深度,即分別具有49層和17層卷積層的3D殘差網絡(residual network,ResNet)[21]:3D ResNet50和3D ResNet18。
(2)基于fMRI數據的方法
針對fMRI數據,基于GCN的方法從不同角度對圖的結構表示、節點的特征聚合與嵌入形式進行設計,包括:① 以節點為中心進行鄰域采樣的GCN(GraphSAGE)[30];② 使用多個圖卷積核的拓撲自適應GCN(topology adaptive GCN,TAGCN)[31];③ 考慮高階圖結構的GNN(higher-order GNN)[32]。
3.3 實驗結果分析與討論
對于ADNI中收集的sMRI-fMRI配套數據樣本,以7:1:2的比例將數據集隨機劃分為訓練集、驗證集和測試集。根據2.3節中的離散二進制PSO算法,對融合了結構與功能MRI特征的向量進行特征選擇。在50次迭代后,PSO算法收斂,最終產生特征選擇結果:融合特征由128維降為51維,作為后續分類的輸入。
不同方法的計算結果如表1所示。在僅使用sMRI數據的方法對比中,本文所提出的3D HA-ResUNet綜合表現最優:整體ACC比排第二的3D ResNet50高5.56%;獲得了100%的SEN,即方法將所有AD樣本篩出。在僅使用fMRI數據的各方法對比中,本文所提出的U-GCN展現出較明顯的優勢:各項評估指標均得分最高,在SEN與SPE間也表現出良好的平衡。Higher-order GNN方法表現次之,TAGCN與GraphSAGE方法表現相當,這3個對比方法均有較明顯預測偏向,容易將輸入樣本預測為AD樣本(即陽性)。

在3D HA-ResUNet與U-GCN特征提取與融合的基礎之上,結合基于PSO的特征選擇,gCNN模型的預測性能進一步提升:對比其它方法,各項評估指標均是最優;相比單獨使用fMRI數據也表現較好的U-GCN方法,多模態特征融合使得ACC、SEN與G-mean分數分別提升了5.56%、11.11%和5.04%。特別地,在不降低SPE的情況下,將SEN提升至100%,展現出優秀的AD樣本篩檢潛力。因此,所提出的gCNN模型由于同時考慮結構與功能MRI數據特征,可以結合兩類模態MRI處理方法的優勢,展現更優的泛化能力。
4 結論
本文針對AD早期診斷需要綜合考慮多模態MRI信息的問題,研究多模態圖像的特征聯合表示框架,提出了基于gCNN的結構和功能MRI特征提取與融合方法。所提出的方法使用3D HA-ResUNet提取SMRI特征,使用U-GCN進行fMRI腦功能連接網絡的節點嵌入,融合兩者特征并基于離散二進制PSO進行最優特征子集篩選,最終基于機器學習分類器輸出輔助診斷依據。多模態數據集驗證結果表明,所提出的AD綜合輔助診斷模型結合了3D HA-ResUNet和U-GCN兩種方法在各自數據域的優勢,進一步提高使用單一模態MRI的方法性能,將ACC和SEN分別提升了5.56%和11.11%。本研究展現了基于gCNN的多模態MRI特征提取與融合方法的有效性,為AD的輔助診斷提供技術基礎。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:覃智威負責算法研究與程序設計,實驗數據處理,文章構思與論文撰寫;劉釗負責論文框架設計與論文修改;陸允敏負責項目統籌,數據收集及論文審閱;朱平負責選題指導,數據分析指導及論文審閱修訂。