大腦會隨年齡增長而逐漸發生萎縮與機能衰退,并且這種變化的速度和軌跡在腦區間和個體間存在明顯差異。由于神經影像可以反映大腦的健康狀態,因此常用于大腦年齡的預測研究。本文對基于神經影像的腦年齡預測模型研究進行了系統的梳理和回顧,根據影像的模態和特征類型對這些研究進行綜述,剖析了其優缺點。結果顯示,基于神經影像的預測框架具備個體對象腦年齡預測的潛力。最后,本文討論了腦年齡預測中存在的問題,并對未來的研究方向進行了展望。
引用本文: 林嵐, 王婧璇, 付振榮, 鄔雪濤, 吳水才. 腦老化中腦年齡預測模型研究綜述. 生物醫學工程學雜志, 2019, 36(3): 493-498. doi: 10.7507/1001-5515.201804030 復制
引言
人口老齡化是中國在 21 世紀面臨的一項重要挑戰,對社會各個方面都有著深遠的影響[1]。其中,增齡性腦功能衰退和神經退行性疾病給我們社會帶來了日益嚴重的經濟、養老、醫護等社會問題。對于研究者們來說,如何預測與評估老年人增齡性神經退行風險,以及哪些治療方式可能緩解和逆轉這種過程都是值得研究的重要課題。雖然大腦老化是一種自然過程,但在這個過程中,大腦體積、皮質厚度和白質微結構等存在的變化有著明顯的個體差異[2-4]。此外,個體腦老化軌跡相對健康大腦老化平均軌跡的偏離程度,可以反映該個體未來患神經退行性疾病的風險。因此,基于神經影像數據中包含的大腦老化特征模式構建模型,檢測個體大腦的老化軌跡,可為研究大腦老化的個體差異提供新視角。
大腦年齡預測不僅具有重要的科學意義,而且還具有廣泛的臨床價值[5]。英國帝國學院最近的一項研究顯示,老人的腦年齡的預測值和生理年齡間的差距越大,則其精神或身體出現問題的風險就越高,也更容易早逝[6]。大量的研究顯示,多種類型的神經系統疾病、代謝性疾病等都與大腦異常老化相關,如表 1 所示。涉及的特征有:灰質密度圖(grey matter density map,GMD)、白質密度圖(white matter density map,WMD)、白質體積、網絡特征參數等。腦年齡預測模型為探索大腦在衰老過程中的變化以及腦部疾病如何影響正常的大腦老化提供了一種新方法。

本文概括了基于神經影像的腦年齡預測模型的一些典型研究,就這些研究的實驗對象、特征類型、預測模型算法以及預測的準確率等展開介紹,并進一步討論了研究中存在的瓶頸和研究結果的泛化性及可重復性等。盡管本文的關注點為大腦老化,但也涉及了部分幼年和青少年大腦年齡預測的模型。因為從理論設計而言,這些模型都可直接推廣到更寬泛的年齡段后加以應用。
1 基于神經影像的腦年齡預測模型研究現狀
1.1 腦年齡預測模型框架
腦年齡預測模型主要由特征提取、特征選擇(降維)和預測模型三個部分組成。在特征提取過程中,需要從神經影像,如結構磁共振影像(structural magnetic resonance imaging,sMRI)、彌散張量成像(diffusion tensor imaging,DTI)或功能磁共振影像(functional magnetic resonance imaging,fMRI)中提取與腦年齡相關的特征,如 GMD、皮層厚度、腦網絡特征等。對應的特征維度可能從數十維(基于腦區的特征)到上百萬維(基于體素的特征)。因此,對于高維特征還需要通過特征選擇/降維的步驟進行處理。最后,這些特征被送入預測模型進行訓練。在整個預測框架中,特征提取和預測模型的方法選擇尤為重要,本文將根據影像模態的不同,從模型架構、特征類型、特征維度等多方面對文中涉及方法進行介紹和比較。
1.2 基于 sMRI 的研究
sMRI 由于可以被用來分析灰質密度、皮層厚度和皮層曲率等結構信息,如表 2 所示,在腦年齡研究中具有不可替代的作用。增齡性腦萎縮會導致腦區結構以及組織中灰質密度的復雜變化,GMD 常被用于腦年齡的預測。在早期研究中,Franke 等[7]基于 GMD 采用相關向量機獲得了預測模型平均絕對誤差(mean absolute error,MAE)為 4.98 年的優秀結果。在 GMD 特征基礎上,高斯過程回歸[16]、支持向量回歸[17]、尺度子配置等模型均可用于預測腦年齡[18]。由于基于 GMD 的模型具有特征維度高的缺點,所構建的模型容易過擬合,泛化能力差,因此往往需要進行特征選擇/降維處理來避免維度災難。Su 等[19]進一步通過特征選擇,提取與年齡相關性最強的 GMD 體素來構建模型,以少量數據取得了較優的結果。隨著基礎計算方法的不斷改善,深度學習法為神經影像的預測模型構建提供了一條新途徑。基于該項技術的發展,當擁有海量神經影像數據時,已不再需要進行特性提取和選擇,深度網絡能夠自動推斷出神經影像數據的緊湊表示,如 Cole 等[20]略過特征提取這一步驟,直接將 sMRI 數據輸入卷積神經網絡,在模型性能評價上取得了 MAE 為 4.65 年的可喜成績。

腦老化過程中,認知能力的變化與大腦皮層持續而廣泛的變薄過程密切相關。盡管皮層厚度的變化在肉眼上難以分辨,但基于機器學習的模型可以發現這種細微變化。Wang 等[21]通過從皮層頂點提取厚度、曲率和面積等特征,對全年齡段的個體進行了腦年齡預測。Pardoe 等[22]在亞馬遜網絡服務云平臺(https://www.cloudneuro.org/)上構建了基于皮層厚度的相關向量機模型,提供了腦年齡預測的云計算服務。學者們還將個體大腦配準到標準圖譜,基于圖譜實現腦區的劃分,最后從各腦區中提取皮層特征來進行腦年齡的預測。Steffener 等[18]基于腦區的灰質體積,采用尺度子配置模型,對全年齡段的個體進行了年齡預測。
1.3 基于 DTI 的研究
大腦老化會損害白質纖維束的完整性,DTI 利用水分子在白質纖維中的彌散特性,可以反映髓鞘緊密度和完整性等白質纖維束特性[29]。基于 DTI 的預測模型如表 3 所示,從特征類別上來說,主要分成兩類:① 是基于軸向彌散(axial diffusivity,AD)、各向異性分數(fractional anisotropy,FA)、平均彌散率(mean diffusivity, MD)、徑向彌散(radial diffusivivcxty,RD)等 DTI 導出量進行預測,如 Mwangi 等[30]通過 AD、FA、MD 和 RD 等導出量,基于相關向量回歸構建了腦年齡的預測模型;② 是根據腦區間纖維束連接的導出量構建網絡連接矩陣,通過圖論的方法獲取相應的網絡特征,最后基于這些網絡特征建立模型。Lin 等[31]基于腦網絡的全局和局部特征,采用遺傳算法和人工神經網絡構建了腦年齡預測模型。

1.4 基于 fMRI 的研究
大腦老化會導致腦功能連接的改變,而這些改變一般通過靜息態 fMRI 來進行測量。在靜息狀態下,默認網絡中的各區域呈現出協同的規律性振蕩。因此,學者們通過量化不同腦區間的功能連接,捕捉老化過程中的連接變化規律,并進一步采用機器學習實現預測,如表 4 所示。Tian 等[35]基于腦區間的功能連接,采用彈性網絡回歸實現了腦年齡的預測。

1.5 基于多模態圖像的研究
由于不同的影像模態是從不同角度獲取與大腦老化相關的特征信息的,因此從多模態角度出發構建模型可以根據圖像中的互補信息來進行預測。具體多模態模型如表 5 所示,通過多源信息融合,它們可以進一步加深我們對大腦老化的理解。對于來源于不同模態的特征,一種常用的方式是特征疊加。它對不同模態的特征同等對待,但當不同模態特征維度差異較大的時候,維度小的模態對模型貢獻就非常有限。另一種方式是特征融合的方式,它分別訓練不同的模型,再進行融合。

2 研究中存在的問題
當前,由于缺乏全面的算法比較,最優腦年齡預測模型還不好確定,它們各自均展現出不同的優缺點。例如,Sabuncu 等[42]基于 6 個開放數據庫的 2 800 例對象所構建的平臺為不同算法的比較提供了一個全面的、可重復的比較平臺。支持向量回歸是比較常用的預測模型構建方法,即使訓練樣本量小,也可以實現較高精度的預測。但它也存在需要大量的參數調整和優化的缺點。卷積神經網絡由于在自然圖像分類中的巨大成功以及在腦年齡預測模型中的優異性能[43],被認為是一種極具潛力的模型。但與自然圖像不同,神經影像是一種三維或四維的圖像,而且訓練集在數量上比自然圖像要少的多。因此,這也對卷積網絡的架構設計提出了更高要求。
圖像特征的提取受多因素的影響。最廣為使用的 GMD 特征在生成過程中就涉及圖像平滑、體素大小等選擇參數。如果圖像平滑核函數的寬度太小,會丟失一些敏感區。反之,如果平滑核過大,則會降低模型的整體敏感性。Lancaster 等[28]采用貝葉斯算法對體素大小和高斯平滑核函數的寬度的選擇進行優化,結果顯示參數優化可以降低腦年齡預測模型的 MAE 近 10%。貝葉斯算法所選擇的高斯核函數的寬度為 3.68 mm,與通用的 8 mm 的高斯核存在較大差異。所以,我們不僅需要對模型進行最優設計,對于特征提取過程中的參數設置也需要慎重考慮。
模型性能的評價指標一般采用 MAE 來評估,但 MAE 受年齡分布、訓練集對象的數目等的影響,不同數據集的 MAE 并不能直接比較。一般對象的生理年齡越低,同年齡個體的腦差異越小,MAE 值也越小。對于青少年,單模態預測模型的評價指標 MAE 值在 1~2 年間,多模態模型為 1 年左右。而對于全年齡段或中老年的個體,預測模型的評價指標 MAE 值一般僅能達到 4~5 年。同時,對象的整體年齡跨度越大,評價指標 MAE 也會越大。因此,模型間的比較應結合各方面因素綜合考慮。此外,模型的泛化能力受訓練集大小的影響,當訓練集中受試者的數量越多,模型泛化能力也就越強。近年來,研究者們在模型訓練中越來越多地采用多個開放數據庫的集合來提升訓練集的大小。相對于自有數據,開放數據庫無論在數據量上和算法評估上都具有優勢。當然,這也會帶來新的問題,例如部分開放數據庫在對象選擇上可能是針對不同的醫學或臨床問題而設計的,很多亞健康的個體也可能包含在內,這會給模型性能帶來一定偏差,部分抵消大數據的優勢。但總體來說,我們認為基于開放數據庫的研究帶來的益處遠遠大于它的缺陷。
截至目前的已有研究表明,大腦年齡預測模型對來源不同的磁共振成像(magnetic resonance imaging,MRI)掃描儀以及不同采集時間上的數據顯示了較高的一致性和測試重測信度[20]。盡管腦年齡預測模型的研究已經取得了可喜的成果,但模型仍然包含一定的預測誤差。在人腦的發展過程中,很多因素,如個體的基因差異、個體認知儲備水平的差異等都會引發大腦結構和功能的差異[44-45],而影像在一定程度上缺乏對潛在的生物和分子機制的解釋。開展影像基因組學研究,結合各自優勢,可將分子層面的信息融入影像學方法,加強預測模型中出現差異現象的生物學解釋。總體而言,隨著更大規模的神經影像數據集的采用和更復雜預測模型的設計,預測誤差的下限將不斷降低。Li 等[46]最近提出基于對象本身的先驗信息,對存在加速腦老化的個體引入腦年齡偏離的設計,專注于減小生理年齡和預測年齡與偏離年齡的差值,并提出了腦病理年齡的概念。這一研究不僅可以減小常規腦年齡預測模型中對象差異帶來的偏差,而且可以更好地實現病理對象的分類。
3 未來發展趨勢
腦年齡預測是一個正在迅速發展的新興研究領域,基于神經影像的腦年齡預測模型及應用在日益增多。越來越多的研究人員正在使用腦年齡分析來探索健康和疾病過程中的腦老化,并發展出許多新的、有潛力的研究方向。從影像模態來看,各種影像模態都有著其優缺點,源于多模態的信息進行融合更可能近一步提升模型的性能。此外,隨著卷積神經網絡架構的改善和大數據的影像數據集的出現,我們相信未來模型的性能還可能進一步提升。本文預期未來模型發展的關鍵在于不斷提高模型精度的同時,提高模型對于新數據的泛化能力,而該領域發展的終極目標是在基于大型影像集上構建完成大數據量訓練的腦年齡模型,并能將該模型應用于實踐以提供準確的個性化云診斷服務。
引言
人口老齡化是中國在 21 世紀面臨的一項重要挑戰,對社會各個方面都有著深遠的影響[1]。其中,增齡性腦功能衰退和神經退行性疾病給我們社會帶來了日益嚴重的經濟、養老、醫護等社會問題。對于研究者們來說,如何預測與評估老年人增齡性神經退行風險,以及哪些治療方式可能緩解和逆轉這種過程都是值得研究的重要課題。雖然大腦老化是一種自然過程,但在這個過程中,大腦體積、皮質厚度和白質微結構等存在的變化有著明顯的個體差異[2-4]。此外,個體腦老化軌跡相對健康大腦老化平均軌跡的偏離程度,可以反映該個體未來患神經退行性疾病的風險。因此,基于神經影像數據中包含的大腦老化特征模式構建模型,檢測個體大腦的老化軌跡,可為研究大腦老化的個體差異提供新視角。
大腦年齡預測不僅具有重要的科學意義,而且還具有廣泛的臨床價值[5]。英國帝國學院最近的一項研究顯示,老人的腦年齡的預測值和生理年齡間的差距越大,則其精神或身體出現問題的風險就越高,也更容易早逝[6]。大量的研究顯示,多種類型的神經系統疾病、代謝性疾病等都與大腦異常老化相關,如表 1 所示。涉及的特征有:灰質密度圖(grey matter density map,GMD)、白質密度圖(white matter density map,WMD)、白質體積、網絡特征參數等。腦年齡預測模型為探索大腦在衰老過程中的變化以及腦部疾病如何影響正常的大腦老化提供了一種新方法。

本文概括了基于神經影像的腦年齡預測模型的一些典型研究,就這些研究的實驗對象、特征類型、預測模型算法以及預測的準確率等展開介紹,并進一步討論了研究中存在的瓶頸和研究結果的泛化性及可重復性等。盡管本文的關注點為大腦老化,但也涉及了部分幼年和青少年大腦年齡預測的模型。因為從理論設計而言,這些模型都可直接推廣到更寬泛的年齡段后加以應用。
1 基于神經影像的腦年齡預測模型研究現狀
1.1 腦年齡預測模型框架
腦年齡預測模型主要由特征提取、特征選擇(降維)和預測模型三個部分組成。在特征提取過程中,需要從神經影像,如結構磁共振影像(structural magnetic resonance imaging,sMRI)、彌散張量成像(diffusion tensor imaging,DTI)或功能磁共振影像(functional magnetic resonance imaging,fMRI)中提取與腦年齡相關的特征,如 GMD、皮層厚度、腦網絡特征等。對應的特征維度可能從數十維(基于腦區的特征)到上百萬維(基于體素的特征)。因此,對于高維特征還需要通過特征選擇/降維的步驟進行處理。最后,這些特征被送入預測模型進行訓練。在整個預測框架中,特征提取和預測模型的方法選擇尤為重要,本文將根據影像模態的不同,從模型架構、特征類型、特征維度等多方面對文中涉及方法進行介紹和比較。
1.2 基于 sMRI 的研究
sMRI 由于可以被用來分析灰質密度、皮層厚度和皮層曲率等結構信息,如表 2 所示,在腦年齡研究中具有不可替代的作用。增齡性腦萎縮會導致腦區結構以及組織中灰質密度的復雜變化,GMD 常被用于腦年齡的預測。在早期研究中,Franke 等[7]基于 GMD 采用相關向量機獲得了預測模型平均絕對誤差(mean absolute error,MAE)為 4.98 年的優秀結果。在 GMD 特征基礎上,高斯過程回歸[16]、支持向量回歸[17]、尺度子配置等模型均可用于預測腦年齡[18]。由于基于 GMD 的模型具有特征維度高的缺點,所構建的模型容易過擬合,泛化能力差,因此往往需要進行特征選擇/降維處理來避免維度災難。Su 等[19]進一步通過特征選擇,提取與年齡相關性最強的 GMD 體素來構建模型,以少量數據取得了較優的結果。隨著基礎計算方法的不斷改善,深度學習法為神經影像的預測模型構建提供了一條新途徑。基于該項技術的發展,當擁有海量神經影像數據時,已不再需要進行特性提取和選擇,深度網絡能夠自動推斷出神經影像數據的緊湊表示,如 Cole 等[20]略過特征提取這一步驟,直接將 sMRI 數據輸入卷積神經網絡,在模型性能評價上取得了 MAE 為 4.65 年的可喜成績。

腦老化過程中,認知能力的變化與大腦皮層持續而廣泛的變薄過程密切相關。盡管皮層厚度的變化在肉眼上難以分辨,但基于機器學習的模型可以發現這種細微變化。Wang 等[21]通過從皮層頂點提取厚度、曲率和面積等特征,對全年齡段的個體進行了腦年齡預測。Pardoe 等[22]在亞馬遜網絡服務云平臺(https://www.cloudneuro.org/)上構建了基于皮層厚度的相關向量機模型,提供了腦年齡預測的云計算服務。學者們還將個體大腦配準到標準圖譜,基于圖譜實現腦區的劃分,最后從各腦區中提取皮層特征來進行腦年齡的預測。Steffener 等[18]基于腦區的灰質體積,采用尺度子配置模型,對全年齡段的個體進行了年齡預測。
1.3 基于 DTI 的研究
大腦老化會損害白質纖維束的完整性,DTI 利用水分子在白質纖維中的彌散特性,可以反映髓鞘緊密度和完整性等白質纖維束特性[29]。基于 DTI 的預測模型如表 3 所示,從特征類別上來說,主要分成兩類:① 是基于軸向彌散(axial diffusivity,AD)、各向異性分數(fractional anisotropy,FA)、平均彌散率(mean diffusivity, MD)、徑向彌散(radial diffusivivcxty,RD)等 DTI 導出量進行預測,如 Mwangi 等[30]通過 AD、FA、MD 和 RD 等導出量,基于相關向量回歸構建了腦年齡的預測模型;② 是根據腦區間纖維束連接的導出量構建網絡連接矩陣,通過圖論的方法獲取相應的網絡特征,最后基于這些網絡特征建立模型。Lin 等[31]基于腦網絡的全局和局部特征,采用遺傳算法和人工神經網絡構建了腦年齡預測模型。

1.4 基于 fMRI 的研究
大腦老化會導致腦功能連接的改變,而這些改變一般通過靜息態 fMRI 來進行測量。在靜息狀態下,默認網絡中的各區域呈現出協同的規律性振蕩。因此,學者們通過量化不同腦區間的功能連接,捕捉老化過程中的連接變化規律,并進一步采用機器學習實現預測,如表 4 所示。Tian 等[35]基于腦區間的功能連接,采用彈性網絡回歸實現了腦年齡的預測。

1.5 基于多模態圖像的研究
由于不同的影像模態是從不同角度獲取與大腦老化相關的特征信息的,因此從多模態角度出發構建模型可以根據圖像中的互補信息來進行預測。具體多模態模型如表 5 所示,通過多源信息融合,它們可以進一步加深我們對大腦老化的理解。對于來源于不同模態的特征,一種常用的方式是特征疊加。它對不同模態的特征同等對待,但當不同模態特征維度差異較大的時候,維度小的模態對模型貢獻就非常有限。另一種方式是特征融合的方式,它分別訓練不同的模型,再進行融合。

2 研究中存在的問題
當前,由于缺乏全面的算法比較,最優腦年齡預測模型還不好確定,它們各自均展現出不同的優缺點。例如,Sabuncu 等[42]基于 6 個開放數據庫的 2 800 例對象所構建的平臺為不同算法的比較提供了一個全面的、可重復的比較平臺。支持向量回歸是比較常用的預測模型構建方法,即使訓練樣本量小,也可以實現較高精度的預測。但它也存在需要大量的參數調整和優化的缺點。卷積神經網絡由于在自然圖像分類中的巨大成功以及在腦年齡預測模型中的優異性能[43],被認為是一種極具潛力的模型。但與自然圖像不同,神經影像是一種三維或四維的圖像,而且訓練集在數量上比自然圖像要少的多。因此,這也對卷積網絡的架構設計提出了更高要求。
圖像特征的提取受多因素的影響。最廣為使用的 GMD 特征在生成過程中就涉及圖像平滑、體素大小等選擇參數。如果圖像平滑核函數的寬度太小,會丟失一些敏感區。反之,如果平滑核過大,則會降低模型的整體敏感性。Lancaster 等[28]采用貝葉斯算法對體素大小和高斯平滑核函數的寬度的選擇進行優化,結果顯示參數優化可以降低腦年齡預測模型的 MAE 近 10%。貝葉斯算法所選擇的高斯核函數的寬度為 3.68 mm,與通用的 8 mm 的高斯核存在較大差異。所以,我們不僅需要對模型進行最優設計,對于特征提取過程中的參數設置也需要慎重考慮。
模型性能的評價指標一般采用 MAE 來評估,但 MAE 受年齡分布、訓練集對象的數目等的影響,不同數據集的 MAE 并不能直接比較。一般對象的生理年齡越低,同年齡個體的腦差異越小,MAE 值也越小。對于青少年,單模態預測模型的評價指標 MAE 值在 1~2 年間,多模態模型為 1 年左右。而對于全年齡段或中老年的個體,預測模型的評價指標 MAE 值一般僅能達到 4~5 年。同時,對象的整體年齡跨度越大,評價指標 MAE 也會越大。因此,模型間的比較應結合各方面因素綜合考慮。此外,模型的泛化能力受訓練集大小的影響,當訓練集中受試者的數量越多,模型泛化能力也就越強。近年來,研究者們在模型訓練中越來越多地采用多個開放數據庫的集合來提升訓練集的大小。相對于自有數據,開放數據庫無論在數據量上和算法評估上都具有優勢。當然,這也會帶來新的問題,例如部分開放數據庫在對象選擇上可能是針對不同的醫學或臨床問題而設計的,很多亞健康的個體也可能包含在內,這會給模型性能帶來一定偏差,部分抵消大數據的優勢。但總體來說,我們認為基于開放數據庫的研究帶來的益處遠遠大于它的缺陷。
截至目前的已有研究表明,大腦年齡預測模型對來源不同的磁共振成像(magnetic resonance imaging,MRI)掃描儀以及不同采集時間上的數據顯示了較高的一致性和測試重測信度[20]。盡管腦年齡預測模型的研究已經取得了可喜的成果,但模型仍然包含一定的預測誤差。在人腦的發展過程中,很多因素,如個體的基因差異、個體認知儲備水平的差異等都會引發大腦結構和功能的差異[44-45],而影像在一定程度上缺乏對潛在的生物和分子機制的解釋。開展影像基因組學研究,結合各自優勢,可將分子層面的信息融入影像學方法,加強預測模型中出現差異現象的生物學解釋。總體而言,隨著更大規模的神經影像數據集的采用和更復雜預測模型的設計,預測誤差的下限將不斷降低。Li 等[46]最近提出基于對象本身的先驗信息,對存在加速腦老化的個體引入腦年齡偏離的設計,專注于減小生理年齡和預測年齡與偏離年齡的差值,并提出了腦病理年齡的概念。這一研究不僅可以減小常規腦年齡預測模型中對象差異帶來的偏差,而且可以更好地實現病理對象的分類。
3 未來發展趨勢
腦年齡預測是一個正在迅速發展的新興研究領域,基于神經影像的腦年齡預測模型及應用在日益增多。越來越多的研究人員正在使用腦年齡分析來探索健康和疾病過程中的腦老化,并發展出許多新的、有潛力的研究方向。從影像模態來看,各種影像模態都有著其優缺點,源于多模態的信息進行融合更可能近一步提升模型的性能。此外,隨著卷積神經網絡架構的改善和大數據的影像數據集的出現,我們相信未來模型的性能還可能進一步提升。本文預期未來模型發展的關鍵在于不斷提高模型精度的同時,提高模型對于新數據的泛化能力,而該領域發展的終極目標是在基于大型影像集上構建完成大數據量訓練的腦年齡模型,并能將該模型應用于實踐以提供準確的個性化云診斷服務。