惡性腫瘤分子亞型的準確識別是腫瘤患者個體化診斷、個性化治療以及預后預測的重要支撐。綜合性腫瘤基因組數據庫的不斷完善和深度學習技術的持續突破,推動了計算機輔助腫瘤分類技術的進一步發展。現有的基于基因表達數據的神經網絡亞型分類方法雖然考慮了分子分型的復雜性,但仍然存在忽略基因內在關聯性和協同性的問題。為了解決這一問題,本文提出了一種結合分層注意力機制的多層圖卷積神經網絡乳腺癌亞型分類模型。該模型基于先驗的生物學知識構建乳腺癌患者的基因圖表示數據集,訓練出一種新的端到端的多分類模型,能夠對乳腺癌分子亞型進行智能識別,并且在乳腺癌分子亞型的分類工作上表現出了很好的識別性能。相較于原始的圖卷積神經網絡以及兩個主流的圖神經網絡分類算法,該模型在7分類任務中的準確率、加權F1分數、加權召回率、加權精確率分別達到了0.851 7、0.823 5、0.851 7、0.793 6,在4分類任務中則分別達到了0.928 5、0.894 9、0.928 5、0.865 0,具有明顯的優勢。此外,本文方法相較于最新的乳腺癌亞型分類算法,同樣獲得了最高的分類準確率。綜上,本文所提模型或可作為一種輔助診斷技術為未來乳腺癌亞型的精確分類提供一個可信的選擇,奠定計算機輔助腫瘤分類的理論基礎。
引用本文: 安義帥, 劉曉軍, 陳恒玲, 萬桂宏. 基于圖卷積神經網絡的乳腺癌亞型分類研究. 生物醫學工程學雜志, 2024, 41(1): 121-128. doi: 10.7507/1001-5515.202306071 復制
0 引言
乳腺癌是目前全球范圍內發病率最高的惡性腫瘤類型[1]。統計數據顯示,2020年中國女性新發惡性腫瘤病例數為209萬例,其中乳腺癌42萬例,占總數的19.9%,對女性健康造成了嚴重威脅[2]。乳腺癌是一種具有高度異質性的疾病,至少可分為管腔A型(luminal A)、管腔B型(luminal B)、人類表皮生長因子受體2(human epidermal growth factor receptor 2,her2)過表達型(her2-enrich)、基底樣型(basal-like)和正常樣型(normal-like)等多種不同的亞型[3-5]。不同亞型的生存期截然不同,因此對乳腺癌進行更為精確的分型可以指導臨床醫生為患者制定更合理的治療方案。這種精準醫療可以實現個性化治療,避免過度治療和無效治療,從而減輕患者的身體和經濟負擔,提高患者的預后水平[1, 6]。在臨床病理診斷中,常用的免疫組織化學(immunohistochemistry,IHC)技術可以用于識別乳腺癌分子亞型,具有一定準確性,然而這種技術只能識別少量的標志性蛋白,無法全面反映患者體內腫瘤的進展情況,需要專業的技術人員進行標記和結果讀取,存在一定的技術誤差,故而在指導后續治療方案和個性化用藥方面存在一定的局限性[7]。因此,乳腺癌分子亞型的高效診斷仍是分子醫學領域一個亟待解決的問題,需要更高效的診斷技術來幫助制定個體化的治療方案[8]。
乳腺癌是一種源于基因突變的復雜惡性腫瘤[9]。長期以來,科學家們一直致力于解讀人類疾病的謎團,其中基因研究被認為是破解難題的關鍵。在腫瘤領域,基因研究尤為重要。隨著基因組學、轉錄組學以及蛋白組學技術的不斷發展,多組學腫瘤數據庫日益完善。與此同時,深度學習技術的高速發展為計算機輔助智能腫瘤診斷和預后預測提供了一個新的方向[10]。傳統的深度學習模型通過不斷加深網絡結構來自動提取高維且抽象的數據特征,突破了傳統機器學習模型的性能瓶頸,已在圖像處理、語音識別、語義理解等諸多領域廣泛應用。當前,研究乳腺癌生物學機制的主要技術難題是需要考慮基因間的關聯性和協同性,因此在處理乳腺癌亞型分類這類復雜的關聯問題時,需要利用生物網絡構建圖結構化數據進行研究。然而傳統深度學習模型僅適用于網格狀結構化數據,特征之間彼此獨立,無法兼顧特征之間的關聯信息[11]。為了應對圖結構化數據的挑戰,圖深度學習技術應運而生,為解決此類問題提供了新的思路[12]。
乳腺癌分子亞型的智能分類是一項具有挑戰性的任務,近年來成為乳腺癌診療領域的研究熱點之一。Gao等[13]提出了一種有監督的亞型分類方法,該方法首先通過富集分析將高通量基因表達數據轉化為功能譜,然后將獲得的功能譜輸入到深度學習網絡中訓練分類模型,最終在乳腺癌和結直腸癌分類上取得了大于80%的平衡準確性。Mostavi等[14]設計不同的基因嵌入和卷積方案,構建了三種卷積神經網絡(convolutional neural network,CNN)模型,用于基于基因表達譜的腫瘤診斷以及亞型預測。該研究以獨特的模型解釋方案,在消除原生組織的影響后,闡明癌癥標記基因的生物相關性,并擴展了一維CNN模型,用于預測乳腺癌中的5個亞型,取得了88.42%的平均準確率。由于傳統生物網絡的維度很大,Rhee等[15]基于實體間的關聯,提出了一種由圖CNN(graph CNN,GCN)和關系網絡(relation network,RN)組成的可以擴展到非常大維度的新型混合方法。該方法采用快速圖卷積濾波,將其應用于乳腺癌亞型分類任務的實驗結果顯示,最終準確率達到了83.19%,宏F1分數達到了82.26%。Lee等[16]結合注意力機制和網絡傳播提出一種可解釋的深度學習模型,用于惡性腫瘤的亞型分類和通路建模,在乳腺癌的亞型分類任務中取得了85.52%的F1分數。Li等[17]基于基因間相互作用的先驗知識,整合信使核糖核酸(messenger RNA,mRNA)表達和基因拷貝數變異(copy number variations,CNV)數據,通過GCN從多組學數據中提取局部特征,再以淺層全連接層(fully connected layers,FC)神經網絡提取全局特征,最后利用分類層將局部和全局特征串聯起來,在多種惡性腫瘤的分類任務中取得了85.0%的準確率。
盡管上述利用基因表達數據進行的機器學習和深度學習方面的研究在乳腺癌的智能分類上取得了一定進展,但大部分都局限在歐幾里得域,忽略了基因間的內在關聯,且都無法提供一個端到端的單一惡性腫瘤的多亞型分類預測模型。為了解決這些問題,本文提出了一種基于GCN的乳腺癌亞型分類模型。GCN是一種基于圖結構數據的神經網絡算法。與傳統的CNN所處理網格數據不同,GCN用于處理社交網絡、蛋白質分子結構等非歐幾里得數據,是一種可以同時學習數據特征和結構特征的深度學習算法[18]。基于GCN的這些特性,本模型針對乳腺癌基因表達譜數據結合特征工程定制了這一具有分層注意力機制的多層GCN(hierarchical attention multi-layer-GCN,HAML-GCN)學習模型,以期實現乳腺癌分子亞型的高效分類。
1 數據和方法
1.1 數據
1.1.1 數據集來源
本研究所采用的實驗數據來源于國際乳腺癌協會的開源分子分類學數據庫(Molecular Taxonomy of Breast Cancer International Consortium,METABRIC),其中包含2 000個原發性乳腺癌樣本的靶向測序數據[19]。該數據集由劍橋研究所和加拿大不列顛哥倫比亞省腫瘤中心收集,并發表在《自然通訊》(Nature Communications)上[20]。臨床和基因組數據從腫瘤基因組學數據可視化和分析平臺(cBioPortal)下載[21],實驗過程中以50個基因的微陣列預測分析算法(prediction analysis of microarray 50,PAM50)的分類結果為基準,同時加入緊密連接蛋白低型(claudin-low)作為乳腺癌亞型的最終分類標準,將乳腺癌分為luminal A、luminal B、her2-enrich、basal-like、claudin-low、normal-like和陰性對照組(negative control,NC),共7種類型。
1.1.2 數據預處理
以METABRIC數據集中的mRNA表達數據作為研究對象,對所有樣本數據進行標準的預處理流程,主要包括:
(1)數據清洗,去除重復采樣和沒有亞型標簽的樣本,以保證數據的有效性。
(2)數據補全,中位數法補全空缺值(not a number,NAN),以保證數據的完整性。
(3)特征篩選,卡方檢驗融合最小冗余最大相關算法篩選關鍵特征,去除冗余特征信息,以應對特征數量遠大于樣本數量的維度挑戰,提高模型的分類性能。
經過上述預處理流程之后得到最終的亞型數量統計如表1所示,可以觀察到,7個類別之間存在樣本量不平衡的問題,這種不平衡對模型性能的影響將在第2.2節中詳細討論。

1.1.3 圖結構化數據集構建
在已發表的文獻中,各種架構的神經網絡被應用于使用基因表達數據的惡性腫瘤分類,包括全連接神經網絡、循環神經網絡和注意力神經網絡等。最近幾年被作為熱點廣泛研究的圖神經網絡(graph neural networks,GNN)旨在通過一組圖節點和邊來學習數據特征的圖表示。這類模型將基因表達數據轉化為圖形表示,并使用基因表達拓撲結構來理解不同基因之間的相關性,已有研究證明,這種學習圖結構表示的能力使GNN在未來的基因表達分析中具有巨大的潛力[12]。
為了構建圖結構化數據集,將上述數據預處理中得到的特征基因導入基因與蛋白質互作網絡分析數據庫(search tool for the retrieval of interacting genes/proteins,STRING)得到基因之間的關聯關系,構建了蛋白質—蛋白質相互作用網絡(protein-protein interaction networks,PPI)。STRING是一個精心設計的PPI數據庫,其中的推定關聯基因來自如生物實驗、文本挖掘的文獻信息、計算預測等多個證據[22]。隨后將表達數據和分類標簽映射到圖網絡結構中,得到GNN的終極輸入數據集。
1.2 模型結構
本文所提出的HAML-GCN乳腺癌亞型分類模型,是基于GCN進行改進的,其具體的實現過程如圖1所示,包含5個階段:

(1)圖卷積計算(graph convolutional computation,GCC),表示和捕捉圖節點(基因)的局部模式。
(2)批量數據歸一化(batch normalization,BN),抑制過擬合,加快收斂速度,提高模型泛化能力。
(3)自注意力池化(self-attention graph pooling,SAGPooling),學習分層表示,保留關鍵節點。
(4)讀出(readout),將節點嵌入到一個統一的讀出層(readout layer)中。
(5)多層感知機(multilayer perceptron,MLP)分類,輸出最終的分類預測結果。
1.2.1 圖卷積計算
GCN主要通過在節點及其相鄰節點上進行卷積操作的方式來捕捉節點之間的關系,以實現對圖結構數據的特征提取和表示學習。具體來說,GCN的卷積操作如式(1)所示:
![]() |
其中,H(1)、H(l + 1)分別代表第l層卷積的輸入和輸出矩陣;,代表圖結構數據的自關聯鄰接矩陣,可以使節點能夠利用自身的特征信息,并將其納入到節點的表示中,幫助GCN更好地捕捉到節點的重要特征信息,具體的,
(A是圖結構數據的鄰接矩陣,IN是單位矩陣);
,代表
的度矩陣,運算
對
進行了歸一化處理;
,代表圖結構數據的特征矩陣,表示有N個節點,每個節點包含F個特征屬性;W(l)代表卷積變換的參數;
代表激活函數。
1.2.2 批量數據歸一化
本文采用批量歸一化的方式,通過小批量上的均值和方差來不斷調整中間輸出,很大程度上避免了在模型參數大量更新時導致的輸出層附近計算數值的激烈變化,提升了網絡的學習能力,保證了訓練模型的有效性。具體的,批量歸一化達式為:。其中H(1)代表式(1)中的卷積輸出,
代表批量歸一化函數。
1.2.3 自注意力池化
注意力機制以自動學習和計算輸入數據對輸出數據貢獻度的方式捕獲更為關鍵的特征,從而提高模型的性能。SAGPooling使用圖卷積的方法獲得自注意力分數[23]。具體的實現方法如式(2)所示:
![]() |
式中, 代表圖節點的注意力參數,該參數會隨著卷積變換而更新;其他符號與上述GCN保持一致。因為利用圖卷積得到了自注意力分數,隨后用式(3)所示方法進行節點選擇:
![]() |
其中,池化率 是一個超參數,它決定要保留的節點數;
表示向上取整,前
個節點是根據注意力分數Z的值來選擇的;top-rank(?)是返回前
個節點的索引的函數;
是一個索引操作,idx表示索引集合;Zmask是特征注意力掩膜,可以將注意力得分低的節點和邊從圖結構中濾除掉。最終,圖池化操作如式(4)所示:
![]() |
其中,Xidx是索引按行排列的特征矩陣;Xout是新的特征矩陣;Aout是新的鄰接矩陣;Aidx,idx是按行和按列索引的鄰接矩陣;表示矩陣點乘。
由于這種池化方法可以同時考慮節點特征和圖的拓撲結構,所以更有利于后續的圖分類任務。
1.2.4 讀出
在GNN領域,通常采用將鄰接矩陣以對角線形式堆疊的方法來充分利用圖形處理器(graphics procsssing unit,GPU)。在本實驗中,使用了幾何深度學習庫(PyTorch Geometric,PyG)中的數據加載器來實現上述方法[24],構建了47張大圖,除最后一張由28張子圖構成外其余均由32張子圖構成。通過上述方法,本模型能夠同時處理多個子圖,從而有效地利用GPU的并行計算能力,加速模型的訓練和推斷過程。
完成上述卷積池化以及各種批量操作之后,本文通過一種融合方法聚集節點特征并將其嵌入到一個統一的讀出層(readout layer)中做為分類任務的輸入。
1.2.5 多層感知機分類
本文使用MLP做為分類器,該分類器由一個輸入層、三個隱藏層和一個輸出層構成,各層之間使用修正線性單元(rectified linear unit,ReLU)作為激活函數連接。輸出層由7個節點構成,每個節點輸出該模型對各類乳腺癌亞型的預測概率。
1.3 訓練與測試
實驗環境:編程語言為python3.7(Python Software Foundation,荷蘭),深度學習框架為pytorch(Facebook,美國),編譯軟件為PyCharm2018(JetBrains,捷克共和國),GPU為NVDIA TITAN V(NVIDIA,美國)。
本實驗將待分類數據集按照8:2的比例分為訓練集和測試集,網絡訓練初始學習率設為0.001,最小批處理尺寸為32,輪次(epoch)為500,采用交叉熵損失函數計算損失以有效避免梯度彌散,采用自適應矩估計優化器(adaptive moment estimation optimize,Adam)來提升網絡模型的優化效果,其中權重衰減系數為5 × 10?4。
1.4 性能評價指標
完成乳腺癌患者的亞型分類之后,本實驗以整體準確率(accuracy,Acc)、加權召回率(weight-recall,Recw)、加權精確率(weight-precision,Prew)以及加權F1分數(weight- F1,F1w)四個評價指標綜合衡量模型的性能。各個指標的計算過程如式(5)~式(8)所示:
![]() |
![]() |
![]() |
![]() |
式中,真陽性(true positive,TP)表示正類別中正確分類樣本的數量;真陰性(true negative,TN)表示負類別中正確分類樣本的數量;假陽性(false positive,FP)表示正類別中錯誤分類樣本的數量;假陰性(false negative,FN)是負類別中錯誤分類樣本的數量。Pi和Ri分別代表各個亞型的精確率和召回率,Wi代表第i類樣本的類別權重,滿足,其中Ni代表第i類樣本的真實數目。
通過對這些評價指標的綜合評估,可以了解分類模型的整體性能,進一步證實所提出的乳腺癌亞型分類模型的實際意義。
2 結果
2.1 實驗結果
為了驗證本文提出的HAML-GCN模型的優越性,在保證數據集及其他實驗條件相同的情況下,依托PyG以及機器學習工具包(Scikit-learn)[25],分別與傳統的GCN模型以及圖同構神經網絡(graph isomorphism network,GIN)、圖采樣聚合網絡(graph sample and aggregate,GraphSAGE)兩種主流GNN模型的分類性能進行比較,結果如表2所示。

2.2 結果分析
經過實驗對比可以看出,本文提出的模型在Acc、F1w、Recw以及Prew四個評價指標上均表現出了優異的性能,比其他3個分類模型更加優秀。這表明本文模型具有出色的分類能力,可以更好地區分乳腺癌的不同亞型。為了進一步證明所提出模型的魯棒性,在測試集上繪制了如圖2所示的7分類損失曲線。

可以發現,隨著迭代輪次的增加,模型的測試損失最終趨于近收斂狀態,但其損失值存在局部震蕩、全局偏高的問題。由于本文提出的模型在計算分類指標的時候參照了亞型數量比率作為權重,所以初步推斷這一現象是由于亞型樣本數量少且分布不平衡導致的。為了驗證這一推測,進一步查閱了相關的文獻資料,結果顯示,luminal A和luminal B同屬于雌激素受體(estrogen receptor,ER)、黃體酮受體(progesterone receptor,PR)陽性組,而basal-like、her2-enrich和claudin-low同屬于ER、PR陰性組[26]。此外,由于claudin-low亞型缺乏α型雌激素受體(estrogen receptor alpha,Erα)、PR和her2 的表達,存在和basal-like亞型相似的特征,二者在最初被認為是同種亞型,但進一步研究發現claudin-low亞型具有很強的特異性,包括緊密連接蛋白-3(claudin-3)和緊密連接蛋白-4(claudin-4)的額外下調、增殖標志物(Ki67)的低表達以及乳腺癌干細胞相關特征的表達[27]。綜合上述內容,本實驗將luminal A和luminal B兩種亞型合并為管腔型(luminal),her2-enrich和basal-like兩種亞型合并為her2富集/基底樣混合亞型(her2-enrich/basal-like),保留normal-like亞型不變并將claudin-low作為一種單獨亞型,由于NC組僅有6個樣本,遠小于其他幾種亞型,所以在實驗過程中被舍棄。最終,原始數據被重新標定為4種亞型,其數量統計如表3所示。

在保證實驗條件和參數完全一致的情況下,本實驗基于該4分類數據集重新進行了模型的訓練和測試,結果如表2所示。同樣的,繪制了如圖2所示的4分類損失曲線。可以觀察到,在4分類任務中,各個模型的評價指標均有所提升,而本文提出的模型依然保持著最佳的分類性能。較之于7分類任務,本模型在4分類任務中表現出更為顯著的優勢。此外,隨著迭代輪次的增加,本模型在4分類任務中的測試損失值顯著降低,并且達到了更加穩定的收斂狀態。這一結果驗證了之前的推測,即少量且分布不平衡的實驗數據是乳腺癌亞型分類模型性能的一大考驗。
此外,為了證明表2中所述的HAML-GCN模型分類結果的可靠性,在模型訓練趨于穩定之后,根據統計學原理,本研究分別計算出了各項指標的95%置信區間,其中Acc的置信區間為[0.908 6,0.915 7]、F1w的置信區間為[0.869 0,0.878 3]、Recw的置信區間為[0.908 6,0.915 7]、Prew的置信區間為[0.835 3,0.846 1]。顯然,上述4個指標的置信區間均相對較窄,這進一步證實了所提出的乳腺癌亞型分類模型具有良好的穩定性,并且具備相當可靠的性能。
最后,為了進一步驗證所提出模型的分類性能,本研究將該模型與最新的乳腺癌亞型分類算法進行了比較,結果如表4所示[28-31]。從結果可以看出,所提出的HAML-GCN分類模型獲得了最高的準確率。這表明該模型具備出色的分類能力,能夠更加準確地將乳腺癌分類為不同亞型。這對于患者的個體化診斷和個性化治療具有重大意義,進一步證明了所提出模型的有效性。

3 討論
針對現有的基于基因表達數據的乳腺癌亞型分類方法通常在歐幾里得域進行研究,忽略了不同基因之間的內在關聯性和協同性等問題,本文提出了一種基于GCN的乳腺癌亞型分類模型以彌補傳統方法的不足。創新點在于:
(1)通過卡方檢驗和最小冗余最大相關算法來篩選關鍵特征基因,既降低了特征維度,減少了噪聲干擾,又保證了特征之間的差異性以及特征與目標變量的相關性。
(2)結合生物網絡的先驗知識,構建了特征基因的圖形表示,并用GCN捕獲了基因表達譜的局部表示。
(3)運用注意力機制學習圖的分層表示,捕獲了節點特征和拓撲結構的抽象特征并將其嵌入到一個統一的輸出層中學習到了乳腺癌基因表達譜各層級內的局部特征和層級間的全局關聯。
本研究所提出的HAML-GCN模型在乳腺癌的亞型分類任務中表現出色,其多個評價指標都優于現有的分類模型。受限于數據量少、亞型樣本分布不平衡等客觀條件約束,本模型同樣存在魯棒性差的問題,并且分類越細這一問題就越突出。為了解決這一問題,達到乳腺癌亞型的精細化分類,計劃從以下幾個方面展開后續研究:
(1)進一步擴充數據集,采用分層抽樣的方式進行訓練集、驗證集以及測試集的劃分,以保證亞型樣本數量的加權平衡,從而使模型能學習到更多的分類特征。
(2)融合患者的DNA甲基化、CNV等多模態數據,結合生物網絡等先驗知識構建多剖面的圖形表示,然后再基于GNN構建異構圖來學習乳腺癌分子亞型更精準而全面的分類特征。
(3)對模型決策的可解釋性進行研究,通過采用一些計算方法以及可視化方法理解分類模型的決策過程,即以人類可以接受的方式對模型的決策過程做出解釋,并對模型可能失敗的情況進行解釋。
為了增強此類計算機輔助算法的分類預測結果在生物醫療領域的可信度,基于GNN的乳腺癌亞型分類模型的可解釋性將會是下一步的研究重點。
4 結論
本文提出了一種名為HAML-GCN的多分類模型,用于有效地提取乳腺癌基因表達數據的特征信息,解決乳腺癌分子亞型的智能分類問題。在7分類任務中,該模型的Acc、F1w、Recw以及Prew分別達到了0.851 7、0.823 5、0.851 7、0.793 6;在4分類任務中,這些指標分別達到了0.928 5、0.894 9、0.928 5和0.865 0。相較于最新的乳腺癌亞型分類算法,該模型同樣獲得了最高的分類準確率。這一結果表明,該模型在乳腺癌的亞型分類任務中具有良好的性能。在未來的研究中,如果能結合更加精確、完備的數據集,并對模型的決策做出合理的解釋,那么本文所提出模型的分類性能可能會進一步提升,其實用可信度也會大大增強。綜合上述討論,本文提出的模型可以作為一種潛在的輔助診斷技術,為未來乳腺癌分子亞型的精確分類提供一個可信的選擇,奠定計算機輔助腫瘤分類的理論基礎,并為現代化精準醫療提供一定的技術支持。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:安義帥主要負責算法程序設計與編寫、數據記錄與分析以及論文撰寫;劉曉軍、陳恒玲主要負責實驗流程、協調溝通、計劃安排、提供實驗指導以及論文審閱修訂;萬桂宏主要負責實驗指導以及數據分析指導。
0 引言
乳腺癌是目前全球范圍內發病率最高的惡性腫瘤類型[1]。統計數據顯示,2020年中國女性新發惡性腫瘤病例數為209萬例,其中乳腺癌42萬例,占總數的19.9%,對女性健康造成了嚴重威脅[2]。乳腺癌是一種具有高度異質性的疾病,至少可分為管腔A型(luminal A)、管腔B型(luminal B)、人類表皮生長因子受體2(human epidermal growth factor receptor 2,her2)過表達型(her2-enrich)、基底樣型(basal-like)和正常樣型(normal-like)等多種不同的亞型[3-5]。不同亞型的生存期截然不同,因此對乳腺癌進行更為精確的分型可以指導臨床醫生為患者制定更合理的治療方案。這種精準醫療可以實現個性化治療,避免過度治療和無效治療,從而減輕患者的身體和經濟負擔,提高患者的預后水平[1, 6]。在臨床病理診斷中,常用的免疫組織化學(immunohistochemistry,IHC)技術可以用于識別乳腺癌分子亞型,具有一定準確性,然而這種技術只能識別少量的標志性蛋白,無法全面反映患者體內腫瘤的進展情況,需要專業的技術人員進行標記和結果讀取,存在一定的技術誤差,故而在指導后續治療方案和個性化用藥方面存在一定的局限性[7]。因此,乳腺癌分子亞型的高效診斷仍是分子醫學領域一個亟待解決的問題,需要更高效的診斷技術來幫助制定個體化的治療方案[8]。
乳腺癌是一種源于基因突變的復雜惡性腫瘤[9]。長期以來,科學家們一直致力于解讀人類疾病的謎團,其中基因研究被認為是破解難題的關鍵。在腫瘤領域,基因研究尤為重要。隨著基因組學、轉錄組學以及蛋白組學技術的不斷發展,多組學腫瘤數據庫日益完善。與此同時,深度學習技術的高速發展為計算機輔助智能腫瘤診斷和預后預測提供了一個新的方向[10]。傳統的深度學習模型通過不斷加深網絡結構來自動提取高維且抽象的數據特征,突破了傳統機器學習模型的性能瓶頸,已在圖像處理、語音識別、語義理解等諸多領域廣泛應用。當前,研究乳腺癌生物學機制的主要技術難題是需要考慮基因間的關聯性和協同性,因此在處理乳腺癌亞型分類這類復雜的關聯問題時,需要利用生物網絡構建圖結構化數據進行研究。然而傳統深度學習模型僅適用于網格狀結構化數據,特征之間彼此獨立,無法兼顧特征之間的關聯信息[11]。為了應對圖結構化數據的挑戰,圖深度學習技術應運而生,為解決此類問題提供了新的思路[12]。
乳腺癌分子亞型的智能分類是一項具有挑戰性的任務,近年來成為乳腺癌診療領域的研究熱點之一。Gao等[13]提出了一種有監督的亞型分類方法,該方法首先通過富集分析將高通量基因表達數據轉化為功能譜,然后將獲得的功能譜輸入到深度學習網絡中訓練分類模型,最終在乳腺癌和結直腸癌分類上取得了大于80%的平衡準確性。Mostavi等[14]設計不同的基因嵌入和卷積方案,構建了三種卷積神經網絡(convolutional neural network,CNN)模型,用于基于基因表達譜的腫瘤診斷以及亞型預測。該研究以獨特的模型解釋方案,在消除原生組織的影響后,闡明癌癥標記基因的生物相關性,并擴展了一維CNN模型,用于預測乳腺癌中的5個亞型,取得了88.42%的平均準確率。由于傳統生物網絡的維度很大,Rhee等[15]基于實體間的關聯,提出了一種由圖CNN(graph CNN,GCN)和關系網絡(relation network,RN)組成的可以擴展到非常大維度的新型混合方法。該方法采用快速圖卷積濾波,將其應用于乳腺癌亞型分類任務的實驗結果顯示,最終準確率達到了83.19%,宏F1分數達到了82.26%。Lee等[16]結合注意力機制和網絡傳播提出一種可解釋的深度學習模型,用于惡性腫瘤的亞型分類和通路建模,在乳腺癌的亞型分類任務中取得了85.52%的F1分數。Li等[17]基于基因間相互作用的先驗知識,整合信使核糖核酸(messenger RNA,mRNA)表達和基因拷貝數變異(copy number variations,CNV)數據,通過GCN從多組學數據中提取局部特征,再以淺層全連接層(fully connected layers,FC)神經網絡提取全局特征,最后利用分類層將局部和全局特征串聯起來,在多種惡性腫瘤的分類任務中取得了85.0%的準確率。
盡管上述利用基因表達數據進行的機器學習和深度學習方面的研究在乳腺癌的智能分類上取得了一定進展,但大部分都局限在歐幾里得域,忽略了基因間的內在關聯,且都無法提供一個端到端的單一惡性腫瘤的多亞型分類預測模型。為了解決這些問題,本文提出了一種基于GCN的乳腺癌亞型分類模型。GCN是一種基于圖結構數據的神經網絡算法。與傳統的CNN所處理網格數據不同,GCN用于處理社交網絡、蛋白質分子結構等非歐幾里得數據,是一種可以同時學習數據特征和結構特征的深度學習算法[18]。基于GCN的這些特性,本模型針對乳腺癌基因表達譜數據結合特征工程定制了這一具有分層注意力機制的多層GCN(hierarchical attention multi-layer-GCN,HAML-GCN)學習模型,以期實現乳腺癌分子亞型的高效分類。
1 數據和方法
1.1 數據
1.1.1 數據集來源
本研究所采用的實驗數據來源于國際乳腺癌協會的開源分子分類學數據庫(Molecular Taxonomy of Breast Cancer International Consortium,METABRIC),其中包含2 000個原發性乳腺癌樣本的靶向測序數據[19]。該數據集由劍橋研究所和加拿大不列顛哥倫比亞省腫瘤中心收集,并發表在《自然通訊》(Nature Communications)上[20]。臨床和基因組數據從腫瘤基因組學數據可視化和分析平臺(cBioPortal)下載[21],實驗過程中以50個基因的微陣列預測分析算法(prediction analysis of microarray 50,PAM50)的分類結果為基準,同時加入緊密連接蛋白低型(claudin-low)作為乳腺癌亞型的最終分類標準,將乳腺癌分為luminal A、luminal B、her2-enrich、basal-like、claudin-low、normal-like和陰性對照組(negative control,NC),共7種類型。
1.1.2 數據預處理
以METABRIC數據集中的mRNA表達數據作為研究對象,對所有樣本數據進行標準的預處理流程,主要包括:
(1)數據清洗,去除重復采樣和沒有亞型標簽的樣本,以保證數據的有效性。
(2)數據補全,中位數法補全空缺值(not a number,NAN),以保證數據的完整性。
(3)特征篩選,卡方檢驗融合最小冗余最大相關算法篩選關鍵特征,去除冗余特征信息,以應對特征數量遠大于樣本數量的維度挑戰,提高模型的分類性能。
經過上述預處理流程之后得到最終的亞型數量統計如表1所示,可以觀察到,7個類別之間存在樣本量不平衡的問題,這種不平衡對模型性能的影響將在第2.2節中詳細討論。

1.1.3 圖結構化數據集構建
在已發表的文獻中,各種架構的神經網絡被應用于使用基因表達數據的惡性腫瘤分類,包括全連接神經網絡、循環神經網絡和注意力神經網絡等。最近幾年被作為熱點廣泛研究的圖神經網絡(graph neural networks,GNN)旨在通過一組圖節點和邊來學習數據特征的圖表示。這類模型將基因表達數據轉化為圖形表示,并使用基因表達拓撲結構來理解不同基因之間的相關性,已有研究證明,這種學習圖結構表示的能力使GNN在未來的基因表達分析中具有巨大的潛力[12]。
為了構建圖結構化數據集,將上述數據預處理中得到的特征基因導入基因與蛋白質互作網絡分析數據庫(search tool for the retrieval of interacting genes/proteins,STRING)得到基因之間的關聯關系,構建了蛋白質—蛋白質相互作用網絡(protein-protein interaction networks,PPI)。STRING是一個精心設計的PPI數據庫,其中的推定關聯基因來自如生物實驗、文本挖掘的文獻信息、計算預測等多個證據[22]。隨后將表達數據和分類標簽映射到圖網絡結構中,得到GNN的終極輸入數據集。
1.2 模型結構
本文所提出的HAML-GCN乳腺癌亞型分類模型,是基于GCN進行改進的,其具體的實現過程如圖1所示,包含5個階段:

(1)圖卷積計算(graph convolutional computation,GCC),表示和捕捉圖節點(基因)的局部模式。
(2)批量數據歸一化(batch normalization,BN),抑制過擬合,加快收斂速度,提高模型泛化能力。
(3)自注意力池化(self-attention graph pooling,SAGPooling),學習分層表示,保留關鍵節點。
(4)讀出(readout),將節點嵌入到一個統一的讀出層(readout layer)中。
(5)多層感知機(multilayer perceptron,MLP)分類,輸出最終的分類預測結果。
1.2.1 圖卷積計算
GCN主要通過在節點及其相鄰節點上進行卷積操作的方式來捕捉節點之間的關系,以實現對圖結構數據的特征提取和表示學習。具體來說,GCN的卷積操作如式(1)所示:
![]() |
其中,H(1)、H(l + 1)分別代表第l層卷積的輸入和輸出矩陣;,代表圖結構數據的自關聯鄰接矩陣,可以使節點能夠利用自身的特征信息,并將其納入到節點的表示中,幫助GCN更好地捕捉到節點的重要特征信息,具體的,
(A是圖結構數據的鄰接矩陣,IN是單位矩陣);
,代表
的度矩陣,運算
對
進行了歸一化處理;
,代表圖結構數據的特征矩陣,表示有N個節點,每個節點包含F個特征屬性;W(l)代表卷積變換的參數;
代表激活函數。
1.2.2 批量數據歸一化
本文采用批量歸一化的方式,通過小批量上的均值和方差來不斷調整中間輸出,很大程度上避免了在模型參數大量更新時導致的輸出層附近計算數值的激烈變化,提升了網絡的學習能力,保證了訓練模型的有效性。具體的,批量歸一化達式為:。其中H(1)代表式(1)中的卷積輸出,
代表批量歸一化函數。
1.2.3 自注意力池化
注意力機制以自動學習和計算輸入數據對輸出數據貢獻度的方式捕獲更為關鍵的特征,從而提高模型的性能。SAGPooling使用圖卷積的方法獲得自注意力分數[23]。具體的實現方法如式(2)所示:
![]() |
式中, 代表圖節點的注意力參數,該參數會隨著卷積變換而更新;其他符號與上述GCN保持一致。因為利用圖卷積得到了自注意力分數,隨后用式(3)所示方法進行節點選擇:
![]() |
其中,池化率 是一個超參數,它決定要保留的節點數;
表示向上取整,前
個節點是根據注意力分數Z的值來選擇的;top-rank(?)是返回前
個節點的索引的函數;
是一個索引操作,idx表示索引集合;Zmask是特征注意力掩膜,可以將注意力得分低的節點和邊從圖結構中濾除掉。最終,圖池化操作如式(4)所示:
![]() |
其中,Xidx是索引按行排列的特征矩陣;Xout是新的特征矩陣;Aout是新的鄰接矩陣;Aidx,idx是按行和按列索引的鄰接矩陣;表示矩陣點乘。
由于這種池化方法可以同時考慮節點特征和圖的拓撲結構,所以更有利于后續的圖分類任務。
1.2.4 讀出
在GNN領域,通常采用將鄰接矩陣以對角線形式堆疊的方法來充分利用圖形處理器(graphics procsssing unit,GPU)。在本實驗中,使用了幾何深度學習庫(PyTorch Geometric,PyG)中的數據加載器來實現上述方法[24],構建了47張大圖,除最后一張由28張子圖構成外其余均由32張子圖構成。通過上述方法,本模型能夠同時處理多個子圖,從而有效地利用GPU的并行計算能力,加速模型的訓練和推斷過程。
完成上述卷積池化以及各種批量操作之后,本文通過一種融合方法聚集節點特征并將其嵌入到一個統一的讀出層(readout layer)中做為分類任務的輸入。
1.2.5 多層感知機分類
本文使用MLP做為分類器,該分類器由一個輸入層、三個隱藏層和一個輸出層構成,各層之間使用修正線性單元(rectified linear unit,ReLU)作為激活函數連接。輸出層由7個節點構成,每個節點輸出該模型對各類乳腺癌亞型的預測概率。
1.3 訓練與測試
實驗環境:編程語言為python3.7(Python Software Foundation,荷蘭),深度學習框架為pytorch(Facebook,美國),編譯軟件為PyCharm2018(JetBrains,捷克共和國),GPU為NVDIA TITAN V(NVIDIA,美國)。
本實驗將待分類數據集按照8:2的比例分為訓練集和測試集,網絡訓練初始學習率設為0.001,最小批處理尺寸為32,輪次(epoch)為500,采用交叉熵損失函數計算損失以有效避免梯度彌散,采用自適應矩估計優化器(adaptive moment estimation optimize,Adam)來提升網絡模型的優化效果,其中權重衰減系數為5 × 10?4。
1.4 性能評價指標
完成乳腺癌患者的亞型分類之后,本實驗以整體準確率(accuracy,Acc)、加權召回率(weight-recall,Recw)、加權精確率(weight-precision,Prew)以及加權F1分數(weight- F1,F1w)四個評價指標綜合衡量模型的性能。各個指標的計算過程如式(5)~式(8)所示:
![]() |
![]() |
![]() |
![]() |
式中,真陽性(true positive,TP)表示正類別中正確分類樣本的數量;真陰性(true negative,TN)表示負類別中正確分類樣本的數量;假陽性(false positive,FP)表示正類別中錯誤分類樣本的數量;假陰性(false negative,FN)是負類別中錯誤分類樣本的數量。Pi和Ri分別代表各個亞型的精確率和召回率,Wi代表第i類樣本的類別權重,滿足,其中Ni代表第i類樣本的真實數目。
通過對這些評價指標的綜合評估,可以了解分類模型的整體性能,進一步證實所提出的乳腺癌亞型分類模型的實際意義。
2 結果
2.1 實驗結果
為了驗證本文提出的HAML-GCN模型的優越性,在保證數據集及其他實驗條件相同的情況下,依托PyG以及機器學習工具包(Scikit-learn)[25],分別與傳統的GCN模型以及圖同構神經網絡(graph isomorphism network,GIN)、圖采樣聚合網絡(graph sample and aggregate,GraphSAGE)兩種主流GNN模型的分類性能進行比較,結果如表2所示。

2.2 結果分析
經過實驗對比可以看出,本文提出的模型在Acc、F1w、Recw以及Prew四個評價指標上均表現出了優異的性能,比其他3個分類模型更加優秀。這表明本文模型具有出色的分類能力,可以更好地區分乳腺癌的不同亞型。為了進一步證明所提出模型的魯棒性,在測試集上繪制了如圖2所示的7分類損失曲線。

可以發現,隨著迭代輪次的增加,模型的測試損失最終趨于近收斂狀態,但其損失值存在局部震蕩、全局偏高的問題。由于本文提出的模型在計算分類指標的時候參照了亞型數量比率作為權重,所以初步推斷這一現象是由于亞型樣本數量少且分布不平衡導致的。為了驗證這一推測,進一步查閱了相關的文獻資料,結果顯示,luminal A和luminal B同屬于雌激素受體(estrogen receptor,ER)、黃體酮受體(progesterone receptor,PR)陽性組,而basal-like、her2-enrich和claudin-low同屬于ER、PR陰性組[26]。此外,由于claudin-low亞型缺乏α型雌激素受體(estrogen receptor alpha,Erα)、PR和her2 的表達,存在和basal-like亞型相似的特征,二者在最初被認為是同種亞型,但進一步研究發現claudin-low亞型具有很強的特異性,包括緊密連接蛋白-3(claudin-3)和緊密連接蛋白-4(claudin-4)的額外下調、增殖標志物(Ki67)的低表達以及乳腺癌干細胞相關特征的表達[27]。綜合上述內容,本實驗將luminal A和luminal B兩種亞型合并為管腔型(luminal),her2-enrich和basal-like兩種亞型合并為her2富集/基底樣混合亞型(her2-enrich/basal-like),保留normal-like亞型不變并將claudin-low作為一種單獨亞型,由于NC組僅有6個樣本,遠小于其他幾種亞型,所以在實驗過程中被舍棄。最終,原始數據被重新標定為4種亞型,其數量統計如表3所示。

在保證實驗條件和參數完全一致的情況下,本實驗基于該4分類數據集重新進行了模型的訓練和測試,結果如表2所示。同樣的,繪制了如圖2所示的4分類損失曲線。可以觀察到,在4分類任務中,各個模型的評價指標均有所提升,而本文提出的模型依然保持著最佳的分類性能。較之于7分類任務,本模型在4分類任務中表現出更為顯著的優勢。此外,隨著迭代輪次的增加,本模型在4分類任務中的測試損失值顯著降低,并且達到了更加穩定的收斂狀態。這一結果驗證了之前的推測,即少量且分布不平衡的實驗數據是乳腺癌亞型分類模型性能的一大考驗。
此外,為了證明表2中所述的HAML-GCN模型分類結果的可靠性,在模型訓練趨于穩定之后,根據統計學原理,本研究分別計算出了各項指標的95%置信區間,其中Acc的置信區間為[0.908 6,0.915 7]、F1w的置信區間為[0.869 0,0.878 3]、Recw的置信區間為[0.908 6,0.915 7]、Prew的置信區間為[0.835 3,0.846 1]。顯然,上述4個指標的置信區間均相對較窄,這進一步證實了所提出的乳腺癌亞型分類模型具有良好的穩定性,并且具備相當可靠的性能。
最后,為了進一步驗證所提出模型的分類性能,本研究將該模型與最新的乳腺癌亞型分類算法進行了比較,結果如表4所示[28-31]。從結果可以看出,所提出的HAML-GCN分類模型獲得了最高的準確率。這表明該模型具備出色的分類能力,能夠更加準確地將乳腺癌分類為不同亞型。這對于患者的個體化診斷和個性化治療具有重大意義,進一步證明了所提出模型的有效性。

3 討論
針對現有的基于基因表達數據的乳腺癌亞型分類方法通常在歐幾里得域進行研究,忽略了不同基因之間的內在關聯性和協同性等問題,本文提出了一種基于GCN的乳腺癌亞型分類模型以彌補傳統方法的不足。創新點在于:
(1)通過卡方檢驗和最小冗余最大相關算法來篩選關鍵特征基因,既降低了特征維度,減少了噪聲干擾,又保證了特征之間的差異性以及特征與目標變量的相關性。
(2)結合生物網絡的先驗知識,構建了特征基因的圖形表示,并用GCN捕獲了基因表達譜的局部表示。
(3)運用注意力機制學習圖的分層表示,捕獲了節點特征和拓撲結構的抽象特征并將其嵌入到一個統一的輸出層中學習到了乳腺癌基因表達譜各層級內的局部特征和層級間的全局關聯。
本研究所提出的HAML-GCN模型在乳腺癌的亞型分類任務中表現出色,其多個評價指標都優于現有的分類模型。受限于數據量少、亞型樣本分布不平衡等客觀條件約束,本模型同樣存在魯棒性差的問題,并且分類越細這一問題就越突出。為了解決這一問題,達到乳腺癌亞型的精細化分類,計劃從以下幾個方面展開后續研究:
(1)進一步擴充數據集,采用分層抽樣的方式進行訓練集、驗證集以及測試集的劃分,以保證亞型樣本數量的加權平衡,從而使模型能學習到更多的分類特征。
(2)融合患者的DNA甲基化、CNV等多模態數據,結合生物網絡等先驗知識構建多剖面的圖形表示,然后再基于GNN構建異構圖來學習乳腺癌分子亞型更精準而全面的分類特征。
(3)對模型決策的可解釋性進行研究,通過采用一些計算方法以及可視化方法理解分類模型的決策過程,即以人類可以接受的方式對模型的決策過程做出解釋,并對模型可能失敗的情況進行解釋。
為了增強此類計算機輔助算法的分類預測結果在生物醫療領域的可信度,基于GNN的乳腺癌亞型分類模型的可解釋性將會是下一步的研究重點。
4 結論
本文提出了一種名為HAML-GCN的多分類模型,用于有效地提取乳腺癌基因表達數據的特征信息,解決乳腺癌分子亞型的智能分類問題。在7分類任務中,該模型的Acc、F1w、Recw以及Prew分別達到了0.851 7、0.823 5、0.851 7、0.793 6;在4分類任務中,這些指標分別達到了0.928 5、0.894 9、0.928 5和0.865 0。相較于最新的乳腺癌亞型分類算法,該模型同樣獲得了最高的分類準確率。這一結果表明,該模型在乳腺癌的亞型分類任務中具有良好的性能。在未來的研究中,如果能結合更加精確、完備的數據集,并對模型的決策做出合理的解釋,那么本文所提出模型的分類性能可能會進一步提升,其實用可信度也會大大增強。綜合上述討論,本文提出的模型可以作為一種潛在的輔助診斷技術,為未來乳腺癌分子亞型的精確分類提供一個可信的選擇,奠定計算機輔助腫瘤分類的理論基礎,并為現代化精準醫療提供一定的技術支持。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:安義帥主要負責算法程序設計與編寫、數據記錄與分析以及論文撰寫;劉曉軍、陳恒玲主要負責實驗流程、協調溝通、計劃安排、提供實驗指導以及論文審閱修訂;萬桂宏主要負責實驗指導以及數據分析指導。