經醫學研究發現,腫瘤突變負荷(TMB)與非小細胞肺癌(NSCLC)免疫治療的療效呈正相關,并且TMB值對靶向治療和化療的療效也有一定的預測作用。然而,計算TMB值需要借助全外顯子組測序(WES)技術,成本較高。對此,本文利用臨床常用的數字病理組織切片圖像,研究TMB與切片圖像之間的關聯關系,并據此預測患者的TMB水平。本文提出了一種基于殘差坐標注意力(RCA)結構并融合多尺度注意力引導(MSAG)模塊的深度學習模型(RCA-MSAG)。該模型以50層殘差網絡(ResNet-50)為基準模型,并將坐標注意力(CA)融入到瓶頸(bottleneck)模塊,用來捕獲方向感知和位置敏感信息,從而使模型能夠更準確定位和識別感興趣的位置。然后,通過在網絡內添加MSAG模塊,使模型可以提取肺癌病理組織切片的深層特征以及通道之間的交互信息。本文實驗數據集采用癌癥基因組圖譜(TCGA)公開數據集,數據集由200張肺腺癌病理組織切片組成,其中高TMB值的數據80張,中TMB值的數據77張,低TMB值的數據43張。實驗結果表明,所提模型的準確率、精確率、召回率和F1分數分別為96.2%、96.4%、96.2%和96.3%,并且上述指標均優于當前主流深度學習模型。本文所提模型或可促進臨床輔助診斷,對TMB預測具有一定的理論指導意義。
引用本文: 孟祥福, 俞純林, 楊嘯林, 楊子毅, 劉鄧. 基于殘差網絡的肺癌腫瘤突變負荷多分類預測模型. 生物醫學工程學雜志, 2023, 40(5): 867-875. doi: 10.7507/1001-5515.202304055 復制
0 引言
肺癌是人類癌癥致死相關的主要疾病之一,其發病率約占全部惡性腫瘤的19%[1]。全世界每年的新增肺癌病例大約是120萬例,在患惡性腫瘤的男性患者中肺癌的死亡率最高,在女性中僅次于乳腺癌[2]。而在所有肺癌病例中,約有85%的患者被診斷為非小細胞肺癌(non-small cell lung cancer,NSCLC),并且約75%的患者發現時已處于中晚期,5年內存活率很低。由于NSCLC的種類和分期不同,臨床上難以確定針對特定患者的最適治療方案[3]。
近年來,針對晚期NSCLC的治療,經歷了化療、靶向治療和免疫治療等方式的變革,很大程度上提高了晚期NSCLC患者的生存率。例如,免疫檢查點抑制劑(immune checkpoint inhibitors,ICPIs)改善了NSCLC傳統的治療模式,已成為多種NSCLC的主要治療方法之一。但需要指出的是,免疫治療并非適用于所有NSCLC患者,研究表明體細胞突變數目高的患者對免疫治療更為敏感,治療效果也更好[4]。因此,尋找一種新的對免疫治療更敏感的預測因子尤為重要。
腫瘤突變負荷(tumor mutation burden,TMB)是一種估量腫瘤突變數目的重要指標,定義為外顯子編碼區每兆DNA堿基的突變數量。臨床數據表明,TMB和ICPIs療效之間具有關聯性,是因為基因突變誘導了新抗原的產生,增加了腫瘤的免疫原性,使得腫瘤對ICPIs治療有了更積極的反應[5]。目前,主要采用新一代全外顯子組測序(whole exome sequencing,WES)方法來計算TMB值,但WES檢測耗時長、成本高,難以在臨床治療中推廣應用,因此亟需開發一種更為高效且成本較低的新方法來計算TMB值。在癌癥診療過程中廣泛應用的全視野數字切片(whole slide image,WSI)技術,可為TMB值的估計提供新的思路。例如,Coudray等[6]采用深度學習方法,通過分析WSI特征,成功對NSCLC進行了準確分類,并能夠預測肺腺癌患者是否存在常見基因突變的情況。由此可見,深度學習在醫學領域有很大的應用潛力,而WSI能夠反映癌癥基因組變化。因此,本文將在WSI上通過使用深度學習技術來預測TMB值。
目前,對于醫學影像處理的研究工作主要經歷了三個階段。第一階段是基于機器學習的預測方法,該類方法通常采用人工標注的圖像,在經過特征選取后,使用機器學習方法進行分類。例如, Christopher等[7]使用機器學習中的樸素貝葉斯(naive Bayes,NB)、貝葉斯網絡(Bayesian network)、J48決策樹等方法實現了對肺癌的準確分類。但該類方法依賴于人工標注圖像,如果人工標注的標簽不夠準確,則取得的效果也會較差。第二階段是使用卷積神經網絡來對醫學影像進行分類,但由于醫學影像領域缺少標注完善的大規模數據集,從而導致卷積神經網絡在醫學影像領域并未取得很好的效果。第三階段是采用遷移學習的方法來對深度學習模型進行微調,通過將深度學習模型在其他領域的大型數據集或不同醫學數據集上進行訓練,利用訓練好的模型參數來微調自己的模型。例如,Deniz等[8]使用遷移學習和卷積神經網絡方法對乳腺癌進行分類預測,實驗結果表明使用遷移學習對現有模型進行微調取得了更好效果。
近年來,遷移學習在醫學領域得到了廣泛應用,特別是在對TMB值的預測上取得了較好效果。例如,孫德偉等[9]通過在深度神經網絡——第三代啟發式網絡(Inception)系列模型(InceptionV3)上增加了通道注意力和空間注意力模塊,提高了模型的特征提取能力,實驗結果表明,該方法的曲線下面積(area under the curve,AUC)值達到了0.82。劉鄧等[10]使用殘差網絡(residual network,ResNet)作為骨干網絡,結合了多尺度特征注意力和多尺度信息融合模塊,提高了模型對肺癌數字病理組織切片深層特征的提取能力。實驗結果表明,該方法的AUC值提升到了0.883。需要指出的是,上述方法僅將TMB值劃分為高和低兩類,使得在臨床上很難準確判斷患者是否適用于免疫治療。并且,上述方法在提取WSI深層次特征信息上缺少對通道之間細微信息的關注,使得分類效果并不理想。
針對以上問題,本文采用殘差坐標注意力(residual coordinate attention,RCA)結構和多尺度注意力引導(multi-scale attention guidance,MSAG)模塊,構建了一個用于肺癌TMB值三分類預測的深度ResNet模型(RCA-MSAG)。本文的主要貢獻如下:
(1)在數據處理階段,進一步細化了TMB值的類別,將TMB值劃分為高、中和低三個水平,這種更細致的劃分方式可更好地反映患者對于免疫治療的敏感程度,從而為治療方案選擇提供更為準確的依據。
(2)設計了RCA結構并將其替換ResNet原本的瓶頸(bottleneck)結構,在不增加過多計算量的前提下,提高了模型捕獲方向感知和位置敏感信息的能力。
(3)在特征提取階段,設計了一個MSAG模塊,加強了模型提取深層次特征和通道之間交互信息的能力,進而提高了模型的總體性能。
1 數據和方法
1.1 數據來源
本文使用的數據來自癌癥基因組圖譜(the cancer genome atlas,TCGA),該數據庫是2006年由美國國家癌癥研究所和美國國家人類基因組研究所聯合啟動建立的項目,收集了各種類型(包括亞型)的人類癌癥臨床數據,為公開數據庫。本文實驗使用的基因組信息和WSI圖像數據來源于TCGA數據庫下的肺腺癌(lung adenocarcinoma,LUAD)數據集(TCGA-LUAD)。每個WSI的TMB值通過TCGA數據庫提供的簡單核苷酸變異數據計算得出,然后根據TMB值的計算結果將WSI數據集劃分為高TMB組、中TMB組和低TMB組。劃分依據是:TMB值≥10.0突變數/Mb,定義為高TMB; TMB值<1.1突變數/Mb,定義為低TMB;兩者中間部分定義為中TMB[11]。
實驗采用TCGA-LUAD數據集中200名測試患者的WSI,按上述方式分為高TMB組、中TMB組和低TMB組,每組內WSI的TMB標簽是相同的(即,高TMB、中TMB或低TMB)。由于每張WSI的尺寸非常龐大,為了便于計算機處理,先將其劃分成大小為224 × 224的小切片,屬于同一張WSI的小切片的TMB標簽與其對應WSI的TMB標簽相同。數據集中共有200張WSI,其中高TMB的80張,中TMB的77張,低TMB的43張。按照尺寸(224 × 224)進行裁剪,得到高TMB小切片110 267張,中TMB小切片132 375張,低TMB小切片68 910張。
1.2 方法
1.2.1 數字病理圖像切分
WSI的像素數量可達上億,一張肺腺癌WSI的像素可達到26 001 × 21 911個像素。由于計算機內存的限制,無法直接將整張WSI送入深度學習模型進行訓練,因此需要對WSI進行切分。為了在切分過程中不丟失太多細微信息,首先將WSI按照相同比例放大20倍,然后采用無重疊滑動窗口的方式將病理圖像切分為若干大小為224 × 224的小切片。數字病理圖像的切分過程如圖1所示。

1.2.2 數據增強
醫學影像領域通常出現由于數據集不平衡或數據集太小導致深度學習模型無法充分訓練,從而影響模型分類效果的問題。對此,本文采用數據增強技術先對數據集進行處理。數據增強,是通過對訓練集進行中心裁剪、翻轉、噪聲添加等處理,提高數據集的平衡性和多樣性,從而提高模型的泛化能力。根據WSI數據集的具體情況,本文采用三種數據增強方法:隨機中心裁剪、隨機水平或垂直翻轉、圖像旋轉。數據增強效果如圖2所示。

1.2.3 RCA結構
坐標注意力(coordinate attention,CA)是一種新興的注意力機制,它能夠將位置信息嵌入到通道注意力中,使得網絡不僅能夠關注通道之間的關系,還能關注特征的空間位置信息,從而使提取到的信息更加全面[12]。RCA結構是在殘差結構中加入CA,從而幫助模型更精準地定位感興趣的位置,同時還能夠避免增加過多的計算開銷[13],如圖3所示。當輸入特征圖送入RCA時,先依次經過三個卷積層提取初始特征,然后為了避免二維全局池化導致的位置信息丟失問題,將二維全局池化分解為垂直方向和水平方向的一維平均池化(AvgPool)。輸入的特征矩陣形狀為C × H × W,其分解獲得的兩個不同尺寸的特征矩陣為C × H × 1、C × 1 × W。兩個一維AvgPool將水平方向和垂直方向的特征分別聚合為兩個獨立的方向感知特征圖,然后將水平方向和垂直方向的方向感知特征圖拼接起來,通過1 × 1的卷積運算后送入非線性激活函數進行處理。上述處理的計算方法如式(1)~式(3)所示:

![]() |
![]() |
![]() |
式中,W表示特征矩陣的寬,H表示特征矩陣的高,Xc(h, i)表示特征圖第c個通道第h行第i列的元素,Xc(j, w)表示特征圖第c個通道第j行第w列的元素,Zch為水平方向帶有坐標感知信息的特征,Zcw為垂直方向帶有坐標感知信息的特征,[,]表示拼接函數,F表示卷積運算,δ表示線性整流函數(rectified linear unit,ReLU),f表示融合了水平方向和垂直方向位置信息的特征圖[14-15]。
隨后,將式(3)輸出的f進行批歸一化(batch normalization,BN)處理,接著將f沿著水平方向和垂直方向拆分(Split)為兩個單獨的特征圖,分別是形為C × H × 1的f h和形為C × 1 × W的f w。在此基礎上,將兩個注意力特征圖分別通過卷積運算后送入ReLU激活函數,最后將得到的結果與原始輸入的特征矩陣相乘融合。上述處理的計算方法如式(4)~式(6)所示:
![]() |
![]() |
![]() |
式中,Fh和Fw分別表示對f h和f w在水平方向和垂直方向上的卷積運算,ω表示ReLU激活函數。gh和gw為輸出的水平方向和垂直方向上的注意力權重,X(i, j)表示輸入特征圖中的像素點,Z為經過注意力運算后的輸出特征圖。
1.2.4 MSAG模塊
卷積神經網絡由于受限于卷積核的尺寸,僅能獲得病理圖像的局部單一特征信息。為了獲得更加豐富的特征信息,Simonyan等[16]提出的視覺幾何組(visual geometry group,VGG)和Szegedy等[17]提出的InceptionV3,使用了更大尺寸的卷積核,或是融合多個不同尺寸的卷積核。此外,還可以在網絡中加入注意力機制使模型感興趣的部分獲得更大的權重。例如,Hu等[18]設計了一種通道注意力,通過探索通道之間特征的相互依賴關系來提高網絡的表示能力。本文提出的MSAG模塊結合了上述方法的優點并做出改進,在通道注意力基礎上加入了空間注意力,空間注意力可以忽略圖像中的非重點區域,更加關注在任務中貢獻較大的區域[19]。MSAG結構如圖4所示。

當輸入特征圖送到引導模塊后,首先對其進行尺寸為1 × 1、3 × 3和5 × 5的深度可分離卷積(depthwise separable convolution,DSC)運算,用來提取WSI切片在不同感受野下的信息特征[20]。然后,將經過DSC處理得到的三種不同感受野下的特征信息,通過拼接運算進行特征融合,得到一個通道數是原來三倍的特征圖,然后再使用尺寸為1 × 1的普通卷積將特征圖壓縮還原。之后,將得到的特征圖送入通道注意力中進行通道維度的特征提取。通道注意力計算方法如式(7)所示:
![]() |
式中,F為輸入特征圖(其尺寸為C×H×W),AvgPool表示對通道維度上的特征做全局平均池化,最大池化(MaxPool)表示對通道維度上的特征做全局最大池化,σ表示S型生長曲線(sigmoid)函數,多層感知機(multi-layer perceptron,MLP)表示對輸入特征圖進行線性運算。W0和W1是MLP的權重矩陣,Favgc和Fmaxc分別表示通道維度上的特征經過AvgPool和MaxPool運算后得到的特征圖,MC是輸入特征經通道注意力運算后得到的權重向量。將經過通道注意力處理后的特征圖送入空間注意力模塊中進行運算,空間注意力的計算方法如式(8)所示:
![]() |
式中,X為輸入特征圖(其尺寸為C×H×W),Conv表示進行卷積運算,Favgs和Fmaxs分別表示空間維度上的特征經過AvgPool和MaxPool運算后得到的特征圖,MS表示經空間注意力后得到的特征圖矩陣。
最后,將空間注意力輸出的特征矩陣與原始特征圖進行殘差融合,這樣經過多種尺度的特征提取與融合,使得模型充分提取了不同感受野下的特征信息,從而增強了模型的特征提取能力。
1.2.5 模型構建
RCA-MSAG深度學習模型將ResNet的bottleneck結構替換為RCA結構,并在模型中使用了MSAG模塊,使得模型能夠捕獲跨通道的特征信息,并且在不耗費過多的計算資源的前提下,能夠提取包含方向感知信息的特征,從而使模型能夠準確地定位并識別影像數據的核心區域,進而強化了模型的特征提取能力。RCA-MASG模型結構如圖5所示。

實驗過程中,將小切片按照一定的批量大小送入模型后,首先,進入初始特征提取階段(STAGE 0),該階段任務是對小切片進行原始特征提取;然后,將提取的特征送入MSAG模塊,以多種尺度提取特征信息以及通道和空間之間像素的細節信息,將提取到的特征信息拼接融合。接著,進入深層特征提取與融合階段(STAGE 1~STAGE 4),輸入信息經過MSAG模塊的挖掘已經剔除了非重點的特征信息,RCA結構會將特征信息再次進行篩選并且能夠注意到跨通道的更大區域的特征。最后,將提取到的全部特征信息送入一個MLP,MLP先使用全局AvgPool將輸入特征矩陣轉換為一個長度為2 048的向量,接著通過一個全連接(fully connected,FC)層過濾非重點信息得到長度為1 000的向量,此時為了防止模型出現過擬合的問題使用一個丟棄層,丟棄層可以按照一定的概率隨機地使一些神經元失去作用,最后將丟棄層輸出的向量送入FC層,得到一個長度為3且值在0~1之間的概率,并通過最大值函數得到最終的分類結果。
1.2.6 評價方法
實驗選擇準確率(accuracy,Acc)、精確率(precision,Pre)、召回率(recall,Rec)以及F1分數作為模型的性能評價指標。Acc指預測正確的結果占總樣本數的百分比;Pre是指在所有的預測為正的樣本中有多少樣本實際為正;Rec是指在所有實際為正的樣本中有多少樣本被預測為正;F1分數是模型Pre和Rec的一種加權平均數,F1分數認為Pre和Rec具有同樣的重要性,F1分數越高意味著Pre和Rec的取值可以同時達到最高。上述指標的計算方法如式(9)~式(12)所示:
![]() |
![]() |
![]() |
![]() |
式中,真陽性(true positive,TP)表示預測為正樣本且實際上也為正樣本的數量,真陰性(true negative,TN)表示預測為負樣本且實際上也為負樣本的數量,假陽性(false positive,FP)表示預測為負樣本但實際為正樣本的數量,假陰性(false positive,FN)表示預測為正樣本但實際為負樣本的數量。在實驗中,認為高、中、低三個標簽具有同等的重要性,直接將不同類別的評價指標加起來求平均,給每個類別相同的權重,以此得到最終實驗結果。
2 結果
2.1 對比實驗
實驗的編程語言為python3.8(Python Software Foundation,荷蘭),深度學習框架是pytorch(Facebook,美國),圖形處理器(graphics processing unit,GPU)硬件為NVIDIA GeForce RTX 3090(NVIDIA,美國)。實驗過程中將數據集按照80%和20%的比例設為訓練集和驗證集,設置訓練批次大小為128,學習率為0.01,使用交叉熵函數作為損失函數,采用帶權重衰減的自適應矩估計(adaptive moment estimation weight decay,AdamW)優化算法對模型進行訓練。
為了驗證提出模型的有效性,本研究進行了以下三個實驗。
實驗一:不同模型的TMB分類預測效果對比實驗。為了驗證不同模型的分類效果,將深度神經網絡(AlexNet)[21]、VGG、ResNet、InceptionV3、第四代Inception系列模型(InceptionV4)[22]、高效神經網絡(EffcientNet)[23]、稠密神經網絡(DenseNet)[24]以及殘差密集連接網絡(ResNeSt )[25]等模型與本文模型RCA-MSAG進行對比。
實驗二:消融實驗。為了驗證所提模塊對于網絡性能提升的有效性,以50層ResNet(ResNet-50)作為基準模型,對RCA模塊和MSAG模塊進行消融實驗。
實驗三:超參數調優實驗。超參數是指模型開始訓練之前由人工手動設置的參數,它不能通過模型訓練自動調整。學習率是深度學習中非常重要的一個超參數,是指在每一次參數更新時模型參數調整的幅度大小,學習率設置的是否恰當決定了目標函數是否能夠收斂到最小值以及何時能夠收斂至最小值。減少率也是深度學習中的一個超參數,是指輸出神經元被隨機丟棄的概率,用于緩解模型訓練時可能出現的過擬合問題。超參數的選取同樣決定著模型的訓練效果,本實驗選擇學習率和減少率進行實驗,在實驗中設置學習率的取值分別為0.01、0.001和0.000 1,設置減少率的取值分別為0.3、0.5和0.8,觀察不同學習率和減少率情況下對模型性能的影響。
2.2 實驗結果
實驗一的不同網絡模型TMB分類預測結果的對比如表1所示。由表1可知,在相同實驗條件下,融合RCA和MSAG模塊的RCA-MSAG模型具有最高的Acc、Pre、Rec和F1分數,充分說明了RCA和MSAG模塊融合的有效性,在沒有明顯增加參數量和計算資源的情況下,提高了模型的分類效果。

實驗二的消融實驗結果如表2所示。從表2中可以看出RCA和MSAG模塊對模型效果提升有積極作用。當模型中存在RCA模塊時,模型準確率為0.937,比缺少RCA模塊時有所提高,當模型中存在MSAG模塊時,模型準確率為0.922,比缺少MSAG模塊時有所提高。

實驗三的超參數實驗結果如表3和表4所示。從表3中可以觀察到,學習率的變化對模型分類準確性的影響很小,由此可見,通過加入權重衰減因子來動態調整學習率,可以減少學習率對于模型訓練的影響。從表4可以發現,減少率對模型的分類準確性有一定影響,實驗結果表明當減少率為0.5時,模型得到了最高的準確率。


3 討論
TMB是近年發現的一種可用于預測免疫治療效果的生物標志物,在NSCLC的預測中能夠起到一定作用,這種生物標志物還可用于預測免疫治療對其他癌癥患者的療效,因此在臨床上具有重要的應用價值。然而,TMB值的計算需要使用新一代測序技術,缺點是檢測耗時長、成本高,難以在臨床治療中推廣應用。此外,不同的測序技術和測試標準也會導致計算出的TMB值有所偏差。針對以上問題,本文采用深度學習的方法,通過將WSI送入搭建好的深度學習模型中訓練,讓模型反復學習病理切片中的特征信息,進而可以在較短時間內對TMB值進行高、中、低水平的三分類預測,與使用測序技術相比,檢測時間大大縮短,能夠為臨床診斷選擇治療方案提供理論依據。
表1的結果顯示,不同的深度學習模型對于醫學圖像特征信息的提取能力不同,而RCA-MSAG在TMB值的預測任務中取得了最好的效果。表2的結果顯示在ResNet中引入RCA和MSAG模塊能夠有效提高模型性能,使得模型既能關注到通道和空間之間的細微特征信息,還可提取坐標位置中的特征信息。此外,由于多尺度卷積的使用,模型可以有效關注到不同感受區域的特征信息,從而極大程度提高了模型的特征提取能力。表3的結果顯示,采用權重衰減因子和衰減周期等方式,可以有效減少學習率對模型訓練的負面影響。同時,應用BN層對數據進行歸一化處理,可以提高模型的學習速度和加速收斂。
本文也存在一些局限:第一,由于計算機的內存限制不能把尺寸巨大的WSI直接送入模型訓練。因此,在實驗前需采用滑動窗口的方式將每張WSI按照一定尺寸切割,而這種方法會導致切片之間的關聯信息丟失。第二,雖然本研究進一步細化了TMB值的類別,但仍然不能直接預測出具體的TMB值,未來需進一步將TMB分類問題轉換為回歸問題,從而直接預測出具體的TMB值。第三,盡管RCA-MSAG模型在沒有耗費過多計算資源的情況下取得了較好分類預測效果,但訓練周期仍然不短,因此設計更加輕量、高效、低計算量的深度學習模型也是未來的工作。
4 結論
本文進一步劃分了TMB值的類別,并在ResNet中加入了RCA和MSAG模塊進行特征信息提取,通過將多個維度的信息相互作用和融合,進一步加強了模型的特征提取能力。本文還采用了一系列優化策略來提高模型的TMB分類性能。例如,使用數據增強技術擴充訓練集,從而增強了模型的泛化能力。基于上述方法,經實驗驗證表明,本文提出的RCA-MSAG在TMB值的多分類預測任務中取得了最佳效果。醫務人員可以通過對患者TMB值進行高、中、低水平的分類檢測,進而為臨床診斷選擇適當的治療方法提供理論指導。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:孟祥福主要負責總體解決方案設計、實驗指導、論文撰寫、論文審閱及修訂;俞純林主要負責實驗方案設計、程序編寫、論文撰寫;楊嘯林主要負責醫學背景知識指導、實驗結果分析;楊子毅主要負責數據處理方案設計;劉鄧主要負責算法咨詢與建議。
0 引言
肺癌是人類癌癥致死相關的主要疾病之一,其發病率約占全部惡性腫瘤的19%[1]。全世界每年的新增肺癌病例大約是120萬例,在患惡性腫瘤的男性患者中肺癌的死亡率最高,在女性中僅次于乳腺癌[2]。而在所有肺癌病例中,約有85%的患者被診斷為非小細胞肺癌(non-small cell lung cancer,NSCLC),并且約75%的患者發現時已處于中晚期,5年內存活率很低。由于NSCLC的種類和分期不同,臨床上難以確定針對特定患者的最適治療方案[3]。
近年來,針對晚期NSCLC的治療,經歷了化療、靶向治療和免疫治療等方式的變革,很大程度上提高了晚期NSCLC患者的生存率。例如,免疫檢查點抑制劑(immune checkpoint inhibitors,ICPIs)改善了NSCLC傳統的治療模式,已成為多種NSCLC的主要治療方法之一。但需要指出的是,免疫治療并非適用于所有NSCLC患者,研究表明體細胞突變數目高的患者對免疫治療更為敏感,治療效果也更好[4]。因此,尋找一種新的對免疫治療更敏感的預測因子尤為重要。
腫瘤突變負荷(tumor mutation burden,TMB)是一種估量腫瘤突變數目的重要指標,定義為外顯子編碼區每兆DNA堿基的突變數量。臨床數據表明,TMB和ICPIs療效之間具有關聯性,是因為基因突變誘導了新抗原的產生,增加了腫瘤的免疫原性,使得腫瘤對ICPIs治療有了更積極的反應[5]。目前,主要采用新一代全外顯子組測序(whole exome sequencing,WES)方法來計算TMB值,但WES檢測耗時長、成本高,難以在臨床治療中推廣應用,因此亟需開發一種更為高效且成本較低的新方法來計算TMB值。在癌癥診療過程中廣泛應用的全視野數字切片(whole slide image,WSI)技術,可為TMB值的估計提供新的思路。例如,Coudray等[6]采用深度學習方法,通過分析WSI特征,成功對NSCLC進行了準確分類,并能夠預測肺腺癌患者是否存在常見基因突變的情況。由此可見,深度學習在醫學領域有很大的應用潛力,而WSI能夠反映癌癥基因組變化。因此,本文將在WSI上通過使用深度學習技術來預測TMB值。
目前,對于醫學影像處理的研究工作主要經歷了三個階段。第一階段是基于機器學習的預測方法,該類方法通常采用人工標注的圖像,在經過特征選取后,使用機器學習方法進行分類。例如, Christopher等[7]使用機器學習中的樸素貝葉斯(naive Bayes,NB)、貝葉斯網絡(Bayesian network)、J48決策樹等方法實現了對肺癌的準確分類。但該類方法依賴于人工標注圖像,如果人工標注的標簽不夠準確,則取得的效果也會較差。第二階段是使用卷積神經網絡來對醫學影像進行分類,但由于醫學影像領域缺少標注完善的大規模數據集,從而導致卷積神經網絡在醫學影像領域并未取得很好的效果。第三階段是采用遷移學習的方法來對深度學習模型進行微調,通過將深度學習模型在其他領域的大型數據集或不同醫學數據集上進行訓練,利用訓練好的模型參數來微調自己的模型。例如,Deniz等[8]使用遷移學習和卷積神經網絡方法對乳腺癌進行分類預測,實驗結果表明使用遷移學習對現有模型進行微調取得了更好效果。
近年來,遷移學習在醫學領域得到了廣泛應用,特別是在對TMB值的預測上取得了較好效果。例如,孫德偉等[9]通過在深度神經網絡——第三代啟發式網絡(Inception)系列模型(InceptionV3)上增加了通道注意力和空間注意力模塊,提高了模型的特征提取能力,實驗結果表明,該方法的曲線下面積(area under the curve,AUC)值達到了0.82。劉鄧等[10]使用殘差網絡(residual network,ResNet)作為骨干網絡,結合了多尺度特征注意力和多尺度信息融合模塊,提高了模型對肺癌數字病理組織切片深層特征的提取能力。實驗結果表明,該方法的AUC值提升到了0.883。需要指出的是,上述方法僅將TMB值劃分為高和低兩類,使得在臨床上很難準確判斷患者是否適用于免疫治療。并且,上述方法在提取WSI深層次特征信息上缺少對通道之間細微信息的關注,使得分類效果并不理想。
針對以上問題,本文采用殘差坐標注意力(residual coordinate attention,RCA)結構和多尺度注意力引導(multi-scale attention guidance,MSAG)模塊,構建了一個用于肺癌TMB值三分類預測的深度ResNet模型(RCA-MSAG)。本文的主要貢獻如下:
(1)在數據處理階段,進一步細化了TMB值的類別,將TMB值劃分為高、中和低三個水平,這種更細致的劃分方式可更好地反映患者對于免疫治療的敏感程度,從而為治療方案選擇提供更為準確的依據。
(2)設計了RCA結構并將其替換ResNet原本的瓶頸(bottleneck)結構,在不增加過多計算量的前提下,提高了模型捕獲方向感知和位置敏感信息的能力。
(3)在特征提取階段,設計了一個MSAG模塊,加強了模型提取深層次特征和通道之間交互信息的能力,進而提高了模型的總體性能。
1 數據和方法
1.1 數據來源
本文使用的數據來自癌癥基因組圖譜(the cancer genome atlas,TCGA),該數據庫是2006年由美國國家癌癥研究所和美國國家人類基因組研究所聯合啟動建立的項目,收集了各種類型(包括亞型)的人類癌癥臨床數據,為公開數據庫。本文實驗使用的基因組信息和WSI圖像數據來源于TCGA數據庫下的肺腺癌(lung adenocarcinoma,LUAD)數據集(TCGA-LUAD)。每個WSI的TMB值通過TCGA數據庫提供的簡單核苷酸變異數據計算得出,然后根據TMB值的計算結果將WSI數據集劃分為高TMB組、中TMB組和低TMB組。劃分依據是:TMB值≥10.0突變數/Mb,定義為高TMB; TMB值<1.1突變數/Mb,定義為低TMB;兩者中間部分定義為中TMB[11]。
實驗采用TCGA-LUAD數據集中200名測試患者的WSI,按上述方式分為高TMB組、中TMB組和低TMB組,每組內WSI的TMB標簽是相同的(即,高TMB、中TMB或低TMB)。由于每張WSI的尺寸非常龐大,為了便于計算機處理,先將其劃分成大小為224 × 224的小切片,屬于同一張WSI的小切片的TMB標簽與其對應WSI的TMB標簽相同。數據集中共有200張WSI,其中高TMB的80張,中TMB的77張,低TMB的43張。按照尺寸(224 × 224)進行裁剪,得到高TMB小切片110 267張,中TMB小切片132 375張,低TMB小切片68 910張。
1.2 方法
1.2.1 數字病理圖像切分
WSI的像素數量可達上億,一張肺腺癌WSI的像素可達到26 001 × 21 911個像素。由于計算機內存的限制,無法直接將整張WSI送入深度學習模型進行訓練,因此需要對WSI進行切分。為了在切分過程中不丟失太多細微信息,首先將WSI按照相同比例放大20倍,然后采用無重疊滑動窗口的方式將病理圖像切分為若干大小為224 × 224的小切片。數字病理圖像的切分過程如圖1所示。

1.2.2 數據增強
醫學影像領域通常出現由于數據集不平衡或數據集太小導致深度學習模型無法充分訓練,從而影響模型分類效果的問題。對此,本文采用數據增強技術先對數據集進行處理。數據增強,是通過對訓練集進行中心裁剪、翻轉、噪聲添加等處理,提高數據集的平衡性和多樣性,從而提高模型的泛化能力。根據WSI數據集的具體情況,本文采用三種數據增強方法:隨機中心裁剪、隨機水平或垂直翻轉、圖像旋轉。數據增強效果如圖2所示。

1.2.3 RCA結構
坐標注意力(coordinate attention,CA)是一種新興的注意力機制,它能夠將位置信息嵌入到通道注意力中,使得網絡不僅能夠關注通道之間的關系,還能關注特征的空間位置信息,從而使提取到的信息更加全面[12]。RCA結構是在殘差結構中加入CA,從而幫助模型更精準地定位感興趣的位置,同時還能夠避免增加過多的計算開銷[13],如圖3所示。當輸入特征圖送入RCA時,先依次經過三個卷積層提取初始特征,然后為了避免二維全局池化導致的位置信息丟失問題,將二維全局池化分解為垂直方向和水平方向的一維平均池化(AvgPool)。輸入的特征矩陣形狀為C × H × W,其分解獲得的兩個不同尺寸的特征矩陣為C × H × 1、C × 1 × W。兩個一維AvgPool將水平方向和垂直方向的特征分別聚合為兩個獨立的方向感知特征圖,然后將水平方向和垂直方向的方向感知特征圖拼接起來,通過1 × 1的卷積運算后送入非線性激活函數進行處理。上述處理的計算方法如式(1)~式(3)所示:

![]() |
![]() |
![]() |
式中,W表示特征矩陣的寬,H表示特征矩陣的高,Xc(h, i)表示特征圖第c個通道第h行第i列的元素,Xc(j, w)表示特征圖第c個通道第j行第w列的元素,Zch為水平方向帶有坐標感知信息的特征,Zcw為垂直方向帶有坐標感知信息的特征,[,]表示拼接函數,F表示卷積運算,δ表示線性整流函數(rectified linear unit,ReLU),f表示融合了水平方向和垂直方向位置信息的特征圖[14-15]。
隨后,將式(3)輸出的f進行批歸一化(batch normalization,BN)處理,接著將f沿著水平方向和垂直方向拆分(Split)為兩個單獨的特征圖,分別是形為C × H × 1的f h和形為C × 1 × W的f w。在此基礎上,將兩個注意力特征圖分別通過卷積運算后送入ReLU激活函數,最后將得到的結果與原始輸入的特征矩陣相乘融合。上述處理的計算方法如式(4)~式(6)所示:
![]() |
![]() |
![]() |
式中,Fh和Fw分別表示對f h和f w在水平方向和垂直方向上的卷積運算,ω表示ReLU激活函數。gh和gw為輸出的水平方向和垂直方向上的注意力權重,X(i, j)表示輸入特征圖中的像素點,Z為經過注意力運算后的輸出特征圖。
1.2.4 MSAG模塊
卷積神經網絡由于受限于卷積核的尺寸,僅能獲得病理圖像的局部單一特征信息。為了獲得更加豐富的特征信息,Simonyan等[16]提出的視覺幾何組(visual geometry group,VGG)和Szegedy等[17]提出的InceptionV3,使用了更大尺寸的卷積核,或是融合多個不同尺寸的卷積核。此外,還可以在網絡中加入注意力機制使模型感興趣的部分獲得更大的權重。例如,Hu等[18]設計了一種通道注意力,通過探索通道之間特征的相互依賴關系來提高網絡的表示能力。本文提出的MSAG模塊結合了上述方法的優點并做出改進,在通道注意力基礎上加入了空間注意力,空間注意力可以忽略圖像中的非重點區域,更加關注在任務中貢獻較大的區域[19]。MSAG結構如圖4所示。

當輸入特征圖送到引導模塊后,首先對其進行尺寸為1 × 1、3 × 3和5 × 5的深度可分離卷積(depthwise separable convolution,DSC)運算,用來提取WSI切片在不同感受野下的信息特征[20]。然后,將經過DSC處理得到的三種不同感受野下的特征信息,通過拼接運算進行特征融合,得到一個通道數是原來三倍的特征圖,然后再使用尺寸為1 × 1的普通卷積將特征圖壓縮還原。之后,將得到的特征圖送入通道注意力中進行通道維度的特征提取。通道注意力計算方法如式(7)所示:
![]() |
式中,F為輸入特征圖(其尺寸為C×H×W),AvgPool表示對通道維度上的特征做全局平均池化,最大池化(MaxPool)表示對通道維度上的特征做全局最大池化,σ表示S型生長曲線(sigmoid)函數,多層感知機(multi-layer perceptron,MLP)表示對輸入特征圖進行線性運算。W0和W1是MLP的權重矩陣,Favgc和Fmaxc分別表示通道維度上的特征經過AvgPool和MaxPool運算后得到的特征圖,MC是輸入特征經通道注意力運算后得到的權重向量。將經過通道注意力處理后的特征圖送入空間注意力模塊中進行運算,空間注意力的計算方法如式(8)所示:
![]() |
式中,X為輸入特征圖(其尺寸為C×H×W),Conv表示進行卷積運算,Favgs和Fmaxs分別表示空間維度上的特征經過AvgPool和MaxPool運算后得到的特征圖,MS表示經空間注意力后得到的特征圖矩陣。
最后,將空間注意力輸出的特征矩陣與原始特征圖進行殘差融合,這樣經過多種尺度的特征提取與融合,使得模型充分提取了不同感受野下的特征信息,從而增強了模型的特征提取能力。
1.2.5 模型構建
RCA-MSAG深度學習模型將ResNet的bottleneck結構替換為RCA結構,并在模型中使用了MSAG模塊,使得模型能夠捕獲跨通道的特征信息,并且在不耗費過多的計算資源的前提下,能夠提取包含方向感知信息的特征,從而使模型能夠準確地定位并識別影像數據的核心區域,進而強化了模型的特征提取能力。RCA-MASG模型結構如圖5所示。

實驗過程中,將小切片按照一定的批量大小送入模型后,首先,進入初始特征提取階段(STAGE 0),該階段任務是對小切片進行原始特征提取;然后,將提取的特征送入MSAG模塊,以多種尺度提取特征信息以及通道和空間之間像素的細節信息,將提取到的特征信息拼接融合。接著,進入深層特征提取與融合階段(STAGE 1~STAGE 4),輸入信息經過MSAG模塊的挖掘已經剔除了非重點的特征信息,RCA結構會將特征信息再次進行篩選并且能夠注意到跨通道的更大區域的特征。最后,將提取到的全部特征信息送入一個MLP,MLP先使用全局AvgPool將輸入特征矩陣轉換為一個長度為2 048的向量,接著通過一個全連接(fully connected,FC)層過濾非重點信息得到長度為1 000的向量,此時為了防止模型出現過擬合的問題使用一個丟棄層,丟棄層可以按照一定的概率隨機地使一些神經元失去作用,最后將丟棄層輸出的向量送入FC層,得到一個長度為3且值在0~1之間的概率,并通過最大值函數得到最終的分類結果。
1.2.6 評價方法
實驗選擇準確率(accuracy,Acc)、精確率(precision,Pre)、召回率(recall,Rec)以及F1分數作為模型的性能評價指標。Acc指預測正確的結果占總樣本數的百分比;Pre是指在所有的預測為正的樣本中有多少樣本實際為正;Rec是指在所有實際為正的樣本中有多少樣本被預測為正;F1分數是模型Pre和Rec的一種加權平均數,F1分數認為Pre和Rec具有同樣的重要性,F1分數越高意味著Pre和Rec的取值可以同時達到最高。上述指標的計算方法如式(9)~式(12)所示:
![]() |
![]() |
![]() |
![]() |
式中,真陽性(true positive,TP)表示預測為正樣本且實際上也為正樣本的數量,真陰性(true negative,TN)表示預測為負樣本且實際上也為負樣本的數量,假陽性(false positive,FP)表示預測為負樣本但實際為正樣本的數量,假陰性(false positive,FN)表示預測為正樣本但實際為負樣本的數量。在實驗中,認為高、中、低三個標簽具有同等的重要性,直接將不同類別的評價指標加起來求平均,給每個類別相同的權重,以此得到最終實驗結果。
2 結果
2.1 對比實驗
實驗的編程語言為python3.8(Python Software Foundation,荷蘭),深度學習框架是pytorch(Facebook,美國),圖形處理器(graphics processing unit,GPU)硬件為NVIDIA GeForce RTX 3090(NVIDIA,美國)。實驗過程中將數據集按照80%和20%的比例設為訓練集和驗證集,設置訓練批次大小為128,學習率為0.01,使用交叉熵函數作為損失函數,采用帶權重衰減的自適應矩估計(adaptive moment estimation weight decay,AdamW)優化算法對模型進行訓練。
為了驗證提出模型的有效性,本研究進行了以下三個實驗。
實驗一:不同模型的TMB分類預測效果對比實驗。為了驗證不同模型的分類效果,將深度神經網絡(AlexNet)[21]、VGG、ResNet、InceptionV3、第四代Inception系列模型(InceptionV4)[22]、高效神經網絡(EffcientNet)[23]、稠密神經網絡(DenseNet)[24]以及殘差密集連接網絡(ResNeSt )[25]等模型與本文模型RCA-MSAG進行對比。
實驗二:消融實驗。為了驗證所提模塊對于網絡性能提升的有效性,以50層ResNet(ResNet-50)作為基準模型,對RCA模塊和MSAG模塊進行消融實驗。
實驗三:超參數調優實驗。超參數是指模型開始訓練之前由人工手動設置的參數,它不能通過模型訓練自動調整。學習率是深度學習中非常重要的一個超參數,是指在每一次參數更新時模型參數調整的幅度大小,學習率設置的是否恰當決定了目標函數是否能夠收斂到最小值以及何時能夠收斂至最小值。減少率也是深度學習中的一個超參數,是指輸出神經元被隨機丟棄的概率,用于緩解模型訓練時可能出現的過擬合問題。超參數的選取同樣決定著模型的訓練效果,本實驗選擇學習率和減少率進行實驗,在實驗中設置學習率的取值分別為0.01、0.001和0.000 1,設置減少率的取值分別為0.3、0.5和0.8,觀察不同學習率和減少率情況下對模型性能的影響。
2.2 實驗結果
實驗一的不同網絡模型TMB分類預測結果的對比如表1所示。由表1可知,在相同實驗條件下,融合RCA和MSAG模塊的RCA-MSAG模型具有最高的Acc、Pre、Rec和F1分數,充分說明了RCA和MSAG模塊融合的有效性,在沒有明顯增加參數量和計算資源的情況下,提高了模型的分類效果。

實驗二的消融實驗結果如表2所示。從表2中可以看出RCA和MSAG模塊對模型效果提升有積極作用。當模型中存在RCA模塊時,模型準確率為0.937,比缺少RCA模塊時有所提高,當模型中存在MSAG模塊時,模型準確率為0.922,比缺少MSAG模塊時有所提高。

實驗三的超參數實驗結果如表3和表4所示。從表3中可以觀察到,學習率的變化對模型分類準確性的影響很小,由此可見,通過加入權重衰減因子來動態調整學習率,可以減少學習率對于模型訓練的影響。從表4可以發現,減少率對模型的分類準確性有一定影響,實驗結果表明當減少率為0.5時,模型得到了最高的準確率。


3 討論
TMB是近年發現的一種可用于預測免疫治療效果的生物標志物,在NSCLC的預測中能夠起到一定作用,這種生物標志物還可用于預測免疫治療對其他癌癥患者的療效,因此在臨床上具有重要的應用價值。然而,TMB值的計算需要使用新一代測序技術,缺點是檢測耗時長、成本高,難以在臨床治療中推廣應用。此外,不同的測序技術和測試標準也會導致計算出的TMB值有所偏差。針對以上問題,本文采用深度學習的方法,通過將WSI送入搭建好的深度學習模型中訓練,讓模型反復學習病理切片中的特征信息,進而可以在較短時間內對TMB值進行高、中、低水平的三分類預測,與使用測序技術相比,檢測時間大大縮短,能夠為臨床診斷選擇治療方案提供理論依據。
表1的結果顯示,不同的深度學習模型對于醫學圖像特征信息的提取能力不同,而RCA-MSAG在TMB值的預測任務中取得了最好的效果。表2的結果顯示在ResNet中引入RCA和MSAG模塊能夠有效提高模型性能,使得模型既能關注到通道和空間之間的細微特征信息,還可提取坐標位置中的特征信息。此外,由于多尺度卷積的使用,模型可以有效關注到不同感受區域的特征信息,從而極大程度提高了模型的特征提取能力。表3的結果顯示,采用權重衰減因子和衰減周期等方式,可以有效減少學習率對模型訓練的負面影響。同時,應用BN層對數據進行歸一化處理,可以提高模型的學習速度和加速收斂。
本文也存在一些局限:第一,由于計算機的內存限制不能把尺寸巨大的WSI直接送入模型訓練。因此,在實驗前需采用滑動窗口的方式將每張WSI按照一定尺寸切割,而這種方法會導致切片之間的關聯信息丟失。第二,雖然本研究進一步細化了TMB值的類別,但仍然不能直接預測出具體的TMB值,未來需進一步將TMB分類問題轉換為回歸問題,從而直接預測出具體的TMB值。第三,盡管RCA-MSAG模型在沒有耗費過多計算資源的情況下取得了較好分類預測效果,但訓練周期仍然不短,因此設計更加輕量、高效、低計算量的深度學習模型也是未來的工作。
4 結論
本文進一步劃分了TMB值的類別,并在ResNet中加入了RCA和MSAG模塊進行特征信息提取,通過將多個維度的信息相互作用和融合,進一步加強了模型的特征提取能力。本文還采用了一系列優化策略來提高模型的TMB分類性能。例如,使用數據增強技術擴充訓練集,從而增強了模型的泛化能力。基于上述方法,經實驗驗證表明,本文提出的RCA-MSAG在TMB值的多分類預測任務中取得了最佳效果。醫務人員可以通過對患者TMB值進行高、中、低水平的分類檢測,進而為臨床診斷選擇適當的治療方法提供理論指導。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:孟祥福主要負責總體解決方案設計、實驗指導、論文撰寫、論文審閱及修訂;俞純林主要負責實驗方案設計、程序編寫、論文撰寫;楊嘯林主要負責醫學背景知識指導、實驗結果分析;楊子毅主要負責數據處理方案設計;劉鄧主要負責算法咨詢與建議。