肺癌是對人類健康威脅最大的惡性腫瘤之一。已有研究表明,一些基因在肺癌的發生發展過程中發揮著重要的調控作用。本文提出一種基于LightGBM的集成學習方法,根據免疫相關基因(IRG)表達譜數據和臨床數據構建預后模型,對肺腺癌患者的預后生存率進行預測。首先,使用Limma包進行基因差異分析,然后利用CoxPH回歸分析方法對與預后相關的IRG進行篩選,進而使用XGBoost算法對IRG特征進行重要性打分,最后利用LASSO回歸分析方法篩選可用于構建預后模型的IRG,最終結果共得到17個可用于構建模型的IRG特征。根據篩選得到的IRG特征來訓練LightGBM,使用K-means算法將患者分為三組,其模型輸出結果的受試者操作特征(ROC)曲線下面積(AUC)顯示模型預測三組患者生存率的準確率分別為96%、98%、96%。實驗結果表明,本文所提模型能夠將肺腺癌患者分為三組[5年生存率高于65%(第一組)、低于65%但高于30%(第二組)、低于30%(第三組)],并能較準確地預測肺腺癌患者的五年生存率。
經醫學研究發現,腫瘤突變負荷(TMB)與非小細胞肺癌(NSCLC)免疫治療的療效呈正相關,并且TMB值對靶向治療和化療的療效也有一定的預測作用。然而,計算TMB值需要借助全外顯子組測序(WES)技術,成本較高。對此,本文利用臨床常用的數字病理組織切片圖像,研究TMB與切片圖像之間的關聯關系,并據此預測患者的TMB水平。本文提出了一種基于殘差坐標注意力(RCA)結構并融合多尺度注意力引導(MSAG)模塊的深度學習模型(RCA-MSAG)。該模型以50層殘差網絡(ResNet-50)為基準模型,并將坐標注意力(CA)融入到瓶頸(bottleneck)模塊,用來捕獲方向感知和位置敏感信息,從而使模型能夠更準確定位和識別感興趣的位置。然后,通過在網絡內添加MSAG模塊,使模型可以提取肺癌病理組織切片的深層特征以及通道之間的交互信息。本文實驗數據集采用癌癥基因組圖譜(TCGA)公開數據集,數據集由200張肺腺癌病理組織切片組成,其中高TMB值的數據80張,中TMB值的數據77張,低TMB值的數據43張。實驗結果表明,所提模型的準確率、精確率、召回率和F1分數分別為96.2%、96.4%、96.2%和96.3%,并且上述指標均優于當前主流深度學習模型。本文所提模型或可促進臨床輔助診斷,對TMB預測具有一定的理論指導意義。