頸動脈粥樣硬化是 15%~20% 缺血性腦卒中的主要原因,并導致全球范圍內死亡和殘疾結局[1]。既往臨床研究[2]中表明,確定斑塊的組成對于識別高風險頸動脈斑塊至關重要。目前主要應用的臨床斑塊病理概念包括斑塊內出血(intraplaque hemorrhage,IPH)和富脂質壞死核心(lipid-rich necrotic core,LRNC)的診斷,這兩者都是與頸動脈狹窄患者發生腦血管事件相關的高風險特征[3-4]。臨床中基于斑塊成像評估各種斑塊成分需要一定的專業知識,這提高了診斷的復雜性,在本質上是一項定性且具有主觀性的任務。影像組學可以從醫學圖像中提取和分析大量頸動脈斑塊定量特征來進行穩定可重復的輔助診斷,而這些信息在正常肉眼觀察影像時可能不明顯[5]。目前國內指南[6]中頸動脈內膜切除術(carotid endarterectomy,CEA)推薦近期癥狀性患者的中度狹窄(>50%)為絕對指征,狹窄程度>60%的無癥狀頸動脈狹窄的患者為相對適應證。指南[7]也建議有必要基于對具有特定臨床特征或影像特征的患者亞組進行手術選擇。同時近期的一項Meta分析[8]也表明頸動脈狹窄程度對于卒中的預測不如頸動脈斑塊特征更為有效。這表示依據狹窄程度來選擇手術時機并不準確,因此盡早確定斑塊的特征來明確高風險頸動脈斑塊并進行積極臨床干預,對避免不必要干預導致過度醫療或是干預不及時導致的腦卒中具有積極的臨床意義。
目前文獻中對于頸動脈斑塊的CTA 成像分割頸動脈斑塊主要使用單一斑塊層面分割,并使用不同的機器學習方法來處理影像組學數據。本研究中同時提取斑塊常見部位近端頸內動脈、頸動脈分叉處以及頸總動脈遠端斑塊特征并對比多種機器學習算法建立穩定性和預測能力最佳的機器學習模型。試圖對臨床高風險頸動脈斑塊做出積極有效預測,并嘗試在影像組學的基礎上,加入臨床資料建立聯合診斷模型,提高模型預測性能并泛化使用場景。
1 資料與方法
1.1 納入和排除標準
回顧性收集中日友好醫院2016年9月—2022年6月期間診斷為頸動脈狹窄/頸動脈斑塊的患者臨床資料、影像資料。基線臨床特征來源于患者病歷。研究對象排除標準:(1)基本臨床資料缺失;(2)影像質量不符合要求;(3)非粥樣硬化性頸動脈狹窄;(4)診斷為心源性卒中;(5)原發性顱內疾病;(6)雙側重度頸動脈狹窄。在影像數據中,排除不符合要求及復查重復影像后,將剩余資料納入數據集,在臨床數據中,排除大量缺失或診斷不明確患者后,將剩余資料納入臨床病例數據集。在醫學影像數據集中排除關于影像本身或掩膜三維空間客觀描述變量。在臨床病例數據集中,對于連續性變量中的缺失值數量不超過10例的變量采取缺失值填補,缺失值數量超過10例的變量進行刪除。對于缺失變量超過10個的單個病例進行刪除。
1.2 結局指標
動脈粥樣硬化性頸動脈狹窄患者于近6個月內出現視物模糊或暫時性失明、短暫性腦缺血發作(transient ischemic attack,TIA)、卒中等癥狀分類為臨床高風險頸動脈斑塊,僅有頭暈、頭痛或無任何明顯癥狀定義為臨床低風險頸動脈斑塊[6]。經典TIA被定義為持續不到24 h的異常局灶性神經功能缺損。完全性缺血性腦卒中表現為局灶性神經功能缺損突然發作,持續>24 h[9]。
1.3 臨床危險因素分析
患者基本信息中年齡、身高、體重為入院時記錄,既往吸煙史、心臟病史、高血壓史、血脂病史、抗凝藥記錄、高尿酸血癥史、抗生素過敏史、腫瘤病史有無均記錄為二分類變量。入院檢查記錄生化全項、血常規、凝血6項檢驗指標為連續型變量。對斑塊數據集使用SPSS進行臨床數據統計學分析。使用單變量K-S檢驗對連續性變量進行正態性檢驗,符合正態分布的變量用均數±標準差(±s)描述,組間比較采用獨立樣本t檢驗;非正態分布的變量使用中位數及上下四分位數[M(P25,P75)]描述,組間比較采用Mann-Whitney U檢驗。分類變量用頻數和百分比(%)描述,組間比較采用χ2檢驗。首先采用單因素分析,將P≤0.05的臨床變量納入二元邏輯回歸,隨后使用LR逐步向前法篩選危險因素,將在二元邏輯回歸模型中P≤0.05的危險因素用于建立聯合模型。
1.4 影像組學特征提取
中日友好醫院CTA使用256層螺旋CT(Brilliance iCT,美國飛利浦公司)進行掃描。患者取仰臥位,掃描范圍從主動脈弓到顱骨頂點。采用高壓注射器經肘靜脈團注對比劑碘克沙醇。為確保勾畫的穩定性與可重復性,第一次勾畫在上級醫師指導下使用MRIcroGL(https://www.nitrc.org/projects/mricrogl)進行ROI手動勾畫分割。勾畫層面為3層,分別為:(1)頸總動脈分叉處斑塊狹窄面積最大橫截面或正常血管橫截面; (2)頸總動脈遠端斑塊橫截面/正常頸動脈橫截面;(3)頸內動脈近端斑塊橫截面/正常頸動脈橫截面。1個月后上獨立進行第二次ROI勾畫并由上級醫生審核。
通過python中的pyradiomics包提取CTA影像特征,首先對影像進行重采樣和標準化,插值方法選擇SimpleITK包中的sitkBSpline。隨后的特征濾波器選擇Original、LoG、Wavelet、LBP3D進行特征提取。提取特征包括一階特征、形態特征、灰度共生矩陣特征(Gray Level Co-occurrence Matrix,GLCM),灰度級大小區域矩陣特征(Gray Level Size Zone Matrix,GLSZM),相鄰灰度差矩陣(Neighbouring Gray Tone Difference Matrix,NGTDM),灰度依賴矩陣特征(Gray Level Dependence Matrix,GLDM)。其中頸內動脈近端的斑塊特征前綴為Label 1,頸動脈分叉處的斑塊特征前綴為Label 2,頸總動脈遠端的斑塊特征前綴為Label 3,3類特征提取參數相同。
1.5 影像組學模型構建
使用python3.8.0對于提取出的原始特征進行統計學分析,首先基于方差法排除方差為0的特征,隨后使用組內相關系數(intraclass correlation coefficient,ICC)評價變量可靠性,使用雙向隨機效應ICC確保結果可以在同類觀察者中推廣,選擇ICC>0.7的特征納入研究。隨后使用互信息法過濾對于分類標簽無貢獻即貢獻值為0的變量,剩余變量作為最終數據集進行研究。以8∶2的比例將數據集劃分為訓練集與驗證集,并對訓練集進行Z-score標準化,保存標準化的相關參數應用于驗證集以及內、外部測試集。隨后對于篩選變量進行正態性檢驗,符合正態分布的變量使用t檢驗,不符合正態分布的變量使用Mann-Whitney U檢驗,P≤0.05的變量進入基于隨機森林建立的遞歸特征消除法(recursive feature elimination,RFE),基于隨機森林特征權重系數對特征進行重要性排序,進行10折交叉驗證遍歷所有特征組合并篩選重要性排名為1的變量,獲得能最大化性能的最優組合變量。所有變量篩選均基于10EPV原則,即分析的陽性事件數,不少于開展納入模型自變量數的10倍。該規則在過去經常被用于線性回歸,如今在影像組學研究中已經被證明是有效的[10]。
分別使用極致梯度提升(eXtreme Gradient Boosting,XGboost)、支持向量機(support vector machines,SVM)、高斯樸素貝葉斯(Gaussian Naive Bayes,GNB)、邏輯回歸(logistic regression)、K最鄰近(K nearest neighbors,KNN)以及人工神經網絡(artificial neural network,ANN)建立機器學習模型。為避免參數同時調整導致模型訓練復雜度提升或過擬合,參數調整模式采用啟發式搜索,基于模型默認參數,逐個或逐類進行參數調整,最終固定最優參數組合。當模型出現擬合問題時,使用SMOTEENN[11-12] 用于進行數據平衡,通過多數類進行欠采樣,少數類進行過采樣來提高模型預測性能。它是一種混合采樣方法組合,結合合成少數過采樣技術(synthetic minority over-sampling technique,SMOTE)和欠采樣技術編輯最近鄰(edited nearest neighbours,ENN)。首先,SMOTE通過在少數類的現有樣本之間隨機插值來生成合成樣本。然后,ENN會清理新生成的數據集,以防止少數類和多數類之間的樣本重疊。具體來說,如果一個類的K個最近鄰中有一半以上不屬于同一類,則一個類的樣本將被淘汰。因此,SMOTEENN使兩個類的樣本編號更接近,它們之間的界限更清晰。這種方法已經在機器學習領域廣泛使用并證明了良好的效果[13-14]。
1.6 臨床-影像聯合模型構建
對于臨床特征進行單因素分析,P≤0.05的變量被納入邏輯回歸模型中,采取逐步向前法取AIC最小值篩選最優臨床預測變量。隨后選擇構建影像模型過程中表現最好的影像預測模型并納入最優臨床預測變量建立聯合模型,使用同時包括影像數據和臨床數據的全新數據集進行模型訓練及驗證。使用ROC曲線、校準曲線對比影像模型與聯合模型之間的預測性能,決策曲線分析(decision curve analysis,DCA)是一種以凈收益為重點的評估算法,凈收益由真陽性和假陽性數量以及預測概率計算得出。使用DCA量化不同閾值概率下患者的凈收益來比較影像組學預測模型和影像-臨床聯合模型的臨床應用價值。
1.7 倫理審查
本研究已通過中日友好臨床研究倫理委員會審批,批準號:2019-142-K98。
2 結果
2.1 一般資料
共納入患者652例,不排除僅擁有臨床資料或僅擁有影像學資料的患者。最終納入中日友好醫院頸動脈狹窄患者臨床資料372例,頸動脈CTA共405例。患者基線資料見表1。工作流程見圖1。



2.2 臨床危險因素
該模型共納入372例患者臨床資料,其中234例不包括影像資料的臨床數據用于臨床危險因素分析,138例用于影像-臨床聯合預測模型。臨床危險因素分析的234例患者中,149例高風險頸動脈狹窄患者,85例低風險頸動脈狹窄患者。單因素分析結果顯示:兩組總蛋白定量(P=0.043)、白蛋白定量(P=0.042)、尿素(P=0.032)、肌酐(P=0.041)、尿素氮/肌酐(P=0.03)、酸性粒細胞總數(P=0.018)、紅細胞(P=0.005)、血紅蛋白(P=0.06)、平均血紅蛋白含量(P=0.006)、平均血小板體積(P=0.045)、血小板壓積(P=0.03)、紅細胞平均體積(P=0.036)、高血壓(P=0.042)差異具有統計學意義;見表2。二元logistic回歸分析顯示:紅細胞[OR=0.351,95%CI(0.716,0.983)]、尿素氮/血肌酐[OR=0.912,95%CI(0.866,0.96)]是臨床高風險頸動脈斑塊的獨立保護因素,而平均血小板體積[OR=1.246,95%CI(1.03,1.509)]是臨床高風險頸動脈斑塊的的獨立危險因素;見表3。



2.3 影像組學模型
從267例頸動脈CTA(63例低風險/204例高風險)中提取3 987個影像組學特征。經方差法排除方差為0的特征后剩余3423個特征,以ICC>0.7為標準篩選后剩余815個特征。隨后以互信息法排除對標簽貢獻信息量為0的特征,最后納入單因素分析變量503個,采用Mann-Whitney U檢驗單因素分析,P≤0.05的變量共36個進入10折交叉驗證的遞歸特征消除法篩選出關鍵變量,遞歸消除法選擇包含400顆樹的隨機森林作為分類器,每輪刪除一個對結局指標預測貢獻最低的變量,得到一個新的特征子集,再次輸入到隨機森林分類器中,計算新的特征子集中每個特征的重要性,并利用交叉驗證方法得到新的特征子集的分類精度,不斷重復刪除過程,直至特征子集為空,最后一共得到數個不同特征數量的特征子集,選擇平均分類精度最高的特征子集作為最優特征組合,最終篩選15個變量納入模型,特征名見表4,篩選過程見圖2(a)。使用RFE算法篩選15個變量建立XGboost(AUC=0.751)、SVM(AUC=0.541)、樸素貝葉斯(AUC=0.753)、邏輯回歸(AUC=0.663)、KNN(AUC=0.702)、ANN(AUC=0.642),見圖2(b)。選擇AUC表現最佳的XGBoost作為最終構建模型,表5展示了各個模型的詳細參數。使用混淆矩陣,校準曲線以及五折交叉驗證評估模型功能,見圖3(a)、(b)、(c)。根據節點分裂時,該特征對于結局指標帶來信息增益的平均值進行特征重要性排序,重要性>2的變量為label3-wavelet-HLL-firstorder_10Percentile、label1-original-firstorder_TotalEnergy、label1-wavelet-LLL-firstorder_TotalEnergy,見圖3(d)。


a:10折交叉驗證RFE算法篩選特征;b:6種機器學習模型ROC曲線


a:模型混淆矩陣;b:模型五折交叉驗證結果;c:模型校準曲線;d:特征重要性排序
2.4 臨床危險因素-影像組學聯合預測模型
聯合模型在驗證集中AUC(0.823)高于單獨影像模型表現(0.750),展現了良好的預測能力,見圖4(a)。臨床決策曲線分析顯示,聯合模型驗證集中表現出較好的臨床應用價值(較大的曲線下面積)且優于影像模型,見圖4(b)。校準曲線顯示聯合模型在驗證集中校準度也優于影像模型,預測曲線與理想曲線間沒有明顯偏差,見圖4(c)。

a:ROC曲線;b:DCA曲線;c:校準曲線
3 討論
在缺血性腦卒中患者中,10%~25%患者的病因為頸動脈狹窄,而其中90%的狹窄為動脈粥樣硬化性狹窄[15]。在一項近期的高質量社區研究中,有1/5的卒中或TIA患者患有頸動脈狹窄[16]。本研究中對于高風險頸動脈斑塊與患者臨床特征之間的關系進行了分析,在logistic回歸算法中顯示檢驗指標RBC,尿素氮/血肌酐是臨床高風險頸動脈斑塊的獨立保護因素,而MPV則是臨床高風險頸動脈斑塊的的獨立危險因素
Sunkun等[17]在一項頸動脈臨床研究中發現,與紅細胞及血紅蛋白顯著更高的高海拔頸動脈粥樣硬化患者相比,海平面頸動脈粥樣硬化患者頸動脈內膜中層厚度(carotid intima-media thickness,cIMT)≥1 mm 患者比例更高。頸內動脈狹窄患者數量以及ICA>50%的患者數量顯著增高并有統計學差異。Montero等[18]進行了一項針對健康人頸動脈僵硬度(arterial stiffness,AS)與紅細胞總量的前瞻性研究,使用動脈脈搏波傳導速度(pulse wave velocity,PWV)評價AS。研究結果顯示AS與健康個體的紅細胞總量呈現強烈負相關,并可能通過干預血容量調節機制來調節紅細胞生成。而AS與頸動脈斑塊有著密切聯系,Selwaness等[19]使用超聲以及主動脈PWV測量了6527例受試者的動脈硬度并評估頸動脈粥樣硬化斑塊狀態,結果顯示較高的PWV與較高的頸動脈粥樣硬化斑塊患病率獨立相關。此外,較高的PWV與斑塊內出血有關。Liu等招募了來自中國腦卒中一級預防試驗13 554例高血壓受試者。分別采用頸踝PWV和B型超聲檢查評估動脈硬度和頸動脈斑塊。采用多因素logistic回歸分析確定在中國高血壓人群中,PWV與頸動脈斑塊的存在和頸動脈斑塊數呈正相關。在年輕參與者中觀察到PWV與頸動脈斑塊之間存在更明顯的正相關。因此可以推測正常范圍內較高的紅細胞數量可能會降低頸動脈斑塊出現臨床癥狀的風險,對頸動脈狹窄患者起到保護作用,在臨床工作中針對紅細胞較低的頸動脈狹窄患者應進行積極關注。
血清中的尿素氮和肌酐是反映腎臟功能的一個指標,兩者是蛋白質代謝的產物。當尿素氮/肌酐值正常范圍內的升高多見于發熱、服用類固醇和四環素等藥物、應激狀態、高蛋白飲食。正常范圍內的降低多見于饑餓、低蛋白飲食。Alizargar等人發現BUN是可以識別高頸動脈斑塊評分(carotid plaque score,cPS)個體的獨立因素[20]。組織蛋白酶B(Cathepsin B,CTSB)是一種溶酶體蛋白水解酶,主要參與溶酶體蛋白的降解或加工。在動脈粥樣硬化病變中由單核細胞來源的巨噬細胞、血管平滑肌細胞和內皮細胞表達。既往研究[21-22]中CTSB存在于不穩定的動脈粥樣硬化斑塊中,并且參與斑塊破裂。一項開展于中國健康成年人群的臨床橫斷面研究表明CTSB與cIMT、雙側頸總動脈直徑相關,而在女性中SCr對于CTSB有獨立相關性[23]。在一項國外針對招募腎功能正常老年人的冠狀動脈疾病研究[24]中,發現男性冠心病死亡率隨著正常范圍內SCr三分位數增加而增加,分別為1.5%,5.5%和7.7%。這說明了BUN及SCr與動脈粥樣硬化的相關性。在日常生活中,尿素氮肌酐比值的升高也可以見于高蛋白飲食,此類飲食代替一些高脂飲食也有益于血管。一項西班牙的縱向觀察性單中心研究表明,在多元回歸分析結果中,LDL-C作為一項主要的心血管危險因素與蛋白質的攝入呈負相關[25]。在一項大規模的社區動脈粥樣硬化風險研究(atherosclerosis risk in communities,ARIC)中,納入人群分為攝入大量蛋白質及粗糧的健康飲食模式與攝入大量脂肪及細糧的西方飲食模式。結果顯示健康飲食模式與單核細胞脂多糖受體CD14,單核細胞Toll樣受體-2(monocyte toll-like receptor-2,TLR-2)和血小板糖蛋白Ⅱb(platelet glycoprotein Ⅱb,GP Ⅱb)呈負相關。西方飲食模式與GP Ⅱb和血小板粒細胞聚集體呈正相關[26]。其中GP Ⅱb不僅介導血小板聚集,而且還觸發血小板粘附到暴露的細胞外基質和功能失調的內皮細胞,促進動脈粥樣硬化[27];TLR-2在人類動脈粥樣硬化中的炎癥和基質降解具有重要作用[28];一項基于健康老年人群對于食用大豆與于血管功能和心臟代謝風險標志物關系的研究中,相較于對照組,干預組攝入較高的蛋白質(3.1能量百分比[En%])、較低的碳水化合物攝入量(2.0 En%)、總脂肪攝入量相當。結果表明長期攝入干預組食用較高蛋白質的大豆可改善血管內皮功能、低密度脂蛋白膽固醇濃度和平均動脈壓水平[29]。因此可以合理推斷在正常范圍內的尿素氮/肌酐比例升高對于頸動脈狹窄病人危險程度有積極作用,可以嘗試在臨床中對頸動脈狹窄患者積極推薦高蛋白飲食來降低患者出現臨床高風險癥狀的幾率
平均血小板體積(mean platelet volume,MPV)被認為是血小板的標志物,高MPV值已被證明是急性心肌梗死的獨立危險因素。此外,據報道,MPV值在一些全身性炎癥性疾病中較高,與CRP呈正相關[30]。一項針對健康中國中老年人的臨床研究顯示,MPV較高的患者cIMT更高,頸動脈狹窄患病率更高。在調整了常規心血管疾病危險因素后,頸動脈斑塊風險增加了1.669倍[31]。Dai等[32]在中國人群研究中也發現MPV與頸動脈術后再狹窄有關,與此相反的是在白人中并未發現此類現象[33]。Mayer等[34]在對于無癥狀頸動脈狹窄的臨床研究中發現MPV與重大心血管不良事件獨立且顯著相關。Xu等[35]發現MPV與急性腦梗死患者的頸動脈粥樣硬化程度呈正相關,同時MPV數值是急性腦梗死患者不良結局的獨立預測指標。入院時MPV水平較高(MPV≥12.65)的患者梗死面積更大,頸動脈狹窄程度更嚴重,短期預后結局差,死亡率更高。Arévalo-Lorido等[36]針對缺血性卒中進行研究發現MPV升高可能是動脈粥樣硬化缺血性卒中患者頸動脈狹窄嚴重程度的標志物。這些結果都說明了對于頸動脈狹窄患者的MPV需要進行關注。
影像組學是一項新興的發展技術,本研究探討了頸動脈斑塊影像組學特征與高風險頸動脈斑塊的相關性,結果顯示影像組學模型以及影像-臨床聯合模型對于高風險頸動脈斑塊有著較好的預測能力,有助于對臨床癥狀輕微或與其他癥狀相似疾病難以鑒別的癥狀性頸動脈斑塊進行疾病預防以及治療干預。
在過往的頸動脈斑塊影像研究中,研究方式主要見于影像或病理對于斑塊的主觀定性特征如IPH、LRNC、以及鈣化[37-38]。盡管這些特征已經在過往的研究中證明了其具有可靠性,但對于復雜斑塊成像的評估需要對于各種斑塊成分的專業知識以及大量的臨床經驗避免誤診,不可避免地在診療過程中會具有主觀性并受到醫生自身狀態影響。Zhang等[2]對比了傳統影像定性特征模型與影像組學定量特征模型對于頸動脈斑塊預測結果,結果顯示定量特征模型預測效果好于定性特征模型。影像組學是從醫學圖像中提取和分析大量定量特征的新組學算法。他首先運用于腫瘤分析中并展現了優秀的臨床應用價值,如癌癥的診斷、分期和分級,評估治療反應,以及臨床結局預測[39-42]。這證明了將過往醫學影像中對于疾病特征的定性描述轉化為定量數據有助于更加嚴謹精確的臨床應用。過往頸動脈的影像組學研究主要關注于狹窄程度最高的分割層面提取影像組學特征,這個區域往往被認為位于頸動脈分叉處。但這種分割方法有一定的區域局限性,在頸動脈不同的解剖結構中,橫截面積不同的部分血液流速及血管特征各不相同。一項針對CIMT和斑塊在心血管風險評估中的應用的薈萃分析顯示從頸總動脈、頸內動脈、頸動脈球部多個節段獲取內膜中層及斑塊數據在評估能力上的表現比單獨使用CIMT數據要好[43]。Xie等[45]對于中國人群含斑塊頸動脈節段數(總斑塊評分)與隨后缺血性心血管疾病進行了研究,結果顯示兩者之間顯著相關[44]。Abeysuriya等人結合頸總管(CCA)、頸動脈球(CB)和頸內段(ICA)的CIMT預測冠心病并取得了良好的預測效果。上述結論表示對于頸動脈疾病而言,綜合頸動脈不同位置的信息對于預測疾病能夠得到良好的效果。本研究在針對頸內動脈、頸動脈分叉處以及頸總動脈分別進行斑塊區域分割及特征勾畫來綜合分析頸動脈斑塊定位不同對于頸動脈狹窄患者的臨床癥狀影響。在本研究中,參與對臨床高風險頸動脈斑塊預測的影像組學特征中主要由頸內動脈斑塊影像特征(Label 1)以及頸總動脈斑塊影像特征(Label 3)組成,這提示頸動脈斑塊影響患者臨床癥狀的產生可能與頸總動脈以及頸內動脈斑塊相關。
頸動脈粥樣硬化斑塊潰瘍和破裂是缺血性腦卒中等主要心臟不良事件的主要原因,因此患者進行早期精準的臨床干預是有必要的。本研究基于CTA建立了對于臨床及組織學高風險頸動脈斑塊預測影像組學以及聯合模型并均取得的良好的預測效果,聯合模型的預測性能表現優于影像組學模型。在臨床變量中確認了RBC、MPV、尿素氮/肌酐是臨床高風險頸動脈斑塊的有效預測因子。
利益沖突:無。
作者貢獻:王曉暉負責研究實施、數據整理與分析、論文撰寫;劉展、呂曉爍負責實施、數據整理與分析;甄雅南,林凡,鄭夏,劉曉鵬,孫光負責研究設計,溫見燕,葉志東,劉鵬負責文章審閱與修改。
頸動脈粥樣硬化是 15%~20% 缺血性腦卒中的主要原因,并導致全球范圍內死亡和殘疾結局[1]。既往臨床研究[2]中表明,確定斑塊的組成對于識別高風險頸動脈斑塊至關重要。目前主要應用的臨床斑塊病理概念包括斑塊內出血(intraplaque hemorrhage,IPH)和富脂質壞死核心(lipid-rich necrotic core,LRNC)的診斷,這兩者都是與頸動脈狹窄患者發生腦血管事件相關的高風險特征[3-4]。臨床中基于斑塊成像評估各種斑塊成分需要一定的專業知識,這提高了診斷的復雜性,在本質上是一項定性且具有主觀性的任務。影像組學可以從醫學圖像中提取和分析大量頸動脈斑塊定量特征來進行穩定可重復的輔助診斷,而這些信息在正常肉眼觀察影像時可能不明顯[5]。目前國內指南[6]中頸動脈內膜切除術(carotid endarterectomy,CEA)推薦近期癥狀性患者的中度狹窄(>50%)為絕對指征,狹窄程度>60%的無癥狀頸動脈狹窄的患者為相對適應證。指南[7]也建議有必要基于對具有特定臨床特征或影像特征的患者亞組進行手術選擇。同時近期的一項Meta分析[8]也表明頸動脈狹窄程度對于卒中的預測不如頸動脈斑塊特征更為有效。這表示依據狹窄程度來選擇手術時機并不準確,因此盡早確定斑塊的特征來明確高風險頸動脈斑塊并進行積極臨床干預,對避免不必要干預導致過度醫療或是干預不及時導致的腦卒中具有積極的臨床意義。
目前文獻中對于頸動脈斑塊的CTA 成像分割頸動脈斑塊主要使用單一斑塊層面分割,并使用不同的機器學習方法來處理影像組學數據。本研究中同時提取斑塊常見部位近端頸內動脈、頸動脈分叉處以及頸總動脈遠端斑塊特征并對比多種機器學習算法建立穩定性和預測能力最佳的機器學習模型。試圖對臨床高風險頸動脈斑塊做出積極有效預測,并嘗試在影像組學的基礎上,加入臨床資料建立聯合診斷模型,提高模型預測性能并泛化使用場景。
1 資料與方法
1.1 納入和排除標準
回顧性收集中日友好醫院2016年9月—2022年6月期間診斷為頸動脈狹窄/頸動脈斑塊的患者臨床資料、影像資料。基線臨床特征來源于患者病歷。研究對象排除標準:(1)基本臨床資料缺失;(2)影像質量不符合要求;(3)非粥樣硬化性頸動脈狹窄;(4)診斷為心源性卒中;(5)原發性顱內疾病;(6)雙側重度頸動脈狹窄。在影像數據中,排除不符合要求及復查重復影像后,將剩余資料納入數據集,在臨床數據中,排除大量缺失或診斷不明確患者后,將剩余資料納入臨床病例數據集。在醫學影像數據集中排除關于影像本身或掩膜三維空間客觀描述變量。在臨床病例數據集中,對于連續性變量中的缺失值數量不超過10例的變量采取缺失值填補,缺失值數量超過10例的變量進行刪除。對于缺失變量超過10個的單個病例進行刪除。
1.2 結局指標
動脈粥樣硬化性頸動脈狹窄患者于近6個月內出現視物模糊或暫時性失明、短暫性腦缺血發作(transient ischemic attack,TIA)、卒中等癥狀分類為臨床高風險頸動脈斑塊,僅有頭暈、頭痛或無任何明顯癥狀定義為臨床低風險頸動脈斑塊[6]。經典TIA被定義為持續不到24 h的異常局灶性神經功能缺損。完全性缺血性腦卒中表現為局灶性神經功能缺損突然發作,持續>24 h[9]。
1.3 臨床危險因素分析
患者基本信息中年齡、身高、體重為入院時記錄,既往吸煙史、心臟病史、高血壓史、血脂病史、抗凝藥記錄、高尿酸血癥史、抗生素過敏史、腫瘤病史有無均記錄為二分類變量。入院檢查記錄生化全項、血常規、凝血6項檢驗指標為連續型變量。對斑塊數據集使用SPSS進行臨床數據統計學分析。使用單變量K-S檢驗對連續性變量進行正態性檢驗,符合正態分布的變量用均數±標準差(±s)描述,組間比較采用獨立樣本t檢驗;非正態分布的變量使用中位數及上下四分位數[M(P25,P75)]描述,組間比較采用Mann-Whitney U檢驗。分類變量用頻數和百分比(%)描述,組間比較采用χ2檢驗。首先采用單因素分析,將P≤0.05的臨床變量納入二元邏輯回歸,隨后使用LR逐步向前法篩選危險因素,將在二元邏輯回歸模型中P≤0.05的危險因素用于建立聯合模型。
1.4 影像組學特征提取
中日友好醫院CTA使用256層螺旋CT(Brilliance iCT,美國飛利浦公司)進行掃描。患者取仰臥位,掃描范圍從主動脈弓到顱骨頂點。采用高壓注射器經肘靜脈團注對比劑碘克沙醇。為確保勾畫的穩定性與可重復性,第一次勾畫在上級醫師指導下使用MRIcroGL(https://www.nitrc.org/projects/mricrogl)進行ROI手動勾畫分割。勾畫層面為3層,分別為:(1)頸總動脈分叉處斑塊狹窄面積最大橫截面或正常血管橫截面; (2)頸總動脈遠端斑塊橫截面/正常頸動脈橫截面;(3)頸內動脈近端斑塊橫截面/正常頸動脈橫截面。1個月后上獨立進行第二次ROI勾畫并由上級醫生審核。
通過python中的pyradiomics包提取CTA影像特征,首先對影像進行重采樣和標準化,插值方法選擇SimpleITK包中的sitkBSpline。隨后的特征濾波器選擇Original、LoG、Wavelet、LBP3D進行特征提取。提取特征包括一階特征、形態特征、灰度共生矩陣特征(Gray Level Co-occurrence Matrix,GLCM),灰度級大小區域矩陣特征(Gray Level Size Zone Matrix,GLSZM),相鄰灰度差矩陣(Neighbouring Gray Tone Difference Matrix,NGTDM),灰度依賴矩陣特征(Gray Level Dependence Matrix,GLDM)。其中頸內動脈近端的斑塊特征前綴為Label 1,頸動脈分叉處的斑塊特征前綴為Label 2,頸總動脈遠端的斑塊特征前綴為Label 3,3類特征提取參數相同。
1.5 影像組學模型構建
使用python3.8.0對于提取出的原始特征進行統計學分析,首先基于方差法排除方差為0的特征,隨后使用組內相關系數(intraclass correlation coefficient,ICC)評價變量可靠性,使用雙向隨機效應ICC確保結果可以在同類觀察者中推廣,選擇ICC>0.7的特征納入研究。隨后使用互信息法過濾對于分類標簽無貢獻即貢獻值為0的變量,剩余變量作為最終數據集進行研究。以8∶2的比例將數據集劃分為訓練集與驗證集,并對訓練集進行Z-score標準化,保存標準化的相關參數應用于驗證集以及內、外部測試集。隨后對于篩選變量進行正態性檢驗,符合正態分布的變量使用t檢驗,不符合正態分布的變量使用Mann-Whitney U檢驗,P≤0.05的變量進入基于隨機森林建立的遞歸特征消除法(recursive feature elimination,RFE),基于隨機森林特征權重系數對特征進行重要性排序,進行10折交叉驗證遍歷所有特征組合并篩選重要性排名為1的變量,獲得能最大化性能的最優組合變量。所有變量篩選均基于10EPV原則,即分析的陽性事件數,不少于開展納入模型自變量數的10倍。該規則在過去經常被用于線性回歸,如今在影像組學研究中已經被證明是有效的[10]。
分別使用極致梯度提升(eXtreme Gradient Boosting,XGboost)、支持向量機(support vector machines,SVM)、高斯樸素貝葉斯(Gaussian Naive Bayes,GNB)、邏輯回歸(logistic regression)、K最鄰近(K nearest neighbors,KNN)以及人工神經網絡(artificial neural network,ANN)建立機器學習模型。為避免參數同時調整導致模型訓練復雜度提升或過擬合,參數調整模式采用啟發式搜索,基于模型默認參數,逐個或逐類進行參數調整,最終固定最優參數組合。當模型出現擬合問題時,使用SMOTEENN[11-12] 用于進行數據平衡,通過多數類進行欠采樣,少數類進行過采樣來提高模型預測性能。它是一種混合采樣方法組合,結合合成少數過采樣技術(synthetic minority over-sampling technique,SMOTE)和欠采樣技術編輯最近鄰(edited nearest neighbours,ENN)。首先,SMOTE通過在少數類的現有樣本之間隨機插值來生成合成樣本。然后,ENN會清理新生成的數據集,以防止少數類和多數類之間的樣本重疊。具體來說,如果一個類的K個最近鄰中有一半以上不屬于同一類,則一個類的樣本將被淘汰。因此,SMOTEENN使兩個類的樣本編號更接近,它們之間的界限更清晰。這種方法已經在機器學習領域廣泛使用并證明了良好的效果[13-14]。
1.6 臨床-影像聯合模型構建
對于臨床特征進行單因素分析,P≤0.05的變量被納入邏輯回歸模型中,采取逐步向前法取AIC最小值篩選最優臨床預測變量。隨后選擇構建影像模型過程中表現最好的影像預測模型并納入最優臨床預測變量建立聯合模型,使用同時包括影像數據和臨床數據的全新數據集進行模型訓練及驗證。使用ROC曲線、校準曲線對比影像模型與聯合模型之間的預測性能,決策曲線分析(decision curve analysis,DCA)是一種以凈收益為重點的評估算法,凈收益由真陽性和假陽性數量以及預測概率計算得出。使用DCA量化不同閾值概率下患者的凈收益來比較影像組學預測模型和影像-臨床聯合模型的臨床應用價值。
1.7 倫理審查
本研究已通過中日友好臨床研究倫理委員會審批,批準號:2019-142-K98。
2 結果
2.1 一般資料
共納入患者652例,不排除僅擁有臨床資料或僅擁有影像學資料的患者。最終納入中日友好醫院頸動脈狹窄患者臨床資料372例,頸動脈CTA共405例。患者基線資料見表1。工作流程見圖1。



2.2 臨床危險因素
該模型共納入372例患者臨床資料,其中234例不包括影像資料的臨床數據用于臨床危險因素分析,138例用于影像-臨床聯合預測模型。臨床危險因素分析的234例患者中,149例高風險頸動脈狹窄患者,85例低風險頸動脈狹窄患者。單因素分析結果顯示:兩組總蛋白定量(P=0.043)、白蛋白定量(P=0.042)、尿素(P=0.032)、肌酐(P=0.041)、尿素氮/肌酐(P=0.03)、酸性粒細胞總數(P=0.018)、紅細胞(P=0.005)、血紅蛋白(P=0.06)、平均血紅蛋白含量(P=0.006)、平均血小板體積(P=0.045)、血小板壓積(P=0.03)、紅細胞平均體積(P=0.036)、高血壓(P=0.042)差異具有統計學意義;見表2。二元logistic回歸分析顯示:紅細胞[OR=0.351,95%CI(0.716,0.983)]、尿素氮/血肌酐[OR=0.912,95%CI(0.866,0.96)]是臨床高風險頸動脈斑塊的獨立保護因素,而平均血小板體積[OR=1.246,95%CI(1.03,1.509)]是臨床高風險頸動脈斑塊的的獨立危險因素;見表3。



2.3 影像組學模型
從267例頸動脈CTA(63例低風險/204例高風險)中提取3 987個影像組學特征。經方差法排除方差為0的特征后剩余3423個特征,以ICC>0.7為標準篩選后剩余815個特征。隨后以互信息法排除對標簽貢獻信息量為0的特征,最后納入單因素分析變量503個,采用Mann-Whitney U檢驗單因素分析,P≤0.05的變量共36個進入10折交叉驗證的遞歸特征消除法篩選出關鍵變量,遞歸消除法選擇包含400顆樹的隨機森林作為分類器,每輪刪除一個對結局指標預測貢獻最低的變量,得到一個新的特征子集,再次輸入到隨機森林分類器中,計算新的特征子集中每個特征的重要性,并利用交叉驗證方法得到新的特征子集的分類精度,不斷重復刪除過程,直至特征子集為空,最后一共得到數個不同特征數量的特征子集,選擇平均分類精度最高的特征子集作為最優特征組合,最終篩選15個變量納入模型,特征名見表4,篩選過程見圖2(a)。使用RFE算法篩選15個變量建立XGboost(AUC=0.751)、SVM(AUC=0.541)、樸素貝葉斯(AUC=0.753)、邏輯回歸(AUC=0.663)、KNN(AUC=0.702)、ANN(AUC=0.642),見圖2(b)。選擇AUC表現最佳的XGBoost作為最終構建模型,表5展示了各個模型的詳細參數。使用混淆矩陣,校準曲線以及五折交叉驗證評估模型功能,見圖3(a)、(b)、(c)。根據節點分裂時,該特征對于結局指標帶來信息增益的平均值進行特征重要性排序,重要性>2的變量為label3-wavelet-HLL-firstorder_10Percentile、label1-original-firstorder_TotalEnergy、label1-wavelet-LLL-firstorder_TotalEnergy,見圖3(d)。


a:10折交叉驗證RFE算法篩選特征;b:6種機器學習模型ROC曲線


a:模型混淆矩陣;b:模型五折交叉驗證結果;c:模型校準曲線;d:特征重要性排序
2.4 臨床危險因素-影像組學聯合預測模型
聯合模型在驗證集中AUC(0.823)高于單獨影像模型表現(0.750),展現了良好的預測能力,見圖4(a)。臨床決策曲線分析顯示,聯合模型驗證集中表現出較好的臨床應用價值(較大的曲線下面積)且優于影像模型,見圖4(b)。校準曲線顯示聯合模型在驗證集中校準度也優于影像模型,預測曲線與理想曲線間沒有明顯偏差,見圖4(c)。

a:ROC曲線;b:DCA曲線;c:校準曲線
3 討論
在缺血性腦卒中患者中,10%~25%患者的病因為頸動脈狹窄,而其中90%的狹窄為動脈粥樣硬化性狹窄[15]。在一項近期的高質量社區研究中,有1/5的卒中或TIA患者患有頸動脈狹窄[16]。本研究中對于高風險頸動脈斑塊與患者臨床特征之間的關系進行了分析,在logistic回歸算法中顯示檢驗指標RBC,尿素氮/血肌酐是臨床高風險頸動脈斑塊的獨立保護因素,而MPV則是臨床高風險頸動脈斑塊的的獨立危險因素
Sunkun等[17]在一項頸動脈臨床研究中發現,與紅細胞及血紅蛋白顯著更高的高海拔頸動脈粥樣硬化患者相比,海平面頸動脈粥樣硬化患者頸動脈內膜中層厚度(carotid intima-media thickness,cIMT)≥1 mm 患者比例更高。頸內動脈狹窄患者數量以及ICA>50%的患者數量顯著增高并有統計學差異。Montero等[18]進行了一項針對健康人頸動脈僵硬度(arterial stiffness,AS)與紅細胞總量的前瞻性研究,使用動脈脈搏波傳導速度(pulse wave velocity,PWV)評價AS。研究結果顯示AS與健康個體的紅細胞總量呈現強烈負相關,并可能通過干預血容量調節機制來調節紅細胞生成。而AS與頸動脈斑塊有著密切聯系,Selwaness等[19]使用超聲以及主動脈PWV測量了6527例受試者的動脈硬度并評估頸動脈粥樣硬化斑塊狀態,結果顯示較高的PWV與較高的頸動脈粥樣硬化斑塊患病率獨立相關。此外,較高的PWV與斑塊內出血有關。Liu等招募了來自中國腦卒中一級預防試驗13 554例高血壓受試者。分別采用頸踝PWV和B型超聲檢查評估動脈硬度和頸動脈斑塊。采用多因素logistic回歸分析確定在中國高血壓人群中,PWV與頸動脈斑塊的存在和頸動脈斑塊數呈正相關。在年輕參與者中觀察到PWV與頸動脈斑塊之間存在更明顯的正相關。因此可以推測正常范圍內較高的紅細胞數量可能會降低頸動脈斑塊出現臨床癥狀的風險,對頸動脈狹窄患者起到保護作用,在臨床工作中針對紅細胞較低的頸動脈狹窄患者應進行積極關注。
血清中的尿素氮和肌酐是反映腎臟功能的一個指標,兩者是蛋白質代謝的產物。當尿素氮/肌酐值正常范圍內的升高多見于發熱、服用類固醇和四環素等藥物、應激狀態、高蛋白飲食。正常范圍內的降低多見于饑餓、低蛋白飲食。Alizargar等人發現BUN是可以識別高頸動脈斑塊評分(carotid plaque score,cPS)個體的獨立因素[20]。組織蛋白酶B(Cathepsin B,CTSB)是一種溶酶體蛋白水解酶,主要參與溶酶體蛋白的降解或加工。在動脈粥樣硬化病變中由單核細胞來源的巨噬細胞、血管平滑肌細胞和內皮細胞表達。既往研究[21-22]中CTSB存在于不穩定的動脈粥樣硬化斑塊中,并且參與斑塊破裂。一項開展于中國健康成年人群的臨床橫斷面研究表明CTSB與cIMT、雙側頸總動脈直徑相關,而在女性中SCr對于CTSB有獨立相關性[23]。在一項國外針對招募腎功能正常老年人的冠狀動脈疾病研究[24]中,發現男性冠心病死亡率隨著正常范圍內SCr三分位數增加而增加,分別為1.5%,5.5%和7.7%。這說明了BUN及SCr與動脈粥樣硬化的相關性。在日常生活中,尿素氮肌酐比值的升高也可以見于高蛋白飲食,此類飲食代替一些高脂飲食也有益于血管。一項西班牙的縱向觀察性單中心研究表明,在多元回歸分析結果中,LDL-C作為一項主要的心血管危險因素與蛋白質的攝入呈負相關[25]。在一項大規模的社區動脈粥樣硬化風險研究(atherosclerosis risk in communities,ARIC)中,納入人群分為攝入大量蛋白質及粗糧的健康飲食模式與攝入大量脂肪及細糧的西方飲食模式。結果顯示健康飲食模式與單核細胞脂多糖受體CD14,單核細胞Toll樣受體-2(monocyte toll-like receptor-2,TLR-2)和血小板糖蛋白Ⅱb(platelet glycoprotein Ⅱb,GP Ⅱb)呈負相關。西方飲食模式與GP Ⅱb和血小板粒細胞聚集體呈正相關[26]。其中GP Ⅱb不僅介導血小板聚集,而且還觸發血小板粘附到暴露的細胞外基質和功能失調的內皮細胞,促進動脈粥樣硬化[27];TLR-2在人類動脈粥樣硬化中的炎癥和基質降解具有重要作用[28];一項基于健康老年人群對于食用大豆與于血管功能和心臟代謝風險標志物關系的研究中,相較于對照組,干預組攝入較高的蛋白質(3.1能量百分比[En%])、較低的碳水化合物攝入量(2.0 En%)、總脂肪攝入量相當。結果表明長期攝入干預組食用較高蛋白質的大豆可改善血管內皮功能、低密度脂蛋白膽固醇濃度和平均動脈壓水平[29]。因此可以合理推斷在正常范圍內的尿素氮/肌酐比例升高對于頸動脈狹窄病人危險程度有積極作用,可以嘗試在臨床中對頸動脈狹窄患者積極推薦高蛋白飲食來降低患者出現臨床高風險癥狀的幾率
平均血小板體積(mean platelet volume,MPV)被認為是血小板的標志物,高MPV值已被證明是急性心肌梗死的獨立危險因素。此外,據報道,MPV值在一些全身性炎癥性疾病中較高,與CRP呈正相關[30]。一項針對健康中國中老年人的臨床研究顯示,MPV較高的患者cIMT更高,頸動脈狹窄患病率更高。在調整了常規心血管疾病危險因素后,頸動脈斑塊風險增加了1.669倍[31]。Dai等[32]在中國人群研究中也發現MPV與頸動脈術后再狹窄有關,與此相反的是在白人中并未發現此類現象[33]。Mayer等[34]在對于無癥狀頸動脈狹窄的臨床研究中發現MPV與重大心血管不良事件獨立且顯著相關。Xu等[35]發現MPV與急性腦梗死患者的頸動脈粥樣硬化程度呈正相關,同時MPV數值是急性腦梗死患者不良結局的獨立預測指標。入院時MPV水平較高(MPV≥12.65)的患者梗死面積更大,頸動脈狹窄程度更嚴重,短期預后結局差,死亡率更高。Arévalo-Lorido等[36]針對缺血性卒中進行研究發現MPV升高可能是動脈粥樣硬化缺血性卒中患者頸動脈狹窄嚴重程度的標志物。這些結果都說明了對于頸動脈狹窄患者的MPV需要進行關注。
影像組學是一項新興的發展技術,本研究探討了頸動脈斑塊影像組學特征與高風險頸動脈斑塊的相關性,結果顯示影像組學模型以及影像-臨床聯合模型對于高風險頸動脈斑塊有著較好的預測能力,有助于對臨床癥狀輕微或與其他癥狀相似疾病難以鑒別的癥狀性頸動脈斑塊進行疾病預防以及治療干預。
在過往的頸動脈斑塊影像研究中,研究方式主要見于影像或病理對于斑塊的主觀定性特征如IPH、LRNC、以及鈣化[37-38]。盡管這些特征已經在過往的研究中證明了其具有可靠性,但對于復雜斑塊成像的評估需要對于各種斑塊成分的專業知識以及大量的臨床經驗避免誤診,不可避免地在診療過程中會具有主觀性并受到醫生自身狀態影響。Zhang等[2]對比了傳統影像定性特征模型與影像組學定量特征模型對于頸動脈斑塊預測結果,結果顯示定量特征模型預測效果好于定性特征模型。影像組學是從醫學圖像中提取和分析大量定量特征的新組學算法。他首先運用于腫瘤分析中并展現了優秀的臨床應用價值,如癌癥的診斷、分期和分級,評估治療反應,以及臨床結局預測[39-42]。這證明了將過往醫學影像中對于疾病特征的定性描述轉化為定量數據有助于更加嚴謹精確的臨床應用。過往頸動脈的影像組學研究主要關注于狹窄程度最高的分割層面提取影像組學特征,這個區域往往被認為位于頸動脈分叉處。但這種分割方法有一定的區域局限性,在頸動脈不同的解剖結構中,橫截面積不同的部分血液流速及血管特征各不相同。一項針對CIMT和斑塊在心血管風險評估中的應用的薈萃分析顯示從頸總動脈、頸內動脈、頸動脈球部多個節段獲取內膜中層及斑塊數據在評估能力上的表現比單獨使用CIMT數據要好[43]。Xie等[45]對于中國人群含斑塊頸動脈節段數(總斑塊評分)與隨后缺血性心血管疾病進行了研究,結果顯示兩者之間顯著相關[44]。Abeysuriya等人結合頸總管(CCA)、頸動脈球(CB)和頸內段(ICA)的CIMT預測冠心病并取得了良好的預測效果。上述結論表示對于頸動脈疾病而言,綜合頸動脈不同位置的信息對于預測疾病能夠得到良好的效果。本研究在針對頸內動脈、頸動脈分叉處以及頸總動脈分別進行斑塊區域分割及特征勾畫來綜合分析頸動脈斑塊定位不同對于頸動脈狹窄患者的臨床癥狀影響。在本研究中,參與對臨床高風險頸動脈斑塊預測的影像組學特征中主要由頸內動脈斑塊影像特征(Label 1)以及頸總動脈斑塊影像特征(Label 3)組成,這提示頸動脈斑塊影響患者臨床癥狀的產生可能與頸總動脈以及頸內動脈斑塊相關。
頸動脈粥樣硬化斑塊潰瘍和破裂是缺血性腦卒中等主要心臟不良事件的主要原因,因此患者進行早期精準的臨床干預是有必要的。本研究基于CTA建立了對于臨床及組織學高風險頸動脈斑塊預測影像組學以及聯合模型并均取得的良好的預測效果,聯合模型的預測性能表現優于影像組學模型。在臨床變量中確認了RBC、MPV、尿素氮/肌酐是臨床高風險頸動脈斑塊的有效預測因子。
利益沖突:無。
作者貢獻:王曉暉負責研究實施、數據整理與分析、論文撰寫;劉展、呂曉爍負責實施、數據整理與分析;甄雅南,林凡,鄭夏,劉曉鵬,孫光負責研究設計,溫見燕,葉志東,劉鵬負責文章審閱與修改。