風險預測模型是以患者疾病危險因素為基礎,建立預測模型,以達到預測疾病發展、治療反應及預后效果的方式,最早在心胸外科應用[1-2]。卒中相關性肺炎(stroke-associated pneumonia,SAP),是指非機械通氣患者在發病7天內新出現的肺炎[3],由德國學者Hilker于2003年首次提出[4]。SAP是卒中后常見感染性并發癥,其發病率在6.5%~31.3%,可導致患者出院時結局功能惡化,甚至致殘及死亡;長時間住院亦會增加醫療費用、人力資源和社會負擔[5-10]。通過SAP風險預測模型的結果,醫務人員可早識別SAP高危人群及未診斷患者,采取個體化、針對性治療措施及干預,降低或延緩SAP的發生,從而改善卒中患者預后及生存質量。多年來,國內外研究者依據生命體征、流行病學、實驗室影像學檢查等因素,構建不同卒中患者SAP風險預測模型,但各種預測模型結果不一。因此,本研究對國內外SAP風險預測模型進行系統評價,旨在概述現有可用于預測SAP風險的預測模型,綜合說明、比較模型性能。為醫務人員、指南制訂者等相關人員的模型選擇提供建議,并為相關模型構建提供參考依據。本研究已在PROSPERO注冊,注冊號為CRD42023399835。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
① 研究對象為年齡≥18周歲的卒中患者;② 研究內容為卒中患者SAP風險預測模型的構建研究;③ 研究類型包括隊列研究、病例-對照研究、橫斷面研究;④ 介紹了建模的過程及采用的統計學方法;⑤ 具體說明SAP的診斷標準;⑥ 中、英文研究。
1.1.2 排除標準
① 僅分析SAP的危險因素,未構建模型;② 基于系統評價/Meta分析、基于虛擬數據構建模型;③ 模型的預測因素≤2個;④ 無法獲取全文、信息不全或無法提取的文獻;⑤ 重復發表的文獻。
1.2 文獻檢索策略
計算機檢索CNKI、WanFang Data、CBM、PubMed、Web of Science、EMbase、Ovid Medline和Cochrane Library數據庫,搜集SAP風險預測模型的相關研究,檢索時限均為建庫至2023年2月15日。此外,追溯納入文獻的參考文獻,以補充獲取相關文獻。檢索采取主題詞和自由詞相結合的方式。中文檢索詞包括:卒中、中風、腦梗、腦出血、蛛網膜下腔出血、腦血管病、腦血栓、腦血管意外、腦血管事件、腦缺血、卒中相關性肺炎、風險預測模型、預測因子、風險評分、風險評估、臨床預測模型、列線圖等;英文檢索詞包括:stroke、cerebrovascular accident、cerebrovascular apoplexy、brain vascular accident、cerebrovascular stroke、apoplexy、hemorrhagic stroke、subarachnoid hemorrhagic、intracerebral hemorrhagic、intracerebral hemorrhage、intracerebral ventricular hemorrhage、healthcare-associated pneumonia、nosocomial pneumonia、acquired pneumonia、stroke-associated pneumonia、risk assessment、risk score、risk model、risk prediction、scoring system、nomogram、prediction model、risk calculation、models, statistical等。
1.3 文獻篩選與資料提取
由2位研究者獨立篩選文獻、提取資料并交叉核對,如遇分歧,則咨詢第三方協助判斷,缺乏的資料盡量與作者聯系予以補充。文獻篩選時首先閱讀文題和摘要,在排除明顯不相關的文獻后,進一步閱讀全文,以確定最終是否納入。基于預測模型研究系統評價的關鍵評估和數據提取(critical appraisal and data extraction for systematic reviews of prediction modelling studies,CHARMS)制訂數據提取表格[11],資料提取內容主要包括:第一作者、發表年份、國家、研究類型、SAP診斷標準、SAP發生率、研究來源、數據來源、候選預測因子、模型類型、樣本量、預測因子篩選方法、最終預測因子、缺失數據、建模方法、模型呈現形式、模型性能、驗模方法、驗證方法等。
1.4 納入研究的偏倚風險和適用性評估
2名研究員根據PROBAST對模型進行偏倚風險和適用性評價并交叉核對[12-13],如有分歧,尋求第三方協助直至統一。偏倚風險判斷包括研究對象、預測因子、結果及統計分析共20個問題,每個問題通過“是/可能是(Y/PY)”、“不是/可能不是(N/PN)”、“沒有信息(NI)”來回答;而適用性評價包括研究對象、預測因子、結果3個方面。最后根據以上步驟,使用PROBAST的等級評定標準,對預測模型的整體偏倚風險及適用性進行判斷,分為低風險、高風險、不清楚。
1.5 統計分析
對納入研究、預測模型的基本特征、構建、性能及驗證進行定性分析。
2 結果
2.1 文獻篩選流程及結果
初檢出相關文獻1 887篇,包括CNKI(n=24)、WanFang Data(n=121)、CBM(n=28)、PubMed(n=114)、Web of Science(n=1 155)、EMbase(n=265)、Ovid Medline(n=124)和Cochrane Library(n=56),經逐層篩選后,最終納入18篇文獻[6-10,14-25]。
2.2 納入研究的基本特征和偏倚風險與適用性評價結果


2.3 SAP風險預測模型的結果
2.3.1 SAP風險預測模型構建的基本特征
研究總樣本量在173~83 063例之間,建模樣本量在173~70 540例之間,驗模樣本量在112~45 085例之間。候選預測因子多使用單因素、多因素分析來進行篩選,但有3個研究[5,9,22]另外加入文獻回顧及臨床經驗的方法,1個研究[19]使用反向時間注意力模型(reverse time attention model,RETAIN),1個研究[7]使用XGboost提供的排列機制計算,1個研究[20]采用LASSO回歸分析,得到最終預測因子數量:4~25個之間。Logistic回歸構建SAP預測模型占72.2%,且有8個研究[5-7,15-17,24-25]形成了評分系統,4個研究[10,18,22-23]通過Logistic回歸建立列線圖(表3)。

2.3.2 SAP風險預測模型的性能及驗證
在18個研究中,有2個研究[9,21]包含多個模型,1個研究[16]包含2個模型,共計27個模型。模型驗證方面,有2個研究[24-25]僅模型建立,11個研究[5-6,8,16-23]為模型建立及內部驗證,2個研究[10,14]進行了建模及外部驗證,3個研究[7,9,15]采用建模及內外部驗證的方式進行評價。在27個SAP風險預測模型中,有4個研究[5,17,22-23]使用C-index、15個研究[6-10,14-16,18-23,25]使用AUC來驗證模型區分度,其建模AUC值在0.740~0.96之間,且有12個研究[5-7,9-10,14-19,21]報告了驗模AUC值,在0.692~0.946之間。有2個研究[9,18]采用決策曲線分析(decision curve analysis,DCA)判斷模型診斷的準確性。5個研究[19-21,24-25]未報告模型校準方法,10個研究[5-7,10,14-16,18,22-23]報告了校準圖,2個研究[15-16]采用Hosmer-Lemeshow檢驗,1個研究[8]采用似然比檢驗(表4)。

3 討論
本研究檢索國內外SAP風險預測模型相關文獻,依據CHARMS提取SAP風險預測模型的關鍵特征[26],包括研究人群、研究類型、模型基本特征、模型性能,模型驗證等。并根據PROBAST對所得文獻進行偏倚風險和適用性評價[12-13],最終納入18項研究及27個模型。模型呈現方式包括危險評分表、GRU模型、列線圖等。其中,26個模型的AUC>0.7占96.3%,19個模型的AUC>0.8占70.4%,平均AUC為0.827,內部驗證AUC均值為0.803。72.2%的研究使用多因素Logistic回歸構建模型,平均AUC為0.827。4項研究[9,19-21]采用機器學習(machine learning,ML)算法建立12個模型,AUC均值為0.831。說明基于廣泛應用的多因素Logistic回歸及作為新方法的ML預測模型整體預測性能較好,有一定的區分能力。
由于研究類型、研究對象、SAP診斷標準存在差異,最終納入的預測因子存在差異的同時,也有著相似之處。初始候選預測因子數量超過300個,經過篩選后進入模型的最終預測因子數量在4~25個之間。包括人口學特征、神經系統體格檢查、實驗室檢查指標、影像學檢查指標、慢性疾病史五大類。其中,年齡、NIHSS評分、吞咽困難、mRS評分、意識障礙(GCS評分)為最常見的預測因子。由于腦卒中能引起中樞功能受損,患者出現意識障礙、咳嗽反射受損、咽喉感覺及呼吸功能下降,部分患者可因病情需要給予有創治療,如氣管切開、氣管插管等,導致呼吸道黏膜受損或呼吸系統直接暴露在外,氣道分泌物難以排出,大大增加SAP發生風險[28-30]。多項研究[22-23,30]顯示,與非SAP患者相比,伴有SAP患者的年齡較大、NIHSS及mRS評分較高、易發生吞咽困難和意識障礙,且GCS評分越低。同樣,張銳等[31]研究表明,患者神經功能缺損越嚴重,GCS評分越低,越易存在吞咽障礙,可使口咽分泌物或食物吸入肺部,進一步導致SAP的發生。另有研究[32]表明,腦部損傷激活交感神經系統引起的免疫抑制,在保護腦組織的同時,也削弱了人體對病原體的抵抗力,導致感染。且卒中患者年齡越大,其機體免疫功能、抵抗力越差,抵御應激能力下降,更易發生肺部感染[33-34]。因此,臨床醫務工作者了解SAP的預測因素是識別高危患者和采取預防措施的關鍵前提。
18項研究中沒有低偏倚風險的研究。6項研究[6,10,14,21,24-25]未報告連續和分類自變量的處理,對連續變量未轉化成≥2個類別的變量或分類變量應采用標準定義[12,26]。在缺失數據處理方面,Smith等[5]的研究無缺失數據,Yan等[7]對缺失數據進行了填充,4項研究[14,19-20,25]對缺失數據進行了刪除,剩余12項研究[6,8-10,15-16,18,21-24]未報告缺失數據信息。研究者直接刪除缺失數據可能會對模型結果產生影響,而填充數據可采用多重插補法[13,27],以保持數據的完整性。同時,一個好的風險預測模型,不僅要有好的區分度,還需有良好的校準度。在納入的研究中,Kwon等[24]僅構建模型生成評分系統,未報告模型區分度及校準度的信息。而Ge等[19]、Li等[20]、王孟等[21]及Wang等[25]研究未報告校準度評估,僅報告區分度,其模型可能產生一致性偏倚風險。故在建模前正確處理數據缺失問題并在建模后進行區分度和校準度的有效評估,有助于比較已開發的風險預測模型,并進行臨床轉化。另外,過度擬合和欠擬合的發生,都有降低模型預測性能的可能。本研究中,僅2個研究[9,20]報告了模型過度擬合情況。而使用正確方法,包括交叉驗證、正則化法、決策樹剪枝法等,可對模型性能的后續調整進行評估。故在以后的研究中,可根據CHARMS和PROBAST中內容來設計相關研究方法[11-13],構建低偏倚風險、高質量預測模型,并在臨床實踐中應用,驗證其適用性和安全性。
大多數模型的外部研究卻很少,僅有27.7%的研究得到了外部驗證[7,9,10,14-15]。外部驗證模型中,Sarah等[14]的A2DS2評分系統包含5個預測條目:年齡、房顫、吞咽困難、性別、NIHSS評分,針對缺血性卒中患者,其數據在臨床實踐中易于獲得。Ji等[15]的AIS-APS評分系統包含11個預測條目,針對AIS患者,其眾多條目不利于急診醫護人員快速使用及評定。Yan等[7]的ICH-LR2S2評分系統針對ICH患者,包含9個預測條目,并指出空腹血糖水平在預測SAP中發揮著重要作用。暫時性高血糖可能存在應激性高血糖,而不是糖尿病。且糖尿病史不代表血糖水平異常。Zheng等[9]的ML預測模型包含6個預測條目,針對sICH患者,ML應用程序具有更智能、更準確、更方便的特點。Zhang等[10]的列線圖預測模型包含4個預測條目,通過AIS的5個亞型中最大子類型LAA型來分析,其預測精度較高并可為預防SAP的構建及應用提供新思路。目前,臨床醫務人員對在特定環境或人群中使用或提倡哪種SAP風險預測模型可能存在疑惑。故未來可增強不同卒中類型患者SAP的危險因素研究,構建腦卒中專科、具有較好預測性能的SAP預測模型,并通過模型外部驗證及應用不斷改進,充分與臨床實踐相結合。
Zheng等[9]的機器模型推導,采用Logistic回歸、高斯樸素貝葉斯(Gaussian naive Bayes,GNB)、K近鄰算法(K-nearest neighbor,KNN)、支持向量機(support vector machine,SVM)、隨機森林法(random forest,RF)、XGBoost、集成軟投票模型(ensemble soft voting model,ESVM)構建7個模型,AUC均值為0.826。采用DCA對模型診斷準確性進行判斷,并用網格搜索算法對模型進行校準和內外部的交叉驗證后。其GNB的預測效率最高(AUC:0.861),RF的特異性最高(94.4%),XGB最敏感(69.2%),ESVM預測的準確率最高(83.7%)。而在多次內外驗證后ESVM有較好的穩定性,故ESVM更適用于與臨床實踐相結合。同樣,王孟等[21]采用Logistic回歸、CatBoost、XGBoost、LightGBM四種ML方法構建4個模型,其平均AUC為0.80。建模時XGBoost的預測性能最好(AUC:0.844),而驗模時Logistic回歸的預測性能最好(AUC:0.776);LightGBM模型靈敏度較高(73.61%),CatBoost模型特異度較高(85.06%)。但該研究未進行外部驗證,故需要在外部人群中進行驗證,以確保模型的準確性,且其穩定性可能不如Zheng等[9]的ESVM。而Li等[20]采用正則化法,決策樹剪枝法檢驗過度擬合情況和半折交叉的內部驗證后,最終選擇XGBoost模型。與傳統模型相比,傳統模型注重提升整體準確率,而XGBoost模型能夠考慮到樣本的不平衡性和錯誤分類,為卒中后管理提供合理依據,有利于降低治療成本。Ge等[19]基于深度學習的ML,采用神經網絡GRU算法構建模型,AUC值最高。但其最終預測因子達到25個,不利于臨床醫務人員應用。與經典ML方法相比,基于深度學習GRU構建的模型能達到最優性能。ML能夠通過對大量數據進行深挖與分析,故ML能對精準預測提供新的學習方法和研究思路,以期為臨床實踐開發一種實用的自動化工具[9,21]。
本研究的局限性:① 僅納入中、英文文獻,可能存在發表偏倚;② 由于研究對象的納入與排除標準存在異質性,故未作定量分析;③ 大部分SAP模型缺乏外部驗證。
綜上所述,SAP風險預測模型的整體預測性能較好,但因研究類型、研究對象、SAP診斷標準存在差異,無法直接比較它們的預測性能。且有72.3%的模型沒經過外部驗證,77.8%的研究存在較高偏倚風險。故未來建模可深入研究ML,依據CHARMS和PROBAST減少偏倚風險,并通過模型驗證及應用不斷改進,進一步提高其臨床應用價值。
風險預測模型是以患者疾病危險因素為基礎,建立預測模型,以達到預測疾病發展、治療反應及預后效果的方式,最早在心胸外科應用[1-2]。卒中相關性肺炎(stroke-associated pneumonia,SAP),是指非機械通氣患者在發病7天內新出現的肺炎[3],由德國學者Hilker于2003年首次提出[4]。SAP是卒中后常見感染性并發癥,其發病率在6.5%~31.3%,可導致患者出院時結局功能惡化,甚至致殘及死亡;長時間住院亦會增加醫療費用、人力資源和社會負擔[5-10]。通過SAP風險預測模型的結果,醫務人員可早識別SAP高危人群及未診斷患者,采取個體化、針對性治療措施及干預,降低或延緩SAP的發生,從而改善卒中患者預后及生存質量。多年來,國內外研究者依據生命體征、流行病學、實驗室影像學檢查等因素,構建不同卒中患者SAP風險預測模型,但各種預測模型結果不一。因此,本研究對國內外SAP風險預測模型進行系統評價,旨在概述現有可用于預測SAP風險的預測模型,綜合說明、比較模型性能。為醫務人員、指南制訂者等相關人員的模型選擇提供建議,并為相關模型構建提供參考依據。本研究已在PROSPERO注冊,注冊號為CRD42023399835。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
① 研究對象為年齡≥18周歲的卒中患者;② 研究內容為卒中患者SAP風險預測模型的構建研究;③ 研究類型包括隊列研究、病例-對照研究、橫斷面研究;④ 介紹了建模的過程及采用的統計學方法;⑤ 具體說明SAP的診斷標準;⑥ 中、英文研究。
1.1.2 排除標準
① 僅分析SAP的危險因素,未構建模型;② 基于系統評價/Meta分析、基于虛擬數據構建模型;③ 模型的預測因素≤2個;④ 無法獲取全文、信息不全或無法提取的文獻;⑤ 重復發表的文獻。
1.2 文獻檢索策略
計算機檢索CNKI、WanFang Data、CBM、PubMed、Web of Science、EMbase、Ovid Medline和Cochrane Library數據庫,搜集SAP風險預測模型的相關研究,檢索時限均為建庫至2023年2月15日。此外,追溯納入文獻的參考文獻,以補充獲取相關文獻。檢索采取主題詞和自由詞相結合的方式。中文檢索詞包括:卒中、中風、腦梗、腦出血、蛛網膜下腔出血、腦血管病、腦血栓、腦血管意外、腦血管事件、腦缺血、卒中相關性肺炎、風險預測模型、預測因子、風險評分、風險評估、臨床預測模型、列線圖等;英文檢索詞包括:stroke、cerebrovascular accident、cerebrovascular apoplexy、brain vascular accident、cerebrovascular stroke、apoplexy、hemorrhagic stroke、subarachnoid hemorrhagic、intracerebral hemorrhagic、intracerebral hemorrhage、intracerebral ventricular hemorrhage、healthcare-associated pneumonia、nosocomial pneumonia、acquired pneumonia、stroke-associated pneumonia、risk assessment、risk score、risk model、risk prediction、scoring system、nomogram、prediction model、risk calculation、models, statistical等。
1.3 文獻篩選與資料提取
由2位研究者獨立篩選文獻、提取資料并交叉核對,如遇分歧,則咨詢第三方協助判斷,缺乏的資料盡量與作者聯系予以補充。文獻篩選時首先閱讀文題和摘要,在排除明顯不相關的文獻后,進一步閱讀全文,以確定最終是否納入。基于預測模型研究系統評價的關鍵評估和數據提取(critical appraisal and data extraction for systematic reviews of prediction modelling studies,CHARMS)制訂數據提取表格[11],資料提取內容主要包括:第一作者、發表年份、國家、研究類型、SAP診斷標準、SAP發生率、研究來源、數據來源、候選預測因子、模型類型、樣本量、預測因子篩選方法、最終預測因子、缺失數據、建模方法、模型呈現形式、模型性能、驗模方法、驗證方法等。
1.4 納入研究的偏倚風險和適用性評估
2名研究員根據PROBAST對模型進行偏倚風險和適用性評價并交叉核對[12-13],如有分歧,尋求第三方協助直至統一。偏倚風險判斷包括研究對象、預測因子、結果及統計分析共20個問題,每個問題通過“是/可能是(Y/PY)”、“不是/可能不是(N/PN)”、“沒有信息(NI)”來回答;而適用性評價包括研究對象、預測因子、結果3個方面。最后根據以上步驟,使用PROBAST的等級評定標準,對預測模型的整體偏倚風險及適用性進行判斷,分為低風險、高風險、不清楚。
1.5 統計分析
對納入研究、預測模型的基本特征、構建、性能及驗證進行定性分析。
2 結果
2.1 文獻篩選流程及結果
初檢出相關文獻1 887篇,包括CNKI(n=24)、WanFang Data(n=121)、CBM(n=28)、PubMed(n=114)、Web of Science(n=1 155)、EMbase(n=265)、Ovid Medline(n=124)和Cochrane Library(n=56),經逐層篩選后,最終納入18篇文獻[6-10,14-25]。
2.2 納入研究的基本特征和偏倚風險與適用性評價結果


2.3 SAP風險預測模型的結果
2.3.1 SAP風險預測模型構建的基本特征
研究總樣本量在173~83 063例之間,建模樣本量在173~70 540例之間,驗模樣本量在112~45 085例之間。候選預測因子多使用單因素、多因素分析來進行篩選,但有3個研究[5,9,22]另外加入文獻回顧及臨床經驗的方法,1個研究[19]使用反向時間注意力模型(reverse time attention model,RETAIN),1個研究[7]使用XGboost提供的排列機制計算,1個研究[20]采用LASSO回歸分析,得到最終預測因子數量:4~25個之間。Logistic回歸構建SAP預測模型占72.2%,且有8個研究[5-7,15-17,24-25]形成了評分系統,4個研究[10,18,22-23]通過Logistic回歸建立列線圖(表3)。

2.3.2 SAP風險預測模型的性能及驗證
在18個研究中,有2個研究[9,21]包含多個模型,1個研究[16]包含2個模型,共計27個模型。模型驗證方面,有2個研究[24-25]僅模型建立,11個研究[5-6,8,16-23]為模型建立及內部驗證,2個研究[10,14]進行了建模及外部驗證,3個研究[7,9,15]采用建模及內外部驗證的方式進行評價。在27個SAP風險預測模型中,有4個研究[5,17,22-23]使用C-index、15個研究[6-10,14-16,18-23,25]使用AUC來驗證模型區分度,其建模AUC值在0.740~0.96之間,且有12個研究[5-7,9-10,14-19,21]報告了驗模AUC值,在0.692~0.946之間。有2個研究[9,18]采用決策曲線分析(decision curve analysis,DCA)判斷模型診斷的準確性。5個研究[19-21,24-25]未報告模型校準方法,10個研究[5-7,10,14-16,18,22-23]報告了校準圖,2個研究[15-16]采用Hosmer-Lemeshow檢驗,1個研究[8]采用似然比檢驗(表4)。

3 討論
本研究檢索國內外SAP風險預測模型相關文獻,依據CHARMS提取SAP風險預測模型的關鍵特征[26],包括研究人群、研究類型、模型基本特征、模型性能,模型驗證等。并根據PROBAST對所得文獻進行偏倚風險和適用性評價[12-13],最終納入18項研究及27個模型。模型呈現方式包括危險評分表、GRU模型、列線圖等。其中,26個模型的AUC>0.7占96.3%,19個模型的AUC>0.8占70.4%,平均AUC為0.827,內部驗證AUC均值為0.803。72.2%的研究使用多因素Logistic回歸構建模型,平均AUC為0.827。4項研究[9,19-21]采用機器學習(machine learning,ML)算法建立12個模型,AUC均值為0.831。說明基于廣泛應用的多因素Logistic回歸及作為新方法的ML預測模型整體預測性能較好,有一定的區分能力。
由于研究類型、研究對象、SAP診斷標準存在差異,最終納入的預測因子存在差異的同時,也有著相似之處。初始候選預測因子數量超過300個,經過篩選后進入模型的最終預測因子數量在4~25個之間。包括人口學特征、神經系統體格檢查、實驗室檢查指標、影像學檢查指標、慢性疾病史五大類。其中,年齡、NIHSS評分、吞咽困難、mRS評分、意識障礙(GCS評分)為最常見的預測因子。由于腦卒中能引起中樞功能受損,患者出現意識障礙、咳嗽反射受損、咽喉感覺及呼吸功能下降,部分患者可因病情需要給予有創治療,如氣管切開、氣管插管等,導致呼吸道黏膜受損或呼吸系統直接暴露在外,氣道分泌物難以排出,大大增加SAP發生風險[28-30]。多項研究[22-23,30]顯示,與非SAP患者相比,伴有SAP患者的年齡較大、NIHSS及mRS評分較高、易發生吞咽困難和意識障礙,且GCS評分越低。同樣,張銳等[31]研究表明,患者神經功能缺損越嚴重,GCS評分越低,越易存在吞咽障礙,可使口咽分泌物或食物吸入肺部,進一步導致SAP的發生。另有研究[32]表明,腦部損傷激活交感神經系統引起的免疫抑制,在保護腦組織的同時,也削弱了人體對病原體的抵抗力,導致感染。且卒中患者年齡越大,其機體免疫功能、抵抗力越差,抵御應激能力下降,更易發生肺部感染[33-34]。因此,臨床醫務工作者了解SAP的預測因素是識別高危患者和采取預防措施的關鍵前提。
18項研究中沒有低偏倚風險的研究。6項研究[6,10,14,21,24-25]未報告連續和分類自變量的處理,對連續變量未轉化成≥2個類別的變量或分類變量應采用標準定義[12,26]。在缺失數據處理方面,Smith等[5]的研究無缺失數據,Yan等[7]對缺失數據進行了填充,4項研究[14,19-20,25]對缺失數據進行了刪除,剩余12項研究[6,8-10,15-16,18,21-24]未報告缺失數據信息。研究者直接刪除缺失數據可能會對模型結果產生影響,而填充數據可采用多重插補法[13,27],以保持數據的完整性。同時,一個好的風險預測模型,不僅要有好的區分度,還需有良好的校準度。在納入的研究中,Kwon等[24]僅構建模型生成評分系統,未報告模型區分度及校準度的信息。而Ge等[19]、Li等[20]、王孟等[21]及Wang等[25]研究未報告校準度評估,僅報告區分度,其模型可能產生一致性偏倚風險。故在建模前正確處理數據缺失問題并在建模后進行區分度和校準度的有效評估,有助于比較已開發的風險預測模型,并進行臨床轉化。另外,過度擬合和欠擬合的發生,都有降低模型預測性能的可能。本研究中,僅2個研究[9,20]報告了模型過度擬合情況。而使用正確方法,包括交叉驗證、正則化法、決策樹剪枝法等,可對模型性能的后續調整進行評估。故在以后的研究中,可根據CHARMS和PROBAST中內容來設計相關研究方法[11-13],構建低偏倚風險、高質量預測模型,并在臨床實踐中應用,驗證其適用性和安全性。
大多數模型的外部研究卻很少,僅有27.7%的研究得到了外部驗證[7,9,10,14-15]。外部驗證模型中,Sarah等[14]的A2DS2評分系統包含5個預測條目:年齡、房顫、吞咽困難、性別、NIHSS評分,針對缺血性卒中患者,其數據在臨床實踐中易于獲得。Ji等[15]的AIS-APS評分系統包含11個預測條目,針對AIS患者,其眾多條目不利于急診醫護人員快速使用及評定。Yan等[7]的ICH-LR2S2評分系統針對ICH患者,包含9個預測條目,并指出空腹血糖水平在預測SAP中發揮著重要作用。暫時性高血糖可能存在應激性高血糖,而不是糖尿病。且糖尿病史不代表血糖水平異常。Zheng等[9]的ML預測模型包含6個預測條目,針對sICH患者,ML應用程序具有更智能、更準確、更方便的特點。Zhang等[10]的列線圖預測模型包含4個預測條目,通過AIS的5個亞型中最大子類型LAA型來分析,其預測精度較高并可為預防SAP的構建及應用提供新思路。目前,臨床醫務人員對在特定環境或人群中使用或提倡哪種SAP風險預測模型可能存在疑惑。故未來可增強不同卒中類型患者SAP的危險因素研究,構建腦卒中專科、具有較好預測性能的SAP預測模型,并通過模型外部驗證及應用不斷改進,充分與臨床實踐相結合。
Zheng等[9]的機器模型推導,采用Logistic回歸、高斯樸素貝葉斯(Gaussian naive Bayes,GNB)、K近鄰算法(K-nearest neighbor,KNN)、支持向量機(support vector machine,SVM)、隨機森林法(random forest,RF)、XGBoost、集成軟投票模型(ensemble soft voting model,ESVM)構建7個模型,AUC均值為0.826。采用DCA對模型診斷準確性進行判斷,并用網格搜索算法對模型進行校準和內外部的交叉驗證后。其GNB的預測效率最高(AUC:0.861),RF的特異性最高(94.4%),XGB最敏感(69.2%),ESVM預測的準確率最高(83.7%)。而在多次內外驗證后ESVM有較好的穩定性,故ESVM更適用于與臨床實踐相結合。同樣,王孟等[21]采用Logistic回歸、CatBoost、XGBoost、LightGBM四種ML方法構建4個模型,其平均AUC為0.80。建模時XGBoost的預測性能最好(AUC:0.844),而驗模時Logistic回歸的預測性能最好(AUC:0.776);LightGBM模型靈敏度較高(73.61%),CatBoost模型特異度較高(85.06%)。但該研究未進行外部驗證,故需要在外部人群中進行驗證,以確保模型的準確性,且其穩定性可能不如Zheng等[9]的ESVM。而Li等[20]采用正則化法,決策樹剪枝法檢驗過度擬合情況和半折交叉的內部驗證后,最終選擇XGBoost模型。與傳統模型相比,傳統模型注重提升整體準確率,而XGBoost模型能夠考慮到樣本的不平衡性和錯誤分類,為卒中后管理提供合理依據,有利于降低治療成本。Ge等[19]基于深度學習的ML,采用神經網絡GRU算法構建模型,AUC值最高。但其最終預測因子達到25個,不利于臨床醫務人員應用。與經典ML方法相比,基于深度學習GRU構建的模型能達到最優性能。ML能夠通過對大量數據進行深挖與分析,故ML能對精準預測提供新的學習方法和研究思路,以期為臨床實踐開發一種實用的自動化工具[9,21]。
本研究的局限性:① 僅納入中、英文文獻,可能存在發表偏倚;② 由于研究對象的納入與排除標準存在異質性,故未作定量分析;③ 大部分SAP模型缺乏外部驗證。
綜上所述,SAP風險預測模型的整體預測性能較好,但因研究類型、研究對象、SAP診斷標準存在差異,無法直接比較它們的預測性能。且有72.3%的模型沒經過外部驗證,77.8%的研究存在較高偏倚風險。故未來建模可深入研究ML,依據CHARMS和PROBAST減少偏倚風險,并通過模型驗證及應用不斷改進,進一步提高其臨床應用價值。