實效性隨機對照試驗可提供高質量的真實世界研究證據。然而,實效性試驗由于質控相對沒有傳統隨機試驗嚴格,常存在結局缺失問題。若不對結局缺失進行恰當的處理,則可能產生選擇偏倚。因此,根據導致結局缺失的機制和缺失的比例使用恰當的統計方法尤為重要。本文主要從結局缺失問題、缺失可能產生的選擇性偏倚結構、缺失機制和處理缺失數據的主要統計方法進行論述,并推薦使用多重插補法或刪失逆概率加權法作為主分析中處理結局缺失的方法。本研究旨在為實效性試驗的結局缺失問題提供合理選擇統計方法的思路。
引用本文: 石清陽, 李玲, 任燕, 姚明宏, 孫鑫. 實效性隨機對照試驗中的統計方法(Ⅱ):解決結局缺失問題. 中國循證醫學雜志, 2021, 21(6): 729-736. doi: 10.7507/1672-2531.202101140 復制
實效性隨機對照試驗(pragmatic randomized controlled trials,pRCT)是真實世界數據研究非常重要的組成部分,并為臨床決策提供重要的循證證據[1]。然而,由于其在真實醫療環境下開展,具有人群多樣性、不設盲、隨訪時間較長等特點[2],pRCT 在實際執行中相比于傳統隨機試驗更難進行質控,則更容易出現受試者結局缺失(missing outcome)的問題[3]。與此同時,結局缺失問題時常與依從性問題混淆[4],且沒有被引起足夠的重視[5],使得其通常沒有被恰當的分析處理[6]。因此,本文首先將結局缺失問題與依從性問題進行區分并指出其中存在的問題,然后論述結局缺失可能產生的偏倚的結構以及缺失機制的分類,最后給出解決結局缺失的統計方案,以期為今后開展相關研究提供思路。
1 結局缺失問題與依從性問題
依從性問題和結局缺失問題是兩個完全不同的概念,對研究結果產生的影響也不同。依從性問題(non-compliance)定義為實際干預偏離計劃干預(protocol deviation),當偏離因素同時影響干預和結局時,產生隨機后混雜(post-randomization confounding)[7]。而結局缺失指的是試驗中某些受試者的某些結局數據缺失,通常是由于受試者失訪(lost to follow-up)所致,但有時也存在其他原因,如受試者拒絕配合報告結局等。當不對結局缺失進行處理而直接進行分析時,可能產生選擇性偏倚(selection bias)。
在臨床試驗中,依從性問題和結局缺失既可同時發生,也可單獨發生。比如某些受試者因干預療效不佳可能拒絕繼續使用原定干預措施,但并未離開試驗,其結局數據完整,因此存在依從性問題但沒有結局缺失問題。而有些受試者因某些個人原因離開試驗地區(即受試者失訪),但其并沒有潛在拒絕或改變干預的意愿,因此存在結局缺失但沒有依從性問題,也被稱為無差別失訪(non-differential lost to follow-up)。然而,通常受試者失訪的原因很可能是因為對試驗療效不滿意或其他試驗相關因素導致,主觀上受試者存在拒絕原有干預或改變干預的意愿,客觀上受試者因此失訪,此時依從性問題和結局缺失同時存在,并可歸為同一個問題,即存在選擇偏倚的結局缺失問題,也被稱為有差別失訪(differential lost to follow-up)。
如前所述,依從性問題和結局缺失問題在臨床試驗中是兩個不同的問題,可能產生的偏倚影響也不同,因此相應的統計方法也應不同。依從性問題的解決方案通常有意向性分析法(intention-to-treat,ITT)、符合方案集分析法、工具變量估計法[7]。其中使用最多的 ITT 法有時會被認為可以同時解決結局缺失問題,然而這是非常錯誤的認識[4]。比如當出現部分失訪受試者時,錯誤的 ITT 分析會將接受隨機分配的全部患者數量計入分母,而將最終出現結局的人數計入分子,而忽略那些失訪人數。事實上,這樣的處理意味著將失訪人群假設為“如果未失訪,依然不會出現結局事件”,這通常與事實不符,尤其當失訪是由于療效因素引起。因此,當出現失訪時,ITT 分析僅可以處理其中的依從性問題(即不依從但有結局的人群),而對于結局缺失依然需要適當的統計方法進行校正處理。
除此之外,還有一些觀點也是完全錯誤的,例如結局缺失問題可以通過事先增大樣本量來解決。事實上,樣本量僅和統計推斷或估計精確性有關,解決的是隨機誤差,而結局缺失通常可導致偏倚,此時無論增加多少樣本量都無法解決偏倚問題。當出現偏倚時,估計值的準確性無法保證,相應的置信區間也是有偏差的,無論其本身區間范圍多窄。所以,結局缺失并不僅是損失一些統計功效的問題,而是整個研究結果是否可信的問題,這個問題不僅出現在觀察性研究中,同樣也出現在隨機試驗中,因此需要得到足夠的重視。
2 結局缺失中的偏倚結構
在 pRCT 中,基線隨機化消除了隨機分組前的混雜和選擇偏倚,因此在理想情況下兩組間結局比較即是因果效應。然而實際情況中,部分受試者可能因為種種原因失訪,因此兩組比較的不再是原先完整人群的結局,而是相當于限制在結局未缺失的人群中進行比較,如因果圖 1 所示。C 表示是否結局缺失(0:未缺失,1:缺失),當干預 A 對 C 有因果效應的同時,結局 Y 對 C 也有因果效應,此時將分析限制在結局未缺失人群中(C=0)相當于對 C 進行分層分析,因而打開后門路徑 A→C←Y 產生沖撞變量分層偏倚(collider-stratification bias),即選擇偏倚。例如某 pRCT 中,試驗組更容易出現不良事件,而出現不良事件的受試者更傾向于離開試驗(即失訪);同時當結局療效不佳時,受試者也更傾向于離開試驗。因此當試驗組出現不良事件的受試者仍然留在試驗中時(即結局未缺失),那么必然存在一些其他因素使他留下,即結局療效不佳的可能性就會更低,則留在試驗中試驗組的人群相比于結局缺失人群中試驗組的療效更好。

上述針對干預和結局的沖撞變量分層即是產生此類選擇偏倚的機制[8]。除此之外,針對沖撞變量的子變量分層同樣可以引入選擇偏倚,如因果圖 2 所示。A 為干預,Y 為結局,L 為某些相關癥狀,U 為某些引起 L 的潛在預后因素,C 為是否結局缺失。U 可同時引出某些癥狀 L 和改變結局 Y,干預 A 也可能產生某些癥狀比如不良反應。當分析限制在未缺失 C=0 時,打開后門路徑 A→L←U→Y 產生選擇偏倚。

同理,與上述相似的情況是,干預相關的影響與結局相關的影響機制不同,但均會影響缺失,如因果圖 3 所示。干預 A 通過 A→L1→C 路徑影響缺失,結局通過某些預后因素 U 產生的路徑 Y←U→L2→C 影響缺失,當限制 C=0 時,打開后門路徑 A→L1→C←L2←U→Y,產生選擇偏倚。

前述偏倚均是典型選擇偏倚結構[9],即對沖撞變量分層引起的偏倚,這種選擇偏倚在零效應(null effect)下依然存在偏倚效應,被稱為“bias under the null”,即盡管干預 A 對結果 Y 無因果效應,但仍然可分析出 A 和 Y 之間的相關性(通過后門路徑產生)。
除此之外,還有一類在隨機試驗中經常出現但不被人重視的特殊選擇偏倚,其僅在干預和結局之間真正存在因果效應時發生,被稱為“bias under the alternative”[10]。這種偏倚的特點在于缺失僅與結局相關,與干預無關,也就是缺失的比例在干預組和對照組之間相同,即通常意義下的無差別失訪(nondifferential lost to follow-up)。此時如果將分析限制在結局未缺失的人群中則產生這種特殊選擇偏倚,如因果圖 4 所示。干預 A 與結局 Y 之間存在因果效應,結局 Y 與缺失 C 之間通過某些預后因素 U 相關聯,但干預 A 和缺失 C 之間無任何相關關系(即干預組和對照組之間的缺失比例相同)。當我們將分析限制在結局未缺失人群 C=0 中,此時存在三種情況:① 若 Y-C 的相關性在 A 的不同水平間同質,即干預組中的 Y-C 相關性和對照組中的 Y-C 相關性相同,則不產生偏倚。② 若 Y-C 的相關性在 A 的不同水平間異質,即干預組中的 Y-C 相關性和對照組中的 Y-C 相關性不同,則產生特殊選擇偏倚,原因是由于 A-U 之間產生了交互作用。而 Y-C 在 A 的水平中異質是一個很常見的情況,盡管有時我們可認為其在比例尺度(ratio scale)下同質,但此時在差值尺度(difference scale)下必然異質,因此仍然會產生特殊選擇偏倚。③ 上述兩種情況均在干預 A 和結局 Y 之間有因果效應的前提下存在,若 A 和 Y 之間沒有因果效應,則不會產生偏倚,無論是否限制缺失 C。如圖 4 中,將 A-Y 關聯斷開,則無論如何限制 C,均不會影響 A。

上述特殊選擇偏倚與典型選擇偏倚所產生的影響有很大區別,典型選擇偏倚通常是由于對沖撞變量分層或限制在某一水平(如限制在 C=0)而產生的,其無論干預 A 和結果 Y 之間有無因果效應均可產生偏倚,并同時對原總體人群或結局未缺失人群(原總體人群的子集)產生偏倚,也就是無論我們的目標總體(target population)是原總體還是其子集,估計值都是有偏倚的。然而,對于特殊選擇偏倚,首先不存在沖撞變量,因為干預組和對照組間缺失比例相同,缺失僅與結局相關聯(或通過某些預后因素相關聯),其次當結局-缺失關聯在干預不同水平間異質時發生偏倚,最后當目標總體是原總體時產生偏倚,若改變推斷范圍為結局未缺失人群則不產生偏倚。因此,在隨機試驗中,當出現特殊選擇偏倚時,應明確說明目標總體的改變情況,并強調試驗外推范圍的變化。
綜上,上述產生選擇偏倚的幾種因果圖結構均可能在 pRCT 中發生,即在干預 A 隨機化的前提下發生,在因果圖中表現為沒有箭頭指向干預 A(即 A 是外生變量)。盡管多數情況下結局缺失會產生偏倚,但也并非所有情況均是,當缺失的發生可以被認定為完全隨機事件時,即缺失與干預和結局均不相關時,無論推斷的目標總體是原總體或未缺失人群均不會產生選擇偏倚。但這樣的假設前提非常苛刻,真實情況更多的是我們無法判斷缺失是否與干預或結局相關聯,因此需要針對結局缺失的機制進行專門論述,探討其可能帶來的影響以及采用什么解決方案。
3 缺失數據機制
缺失數據(missing data)問題是一個非常廣泛的領域,任何變量在分析時以任何形式缺失都可以被稱為缺失數據,Little 等將其定義為任何未觀測但對分析有意義的數據,即缺失值背后隱藏著對分析有幫助的信息[11]。因此,結局缺失問題僅是缺失數據領域的一個組成部分。在隨機試驗中,結局缺失問題對研究的影響更大,相比于整個缺失數據領域而言對結果影響更大,因而本文單獨針對隨機試驗中的結局缺失問題進行討論。但是從統計分析的角度,缺失數據領域存在一個統一且成熟的框架,使得其背后的假設非常清晰。因此,本節借助 Rubin 的缺失數據框架來說明處理結局缺失問題所需要滿足的條件和假設[12]。
考慮完整數據集 Y 以及缺失值指示變量 M,其中 M=1 代表缺失并對應缺失數據 ,M=0 代表未缺失并對應觀測數據
。則缺失機制可以通過給定 Y 時 M 的條件分布表示,即:
,其中
表示未知參數。
此時若缺失機制不取決于任何數據,無論缺失數據或是觀測數據,即:
![]() |
則缺失數據被稱為完全隨機缺失(missing completely at random,MCAR)。相比于 MCAR 更弱的假設是缺失機制僅取決于觀測數據 而不依賴缺失數據本身,即:
![]() |
則缺失數據被稱為隨機缺失(missing at random,MAR)。若缺失機制不僅取決于觀測數據,還取決于某些缺失數據本身或未知因素,即上述 MAR 等式不滿足,則缺失數據被稱為非隨機缺失(missing not at random,MNAR)。
無論任何缺失數據,均可歸于上述 3 種缺失機制。如果假設數據滿足 MCAR,則意味著缺失數據對結果不產生任何影響,即可以直接使用完全數據集分析而不做任何處理。如果數據滿足 MAR,則意味著基于已有觀測數據足以預測出缺失數據信息,即可通過一些統計方法處理缺失數據。如果數據為 MNAR,則意味著部分缺失數據依賴缺失數據本身,這種缺失非常難以處理,需要對缺失機制本身施加一些強假設并對其進行建模。對于 MAR,可以直接對數據進行建模而不對缺失機制本身施加額外的假設,也是本文主要考慮的場景,其處理機制如下:
考慮結局 Y 存在一些缺失值,M 為 Y 的缺失指示變量,同時存在一系列完全觀測的協變量 X 且不存在缺失值。如前 MAR 公式,給定 X 時 M 的條件分布等于給定 X、Y 時 M 的條件分布,因此可以推導出給定 X、M=0 時 Y 的條件分布(即觀測數據條件分布)等于給定 X、M=1 時 Y 的條件分布(即缺失數據條件分布),即:
![]() |
此公式意味著可以通過觀測到的 及對應 X 的信息,和缺失部分對應 X 的信息,來預測缺失部分的
值,也是本文統計處理方法的核心機制。
4 解決結局缺失問題的主要統計方法
如前所述,缺失數據的機制分為 3 種,通常處理缺失問題的統計方法均基于 MCAR 或 MAR 假設,并可歸納為以下幾類:① 完整數據集分析(complete-case analysis):此方法就是直接忽略結局缺失,僅分析被完全觀測的數據。當結局缺失比例較小時,此方法簡單易行且可能得到一個相對可靠的結果。然而當結局缺失比例較大時,此方法可能會導致嚴重的偏倚和不精確估計[13],因此不宜使用。② 加權法(weighting procedures):加權法中最重要的方法是刪失逆概率加權法(inverse probability of censoring weighting,IPCW)[14, 15],此方法依據個體選擇進入未缺失的概率來逆加權至未缺失數據中,從而得到原總體數據,是非常穩健的方法,也是本文重點考慮的方法之一。③ 插補法(imputation):插補法分為很多種類型,最簡單是熱卡插補(hot deck imputation),其中常見的是末次觀測值結轉法(last observation carried forward,LOCF)。但 LOCF 方法的問題在于忽略了疾病病程的發展,雖然簡單易行但也會產生相應偏倚[16]。除此之外還有均值插補、回歸插補等簡單插補方法。④ 似然法(likelihood-based approaches):似然法是直接基于全部觀測數據進行建模,無論其中有無缺失值。模型通過似然法進行估計,如最大似然法、期望最大化法(expectation–maximization algorithm)等。這個方法的優點在于無需對缺失數據進行任何處理,既不需要將其丟棄也不需要進行插補,直接在完整數據集上建模并進行估計,如直接似然法(direct likelihood)。此方法非常靈活,可以應對任何缺失機制,模型假設可以被直觀展現和評估。多重插補法(multiple imputation)的思路來源于貝葉斯法(即廣義似然法)并將其公式進行分解,使其非常靈活且簡便易行,成為本文主要考慮的處理方法之一。
4.1 刪失逆概率加權
結局缺失產生選擇偏倚的機制是干預 A 對缺失 C 存在因果效應的同時,結局 Y 對缺失 C 也存在因果效應,此時缺失 C 成為沖撞變量,當分析限制在 C=0 時相當于對沖撞變量分層,因而產生選擇偏倚。通常情況下,結局 Y 并不會直接影響缺失 C,而是通過某些可測預后因素 L(如某些基線風險)相關聯,或通過某些不可測預后因素 U 導致某些可測因素 L(如某些隨訪癥狀)。當我們認為研究中的協變量集 X 足以涵蓋所有可測因素 L 時,則可以阻斷 Y-C 之間的后門路徑從而校正缺失帶來的偏倚,此時缺失機制滿足 MAR 假設。
當協變量集 X 滿足條件后,則可以使用 IPCW 校正缺失。首先計算后門路徑中選擇進入未缺失 C=0 的概率 ,則結局未缺失人群的逆概率權重為:
![]() |
相應的,缺失人群的逆概率權重 。此時,未缺失結局的因果識別條件為
?
,即給定 X 和 A 的聯合分布后未缺失人群的反事實結局獨立于缺失本身。
其后將逆概率權重加權至每一個未缺失個體的結局中,通過 H-T 估計量(Horvitz-Thompson estimator)可給出被估量的一致估計[17]:
![]() |
即為未缺失個體加權校正后的結局,其后可估計干預組和對照組的因果效應:
![]() |
在實際使用 IPCW 時,通常會采用模型法進行估計:① 首先通過 logistic 回歸估計缺失選擇概率,此時自變量為全部協變量 X 和干預 A,因變量為缺失變量 C=0。其后用建立好的 logistic 回歸模型將缺失選擇概率預測出來,則缺失逆概率 WC 等于 1 除以缺失選擇概率。② 對干預 A 建立邊際結構模型(marginal structural model),并使用加權最小二乘法將缺失逆概率 WC 加權至模型中,則可估計出最終校正缺失后的結果。
此外,還可用穩健逆概率權重(stabilized inverse probability weights)進行加權估計,即:
![]() |
穩健權重的好處是在非飽和模型中可估計出更窄的置信區間,因此統計效率更高。
4.2 多重插補法
多重插補法并不是某一個具體的方法,而是代指一種處理缺失數據的框架或思路,多重插補的意義在于可以校正簡單插補帶來的估計偏差和推斷偏差,即可以解釋插補本身帶來的不確定性。例如有協變量集 X、觀測集 和缺失集
(未觀測),當用 X 對 Y 進行回歸插補時,缺失集
的值會依據 X 對
回歸模型進行預測,當 X 滿足 MAR 條件時,這些預測值在期望意義下是最理想的。但事實上,這些預測值是不可能觀測到的,因為它忽略了現實中的隨機誤差。基于這些回歸插補值進行估計和推斷時也會存在相應偏差。因此,多重插補的最終目的是總體效應參數的無偏估計(unbiased)以及區間的有效估計(confidence valid)[18, 19]。
假設有總體參數 μ,通常可直接通過某一無偏估計量 進行估計,然而
需要依據全部數據 Y 進行估計,此時僅有觀測數據
,因此估計量
可表示為給定
時 μ 的后驗分布:
,然而這個分布是無法直接估計的,因此需要分解為:
![]() |
其中 即是插補的過程,記插補后數據為
,則
表示為通過插補數據集對總體參數 μ 進行估計的過程。當我們重復這個插補-估計過程,則 μ 的后驗分布均值可表示為:
![]() |
即多次重復插補-估計過程后,每次估計量 的均值。同理,可估計參數 μ 的后驗方差分布:
![]() |
其中右邊第一部分被稱為重復插補內方差,即每次插補中參數方差的均值,第二部分被稱為重復插補間方差,即每次插補參數均值與總體參數均值間的離均方差。
上述“多次重復插補-估計的過程”被稱為多重插補法[20]。
此時可看出多重插補法總是需要一個簡單插補模型進行每次的重復插補。然而這個插補模型需要有一定隨機性,如果每次插補都是固定的值則無法進行多重插補,例如普通回歸、LOCF 或均值中位數等的插補值是固定的,因此不滿足要求。通常滿足條件的插補模型有隨機回歸插補(stochastic regression imputation)、預測均值匹配(predictive mean matching,PMM)、貝葉斯插補(Bayesian imputation)、Bootstrap 插補(Bootstrap imputation)、樹模型(tree-based model)。
隨機回歸插補即在普通回歸預測值中加入隨機擾動。PMM 是通過回歸預測值進行匹配,每次會生成一些“待匹配值”,然后對其隨機抽樣。貝葉斯插補則是直接從參數后驗分布中隨機抽樣。Bootstrap 是從原始數據 中重抽樣。樹模型與 PMM 相似,只不過回歸預測值變為樹模型預測節點。這些插補模型中 PMM 和樹模型匹配通常更穩健,因為無需服從“無模型指定錯誤(no model misspecification)”假設,但當缺失數據比例較大或樣本量較小時,可能出現重復插補值過多的情況。
除此之外還有一個問題則是多重插補需要重復插補多少次,如果插補次數太少則會引起插補間方差較大,然而次數太多會增加算力及出現效益遞減,因此需要進行權衡。Royston 認為如果想估計出更窄的區間則插補數需要至少 20 或更多[21]。Von Hippel 給出了一個經驗法則:缺失數據的百分比即為插補次數[22]。事實上,在算力允許的情況下,更多的插補次數總是好的。
4.3 縱向結局缺失問題
在長期隨訪的 pRCT 中,通常可能出現多時間點測量結局的情況,因此缺失并不僅在某個時間點發生,而是可能發生在結局測量的每一個時間點中,即缺失 C 是一個時變變量(time-varying variable)。更典型的情況是缺失 C 是單調缺失的(monotonic),即如果在 k 時間點上的缺失 Ck=0,那么 C1,C2,C3,…,Ck-1=0。
理論上縱向結局缺失問題同樣可通過插補模型解決,即只需將前一時間點的結局 Yk-1 用于 k 時間點的缺失結局 Yk 的插補中。然而需要注意缺失 C 的時變屬性可能更容易導致協變量集 X 中存在沖撞變量 L,如圖 2 所示。若通過 L 校正缺失,如回歸插補,則產生新的選擇偏倚,即打開后門路徑 A→L←U→Y。此時常規校正方法失效,需要采用 g 方法校正缺失,即逆概率加權法。有別于前述 IPCW 的是此處缺失為時變變量,因此需將逆概率權重拓展為多時間點的權重乘積:
![]() |
同理,在模型估計時,先對每個時間點的缺失 C 進行 logistic 回歸算出逆概率權重,然后使用加權最小二乘法構造邊際結構模型進行最終效應估計。
此外,當結局為連續性變量時,可采取混合效應模型(mixed effect model),則無需對結局進行插補。在滿足 MAR 假設時,模型通過對其他時間點的數據進行聯合估計即可得到最終效應。混合效應模型通常采用似然法進行估計,包括最大似然、限制性最大似然、Kackar-Harville 法、Kendward-Roger 法等。
4.4 多重插補和逆概率加權
多重插補和逆概率加權作為處理結局缺失的兩個最重要的方法,各有利弊。多重插補直接對缺失數據的分布建模,因此可以同時處理協變量部分缺失的情況,即多元缺失數據問題(multivariate missing data)。此時插補模型通常分為兩種:聯合模型(joint model,JM)和全條件指定法(fully conditional specification,FCS)。JM 法是直接對多元缺失數據的聯合分布進行建模,通常采用多元正態分布。FCS 法則是單獨對每一個缺失變量的條件分布進行建模,然后通過迭代的方法進行計算,此方法又被稱為鏈式方程法(chained equations),因此通過鏈式方程的多重插補被簡稱為 MICE 法(multivariate imputation by chained equations)[23]。
逆概率加權作為 g 方法的一種,可處理協變量 X 中存在沖撞變量 L 的情形,而其他方法在此情形下失效。逆概率加權還可以進行聯合建模,比如通過干預逆概率權重和刪失逆概率權重的聯合分布同時處理混雜和選擇偏倚,并均可拓展至具有時變屬性的變量中,有很大的靈活性。
4.5 生存結局缺失
生存結局也被稱為時間-事件結局(time to event outcome),其特點在于除了考慮隨訪期間事件是否發生以外還需要考慮其在多長時間內發生。生存結局中的缺失數據又被稱為刪失(censoring),其特殊點在于它天然需要考慮兩類刪失:管理性刪失(administrative censoring)和非管理性刪失(non-administrative censoring)。非管理性刪失即是本文所論述的結局缺失類型,其發生在隨訪終點之前,由于各種未知原因出現結局缺失,如失訪等。管理性刪失為因研究者自身的原因而導致的結局刪失(而非受試者原因),通常發生在研究結束時研究者中斷后續隨訪以致后續結局無法觀測,也被稱為右刪失(right censoring)。其特點為需要對在隨訪終點還未發生事件的人群的生存時間進行指定,而這主要是生存分析模型所解決的問題,比如給定生存時間分布(或風險分布)假設。常規處理生存結局的統計方法大體分為非參數法:包括 Kaplan-Meier 估計量、生命表法(life-table method)、Nelson-Aalen 估計量、Aalen-Johansen 估計量;半參數法:包括 Cox 比例風險(proportional hazards,PH)模型、半參數加速失效時間模型(accelerated failure time,AFT);參數法:包括基于威布爾分布(Weibull distribution)的參數 AFT 模型、基于 logistic 回歸的平滑時間風險模型(smooth-in-time hazard model)、Gompertz 模型。
然而,正是因為上述模型直接對管理性刪失或生存時間建模,一種錯誤的觀點認為它們同時也可以處理非管理性刪失。事實上,若統計分析時不做特別處理,比如采用標準 Cox 模型,則非管理性刪失同樣會被當成管理性刪失處理,即默認滿足無信息刪失(non-informative censoring)假設。而如前所述,非管理性刪失通常并非是無信息的,更多的原因是患者因不良事件等試驗相關因素而刪失,此時如將其當成無信息刪失會產生相應偏倚。
因此,在隨機試驗的生存分析中,需要將管理、非管理性刪失分開考慮,對于管理性刪失可采用常規生存分析模型處理,而非管理性刪失可采用本文推薦的逆概率加權和多重插補法處理。其中逆概率加權方法可以依據前述縱向結局刪失中的時變刪失變量處理,此處不再贅述。而多重插補法在此處比較特殊,因為需要插補的數據是生存時間這一特殊數據類型。通常有 3 種生存時間的插補策略[24, 25]:① 風險集插補(risk set imputation),即對于每一個刪失結局均構造一個風險集,然后隨機從中抽取一個生存時間進行插補;② Kaplan–Meier 插補,即在上述構造風險集的基礎上,使用其構造 Kaplan–Meier 生存曲線,然后從生存曲線中隨機抽取生存時間進行插補;③ 風險值匹配法(risk score matching),即通過擬合參數模型為每一個刪失結局計算一個風險值,然后與未刪失結局的風險值進行匹配,依近鄰原則選出匹配候選集,從中隨機抽樣。
此外,還有一種特殊的非管理性刪失類型,即競爭風險事件(competing event)。例如目標結局為某些疾病(如糖尿病)的發病,此時死亡即是競爭風險事件,發生死亡事件的個體的原目標事件失效時間(failure time)無窮大,導致原結局分析結果發生偏離。在風險模型中,傳統上有兩種處理方法:指定原因風險模型(cause-specific hazard model)、部分分布風險模型(subdistribution hazard model)。但無論哪種模型均受前述選擇偏倚的影響,依然需要進行協變量校正,此時可選用刪失逆概率加權的方法。需要注意的是,當出現競爭風險事件時,無論哪一種方法都不能完美回答原目標結局的問題,因此解釋結果時應更加謹慎。
5 討論
對于隨機試驗而言,質控都是至關重要的;良好質控下隨機試驗的結果可信度較高,被認為是最佳證據的來源。質控中非常重要的一個環節就是盡可能減少缺失數據的存在,尤其對于重要結局而言。事實上,相應的質控規范已經較為完善,然而無論質控做的再好,也無法避免因各種未知因素而導致的結局缺失,且由于試驗相關因素的存在,結局缺失通常伴隨著不同偏倚的產生,從而嚴重影響研究結論[26-28]。
盡管對于隨機試驗結局缺失是非常重要的問題,大多數研究卻缺少針對如何處理缺失數據的論述[6],并默認使用完全數據集分析的方法,或使用一些簡單插補的方法如 LOCF、均值插補等,且沒有詳盡論述為什么選擇這些方法。對于大多數試驗而言,簡單的數據處理方法均可能產生偏倚,除非有強有力的論點說明其背后的假設(MCAR)成立,否則這樣的選擇并不可取。
逆概率加權和多重插補是目前處理結局缺失的方法中最重要且最靈活的兩種方法。逆概率加權是對缺失變量的選擇概率建模,通過逆概率權重構造假如未缺失時結局的效應。此方法可應用于各種特定模型,如處理生存數據時可采用逆概率加權 Cox 模型。也可以拓展至時變變量中,通過擬合多時間點逆概率權重的乘積進行建模。
多重插補的思路來源于給定觀測數據后總體參數條件分布的貝葉斯分解,非常巧妙地將缺失數據考慮在其中。多重插補的靈活性在于可以使用任意插補模型,包括一些非參數插補法,如 PMM、樹模型等,這些方法不受模型函數指定的限制,穩健性更好。除此之外,多重插補可以同時處理多元缺失數據問題,如聯合模型、全條件指定,但所需要的假設也更強。
無論采用何種統計處理方法,其背后均需要滿足相應假設,如 MAR。在 pRCT 中,基線數據及隨訪數據通常會收集的更全,更容易滿足 MAR 假設。然而,無論數據收集的再多,這些假設依然不可驗證,因此,需要結合專業知識對其進行詳細論證并在文章中體現,如此可增加研究的透明性,也可讓后來的研究者進一步判斷或提出質疑,并進行改進。此外,針對不同假設應當做相應的敏感性分析,以確保結果在不同假設下的穩健性。
綜上,目前隨機試驗對結局缺失的處理并不理想,有很大改進的空間,其中除盡可能做好質控以外,恰當的統計分析方法也是至關重要的。當結局缺失比例較低或可以論證缺失機制滿足 MCAR 假設時,可以選用完整數據集分析。當結局缺失比例較高且缺失機制不滿足 MCAR 時,首先盡可能收集與缺失相關的協變量集,然后對缺失機制的 MAR 假設是否成立進行詳細論證說明,最后依據具體情況選擇結局缺失的處理方法。若除結局缺失以外還需要解決其他協變量缺失問題,則可以選用多重插補法。若需處理縱向結局中的時變變量缺失,則可以選用逆概率加權法。然而,無論采用任何方法均依賴特定的假設前提,因此,對試驗設計和過程詳盡的論述是保證研究質量和透明性的關鍵。
實效性隨機對照試驗(pragmatic randomized controlled trials,pRCT)是真實世界數據研究非常重要的組成部分,并為臨床決策提供重要的循證證據[1]。然而,由于其在真實醫療環境下開展,具有人群多樣性、不設盲、隨訪時間較長等特點[2],pRCT 在實際執行中相比于傳統隨機試驗更難進行質控,則更容易出現受試者結局缺失(missing outcome)的問題[3]。與此同時,結局缺失問題時常與依從性問題混淆[4],且沒有被引起足夠的重視[5],使得其通常沒有被恰當的分析處理[6]。因此,本文首先將結局缺失問題與依從性問題進行區分并指出其中存在的問題,然后論述結局缺失可能產生的偏倚的結構以及缺失機制的分類,最后給出解決結局缺失的統計方案,以期為今后開展相關研究提供思路。
1 結局缺失問題與依從性問題
依從性問題和結局缺失問題是兩個完全不同的概念,對研究結果產生的影響也不同。依從性問題(non-compliance)定義為實際干預偏離計劃干預(protocol deviation),當偏離因素同時影響干預和結局時,產生隨機后混雜(post-randomization confounding)[7]。而結局缺失指的是試驗中某些受試者的某些結局數據缺失,通常是由于受試者失訪(lost to follow-up)所致,但有時也存在其他原因,如受試者拒絕配合報告結局等。當不對結局缺失進行處理而直接進行分析時,可能產生選擇性偏倚(selection bias)。
在臨床試驗中,依從性問題和結局缺失既可同時發生,也可單獨發生。比如某些受試者因干預療效不佳可能拒絕繼續使用原定干預措施,但并未離開試驗,其結局數據完整,因此存在依從性問題但沒有結局缺失問題。而有些受試者因某些個人原因離開試驗地區(即受試者失訪),但其并沒有潛在拒絕或改變干預的意愿,因此存在結局缺失但沒有依從性問題,也被稱為無差別失訪(non-differential lost to follow-up)。然而,通常受試者失訪的原因很可能是因為對試驗療效不滿意或其他試驗相關因素導致,主觀上受試者存在拒絕原有干預或改變干預的意愿,客觀上受試者因此失訪,此時依從性問題和結局缺失同時存在,并可歸為同一個問題,即存在選擇偏倚的結局缺失問題,也被稱為有差別失訪(differential lost to follow-up)。
如前所述,依從性問題和結局缺失問題在臨床試驗中是兩個不同的問題,可能產生的偏倚影響也不同,因此相應的統計方法也應不同。依從性問題的解決方案通常有意向性分析法(intention-to-treat,ITT)、符合方案集分析法、工具變量估計法[7]。其中使用最多的 ITT 法有時會被認為可以同時解決結局缺失問題,然而這是非常錯誤的認識[4]。比如當出現部分失訪受試者時,錯誤的 ITT 分析會將接受隨機分配的全部患者數量計入分母,而將最終出現結局的人數計入分子,而忽略那些失訪人數。事實上,這樣的處理意味著將失訪人群假設為“如果未失訪,依然不會出現結局事件”,這通常與事實不符,尤其當失訪是由于療效因素引起。因此,當出現失訪時,ITT 分析僅可以處理其中的依從性問題(即不依從但有結局的人群),而對于結局缺失依然需要適當的統計方法進行校正處理。
除此之外,還有一些觀點也是完全錯誤的,例如結局缺失問題可以通過事先增大樣本量來解決。事實上,樣本量僅和統計推斷或估計精確性有關,解決的是隨機誤差,而結局缺失通常可導致偏倚,此時無論增加多少樣本量都無法解決偏倚問題。當出現偏倚時,估計值的準確性無法保證,相應的置信區間也是有偏差的,無論其本身區間范圍多窄。所以,結局缺失并不僅是損失一些統計功效的問題,而是整個研究結果是否可信的問題,這個問題不僅出現在觀察性研究中,同樣也出現在隨機試驗中,因此需要得到足夠的重視。
2 結局缺失中的偏倚結構
在 pRCT 中,基線隨機化消除了隨機分組前的混雜和選擇偏倚,因此在理想情況下兩組間結局比較即是因果效應。然而實際情況中,部分受試者可能因為種種原因失訪,因此兩組比較的不再是原先完整人群的結局,而是相當于限制在結局未缺失的人群中進行比較,如因果圖 1 所示。C 表示是否結局缺失(0:未缺失,1:缺失),當干預 A 對 C 有因果效應的同時,結局 Y 對 C 也有因果效應,此時將分析限制在結局未缺失人群中(C=0)相當于對 C 進行分層分析,因而打開后門路徑 A→C←Y 產生沖撞變量分層偏倚(collider-stratification bias),即選擇偏倚。例如某 pRCT 中,試驗組更容易出現不良事件,而出現不良事件的受試者更傾向于離開試驗(即失訪);同時當結局療效不佳時,受試者也更傾向于離開試驗。因此當試驗組出現不良事件的受試者仍然留在試驗中時(即結局未缺失),那么必然存在一些其他因素使他留下,即結局療效不佳的可能性就會更低,則留在試驗中試驗組的人群相比于結局缺失人群中試驗組的療效更好。

上述針對干預和結局的沖撞變量分層即是產生此類選擇偏倚的機制[8]。除此之外,針對沖撞變量的子變量分層同樣可以引入選擇偏倚,如因果圖 2 所示。A 為干預,Y 為結局,L 為某些相關癥狀,U 為某些引起 L 的潛在預后因素,C 為是否結局缺失。U 可同時引出某些癥狀 L 和改變結局 Y,干預 A 也可能產生某些癥狀比如不良反應。當分析限制在未缺失 C=0 時,打開后門路徑 A→L←U→Y 產生選擇偏倚。

同理,與上述相似的情況是,干預相關的影響與結局相關的影響機制不同,但均會影響缺失,如因果圖 3 所示。干預 A 通過 A→L1→C 路徑影響缺失,結局通過某些預后因素 U 產生的路徑 Y←U→L2→C 影響缺失,當限制 C=0 時,打開后門路徑 A→L1→C←L2←U→Y,產生選擇偏倚。

前述偏倚均是典型選擇偏倚結構[9],即對沖撞變量分層引起的偏倚,這種選擇偏倚在零效應(null effect)下依然存在偏倚效應,被稱為“bias under the null”,即盡管干預 A 對結果 Y 無因果效應,但仍然可分析出 A 和 Y 之間的相關性(通過后門路徑產生)。
除此之外,還有一類在隨機試驗中經常出現但不被人重視的特殊選擇偏倚,其僅在干預和結局之間真正存在因果效應時發生,被稱為“bias under the alternative”[10]。這種偏倚的特點在于缺失僅與結局相關,與干預無關,也就是缺失的比例在干預組和對照組之間相同,即通常意義下的無差別失訪(nondifferential lost to follow-up)。此時如果將分析限制在結局未缺失的人群中則產生這種特殊選擇偏倚,如因果圖 4 所示。干預 A 與結局 Y 之間存在因果效應,結局 Y 與缺失 C 之間通過某些預后因素 U 相關聯,但干預 A 和缺失 C 之間無任何相關關系(即干預組和對照組之間的缺失比例相同)。當我們將分析限制在結局未缺失人群 C=0 中,此時存在三種情況:① 若 Y-C 的相關性在 A 的不同水平間同質,即干預組中的 Y-C 相關性和對照組中的 Y-C 相關性相同,則不產生偏倚。② 若 Y-C 的相關性在 A 的不同水平間異質,即干預組中的 Y-C 相關性和對照組中的 Y-C 相關性不同,則產生特殊選擇偏倚,原因是由于 A-U 之間產生了交互作用。而 Y-C 在 A 的水平中異質是一個很常見的情況,盡管有時我們可認為其在比例尺度(ratio scale)下同質,但此時在差值尺度(difference scale)下必然異質,因此仍然會產生特殊選擇偏倚。③ 上述兩種情況均在干預 A 和結局 Y 之間有因果效應的前提下存在,若 A 和 Y 之間沒有因果效應,則不會產生偏倚,無論是否限制缺失 C。如圖 4 中,將 A-Y 關聯斷開,則無論如何限制 C,均不會影響 A。

上述特殊選擇偏倚與典型選擇偏倚所產生的影響有很大區別,典型選擇偏倚通常是由于對沖撞變量分層或限制在某一水平(如限制在 C=0)而產生的,其無論干預 A 和結果 Y 之間有無因果效應均可產生偏倚,并同時對原總體人群或結局未缺失人群(原總體人群的子集)產生偏倚,也就是無論我們的目標總體(target population)是原總體還是其子集,估計值都是有偏倚的。然而,對于特殊選擇偏倚,首先不存在沖撞變量,因為干預組和對照組間缺失比例相同,缺失僅與結局相關聯(或通過某些預后因素相關聯),其次當結局-缺失關聯在干預不同水平間異質時發生偏倚,最后當目標總體是原總體時產生偏倚,若改變推斷范圍為結局未缺失人群則不產生偏倚。因此,在隨機試驗中,當出現特殊選擇偏倚時,應明確說明目標總體的改變情況,并強調試驗外推范圍的變化。
綜上,上述產生選擇偏倚的幾種因果圖結構均可能在 pRCT 中發生,即在干預 A 隨機化的前提下發生,在因果圖中表現為沒有箭頭指向干預 A(即 A 是外生變量)。盡管多數情況下結局缺失會產生偏倚,但也并非所有情況均是,當缺失的發生可以被認定為完全隨機事件時,即缺失與干預和結局均不相關時,無論推斷的目標總體是原總體或未缺失人群均不會產生選擇偏倚。但這樣的假設前提非常苛刻,真實情況更多的是我們無法判斷缺失是否與干預或結局相關聯,因此需要針對結局缺失的機制進行專門論述,探討其可能帶來的影響以及采用什么解決方案。
3 缺失數據機制
缺失數據(missing data)問題是一個非常廣泛的領域,任何變量在分析時以任何形式缺失都可以被稱為缺失數據,Little 等將其定義為任何未觀測但對分析有意義的數據,即缺失值背后隱藏著對分析有幫助的信息[11]。因此,結局缺失問題僅是缺失數據領域的一個組成部分。在隨機試驗中,結局缺失問題對研究的影響更大,相比于整個缺失數據領域而言對結果影響更大,因而本文單獨針對隨機試驗中的結局缺失問題進行討論。但是從統計分析的角度,缺失數據領域存在一個統一且成熟的框架,使得其背后的假設非常清晰。因此,本節借助 Rubin 的缺失數據框架來說明處理結局缺失問題所需要滿足的條件和假設[12]。
考慮完整數據集 Y 以及缺失值指示變量 M,其中 M=1 代表缺失并對應缺失數據 ,M=0 代表未缺失并對應觀測數據
。則缺失機制可以通過給定 Y 時 M 的條件分布表示,即:
,其中
表示未知參數。
此時若缺失機制不取決于任何數據,無論缺失數據或是觀測數據,即:
![]() |
則缺失數據被稱為完全隨機缺失(missing completely at random,MCAR)。相比于 MCAR 更弱的假設是缺失機制僅取決于觀測數據 而不依賴缺失數據本身,即:
![]() |
則缺失數據被稱為隨機缺失(missing at random,MAR)。若缺失機制不僅取決于觀測數據,還取決于某些缺失數據本身或未知因素,即上述 MAR 等式不滿足,則缺失數據被稱為非隨機缺失(missing not at random,MNAR)。
無論任何缺失數據,均可歸于上述 3 種缺失機制。如果假設數據滿足 MCAR,則意味著缺失數據對結果不產生任何影響,即可以直接使用完全數據集分析而不做任何處理。如果數據滿足 MAR,則意味著基于已有觀測數據足以預測出缺失數據信息,即可通過一些統計方法處理缺失數據。如果數據為 MNAR,則意味著部分缺失數據依賴缺失數據本身,這種缺失非常難以處理,需要對缺失機制本身施加一些強假設并對其進行建模。對于 MAR,可以直接對數據進行建模而不對缺失機制本身施加額外的假設,也是本文主要考慮的場景,其處理機制如下:
考慮結局 Y 存在一些缺失值,M 為 Y 的缺失指示變量,同時存在一系列完全觀測的協變量 X 且不存在缺失值。如前 MAR 公式,給定 X 時 M 的條件分布等于給定 X、Y 時 M 的條件分布,因此可以推導出給定 X、M=0 時 Y 的條件分布(即觀測數據條件分布)等于給定 X、M=1 時 Y 的條件分布(即缺失數據條件分布),即:
![]() |
此公式意味著可以通過觀測到的 及對應 X 的信息,和缺失部分對應 X 的信息,來預測缺失部分的
值,也是本文統計處理方法的核心機制。
4 解決結局缺失問題的主要統計方法
如前所述,缺失數據的機制分為 3 種,通常處理缺失問題的統計方法均基于 MCAR 或 MAR 假設,并可歸納為以下幾類:① 完整數據集分析(complete-case analysis):此方法就是直接忽略結局缺失,僅分析被完全觀測的數據。當結局缺失比例較小時,此方法簡單易行且可能得到一個相對可靠的結果。然而當結局缺失比例較大時,此方法可能會導致嚴重的偏倚和不精確估計[13],因此不宜使用。② 加權法(weighting procedures):加權法中最重要的方法是刪失逆概率加權法(inverse probability of censoring weighting,IPCW)[14, 15],此方法依據個體選擇進入未缺失的概率來逆加權至未缺失數據中,從而得到原總體數據,是非常穩健的方法,也是本文重點考慮的方法之一。③ 插補法(imputation):插補法分為很多種類型,最簡單是熱卡插補(hot deck imputation),其中常見的是末次觀測值結轉法(last observation carried forward,LOCF)。但 LOCF 方法的問題在于忽略了疾病病程的發展,雖然簡單易行但也會產生相應偏倚[16]。除此之外還有均值插補、回歸插補等簡單插補方法。④ 似然法(likelihood-based approaches):似然法是直接基于全部觀測數據進行建模,無論其中有無缺失值。模型通過似然法進行估計,如最大似然法、期望最大化法(expectation–maximization algorithm)等。這個方法的優點在于無需對缺失數據進行任何處理,既不需要將其丟棄也不需要進行插補,直接在完整數據集上建模并進行估計,如直接似然法(direct likelihood)。此方法非常靈活,可以應對任何缺失機制,模型假設可以被直觀展現和評估。多重插補法(multiple imputation)的思路來源于貝葉斯法(即廣義似然法)并將其公式進行分解,使其非常靈活且簡便易行,成為本文主要考慮的處理方法之一。
4.1 刪失逆概率加權
結局缺失產生選擇偏倚的機制是干預 A 對缺失 C 存在因果效應的同時,結局 Y 對缺失 C 也存在因果效應,此時缺失 C 成為沖撞變量,當分析限制在 C=0 時相當于對沖撞變量分層,因而產生選擇偏倚。通常情況下,結局 Y 并不會直接影響缺失 C,而是通過某些可測預后因素 L(如某些基線風險)相關聯,或通過某些不可測預后因素 U 導致某些可測因素 L(如某些隨訪癥狀)。當我們認為研究中的協變量集 X 足以涵蓋所有可測因素 L 時,則可以阻斷 Y-C 之間的后門路徑從而校正缺失帶來的偏倚,此時缺失機制滿足 MAR 假設。
當協變量集 X 滿足條件后,則可以使用 IPCW 校正缺失。首先計算后門路徑中選擇進入未缺失 C=0 的概率 ,則結局未缺失人群的逆概率權重為:
![]() |
相應的,缺失人群的逆概率權重 。此時,未缺失結局的因果識別條件為
?
,即給定 X 和 A 的聯合分布后未缺失人群的反事實結局獨立于缺失本身。
其后將逆概率權重加權至每一個未缺失個體的結局中,通過 H-T 估計量(Horvitz-Thompson estimator)可給出被估量的一致估計[17]:
![]() |
即為未缺失個體加權校正后的結局,其后可估計干預組和對照組的因果效應:
![]() |
在實際使用 IPCW 時,通常會采用模型法進行估計:① 首先通過 logistic 回歸估計缺失選擇概率,此時自變量為全部協變量 X 和干預 A,因變量為缺失變量 C=0。其后用建立好的 logistic 回歸模型將缺失選擇概率預測出來,則缺失逆概率 WC 等于 1 除以缺失選擇概率。② 對干預 A 建立邊際結構模型(marginal structural model),并使用加權最小二乘法將缺失逆概率 WC 加權至模型中,則可估計出最終校正缺失后的結果。
此外,還可用穩健逆概率權重(stabilized inverse probability weights)進行加權估計,即:
![]() |
穩健權重的好處是在非飽和模型中可估計出更窄的置信區間,因此統計效率更高。
4.2 多重插補法
多重插補法并不是某一個具體的方法,而是代指一種處理缺失數據的框架或思路,多重插補的意義在于可以校正簡單插補帶來的估計偏差和推斷偏差,即可以解釋插補本身帶來的不確定性。例如有協變量集 X、觀測集 和缺失集
(未觀測),當用 X 對 Y 進行回歸插補時,缺失集
的值會依據 X 對
回歸模型進行預測,當 X 滿足 MAR 條件時,這些預測值在期望意義下是最理想的。但事實上,這些預測值是不可能觀測到的,因為它忽略了現實中的隨機誤差。基于這些回歸插補值進行估計和推斷時也會存在相應偏差。因此,多重插補的最終目的是總體效應參數的無偏估計(unbiased)以及區間的有效估計(confidence valid)[18, 19]。
假設有總體參數 μ,通常可直接通過某一無偏估計量 進行估計,然而
需要依據全部數據 Y 進行估計,此時僅有觀測數據
,因此估計量
可表示為給定
時 μ 的后驗分布:
,然而這個分布是無法直接估計的,因此需要分解為:
![]() |
其中 即是插補的過程,記插補后數據為
,則
表示為通過插補數據集對總體參數 μ 進行估計的過程。當我們重復這個插補-估計過程,則 μ 的后驗分布均值可表示為:
![]() |
即多次重復插補-估計過程后,每次估計量 的均值。同理,可估計參數 μ 的后驗方差分布:
![]() |
其中右邊第一部分被稱為重復插補內方差,即每次插補中參數方差的均值,第二部分被稱為重復插補間方差,即每次插補參數均值與總體參數均值間的離均方差。
上述“多次重復插補-估計的過程”被稱為多重插補法[20]。
此時可看出多重插補法總是需要一個簡單插補模型進行每次的重復插補。然而這個插補模型需要有一定隨機性,如果每次插補都是固定的值則無法進行多重插補,例如普通回歸、LOCF 或均值中位數等的插補值是固定的,因此不滿足要求。通常滿足條件的插補模型有隨機回歸插補(stochastic regression imputation)、預測均值匹配(predictive mean matching,PMM)、貝葉斯插補(Bayesian imputation)、Bootstrap 插補(Bootstrap imputation)、樹模型(tree-based model)。
隨機回歸插補即在普通回歸預測值中加入隨機擾動。PMM 是通過回歸預測值進行匹配,每次會生成一些“待匹配值”,然后對其隨機抽樣。貝葉斯插補則是直接從參數后驗分布中隨機抽樣。Bootstrap 是從原始數據 中重抽樣。樹模型與 PMM 相似,只不過回歸預測值變為樹模型預測節點。這些插補模型中 PMM 和樹模型匹配通常更穩健,因為無需服從“無模型指定錯誤(no model misspecification)”假設,但當缺失數據比例較大或樣本量較小時,可能出現重復插補值過多的情況。
除此之外還有一個問題則是多重插補需要重復插補多少次,如果插補次數太少則會引起插補間方差較大,然而次數太多會增加算力及出現效益遞減,因此需要進行權衡。Royston 認為如果想估計出更窄的區間則插補數需要至少 20 或更多[21]。Von Hippel 給出了一個經驗法則:缺失數據的百分比即為插補次數[22]。事實上,在算力允許的情況下,更多的插補次數總是好的。
4.3 縱向結局缺失問題
在長期隨訪的 pRCT 中,通常可能出現多時間點測量結局的情況,因此缺失并不僅在某個時間點發生,而是可能發生在結局測量的每一個時間點中,即缺失 C 是一個時變變量(time-varying variable)。更典型的情況是缺失 C 是單調缺失的(monotonic),即如果在 k 時間點上的缺失 Ck=0,那么 C1,C2,C3,…,Ck-1=0。
理論上縱向結局缺失問題同樣可通過插補模型解決,即只需將前一時間點的結局 Yk-1 用于 k 時間點的缺失結局 Yk 的插補中。然而需要注意缺失 C 的時變屬性可能更容易導致協變量集 X 中存在沖撞變量 L,如圖 2 所示。若通過 L 校正缺失,如回歸插補,則產生新的選擇偏倚,即打開后門路徑 A→L←U→Y。此時常規校正方法失效,需要采用 g 方法校正缺失,即逆概率加權法。有別于前述 IPCW 的是此處缺失為時變變量,因此需將逆概率權重拓展為多時間點的權重乘積:
![]() |
同理,在模型估計時,先對每個時間點的缺失 C 進行 logistic 回歸算出逆概率權重,然后使用加權最小二乘法構造邊際結構模型進行最終效應估計。
此外,當結局為連續性變量時,可采取混合效應模型(mixed effect model),則無需對結局進行插補。在滿足 MAR 假設時,模型通過對其他時間點的數據進行聯合估計即可得到最終效應。混合效應模型通常采用似然法進行估計,包括最大似然、限制性最大似然、Kackar-Harville 法、Kendward-Roger 法等。
4.4 多重插補和逆概率加權
多重插補和逆概率加權作為處理結局缺失的兩個最重要的方法,各有利弊。多重插補直接對缺失數據的分布建模,因此可以同時處理協變量部分缺失的情況,即多元缺失數據問題(multivariate missing data)。此時插補模型通常分為兩種:聯合模型(joint model,JM)和全條件指定法(fully conditional specification,FCS)。JM 法是直接對多元缺失數據的聯合分布進行建模,通常采用多元正態分布。FCS 法則是單獨對每一個缺失變量的條件分布進行建模,然后通過迭代的方法進行計算,此方法又被稱為鏈式方程法(chained equations),因此通過鏈式方程的多重插補被簡稱為 MICE 法(multivariate imputation by chained equations)[23]。
逆概率加權作為 g 方法的一種,可處理協變量 X 中存在沖撞變量 L 的情形,而其他方法在此情形下失效。逆概率加權還可以進行聯合建模,比如通過干預逆概率權重和刪失逆概率權重的聯合分布同時處理混雜和選擇偏倚,并均可拓展至具有時變屬性的變量中,有很大的靈活性。
4.5 生存結局缺失
生存結局也被稱為時間-事件結局(time to event outcome),其特點在于除了考慮隨訪期間事件是否發生以外還需要考慮其在多長時間內發生。生存結局中的缺失數據又被稱為刪失(censoring),其特殊點在于它天然需要考慮兩類刪失:管理性刪失(administrative censoring)和非管理性刪失(non-administrative censoring)。非管理性刪失即是本文所論述的結局缺失類型,其發生在隨訪終點之前,由于各種未知原因出現結局缺失,如失訪等。管理性刪失為因研究者自身的原因而導致的結局刪失(而非受試者原因),通常發生在研究結束時研究者中斷后續隨訪以致后續結局無法觀測,也被稱為右刪失(right censoring)。其特點為需要對在隨訪終點還未發生事件的人群的生存時間進行指定,而這主要是生存分析模型所解決的問題,比如給定生存時間分布(或風險分布)假設。常規處理生存結局的統計方法大體分為非參數法:包括 Kaplan-Meier 估計量、生命表法(life-table method)、Nelson-Aalen 估計量、Aalen-Johansen 估計量;半參數法:包括 Cox 比例風險(proportional hazards,PH)模型、半參數加速失效時間模型(accelerated failure time,AFT);參數法:包括基于威布爾分布(Weibull distribution)的參數 AFT 模型、基于 logistic 回歸的平滑時間風險模型(smooth-in-time hazard model)、Gompertz 模型。
然而,正是因為上述模型直接對管理性刪失或生存時間建模,一種錯誤的觀點認為它們同時也可以處理非管理性刪失。事實上,若統計分析時不做特別處理,比如采用標準 Cox 模型,則非管理性刪失同樣會被當成管理性刪失處理,即默認滿足無信息刪失(non-informative censoring)假設。而如前所述,非管理性刪失通常并非是無信息的,更多的原因是患者因不良事件等試驗相關因素而刪失,此時如將其當成無信息刪失會產生相應偏倚。
因此,在隨機試驗的生存分析中,需要將管理、非管理性刪失分開考慮,對于管理性刪失可采用常規生存分析模型處理,而非管理性刪失可采用本文推薦的逆概率加權和多重插補法處理。其中逆概率加權方法可以依據前述縱向結局刪失中的時變刪失變量處理,此處不再贅述。而多重插補法在此處比較特殊,因為需要插補的數據是生存時間這一特殊數據類型。通常有 3 種生存時間的插補策略[24, 25]:① 風險集插補(risk set imputation),即對于每一個刪失結局均構造一個風險集,然后隨機從中抽取一個生存時間進行插補;② Kaplan–Meier 插補,即在上述構造風險集的基礎上,使用其構造 Kaplan–Meier 生存曲線,然后從生存曲線中隨機抽取生存時間進行插補;③ 風險值匹配法(risk score matching),即通過擬合參數模型為每一個刪失結局計算一個風險值,然后與未刪失結局的風險值進行匹配,依近鄰原則選出匹配候選集,從中隨機抽樣。
此外,還有一種特殊的非管理性刪失類型,即競爭風險事件(competing event)。例如目標結局為某些疾病(如糖尿病)的發病,此時死亡即是競爭風險事件,發生死亡事件的個體的原目標事件失效時間(failure time)無窮大,導致原結局分析結果發生偏離。在風險模型中,傳統上有兩種處理方法:指定原因風險模型(cause-specific hazard model)、部分分布風險模型(subdistribution hazard model)。但無論哪種模型均受前述選擇偏倚的影響,依然需要進行協變量校正,此時可選用刪失逆概率加權的方法。需要注意的是,當出現競爭風險事件時,無論哪一種方法都不能完美回答原目標結局的問題,因此解釋結果時應更加謹慎。
5 討論
對于隨機試驗而言,質控都是至關重要的;良好質控下隨機試驗的結果可信度較高,被認為是最佳證據的來源。質控中非常重要的一個環節就是盡可能減少缺失數據的存在,尤其對于重要結局而言。事實上,相應的質控規范已經較為完善,然而無論質控做的再好,也無法避免因各種未知因素而導致的結局缺失,且由于試驗相關因素的存在,結局缺失通常伴隨著不同偏倚的產生,從而嚴重影響研究結論[26-28]。
盡管對于隨機試驗結局缺失是非常重要的問題,大多數研究卻缺少針對如何處理缺失數據的論述[6],并默認使用完全數據集分析的方法,或使用一些簡單插補的方法如 LOCF、均值插補等,且沒有詳盡論述為什么選擇這些方法。對于大多數試驗而言,簡單的數據處理方法均可能產生偏倚,除非有強有力的論點說明其背后的假設(MCAR)成立,否則這樣的選擇并不可取。
逆概率加權和多重插補是目前處理結局缺失的方法中最重要且最靈活的兩種方法。逆概率加權是對缺失變量的選擇概率建模,通過逆概率權重構造假如未缺失時結局的效應。此方法可應用于各種特定模型,如處理生存數據時可采用逆概率加權 Cox 模型。也可以拓展至時變變量中,通過擬合多時間點逆概率權重的乘積進行建模。
多重插補的思路來源于給定觀測數據后總體參數條件分布的貝葉斯分解,非常巧妙地將缺失數據考慮在其中。多重插補的靈活性在于可以使用任意插補模型,包括一些非參數插補法,如 PMM、樹模型等,這些方法不受模型函數指定的限制,穩健性更好。除此之外,多重插補可以同時處理多元缺失數據問題,如聯合模型、全條件指定,但所需要的假設也更強。
無論采用何種統計處理方法,其背后均需要滿足相應假設,如 MAR。在 pRCT 中,基線數據及隨訪數據通常會收集的更全,更容易滿足 MAR 假設。然而,無論數據收集的再多,這些假設依然不可驗證,因此,需要結合專業知識對其進行詳細論證并在文章中體現,如此可增加研究的透明性,也可讓后來的研究者進一步判斷或提出質疑,并進行改進。此外,針對不同假設應當做相應的敏感性分析,以確保結果在不同假設下的穩健性。
綜上,目前隨機試驗對結局缺失的處理并不理想,有很大改進的空間,其中除盡可能做好質控以外,恰當的統計分析方法也是至關重要的。當結局缺失比例較低或可以論證缺失機制滿足 MCAR 假設時,可以選用完整數據集分析。當結局缺失比例較高且缺失機制不滿足 MCAR 時,首先盡可能收集與缺失相關的協變量集,然后對缺失機制的 MAR 假設是否成立進行詳細論證說明,最后依據具體情況選擇結局缺失的處理方法。若除結局缺失以外還需要解決其他協變量缺失問題,則可以選用多重插補法。若需處理縱向結局中的時變變量缺失,則可以選用逆概率加權法。然而,無論采用任何方法均依賴特定的假設前提,因此,對試驗設計和過程詳盡的論述是保證研究質量和透明性的關鍵。