心臟外科在開展隨機對照試驗(RCT)時面臨特別的挑戰。為此美國心臟協會(AHA)制定了相關方法學標準的科學聲明,旨在系統性總結心臟外科RCT設計,實施的核心建議、解讀關鍵概念和標準,并為其提供具體的方法學建議:包括評估研究問題和臨床均勢,篩選代表性患者入組的可行性,實踐差異對試驗干預效果的影響,組間交叉的影響以及隨訪的持續時間。同時建議預先確定試驗干預措施和研究終點,并確保試驗干預措施的充分實施;盡一切努力保證隨訪的完整性;根據特定的研究問題和試驗環境采用合適的試驗設計和分析策略。本文筆者根據實踐體會,對此科學聲明進行解讀。
引用本文: 朱云鵬, 張恒, 鄭哲, 趙強. 2022《美國心臟協會(AHA)心臟外科隨機對照試驗設計、執行和分析方法學標準的科學聲明》解讀. 中國胸心血管外科臨床雜志, 2023, 30(1): 10-16. doi: 10.7507/1007-4848.202211094 復制
在制定醫學決策時,隨機對照試驗(randomized controlled trial,RCT)被認為是質量最高的證據來源,但在心臟外科領域設計和實施RCT均充滿挑戰,包括疾病相對復雜危重,受試者招募困難,臨床均勢(clinical equipoise)的缺失,干預措施尤其外科手術難以標準化和設盲,療效需要較長的隨訪時間顯現[1-2]。如果在RCT設計和實施階段沒有妥善考慮并解決這些問題,會削弱試驗的可行性,影響方法學質量,使得試驗結果難以解讀。為此,美國心臟協會(American Heart Association,AHA)心血管外科和麻醉委員會新近發布了《心臟外科隨機對照試驗設計、執行和分析方法學標準的科學聲明》(以下簡稱“科學聲明”)[3],旨在系統性總結心臟外科RCT設計、實施的核心建議,解讀關鍵概念和標準,并為心臟外科臨床研究提供具體的方法學建議。
目前我國心臟外科領域開展RCT研究方興未艾,完成了多項有國際學術影響力的多中心RCT研究,改寫了國內外診療指南。患者人群基數大、團隊協作執行力強、研究實施周期短是國內學者開展RCT的突出優勢,但研究方法學考量不足、規范性欠缺,是限制實施高質量RCT的重要因素。為此,本文筆者結合團隊臨床試驗的實踐體會,對此科學聲明進行解讀,與國內同道分享交流。
1 什么樣的臨床問題適合開展RCT
并不是所有的臨床問題都值得或適合開展RCT研究。科學聲明指出,從既往發表的心臟外科RCT研究Meta分析中統計,只有40%的臨床問題能夠轉化成適合開展RCT驗證性研究的科學問題[4]。限制某些重要臨床問題開展RCT研究可行性的常見因素包括病癥的罕見性,患者的選擇偏好以及臨床均勢的缺失。因此,心臟外科RCT設計的第一步,就是對臨床問題開展RCT研究的適用性和可行性進行系統性循證評估。這個評估應由心臟內外科醫生、統計學家、臨床研究方法學專家和患者代表構成的團隊進行。
筆者特別注意到,科學聲明中強調應該有患者代表參與研究問題評估,因為患者永遠是臨床研究的最終價值目標。此外,衡量一個好的臨床問題是否能轉化成RCT研究的科學問題,關鍵在于研究疾病的流行病學調查、樣本量的計算以及臨床均勢的客觀評估。對于罕見病癥或低發生率的終點事件,根據統計學方法預估的樣本量可能遠超可納入的病例數,臨床上“一邊倒”的實踐現狀,都將嚴重制約RCT研究的可行性。
2 如何在RCT中建立臨床均勢
“臨床均勢”是指研究者可以進行兩種(或多種)治療優劣對比的不確定的真實狀態[5]。科學聲明強調,這是開展任何RCT研究的倫理基礎。心臟外科常常涉及危及生命的疾病場景,醫生和患者對不同治療方案事先存在的偏好極易導致隨機化的失衡,即如果隨機后的治療方案并不是醫患心理預期的,則傾向于尋求研究以外的治療方案,從而破壞了隨機干預的根本目標。在群體層面,臨床均勢原則應建立在學科、學界層面,即學術團體對研究問題尚沒有令人信服的循證性答案。在個體層面,醫生和患者對臨床均勢的認可又極為重要,否則在RCT研究實施過程中將引發嚴重的問題。比如ART[6]、 Hybrid Coronary[7]、Evolut Low Risk[8]這幾項臨床試驗,分別在執行層面出現了較嚴重的組間交叉(crossover),入組緩慢或不均衡入組問題,均是值得借鑒的案例。
筆者的體會,對RCT研究中“臨床均勢”的辨析不深入是目前研究實施的薄弱環節。這不僅是方法學的問題,更是倫理學的顧慮。《日內瓦宣言》稱,醫生永遠應該把患者的利益放在第一位。如果研究醫生事先已經主觀確認某種治療更好,那從他的職業道德出發就應該為患者(受試者)提供最好的治療。這樣,RCT也就無法,也沒有必要進行下去。面對棘手的臨床問題,醫生和患者都不能用主觀愿望去代替客觀求證的過程。在RCT研究中,應該理解和接受臨床均勢的不確定性,這既是決定是否應該開展RCT的關鍵因素,又是影響RCT能否順利實施的必要條件。
3 如何選擇RCT開展的合適時機
與藥物治療不同,新的外科技術通常會隨著技術改進和經驗積累而發展,因此一旦學習曲線趨于穩定,就可以開展RCT驗證。然而在現實中,“外科臨床試驗總是開始得太早,直到突然某天,又變得太晚了(Buxton法則)”。在新技術發展的早期階段開展RCT驗證,由于學習曲線訓練不充分,產生的結果往往不盡如人意。如EVEREST Ⅱ研究[9]在經導管二尖瓣緣對緣修復技術的早期學習階段進行,結果顯示其療效不如傳統的開胸二尖瓣手術,但并不能據此就否定經導管二尖瓣修復技術的價值。
然而一旦某種術式已被臨床廣泛接受,臨床均勢已不復存在,也很難再開展RCT。典型的案例是作為冠狀動脈旁路移植術金標準的左胸廓內動脈橋的應用。其相較于靜脈橋血管的優越性,在歷史上實際僅得到了觀察性研究結果的支持,至今仍缺乏大規模多中心RCT的驗證,因為其在真實世界中的臨床均勢已不復存在[10]。
表1[3]比較了經典的藥物臨床試驗與外科臨床試驗的主要差異。筆者認為簡言之,外科醫生是外科臨床試驗的核心要素,其不僅影響隨機干預的內部均質性和依從性,還影響其外部廣泛性和可行性。某種程度而言,外科醫生本身也是臨床試驗的“對象”之一。只有更好地理解和認識外科RCT區別于藥物試驗的差異特點,外科研究者才能夠把握好設計和實施研究的時機。

4 如何在RCT中標準化外科干預
標準化干預措施是外科試驗設計的關鍵,這在心臟外科中尤其具有挑戰。對于試驗組新的或復雜的外科干預措施,缺乏技術經驗積累的醫生可能會削弱潛在的治療效果,更多地產生組間交叉和方案違背,繼而引入偏倚并稀釋治療效果。因此,外科RCT設計中應充分考慮如何確保外科干預措施能夠在試驗環境中持續有效地執行。表2歸納了一些常用的策略。

所謂“基于技術專長”的試驗設計,指參與試驗的外科醫生或團隊只執行他們熟練掌握的外科干預。比如在CORONARY試驗[11]中,假設某中心有兩個手術團隊分別擅長體外循環搭橋與非體外循環搭橋技術,則入組的受試者隨機后,將根據隨機結果分配至擅長相應技術的團隊中接受手術。這種“基于技術專長”的隨機可能鼓勵患者和醫生的參與積極性,并最大限度地減少倫理問題。
同時也要認識到,這種最大程度標準化外科干預措施的做法也存在局限性,即犧牲了試驗的外部真實性(即代表性、廣泛性), 因為這種高度控制后的試驗環境(都是相對高水平的中心、團隊和醫生來開展新技術)并不能反映臨床實踐的真實情況。
5 如何選擇和判定RCT研究終點
研究主要終點的選擇是RCT設計的最重要因素,它決定了研究的臨床相關性、規模大小和持續時間。基于臨床注冊登記、觀察性研究或既往RCT預估主要終點事件發生率是估算具備統計檢驗效能的樣本量的依據。為了解決關鍵的安全性和有效性問題,通常需要分別設置有統計學效能的安全性及有效性終點,并且所有主要和次要終點的定義必須在研究方案中詳細說明,并使用標準化定義[12]。所有主要和次要終點均應由獨立的多學科委員會根據預設的定義,使用原始文件進行裁定。理想情況下,影像學終點應由獨立的核心實驗室評估。
科學聲明特別強調,在比較不同血運重建策略的RCT中,應使用全因死亡而不是特定原因死亡作為主要結果,以減少可能與死因裁定相關的偏倚。外科手術的創傷本質,通常帶給患者早期的風險與晚期的獲益。因此,對于比較外科手術與藥物或微創介入療效的臨床試驗中,需要進行較遠期的終點比較而不能局限于短期。
使用復合終點是心血管RCT設計的常見做法,它的優勢在于通過增加終點事件計數而減少所需入組的受試者數量[13]。然而濫用復合終點也是目前心血管RCT研究中面臨的重大挑戰。筆者的體會,復合終點的設置應遵循兩大原則:第一,各個組成部分應具有相似的臨床重要性,比如避免將死亡、心肌梗死、卒中等臨床重要事件與心絞痛發作、無癥狀橋血管病變等重要性次之的臨床事件復合;第二,各個組成部分應朝著同一方向發展,比如血栓事件與出血事件必然是兩個方向,將其組合會相互抵消,反而會降低復合終點的統計學效能。
當復合終點的比較涉及多重性檢驗問題時,科學聲明推薦了幾種分層檢驗統計學方法,比如使用勝出率(win ratio)確保在復合終點分析中更重要的臨床事件優先,尤其使用死亡與非致死性的終點事件復合時。其它方法包括全局檢驗統計量或多元分析技術。
次要終點如影像數據、生活質量和功能結果等,可用于重要的機制分析和探索性分析。次要終點的設置應根據現有研究資源進行合理規劃,避免“貪多求全”,減少研究人員的工作量,減少出錯和數據不完整的風險。
筆者認為,研究終點的設定是RCT設計過程中的核心環節,也是外科RCT方法學中的難點。研究終點一方面直接影響研究的實施,包括預期的樣本量、研究的周期、采用的方法、投入的人力物力等;另一方面間接影響研究結果的解讀,反映了干預策略對療效最本質的影響。不僅如此,外科技術的綜合評價很難通過一項RCT的實施來實現,次要終點、探索性終點的設定能夠為后續研究的深入開展奠定理論基礎。
6 如何設定RCT的對照組和盲法
合理的對照組設置對于評價新治療干預的風險和獲益至關重要。科學聲明強調,對照組必須代表現有的最佳醫療實踐,應該避免將新干預措施與已被證明是次優的或非最佳醫療實踐措施進行比較。筆者的體會,也就是說對照組不能是“柿子撿軟的捏”。只有目前循證指南中推薦認可、臨床上廣泛實踐的醫療措施,才合適作為“金標準”對照。不合理的對照組設置,讓分配至對照組的受試者得到了低于現有指南標準的診療,不僅存在科學性上的挑戰,更面臨倫理學上的風險。筆者特別提醒,對于非劣研究設計,更要注意避免落入“生物爬行效應”,即若干次非劣比較傳遞后,得出新干預措施非劣于安慰劑效應的邏輯困境。
盲法是減少偏倚的重要策略。單盲僅受試者對干預措施不知情,雙盲確保對受試者和研究者都隱瞞了干預措施,三盲則包括了終點評價者,最理想狀態是四盲,即再包括統計學家[14]。數據和安全監測委員會是非盲的,以保護對受試者造成可能的群體性傷害而需要提前終止試驗。科學上,假手術對照是最理想的,能最大程度實現對除了外科醫生以外的人員設盲。但畢竟外科手術創傷和風險較高,受試者和外科醫生可能都難以接受。所以與藥物試驗不同,大多數外科RCT包括心臟外科RCT都是非盲設計的。筆者在此補充,如果無法實現受試者和研究者(包括外科醫生)設盲,設置獨立的終點評價委員會實現評價者盲,也是必要而有益的。
7 如何篩選和隨訪受試者
臨床試驗學術網絡是招募入組中心,篩選潛在受試者的有效平臺。富有經驗的研究中心間構建與維護長期穩定的合作關系,將有利于整個學科的臨床科研水平的提升。筆者的切身體會,在開設新入組中心前,必須實事求是地評估其關于研究問題的臨床均勢,如果某中心或團隊對所研究問題已經固有一邊倒的主觀傾向性,則往往不適合開展入組和后續隨機試驗工作,否則會產生大量的入組選擇偏倚和干預方案偏離或交叉。
由臨床試驗協調員進行的人工篩查,其篩選入組效率可能因中心不同而有很大差異,從而引入潛在的中心間偏倚和不平衡。為了減少這種偏倚并提高篩選效率,建議使用根據入選標準可進行自動查詢的電子表單進行初篩,然后再由臨床試驗協調員進行人工復核。科學聲明中特別強調入組受試者的多元化與多樣性,尤其需要關注女性、少數族裔和弱勢群體的參與。筆者的經驗,患者的連續篩選至關重要。不僅要登記符合入排標準最終入組的受試者,也要全面登記所有被篩選但未入組的潛在受試者基本信息,并記錄其被排除的原因,這樣才能有效監測和量化潛在的入組選擇偏倚。
受試者隨訪完整性對于RCT的質量至關重要。失訪可能導致統計學效力下降,并可能導致結果的偏倚。事實上受試者失訪往往是因為死亡或發生了嚴重并發癥,失訪的比例過大或在組間不平衡將對結果數據的分析和解讀造成巨大的挑戰,這是用各種統計學手段也難以解決的[2]。與社區工作者合作、利用電腦或智能手機等數字化工具可以提高隨訪的完整性。當然,后者也可能會給沒有數字化工具或經驗的受試者(如老年人)造成障礙和不公平。此外可以探索利用國家登記或其它學術專業數據庫,盡管由于數據結構的差異并不總有用。
以筆者的經驗,相對固定的篩選和隨訪團隊會很好地保障受試者的依從性,提高RCT的入組效率。因此,針對篩選和隨訪受試者的研究人員的規范化培訓將起到至關重要的作用。另外,針對樣本量大、實施周期長的RCT設置期中分析非常有必要,期中結果將很好地指導研究團隊及時對研究方案作出必要調整,提高研究的價值甚至挽回不必要的損失。
8 如何進行隨機化
真正有效地隨機化是RCT的靈魂,隨機可以減少潛在的偏倚,從而可以對治療效果進行因果推斷。隨機化不應通過可識別的方法進行(如出生日期或病歷號),而應通過計算機分配或通過遠程使用隨機數字進行電話分配等方法。區組隨機能確保組間人數相等,但因在每個區組末尾能預測分配而會產生偏倚,因此推薦使用隨機區組大小的區組隨機化。分層隨機有助于確保受試者在某些特定的預后因素或變量上的平衡,但要注意分層因素不宜過多,而且在大樣本量的隨機中常常非必要(隨著樣本量增多,各因素變量會自然平衡)。
筆者的經驗,在多中心RCT中,最常用的做法是按中心進行分層,然后在各中心內進行隨機區組大小的隨機化。此外,筆者特別提醒不要忽視了最基本的簡單隨機的“魔力”。不論其它隨機方法有多復雜精妙,都不會優于簡單隨機的不可預知性和減少偏倚的效果。在多中心研究中,條件允許的情況下應盡量采用中央隨機系統,以最大程度降低隨機環節潛在的偏倚和不確定性。
9 如何選擇優效性或非劣效性設計
一般來說,傳統的外科RCT旨在驗證新干預治療優于對照標準治療,即優效性設計。而非劣效性設計旨在驗證具有某些其它優勢(比如成本更低、創傷更小、依從性更好、更簡便)的新干預治療,其療效結果與對照標準治療相比,差距在可接受范圍內。
非劣效性設計中選擇非劣效界值(也就是這個“可接受的療效差距”)非常關鍵,必須參考既往研究的數據,并廣泛地聽取同行專家,尤其對照標準治療領域的專家,甚至包括患者代表的意見。表3總結了優效性設計和非劣效性設計的關鍵區別。

筆者的體會,研究者總是傾向于選擇過寬的非劣效界值,因為這樣既可節約樣本量,又更容易達成期望的非劣結果。但研究者必須認識到,過寬的非劣效界值會使整個試驗的科學價值面臨巨大的挑戰和質疑。此外,在非劣效設計試驗中,方案偏離、組間交叉、受試者失訪和低終點事件發生率,都會使試驗結果偏向于達成非劣,這與優效設計試驗中偏倚的方向相反(即偏向于達不成優效)[15]。但是顯然,由這些試驗偏倚因素達成的所謂“非劣效”是違背科學性的“虛假非劣”,解讀應當慎之又慎。
10 如何選擇解釋性試驗或實效性試驗設計
解釋性試驗(explanatory trials)通常用于確定新干預措施與標準療法或安慰劑相比的有效性和安全性。解釋性試驗常作為新藥、新設備研發階段的關鍵性研究,以支持獲得監管部門的上市及適應證批準。為了最大可能達成陽性結果,解釋性試驗通常通過較嚴格的納入排除標準選擇特定的研究人群,并嚴格控制試驗的環境與過程,以最大限度地減少試驗的變異性,提高內部真實性。因此,解釋性試驗的外部真實性(代表性,廣泛性)通常較低[16-18]。
相對而言,實效性試驗(pragmatic trials)則側重考察不同干預措施在現實世界中的有效性。實效性試驗的入排標準通常較寬松,研究人群更廣泛,對試驗環境的控制更少,以反映現實世界中實際使用干預措施的臨床環境,并且往往比較的是干預策略而不是具體的干預方式。除此以外,實效性試驗與解釋性試驗一樣需要遵守RCT設計的一般原則(如隨機化、對照、盲法、樣本量預估等)。鑒于實效性試驗具有更好的外部真實性,通常用于為臨床實踐的改變和新政策或指南的制定提供信息[17]。
筆者的理解,在心臟外科臨床試驗中,新器械設備的上市前有效性安全性評價還是需要更嚴格的解釋性試驗設計,而外科術式、技術的比較研究則可以采用更寬松的實效性試驗設計。
11 如何開展RCT的數據分析
RCT的數據分析通常包括意向治療(intent-to-treat,ITT)分析,改良意向治療(modified ITT)分析,符合方案(per-protocol,PP)分析和按實際治療(as-treated,AT)分析幾種類型。意向治療分析包括所有接受過隨機分配的受試者人群,而且無論受試者最終實際接受的治療如何,他們都將按照最初隨機分配的治療組標簽進行分析。意向治療分析是RCT數據分析首選且最保守的方法,但也面臨挑戰:其在優效性檢驗中會過度“懲罰”方案偏離(交叉,失訪等)而導致優效難以達成,而在非劣效性檢驗中又會因對方案偏離過于“寬容”而導致非劣效輕易達成[18]。改良意向治療包括所有接受過隨機分配的最低限度干預治療的受試者人群,也就是從原始意向治療分析中剔除了那些未接受任何隨機干預治療的受試者,從而避免他們對隨機干預效果的稀釋效應。按實際治療分析則是根據受試者實際接受的治療而不是隨機分配的治療來定義分組標簽,其結果往往偏向于陽性。必須認識到,按實際治療分析比較的治療組間本質上不再是隨機化的,而是研究醫生的系統選擇,故其帶來偏倚是必然的,通常只能作為敏感性補充分析而不能作為RCT數據的主要分析。
筆者的體會,優效性試驗應堅持使用意向治療分析作為主要分析,從而既保留隨機化效果,又避免方案偏離對優效性檢驗的“懲罰”效應。而非劣效性試驗應使用改良意向治療分析作為主要分析,從而既保留隨機化效果,又避免方案偏離對非劣效檢驗的“寬容”效應。一句話,理想的狀態永遠是意向治療分析、改良意向治療分析和按實際治療三者的一致;要實現這個目標只有在研究實施過程中下功夫,付出最大努力去減少方案偏離和交叉,而不是在數據分析階段投機取巧或束手無策。
12 總結
心臟外科RCT面臨諸多挑戰:心臟外科疾病相對復雜危重,受試者招募困難,外科醫生主觀認知較強勢從而削弱臨床均勢,干預措施尤其手術難以標準化和設盲,治療效果往往需要數年時間才得以逐漸顯現。此外,心臟外科醫生往往缺乏系統規范的臨床研究方法學和統計學培訓而難以組織發起RCT。要應對這些挑戰,需要組建由外科醫生領導的多學科團隊,包括臨床試驗方法學家、統計學家、第三方項目管理經理、臨床試驗監察員(CRA)、臨床試驗協調員(CRC)等。表4總結了關于心臟外科RCT設計、實施和分析的核心建議。

利益沖突:無。
作者貢獻:朱云鵬、張恒撰寫初稿;趙強、鄭哲審閱并修改。
致謝 周衍再、齊兆晰對翻譯原文有貢獻,劉懿對參考文獻整理有貢獻。
在制定醫學決策時,隨機對照試驗(randomized controlled trial,RCT)被認為是質量最高的證據來源,但在心臟外科領域設計和實施RCT均充滿挑戰,包括疾病相對復雜危重,受試者招募困難,臨床均勢(clinical equipoise)的缺失,干預措施尤其外科手術難以標準化和設盲,療效需要較長的隨訪時間顯現[1-2]。如果在RCT設計和實施階段沒有妥善考慮并解決這些問題,會削弱試驗的可行性,影響方法學質量,使得試驗結果難以解讀。為此,美國心臟協會(American Heart Association,AHA)心血管外科和麻醉委員會新近發布了《心臟外科隨機對照試驗設計、執行和分析方法學標準的科學聲明》(以下簡稱“科學聲明”)[3],旨在系統性總結心臟外科RCT設計、實施的核心建議,解讀關鍵概念和標準,并為心臟外科臨床研究提供具體的方法學建議。
目前我國心臟外科領域開展RCT研究方興未艾,完成了多項有國際學術影響力的多中心RCT研究,改寫了國內外診療指南。患者人群基數大、團隊協作執行力強、研究實施周期短是國內學者開展RCT的突出優勢,但研究方法學考量不足、規范性欠缺,是限制實施高質量RCT的重要因素。為此,本文筆者結合團隊臨床試驗的實踐體會,對此科學聲明進行解讀,與國內同道分享交流。
1 什么樣的臨床問題適合開展RCT
并不是所有的臨床問題都值得或適合開展RCT研究。科學聲明指出,從既往發表的心臟外科RCT研究Meta分析中統計,只有40%的臨床問題能夠轉化成適合開展RCT驗證性研究的科學問題[4]。限制某些重要臨床問題開展RCT研究可行性的常見因素包括病癥的罕見性,患者的選擇偏好以及臨床均勢的缺失。因此,心臟外科RCT設計的第一步,就是對臨床問題開展RCT研究的適用性和可行性進行系統性循證評估。這個評估應由心臟內外科醫生、統計學家、臨床研究方法學專家和患者代表構成的團隊進行。
筆者特別注意到,科學聲明中強調應該有患者代表參與研究問題評估,因為患者永遠是臨床研究的最終價值目標。此外,衡量一個好的臨床問題是否能轉化成RCT研究的科學問題,關鍵在于研究疾病的流行病學調查、樣本量的計算以及臨床均勢的客觀評估。對于罕見病癥或低發生率的終點事件,根據統計學方法預估的樣本量可能遠超可納入的病例數,臨床上“一邊倒”的實踐現狀,都將嚴重制約RCT研究的可行性。
2 如何在RCT中建立臨床均勢
“臨床均勢”是指研究者可以進行兩種(或多種)治療優劣對比的不確定的真實狀態[5]。科學聲明強調,這是開展任何RCT研究的倫理基礎。心臟外科常常涉及危及生命的疾病場景,醫生和患者對不同治療方案事先存在的偏好極易導致隨機化的失衡,即如果隨機后的治療方案并不是醫患心理預期的,則傾向于尋求研究以外的治療方案,從而破壞了隨機干預的根本目標。在群體層面,臨床均勢原則應建立在學科、學界層面,即學術團體對研究問題尚沒有令人信服的循證性答案。在個體層面,醫生和患者對臨床均勢的認可又極為重要,否則在RCT研究實施過程中將引發嚴重的問題。比如ART[6]、 Hybrid Coronary[7]、Evolut Low Risk[8]這幾項臨床試驗,分別在執行層面出現了較嚴重的組間交叉(crossover),入組緩慢或不均衡入組問題,均是值得借鑒的案例。
筆者的體會,對RCT研究中“臨床均勢”的辨析不深入是目前研究實施的薄弱環節。這不僅是方法學的問題,更是倫理學的顧慮。《日內瓦宣言》稱,醫生永遠應該把患者的利益放在第一位。如果研究醫生事先已經主觀確認某種治療更好,那從他的職業道德出發就應該為患者(受試者)提供最好的治療。這樣,RCT也就無法,也沒有必要進行下去。面對棘手的臨床問題,醫生和患者都不能用主觀愿望去代替客觀求證的過程。在RCT研究中,應該理解和接受臨床均勢的不確定性,這既是決定是否應該開展RCT的關鍵因素,又是影響RCT能否順利實施的必要條件。
3 如何選擇RCT開展的合適時機
與藥物治療不同,新的外科技術通常會隨著技術改進和經驗積累而發展,因此一旦學習曲線趨于穩定,就可以開展RCT驗證。然而在現實中,“外科臨床試驗總是開始得太早,直到突然某天,又變得太晚了(Buxton法則)”。在新技術發展的早期階段開展RCT驗證,由于學習曲線訓練不充分,產生的結果往往不盡如人意。如EVEREST Ⅱ研究[9]在經導管二尖瓣緣對緣修復技術的早期學習階段進行,結果顯示其療效不如傳統的開胸二尖瓣手術,但并不能據此就否定經導管二尖瓣修復技術的價值。
然而一旦某種術式已被臨床廣泛接受,臨床均勢已不復存在,也很難再開展RCT。典型的案例是作為冠狀動脈旁路移植術金標準的左胸廓內動脈橋的應用。其相較于靜脈橋血管的優越性,在歷史上實際僅得到了觀察性研究結果的支持,至今仍缺乏大規模多中心RCT的驗證,因為其在真實世界中的臨床均勢已不復存在[10]。
表1[3]比較了經典的藥物臨床試驗與外科臨床試驗的主要差異。筆者認為簡言之,外科醫生是外科臨床試驗的核心要素,其不僅影響隨機干預的內部均質性和依從性,還影響其外部廣泛性和可行性。某種程度而言,外科醫生本身也是臨床試驗的“對象”之一。只有更好地理解和認識外科RCT區別于藥物試驗的差異特點,外科研究者才能夠把握好設計和實施研究的時機。

4 如何在RCT中標準化外科干預
標準化干預措施是外科試驗設計的關鍵,這在心臟外科中尤其具有挑戰。對于試驗組新的或復雜的外科干預措施,缺乏技術經驗積累的醫生可能會削弱潛在的治療效果,更多地產生組間交叉和方案違背,繼而引入偏倚并稀釋治療效果。因此,外科RCT設計中應充分考慮如何確保外科干預措施能夠在試驗環境中持續有效地執行。表2歸納了一些常用的策略。

所謂“基于技術專長”的試驗設計,指參與試驗的外科醫生或團隊只執行他們熟練掌握的外科干預。比如在CORONARY試驗[11]中,假設某中心有兩個手術團隊分別擅長體外循環搭橋與非體外循環搭橋技術,則入組的受試者隨機后,將根據隨機結果分配至擅長相應技術的團隊中接受手術。這種“基于技術專長”的隨機可能鼓勵患者和醫生的參與積極性,并最大限度地減少倫理問題。
同時也要認識到,這種最大程度標準化外科干預措施的做法也存在局限性,即犧牲了試驗的外部真實性(即代表性、廣泛性), 因為這種高度控制后的試驗環境(都是相對高水平的中心、團隊和醫生來開展新技術)并不能反映臨床實踐的真實情況。
5 如何選擇和判定RCT研究終點
研究主要終點的選擇是RCT設計的最重要因素,它決定了研究的臨床相關性、規模大小和持續時間。基于臨床注冊登記、觀察性研究或既往RCT預估主要終點事件發生率是估算具備統計檢驗效能的樣本量的依據。為了解決關鍵的安全性和有效性問題,通常需要分別設置有統計學效能的安全性及有效性終點,并且所有主要和次要終點的定義必須在研究方案中詳細說明,并使用標準化定義[12]。所有主要和次要終點均應由獨立的多學科委員會根據預設的定義,使用原始文件進行裁定。理想情況下,影像學終點應由獨立的核心實驗室評估。
科學聲明特別強調,在比較不同血運重建策略的RCT中,應使用全因死亡而不是特定原因死亡作為主要結果,以減少可能與死因裁定相關的偏倚。外科手術的創傷本質,通常帶給患者早期的風險與晚期的獲益。因此,對于比較外科手術與藥物或微創介入療效的臨床試驗中,需要進行較遠期的終點比較而不能局限于短期。
使用復合終點是心血管RCT設計的常見做法,它的優勢在于通過增加終點事件計數而減少所需入組的受試者數量[13]。然而濫用復合終點也是目前心血管RCT研究中面臨的重大挑戰。筆者的體會,復合終點的設置應遵循兩大原則:第一,各個組成部分應具有相似的臨床重要性,比如避免將死亡、心肌梗死、卒中等臨床重要事件與心絞痛發作、無癥狀橋血管病變等重要性次之的臨床事件復合;第二,各個組成部分應朝著同一方向發展,比如血栓事件與出血事件必然是兩個方向,將其組合會相互抵消,反而會降低復合終點的統計學效能。
當復合終點的比較涉及多重性檢驗問題時,科學聲明推薦了幾種分層檢驗統計學方法,比如使用勝出率(win ratio)確保在復合終點分析中更重要的臨床事件優先,尤其使用死亡與非致死性的終點事件復合時。其它方法包括全局檢驗統計量或多元分析技術。
次要終點如影像數據、生活質量和功能結果等,可用于重要的機制分析和探索性分析。次要終點的設置應根據現有研究資源進行合理規劃,避免“貪多求全”,減少研究人員的工作量,減少出錯和數據不完整的風險。
筆者認為,研究終點的設定是RCT設計過程中的核心環節,也是外科RCT方法學中的難點。研究終點一方面直接影響研究的實施,包括預期的樣本量、研究的周期、采用的方法、投入的人力物力等;另一方面間接影響研究結果的解讀,反映了干預策略對療效最本質的影響。不僅如此,外科技術的綜合評價很難通過一項RCT的實施來實現,次要終點、探索性終點的設定能夠為后續研究的深入開展奠定理論基礎。
6 如何設定RCT的對照組和盲法
合理的對照組設置對于評價新治療干預的風險和獲益至關重要。科學聲明強調,對照組必須代表現有的最佳醫療實踐,應該避免將新干預措施與已被證明是次優的或非最佳醫療實踐措施進行比較。筆者的體會,也就是說對照組不能是“柿子撿軟的捏”。只有目前循證指南中推薦認可、臨床上廣泛實踐的醫療措施,才合適作為“金標準”對照。不合理的對照組設置,讓分配至對照組的受試者得到了低于現有指南標準的診療,不僅存在科學性上的挑戰,更面臨倫理學上的風險。筆者特別提醒,對于非劣研究設計,更要注意避免落入“生物爬行效應”,即若干次非劣比較傳遞后,得出新干預措施非劣于安慰劑效應的邏輯困境。
盲法是減少偏倚的重要策略。單盲僅受試者對干預措施不知情,雙盲確保對受試者和研究者都隱瞞了干預措施,三盲則包括了終點評價者,最理想狀態是四盲,即再包括統計學家[14]。數據和安全監測委員會是非盲的,以保護對受試者造成可能的群體性傷害而需要提前終止試驗。科學上,假手術對照是最理想的,能最大程度實現對除了外科醫生以外的人員設盲。但畢竟外科手術創傷和風險較高,受試者和外科醫生可能都難以接受。所以與藥物試驗不同,大多數外科RCT包括心臟外科RCT都是非盲設計的。筆者在此補充,如果無法實現受試者和研究者(包括外科醫生)設盲,設置獨立的終點評價委員會實現評價者盲,也是必要而有益的。
7 如何篩選和隨訪受試者
臨床試驗學術網絡是招募入組中心,篩選潛在受試者的有效平臺。富有經驗的研究中心間構建與維護長期穩定的合作關系,將有利于整個學科的臨床科研水平的提升。筆者的切身體會,在開設新入組中心前,必須實事求是地評估其關于研究問題的臨床均勢,如果某中心或團隊對所研究問題已經固有一邊倒的主觀傾向性,則往往不適合開展入組和后續隨機試驗工作,否則會產生大量的入組選擇偏倚和干預方案偏離或交叉。
由臨床試驗協調員進行的人工篩查,其篩選入組效率可能因中心不同而有很大差異,從而引入潛在的中心間偏倚和不平衡。為了減少這種偏倚并提高篩選效率,建議使用根據入選標準可進行自動查詢的電子表單進行初篩,然后再由臨床試驗協調員進行人工復核。科學聲明中特別強調入組受試者的多元化與多樣性,尤其需要關注女性、少數族裔和弱勢群體的參與。筆者的經驗,患者的連續篩選至關重要。不僅要登記符合入排標準最終入組的受試者,也要全面登記所有被篩選但未入組的潛在受試者基本信息,并記錄其被排除的原因,這樣才能有效監測和量化潛在的入組選擇偏倚。
受試者隨訪完整性對于RCT的質量至關重要。失訪可能導致統計學效力下降,并可能導致結果的偏倚。事實上受試者失訪往往是因為死亡或發生了嚴重并發癥,失訪的比例過大或在組間不平衡將對結果數據的分析和解讀造成巨大的挑戰,這是用各種統計學手段也難以解決的[2]。與社區工作者合作、利用電腦或智能手機等數字化工具可以提高隨訪的完整性。當然,后者也可能會給沒有數字化工具或經驗的受試者(如老年人)造成障礙和不公平。此外可以探索利用國家登記或其它學術專業數據庫,盡管由于數據結構的差異并不總有用。
以筆者的經驗,相對固定的篩選和隨訪團隊會很好地保障受試者的依從性,提高RCT的入組效率。因此,針對篩選和隨訪受試者的研究人員的規范化培訓將起到至關重要的作用。另外,針對樣本量大、實施周期長的RCT設置期中分析非常有必要,期中結果將很好地指導研究團隊及時對研究方案作出必要調整,提高研究的價值甚至挽回不必要的損失。
8 如何進行隨機化
真正有效地隨機化是RCT的靈魂,隨機可以減少潛在的偏倚,從而可以對治療效果進行因果推斷。隨機化不應通過可識別的方法進行(如出生日期或病歷號),而應通過計算機分配或通過遠程使用隨機數字進行電話分配等方法。區組隨機能確保組間人數相等,但因在每個區組末尾能預測分配而會產生偏倚,因此推薦使用隨機區組大小的區組隨機化。分層隨機有助于確保受試者在某些特定的預后因素或變量上的平衡,但要注意分層因素不宜過多,而且在大樣本量的隨機中常常非必要(隨著樣本量增多,各因素變量會自然平衡)。
筆者的經驗,在多中心RCT中,最常用的做法是按中心進行分層,然后在各中心內進行隨機區組大小的隨機化。此外,筆者特別提醒不要忽視了最基本的簡單隨機的“魔力”。不論其它隨機方法有多復雜精妙,都不會優于簡單隨機的不可預知性和減少偏倚的效果。在多中心研究中,條件允許的情況下應盡量采用中央隨機系統,以最大程度降低隨機環節潛在的偏倚和不確定性。
9 如何選擇優效性或非劣效性設計
一般來說,傳統的外科RCT旨在驗證新干預治療優于對照標準治療,即優效性設計。而非劣效性設計旨在驗證具有某些其它優勢(比如成本更低、創傷更小、依從性更好、更簡便)的新干預治療,其療效結果與對照標準治療相比,差距在可接受范圍內。
非劣效性設計中選擇非劣效界值(也就是這個“可接受的療效差距”)非常關鍵,必須參考既往研究的數據,并廣泛地聽取同行專家,尤其對照標準治療領域的專家,甚至包括患者代表的意見。表3總結了優效性設計和非劣效性設計的關鍵區別。

筆者的體會,研究者總是傾向于選擇過寬的非劣效界值,因為這樣既可節約樣本量,又更容易達成期望的非劣結果。但研究者必須認識到,過寬的非劣效界值會使整個試驗的科學價值面臨巨大的挑戰和質疑。此外,在非劣效設計試驗中,方案偏離、組間交叉、受試者失訪和低終點事件發生率,都會使試驗結果偏向于達成非劣,這與優效設計試驗中偏倚的方向相反(即偏向于達不成優效)[15]。但是顯然,由這些試驗偏倚因素達成的所謂“非劣效”是違背科學性的“虛假非劣”,解讀應當慎之又慎。
10 如何選擇解釋性試驗或實效性試驗設計
解釋性試驗(explanatory trials)通常用于確定新干預措施與標準療法或安慰劑相比的有效性和安全性。解釋性試驗常作為新藥、新設備研發階段的關鍵性研究,以支持獲得監管部門的上市及適應證批準。為了最大可能達成陽性結果,解釋性試驗通常通過較嚴格的納入排除標準選擇特定的研究人群,并嚴格控制試驗的環境與過程,以最大限度地減少試驗的變異性,提高內部真實性。因此,解釋性試驗的外部真實性(代表性,廣泛性)通常較低[16-18]。
相對而言,實效性試驗(pragmatic trials)則側重考察不同干預措施在現實世界中的有效性。實效性試驗的入排標準通常較寬松,研究人群更廣泛,對試驗環境的控制更少,以反映現實世界中實際使用干預措施的臨床環境,并且往往比較的是干預策略而不是具體的干預方式。除此以外,實效性試驗與解釋性試驗一樣需要遵守RCT設計的一般原則(如隨機化、對照、盲法、樣本量預估等)。鑒于實效性試驗具有更好的外部真實性,通常用于為臨床實踐的改變和新政策或指南的制定提供信息[17]。
筆者的理解,在心臟外科臨床試驗中,新器械設備的上市前有效性安全性評價還是需要更嚴格的解釋性試驗設計,而外科術式、技術的比較研究則可以采用更寬松的實效性試驗設計。
11 如何開展RCT的數據分析
RCT的數據分析通常包括意向治療(intent-to-treat,ITT)分析,改良意向治療(modified ITT)分析,符合方案(per-protocol,PP)分析和按實際治療(as-treated,AT)分析幾種類型。意向治療分析包括所有接受過隨機分配的受試者人群,而且無論受試者最終實際接受的治療如何,他們都將按照最初隨機分配的治療組標簽進行分析。意向治療分析是RCT數據分析首選且最保守的方法,但也面臨挑戰:其在優效性檢驗中會過度“懲罰”方案偏離(交叉,失訪等)而導致優效難以達成,而在非劣效性檢驗中又會因對方案偏離過于“寬容”而導致非劣效輕易達成[18]。改良意向治療包括所有接受過隨機分配的最低限度干預治療的受試者人群,也就是從原始意向治療分析中剔除了那些未接受任何隨機干預治療的受試者,從而避免他們對隨機干預效果的稀釋效應。按實際治療分析則是根據受試者實際接受的治療而不是隨機分配的治療來定義分組標簽,其結果往往偏向于陽性。必須認識到,按實際治療分析比較的治療組間本質上不再是隨機化的,而是研究醫生的系統選擇,故其帶來偏倚是必然的,通常只能作為敏感性補充分析而不能作為RCT數據的主要分析。
筆者的體會,優效性試驗應堅持使用意向治療分析作為主要分析,從而既保留隨機化效果,又避免方案偏離對優效性檢驗的“懲罰”效應。而非劣效性試驗應使用改良意向治療分析作為主要分析,從而既保留隨機化效果,又避免方案偏離對非劣效檢驗的“寬容”效應。一句話,理想的狀態永遠是意向治療分析、改良意向治療分析和按實際治療三者的一致;要實現這個目標只有在研究實施過程中下功夫,付出最大努力去減少方案偏離和交叉,而不是在數據分析階段投機取巧或束手無策。
12 總結
心臟外科RCT面臨諸多挑戰:心臟外科疾病相對復雜危重,受試者招募困難,外科醫生主觀認知較強勢從而削弱臨床均勢,干預措施尤其手術難以標準化和設盲,治療效果往往需要數年時間才得以逐漸顯現。此外,心臟外科醫生往往缺乏系統規范的臨床研究方法學和統計學培訓而難以組織發起RCT。要應對這些挑戰,需要組建由外科醫生領導的多學科團隊,包括臨床試驗方法學家、統計學家、第三方項目管理經理、臨床試驗監察員(CRA)、臨床試驗協調員(CRC)等。表4總結了關于心臟外科RCT設計、實施和分析的核心建議。

利益沖突:無。
作者貢獻:朱云鵬、張恒撰寫初稿;趙強、鄭哲審閱并修改。
致謝 周衍再、齊兆晰對翻譯原文有貢獻,劉懿對參考文獻整理有貢獻。