隨著真實世界證據作為臨床急需藥械產品上市前注冊和上市后監管決策證據支撐的研究體系和技術指導規范的日趨完善,如何生產高質量的真實世界數據以滿足藥械臨床評價要求,日益受到學術界、工業界和監管部門關注。本文基于博鰲樂城真實世界數據研究模式和眼科數據平臺建設經驗,從數據多源異構、研究設計多元及監管要求規范化等特殊性和必要性出發,對真實世界研究中的“源數據-數據庫-證據鏈”產生流程、數據管理和數據治理環節進行總結分析,為進一步構建綜合研究型數據平臺提供參考。
引用本文: 賈玉龍, 姚明宏, 劉艷梅, 任燕, 鄒康, 李耀華, 孫鑫. 特許醫療政策下真實世界數據治理的模式探索. 中國循證醫學雜志, 2021, 21(12): 1373-1380. doi: 10.7507/1672-2531.202108147 復制
近年,真實世界研究(real-world study,RWS)[1]日益受到監管部門、工業界和學術界的重視。國家藥品監督管理局相繼制定多個指導原則和技術規范,旨在進一步推廣和優化國內上市前真實世界數據(real-world data,RWD)研究范式和理論體系,促進高質量真實世界證據(real-world evidence,RWE)的產生。在根本上,真實可靠的RWD[1,2]是高質量RWE的基礎,而系統嚴格的數據管理和治理流程是產生高質量RWD的保證,亦是完善RWS框架及證據產出的關鍵技術,可有效解決數據準確性和完整性的難題。2021年4月,國家藥品監督管理局藥品審評中心最新發布《用于產生真實世界證據的真實世界數據指導原則(試行)》[3],闡述了RWD相關數據治理的主要流程和關鍵考慮,在保證數據準確完整的同時,提高數據利用。
博鰲樂城國際醫療旅游先行區(以下簡稱“博鰲樂城”)是全國唯一的RWD試點地區,在相關特許醫療政策的支持下[4],允許國外已上市而國內未上市的特許藥械產品在博鰲樂城醫療機構先行先試,積累真實診療環境下的臨床數據,用于支持或否定該產品在國內的上市申請。四川大學華西醫院中國循證醫學中心與博鰲超級醫院眼科團隊搭建了博鰲樂城眼病RWD平臺,該平臺是博鰲樂城首個也是當前唯一一個可匯集主動收集和常規收集數據并支持多種科學研究目的的專病RWD平臺。本文結合前期RWS數據平臺搭建經驗、國內外相關學術研究成果及各國監管部門的指導原則和技術規范,總結博鰲樂城RWS綜合研究型數據平臺數據管/治理的基本流程和特殊考量,為進一步實施和開展博鰲樂城RWS提供技術參考。
1 博鰲樂城真實世界眼科數據平臺建設概要
博鰲樂城真實世界眼科數據平臺的搭建主要分為兩個階段:① 單一研究型眼科患者登記數據庫搭建;② 綜合研究型眼科專病數據平臺搭建。目前,單一研究型眼科患者登記數據庫因研究目的明確、周期短、效率高等優勢已在博鰲樂城落地實施并取得實踐成效,“青光眼引流管”和“氟氰松植入劑”分別為醫療器械前瞻性患者登記數據庫和藥品“前瞻+回顧”雙向性患者登記數據庫的成功代表。但隨著博鰲樂城RWS模式的不斷優化和創新,單一研究型患者登記數據庫因拓展性差、覆蓋面窄及對照人群招募困難等不足,已無法滿足更為復雜的臨床研究需要,故未來以其為基礎的綜合研究型眼科專病數據平臺將會成為博鰲樂城眼科RWS的主流平臺,在滿足單一醫療產品臨床研究設計的同時,可縱向延伸醫療產品全生命周期的跟蹤隨訪,亦可同時橫向開展多個不同目的的臨床研究。
綜合研究型眼科專病數據平臺將鏈接博鰲樂城內多家醫療機構電子病歷(electronic medical record,EMR)數據、電子健康檔案(electronic health record,EHR)數據、醫保數據和不良反應監測數據等多個常規收集醫療數據庫,以及患者自報系統、智能可穿戴設備等因研究需要額外產生的數據,形成多源數據聚合終端,便于研究者進行數據挖掘、數據提取、數據整合和統計分析,因此需要高標準的數據管理和數據治理流程,以保證多機構全生命周期數據的有效整合、運行和管理。
2 綜合研究型眼科專病數據平臺數據管/治理的必要性
2.1 數據來源多樣性
基于特殊的醫療政策,國外已上市而國內未上市的特許創新藥械產品可在博鰲樂城醫療機構進行先行先試,全國各地的患者需前往博鰲樂城使用特許創新藥械,隨即可在博鰲樂城和/或原居住地醫療機構進行后期隨訪,形成縱向數據。同時,綜合研究型眼科專病數據平臺將鏈接其他登記數據庫(醫保數據庫和不良反應監測數據庫等)形成橫向數據。因此,博鰲樂城綜合研究型眼科專病數據平臺將匯集“跨地域、跨領域、跨系統、跨層級”的海量多源異構數據,其數據來源的空間分布、時間分布、載體種類及獲取方式均可根據研究目的或研究設計的不同而存在差異[3,5,6]。
2.2 研究設計多元化
目前適用于博鰲樂城RWS的模式主要包括前瞻性研究、回顧性研究和雙向性研究[6,7]。在此基礎之上,使用比較多的研究設計為實用臨床試驗(pragmatic clinical trial/pragmatic trial,PCT)、使用RWD作為外部對照的單臂試驗和觀察性研究等[7,8]。通過構建綜合研究型眼科專病數據平臺,我們可對疾病性質、患者群體、現有診療措施,患者疾病狀態,是否存在既有數據及數據質量是否滿足監管要求等方面進行適用性評價,進而靈活組合上述多種RWS設計方法,形成RWS框架[9]。但因此帶來的是數據類型多源異構,混雜偏倚參差多樣,隨訪時間長短各異等挑戰,這些都將影響源數據的完整性、準確性和一致性,進而影響結果的可靠性。
2.3 監管要求規范化
隨著電子信息數字化技術的迅猛發展,醫療信息化日趨完善,使得臨床研究數據具有體量巨大、來源廣泛、產生迅速、平臺多樣和系統繁雜等特點,對數據準確可靠和科學可信提出了挑戰。因此,各國監管部門相繼出臺相關指導原則以規范化數據管理/治理流程,并提出相關數據質量標準:CDISC(clinical data interchange standards consortium)標準[10]、ALCOA原則(包括:可歸因性、易讀性、同時性、原始性及準確性)[11]和ALCOA+CCEA原則(在ALCOA原始基礎上擴展了:完整性、一致性、持久性和可用性)[12];近年,國家藥品監督管理局也發布系列技術指南,明確指出要進一步加強藥械領域RWD質量管理和評價,從相關性和可靠性兩大方面提高源數據適用性評價標準[3,8,10,13-15]。可見在RWE產生過程中,數據管理/治理日益受到重視。除以上三個方面,健全的數據管理/治理流程也是加快研究進展,避免信息浪費,減少資源消耗,保證臨床急需進口醫療藥械產品盡快上市并應用于廣大患者的先決條件。
3 RWD管/治理基本流程
博鰲樂城眼病RWD平臺旨在建立和完善以“治理-管理-決策-創新”為一體的眼科專病數據協同平臺,需科學嚴謹的數據管/治理流程,確保滿足CDISC及ALCOA+CCEA等標準要求的同時產生RWE支持藥械研發和監管決策,實現全景式RWD呈現和監管科學的決策轉化。
RWD管/治理貫穿于RWS的整個過程,主要包括“數據收集、質量評估、多源整合”三個環節。根據前瞻性和/或回顧性數據采集方式,可選擇性使用數據管理和/或數據治理對數據進行處理(思路框架見圖1),在構建綜合研究型眼科專病數據平臺過程中,回顧性數據的數據治理和前瞻性數據的數據管理往往同時存在,應兼顧治理后數據庫與前瞻性主動收集數據庫的內部一致性[3]。

CRF:病例報告表;EDC:電子數據采集。
3.1 數據管理的基本流程
在RWS中,數據管理主要適用于前瞻性數據收集過程,針對研究目的和主要指標進行患者診療信息的主動收集,其核心為保證數據質量、提高研究效率和控制研究成本。目前較為系統的數據管理流程主要分為“研究前-研究中-研究后”三個階段,包括但不限于:① 數據管理計劃撰寫:詳細規范的記錄數據收集和處理的工作流程及團隊分工,以期滿足RWD適用性評價標準;② 病例報告表(case report form,CRF)設計:根據研究方案設計CRF,明確研究指標、字段類型及編碼標準,以期達到數據準確一致,清晰可讀,簡化電子數據采集(electronic data capture,EDC)設計和統計分析的目的;③ EDC系統建立:根據CRF設計EDC系統,兼備數據采集錄入、數據核查質疑、數據導出傳輸等數據管理模塊,可提高研究效率,節省經費并保證數據準確可溯源;④ 數據采集和錄入:根據電子病例報告表(electronic case report form,eCRF)進行研究數據采集錄入,并在采集錄入過程中實現數據標準化和醫學編碼,以期提高數據互通,實現數據共享可交換;⑤ 數據核查、數據質疑和盲態審核:貫穿于數據采集和存儲傳輸整個流程,以期保證RWD的準確性和可靠性;⑥ 數據傳輸遞交,遵循數據遞交標準,提高數據可讀性,保證數據安全可溯源。其中有些流程可根據具體實施環境貫穿整體研究過程[13,16,17](圖2)。

CRF:病例報告表;EDC:電子數據采集;eCRF:電子病例報告表。
3.2 數據治理的基本流程
數據治理,主要適用于回顧性研究設計,針對經數據質量評估后滿足研究目的和要求的常規健康醫療數據(routinely collected health data,RCD)[1],以“ALCOA+CCEA”標準為基礎架構,通過多個數據源的數據提取和標準化歸一,實現數據資源整合利用的目的,其基本流程包括但不限于:① 撰寫數據治理計劃:明確數據治理方案,綜合考慮數據來源(包括可鏈接數據庫及數據庫結構)、數據提取、數據清洗等關鍵治理流程和團隊分工,保證數據治理工作的順利進行;② 數據脫敏:通過數據加密技術及訪問控制等醫療隱私保護技術[18],從源頭開始進行數據脫敏,防止信息泄露、遺失和被篡改,提高患者信息安全性;③ 數據集成提取:根據源數據格式和類型,制定相應數據鏈接方案,根據患者唯一識別碼提取關鍵信息,保證數據可溯源和高效率提取;④ 數據清洗和質量控制:合理運用數據核查和變量描述,去除重復值、異常值及極端值等,提高數據準確性和完整性;⑤ 數據結構化與標準化:針對已提取數據,進行標準化和結構化轉化,便于和前瞻性登記數據庫進行整合。部分流程可根據具體實施環境貫穿于整體研究過程(圖3)。

4 博鰲樂城綜合研究型數據體系模式下RWD管/治理關鍵考慮
在博鰲樂城特殊的醫療政策及診療環境下,其RWS研究模式已由最初探索階段的單一研究型數據體系模式(如藥械產品注冊登記),逐步向綜合研究型數據體系模式(如博鰲樂城眼病RWD平臺)轉化,實現以短周期藥械產品安全有效性快速評價為基礎,患者全疾病周期管理及政策探索為目標的綜合研究型專病數據平臺搭建。通過整合多源異構數據資源,有效銜接常規收集和主動收集數據,根據具體研究設計,構建圍繞綜合研究型專病數據庫為主體,數據管理和數據治理相結合的“一體兩翼”綜合研究平臺管治模式,真正形成以多源診療平臺數據為依托,產生RWE優化診療場景并進一步豐富數據來源的價值閉環。
4.1 明確數據來源和處理機制
在研究準備階段,需根據特定的研究問題及設計,結合綜合研究型專病數據平臺現有數據類型,規模和質量[19],系統考慮所需研究數據的來源、類型和形式,明確數據采集模式(主動收集和/或常規收集)和數據處理方式(數據管理和/或數據治理)。其中主動收集數據對應數據管理,常規收集數據對應數據治理。在實際操作中,在保證信息安全脫敏的情況下,二者可根據具體情況聯合實施。
基于博鰲樂城“一地就醫,異地隨訪”的常態化診療模式及數字化醫療智能設備的不斷推廣,其隨訪數據的載體和類型更加復雜碎片化,對數據管理技術提出了挑戰。目前,博鰲樂城眼病RWD平臺的前瞻性數據來源主要集中在“智能可穿戴設備、醫療相關微型傳感器、健康醫療小程序及電子化患者報告結局(electronic patient-report outcome,ePRO)采集系統”等數字信息化驅動的實時數據采集系統的聯合應用[20],可通過網絡載體鏡像同步[21]至綜合研究型數據庫以保證數據的真實性和可溯源性,亦可通過集合自然語言處理、機器學習及區塊鏈等技術的“黑匣子”方案,實時轉換提取關鍵變量數據,形成互聯互通的物聯網醫療數據鏈接平臺,最終達到“實時采集-標準化處理-有效存儲-安全傳輸”等[22]系統化流程和數據管理為一體,滿足安全性、準確性、完整性和可讀性等相關RWD標準,并有效實現各隨訪數據之間、隨訪數據與綜合研究型專病數據平臺之間的標準化鏈接。
隨著綜合研究型眼科專病數據平臺的完善和研究設計的多元化,未來將考慮對博鰲樂城現有的EMR數據、EHR數據、醫保理賠數據、不良反應監測數據和國外臨床試驗外對照數據等數據庫進行互聯互通。用于上述主動收集過程的“黑匣子”方案亦可用于該過程,同時目前國外較為成熟的HL7(health level seven)規范[23,24]亦可實現不同醫療機構及數據庫之間的互聯互通,提高不同標準下信息交換傳輸的便利性,進而滿足目標藥械全生命周期研究數據的“提取-轉化-整合-分析”,但由此帶來的將是數據規模龐大、鏈接平臺多樣、數據類型復雜繁多、歷史數據和實時數據并存等挑戰,不僅需要人工智能數據采集技術,還需要對采集數據進行數據抽取轉換、字段映射替換、智能語音識別和影像資料提取等復雜的數據治理和計算機信息處理流程[25]。
4.2 數據管理平臺可操作共享
基于博鰲樂城特殊的診療隨訪模式,在提高數據代表性和臨床實踐真實性的同時,數據的完整性、可覆蓋性、可交換性均存在一定的挑戰。綜合研究型專病數據平臺需鏈接和映射多機構日常監測數據以提高數據覆蓋范圍,以滿足更加宏觀多維的研究問題,同時需進一步提高各電子信息系統和數據庫之間的可共享互操作性(包括EMR數據、EHR數據、醫保理賠數據和不良反應監測數據等),優化鏈接數據庫訪問權限和中央化監查體系,在數據庫鏈接的同時,加強數據庫運行維護和安全監測的技術支撐[26],實現各鏈接數據庫監管部門之間以自身權限為支撐的共享可操作性,以期達到平臺開放應用,多部門共建共享的協同發展理念。在提高互操作性方面,傳統的數據備份和定制開發接口等方案普遍存在成本高,過程繁雜,效率低,數據可及性和可解讀性差等缺陷,可使用openEHR規范[27,28]以提高EHR框架下的互操作及開放共享的能力,亦可結合HL7形成集數據存儲和信息互換為一體的綜合研究型專病數據平臺,構建以患者為中心的全生命周期醫療健康記錄。此外,仍需組建包括臨床專家及信息專家在內的信息建模團隊,參考《衛生信息共享文檔編制規范》[29],重點把握臨床標準術語的準確性、完整性和合理性,實現所涉及醫療機構平臺之間標準規范的聯通,進而真正實現數據平臺可操作共享的實施落地。
平臺可操作共享理念的實現不僅在數據抽取、存儲、整合、質控、傳輸、查詢和分析等技術方面存在巨大的挑戰,而且因時間成本效益、安全隱私及相關法律和倫理因素,使得這種大型數據庫之間的互通鏈接可操作在很大程度上仍然是一種愿景。
4.3 數據標準化
隨著目前診療試驗機構的復雜一體化和患者信息的多源異構化,數據的標準化逐漸受到重視。在博鰲樂城數據管/治理實際操作中,為加強數據規范性、提高研究效率、支持數據共享和藥械全生命周期數據鏈接,數據標準化主要包含兩層含義:① 多源異構數據之間有效統一整合需要參照什么標準?② 科學規范的研究數據應該滿足什么質量標準?
目前,監管部門較為提倡的為CDISC標準,主要包括研究數據列表模型(study data tabulation model,SDTM)、臨床數據獲取協調標準(clinical data acquisition standards harmonization,CDASH)和分析數據模型(analysis data model,ADaM)等,涵蓋試驗設計、數據采集、交換、歸檔、分析和遞交等多個方面,已逐漸成為數據標準“通用語言”[10]。除此之外,還有國際醫學用語詞典(medical dictionary for regulatory activities,MedDRA)、世界衛生組織藥物詞典和世界衛生組織不良反應術語集(world health organization adverse reaction terminology,WHOART)等醫學術語編碼標準,用于支持解決因研究者地域、語言和臨床習慣等因素導致的疾病名稱、不良事件、藥品名稱等醫學術語數據無法匯總統一。
同時,基于前瞻性采集數據,采用符合SDTM標準[30]的eCRF可有效解決所采集RWD重復利用的問題[31],也是有效整合回顧性數據和前瞻性數據的前提;而基于既有RCD,更多的可采用美國觀察性醫療結果合作組織(observational medical outcomes partnership,OMOP)建立的面向觀察性研究數據的通用數據模型(common data model,CDM)所定義的數據標準[32],將多源異構數據通過提取轉換加載,形成統一標準的結構化數據。但面對我國龐大的臨床數據體量及參差不齊的數據質量,目前尚存在數據術語類型覆蓋范圍不全,國內外術語標準發展不均衡及數據語言支持格式局限等挑戰[33]。
自美國FDA在相關指南中提及“ALCOA”數據質量標準[11]之后,歐洲藥品管理局[12]和國家藥品監督管理局[10]相繼出臺相關指南用于推廣“ALCOA+”數據質量標準,以保證數據的真實可靠和科學可信,主要包括:可歸因性、易讀性、同時性、原始性、準確性、完整性、一致性、持久性和可獲得性。除此之外,國家藥品監督管理局及其藥審中心也頒布相關RWS指導規范,對源數據及管治理數據提出了詳細的質量要求[8,14],主要包括:代表性、完整性、準確性、真實性、一致性、可重復性、相關性、可靠性、透明性和多源異構數據的融合性等,這些標準的相繼提出,預示著我國RWD支持藥械研發的研究框架逐漸走向完善并與國際接軌。
4.4 數據安全脫敏
隨著國家“互聯網+醫療健康”等智能化醫療服務的大力發展,在開發搭建一個可互操作可共享的研究型專病數據平臺時[34],數據內容不僅涵蓋治療相關信息,還涵蓋了更為貼近自然環境下的患者的流行病學信息(主要包括:患者自報的合并用藥和不良事件、醫療產品措施的經濟效益、不良反應監測、醫保理賠數據等),數據體量之龐大,涉及技術平臺之廣泛,因此在解決實現數據共享對接的同時,不僅要進行敏感數據的分類識別和去標識化預處理,還應嚴格實施人員訪問控制、權限分配及授權共享等安全保障措施以明確界定數據隱私范圍,強化數據的安全脫敏[35]。
特殊的診療環境和政策支持,使得博鰲樂城RWD庫管/治理流程更加豐富和具備自身特色。科學嚴謹的數據管/治理流程不僅是臨床試驗期間產生高質量可分析綜合數據的保證,也是最大限度提升臨床效能和證據效度的基礎,更是國家“十四五”時期的關鍵技術攻關[36]。本文以博鰲樂城真實世界眼科數據平臺為參考,從博鰲樂城RWD管/治理的必要性出發,基于基本數據管/治理流程探討特殊化考慮,旨在進一步推進數據管/治理能力的發展和創新,助力臨床試驗數據的規模化、結構化和體系化建設,加快藥械產品的上市審批和滿足日益復雜嚴格的監管需求。
近年,真實世界研究(real-world study,RWS)[1]日益受到監管部門、工業界和學術界的重視。國家藥品監督管理局相繼制定多個指導原則和技術規范,旨在進一步推廣和優化國內上市前真實世界數據(real-world data,RWD)研究范式和理論體系,促進高質量真實世界證據(real-world evidence,RWE)的產生。在根本上,真實可靠的RWD[1,2]是高質量RWE的基礎,而系統嚴格的數據管理和治理流程是產生高質量RWD的保證,亦是完善RWS框架及證據產出的關鍵技術,可有效解決數據準確性和完整性的難題。2021年4月,國家藥品監督管理局藥品審評中心最新發布《用于產生真實世界證據的真實世界數據指導原則(試行)》[3],闡述了RWD相關數據治理的主要流程和關鍵考慮,在保證數據準確完整的同時,提高數據利用。
博鰲樂城國際醫療旅游先行區(以下簡稱“博鰲樂城”)是全國唯一的RWD試點地區,在相關特許醫療政策的支持下[4],允許國外已上市而國內未上市的特許藥械產品在博鰲樂城醫療機構先行先試,積累真實診療環境下的臨床數據,用于支持或否定該產品在國內的上市申請。四川大學華西醫院中國循證醫學中心與博鰲超級醫院眼科團隊搭建了博鰲樂城眼病RWD平臺,該平臺是博鰲樂城首個也是當前唯一一個可匯集主動收集和常規收集數據并支持多種科學研究目的的專病RWD平臺。本文結合前期RWS數據平臺搭建經驗、國內外相關學術研究成果及各國監管部門的指導原則和技術規范,總結博鰲樂城RWS綜合研究型數據平臺數據管/治理的基本流程和特殊考量,為進一步實施和開展博鰲樂城RWS提供技術參考。
1 博鰲樂城真實世界眼科數據平臺建設概要
博鰲樂城真實世界眼科數據平臺的搭建主要分為兩個階段:① 單一研究型眼科患者登記數據庫搭建;② 綜合研究型眼科專病數據平臺搭建。目前,單一研究型眼科患者登記數據庫因研究目的明確、周期短、效率高等優勢已在博鰲樂城落地實施并取得實踐成效,“青光眼引流管”和“氟氰松植入劑”分別為醫療器械前瞻性患者登記數據庫和藥品“前瞻+回顧”雙向性患者登記數據庫的成功代表。但隨著博鰲樂城RWS模式的不斷優化和創新,單一研究型患者登記數據庫因拓展性差、覆蓋面窄及對照人群招募困難等不足,已無法滿足更為復雜的臨床研究需要,故未來以其為基礎的綜合研究型眼科專病數據平臺將會成為博鰲樂城眼科RWS的主流平臺,在滿足單一醫療產品臨床研究設計的同時,可縱向延伸醫療產品全生命周期的跟蹤隨訪,亦可同時橫向開展多個不同目的的臨床研究。
綜合研究型眼科專病數據平臺將鏈接博鰲樂城內多家醫療機構電子病歷(electronic medical record,EMR)數據、電子健康檔案(electronic health record,EHR)數據、醫保數據和不良反應監測數據等多個常規收集醫療數據庫,以及患者自報系統、智能可穿戴設備等因研究需要額外產生的數據,形成多源數據聚合終端,便于研究者進行數據挖掘、數據提取、數據整合和統計分析,因此需要高標準的數據管理和數據治理流程,以保證多機構全生命周期數據的有效整合、運行和管理。
2 綜合研究型眼科專病數據平臺數據管/治理的必要性
2.1 數據來源多樣性
基于特殊的醫療政策,國外已上市而國內未上市的特許創新藥械產品可在博鰲樂城醫療機構進行先行先試,全國各地的患者需前往博鰲樂城使用特許創新藥械,隨即可在博鰲樂城和/或原居住地醫療機構進行后期隨訪,形成縱向數據。同時,綜合研究型眼科專病數據平臺將鏈接其他登記數據庫(醫保數據庫和不良反應監測數據庫等)形成橫向數據。因此,博鰲樂城綜合研究型眼科專病數據平臺將匯集“跨地域、跨領域、跨系統、跨層級”的海量多源異構數據,其數據來源的空間分布、時間分布、載體種類及獲取方式均可根據研究目的或研究設計的不同而存在差異[3,5,6]。
2.2 研究設計多元化
目前適用于博鰲樂城RWS的模式主要包括前瞻性研究、回顧性研究和雙向性研究[6,7]。在此基礎之上,使用比較多的研究設計為實用臨床試驗(pragmatic clinical trial/pragmatic trial,PCT)、使用RWD作為外部對照的單臂試驗和觀察性研究等[7,8]。通過構建綜合研究型眼科專病數據平臺,我們可對疾病性質、患者群體、現有診療措施,患者疾病狀態,是否存在既有數據及數據質量是否滿足監管要求等方面進行適用性評價,進而靈活組合上述多種RWS設計方法,形成RWS框架[9]。但因此帶來的是數據類型多源異構,混雜偏倚參差多樣,隨訪時間長短各異等挑戰,這些都將影響源數據的完整性、準確性和一致性,進而影響結果的可靠性。
2.3 監管要求規范化
隨著電子信息數字化技術的迅猛發展,醫療信息化日趨完善,使得臨床研究數據具有體量巨大、來源廣泛、產生迅速、平臺多樣和系統繁雜等特點,對數據準確可靠和科學可信提出了挑戰。因此,各國監管部門相繼出臺相關指導原則以規范化數據管理/治理流程,并提出相關數據質量標準:CDISC(clinical data interchange standards consortium)標準[10]、ALCOA原則(包括:可歸因性、易讀性、同時性、原始性及準確性)[11]和ALCOA+CCEA原則(在ALCOA原始基礎上擴展了:完整性、一致性、持久性和可用性)[12];近年,國家藥品監督管理局也發布系列技術指南,明確指出要進一步加強藥械領域RWD質量管理和評價,從相關性和可靠性兩大方面提高源數據適用性評價標準[3,8,10,13-15]。可見在RWE產生過程中,數據管理/治理日益受到重視。除以上三個方面,健全的數據管理/治理流程也是加快研究進展,避免信息浪費,減少資源消耗,保證臨床急需進口醫療藥械產品盡快上市并應用于廣大患者的先決條件。
3 RWD管/治理基本流程
博鰲樂城眼病RWD平臺旨在建立和完善以“治理-管理-決策-創新”為一體的眼科專病數據協同平臺,需科學嚴謹的數據管/治理流程,確保滿足CDISC及ALCOA+CCEA等標準要求的同時產生RWE支持藥械研發和監管決策,實現全景式RWD呈現和監管科學的決策轉化。
RWD管/治理貫穿于RWS的整個過程,主要包括“數據收集、質量評估、多源整合”三個環節。根據前瞻性和/或回顧性數據采集方式,可選擇性使用數據管理和/或數據治理對數據進行處理(思路框架見圖1),在構建綜合研究型眼科專病數據平臺過程中,回顧性數據的數據治理和前瞻性數據的數據管理往往同時存在,應兼顧治理后數據庫與前瞻性主動收集數據庫的內部一致性[3]。

CRF:病例報告表;EDC:電子數據采集。
3.1 數據管理的基本流程
在RWS中,數據管理主要適用于前瞻性數據收集過程,針對研究目的和主要指標進行患者診療信息的主動收集,其核心為保證數據質量、提高研究效率和控制研究成本。目前較為系統的數據管理流程主要分為“研究前-研究中-研究后”三個階段,包括但不限于:① 數據管理計劃撰寫:詳細規范的記錄數據收集和處理的工作流程及團隊分工,以期滿足RWD適用性評價標準;② 病例報告表(case report form,CRF)設計:根據研究方案設計CRF,明確研究指標、字段類型及編碼標準,以期達到數據準確一致,清晰可讀,簡化電子數據采集(electronic data capture,EDC)設計和統計分析的目的;③ EDC系統建立:根據CRF設計EDC系統,兼備數據采集錄入、數據核查質疑、數據導出傳輸等數據管理模塊,可提高研究效率,節省經費并保證數據準確可溯源;④ 數據采集和錄入:根據電子病例報告表(electronic case report form,eCRF)進行研究數據采集錄入,并在采集錄入過程中實現數據標準化和醫學編碼,以期提高數據互通,實現數據共享可交換;⑤ 數據核查、數據質疑和盲態審核:貫穿于數據采集和存儲傳輸整個流程,以期保證RWD的準確性和可靠性;⑥ 數據傳輸遞交,遵循數據遞交標準,提高數據可讀性,保證數據安全可溯源。其中有些流程可根據具體實施環境貫穿整體研究過程[13,16,17](圖2)。

CRF:病例報告表;EDC:電子數據采集;eCRF:電子病例報告表。
3.2 數據治理的基本流程
數據治理,主要適用于回顧性研究設計,針對經數據質量評估后滿足研究目的和要求的常規健康醫療數據(routinely collected health data,RCD)[1],以“ALCOA+CCEA”標準為基礎架構,通過多個數據源的數據提取和標準化歸一,實現數據資源整合利用的目的,其基本流程包括但不限于:① 撰寫數據治理計劃:明確數據治理方案,綜合考慮數據來源(包括可鏈接數據庫及數據庫結構)、數據提取、數據清洗等關鍵治理流程和團隊分工,保證數據治理工作的順利進行;② 數據脫敏:通過數據加密技術及訪問控制等醫療隱私保護技術[18],從源頭開始進行數據脫敏,防止信息泄露、遺失和被篡改,提高患者信息安全性;③ 數據集成提取:根據源數據格式和類型,制定相應數據鏈接方案,根據患者唯一識別碼提取關鍵信息,保證數據可溯源和高效率提取;④ 數據清洗和質量控制:合理運用數據核查和變量描述,去除重復值、異常值及極端值等,提高數據準確性和完整性;⑤ 數據結構化與標準化:針對已提取數據,進行標準化和結構化轉化,便于和前瞻性登記數據庫進行整合。部分流程可根據具體實施環境貫穿于整體研究過程(圖3)。

4 博鰲樂城綜合研究型數據體系模式下RWD管/治理關鍵考慮
在博鰲樂城特殊的醫療政策及診療環境下,其RWS研究模式已由最初探索階段的單一研究型數據體系模式(如藥械產品注冊登記),逐步向綜合研究型數據體系模式(如博鰲樂城眼病RWD平臺)轉化,實現以短周期藥械產品安全有效性快速評價為基礎,患者全疾病周期管理及政策探索為目標的綜合研究型專病數據平臺搭建。通過整合多源異構數據資源,有效銜接常規收集和主動收集數據,根據具體研究設計,構建圍繞綜合研究型專病數據庫為主體,數據管理和數據治理相結合的“一體兩翼”綜合研究平臺管治模式,真正形成以多源診療平臺數據為依托,產生RWE優化診療場景并進一步豐富數據來源的價值閉環。
4.1 明確數據來源和處理機制
在研究準備階段,需根據特定的研究問題及設計,結合綜合研究型專病數據平臺現有數據類型,規模和質量[19],系統考慮所需研究數據的來源、類型和形式,明確數據采集模式(主動收集和/或常規收集)和數據處理方式(數據管理和/或數據治理)。其中主動收集數據對應數據管理,常規收集數據對應數據治理。在實際操作中,在保證信息安全脫敏的情況下,二者可根據具體情況聯合實施。
基于博鰲樂城“一地就醫,異地隨訪”的常態化診療模式及數字化醫療智能設備的不斷推廣,其隨訪數據的載體和類型更加復雜碎片化,對數據管理技術提出了挑戰。目前,博鰲樂城眼病RWD平臺的前瞻性數據來源主要集中在“智能可穿戴設備、醫療相關微型傳感器、健康醫療小程序及電子化患者報告結局(electronic patient-report outcome,ePRO)采集系統”等數字信息化驅動的實時數據采集系統的聯合應用[20],可通過網絡載體鏡像同步[21]至綜合研究型數據庫以保證數據的真實性和可溯源性,亦可通過集合自然語言處理、機器學習及區塊鏈等技術的“黑匣子”方案,實時轉換提取關鍵變量數據,形成互聯互通的物聯網醫療數據鏈接平臺,最終達到“實時采集-標準化處理-有效存儲-安全傳輸”等[22]系統化流程和數據管理為一體,滿足安全性、準確性、完整性和可讀性等相關RWD標準,并有效實現各隨訪數據之間、隨訪數據與綜合研究型專病數據平臺之間的標準化鏈接。
隨著綜合研究型眼科專病數據平臺的完善和研究設計的多元化,未來將考慮對博鰲樂城現有的EMR數據、EHR數據、醫保理賠數據、不良反應監測數據和國外臨床試驗外對照數據等數據庫進行互聯互通。用于上述主動收集過程的“黑匣子”方案亦可用于該過程,同時目前國外較為成熟的HL7(health level seven)規范[23,24]亦可實現不同醫療機構及數據庫之間的互聯互通,提高不同標準下信息交換傳輸的便利性,進而滿足目標藥械全生命周期研究數據的“提取-轉化-整合-分析”,但由此帶來的將是數據規模龐大、鏈接平臺多樣、數據類型復雜繁多、歷史數據和實時數據并存等挑戰,不僅需要人工智能數據采集技術,還需要對采集數據進行數據抽取轉換、字段映射替換、智能語音識別和影像資料提取等復雜的數據治理和計算機信息處理流程[25]。
4.2 數據管理平臺可操作共享
基于博鰲樂城特殊的診療隨訪模式,在提高數據代表性和臨床實踐真實性的同時,數據的完整性、可覆蓋性、可交換性均存在一定的挑戰。綜合研究型專病數據平臺需鏈接和映射多機構日常監測數據以提高數據覆蓋范圍,以滿足更加宏觀多維的研究問題,同時需進一步提高各電子信息系統和數據庫之間的可共享互操作性(包括EMR數據、EHR數據、醫保理賠數據和不良反應監測數據等),優化鏈接數據庫訪問權限和中央化監查體系,在數據庫鏈接的同時,加強數據庫運行維護和安全監測的技術支撐[26],實現各鏈接數據庫監管部門之間以自身權限為支撐的共享可操作性,以期達到平臺開放應用,多部門共建共享的協同發展理念。在提高互操作性方面,傳統的數據備份和定制開發接口等方案普遍存在成本高,過程繁雜,效率低,數據可及性和可解讀性差等缺陷,可使用openEHR規范[27,28]以提高EHR框架下的互操作及開放共享的能力,亦可結合HL7形成集數據存儲和信息互換為一體的綜合研究型專病數據平臺,構建以患者為中心的全生命周期醫療健康記錄。此外,仍需組建包括臨床專家及信息專家在內的信息建模團隊,參考《衛生信息共享文檔編制規范》[29],重點把握臨床標準術語的準確性、完整性和合理性,實現所涉及醫療機構平臺之間標準規范的聯通,進而真正實現數據平臺可操作共享的實施落地。
平臺可操作共享理念的實現不僅在數據抽取、存儲、整合、質控、傳輸、查詢和分析等技術方面存在巨大的挑戰,而且因時間成本效益、安全隱私及相關法律和倫理因素,使得這種大型數據庫之間的互通鏈接可操作在很大程度上仍然是一種愿景。
4.3 數據標準化
隨著目前診療試驗機構的復雜一體化和患者信息的多源異構化,數據的標準化逐漸受到重視。在博鰲樂城數據管/治理實際操作中,為加強數據規范性、提高研究效率、支持數據共享和藥械全生命周期數據鏈接,數據標準化主要包含兩層含義:① 多源異構數據之間有效統一整合需要參照什么標準?② 科學規范的研究數據應該滿足什么質量標準?
目前,監管部門較為提倡的為CDISC標準,主要包括研究數據列表模型(study data tabulation model,SDTM)、臨床數據獲取協調標準(clinical data acquisition standards harmonization,CDASH)和分析數據模型(analysis data model,ADaM)等,涵蓋試驗設計、數據采集、交換、歸檔、分析和遞交等多個方面,已逐漸成為數據標準“通用語言”[10]。除此之外,還有國際醫學用語詞典(medical dictionary for regulatory activities,MedDRA)、世界衛生組織藥物詞典和世界衛生組織不良反應術語集(world health organization adverse reaction terminology,WHOART)等醫學術語編碼標準,用于支持解決因研究者地域、語言和臨床習慣等因素導致的疾病名稱、不良事件、藥品名稱等醫學術語數據無法匯總統一。
同時,基于前瞻性采集數據,采用符合SDTM標準[30]的eCRF可有效解決所采集RWD重復利用的問題[31],也是有效整合回顧性數據和前瞻性數據的前提;而基于既有RCD,更多的可采用美國觀察性醫療結果合作組織(observational medical outcomes partnership,OMOP)建立的面向觀察性研究數據的通用數據模型(common data model,CDM)所定義的數據標準[32],將多源異構數據通過提取轉換加載,形成統一標準的結構化數據。但面對我國龐大的臨床數據體量及參差不齊的數據質量,目前尚存在數據術語類型覆蓋范圍不全,國內外術語標準發展不均衡及數據語言支持格式局限等挑戰[33]。
自美國FDA在相關指南中提及“ALCOA”數據質量標準[11]之后,歐洲藥品管理局[12]和國家藥品監督管理局[10]相繼出臺相關指南用于推廣“ALCOA+”數據質量標準,以保證數據的真實可靠和科學可信,主要包括:可歸因性、易讀性、同時性、原始性、準確性、完整性、一致性、持久性和可獲得性。除此之外,國家藥品監督管理局及其藥審中心也頒布相關RWS指導規范,對源數據及管治理數據提出了詳細的質量要求[8,14],主要包括:代表性、完整性、準確性、真實性、一致性、可重復性、相關性、可靠性、透明性和多源異構數據的融合性等,這些標準的相繼提出,預示著我國RWD支持藥械研發的研究框架逐漸走向完善并與國際接軌。
4.4 數據安全脫敏
隨著國家“互聯網+醫療健康”等智能化醫療服務的大力發展,在開發搭建一個可互操作可共享的研究型專病數據平臺時[34],數據內容不僅涵蓋治療相關信息,還涵蓋了更為貼近自然環境下的患者的流行病學信息(主要包括:患者自報的合并用藥和不良事件、醫療產品措施的經濟效益、不良反應監測、醫保理賠數據等),數據體量之龐大,涉及技術平臺之廣泛,因此在解決實現數據共享對接的同時,不僅要進行敏感數據的分類識別和去標識化預處理,還應嚴格實施人員訪問控制、權限分配及授權共享等安全保障措施以明確界定數據隱私范圍,強化數據的安全脫敏[35]。
特殊的診療環境和政策支持,使得博鰲樂城RWD庫管/治理流程更加豐富和具備自身特色。科學嚴謹的數據管/治理流程不僅是臨床試驗期間產生高質量可分析綜合數據的保證,也是最大限度提升臨床效能和證據效度的基礎,更是國家“十四五”時期的關鍵技術攻關[36]。本文以博鰲樂城真實世界眼科數據平臺為參考,從博鰲樂城RWD管/治理的必要性出發,基于基本數據管/治理流程探討特殊化考慮,旨在進一步推進數據管/治理能力的發展和創新,助力臨床試驗數據的規模化、結構化和體系化建設,加快藥械產品的上市審批和滿足日益復雜嚴格的監管需求。