結核分枝桿菌是人類結核病的病原體。通過測定結核分枝桿菌基因分型,能及時發現結核病的疫情流行特點,分析不同轄區患者之間的傳播鏈條,從而及時制定有效的干預措施,為臨床的診斷和治療提供有力的依據。目前,結核分枝桿菌基因分型的幾種技術在應用上各有利弊,該文就結核分枝桿菌的基因分型技術、群體遺傳學和基因分型命名規則進行了綜述。
引用本文: 周崇興. 結核分枝桿菌基因分型及命名規則. 華西醫學, 2022, 37(11): 1742-1748. doi: 10.7507/1002-0179.202110045 復制
結核病是由結核分枝桿菌(Mycobacterium tuberculosis,MTB)引起的一種傳染病,近幾年結核病再次成為嚴重危害世界公共衛生的傳染病之一。基因分型也稱為分子分型,是指利用遺傳物質DNA作為考察對象的分型技術。同種而不同亞型的微生物,在致病性、耐藥性等生物學特性上可能存在顯著差異,如MTB中的M. bovis BCG和H37Rv兩個菌株在毒力上就存在差異,這種差異可能在臨床上很重要,比如影響到治療方案或疫苗的選擇等。MTB基因分型方法是監測結核病傳播的有效途徑,同時,對病原菌的更精細的分辨能夠識別感染暴發案例之間的關聯,這對公共衛生有重要價值。100年前,鑒別區分MTB菌株的方法依賴于表型特征,包括生長率比較、菌落形態觀測、耐藥譜或噬菌體分型等,這些方法由于缺乏分辨力而限制了它們的應用[1]。直至1970年代后期,隨著分子生物學技術的發展和應用,一系列用于鑒別MTB菌株的方法應運而生,包括凝膠電泳、分子雜交、寡核苷酸分型、串聯重復系列分型等。本文對迄今為止MTB的分子分型技術進行了簡要的綜述,希望有助于公共衛生及相關科技人員了解MTB流行的群體遺傳學和技術概況,了解有關實驗室技術的來源和應用意義。
1 MTB基因分型技術演變
MTB基因分型技術隨著分子標記的開發而演變。分子標記也叫遺傳標記,是基因組上一個或多個特定DNA片段,在群體上呈廣泛多樣性,因此能夠用來做鑒別工具。1970年代后期,分子生物學的發展和相關技術的商業化,使得利用分子技術對MTB進行研究成為可能。一般而言,分型技術在科學上朝著更好的可重復性、可重現性和更高的分辨率發展,同時在技術上也朝著更節省人工、更經濟的方向演進。更好的分子分型技術對研究MTB的群體遺傳學、功能基因組學、分子診斷和流行病學溯源有著顯而易見的幫助。MTB的分子標記開發,在早期主要是通過對M. tuberculosis H37Rv和M. bovis BCG這2個重要的菌株基因組比較研究得來,基于分子標記技術而開發的基因分型方法逐漸誕生,每種方法均有其優缺點。為了滿足更加精準的結核病防控,今后或許還會有更多新的分型技術出現,操作方便、結果準確、可重復性高、價格低廉的分型方法將更有利于推廣使用。以下就幾種主要的MTB基因分型技術的演變進行闡述。
1.1 限制性內切酶多態性及凝膠電泳
1984 年,新西蘭瓦拉塞維爾動物衛生實驗室(國家獸醫實驗室)的 Collins 等[2]利用 17 個限制性內切酶對M. tuberculosis H37Ra、M. tuberculosis H37Rv、M. bovis BCG 及 2 個野生 MTB 菌株進行限制性內切酶分析,發現內切酶 BstEⅡ 能較好地區分不同菌株。使用脈沖場凝膠電泳技術取代普通電泳可以提高限制性內切酶分型方法的分辨率[3]。該技術可靠而實用,操作簡單,無需放射性或特異的 DNA 探針,具有很高的重復性,但較小片段 DNA 的分辨率仍有待提高。
1.2 IS6110限制性片段長度多態性(restriction fragment length polymorphism,RFLP)分析
IS6110 在不同 MTB 菌株基因組中的數量和位置呈現出高度的多態性,使得基于 IS6110 的 RFLP 的分析成為一個良好的 MTB 分型方法,1991 年開始廣泛用于流行病學研究[4]。IS6110-RFLP 曾被推薦為 MTB 流行病學研究的“金標準”[5]。該技術分辨率高,多態性高,特異性強。但其操作相對復雜,需要大量的 MTB 菌株,需要多種昂貴儀器,結果不易分析,對于低拷貝或無拷貝的菌株難以鑒定,不便于實驗室比對。
1.3 間隔區寡核苷酸分型技術(Spoligotyping)
1996年,人們開始使用Spoligotyping對低拷貝的菌株進行鑒定。Spoligotyping是基于染色體上直接重復區位點的多態性分析。直接重復區位點數量在MTB群體中呈現多態性,在MTB中已經發現104個直接重復區位點,不同菌株在間隔區的序列不同,基于此對MTB進行鑒定[6]。該技術具有簡便、低成本、高準確性的優勢,只需要少量DNA,有良好的誘導性和可逆性,但分辨率不足,不能識別復合感染。
1.4 長序列多態性(large sequence polymorphism,LSP)分型技術
研究發現,大小不等的差異區域(regions of differences,RD)在 MTB 菌株中廣泛存在[7]。1999 年,美國斯坦福大學和加拿大麥吉爾大學的研究人員利用全基因組基因芯片技術比較了 H37RV 和卡介苗 BCG 傳代菌株之間的 RD,研究人員參照 Mahairas 的規則,以 RD+數字的格式命名了他們發現的若干個 RD,此后 RD 作為分子標記應用到了相關的研究中[7]。基于 RD 的 LSP 分析(RD-LSP)在 MTB 系統發生和遺傳進化研究中逐漸發揮著重要的作用[8]。RD 檢測操作便捷、快速,費用低廉,主要用于分枝桿菌的進化研究。
1.5 分枝桿菌散布重復單元(mycobcterial interspersed repetitive units,MIRU)-可變數目串聯重復序列分型(variable number of tandem repeat typing,VNTR)
2001 年,Mazars 等[9]開發了一種基于 12 個 MIRU 基因座的 VNTR 分型方法(12-loci MIRU-VNTR),其分辨率與 IS6110-RFLP 相當。其他常用的 MIRU-VNTR 還有 15-loci MIRU-VNTR 和 24-loci MIRU-VNTR[10]。MIRU-VNTR 的檢測手段常用聚合酶鏈反應產物進行凝膠電泳或者進行桑格測序分析。該技術是以聚合酶鏈反應為基礎的分型方法,簡單方便,易于推廣使用,數字化的結果更易于分析和室間比對。缺點是分辨率相對不高,若通過增加位點提高分辨率,則需要增加更多的實驗室工作量,儀器和試劑價格昂貴。
1.6 單核苷酸多態性(single nucleotide polymorphism,SNP)分型技術
在人類基因組計劃完成的鼓舞之下,更多的分枝桿菌基因組得到測定。2001年后,研究人員利用測定的細菌基因組序列,通過比較研究,試圖在基因組范圍內尋找SNP作為分子標記,通過篩選出的不同SNP組合將MTB菌株分成了不同的亞型。2014年,倫敦衛生和熱帶醫學學院的Coll等[11]分析了1601個世界各地的MTB基因組,鑒定了約9.2萬個SNP,基于SNP的系統發育顯示出與金標準RD分類體系相一致的結果;同時,提出了這些SNP中的62個用于區分已知的流行菌株,這種基于SNP的分子標記涵蓋了所有主要的譜系,并可以得到更精細的分型結果,但需要測序,價格昂貴,較難在實驗室推廣。
1.7 全基因組測序(whole genome sequencing,WGS)
2005年和2006年,美國的454生命科學公司和英國的Solexa公司分別發布了其自有技術的下一代測序設備并成功用于微生物的WGS,標志著下一代測序技術的商業成熟[12]。下一代測序技術的商業化,使得低成本大規模地測定基因組成為可能。2014年,德國Borstel研究中心的Kohl等[13]開發了一個用于MTB菌株分型的多位點序列分型技術(multilocus sequence typing,MLST)方法,該方法包含了3041個編碼基因,以期望得到一個基于技術的標準分型方案,方便實驗室之間的結果交流和實時監測。評估發現,MLST方法的分辨率與WGS-SNP相當,該方案于2018年更新,將考察的核心基因數量縮減為2891個[14],優化WGS技術。WGS可以進行基因組之間的比對、耐藥基因突變的分析、臨床治療研究的論證,從分子層面分析MTB的傳染源、代系、區域之間傳遞的潛在規律等,該技術將會是群體易感性研究的終級解決手段。WGS技術在MTB的檢測中敏感性高,在MTB疫情防控方面發揮著重要的作用[15],但是要構建起傳播網絡還是比較困難,這就需要進一步推進操作步驟和結果數據分析標準化,各權威機構也正在采取措施,實現WGS技術檢測MTB國際標準化[16],從而有望更快、更好地診斷結核病,為結核病防控提供更準確的科學依據。
1.8 MLST
2013年,Pitondo-Silva等[17]總結前人的工作,從14個MTB 的H37Rv菌株中篩選了7個管家基因(gyrA、gyrB、katG、purA、recA、rpoB和sodA)作為MLST的分子標記方案;研究人員還將MLST與MIRU-VNTR、Spoligotyping進行了比較,在對44個MTB菌株研究后發現,這個MLST方案可重復性較好,易于分析,操作簡便,但并沒有表現出更好的分辨率,且費用較高。
2 MTB群體遺傳學譜系
MTB在遠古時期伴隨著人類遷徙擴散,從非洲擴散到各大洲[18],在近代隨著新大陸的發現和國際貿易的興盛而二次擴散。隨著分子進化理論的發展和有關技術的發明,我們可以從細菌的基因組上重構整個MTB的流行史。人類社會的發展與MTB主要致病特征的形成密切相關,MTB在與人類共同進化的過程中,為適應生存環境,形成了自己獨特的致病特征,致病性和傳播能力更為增強。MTB作為人類迄今形影不離的“共生伙伴”,其流行史,就是人類遷徙交流的歷史,也是人類和疾病斗爭的歷史。
1995年,荷蘭國家公共衛生和環境保護研究所的van Soolingen等[19]對69個東亞來源MTB菌株(49個來源于北京,20個來源于蒙古)使用IS6110-RFLP進行分型,發現其中52個菌株具有相似的條帶類型。由于這些菌株大部分來自于北京,故將其命名為北京家族(Beijing family)。同時,使用Spoligotyping分析發現北京家族菌株具有一致的間隔區寡核苷酸分型(Spoligotype)(間隔區1-34缺失),因此也常用Spoligotyping來鑒定北京家族菌株[20],當最后9個間隔區中的一個或多個缺失時則被稱為類北京型(Beijing-like)[21]。根據北京基因型基因組NTF區域中的IS6110,北京家族又被分為古老型和現代型,其中NTF區域中IS6110的缺失叫做古老北京型。在基因型上,北京菌株被認為是一個遺傳相似度極高的群體,但近期大量分型或測序數據提示該群體內部存在一定的遺傳差異性[22]。目前為止,北京菌株的遺傳結構仍缺乏系統的研究,北京菌株的起源問題也存在爭議。美國貝勒醫學院的Sreevatsan等[23]收集了來源于40個國家的842個分枝桿菌菌株數據,通過分析26個結構基因(主要是耐藥相關)的序列,發現了分別位于2個基因上的2個高頻非同義突變SNP,分別位于gyrA95和katG465位密碼子,并根據其將MTB劃分為3個主要的基因群,分別命名為Group 1、Group 2、Group 3,其中Group 3基因群與散發而不是成簇的病例觀察結果表明,病原體正在向傳播能力或毒力降低的狀態發展,主要的生物學特性也有差異。英國倫敦健康保護局的Baker等[24]使用MLST對225個來源于英國(英格蘭和威爾士)的臨床分離株的7個管家基因(rpoB、katG、oxyR、ahpC、pncA、rpsL、和gyrA)進行測序分析,鑒定出36個同義突變SNP,并用其將MTB劃分為4個主要譜系,分別命名為Lineage Ⅰ、Lineage Ⅱ、Lineage Ⅲ、Lineage Ⅳ。美國西雅圖系統生物學研究所的Gagneux等[25]使用RD-LSP分析了80個國家來源的875個MTB分離株,根據基因組雜交的結果差異,鑒定了19個系統發生相關的種系特異性的RD標記,并用其將MTB劃分為6個主要譜系,根據其主要來源分別命名為印度洋、東亞、東非印度、歐美、西非1、西非2。美國國立衛生院過敏與傳染病研究所的Gutacker等[26]通過比較M. bovis AF2122/97、M. tuberculosis CDC1551、M. tuberculosis 210和M. tuberculosis H37Rv菌株的全基因組序列,選擇基因組范圍內,將來源于美國和歐洲4個地區的5069個菌株數據劃分成了9個主要的基因型簇,分別為Cluster Ⅰ、Cluster Ⅱ、Cluster Ⅱ.A、Cluster Ⅲ、Cluster Ⅳ、Cluster Ⅴ、Cluster Ⅵ、Cluster Ⅶ、Cluster Ⅷ。美國新澤西醫學和牙科大學的Filliol等[27]使用了與Gutacker等[26]相似的方法,根據159個同義突變SNP將來源于19個國家和地區的219個菌株劃分為10個SNP簇組(SNP cluster group,SCG),分別為SCG 1、SCG 2、SCG 3a、SCG 3b、SCG 3c、SCG 4、SCG 5、SCG 6a、SCG 6b、SCG 7。Gagneux等[28]對MTB系統發育研究進行綜述,在RD-LSP的基礎上,將世界范圍內的MTB歸為6個系,并以“Lineage+數字”的編號命名。埃塞俄比亞阿默爾漢森研究所的Firdessa等[29]對來源于埃塞俄比亞的964個菌株分型研究,發現其中36個菌株有著特殊的Spoligotype,并且不屬于已知的6個系(Lineage 1~6),于是選取其中的4株進行WGS及SNP系統發育研究,發現并定義了一個新的譜系,命名為Lineage 7(Ethiopia)。至此,全球范圍內流行的、已經分離到的MTB菌株,幾乎都可以劃分到上述7個單系類群(Monophyletic group)中的1個[30]。Coll等[11]分析了1601個世界各地的MTB菌株的全基因組數據,確定了一組可以識別所有7個Lineage的SNP(共62個),并且可以根據這組62個SNP將MTB菌株細分成55個亞系。MTB 7個主要譜系相關的研究對比見表1[28, 30-33]。

MTB群體遺傳學研究將菌株規范劃分為7個人類適應性譜系[34],通過WGS-SNP可進行精準分型與鑒定。分布最廣的類群是譜系2(主要存在于東亞)和譜系4(主要出現在歐美、亞洲、非洲人群),譜系1和譜系3主要在東非、中亞、南亞和東南亞,譜系5~7存在于非洲的特定區域。這些研究解決了及時有效獲取樣本及對應信息的難題,同時可以利用傳統的流行病學手段對流行病學調查中獲得的大量數據,配合環境等其他相關因素進行分析界定。隨著基因組學研究手段與傳統公共衛生流行病學研究的進一步結合,群體遺傳學能夠精準判斷結核病的流行軌跡、人群易感性等,對感染者的發病進程以及臨床治療的解決方案提供準確可靠的科學依據。
3 MTB分型命名規則
亞型的命名是指為特定的菌株亞型賦名,目的是方便交流和數據交換利用。命名的方式可以通過系統命名法和人工賦名。分子分型技術利用遺傳標記的拷貝數、序列堿基變化等可以設計出系統命名的規則。但如同國際純粹與應用化學聯合會的系統命名法一樣,系統命名法所得到的名稱一般冗長且符號難被人類所讀寫識別,因此,除了系統命名之外,很多場合仍然需要使用人工賦予通俗的名稱,以指代特定的細菌亞型。基于不同的遺傳標記有著不同的命名方式,其人工賦名也有對應的機構在維護。以下是常見的MTB分子分型命名法。
3.1 RD+編號命名
1996年,Mahairas等[35]將首次發現的3個RD分別命名為RD1、RD2和RD3。后續的研究便沿用了“RD+編號”的命名規則,將所發現的 RD 按照發現的時間先后以及該區域在M. tuberculosis H37Rv基因組上的相對位置進行編號命名,例如RD105、RD239等。
3.2 SIT+數字編號命名
2001年,荷蘭國家健康與環境衛生研究所連同法國巴斯德研究所等單位,為了解決Spoligotyping命名混亂的問題,提出了系統命名法,使用十進制、二進制等進行標準化描述[36-37]。“0”和“1”代表43個間隔區的有和無,十進制方案由二進制方案每連續3個間隔區的值換算而來。每個特定的系統命名通過Spoligotyping國際型(Spoligo-International-Type,SIT)人工賦予一個簡略的數字編號,如表2。

3.3 MIRU-VNTR命名
2008年,Allix-Béguec等[10]整理了24位點(MtbC15-9)的MIRU-VNTR分型數據庫,并將其與Spoligotyping、RD-LSP等分型結果進行了關聯對照。該方案的結果命名,以loci編號為次序列出每個基因座的重復單元數(整數),以此得到的一個數列作為系統命名。為了便于分型結果的交流,Weniger等[38]引入了擴展命名MtbC15-9,是基于判別子集的15個基因座(MtbC15)和9個輔助基因座(MtbC9)的組合,將數字編碼分配給每一個24-loci MIRU-VNTR型,見表3。

3.4 核心基因組MLST(core genome MLST,cgMLST)命名
2014年7月,Kohl等[13]開發了基于cgMLST的方案,目前該分型方案所考察的基因數量為2891個,以方便實驗室間基于WGS技術流行病學研究結果的交流與實時監測。該方案的命名法與傳統MLST相似,每個基因的序列將得到一個序列編號,所有基因序列編號的組合即得到菌株的分型(cgMLST CT)[14]。目前MLST方案都沒有系統命名方案,只通過人工賦名—一個阿拉伯數字代號。
3.5 WGS-SNP
盡管 WGS-SNP 有著最高的分辨率,但目前該方法所得的分型結果沒有統一的命名方案。WGS-SNP 命名方法通常使用 Coll 等[11]的 62 SNP 方案將分離株劃分到7個 Lineage 中,或者得到更精細的亞譜系。由于 WGS 可以獲得整個基因組的信息,該法也可以使用電腦模擬實驗(in silico)的方式采用傳統的分子標記進行分型,如 in silico spoligotyping 等。
4 MTB分型數據庫/工具
為提供全局統一的分子分型賦名,科研人員發布了多個MTB分子分型數據庫及在線工具,這些數據庫的主要目的是收集并命名已經發現的細菌亞型,同時提供in silico的分型和查詢服務,其中大部分仍在更新維護。我們將其整理如下(表4)[13, 27, 33, 37, 39-52]。

5 小結與展望
MTB培養鑒定技術已沿用100多年,而分子分型技術則只有30多年。基因分型是結核病分子流行病學研究的重要內容,在結核病近期傳播追蹤、暴發流行調查、快速菌種鑒定與耐藥/耐多藥檢測,以及實驗室污染鑒定、內源性復染和外源性再感染的區分等方面具有重大意義,在研究結核病的病原演變,以及確定傳染源、揭示疾病傳播機制方面能夠發揮關鍵的作用。
基因組測定是分子分型的終極技術,也是病原體監測的主流趨勢。各個時期發明的MTB分子分型技術在原理上的差異造成了其術語體系的混亂,這種混亂繼而造成不同監測工作所得結果的理解困難[53]。在此,我們從系統發生和分子遺傳學的視角,對主要的分子分型技術所得結果之間的相互關系進行了回顧,厘清了有關術語名詞的關系、不同技術在遺傳學上的分辨力,以及在具體工作中的適用性。
未來的MTB分型技術,應當是以基因組測定為主,但其系統命名的方式仍需要研究和開發。基于基因組測定的分型,每個分型技術都有其優缺點,多種方法聯合應用具有重復性好、分辨率高、適合于自動化分析、結果數字化、便于不同實驗室間進行比對等優點。在實際工作中,應根據不同研究目的選擇合適的技術,同時需要提供兼容舊分型方案的結果,以便歷史數據的核對利用。
利益沖突:所有作者聲明無利益沖突。
結核病是由結核分枝桿菌(Mycobacterium tuberculosis,MTB)引起的一種傳染病,近幾年結核病再次成為嚴重危害世界公共衛生的傳染病之一。基因分型也稱為分子分型,是指利用遺傳物質DNA作為考察對象的分型技術。同種而不同亞型的微生物,在致病性、耐藥性等生物學特性上可能存在顯著差異,如MTB中的M. bovis BCG和H37Rv兩個菌株在毒力上就存在差異,這種差異可能在臨床上很重要,比如影響到治療方案或疫苗的選擇等。MTB基因分型方法是監測結核病傳播的有效途徑,同時,對病原菌的更精細的分辨能夠識別感染暴發案例之間的關聯,這對公共衛生有重要價值。100年前,鑒別區分MTB菌株的方法依賴于表型特征,包括生長率比較、菌落形態觀測、耐藥譜或噬菌體分型等,這些方法由于缺乏分辨力而限制了它們的應用[1]。直至1970年代后期,隨著分子生物學技術的發展和應用,一系列用于鑒別MTB菌株的方法應運而生,包括凝膠電泳、分子雜交、寡核苷酸分型、串聯重復系列分型等。本文對迄今為止MTB的分子分型技術進行了簡要的綜述,希望有助于公共衛生及相關科技人員了解MTB流行的群體遺傳學和技術概況,了解有關實驗室技術的來源和應用意義。
1 MTB基因分型技術演變
MTB基因分型技術隨著分子標記的開發而演變。分子標記也叫遺傳標記,是基因組上一個或多個特定DNA片段,在群體上呈廣泛多樣性,因此能夠用來做鑒別工具。1970年代后期,分子生物學的發展和相關技術的商業化,使得利用分子技術對MTB進行研究成為可能。一般而言,分型技術在科學上朝著更好的可重復性、可重現性和更高的分辨率發展,同時在技術上也朝著更節省人工、更經濟的方向演進。更好的分子分型技術對研究MTB的群體遺傳學、功能基因組學、分子診斷和流行病學溯源有著顯而易見的幫助。MTB的分子標記開發,在早期主要是通過對M. tuberculosis H37Rv和M. bovis BCG這2個重要的菌株基因組比較研究得來,基于分子標記技術而開發的基因分型方法逐漸誕生,每種方法均有其優缺點。為了滿足更加精準的結核病防控,今后或許還會有更多新的分型技術出現,操作方便、結果準確、可重復性高、價格低廉的分型方法將更有利于推廣使用。以下就幾種主要的MTB基因分型技術的演變進行闡述。
1.1 限制性內切酶多態性及凝膠電泳
1984 年,新西蘭瓦拉塞維爾動物衛生實驗室(國家獸醫實驗室)的 Collins 等[2]利用 17 個限制性內切酶對M. tuberculosis H37Ra、M. tuberculosis H37Rv、M. bovis BCG 及 2 個野生 MTB 菌株進行限制性內切酶分析,發現內切酶 BstEⅡ 能較好地區分不同菌株。使用脈沖場凝膠電泳技術取代普通電泳可以提高限制性內切酶分型方法的分辨率[3]。該技術可靠而實用,操作簡單,無需放射性或特異的 DNA 探針,具有很高的重復性,但較小片段 DNA 的分辨率仍有待提高。
1.2 IS6110限制性片段長度多態性(restriction fragment length polymorphism,RFLP)分析
IS6110 在不同 MTB 菌株基因組中的數量和位置呈現出高度的多態性,使得基于 IS6110 的 RFLP 的分析成為一個良好的 MTB 分型方法,1991 年開始廣泛用于流行病學研究[4]。IS6110-RFLP 曾被推薦為 MTB 流行病學研究的“金標準”[5]。該技術分辨率高,多態性高,特異性強。但其操作相對復雜,需要大量的 MTB 菌株,需要多種昂貴儀器,結果不易分析,對于低拷貝或無拷貝的菌株難以鑒定,不便于實驗室比對。
1.3 間隔區寡核苷酸分型技術(Spoligotyping)
1996年,人們開始使用Spoligotyping對低拷貝的菌株進行鑒定。Spoligotyping是基于染色體上直接重復區位點的多態性分析。直接重復區位點數量在MTB群體中呈現多態性,在MTB中已經發現104個直接重復區位點,不同菌株在間隔區的序列不同,基于此對MTB進行鑒定[6]。該技術具有簡便、低成本、高準確性的優勢,只需要少量DNA,有良好的誘導性和可逆性,但分辨率不足,不能識別復合感染。
1.4 長序列多態性(large sequence polymorphism,LSP)分型技術
研究發現,大小不等的差異區域(regions of differences,RD)在 MTB 菌株中廣泛存在[7]。1999 年,美國斯坦福大學和加拿大麥吉爾大學的研究人員利用全基因組基因芯片技術比較了 H37RV 和卡介苗 BCG 傳代菌株之間的 RD,研究人員參照 Mahairas 的規則,以 RD+數字的格式命名了他們發現的若干個 RD,此后 RD 作為分子標記應用到了相關的研究中[7]。基于 RD 的 LSP 分析(RD-LSP)在 MTB 系統發生和遺傳進化研究中逐漸發揮著重要的作用[8]。RD 檢測操作便捷、快速,費用低廉,主要用于分枝桿菌的進化研究。
1.5 分枝桿菌散布重復單元(mycobcterial interspersed repetitive units,MIRU)-可變數目串聯重復序列分型(variable number of tandem repeat typing,VNTR)
2001 年,Mazars 等[9]開發了一種基于 12 個 MIRU 基因座的 VNTR 分型方法(12-loci MIRU-VNTR),其分辨率與 IS6110-RFLP 相當。其他常用的 MIRU-VNTR 還有 15-loci MIRU-VNTR 和 24-loci MIRU-VNTR[10]。MIRU-VNTR 的檢測手段常用聚合酶鏈反應產物進行凝膠電泳或者進行桑格測序分析。該技術是以聚合酶鏈反應為基礎的分型方法,簡單方便,易于推廣使用,數字化的結果更易于分析和室間比對。缺點是分辨率相對不高,若通過增加位點提高分辨率,則需要增加更多的實驗室工作量,儀器和試劑價格昂貴。
1.6 單核苷酸多態性(single nucleotide polymorphism,SNP)分型技術
在人類基因組計劃完成的鼓舞之下,更多的分枝桿菌基因組得到測定。2001年后,研究人員利用測定的細菌基因組序列,通過比較研究,試圖在基因組范圍內尋找SNP作為分子標記,通過篩選出的不同SNP組合將MTB菌株分成了不同的亞型。2014年,倫敦衛生和熱帶醫學學院的Coll等[11]分析了1601個世界各地的MTB基因組,鑒定了約9.2萬個SNP,基于SNP的系統發育顯示出與金標準RD分類體系相一致的結果;同時,提出了這些SNP中的62個用于區分已知的流行菌株,這種基于SNP的分子標記涵蓋了所有主要的譜系,并可以得到更精細的分型結果,但需要測序,價格昂貴,較難在實驗室推廣。
1.7 全基因組測序(whole genome sequencing,WGS)
2005年和2006年,美國的454生命科學公司和英國的Solexa公司分別發布了其自有技術的下一代測序設備并成功用于微生物的WGS,標志著下一代測序技術的商業成熟[12]。下一代測序技術的商業化,使得低成本大規模地測定基因組成為可能。2014年,德國Borstel研究中心的Kohl等[13]開發了一個用于MTB菌株分型的多位點序列分型技術(multilocus sequence typing,MLST)方法,該方法包含了3041個編碼基因,以期望得到一個基于技術的標準分型方案,方便實驗室之間的結果交流和實時監測。評估發現,MLST方法的分辨率與WGS-SNP相當,該方案于2018年更新,將考察的核心基因數量縮減為2891個[14],優化WGS技術。WGS可以進行基因組之間的比對、耐藥基因突變的分析、臨床治療研究的論證,從分子層面分析MTB的傳染源、代系、區域之間傳遞的潛在規律等,該技術將會是群體易感性研究的終級解決手段。WGS技術在MTB的檢測中敏感性高,在MTB疫情防控方面發揮著重要的作用[15],但是要構建起傳播網絡還是比較困難,這就需要進一步推進操作步驟和結果數據分析標準化,各權威機構也正在采取措施,實現WGS技術檢測MTB國際標準化[16],從而有望更快、更好地診斷結核病,為結核病防控提供更準確的科學依據。
1.8 MLST
2013年,Pitondo-Silva等[17]總結前人的工作,從14個MTB 的H37Rv菌株中篩選了7個管家基因(gyrA、gyrB、katG、purA、recA、rpoB和sodA)作為MLST的分子標記方案;研究人員還將MLST與MIRU-VNTR、Spoligotyping進行了比較,在對44個MTB菌株研究后發現,這個MLST方案可重復性較好,易于分析,操作簡便,但并沒有表現出更好的分辨率,且費用較高。
2 MTB群體遺傳學譜系
MTB在遠古時期伴隨著人類遷徙擴散,從非洲擴散到各大洲[18],在近代隨著新大陸的發現和國際貿易的興盛而二次擴散。隨著分子進化理論的發展和有關技術的發明,我們可以從細菌的基因組上重構整個MTB的流行史。人類社會的發展與MTB主要致病特征的形成密切相關,MTB在與人類共同進化的過程中,為適應生存環境,形成了自己獨特的致病特征,致病性和傳播能力更為增強。MTB作為人類迄今形影不離的“共生伙伴”,其流行史,就是人類遷徙交流的歷史,也是人類和疾病斗爭的歷史。
1995年,荷蘭國家公共衛生和環境保護研究所的van Soolingen等[19]對69個東亞來源MTB菌株(49個來源于北京,20個來源于蒙古)使用IS6110-RFLP進行分型,發現其中52個菌株具有相似的條帶類型。由于這些菌株大部分來自于北京,故將其命名為北京家族(Beijing family)。同時,使用Spoligotyping分析發現北京家族菌株具有一致的間隔區寡核苷酸分型(Spoligotype)(間隔區1-34缺失),因此也常用Spoligotyping來鑒定北京家族菌株[20],當最后9個間隔區中的一個或多個缺失時則被稱為類北京型(Beijing-like)[21]。根據北京基因型基因組NTF區域中的IS6110,北京家族又被分為古老型和現代型,其中NTF區域中IS6110的缺失叫做古老北京型。在基因型上,北京菌株被認為是一個遺傳相似度極高的群體,但近期大量分型或測序數據提示該群體內部存在一定的遺傳差異性[22]。目前為止,北京菌株的遺傳結構仍缺乏系統的研究,北京菌株的起源問題也存在爭議。美國貝勒醫學院的Sreevatsan等[23]收集了來源于40個國家的842個分枝桿菌菌株數據,通過分析26個結構基因(主要是耐藥相關)的序列,發現了分別位于2個基因上的2個高頻非同義突變SNP,分別位于gyrA95和katG465位密碼子,并根據其將MTB劃分為3個主要的基因群,分別命名為Group 1、Group 2、Group 3,其中Group 3基因群與散發而不是成簇的病例觀察結果表明,病原體正在向傳播能力或毒力降低的狀態發展,主要的生物學特性也有差異。英國倫敦健康保護局的Baker等[24]使用MLST對225個來源于英國(英格蘭和威爾士)的臨床分離株的7個管家基因(rpoB、katG、oxyR、ahpC、pncA、rpsL、和gyrA)進行測序分析,鑒定出36個同義突變SNP,并用其將MTB劃分為4個主要譜系,分別命名為Lineage Ⅰ、Lineage Ⅱ、Lineage Ⅲ、Lineage Ⅳ。美國西雅圖系統生物學研究所的Gagneux等[25]使用RD-LSP分析了80個國家來源的875個MTB分離株,根據基因組雜交的結果差異,鑒定了19個系統發生相關的種系特異性的RD標記,并用其將MTB劃分為6個主要譜系,根據其主要來源分別命名為印度洋、東亞、東非印度、歐美、西非1、西非2。美國國立衛生院過敏與傳染病研究所的Gutacker等[26]通過比較M. bovis AF2122/97、M. tuberculosis CDC1551、M. tuberculosis 210和M. tuberculosis H37Rv菌株的全基因組序列,選擇基因組范圍內,將來源于美國和歐洲4個地區的5069個菌株數據劃分成了9個主要的基因型簇,分別為Cluster Ⅰ、Cluster Ⅱ、Cluster Ⅱ.A、Cluster Ⅲ、Cluster Ⅳ、Cluster Ⅴ、Cluster Ⅵ、Cluster Ⅶ、Cluster Ⅷ。美國新澤西醫學和牙科大學的Filliol等[27]使用了與Gutacker等[26]相似的方法,根據159個同義突變SNP將來源于19個國家和地區的219個菌株劃分為10個SNP簇組(SNP cluster group,SCG),分別為SCG 1、SCG 2、SCG 3a、SCG 3b、SCG 3c、SCG 4、SCG 5、SCG 6a、SCG 6b、SCG 7。Gagneux等[28]對MTB系統發育研究進行綜述,在RD-LSP的基礎上,將世界范圍內的MTB歸為6個系,并以“Lineage+數字”的編號命名。埃塞俄比亞阿默爾漢森研究所的Firdessa等[29]對來源于埃塞俄比亞的964個菌株分型研究,發現其中36個菌株有著特殊的Spoligotype,并且不屬于已知的6個系(Lineage 1~6),于是選取其中的4株進行WGS及SNP系統發育研究,發現并定義了一個新的譜系,命名為Lineage 7(Ethiopia)。至此,全球范圍內流行的、已經分離到的MTB菌株,幾乎都可以劃分到上述7個單系類群(Monophyletic group)中的1個[30]。Coll等[11]分析了1601個世界各地的MTB菌株的全基因組數據,確定了一組可以識別所有7個Lineage的SNP(共62個),并且可以根據這組62個SNP將MTB菌株細分成55個亞系。MTB 7個主要譜系相關的研究對比見表1[28, 30-33]。

MTB群體遺傳學研究將菌株規范劃分為7個人類適應性譜系[34],通過WGS-SNP可進行精準分型與鑒定。分布最廣的類群是譜系2(主要存在于東亞)和譜系4(主要出現在歐美、亞洲、非洲人群),譜系1和譜系3主要在東非、中亞、南亞和東南亞,譜系5~7存在于非洲的特定區域。這些研究解決了及時有效獲取樣本及對應信息的難題,同時可以利用傳統的流行病學手段對流行病學調查中獲得的大量數據,配合環境等其他相關因素進行分析界定。隨著基因組學研究手段與傳統公共衛生流行病學研究的進一步結合,群體遺傳學能夠精準判斷結核病的流行軌跡、人群易感性等,對感染者的發病進程以及臨床治療的解決方案提供準確可靠的科學依據。
3 MTB分型命名規則
亞型的命名是指為特定的菌株亞型賦名,目的是方便交流和數據交換利用。命名的方式可以通過系統命名法和人工賦名。分子分型技術利用遺傳標記的拷貝數、序列堿基變化等可以設計出系統命名的規則。但如同國際純粹與應用化學聯合會的系統命名法一樣,系統命名法所得到的名稱一般冗長且符號難被人類所讀寫識別,因此,除了系統命名之外,很多場合仍然需要使用人工賦予通俗的名稱,以指代特定的細菌亞型。基于不同的遺傳標記有著不同的命名方式,其人工賦名也有對應的機構在維護。以下是常見的MTB分子分型命名法。
3.1 RD+編號命名
1996年,Mahairas等[35]將首次發現的3個RD分別命名為RD1、RD2和RD3。后續的研究便沿用了“RD+編號”的命名規則,將所發現的 RD 按照發現的時間先后以及該區域在M. tuberculosis H37Rv基因組上的相對位置進行編號命名,例如RD105、RD239等。
3.2 SIT+數字編號命名
2001年,荷蘭國家健康與環境衛生研究所連同法國巴斯德研究所等單位,為了解決Spoligotyping命名混亂的問題,提出了系統命名法,使用十進制、二進制等進行標準化描述[36-37]。“0”和“1”代表43個間隔區的有和無,十進制方案由二進制方案每連續3個間隔區的值換算而來。每個特定的系統命名通過Spoligotyping國際型(Spoligo-International-Type,SIT)人工賦予一個簡略的數字編號,如表2。

3.3 MIRU-VNTR命名
2008年,Allix-Béguec等[10]整理了24位點(MtbC15-9)的MIRU-VNTR分型數據庫,并將其與Spoligotyping、RD-LSP等分型結果進行了關聯對照。該方案的結果命名,以loci編號為次序列出每個基因座的重復單元數(整數),以此得到的一個數列作為系統命名。為了便于分型結果的交流,Weniger等[38]引入了擴展命名MtbC15-9,是基于判別子集的15個基因座(MtbC15)和9個輔助基因座(MtbC9)的組合,將數字編碼分配給每一個24-loci MIRU-VNTR型,見表3。

3.4 核心基因組MLST(core genome MLST,cgMLST)命名
2014年7月,Kohl等[13]開發了基于cgMLST的方案,目前該分型方案所考察的基因數量為2891個,以方便實驗室間基于WGS技術流行病學研究結果的交流與實時監測。該方案的命名法與傳統MLST相似,每個基因的序列將得到一個序列編號,所有基因序列編號的組合即得到菌株的分型(cgMLST CT)[14]。目前MLST方案都沒有系統命名方案,只通過人工賦名—一個阿拉伯數字代號。
3.5 WGS-SNP
盡管 WGS-SNP 有著最高的分辨率,但目前該方法所得的分型結果沒有統一的命名方案。WGS-SNP 命名方法通常使用 Coll 等[11]的 62 SNP 方案將分離株劃分到7個 Lineage 中,或者得到更精細的亞譜系。由于 WGS 可以獲得整個基因組的信息,該法也可以使用電腦模擬實驗(in silico)的方式采用傳統的分子標記進行分型,如 in silico spoligotyping 等。
4 MTB分型數據庫/工具
為提供全局統一的分子分型賦名,科研人員發布了多個MTB分子分型數據庫及在線工具,這些數據庫的主要目的是收集并命名已經發現的細菌亞型,同時提供in silico的分型和查詢服務,其中大部分仍在更新維護。我們將其整理如下(表4)[13, 27, 33, 37, 39-52]。

5 小結與展望
MTB培養鑒定技術已沿用100多年,而分子分型技術則只有30多年。基因分型是結核病分子流行病學研究的重要內容,在結核病近期傳播追蹤、暴發流行調查、快速菌種鑒定與耐藥/耐多藥檢測,以及實驗室污染鑒定、內源性復染和外源性再感染的區分等方面具有重大意義,在研究結核病的病原演變,以及確定傳染源、揭示疾病傳播機制方面能夠發揮關鍵的作用。
基因組測定是分子分型的終極技術,也是病原體監測的主流趨勢。各個時期發明的MTB分子分型技術在原理上的差異造成了其術語體系的混亂,這種混亂繼而造成不同監測工作所得結果的理解困難[53]。在此,我們從系統發生和分子遺傳學的視角,對主要的分子分型技術所得結果之間的相互關系進行了回顧,厘清了有關術語名詞的關系、不同技術在遺傳學上的分辨力,以及在具體工作中的適用性。
未來的MTB分型技術,應當是以基因組測定為主,但其系統命名的方式仍需要研究和開發。基于基因組測定的分型,每個分型技術都有其優缺點,多種方法聯合應用具有重復性好、分辨率高、適合于自動化分析、結果數字化、便于不同實驗室間進行比對等優點。在實際工作中,應根據不同研究目的選擇合適的技術,同時需要提供兼容舊分型方案的結果,以便歷史數據的核對利用。
利益沖突:所有作者聲明無利益沖突。