利用生物信息學方法探索志賀菌成簇的規律間隔的短回文重復序列(CRISPR)系統結構的特征。本文通過BLAST、序列比對、RNA二級結構預測等方法對志賀菌CRISPR進行研究。結果顯示:志賀菌的4個群中均發現有CRISPR結構, 其側翼上、下游序列可分為相同組群, 在leader序列中存在具有回文性質、相對保守的motif; 側翼序列與重復序列具有相同的分組, 重復序列有一定的保守性, 可以形成以"莖"為主和以"環"為主兩類不同的RNA二級結構; 間隔序列與質粒或噬菌體有一定的同源性。本研究表明重復序列與側翼序列間存在相關性, 重復序列可能作為一種識別機制來介導外源元素與Cas蛋白間的相互作用。
引用本文: 王鵬飛, 王穎芳, 段廣才, 薛澤潤, 王琳琳, 郭向嬌, 楊海燕, 郗園林. 志賀菌成簇的規律間隔的短回文重復序列系統結構特征的生物信息學分析. 生物醫學工程學雜志, 2015, 32(2): 343-349. doi: 10.7507/1001-5515.20150063 復制
引言
志賀菌屬細菌,通稱為痢疾桿菌,是人類細菌性痢疾(簡稱菌痢)的病原菌。菌痢是一個全球性的公共衛生問題,尤其是在發展中國家更為嚴重[1]。在我國菌痢屬于常見病且多發,菌痢發病率居我國傳染病發病率前三位,引起的感染性腹瀉帶來巨大的經濟和社會負擔,其中福氏志賀菌是最常見的病原體[2]。在自然界中,微生物依靠多樣化的防御機制來抵抗病毒的入侵,各種遺傳元素,如質粒、整合子及噬菌體等,通過轉導、轉化和接合等水平基因轉移(horizontal gene transfer, HGT)的方式進入到細菌基因組中,這種方式雖會破壞其完整性,但通過這種方式,細菌也可以獲得抵抗外界的能力,如獲得毒力或耐藥基因,就可能出現新亞型菌株或細菌耐藥性增強等[3-5]。隨著抗生素的廣泛應用,志賀菌耐藥情況越來越嚴重,多種藥物耐藥率呈現逐年上升趨勢,因此及時對新型志賀菌耐藥性進行監測并提供合適的抗菌治療尤為必要[2, 6-7]。
成簇的規律間隔的短回文重復序列(clustered regularly interspaced short palindromic repeats,CRISPR)是一種廣泛分布在細菌和古細菌中高度多樣化的遺傳結構,由一段不連續的正向重復序列(direct repeat,DR)和插入其中的間隔序列(spacer,S)組成[8-9]。重復序列在一個CRISPR位點中幾乎完全一致,其顯著的特征是可以轉錄且形成RNA二級結構;間隔序列在CRISPR結構中是高度可變的,在同一個CRISPR位點中幾乎找不到兩個相同的間隔序列,目前普遍認為間隔序列來源于外源可移動遺傳因子[10-11]。在CRISPR的5'端通常含有一段富含AT的前導序列(leader,L)存在于非編碼區,在不同的物種間不保守,研究已經證實,CRISPR的leader序列中包含它的轉錄啟動子,新插入的間隔序列總是加在leader序列與相鄰的末端重復序列的上游[9]。
CRISPR與CRISPR相關蛋白(Cas蛋白)組成的CRISPR/Cas系統能夠形成獨特的機制來應對質粒的接合或轉化以及噬菌體感染引起的基因導入,從而抵抗外源遺傳物質的入侵,同時,也有可能限制致病菌耐藥性的蔓延[3, 12-13]。目前對于CRISPR研究逐漸增多,也逐漸在細菌中進行CRISPR結構功能的研究,但在志賀菌中的CRISPR結構研究還相對較少,本文通過對志賀菌CRISPR結構進行生物信息學分析,初步揭示志賀菌CRISPR的結構特征,同時探討間隔序列的同源性。
1 材料與方法
1.1 實驗數據
志賀菌屬的菌株全基因組序列從NCBI(http://www.ncbi.nlm.nih.gov/)獲取,志賀菌屬菌株的CRISPR信息(包括重復序列、間隔序列和側翼序列)從CRISPRdb數據庫獲得。
1.2 實驗方法
側翼序列通過clustal X軟件及CRISPRfinder的工具庫進行多序列比對,DNAMAN軟件做一致性檢測;RNA二級結構的預測通過RNAfold完成;間隔序列的外源相似序列,通過NCBI Blast(缺省參數)與nr數據庫進行比對。
2 結果
2.1 志賀菌的CRISPR概括分析
目前在NCBI公布的9株志賀菌均發現有CRISPR系統(見表 1)。志賀菌CRISPR全部位于染色體上,在宋內志賀菌上的CRISPR位點相對較多,有4個位點,其次是福氏志賀菌,鮑氏以及痢疾志賀菌包含的CRISPR位點相對較少。重復序列最多有4個(存在于Shigella sonnei 53G),以2個或3個居多,即每個CRISPR位點的間隔序列大多是1或2,重復序列大小為27~48 bp,間隔序列大小為31~60 bp。在9株志賀菌中發現的CRISPR位點共有21個,其中確定的有9個,可疑位點有12個。

2.2 側翼序列
通過對21個CRISPR位點上游側翼序列700 bp進行多序列比對,CRISPRfinder工具庫的結果顯示,上游側翼序列可以分為8組,同樣對CRISPR位點下游側翼序列700 bp進行多序列比對,其也分為8組,經過比對發現,上游和下游序列具有相同的分組結果(見圖 1、表 1)。對上、下游各個組的序列進行序列一致性檢測,除了第5組上游序列一致性為83.97%,其它各組的序列一致性均高于97%(見表 2)。

左側為上游序列比對; 右側為下游序列比對
Figure1. Alignment of flanking sequencesLeft: the alignment for upstream sequence; right: the alignment for downstream sequence

在CRISPR位點側翼序列上游700 bp尋找leader,leader是一段富含AT、不太保守且可能具有回文結構性質的序列。根據特征,尋找leader序列回文結構motif。通過序列比對分析發現,含有leader的為2、3、4、8組,其共同特征為:含有多個連續的“A”和“T”;AT含量在54%~75%;能形成不同motif,但并不保守。第7組也發現有多個連續“A”和“T”,也發現有合適的motif,但其AT含量僅為46.87%,通過分析發現,第7組CRISPR位點上游總有第2組的CRISPR位點,故推測可能是第7組CRISPR的leader共用了第2組的leader。第6組雖然有多個連續的A、T,但其AT含量并不高,且沒有發現合適的motif。在第1、5組中并沒有發現符合leader特征的序列。
2.3 重復序列
依據側翼序列的分組,比較各個組內志賀菌重復序列,將相同的重復序列歸為一類(見表 3,字母a~k分別表示相同的重復序列),我們發現同組內的重復序列相似或相同。e、f、g、h內的的重復序列相同,e和f的重復序列相差一個堿基T,i和j的重復序列相差兩個堿基A、C。因此,我們認為側翼序列與重復序列之間存在相關性。

通過古菌中的實驗證實,重復序列的核苷酸序列可以轉錄為RNA并形成RNA二級結構,這種結構對于CRISPR行使功能起著關鍵的作用。對志賀菌的重復序列進行RNA二級結構分析(見圖 2),經預測,座位Sf8401-2(24 bp)的重復序列不能形成RNA二級結構,其它均可形成。根據莖環特征,可以分為兩類:一類是以b、e、f、i、j為代表形成的,在整個結構中含有唯一的莖部分,一大一小兩個環分布在莖的兩端,該結構類型是以“環”為主;另一類結構是由a、c、d、g、h形成的莖、環依次形成,多個莖、環的結構,以“莖”為主。

2.4 間隔序列
志賀菌的21個CRISPR位點中共有31個間隔序列,長度為31~60 bp。在這些序列中,某些間隔序列彼此相同或相似(見圖 3),如間隔序列NC_016822_1_1和間隔序列NC_007384_1_1相同,間隔序列NC_010658_3_1和間隔序列NC_007613_4_1相似。間隔序列和重復序列的序列比對表明,相同的間隔序列所對應的重復序列相同;而某些重復序列雖然相同或相似,對應的間隔序列卻不同,如Sf02017-1和Sf2457T-1的重復序列只相差一個堿基T,所對應的間隔序列卻完全不同。

對31個間隔序列進行同源性搜索,其中12個間隔序列與質粒或噬菌體存在一定同源性(見表 4)。對同源質粒進行分析,在質粒中與間隔序列一致的序列大多存在于編碼區,間隔序列NC_016822_5_1可能同源的質粒序列編碼的產物是“hypothetical protein”,間隔序列NC_008258_3_2可能同源的質粒序列編碼的產物是“HD domain-containing protein”,間隔序列NC_007613_3_1可能同源的質粒序列是基因“traP”(編碼的產物是“TraP putative transcriptional regulator”),間隔序列NC_016822_5_2可能同源的質粒編碼產物大多屬于IS66或是編碼轉座酶的序列的一段。

3 討論
CRISPR結構是一種抵抗外來遺傳物質入侵的新型原核生物的防御系統,近年來對其研究逐步深入[4, 9, 13]。本研究對志賀菌的CRISPR進行系統的生物信息學分析,發現志賀菌重復序列和間隔序列較少、重復序列形成的RNA二級結構并不完全保守等特點。志賀菌的間隔序列與某些噬菌體或質粒存在同源性,并深入探索其同源性,對可能同源的質粒進行分析,闡述相應序列的編碼產物。
通過側翼序列、重復序列的分析,發現重復序列與側翼序列存在相關性,不同的側翼序列對應的重復序列不同。因此,尋找細菌中存在的CRISPR,分析細菌中存在的CRISPR類型,可對細菌的抵抗機制進行研究和驗證。對重復序列及間隔序列比對分析,發現一個重復序列可以對應多個間隔序列,而一個間隔序列只對應一個重復序列,推測重復序列可能作為一種識別機制,這還需要后續研究的證實。
本次研究得到的RNA二級結構特征與文獻報道一致。Victor等的研究顯示,穩定、保守的RNA二級結構在重復序列轉錄為RNA的過程中,間隔序列與外源DNA或RNA發生作用通常是通過相鄰的兩個重復序列互補完成,當重復序列能夠形成以“環”為主的二級結構時,則是通過單個的“repeat-spacer”單元完成,故推測,在該過程中重復序列可能介導外源的遺傳元素與cas編碼的蛋白質間的相互作用[11, 14]。
某些間隔序列相同或相似,表明志賀菌在相同的生活環境中受到相同的遺傳物質的入侵,志賀菌獲得了這些外源遺傳物質的某些片段。對間隔序列同源的質粒進行分析表明,在質粒侵染過志賀菌后,留下了某些特異性片段作為印記,使得志賀菌可以獲得特異性的免疫防御機制,對外界環境能夠更好地適應,進一步的研究工作本課題組正在進行中。同時,根據間隔序列進行菌株的分型已經得到運用,通過間隔序列為志賀菌提供新的分子標記成為一種可能。此外,CRISPR的作用機制與真核生物的RNA干擾相似,利用這一特點,對CRISPR進行改造,插入待研究基因序列,將目標基因沉默,為基因敲除提供新的思路[11]。利用多種細菌均可表達的Cas9內切酶,可對特定的DNA片段進行定向的切割,此為基因組改造的新技術,實驗也證實了Cas9能用于編輯哺乳動物細胞基因組,故CRISPR基因組編輯技術也許能應用于未來的臨床治療[8, 15-16]。
本次研究著重研究志賀菌的側翼序列、重復序列及間隔序列,在目前發表的文獻中對側翼序列研究多集中在leader,目前公認的leader是一段富含A、T,且含有回文結構的一段序列,其功能是作為CRISPR啟動子。當前研究的熱點是尋找間隔序列的外源片段,然而,間隔序列長短異常多樣化,能夠搜索到具有相似性外源片段的概率很小,本文的研究發現了某些線索,為尋找與間隔序列同源的質粒和噬菌體提供依據。本次研究主要是對志賀菌的CRISPR結構特征進行生物信息學分析,得到的特征存在一定局限性,但發現的某些特征與文獻結果相同或相似,故可以為相關研究提供指導和幫助。
引言
志賀菌屬細菌,通稱為痢疾桿菌,是人類細菌性痢疾(簡稱菌痢)的病原菌。菌痢是一個全球性的公共衛生問題,尤其是在發展中國家更為嚴重[1]。在我國菌痢屬于常見病且多發,菌痢發病率居我國傳染病發病率前三位,引起的感染性腹瀉帶來巨大的經濟和社會負擔,其中福氏志賀菌是最常見的病原體[2]。在自然界中,微生物依靠多樣化的防御機制來抵抗病毒的入侵,各種遺傳元素,如質粒、整合子及噬菌體等,通過轉導、轉化和接合等水平基因轉移(horizontal gene transfer, HGT)的方式進入到細菌基因組中,這種方式雖會破壞其完整性,但通過這種方式,細菌也可以獲得抵抗外界的能力,如獲得毒力或耐藥基因,就可能出現新亞型菌株或細菌耐藥性增強等[3-5]。隨著抗生素的廣泛應用,志賀菌耐藥情況越來越嚴重,多種藥物耐藥率呈現逐年上升趨勢,因此及時對新型志賀菌耐藥性進行監測并提供合適的抗菌治療尤為必要[2, 6-7]。
成簇的規律間隔的短回文重復序列(clustered regularly interspaced short palindromic repeats,CRISPR)是一種廣泛分布在細菌和古細菌中高度多樣化的遺傳結構,由一段不連續的正向重復序列(direct repeat,DR)和插入其中的間隔序列(spacer,S)組成[8-9]。重復序列在一個CRISPR位點中幾乎完全一致,其顯著的特征是可以轉錄且形成RNA二級結構;間隔序列在CRISPR結構中是高度可變的,在同一個CRISPR位點中幾乎找不到兩個相同的間隔序列,目前普遍認為間隔序列來源于外源可移動遺傳因子[10-11]。在CRISPR的5'端通常含有一段富含AT的前導序列(leader,L)存在于非編碼區,在不同的物種間不保守,研究已經證實,CRISPR的leader序列中包含它的轉錄啟動子,新插入的間隔序列總是加在leader序列與相鄰的末端重復序列的上游[9]。
CRISPR與CRISPR相關蛋白(Cas蛋白)組成的CRISPR/Cas系統能夠形成獨特的機制來應對質粒的接合或轉化以及噬菌體感染引起的基因導入,從而抵抗外源遺傳物質的入侵,同時,也有可能限制致病菌耐藥性的蔓延[3, 12-13]。目前對于CRISPR研究逐漸增多,也逐漸在細菌中進行CRISPR結構功能的研究,但在志賀菌中的CRISPR結構研究還相對較少,本文通過對志賀菌CRISPR結構進行生物信息學分析,初步揭示志賀菌CRISPR的結構特征,同時探討間隔序列的同源性。
1 材料與方法
1.1 實驗數據
志賀菌屬的菌株全基因組序列從NCBI(http://www.ncbi.nlm.nih.gov/)獲取,志賀菌屬菌株的CRISPR信息(包括重復序列、間隔序列和側翼序列)從CRISPRdb數據庫獲得。
1.2 實驗方法
側翼序列通過clustal X軟件及CRISPRfinder的工具庫進行多序列比對,DNAMAN軟件做一致性檢測;RNA二級結構的預測通過RNAfold完成;間隔序列的外源相似序列,通過NCBI Blast(缺省參數)與nr數據庫進行比對。
2 結果
2.1 志賀菌的CRISPR概括分析
目前在NCBI公布的9株志賀菌均發現有CRISPR系統(見表 1)。志賀菌CRISPR全部位于染色體上,在宋內志賀菌上的CRISPR位點相對較多,有4個位點,其次是福氏志賀菌,鮑氏以及痢疾志賀菌包含的CRISPR位點相對較少。重復序列最多有4個(存在于Shigella sonnei 53G),以2個或3個居多,即每個CRISPR位點的間隔序列大多是1或2,重復序列大小為27~48 bp,間隔序列大小為31~60 bp。在9株志賀菌中發現的CRISPR位點共有21個,其中確定的有9個,可疑位點有12個。

2.2 側翼序列
通過對21個CRISPR位點上游側翼序列700 bp進行多序列比對,CRISPRfinder工具庫的結果顯示,上游側翼序列可以分為8組,同樣對CRISPR位點下游側翼序列700 bp進行多序列比對,其也分為8組,經過比對發現,上游和下游序列具有相同的分組結果(見圖 1、表 1)。對上、下游各個組的序列進行序列一致性檢測,除了第5組上游序列一致性為83.97%,其它各組的序列一致性均高于97%(見表 2)。

左側為上游序列比對; 右側為下游序列比對
Figure1. Alignment of flanking sequencesLeft: the alignment for upstream sequence; right: the alignment for downstream sequence

在CRISPR位點側翼序列上游700 bp尋找leader,leader是一段富含AT、不太保守且可能具有回文結構性質的序列。根據特征,尋找leader序列回文結構motif。通過序列比對分析發現,含有leader的為2、3、4、8組,其共同特征為:含有多個連續的“A”和“T”;AT含量在54%~75%;能形成不同motif,但并不保守。第7組也發現有多個連續“A”和“T”,也發現有合適的motif,但其AT含量僅為46.87%,通過分析發現,第7組CRISPR位點上游總有第2組的CRISPR位點,故推測可能是第7組CRISPR的leader共用了第2組的leader。第6組雖然有多個連續的A、T,但其AT含量并不高,且沒有發現合適的motif。在第1、5組中并沒有發現符合leader特征的序列。
2.3 重復序列
依據側翼序列的分組,比較各個組內志賀菌重復序列,將相同的重復序列歸為一類(見表 3,字母a~k分別表示相同的重復序列),我們發現同組內的重復序列相似或相同。e、f、g、h內的的重復序列相同,e和f的重復序列相差一個堿基T,i和j的重復序列相差兩個堿基A、C。因此,我們認為側翼序列與重復序列之間存在相關性。

通過古菌中的實驗證實,重復序列的核苷酸序列可以轉錄為RNA并形成RNA二級結構,這種結構對于CRISPR行使功能起著關鍵的作用。對志賀菌的重復序列進行RNA二級結構分析(見圖 2),經預測,座位Sf8401-2(24 bp)的重復序列不能形成RNA二級結構,其它均可形成。根據莖環特征,可以分為兩類:一類是以b、e、f、i、j為代表形成的,在整個結構中含有唯一的莖部分,一大一小兩個環分布在莖的兩端,該結構類型是以“環”為主;另一類結構是由a、c、d、g、h形成的莖、環依次形成,多個莖、環的結構,以“莖”為主。

2.4 間隔序列
志賀菌的21個CRISPR位點中共有31個間隔序列,長度為31~60 bp。在這些序列中,某些間隔序列彼此相同或相似(見圖 3),如間隔序列NC_016822_1_1和間隔序列NC_007384_1_1相同,間隔序列NC_010658_3_1和間隔序列NC_007613_4_1相似。間隔序列和重復序列的序列比對表明,相同的間隔序列所對應的重復序列相同;而某些重復序列雖然相同或相似,對應的間隔序列卻不同,如Sf02017-1和Sf2457T-1的重復序列只相差一個堿基T,所對應的間隔序列卻完全不同。

對31個間隔序列進行同源性搜索,其中12個間隔序列與質粒或噬菌體存在一定同源性(見表 4)。對同源質粒進行分析,在質粒中與間隔序列一致的序列大多存在于編碼區,間隔序列NC_016822_5_1可能同源的質粒序列編碼的產物是“hypothetical protein”,間隔序列NC_008258_3_2可能同源的質粒序列編碼的產物是“HD domain-containing protein”,間隔序列NC_007613_3_1可能同源的質粒序列是基因“traP”(編碼的產物是“TraP putative transcriptional regulator”),間隔序列NC_016822_5_2可能同源的質粒編碼產物大多屬于IS66或是編碼轉座酶的序列的一段。

3 討論
CRISPR結構是一種抵抗外來遺傳物質入侵的新型原核生物的防御系統,近年來對其研究逐步深入[4, 9, 13]。本研究對志賀菌的CRISPR進行系統的生物信息學分析,發現志賀菌重復序列和間隔序列較少、重復序列形成的RNA二級結構并不完全保守等特點。志賀菌的間隔序列與某些噬菌體或質粒存在同源性,并深入探索其同源性,對可能同源的質粒進行分析,闡述相應序列的編碼產物。
通過側翼序列、重復序列的分析,發現重復序列與側翼序列存在相關性,不同的側翼序列對應的重復序列不同。因此,尋找細菌中存在的CRISPR,分析細菌中存在的CRISPR類型,可對細菌的抵抗機制進行研究和驗證。對重復序列及間隔序列比對分析,發現一個重復序列可以對應多個間隔序列,而一個間隔序列只對應一個重復序列,推測重復序列可能作為一種識別機制,這還需要后續研究的證實。
本次研究得到的RNA二級結構特征與文獻報道一致。Victor等的研究顯示,穩定、保守的RNA二級結構在重復序列轉錄為RNA的過程中,間隔序列與外源DNA或RNA發生作用通常是通過相鄰的兩個重復序列互補完成,當重復序列能夠形成以“環”為主的二級結構時,則是通過單個的“repeat-spacer”單元完成,故推測,在該過程中重復序列可能介導外源的遺傳元素與cas編碼的蛋白質間的相互作用[11, 14]。
某些間隔序列相同或相似,表明志賀菌在相同的生活環境中受到相同的遺傳物質的入侵,志賀菌獲得了這些外源遺傳物質的某些片段。對間隔序列同源的質粒進行分析表明,在質粒侵染過志賀菌后,留下了某些特異性片段作為印記,使得志賀菌可以獲得特異性的免疫防御機制,對外界環境能夠更好地適應,進一步的研究工作本課題組正在進行中。同時,根據間隔序列進行菌株的分型已經得到運用,通過間隔序列為志賀菌提供新的分子標記成為一種可能。此外,CRISPR的作用機制與真核生物的RNA干擾相似,利用這一特點,對CRISPR進行改造,插入待研究基因序列,將目標基因沉默,為基因敲除提供新的思路[11]。利用多種細菌均可表達的Cas9內切酶,可對特定的DNA片段進行定向的切割,此為基因組改造的新技術,實驗也證實了Cas9能用于編輯哺乳動物細胞基因組,故CRISPR基因組編輯技術也許能應用于未來的臨床治療[8, 15-16]。
本次研究著重研究志賀菌的側翼序列、重復序列及間隔序列,在目前發表的文獻中對側翼序列研究多集中在leader,目前公認的leader是一段富含A、T,且含有回文結構的一段序列,其功能是作為CRISPR啟動子。當前研究的熱點是尋找間隔序列的外源片段,然而,間隔序列長短異常多樣化,能夠搜索到具有相似性外源片段的概率很小,本文的研究發現了某些線索,為尋找與間隔序列同源的質粒和噬菌體提供依據。本次研究主要是對志賀菌的CRISPR結構特征進行生物信息學分析,得到的特征存在一定局限性,但發現的某些特征與文獻結果相同或相似,故可以為相關研究提供指導和幫助。