引用本文: 王海明, 張馳, 魏向陽, 魏全, 何成奇. 膝骨關節炎軟骨細胞中差異基因表達的生物信息學分析. 華西醫學, 2021, 36(5): 623-631. doi: 10.7507/1002-0179.202103320 復制
骨關節炎(osteoarthritis,OA)的發病過程主要為生物力學和生物學等綜合因素共同作用下,軟骨細胞、細胞外基質和軟骨下骨三者合成-降解失衡所致[1-2]。其發病機制不明,現有的研究主要集中于軟骨細胞,以及細胞外基質和軟骨下骨的變化。OA 康復治療目標以緩解疼痛、改善日常活動功能為主,其中物理治療起著舉足輕重的作用[1, 3]。隨著細胞生物學、分子生物學等相關學科的交叉滲透,涉及 OA 疾病信號通路中生物標志物的研究成為關注的重點、熱點[4-5],現有研究提示 OA 病變機制復雜,單一信號通路可能無法明確闡述其發病機制[6],因此,急需對 OA 復雜的信號轉導網絡關系進行篩選及深入探討,這對于解釋疾病背后的發病機制、物理治療有效性的機制,以及未來疾病預防、診治方面都重要的意義。生物信息學是生物學與信息學的交叉科學,其研究對象主要集中在基因和蛋白質 2 個方面,在生命科學的研究中發揮著至關重要的作用[7-8]。基因芯片技術用于研究基因表達譜與生物學功能之間可能存在的聯系[9-11],它的出現使我們可一次性對上萬個基因的表達譜進行檢測,極大地推動了生物信息學技術的進步[12]。本研究利用生物信息學方法對來自基因表達綜合數據庫(Gene Expression Omnibus,GEO)中 OA 患者軟骨細胞基因芯片數據進行差異表達分析,隨后進行京都基因和基因組數據庫(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析[9-10],采用文本挖掘分析其分子作用關系,構建疾病相關差異基因的分子調控網絡,旨在進一步探究 OA 發生的分子機制。
1 資料與方法
1.1 軟骨細胞樣本數據的獲取
在 GEO 數據庫(https://www.ncbi.nlm.nih.gov/geo/)在線檢索人類基因芯片樣本,以“osteoarthritis OR cartilage OR chondrocyte*”為檢索策略,滿足以下納入標準:① OA 疾病診斷符合美國風濕病學會診斷標準[13];② 樣本包含 OA 軟骨細胞和對照組正常軟骨細胞的檢測數據;③ 軟骨細胞樣本與對照組樣本數均需≥3 個,標本具有可重復性。獲得 GPL570 平臺上由 Dehne 等[14]提供的芯片數據系列 GSE16464,所用的實驗平臺為美國昂飛公司(Affymetrix, Inc)的 Affymetrix Human Genome U133 Plus 2.0 Array 人類全基因芯片數據。共納入樣本 6 個,其中 OA 軟骨細胞組樣本 3 個,對照組為正常膝關節軟骨細胞樣本 3 個(表1)。

1.2 基因分析
1.2.1 數據處理
對基因數據平臺中存儲的原始數據樣本進行數據預處理,減少原始數據誤差,增強進一步數據挖掘分析的信度[12, 14-15]。分析過程中我們借助基因本體論(Gene Ontology,GO)、KEGG 通路分析和基因/蛋白質相互作用關系檢索工具(Search Tool for the Retrival of Interacting Genes/Proteins,STRING)等信息數據庫和 R 語言、Perl 語言、Cytoscape 分析軟件及 DAVID(Database for Annotation, Visualization and Integrated Discovery)(https://david.ncifcrf.gov/home.jsp)等分析工具。通過已知的信號傳導通路及生化代謝反應通路,與在實驗中得到的具體數據結合對其網絡進行分析。
1.2.2 基因數據統計方法
使用 Perl 5.22.4 語言編輯軟件將探針 ID 數據進行注釋,并轉換為基因名稱(gene symbol)。使用 R 3.4.3 語言編輯軟件進行芯片數據預處理和分析,使樣本之間歸一化具有可比性,基因表達原始數據進行標準化。通過 Affy 包中的 RMA(robust multi-arry avery)背景矯正和歸一化處理后,對數據進行匯總從而獲取矯正后表達水平的標準化數據[9]。通過 R 語言中線性回歸模型軟件包 limma 包對不同組的芯片進行差異計算,并用貝葉斯方法進行多重檢驗校正,通過倍比法(fold change,FC)和P值篩選獲得差異基因[16]。差異基因的獲得需同時滿足以下條件:① |log2FC|>2;② P<0.05。然后,通過 GO、KEGG、蛋白相互作用網絡分析采用超幾何算法和 Benjamini 法對數據進行矯正分析。
1.2.3 基因 GO 數據庫功能富集分析
GO 是一組預先定義好的、用來描述基因及其產物功能和行為標準術語,通過分析蛋白質術語之間的語義關系可以估計蛋白質之間的功能相似性。GO 數據庫作為對基因及其蛋白質產物的功能進行系統描述的數據庫,已經被廣泛應用于分析基因(及其產物)間的功能相似性、基于高通量生物學數據分析疾病相關的生物學功能通路上,是目前最為成功的對生物學進行系統描述的工具[17]。我們通過 GO 分類號和 GO 數據相關分析工具將分類與具體基因聯系起來,從而對該基因的功能分別在生物學過程、分子功能和細胞成分 3 個細胞生物學領域對基因及其產物的功能進行定義。
本研究所得到的差異基因通過 DAVID 數據庫進行基因功能分化,應用 EASE(expression analysis systemic explore)方法選取 EASE<0.1 注釋基因條目[18]。
1.2.4 蛋白質相互作用
我們利用 STRING 數據庫[19](https://string-db.org/)在線檢索、預測蛋白質之間直接的物理相互作用和間接功能的相關性。將篩選出的差異基因輸入到 STRING 10.5 數據庫中,選取交互作用最小評分大于 0.4(中等置信度)的相互作用關系構建 OA 軟骨細胞和正常組相關差異基因的蛋白相互作用網絡。
最后,將 STRING 數據庫中得到的蛋白質相互作用結果導入 Cytoscape 軟件[20-21]中,進行網絡分析及可視化操作,建構可視化的分子交互作用網絡,并且對大規模蛋白質和蛋白質之間交互作用、蛋白質和 DNA 之間等交互作用的關聯性進行分析。利用軟件中 cytoHubba 插件同時計算各蛋白之間相互關聯緊密程度的等級(degree)進一步篩選出 OA 軟骨細胞的作用關鍵基因(hub gene)。
1.2.5 KEGG 通路富集分析
將本研究所得到的差異基因進行 KEGG 通路富集分析,通過對細胞內已知生物學過程的計算機化和將現有的基因功能信息解釋標準化,對基因的功能進行注釋和分析[22],篩選出 OA 軟骨細胞代謝的相關通路。
2 結果
2.1 數據標準化
基因原始數據表達值的中位數值呈現不均一狀態(圖 1a)。

a. 原始數據;b. 標準化后數據
采用 R 語言軟件中的 Afyy 包 RMA 法對基因表達原始數據背景矯正和歸一化處理后,對數據進行匯總從而獲取矯正后表達水平的數據見圖 1b。
2.2 差異表達基因
選取|log2FC|>2 及P<0.05 作為閾值,從而得到疾病組的差異表達基因 422 個。其中下調基因 191 個,上調基因 231 個。圖 2 為差異表達基因的熱圖,圖 3 為差異表達基因的火山圖,表2 為排名前 30 差異表達基因列表。

橫軸為樣品名稱,縱軸為基因名稱,其中亮藍色 type 為正常組軟骨細胞,紅色 type 為 OA 軟骨細胞,熱圖譜中藍色代表下調基因,紅色代表上調基因

紅色圓點代表上調基因,綠色圓點代表下調基因

2.3 差異表達基因 GO 注釋
使用 DAVID 在線工具對正常軟骨細胞與 OA 軟骨細胞差異基因進行 GO 富集分析(包括生物學過程、細胞組分、分子功能 3 個方面)。生物學過程差異基因主要富集在細胞分裂、有絲分裂、姐妹染色單體內聚力、細胞增殖、RNA 聚合酶Ⅱ啟動子轉錄調控、炎癥反應、染色體分離、增強調控細胞外信號調節激酶(extracellular regulated protein kinases,ERK)1 和 ERK2 的級聯反應等方面(圖 4、表3)。細胞組分差異基因主要富集在細胞核、細胞外區、染色體著絲粒濃縮等方面(圖 5)。分子功能差異基因主要富集在蛋白激酶綁定、絲氨酸/蘇氨酸蛋白激酶活化、微管結合、蛋白激酶激活、激酶激活以及細胞因子活性等方面(圖 6、表4)。





2.4 差異表達基因蛋白質相互作用分析
應用 STRING 數據庫在線檢索、預測蛋白質之間直接的物理相互作用和間接功能的相關性得到 267 個節點、972 條邊(圖 7)。使用 Cytoscape 的 cytoHbba 軟件選取 degree 前 30 的節點(圖 8)。其中CDK1、CCNB1、CDC20、NDC80、CDCA8、MAD2L1、TTK、NCAPG、PBK、KIF11、DLGAP5等基因是蛋白相互作用的重要聯系節點。

圓點即節點為差異表達基因相關蛋白,邊表示蛋白相互作用關系

方框即節點,其中藍色代表前 30 位以外的差異表達基因相關蛋白,藍色以外色彩代表前 30 位差異表達基因,從黃色到紅色代表節點關系越來越密切,邊表示蛋白相互作用關系
2.5 差異表達基因 KEGG 分析
使用 DAVID 在線工具對差異基因進行 KEGG 富集分析(圖9)。卵母細胞減數分裂、細胞周期、絲裂原活化蛋白激酶(mitogen-activated protein kinase,MAPK)信號通路、黃體酮調節卵母細胞成熟、生理周期、安非他命成癮為最主要富集的信號通路。表5 為上述主要富集相關通路中的基因。


3 討論
生物信息學從廣義上講是通過利用數理和信息科學的觀點、原理和方法去研究生命現象的一門學科,在生命科學的研究中發揮著至關重要的作用[7, 23]。生物信息學通過以計算機為主要工具,開發各種生物信息學軟件,對基因和蛋白質的序列、結構等相關信息進行分析和研究,建立相應的理論模型,以了解這些生物大分子所隱藏信息的生物學意義。如何充分利用這些數據,并通過對海量數據的分析、處理,揭示這些數據的內涵,得到對人類有價值的信息,將會成為有意義的研究方向。
基因芯片表達譜數據分析將獲得的信息數據和生物學過程聯系起來,解釋基因的功能,從分子層面上了解疾病的發生發展。基于信息學的研究對于基因組信息進行挖掘,極大減輕了大規模篩選 OA 疾病后涉及的差異表達基因、蛋白、信號通路相關信息的工作量,對全面、系統、綜合了解疾病的發生發展提供了新的方向。生物信息學的發展,為我們利用基因芯片技術和生物信息學分析方法,從基因水平或蛋白層面全面了解 OA 疾病的變化過程提供了可能。
目前尚缺乏對 OA 軟骨細胞生物信息學分析的相關研究。我們對 OA 軟骨細胞與正常組比較差異表達基因進行 GO 富集分析,結果顯示這些基因大多數位于細胞核、細胞外區域,涉及染色體著絲粒濃縮。而就這些差異基因參與生物學過程而言,它們通過蛋白激酶活性的調節等方面參與細胞分裂、有絲分裂、細胞增殖、增強調控 ERK1 和 ERK2 的級聯反應和炎癥反應等過程,概括來說生物學過程主要涉及到遺傳信息傳遞、蛋白代謝和炎癥反應。進一步分析發現,膝 OA 軟骨細胞中這些差異基因的分子功能主要富集在蛋白代謝過程和細胞因子活性等方面。在蛋白相互作用分析中的關鍵節點基因(CDK1、CCNB1、CDC20、NDC80、CDCA8、MAD2L1、TTK、NCAPG、PBK、KIF11、DLGAP5)也主要參與細胞周期、蛋白代謝。KEGG 富集分析顯示,差異基因主要富集于卵母細胞減數分裂、細胞周期等細胞增殖相關通路和 MAPK 信號通路。上調、下調的差異基因生物信息學分析主要涉及細胞蛋白代謝途徑,這與 OA 發生中合成、分解代謝耦聯失衡的機制相一致[1-2]。在 KEEG 分析中 MAPK 通路[24]是主要富集通路之一,該通路是多種軟骨細胞外刺激信號(包括應激、炎癥性細胞因子、生長因子等)從細胞膜轉導到細胞核內,與其他信號通路協同作用,使細胞對外界環境刺激作出實時的反應,參與軟骨細胞生長、增殖、分化及凋亡等生理、病理的過程[24-25]。這一通路的分析與 GO 分析中炎癥反應、細胞因子活性是 OA 軟骨細胞差異基因富集的重要方面一致。許展儀等[26]對 OA 軟骨與正常患者軟骨進行生物信息學分析,發現他們差異基因也主要與慢性炎癥反應、先天免疫反應有關。Liu 等[27]在分析 OA 患者與正常人群軟骨中的長鏈非編碼 RNA 生物富集分析、華芳等[28]對 OA 患者滑膜樣本數據富集分析也發現細胞因子、趨化因子是其中重要的通路。在 OA 發生中,涉及軟骨細胞的因子參與炎癥反應和免疫反應過程,是當前關于發病機制的研究熱點之一[6, 29-30]。細胞因子是細胞經刺激而合成、分泌的一類具有廣泛生物學活性的小分子蛋白質,通過結合相應受體調節細胞生長、分化和效應,調控免疫應答。根據其在炎癥反應中的作用又可分為促炎細胞因子和抗炎細胞因子。目前,OA 疾病被越來越多的學者認為是低度的慢性炎癥性疾病[31-32],發生機制中關于炎癥因子研究逐步成為熱點,其中較多研究的促炎細胞因子有腫瘤壞死因子 α、白細胞介素(interleukin,IL)-1、IL-6、IL-34 等[33-35],而抗炎因子主要有 IL-10、IL-13、IL-4、轉化生長因子等[6, 36-37]。這與我們在生物信息學分析中發現的炎癥反應、細胞因子參與 OA 過程具有一致性,但現在 OA 研究較多的炎癥因子、細胞因子與我們生物信息學分析中的差異基因并不完全一致,這些差異基因是否就是 OA 發生、發展的關鍵環節,這為我們后續進一步深入研究 OA 發生機制提供了理論上的新著眼點。
本研究存在一定的不足。本研究僅從 OA 軟骨細胞層面進行生物信息學分析,可能與臨床實際情況存在出入,還有待進一步的驗證;研究中軟骨細胞的樣本雖然均一性較好,但是樣本量不大(6 個樣本),在一定程度上限制了結論的穩定性。
綜上所述,多種途徑參與了 OA 軟骨細胞變化的過程,主要涉及到細胞周期、蛋白代謝基因/通路,炎癥因子和細胞因子可能是 OA 發病中的重要環節。
骨關節炎(osteoarthritis,OA)的發病過程主要為生物力學和生物學等綜合因素共同作用下,軟骨細胞、細胞外基質和軟骨下骨三者合成-降解失衡所致[1-2]。其發病機制不明,現有的研究主要集中于軟骨細胞,以及細胞外基質和軟骨下骨的變化。OA 康復治療目標以緩解疼痛、改善日常活動功能為主,其中物理治療起著舉足輕重的作用[1, 3]。隨著細胞生物學、分子生物學等相關學科的交叉滲透,涉及 OA 疾病信號通路中生物標志物的研究成為關注的重點、熱點[4-5],現有研究提示 OA 病變機制復雜,單一信號通路可能無法明確闡述其發病機制[6],因此,急需對 OA 復雜的信號轉導網絡關系進行篩選及深入探討,這對于解釋疾病背后的發病機制、物理治療有效性的機制,以及未來疾病預防、診治方面都重要的意義。生物信息學是生物學與信息學的交叉科學,其研究對象主要集中在基因和蛋白質 2 個方面,在生命科學的研究中發揮著至關重要的作用[7-8]。基因芯片技術用于研究基因表達譜與生物學功能之間可能存在的聯系[9-11],它的出現使我們可一次性對上萬個基因的表達譜進行檢測,極大地推動了生物信息學技術的進步[12]。本研究利用生物信息學方法對來自基因表達綜合數據庫(Gene Expression Omnibus,GEO)中 OA 患者軟骨細胞基因芯片數據進行差異表達分析,隨后進行京都基因和基因組數據庫(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析[9-10],采用文本挖掘分析其分子作用關系,構建疾病相關差異基因的分子調控網絡,旨在進一步探究 OA 發生的分子機制。
1 資料與方法
1.1 軟骨細胞樣本數據的獲取
在 GEO 數據庫(https://www.ncbi.nlm.nih.gov/geo/)在線檢索人類基因芯片樣本,以“osteoarthritis OR cartilage OR chondrocyte*”為檢索策略,滿足以下納入標準:① OA 疾病診斷符合美國風濕病學會診斷標準[13];② 樣本包含 OA 軟骨細胞和對照組正常軟骨細胞的檢測數據;③ 軟骨細胞樣本與對照組樣本數均需≥3 個,標本具有可重復性。獲得 GPL570 平臺上由 Dehne 等[14]提供的芯片數據系列 GSE16464,所用的實驗平臺為美國昂飛公司(Affymetrix, Inc)的 Affymetrix Human Genome U133 Plus 2.0 Array 人類全基因芯片數據。共納入樣本 6 個,其中 OA 軟骨細胞組樣本 3 個,對照組為正常膝關節軟骨細胞樣本 3 個(表1)。

1.2 基因分析
1.2.1 數據處理
對基因數據平臺中存儲的原始數據樣本進行數據預處理,減少原始數據誤差,增強進一步數據挖掘分析的信度[12, 14-15]。分析過程中我們借助基因本體論(Gene Ontology,GO)、KEGG 通路分析和基因/蛋白質相互作用關系檢索工具(Search Tool for the Retrival of Interacting Genes/Proteins,STRING)等信息數據庫和 R 語言、Perl 語言、Cytoscape 分析軟件及 DAVID(Database for Annotation, Visualization and Integrated Discovery)(https://david.ncifcrf.gov/home.jsp)等分析工具。通過已知的信號傳導通路及生化代謝反應通路,與在實驗中得到的具體數據結合對其網絡進行分析。
1.2.2 基因數據統計方法
使用 Perl 5.22.4 語言編輯軟件將探針 ID 數據進行注釋,并轉換為基因名稱(gene symbol)。使用 R 3.4.3 語言編輯軟件進行芯片數據預處理和分析,使樣本之間歸一化具有可比性,基因表達原始數據進行標準化。通過 Affy 包中的 RMA(robust multi-arry avery)背景矯正和歸一化處理后,對數據進行匯總從而獲取矯正后表達水平的標準化數據[9]。通過 R 語言中線性回歸模型軟件包 limma 包對不同組的芯片進行差異計算,并用貝葉斯方法進行多重檢驗校正,通過倍比法(fold change,FC)和P值篩選獲得差異基因[16]。差異基因的獲得需同時滿足以下條件:① |log2FC|>2;② P<0.05。然后,通過 GO、KEGG、蛋白相互作用網絡分析采用超幾何算法和 Benjamini 法對數據進行矯正分析。
1.2.3 基因 GO 數據庫功能富集分析
GO 是一組預先定義好的、用來描述基因及其產物功能和行為標準術語,通過分析蛋白質術語之間的語義關系可以估計蛋白質之間的功能相似性。GO 數據庫作為對基因及其蛋白質產物的功能進行系統描述的數據庫,已經被廣泛應用于分析基因(及其產物)間的功能相似性、基于高通量生物學數據分析疾病相關的生物學功能通路上,是目前最為成功的對生物學進行系統描述的工具[17]。我們通過 GO 分類號和 GO 數據相關分析工具將分類與具體基因聯系起來,從而對該基因的功能分別在生物學過程、分子功能和細胞成分 3 個細胞生物學領域對基因及其產物的功能進行定義。
本研究所得到的差異基因通過 DAVID 數據庫進行基因功能分化,應用 EASE(expression analysis systemic explore)方法選取 EASE<0.1 注釋基因條目[18]。
1.2.4 蛋白質相互作用
我們利用 STRING 數據庫[19](https://string-db.org/)在線檢索、預測蛋白質之間直接的物理相互作用和間接功能的相關性。將篩選出的差異基因輸入到 STRING 10.5 數據庫中,選取交互作用最小評分大于 0.4(中等置信度)的相互作用關系構建 OA 軟骨細胞和正常組相關差異基因的蛋白相互作用網絡。
最后,將 STRING 數據庫中得到的蛋白質相互作用結果導入 Cytoscape 軟件[20-21]中,進行網絡分析及可視化操作,建構可視化的分子交互作用網絡,并且對大規模蛋白質和蛋白質之間交互作用、蛋白質和 DNA 之間等交互作用的關聯性進行分析。利用軟件中 cytoHubba 插件同時計算各蛋白之間相互關聯緊密程度的等級(degree)進一步篩選出 OA 軟骨細胞的作用關鍵基因(hub gene)。
1.2.5 KEGG 通路富集分析
將本研究所得到的差異基因進行 KEGG 通路富集分析,通過對細胞內已知生物學過程的計算機化和將現有的基因功能信息解釋標準化,對基因的功能進行注釋和分析[22],篩選出 OA 軟骨細胞代謝的相關通路。
2 結果
2.1 數據標準化
基因原始數據表達值的中位數值呈現不均一狀態(圖 1a)。

a. 原始數據;b. 標準化后數據
采用 R 語言軟件中的 Afyy 包 RMA 法對基因表達原始數據背景矯正和歸一化處理后,對數據進行匯總從而獲取矯正后表達水平的數據見圖 1b。
2.2 差異表達基因
選取|log2FC|>2 及P<0.05 作為閾值,從而得到疾病組的差異表達基因 422 個。其中下調基因 191 個,上調基因 231 個。圖 2 為差異表達基因的熱圖,圖 3 為差異表達基因的火山圖,表2 為排名前 30 差異表達基因列表。

橫軸為樣品名稱,縱軸為基因名稱,其中亮藍色 type 為正常組軟骨細胞,紅色 type 為 OA 軟骨細胞,熱圖譜中藍色代表下調基因,紅色代表上調基因

紅色圓點代表上調基因,綠色圓點代表下調基因

2.3 差異表達基因 GO 注釋
使用 DAVID 在線工具對正常軟骨細胞與 OA 軟骨細胞差異基因進行 GO 富集分析(包括生物學過程、細胞組分、分子功能 3 個方面)。生物學過程差異基因主要富集在細胞分裂、有絲分裂、姐妹染色單體內聚力、細胞增殖、RNA 聚合酶Ⅱ啟動子轉錄調控、炎癥反應、染色體分離、增強調控細胞外信號調節激酶(extracellular regulated protein kinases,ERK)1 和 ERK2 的級聯反應等方面(圖 4、表3)。細胞組分差異基因主要富集在細胞核、細胞外區、染色體著絲粒濃縮等方面(圖 5)。分子功能差異基因主要富集在蛋白激酶綁定、絲氨酸/蘇氨酸蛋白激酶活化、微管結合、蛋白激酶激活、激酶激活以及細胞因子活性等方面(圖 6、表4)。





2.4 差異表達基因蛋白質相互作用分析
應用 STRING 數據庫在線檢索、預測蛋白質之間直接的物理相互作用和間接功能的相關性得到 267 個節點、972 條邊(圖 7)。使用 Cytoscape 的 cytoHbba 軟件選取 degree 前 30 的節點(圖 8)。其中CDK1、CCNB1、CDC20、NDC80、CDCA8、MAD2L1、TTK、NCAPG、PBK、KIF11、DLGAP5等基因是蛋白相互作用的重要聯系節點。

圓點即節點為差異表達基因相關蛋白,邊表示蛋白相互作用關系

方框即節點,其中藍色代表前 30 位以外的差異表達基因相關蛋白,藍色以外色彩代表前 30 位差異表達基因,從黃色到紅色代表節點關系越來越密切,邊表示蛋白相互作用關系
2.5 差異表達基因 KEGG 分析
使用 DAVID 在線工具對差異基因進行 KEGG 富集分析(圖9)。卵母細胞減數分裂、細胞周期、絲裂原活化蛋白激酶(mitogen-activated protein kinase,MAPK)信號通路、黃體酮調節卵母細胞成熟、生理周期、安非他命成癮為最主要富集的信號通路。表5 為上述主要富集相關通路中的基因。


3 討論
生物信息學從廣義上講是通過利用數理和信息科學的觀點、原理和方法去研究生命現象的一門學科,在生命科學的研究中發揮著至關重要的作用[7, 23]。生物信息學通過以計算機為主要工具,開發各種生物信息學軟件,對基因和蛋白質的序列、結構等相關信息進行分析和研究,建立相應的理論模型,以了解這些生物大分子所隱藏信息的生物學意義。如何充分利用這些數據,并通過對海量數據的分析、處理,揭示這些數據的內涵,得到對人類有價值的信息,將會成為有意義的研究方向。
基因芯片表達譜數據分析將獲得的信息數據和生物學過程聯系起來,解釋基因的功能,從分子層面上了解疾病的發生發展。基于信息學的研究對于基因組信息進行挖掘,極大減輕了大規模篩選 OA 疾病后涉及的差異表達基因、蛋白、信號通路相關信息的工作量,對全面、系統、綜合了解疾病的發生發展提供了新的方向。生物信息學的發展,為我們利用基因芯片技術和生物信息學分析方法,從基因水平或蛋白層面全面了解 OA 疾病的變化過程提供了可能。
目前尚缺乏對 OA 軟骨細胞生物信息學分析的相關研究。我們對 OA 軟骨細胞與正常組比較差異表達基因進行 GO 富集分析,結果顯示這些基因大多數位于細胞核、細胞外區域,涉及染色體著絲粒濃縮。而就這些差異基因參與生物學過程而言,它們通過蛋白激酶活性的調節等方面參與細胞分裂、有絲分裂、細胞增殖、增強調控 ERK1 和 ERK2 的級聯反應和炎癥反應等過程,概括來說生物學過程主要涉及到遺傳信息傳遞、蛋白代謝和炎癥反應。進一步分析發現,膝 OA 軟骨細胞中這些差異基因的分子功能主要富集在蛋白代謝過程和細胞因子活性等方面。在蛋白相互作用分析中的關鍵節點基因(CDK1、CCNB1、CDC20、NDC80、CDCA8、MAD2L1、TTK、NCAPG、PBK、KIF11、DLGAP5)也主要參與細胞周期、蛋白代謝。KEGG 富集分析顯示,差異基因主要富集于卵母細胞減數分裂、細胞周期等細胞增殖相關通路和 MAPK 信號通路。上調、下調的差異基因生物信息學分析主要涉及細胞蛋白代謝途徑,這與 OA 發生中合成、分解代謝耦聯失衡的機制相一致[1-2]。在 KEEG 分析中 MAPK 通路[24]是主要富集通路之一,該通路是多種軟骨細胞外刺激信號(包括應激、炎癥性細胞因子、生長因子等)從細胞膜轉導到細胞核內,與其他信號通路協同作用,使細胞對外界環境刺激作出實時的反應,參與軟骨細胞生長、增殖、分化及凋亡等生理、病理的過程[24-25]。這一通路的分析與 GO 分析中炎癥反應、細胞因子活性是 OA 軟骨細胞差異基因富集的重要方面一致。許展儀等[26]對 OA 軟骨與正常患者軟骨進行生物信息學分析,發現他們差異基因也主要與慢性炎癥反應、先天免疫反應有關。Liu 等[27]在分析 OA 患者與正常人群軟骨中的長鏈非編碼 RNA 生物富集分析、華芳等[28]對 OA 患者滑膜樣本數據富集分析也發現細胞因子、趨化因子是其中重要的通路。在 OA 發生中,涉及軟骨細胞的因子參與炎癥反應和免疫反應過程,是當前關于發病機制的研究熱點之一[6, 29-30]。細胞因子是細胞經刺激而合成、分泌的一類具有廣泛生物學活性的小分子蛋白質,通過結合相應受體調節細胞生長、分化和效應,調控免疫應答。根據其在炎癥反應中的作用又可分為促炎細胞因子和抗炎細胞因子。目前,OA 疾病被越來越多的學者認為是低度的慢性炎癥性疾病[31-32],發生機制中關于炎癥因子研究逐步成為熱點,其中較多研究的促炎細胞因子有腫瘤壞死因子 α、白細胞介素(interleukin,IL)-1、IL-6、IL-34 等[33-35],而抗炎因子主要有 IL-10、IL-13、IL-4、轉化生長因子等[6, 36-37]。這與我們在生物信息學分析中發現的炎癥反應、細胞因子參與 OA 過程具有一致性,但現在 OA 研究較多的炎癥因子、細胞因子與我們生物信息學分析中的差異基因并不完全一致,這些差異基因是否就是 OA 發生、發展的關鍵環節,這為我們后續進一步深入研究 OA 發生機制提供了理論上的新著眼點。
本研究存在一定的不足。本研究僅從 OA 軟骨細胞層面進行生物信息學分析,可能與臨床實際情況存在出入,還有待進一步的驗證;研究中軟骨細胞的樣本雖然均一性較好,但是樣本量不大(6 個樣本),在一定程度上限制了結論的穩定性。
綜上所述,多種途徑參與了 OA 軟骨細胞變化的過程,主要涉及到細胞周期、蛋白代謝基因/通路,炎癥因子和細胞因子可能是 OA 發病中的重要環節。