流式細胞儀中多參數流式數據分群傳統方法主要是利用專業軟件采取人工設門方式,圈出目標細胞進行分析,分析過程較為復雜,專業性較強。基于此,本文提出了一種基于 t 分布鄰域嵌入(t-SNE)算法對多參數流式數據進行分群處理。該算法將樣本數據在高維空間中的歐幾里德距離轉化為條件概率來表征相似性,使數據降到低維空間。本文通過使用流式細胞儀處理染色后的人體外周血細胞,并將處理后的數據導出作為實驗樣本數據,對其利用 t-SNE 算法進行降維,并與核主成分分析(KPCA)降維算法對比,分別使用 K 均值(K-means)算法對降維得到的主成分數據進行分類。結果表明,t-SNE 算法對呈非對稱且有拖尾分布的細胞類群具有很好的分群效果,分群準確率可達 92.55%,或可有助于多色多參數流式數據進行自動分析。
引用本文: 孟曉辰, 王玥, 祝連慶. 基于 t 分布鄰域嵌入算法的流式數據自動分群方法 . 生物醫學工程學雜志, 2018, 35(5): 697-704. doi: 10.7507/1001-5515.201802037 復制
引言
隨著科技的進步,傳統的精密醫療儀器也在向全自動、智能方向發展。全自動流式細胞儀作為一種常規分析儀器,在各大醫院及實驗室需求巨大。目前,常規的流式細胞儀,包括:光學系統、流動室及液流驅動系統、光電檢測系統和信號處理系統四大核心組分。其中,信號處理系統的一部分工作是要對大量多色多參數流式數據進行分析,分析難度較大,因此對此部分的研究也成為了研究熱點。通常對流式數據進行分析是使用儀器專門配備的軟件,將流式數據導入軟件中,然后在多組熒光特征中選取兩組作為二維圖的橫縱坐標,繪制散點圖或密度圖等,然后根據經驗設門,圈出想要分析的目標數據;或是選取一組數據繪制直方圖,觀察被目標熒光參數所染色的細胞數量,做出定量分析[1-4],但隨著各種醫學技術和流式細胞術的快速發展,傳統人工設門的方法已無法適應大量多維度流式數據的快速分析,主要原因如下:
(1)人工設門缺乏客觀性。專家憑借自身經驗從多種熒光特征中選取兩組特征繪制散點圖,且圈門和做出細胞類群的判斷也因人而異,沒有量化標準。
(2)分析結果可重復性差。針對不同的數據,人工設門方法并沒有標準統一的畫法。
(3)需要操作者有專業背景。流式數據分析軟件是流式細胞儀專用軟件,涉及到的醫學知識是一般使用者不具備的,存在局限性。
(4)無法結合多維數據間的特征差異進行處理。數據分析只能顯示二維特征,并尋找差異,而多色多參數高維流式數據的特征只能在多維空間才能顯示出來。
(5)過程繁瑣、效率低、資源浪費巨大。人工設門分析過程消耗人力、浪費時間,而且分析結果往往可靠性差[5-8]。
為了克服傳統細胞分群方法的不足,國內外的研究人員提出了流式數據自動分群方法,并針對這一內容進行了深入的研究。例如基于無監督聚類的 K-means 算法[6],通過計算樣本點間的歐幾里德距離劃分樣本數據,實現聚類;Sugár 等[9]提出了基于滲透理論的非監督密度輪廓聚類算法(unsupervised density contour clustering algorithm),通過繪制實驗樣本直方圖并尋找峰值點,實現了流式數據中多種形狀細胞類群的快速聚類分析;Qian 等[6]提出了基于網格劃分和合并(grid-based partitioning and merging)類群識別算法;Morris 等[10]利用支持向量機進行流式細胞分類識別,方法是選取一部分實驗數據作為測試樣本,設定類別標簽,訓練出支持向量機分類模型,再利用模型測試需要分類的樣本,實現細胞自動識別;Aghaeepour 等[7]提出基于層次聚類思想;搭建高斯混合模型等[11-13]。以上研究分別利用了不同的類型算法來處理流式數據以得到細胞自動分群結果,包括基于監督聚類和非監督聚類的方法,但是大多重點研究針對細胞自動聚類的方法,很少有考慮到細胞類群的分布狀態。
本文針對呈非對稱且有拖尾分布的細胞類群,提出了一種基于流行學習的 t 分布鄰域嵌入算法(t-distributed stochastic neighbor embedding,t-SNE)的多參數流式數據自動分群方法。利用 t-SNE 算法處理高維數據可以很好地表征數據的多維特性,其將樣本數據投影到低維空間的可視化效果較好,由于其相比于傳統常用的主成分分析(principal component analysis,PCA)降維方式有顯著優勢,目前已被作為大數據的降維預處理手段,廣泛應用于諸多領域,例如圖像處理、語義編碼、聲音識別、機械故障排查等方面[14-18]。本文使用 t-SNE 算法對原始數據降維,并提取出對可視化結果貢獻度最高的特征主成分,選取前兩組或前三組主成分數據作為坐標軸,繪制可視化散點圖。降維后得到的主成分矩陣利用 K 均值(K-means)算法進行自動聚類,從而得到細胞自動分群結果。最后,將基于 t-SNE 算法與核主成分分析(kernel principal component analysis,KPCA)算法處理數據得到的分群結果進行對比,并使用流式細胞儀專用軟件對原始數據進行專業人工設門分析,得到理想人工分群結果,并與本文提出的 t-SNE 算法對呈非對稱且有拖尾分布的細胞類群的分群效果為對照,以驗證算法的準確性[18]。通過本文研究,或可進一步促進對流式細胞儀數據自動化分析的研究。
1 原理及方法
1.1 t-SNE 算法
假設待處理的流式數據樣本位于一個統計流形上,利用概率分布描述樣本數據點,可得到高維和低維空間里任意兩點間的條件概率分布函數,記流式數據樣本為有 N 個數據點的有限高維數據集
,每一個數據點的維度為 D,高維數據點到低維數據點之間的映射記為
。
整個算法步驟如下:
(1)在同一空間中,用對應數據點間條件概率表征相似性。pj|i 表示高維數據點 xi 與 xj 之間條件概率分布,且分布函數服從高斯分布,pj|i 越大,數據點之間的相似度越大,
是高斯分布標準差,條件概率計算式,如式(1)所示:
![]() |
將高維數據點 xi 和 xj 在低維中的映射點記為 yi 和 yj,計算其相似的條件概率 qj|i,如式(2)所示:
![]() |
(2)為了進一步研究高低維空間特征參數之間的分布關聯,用對應的條件概率分布表征同一空間下的數據點間聯合概率分布 pij 和 qij,并假設任意 pij = pji,qij = qji,且 pii = qii = 0,聯合概率表示,如式(3)、式(4)所示:
![]() |
![]() |
(3)描述低維空間中的聯合概率分布函數與高維空間中數據分布的相似程度用損失函數 C 表示,任意選擇低維空間中的一個數據點,其聯合概率分布為 pij,且與其相對應的高維空間聯合概率分布為 qij,則計算公式如式(5)所示:
![]() |
其中,KL 散度(Kullback-Leibler divergence,KL)(以符號KL表示)為相對熵,用來衡量相同事件空間里的兩個概率分布的相似情況,P 和 Q 分別為高維空間和低維空間中度量點的概率分布。損失函數在于將
與
的 KL 距離最小化,即使 P 與 Q 兩個分布的匹配度最高。函數 C 對 yi 求偏導,計算損失函數的偏導數即為梯度,利用梯度下降法進行迭代更新,直到函數值收斂,即得到兩個概率分布相似最大化。
(4)在低維空間下,由于流式數據樣本類群分布呈非對稱且有拖尾,并且不完全服從標準的高斯分布,因此任意樣本數據點之間的相似度使用 t 分布(studentt-distribution)來表達。t 分布曲線尾部隨自由度的增加而變高,因而使得有拖尾的細胞類群分布尾部數據從高維映射到低維后有一個較大的距離,從而避免擁擠問題,t-SNE 梯度計算式可以表示如式(6)所示:
![]() |
(5)輸入參數困惑度(以符號 perp 表示)可以表示一個點附近的有效近鄰點個數:N 個數據點的條件概率分布有 sigma = {
},困惑度用二分搜索的方式來尋找一個最佳的
,其定義如式(7)所示:
![]() |
其中
為
的香農熵,用來表征樣本數據的不確定性,是混亂程度的量化指標,熵越大,困惑度越大,樣本數據的概率就越相近,即增加目標數據點的近鄰數據數量。
1.2 流式細胞類群分布擬合
為驗證細胞類群分布狀態,使用了商業數學軟件 MATLAB(R2013b,MathWorks,美國)進行仿真并擬合數據。實驗數據為健康志愿者的上肢前臂的靜脈外周血細胞樣本,由實驗室合作單位北京宣武醫院提供。實驗儀器是流式細胞儀 Facscalibur(Becton,Dickinson and Company,美國)[19]。選取人體外周血細胞中的淋巴細胞、嗜中性粒細胞、單核白細胞和破碎的細胞及雜質中的前向散射光脈沖面積(orward light scatter area,FSC-A)數據,共 11 324 組,基于統計學理論對數據進行采樣處理,得到細胞類群分布圖,如圖 1 所示。

由擬合圖可以看出,單核白細胞和破碎的細胞及雜質類群是呈非對稱分布且有拖尾的,因此使用 t 分布擬合相比于用高斯分布描述流式細胞樣本數據更加準確,可以較好地表征數據的整體特征,這也恰好滿足細胞分群需求。
1.3 基于 t-SNE 的流式數據分群方法
t-SNE 算法處理流式數據主要步驟如下所示:
第一步:輸入待降維多參數流式數據
,設定需要降到的維數
以及損失函數參數困惑度為 30(默認值);
第二步:對樣本矩陣 X 進行初始化,計算相應矩陣之間的距離,使用固定的困惑度計算條件概率 pj|i;
第三步:令
,用
隨機初始化低維數據
;
第四步:開始優化,進入循環迭代:
? 計算低緯度下的 qij
? 由公式(6)計算梯度
? 迭代尋優,更新低維數據
,迭代結束后得到的 Y 矩陣即為降維后新的主成分參數。
1.4 K-means 聚類算法
K-means 算法利用函數求極值得到迭代優化結果,是一種硬聚類方法,通常采用歐幾里德距離來衡量樣本與各個簇的相似度,該算法時間復雜度低、簡潔高效,在處理大數據方面有明顯優勢,具體算法描述如下:
(1)
是聚類數,隨機選取
個對象作為聚類質心點
,質心
表示程序初始時對樣本數據各個類別中心點的估計值。
(2)重復下面過程直到收斂,得出分類標簽:
① 對于每一個樣例 i,計算其應該屬于的類,計算其到 k 個質心中每一個的距離,然后選取距離最近的類別作為
,如式(8)所示:
![]() |
② 對于每一個類 j,重新計算該類的質心直到其不變或者變化很小,如式(9)所示[18-20]:
![]() |
2 實驗結果及分析
為驗證本文提出的方法對流式數據自動分析的能力,利用 t-SNE 算法對多參數流式細胞數據進行處理,實驗數據為本文 1.2 節使用的數據。人體外周血細胞包括淋巴細胞、嗜中性粒細胞、單核白細胞和破碎細胞及其雜質共 4 大類細胞,并分別用異硫氰酸熒光素(fluorescein isothiocyanate, FITC)、藻紅蛋白(P-phycoerythrin,PE)、異藻藍蛋白(allophy cocyanin,APC)、多甲藻黃素—葉綠素—蛋白復合物(peridinin-chlorophyll-protein complex,PerCP)4 種熒光染料標記[18, 21-22],細胞分群策略如圖 2 所示,被染色的流式細胞數據包括 14 個屬性參數,分別為激光照射細胞后產生的前向散射光(forward light scatter)、側向散射光(sideward light scatter)和 4 色熒光信號的脈沖高度,脈沖面積和脈沖寬度[18]。

2.1 基于 t-SNE 的流式細胞分群
選取 3 200 組被染色的 4 類細胞數據,繪制數據樣本的“t-SNE 算法降低維數與聚類指標關系”曲線圖,此時困惑度取經驗值 30,每組試驗取 10 次計算結果,去掉極值取平均值,以此確定最佳降低維度。為確保驗證結果的普遍適用性,重新選取 4 類細胞數據樣本,并重復上述實驗,得到 3 組實驗結果如圖 3 所示。

根據維度與聚類指標的關系曲線,可以看出用 t-SNE 算法降到 4 維時,聚類指標值最大,即此時的主成分貢獻率最大,因此確定最佳降低的維度為 4 維。
利用 t-SNE 和 KPCA 算法對原始流式細胞樣本進行降維處理,并利用K-means 算法對降維后的數據分類,從而得出分類標簽,實現細胞自動聚類。對比使用兩種降維算法處理后實驗結果的分群效果,以此驗證處理多維度流式數據時,利用 t-SNE 算法是否可以更好地提取樣本數據特征。利用 K-means 對兩種降維算法得到的主成分進行分群處理,利用前 3 個主成分(principal component,PC)(記為 PC1~PC3)繪制可視化散點圖,得到最終細胞自動聚類結果如圖 4 所示。

由以上分群散點圖可看出,t-SNE 算法與 KPCA 算法都可以對高維流式數據進行預處理,將高維數據映射到低維空間,并盡可能地保留原始數據的特征信息。但 t-SNE 算法處理后細胞類群之間的距離明顯更遠,類群之間的聚合程度也更加密集,能夠更大程度地區分各類細胞,即該算法可以在低維空間中更好地表征高維數據,因此利用 t-SNE 算法降維處理后的主成分分群可視化效果更好。為了量化分析兩種算法的準確率,實驗請專業操作人員使用專業流式數據分析軟件 cytospec(1.0.0.0,普度大學)對原始數據進行人工設門分析,并得到理想人工分群結果。計算兩種算法的分群準確率,如表 1 所示,基于 t-SNE 的流式數據分群的平均準確率可達 92.55%,優于 KPCA 算法。其中,對于類群分布呈非對稱且有拖尾的單核白細胞和破碎細胞及其雜質,t-SNE 算法分群準確率較高,對于正常的服從高斯分布的類群(淋巴細胞和嗜中性粒細胞)的識別能力也較 KPCA 算法有所提高。

2.2 實驗結果分析
專業操作人員對流式數據進行傳統分群方法是人工設門,通過將流式數據的熒光特征參數 FITC 的脈沖面積和側向散射光脈沖面積分別作為橫縱坐標,繪制散點圖,然后圈門分析即可得到理想人工分群結果,如圖 5 所示,圖中分別為淋巴細胞群、嗜中性粒細胞群、單核白細胞群和破碎的細胞及雜質。

為了直觀地對比兩種算法對細胞分群的結果與理想人工分群結果的差異,本文使用平均相對誤差(mean relative error,MRE)(以符號 MRE 表示)和均方根誤差(root mean square error,RMSE)(以符號 RMSE 表示)作為評價指標進行橫向對比,如式(10)、式(11)所示:
![]() |
![]() |
式中 k 表示樣本次序,k = 1,2,3,
,n;n 表示預測樣本數量,Tk 代表實際值,
代表預測值。
MRE 反應了測量值與真實值之間的總體差異,RMSE 可以很好地反應出測量值與真實值之間差異的精密度。兩種誤差的值越小,說明算法與理想人工分群算法得到的結果越相近。如表 2 所示,分別計算了 KPCA 和 t-SNE 算法與傳統理想人工分群結果的 MRE 和 RMSE,為驗證算法的普遍適用性,重新選取 4 類細胞數據樣本,并重復上述實驗,分別計算評價指標,得到 4 組實驗結果。

由表 2 可知,利用 t-SNE 算法計算與實際值較為接近,最大 MRE 為 12.37%,其他 3 組測試點 MRE 均控制在 10% 以內,RMSE 最大為 0.125。而利用 KPCA 算法降維得到的細胞分群結果 MRE 在 20% 左右。因此,在多參數流式數據分析中利用 t-SNE 算法降維準確率更高,泛化能力更強,可以得到較好的分群結果。
3 結論
隨著流式細胞術的快速發展,當前醫學上對多色多參數流式數據進行自動分析已成為研究熱點,傳統的人工設門方法存在一定局限,已經難以滿足市場需求,而將機器學習算法應用于流式數據自動分群上,是未來儀器自動化的研究方向。本文針對類群呈非對稱且有拖尾分布的細胞,提出了基于 t-SNE 降維結合 K-means 算法的自動分群方法。首先利用 t-SNE 算法對原始高維流式數據降維,提取特征主成分,使得降維后的數據在特征空間中呈現的類群分離效果最好;然后利用 K-means 算法處理主成分數據,實現細胞的自動聚類。實驗數據為人體外周血細胞,利用 t-SNE 算法與 KPCA 算法處理的分群結果,分別與傳統人工分群結果進行對比,結果表明,利用 t-SNE 算法處理類群呈非對稱且有拖尾分布的細胞,分群準確率有較大提高,對于普通的服從高斯分布的細胞類群分群識別能力也有所提高,分群準確率為 92.55%,在流式細胞儀數據的自動化分析領域有較好的應用前景。
引言
隨著科技的進步,傳統的精密醫療儀器也在向全自動、智能方向發展。全自動流式細胞儀作為一種常規分析儀器,在各大醫院及實驗室需求巨大。目前,常規的流式細胞儀,包括:光學系統、流動室及液流驅動系統、光電檢測系統和信號處理系統四大核心組分。其中,信號處理系統的一部分工作是要對大量多色多參數流式數據進行分析,分析難度較大,因此對此部分的研究也成為了研究熱點。通常對流式數據進行分析是使用儀器專門配備的軟件,將流式數據導入軟件中,然后在多組熒光特征中選取兩組作為二維圖的橫縱坐標,繪制散點圖或密度圖等,然后根據經驗設門,圈出想要分析的目標數據;或是選取一組數據繪制直方圖,觀察被目標熒光參數所染色的細胞數量,做出定量分析[1-4],但隨著各種醫學技術和流式細胞術的快速發展,傳統人工設門的方法已無法適應大量多維度流式數據的快速分析,主要原因如下:
(1)人工設門缺乏客觀性。專家憑借自身經驗從多種熒光特征中選取兩組特征繪制散點圖,且圈門和做出細胞類群的判斷也因人而異,沒有量化標準。
(2)分析結果可重復性差。針對不同的數據,人工設門方法并沒有標準統一的畫法。
(3)需要操作者有專業背景。流式數據分析軟件是流式細胞儀專用軟件,涉及到的醫學知識是一般使用者不具備的,存在局限性。
(4)無法結合多維數據間的特征差異進行處理。數據分析只能顯示二維特征,并尋找差異,而多色多參數高維流式數據的特征只能在多維空間才能顯示出來。
(5)過程繁瑣、效率低、資源浪費巨大。人工設門分析過程消耗人力、浪費時間,而且分析結果往往可靠性差[5-8]。
為了克服傳統細胞分群方法的不足,國內外的研究人員提出了流式數據自動分群方法,并針對這一內容進行了深入的研究。例如基于無監督聚類的 K-means 算法[6],通過計算樣本點間的歐幾里德距離劃分樣本數據,實現聚類;Sugár 等[9]提出了基于滲透理論的非監督密度輪廓聚類算法(unsupervised density contour clustering algorithm),通過繪制實驗樣本直方圖并尋找峰值點,實現了流式數據中多種形狀細胞類群的快速聚類分析;Qian 等[6]提出了基于網格劃分和合并(grid-based partitioning and merging)類群識別算法;Morris 等[10]利用支持向量機進行流式細胞分類識別,方法是選取一部分實驗數據作為測試樣本,設定類別標簽,訓練出支持向量機分類模型,再利用模型測試需要分類的樣本,實現細胞自動識別;Aghaeepour 等[7]提出基于層次聚類思想;搭建高斯混合模型等[11-13]。以上研究分別利用了不同的類型算法來處理流式數據以得到細胞自動分群結果,包括基于監督聚類和非監督聚類的方法,但是大多重點研究針對細胞自動聚類的方法,很少有考慮到細胞類群的分布狀態。
本文針對呈非對稱且有拖尾分布的細胞類群,提出了一種基于流行學習的 t 分布鄰域嵌入算法(t-distributed stochastic neighbor embedding,t-SNE)的多參數流式數據自動分群方法。利用 t-SNE 算法處理高維數據可以很好地表征數據的多維特性,其將樣本數據投影到低維空間的可視化效果較好,由于其相比于傳統常用的主成分分析(principal component analysis,PCA)降維方式有顯著優勢,目前已被作為大數據的降維預處理手段,廣泛應用于諸多領域,例如圖像處理、語義編碼、聲音識別、機械故障排查等方面[14-18]。本文使用 t-SNE 算法對原始數據降維,并提取出對可視化結果貢獻度最高的特征主成分,選取前兩組或前三組主成分數據作為坐標軸,繪制可視化散點圖。降維后得到的主成分矩陣利用 K 均值(K-means)算法進行自動聚類,從而得到細胞自動分群結果。最后,將基于 t-SNE 算法與核主成分分析(kernel principal component analysis,KPCA)算法處理數據得到的分群結果進行對比,并使用流式細胞儀專用軟件對原始數據進行專業人工設門分析,得到理想人工分群結果,并與本文提出的 t-SNE 算法對呈非對稱且有拖尾分布的細胞類群的分群效果為對照,以驗證算法的準確性[18]。通過本文研究,或可進一步促進對流式細胞儀數據自動化分析的研究。
1 原理及方法
1.1 t-SNE 算法
假設待處理的流式數據樣本位于一個統計流形上,利用概率分布描述樣本數據點,可得到高維和低維空間里任意兩點間的條件概率分布函數,記流式數據樣本為有 N 個數據點的有限高維數據集
,每一個數據點的維度為 D,高維數據點到低維數據點之間的映射記為
。
整個算法步驟如下:
(1)在同一空間中,用對應數據點間條件概率表征相似性。pj|i 表示高維數據點 xi 與 xj 之間條件概率分布,且分布函數服從高斯分布,pj|i 越大,數據點之間的相似度越大,
是高斯分布標準差,條件概率計算式,如式(1)所示:
![]() |
將高維數據點 xi 和 xj 在低維中的映射點記為 yi 和 yj,計算其相似的條件概率 qj|i,如式(2)所示:
![]() |
(2)為了進一步研究高低維空間特征參數之間的分布關聯,用對應的條件概率分布表征同一空間下的數據點間聯合概率分布 pij 和 qij,并假設任意 pij = pji,qij = qji,且 pii = qii = 0,聯合概率表示,如式(3)、式(4)所示:
![]() |
![]() |
(3)描述低維空間中的聯合概率分布函數與高維空間中數據分布的相似程度用損失函數 C 表示,任意選擇低維空間中的一個數據點,其聯合概率分布為 pij,且與其相對應的高維空間聯合概率分布為 qij,則計算公式如式(5)所示:
![]() |
其中,KL 散度(Kullback-Leibler divergence,KL)(以符號KL表示)為相對熵,用來衡量相同事件空間里的兩個概率分布的相似情況,P 和 Q 分別為高維空間和低維空間中度量點的概率分布。損失函數在于將
與
的 KL 距離最小化,即使 P 與 Q 兩個分布的匹配度最高。函數 C 對 yi 求偏導,計算損失函數的偏導數即為梯度,利用梯度下降法進行迭代更新,直到函數值收斂,即得到兩個概率分布相似最大化。
(4)在低維空間下,由于流式數據樣本類群分布呈非對稱且有拖尾,并且不完全服從標準的高斯分布,因此任意樣本數據點之間的相似度使用 t 分布(studentt-distribution)來表達。t 分布曲線尾部隨自由度的增加而變高,因而使得有拖尾的細胞類群分布尾部數據從高維映射到低維后有一個較大的距離,從而避免擁擠問題,t-SNE 梯度計算式可以表示如式(6)所示:
![]() |
(5)輸入參數困惑度(以符號 perp 表示)可以表示一個點附近的有效近鄰點個數:N 個數據點的條件概率分布有 sigma = {
},困惑度用二分搜索的方式來尋找一個最佳的
,其定義如式(7)所示:
![]() |
其中
為
的香農熵,用來表征樣本數據的不確定性,是混亂程度的量化指標,熵越大,困惑度越大,樣本數據的概率就越相近,即增加目標數據點的近鄰數據數量。
1.2 流式細胞類群分布擬合
為驗證細胞類群分布狀態,使用了商業數學軟件 MATLAB(R2013b,MathWorks,美國)進行仿真并擬合數據。實驗數據為健康志愿者的上肢前臂的靜脈外周血細胞樣本,由實驗室合作單位北京宣武醫院提供。實驗儀器是流式細胞儀 Facscalibur(Becton,Dickinson and Company,美國)[19]。選取人體外周血細胞中的淋巴細胞、嗜中性粒細胞、單核白細胞和破碎的細胞及雜質中的前向散射光脈沖面積(orward light scatter area,FSC-A)數據,共 11 324 組,基于統計學理論對數據進行采樣處理,得到細胞類群分布圖,如圖 1 所示。

由擬合圖可以看出,單核白細胞和破碎的細胞及雜質類群是呈非對稱分布且有拖尾的,因此使用 t 分布擬合相比于用高斯分布描述流式細胞樣本數據更加準確,可以較好地表征數據的整體特征,這也恰好滿足細胞分群需求。
1.3 基于 t-SNE 的流式數據分群方法
t-SNE 算法處理流式數據主要步驟如下所示:
第一步:輸入待降維多參數流式數據
,設定需要降到的維數
以及損失函數參數困惑度為 30(默認值);
第二步:對樣本矩陣 X 進行初始化,計算相應矩陣之間的距離,使用固定的困惑度計算條件概率 pj|i;
第三步:令
,用
隨機初始化低維數據
;
第四步:開始優化,進入循環迭代:
? 計算低緯度下的 qij
? 由公式(6)計算梯度
? 迭代尋優,更新低維數據
,迭代結束后得到的 Y 矩陣即為降維后新的主成分參數。
1.4 K-means 聚類算法
K-means 算法利用函數求極值得到迭代優化結果,是一種硬聚類方法,通常采用歐幾里德距離來衡量樣本與各個簇的相似度,該算法時間復雜度低、簡潔高效,在處理大數據方面有明顯優勢,具體算法描述如下:
(1)
是聚類數,隨機選取
個對象作為聚類質心點
,質心
表示程序初始時對樣本數據各個類別中心點的估計值。
(2)重復下面過程直到收斂,得出分類標簽:
① 對于每一個樣例 i,計算其應該屬于的類,計算其到 k 個質心中每一個的距離,然后選取距離最近的類別作為
,如式(8)所示:
![]() |
② 對于每一個類 j,重新計算該類的質心直到其不變或者變化很小,如式(9)所示[18-20]:
![]() |
2 實驗結果及分析
為驗證本文提出的方法對流式數據自動分析的能力,利用 t-SNE 算法對多參數流式細胞數據進行處理,實驗數據為本文 1.2 節使用的數據。人體外周血細胞包括淋巴細胞、嗜中性粒細胞、單核白細胞和破碎細胞及其雜質共 4 大類細胞,并分別用異硫氰酸熒光素(fluorescein isothiocyanate, FITC)、藻紅蛋白(P-phycoerythrin,PE)、異藻藍蛋白(allophy cocyanin,APC)、多甲藻黃素—葉綠素—蛋白復合物(peridinin-chlorophyll-protein complex,PerCP)4 種熒光染料標記[18, 21-22],細胞分群策略如圖 2 所示,被染色的流式細胞數據包括 14 個屬性參數,分別為激光照射細胞后產生的前向散射光(forward light scatter)、側向散射光(sideward light scatter)和 4 色熒光信號的脈沖高度,脈沖面積和脈沖寬度[18]。

2.1 基于 t-SNE 的流式細胞分群
選取 3 200 組被染色的 4 類細胞數據,繪制數據樣本的“t-SNE 算法降低維數與聚類指標關系”曲線圖,此時困惑度取經驗值 30,每組試驗取 10 次計算結果,去掉極值取平均值,以此確定最佳降低維度。為確保驗證結果的普遍適用性,重新選取 4 類細胞數據樣本,并重復上述實驗,得到 3 組實驗結果如圖 3 所示。

根據維度與聚類指標的關系曲線,可以看出用 t-SNE 算法降到 4 維時,聚類指標值最大,即此時的主成分貢獻率最大,因此確定最佳降低的維度為 4 維。
利用 t-SNE 和 KPCA 算法對原始流式細胞樣本進行降維處理,并利用K-means 算法對降維后的數據分類,從而得出分類標簽,實現細胞自動聚類。對比使用兩種降維算法處理后實驗結果的分群效果,以此驗證處理多維度流式數據時,利用 t-SNE 算法是否可以更好地提取樣本數據特征。利用 K-means 對兩種降維算法得到的主成分進行分群處理,利用前 3 個主成分(principal component,PC)(記為 PC1~PC3)繪制可視化散點圖,得到最終細胞自動聚類結果如圖 4 所示。

由以上分群散點圖可看出,t-SNE 算法與 KPCA 算法都可以對高維流式數據進行預處理,將高維數據映射到低維空間,并盡可能地保留原始數據的特征信息。但 t-SNE 算法處理后細胞類群之間的距離明顯更遠,類群之間的聚合程度也更加密集,能夠更大程度地區分各類細胞,即該算法可以在低維空間中更好地表征高維數據,因此利用 t-SNE 算法降維處理后的主成分分群可視化效果更好。為了量化分析兩種算法的準確率,實驗請專業操作人員使用專業流式數據分析軟件 cytospec(1.0.0.0,普度大學)對原始數據進行人工設門分析,并得到理想人工分群結果。計算兩種算法的分群準確率,如表 1 所示,基于 t-SNE 的流式數據分群的平均準確率可達 92.55%,優于 KPCA 算法。其中,對于類群分布呈非對稱且有拖尾的單核白細胞和破碎細胞及其雜質,t-SNE 算法分群準確率較高,對于正常的服從高斯分布的類群(淋巴細胞和嗜中性粒細胞)的識別能力也較 KPCA 算法有所提高。

2.2 實驗結果分析
專業操作人員對流式數據進行傳統分群方法是人工設門,通過將流式數據的熒光特征參數 FITC 的脈沖面積和側向散射光脈沖面積分別作為橫縱坐標,繪制散點圖,然后圈門分析即可得到理想人工分群結果,如圖 5 所示,圖中分別為淋巴細胞群、嗜中性粒細胞群、單核白細胞群和破碎的細胞及雜質。

為了直觀地對比兩種算法對細胞分群的結果與理想人工分群結果的差異,本文使用平均相對誤差(mean relative error,MRE)(以符號 MRE 表示)和均方根誤差(root mean square error,RMSE)(以符號 RMSE 表示)作為評價指標進行橫向對比,如式(10)、式(11)所示:
![]() |
![]() |
式中 k 表示樣本次序,k = 1,2,3,
,n;n 表示預測樣本數量,Tk 代表實際值,
代表預測值。
MRE 反應了測量值與真實值之間的總體差異,RMSE 可以很好地反應出測量值與真實值之間差異的精密度。兩種誤差的值越小,說明算法與理想人工分群算法得到的結果越相近。如表 2 所示,分別計算了 KPCA 和 t-SNE 算法與傳統理想人工分群結果的 MRE 和 RMSE,為驗證算法的普遍適用性,重新選取 4 類細胞數據樣本,并重復上述實驗,分別計算評價指標,得到 4 組實驗結果。

由表 2 可知,利用 t-SNE 算法計算與實際值較為接近,最大 MRE 為 12.37%,其他 3 組測試點 MRE 均控制在 10% 以內,RMSE 最大為 0.125。而利用 KPCA 算法降維得到的細胞分群結果 MRE 在 20% 左右。因此,在多參數流式數據分析中利用 t-SNE 算法降維準確率更高,泛化能力更強,可以得到較好的分群結果。
3 結論
隨著流式細胞術的快速發展,當前醫學上對多色多參數流式數據進行自動分析已成為研究熱點,傳統的人工設門方法存在一定局限,已經難以滿足市場需求,而將機器學習算法應用于流式數據自動分群上,是未來儀器自動化的研究方向。本文針對類群呈非對稱且有拖尾分布的細胞,提出了基于 t-SNE 降維結合 K-means 算法的自動分群方法。首先利用 t-SNE 算法對原始高維流式數據降維,提取特征主成分,使得降維后的數據在特征空間中呈現的類群分離效果最好;然后利用 K-means 算法處理主成分數據,實現細胞的自動聚類。實驗數據為人體外周血細胞,利用 t-SNE 算法與 KPCA 算法處理的分群結果,分別與傳統人工分群結果進行對比,結果表明,利用 t-SNE 算法處理類群呈非對稱且有拖尾分布的細胞,分群準確率有較大提高,對于普通的服從高斯分布的細胞類群分群識別能力也有所提高,分群準確率為 92.55%,在流式細胞儀數據的自動化分析領域有較好的應用前景。