隨著疾病譜的改變,惡性腫瘤已經成為危害人們身體健康的常見疾病,了解有無淋巴結轉移,對早期診斷腫瘤性疾病,合理治療有重要的指導意義。淋巴造影是影像學判斷淋巴結病例狀況的"金標準",它是唯一能觀察淋巴管道內部結構的方法,從而鑒別良性反應性淋巴結腫大和淋巴結腫瘤。本文使用不完全樸素貝葉斯分類模型構建計算機輔助診斷模型,利用淋巴系造影(Lymphography)數據集對實驗模型進行檢驗,選擇最優的分類算法構建模型,輔助醫師的教學、診斷。仿真實驗驗證了多種不完全樸素貝葉斯模型對淋巴結能有效地判別。
引用本文: 紀琳, 宋彬, 吳雙. 基于不完全貝葉分類模型的淋巴系造影圖像對淋巴腫瘤診斷的算法研究. 生物醫學工程學雜志, 2014, 31(3): 499-501. doi: 10.7507/1001-5515.20140092 復制
引言
隨著疾病譜的改變,惡性腫瘤已經成為危害人們身體健康的常見疾病,了解有無淋巴結轉移(特別是隱匿性淋巴結轉移),對早期診斷腫瘤性疾病,合理治療有重要的指導意義。增強的CT掃描和磁共振成像檢查目前是診斷淋巴結轉移的主要方法,但其只能根據淋巴結的大小判斷是否發生轉移,無法判斷正常大小淋巴結是否已轉移(個別小淋巴結內典型液化壞死改變除外),也難以區分增大的淋巴結是炎性反應還是腫瘤性病變所致[1]。而淋巴造影是影像學判斷淋巴結病例狀況的“金標準”,它是唯一能觀察淋巴管道內部結構的方法,從而鑒別良性反應性淋巴結腫大和淋巴結腫瘤。本文使用不完全樸素貝葉斯分類模型構建計算機輔助診斷模型,利用來自加州大學UCI知識庫中的淋巴病例淋巴系造影(Lymphography)數據集對實驗模型進行檢驗,選擇最優的分類算法構建模型,輔助醫師的教學和診斷。
1 不完全樸素貝葉斯分類模型
樸素貝葉斯(Naive Bayes,NB)分類模型是一種高效、準確的分類模型,得到了較為廣泛的應用[2-4]。NB分類模型假設所有的屬性相互之間都是獨立的。實例ATTR=<attr1,attr2,…,attrm>(其中attri表示第ith個屬性)所歸屬的類別標簽可由分類模型根據公式(1)計算所得。
${{c}_{class}}=\underset{class}{\mathop{arg\text{ }max}}\,\left( \frac{Pr\left( class \right){{\Pi }_{i=1}}^{m}Pr(att{{r}_{i}}|class)}{Pr\left( attr \right)} \right)$ |
由于NB分類模型割裂了屬性之間的關聯關系,丟失了固有相關信息,在一定程度上影響了分類的準確性,并有較高的偏置問題,因此,研究者們提出了不完全樸素貝葉斯(Semi-Naive Bayes)分類模型,嘗試在有限的代價下進一步提高NB分類模型的分類準確性。不完全樸素貝葉斯分類模型放松了NB分類模型關于屬性之間完全獨立地假設,考慮了部分屬性之間的關聯信息。其中較為典型的是1-依賴估計器(one-dependence estimator,ODE)分類模型 [2, 5-6]。ODE分類模型的類別判別由公式(2)計算,即:
$\begin{align} & {{c}_{class}}=\underset{class}{\mathop{arg\text{ }max}}\,~Pr\left( {{c}_{class}},ATTR \right)= \\ & \underset{class}{\mathop{arg\text{ }max}}\,~~Pr({{c}_{class}},att{{r}_{i}})\prod mj=1Pr(att{{r}_{j}}|{{c}_{class}},att{{r}_{sp}}) \\ \end{align}$ |
在ODE分類模型的基礎上,Webb等[7]提出了應用場景更為廣泛的平均1-依賴估計器(averaged ODE,AODE)分類模型。對有m個屬性的實例,AODE利用公式(3)將每一個屬性作為父屬性,計算實例屬于每一個類別的后驗概率,最后取平均值為分類時的后驗概率。
$\begin{align} & Pr({{c}_{class}},ATTR)=\frac{\sum\limits_{i=1}^{m}{Pr({{c}_{class}},att{{r}_{i}})}\underset{j\ne ij=1\cdots m}{\mathop{\prod }}\,Pr(att{{r}_{j}}|{{c}_{class}},att{{r}_{i}})}{m*{{\prod }_{i=1}}^{m}Pr(att{{r}_{i}})} \\ & ,class=1,\cdots ,k \\ \end{align}$ |
NB、ODE和AODE分類模型現已應用于乳腺X光攝影輔助診斷算法的研究,并取得了不錯的效果[2]。在本文中引入一種新的不完全樸素貝葉斯分類模型,N平均1-依賴估計器(NAODE)分類模型。該不完全樸素貝葉斯分類模型已應用于垃圾郵件過濾的研究,取得了較好的效果[8]。實驗證明,該模型在保留簡單、高效的基礎上,降低了對垃圾郵件分類的錯誤率。在本文中嘗試將其應用于醫學輔助診斷方面的研究。
NAODE分類模型依據屬性間的互信息大小,挑選出N個屬性作為父屬性,依次按照ODE分類模型計算各個類標簽的后驗概率,最后取N個ODE后驗概率的平均值作為分類概率。NAODE分類模型的類別判別由公式(4)計算,即:
$\begin{align} & {{c}_{class}}=arg\text{ }ma{{x}_{class}}Pr({{c}_{class}},ATTR)= \\ & arg\text{ }ma{{x}_{class}}\sum\limits_{i=1}^{N}{Pr({{c}_{class}},att{{r}_{i}})}\underset{j=1}{\overset{m}{\mathop{\prod }}}\,Pr(att{{r}_{j}}|{{c}_{class}},att{{r}_{i}}) \\ \end{align}$ |
在選取N個屬性作為父屬性的時候,需要先確定各個屬性的優先級,優先級高的屬性優先被選擇為父屬性。特征屬性<attri,attrj>之間的條件互信息(mutual information,MI)[9]表示兩個特征屬性之間的條件依賴關系,MI的值越大,說明該特征值攜帶較高的信息量,對分類的影響越大。對于每一個將會成為父屬性的屬性attrsp,首先計算各個類標簽下attrsp和其他所有屬性attri(i=1,…,m且i≠sp)之間的互信息。然后,計算屬性attrsp的平均互信息(average MI,AMI)由公式(5)計算,即:
$\begin{align} & AMI(att{{r}_{sp}})=\frac{1}{m-1}\sum\limits_{i\ne sp且i=1}^{m}{\sum\limits_{y=1}^{k}{{}}}\text{ } \\ & \left( \sum\limits_{i\ne sp,i=1}^{m}{Pr}(att{{r}_{sp}},att{{r}_{i}}|{{c}_{class}})log\frac{Pr(att{{r}_{sp}},att{{r}_{i}}|{{c}_{class}})}{Pr(att{{r}_{sp}})|{{c}_{class}})Pr(att{{r}_{i}}|{{c}_{class}})} \right) \\ \end{align}$ |
NAODE分類模型使用屬性所攜帶的平均互信息的大小衡量屬性的權值的高低。具有較高權值的N個屬性對分類效果的影響較大,所以權值高的屬性應該優先被選擇為父屬性。
2 仿真實驗與分析
2.1 實驗設計
仿真實驗使用Weka機器學習實驗環境實現[10]。實驗的Lymphography數據集來自于美國加州大學UCI機器學習知識庫(UCI Machine Learning Repository)[11]。Lymphography數據集如表 1所述,包括148個實例。每個實例包括18個屬性和1個類別標簽。類別標簽包含4個值,每個實例可能屬于其中的一個類別。該數據集中148個實例的歸屬具體分布如下:屬于normal find類別的2例,占1.35%;屬于metastases類別的81例,占54.73%;屬于malign lymph類別的61例,占41.22%;屬于fibrosis類別的4例,占2.7%。

在實驗中為了評估分類模型的性能,Weka實驗平臺將Lymphography數據集直接應用10-fold交叉驗證,研究證明10次交叉驗證是最優的[10]。Lymphography數據集被劃分為10個獨立的、數量近似的子集D1,…,D10。分類器將訓練、測試10次。每一次交叉驗證都使用不同的一個子集來作為測試數據集,其他的子集作為訓練數據集,即t∈{1,2,…,10}將使用D-Dt作為訓練集并且使用Dt作為測試集。這樣,每一個子集都會被作為測試數據進行分類計算。Lymphography數據集中的每一個實例都會被當作測試實例被分類一次。最后,實驗平臺將取10次交叉驗證的平均值為最終的測試結果。
2.2 實驗評估標準
為了評測各種算法的優劣性,實驗主要采用以下三個指標來對分類模型進行評估,分類正確率、RMSE錯誤率和KS值。
(1)分類正確率:它是所有的測試實例分類正確的百分比。用于評估分類模型總體的分類性能。
(2)RMSE錯誤率 [10]:RMSE(root mean squard error)測量了當分類器在輸出預測概率時的概率估計質量,RMSE值越小,該分類器的性能越好。分類器的RMSE值可由公式(6)求得
$RMSE=\sqrt{\frac{\sum\limits_{i=1}^{n}{\left( \frac{{{({{p}_{i1}}-{{a}_{i1}})}^{2}}+\ldots +{{({{p}_{ik}}-{{a}_{ik}})}^{2}}}{k} \right)}}{n}}$ |
(3)KS值:卡帕統計量(Kappa statistic,KS)用于評估分類模型對數據集的預測分類與觀察分類之間的一致性。KS值是以偶然造成的一致性和實際觀測的一致性之間的差別大小作為評價基礎的統計指標。
2.3 實驗結果與分析
實驗結果表 2列出了分別使用NB模型和三種不完全樸素貝葉斯分類模型(ODE、AODE和NAODE分類模型)對Lymphography數據庫病例的分類結果。分類正確率越高、RMSE錯誤率越小,分類模型的性能就越好。KS值越高,說明分類器與最優解越接近,與觀察的分類值越一致。

從仿真實驗的結果來看,這四種分類器都非常有效,分類準確率均達到較高水準。其中,ODE分類模型在Lymphography數據集病例辨別應用上的分類性能最好。當父屬性取“block of affere”的時候,ODE分類模型的正確率和KS值在幾種分類模型中屬最高(分別為87.8378%和0.7696),同時RMSE錯誤率最低(0.227)。
3 小結與未來工作
本文提出將不完全樸素貝葉斯分類模型應用于計算機輔助診斷技術中,利用不完全樸素貝葉斯分類模型對Lymphography數據集中的淋巴結病例進行判別。仿真實驗證明多種不完全樸素貝葉斯分類模型都取得了較好的效果。當父屬性取“block of affere”的時候,不完全樸素貝葉斯分類模型中ODE分類模型獲得了最佳的判別效果,具有最高的分類正確率、KS值以及最低的RMSE錯誤率。
在未來的工作中,我們將采用四川大學華西醫院放射科的PACS系統獲得的實際病例信息,并結合本文的研究結果來驗證ODE分類模型在臨床上的應用效果。
引言
隨著疾病譜的改變,惡性腫瘤已經成為危害人們身體健康的常見疾病,了解有無淋巴結轉移(特別是隱匿性淋巴結轉移),對早期診斷腫瘤性疾病,合理治療有重要的指導意義。增強的CT掃描和磁共振成像檢查目前是診斷淋巴結轉移的主要方法,但其只能根據淋巴結的大小判斷是否發生轉移,無法判斷正常大小淋巴結是否已轉移(個別小淋巴結內典型液化壞死改變除外),也難以區分增大的淋巴結是炎性反應還是腫瘤性病變所致[1]。而淋巴造影是影像學判斷淋巴結病例狀況的“金標準”,它是唯一能觀察淋巴管道內部結構的方法,從而鑒別良性反應性淋巴結腫大和淋巴結腫瘤。本文使用不完全樸素貝葉斯分類模型構建計算機輔助診斷模型,利用來自加州大學UCI知識庫中的淋巴病例淋巴系造影(Lymphography)數據集對實驗模型進行檢驗,選擇最優的分類算法構建模型,輔助醫師的教學和診斷。
1 不完全樸素貝葉斯分類模型
樸素貝葉斯(Naive Bayes,NB)分類模型是一種高效、準確的分類模型,得到了較為廣泛的應用[2-4]。NB分類模型假設所有的屬性相互之間都是獨立的。實例ATTR=<attr1,attr2,…,attrm>(其中attri表示第ith個屬性)所歸屬的類別標簽可由分類模型根據公式(1)計算所得。
${{c}_{class}}=\underset{class}{\mathop{arg\text{ }max}}\,\left( \frac{Pr\left( class \right){{\Pi }_{i=1}}^{m}Pr(att{{r}_{i}}|class)}{Pr\left( attr \right)} \right)$ |
由于NB分類模型割裂了屬性之間的關聯關系,丟失了固有相關信息,在一定程度上影響了分類的準確性,并有較高的偏置問題,因此,研究者們提出了不完全樸素貝葉斯(Semi-Naive Bayes)分類模型,嘗試在有限的代價下進一步提高NB分類模型的分類準確性。不完全樸素貝葉斯分類模型放松了NB分類模型關于屬性之間完全獨立地假設,考慮了部分屬性之間的關聯信息。其中較為典型的是1-依賴估計器(one-dependence estimator,ODE)分類模型 [2, 5-6]。ODE分類模型的類別判別由公式(2)計算,即:
$\begin{align} & {{c}_{class}}=\underset{class}{\mathop{arg\text{ }max}}\,~Pr\left( {{c}_{class}},ATTR \right)= \\ & \underset{class}{\mathop{arg\text{ }max}}\,~~Pr({{c}_{class}},att{{r}_{i}})\prod mj=1Pr(att{{r}_{j}}|{{c}_{class}},att{{r}_{sp}}) \\ \end{align}$ |
在ODE分類模型的基礎上,Webb等[7]提出了應用場景更為廣泛的平均1-依賴估計器(averaged ODE,AODE)分類模型。對有m個屬性的實例,AODE利用公式(3)將每一個屬性作為父屬性,計算實例屬于每一個類別的后驗概率,最后取平均值為分類時的后驗概率。
$\begin{align} & Pr({{c}_{class}},ATTR)=\frac{\sum\limits_{i=1}^{m}{Pr({{c}_{class}},att{{r}_{i}})}\underset{j\ne ij=1\cdots m}{\mathop{\prod }}\,Pr(att{{r}_{j}}|{{c}_{class}},att{{r}_{i}})}{m*{{\prod }_{i=1}}^{m}Pr(att{{r}_{i}})} \\ & ,class=1,\cdots ,k \\ \end{align}$ |
NB、ODE和AODE分類模型現已應用于乳腺X光攝影輔助診斷算法的研究,并取得了不錯的效果[2]。在本文中引入一種新的不完全樸素貝葉斯分類模型,N平均1-依賴估計器(NAODE)分類模型。該不完全樸素貝葉斯分類模型已應用于垃圾郵件過濾的研究,取得了較好的效果[8]。實驗證明,該模型在保留簡單、高效的基礎上,降低了對垃圾郵件分類的錯誤率。在本文中嘗試將其應用于醫學輔助診斷方面的研究。
NAODE分類模型依據屬性間的互信息大小,挑選出N個屬性作為父屬性,依次按照ODE分類模型計算各個類標簽的后驗概率,最后取N個ODE后驗概率的平均值作為分類概率。NAODE分類模型的類別判別由公式(4)計算,即:
$\begin{align} & {{c}_{class}}=arg\text{ }ma{{x}_{class}}Pr({{c}_{class}},ATTR)= \\ & arg\text{ }ma{{x}_{class}}\sum\limits_{i=1}^{N}{Pr({{c}_{class}},att{{r}_{i}})}\underset{j=1}{\overset{m}{\mathop{\prod }}}\,Pr(att{{r}_{j}}|{{c}_{class}},att{{r}_{i}}) \\ \end{align}$ |
在選取N個屬性作為父屬性的時候,需要先確定各個屬性的優先級,優先級高的屬性優先被選擇為父屬性。特征屬性<attri,attrj>之間的條件互信息(mutual information,MI)[9]表示兩個特征屬性之間的條件依賴關系,MI的值越大,說明該特征值攜帶較高的信息量,對分類的影響越大。對于每一個將會成為父屬性的屬性attrsp,首先計算各個類標簽下attrsp和其他所有屬性attri(i=1,…,m且i≠sp)之間的互信息。然后,計算屬性attrsp的平均互信息(average MI,AMI)由公式(5)計算,即:
$\begin{align} & AMI(att{{r}_{sp}})=\frac{1}{m-1}\sum\limits_{i\ne sp且i=1}^{m}{\sum\limits_{y=1}^{k}{{}}}\text{ } \\ & \left( \sum\limits_{i\ne sp,i=1}^{m}{Pr}(att{{r}_{sp}},att{{r}_{i}}|{{c}_{class}})log\frac{Pr(att{{r}_{sp}},att{{r}_{i}}|{{c}_{class}})}{Pr(att{{r}_{sp}})|{{c}_{class}})Pr(att{{r}_{i}}|{{c}_{class}})} \right) \\ \end{align}$ |
NAODE分類模型使用屬性所攜帶的平均互信息的大小衡量屬性的權值的高低。具有較高權值的N個屬性對分類效果的影響較大,所以權值高的屬性應該優先被選擇為父屬性。
2 仿真實驗與分析
2.1 實驗設計
仿真實驗使用Weka機器學習實驗環境實現[10]。實驗的Lymphography數據集來自于美國加州大學UCI機器學習知識庫(UCI Machine Learning Repository)[11]。Lymphography數據集如表 1所述,包括148個實例。每個實例包括18個屬性和1個類別標簽。類別標簽包含4個值,每個實例可能屬于其中的一個類別。該數據集中148個實例的歸屬具體分布如下:屬于normal find類別的2例,占1.35%;屬于metastases類別的81例,占54.73%;屬于malign lymph類別的61例,占41.22%;屬于fibrosis類別的4例,占2.7%。

在實驗中為了評估分類模型的性能,Weka實驗平臺將Lymphography數據集直接應用10-fold交叉驗證,研究證明10次交叉驗證是最優的[10]。Lymphography數據集被劃分為10個獨立的、數量近似的子集D1,…,D10。分類器將訓練、測試10次。每一次交叉驗證都使用不同的一個子集來作為測試數據集,其他的子集作為訓練數據集,即t∈{1,2,…,10}將使用D-Dt作為訓練集并且使用Dt作為測試集。這樣,每一個子集都會被作為測試數據進行分類計算。Lymphography數據集中的每一個實例都會被當作測試實例被分類一次。最后,實驗平臺將取10次交叉驗證的平均值為最終的測試結果。
2.2 實驗評估標準
為了評測各種算法的優劣性,實驗主要采用以下三個指標來對分類模型進行評估,分類正確率、RMSE錯誤率和KS值。
(1)分類正確率:它是所有的測試實例分類正確的百分比。用于評估分類模型總體的分類性能。
(2)RMSE錯誤率 [10]:RMSE(root mean squard error)測量了當分類器在輸出預測概率時的概率估計質量,RMSE值越小,該分類器的性能越好。分類器的RMSE值可由公式(6)求得
$RMSE=\sqrt{\frac{\sum\limits_{i=1}^{n}{\left( \frac{{{({{p}_{i1}}-{{a}_{i1}})}^{2}}+\ldots +{{({{p}_{ik}}-{{a}_{ik}})}^{2}}}{k} \right)}}{n}}$ |
(3)KS值:卡帕統計量(Kappa statistic,KS)用于評估分類模型對數據集的預測分類與觀察分類之間的一致性。KS值是以偶然造成的一致性和實際觀測的一致性之間的差別大小作為評價基礎的統計指標。
2.3 實驗結果與分析
實驗結果表 2列出了分別使用NB模型和三種不完全樸素貝葉斯分類模型(ODE、AODE和NAODE分類模型)對Lymphography數據庫病例的分類結果。分類正確率越高、RMSE錯誤率越小,分類模型的性能就越好。KS值越高,說明分類器與最優解越接近,與觀察的分類值越一致。

從仿真實驗的結果來看,這四種分類器都非常有效,分類準確率均達到較高水準。其中,ODE分類模型在Lymphography數據集病例辨別應用上的分類性能最好。當父屬性取“block of affere”的時候,ODE分類模型的正確率和KS值在幾種分類模型中屬最高(分別為87.8378%和0.7696),同時RMSE錯誤率最低(0.227)。
3 小結與未來工作
本文提出將不完全樸素貝葉斯分類模型應用于計算機輔助診斷技術中,利用不完全樸素貝葉斯分類模型對Lymphography數據集中的淋巴結病例進行判別。仿真實驗證明多種不完全樸素貝葉斯分類模型都取得了較好的效果。當父屬性取“block of affere”的時候,不完全樸素貝葉斯分類模型中ODE分類模型獲得了最佳的判別效果,具有最高的分類正確率、KS值以及最低的RMSE錯誤率。
在未來的工作中,我們將采用四川大學華西醫院放射科的PACS系統獲得的實際病例信息,并結合本文的研究結果來驗證ODE分類模型在臨床上的應用效果。