醫學圖像由于成像模式、圖像質量、患者間及患者在不同病程時的圖像變化等差異以及對魯棒性的嚴格要求, 它的配準成為難點。我們受語義模型, 尤其是視覺詞包模型在計算機視覺中巨大成功的啟發, 將語義模型推廣到醫學圖像配準。由于醫學圖像大都具有對比度差、動態范圍小、只含灰度信息等特點, 傳統的視覺詞包往往效果不夠理想。本文根據相關研究工作, 提出了更適用于醫學圖像處理的方向性視覺詞包模型, 并基于該語義模型進行醫學圖像配準。我們由專家人工指定關鍵的解剖結構, 使用方向性視覺詞包, 借助由粗到細的金字塔搜索策略和k-means聚類方法, 準確定位關鍵結構的位置, 并重點配準它們附近的區域。在心臟圖像上進行的實驗表明, 該方法可保證在特定區域內達到較高的配準精度。
引用本文: 金雨菲, 麻蒙, 楊新. 一種基于語義模型的醫學圖像配準方法. 生物醫學工程學雜志, 2016, 33(2): 343-349. doi: 10.7507/1001-5515.20160058 復制
引言
醫學圖像有多種成像模式,常見的有超聲成像(ultrasound, US)、X射線斷層掃描成像(computed tomography, CT)、核磁共振成像(magnetic resonance imaging, MRI)等。由于臨床需要,很多情況下醫生會將幾種圖像結合起來,綜合它們的信息來輔助診斷治療,這就要求對醫學圖像進行配準。醫學圖像配準是指通過尋找某種空間變換,使兩幅圖像的對應點達到空間位置及解剖上的完全一致。1998年,Maintz等[1]出版了一個十分全面詳盡的圖像配準綜述,他們從維度、配準基礎、變換、交互、優化、模態、主題和對象等十個方面對當時已有的配準方法進行了分類,后來的研究基本都以這個分類方法為主。具體到醫學圖像的配準,Wells等[2]在1997年提出了最大化互信息方法,該方法基于灰度,對圖像本身的模態沒有要求,具有較好的普適性、魯棒性和精確度,迅速得到了廣泛應用,在醫學圖像配準史上具有里程碑意義。Hill等[3]從數學角度,對醫學圖像配準給出了較為完整的定義。他們將各種方法分為兩個類別:基于幾何特征和基于像素相似性,并對每一種方法都進行了推導說明。M?kel?等[4]對心臟圖像配準算法進行了總結。根據涉及的圖像種類,醫學圖像配準又可分為多模和單模配準。一般來說,多模圖像配準常用于對病灶部位進行綜合分析,需要使用解剖成像和功能成像等不同手段來全面了解病灶信息,以便更好地輔助診斷治療;而單模圖像配準則常見于病情分析、跟蹤、研究等領域,例如觀察腫瘤生長變換的情況以評估治療的效果。2010年以來,醫學圖像配準仍然是一個熱門的研究領域,研究興趣多集中于較為具體的方向,如對各成像模態下的醫學圖像構造更具臨床意義的圖像表示方法等。
與此同時,在計算機視覺、自然場景識別等領域中,研究者們提出了大量的最新算法,其中語義模型,尤其是視覺詞包模型的良好特性和相關研究成果引起了我們的關注。Bai等[5]對分割后的形狀提出了一個基于學習的形狀描述方法并同時用于形狀匹配,該方法綜合了從特定形狀中提取出的局部特征,然后將它們在一個類似詞包模型的框架中進行編碼,并采用類似空間金字塔匹配的思想,提出了名為特征分割的策略,將被編碼的特征池化后習得詞匯表,如此既聯合了圖像的全局和局部信息,構造出一個具有更強區分力和魯棒性的描述子,又兼顧了計算效率。Xie等[6]擴展了傳統的特征包模型,整合了多個改進思路,即對局部圖像塊提取多重描述子、構建連結底層特征和高層概念的中層結構,大大提升了特征包模型在圖像分類中的效果。Mojsilovic等[7]在研究基于內容的醫學圖像數據庫檢索時,提出了一種基于語義層次視覺特征的圖像自動分類方法,并且聲稱他們的方法能夠提供語義層面的信息,因而可以作為其他算法的基礎。Zhu等[8]受到文本分類問題的啟發,提出了一種基于關鍵塊(key block)的圖像檢索方法,并探索了幾種基于詞典的方法。Csurka等[9]提出了一種基于bag-of-keypoints的圖像分類方法。
在醫學圖像配準中引入語義模型,可以充分發揮語義信息提供更高層次信息的優勢。一方面,語義信息會比低層次特征具有更好的魯棒性。在特征檢測中,如何避免干擾和誤檢一直是一個重要的問題,邊緣檢測時除了檢測到需要的邊緣,還會得到很多偽邊緣;而更高層次的特征如常用的尺度不變特征轉換(scale-invariant feature transform, SIFT)等也會遇到干擾的問題,大部分情況下也只是簡單地采取閾值方法濾出部分最強的特征。顯然,抽象等級越高,抗干擾能力就越強,結果中包含的誤檢就越少,因此作為更高等級的信息,語義信息具有更好的魯棒性。另一方面,語義信息能夠提供更加直觀的理解,這樣更容易評價圖像處理和配準的結果。當然,不可避免的是,更高層次的信息意味著精確度可能會更差,這可以通過幾種配準方法的結合來彌補。本文在相關研究工作的基礎上,進一步提出了更適用于醫學圖像處理的方向性視覺詞包模型,并基于該語義模型進行醫學圖像配準。
1 方法
根據利用圖像信息的層次,圖像配準方法可大致劃分為三種類型:基于像素信息的方法、基于特征的方法和基于語義信息的方法,如圖 1所示。

基于像素信息的方法僅利用強度、位置、分布等未經處理的原始信息,由于沒有經過降維、抽象等處理,圖像沒有損失信息,當條件合適時在理論上具有最佳表現。基于特征的方法則具有更大的靈活性。特征由原始信息經過適度的處理形成,一般都具有區分力、魯棒等特性,并且與原始信息相比較為稀疏,因此基于特征的方法一般具有魯棒、靈活、計算復雜度低等特點。特征經過更進一步的處理,就得到了語義信息。類似于文本處理中,無意義的單詞經過處理后可以形成有意義的句子、主題等,特征經過處理也可以構造出更高層次的語義信息。基于語義模型的圖像處理和圖像識別方法的相關研究很早就開展了,但是由于計算機表示和人腦理解之間的鴻溝,建立有效的語義模型仍然是一個巨大的挑戰。我們提出的基于方向性視覺詞包模型的醫學圖像配準即屬于基于語義信息的方法。
1.1 醫學圖像的語義模型
1.1.1 視覺詞包模型
從文字擴展到圖像,視覺詞包(bag-of-visual-words)模型可以看作一種紋理描述。所謂的紋理,就是不斷重復出現的基本單元。同樣通過統計分布直方圖就能大致判斷出這個圖像的外觀特性。
視覺詞包的構建和文本詞包模型類似,首先要建立詞典。不同的是,視覺詞包的“詞”指的是圖像中的特征向量,而詞典的構建也不再是計算頻率,而是要用到聚類。具體做法是,首先進行特征檢測,找到需要提取特征的關鍵點,然后提取關鍵點周圍的鄰域,作為特征提取的區域。然后選擇合適的局部描述算子,在特征點的鄰域進行計算,形成特征向量。但是,即使在同一個位置、使用同一種特征檢測算法,得到的特征點坐標也不一定完全相同,這樣經過特征提取后得到的結果也不會完全相同。解決這個問題的辦法是使用聚類。這樣雖然特征檢測算法得到的關鍵點位置可能有一點偏差,但是提取的鄰域是極其相似的,因此可以認為特征向量也非常相近。最后一幅圖像就可以表示成一個直方圖形式的詞典。
1.1.2 方向性視覺詞包
雖然視覺詞包在圖像分類和檢索中應用廣泛,但是并不適用于醫學圖像配準。這是因為醫學圖像普遍具有分辨率較低、動態范圍小、只具有灰度信息等特點,圖像質量比較差;相比而言,自然場景圖像則具有豐富的物體和色彩信息。
通過分析和模擬醫學圖像構建詞典的過程,我們發現很多誤分類的圖像實際都具有相似的詞匯組成,然而其詞匯的位置分布卻未必一致。受此啟發,我們提出引入位置信息,即將一張圖分為四個部分,對每個部分分別應用已經構建的詞典進行編碼以得到其向量表示,然后將四個部分的向量表示組合起來作為整體向量表示。我們將上述醫學圖像的詞包構建稱為方向性視覺詞包(directional visual words)。
如圖 2所示,如果采用(c)中的傳統視覺詞包,圖 2(b)中上下兩幅圖的表示就沒有任何區別,這樣就很可能將不同的解剖部位混淆。這樣的情況在醫學圖像中非常常見,這也是傳統的詞包模型在醫學圖像領域表現不夠理想的原因之一。使用本文提出的方向性視覺詞包則可以在一定程度上解決此問題。如圖 2(a)所示,如果詞匯的分布不同,即使總的詞匯統計分布相同,最后的方向性詞包表示也會不同,這就賦予了方向性視覺詞包區分詞匯分布的能力。

(a)方向性詞包;(b)易混淆圖像;(c)傳統視覺詞包
Figure2. Directional visual words vs. traditional visual words(a) directional visual words; (b) easily-confused images; (c) traditional visual words
1.1.3 語義模型的搭建
方向性視覺詞包與普通的視覺詞包在詞典構建階段完全相同,甚至在表示階段也基本一致,唯一的不同在于,方向性視覺詞包將圖像分為四個部分分別表示。因此如果沒有特殊說明,下面的步驟對兩者都適用:①特征提取;②詞典構建(k-means聚類);③訓練支持向量機分類器(support vector machine,SVM)。k-means聚類和SVM分類器都是機器學習中的經典算法,在此不作贅述。這樣我們就可得到圖像的語義模型。
1.1.4 特征提取
常用的特征有SIFT,Harris角點檢測,方向梯度直方圖特征(histogram of oriented gradient, HOG),基于加速分割檢測特征(features from accelerated segment test, FAST)等[10-13]。本文采用了加速魯棒性特征(speeded-up robust features, SURF)。Bay等[14]提出的SURF特征是一種具有尺度、旋轉不變特性,既能夠檢測也能夠作描述的特征。SURF特征使用了hessian矩陣作為特征點檢測算法,因為hessian矩陣擁有很好的性能并且運算量也不大;它不僅與前面提到的特征具有相近甚至更好的性能,還有計算速度較快的優點。
1.2 基于方向性視覺詞包的醫學圖像配準
在得到醫學圖像的語義模型后,我們對圖像進行配準。首先我們的算法設計如下。
1.2.1 算法設計
一個能夠很好地應用于圖像理解、場景分類、視覺感知的圖像語義模型需滿足語義性和描述性、基于區域、無需分割,且符合視覺感知。
當然,上述條件在實際中不可能完全滿足,我們只能根據需求,在幾項要求之間進行權衡取舍。基本思想是,通過選擇圖像中具有特殊意義的點,選擇點周圍一個小的鄰域,作為訓練集,訓練一個分類器。然后采用與Vogel等[15]類似的方法,將參考圖像和浮動圖像分別劃分為和訓練集等同大小的小區域,對每一個區域進行分類、標注。和Vogel等不同的是,這里并不是按照網格劃分,而是采用一個由粗到細的搜索策略。這樣做的主要目的是減少運算量,因為如果一開始就逐個掃描全部像素,每個像素都要提取一個鄰域,經過特征檢測、特征描述,再由分類器進行分類,整個流程下來運算量會很大,尤其是當圖像分辨率較大的時候。
1.2.2 圖像配準框架
配準問題的最終目標就是找到最優變換模型和參數,使得兩幅圖像可以達到最佳匹配。本文采用的流程如圖 3所示。

具體來說,在醫學圖像配準的圖像變換這步,我們通過人為加入外部標記作為控制點進行配準,這種方法又被稱作基于控制點的配準方法,適用范圍很廣。特別是當變換模型未知且無法預測時,很多配準方法都無法使用,因為它們都是先假定一個變化模型,然后使用一定的相似性度量準則和優化方法,得到最優的變換參數。但是在無法估計變換模型的情況下,這類方法就無法取得很好的效果了,這個時候基于控制點的配準方法就顯示出它的獨特優勢。此外,如果圖像在采集的過程中視角一直在平穩變化,那么除非預先知道視角的變化規律,否則是無法估計出變換模型的。但是,只要找到不同圖像中相同的關鍵控制點,就可以通過這些控制點將圖像配準。
基于控制點的配準方法對控制點的個數有一定的要求,控制點越多,配準的結果也就越準確。如果控制點比較稀疏,那么可能只能適用于剛體配準;如果控制點很多,能夠達到每一個有意義的局部區域都有足夠多的控制點,那么即使是非剛性配準也可以取得很好的效果。在醫學圖像的配準中,這些點都是一些容易辨識的部位或者具有解剖意義的結構。我們選取的標準是,這些結構在待配準的圖像中都存在,且保持相對穩定、可辨識。當然,這些點的選取需要醫學方面的專業知識來根據具體的應用情況作出選擇。雖然專家選取的方法具有更好的準確性,但如果圖像數據巨大,人工的方法就不太現實了。因此本文采用如下配準模型:先由專家確定一個類別圖像中關鍵的以及比較適合作為控制點的部位,然后讓計算機程序自動選擇控制點。
2 實驗與結果
為檢驗本文算法的有效性,實驗選用心臟超聲圖像進行配準測試。心臟除個體差異外,還具有特定的收縮和舒張運動特性,因此其圖像間的配準精度依賴于語義模型的有效設計。本文的醫學實驗數據采集自項目合作單位上海交通大學附屬新華醫院的飛利浦SONOS 7500心臟超聲儀。數據庫包含了13例樣本,均采自心臟健康者。每個樣本的圖像序列中包含52張圖像,圖像由SONOS 7500按心動周期自動采集。實驗平臺配置如下:操作系統:Windows 8.1 64bit;CPU:Intel CORE i3 2310(主頻2.13 GHz);內存:4GB DDR1333內存;硬盤:Sandisk Ultra Plus 128GB SSD。首先要對所有圖像做簡單的歸一化處理。
2.1 語義模型的訓練
算法的第一步是訓練一個圖像分類器。這里涉及到三個問題:①分類器的選擇;②類別的選擇;③訓練數據集的選擇。
首先是分類器的選擇,經過實驗發現,由于醫學圖像大都是灰度圖像,這類處理的主要問題不在于分類器的選擇,而是預處理和特征提取算法的選擇,線性SVM分類器在大多數情況下的表現已經足夠好,因此我們選擇了線性SVM分類器。
其次是類別的選擇,即待配準圖像要選取什么樣的語義概念以及多少個語義概念。語義概念的選擇主要是依靠專業知識,在醫學圖像中,我們依靠專家的判斷選出具有重要解剖意義的部位,并對這些部位重點配準,配準算法要優先保證這些區域的配準精度。由于超聲心動圖像一般是用來診斷心臟的功能性疾病,二尖瓣和三尖瓣是診斷的關鍵。因此,這里的語義概念選擇了二尖瓣和三尖瓣的瓣根點,如圖 4所示,每兩個框之間的線狀物為瓣膜。之所以不選擇瓣膜,是因為在整個超聲心動圖像采集的過程中,瓣膜一直在做開閉運動,而瓣根點則相對心臟保持穩定,只隨著心臟的舒張和收縮運動而整體移動。另外,我們進行配準的主要目的是觀察瓣膜的開閉功能是否完好,只需要將瓣根點配準好,就可以直觀地看到瓣膜的運動情況。

最后是訓練數據集的選擇。每一例超聲心動圖像是一個時間序列。選取一例樣本,針對每個瓣根點和特征區域,我們從圖像序列中隨機抽取了16張圖像(約30%),專家人工標記出相應的位置,以此作為訓練數據集,剩余的約70%則作為測試集,如圖 5所示。
對于16張時間序列中的圖像,首先由專家對各類別分別挑選出最為典型的點,在每個點的周圍取20×20的鄰域作為訓練數據,于是每個類別就得到16張圖片作為訓練集(如圖 5所示)。然后用第1章提出的方法,對訓練集進行特征檢測、特征提取、詞典的構建,以建立關于各瓣根點和特征區域的方向性視覺詞包模型(即語義模型)。最后使用上述模型訓練線性SVM分類器。分類器訓練好后,就可以用來對新圖像中的各個部分分類了,在此我們采用了Lazebnik等[16]提出的金字塔搜索策略(spatial pyramid matching,SPM)由粗到細進行搜索,以加快速度。

(a)二尖瓣右瓣根;(b)二尖瓣左瓣根;(c)三尖瓣左瓣根;(d)最暗區域;(e)過渡部分;(f)最亮區域
Figure5. Training set preparation(a) right root of mitral valve; (b) left root of mitral valve; (c) left root of tricuspid valve; (d) darkest area; (e) transitional area; (f) brightest area
2.2 心臟圖像的配準
我們采用基于控制點的配準方法,有三個步驟。首先,從圖像中提取控制點。這和特征提取是類似的,只不過這里的控制點是一類特殊的、在各視角和變換下都能檢測出來的特征。然后,匹配控制點,將參考圖像中提取的控制點和浮動圖像中提取的控制點匹配起來,即使描述同一個位置的特征點對應起來。最后,根據匹配的控制點計算出空間變換模型。
實驗過程如下,首先通過專家確定一個類別圖像中關鍵的和比較適合作為控制點的部位,也即人為選取具有解剖意義的關鍵部位作為訓練數據集,構建方向性詞包模型,并訓練分類器。然后通過搜索和聚類找到選定部位的位置。為了在接下來的配準過程中優先保證這些部位的配準精度,我們以得到的瓣根位置為中心,選定一個范圍,在這個范圍內,使用SURF方法提取特征點,然后對這些特征點進行特征匹配,匹配結果如圖 6所示,圖中的標志點為特征點,引線表明了浮動圖像和參考圖像中對應特征點的匹配。得到匹配的特征點之后,就可以使用優化算法計算出變換模型參數。由于這里的匹配特征點都是在瓣根位置周圍提取的,因此瓣根位置具有最好的配準精度。從融合后的圖像如圖 7所示,也可以看出,瓣根點附近的配準精度最高,誤差在一兩個像素以內,而左側邊緣位置則有重影,說明這里的配準精度有好幾個像素的誤差。

(a)浮動圖像;(b)參考圖象
Figure6. Feature matching result(a) floating image; (b) reference image

2.3 批量樣本驗證
將數據庫中剩余的12例樣本圖像作為測試集,用之前訓練好的SVM分類器分類出新圖像中的各個部分。隨后在測試集中隨機抽取30%的圖像與訓練集中隨機抽取的某一圖像進行配準,統計得到的瓣根識別誤差如表 1所示。

3 結論
本文將視覺詞包模型應用于醫學圖像分類,并針對其缺點提出了改進方法--方向性視覺詞包。在此基礎上我們又提出了一個基于語義模型的醫學圖像配準框架:由有經驗的專家根據具體醫學圖像的特點,指定一些具有關鍵解剖意義的部位作為配準的基準點,然后使用我們提出的方向性視覺詞包模型理論構建語義模型,并訓練SVM分類器。使用訓練得到的分類器可對圖像進行特征提取、聚類、分類、匹配以及配準融合。
本文結合了SURF特征檢測、k-means聚類和金字塔搜索策略,成功地將語義模型應用于超聲心動時間序列圖像的配準中。該算法可以具有一定的傾向性,即可以通過選擇犧牲其他部分的精度,來強調特定區域的配準精度,這在實踐中具有特殊意義。
需要說明的是,由于詞包模型本身的局限(如對局部描述子的語義描述有限,在單個視覺單詞上不能建立魯棒的結構,以及沒有發揮有效的空間加權等),這種方法對圖像本身有一定的要求,應用于單模圖像配準時效果更佳;但考慮到同目標的多模態醫學圖像在部分語義結構上的共性,今后我們將進一步探索改進方法,以將語義模型推廣到多模態配準。另外,雖然該方法達到了保證特定感興趣區域配準精度的目的,但是不可避免地對其他部分有一定影響。因此,需要一定的權衡取舍,或者結合其他的配準方法提高其余部分的配準精度。詞包模型只是語義模型的一種,將來我們可以繼續探索和拓展其他可能適用于醫學圖像的模型。
引言
醫學圖像有多種成像模式,常見的有超聲成像(ultrasound, US)、X射線斷層掃描成像(computed tomography, CT)、核磁共振成像(magnetic resonance imaging, MRI)等。由于臨床需要,很多情況下醫生會將幾種圖像結合起來,綜合它們的信息來輔助診斷治療,這就要求對醫學圖像進行配準。醫學圖像配準是指通過尋找某種空間變換,使兩幅圖像的對應點達到空間位置及解剖上的完全一致。1998年,Maintz等[1]出版了一個十分全面詳盡的圖像配準綜述,他們從維度、配準基礎、變換、交互、優化、模態、主題和對象等十個方面對當時已有的配準方法進行了分類,后來的研究基本都以這個分類方法為主。具體到醫學圖像的配準,Wells等[2]在1997年提出了最大化互信息方法,該方法基于灰度,對圖像本身的模態沒有要求,具有較好的普適性、魯棒性和精確度,迅速得到了廣泛應用,在醫學圖像配準史上具有里程碑意義。Hill等[3]從數學角度,對醫學圖像配準給出了較為完整的定義。他們將各種方法分為兩個類別:基于幾何特征和基于像素相似性,并對每一種方法都進行了推導說明。M?kel?等[4]對心臟圖像配準算法進行了總結。根據涉及的圖像種類,醫學圖像配準又可分為多模和單模配準。一般來說,多模圖像配準常用于對病灶部位進行綜合分析,需要使用解剖成像和功能成像等不同手段來全面了解病灶信息,以便更好地輔助診斷治療;而單模圖像配準則常見于病情分析、跟蹤、研究等領域,例如觀察腫瘤生長變換的情況以評估治療的效果。2010年以來,醫學圖像配準仍然是一個熱門的研究領域,研究興趣多集中于較為具體的方向,如對各成像模態下的醫學圖像構造更具臨床意義的圖像表示方法等。
與此同時,在計算機視覺、自然場景識別等領域中,研究者們提出了大量的最新算法,其中語義模型,尤其是視覺詞包模型的良好特性和相關研究成果引起了我們的關注。Bai等[5]對分割后的形狀提出了一個基于學習的形狀描述方法并同時用于形狀匹配,該方法綜合了從特定形狀中提取出的局部特征,然后將它們在一個類似詞包模型的框架中進行編碼,并采用類似空間金字塔匹配的思想,提出了名為特征分割的策略,將被編碼的特征池化后習得詞匯表,如此既聯合了圖像的全局和局部信息,構造出一個具有更強區分力和魯棒性的描述子,又兼顧了計算效率。Xie等[6]擴展了傳統的特征包模型,整合了多個改進思路,即對局部圖像塊提取多重描述子、構建連結底層特征和高層概念的中層結構,大大提升了特征包模型在圖像分類中的效果。Mojsilovic等[7]在研究基于內容的醫學圖像數據庫檢索時,提出了一種基于語義層次視覺特征的圖像自動分類方法,并且聲稱他們的方法能夠提供語義層面的信息,因而可以作為其他算法的基礎。Zhu等[8]受到文本分類問題的啟發,提出了一種基于關鍵塊(key block)的圖像檢索方法,并探索了幾種基于詞典的方法。Csurka等[9]提出了一種基于bag-of-keypoints的圖像分類方法。
在醫學圖像配準中引入語義模型,可以充分發揮語義信息提供更高層次信息的優勢。一方面,語義信息會比低層次特征具有更好的魯棒性。在特征檢測中,如何避免干擾和誤檢一直是一個重要的問題,邊緣檢測時除了檢測到需要的邊緣,還會得到很多偽邊緣;而更高層次的特征如常用的尺度不變特征轉換(scale-invariant feature transform, SIFT)等也會遇到干擾的問題,大部分情況下也只是簡單地采取閾值方法濾出部分最強的特征。顯然,抽象等級越高,抗干擾能力就越強,結果中包含的誤檢就越少,因此作為更高等級的信息,語義信息具有更好的魯棒性。另一方面,語義信息能夠提供更加直觀的理解,這樣更容易評價圖像處理和配準的結果。當然,不可避免的是,更高層次的信息意味著精確度可能會更差,這可以通過幾種配準方法的結合來彌補。本文在相關研究工作的基礎上,進一步提出了更適用于醫學圖像處理的方向性視覺詞包模型,并基于該語義模型進行醫學圖像配準。
1 方法
根據利用圖像信息的層次,圖像配準方法可大致劃分為三種類型:基于像素信息的方法、基于特征的方法和基于語義信息的方法,如圖 1所示。

基于像素信息的方法僅利用強度、位置、分布等未經處理的原始信息,由于沒有經過降維、抽象等處理,圖像沒有損失信息,當條件合適時在理論上具有最佳表現。基于特征的方法則具有更大的靈活性。特征由原始信息經過適度的處理形成,一般都具有區分力、魯棒等特性,并且與原始信息相比較為稀疏,因此基于特征的方法一般具有魯棒、靈活、計算復雜度低等特點。特征經過更進一步的處理,就得到了語義信息。類似于文本處理中,無意義的單詞經過處理后可以形成有意義的句子、主題等,特征經過處理也可以構造出更高層次的語義信息。基于語義模型的圖像處理和圖像識別方法的相關研究很早就開展了,但是由于計算機表示和人腦理解之間的鴻溝,建立有效的語義模型仍然是一個巨大的挑戰。我們提出的基于方向性視覺詞包模型的醫學圖像配準即屬于基于語義信息的方法。
1.1 醫學圖像的語義模型
1.1.1 視覺詞包模型
從文字擴展到圖像,視覺詞包(bag-of-visual-words)模型可以看作一種紋理描述。所謂的紋理,就是不斷重復出現的基本單元。同樣通過統計分布直方圖就能大致判斷出這個圖像的外觀特性。
視覺詞包的構建和文本詞包模型類似,首先要建立詞典。不同的是,視覺詞包的“詞”指的是圖像中的特征向量,而詞典的構建也不再是計算頻率,而是要用到聚類。具體做法是,首先進行特征檢測,找到需要提取特征的關鍵點,然后提取關鍵點周圍的鄰域,作為特征提取的區域。然后選擇合適的局部描述算子,在特征點的鄰域進行計算,形成特征向量。但是,即使在同一個位置、使用同一種特征檢測算法,得到的特征點坐標也不一定完全相同,這樣經過特征提取后得到的結果也不會完全相同。解決這個問題的辦法是使用聚類。這樣雖然特征檢測算法得到的關鍵點位置可能有一點偏差,但是提取的鄰域是極其相似的,因此可以認為特征向量也非常相近。最后一幅圖像就可以表示成一個直方圖形式的詞典。
1.1.2 方向性視覺詞包
雖然視覺詞包在圖像分類和檢索中應用廣泛,但是并不適用于醫學圖像配準。這是因為醫學圖像普遍具有分辨率較低、動態范圍小、只具有灰度信息等特點,圖像質量比較差;相比而言,自然場景圖像則具有豐富的物體和色彩信息。
通過分析和模擬醫學圖像構建詞典的過程,我們發現很多誤分類的圖像實際都具有相似的詞匯組成,然而其詞匯的位置分布卻未必一致。受此啟發,我們提出引入位置信息,即將一張圖分為四個部分,對每個部分分別應用已經構建的詞典進行編碼以得到其向量表示,然后將四個部分的向量表示組合起來作為整體向量表示。我們將上述醫學圖像的詞包構建稱為方向性視覺詞包(directional visual words)。
如圖 2所示,如果采用(c)中的傳統視覺詞包,圖 2(b)中上下兩幅圖的表示就沒有任何區別,這樣就很可能將不同的解剖部位混淆。這樣的情況在醫學圖像中非常常見,這也是傳統的詞包模型在醫學圖像領域表現不夠理想的原因之一。使用本文提出的方向性視覺詞包則可以在一定程度上解決此問題。如圖 2(a)所示,如果詞匯的分布不同,即使總的詞匯統計分布相同,最后的方向性詞包表示也會不同,這就賦予了方向性視覺詞包區分詞匯分布的能力。

(a)方向性詞包;(b)易混淆圖像;(c)傳統視覺詞包
Figure2. Directional visual words vs. traditional visual words(a) directional visual words; (b) easily-confused images; (c) traditional visual words
1.1.3 語義模型的搭建
方向性視覺詞包與普通的視覺詞包在詞典構建階段完全相同,甚至在表示階段也基本一致,唯一的不同在于,方向性視覺詞包將圖像分為四個部分分別表示。因此如果沒有特殊說明,下面的步驟對兩者都適用:①特征提取;②詞典構建(k-means聚類);③訓練支持向量機分類器(support vector machine,SVM)。k-means聚類和SVM分類器都是機器學習中的經典算法,在此不作贅述。這樣我們就可得到圖像的語義模型。
1.1.4 特征提取
常用的特征有SIFT,Harris角點檢測,方向梯度直方圖特征(histogram of oriented gradient, HOG),基于加速分割檢測特征(features from accelerated segment test, FAST)等[10-13]。本文采用了加速魯棒性特征(speeded-up robust features, SURF)。Bay等[14]提出的SURF特征是一種具有尺度、旋轉不變特性,既能夠檢測也能夠作描述的特征。SURF特征使用了hessian矩陣作為特征點檢測算法,因為hessian矩陣擁有很好的性能并且運算量也不大;它不僅與前面提到的特征具有相近甚至更好的性能,還有計算速度較快的優點。
1.2 基于方向性視覺詞包的醫學圖像配準
在得到醫學圖像的語義模型后,我們對圖像進行配準。首先我們的算法設計如下。
1.2.1 算法設計
一個能夠很好地應用于圖像理解、場景分類、視覺感知的圖像語義模型需滿足語義性和描述性、基于區域、無需分割,且符合視覺感知。
當然,上述條件在實際中不可能完全滿足,我們只能根據需求,在幾項要求之間進行權衡取舍。基本思想是,通過選擇圖像中具有特殊意義的點,選擇點周圍一個小的鄰域,作為訓練集,訓練一個分類器。然后采用與Vogel等[15]類似的方法,將參考圖像和浮動圖像分別劃分為和訓練集等同大小的小區域,對每一個區域進行分類、標注。和Vogel等不同的是,這里并不是按照網格劃分,而是采用一個由粗到細的搜索策略。這樣做的主要目的是減少運算量,因為如果一開始就逐個掃描全部像素,每個像素都要提取一個鄰域,經過特征檢測、特征描述,再由分類器進行分類,整個流程下來運算量會很大,尤其是當圖像分辨率較大的時候。
1.2.2 圖像配準框架
配準問題的最終目標就是找到最優變換模型和參數,使得兩幅圖像可以達到最佳匹配。本文采用的流程如圖 3所示。

具體來說,在醫學圖像配準的圖像變換這步,我們通過人為加入外部標記作為控制點進行配準,這種方法又被稱作基于控制點的配準方法,適用范圍很廣。特別是當變換模型未知且無法預測時,很多配準方法都無法使用,因為它們都是先假定一個變化模型,然后使用一定的相似性度量準則和優化方法,得到最優的變換參數。但是在無法估計變換模型的情況下,這類方法就無法取得很好的效果了,這個時候基于控制點的配準方法就顯示出它的獨特優勢。此外,如果圖像在采集的過程中視角一直在平穩變化,那么除非預先知道視角的變化規律,否則是無法估計出變換模型的。但是,只要找到不同圖像中相同的關鍵控制點,就可以通過這些控制點將圖像配準。
基于控制點的配準方法對控制點的個數有一定的要求,控制點越多,配準的結果也就越準確。如果控制點比較稀疏,那么可能只能適用于剛體配準;如果控制點很多,能夠達到每一個有意義的局部區域都有足夠多的控制點,那么即使是非剛性配準也可以取得很好的效果。在醫學圖像的配準中,這些點都是一些容易辨識的部位或者具有解剖意義的結構。我們選取的標準是,這些結構在待配準的圖像中都存在,且保持相對穩定、可辨識。當然,這些點的選取需要醫學方面的專業知識來根據具體的應用情況作出選擇。雖然專家選取的方法具有更好的準確性,但如果圖像數據巨大,人工的方法就不太現實了。因此本文采用如下配準模型:先由專家確定一個類別圖像中關鍵的以及比較適合作為控制點的部位,然后讓計算機程序自動選擇控制點。
2 實驗與結果
為檢驗本文算法的有效性,實驗選用心臟超聲圖像進行配準測試。心臟除個體差異外,還具有特定的收縮和舒張運動特性,因此其圖像間的配準精度依賴于語義模型的有效設計。本文的醫學實驗數據采集自項目合作單位上海交通大學附屬新華醫院的飛利浦SONOS 7500心臟超聲儀。數據庫包含了13例樣本,均采自心臟健康者。每個樣本的圖像序列中包含52張圖像,圖像由SONOS 7500按心動周期自動采集。實驗平臺配置如下:操作系統:Windows 8.1 64bit;CPU:Intel CORE i3 2310(主頻2.13 GHz);內存:4GB DDR1333內存;硬盤:Sandisk Ultra Plus 128GB SSD。首先要對所有圖像做簡單的歸一化處理。
2.1 語義模型的訓練
算法的第一步是訓練一個圖像分類器。這里涉及到三個問題:①分類器的選擇;②類別的選擇;③訓練數據集的選擇。
首先是分類器的選擇,經過實驗發現,由于醫學圖像大都是灰度圖像,這類處理的主要問題不在于分類器的選擇,而是預處理和特征提取算法的選擇,線性SVM分類器在大多數情況下的表現已經足夠好,因此我們選擇了線性SVM分類器。
其次是類別的選擇,即待配準圖像要選取什么樣的語義概念以及多少個語義概念。語義概念的選擇主要是依靠專業知識,在醫學圖像中,我們依靠專家的判斷選出具有重要解剖意義的部位,并對這些部位重點配準,配準算法要優先保證這些區域的配準精度。由于超聲心動圖像一般是用來診斷心臟的功能性疾病,二尖瓣和三尖瓣是診斷的關鍵。因此,這里的語義概念選擇了二尖瓣和三尖瓣的瓣根點,如圖 4所示,每兩個框之間的線狀物為瓣膜。之所以不選擇瓣膜,是因為在整個超聲心動圖像采集的過程中,瓣膜一直在做開閉運動,而瓣根點則相對心臟保持穩定,只隨著心臟的舒張和收縮運動而整體移動。另外,我們進行配準的主要目的是觀察瓣膜的開閉功能是否完好,只需要將瓣根點配準好,就可以直觀地看到瓣膜的運動情況。

最后是訓練數據集的選擇。每一例超聲心動圖像是一個時間序列。選取一例樣本,針對每個瓣根點和特征區域,我們從圖像序列中隨機抽取了16張圖像(約30%),專家人工標記出相應的位置,以此作為訓練數據集,剩余的約70%則作為測試集,如圖 5所示。
對于16張時間序列中的圖像,首先由專家對各類別分別挑選出最為典型的點,在每個點的周圍取20×20的鄰域作為訓練數據,于是每個類別就得到16張圖片作為訓練集(如圖 5所示)。然后用第1章提出的方法,對訓練集進行特征檢測、特征提取、詞典的構建,以建立關于各瓣根點和特征區域的方向性視覺詞包模型(即語義模型)。最后使用上述模型訓練線性SVM分類器。分類器訓練好后,就可以用來對新圖像中的各個部分分類了,在此我們采用了Lazebnik等[16]提出的金字塔搜索策略(spatial pyramid matching,SPM)由粗到細進行搜索,以加快速度。

(a)二尖瓣右瓣根;(b)二尖瓣左瓣根;(c)三尖瓣左瓣根;(d)最暗區域;(e)過渡部分;(f)最亮區域
Figure5. Training set preparation(a) right root of mitral valve; (b) left root of mitral valve; (c) left root of tricuspid valve; (d) darkest area; (e) transitional area; (f) brightest area
2.2 心臟圖像的配準
我們采用基于控制點的配準方法,有三個步驟。首先,從圖像中提取控制點。這和特征提取是類似的,只不過這里的控制點是一類特殊的、在各視角和變換下都能檢測出來的特征。然后,匹配控制點,將參考圖像中提取的控制點和浮動圖像中提取的控制點匹配起來,即使描述同一個位置的特征點對應起來。最后,根據匹配的控制點計算出空間變換模型。
實驗過程如下,首先通過專家確定一個類別圖像中關鍵的和比較適合作為控制點的部位,也即人為選取具有解剖意義的關鍵部位作為訓練數據集,構建方向性詞包模型,并訓練分類器。然后通過搜索和聚類找到選定部位的位置。為了在接下來的配準過程中優先保證這些部位的配準精度,我們以得到的瓣根位置為中心,選定一個范圍,在這個范圍內,使用SURF方法提取特征點,然后對這些特征點進行特征匹配,匹配結果如圖 6所示,圖中的標志點為特征點,引線表明了浮動圖像和參考圖像中對應特征點的匹配。得到匹配的特征點之后,就可以使用優化算法計算出變換模型參數。由于這里的匹配特征點都是在瓣根位置周圍提取的,因此瓣根位置具有最好的配準精度。從融合后的圖像如圖 7所示,也可以看出,瓣根點附近的配準精度最高,誤差在一兩個像素以內,而左側邊緣位置則有重影,說明這里的配準精度有好幾個像素的誤差。

(a)浮動圖像;(b)參考圖象
Figure6. Feature matching result(a) floating image; (b) reference image

2.3 批量樣本驗證
將數據庫中剩余的12例樣本圖像作為測試集,用之前訓練好的SVM分類器分類出新圖像中的各個部分。隨后在測試集中隨機抽取30%的圖像與訓練集中隨機抽取的某一圖像進行配準,統計得到的瓣根識別誤差如表 1所示。

3 結論
本文將視覺詞包模型應用于醫學圖像分類,并針對其缺點提出了改進方法--方向性視覺詞包。在此基礎上我們又提出了一個基于語義模型的醫學圖像配準框架:由有經驗的專家根據具體醫學圖像的特點,指定一些具有關鍵解剖意義的部位作為配準的基準點,然后使用我們提出的方向性視覺詞包模型理論構建語義模型,并訓練SVM分類器。使用訓練得到的分類器可對圖像進行特征提取、聚類、分類、匹配以及配準融合。
本文結合了SURF特征檢測、k-means聚類和金字塔搜索策略,成功地將語義模型應用于超聲心動時間序列圖像的配準中。該算法可以具有一定的傾向性,即可以通過選擇犧牲其他部分的精度,來強調特定區域的配準精度,這在實踐中具有特殊意義。
需要說明的是,由于詞包模型本身的局限(如對局部描述子的語義描述有限,在單個視覺單詞上不能建立魯棒的結構,以及沒有發揮有效的空間加權等),這種方法對圖像本身有一定的要求,應用于單模圖像配準時效果更佳;但考慮到同目標的多模態醫學圖像在部分語義結構上的共性,今后我們將進一步探索改進方法,以將語義模型推廣到多模態配準。另外,雖然該方法達到了保證特定感興趣區域配準精度的目的,但是不可避免地對其他部分有一定影響。因此,需要一定的權衡取舍,或者結合其他的配準方法提高其余部分的配準精度。詞包模型只是語義模型的一種,將來我們可以繼續探索和拓展其他可能適用于醫學圖像的模型。