近年來,甲狀腺疾病的發病率顯著升高,超聲檢查是甲狀腺疾病診斷的首選檢查手段。同時,基于深度學習的醫療影像分析水平快速提高,超聲影像分析取得了一系列里程碑式的突破,深度學習算法在醫學圖像分割和分類領域展現出強大的性能。本文首先闡述了深度學習算法在甲狀腺超聲圖像分割、特征提取和分類分化三個方面的應用,其次對深度學習處理多模態超聲圖像的算法進行歸納總結,最后指出現階段甲狀腺超聲圖像診斷存在的問題,展望未來發展方向,以期促進深度學習在甲狀腺臨床超聲圖像診斷中的應用,為醫生診斷甲狀腺疾病提供參考。
引用本文: 戚楓源, 邱敏, 魏國輝. 基于深度學習的甲狀腺疾病超聲圖像診斷研究綜述. 生物醫學工程學雜志, 2023, 40(5): 1027-1032. doi: 10.7507/1001-5515.202302049 復制
0 引言
甲狀腺結節是頸部常見疾病。其中,甲狀腺癌是全球近20年來發病率增長最快的惡性腫瘤。2020年全球癌癥統計報告表明,甲狀腺癌新增人數占癌癥總人數的3.0%,死亡率占0.4%;女性的發病率較高,同時發達國家的發病率高于發展中國家[1]。細針穿刺是甲狀腺癌檢查的“金標準”,近年來,以超聲為主的新診斷技術在甲狀腺癌的篩查中已廣泛使用,避免了對人體細胞的過度穿刺,但也出現了甲狀腺結節的過度診治問題[2]。
超聲檢查是目前診斷甲狀腺結節的首選檢查手段,超聲成像對人體的軟組織有良好的分辨能力,且無電離輻射,成像速度快,能夠形成層次分明的切面圖像,數項研究證實超聲檢查在甲狀腺結節診斷中的有效性[3]。2017年美國放射學學院發布的甲狀腺成像、報告和數據系統(thyroid imaging reporting and data system,TI-RADS)把甲狀腺結節診斷的重要超聲特征分為五類,包括成分、回聲、形狀、邊緣和回聲灶[4]。TI-RADS提供了基于超聲影像管理甲狀腺結節的指導意見,引入了客觀評分體系。
現行指南推薦,良性甲狀腺結節大部分采用隨訪觀察的處理方法,而惡性甲狀腺癌多采用手術治療。但在實際施行過程中,甲狀腺結節具有較強的異質性,內部成分不均一,良性結節和惡性腫瘤的超聲圖像存在重疊現象,而且圖像本身也存在偽像較多、噪聲大等問題,醫生對甲狀腺超聲圖像評判的準確性和一致性受到影響。同時,傳統的圖像分割方法需要人為設置參數,具有局限性。不同醫學設備采集的圖像適用性和反映的信息也不同,因此在空間位置、灰度表達和分辨率方面的差異很大。
深度學習是機器學習中一個較新且十分重要的研究領域,它更貼近于人工智能。傳統的機器學習需要專業的醫師對圖像進行分割,而深度學習可以直接對圖像進行處理,并且對圖像的變化具有魯棒性,從而有利于實現診斷的自動化[5]。已有諸多學者對基于深度學習的甲狀腺疾病超聲圖像診斷研究的相關論文進行介紹和總結。例如,Chen等[6]介紹了醫學超聲圖像甲狀腺分割及甲狀腺結節分割方法,同時詳細分析了方法之間的相關性。Cao等[7]總結了基于影像組學的分化型甲狀腺癌(differentiated thyroid carcinoma,DTC)在各種成像技術中的分類和預測性能等相關研究,討論了影像組學的應用和局限,主要強調其對DTC患者的實用性。Sharifi等[8]評估了深度學習在甲狀腺結節超聲圖像上的診斷過程,提出了未來工作中需要解決的幾個現有問題。針對上述研究,本文除了介紹甲狀腺超聲圖像的分割方法外,還進一步從圖像的特征提取和分類分化等方面進行闡述;本文也基于深度學習算法,更細致深入綜述了多模態甲狀腺超聲圖像研究。
總之,本文綜述了近幾年來提出的基于深度學習的甲狀腺疾病超聲圖像診斷的關鍵技術研究進展,系統梳理深度學習在甲狀腺超聲圖像分析各個過程的國內外研究現狀,重點對甲狀腺超聲圖像的分割、特征提取、分類和分化等方面有代表性的文獻進行歸納總結,同時將多模態圖像下深度學習方法處理超聲圖像的文獻進行闡述,最后總結深度學習方法應用于甲狀腺圖像分析時面臨的挑戰并對未來發展方向進行展望。
1 甲狀腺疾病超聲圖像診斷關鍵技術研究
1.1 基于深度學習的甲狀腺超聲圖像分割
分割的目標是勾勒和分離圖像中的不同對象,以獲得病變區域的形狀和邊界。目前,超聲圖像分割的流程一般包含圖像預處理、感興趣區域定位和圖像分割三個階段。由于受到超聲圖像固有缺點的影響,計算機很難準確地識別出原始超聲圖像中的甲狀腺區域,因此通常需要在分割甲狀腺結節之前進行圖像預處理,一般的預處理方法是在甲狀腺超聲圖像中標記出結節的粗略位置后,對圖像進行去噪和增強[9]。感興趣區域定位是指檢測病灶區的大體位置,該過程有助于減少計算量,提高算法速度,同時也能減少背景干擾,提高算法精度。
基于深度學習的分割方法能夠識別超聲圖像中甲狀腺實質與結節大小、形狀、邊緣等信息并進行準確分割,從而可以更準確地對甲狀腺超聲圖像進行診斷。卷積神經網絡(convolutional neural network,CNN)是深度學習算法中最常用的一種網絡架構,它能夠對圖像進行分層特征表示,這使其在醫學圖像分割領域具有非常優異的適應性。Kumar等[10]提出了一種具有擴張卷積層的新型多輸出CNN算法。此算法可以自動檢測和分割甲狀腺結節和囊性成分,平均骰子(Dice)系數為0.76,其性能與當代種子算法相當,但它不能分割非常小的囊性成分。
CNN中基于U型網絡(U-Net)解碼—編碼網絡結構和U-Net網絡變體的語義分割模型在甲狀腺超聲圖像分割方面也被廣泛應用。U-Net網絡通過結合低分辨率和高分辨率特征圖,有效地融合了低級和高級圖像特征,其典型的研究成果匯總如表1所示。Chu等[11]提出了一種用于甲狀腺結節超聲圖像分割的標記引導U-Net(marker-guided U-Net,MGU-Net)模型,該模型分割的結節區域與人工描繪的結節區域重疊率接近100%,分割準確率高達97.85%。MGU-Net模型在訓練數據較少的情況下,顯著提高了甲狀腺結節的分割精度,為臨床診斷和治療提供了參考。Wu等[12]以U-Net為骨干,提出了一種基于聯合上采樣的甲狀腺結節超聲圖像分割方法。此方法提高了挖掘全局上下文信息的能力,實現了結節目標的精確定位,準確率達到93.19%,Dice相似系數(Dice similarity coefficient,DSC)為0.855 8,優于現有的其它甲狀腺結節分割網絡模型。但此模型比U-Net模型更復雜,因此計算時間較長。Ding等[13]提出了一種殘差注意門U-Net(residual substructures and attention gates U-Net,ReAgU-Net)模型,將改進的殘差單元嵌入到編解碼路徑之間的跳躍連接中,并引入注意力機制,使從淺層和深層獲得的權重特征圖相乘,準確率達到87.3%。這一模型增加了反向傳播梯度,解決了網絡深度增加造成的空間信息損失問題,但當結節和背景之間的對比度較低時,該模型的性能較差。相反,Yang等[14]提出的雙路徑鏡像U-Net(dual-route mirroring U-Net,DMU-Net)對邊緣細節敏感,在分割對比度較低的圖像時具有優勢。該方法使用U形子網和倒U形子網以及三個模塊提取超聲圖像中甲狀腺結節的信息,同時引入了相互學習的策略,以提高DMU-Net的性能,最終獲得的DSC系數高于分割網絡(SegNet)、U-Net和嵌套U-Net架構(U-Net++)。

深度實驗(DeepLabv3+)是深度學習語義分割中一種較為先進的方法,其引入了解碼器模塊,提升了分割邊界的準確度。Webb等[15]分四個階段訓練一個基于DeepLabv3+的卷積長短期記憶神經網絡模型,同時利用超聲圖像的空間背景進行語義分割。他們提出的模型在甲狀腺上的平均交叉聯合得分為0.739,適用于甲狀腺超聲視頻的自動分割,但此模型在分割囊腫和結節的表現不佳,尚不能用作輔助工具。Sun等[16]提出了一種包括區域和形狀的雙路徑CNN,此網絡使用DeepLabv3+作為骨干,在兩條路徑之間插入軟形狀監督塊,以實現跨路徑注意力機制,測試結果的準確率為95.81%,DSC為0.853 3。與經典算法相比,此算法通過軟形狀監督塊提高了邊界的識別和提取能力,同時雙路徑網絡可以準確地實現超聲圖像上甲狀腺結節的自動分割,提高了分割的完整性。
有些研究者通過圖像中存在的標記物來提高模型性能。例如,Buda等[17]利用圖像中存在的卡尺提出并評估了兩種基于深度學習的甲狀腺結節分割方法,第一種方法使用卡尺生成的近似結節掩模;第二種方法將手動注釋與卡尺自動引導相結合。當僅使用近似結節掩模進行訓練時,實現的DSC為0.851,使用手動注釋訓練網絡的DSC為0.904,當增加卡尺的自動引導時,性能增加到DSC為0.931。此方法可以減少創建用于開發深度學習模型的數據集所需的人工勞動,但分割掩模由單個讀取器提供,因此分割的結果可能存在偏差,特定讀取器也存在過擬合的風險。
1.2 基于深度學習的甲狀腺超聲圖像特征提取
醫學圖像的復雜性使其具備大量特征,但其中許多特征是多余或不相關的。超聲圖像一般包含較多的標記和背景信息,而甲狀腺病變區域通常只占一小部分。特征提取,是指計算機自動識別并提取超聲圖像中病變區域的信息,將提取的高層次深度特征和低層次特征融合進行分類識別。
過去,研究人員通常使用傳統的機器學習算法從甲狀腺超聲圖像中手動提取形態特征或紋理特征。這種方法的整體性能受到圖像模式、圖像質量、病變形態相似性、癌癥類型等因素的影響,并且對良性結節和惡性甲狀腺癌的區分能力有限。近年來,CNN在特征學習方面極具優勢,其可以在卷積層序列上應用具有合適過濾器的卷積操作,促進了深度學習在甲狀腺超聲圖像特征提取中的應用[18]。例如,Zhao等[19]提出了一種結合CNN和圖像紋理特征的自動化診斷甲狀腺超聲結節方法,構建了一個能夠適應甲狀腺結節特征的深度神經網絡診斷模型,結果表明此網絡可以區分甲狀腺良惡性結節,平衡F分數(F1 score,F1)達到了92.52%。與傳統的機器學習方法和CNN相比,該方法的性能更好,同時也可應用于遷移學習和融合特征結構下的各個領域。Song等[20]在CNN中增加了特征裁剪分支,對特征圖進行批量裁剪,這一方法在數據集中實現了96.13%的準確率、93.24%的精度、97.18%的召回率和95.17%的F1分數,優于其它模型;該方法可以降低圖像局部特征的相似性對分類的影響,同時解決了參數過多的問題。Wang等[21]提出一種基于CNN的新型架構,該架構包括特征提取網絡、基于注意力的特征聚合網絡和分類網絡。其中,特征提取網絡可以一次性從不同的視圖中提取特征,同時使用注意力網絡來聚合這些特征,此架構在測試集上達到了84.62%的準確率,但在這項工作中沒有對圖像進行預處理,導致視圖不一致。
為了關注空間信息以及滿足大量訓練樣本的需求,Tasnimi等[22]提出了一種基于膠囊網絡的超聲圖像特征提取方法,此方法將深層特征與常規特征融合在一起,性能優于其它方法。同時,該膠囊網絡也面臨相應挑戰,其中最主要的是提取組織特征的時間長,并且特征向量過長導致分類模型的基本復雜度較高。
1.3 基于深度學習的甲狀腺超聲圖像分類和分化
甲狀腺結節按照性質來分,可以分為良性結節和惡性腫瘤,良性結節有炎癥性、囊腫性、腫瘤性和增生性,惡性腫瘤又分化為乳頭狀癌(papillary thyroid carcinoma,PTC)、髓樣癌(medullary thyroid carcinoma,MTC)、濾泡狀癌(follicular thyroid cancer,FTC)和未分化癌[23]。對甲狀腺結節進行有效的分類對及時發現甲狀腺疾病具有重要意義,分類準確性會影響患者能否得到及時治療。深度學習算法在甲狀腺超聲圖像分類和分化中的研究成果,總結如表2所示。Guan等[24]采用深度學習算法——第三代啟發式網絡(Inception)系列模型(InceptionV3)對甲狀腺超聲圖像進行分類,此算法的初始模塊由幾個小卷積層組成,以相對較少的參數增加了層深度,在測試組中取得了93.3%的靈敏度和87.4%的特異性。InceptionV3診斷大小為0.5~1.0 cm、具有微鈣化和較高形狀的結節更準確,但在診斷良性結節方面不如經驗豐富的醫生準確。張烽等[25]提出一種基于全變分(total variation,TV)模型和谷歌網絡(GoogLeNet)模型的甲狀腺結節圖像分類方法,分類準確率達到96.04%,高于樂網絡5(LeNet5)和視覺幾何組16(visual geometry group 16,VGG 16)模型,同時該分類方法可以修復超聲圖像中因標記而破壞的部分紋理。Wei等[26]基于稠密卷積網絡(dense convolutional network,DenseNet)改進了分類模型,提出一種精確定位后的甲狀腺結節集成深度學習分類模型(ensemble deep learning classification model for thyroid nodules,EDLC-TN),并采用多步級聯實驗途徑,該方法的準確率可達98.51%。但該模型沒有分析甲狀腺結節的廣泛病理類型,同時只給出分類結果,不提供分類標準或紋理分析。Vasile等[27]開發了一種融合CNN和遷移學習兩種深度學習模型的算法,第一個模型是5-CNN,第二個模型是預先訓練的視覺幾何組19(visual geometry group 19,VGG19)架構。該集成5-CNN模型和VGG19模型的方法獲得了優異的結果,測試準確率為97.35%,特異性為98.43%,靈敏度為95.75%,受試者工作特征曲線下面積(area under curve,AUC)為96.0%,同時還通過微調降低了網絡的過擬合風險。

在甲狀腺癌難以診斷的病理分類中,罕見的病例包括FTC和許特萊細胞癌(Hürthle cell carcinoma,HCC)。Chan等[28]采用InceptionV3、殘差網絡101(residual network 101,ResNet101)和VGG19三個CNN進行遷移學習,再進行訓練和測試,各網絡模型所得準確率分別為:76.5%(InceptionV3)、77.6%(ResNet101)和76.1%(VGG19)。研究結果表明,重新訓練的深度CNN可以提高大多數DTC的診斷準確性,包括FTC;但用于訓練的大多數圖像呈現的是可識別的單個結節,此模型診斷邊界不清的多結節性甲狀腺的能力仍不清楚。
1.4 基于深度學習的甲狀腺多模態圖像研究
甲狀腺疾病診斷過程中期望融合各個類型的圖像,多模態超聲利用不同成像技術的特征互補性,可以更全面地對甲狀腺結節的良惡性進行診斷,其中超聲檢查主要包括二維高頻超聲、彩色多普勒、超聲造影、彈性成像和超聲引導下的細針穿刺等技術[29]。基于深度學習的方法可以直接對映射進行編碼,此方法能達到比傳統方法更好的融合效果,因而在實際應用中具有巨大潛力。Zhao等[30]設計了語義一致性生成對抗網絡,提出了一種新的醫學圖像診斷多模態域自適應方法,此方法通過自注意力機制進行雙域之間的對抗學習,準確率達到94.30%,AUC達到97.02%。這一模型克服了模態數據之間的視覺差異,同時解決了模型泛化性能差的問題。Yang等[31]提出了一個多任務級聯深度學習模型,并使用多模態超聲圖像進行甲狀腺結節的自動診斷,首先使用預訓練的視覺幾何組13(visual geometry group 13,VGG13)模型對結節進行分割,然后開發了一個雙路徑半監督條件生成對抗網絡來解決模型對病變標注的依賴性,最后訓練半監督支持向量機對多模態甲狀腺超聲圖像進行分類,準確率為90.01%,AUC為91.07%。
武寬等[32]提出了一種基于CNN的常規超聲成像和超聲彈性成像的特征結合方法,對甲狀腺結節良惡性進行分類。二者融合的混合特征可以更全面地描述不同病灶之間的差異,準確率達到92.4%,高于其他單一數據源的方法,同時使用遷移學習的方法解決了樣本數據不足的問題。
在三種模態融合領域,Xiang等[33]在超聲圖像、彈性成像和彩色多普勒圖像的基礎上使用自監督學習初始化的3個殘差網絡18(residual network 18,ResNet18)作為分支,分別提取每種模態的圖像信息,然后去除三種模態的共同信息,并結合每種模態的知識進行甲狀腺疾病診斷,分類的AUC值為96.3%,優于單模態和雙模態的診斷結果。此算法利用多模態特征指導模塊解決了不同模態圖像之間的信息差異造成的數據利用難的問題,同時在圖像分類中采取殘差連接避免了梯度爆炸和梯度消失,加快了收斂速度。
2 總結與展望
近年來,在甲狀腺結節超聲圖像的診斷中,不同醫生的認知與經驗不同,可能導致診斷結果的一致性較差,增加了患者的有創檢查次數及治療風險。隨著深度學習技術的快速發展,其在醫學圖像領域發揮了重要作用,在診斷甲狀腺疾病等方面的應用不僅有利于提高醫生的診斷準確率和診斷速度,更為超聲檢查提供了相對客觀的第二意見,從而減小了醫生之間的診斷差異,這是深度學習應用的一個備受期待的優勢[34]。然而,這些方法也存在一定的局限性:① 數據難以獲得和注釋,特別是在數據獲取和注釋成本高昂的醫療領域[35]。同時,分割結果受超聲圖像質量的影響,模糊的圖像難以應用于復雜先進的模型。基于此,Shi等[36]提出了一種知識引導的對抗增強方法,可以合成高質量的甲狀腺結節圖像,此方法可以緩解醫療領域的數據不足問題。② 因為小樣本的訓練可能出現過擬合現象,因此需要大量的訓練數據和標簽來構造分類器,這導致深度學習分類器的訓練過程非常耗時。③ 與經驗豐富的醫生相比,深度學習模型具有相似的靈敏度,但特異性和準確性存在差異,當出現多結節時,模型也需要改進。因此研究者將這些模型用作高靈敏度的篩查工具,以幫助經驗不足的操作人員,未來有必要使用深度學習算法開發具有高精度、特異性和靈敏度的模型。④ 許多研究已經將深度學習模型應用于甲狀腺超聲圖像診斷中。然而,大部分工作都集中在PTC上,在診斷FTC和HCC時,因其在臨床實踐中的罕見性,以及其超聲圖像與良性病變的圖像具有相似性而受到干擾。只要及早發現,理想情況下,臨床醫生能夠在手術干預前確認診斷。例如,Seo等 [37]使用深度學習方法對甲狀腺濾泡腺瘤和甲狀腺癌進行了區分,其收集了與結節邊緣輪廓相鄰的小框選定圖像,并應用CNN進行區分,整體分化準確率為89.51%,該研究結果可為臨床醫生提供借鑒。
在未來的研究中,研究者應收集更多高質量和準確標記的甲狀腺數據,并將深度學習模型應用于數據,以評估模型應用到真實醫療環境的潛力。此外,應嘗試整合更多領域的知識和多種類型的數據,探索更有效的方法使數據得到充分利用。隨著研究的深入以及超聲技術的發展,影像組學也被廣泛應用于醫學圖像分析中[38],多模式[39]、多方法融合的智能化診療系統也成為未來超聲診療甲狀腺疾病的發展趨勢。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:戚楓源負責文獻資料的收集、分析以及論文初稿的撰寫,邱敏負責論文資料的整理并協助論文修訂,魏國輝負責論文寫作思路的制定及論文審閱修訂。
0 引言
甲狀腺結節是頸部常見疾病。其中,甲狀腺癌是全球近20年來發病率增長最快的惡性腫瘤。2020年全球癌癥統計報告表明,甲狀腺癌新增人數占癌癥總人數的3.0%,死亡率占0.4%;女性的發病率較高,同時發達國家的發病率高于發展中國家[1]。細針穿刺是甲狀腺癌檢查的“金標準”,近年來,以超聲為主的新診斷技術在甲狀腺癌的篩查中已廣泛使用,避免了對人體細胞的過度穿刺,但也出現了甲狀腺結節的過度診治問題[2]。
超聲檢查是目前診斷甲狀腺結節的首選檢查手段,超聲成像對人體的軟組織有良好的分辨能力,且無電離輻射,成像速度快,能夠形成層次分明的切面圖像,數項研究證實超聲檢查在甲狀腺結節診斷中的有效性[3]。2017年美國放射學學院發布的甲狀腺成像、報告和數據系統(thyroid imaging reporting and data system,TI-RADS)把甲狀腺結節診斷的重要超聲特征分為五類,包括成分、回聲、形狀、邊緣和回聲灶[4]。TI-RADS提供了基于超聲影像管理甲狀腺結節的指導意見,引入了客觀評分體系。
現行指南推薦,良性甲狀腺結節大部分采用隨訪觀察的處理方法,而惡性甲狀腺癌多采用手術治療。但在實際施行過程中,甲狀腺結節具有較強的異質性,內部成分不均一,良性結節和惡性腫瘤的超聲圖像存在重疊現象,而且圖像本身也存在偽像較多、噪聲大等問題,醫生對甲狀腺超聲圖像評判的準確性和一致性受到影響。同時,傳統的圖像分割方法需要人為設置參數,具有局限性。不同醫學設備采集的圖像適用性和反映的信息也不同,因此在空間位置、灰度表達和分辨率方面的差異很大。
深度學習是機器學習中一個較新且十分重要的研究領域,它更貼近于人工智能。傳統的機器學習需要專業的醫師對圖像進行分割,而深度學習可以直接對圖像進行處理,并且對圖像的變化具有魯棒性,從而有利于實現診斷的自動化[5]。已有諸多學者對基于深度學習的甲狀腺疾病超聲圖像診斷研究的相關論文進行介紹和總結。例如,Chen等[6]介紹了醫學超聲圖像甲狀腺分割及甲狀腺結節分割方法,同時詳細分析了方法之間的相關性。Cao等[7]總結了基于影像組學的分化型甲狀腺癌(differentiated thyroid carcinoma,DTC)在各種成像技術中的分類和預測性能等相關研究,討論了影像組學的應用和局限,主要強調其對DTC患者的實用性。Sharifi等[8]評估了深度學習在甲狀腺結節超聲圖像上的診斷過程,提出了未來工作中需要解決的幾個現有問題。針對上述研究,本文除了介紹甲狀腺超聲圖像的分割方法外,還進一步從圖像的特征提取和分類分化等方面進行闡述;本文也基于深度學習算法,更細致深入綜述了多模態甲狀腺超聲圖像研究。
總之,本文綜述了近幾年來提出的基于深度學習的甲狀腺疾病超聲圖像診斷的關鍵技術研究進展,系統梳理深度學習在甲狀腺超聲圖像分析各個過程的國內外研究現狀,重點對甲狀腺超聲圖像的分割、特征提取、分類和分化等方面有代表性的文獻進行歸納總結,同時將多模態圖像下深度學習方法處理超聲圖像的文獻進行闡述,最后總結深度學習方法應用于甲狀腺圖像分析時面臨的挑戰并對未來發展方向進行展望。
1 甲狀腺疾病超聲圖像診斷關鍵技術研究
1.1 基于深度學習的甲狀腺超聲圖像分割
分割的目標是勾勒和分離圖像中的不同對象,以獲得病變區域的形狀和邊界。目前,超聲圖像分割的流程一般包含圖像預處理、感興趣區域定位和圖像分割三個階段。由于受到超聲圖像固有缺點的影響,計算機很難準確地識別出原始超聲圖像中的甲狀腺區域,因此通常需要在分割甲狀腺結節之前進行圖像預處理,一般的預處理方法是在甲狀腺超聲圖像中標記出結節的粗略位置后,對圖像進行去噪和增強[9]。感興趣區域定位是指檢測病灶區的大體位置,該過程有助于減少計算量,提高算法速度,同時也能減少背景干擾,提高算法精度。
基于深度學習的分割方法能夠識別超聲圖像中甲狀腺實質與結節大小、形狀、邊緣等信息并進行準確分割,從而可以更準確地對甲狀腺超聲圖像進行診斷。卷積神經網絡(convolutional neural network,CNN)是深度學習算法中最常用的一種網絡架構,它能夠對圖像進行分層特征表示,這使其在醫學圖像分割領域具有非常優異的適應性。Kumar等[10]提出了一種具有擴張卷積層的新型多輸出CNN算法。此算法可以自動檢測和分割甲狀腺結節和囊性成分,平均骰子(Dice)系數為0.76,其性能與當代種子算法相當,但它不能分割非常小的囊性成分。
CNN中基于U型網絡(U-Net)解碼—編碼網絡結構和U-Net網絡變體的語義分割模型在甲狀腺超聲圖像分割方面也被廣泛應用。U-Net網絡通過結合低分辨率和高分辨率特征圖,有效地融合了低級和高級圖像特征,其典型的研究成果匯總如表1所示。Chu等[11]提出了一種用于甲狀腺結節超聲圖像分割的標記引導U-Net(marker-guided U-Net,MGU-Net)模型,該模型分割的結節區域與人工描繪的結節區域重疊率接近100%,分割準確率高達97.85%。MGU-Net模型在訓練數據較少的情況下,顯著提高了甲狀腺結節的分割精度,為臨床診斷和治療提供了參考。Wu等[12]以U-Net為骨干,提出了一種基于聯合上采樣的甲狀腺結節超聲圖像分割方法。此方法提高了挖掘全局上下文信息的能力,實現了結節目標的精確定位,準確率達到93.19%,Dice相似系數(Dice similarity coefficient,DSC)為0.855 8,優于現有的其它甲狀腺結節分割網絡模型。但此模型比U-Net模型更復雜,因此計算時間較長。Ding等[13]提出了一種殘差注意門U-Net(residual substructures and attention gates U-Net,ReAgU-Net)模型,將改進的殘差單元嵌入到編解碼路徑之間的跳躍連接中,并引入注意力機制,使從淺層和深層獲得的權重特征圖相乘,準確率達到87.3%。這一模型增加了反向傳播梯度,解決了網絡深度增加造成的空間信息損失問題,但當結節和背景之間的對比度較低時,該模型的性能較差。相反,Yang等[14]提出的雙路徑鏡像U-Net(dual-route mirroring U-Net,DMU-Net)對邊緣細節敏感,在分割對比度較低的圖像時具有優勢。該方法使用U形子網和倒U形子網以及三個模塊提取超聲圖像中甲狀腺結節的信息,同時引入了相互學習的策略,以提高DMU-Net的性能,最終獲得的DSC系數高于分割網絡(SegNet)、U-Net和嵌套U-Net架構(U-Net++)。

深度實驗(DeepLabv3+)是深度學習語義分割中一種較為先進的方法,其引入了解碼器模塊,提升了分割邊界的準確度。Webb等[15]分四個階段訓練一個基于DeepLabv3+的卷積長短期記憶神經網絡模型,同時利用超聲圖像的空間背景進行語義分割。他們提出的模型在甲狀腺上的平均交叉聯合得分為0.739,適用于甲狀腺超聲視頻的自動分割,但此模型在分割囊腫和結節的表現不佳,尚不能用作輔助工具。Sun等[16]提出了一種包括區域和形狀的雙路徑CNN,此網絡使用DeepLabv3+作為骨干,在兩條路徑之間插入軟形狀監督塊,以實現跨路徑注意力機制,測試結果的準確率為95.81%,DSC為0.853 3。與經典算法相比,此算法通過軟形狀監督塊提高了邊界的識別和提取能力,同時雙路徑網絡可以準確地實現超聲圖像上甲狀腺結節的自動分割,提高了分割的完整性。
有些研究者通過圖像中存在的標記物來提高模型性能。例如,Buda等[17]利用圖像中存在的卡尺提出并評估了兩種基于深度學習的甲狀腺結節分割方法,第一種方法使用卡尺生成的近似結節掩模;第二種方法將手動注釋與卡尺自動引導相結合。當僅使用近似結節掩模進行訓練時,實現的DSC為0.851,使用手動注釋訓練網絡的DSC為0.904,當增加卡尺的自動引導時,性能增加到DSC為0.931。此方法可以減少創建用于開發深度學習模型的數據集所需的人工勞動,但分割掩模由單個讀取器提供,因此分割的結果可能存在偏差,特定讀取器也存在過擬合的風險。
1.2 基于深度學習的甲狀腺超聲圖像特征提取
醫學圖像的復雜性使其具備大量特征,但其中許多特征是多余或不相關的。超聲圖像一般包含較多的標記和背景信息,而甲狀腺病變區域通常只占一小部分。特征提取,是指計算機自動識別并提取超聲圖像中病變區域的信息,將提取的高層次深度特征和低層次特征融合進行分類識別。
過去,研究人員通常使用傳統的機器學習算法從甲狀腺超聲圖像中手動提取形態特征或紋理特征。這種方法的整體性能受到圖像模式、圖像質量、病變形態相似性、癌癥類型等因素的影響,并且對良性結節和惡性甲狀腺癌的區分能力有限。近年來,CNN在特征學習方面極具優勢,其可以在卷積層序列上應用具有合適過濾器的卷積操作,促進了深度學習在甲狀腺超聲圖像特征提取中的應用[18]。例如,Zhao等[19]提出了一種結合CNN和圖像紋理特征的自動化診斷甲狀腺超聲結節方法,構建了一個能夠適應甲狀腺結節特征的深度神經網絡診斷模型,結果表明此網絡可以區分甲狀腺良惡性結節,平衡F分數(F1 score,F1)達到了92.52%。與傳統的機器學習方法和CNN相比,該方法的性能更好,同時也可應用于遷移學習和融合特征結構下的各個領域。Song等[20]在CNN中增加了特征裁剪分支,對特征圖進行批量裁剪,這一方法在數據集中實現了96.13%的準確率、93.24%的精度、97.18%的召回率和95.17%的F1分數,優于其它模型;該方法可以降低圖像局部特征的相似性對分類的影響,同時解決了參數過多的問題。Wang等[21]提出一種基于CNN的新型架構,該架構包括特征提取網絡、基于注意力的特征聚合網絡和分類網絡。其中,特征提取網絡可以一次性從不同的視圖中提取特征,同時使用注意力網絡來聚合這些特征,此架構在測試集上達到了84.62%的準確率,但在這項工作中沒有對圖像進行預處理,導致視圖不一致。
為了關注空間信息以及滿足大量訓練樣本的需求,Tasnimi等[22]提出了一種基于膠囊網絡的超聲圖像特征提取方法,此方法將深層特征與常規特征融合在一起,性能優于其它方法。同時,該膠囊網絡也面臨相應挑戰,其中最主要的是提取組織特征的時間長,并且特征向量過長導致分類模型的基本復雜度較高。
1.3 基于深度學習的甲狀腺超聲圖像分類和分化
甲狀腺結節按照性質來分,可以分為良性結節和惡性腫瘤,良性結節有炎癥性、囊腫性、腫瘤性和增生性,惡性腫瘤又分化為乳頭狀癌(papillary thyroid carcinoma,PTC)、髓樣癌(medullary thyroid carcinoma,MTC)、濾泡狀癌(follicular thyroid cancer,FTC)和未分化癌[23]。對甲狀腺結節進行有效的分類對及時發現甲狀腺疾病具有重要意義,分類準確性會影響患者能否得到及時治療。深度學習算法在甲狀腺超聲圖像分類和分化中的研究成果,總結如表2所示。Guan等[24]采用深度學習算法——第三代啟發式網絡(Inception)系列模型(InceptionV3)對甲狀腺超聲圖像進行分類,此算法的初始模塊由幾個小卷積層組成,以相對較少的參數增加了層深度,在測試組中取得了93.3%的靈敏度和87.4%的特異性。InceptionV3診斷大小為0.5~1.0 cm、具有微鈣化和較高形狀的結節更準確,但在診斷良性結節方面不如經驗豐富的醫生準確。張烽等[25]提出一種基于全變分(total variation,TV)模型和谷歌網絡(GoogLeNet)模型的甲狀腺結節圖像分類方法,分類準確率達到96.04%,高于樂網絡5(LeNet5)和視覺幾何組16(visual geometry group 16,VGG 16)模型,同時該分類方法可以修復超聲圖像中因標記而破壞的部分紋理。Wei等[26]基于稠密卷積網絡(dense convolutional network,DenseNet)改進了分類模型,提出一種精確定位后的甲狀腺結節集成深度學習分類模型(ensemble deep learning classification model for thyroid nodules,EDLC-TN),并采用多步級聯實驗途徑,該方法的準確率可達98.51%。但該模型沒有分析甲狀腺結節的廣泛病理類型,同時只給出分類結果,不提供分類標準或紋理分析。Vasile等[27]開發了一種融合CNN和遷移學習兩種深度學習模型的算法,第一個模型是5-CNN,第二個模型是預先訓練的視覺幾何組19(visual geometry group 19,VGG19)架構。該集成5-CNN模型和VGG19模型的方法獲得了優異的結果,測試準確率為97.35%,特異性為98.43%,靈敏度為95.75%,受試者工作特征曲線下面積(area under curve,AUC)為96.0%,同時還通過微調降低了網絡的過擬合風險。

在甲狀腺癌難以診斷的病理分類中,罕見的病例包括FTC和許特萊細胞癌(Hürthle cell carcinoma,HCC)。Chan等[28]采用InceptionV3、殘差網絡101(residual network 101,ResNet101)和VGG19三個CNN進行遷移學習,再進行訓練和測試,各網絡模型所得準確率分別為:76.5%(InceptionV3)、77.6%(ResNet101)和76.1%(VGG19)。研究結果表明,重新訓練的深度CNN可以提高大多數DTC的診斷準確性,包括FTC;但用于訓練的大多數圖像呈現的是可識別的單個結節,此模型診斷邊界不清的多結節性甲狀腺的能力仍不清楚。
1.4 基于深度學習的甲狀腺多模態圖像研究
甲狀腺疾病診斷過程中期望融合各個類型的圖像,多模態超聲利用不同成像技術的特征互補性,可以更全面地對甲狀腺結節的良惡性進行診斷,其中超聲檢查主要包括二維高頻超聲、彩色多普勒、超聲造影、彈性成像和超聲引導下的細針穿刺等技術[29]。基于深度學習的方法可以直接對映射進行編碼,此方法能達到比傳統方法更好的融合效果,因而在實際應用中具有巨大潛力。Zhao等[30]設計了語義一致性生成對抗網絡,提出了一種新的醫學圖像診斷多模態域自適應方法,此方法通過自注意力機制進行雙域之間的對抗學習,準確率達到94.30%,AUC達到97.02%。這一模型克服了模態數據之間的視覺差異,同時解決了模型泛化性能差的問題。Yang等[31]提出了一個多任務級聯深度學習模型,并使用多模態超聲圖像進行甲狀腺結節的自動診斷,首先使用預訓練的視覺幾何組13(visual geometry group 13,VGG13)模型對結節進行分割,然后開發了一個雙路徑半監督條件生成對抗網絡來解決模型對病變標注的依賴性,最后訓練半監督支持向量機對多模態甲狀腺超聲圖像進行分類,準確率為90.01%,AUC為91.07%。
武寬等[32]提出了一種基于CNN的常規超聲成像和超聲彈性成像的特征結合方法,對甲狀腺結節良惡性進行分類。二者融合的混合特征可以更全面地描述不同病灶之間的差異,準確率達到92.4%,高于其他單一數據源的方法,同時使用遷移學習的方法解決了樣本數據不足的問題。
在三種模態融合領域,Xiang等[33]在超聲圖像、彈性成像和彩色多普勒圖像的基礎上使用自監督學習初始化的3個殘差網絡18(residual network 18,ResNet18)作為分支,分別提取每種模態的圖像信息,然后去除三種模態的共同信息,并結合每種模態的知識進行甲狀腺疾病診斷,分類的AUC值為96.3%,優于單模態和雙模態的診斷結果。此算法利用多模態特征指導模塊解決了不同模態圖像之間的信息差異造成的數據利用難的問題,同時在圖像分類中采取殘差連接避免了梯度爆炸和梯度消失,加快了收斂速度。
2 總結與展望
近年來,在甲狀腺結節超聲圖像的診斷中,不同醫生的認知與經驗不同,可能導致診斷結果的一致性較差,增加了患者的有創檢查次數及治療風險。隨著深度學習技術的快速發展,其在醫學圖像領域發揮了重要作用,在診斷甲狀腺疾病等方面的應用不僅有利于提高醫生的診斷準確率和診斷速度,更為超聲檢查提供了相對客觀的第二意見,從而減小了醫生之間的診斷差異,這是深度學習應用的一個備受期待的優勢[34]。然而,這些方法也存在一定的局限性:① 數據難以獲得和注釋,特別是在數據獲取和注釋成本高昂的醫療領域[35]。同時,分割結果受超聲圖像質量的影響,模糊的圖像難以應用于復雜先進的模型。基于此,Shi等[36]提出了一種知識引導的對抗增強方法,可以合成高質量的甲狀腺結節圖像,此方法可以緩解醫療領域的數據不足問題。② 因為小樣本的訓練可能出現過擬合現象,因此需要大量的訓練數據和標簽來構造分類器,這導致深度學習分類器的訓練過程非常耗時。③ 與經驗豐富的醫生相比,深度學習模型具有相似的靈敏度,但特異性和準確性存在差異,當出現多結節時,模型也需要改進。因此研究者將這些模型用作高靈敏度的篩查工具,以幫助經驗不足的操作人員,未來有必要使用深度學習算法開發具有高精度、特異性和靈敏度的模型。④ 許多研究已經將深度學習模型應用于甲狀腺超聲圖像診斷中。然而,大部分工作都集中在PTC上,在診斷FTC和HCC時,因其在臨床實踐中的罕見性,以及其超聲圖像與良性病變的圖像具有相似性而受到干擾。只要及早發現,理想情況下,臨床醫生能夠在手術干預前確認診斷。例如,Seo等 [37]使用深度學習方法對甲狀腺濾泡腺瘤和甲狀腺癌進行了區分,其收集了與結節邊緣輪廓相鄰的小框選定圖像,并應用CNN進行區分,整體分化準確率為89.51%,該研究結果可為臨床醫生提供借鑒。
在未來的研究中,研究者應收集更多高質量和準確標記的甲狀腺數據,并將深度學習模型應用于數據,以評估模型應用到真實醫療環境的潛力。此外,應嘗試整合更多領域的知識和多種類型的數據,探索更有效的方法使數據得到充分利用。隨著研究的深入以及超聲技術的發展,影像組學也被廣泛應用于醫學圖像分析中[38],多模式[39]、多方法融合的智能化診療系統也成為未來超聲診療甲狀腺疾病的發展趨勢。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:戚楓源負責文獻資料的收集、分析以及論文初稿的撰寫,邱敏負責論文資料的整理并協助論文修訂,魏國輝負責論文寫作思路的制定及論文審閱修訂。