耳部穴區的自動分割是實現智能化耳穴療法的基礎。然而,由于耳部穴區較多,且缺乏清晰的邊界特征,現有方案在自動分割耳穴時面臨著挑戰。因此,需要一種快速準確的耳部穴區自動分割方法。本研究提出了一種基于深度學習的耳部穴區自動分割方法,主要包含耳部輪廓檢測、解剖部位分割及關鍵點估計和圖像后處理三個階段。本文還提出了K-YOLACT以提升解剖部位分割及關鍵點定位的運行效率。實驗結果表明,所提出的方法實現了對耳部正面圖像內66個穴區的自動分割,分割效果優于現有方案。同時K-YOLACT方法的解剖部位分割的平均精度均值(mAP)為83.2%,關鍵點定位平均精度均值為98.1%,且運行效率明顯提升。該方法的提出為耳穴圖像的精確分割提供了可靠的解決方案,也為中醫療法的現代化發展提供了強有力的技術支持。
引用本文: 高枕岳, 賈世瑾, 李青峰, 蘆東昕, 張森, 肖文棟. 基于深度學習的耳部穴區自動分割方法. 生物醫學工程學雜志, 2024, 41(1): 114-120. doi: 10.7507/1001-5515.202309010 復制
0 引言
隨著生活水平的提高,人們對健康的關注日益增加。作為古代中國針灸的重要組成部分[1-3],耳穴療法已被證明是一種簡單有效的方法,可用于疾病的預防、診斷和治療[4-6]。耳郭上能夠反映人體生理功能和病理變化的特定點或區域統稱為耳穴,可用于診斷和治療。當身體組織或器官發生疾病時,耳穴相應位置會出現各種陽性反應,包括變色、變形、丘疹、脫屑以及血管充血等。在一些嚴重病例中,還可能出現組織液泄漏的現象。因此,中醫療法中的望診對于耳穴療法非常必要[7]。
自從Roentgen于1895年發現X射線以來,醫學領域的圖像能夠揭示更多有用的醫學信息,醫學診斷方式也發生了巨大變革。隨著科學技術的不斷發展,現代醫學實踐與醫學圖像處理日益密不可分,醫學圖像處理在臨床分析、診斷和研究中扮演著重要角色[8-10]。通過人體耳穴圖像,可以觀察到人體生理功能和病理變化,為診斷提供依據。結合耳穴圖像和人工智能技術,計算機能夠學習專家知識,并為人類提供智能診斷服務。
耳穴圖像的自動劃分是智能耳穴療法的基礎。國家耳穴標準規定[11],人耳耳郭正面的解剖結構分為8個主要部分,包括耳垂、耳輪、對耳輪、耳舟、三角窩、耳甲、耳屏和對耳屏。在耳郭正面解剖結構的基礎上,按照區、點結合的原則,進一步劃分為84個穴位,包括69個穴區。其中66個穴區容易在耳郭表面被觀察到并在圖像中進行分割,其他穴區由于被遮擋無法自動分割。然而,這些穴區之間并沒有清晰的邊界,面對數量眾多的耳穴,如果僅依靠人工和經驗進行分割既繁瑣又耗時。因此,在耳穴療法的應用普及和中醫設備現代化的發展中,迫切需要一種能夠快速準確地完成耳部穴區分割的輔助解決方案。
隨著計算機視覺和圖像處理技術的發展,基于人耳圖像識別和檢測的目標定位和分割問題已經得到廣泛研究[12-14]。由于人耳提供了豐富可靠的信息并且其結構在長時間內保持穩定,Ahila Priyadharshini等[15]提出了一種人耳識別方法,用于識別個體并驗證其身份。Hassaballah等[16]使用卷積神經網絡和U-Net架構對耳部元素進行分割,以輔助外耳的重建。Cintas等[17]提出了一種基于幾何形態計量學和卷積神經網絡的方法,以自動進行耳朵檢測和特征提取。
然而,現有的深度學習方法無法適應耳部穴區具有小分割區域和無清晰邊界特征的情況。因此,本文提出了一種用于自動分割耳穴的深度學習方法。該方法采用自上而下的結構,主要包括三個階段:① 應用先進的邊界檢測器生成人耳建議區域;② 提出基于深度學習的方法K-YOLACT,以提高解剖區域分割和預定義關鍵點估計的效率;③ 結合一種后處理方案,根據國家標準中的專家知識,實現對66個耳穴的最終分割。
1 耳部穴區分割方法
1.1 方法概述
為了實現對耳郭上66個耳部穴區的分割,本文提出了一種基于深度學習的方法。該方法的整體流程如圖1所示。首先,應用一種先進的邊界檢測器生成人耳候選區域。將候選區域中的人耳進行裁剪,然后提出了K-YOLACT方法同時分割8個解剖區域,包括耳垂、耳輪、對耳輪、耳舟、三角窩、耳甲、耳屏、對耳屏,并且定位7個預定義的關鍵點,包含解剖學輪廓的交點和邊緣點。最后,結合所估計的關鍵點,對分割出的解剖部位進行后處理,獲得耳部穴區分割的最終結果。

1.2 人耳檢測
Faster-RCNN是一種先進的深度學習檢測技術[18],可用于檢測輸入圖像是否包含人耳,并將人耳所在的區域裁剪出來,以便于下一步的解剖區域分割和關鍵點預測。Faster-RCNN的結構也在圖1中有所說明,它在人耳檢測中的性能表現可以滿足需求(尤其是對于小目標)。
1.3 K-YOLACT
本文提出了一種可同時分割解剖部位和預測關鍵點的深度學習網絡。該網絡可以對八個耳穴解剖部位進行分割,并同時預測7個預定義的關鍵點。K-YOLACT的網絡結構如圖2所示。

K-YOLACT首先提取耳部圖像的特征,獲取在不同層次上具有不同尺寸的特征圖,選擇四個尺寸較小的特征圖作為輸入。然后應用特征金字塔網絡(feature pyramid networks,FPN)結構,將不同尺寸的特征圖融合,以提高檢測不同尺寸目標的準確性。最后,K-YOLACT網絡被分為三個平行分支,分別完成解剖區域分割和關鍵點預測任務:第一個分支是解剖部位檢測模塊,用于預測解剖部位的位置和類別,并同時預測每個目標的掩模系數;第二個分支是原型生成模塊,使用全卷積網絡(fully convolutional networks,FCN)生成一組原型掩模,以分離背景和前景,生成的原型掩模對應于第一個分支中的掩模系數;第三個分支是關鍵點預測模塊,生成關于關鍵點的一系列熱圖。
第一個分支使用非極大值抑制篩選邊界框,以獲取目標的預測框和掩模系數,然后將掩模系數與由第二個分支計算的原型掩模進行加權和求和。接著,通過Sigmoid激活函數生成與目標預測相對應的語義分割結果。獲得實例掩模的過程可以描述為:
![]() |
其中, 是第一個分支生成的掩模系數,n是經過非極大值抑制和分數閾值篩選后的實例數量,對應于本文預測的耳部8個解剖區域的掩模;
是第二個分支生成的原型掩模。
第三個分支即關鍵點預測的過程可描述為:
![]() |
其中,熱圖是在第三個分支生成的,熱圖中最大值的索引即為預測的關鍵點。
在訓練過程中,需要計算四個損失,包括置信度損失()、邊界框回歸損失(
)、實例掩模損失(
)和關鍵點預測損失(
)。
是通過Softmax交叉熵計算的預測框中每個類別的置信度損失;
;
是通過交叉熵計算的最終輸出掩模與真實掩模之間的損失;
是最終輸出熱圖與真實熱圖之間的均方誤差。最終損失的表示如下:
![]() |
模型中的三個重要分支介紹如下:
(1)解剖部位檢測模塊:解剖部位檢測模塊是K-YOLACT實現解剖區域類別、邊界框和原型模板系數預測的分支。基于錨點的目標檢測器在其預測中有三個分支:第一個分支用于預測類別的置信度;第二個分支用于預測4個邊界框回歸器;第三個分支預測與每個原型對應的預測掩模系數。附件1中顯示了解剖檢測模塊的結構。解剖檢測模塊接收從特征金字塔網絡生成的特征圖作為輸入,并且每個尺寸的特征圖都通過相同的網絡結構處理。
(2)原型生成模塊:原型掩模生成模塊是K-YOLACT中用于實現語義分割功能的分支,旨在實現像素級分類任務。我們將原型生成模塊和掩模系數分支的工作結合起來,使用前者和后者的線性組以生成實例掩模。附件2中呈現了原型生成模塊的結構。K-YOLACT的原型掩模生成模塊將為整個圖像輸出一組原型掩模。該模塊是一個FCN網絡,其輸出層包含k個通道,每個通道代表一個原型。盡管結構類似于語義分割任務,但不同之處在于它沒有關于原型的具體損失,所有的監督損失來自線性組合后的最終掩模損失。
(3)關鍵點預測模塊:在這項工作中,關鍵點是根據專家經驗預先定義的,關鍵點預測模塊是K-YOLACT實現關鍵點預測功能的分支。附件3中呈現了關鍵點預測模塊的結構。K-YOLACT的關鍵點熱圖生成分支將為整個圖像輸出一組個熱圖,其輸出層包含
個通道,每個通道代表一個關鍵點的熱圖。
1.4 圖像后處理
深度學習生成的解剖學輪廓是不夠平滑的,因此需要根據專家知識(例如耳垂)對K-YOLACT分割結果中解剖區域之間的邊界進行校正。為了考慮不同角度下的所有人耳圖像,從K-YOLACT預測的關鍵點被用來糾正之前步驟的分割結果。附件4展示了分割結果的校正過程。
耳部穴區之間沒有明顯的邊界,根據國家耳穴標準的專家知識,結合耳郭解剖區域的分割結果和估計的關鍵點,應用OpenCV通過圖像處理技術獲得耳穴的精確分割,如圖3所示,包括圖像操作、形態處理、最小矩形框和角度均勻分布等。

2 實驗
2.1 實驗設置以及實驗數據集
首先構建人耳檢測數據集以訓練Faster-RCNN網絡。我們將杭州師范大學收集到的1 070張包含人耳的圖像應用于人耳檢測數據集構建,并使用Labelme工具標注人耳范圍。選擇其中70%的樣本用于訓練,30%用于測試。該數據集在不同角度以及頭發遮擋條件下收集,目的是增強人耳檢測的魯棒性。
然后構建人耳區域分割及關鍵點預測數據集以訓練和測試K-YOLACT網絡。我們從USTB-Helloear數據集中隨機選擇了200張耳朵圖像[19],并同樣使用Labelme工具對解剖區域和關鍵點進行標注,將其中150張圖片用于訓練,50張圖片用于測試。
2.2 實驗結果
人耳檢測框是基于Faster R-CNN模型訓練后得到的,該檢測器僅使用標記的耳部數據進行訓練,沒有針對人的特定訓練。在實驗中,我們使用訓練調優后的Faster R-CNN模型在人耳檢測數據測試集上進行耳部檢測,每張圖片的檢測時間約為50 ms。附件5展示了人耳檢測的結果。
在人耳區域分割及關鍵點預測數據的測試集上對K-YOLACT模型進行了測試。附件6展示了K-YOLACT模型在測試集上關于耳部解剖部位分割以及關鍵點位置預測的效果。
為了驗證K-YOLACT在解剖部位分割方面的有效性,我們將它與當前先進的方法進行比較[20-23]。交并比(intersection over union,IOU)是評價實例分割模型的常用指標,衡量了模型分割結果和真實標簽之間的重疊程度。我們通過計算不同IOU下的平均精度均值(mean average precision,mAP)綜合評價模型在所有類別或目標上的表現。mAP的計算步驟為:先根據IOU的閾值對檢測結果進行分類,然后分別以召回率和準確率為橫、縱坐標軸繪制PR曲線,再計算PR曲線與橫縱坐標軸圍成的面積即AP,最后計算所有AP的平均值得到mAP。同時我們測量了每秒幀數(frames per second,FPS)以及推理所需的時間以全面評估算法的速度表現。表1呈現了在單個NVIDIA 1080Ti GPU上計算的不同方法表現。結果表明,本文所提出的方法在mAP指標上不遜于其他先進算法,同時在FPS和時間指標上具有顯著優勢。

由于K-YOLACT直接從原始特征創建掩碼,因此解剖部位掩碼質量明顯高于Mask R-CNN。圖4展示了兩種方法的分割質量。可以看出,K-YOLACT生成的掩碼清晰地跟隨解剖部位的邊界,而Mask R-CNN有更多的噪聲。

物體關鍵點相似性(object keypoints similarity,OKS)可以用來驗證K-YOLACT在關鍵點預測方面的有效性。OKS是一種衡量預測關鍵點準確性的指標,考慮了預測關鍵點與真實關鍵點之間的空間距離及其對應性。在實驗中,我們計算了7個關鍵點的OKS在閾值大于0.5時的mAP,并將所提方法與幾種典型的關鍵點預測方法進行了比較,包括U-Net、Mask R-CNN和Global Net。從表2可以看出,K-YOLACT在關鍵點預測方面取得了比現有方法更優的性能。在實際任務中,由于將解剖部位分割和關鍵點預測任務整合,它在整體時間上的表現優于其他方法的任何組合。

最后,我們將所提方法的分割效果與現有的耳郭穴區定位方案進行了比較。現有的耳郭穴區定位解決方案采用基于活動形狀模型(active shape model,ASM)的圖像處理方法[24],通過搜索匹配待測人耳圖像上的特征點,并連接這些特征點定位人耳圖像中的穴區。圖5展示了我們提出的方法與現有耳郭穴區定位解決方案在耳穴劃分方面的效果,通過比較,可見本文所提解決方案能劃分出更多連續且非重疊的耳穴區域。

3 討論
近年來,計算機在醫學領域的廣泛應用為疾病的診斷和治療帶來了前所未有的便利[8-10],特別是在耳穴療法方面,其理論不斷完善。隨著中醫耳診設備的現代化,中醫耳診的準確性、速度和功能多樣性也得到了顯著提升。這種現代化的裝備使得數據的管理和分析變得更為便捷,對推動中醫耳診的現代化以及提高臨床水平具有重要意義。然而,在耳穴領域,目前的技術卻存在著自動定位或分割方面的不足。
因此,本文提出的耳部穴區分割方案在推動中醫裝備現代化方面具有積極意義。本研究采用基于深度學習的方法,將耳部穴區自動分割分為耳部檢測、解剖部位分割及關鍵點定位和圖像后處理三個關鍵階段。特別是,提出了深度學習網絡K-YOLACT,同時分割解剖部位并定位預定義的關鍵點,實現更全面的信息提取。盡管在分割精度等單項指標上略遜于專注于分割的方法[20-23],但本文提出的方法在解剖部位分割和關鍵點定位精度方面取得了良好的平衡和效率。本文所提出的整體方案相較于傳統的基于活動形狀模型的圖像處理方法,能劃分出更多連續且非重疊的耳穴區域。在研究過程中,我們還基于北京科技大學的USTB-Helloear數據集[19],選取并標注了200張人耳解剖學輪廓和關鍵點圖像,構建了耳穴相關數據庫。這一舉措為未來相關研究提供了重要的數據支持。
然而,本文的方案目前仍處于分階段狀態,尚無法一步實現從包含人耳的人體圖像到穴區分割結果的端到端處理。因此,未來的工作將集中在如何實現不同階段任務的集成,以提升整體性能。同時,盡管我們的方法在分割解剖部位和預測預定義關鍵點方面取得了良好效果,但并未考慮頭發、耳環等干擾因素的影響。未來的研究將致力于提升方法的魯棒性,使之在存在干擾的情況下仍能有效運行。
最后,我們將進一步收集病患數據,探索耳穴反應與疾病之間的關系。這將有助于將我們的方案更好地服務于耳穴診斷的實際應用中,并進一步推動醫療領域的發展。
4 結論
本文提出了一種自動分割耳部穴區的深度學習方案。首先,應用邊界檢測器生成人耳建議區域,然后分割八個主要的解剖部位,并估計7個預定義關鍵點的位置。最后,利用后處理技術實現對66個耳穴分區的最終定位。所提出的K-YOLACT方法可同時提高解剖部位分割和關鍵點預測的效率。實驗結果表明,所提出的解決方案在準確性和運行速度方面相較于現有方案均具有優勢,可為智能化耳穴診斷奠定基礎。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:高枕岳負責文章整體構思和論文撰寫;賈世瑾負責文獻調研和綜述;李青峰和蘆東昕負責數據收集;張森和肖文棟負責論文審校。
倫理聲明:本研究通過了杭州師范大學公共衛生學院倫理委員會的審批(批文編號:20220002)。
本文附件見本刊網站的電子版本(biomedeng.cn)。
0 引言
隨著生活水平的提高,人們對健康的關注日益增加。作為古代中國針灸的重要組成部分[1-3],耳穴療法已被證明是一種簡單有效的方法,可用于疾病的預防、診斷和治療[4-6]。耳郭上能夠反映人體生理功能和病理變化的特定點或區域統稱為耳穴,可用于診斷和治療。當身體組織或器官發生疾病時,耳穴相應位置會出現各種陽性反應,包括變色、變形、丘疹、脫屑以及血管充血等。在一些嚴重病例中,還可能出現組織液泄漏的現象。因此,中醫療法中的望診對于耳穴療法非常必要[7]。
自從Roentgen于1895年發現X射線以來,醫學領域的圖像能夠揭示更多有用的醫學信息,醫學診斷方式也發生了巨大變革。隨著科學技術的不斷發展,現代醫學實踐與醫學圖像處理日益密不可分,醫學圖像處理在臨床分析、診斷和研究中扮演著重要角色[8-10]。通過人體耳穴圖像,可以觀察到人體生理功能和病理變化,為診斷提供依據。結合耳穴圖像和人工智能技術,計算機能夠學習專家知識,并為人類提供智能診斷服務。
耳穴圖像的自動劃分是智能耳穴療法的基礎。國家耳穴標準規定[11],人耳耳郭正面的解剖結構分為8個主要部分,包括耳垂、耳輪、對耳輪、耳舟、三角窩、耳甲、耳屏和對耳屏。在耳郭正面解剖結構的基礎上,按照區、點結合的原則,進一步劃分為84個穴位,包括69個穴區。其中66個穴區容易在耳郭表面被觀察到并在圖像中進行分割,其他穴區由于被遮擋無法自動分割。然而,這些穴區之間并沒有清晰的邊界,面對數量眾多的耳穴,如果僅依靠人工和經驗進行分割既繁瑣又耗時。因此,在耳穴療法的應用普及和中醫設備現代化的發展中,迫切需要一種能夠快速準確地完成耳部穴區分割的輔助解決方案。
隨著計算機視覺和圖像處理技術的發展,基于人耳圖像識別和檢測的目標定位和分割問題已經得到廣泛研究[12-14]。由于人耳提供了豐富可靠的信息并且其結構在長時間內保持穩定,Ahila Priyadharshini等[15]提出了一種人耳識別方法,用于識別個體并驗證其身份。Hassaballah等[16]使用卷積神經網絡和U-Net架構對耳部元素進行分割,以輔助外耳的重建。Cintas等[17]提出了一種基于幾何形態計量學和卷積神經網絡的方法,以自動進行耳朵檢測和特征提取。
然而,現有的深度學習方法無法適應耳部穴區具有小分割區域和無清晰邊界特征的情況。因此,本文提出了一種用于自動分割耳穴的深度學習方法。該方法采用自上而下的結構,主要包括三個階段:① 應用先進的邊界檢測器生成人耳建議區域;② 提出基于深度學習的方法K-YOLACT,以提高解剖區域分割和預定義關鍵點估計的效率;③ 結合一種后處理方案,根據國家標準中的專家知識,實現對66個耳穴的最終分割。
1 耳部穴區分割方法
1.1 方法概述
為了實現對耳郭上66個耳部穴區的分割,本文提出了一種基于深度學習的方法。該方法的整體流程如圖1所示。首先,應用一種先進的邊界檢測器生成人耳候選區域。將候選區域中的人耳進行裁剪,然后提出了K-YOLACT方法同時分割8個解剖區域,包括耳垂、耳輪、對耳輪、耳舟、三角窩、耳甲、耳屏、對耳屏,并且定位7個預定義的關鍵點,包含解剖學輪廓的交點和邊緣點。最后,結合所估計的關鍵點,對分割出的解剖部位進行后處理,獲得耳部穴區分割的最終結果。

1.2 人耳檢測
Faster-RCNN是一種先進的深度學習檢測技術[18],可用于檢測輸入圖像是否包含人耳,并將人耳所在的區域裁剪出來,以便于下一步的解剖區域分割和關鍵點預測。Faster-RCNN的結構也在圖1中有所說明,它在人耳檢測中的性能表現可以滿足需求(尤其是對于小目標)。
1.3 K-YOLACT
本文提出了一種可同時分割解剖部位和預測關鍵點的深度學習網絡。該網絡可以對八個耳穴解剖部位進行分割,并同時預測7個預定義的關鍵點。K-YOLACT的網絡結構如圖2所示。

K-YOLACT首先提取耳部圖像的特征,獲取在不同層次上具有不同尺寸的特征圖,選擇四個尺寸較小的特征圖作為輸入。然后應用特征金字塔網絡(feature pyramid networks,FPN)結構,將不同尺寸的特征圖融合,以提高檢測不同尺寸目標的準確性。最后,K-YOLACT網絡被分為三個平行分支,分別完成解剖區域分割和關鍵點預測任務:第一個分支是解剖部位檢測模塊,用于預測解剖部位的位置和類別,并同時預測每個目標的掩模系數;第二個分支是原型生成模塊,使用全卷積網絡(fully convolutional networks,FCN)生成一組原型掩模,以分離背景和前景,生成的原型掩模對應于第一個分支中的掩模系數;第三個分支是關鍵點預測模塊,生成關于關鍵點的一系列熱圖。
第一個分支使用非極大值抑制篩選邊界框,以獲取目標的預測框和掩模系數,然后將掩模系數與由第二個分支計算的原型掩模進行加權和求和。接著,通過Sigmoid激活函數生成與目標預測相對應的語義分割結果。獲得實例掩模的過程可以描述為:
![]() |
其中, 是第一個分支生成的掩模系數,n是經過非極大值抑制和分數閾值篩選后的實例數量,對應于本文預測的耳部8個解剖區域的掩模;
是第二個分支生成的原型掩模。
第三個分支即關鍵點預測的過程可描述為:
![]() |
其中,熱圖是在第三個分支生成的,熱圖中最大值的索引即為預測的關鍵點。
在訓練過程中,需要計算四個損失,包括置信度損失()、邊界框回歸損失(
)、實例掩模損失(
)和關鍵點預測損失(
)。
是通過Softmax交叉熵計算的預測框中每個類別的置信度損失;
;
是通過交叉熵計算的最終輸出掩模與真實掩模之間的損失;
是最終輸出熱圖與真實熱圖之間的均方誤差。最終損失的表示如下:
![]() |
模型中的三個重要分支介紹如下:
(1)解剖部位檢測模塊:解剖部位檢測模塊是K-YOLACT實現解剖區域類別、邊界框和原型模板系數預測的分支。基于錨點的目標檢測器在其預測中有三個分支:第一個分支用于預測類別的置信度;第二個分支用于預測4個邊界框回歸器;第三個分支預測與每個原型對應的預測掩模系數。附件1中顯示了解剖檢測模塊的結構。解剖檢測模塊接收從特征金字塔網絡生成的特征圖作為輸入,并且每個尺寸的特征圖都通過相同的網絡結構處理。
(2)原型生成模塊:原型掩模生成模塊是K-YOLACT中用于實現語義分割功能的分支,旨在實現像素級分類任務。我們將原型生成模塊和掩模系數分支的工作結合起來,使用前者和后者的線性組以生成實例掩模。附件2中呈現了原型生成模塊的結構。K-YOLACT的原型掩模生成模塊將為整個圖像輸出一組原型掩模。該模塊是一個FCN網絡,其輸出層包含k個通道,每個通道代表一個原型。盡管結構類似于語義分割任務,但不同之處在于它沒有關于原型的具體損失,所有的監督損失來自線性組合后的最終掩模損失。
(3)關鍵點預測模塊:在這項工作中,關鍵點是根據專家經驗預先定義的,關鍵點預測模塊是K-YOLACT實現關鍵點預測功能的分支。附件3中呈現了關鍵點預測模塊的結構。K-YOLACT的關鍵點熱圖生成分支將為整個圖像輸出一組個熱圖,其輸出層包含
個通道,每個通道代表一個關鍵點的熱圖。
1.4 圖像后處理
深度學習生成的解剖學輪廓是不夠平滑的,因此需要根據專家知識(例如耳垂)對K-YOLACT分割結果中解剖區域之間的邊界進行校正。為了考慮不同角度下的所有人耳圖像,從K-YOLACT預測的關鍵點被用來糾正之前步驟的分割結果。附件4展示了分割結果的校正過程。
耳部穴區之間沒有明顯的邊界,根據國家耳穴標準的專家知識,結合耳郭解剖區域的分割結果和估計的關鍵點,應用OpenCV通過圖像處理技術獲得耳穴的精確分割,如圖3所示,包括圖像操作、形態處理、最小矩形框和角度均勻分布等。

2 實驗
2.1 實驗設置以及實驗數據集
首先構建人耳檢測數據集以訓練Faster-RCNN網絡。我們將杭州師范大學收集到的1 070張包含人耳的圖像應用于人耳檢測數據集構建,并使用Labelme工具標注人耳范圍。選擇其中70%的樣本用于訓練,30%用于測試。該數據集在不同角度以及頭發遮擋條件下收集,目的是增強人耳檢測的魯棒性。
然后構建人耳區域分割及關鍵點預測數據集以訓練和測試K-YOLACT網絡。我們從USTB-Helloear數據集中隨機選擇了200張耳朵圖像[19],并同樣使用Labelme工具對解剖區域和關鍵點進行標注,將其中150張圖片用于訓練,50張圖片用于測試。
2.2 實驗結果
人耳檢測框是基于Faster R-CNN模型訓練后得到的,該檢測器僅使用標記的耳部數據進行訓練,沒有針對人的特定訓練。在實驗中,我們使用訓練調優后的Faster R-CNN模型在人耳檢測數據測試集上進行耳部檢測,每張圖片的檢測時間約為50 ms。附件5展示了人耳檢測的結果。
在人耳區域分割及關鍵點預測數據的測試集上對K-YOLACT模型進行了測試。附件6展示了K-YOLACT模型在測試集上關于耳部解剖部位分割以及關鍵點位置預測的效果。
為了驗證K-YOLACT在解剖部位分割方面的有效性,我們將它與當前先進的方法進行比較[20-23]。交并比(intersection over union,IOU)是評價實例分割模型的常用指標,衡量了模型分割結果和真實標簽之間的重疊程度。我們通過計算不同IOU下的平均精度均值(mean average precision,mAP)綜合評價模型在所有類別或目標上的表現。mAP的計算步驟為:先根據IOU的閾值對檢測結果進行分類,然后分別以召回率和準確率為橫、縱坐標軸繪制PR曲線,再計算PR曲線與橫縱坐標軸圍成的面積即AP,最后計算所有AP的平均值得到mAP。同時我們測量了每秒幀數(frames per second,FPS)以及推理所需的時間以全面評估算法的速度表現。表1呈現了在單個NVIDIA 1080Ti GPU上計算的不同方法表現。結果表明,本文所提出的方法在mAP指標上不遜于其他先進算法,同時在FPS和時間指標上具有顯著優勢。

由于K-YOLACT直接從原始特征創建掩碼,因此解剖部位掩碼質量明顯高于Mask R-CNN。圖4展示了兩種方法的分割質量。可以看出,K-YOLACT生成的掩碼清晰地跟隨解剖部位的邊界,而Mask R-CNN有更多的噪聲。

物體關鍵點相似性(object keypoints similarity,OKS)可以用來驗證K-YOLACT在關鍵點預測方面的有效性。OKS是一種衡量預測關鍵點準確性的指標,考慮了預測關鍵點與真實關鍵點之間的空間距離及其對應性。在實驗中,我們計算了7個關鍵點的OKS在閾值大于0.5時的mAP,并將所提方法與幾種典型的關鍵點預測方法進行了比較,包括U-Net、Mask R-CNN和Global Net。從表2可以看出,K-YOLACT在關鍵點預測方面取得了比現有方法更優的性能。在實際任務中,由于將解剖部位分割和關鍵點預測任務整合,它在整體時間上的表現優于其他方法的任何組合。

最后,我們將所提方法的分割效果與現有的耳郭穴區定位方案進行了比較。現有的耳郭穴區定位解決方案采用基于活動形狀模型(active shape model,ASM)的圖像處理方法[24],通過搜索匹配待測人耳圖像上的特征點,并連接這些特征點定位人耳圖像中的穴區。圖5展示了我們提出的方法與現有耳郭穴區定位解決方案在耳穴劃分方面的效果,通過比較,可見本文所提解決方案能劃分出更多連續且非重疊的耳穴區域。

3 討論
近年來,計算機在醫學領域的廣泛應用為疾病的診斷和治療帶來了前所未有的便利[8-10],特別是在耳穴療法方面,其理論不斷完善。隨著中醫耳診設備的現代化,中醫耳診的準確性、速度和功能多樣性也得到了顯著提升。這種現代化的裝備使得數據的管理和分析變得更為便捷,對推動中醫耳診的現代化以及提高臨床水平具有重要意義。然而,在耳穴領域,目前的技術卻存在著自動定位或分割方面的不足。
因此,本文提出的耳部穴區分割方案在推動中醫裝備現代化方面具有積極意義。本研究采用基于深度學習的方法,將耳部穴區自動分割分為耳部檢測、解剖部位分割及關鍵點定位和圖像后處理三個關鍵階段。特別是,提出了深度學習網絡K-YOLACT,同時分割解剖部位并定位預定義的關鍵點,實現更全面的信息提取。盡管在分割精度等單項指標上略遜于專注于分割的方法[20-23],但本文提出的方法在解剖部位分割和關鍵點定位精度方面取得了良好的平衡和效率。本文所提出的整體方案相較于傳統的基于活動形狀模型的圖像處理方法,能劃分出更多連續且非重疊的耳穴區域。在研究過程中,我們還基于北京科技大學的USTB-Helloear數據集[19],選取并標注了200張人耳解剖學輪廓和關鍵點圖像,構建了耳穴相關數據庫。這一舉措為未來相關研究提供了重要的數據支持。
然而,本文的方案目前仍處于分階段狀態,尚無法一步實現從包含人耳的人體圖像到穴區分割結果的端到端處理。因此,未來的工作將集中在如何實現不同階段任務的集成,以提升整體性能。同時,盡管我們的方法在分割解剖部位和預測預定義關鍵點方面取得了良好效果,但并未考慮頭發、耳環等干擾因素的影響。未來的研究將致力于提升方法的魯棒性,使之在存在干擾的情況下仍能有效運行。
最后,我們將進一步收集病患數據,探索耳穴反應與疾病之間的關系。這將有助于將我們的方案更好地服務于耳穴診斷的實際應用中,并進一步推動醫療領域的發展。
4 結論
本文提出了一種自動分割耳部穴區的深度學習方案。首先,應用邊界檢測器生成人耳建議區域,然后分割八個主要的解剖部位,并估計7個預定義關鍵點的位置。最后,利用后處理技術實現對66個耳穴分區的最終定位。所提出的K-YOLACT方法可同時提高解剖部位分割和關鍵點預測的效率。實驗結果表明,所提出的解決方案在準確性和運行速度方面相較于現有方案均具有優勢,可為智能化耳穴診斷奠定基礎。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:高枕岳負責文章整體構思和論文撰寫;賈世瑾負責文獻調研和綜述;李青峰和蘆東昕負責數據收集;張森和肖文棟負責論文審校。
倫理聲明:本研究通過了杭州師范大學公共衛生學院倫理委員會的審批(批文編號:20220002)。
本文附件見本刊網站的電子版本(biomedeng.cn)。