• 1. 北京工商大學 人工智能學院(北京 100048);
導出 下載 收藏 掃碼 引用

醫學影像報告自動生成任務面臨疾病類型多樣、報告描述缺乏專業性和流暢性等多重挑戰。為解決以上問題,本文提出一種基于記憶驅動的多模態醫學影像報告自動生成方法(mMIRmd),首先使用基于移位窗口的層次視覺轉換器(Swin-Transformer)提取患者醫學影像的多視角視覺特征,通過基于轉換器的雙向編碼模型(BERT)提取病史信息的語義特征,然后將多模態特征進行融合,提高模型對不同疾病類型的識別能力。其次,使用醫學文本預訓練的詞向量詞典對視覺特征標簽進行編碼,以提高生成報告的專業性。最后,在解碼器中引入記憶驅動模塊,解決醫學影像數據中的長距離依賴關系。本研究在印第安納大學收集的胸部X光數據集(IU X-Ray)和麻省理工學院聯合馬薩諸塞州總醫院發布的重癥監護X光醫療數據集(MIMIC-CXR)上進行驗證。實驗結果表明,本文所提方法能更好地關注患病區域,提高生成報告的準確性與流暢性,可以輔助放射科醫生快速完成醫學影像報告的撰寫。

引用本文: 邢素霞, 方俊澤, 鞠子涵, 郭正, 王瑜. 基于記憶驅動的多模態醫學影像報告自動生成研究. 生物醫學工程學雜志, 2024, 41(1): 60-69. doi: 10.7507/1001-5515.202304001 復制

  • 上一篇

    基于多窗口時頻重排的巴克頻譜系數心音分類算法研究
  • 下一篇

    基于LightGBM模型的肺腺癌免疫相關基因篩選與患者生存率預測