醫學影像報告自動生成任務面臨疾病類型多樣、報告描述缺乏專業性和流暢性等多重挑戰。為解決以上問題,本文提出一種基于記憶驅動的多模態醫學影像報告自動生成方法(mMIRmd),首先使用基于移位窗口的層次視覺轉換器(Swin-Transformer)提取患者醫學影像的多視角視覺特征,通過基于轉換器的雙向編碼模型(BERT)提取病史信息的語義特征,然后將多模態特征進行融合,提高模型對不同疾病類型的識別能力。其次,使用醫學文本預訓練的詞向量詞典對視覺特征標簽進行編碼,以提高生成報告的專業性。最后,在解碼器中引入記憶驅動模塊,解決醫學影像數據中的長距離依賴關系。本研究在印第安納大學收集的胸部X光數據集(IU X-Ray)和麻省理工學院聯合馬薩諸塞州總醫院發布的重癥監護X光醫療數據集(MIMIC-CXR)上進行驗證。實驗結果表明,本文所提方法能更好地關注患病區域,提高生成報告的準確性與流暢性,可以輔助放射科醫生快速完成醫學影像報告的撰寫。