范智淵 1 , 何璇 1,2 , 梁品 1 , 呂晶 1 , 康雁 3
  • 1. 東北大學 醫學與生物信息工程學院(沈陽 110819);
  • 2. 沈陽東軟智能醫療科技研究院有限公司(沈陽 110819);
  • 3. 深圳技術大學 健康與環境工程學院(廣東深圳 518118);
導出 下載 收藏 掃碼 引用

醫學文獻含有豐富的有價值的醫學知識。目前,在醫學文獻上的實體關系提取研究已經得到了很大的進步,但是隨著醫學文獻數量以指數形式增加,醫學文本的標注工作成為一個很大的問題。為解決人工標注耗時長、工作量大的問題,研究者提出了遠程監督標注的方法,但這種方法會引入大量噪聲。本文提出了一種基于卷積神經網絡的新型神經網絡結構,可以解決大量噪聲問題。該模型可以利用多窗口卷積神經網絡自動提取句子特征,在得到句子向量后,通過注意力機制選擇對真實關系有效的句子。特別地,提出實體類型(ET)嵌入方法,通過加入實體類型特征用于關系分類。我們針對訓練文本存在不可避免的標注錯誤問題,提出句子級別的注意力機制用于關系提取。使用 968 份糖尿病醫學文獻進行實驗,結果表明,與基線模型相比,本文模型在醫學文獻中得到了較好的效果,F1 分數達到 93.15%。最后,我們將提取的 11 類關系以三元組的形式存儲,并利用這些三元組制成具有 33 347 個節點、43 686 條關系邊的復雜關系醫學知識圖譜。實驗結果證明,本文所使用的算法明顯優于用于關系提取的最佳基準系統。

引用本文: 范智淵, 何璇, 梁品, 呂晶, 康雁. 中文醫學文獻的實體關系提取研究及在糖尿病醫學文獻中的應用. 生物醫學工程學雜志, 2021, 38(3): 563-573. doi: 10.7507/1001-5515.202001009 復制

  • 上一篇

    多室軟包裝輸液袋壓裂過程模擬的有限元方法
  • 下一篇

    長鏈非編碼RNA Dnm3os在心肌成纖維細胞活化中的作用研究