【学术成果】统计中心17级博士研究生袁正与阿里巴巴团队合作,利用医学知识增强预训练语言模型

我中心2017级博士研究生袁正和阿里巴巴达摩院刘一佳、谭传奇、黄松芳、黄非合作的论文 “Improving Biomedical Pretrained Language Models with Knowledge” 被自然语言处理会议NAACL-BioNLP接受并在线发表。该工作利用医学实体知识增强预训练语言模型,在多个医学命名实体识别和关系提取任务上得到了更好的表现。代码和模型开源请见https://github.com/GanjinZero/KeBioLM

预训练语言模型在多种自然语言处理任务上十分有效。区别于通用文本,医学文本有独特的术语和风格;并且医学领域中已经构建了含有大量医学实体的知识图谱。基于这两点,该工作提出了KeBioLM来增强医学预训练模型。KeBioLM利用医学论文数据库PubMed作为训练语料,通过SciSpaCy将自由文本与UMLS知识图谱中的医学实体知识相结合。KeBioLM含有两个Transformers层:第一个层用于从文本中提取医学实体并学习实体表示;第二个层用于融合文本和实体的信息来增强文本表示。

为了验证KeBioLM在医学自然语言处理任务上的有效性,该工作在医学自然语言理解和推理榜单BLURB上得到了87.1(命名实体识别)和81.2(关系提取)的平均分,超过了之前的基线模型PubMedBERT模型0.8和0.6分。该工作还通过UMLS的知识探针说明KeBioLM相比之前的预训练语言模型学会了更多的医学知识。

论文在线链接:

https://www.aclweb.org/anthology/2021.bionlp-1.20/