医疗大数据

目前,全球医疗健康数据已有数百Exabyte,并在加速增长。从大规模研究队列的快速识别和建立,到人工智能辅助的临床决策支持系统,大数据正在改变着医学研究与实践。我中心于2015年成立医疗大数据中心,致力于用数据技术造福人类。目前,已与国内外多家著名医学机构和产业伙伴建立了长期合作,在医学文本处理和自然语言理解、非结构化医学数据分析、电子病历表型提取、临床决策支持、精准医学等方面开展前沿学术研究。

非结构化数据分析

电子化的医疗数据方便了存储和传输,但是并未达到进行数据分析的要求。大约80%的医疗数据是自由文本构成的非结构化数据,其中不仅包括大段的文字描述,也包括包含非统一文字的表格字段。通过医学自然语言理解技术,将非结构化医疗数据转化为适合计算机分析的结构化形式是医疗大数据分析的基础。

我中心在电子病历分析方面有着丰富的技术积累,中心骨干为美国麻省总医院、布莱根妇女医院等顶级医疗机构分析处理过超过1亿篇次的电子病历。我们的深度医学语言理解技术不仅识别各种医学概念在自然语言中的丰富表达,还通过医学语意分析识别否定、推测、假设、条件、个人病史、家庭病史等语意,以及严重程度、解剖位置等各种修饰。语意分析结果可以方便各种维度、深度的数据分析,以及利用获得国家专利的语意搜索技术进行病历的精准查询和匹配。

nlp

通过医学语言理解技术结构化自由文本

表型提取

基因测序技术是医学的重大进步。然而,基因等生命组学信息只有与表型信息相结合才能构成精准医学。我们与哈佛大学、麻省理工学院等机构的学者共同开发的高通量表型提取技术通过自动对包括维基百科在内的医学知识文库进行知识提取,结合电子病历数据自动建模生成媲美专家设计的表型提取算法。目前,该技术已被美国Partners HealthCare等大型医疗机构用于规模化建设生物样本库,为下一步医学研究的井喷式发展奠定了基础。

精准医学

精准医学为复杂疾病的防控和治疗提供了新思路,通过个人基因组和其他生物大数据的挖掘,为病人提供个体化的风险预测、诊断和治疗方案,从而优化医疗资源的配置。发展精准医学,科学有效的配置医疗资源,是医疗卫生事业发展的迫切需求。医疗大数据中心正在精准医学数据的整合分析和生物统计分析平台的构建方面不断斩获科研成果。