2019年11月20日,清华大学统计学研究中心俞声副教授与哈佛大学Yichi Zhang、美国布莱根妇女医院Tianrun Cai作为共同第一作者的论文“High-throughput Phenotyping with Electronic Medical Record Data Using a Common Semi-supervised Approach (PheCAP)”于Nature Protocols平台在线发表。哈佛大学Tianxi Cai教授与布莱根妇女医院Katherine Liao博士是论文的共同通讯作者。[1]
基于电子病历的表型提取(EMR-based phenotyping)是利用电子病历促进生物医学研究的一项重要应用,可以大幅提高研究队列的建立速度、降低研究成本、扩大样本数量。目前,行业内仍然广泛使用基于ICD疾病诊断编码等的初级方法,对患者诊断判断的准确性相对较低。俞声副教授与Tianxi Cai教授自2015年起提出一系列统计方法,在尽可能控制人力成本的前提下,有效提升了表型提取的速度和准确性。
Nature Protocols期刊主要面向经过多年实践验证的、可形成标准的生物医学实验方法。本次发表的方法基于俞声、Tianxi Cai等较早提出的半监督表型提取技术[2]。目前,俞声、Tianxi Cai已开发出并发表多项无监督高通量表型提取技术[3,4]。这些技术已在美国多项精准医学研究项目中使用,未来亦有望成为基于电子病历的医学研究的标准实验方法。
参考文献
1 Zhang Y, Cai T, Yu S, et al. High-throughput phenotyping with electronic medical record data using a common semi-supervised approach (PheCAP). Nat Protoc 2019;:1–19. doi:10.1038/s41596-019-0227-6
2 Yu S, Chakrabortty A, Liao KP, et al. Surrogate-assisted feature extraction for high-throughput phenotyping. J Am Med Inform Assoc 2017;24:e143–9. doi:10.1093/jamia/ocw135
3 Yu S, Ma Y, Gronsbell J, et al. Enabling phenotypic big data with PheNorm. J Am Med Inform Assoc 2018;25:54–60. doi:10.1093/jamia/ocx111
4 Liao KP, Sun J, Cai TA, et al. High-throughput multimodal automated phenotyping (MAP) with application to PheWAS. J Am Med Inform Assoc 2019;26:1255–62. doi:10.1093/jamia/ocz066