合作单位
Natural Language Processing in Health Care
医疗健康数据化迅速发展。快速准确的自动化信息识别分析能帮助医生及医疗科研人员从海量的医疗健康数据中整理发现有用信息。自然语言处理在此过程中起到至关重要的作用。目前大多中文文本信息挖掘方法, 比如 基于“指导”的中文文本分析,都需要使用大量预先标记的词组进行训练,即监督学习,以至大大降低了在医疗数据中的可行性。TopWORDS (Top-down WORd Discovery and Segmentation) 是由清华大学统计学研究中心邓柯教授实验室研制推出的一套无监督的文本分词方法,能够同时实现高效的文本分词和新词发现, 无需对训练样本进行标记处理。特别地,它在领域特定、包含大量未知或不规则的词语、短语、术语的中文文本处理中卓有成效。邓柯教授团队成功用TopWORDS方法学习出医学相关词汇及术语近2万个。该方法对推动自然语言处理模型在临床以及健康数据中的应用起到了积极的作用。
Publications
Deng K., Bol P.K., Li K.J. and Liu J.S. (2016) On Unsupervised Analysis on Domain-Specific Chinese Texts. PNAS《美国科学院院刊》, 113(22), 6154-6159
Software & Packages
R packages: TopWORDS
Deng Lab
合作单位
Collaborating Centers
- 国家卫生健康委员会卫生技术评估重点实验室(复旦大学)
- 协和
- AG
- 空总
- 哈佛大学