2020年12月27-29日,“世界华人数学家联盟年会”在安徽合肥举行,清华大学统计学研究中心邓柯副教授作为第一作者的学术论文“On the unsupervised analysis of domain-specific Chinese texts”荣获“2020世界华人数学家联盟最佳论文奖-银奖”。该论文是邓柯副教授与美国哈佛大学Peter Bol教授、哈佛大学刘军教授和萨福克大学李佳漪副教授共同完成,论文发表于美国科学院院刊PNAS杂志。
文章提出运用统计学模型和原理进行无指导中文文本分析的新方法-TopWORDS,可对特定领域中文文本进行词语发现和中文分词。此方法还可以结合其他文本分析工具,如词嵌入、主题模型、关联规则挖掘等,可提取文本中的主要特征和信息,是中文文本挖掘领域的重要突破。