文本大数据

在大数据时代,海量文本的积累在各个领域不断涌现。从人文研究到政府决策,从精准医疗到量化金融,从客户管理到市场营销,海量文本作为最重要的信息载体之一,处处发挥着举足轻重的作用。

在大量实际问题中所产生的文本数据往往带有明显的领域特征,常常包含大量的专业词汇,拥有独特的语言模式,并时常伴随着各式各样的“噪音”。对这样的文本,尤其是中文文本,进行处理,面临着极大的技术挑战。

我中心刘军教授、邓柯教授领导的课题组近年来致力于“无指导”和“弱指导”下的中文文本分析,力图通过提出新型的统计学模型和方法为中文文本分析提供全新的解决方案。和过往基于大规模“语料库”训练的方法相比,这类新方法具有较强的自适应性和突出的学习能力,能够在没有训练数据或者训练信息很少的情况下自主发现未知词汇和短语,对文本进行切词,并对关键信息进行提取。

相关方法在医疗健康、电子商务、金融服务、数字人文等领域有着广泛的应用。我中心以此为基础和社会各界建立了广泛合作。如果您在实际工作中遇到了大量的中文文本,但缺乏有效的分析工具,与我们建立联系并展开合作可能会是一个能带给你惊喜的选择。pnas tdm