【学术成果】邓柯课题组在AOAS发表论文提出用广义主题词典模型挖掘关联规则

近日,清华大学统计学研究中心邓柯副教授课题组在应用统计知名期刊The Annals of Applied Statistics (AOAS)发表题为“Generalized theme dictionary models for association pattern discovery”的研究论文,提出了挖掘关联性规则的新方法。南开大学统计与数据科学学院杨洋特聘副研究员(课题组2015级博士生)为论文的第一作者,邓柯副教授为论文的通讯作者。

关联规则挖掘是数据挖掘研究的重要方向之一,广泛应用在生物信息学、医学和社会科学等领域。关联规则的一个典型应用是购物篮分析(Market Basket Analysis,MBA),即通过分析顾客购物篮中购买的商品,挖掘商品之间的关联性,实现智能推荐。在关联规则挖掘中,每个观测样本称为一个记录(transaction),每个记录是一组元素(item)的集合。以MBA问题为例,每件商品是一个元素,每个购物篮构成的商品集合是一个记录。传统的关联规则挖掘方法不区分记录中元素的类别,并假设顾客购物篮中的商品数量无缺失,但随着应用场景的多元化,实际问题中的数据结构更为复杂,通常涉及两种类型的数据:在第一种类型的数据中,元素包含类别信息,传统方法可能挖掘出大量不具有较高应用价值的同类别关联规则;在第二种类型的数据中,元素的数量信息缺失,传统方法难以从缺失数据中正确挖掘关联规则。

该论文改进了Deng, Geng and Liu (2014)的方法,主要贡献如下:(1)提出跨类别的主题词典模型,在产生初始词典的过程中限制主题的类别,对同类别的关联规则进行剪枝,能更准确、高效地挖掘跨类别的关联规则;(2)提出联合主题词典模型,通过概率生成模型还原元素的数量信息,构造了一个高效的元素数量还原机制,以减少新模型增加的计算量;(3)从理论上证明了新模型具有可识别性。与传统的关联规则挖掘方法相比,本文提出的方法在模拟实验和实际应用中都具有更高的计算效率、更高的准确性和更好的稳健性,并且该方法挖掘的关联规则在特征提取、命名体识别、聚类等下游任务中具有潜在的应用价值。

该研究工作获得国家自然科学基金(Grant 11931001)、北京市自然科学基金(Grant Z190021)、国家留学基金委、清华大学国强研究院以及教育部高等院校科技创新计划项目的支持。

论文链接:

http://dx.doi.org/10.1214/22-AOAS1626

 

相关文献:

Deng, K., Geng, Z., and Liu, J. S. (2014). Association pattern discovery via theme dictionary models. Journal of the Royal Statistical Society: Series B: Statistical Methodology, 319-347.