【学术成果】邓柯课题组在JASA发表论文提出排名聚合新方法
近日,我中心邓柯副教授课题组在统计国际顶尖期刊 Journal of the American Statistical Association (JASA)发表题为“Partition-Mallows Model and Its Inference for Rank Aggregation”的研究论文,提出了一种推断排名聚合的新方法。曾在邓柯课题组工作的朱万闯博士是该文的第一作者,姜瑛恺博士和刘军教授为共同作者,邓柯副教授是论文的通讯作者。
排名聚合是指如何聚合从不同信息源获得的关于某些个体的排序,从而得到一个更加‘精确’的排序。例如,有m位评委为n名运动员的能力进行排序。排名聚合致力于对这m个排序进行整合分析以得到一个新的排序,能够更加准确地反映n名运动员能力的高低。现实中,m位评委的可靠性可能会存在差异,部分可靠性较低的评委可能会误导排名聚合的结果。开发基于数据驱动的方法来自动识别不同评委的可靠性,并据此优化排名聚合的结果,具有重要的实际意义。
邓柯和刘军等人曾于2014年在JASA发表了题为“Bayesian Aggregation of Order-Based Rank Data”的论文中,提出了一种基于划分模型(partition model)的排名聚合方法BARD。BARD将排序对象划分为两个组别,“相关个体组”和“背景个体组”,并假设可靠性高的评委们会以更高的概率将中的个体排位于中的个体之前。该方法能够在有效识别评委可靠性的同时,通过弱化可靠性较差的评委在排名聚合中贡献,来消除他们可能带来的负面作用。但是,该方法简单忽略了和两个组别中各个体的差异,从而在很大程度上损失了组内排名的信息。从应用的角度看,这是该方法的一个重要局限性。
本文在上述工作的基础上,采用更加精细的 Mallows模型对组别的组内排名进行了建模,将partition模型和Mallows 模型的优势结合起来,得到了能力更强的排名聚合模型Partition-Mallows model。该模型构建了对具有复杂结构的排名数据进行定量描述的一般框架,在充分利用和组间及组内的排名信息的基础上,不仅可以有效识别评委可靠性的差异,还能够产出更有效率的排名聚合。我们从理论上证明了该方法的可靠性,并通过大量的计算机模拟和实证研究验证了该方法在处理具有分组结构的排名聚合问题上具有明显优势。
该研究工作获得中国国家自然科学基金(Grants 11771242 & 11931001)、北京智源人工智能研究院(Grant BAAI2019ZD0103)和美国国家科学基金(Grants DMS-1903139 and DMS-1712714)的资助。
论文链接:https://doi.org/10.1080/01621459.2021.1930547