近日,统计学研究中心2016级博士生徐嘉泽与清华大学自动化系江瑞教授团队、斯坦福大学统计系Wing Hung Wong教授团队的合作文章“Density estimation using deep generative neural networks”在《美国科学院院刊》(PNAS)在线发表。徐嘉泽同学于2020年1月赴美国斯坦福大学进行为期近一年的访问学习,在访问期间主要参与了Wing Hung Wong教授实验室的文本分析、贝叶斯蒙特卡洛算法开发等方面的工作。在本项目中,徐嘉泽同学参与了模型构建和工具开发等工作。
该论文提出了一种名为Roundtrip的原创方法来进行概率密度估计。该方法利用深度生成式模型的强大生成能力,支持数据生成和概率密度估计的协同进行。该成果在多个统计学研究方向有重要的应用价值,如高维密度估计,异常值检测,单细胞数据的降维、聚类和缺失值插补等任务。
该研究所提出的Roundtrip方法利用两个GAN模型对低维隐层空间和高维数据空间的映射进行建模,随后通过重要性采样或者拉普拉斯近似的算法实现密度估计任务。对于图像数据的建模和生成任务,该研究引入了图像类别信息在MNIST(784维)和CIFAR-10数据集(3072维)上进行了条件概率密度估计以及条件数据生成(图1),其中每个类别的图片按照估计的概率密度从高到低排序。从图中可看出,生成图片质量和估计的概率密度具有一定的关联性。研究团队还利用条件概率密度估计以及贝叶斯后验的方法构建了图片分类模型,例如在MNIST数据集上,Roundtrip在测试集的分类准确率高达98.3%。