【学术活动】卡耐基梅隆大学Jiashun JIN教授访问我中心并做学术报告

2017年12月25日,【统计学论坛·特邀报告】在清华大学伟清楼209成功举办。本次论坛邀请到卡耐基梅隆大学的Jiashun Jin教授,报告由清华大学统计学研究中心的邓柯教授主持,本次报告的主题是“使用重要特征主成分分析(IF-PCA)进行聚类”。

论坛现场
Jiashun JIN 教授
       金教授首先用来进行聚类的十种肿瘤的microarray表达量数据,该项目的目标是将每种肿瘤分成几个亚组,所有特征分为信号和噪音,信号的部分有不同的均值,是一个秩为K-1的稀疏矩阵,我们在这里面临的问题是信号的部分相对于噪音很少而且很弱,因此使用经典的PCA方法效果不是很好。

接下来,金教授介绍了IF-PCA方法思想,主要分成以下几步:首先是使用Kolmogorov-Smirnov统计量将原始数据变成排序特征,之后将排在靠前的特征筛选出来,最后在经过筛选之后的特征上使用主成分分析的方法。在以上每一步的操作中,都要有一些需要注意的地方,在使用Kolmogorov-Smirnov统计量对原始数据进行排序时,在计算KS score之后,使用Efron’s null correction的方法对KS score进行标准化,再选择标准化之后score排在前面的特征;在选择排名的threshold的时候,通常大家会使用cross validation或者FDR的方法,金老师使用的是Higher Criticism的标准,从中选择一个最严格的threshold进行筛选。

最后,金老师将IF-PCA方法的结果和一些已有的方法进行了比较,包括kmean, SpecGem, kmean++, COSA 以及sPCA等方法进行了比较,发现IF-PCA的方法在十种肿瘤中的五种表现都是最优的,在另外五种肿瘤中也是次优的,在所有肿瘤中的平均错误率也是最低的,这说明这种方法在实际应用中的效果是很好的。

与会人员合影