【学术成果】中心博士生张心雨与汤家豪杰出访问教授在JRSS-A发表时间序列数据主成分分析的研究论文

清华大学统计学研究中心17级博士研究生张心雨与中心杰出访问教授汤家豪教授(Howell Tong)合作撰写的研究论文“Asymptotic theory of principal component analysis for time series data with cautionary comments”于今年年初正式发表于Journal of the Royal Statistical Society: Series A (Statistics in Society)期刊。学术圈过往研究中经常直接对时间序列数据进行主成分分析而忽略其自相关性,针对这种误用,本文给出了时间序列主成分分析的统计推断性质和正确建模流程,并得出结论:如果忽视数据间的相关性而直接进行统计推断,可能会对主成分的变量载荷做出误导性的过度解释。

主成分分析是统计学和数据科学中最常用的多元统计分析工具之一,但应用中也存在诸多误用现象。典型误用是:对于时间序列数据,仍然使用独立数据假设下的理论结果。该论文强调了这种误用可能带来的问题。论文证明了时间序列主成分分析下的特征值和特征向量的中心极限定理,并给出其协方差的估计方法。论文关注方差比例和主成分载荷的统计推断,前者决定了主成分的数量,后者有助于主成分含义的解释。论文的研究结果表明:在这种误用下,方差比例的统计推断仍然较为可靠,但是主成分载荷的统计推断会产生较大变化。论文着眼于一个投资组合管理的实例分析,以此提供了时间序列数据正确使用主成分分析的流程和案例。

论文链接:

‍https://rss.onlinelibrary.wiley.com/doi/10.1111/rssa.12793‍