2017年12月20日,【统计学论坛】在清华大学伟清楼209成功举办。本报告邀请了宾夕法尼亚州立大学统计系的杰出教授林共进先生。本次讲座由清华大学统计学研究中心副教授李东老师主持。
林教授本次报告的内容涵盖了多个方面,主要内容是引入Ghost Data(幽灵数据)。林教授通过截取几部电影的片段来说明Ghost Data的由来,从新的视角发现电影中蕴含的数据思维。电影《The Six Sense》中的小男孩可以看到幽灵,在真实世界虽然大多数人不相信世幽灵或者鬼魂的存在,但有些人确实能凭借阴阳眼看到常人看不见的东西,曾有科学给出解释说是因为这些人眼睛能接收的光的频段比普通人要宽,对应到观测不到Ghost Data,我们便可以借鉴这个思想通过一些方法将“频率调宽”把隐藏的信息挖掘出来,这个过程可以形象地类比为“统计显微镜”。之后林教授用《神探夏洛克》电影中狗不吠这个现象说明案件的凶手应该是被害者的熟人,说明某些缺失数据也携带了大量信息,用汤姆克鲁斯电影《明日边缘》说明了加速学习过程的重要性。林教授认为Ghost Data主要分为virtual data(虚拟数据)、missing data(缺失数据)、pretend data(做作数据)、simulation data(模拟数据)和highly sparse data(高度稀疏数据)。引入Ghost Data的概念后,林教授介绍了一些如何处理该类数据的方法,如t-covering、因果推断等,并介绍了因果推断中不同的随机化方法导致的不同实验结果。林教授着重介绍了模拟数据应该具有的一些特点,如generality、representation、interested extremes、illusion。
最后林教授将传统统计方法如何应用到大数据、如何判断随机数的随机程度等问题和大家一起进行探讨。同时林教授用电影中蕴含的数据思维告诉我们应该拓宽视野了解不同领域的内容,勤于思考,敢于创新。