2017年11月27日,【统计学论坛·特邀报告】在清华大学伟清楼209成功举办。报告邀请到北京大学兼华盛顿大学生物统计系周晓华教授。周教授身兼北京大学北京国际数学研究中心生物统计及生物信息实验室主任,北京大数据研究院中医大数据中心主任,北京大学医疗与健康大数据中心副主任等多个职位。周晓华教授的研究主要集中在医学检验、因果推断分析、缺失数据、脑科学、卫生经济卫生服务等领域,致力于发展新的统计方法。本次报告由清华大学统计学研究中心邓柯副教授主持。
本次报告由清华大学统计学研究中心邓柯副教授主持。
报告的主题是“在对照组异构的随机化试验中,对二值响应变量的因果推断”。
周教授首先介绍了问题的背景。在因果推断中,一个常用的假设是个体处理效应稳定假设(Stable Unit Treatment Value Assumption, SUTVA)。SUTVA假定每个个体的潜在变量值(potential outcome)不会受到其他个体的处理分配(treatment assignment)的影响,并且要求对任一个体,每种处理不能有多种版本。通常假定只有试验组和对照组,并且每组只有一个版本。在有些实际情况中,要求对照组的个体不接受治疗是不现实的。相反,他们会选择不治疗或接受不同版本的治疗。这样原来的假设就不成立,也导致了对照组异构的现象。
周教授结合实际,以“自闭症治疗方案的因果推断问题”为切入点,对个体进行分类讨论并对数据建模。分配到试验组的个体有选择治疗和不选择治疗两种情况。而对照组的个体分成3种:不接受治疗,接受和试验组治疗方案一样的治疗,以及接受其他治疗方案。
周教授指出,治疗方案的因果效应在统计学意义下是不可识别的,原因是参数的个数较多。但是如果用一些不等式约束,把不可识别的参数消去,则可以得到因果效应的估计值的上下界。由此,在得到的区间是有信息的情况下,可以得出治疗方案是有作用的结论。
在提问环节,与会学者提出了若干可以推广问题的想法:1. 把响应变量扩展到实数空间(连续型变量)。2. 加上协变量(covariate)可以对估计更精准。3. 估计因果效应的上下界本质上是个优化问题,即在可行域内求解因果效应的最大最小值。希望以此切入,引发统计学科进一步深刻的研究和思考。