【水木数据科学访谈】开篇:踏踏实实做好一件事的生物统计科学家林希虹教授访谈

Talk With Great Minds of Data Science

--创刊词

随着大数据时代的到来,数据科学迎来了生机勃勃的春天。值此春光烂漫之际,“水木数据派”微信公众号推出“数据科学访谈”栏目,对国内外数据科学学术大师、行业精英、知名校友等展开系列专访,请大家各抒己见,结合自己的人生轨迹和专业视角展开对话。可高屋建瓴,风发意气,指点数据科学之江山;可见微知著,语重心长,畅谈求索真理之感悟;亦可就一事一题,丝分缕析,传播数据分析思想与智慧。以兼容并包之胸怀,追求真理之态度,获益读者之宗旨,鼓舞百家争鸣,增进学术思想交流与碰撞,为我们所处的这个伟大时代留存一份别样的精彩!

统计学研究中心推出水木数据科学系列访谈首篇——美国国家医学院院士,哈佛大学生物统计系林希虹教授专访

踏踏实实做好一件事的生物统计科学家——林希虹教授访谈

林希虹教授

林希虹教授是美国国家医学院院士,美国哈佛大学生物统计系和统计系终身教授、前生物统计系主任,数量基因研究计划(Program of Quantitative Genomics)主任。2015年,在林希虹教授、刘军教授和清华大学数位资深教授的共同努力以及学校的大力支持下,清华大学成立了统计学研究中心,推动统计科学在清华大学的蓬勃发展。

林希虹教授是全球知名的统计遗传学和基因组学的专家与推动者,在临床与流行病学中高通量基因组数据分析的统计与计算方法、复杂环境因素与表型数据分析、以及大规模健康数据的统计学习与推断等方向取得了重大突破,为统计学与生物医学和公共卫生的发展做出了杰出贡献。

日前,我们很荣幸地与林老师进行了一次访谈。在这里,写下我们最深刻的感受,并附上访谈节选。

采访感悟

踏踏实实做好一件事的生物统计科学家

林老师给我们最深刻的印象可以用三个词来概括:平和,专心,科学家。作为科学家,她脚踏实地,数十年如一日地坚守生物统计领域,坚持做有价值的研究;作为领航人,她心怀社会,为哈佛生物统计和统计系、清华大学统计学研究中心和统计与生物统计界,以及健康领域的发展贡献自己最大的力量;作为教师,她桃李天下,用平和的心态给学生做最好的榜样,教给学生不要急躁和急于求成。

在整个访谈中,她对所有问题的回答都体现着她所信仰的“踏踏实实做好一件事”的科学精神。林老师从自己的学习经历谈起,告诉了我们什么是有价值的科研,什么是科学家应该坚守的本心,并道出了她心目中统计的意义:统计使科学发现更严格、更真实,更新锐,更可信。她相信统计对科学发展的独特贡献在这个数据时代是不可替代的。

访谈节选

“理解科学、远见、专注做好一件事,这是对我最大的影响。”

问:您从清华大学毕业后到美国华盛顿大学读博士。您的求学生涯对您最深的影响是什么?

林老师:在西雅图有两个人对我影响很大:Normal Breslow教授和Ross Prentice教授。首先他们的研究方式和思维很相近,都是深入理解科学、思维严谨并且专注一个领域的人。理论功底非常强,同时也对问题的科学背景有很深的认识和见解。两位教授既做统计方法的研究也做应用统计的研究。他们的理论和应用研究真正优先立足于解决重要的实际问题。像Breslow教授,在长达40年的时间里,他并不是换一种模型就去找一个数据,而是一直致力于流行病和肿瘤的统计方法和应用的研究。他很早就参与了肾母细胞瘤的研究,从中提炼出重要的和有广泛应用的统计问题和方法,通过统计研究和科学合作大幅提高了这种肿瘤患者的生存率。Ross Prentice教授亦是如此,除了在生存分析和临床试验领域的杰出贡献,作为PI,他投入了很大精力在Women’s Health Initiative研究中。这个大型临床试验对妇女健康研究产生了重大的影响。他们真正理解科学研究的目的,真谛和方法,在生物统计和公共卫生和医学中深耕,一生真正做好了一件事。这是真正的统计方法研究和应用统计,而不是为了发文章来找数据。同时他们都非常注重科学研究高标准和严格的科学伦理。

另外一点让我印象深刻的是他们都很有远见(vision)和大视野(big picture),他们能识别重要的、基础性的, 对未来科学发展有影响力的领域和问题,并很早地进入这个领域,专注于这个领域,真正做出成绩和贡献。这种远见和视野是很难得的。

注:Norman Breslow 和 Ross Prentice 均为西雅图华盛顿大学生物统计系退休教授,美国国家医学院院士。Norman Breslow 教授是林希虹教授的博士导师。

林希虹教授与清华统计中心学生座谈

“学生培养要注意独立和批判性思考、发现和解决问题,写作、计算、交流、协作的能力。”

问:您觉得需要具备什么能力,才算得上统计方向的优秀博士毕业生?

林老师:从素质上说,要能够独立识别重要问题并培养批判性思考(critical thinking)的能力。能从重要问题中思考并发现关键点,建立新颖的理念和解决办法;从能力上说,要有较强的写作能力、理论功底,计算能力以及具备有效的交流能力。很多中国学生的理论功底,编程能力和计算推导能力较强,还要更注重培养自己的独立思考,创新解决问题,科学写作和沟通交流能力。如果没有这些能力,则科研成果的影响力并不会很大。另外,现在大的科研工作都是跨领域协作进行,所以团队领袖和协作能力也很重要。

低年级的博士生,或者未来有志于进行科研工作的本科生,可以尽早进入科研组内进行学习和参与项目的研究。如果有些大问题的上手难度太大,可以先选择一些门槛低的问题,扎扎实实做些研究,逐步培养自己的研究感觉和科研能力。

问:您认为,如何能让中国多一些睿智的科学家?

林老师:这更多的是科学素质和理念的培养。要多培养发现大问题和创新解决问题的能力。在做研究时不能够心态浮躁,也不能急于求成。要静下心来享受学习、研究工作的平凡和日积月累的过程,而不是说为了去拿奖或者拿名声才去发现问题、研究问题。现在不少学生独立发现问题、研究好问题的能力还不是很强,而且压力也大,同时容易受大环境的影响,做一些短视的科研,这是需要大家共同努力来改进的。

“年轻教授需要注意三点:培养独立性;多和别人沟通;专注在一个领域做出卓越。” 

问:您对年轻教授有什么建议?

林老师:年轻教授刚毕业,需要尽快完成从学生身份的转换,自己独立地发现问题。要找到一个自己喜欢并且有意义的领域并不是一件容易的事,所以要多和别人沟通。我刚做助理教授的时候,担任我们系的seminar chair,利用这个机会我请了很多当时统计界的领军人物来做报告,并和很多不同领域的教授聊天交流,了解他们的学术思想和习惯,以及做研究的方法,请教他们对统计的大视野(big picture)和新兴领域的看法。这对我帮助很大,慢慢地,我找到了自己的方向。最后,就像我刚才说的一样,我觉得对于年轻教授,最好是发现一个比较新的、没有太多人涉足但很有前景的领域,不要跟风,然后专注于此,最终要做到当人们谈论这个领域的时候会想到你。真正进入到一个领域,是需要付出很多努力的,其中包括了解这个学科和相关学科。我2005年来哈佛之前没有做过基因统计学的研究,刚到哈佛的前几年,我对这门一窍不通的领域有了兴趣,然后在2008年利用学术轮休的一年,去和旁听了研究生一年级生物基因学的课,跟学生们一起从零开始,系统地了解这个学科。这对后来我深入到这个领域起了很大帮助。做真正对科学有贡献的研究,要有平和的心态,静下心来,要放的下,影响和效果才能够长远。

“只要你内心觉得这些事都重要,你就一定能有办法安排时间。”

问:从工作上而言,您既有哈佛系主任的管理工作,还有科研工作,同时您对家庭也付出了很多,而您是如何把这几件事情都做得很好的?

林老师:首先是你心里要知道什么对你是最重要的。如果你内心真的觉得这些事都重要,你就一定能想出办法安排时间来把这些事情都安排好。需要有创造力地因地制宜地想出解决方法。比如我在刚做系主任的时候,就跟学院说好了要安排一位副系主任,我们两个人分工合作。这样我们互相帮助分担系里的事务,同时谁也不会耽误太多科研。因为我知道科研和我的系对我都很重要。我们学院当时从没有过副系主任的体制。所以这也开了我们学院设立副系主任的先河。后来很多系也采取了这种模式。在具体时间分配上,不同人有不同的方法。我会把时间切分成不同的区块,每个时段专心做该时段安排的工作。比如我会一周安排几天专门开会,与学生同事沟通交流,然后会有几天给自己留出整块时间进行科研工作。而家庭也是对我非常重要的一件事儿,所以当我回家之后会陪小孩,在他们睡觉之后我会再进行工作。家庭的支持也至关重要。我的家庭在我的事业上给了我很多支持。

林希虹教授接受专访

“统计使科学的发现更严格更真实,更新锐,更可信。”

问:如何用两句话讲给普通人听什么是统计?

林老师:统计是一门很美的学科,它与许多科学和人文领域紧密相关,它由实际问题驱动,又反过来解决实际问题。通过有效的方法和数据分析,考虑数据的不确定性和随机性,使科学发现更严格、更真实,更新锐,更可信。

问:有些人认为,在现如今的大数据时代,很多统计方法已经落伍,可能逐步被计算机专业的机器学习算法取代了。您认可这个想法吗?在这个时代,统计最有价值的地方在哪儿?

林老师:统计中最核心的价值之一,是把数据提供的信息转换成可信的专业知识。机器学习和深度学习有很多新颖的理念和方法,同时和统计又有很多交叉的地方,也用到了很多统计方法。学科之间相互借鉴更有助于科学发展和解决大问题。当代很多机器学习算法、深度学习算法做了很多很有价值的分类和预测工作,但是预测并不是唯一有价值的目的,同样重要的是发现事件的机理和重要因素,和背后的因果联系。例如全基因测序数据可以预测一个人的疾病发病率。一个人的全基因组有30亿的碱基对。我们同时也非常需要知道是哪个基因变异会导致疾病。这样才能帮助研发新药物帮助疾病治疗。所以人工智能能帮助一部分研究目的,不会是所有的。一个重要的核心要知道疾病发生背后的机理。统计学家应该与计算机学家和行业专家一起,用互助合作的精神,为人类共同的科学发展做出贡献,缺一不可。

 

清华大学统计学研究中心

访谈小分队:牛晓月、林毓聪、张心雨

编辑:侯禹珊