【学术活动】阿里巴巴集团杨红霞博士学术报告

2018年12月06日,【数据科学论坛】在清华大学伟清楼209室成功举办。本次报告邀请到阿里巴巴集团的杨红霞博士。报告由清华大学统计学研究中心的俞声教授主持。本次报告的主题是“Extremely Large Scale Graph Representation Learning in Practice”。

杨红霞博士

信息与信息是相连接的,我们可以用一个图来研究用户与商品、商品与商品之间的关系。超大规模的图模型的研究和应用在大数据公司中扮演着越来越重要的角色,其中一些与深度学习相结合的图模型方法,已经在很多商业案例中展现了很不错的结果。在此背景之下,来自阿里巴巴集团的Hongxia Yang博士为我们分享了阿里的算法推荐团队的一些学术研究和实际应用。杨博士的报告主要分为以下四个部分:

一、阿里巴巴的情况介绍

杨博士首先向我们介绍了阿里巴巴的企业愿景和商业生态系统:一方面,阿里巴巴想要建立起一个能够让客户相会、工作和生活的平台;另一方面,通过丰富的商业生态系统,阿里巴巴拥有着非常丰富而且种类多样的数据,这些数据可以为阿里巴巴的科研提供强有力的支持。

二、Graphical Embedding和相关的研究工作

在这一部分,杨博士首先为我们介绍了图模型和Graph Embedding:图模型能够直观地表示信息之间的联系;而Graph Embedding结合了图模型和深度学习,用向量表示图模型中的节点。Graph Embedding为推荐、可视化等提供了强有力的工具。接下来,杨博士简要介绍了两篇相关的工作:(1)Graph Embedding in Fraud Detection;(2)Graph Embedding in Entity Recognition。

论坛现场

三、Graphical Embedding在当前实践工作中的应用

在实际应用中,杨博士重点介绍了Graphical Embedding在个性化云主题上的应用。包括云主题标题自动生成,云主题主图自动生成,云主题知识卡/攻略自动生成等。在很多实际应用的场景中,通过相关机器学习算法生成的结果比人工编写的效果更好。

四、未来的挑战和想法

在最后一部分中,杨博士介绍了当前Graph Embedding遇到的一些挑战:(1)包括当图中的点、边的个数以及点的Embedding维度很高时,计算复杂度会相当高;(2)在实际的应用中,每个节点具有特异性,包含各种各样的属性,边的种类也多种多样;(3)随着数据流的更新,如何实时更新图结构。(4)Scalable Bayesian deep learning,同时,杨博士也提出,统计专业的学生也可以在其中有所作为。

在本次讲座中,杨博士通过很多的实例,生动地介绍了Graph Embedding的相关理论及其应用。在讲座的最后,杨博士还给中心的博士生提出了一些建议:学习一些机器学习的课程,并且提升自己相关的编程能力,例如tensorflow, map-reduce等等。

与会人员合影