科研领域 - 清华大学统计学研究中心

统计学研究中心将依托清华大学在工科、商科、生命科学等方面的有利条件，深入开展统计基础理论、统计计算、生物及医学统计、工业统计和商业统计等领域的科研工作。力争在理论和应用统计方面取得具有国际影响力的重要学术成果。

政府大数据

在当今时代，能不能管好数据，用好数据，从数据出发更有效的实现科学管理和科学决策，不仅是衡量一个政府部门执政能力高低的一个重要标准，更密切关系到人民的福祉。统计学做为以数据处理和数据分析为研究对象的一门系统科学，在政府数据处理和分析上有着天然的优势和重大的责任。自成立之日起，我中心一直秉承理论与实践密切结合的理念，和造福社会服务大众的宗旨，积极为我国各级政府提供数据分析服务和政策决策支持，协助政府提高数据管理和分析能力，提升科学决策水平。目前，已和中央和地方多个政府部门建立了深入合作，在数据处理、决策支持、人员培训、地方人才培养等方面开展了一系列卓有成效的工作。我们非常欢迎各级政府部门与我们建立联系和合作，共同促进政府大数据的科学研究和实际应用。
金融大数据

随着信息科学技术的飞速发展，特别是云计算、大数据技术在电子商务、证券期货、互联网金融等领域的广泛应用，未来金融业的核心竞争力很大程度上依赖于从大数据中提取信息和知识的速度与能力，而这种速度和能力，取决于数据分析、挖掘和应用水平。随着互联网金融、移动支付等新型金融业态的不断涌现，强化以“用户为中心”的服务模式将成为未来金融业的重要发展方向，有助于金融产品创新、精准营销和风险管理，实现数据资产向市场竞争力的转化。在大数据时代，面对海量的金融数据，传统的分析方式需要发生重大的改变，并建立与之相应的新的统计模型。面对金融大数据，如何使用和管理大数据、从中提取有用的信息，为金融决策者提供可靠的理论支持，是各级政府、企事业单位以及金融机构所共同面临的重要问题。大数据在金融行业的应用还有很多的障碍需要克服，比如银行内各业务的数据孤岛效应严重、大数据人才缺乏以及缺乏银行之外的外部数据的整合等问题。随着近年来社会重视度的不断提高，相信金融大数据的应用将迎来突破性的发展。风险管理是所有金融业务的核心。典型的金融借贷业务例如抵押贷款、消费贷款、以及票据融资都需要数据风控识别欺诈用户及评估用户信用等级。中心杨立坚教授与合作者们近年来在信用评估的统计模型方面取得了重要成果，把斯坦福大学Hastie教授和Tibshirani教授提出的广义可加模型用于违约风险的概率计算。他们提出的两步算法具有默示有效的最高精确度和近乎最高的计算速度，并且为每个金融变量对违约概率的影响曲线构造出了同时置信带，可以进行深度统计推断。特别值得注意的是，该模型还广泛适用于非金融类的风险概率计算，如在美国已经成功运用的Predictive Policing System，就是通过广义可加模型计算在某个时间和地点发生犯罪的概率，以此安排警力出动巡逻。金融收益率大数据中蕴藏着丰富的金融风险信息,获取这类信息最直观便捷的途径是由2003年诺贝尔经济学奖得主，美国科学院院士，纽约大学的Engle教授提出的ARCH模型，以及杜克大学的 Bollerslev教授提出的GARCH模型。这类模型通过精准计算未来时间金融收益率的波动性，发现有较大金融风险的时间点，指导投资者的科学决策。中心李东教授和杨立坚教授在条件异方差的研究中取得了一系列重要成果，特别是非平稳GARCH模型和Threshold...
文本大数据

在大数据时代，海量文本的积累在各个领域不断涌现。从人文研究到政府决策，从精准医疗到量化金融，从客户管理到市场营销，海量文本作为最重要的信息载体之一，处处发挥着举足轻重的作用。在大量实际问题中所产生的文本数据往往带有明显的领域特征，常常包含大量的专业词汇，拥有独特的语言模式，并时常伴随着各式各样的“噪音”。对这样的文本，尤其是中文文本，进行处理，面临着极大的技术挑战。我中心刘军教授、邓柯教授领导的课题组近年来致力于“无指导”和“弱指导”下的中文文本分析，力图通过提出新型的统计学模型和方法为中文文本分析提供全新的解决方案。和过往基于大规模“语料库”训练的方法相比，这类新方法具有较强的自适应性和突出的学习能力，能够在没有训练数据或者训练信息很少的情况下自主发现未知词汇和短语，对文本进行切词，并对关键信息进行提取。相关方法在医疗健康、电子商务、金融服务、数字人文等领域有着广泛的应用。我中心以此为基础和社会各界建立了广泛合作。如果您在实际工作中遇到了大量的中文文本，但缺乏有效的分析工具，与我们建立联系并展开合作可能会是一个能带给你惊喜的选择。
医疗大数据

目前，全球医疗健康数据已有数百Exabyte，并在加速增长。从大规模研究队列的快速识别和建立，到人工智能辅助的临床决策支持系统，大数据正在改变着医学研究与实践。我中心于2015年成立医疗大数据中心，致力于用数据技术造福人类。目前，已与国内外多家著名医学机构和产业伙伴建立了长期合作，在医学文本处理和自然语言理解、非结构化医学数据分析、电子病历表型提取、临床决策支持、精准医学等方面开展前沿学术研究。非结构化数据分析电子化的医疗数据方便了存储和传输，但是并未达到进行数据分析的要求。大约80%的医疗数据是自由文本构成的非结构化数据，其中不仅包括大段的文字描述，也包括包含非统一文字的表格字段。通过医学自然语言理解技术，将非结构化医疗数据转化为适合计算机分析的结构化形式是医疗大数据分析的基础。我中心在电子病历分析方面有着丰富的技术积累，中心骨干为美国麻省总医院、布莱根妇女医院等顶级医疗机构分析处理过超过1亿篇次的电子病历。我们的深度医学语言理解技术不仅识别各种医学概念在自然语言中的丰富表达，还通过医学语意分析识别否定、推测、假设、条件、个人病史、家庭病史等语意，以及严重程度、解剖位置等各种修饰。语意分析结果可以方便各种维度、深度的数据分析，以及利用获得国家专利的语意搜索技术进行病历的精准查询和匹配。通过医学语言理解技术结构化自由文本表型提取基因测序技术是医学的重大进步。然而，基因等生命组学信息只有与表型信息相结合才能构成精准医学。我们与哈佛大学、麻省理工学院等机构的学者共同开发的高通量表型提取技术通过自动对包括维基百科在内的医学知识文库进行知识提取，结合电子病历数据自动建模生成媲美专家设计的表型提取算法。目前，该技术已被美国Partners HealthCare等大型医疗机构用于规模化建设生物样本库，为下一步医学研究的井喷式发展奠定了基础。精准医学精准医学为复杂疾病的防控和治疗提供了新思路，通过个人基因组和其他生物大数据的挖掘，为病人提供个体化的风险预测、诊断和治疗方案，从而优化医疗资源的配置。发展精准医学，科学有效的配置医疗资源，是医疗卫生事业发展的迫切需求。医疗大数据中心正在精准医学数据的整合分析和生物统计分析平台的构建方面不断斩获科研成果。
工业大数据

coming soon...