第十届中国R会议(北京)

王永雄

Data Science, machine learning, precision medicine, and all that

Although many aspects in the healthcare industry have been impacted by information technology, the practice of medicine has not been disrupted a fundamental level. This is about to change because of the convergence of breakthrough advances in genomics, clinical informatics, and statistical learning methods. In this talk I will review recent developments in this direction. In particular, I will discuss the importance of large scale genomics and health record data, and the value of integrative analysis/modeling of heterogeneous data.

Professor Wong is a fellow of National Academy of Sciences in the United States and Academia Sinica (2010). He won the highest award in the field of Statistics COPSS Presidents' Award in 1993. Wong graduated from the University of California, Berkeley in 1976 with a Bachelor's degree. At the University of Wisconsin–Madison, he studied under renowned statistician Grace Wahba, and was awarded a PhD in Statistics in 1980. After graduation, he taught at the University of Chicago, served as an assistant professor, associate professor, and professor. In 1994 he joined the Chinese University of Hong Kong Department of Statistics. Since 1997, he taught and led his lab at the University of California, Los Angeles and Harvard University. In 2004, he was appointed Professor at Stanford University, and served as Head of the Department of Statistics at Stanford University in 2009.

刘军

Statistical learning with genomic big-data

The number of publicly available gene expression and genome sequence datasets has been growing dramatically. Various methods have been proposed to predict gene functions by integrating the publicly available datasets. I will use a few recent projects we carried out to illustrate the roles and importance of statistical modeling for extracting knowledge (i.e., learning) from genomic and genetic big-data and to predict treatment effects from genomic information. The take-home lessons are (a) statistical models are all “wrong” in certain technical aspects, but are extremely useful for synthesizing information (much more so than ``techniques”-driven approaches); (b) statistical thinking is important for understanding predictions and observational findings; (c) Bayesian-like data integration and model averaging can provide more coherent and accurate answers to intricate problems. As examples, we show that our algorithm CLIC is capable of integrating over thousands of gene expression datasets to achieve much higher co-expression prediction accuracy compared to traditional co-expression methods. We also show that statistical learning model-based personalized chemotherapy selection results in significant higher survival rates compared with standard practice for breast cancer patients.

Professor Liu is the director of Center for Statistical Science of Tsinghua University. He is also a professor in the Department of Statistics at Harvard University. Liu was an IMS Medallion Lecturer in 2002 and a Bernoulli Lecturer in 2004. He was elected a fellow of the Institute of Mathematical Statistics in 2004[3] and of the American Statistical Association in 2005. Liu received his B.Sc. from Peking University in 1985. He has a Ph.D. in math from Rutgers University in 1988, and a Ph.D. in statistics under the supervision of Wing Hung Wong from the University of Chicago in 1991.

李航

Building Better Connected World with Artificial Intelligence Technologies

We envision that with artificial intelligence technologies the telecommunication, enterprise, and consumer industries, in which Huawei has its main business, will enter a completely new horizon; specifically, all the products and services will be revolutionized to become more intelligent. Huawei is indeed pushing the frontier of research and development of technologies in those fields and has accomplished significant achievements. In this talk, I will introduce some of the best practices as well as the technology breakthroughs made in Huawei, with regard to building better telecommunication networks, better enterprise management, and better mobile devices. Specifically, I will describe the accomplishments made at research projects of Huawei Noah’s Ark Lab. Finally, I will summarize the challenges and important research directions in artificial intelligence, for which more research, particularly fundamental research, is needed.

李航博士的研究方向包括信息检索,自然语言处理,统计机器学习,及数据挖掘。李航 1988 年日本 京都大学电气工程系毕业,1998 年获得日本东京大学计算机科学博 士。他 1990 年至 2001 年就职于日本 NEC 公司中央研究所,任研究 员,2001 年至 2012 年就职于微软亚洲研究院,任高级研究员与主任 研究员。李航一直活跃在相关学术领域,曽出版过三部学术专著,并 在顶级国际学术会议和顶级国际学术期刊上发表过 120 多篇学术论 文,包括 SIGIR, WWW, WSDM, ACL, EMNLP, ICML, NIPS, SIGKDD, AAAI, IJCAI,以及 CL, NLE, JMLR, TOIS, IRJ, IPM, TKDE, TWEB, TIST。他和同事 的论文获得了 KDD2008 最佳应用论文奖,他指导的学生获得了 SIGIR2008,ACL2012 最佳学生论文奖。李航参与了多项产品开发,包 括 Microsoft SQL Server 2005, Microsoft Office 2007, Microsoft Live Search 2008, Microsoft Bing 2009, Bing 2010, Office 2010, Office 2012。 他拥有 42 项授权美国专利。李航还在顶级国际学术会议和顶级国际 学术期刊担任许多重要工作,如大会程序委员会主席,资深委员,及 委员,期刊编委,包括 SIGIR, WWW, WSDM, ACL, NAACL, EMNLP, NIPS, SIGKDD, ICDM, ACML, IJCAI, 以及 CL, IRJ, TIST, JASIST, JCST。

郭建华

大数据时代下的统计学思维—以文本挖掘为例

从现实的世界出发去探知真实的世界,是几乎一切科学的目的。为此,人们搭建了一个想象的世界,称之为模型。自然的,模型既应与现实世界相吻合,又应与我们心目中的真实世界相匹配。随着大数据时代的来临,我们心中的“现实世界”变得越来越庞大,模型的建立就变得越来越有挑战性。作为大数据建模的最重要工具之一,统计学模型又是如何建立的呢?本报告将以此为题,逐步讨论统计学的思维方式,提出了一种可称之为“结构降维”的建模思路,并应用在文本挖掘领域。本报告将概述我们的基本思想和实际做法。

郭建华,东北师范大学教授,博士生导师,副校长。国务院学位委员会学科评议组统计学科召集人,国家杰出青年科学基金获得者,教育部“长江学者奖励计划”特聘教授,“新世纪百千万人才工程”国家级人选,国务院政府特殊津贴获得者,国家自然科学基金数学天元基金学术领导小组成员。

宗福季

统计转移学习(及其在统计过程控制的应用)

随着信息技术与数据采集技术的迅速发展,在许多应用中人们越来越需要综合地利用多个数据源和多个领域的信息。近年来,迁移学习 (transfer learning) 提供了结合各个领域信息的有效的框架。通过迁移来自源领域 (source domains) 的已有的知识,目标领域 (target domains) 里相似的问题可以得到更有效的解决。在迁移学习的框架下,统计模型与统计方法起到了很重要的作用,然而现有的迁移学习的综述多集中在机器学习领域,并没有强调统计模型与方法的应用。这次讲座將綜述统计迁移学习 (statistical transfer learning) 。通过总结迁移学习文献中的统计模型和统计方法,我將展示统计研究如何更好地帮助解决迁移学习问题。另外,我將讨论统计迁移学习在现实中有关统计过程控制,过程监控,及质量控制的应用。

宗福季教授现任香港科技大学工业工程与物流管理系教授, 前系主任, 及质量实验室主任,国际质量科学院(IAQ)院士, 美国工业工程师学会(IIE)会士,美国质量学会(ASQ)会士,国际统计协会(ISI)当选会员,香港工程师学会 (HKIE)会士。任职科大后,他积极参与有关质量改善和管理的教育及研究工作。他是大中华地区首名荣获美国质量学会(ASQ)六西格玛黑带的权威, 亦是该学会特许的六西格玛黑带大师之一。宗教授目前是美国质量学会旗舰期刊 Journal of Quality Technology (JQT) 的主编, 工业工程学会期刊 IIE Transactions 及 Technometrics 的副编辑。 宗教授于国立台湾大学取得机械工程学士学位,其后于美国密歇根大学获工业工程硕士及博士学位。

邓一硕

中产阶级如何利用量化投资工具完成财富进阶

随着经济的发展和人均收入的不断提高,拥有储蓄和投资能力的中产阶级人数大量增加。与此同时,房价的上涨,健康的投入又极大的消耗中产阶级的积蓄。如何利用量化投资工具,辅助进行资产配置决策,从而使得自身财富实现保值增值?本演讲将结合典型案例来分享量化投资工具在个人资产配置中的作用。

邓一硕,毕业于中央财经大学,北京大家玩财务总监、副总裁。曾参与翻译《R核心技术手册》,《R图形可视化手册》,《量化投资分析与R语言》。

圆桌讨论

圆桌讨论

圆桌讨论

圆桌讨论

李广雨

致辞

致辞

致辞

叶征

物联网大数据分析技术在供应链金融保险和风控领域的应用?

虽然“互联网+”在时下极其引人注目,但未来面临的重要发展趋势是“物联网+”,因为服务于产品流通贸易环节的电子商务只是智能生产的一部分,而物联网将囊括生产、贸易和使用所有环节。另外,传统互联网是用户有意识的与网站发生交互留下行为信息,而物联网却能在用户尚未意识到的情况下完成信息的搜集,使物完全脱离人的状态获得感知与被感知的能力。由此,物理世界与网络虚拟世界被打通形成互动反馈,这样风控、金融和保险服务才能真正做到客观、实时、动态、前瞻。本演讲将报告物联网大数据分析技术在金融保险和风控领域的商业实践探索。

毕业于北京大学光华管理学院,师从著名金融学家曹凤岐教授。目前任星通天安科技有限公司副总裁,主要负责物联网和车联网保险业务以及物联网金融风险管理工作,星通天安是一家专注于物联网大数据金融服务的公司。加入星通天安管理层前,叶先生曾在中国人寿保险(集团)公司任职六年,主管保险集团资产负债管理(ALM)、资本规划与经济资本(EC)管理等工作,任职期间曾被中国人寿外派澳大利亚悉尼工作,多篇论文在《保险研究》等核心期刊发表。除此之外,叶先生还先后在国际著名投资银行、国际知名咨询机构和国际顶级金融保险集团实习、工作或任职,参与了多家大型金融机构的全面风险管理(ERM)、内部评级法(IRB)建设中评级模型的开发、验证和优化,以及经济资本管理的研究与应用等工作。

苏永刚

移动程序化广告

本报告介绍移动端的程序化广告,即在移动设备上为广告主的精准营销需求提供全方位的服务。包括以多种多样的数据为基础的、建立在在传统互联网广告业务的基础上的,结合移动互联网的特点及优势 的多种面向效果的解决方案。本报告还将介绍蓬景数字以及狗熊会联合研究组在针对不同的场景以及数据的相关研究工作,包括基于数据的方法自动对广告出价、定向、投放、反馈、优化等各个环节。

北京大学计算机体系结构专业理学硕士学位。蓬景数字技术中心总经理,负责蓬景数字广告发布平台与数据分析平台的产品研发、运营工作。在计算机系统结构、云计算与虚拟化技术、海量数据处理与高并发业务处理等方面有超过10年的深入研究和丰富经验。

程龙

数据融合与信用风险评估

本次主要分享考拉征信依托海量数据为银行等提供信用卡申请评分模型构建服务的一般方法,并介绍模型设计和数据处理的一般流程。

考拉征信高级数据分析师,北京师范大学数学学院硕士,曾在电信、金融、互联网等领域从事数据分析工作。对数据分析成果在业务和产品上的应用有浓厚兴趣,擅长数据集成与治理、用户行为画像研究、信用风险建模。

赵锡刚

证券分析师的价值分析

证券分析师就是给市场提供投资建议的人,投资人听了他的建议交易股票,分析师赚取交易的佣金提成。这种人可不容易的;首先严格的准入条件,要去考试拿资格证书,其次,严格的语言用词限制,发出之前必须过内审,必须实事求是,不能引起市场恐慌,再次严格的监管个人的语言和行为,以防各种内部交易。但是国内分析师的评级可信吗?分析师有用吗?肯定有用,为什么?各大券商都花重金建立自己的分析团队,要是没用早就都开除了。那怎么知道谁有用谁没用,尤其是中小机构和个人投资者,自己没有什么判断能力,市场上有4000多位分析师,每天发出将近500份研报,平均都在千字左右,怎么看啊,看谁的啊!这是一个甄别分析师分析能力的问题,分析师分析的准不准主要是看他推的股票涨没涨,涨了多少,是不是跑赢了行业,他是最初价值的发现者,还是人云亦云的跟风者,亦或是发了报告股票就下跌的悲催者。对标科技通过汇总所有历史上的分析师行为数据进行挖掘,以收益率为核心通过统计分析,为每一位分析师建立数据模型,鉴别分析师的分析能力,并将不同行为特点的分析师归类,为中小投资者提供精准化的分析师群体行为的实时动态跟踪、关键信息的实时提醒并积累投资人行为;最终制定自己的投资策略。

毕业于同济大学运输管理工程专业,99年加入中国惠普有限公司任电信行业销售代表,06年成为惠普最年轻的行业销售总监。08年加入安永会计师事务所全球电信中心负责中国区电信行业咨询业务,当中结识俏江南张兰,11年进入俏江南全面负责俏江南上市业务和集团对外的整体业务,经过4年的不断努力,经历A股转H股,从独立上市到卖给CVC的全过程,2015年离开俏江南,2016年3月成立对标科技。

周扬

基于车联网数据的商业价值探索

当前,汽车行业整体处于数据来源一致性低、数据质量一般且可用性不强的基本状态。车联网数据作为采集频度高、数据质量好、来源稳定的数据源,成为了汽车主机厂商及周边行业的关注热点。其中包括的方向有:车险UBI、无人驾驶、汽车营销、汽车后市场、车辆的生产制造及工况研究等核心方向。此次演讲,将基于彩虹无线多年来在车联网大数据行业的深耕,围绕实际商业应用场景,结合统计模型及算法,分享基于车联网数据商业应用的实践案例。

周扬,彩虹无线数据科学家,数据科学部总监,浙江大学客座讲师,四川大学生物信息/生物统计专业硕士,拥有国家发明专利一项,先后在NAR、Bioinformatics发表论文三篇,累计影响因子超过18。多年来致力于车联网数据与汽车行业数据的价值研究,为汽车智能制造、车辆工况研究、创新车险等方面提供数据赋能。

兰伟

浅谈消费金融

介绍目前消费金融的线上线下运营模式,流量获取方式和风控模式,以及目前网络图谱在反欺诈中的应用和进展。

西南财经大学统计学副教授,柠檬科技创始人。

吴海山

Quantitative Venture Capital

投资是一个艺术与科学的结合。对于二级市场投资来讲,基于数据的量化投资策略已经取得了瞩目的成绩。但是对于一级市场的风险投资而言,传统风险投资家在进行决策时,更多倾向于通过自己的经验和直觉来进行决策,数据和机器学习算法还未成为主流的方式。近年来随着互联网数据、可穿戴设备、小型卫星、物联网等多种传感器设备的普及,我们越来越方便的可以对金融市场进行有效分析,类似Google Ventures, Correlation Ventures, KPCB等多家VC公司也开始进行了基于数据的风险投资决策。这次讲演将主要介绍数据、机器学习是如何影响目前的风险投资市场,以及将来的发展趋势。

吴海山,百度研究院大数据实验室资深数据科学家,时空大数据研究负责人。2011年从复旦大学博士学位,毕业后加入IBM中国研究院。2012年底加入美国普林斯顿大学进行博士后研究。2014年9月加入百度研究院大数据实验室,担任百度时空大数据研究负责人。先后负责了百度经济测量、百度人群预警系统、百度商业地产选址系统等多个课题。研究成果获得了国内外知名媒体的广泛报道(如the Wall Street Journal,Bloomberg, the economist, Forbes, CNBC, CNN Money, MIT Technology Review, New Scientist, NPR, Washington Post, China Daily等),研发的百度经济指数每月5号会在彭博终端上更新。

董磊

手机数据与经济活动测度

Emerging trends in smartphones, online maps, social media, and the resulting geo-located data, provide opportunities to collect traces of people's socio-economical activities in a much more granular and direct fashion, triggering a revolution in empirical research. These vast mobile data offer new perspectives and approaches for measurements of economic dynamics and are broadening the research fields of social science and economics. In this paper, we explore the potential of using mobile big data for measuring economic activities of China from a bottom-up view. Firstly, We build indices for gauging employment and consumer trends based on billions of geo-positioning data. Secondly, we advance the estimation of store offline foot traffic via location search data derived from Baidu Maps, which is then applied to predict revenues of Apple in China and detect box-office fraud accurately. Thirdly, we construct consumption indicators to track the trends of various industries in service sector, which are verified by several existing indicators. To the best of our knowledge, we are the first to measure the second largest economy by mining such unprecedentedly large scale and fine granular spatial-temporal data. Our research provides new approaches and insights on measuring economic activities.

清华大学建筑学学士、经济学学士、工学博士,主要研究方向为时空数据分析。 曾工作于百度Big Data Lab,从事基于移动端数据的分析与建模工作。研究论文发表于多个知名学术期刊,并被Economist,Bloomberg,New Scientist,MIT Tech Review等专业媒体广泛报道。

殷磊

迁移学习在金融大数据风控中的应用

风控是金融领域研究的核心之一,也是大数据应用的经典场景。金融产品丰富多样,受众群体分布广泛,不可能为其设计一个大而全且通用的风控模型。因此,为不同的金融产品设计针对性的风控模型是非常必要的,这正是迁移学习的用武之地。迁移学习不仅可以解决单一产品数据过少,特征单一的问题,还可以捕捉产品间相关性,有效抵识别个性化风险与系统化风险。

现任融360天机风控tech leader。曾任去哪技术总监,百度资深架构师。北京理工大学计算机科学技术博士。专注大数据与人工智能方向研究。

李翛然

如何制造一次成功的投资

量化投资是近年来金融行业最火热的话题之一,从高频,套利交易,Alpha,事件驱动,FOF投资,新的投资方法层出不穷,那么,到底一个投资者该如何选择策略?这些策略的背后逻辑到底有哪些优点缺点?在传统的金融学术和量化投资实战之间的巨大鸿沟有没有一些通用的方法论可以让一个新人成长?这次简短的分享可以让大家对传统投资到量化投资有一个清晰而理性的认识,同时可以对自己将来的投资生涯提供很多有意义的指导和帮助。

李翛然, 北京奇点创世信息技术有限公司创始人。先后从事过寿险精算,投资银行工作。于2014年创办北京奇点创世信息技术有限公司,主要业务领域为二级市场金融风险管理系统。现已有10余家金融机构、私募基金采用该系统为客户和自营交易提供风险管理及投资顾问服务。其主要工作经历覆盖了一级市场的发行,尽职调查,搭建企业信用分析系统,二级市场的量化分析,风险管理saas系统。

自由讨论

自由讨论

自由讨论

自由讨论

吴梦荷

基于区域关联视角的智慧城市发展

智慧城市旨在以新的科学技术手段优化城市发展路径,这一范畴则包含了从微观到宏观的一系列尺度上的问题,区域问题也是智慧城市发展的重要部分。如今网络化的城市关系正在形成,城市的良性发展与区域关系密不可分,因此以区域的视角解析智慧城市发展路径十分重要。研究基于智慧城市的理念和内涵,探索基于城市间关联的区域分析框架,采用新的数据源和技术方法,把握区域发展格局、统筹城市间发展关系,透视交通、人口、资本等特征,从而为宏观区域发展提供智慧的解决之道。

城市与区域规划专业理学硕士,现任职于清华同衡规划设计研究院技术创新中心,从事城市规划相关的数据分析与数据分析产品研发。

顾竹

环境大数据的商业应用

基于卫星遥感、GIS等数据,采用统计分析和机器学习技术,可以挖掘出更为丰富的信息,为社会生产、发展等各个领域应用。环境大数据智能共享云平台技术,包含了针对空间环境数据特定优化的数据采集、分析、发布与可视化多个模块,能够实现对气象,环境,地质等多类型环境数据的实时监测和关键环境变量的预报预测。其作为颠覆整个环境大数据行业的历史性突破技术,获得国内外专家的广泛认可,市场价值极其可观。

北京佳格天地科技有限公司产品副总裁。南京师范大学本科、硕士,美国纽约州立大学博士,人工智能和大数据专家,前NASA深度学习研究员。在美国纽约州立大学攻读博士期间,就被NASA邀请参与遥感影像的重要项目。多年来专注遥感影像的深度学习。佳格是世界上首先采用深度学习来分析图像获取农业信息的公司。

张志成

地理数据与商业网点选址实战

电商与数据时代,实体店作为重要的消费场景,各种app推广主力渠道等,在各种渠道中地位将会被继续强化,新零售也开始通过数据来武装实体渠道,从而帮助实体渠道能够实现科学选址、精细化运营等,然而数据的应用应该首先以行业知识为基础和导向,本次将会分享开店实战中是如何利用数据科学选址的,从中可以看到数据选取、方法与业务融合、执行落地缺一不可,也将会了解到数据时代实体渠道的更强生命力与机会点在哪里。

《数据实践之美》联合作者,10余年的商业网点选址分析与开店工作经验。服务过百胜餐饮、沃尔玛中国等公司,曾作为外部顾问参与IBM农行网点优化。项目经验涵盖零售、餐饮、金融与服务、体验等商业业态。基于行业经验,能够从业务角度正确解读数据。掌握主流的数据工具与简单的编程能力,能够通过数据分析洞察业务机会。对数据驱动商业选址有一手的实战经验。

黄蔚欣

基于室内定位数据(IPS)的时空行为分析

黄蔚欣,清华大学建筑学院副教授,日本京都大学博士,数字建筑技术教学工作委员会副主任委员,亚洲计算机辅助建筑学会(CAADRIA)委员,中国建筑学会建筑师分会数字建筑设计专业委员会(DADA)联合发起人,清华大数据产业联合会会员。主要研究领域:数字建筑设计、大数据行为分析,设计认知等。

时空位置信息对理解人群的环境行为具有重要的意义。传统的环境行为学研究方法使用拍照、绘图、跟踪、问卷等方式调查人们的行为,可以较准确的记录人们的时空位置和活动的内容,为分析少量个体在特定时段的行为提供了较为全面和准确的信息。然而,这样的调研方式也存在样本数量少,覆盖时间短、空间有限的不足。使用室内定位系统(IPS)的时空位置数据,能够分析人群在大型公共建筑室内外空间、社区公共空间、居住空间等的行为,总结行为模式,比较不同人群、功能空间的特点,为建筑设计、商业运营、公共安全管理提供动态依据。

高楠

不可或缺的优质地理大数据

在过去的工程实践中,数据是一种比较稀缺的资源,很多时候手握最好的硬件、软件、算法但苦于没有数据使得这些优质资源无用武之地。随着时间的推移,数据的稀缺性渐渐降低,数据甚至呈现出井喷的趋势,越来越多的数据随处可见,但数据质量参差不齐。尤其在数据挖掘、人工智能快速发展的时代,人人都能手握最好的工具、模型、算法,却难以准备出一份合格可用的数据供分析使用。如何高效的研发高质量的地理位置数据是我们重点开展的工作之一。

北京极海纵横信息技术有限公司(GeoHey)数据总监,在地理数据治理、地理数据分析及可视化、地理信息商业咨询服务等专业领域积累八年经验,曾为沃尔玛中国、万科等企业提供大数据服务,专注于研究海量地理数据挖掘解决方案。

朱雪宁

PM 2.5 数据的时空特征及统计建模

个人介绍:北京极海纵横信息技术有限公司(GeoHey)数据总监,在地理数据治理、地理数据分析及可视化、地理信息商业咨询服务等专业领域积累八年经验,曾为沃尔玛中国、万科等企业提供大数据服务,专注于研究海量地理数据挖掘解决方案。

光华管理学院商务统计系四年级博士生。研究上关注社交网络、高维数据、环境数据分析等;“狗熊会”公众号专栏作者。曾在Annals of Statistics 以及Statistics and Its Interface有所发表。

陈静

计算与人文:作为新领域的“数字人文”

数字人文(digital humanities),源于“计算人文”(computing humanities),是近20年来兴起的一个多学科交叉领域,研究主题从中世纪手稿的文本分析、历史文献主题挖掘、元数据框架、诗歌分析到计算机游戏、艺术品风格分析等,其参与主体包括艺术家、人文学者、社会科学家、统计学家、计算机科学家、地理专家、软件工程师等。数字人文主要关注的是在当今信息社会语境下,在知识生产方式及知识进行转型的重要时期,如何解决新出现的人类社会文化问题,或者通过新的研究方法、路径和工具对人文学科的进行再认识、再研究和再挖掘。
本发言将主要从“计算与人文”的关系对“数字人文”的发展脉络进行简要说明,并在此历史框架内,结合具体个案对统计学方法、自然语言分析、主题模型、社交网络、HGIS、Pyton、R语言等数字人文学者常用的分析方法或者工具对人文研究的作用和影响进行说明。

陈静,南京大学艺术研究院副教授。南京大学博士,Rice University博士后。主要研究兴趣为:文化与媒介研究、数字人文、新媒体艺术。

王成军

network diffusion: Simulate and Visualize Network Diffusion

network diffusion, a R package which can help simulate and visualize the network diffusion. https://github.com/chengjun/networkdiffusion Network diffusion research focuses on how network structure exerts its impact on the diffusion process. The networkdiffusion package would help you simulate amd visualize the most simple network diffusion with R. The algorithm is quite simple:
Generate a network g: g(V, E). Randomly select one or n nodes as seeds. Each infected node influences its neighbors with probability p (transmission rate, β). Slides: http://chengjun.github.io/network-diffusion

Cheng-Jun Wang is currently an assistant research fellow in the School of Journalism and Communication, Nanjing University. He is the director of Ogilvy Data Science Lab, and also a research member of Computational Communication Collaboratory and Web Mining Lab. His research on computational communication appears in both SSCI and SCI indexed journals, such as Scientific Reports, PloS ONE, Physica A, Cyberpsychology.

郑文惠

情感现象学与色彩政治学──唐诗色彩词的数字人文研究

作者:郑文惠*、余清祥**、颜静馨***、刘昭麟****、邱伟云*****
摘要:本次演讲主要以台湾政治大学历史与思想数字人文实验室团队近年来以数字技术进行文学文本研究之重要成果与未来开展为内容。以古典诗歌作为数字人文方法实践之场域,主因于中国古典诗歌大多以具体可感的形象描摹抽象的心理情感,亦即诗歌中一个个词组,几乎是传达诗人心理情感的一个个意象,承载了象征诗人心理情感与思想观念的意义系统 。而诗人在独特的身体感知中,以诗歌的修辞技术,标记出本己的思想情感,呈显为独特的诗歌风格,从而蔚为一代的记忆表征,也积淀了世代间不同的思想价值与文化风俗。 2015 年,我们借用高分子化学的“分子链”概念,施作于诗歌的意象丛及主题研究等,藉由数字技术尝试从“句链”中勾勒出色彩词在诗歌中的构词,及其出现位置与对仗词、搭配词,考察其中所透显出的情感现象学与色彩政治学。2016 年,我们纳入颜色词的同义字,在原有技术基础上,结合 R 进行文本探勘,运用统计理论模型,更为全面且深入地研究唐诗颜色光谱学。大体而言,唐诗颜色光谱学除与诗人个人独特的联觉通感、视觉想像、心理情感与感觉结构息息相关外,还涉及佛道宗教信仰、经世与隐逸思想、园林文化、祭典仪式、身分地位、染织技术、彩绘技术、化妆术…等等,从中不仅可掌握诗人独特的颜色修辞与诗歌主题风格的关系及其深层的颜色心灵光谱,也可深入理解透过各期唐诗多重性的颜色光谱所开展的隐喻系统,及所表征不同时期宗教、思想、技术、政治、经济、阶级等社会文化的变革。2017年我们将尝试拓展可纳入句链结构的元素,以“色彩词”为对象,将古典诗歌重要的声、律与前述技术成果结合,探索声音在诗歌中如何与情感、意象互动,而数字技术又能为深具传统的古典诗歌研究带来怎样的风貌,此为本团队系列研究未来开展的方向。
* 台湾政治大学中国文学系教授。(通讯作者)
** 台湾政治大学统计学系教授。
*** 台湾中正大学中国文学系博士生。
**** 台湾政治大学资讯科学系特聘教授。
***** 山东大学历史文化学院副研究员。

郑文惠,台湾政治大学文学博士,现任台湾政治大学中文系教授。
主编?中国近现代思想及文学史专业数据库(1830-1930)?、《东亚观念史集刊》、《革命.启蒙.抒情――中国近现代文学与文化研究学思录》等。著有《文学与图像的文化美学――想像共同体的乐园论述》、《诗情画意――明代题画诗的诗画对应关系》、《钱选》、《王绂》、《中国书道传习汇编》等书,及古典诗歌、文学与图像、遗民诗画、汉画、晚明版画、近代画报、近代小说、文学地景与记忆认同、世变与乐园、观念史、数字人文学等论文。
现主持「世变与文心∕画像∕书体──东汉末期价值逆反与文化再现」与?观念?话语?行动:数位视野下中国∕台湾多元现代性研究」、「新∕旧」的激变与交锋:中国现代性形成的数位人文研究观念?科技部个人型计划与整合型计划,及「中国认同与现代国家的形成」、「中国近现代思想及文学史专业数据库(1830-1930)」教育部迈向顶尖大学计划。
曾任哈佛大学、莱斯大学、海德堡大学、捷克国家科学研究院、日本关西大学、国际日本文化研究院、韩国江原大学、韩国翰林大学、复旦大学、中国美术学院、福建师范大学、江苏师范大学、新加坡南洋理工大学、香港教育学院等有关叙事文学、书法文化美学、文学与图像、遗民诗画、从遗民到后遗民的时间地理政治学、桃花源历史地理政治学、视觉文化与中国近现代画报、中国近现代报刊与文化研究、观念史、数字人文学等讲座或演讲。

王涛

群像的描绘与类型的分析:用数字工具挖掘《德意志人物志》

“历史学的数位转型”是大势所趋,它将在宏观层面影响历史学的整体面貌,在微观层面改变个体史学研究者的工作方式。在中文学术圈数字人文方兴未艾,但这种思路与方法主要被用来研究中国问题。中文学界从事世界史研究的学者鲜有涉猎数字人文的佳作。本课题是运用数字人文工具研讨世界史问题的一次有益尝试:以德意志学界重要的人物传记参考书为蓝本,对历史人物进行了群体与类型的研究。传统的人物研究也以个体传记为主,本课题开创性以德意志群体人物为研究对象,并且主动运用数字史学的观念与方法,力图在德意志人物传记的研究中发现隐含的问题。本课题的具体应用,将拓宽我们对德意志历史的认识, 加深我们对欧洲文明的理解;同时,我们在新工具与新思维的具体运用中结合历史问题的分析,不仅能够对传统结论提出改进意见,也能够在学术实践中对数字史学的技术进行评判,从而推动数字人文的发展。

会编程的历史学家

邱伟云

词汇、概念、数字:文本探勘技术于中国近代观念史研究中的应用与实践

关键词、观念史与概念史研究法,皆以辞汇为研究对象,关注辞汇自身及其在修辞结构乃至于话语系统中的变化状况,为人文学领域中着重辞汇研究的一套人文研究法。自然语言处理与文本探勘方法,亦以辞汇为研究对象,着重于辞汇撷取技术以及辞汇在文本脉络中的视觉化呈现,及核心词汇与其他关键词共现互动现象,为资讯科学领域中着重辞汇研究的一套数字研究法。从上述两套分属人文与资科领域之研究法说明可知,两套方法都共同关注辞汇,因此产生了跨领域协作研究的可能,也使数字技术得以与人文研究产生对话空间,因此关键词/观念史/概念史研究法的数字化转向,可说是百花齐放的数字人文学发展中一道不可忽视的风景。本次演讲正欲以过去结合文本探勘技术与中国近代观念史研究的诸多案例,说明数字技术如何协助人文研究?人文思维又可提供数字技术哪些思考方向?数字与人文该如何搭配才能进行协同研究?报告将以几种已运用于中国近代观念史研究上的数字人文方法为例,说明这些方法的操作过程及其优点,以及人文学者在数字人文协作研究过程中怀有哪些疑问?遭遇哪些难题?还希望有什么突破?对于未来发展前景有何期待?以上即是本次演讲的主要内容所在。

邱伟云,博士,山东大学历史文化学院副研究员,台湾政治大学历史与思想数位人文实验室成员。

自由讨论

自由讨论

自由讨论

自由讨论

王凯波

卓越质量管理中的大数据分析

质量管理就是走独木桥,而大数据为拓宽质量管理的道路提供了新的广阔支撑。大数据除了在网络和社交媒体领域存在之外,在各类工程系统中同样广泛存在,而且价值巨大。本报告将以工程质量改善项目为案例,介绍各类制造数据在质量管理和提升项目中的应用。案例包括劳动力密集型企业质量改善、半导体生产过程质量改善、太阳能生产质量改善等。

王凯波博士是清华大学工业工程系教授、系副主任。他在香港科技大学获得工业工程与工程管理学博士学位。王凯波的研究主要关注复杂系统的质量建模、监视与控制。他是多个自然科学基金与企业资助科研项目的负责人,在质量控制领域SCI索引的国际期刊发表了30余篇论文,其中包括Journal of Quality Technology, IIE Transactions, IEEE Transactions of Automation Science and Engineering, Quality and Reliability Engineering International 等。王凯波博士现为INFORMS 质量、统计与可靠性分会(QSR)主席,是美国质量协会(ASQ)资深会员,IIE、INFORMS、IEEE会员。更多信息,请访问http://www.ie.tsinghua.edu.cn/kbwang/ 。

何曙光

质保数据建模与分析

当前几乎所有的耐用品都提供质量保证,在规定的质保期有生产方或销售方对失效产品进行免费维修或更换。在质保服务过程中,会累计海量的数据。本报告某汽车制造企业质保数据为例,介绍二维质保条件下的产品可靠性评估、质保索赔预测等方面的研究进展和应用。

何曙光博士,天津大学管理与经济学部教室。他在天津大学管理学院获管理科学与工程博士学位。何曙光的研究主要关注基于数据分析的质量改进、过程监控和基于质保数据的产品可靠性评估等。近年来在学术期刊发表论文30余篇,包括Reliability engineering and system safety, Journal of quality technology, Annals of operations research等。

李彦夫

System reliability assessment and optimization

Reliability is a fundamental attribute for the safe operation of any modern technological system. The demands from various industry sectors for the quantification of system reliability date back to the early 20th century and steadily grow till our times. Furthermore, the search for optimal system design, operation and maintenance strategies that minimize expense and maximize reliability has become an increasingly relevant task since the 1960s. These tendencies render the system reliability assessment and optimization two important topics in academic research and two necessary tasks in industrial applications. Consequently, a number of models and methods have been developed. Yet, new challenges emerge from the latest technological systems or the ongoing projects, such as the smart grids, mainly characterized by the complex and possibly intelligent behaviors of the components and the hybrid uncertainties embedded in the available modeling information.
Developing new methods to confront these challenges is the goal of my research. The research works are grouped under the two main axes: 1) reliability assessment of components and systems; 2) optimization.

李彦夫,博士,博士生导师,现任工业工程系教授,入选2016年国家青年千人计划。长期致力于系统可靠性评估与优化方法的研究,以及将其应用于可再生能源系统,核能和计算机软件系统,并取得了一系列原创性学术成果。在可靠性,电力以及软件工程知名期刊发表多篇论文。主持或参与多项企业委托项目,合作方包括法国电力公司,阿尔斯通等公司。IEEE高级会员,可靠性工程顶级期刊IEEE Transactions on Reliability副主编,中国航空学报青年编委。

皋琴

Branding with social media: User gratifications, usage patterns, and brand message content strategies

The emergence of social media provides a new platform for developing brand–consumer relationships. The aim of the current study is to examine the differences in Chinese users’ gratifications of different social media and the impact of brand content strategies on the quality of brand–consumer communication via social media. In the first study, 209 SNS and 161 microblog users were surveyed. Five dimensions of social media gratifications emerged from the factor analysis. Significant differences in the strengths of gratifications were found between SNS and microblog users. Usage patterns of SNS and microblog are analyzed and compared. In the second study, we examined the impact of users’ gratification and the type of social media on the effectiveness of different brand content strategies through a two-week experiment involving 60 SNS users and 61 microblog users. Implications for developing branding strategies on different social media platforms are discussed.

皋琴,副教授,工学博士(清华大学),现任清华大学人因与工效研究所所长,(美国)人因与工效学学会(HFES)中国分部主席,International Journal of Human-Computer Interaction期刊编委,2013年入选北京市高校青年英才计划。研究方向:复杂系统中的人机交互、社会化计算与用户体验、通用设计、跨文化研究和服务设计等。

姜海

基于车辆GPS 数据的交通大数据应用

我们将围绕车辆GPS数据介绍若干大数据应用,包括:
1. 城市路网的自动识别
2. 驾驶员驾驶风险的评判
我们将基于车辆GPS数据构建优化模型,并在实际问题中对模型的性能进行检验。

姜海博士现任清华大学工业工程系副教授、博士生导师,运筹与统计研究所副所长,2016年获国家自然科学基金-优秀青年科学基金(“优青”)资助。现任中国运筹学会-行为运作管理分会秘书长,中国运筹学会-随机服务与运作管理分会理事,Computers & Industrial Engineering(IF=2.086,工业工程领域SCI期刊排名9/44)交通方向的分区编辑(Area Editor)。他擅长将消费者行为模型、数据挖掘技术和大规模优化方法三者结合,从系统的角度分析问题,为政府、企业和个人提供以定量模型为基础的解决方案和决策工具。

自由讨论

自由讨论

自由讨论

自由讨论

杜朴风

生物序列分类中的特征快速生成与可视化

在生物序列分类过程中,我们需要快速的生成特征,也需要通过可视化来帮助进行分类算法的设计和选择。在这个报告里,我们将讨论一些常用的特征生成技术,以及利用R所进行的特征可视化。,

天津大学教师,从事生物信息学研究,主营生物序列分类业务

张淑芹

Hepatocellular carcinoma study based on HBV next generation sequencing

Hepatocellular carcinoma (HCC) is one of the most common type of cancer in our country. There have been many studies on it. In this talk, we will introduce our recent work on HCC classification based on HBV next generation sequencing data. The clinical phenotype data are also analyzed, and their relations with HBV are studied.

博士毕业于香港大学数学系,目前为复旦大学数学学院副教授。主要研究方向为计算数学、统计学、最优化方法在生物及医学数据中的建模、计算及相关分析,尤其网络数据的建模及分析。

王涛

Prediction analysis for microbiome sequencing data

One primary goal of human microbiome studies is to predict host traits based on human microbiota. However, microbial community sequencing data present significant challenges to the development of statistical methods. In particular, the samples have different library sizes, the data contain many zeros and are often over-dispersed. To address these challenges, we introduce a new statistical framework, called predictive analysis in metagenomics via inverse regression (PAMIR). We demonstrate the advantages of PAMIR through numerical studies.

王涛:2007年东南大学数学系学士,2010年华东师范大学金融与统计学院硕士,2013年获香港浸会大学数学系统计学专业哲学博士学位。2014年赴美国耶鲁大学公共卫生学院生物统计系从事博士后研究工作,2016年1月回国任上海交通大学特别研究员。
主要致力于研究高维复杂数据的统计降维技术和变量选择技术,以及研究人类微生物组数据等生物医学数据的统计分析方法。近年来分别在Journal of the American Statistical Association、Journal of the Royal Statistical Society: Series B、Biometrika、Biometrics、Bernoulli、Statistica Sinica、BMC Systems Biology等知名学术期刊上发表SCI论文二十余篇。

吴凌云

条件随机场及其在生物信息学中的应用

海量分子生物学数据和复杂数据结构对现有的生物信息学模型和算法提出了巨大的挑战。条件随机场是一类重要的概率图模型,是隐马尔可夫模型的推广,具有更广的适用范围和更好的效果,在语言识别和图像处理等领域已经有非常广泛的应用。本报告将介绍条件随机场的模型、算法和我们开发的R软件包CRF,以及条件随机场在生物信息学领域的应用。

吴凌云, 中国科学院数学与系统科学研究院研究员, 博士生导师, 应用数学所运筹学研究室主任, 生物信息学研究中心主任. 中国运筹学会常务理事, 科普工作委员会副主任, 计算系统生物学分会副理事长. 2002年于中国科学院获运筹学与控制论专业理学博士学位. 曾在香港科技大学和美国康奈尔大学Weill医学院从事博士后研究工作. 目前的研究兴趣是运筹学与生物信息学, 特别是运筹学方法在生物信息学与系统生物学中的应用. 主要工作包括: 测序算法, 单体型推断, 蛋白质结构预测与比对, 蛋白相互作用预测, 蛋白质修饰位点预测, 分子生物网络分析比较, 复杂疾病生物标记物建模等. 主持过青年基金, 面上基金, 重大研究计划培育项目等多项国家自然科学基金. 2014年获中国运筹学会青年科技奖.

Can Yang

Adaptive False Discovery Rate regression with application in integrative analysis of large-scale genomic data

To address scientific questions, we often design experiments and collect data from experiments. Conventionally, we often focus on the data set at hand and improve analysis results by refining models. The rising of Big Data may change the way of doing research – What if combining our data at hand with other existing information that hides in the Big Data Mountain?

Can Yang, Department of Mathematics, Hong Kong Baptist University

郭小波

Extending the adjusting-heritable-trait GWAS to bivariate analyse can help identify novel loci

In this talk, we consider a large-scale testing problem in genomic data analysis. Recent international projects, such as the Encyclopedia of DNA Elements (ENCODE) project, the Roadmap project and the Genotype-Tissue Expression (GTEx) project, have generated vast amounts of genomic annotation data, e.g., epigenome and transcriptome. There is great demanding of effective statistical approaches to integrate genomic annotations with the results from genome-wide association studies (GWAS). To explore genetic architecture of human complex phenotypes, rather than only relying on GWAS, we introduce Adaptive False Discovery Rate (AdaFDR) regression to integrate genomic annotations with GWAS. For a given phenotype, not only AdaFDR increase the power of mapping its risk variants, but also adaptively incorporates relevant annotations for prioritization of genetic risk variants, allowing nonlinear effects among these annotations, such as interaction effects between genomic features. The developed algorithm is scalable to genome-wide analysis. Using AdaFDR, we performed integrative analysis of genome-wide association studies on human complex phenotypes and genome-wide annotation resources, e.g., Roadmap epigenome. The analysis results revealed interesting regulatory patterns of risk variants, offering new biological insights on genetic architectures of complex phenotypes.

郭小波,副教授,硕士生导师,2012年毕业于中山大学统计科学系,获理学博士,2013年5月受聘于中山大学讲师职位,2017年1月受聘中山大学副教授职位,2016年4月获聘澳大利亚墨尔本大学荣誉研究员(Honorary Fellow)。曾于2011-2012年在美国耶鲁大学留学,2013.8,2015.4分别在新加坡基因研究所、新加坡眼科研究所访问。主要从事组学数据、 双生子数据、复杂医学数据、生物数据的整合与分析。目前已在统计专业著名杂志Biometrics, Genetics Epidemiology, Statistics ?in Medicine,综合性著名杂志Nature Communications, British Journal of Cancer, Scientifc Reports, Oncotarget, ?Plos One等发表了学术论文近二十篇,参与出版了《中华医学统计百科全书-遗传统计分册》,2011年获广东省统计科研优秀成果一等奖(排名第二)。主持一项国家自然科学基金青年基金、一项中山大学青年教师培育项目、共同主持一项国际多中心合作项目。参与两项在研的国家自然科学基金重点项目、一项国家自然科学基金重大研究项目。

Harry Hua

R Usage in Pharmaceutical Industry

While SAS remains an important tool in the pharmaceutical industry, more and more pharma companies are starting to use R as a complimentary tool to streamline their analytic processes. In the drug development stage, R is becoming a popular tool in daily work, for example, statisticians often use R to do scenario simulations for trial design. However, R is still rarely utilized in formal regulatory submissions although no agencies prohibit its use for statistical analysis. A key feature of R is the very large number of user contributed free code packages, however few of these have been fully validated. In the conservative pharma reporting environment, the applicability of user contributed R functions is therefore limited so far. My presentation will address two aspects. First I will introduce an RShiny App for sample size calculation developed by BI statisticians. This internal App supports project teams to determine Go/No-go criteria, i.e. to determine whether they should start Phase III trials based on the Phase Ib/II data. Then I will talk about the process that BI is now working on to validate external R packages (those in addition to base R and its default, recommended, packages). The aim of this process is to identify a group of high quality R packages which could be used for formal clinical reporting.

Dr. Hairui (Harry) Hua is currently Senior Statistician in Boehringer-Ingelheim. He received bachelor degree in Statistics from Fudan University and then went to UK to pursue his master degree and PhD degree in Statistics in University of Bristol and University of Birmingham. In 2015, He worked in Roche UK for more than 1 year and joined BI China since last July till now. He mainly worked on the Phase I to III trials in oncology. His research area includes semiparametric modeling in survival analysis & individual patient meta-analysis.

周健

临床医生眼中的医疗大数据研究:需求和挑战

一直以来,随机对照试验(Randomized controlled trial, RCT)被认为是治疗性研究的金标准。而基于医疗大数据的真实世界研究(Real world research,RWR)也受到了广泛的关注,基于医疗大数据的真实世界研究反映了现实医疗的情况,代表着广泛人群的治疗情况,可以代表疾病人群的全貌。近些年来,基于医疗大数据的研究层出不穷,不少企业及医院也致力于医疗大数据的开发应用。从临床医生的角度来看,其对于医疗大数据的需求主要集中在诊断、治疗、随访、科研等方面。而目前各种医疗大数据解决方案仍存在多种挑战:如何建立标准通用的结构化术语集,如何实现非结构化病例的高效结构化,如何打破不同中心、不同数据库之间的信息孤岛、如何轻松实现医生想要的信息检索功能等。

周健博士,2012年毕业于北京大学医学部,获医学博士学位,2012年至今于北京大学人民医院历任住院医师、主治医师,曾参与国家、企业、医院等多项临床数据库的设计及优化。主要研究方向包括:肺癌流行病学研究及胸外科创新性手术技术开发。

吴健民

消化道肿瘤基因组学研究进展

吴健民博士曾担任国际肿瘤基因组协作联盟(International Cancer Genome Consortium, ICGC)胰腺癌项目多组学数据分析负责人(2010-2015)。这里将介绍ICGC胰腺癌项目的最新研究进展,以及2016年回到北京大学肿瘤医院后在国内高发癌症之一的胃癌方面的多组学研究情况。

吴健民,研究员、博士研究生导师,北京大学肿瘤医院肿瘤生物信息中心主任,兼信息部副主任。入选2016年第十二批北京市“海聚工程”计划。曾担任澳大利亚悉尼Gravan医学研究所PI,国际肿瘤基因组协作联盟(ICGC)胰腺癌项目多组学数据分析负责人,在大队列的癌症基因组、蛋白组及相关生物信息学研究上有丰富经验。共发表SCI论文35篇,他引1953次,单篇最高引用775次。作为通讯作者先后在Nat Methods和Nat Rev Cancer (Analysis Article)等杂志发表研究成果;合作研究多次在Nature (4次)和Cell (2014)等杂志发表。目前致力于综合计算和实验手段,整合多组学和临床数据深入研究国内高发癌种的发病机制、精准分子分型和个体化治疗。

凌少平

Identifying tissue origin of cancer cells with somatic mutations and copy number alterations

A substantial proportion of cancer cases present with a metastatic tumor and require further testing to determine the primary site; many of these are never fully diagnosed and remain cancer of unknown primary origin (CUP). It has been previously demonstrated that epigenomic variations detected in whole-genome bisulfite sequencing data of plasma cell-free DNA (1-3) can be used to identify its site of origin with limited accuracy. Recently, tissue-specific mutation accumulation pattern were found (4-6). We hypothesized that tissue origin of cancer cells can be identified by genomic variations detected from whole genome/exome sequencing data of tumor cells even plasma cell-free DNA. We presented a kernel machine to identify tissue origin based on somatic single nucleotide variations, copy number alterations and mutational signature from whole genome/exome sequencing 5610 cases across 24 cancer types from TCGA. The model achieved 80% of accuracy (79% of the F1 score) and the 88% of top2 accuracy (88% of the top2 F1 score) with 100 replicates of 5-fold cross-validation.

凌少平博士,现任志诺维思基因科技有限公司CEO兼首席科学家,自动化学士、信号与信息处理硕士、基因组学博士,师从著名华人进化遗传学家吴仲义院士。凌少平博士曾任中科院北京基因组研究所生物信息技术主管、计算肿瘤基因组研究组组长,在肿瘤异质性、肿瘤演化基因组和生物信息学方面具有较深的研究基础,曾在Nature Genetics、PNAS、Annual Review of Genetics, Molecular Biology & Evolution等权威杂志上发表多篇文章。他主导设计的算法已经应用于肝癌(HCC)、急性白血病(AML)、侵袭性NK细胞白血病(ANKL)、结直肠癌(CRC)、垂体瘤、宫颈癌等诸多肿瘤基因组研究工作中。凌少平博士2015年曾代表中科院参与“国际肿瘤基因组分析金标准”大赛(ICGC-TCGA Dream Somatic Mutation Challenge)并获夺得点突变分项冠军和结构变异分项亚军。2016年作为志诺维思首席科学家率公司团队再次参赛,并获夺得结构变异分项亚军和点突变分项季军。2016年领导志诺维思推出“抗癌登月”大数据平台和个人基因组云系统受到张高丽副总理的关注!

唐泽方

癌症转录组大数据的可视化与再挖掘

大型的国际项目如TCGA,GTEx创造出了大量的转录组数据,为人们提供了数据挖掘、理解基因功能的机会。而如何能快速获取到这些生物大数据,从其中能够得到什么有价值的信息,是人们一直在探索的命题。为了让没有生物信息学背景的研究人员也能够轻易获取、分析生物大数据,我们通过 R 、Perl等语言对数据进行处理、可视化,设计了癌症大数据可视化手机 APP GE-mini (gemini.cancer-pku.cn)以及癌症大数据分析网站GEPIA (gepia.cancer-pku.cn)。研究人员能够通过 GE-mini 和 GEPIA来提出问题或是验证假设。我将在报告中介绍它们。

唐泽方。北京大学生命科学学院BIOPIC张泽民组博士三年级研究生。
2014年加入北京大学生命科学学院BIOPIC张泽民实验组攻读博士学位,研究TCGA 癌症组织大数据与 GTEx 正常组织大数据的整合与数据挖掘。以通讯作者和一作身份在Bioinformatics杂志上发表癌症大数据可视化手机 APP GE-mini (gemini.cancer-pku.cn),以一作身份在Nucleic Acids Research杂志上发表癌症大数据分析网站GEPIA (gepia.cancer-pku.cn)。目前研究兴趣在于利用 TCGA 、GTEx大数据进行数据再挖掘。

江瑞

Identification of disease-causing single nucleotide variants in exome sequencing studies

Exome sequencing has been widely used in detecting pathogenic nonsynonymous single nucleotide variants (SNVs) for human inherited diseases. However, traditional statistical genetics methods are ineffective in analyzing exome sequencing data, due to such facts as the large number of sequenced variants, the presence of non-negligible fraction of pathogenic rare variants or de novo mutations, and the limited size of affected and normal populations. Here, we propose bioinformatics approaches, SPRING, snvForest and GLINTS, for identifying pathogenic nonsynonymous SNVs for a given query disease. SPRING integrates six functional effect scores calculated by existing methods and five association scores derived from a variety of genomic data sources to calculate the statistical significance that an SNV is causative for a query disease. snvForest adopts an ensemble learning method to assign prediction scores to candidate SNVs. These methods are designed to use with a set of seed genes known as associated with the disease of interest, and thus is suitable for studies on diseases with some prior knowledge. GLINTS further incorporates three disease phenotype similarity data to facilitate the detection of causative SNVs without any knowledge of seed genes for a query disease. This method is therefore suitable for research on diseases whose genetic bases are completely unknown. With a series of comprehensive validation experiments, we demonstrate the effectiveness of these methods, not only in simulation studies, but also in detecting causative de novo mutations for autism, epileptic encephalopathies and intellectual disability.

江瑞,副教授,博士生导师,2002年毕业于清华大学自动化系,获得工学博士学位。目前任清华大学数据科学研究院医疗健康大数据研究中心副主任。主要研究兴趣包括:1. 医学影像智能信息处理;2. 电子病历智能信息处理;3. 基因组学研究:非编码调控元件的识别及其目标基因的预测;4. 遗传学研究:全基因组遗传变异对特定疾病的影响预测;5. 多组学研究:候选基因对特定疾病的影响预测。

侯志伟

车联网时空数据挖掘与洞察

车联网作为物联网的先行者、自动驾驶的必由之路,业已开始步入蓬勃发展期,海量的多源异构的数据随之而生 ,这其中尤以时空轨迹数据为盛。如何挖掘如此大规模的数据金矿,并洞察背后的价值,这一问题在如今的数据时代显得极为迫切。本次演讲主要分享车网互联在车联网领域数据的认知和经验,围绕以下三个业务核心进行介绍:事件识别,行为评价,用户画像

侯志伟,数据分析师,专注于车联网时空数据分析、挖掘及其可视化。曾多次获得数学建模国家一等奖,且均为交通方向。已获得专业领域内发明专利3项,发表中文核心期刊论文1篇。擅长领域:时空数据挖掘、用户画像系统、智能优化算法,Spark高性能计算等。

朱俊辉

摩拜单车的数据科学实践

摩拜单车在最近的一年里发展飞速,许多实际问题亟待通过数据驱动的方法去解决。本次演讲将主要从供应链优化的角度,谈一谈在运营效率的提升方面,摩拜数据科学应用的现状以及对策。

朱俊辉,摩拜单车算法工程师,熟悉R语言和Python,专注于供应链量化和可重复性研究。

李晔彤

互联网汽车数据服务分享

介绍斑马互联网汽车的数据应用,包括轨迹poi分析,驾驶行为分析,硬件使用分析和用户使用分析。通过介绍专车识别,驾驶评分,油耗预测等业务模型,分享建模工作中的心得。

李晔彤,斑马网络数据挖掘工程师,从事车辆轨迹,硬件,车主数据分析与挖掘。毕业于西安交通大学和伦敦政治经济学院,应用数学专业。

王犇

机器学习在滴滴

每天滴滴出行平台产生海量出行数据,而滴滴正利用这些数据不断建立各种机器学习模型来优化线上产品体验,从分单到定价,滴滴的机器学习和传统互联网公司的推荐广告算法的差异很大,这次分享会介绍滴滴平台典型的机器学习应用,进一步会介绍在顺风车场景如何利用机器学习来构建更加智能理性的大数据运营引擎.

现任滴滴大数据-顺风车策略团队负责人,负责顺风车分单调度、拼车、信任值、定价、画像、智能补贴等相关算法策略的迭代优化;曾任腾讯微博&腾讯新闻 数据挖掘&推荐系统负责人;曾任58集团-数据智能部负责人;个人兴趣在于利用大数据&大规模机器学习方法持续改进业务和产品体验。

张翔

汽车消费的数字化决策

在移动互联网时代,多屏媒体,O2O多维互动,给消费者购物带来了更多信息和更多选择。也给了企业更丰富,更有挑战的营销环境。 在众多影响决策的微时刻(micro-moment)和关键时刻(moment of truch)中,汽车消费者的思维已经不知觉的进入了“车型鄙视链” 的精神世界和换车魔力象限的领域。 利用车轮查违章,车轮社区(覆盖2亿真实车主的APP应用)中用户对车型PK投票的数据,我们真实再现了这个车型鄙视链,从中会发现每一款车,你都可以找到选择他的理由。这为更加细分,更加个性化的汽车市场提供了理论支撑。以此报告希望能够协助用户选到最适合自己的车,也协助车厂在细分市场更加精准的定位,甚至可以预测未来的汽车销量

汽车盒子数据科学家,车轮互联数据副总裁

赵帅

基于R语言的汽车驾驶行为数据分析

报告主要介绍了汽车驾驶员驾驶行为数据分析的思路和结果。本例的驾驶行为数据主要采集自车辆的CAN总线与陀螺仪数据,报告首先介绍了数据的预处理方案,包括数据的滤波方法及坐标转换方法,然后介绍了常规类驾驶行为与特殊驾驶行为的识别算法,最后介绍了驾驶行为的统计结果以及对车辆性能的预估。本报告所涉及的数据处理、数据分析基本都使用R语言进行,相关的R包包括ggplot2、dtw、corrplot、sqldf等。

吉林大学车辆工程专业硕士学位,中国汽车工程学会(SAE-China)会员、中国计算机学会(CCF)会员。曾任汽车仿真与控制国家重点实验室研究员,现任中国汽车技术研究中心数据资源中心数据技术部部长助理,全面负责数据建设及挖掘工作。

从事研究领域包括车辆数据集成、机器学习、深度学习等,擅长基于R语言、MATLAB的算法模型开发。个人曾获北美大学生数据建模竞赛一等奖、全国研究生数学建模竞赛一等奖,并多次在天池大数据算法大赛中获奖。

马莹莹

Banded Spatio-Temporal Autoregressions with Application to Forecasting PM2.5

We propose a new class of spatio-temporal models with unknown and banded autoregressive coe cient matrices. The setting represents a sparse structure for high dimensional spatial panel dynamic models when panel members represent economic (or other type) individuals at many di erent locations. The structure is practically meaningful when the order of panel members is arranged appropriately. Note that the implied autocovariance metrices are unlikely to be banded, and therefore, the proposal is radically di erent from the existing literature on the inference for high-dimensional banded covari- ance matrices. Due to the innate endogeneity, we apply the least squares method based on a Yule-Walker equation to estimating autoregressive matrices. A ratio-based method for determining the bandwidth of autoregressive matrices is also proposed. Some asymptotic properties of the inference methods are established. The proposed methodology is further illustrated using both simulated and real data sets.

北京航空航天大学经管学院助理教授,研究方法为社交网络数据分析,高维数据分析,付费搜索广告营销。

张兴发

On a vector double autoregressive model

Motivated by the double autoregressive (DAR) model, in this talk, we study a vector double autoregressive model (VDAR). The model is a straightforward extension from univariate case to multivariate case. Sufficient ergodicity conditions are given for the model. Without existence of second moment conditions for observed time series, the quasi maximum likelihood estimator (QMLE) of the parameter in the model is shown to be asymptotically normal, which does not hold for classic vector autoregressive (VAR) model with i.i.d errors. Simulation results confirm that our estimators perform well. A given empirical study implies the proposed model has potential applications in practice. Keywords: Vector double autoregressive model, quasi maximum likelihood estimation

广州大学经济与统计学院统计系副教授, 副系主任
研究兴趣: 时间序列分析

顾莉洁

Prediction Interval for Autoregressive Time Series via Oracally Efficient Estimation of Multi-Step Ahead Innovation Distribution Function

Kernel distribution estimator (KDE) is proposed for multi-step ahead prediction error distribution of autoregressive time series, based on prediction residuals. Under general assumptions, the KDE is proved to be oracally efficient as the infeasible KDE and the empirical cdf based on unobserved prediction errors. Quantile estimator is obtained from the oracally efficient KDE and prediction interval for multi-step ahead future observation is constructed using the estimated quantiles and shown to achieve asymptotically the nominal confidence levels. Simulation examples corroborate the asymptotic theory."

我是苏州大学数学科学学院的一名教师,主要研究方向是非参数与半参数统计方法,主要研究兴趣是抽样调查、时间序列及函数型数据的统计推断。

蔡利

Simultaneous conficence bands for mean and variance function based on deterministic design

Asymptotically correct simultaneous confidence bands (SCBs) are proposed for the mean and variance functions of nonparametric regression model based on deterministic designs. The variance estimation is as efficient up to order $n^{-1/2}$ as an infeasible estimator if the mean function were known. Simulation experiments provide strong evidence that corroborates the asymptotic theory. The proposed SCBs are used to analyze two sets of strata pressure from the Bullianta Coal Mine in Erdos City, Inner Mongolia, China.

苏州大学数学与科学学院在读博士二年级学生。

张园园

A smooth simultaneous confidence band for correlation curve

A smooth simultaneous confidence band (SCB) is proposed for a local measure of variance explained by regression, termed correlation curve in Doksum et al. (1994), based on local quadratic estimation. The proposed estimator of correlation curve is oracally efficient in the sense that it is as efficient as an infeasible correlation estimator with the variance function known. Simulated and real-data examples are provided to illustrate the usefulness of the proposed oracle SCB.

苏州大学2014级研究生,主要研究方向为非参数与半参数统计推断,函数型数据分析,时间序列分析,并对大规模机器学习研究感兴趣。

自由讨论

自由讨论

自由讨论

自由讨论

郭健

人工智能颠覆量化投资

人工智能和大数据的发展,正在颠覆传统金融投资和交易行业。本报告系统介绍人工智能、机器学习和统计学模型如何改变传统量化投资。我们将通过对谷歌 AlphaGo人工智能系统的深入剖析,展开对人工智能金融交易的介绍,并对其发展前景进行预测。我们还讲讨论如何将人工智能技术与传统量化投资模型相结合,以提升模型收益,降低交易风险。

郭健博士是深度资产管理有限公司创始人,致力于打造世界领先的人工智能对冲基金。郭健教授曾在美国哈佛大学任教,从事机器学习、大数据挖掘、复杂网络分析、高维统计学等领域的研究,并担任微软、谷歌、雅虎等公司在人工智能方面的技术顾问。郭健还担任一系列国际一流统计学和机器学习期刊的审稿人。郭健博士本科毕业于清华大学数学科学系,之后获得美国密歇根大学统计学博士学位,其博士期间的研究工作多次获得美国统计学会、国际运筹与管理学会、国际生物统计学会颁发的最佳学生论文奖。

丁磊

数据驱动人工智能的实践

如果说数据是原油,那么人工智能就是从原油中提炼各种高价值产品的加工厂。丁博士将结合十多年在零售、金融、广告等行业开发人工智能产品的实践,分享他关于人工智能技术在商业领域的深度思考。

丁磊博士是百度金融首席数据科学家,曾任职PayPal全球消费者数据科学部负责人,通过一系列的人工智能和个性化产品大幅度提升了全球电商和支付用户的消费体验。丁博士曾在哥伦比亚大学和IBM Watson研究院工作,在人工智能和大规模机器学习等领域有丰富的成果。丁博士曾在斯坦福大学学习管理。

王鑫

量化投资简介

讲解量化投资特点、分类等方面的基本概念,并对主要投资策略的理论基础、适用条件、应用特点等角度做进一步阐述,在此基础上介绍量化投资中常用的风险衡量、业绩评估指标等。

清华大学物理系学士、中国科学院理论物理博士,美国莱斯大学物理与天文系博士后,历任杭州某量化对冲基金资深基金经理、基金管理部总监、量化分析师。在数学建模相关领域具有相当造诣,擅长结合物理实验建模,精通分子动力学模拟,擅长各类算法及海量数据存储技术。多年大型高性能分布式并行计算处理经验,擅长复杂数据分析和大数据挖掘。

张卓

论机器学习在金融领域的应用

近年来,量化交易已经在国内二级市场得到了充分发展,人们越来越认识到量化模型对于风险控制的重要性。而机器学习也慢慢渗透进入这个领域,顶尖的技术人才开始试图用更复杂的非线性模型来解释略显神秘的金融市场的不确定性。

清华大学电子工程系本科生,曾获得清华大学最高荣誉特等奖学金。博士就读于普林斯顿大学电子工程系,从事机器学习人工智能方面的研究。博士毕业后曾就职于华尔街最大的做市商骑士资本,其独立开发的策略日均交易额达10亿美金。现回国创立卓识投资,任总经理,负责开发期货CTA和股票阿尔法策略

任坤

R语言与量化投资实战

量化投资是用数量化的方法,基于历史数据,发现、分析和验证投资逻辑,而R语言则是量化研究的重要利器。从股票到期货和其他金融衍生品,丰富的数据一方面为多样化的投资逻辑提供了可能,另一方面也为投研人员带来了一些挑战。该演讲从量化投资所涉及的数据处理方面的挑战入手,从数据操作、高性能计算等方面介绍R语言和相关扩展包如何提升量化投资研究的生产力。

上海明汯投资资深投资经理,主要从事股票量化对冲、期货量化策略的研发。编写了 formattable、rlist 等扩展包,是《Learning R Programming》的作者。

霍志骥

CTA投资思路与常用R包

量化投资是在传统的投资思路上,运用了数据验证与定量化的工具,能够极大的增强策略的可靠性,可复制性,可解释性,并提高开发的效率,降低研发的成本。而CTA类型的策略,则是量化被广泛运用的领域之一。该演讲将结合个人从主观交易员转向量化研究的经历,介绍R中常用的包与CTA策略构建的一些经验。

中国人民大学统计学2012级本科生。量化研究员,主要从事期货量化策略的研发,四年衍生品投资经历。曾任私募主观交易员,从事期货交易,后转入量化研究的领域。有一系列错误与正确的投资经验。

张先轶

嵌入式上的深度学习初探

嵌入式系统的深度学习已经成为主要趋势之一。将模型的Inference直接在嵌入式设备本地运行,除了本身模型不能过于复杂外,还需要深度学习框架与底层优化库的配合。本报告讲介绍我们团队在这方面的工作,包括底层库的优化,框架精简,以及模型压缩等。

张先轶,PerfXLab澎峰科技创始人,中科院博士,曾先后于美国得州大学奥斯汀分校,麻省理工学院进行博士后研究工作,主要研究方向为矩阵计算,高性能计算,性能优化等。全球领先的开源矩阵计算项目OpenBLAS发起人与维护者,获得2016年中国计算机学会科学技术二等奖。

肖倾城

Exploring Heterogeneous Algorithms for Accelerating Deep Convolutional Neural Networks on FPGAs

Convolutional neural network (CNN) finds applications in a variety of computer vision applications ranging from object recognition and detection to scene understanding owing to its exceptional accuracy. There exist different algorithms for CNNs computation. In this patent, we explore conventional convolution algorithm with a faster algorithm using Winograd’s minimal filtering theory for efficient FPGA implementation. Distinct from the conventional convolution algorithm, Winograd algorithm uses less computing resources but puts more pressure on the memory bandwidth. We first propose a fusion architecture that can fuse multiple layers naturally in CNNs, reusing the intermediate data. Based on this fusion architecture, we explore heterogeneous algorithms to maximize the throughput of a CNN. We design an optimal algorithm to determine the fusion and algorithm strategy for each layer. We also develop an automated toolchain to ease the mapping from Caffe model to FPGA bitstream using Vivado HLS.

北京大学高能效计算与应用中心研究生,商汤集团FPGA研发实习生。

杨军

Pluto: A Distributed Heterogeneous Deep Learning Framework

本分享会介绍阿里云iDST PAI团队研发的一款分布式深度学习框架Pluto。在Pluto里,阿里云PAI团队基于Caffe和TensorFlow这两款开源框架进行了分布式性能的深度优化定制,相较于优化前取得了显著的性能提升,在一些场景下取得了10X的收敛加速比提升。并成功应用到了集团安全、金融风险建模、证件类图片识别、客服问答、机器翻译等集团核心业务建模场景里,显著提升了建模迭代效率。

目前在阿里云iDST大规模算法团队负责大规模深度学习基础设施相关建设工作,对大规模分布式机器学习的开发、建设以及在不同业务场景中的落地应用有较为深入的理解和认识。之前先后在奇虎360担当广告技术部门架构师,Yahoo!北京研发中心担当效果广告系统技术负责人。

卢丽强

Evaluating Fast Algorithms for Convolutional Neural Networks on FPGAs

In recent years, Convolutional Neural Networks (CNNs) have become widely adopted for computer vision tasks. FPGAs have been adequately explored as a promising hardware accelerator for CNNs due to its high performance, energy efficiency, and reconfigurability. However, prior FPGA solutions based on the conventional convolutional algorithm is often bounded by the computational capability of FPGAs (e.g., the number of DSPs). In this paper, we demonstrate that fast Winograd algorithm can dramatically reduce the arithmetic complexity, and improve the performance of CNNs on FPGAs. We first propose a novel architecture for implementing Winograd algorithm on FPGAs. Our design employs line buffer to effectively reuse the feature map data among different tiles. We also effectively pipeline the Winograd PE engine and initiate multiple PEs through parallelization. Meanwhile, there exists a complex design space to explore. We propose an analytical model to predict the resource usage and reason about the performance. Then, we use the model to guide a fast design space exploration. Experiments using the state-of-the-art CNNs demonstrate the best performance and energy efficiency on FPGAs. We achieve an average 785.1 GOP/s for the convolutional layers and 749.4 GOP/s for the overall AlexNet and an average 2653.4 GOP/s for the convolutional layers and 2272.6 GOP/s for the overall VGG16 on Xilinx ZCU102 platform.

北京大学信科13级本科生 高能效计算与应用中心 sensetime FPGA研发实习生

曾勇

Elastic Stack 与机器学习

目前常规的分析手段往往只关注到了总体的趋势,而忽略了异常的个体行为,比如在海量的信用卡订单中,我们可以通过统计可以知道总体的交易量、每笔交易、平均交易时间等等, 但是如何快速识别和定位其中存在盗刷可能的交易同样重要,而通过机器学习,您就可以在海量的订单数据中发现异常的数据,定位异常的单笔交易行为。 另外传统的机器学习往往需要经历较长的离线处理,如果能够实时的对数据进行基于机器学习的分析将大大改善提升数据分析的能力和改善客户体验, 本次分享将主要介绍如何基于 ElasticStack 及 X-Pack 提供的机器学习能力来实现的实时行为分析。

曾勇(Medcl),Elastic工程师与布道师,2015年加入Elastic公司,在加入Elastic之前,在搜索和运维等方面积累了超过七年的经验。Elasticsearch国内首批用户,自2010年起就开始接触Elasticsearch,是Elasticsearch中文社区的发起人,同时也是Elastic在中国的首位员工。

谢佳标

利用css对shiny页面优化及利用htmlwidgets包创建HTML控件

本演讲将介绍如何利用CSS对shiny页面进行个性化设计及在网页中嵌入视频;并通过一个详细案例介绍了利用htmlwidgets包开发HTML控件,基于D3.JS库创建简单的交互桑基图,包括控件创建、函数修改、数据调用及与shiny结合的演示。

乐逗游戏高级数据分析师,负责大数据挖掘及可视化。资深R语言用户,有九年以上数据挖掘工作实战经验,多次在中国R语言大会上作主题演讲。合著过《R语言与数据挖掘》、《数据实践之美》,新书《R语言游戏数据分析与挖掘》也即将上市。

肖楠

Persistent Reproducible Reporting with Docker and R

Automatic report generation has a massive number of use cases for reproducible research and commercial applications. Fortunately, most of the problems involved in this topic have been elegantly solved by knitr and the R Markdown specification for the R community. However, the issues on data persistence and operating system-level reproducibility were rarely considered in the context of reproducible report generation. Today, such issues have become a major concern in the current software implementations. In this talk, we will discuss potential approaches to tackle such problems, particularly with the help of modern containerization technologies. We will also demonstrate how to compose a persistent and reproducible R Markdown report with the help of the two R packages we developed: docker-r and liftr. Specifically, you will learn to dockerize your existing R Markdown documents, how to apply it to the analysis of petabyte-scale cancer genomics data on the Cancer Genomics Cloud, and how to distribute or reuse such containerized reports.

Nan is a Genomic Data Scientist at Seven Bridges, where he and his colleagues build innovative data-driven products for petabyte-scale biomedical data analysis, accelerating breakthroughs in genomics research for cancer, drug development, and precision medicine. With the help of Docker, their scalable, cloud-based Seven Bridges Platform empowers rapid, collaborative analysis of millions of genomes in concert with other forms of biomedical data. As an active contributor to the R community, Nan is the author of 10+ R/Bioconductor packages covering topics of machine learning, reproducible research, and data visualization.

任乾

Learning R Internals and C++ via Rcpp

In the realm of high performance computing with R, users might take a learning path from R, Rcpp to some R internals. However, each one of the three parts can be challenging without a proper understanding of the other two. This lecture attempts to share my experience and viewpoint with those who have similar interests in gaining better understanding of how R works behind the scene while advancing their C++ skills.

量化工程师,主要方向为股票、期货策略。

覃文锋

跟踪 R 社区动态 - R Weekly 的背后

RWeekly.org 搭建了一个一站式的信息平台,通过网站,邮件,新浪微博 @rweekly 等渠道,实时地向来自140多个国家的读者推送社区的最新动态。每周的资讯速递帮助 R 用户快速地掌握社区一周内的最新进展。 近年来,R 社区发展迅速,CRAN 现在已有 10000+ 的程序包。学会发现,学习和使用现有的基础资源,掌握社区的最佳实践,可以节省时间、减少重复的轮子。 这个讲座将会介绍 R Weekly 的一些有趣的发现以及背后的故事。

R Weekly 创始人之一

自由讨论

自由讨论

自由讨论

自由讨论

刘晨

油气长输管道数据分析实践

经过十余年的信息化建设,中国石油已形成以ERP为核心,以生产系统为支撑,以传感器数据为基础的信息化架构。依托生产与管理数据,对压缩机生产与能耗情况进行分析预测,实时掌握核心生产设备运行情况,并对工况进行预测,寻找最佳运行模式,降低运行成本

中国石油规划总院管道信息部副主任,从事大型企业数据分析、ERP、信息规划10余年经历

张玺

工程数据分析方法在半导体制造过程监测中的应用

随着半导体器件关键尺寸的不断减小、集成度的不断提高和晶圆直径的不断增大,半导体制造过程变得越来越复杂,对半导体制造装备及其自动化水平要求越来越高。各种传感器技术的发展也同时给制造过程监测带来了前所未有的契机。本次演讲主要围绕过程中各种传感器数据,利用一些工程数据分析方法来实现对生产过程的有效监测,从而最终达到质量提升的目的。

从事数据融合和质量工程的科研与教学,研究兴趣集中在对复杂工程和服务系统的过程监测、诊断、控制与优化。

张光磊

工业大数据在风电行业的应用

风电行业作为清洁能源的首选已经有几十年的发展历史,积累了大量的数据和经验,如何利用大数据分析在其他行业的成功经验应用于风电行业将是十分有意义的事情。

清华大学自动化系控制理论方向博士,曾就职于理光软件研究所,目前在金风科技数据分析部门从事工业大数据分析方面的研发工作。

王逢春

电子制造业智能化的挑战与机遇

制造业已经走过或者正在经历自动化,信息化的浪潮,而制造业的未来属于智能制造。如果才能做到智能化,工业大数据分析是其中的关键要素。本演讲以电子制造业龙头企业台达电子自身对智能制造的设计,对智能制造的布局出发,分享了工业企业在大数据分析提升良率上的探索,并提出了对大数据分析技术的问题和挑战。

王逢春博士于2014年12月加入台达电子,目前是台达电子技术长办公室(CTO Office)解决方案总监,负责智能制造,电动车充电桩运营等工业物联网领域整体解决方案的设计,开发和实施。在此之前,王博士在IBM中国研究院工作,在行业知识资产化,业务转型方法与技术,服务创新,智慧城市战略规划,食品安全及风险分析解决方案等领域担任高级研究员工作,并于2006至2007年度担任IBM中国研究院院长助理的工作。王博士于2004年毕业于重庆大学并拥有工业工程博士学位。

陈宸

制造即服务,数据即价值

制造即服务,数据即价值

本科数学,硕博模式识别,现任三一集团数据科学家。

田春华

工业大数据分析:实践与挑战

通过9个行业案例分析,归纳出工业大数据分析与经典商业数据分析的区别,并尝试归纳总结出工业大数据分析3段建设方法论,和6种分析范式,最后展望工业大数据为分析算法研究带来的机遇

昆仑数据首席数据科学家。2004年1月清华大学自动化系博士毕业。2004年-2015年在IBM中国研究院,负责数据挖掘算法研究和产品工作,在高端装备制造、石油石化、新能源、航空与港口等行业,帮助中国、亚太、欧美领先企业,成功实施资产管理、运营优化、营销洞察等各类数据分析项目。发表学术论文(长文)82篇(第一作者42篇),拥有36项专利申请(10项已授权),研究兴趣是数据挖掘算法与应用。

Yang Liao

Rsubread: an efficient toolkit for mapping and counting short sequencing reads

Read mapping and quantification tools play a critical role in many genetic analysis pipelines that take high-throughput sequencing data as input. The accuracy and sensitivity of the read mapping tool directly determine the validity and quality of the outcomes from downstream analysis. More importantly, the very large (and continuously increasing) amount of data generated in high-throughput sequencing brings on the needs to highly efficient tools for read mapping and quantification.

Yang Liao is a postdoctoral researcher in the Bioinformatics division of the Walter and Eliza Hall Institute of Medical Research (WEHI). He is the co-author of the Subread and Rsubread package for genomic analysis. With his computer science background, Yang Liao's research interests focus on high performance computing in Bioinformatics, including highly efficient read mapping, quantification and downstream analysis.

Yunshun Chen

From reads to genes to pathways: differential expression analysis of RNA-Seq experiments in Bioconductor

In recent years, RNA sequencing (RNA-seq) has become a very widely used technology for profiling gene expression. One of the most common aims of RNA-seq profiling is to identify genes or molecular pathways that are differentially expressed (DE) between two or more biological conditions. Changes in expression can then be associated with differences in biology, providing avenues for further investigation into potential mechanisms of action.

Yunshun (Andy) Chen is a Postdoctoral Research Fellow in the Bioinformatics Division at the Walter and Eliza Hall Institute (WEHI) of Medical Research. His research mainly focuses on differential gene expression of the next-generation sequencing data. He is one of the authors and the main maintainer of the edgeR package - the arguably world's most popular R package specifically designed for count-based sequencing data. His other research interests include DNA methylation, alternative splicing, microRNA and single cell RNA-Seq data.

Charity Law

Glimma: getting greater graphics for your genes

RNA-sequencing is a popular technology used by scientists to study changes in gene expression levels across tens of thousands of genes simultaneously. Representing gene expression levels, the counts in each sample are typically analysed by categorising samples into groups of interest, and obtaining gene-wise summary statistics in the form of log-fold changes, t-statistics, p-values, and the like. The data and its results can be explored by plotting one summary statistic against another and highlighting genes that are significant or of interest. The new Bioconductor package, Glimma, generates interactive graphics for plots typically found in the limma package with the enhanced feature of connecting many levels of information within the analysis on a single html page using d3.js. A Glimma-style mean-difference plot, or the more generic xy-plot, allows one to click on the points to bring up a new plot of sample-wise expression levels that is displayed alongside the original plot. This feature enables researchers to interrogate the data more intensely than ever before without the need to repeat the work for every gene under examination. The plots include options to search and select for genes of interest, and zoom in and out for better resolution. Unlike the traditional multi-dimensional scaling (MDS) plot, Glimma’s MDS plot shows several dimensions and group combinations on the same page. The functions within Glimma are tailored to integrate smoothly with objects native to limma, edgeR and DESeq2, and can be extended for use with microarray, single-cell and methylation data analyses.

Charity Law is a statistical bioinformatician whose work focuses predominantly on gene expression analyses of high-throughput data. The impact of her work is best illustrated by the popularity of voom [1], a method for RNA-seq gene expression analysis that she developed which has been cited 602 times since its publication in 2014 (Source: Google Scholar). She currently holds the position of senior research officer in the Molecular Medicine Division at Walter and Eliza Hall Institute of Medical Research, Australia. In addition to differential gene expression, her research interests include differential isoform usage, transcript expression, and histone modification analyses.

Alexandra Garnham

Deconvolving human and viral RNA in RNA sequencing data

It is estimated that 15-20% of all human cancers are associated with viral infections. Viruses can influence various stages of the oncogenic process, however discovering the biological significance of their contribution can be challenging. The prevalence of a virus with a particular cancer can range from 15-100%. An option in determining the abundance of viral presence in a tumour sample would be to perform RNA sequencing on the tumour. We have developed a pipeline utilizing the Rsubread Bioconductor package that enables us to deconvolve viral RNA from human, thereby allowing us to detect and quantify the presence of viruses. We demonstrate this pipeline using RNA sequencing data from human Head and Neck Squamous Cell Carcinomas (HNSC) acquired from The Cancer Genome Atlas.

Alexandra Garnham (PhD) is the head of the Bioinformatic Support Unit at the Walter and Eliza Hall Institute of Medical Research. Her work focuses on the analysis of high-throughput sequencing data as well as biostatistical analysis. Her research interests include gene expression and regulation, data visualisation and dimension reduction. She is also a member of the R Ladies organisation whose aim is to promote gender diversity in the R community.

自由讨论

自由讨论

自由讨论

自由讨论

吴江

中文文本分析方便工具包chinese.misc介绍

尽管现在文本挖掘技术发展迅速,各种新技术和新工具不断出现,但用R语言进行中文文本分析的人,特别是初学者,还时常在如何读取文件并避免乱码、如何分词、如何统计词频这样的问题上遇到困难。chinese.misc包尝试缓解这一问题。该R包的功能非常实用,主要用于对中文文本进行数据清理工作,此外还包含另外一些常用的处理和分析功能。在生成文档-词语矩阵的功能上,可以代替对中文不是太支持的tm包。此外,在读取文件、去除停用词、描述性分析等方面,该包在封装既有函数的基础上提供了更为方便和灵活的形式。

清华大学社会科学学院博士后,主要研究方向为社会科学方法论、量化分析、政治传播。

陈华珊

ezdf: 用户友好的标签数据框

`ezdf` 包的目的是使 R 支持类似 SPSS 或 Stata 那样对用户友好的标签输出。`ezdf` 包并不是要定义一套新的制表函数,而是控制相关制表函数(如 `pander`)在输出时,能够自动带上对应的标签。除此之外,`ezdf` 也封装了几个常用的制表方法。
众所周知,在 R 的体系当中,并无变量标签或者数值标签的定义。对于类别变量,在 R 中使用 `factor` 类型可起到部分标签的功能。对于变量标签,在`data.frame` 中尽管可以直接使用标签来命名变量,例如 `df$\$$年龄` ,但是实际使用中多有不便。
在 R 中导入 SPSS 或 Stata 等传统统计软件的数据格式可有多个包来实现,例如 `foreign`、`readStata13`、`haven`、`sas7bdat` 等等。这些包在导入数据时,都能保持原数据中所定义的标签。然而所有这些包目前来说各有优缺点,即使对同一个格式也做不到支持各个版本的导入,因此难以提供一揽子解决方案。更重要的,各个包导入数据之后所定义的标签属性各不相同,导致对标签的使用难以统一。更不用说,在制作表格或者统计结果输出时,能够让 R 做到标签友好。

副研究员

刘京辰

Latent Variable Modeling for Cognitive Assessment Through Second-Order Exponential Family

Latent variable models are popular in the analysis of marketing, e-commerce, social network, and many other fields where human behaviors are observed and are summarized to a few characteristics. In this talk, I discuss a framework for latent variable models through a low-rank second-order exponential family. In this framework, the computational overhead is substantially reduced, which is crucial especially for nonlinear models and big data analysis. It is also convenient to incorporate additional graphical structures and other covariates. An R package is developed. I will illustrate the model and the package through several real data examples.

Jingchen Liu is Associate Professor in Statistics at Columbia University. He holds a Ph.D. in Statistics from Harvard University. He is the recipient of 2013 Tweedie New Researcher Award given by the Institute of Mathematical Statistics and a recipient of the 2009 Best Publication in Applied Probability Award given by the INFORMS Applied Probability Society. He has research interests in statistics, applied probability, Monte Carlo methods, and psychometrics.

邵兴全

法律的定量分析及其实践

一直以来,法学被归入社会科学的范畴,主要采用定性及案例分析的方法展开研究。但随着法律经济学在英美国家的兴起,以统计为基础的研究方法,越来越多被用于法学研究与司法实践。在我国,司法判例被不断地公布,对其进行定量分析已具备初步基础,而今,无论是理论界与司法实务部门,都在积极采用大数据改进我们对司法系统的认识。本次演讲围绕法律的定量分析与隐私权保护展开,结合民商事、刑事等案件,展示如何对其进行定量分析,并得出有意义的结论。另外,本次演讲也会探讨大数据时代的隐私权保护问题。

受过法律与经济学系统教育,具有丰富的司法实践经验,致力于法律的量化分析。

李代

再抽样法分析夫妻般配与家庭工资不平等

近年来,关于同型婚配的研究在社会学界得到越来越多的关注。本文采用LHSC1996与CGSS2012两个截面数据,首先用对数线性模型测量调查数据显示的夫妻教育匹配的同型程度,用相关系数测量工资收入上的相似程度。然后使用模糊置换检验,估量在控制年龄、城乡和地域之后教育程度上存在的匹配对家庭工资收入不平等指数泰尔指数(Theil Index)影响,并通过比较两个截面数据考察其变化趋势。

北京大学社会学系博士研究生

自由讨论

自由讨论

自由讨论

自由讨论

赵鹏

微启的旋转门:大数据教育界与工业界的生态进化

大数据时代中,技术变革和人才稀缺成为两个核心话题。作为服务了数十万公司的移动互联网招聘平台,BOSS直聘积累了海量人才大数据,清楚地看到当下企业应用大数据技术,与人才断层下的几个困境。构建自我进化的生态系统,或许能够成为解决问题的一个方法。

看准数据招聘集团创始人,资深人力资源和品牌营销专家。他创立于2013年12月的看准数据招聘集团旗下现拥有看准网、BOSS直聘和店长直聘三个子品牌,总服务用户数超过1亿。其中,于2014年7月上线的BOSS直聘,在全球首创求职者与招聘方的“在线直聊模式”,并通过大数据技术实现人才与岗位的精准推荐,已成为中国移动互联网招聘领域单款最大APP,截至2017年4月底,拥有注册求职者1950万,注册Boss 403万。赵鹏先生在人力资源科技领域有12年经验,曾担任智联招聘CEO,期间带领连续亏损13年的公司扭亏为盈。赵鹏先生是中国大学生志愿者西部支教计划的缔造者之一,服务于青年志愿者事业十年。赵鹏先生1994年毕业于北京大学法律系。

欧高炎

大数据学科建设的关键因素

通过介绍博雅大数据学院在数据科学相关专业建设、大数据教育实训平台建设方面的经验,探讨大数据人才培养的模式,交流大数据教育和学科建设的经验。

欧高炎,北京大学理学博士,博雅大数据学院院长。全球首家大数据教育、竞赛和服务平台“数据嗨客”创始人。中国人民银行征信中心《大数据新算法用于信用模型构建的效果评估》项目组负责人。

李扬

数字金融-实验室项目模拟系统 ——银行数据仓储,数据测试,数据安全三位一体的就业驱动项目训练系统平台

教育部《关于“十三五”期间全面深入推荐教育信息化工作的指导意见》提出“信息化已成为国家战略,教育信息化正迎来重大历史发展机遇”。文思海辉以就业为驱动的金融训练系统平台,整合了集团数字金融解决方案的银行数据仓储工坊系统、数据测试ATQ管理系统与数据安全攻防产品系统,形成三位一体的实验室项目训练系统,并为校企合作专业共建和教学实验室建设提供了应用层、测试层、信息安全层,提供了一个完整的培养体系解决方案。

目前就职于全球IT服务提供商Pactera文思海辉,担任技术总监。12年研发经验,曾负责金融&电力系统ERP的架构设计和研发工作。8年IT教育培训与校企合作经验,主持设计集团人才培养顶层架构,聚焦于机器学习技术研究与实训平台的研发工作。

刘乐平

大数据历史长河中的统计思维与智慧

统计是动态的历史,历史是静态的统计。如果大数据是海洋,那么统计学定是汇入这海洋的主干河流之一。纵向梳理公元前至今统计历史长河中的年代大事,横向比较数据统计分析的重要科学发现,探究人类科学广场上雄伟的统计智慧殿堂。

2003年博士毕业于中国人民大学统计系。愿与统计之都和狗熊会的小伙伴们一起共创中国统计新纪元。

袁星星

大数据教育平台的建设与探索

当前在线教育市场方兴未艾,作为细分领域的大数据教育更是处于摸索发展阶段。《大数据教育实训平台的建设与探索》结合大数据教育的现状,剖析行业痛点,从教、学两大主题,通过介绍北京大数据研究院博雅大数据学院产品数据嗨客,交流在大数据教育实训平台建设上的实践经验。

北京大数据研究院博雅大数据学院产品经理;大数据教育实训平台数据嗨客产品负责人

自由讨论

自由讨论

自由讨论

自由讨论

王江艳

FACTOR AND RESIDUAL EMPIRICAL PROCESSES

The distributions of the factor return and specific error for an individual variable are important in forecasting and applications. However, they are not identified with low-dimensional time series observations. Using the recently developed theory for large-dimensional approximate factor model for large panel data, the factor return and specific error can be estimated consistently. Based on the estimated factor returns and residual errors, we construct the empirical processes for estimation of the distribution functions of the factor return and specific error, respectively. We prove that the two empirical processes are oracle
efficient when $p \geq CT^{3/2}$ where p and T are the dimensionality and sample size, respectively. This demonstrates that the factor and residual empirical processes behave as well as the empirical processes pretending that the factor returns and specific errors for an individual variable are directly observable. Based on this oracle property, we construct the simultaneous confidence bands
for the distributions of the factor return and specific error. Extensive simulation studies check that the estimated bands have good coverage probabilities. Our real data analysis shows that the factor return distribution has a structural change during the crisis in 2008.

王江艳,理学博士,2016年毕业于苏州大学概率论与数理统计专业,现为南京审计大学理学院统计科学与大数据研究院讲师。

王静

Free-knot spline for Generalized Regression Models

A computational study of bootstrap confidence bands based on free-knot spline technique is explored for generalized regression models,

Jing Wang is currently an associate professor in Statistics at University of Illinois at Chicago. Her main research area is in application and theory of kernel and spline smoothing methods in semi-parametric and non-parametric regression models.

王冠男

Spatially Varying Coefficient Models

In this paper, we study the estimation of spatially varying coefficient models for data distributed over complex domains. We use bivariate splines over triangulations to represent the coefficient functions. A convergence rate for the bivariate spline estimators is derived. The estimators of the coefficient functions are consistent, and we establish the rate of convergence of the proposed estimators. A penalized least squares method is proposed to estimate the the model with a penalization term. We also propose hypothesis tests to examine if the coefficient function is really varying over space. The proposed method is computational expedient, thus usable for analyzing massive datasets. The performance of the estimators and the proposed tests are evaluated by several simulation examples and a real data analysis.

I am GuanNan Wang. I graduated with a PhD in Statistics from the University of Georgia, U.S. in 2015. Since then, I joined the faculty group of department of Mathematics at College of William & Mary.

王文静

Quantile Regression Oultier Diagnostic: R package `quokar`

Extensive toolbox for estimation and inference about quantile regression has been developed in the past decades. Recently tools for quantile regresion model diagnostic are studied by researchers. We built R package `quokar` to implement outlier diagnostic methods in R language. This talk offers a brief tutorial introduction to this package. Package `quokar` is open-source and can be freely downloaded from Github: http://www.github.com/wenjingwang/quokar. To move one step further, we also plot the diagnositic model into data space to observe how does the model performs using R package `rggobi`.

本人是中国人民大学统计学院博士二年级学生,从2016年9月到2017年3月在澳大利亚莫纳什大学联合培养,期间师从Dianne Cook教授开发R语言包quokar,目的在于做分位回归中的异常值检验。

曹明

哪种奇巧巧克力最好吃: Statistical ranking models及其R实现

排序(ranking)是一种普遍的需求,google出来排在最前面的几个结果(PageRank)是否就是你想要的?上赛季的金州勇士队常规赛创纪录的73胜却没有赢下最终的总冠军,他们的“真实实力”到底是不是第一呢?我们就从sports analytics里常用的Bradley-Terry model说起,以最近John Hopkins一个十分有趣的项目:哪种奇巧巧克力(Kitkat)最好吃为例, 谈谈ranking的统计模型,以及相关的几个R package。

曹明即将于2017年夏从University of Texas School of Public Health生物统计系博士毕业,主要研究方向是(社交)网络的统计模型和估计(statistical network analysis), 统计软件开发(statistical software development)和专为概率设计的编程语言(probabilistic programming)。本科是同济大学的软件工程,去美国读博之前做过两年码工。

自由讨论

自由讨论

自由讨论

自由讨论

萧庆

G2 - 面向统计的可视化语法

G2 是一套基于(The Grammar Of Graphics)的图形语法,以数据为驱动,具有高度的易用性和扩展性,内置常用的统计函数,配备坐标系、度量、辅助元素等组件,用户无需关注各种繁琐的实现细节,一条语句即可构建出各种各样的可交互的统计图表。G2始于图形语法,打开数据可视化的无限可能。

萧庆,蚂蚁金服数据可视化团队技术专家,G2的架构师和核心研发,多年从事数据可视化研发,对可视化相关图形,统计,图形语法有深入的思考和丰富的项目经验

沈毅

WebGL 在前端数据可视化中的应用

我们在前端可视化库 ECharts 中选择了 Canvas 作为底层的绘图接口,ECharts 目前在 GitHub 上拥有 16k 的star ,其拥有丰富绚丽的可视化效果,深度全面的交互操作,以及对大数据量稳定高效的展现等特性,是 GitHub 上以及国内最热门的开源前端可视化库之一,能够实现这些特性主要得益于 Canvas 的强大能力以及我们基于 Canvas 封装的二维图形库 ZRender 对图形操作的便捷性。

但是随着可视化形式的拓展,Canvas 在某些展现方式上也显得力不从心,例如:
1. 用Canvas 绘制几十万的图形依然有压力
2. 各种三维数据的展现需求,以及大屏需要的一些酷炫的三维效果
3. 用 JS 计算布局存在的性能瓶颈,需要通过一些新的思路去有进一步的提升

本次分享主要介绍我们是如何在现在的 ECharts 中集成 WebGL 去解决这些问题的,包括:
1. ECharts 简介以及目前的情况
2. 用 WebGL 绘制地球,三维的散点图,Surface 等三维图表
3. 用 WebGL 加速散点图等常见二维图表的绘制
4. 以及利用 GPGPU 进行一些布局运算的性能优化

2012 年浙江大学专业毕业后一直在百度做前端开发,目前为百度资深研发工程师,主要从事 ECharts 的研发。个人研究领域有二维,三维的前端图形绘制,数据可视化等。视觉系,对游戏开发,程序生成设计,绘画等感兴趣

陆旻

Interaction+: “让可视化动起来”的既有网页交互

“让可视化动起来”的网页交互工具Interaction+,它能让你不写一行代码就与网页上的各种各样的可视化进行交互。这些可视化可以是像纽约时报上那样的数字媒体新闻、博客财报中的各式各样的统计图表,也可以是d3.js编写的千奇百怪的可视化工作、艺术家制作的漂亮的信息图等。 Interaction+的核心思想是在已有的可视化作品的制作流程之外,将交互的对象从常规的数据转移到视觉图元,支持用户在认知过程中对视觉图元的整理、查询、过滤等任务。具体而言,Interaction+从已有的网页可视化作品中获得其视觉图元及属性信息,并将其作为数据驱动,提供一套基础而完整的交互功能,让用户能在原可视化中进行选择、过滤、查询、比较、打标签等交互。

陆旻,现就读于北京大学信息科学技术学院,师从可视化与可视分析实验室袁晓如研究员。研究方向为时空数据的可视化与可视分析、人机交互,有多篇关于城市轨迹数据可视分析工作发表于可视化领域顶级期刊与重要会议。

黄伟

运用WebGL+GIS 开发网络安全应用

随着互联网技术的发展,网络几乎渗入到了人们工作和生活的各个方面,在给人们生活带来方便的同时,网络攻击和网络犯罪也随之产生。近年来,网络攻击的数量越来越多,规模越来越大,攻击复杂度也越来越高,传统的网络安全保障机制也越来越不足以应对。网络安全可视化应运而生,并成为网络安全研究领域的一个热点。 本次分享将围绕360企业安全天眼团队利用GIS和WebGL技术在网络安全可视化领域的实践经验,具体包括: 1)APT先知计划:以“上帝视角”将攻击信息及POI信息在地图上显示出来,让客户感知安全态势,帮助企业和组织及时作出应对策略; 2)伪基站追踪系统:结合可视化和数据挖掘揭示伪基站在城市中出现的模式及发送短信的规律,并能够实时显示伪基站的位置,有效帮助执法机关打击不法分子; 3)全国僵木蠕毒态势感知:结合GeoHash技术和Openlayers以热力、蜂窝聚合显示全国僵木蠕毒数据; 4)春运铁路网热度:利用WebGL可视化春运时期全国铁路线路及各线路热度; 5)大图可视化引擎:针对海量数据可视化中布局及绘制的难点,开发大规模网络关系布局算法库在服务端进行布局,前端利用WebGL技术显示数百万点边图。"

黄伟,现就职于360企业安全,从事前端开发与可视化研发工作,发表多篇可视化相关论文和专利,近期研究领域为多维数据可视化与可视分析,时空数据可视化,可视化数据挖掘和BI。

谷鸿秋

SAS统计图表:一键式的图表生成术

一直以来,统计表格的常规制作模式是: 1. 运行统计软件(菜单/代码)2. 设计统计表格 (Word/Excel)3. 复制粘贴填充结果 (Ctl+C/V)。这种操作模式不仅低效,而且容易出错,也不利用重复性研究。在总结了大量医学研究学术期刊后,笔者提炼出了学术期刊中最基本的9种统计表格,借助SAS的宏程序和ODS 系统,开发了一套可以一键式制作统计表格的工具。。 SAS作为一款优秀的统计分析软件,其统计绘图功能却一直被大众所诟病,绘图语法也为大众所畏惧。在大众的印象中,SAS的统计绘图功能太难学,画出的图形太丑,太死板。其实SAS 公司一直在改进SAS的绘图功能,自SAS 9.2 引入ODS Graphics System后,SAS绘图的语法变得更加简洁,实现也更加方便,终极绘图武器绘图模板语言(Graph Template Language,GTL)更是让SAS 的绘图功力大大增加。ODS Graph设计器使得不会编程,不懂GTL语言的人也能迅速画出ODS Graph。 分享本次分享将围绕 SAS统计表格输出系统的开发过程、原理、构成以及使用,以及SAS的绘图系统,ODS绘图系统的构成,各种统计图形的绘制举例,统计图形的美化等内容展开,并对SAS sgplot与 R ggplot2的做简要对比。

著名医学院非著名毕业生; 土鳖博士,野生码农,科研搬砖工;微信公众号「统技思维」出品人;人大经济论坛/SAS中文论坛卸任版主;目前主要从事流行病学、公共卫生、临床试验、实效研究等临床研究领域的统计学设计和统计分析方法研究。

自由讨论

自由讨论

自由讨论

自由讨论

季春霖

工业大数据的应用

本文主要介绍了统计方法和计算在新材料开发特别是超材料开发中的应用。在超材料开发中,利用统计学、信息学方法,通过数据挖掘探寻材料结构与性能之间的关系模式,缩短材料开发周期,降低开发成本。通过仿真与实验的有机结合,建立超材料基因数据库,结合物理学、人工智能、大数据、材料学,通过统计方法预测超材料的复杂电磁响应,实现新材料定制化。另外,介绍了统计方法在发动机设计诊断等工业问题中的应用。

季春霖,深圳光启高等理工研究院联合创始人,副院长;深圳市统计学会副会长;哈佛大学博士后,杜克大学博士,剑桥大学硕士;广东省自然科学基金杰青项目获得者;发表包括Science在内的论文60余篇,授权专利470余项。

沈志勇

数据智能实践--从互联网到传统行业

行业的发展的需求,正从信息化,慢慢的转为数据驱动,最近开始追求智能化。随着各行业相继完成信息化进程,数据在各行业内逐渐形成积累,数据驱动的决策与业务优化的需求越来越明确,在某些数据驱动应用充分的行业,如金融,又在此基础上开始追求业务的智能化。互联网行业较早的经历和完成了从数据驱动到智能化的演化,在这里介绍一些相关的案例。

沈志勇博士,百度云首席数据科学家。大数据分析技术国家工程实验室学术委员会成员,大数据流通与交易技术国家工程实验室专家委员会成员。本科毕业于北大数学学院概率统计专业,随后于中科院软件所获得博士学位。曾任百度大数据实验室副主任,惠普中国研究院研究员。

陈宏

大数据时代背景下设备安全管理与智能制造

1. 工业4.0与中国制造2025
2. 设备安全管理与智能制造
3. 当前存在的问题
4. 应对措施与解决方案
5. 未来的发展需求与展望

工学博士(后)、副教授,教授级高工,研究生导师,郑州大学振动工程研究所所长,郑州恩普特科技股份有限公司总工程师。中国振动工程学会故障诊断专业委员会理事,故障诊断专业委员会常务理事,河南省振动工程学会秘书长,河南省机械工程学会青年工作委员会副秘书长。主要研究方向为设备智能诊断与智能管理。主持或参与6项国家级科研项目、10余项省市级科技攻关项目,以及多项企业横向合作项目的研究与开发工作。获得省部级科技奖励3项,已鉴定验收科研成果8项,授权发明专利5项,在国内外学术刊物及会议上发表研究论文74篇,其中EI/SCI/STP检索十余篇。

田野

数控机床大数据分析

节能减排是缓解工业能源消耗的主要途径,数途科技基于大数据技术,重点研究工业智能制造中的CNC数控机床智能生产。以精益生产为核心,对机床生产过程产生的实时数据开展分析。通过顶层设计,实现智能机床数据的云端整合。通过设计高维分布式大数据分析算法,实现智能机床生成的能量消耗实时预测。最终实现对工厂运行从排期到生成的全流程监控,全过程优化。以最低能耗实现产品精准化生产,真正达到工业生成的智能制造。该技术服务于数控机床零件加工企业,在冲压、注塑,过程制造,离散化生产线等领域都拥有巨大的应用场景。

现任Inrevo杭州数途信息科技有限公司创始人。先后在纽约知名互联网企业服务企业Register.com, NetworkSolutions, Web.com, Travelclick.com 等纳斯达克上市企业担任公首席架构师,全球网络运营资深运营经理, 世界500强企业雅芳集团全球网络与存储云计算转型总监,亚马逊全球网络实施高级经理等职务。现从事于工业物联网技术和工业大数据处理的研发,所创Inrevo公司以I-IoT驱动精益生产和设备管理理念为核心,基于大数据技术实现对工业生产过程中数据进行实时精准的分析处理,对工厂运行的各个环节实现透明化数字化管理,为持续改进,业务决策提供关键的大数据技术支撑。

自由讨论

自由讨论

自由讨论

自由讨论

张耀武

高维数据中的模型诊断及其在商务统计中的应用

通常大家认为,模型预测准确性越高,越有利于做决策。但现实中,却存在精度高的模型导致错误决策的现象。因此,盲目追求模型精度是不科学的。事实上,作为一家决策型公司,我们发现模型的正确性才是至关重要的,即使预测精度不是很高。我们在这里介绍一种普遍使用的模型诊断方法,利用提供的数据,检验当前使用的模型(可以是非参数或者半参数的)是否适用。这是数据分析和决策中很关键的一步,而恰恰容易被忽略。

上海财经大学统计学博士,研究方向为大数据挖掘,高维数据等。杉数科技高级算法工程师,京东定价与库存项目和顺丰件量预测项目核心成员。

徐旦

从统计学生到互金数据科学家之路

针对尚未走出校门的统计学生,介绍数据科学家在实际工作中的工作方式、理念和工作内容,包括一些常用的R包和函数。并将结合一个完整的从业务目标分析,到接入外部数据源,最后到模型部署上线的实际案例进行演示。

2011届中山大学统计学士,2013届美国哥伦比亚大学精算硕士。毕业后先后就职于美国最大银行之一Capital One,美国新兴金融科技公司ZestFinance。2016年回国,现就职于读秒www.idumiao.com(原积木盒子零售事业部)。

吴岸城

机器学习在营销管理中的应用

本次报告主要关于TUrank在影响力算法的进化和应用,以及CNN在图像场景识别的应用。

吴岸城,毕业于浙江大学计算机系,目前研究方向在对话、视觉、推荐领域。有13年企业级软件服务与电信增值业务软件研发经验。曾在中兴、亚信担任研发管理人员,现任菱歌科技首席数据科学家。

刘应耀

人工智能颠覆客服行业的实践

阿里客服体系,每天5万热线电话,30万人在线咨询问题,服务成本高、服务效率低且用户体验差。我们基于语音识别、语义理解、个性化推荐、客户模型等技术,构建一整套完整的智能服务解决方案。包括陪伴用户的智能助理式机器人、人工咨询的智能推荐系统、交易纠纷的智能决策系统等等,用数据和智能提升用户体验,降低服务成本。报告会先演示智能机器人产品系列功能,包括语音识别、咨询服务、生活助理等,然后介绍客服整体智能解决方案、技术架构、关键算法、以及数据驱动理念。

刘应耀,花名阿外,阿里巴巴高级技术专家,隶属智能创新中心。十多年数据产品及算法平台研发经验,最近几年聚焦大数据和人工智能领域,孵化智能机器人、人工智能辅助系统、知识图谱等系列产品,开创阿里客服的智能时代。并通过智能硬件实验室等企业内创业模式,试点前台机器人等智能硬件。

陈卓

新能源行业R语言数据分析实例

随着可再生能源行业的快速发展,越来越多的从业主体希望数据分析能够在实际业务中发挥更多的作用。R语言作为一种易于上手的开源语言,成为了许多从业者的首选分析工具。演讲将以新能源行业的基本特点入手,通过环境特征分析、设备性能分析、运营管理分析、行业信息与舆情分析四个业务方向,介绍新能源领域数据分析的重要价值与工作方法,最后分享基于公有云R语言分析平台的建设经验,展示R语言并行处理海量数据的思路与方法。

陈卓,CCF中国计算机学会会员,ACM国际计算机协会会员,CIPS中国中文信息学会会员,曾任北京东润环能科技有限公司高级算法工程师、产品经理,金风科技“金风慧能大数据平台” 数据分析主管,主要工作方向为新能源风电行业的数据分析与数据发掘。
张悦,中科院大气物理所大气科学和地球流体力学数值模拟国家重点实验室博士,北方大贤风电科技(北京)有限公司高级顾问,长期从事新能源与气象行业的学术研究与工程化推广工作,主要研究方向为新能源行业的气象预测、功率预测与数字化应用。

自由讨论

自由讨论

自由讨论

自由讨论

叶伟

人工智能助力线上消费金融的风险管理

基于同盾大数据平台采用人工智能技术为消费金融商户提供全流程风险管理解决方案。

同盾科技数据部信贷建模总监,大数据风控、信贷建模领域十多年工作经验。

叶梦舟

以风险资本收益率驱动决策

1. 巴塞尔监管资本概述 2. 如何用模型确定监管资本需求 3. 如何衡量产品/项目的资本收益率并服务于决策 4. 监管资本要求对银行业务的冲击和影响,以及未来发展趋势

2016年11月加入融360担任首席风控官; 在中国和美国商业银行有近二十年的风控领域专业经验,先后服务于中国光大银行、美国摩根大通银行和花旗银行; 曾任花旗银行北美执行董事,兼任花旗北美CRO的首席战略顾问; 南京大学经济学学士、美国印第安纳大学MBA。

张云松

金融科技中的算法与可视化应用案例

随着机器学习算法和AI的普及应用,更多的算法和数据科学在金融业务领域得到实践并发挥了重要作用,同时互联网在更快更深入的变革传统金融业务,在金融业务中对金融科技的需求越来越迫切。本次分享结合目前互联网金融中的实际业务场景和需求,介绍算法和各种数据科学技术如何在决策模型、反欺诈、审批授信、风险定价等实际业务中应用的案例。

张云松 毕业于中科院,多年零售金融行业咨询和互联网公司从业经历,专注数据算法、决策分析、风险管理和金融产品设计的工作。曾就职于互联网金融企业融360,负责运营在线授信的小额现金贷产品,目前在金融科技方向进行创业。一直致力于数据科学应用于零售金融的业务流程,通过数据化决策等金融科技方式辅助金融业务中业务中获客、转化、反欺诈、风险定价、审批授信、贷后催收等

肖勃飞

消费金融反欺诈应用探索

1,反欺诈产品综述;2,介绍图查询引擎设计;3,介绍反欺诈模型;4,介绍反欺诈可视化产品

曾担任中国最大的金融IT服务商东南融通BI数据挖掘团队负责人,GE智能医疗研发负责人,京东风控决策支持部负责人,四方伟业首席科学家和大数据产品部总经理;在CRM系统、精准营销、信贷风控、智能医疗、电商交易风控、反欺诈行业应用方面具有丰富的经验,同时在大数据和数据挖掘的产品化方向经验丰富。

自由讨论

自由讨论

自由讨论

自由讨论

李响

患者表征学习方法与应用

真实世界的电子病历(EMR)数据存在高维性、时序性和稀疏性的特点。从电子病历数据中提取患者的表征(representation)是进行疾病风险预测、患者表型分群等数据分析的重点和难点。传统的医疗数据分析通常采用基于向量的患者表征,对高维、时序和稀疏数据的处理存在一定的问题。为此,近年来研究者们提出了多种新的患者表征学习方法,包括基于时序模式的表征、基于主题模型的表征、基于张量的表征、以及基于深度模型的表征等,这些方法能够从高维、时序和稀疏的电子病历数据中提取出更为有效的患者表征。

李响,IBM中国研究院资深研究员,毕业于浙江大学计算机学院并获得博士学位。现主要从事认知计算和医疗大数据分析的研究,在疾病风险预测、治疗路径挖掘、病历信息抽取等方面进行了若干研究工作,发表医学信息学和人工智能顶级论文20余篇。

俞声

基于电子病历的高通量表型标记

电子病历自诞生之日起就被视为潜在的医学数据挖掘和知识提取的宝库。电子病历中记录的诊疗细节包含了对患者各种表型的描述,这些表型可以被提取出来,丰富现有生物样本库中的表型信息,或根据表型自动建立新的大型队列,助推各种各样的生物医学研究。然而,由于电子病历中语意的复杂性,准确提取病历中的表型信息并不简单。通常,需要使用机器学习模型,综合诸多专家设计的特征,拟合人工标注的金标准,形成表型标记算法。这样的算法生成过程耗时长、消耗人力巨大,无法满足大数据时代对电子病历挖掘的需求。2012年底,医学信息学界提出要实现“高通量”表型标记,旨在去除生成算法过程中的一切人工因素。本报告介绍我们在高通量表型标记方向的一系列创新研究:AFEP、SAFE、以及世界上第一个高精度高通量表型标记算法生成技术PheNorm。

Dr. Yu Sheng is Assistant Professor at the Center for Statistical Science of Tsinghua University. He received his BS and MA degrees in statistics from Nankai University and the University of Michigan, and he received his PhD degree in systems engineering (operations research) from the George Washington University. He started his research in medical informatics since his research work at Harvard University. His current research interests include natural language processing and deep learning in medicine, and data analysis and knowledge extraction from EHR and online data.

黄正行

医学临床中的人工智能技术

医疗信息化的规模正以前所未有的速度增长,医疗卫生领域已进入“人工智能时代”。医疗人工智能的研究与应用对提升医药卫生服务水平、促进医疗产业发展等方面发挥着至关重要的作用。本报告在对医学临床人工智能技术发展历史进行回顾的基础上,重点阐述了医学临床人工智能的研究现状、应用领域、总结展望等。

先后负责了国家自然科学基金面上项目一项、青年基金项目一项、博士后特别资助和一等资助各一项,作为研究骨干参加国家863项目和工信部重大专项项目各1项,参加国际合作项目2项。在国际、国内重要学术期刊和国际医学信息学核心学术会议上,以第一作者或通讯作者身份共发表学术论文30多篇。所发表的论文被国内外的其他研究组引用次数500多次。申报专利2项,获得软件著作权3项。被国际学术期刊Artificial Intelligence in Medicine聘为编委,担任IEEE International Conference on Healthcare Informatics等医学信息学领域国际核心学术会议的Committee member。 近年来,致力于医学大数据挖掘与应用研究。努力创新,注重将研究成果与临床实践相结合。前期工作中,围绕着如何有效挖掘和利用医学大数据,分析和优化心血管等典型复杂性疾病的临床诊疗实践这一医学和信息科学的交叉研究课题,在(1)面向诊疗过程实践的临床路径分析与优化;和(2)临床诊疗实践中的疾病风险评估与不良事件预测,等研究方向上取得了若干的研究成果

金博

“AI+慢性病管理”使精准医疗成为可能

调查显示,慢性病及其并发症的急性发作已成为威胁我国老年患者健康的最主要因素。以帕金森症、阿兹海默症等神经系统慢性退行性疾病为研究对象,针对临床医学研究中的慢性病并发症评估、药品不良反应预测、联合用药推荐等难题,采用机器学习和医疗大数据分析的方法,在前期积累的海量医疗数据基础上,构建人工智能+慢性病管理的模式,以数据为驱动,使精准医疗成为可能,为提高我国医疗信息服务水平、合理利用医疗资源、探索新的慢性病并发症个性化治疗模式提供理论与实践支撑。

金博,大连理工大学副教授。致力于数据挖掘、大数据分析、创新管理、商务智能等领域的科学研究。主持了国家自然科学基金青年项目、辽宁省高校科研项目、国家重点实验室开放课题等课题,参与科技部国家重点研发计划“精准医疗研究”项目、国家自然科学基金重大研究计划培育项目和面上项目、863计划项目等国家级课题。在相关领域重要国际期刊及会议上发表论文60余篇,近年来多篇论文在数据挖掘领域顶级期刊(KDD、AAAI、ICDM、SDM、PAKDD等)收录,担任数据挖掘领域三大顶级会议KDD、ICDM、SDM的程序委员,是ACM、IEEE和CCF高级会员。

自由讨论

自由讨论

自由讨论

自由讨论

王厚峰

新AI时代的智能问答

摘要:问答系统是人工智能和自然语言处理中广受关注的问题,是自动客服、人机会话、自动阅读理解、高级检索等应用中最核心的内容。随着新一轮人工智能热的兴起,自动问答更是受到了前所未有的重视,这不仅表现在学术界,而且也体现在工业界。然而,问答系统仍然存在大量尚待解决问题,包括问题的理解和答案的形成。报告简要介绍了新一轮人工智能的兴起过程及问答系统的发展状况,分析了问答系统中主要的难点以及我们在开展的相关研究工作。

王厚峰,北京大学计算语言学研究所所长。研究兴趣为自然语言处理,近年来,主要集中于问答系统和情感分析的研究。曾作为首席专家负责过863项目,作为首席专家负责过国家社科基金重大项目。发表学术论文70余篇。

孙薇薇

自然语言处理中的统计结构学习

统计机器学习技术是自然语言处理的基石之一,和一般的应用场景相比,自然语言的一大特点是其句法语义的结构性,相应地结构化学习在自然语言处理中尤为重要。本报告主要讨论自然语言处理中的统计结构学习问题,从语言本体研究的角度介绍句法语义结构表征方式,从应用角度介绍这些结构和结构化学习之间的联系,并以图结构学习为重点介绍自然语言领域近几年的重点研究工作。

孙薇薇,女,1983年2月出生,博士,副教授,北京大学计算机科学技术研究所语言计算与互联网挖掘研究组成员。研究方向为:计算语言学/自然语言处理,研究子领域为深层自然语言理解、句法分析、组合语义分析等。2002年考入北京大学中国语言文学系,2006年7月获得“应用语言学”专业文学学士学位。自2003年9月起选修北京大学信息科学技术学院开设的“软件工程”双学位,于2006年7月获得理学第二学士学位。2006年9月考入北京大学信息科学技术学院,于计算语言学研究所攻读硕士学位,导师为穗志方教授。2009年7月毕业,获“计算机软件与理论”方向理学硕士学位。2009年10月进入德国萨尔州大学(Saarland University)计算语言学系攻读博士学位,师从Hans Uszkoreit教授,同时在德国人工智能研究中心(German Research Center for Artificial Intelligence)语言技术实验室(Language Technology Lab)担任科研助理。2012年4月通过博士论文(题目为LearningChinese?Language?Structures?with?Multiple?Views)答辩,获得萨尔州大学“数学与计算机科学”方向的工学博士学位。2012年5月进入北京大学计算机科学技术研究所工作,2015年8月起任副教授。2016年11至12月于香港城市大学翻译及语言学系任访问学者。

王彦博

商业银行“半监督”文本聚类技术应用

在商业银行日常经营管理过程中,经常会产生大量非结构性文本数据。如何对这些文本数据进行分析挖掘,从中提炼出有价值的信息并加以有效应用,已经成为大数据时代商业银行需要解决的一项重要课题。通过构建“半监督”文本聚类技术,对文本主题、类别、关键词和样本之间的关系进行学习,从而实现对非结构性信息的结构化转换和提炼,相关应用对商业银行经营管理提升起到积极推动作用。

王彦博,中国民生银行公司业务管理部数字化中心负责人。从事大数据挖掘科研及应用工作十余年,具有丰富的智能化信息分析经验,推行“智慧银行”大数据金融战略。入职民生银行以前,曾任职英国国家文本挖掘研究中心副研究员;兼任美国IGI Global出版社《知识社区与社会网络进展》系列丛书副主编,ACM《智能系统与技术》、英国剑桥大学《知识工程回顾》、印度DIVA《数据挖掘与新兴技术》、德国IBAI“业界数据挖掘”、IEEE“计算机应用与系统建模”等国际期刊、学术会议论文审稿专家。英国利物浦大学计算机科学博士、曼彻斯特大学计算机科学博士后;发表著作1部,著作章节3篇,学术论文50余篇,参与编写金融专业书刊2部,获得国家专利1项、国家级奖励1项、省部级奖励5项。

王菲菲

Bayesian Text Classification and Summarization via A Class-Specified Topic Model

We propose the Class Specified Topic Model (CSTM), an extension of the Latent Dirichlet Allocation (LDA) model, to address the problems of text classification and summarization of texts within classes. We assume that each document has a probability distribution over a set of class-specific topics and a set of common topics shared across classes. Each class-specific or shared topic has its own probability distribution over a dictionary of words or phrases. Bayesian inference of the CSTM in semi-supervised scenario is developed, with supervised scenario as a special case. We analyze the 20 Newsgroup dataset, a benchmark dataset for text classification, and demonstrate that the CSTM has better performance in text classification and summarization than a two-stage approach based on LDA and a L1 penalized logistic regression.

王菲菲,北京大学光华管理学院商务统计与经济计量系博士研究生,2012年毕业于中国人民大学统计学院,获经济学学士学位。感兴趣的研究领域有:文本挖掘,贝叶斯分析等。目前的研究课题集中在文本挖掘领域,尤其是主题模型在营销和社交网络方面的应用,近期也开始涉猎空间统计学在疾病分布方面的研究以及人口学领域的研究工作等。

张俊妮

统计模型在关键词提取、文本分类和中文分词问题中的应用

本报告主要讨论文本挖掘中的三个问题:提取关键词、文本分类以及分词。针对分类别的关键词提取问题,我们提出了基于假设检验的三种统计方法。针对文本分类问题,我们提出了一种将分类别的关键词引入主题模型的方法,DWTM(The Discriminative Words Topic Model)。我们接着提出了一种结合主题信息的分词模型WSTM(The Word Segmentation Topic Model),该模型能够同时进行分词并使用分类别的关键词进行分类。我们使用一些英文和中文数据集,比较了这些方法和现有的其他方法。

张俊妮为北京大学光华管理学院商务统计与经济计量系副教授,获美国哈佛大学统计学博士学位,任北京大学商务智能研究中心副主任、北京大学光华管理学院责任与社会价值中心副主任。主要研究领域为贝叶斯分析、人口统计学、文本挖掘。

自由讨论

自由讨论

自由讨论

自由讨论

陈昱

增强学习打麻将

本报告和大家分享如何使用深度学习技术教会计算机打麻将,并且提高电脑AI的水平。使用到的技术包括卷积神经网络,增强学习,以及一些实现技巧。本文使用的技术很大程度上收到AlphaGo的启发,不同之处在于,1)对麻将随机性的处理上,2)使用最近一年来更为强大的增强学习算法,3)更高效地利用稀有的训练数据。除了纯粹技术细节,我们还会分享从无到有地用深度学习解决问题的关键步骤,以及一些良好习惯,希望对大家有所帮助和启发。

北京大学光华管理学院统计系博士生。研究兴趣是时空统计以及深度学习。

赵申剑

字符级语言模型与机器翻译

局限于模型和计算能力,词级语言模型和机器翻译是一直以来的标准。但随着网络结构的发展和计算能力的提高,词级模型的缺点似乎可以通过字符级模型来解决。本次演讲主要探讨词级和字符级模型各自优缺点,并讨论目前字符级模型的发展情况,如语言模型和机器翻译中的进展。

我来自上海交通大学计算机系,目前正在从事机器翻译相关应用和研究。

薛少飞

阿里巴巴语音识别声学模型的进化历程

近年来,随着技术的发展,基于深度学习的语音识别已经成为业界主流的方法。本次演讲将首先带着大家梳理基于深度学习的语音识别声学模型发展历程,之后将分享阿里巴巴在语音识别声学建模上所做的技术突破,并展示我们在语音识别应用上的一些案例。

薛少飞,阿里巴巴 iDST 语音识别专家,中国科学技术大学博士。现负责阿里声学模型研究与应用:包括语音识别声学建模和深度学习在业务场景中的应用。博士期间的研究方向为语音识别说话人自适应,提出基于 Speaker Code 的模型域自适应方法,在语音相关的会议和期刊上发表论文十余篇。

张翔

条件GAN用于车型设计和判别

在移动互联网时代,多屏媒体,O2O多维互动,给消费者购物带来了更多信息和更多选择。也给了企业更丰富,更有挑战的营销环境。 在众多影响决策的微时刻(micro-moment)和关键时刻(moment of truch)中,汽车消费者的思维已经不知觉的进入了“车型鄙视链” 的精神世界和换车魔力象限的领域。 利用车轮查违章,车轮社区(覆盖2亿真实车主的APP应用)中用户对车型PK投票的数据,我们真实再现了这个车型鄙视链,从中会发现每一款车,你都可以找到选择他的理由。这为更加细分,更加个性化的汽车市场提供了理论支撑。以此报告希望能够协助用户选到最适合自己的车,也协助车厂在细分市场更加精准的定位,甚至可以预测未来的汽车销量

10年的COS水友,车轮互联数据副总裁

郎大为

R语言中的深度学习: 用Mxnet进行车型识别

深度学习发展到今天,慢慢与一些传统的概念开始交叉,迁移学习就是其中之一,迁移学习可以通过已有模型的基础上进一步调整,训练,以大幅减少建模与训练的时间。本文将会以车型分类为例,介绍如何使用一个预先训练好的模型,在R语言中使用mxnet进行模型的微调(fine-tuned),并介绍入门深度学习的一些经验。

J.D. Power 数据分析师,致力于汽车行业的数据咨询,曾任职于Supstat,Ctrip,浙江大学业界导师,REmap, wordcloud2,leafletCN等包的作者。

自由讨论

自由讨论

自由讨论

自由讨论

朱廷劭

基于社会媒体大数据的心理学研究

互联网时代的到来,能够将普通人的日常行为以空前的规模和精细程度进行记录,形成网络行为大数据,为个性心理研究提供了前所未有的机遇,也提出了新的理论与技术问题。我们对反映个性特征的社会媒体大数据开展研究,运用机器学习方法构建利用社会媒体数据预测用户个性心理特征的计算模型,并开始尝试将模型预测作为测量手段运用于个性心理学研究。这些初步工作,为网络技术支持下个性心理研究的纵深化、精细化发展做了铺垫,并开始显露出巨大的应用潜力。

中国科学院心理研究所研究员,博士生导师,入选中国科学院“百人计划”。获得中国科学院计算技术研究所硕士学位和博士学位,于2005年获得加拿大University of Alberta博士学位。朱廷劭研究员的工作涉及机器学习、汉语转换以及网络行为心理研究等多个领域,并取得创新性成果。他开展的网络行为心理研究,从网络行为的分析实现对用户人格、心理健康以及社会态度的感知,并在此基础上实现群体心理的预警预报和有效干预。

吕小康

基于R与Rstudio的心理统计教学模式探索

传统心理统计的教学模式较为依赖于纸笔运算,所倾向使用的基础统计软件多为SPSS,教学过程中统计知识与软件的结合相对分离。要促进心理统计知识与技能的学习,统计计算软件的深度参与是必不可少的,但这种软件自身知识的学习同时可能加重学生的学习负担,从而导致其学习动机和可持续性不足。本演讲将基于作者在南开大学周恩来政府管理学院的多年本科及硕士的统计类课程教学实践,说明和演示如何在教学过程中贯穿“用统计软件为统计学习服务”的基本理念,如何利用R与Rstudio简化统计教学的流程,使学生更为便利地接受R语言这一统计计算工具,同时利用Rstudio进行作业布置与管理。统计工具的大众化需要各学科内从事具体教学科研的工作人员不断提供的尝试方式,最大化地体现新工具较之传统工具的优势,如此才能形成一种良性的教学文化,使得一种统计工具真正能够在学科领域扎根并流行。

南开大学副教授。主要研究方向包括:文化与社会心理学,尤其是对医学现象的社会学、心理学、人类学交叉视角研究及本土化阐释;统计方法及统计社会学,尤其是基于R语言的数据分析与可视化实践。出版了《R语言统计学基础》、《AP微积分基础教程》、《AP统计学基础教程》等多篇专著,在心理学报、心理科学进展、心理科学,等心理学核心刊物上发表多篇文章。

胡传鹏

R语言在加强心理学可重复性中的作用

自2011年,由于一系列的重复失败事件,可重复性问题成为了心理学界一个持续的热点问题。统计方法严谨性(如过度依赖于p值)和开放性(大量的可疑研究操作)不足是导致心理学研究可重复率过低的重要原因。为了应对心理学中的可重复危机,研究者们倡导使用更加多样的统计方法以及公开透明的研究实践。由于R语言中分析方法的灵活性与开放性,R语言在加强心理学研究的可重复性上可以起到重要作用。首先,R语言能够加强心理学研究中统计的严谨性和统计方法的多样性。由于众多心理学相关的软件包(psych, MBESS, lavaan, BootES, BayesFactor, Metafor等),使用R语言,研究者可以进行多样的统计,避免过度依赖于p值。例如,使用BootES,研究者可以快速地对效应量的置信区间进行估计,使用BayesFactor,研究者可以使用贝叶斯因子来进行统计。其次,R语言能够加强心理学研究中数据分析的公开与透明的程度。与心理学中最常用的SPSS软件相比,R语言代码而非鼠标点击进行数据的预处理以及分析,能够精确地记录数据分析的过程。这对于将数据分析过程透明化具有重大意义。最近,合理使用Rmarkdown的强大功能,能够将数据处理与结果报告结合起来,能够让研究者完全地数据分析与论文撰写无缝结合,例如papaja工具包的出现,可以让研究者直接使用Rmarkdown完成APA格式的文稿写作。正是由于R语言的这些优势,在最近的重复研究中,R语言被广泛地使用。例如,2015,发表在Science上的大规模重复实验中,其数据分析用R完成。

清华大学博士五年级,研究兴趣为社会认知神经科学。近年来,由于心理学中的可重复危机,开始关注如何加强心理学研究的可重复性问题。在《心理科学进展》上发表《心理学研究的可重复性问题:从危机到契机》,专门分析心理学研究中的可重复性问题。2016年10月第19届全国心理学大会期间,举办《加强心理学研究的可重复性》工作坊。

蔡培林

心理学研究规范化及在R语言的实现

自2015年RPP项目的结果公布,表明其中的100项心理学研究中只有39项得到重复以来,心理学可重复性的危机已昭然若揭。不可重复背后主要涉及到各种不规范的研究操作,研究中使用的统计方法和出版偏见。为应对这种危机,新提出的TOP标准强调研究要提前注册,完整公开,开放数据与材料。运用R语言各种包和函数的强大功能,能有效增强心理学研究的规范化,促进研究的公开、透明和开放,从而提升研究的可重复性。

天津师范大学应用心理专业硕士。PsychoR团队成员,研究方向为科研规范化与可重复研究的实现。

余嘉元

心理学在助老机器人研发中的应用

当前70岁以上老年人存在不同程度的孤独感和抑郁感,影响了他们的心理健康水平。在研发助老机器人的过程中,我们采用隐马尔可夫模型和神经网络对老年人的语音进行分析,通过模糊模式识别方法对他们的孤独和抑郁程度进行评定。然后在事先构建的心理辅导知识库中提取相应的专家知识,对老年人进行个别化的干预,从而缓解其孤独感和抑郁感。

南京师范大学教授,博士生导师,享受国务院特殊津贴专家。目前担任中国心理学会理事,心理测量专业委员会副主任、中国机器学习学会理事和《心理学报》编委等职务。研究内容主要包括心理测量和认知心理学,出版了《教育和心理测量》等多部专著,在国内外学术刊物上发表了200余篇论文。在心理测量方面,主要是对项目反应理论的研究,包括对项目反应模型和参数估计方法的研究。在认知心理学方面,主要是对问题解决的策略、联结主义(又称人工神经网络)及其应用进行了研究。

自由讨论

自由讨论

自由讨论

自由讨论

吕正东

从语言智能到法务智能

虽然法律服务一贯具有较强的技术免疫力,但是倚重信息检索、文件整理和逻辑推理的法律事务确实是人工智能特别是语言智能“发挥所长”的绝佳领域。本报告将围绕语义解析这一自然语言处理的终极任务,探索NLP技术将如何重塑以法律为首的传统行业。我们提出和发展了深度学习和符号智能结合的方法在法律领域语义解析上的应用,这些方法能够系统性地利用领域知识,并在弱监督信号下进行有效的学习。以高效准确的语言技术为基础,我们可以构建行业专家的辅助系统,为人工服务中标准化的部分带来优化与变革。

吕正东,俄勒冈健康与科学大学计算机科学博士。曾于德州大学奥斯汀分校师从国际大数据及人工智能国际权威之一Inderjit  Dhillon教授(ACM、IEEE、SIAM院士),之后曾任职于微软亚洲研究院、华为诺亚方舟实验室等著名研究机构。长期从事机器学习及人工智能的研究,在深度学习、自然语言处理、多模态学习和半监督学习领域卓有建树,是深度学习领域(尤其是自然语言处理方向)具有世界一流水平并享有国际声誉的科学家和技术专家。2016年创立深度好奇(北京)科技有限公司并任CTO。

郑亚斌

智能时代的量化资产管理

信息爆炸的互联网时代背景下,如何利用人工智能技术提供高效准确的资产管理服务成为金融行业关心的话题。日趋增长的差异化资产管理需求也为传统资产管理行业提出了新的挑战。该报告将介绍如何利用自然语言处理、机器学习等相关技术,从模型预测、信息检索、智能投顾等角度辅助投资决策。智能时代下的资产管理需要最大化地结合机器快速准确的处理效率及投资专家丰富的投资经验。

郑亚斌,2006年于清华大学计算机系获得学士学位,2011年于清华大学计算机系获得博士学位,主要研究方向为自然语言处理、人工智能。2011年7月至2013年9月就职于国信证券经济研究所,任金融工程分析师,研究兴趣涵盖量化择时、行业配置、选股及量化对冲策略。2013年9月至2016年2月就职于青骓投资管理有限公司,担任投资经理,管理“光大-青骓CTA二期”产品。2016年3月至今就职于鸣熙资产管理有限公司,担任投资总监。

张超

自然语言处理在医疗智能辅助中的应用

医疗领域是人工智能重点应用领域,本报告重点阐述康夫子公司将自然语言处理技术医疗智能化中的应用研究。在应用层面,主要表现为针对医生行医过程中提供临床辅助(如:病历书写辅助、诊断辅助)、针对医学科研提供的病历可视化服务以及针对患者提供的导诊服务等等。在技术层面,本报告概述了自然语言处理技术在知识图谱构建、病历结构化、智能诊断、对话交互、语义理解等方面的应用。

张超,北京康夫子科技有限公司创始人。曾在新加坡国立大学从事人工智能方向的研究工作,后担任百度自然语言处理部资深研发工程师、文本知识挖掘方向负责人,是知识图谱、实体建模方面专家.

赵鑫

面向社交媒体的商业大数据挖掘

最近几年,随着互联网技术的快速发展,社交媒体服务在用户的真实生活中发挥着越来越重要的作用,得到了广泛使用。同一用户可能同时拥有多个社交媒体网站的账号,分别对应着不同的网络社区身份。以这些社区身份为基础,用户可以同时参与到多个社交媒体平台,享受其中提供的应用服务。因此,在打造电子商务服务时,能否同时围绕用户的“真实身份”与“在线社交身份”,是一个很重要的思维创新。同时利用电子商务平台上的数据以及社交媒体平台上的用户数据,将能够解决一些之前电子商务平台网站很难解决的技术挑战,如冷启动推荐问题等。本次报告将围绕用户画像构建、用户意图检测和用户需求推荐等方面来进行相关内容介绍。

赵鑫,现为中国人民大学信息学院教师。师从北京大学李晓明教授,专注于研究社交用户的兴趣建模。近五年内在国内外著名学术期刊与会议上以第一作者或者第二作者身份发表论文40余篇,其中包括信息检索领域顶级学术期刊ACM TOIS和学术会议SIGIR、数据挖掘领域顶级学术期刊IEEE TKDE和学术会议SIGKDD、自然语言处理顶级会议ACL和EMNLP。所发表的学术论文取得了一定的关注度,据Google Scholar统计,已发表论文共计被引用近1400次,其中以第一作者发表的《Comparing Twitter and Traditional Media Using Topic Models》单文被引用640次。担任多个重要的国际会议或者期刊评审、CCL 2016和AIRS 2016出版主席、NLPCC 2017和SMP 2017的领域主席等。

吴珂皓

NLP在金融报告自动化的实践

投行、咨询公司依赖着昂贵的人力撰写分析研究报告,存在大量的重复劳动工作,由自然语言理解、知识图谱和自然语言生成技术组成的报告自动化技术正在逐步帮助这些公司降低成本提高工作效率。依靠自然语言理解对PDF进行结构化处理,在主内容分析、篇章语义的结构化、表格数据的结构化、文本摘要上都有不错的发挥;而知识图谱在知识推理和检索方面都有不错的表现;依靠自然语言生成和数据可视化帮助分析师自动生成报告,降低人力成本。

吴珂皓,北京文因互联数据科学家,曾在美国杜兰大学负责大规模数据分析、管理维护研究中心数据仓库和高性能计算集群,发表多篇SCI论文,现负责文因互联报告自动化项目。

自由讨论

自由讨论

自由讨论

自由讨论

朱军

Triple Generative Adversarial Networks

Generative adversarial nets (GANs) are good at generating realistic images and have been extended for semi-supervised classification. However, under a two-player formulation, existing work shares competing roles of identifying fake samples and predicting labels via a single discriminator network, which can lead to undesirable incompatibility. In this talk, I will present triple generative adversarial net (Triple-GAN), a flexible game-theoretical framework for classification and class-conditional generation in semi-supervised learning. Triple-GAN consists of three players - a generator, a discriminator and a classifier, where the generator and classifier characterize the conditional distributions between images and labels, and the discriminator solely focuses on identifying fake image-label pairs. With designed utilities, the distributions characterized by the classifier and generator both concentrate to the data distribution under nonparametric assumptions. Our results on several datasets demonstrate the promise in semi-supervised learning, where Triple-GAN achieves comparable or superior performance than state-of-the-art classification results among DGMs; it is also able to disentangle the classes and styles and transfer smoothly on the data level via interpolation on the latent space class-conditionally.

朱军,清华大学计算机系长聘副教授、卡内基梅隆大学兼职教授、智能技术与系统国家重点实验室副主任、深度学习技术与应用国家工程实验室副主任。2001到2009年获清华大学计算机学士和博士学位,之后在卡内基梅隆大学做博士后,2011年回清华任教。主要从事人工智能基础理论、高效算法及相关应用研究,在国际重要期刊与会议发表学术论文近百篇。受邀担任人工智能顶级杂志IEEE TPAMI和AI的编委、《自动化学报》编委,担任机器学习国际大会ICML2014地区联合主席, ICML (2014-2017)、NIPS (2013, 2015)、UAI (2014-2017)、IJCAI(2015,2017)、AAAI(2016, 2017)等国际会议的领域主席,中国计算机学会(CCF)学术工委主任助理。获微软学者、CCF优秀博士论文奖、CCF青年科学家奖、国家优秀青年基金、中创软件人才奖等,入选国家“万人计划”青年拔尖人才、IEEE Intelligent Systems杂志评选的“AI’s 10 to Watch”(人工智能青年十杰)、及清华大学221基础研究人才计划。

熊熹

大规模线上实验与机器学习

大规模线上实验在京东每一天都在发生,大到一个全新的模块乃至平台上线,小到一个icon颜色,样式的更改,主要以AB试验的形式进行。大多数试验遵循直觉,数据收集和整理的工作冗长,但是对需要测试的指标以及收集到的数据的验证工作比较简单,容易造成区分度不足乃至和真实结论南辕北辙的情况。本次报告会详细介绍线上实验的基本科学原则,实施细节,容易犯的错误;并结合google,微软,LinkedIn,Amazon等公司的最新研究论文,以及京东个性化推荐中的实践,从案例中学习如何使用机器学习和人工智能技术来验证数据一致性,降低误差等。

2015年加入京东,一直致力于机器学习算法在京东个性化与推荐业务中的应用,目前主要负责个性化业务中大规模线上实验,指标定义,异常追踪和用户体验优化等。曾在国内外知名大公司和研究机构从事复杂实验设计的理论和实践工作,并持续跟踪大规模线上实验与机器学习在其中应用的前沿研究。由于在利用人工智能技术提升个性化用户体验以及更全面科学地定义个性化对京东的贡献等工作上的突出贡献,曾获得2016年度CTO特别奖。

林绍波

Learning theory for deep nets

Deep learning has attracted avid research activities in the past few years. Compared with comprehensive application studies, the theoretical verifications lag heavily behind. This talk aims at developing a learning theory for deep learning to illustrate the power of deep nets. We construct a deep net containing pre-training stage, learning stage and fine-tuning stage to embody the three features of deep learning: multi-layered neural networks, large-scale algorithms and fine-tuning. Our constructed deep net is proved to attain the optimal learning rate when the ambient space is a lower dimensional manifold. This optimal learning rate is better than the existing results for shallow nets and therefore, shows the outperformance of deep nets.

2014年10月毕业于西安交通大学.2015年3-2016年3月,香港城市大学博士后。现工作于温州大学统计系。研究方向为分布式学习理论与深度学习理论。

王流斌

腾讯社交广告实践中智能出价新模式:oCPA

长期以来因为数据和技术的限制,业内的广告系统大多只将广告的效果优化止于展现和点击阶段。我们系统中是如何衡量和优化广告转化效果的呢?此次分享首先从营销漏斗开始介绍什么是转化。接着以电商和App为例讲解转化归因和转化跟踪技术。然后讲解转化率预估的建模方法、挑战和技术实现。最后介绍转化率在广告出价排序阶段的应用。希望通过分享让大家对转化闭环生态体系中的相关技术应用有一个整体的了解和认识。

王流斌,2010年硕士毕业于北京大学软件工程专业,同年加入腾讯,先后参与过搜索广告、情境广告、社交广告的系统研发和策略优化工作,专注于大规模并行机器学习系统研发、特征选择、转化率预估及应用等技术方向。担任Tech Lead的oCPA项目获得腾讯2016年度公司级技术突破奖。

陈开江

bandit算法与推荐系统

推荐系统里面有两个经典问题:EE问题和冷启动问题。前者涉及到平衡准确和多样,后者涉及到产品算法运营等一系列东西。bandit算法是一种简单的在线学习算法,常常用于尝试解决这两个问题,本文为你介绍基础的bandit算法及一系列升级版,以及对推荐系统这两个经典问题的思考。

陈开江@刑无刀,天农科技CTO,曾任新浪微博资深算法工程师,考拉FM算法主管,个性化导购APP“Wave”和“边逛边聊”联合创始人,多年推荐系统从业经历,在算法、架构、产品方面均有“些许”实践经验。

自由讨论

自由讨论

自由讨论

自由讨论

靳志辉

Building User Profiles from Online Social Behaviors, with Applications in Tencent Social Ads

The QQ (800M monthly users) and Wechat (700M monthly users) are the two largest instant messaging / social networks in China. Tencent Social Ads is the advertising system for both Wechat and QQ, serving well over 10B page views per day, for hundred million daily users.

We strive to understand as much as possible on our users’ multiple aspects, so as to serve the best personalized ads for them. The rich user behaviors on Tencent’s many products lay a solid foundation in user profiling. We develop audience targeting on many dimensions, including demographics, interests, intents, transactions, physical locations, and access environment, etc.

In this presentation, we will share our experience in large-scale user data mining for audience targeting, and discuss the challenges we face and the solutions we have employed.

Rickjin(靳志辉) ;北京大学计算机系计算语言所硕士,日本东京大学情报理工学院统计自然语言处理方向博士。2008 年加入腾讯,主要工作内容涉及统计自然语言处理和大规模并行机器学习工具的研发工作。 目前担任腾讯社交与效果广告部质量中心研发总监,主要负责腾讯用户数据挖掘、精准广告定向、广告用户体验优化、广告转化率预估等工作。

高瀚

微信中的社会传播课题与实践

俗话说“酒香不怕巷子深”,表面上说的是酒香引人,实际上是指好酒在街坊邻里间口耳相传,酒借着口碑飘香千里,毋须大张旗鼓的门面,也自会有客似云来。这就是口碑营销,其背后是社会传播在起作用。线上社交工具的兴起,为传统的社会传播学带来了全新的研究视角,也提供了广阔的应用场景。本次分享将简要介绍微信中的社会传播问题、研究以及应用。

高瀚,2013 年毕业于中山大学,获数学学士及应用统计硕士学位。毕业后加入腾讯,主要从事社交网络、社会传播以及 LBS 等领域的研究。先后主导“腾讯 LBSN(基于地理位置的社交网络)”、“宜出行(城市热力图)”等系统的研发,其中“宜出行”成为微信城市服务中的亮点功能之一,并获得 IEEE 大数据峰会(深圳分会)技术创新奖。目前正在尝试将传统的社交网络理论与机器学习相结合,应用于在微信业务中,并取得了一定的成果。

周静

从文本分析看小说中人物的复杂关系:以琅琊榜为例

本报告通过对人气网络小说《琅琊榜》进行小说三要素的文本分析,从人物形象、故事情节和典型环境三个方面进行剖析。在人物形象的分析中主要探索不同人物之间的关系、从他们的动作、语言等方面去探索他们不同的性格特征。在故事情节上,主要对小说的开端、发展、高潮和结局做了相应的分析,同时为了研究人物之间复杂的关系,我们对角色之间的亲密度、出场密度和称谓的变化等进行了分析。最后选取了几个典型环境来分析故事情节的发展。

周静,中国人民大学统计学院助理教授,北京大学光华管理学院管理学博士,研究上关注复杂网络数据建模、营销模型、消费者行为分析等,研究论文发表于Journal of business and economic Statistics、Science China Mathematics、营销科学学报等国内外权威杂志上。在产业实践上,对客户流失预警模型、用户欺诈模型等相关模型具有丰富的实战经验。热衷案例创作,是微信公众号狗熊会精品案例的作者之一。

张忠元

On equivalence of likelihood maximization of stochastic block model and nonnegative matrix factorization, and beyond

Community structures detection in complex network is important for understanding not only the topological structures of the network, but also the functions of it. Stochastic block model and nonnegative matrix factorization are two widely used methods for community detection, which are proposed from different perspectives. The relations between them are studied in this talk. The logarithm of likelihood function for stochastic block model can be reformulated under the framework of nonnegative matrix factorization. Besides the model equivalence, the algorithms employed by the two methods are different.
Furthermore, we design new matrix factorization model for signed network, and its effectiveness is evaluated.

张忠元目前为中央财经大学统计与数学学院教授,博士生导师,中国计算机学会高级会员和果壳网科学顾问. 主要研究兴趣在机器学习和复杂网络分析. 在中国科学、Data Mining and Knowledge Discovery、Physical Review E、EPL(Europhysics Letters)、Scientific Reports、Knowledge and Information Systems、BMC Bioinformatics 等期刊发表过论文.

陈成龙

Kaggle 数据挖掘比赛经验分享

Kaggle 是一个全球范围内具有很高影响力的大数据比赛平台,举办过很多有名的比赛,如 KDD Cup。同时,不少知名的公司(如 Google,Facebook,Microsoft 等)也在 Kaggle 上发布题目,开放数据,吸引全球上万名数据科学家共同来解决业界难题。此次分享会首先介绍 Kaggle 比赛的一些基本情况,包括参赛方式,比赛流程,组队方式,在线论坛和编程环境等。进一步,我们会介绍 Kaggle 比赛项目类型,以及相应的常用机器学习技术和工具,涵盖图像分类,搜索相关性和 pCTR 等任务。最后会结合具体的比赛项目,分享特征工程,模型训练和模型集成等方面的一些经验。

陈成龙, 2015 年博士毕业于中山大学,研究图像篡改检测,在图像领域顶级期刊 IEEE Transactions on Image Processing 上发表论文2篇,Kaggle CrowdFlower 和 HomeDepot 搜索相关性比赛分获第一和第三名,曾在 Kaggle 数据科学家排行榜上排名全球第十。目前在腾讯社交与效果广告部任职数据挖掘工程师,负责 Lookalike 相似人群扩展相关工作。

张志杰

The relationship between meteorological factors and hand, foot, and mouth disease (HFMD): DLNMs-based time-series analysis

简单回顾一下时间序列分析以及R中的时间序列分析程序包,然后聊一下以往时间序列分析的问题,引入DLNMs方法。以手足口病为例,重点介绍一下该模型在实际研究中的应用,建模过程中的一些细节,快速演示一下软件的操作,以及结果的解释,以期让听众能有效地掌握该技术方法。

复旦大学流行病学与卫生统计学,副教授,研究方向为空间流行病学、统计方法与模型。

张兵

Assessment of the impact of climate on respirotory infectious disease via pomp package in R

气象因素与传染病发病关系密切,已有很多研究如广义相加模型、小波分析等一系列方法来探讨过气象因素是如何作用于传染病的,但上述方法都不能解决哪些气象因素作用于病原体,哪些气象因素作用于人体。本研究通过构建一个含阈值和滞后效应的传染病动力学模型,并通过基于隐马尔科夫模型和粒子滤波算法从生态学角度探讨气象因素作用于传染病的可能机制。

2014年6月从华中科技大学劳动卫生与环境卫生学系毕业,先就职于浙江省疾病预防控制中心,现如今就职于广东省公共卫生研究院。支持开源软件,喜欢折腾代码和数据,对传染病动力学模型、时空数据分析和数据可视化感兴趣,现今主要研究气象环境因素对传染病发病的影响。

蔡俊

R Epidemics Consortium and Using Its Packages to Analyze Influenza Data

R流行病联盟(R Epidemics Consortium,RECON)聚集了一群传染病建模、公共卫生和软件开发方面的国际专家,通过使用R软件创建下一代疾病暴发响应分析工具。RECON目前包括使用最前沿的统计方法对疾病暴发数据进行处理、可视化以及分析的专门软件包,以及更多针对疾病数据清理、版本控制和加密等通用工具。本演讲将介绍RECON的创立背景、目标、成员以及拥有的R流行病方面的软件包项目和资源,最后以分析流感暴发数据为例,展示如何利用RECON的incidence和EpiEstim包快速绘制流行曲线并估计随时间变化再生数。

蔡俊,清华大学地球系统科学系生态学专业2012级直博生,研究兴趣包括流感传播动态、传染病流行病学和环境健康。博士期间主要从事中国内地2009年甲型H1N1流感时空传播动态研究,并于美国国立卫生研究院Fogarty国际中心国际流行病学和人口研究司短期访学。同时是一名R语言爱好者,拥有5年R语言编程和数据分析经验,是geoChina和humidity包作者以及animint和incidence包贡献者,R Epidemics Consortium成员。近期对R在传染病建模中的应用感兴趣。

李瑞云

中国H7N9禽流感暴发模拟与预测

H7N9禽流感病毒的出现对中国以及世界公共健康构成了重大挑战。然而,对于其在家禽中的传播及扩散模式和家禽到人的跨宿主传播机制知之甚少。本文将流行病学模型和数据同化方法结合起来,并利用人感染H7N9禽流感病例来估计流行病学重要参数,并且对家禽和人感染禽流感做出了预测。研究结果表明,尽管H7N9禽流感病毒在家禽中造成了较大规模的感染(33%),但从家禽至人的跨宿主传播的可能性较低。此外,我们能较准确的预测出H7N9在人类中传播时的峰值时间和爆发强度。该研究结果说明,H7N9禽流感病毒在禽类中的传播模式以及实时的跨宿主传播是可预测的。

北京师范大学2014级博士研究生,研究方向:环境健康

程渠

基于R语言的登革热传播模型建立与参数化

登革热是世界上传播最快的蚊媒病毒传染病。2014年广州市共报告38036例病例,占1990到2015年中国大陆报告病例数的52%。数学模型可以被用于研究2014年广州市登革热暴发的决定因素。本演讲的主要内容包括利用R语言建立登革热传播数学模型;利用区域敏感性分析法(regional sensitivity analysis)来对模型进行参数化;构建不同情景来研究暴发的决定因素。

清华大学地学系博士生

贾鹏飞

基于R语言环境下气候因素-登革热媒介蚊虫的动力学模型建立与研究

气候变化是一个典型的全球尺度环境问题,其中全球变暖给我们带来的影响毋庸置疑。登革热作为一种蚊虫传播的病毒病在全球均有分布,并广泛流行于全球热带及亚热带地区。白纹伊蚊作为该疾病的重要传播蚊虫媒介,在全球大面积扩散造成了显著影响。从蚊虫角度出发,白纹伊蚊幼虫生长发育和活动规律与气温、降水量、光周期等自然因素密切相关。该研究通过构造数学微分方程组的形式,建立“气候因素-白纹伊蚊”种群动态模型,并模拟中国大陆的白纹伊蚊生长和繁殖情况。其中方程组的求解过程以及模拟结果的展示均借助R语言强大的编程环境和绘图工具完成。该工作在一定程度上说明R语言在公共卫生领域有强的应用前景,同时表明该机理模型对在未来气候情境下的种群预测和防治工作有重大的指导意义。

贾鹏飞,北京师范大学全球变化与地球系统科学研究院2014级博士生。博士期间主要从事登革热媒介白纹伊蚊种群的时空建模,以及全球变化与媒介种群波动的分析工作。该研究隶属973国家重大专项 “气候变化对人类健康的影响”子课题。博士阶段科研工作突出,曾获 “北京师范大学学术一等奖学金”,在国际上疾病媒介研究期刊Parasites&Vectors(SCI二区)发表学术论文2篇,多次参加国内外学术会议并做专题报告。在该课题研究过程中,该种群模型中动力学方程的建立和求解主要通过R语言编程实现,后续的绘图工作多利用其中的ggplot工具完成,对R语言在公共卫生方面的研究有一定的心得体会。