最新信息

会议信息

第七届中国R语言会议
时间:2014年5月24~25日
地点:
  • 24日:中国人民大学如论大讲堂
  • 25日:中国人民大学明德商学楼102、202、302分会场
主办方:
  • 中国人民大学统计学院
  • 中国人民大学应用统计科学研究中心
  • 北京大学商务智能研究中心
  • 统计之都
协办方:
  • 量邦科技

会议通知

点击下载会议手册。

邀请演讲嘉宾

  • 王汉生

    北京大学光华管理学院商务统计与经济计量系主任

  • David Smith

    Revolution Analytics公司Chief Community Officer

  • Hadley Wickham

    RStudio公司首席科学家

  • 余凯

    百度深度学习研究院常务副院长

  • 周明

    微软亚洲研究院自然语言计算组首席研究员

  • 刘思喆

    京东商城个性化推荐组负责人

  • 张尚轩

    SupStat Inc.首席技术官和联合创始人

  • 胡浩

    微量网CEO

演讲主题

  • 余凯(百度IDL):Deep Learning Unfolds Big Data Era
  • 周明(微软MSRA):计算机对联和诗词
  • 王汉生(北大光华):A Statistical Model for Social Network Labeling
  • Hadley Wickham(RStudio):R packages: principles and best practices
  • David Smith(Revolution):How the growth of R helps data-driven organizations succeed
  • 张尚轩(SupStat):大数据的新方向:公开同享趋势下的新数据产业
  • James Wicker(中国科学院国家天文台):Multi-Cluster Detection
  • 靳志辉(腾讯):广告定向中的用户分析
  • 廖逸竹(优酷土豆):玩转三亿视频 – 数据分析在视频产业的应用
  • 林荟(杜邦先锋):数据分析在传统行业商业决策中的应用
  • 肖楠(中南大学):Integrated Pipeline for Systems Pharmacology in R/Bioconductor
  • 刘思喆(京东):R与企业级数据挖掘
  • 李舰(檬果咨询):R与文本挖掘
  • 寇强(华南统计科学研究中心):突破R内存瓶颈的若干技术
  • 周扬(AdMaster):它山之石可以攻玉:recharts图形包
  • 张晔(中山大学):科研角度下的R包开发
  • 胡浩(上海国富投资管理有限公司):云计算时代的量化投资
  • 鄭義(國立中山大學): 基金評選平台之建立
  • 張家齊(Taiwan R Group): Hacking Models With R
  • 吳齊軒(Taiwan R Group): Large Scale Learning with R
  • 丘祐瑋(Taiwan R Group): Big Data Analysis With RHadoop
  • 王亮博(Taiwan R Group): Interactive Visualization with R
  • 郭韋廷(Taiwan R Group): Data Analysis with R and Python
  • 牟官讯(量化投资人):开发的血和泪,交易的冰与火
演讲嘉宾 演讲主题

余凯

百度深度学习研究院(IDL) 常务副院长,南京大学和北邮兼职教授,中科院计算所客座研究员,国家“千人计划”专家、中关村高端领军人才及北京市海外高层次人才。

余凯先生先后毕业于南京大学和慕尼黑大学,毕业后曾在微软、西门子和NEC工作。曾任斯坦福大学计算机系Adjunct Faculty。

他至今发表数十篇论文,论文共计被引用5000余次,曾荣获ICML-2013的最佳论文奖银奖,并曾在PASCAL VOC, ImageNet等竞赛中获国际第一。2013年,他领导的百度语音团队荣获“2013百度最高奖”,其团队开发的基于图像技术的“百度魔图PK大咖”成为2013年最火爆的移动图片应用产品之一。近年来,他领导的团队使得深度学习在互联网广告业务和网页搜索排序获得突破性进展。

Deep Learning Unfolds Big Data Era

Abstract: Dr. Kai YU, Head of Institute of Deep Learning (IDL) at Baidu, will speak about Baidu’s recent efforts in developing cutting-edge technologies in the areas of deep learning and broader artificial intelligence. By leveraging big data aided by massive parallel computation, enthusiastic IDL researchers have led to significant improvements to Baidu's core business, such as search, ads, speech recognition and computer vision. More importantly, these technologies have been shaping up a foundation for imaginative long-term innovation.

王汉生

统计学博士,北京大学教授、博士生导师,现任北京大学商务智能研究中心主任和北京大学光华管理学院商务统计与经济计量系主任。

先后毕业于北京大学数学科学学院概率统计系(1998),美国威斯康星大学麦迪逊分校(2001)。现为国际统计研究员、美国统计学会、美国数理统计研究员;英国皇家统计协会以及泛华统计学会会员。同时也是Computational Statistics & Data Analysis (2008—现在),Statistics and its Interface (2010—现在),Journal of Business and Economic Statistics(2012至今)和Journal of the American Statistical Association (2011至今)的副主编。至今已发表英文学术论文五十余篇,中文论文近二十篇。同时曾合著英文专著一本,独立完成中文教材一本。关注的理论研究领域包括:高维数据分析、变量选择、数据降维、极值理论以及半参数模型等;关注的应用研究为:搜索引擎营销和社会关系网络等。

A Statistical Model for Social Network Labeling

Abstract: We consider here a social network from which one observes not only network structure(i.e., nodes and edges) but also a set of labels (or tags, keywords) for each node (or user). These labels are self-created and closely related to the user's career status, life style,personal interests, and many others. Thus, they are of great interest for online marketing. To model their joint behavior with network structure, a statistical model is developed.The model is based on the classical p1 model but allows the reciprocation parameter to belabel dependent. For both dense and sparse networks, we obtain maximum likelihood estimators, which are statistically efficient but computationally expensive. To alleviate the computational cost, a novel conditional maximum likelihood estimator is proposed for large scaled sparse network. The asymptotic properties of these estimators are investigated.Simulation studies are conducted and a real Sina Weibo dataset is analyzed.

David Smith

David Smith是Revolution Analytics公司的Chief Community Officer。他领导着该公司的开源解决方案团队。借助他的数据科学背景,他每天都在Revolution的博客网站上撰写R语言在预测性分析中应用的文章。 他被福布斯杂志评为“大数据”主题中十大最有影响力人物之一。他是R语言的培训手册“An Introduction to R”的作者之一,并且是ESS项目(Emacs Speaks Statistics,Emacs与R相互的插件)的最初开发者之一。在加入Revolution Analytics之前,David是Insightful公司负责S-PLUS产品管理的董事之一。他的twitter账号是@revodavid

How the growth of R helps data-driven organizations succeed

Abstract: Adoption of the R language has grown rapidly in the last few years, and is ranked as the number-one data science language in several surveys. This accelerating R adoption curve has been driven by the Big Data revolution, and the fact that so many data scientists — having learned R at university — are actively unlocking the secrets hidden in these new, vast data troves.

In more than 6 years of writing for the Revolutions blog, I’ve discovered hundreds of applications of R in business, in government, and in the non-profit sector. Sometimes the use of R is obvious, and sometimes it takes a little bit of detective work to learn how R is operating behind the scenes. In this talk, I’ll begin by presenting some recent statistics on the growth of R. Then I’ll recount some of my favourite applications of R, and show how R is behind some amazing innovations in today’s world.

Hadley Wickham

RStudio公司的首席科学家,同时也是美国Rice大学的助理教授。他开发了著名的ggplot2plyr包.

R packages: principles and best practices

R packages have a reputation for being complex, unwieldly beasts that need decades of study to master. In this talk, I'll show you that you when you have the right tools, R packages are easy; so easy, in fact, that they should be your default whenever you combine code, data or documentation. Packages are great just for yourself, and they're also great if you want to share. Sharing a package requires a little more work so that it works everywhere (not just on your computer), but the right mindset and the right tools make easy and a small additional time investment makes it possible for you to share you work with the world through github or CRAN.

You might think that you'll never need a package because you only use R to do data analysis. But many data analysis are complex, and can't be solved with a few lines of R code. Instead, you need to write functions to capture common solutions to repeated problems. As soon as you start writing functions, it's a good idea to learn a little bit about packages so that you can make functions that are well-documented and well-tested.

周明

微软亚洲研究院自然语言计算组首席研究员,中国计算机学会通讯动态栏目主编。哈工大、南开大学等高校博导、清华-微软联合实验室联合主任。周明先生于1991年在哈工大获得博士学位,1991年到1999年在清华大学计算机系任博士后和副研究员。1999年加盟微软亚洲研究院,随后开始担任计算语言计算组的负责人(曾短期兼任过语音组的主任)。他是中国第一个中-英机器翻译系统CEMT-I、中-日机器翻译系统J-北京的发明人。

此外,他领导团队开发了微软对联、微软中日文输入法、英语写作助手、微软聊天机器人、必应词典、英库问答、微博搜索、微软中-英翻译等系统,其团队为必应搜索、Office、SQL、Windows及微软语音翻译系统等产品做出重要贡献。其与中科院计算所合作的基于Kinect的手语的识别和翻译也声名不菲。他曾任首届亚洲信息检索大会(AIRS2004)程序委员会主席、中国计算机学会自然语言处理和中文计算大会(NLP&CC)程序委员会主席(2012年首届大会)和大会主席(2013年),并曾多次担任ACL、SIGIR、EMNLP、IJCAI、COLING等国际学术会议的领域主席。

计算机对联和诗词

摘要:对联和诗词是中国的重要文化遗产。对联和诗词有严格的对仗、平仄、韵律等要求,并讲究意境的精妙。用计算机自动产生对联和诗词是人工智能的一项难题,而且在学术界的研究也不多见。本研究创造性地把对联和诗词生成看作是一种特殊的机器翻译过程。我们提出了一个基于短语的机器翻译的解码方法。对用户输入的上联,系统产生下联的多个候选。然后一组基于对联要求的语言学规则惩罚不符合对联要求的候选。最后,通过一个Ranking机制综合利用多属性进行重新排序。基于这个方法,我们开发了微软对联系统(http://duilian.msra.cn)。

在对联研究基础上,我们进一步扩展到对诗词的自动生成研究,我们目前以绝句为例进行了初步研究。目前的场景是用户给出几个关键词,用于描述自己的意图,然后系统生成一首绝句。系统首先通过语言模型生成绝句的第一句。然后,采用统计机器翻译的方法逐句生成以下三句。在生成第N句的时候,考虑了以前生成的N-1句以避免词语的重复、遵循对仗和平仄,并保证意义的连贯。通过初步的实验验证了本方法的有效性。

陈景祥

中华R软件研发暨应用协会(www.carra.org.tw)秘书长,淡江大学副教授。

R-Web:大数据分析及导引云平台

R语言项目(R-Project) 经过多年的发展,目前已是各国统计专业人士最常使用的分析工具。近两年来,随着大数据观念的普及,R语言在数据科学的应用上也逐渐受到各个应用领域专家的关注,并已经成为主要的分析工具,虽然R本身包含了完整的程序语言功能以及众多的包(package),但是数据分析与应用人员未必都具有R的编程能力,因此开发一个只需鼠标点选即可完成分析任务的用户图形接口(GUI) 就扮演了相当重要的角色。 在R中原本就已经有若干图形界面的包可供选用,例如 R-Commander、Rattle,以及可供制作图形接口的 JGR、PMG、gWidgets 等等,但是这些套件都各有缺点,在中文接口与计算结果的呈现也未必理想。 R-Web 是第一个针对中文所开发的大数据分析及导引云平台,用户仅需使用计算机或行动装置的浏览器即可进行数据分析。R-Web 除了数据处理与一般统计分析之外,另外还包含数据挖掘、时间数列、广义线性模式(GLM)、存活分析、以及结构方程模式(SEM)等多样的分析方法,对于初学者或对分析方法不熟悉的使用者而言,R-Web 也提供了分析目标导引系统,让用户可以经由问与答方式来找到适用的统计分析方法,提高分析效率及增加分析知识。

胡浩

胡浩,现任微量网络科技CEO(互联网证券金融领域的国家高新技术企业),毕业于中国人民大学,获统计学硕士和金融工程博士学位,曾担任中信证券首席金融工程分析师、多家大型资产管理机构量化投资负责人。 胡浩博士长期从事数量金融研究,曾带领中信证券金融工程团队在《新财富》最佳分析师评选、中国证券业协会、深圳证券交易所征文大赛等活动中多次获奖。胡浩博士致力于以大数据分析为基础、结合金融理论和投资者行为分析解释资本市场现象,构建A股市场量化投资策略体系。他目前主导的“微量网”项目是互联网证券金融的领导品牌,搭建了投资策略提供者和策略使用者之间的“云交易”平台。

云计算时代的量化投资

随着资本市场的发展,量化投资逐渐为国人所熟悉,但看起来,似乎只有专业人士才能进行量化投资,其实不然,量化投资的核心在于你是否具有“模式”投资的思维,而数据存储、模型测算、IT执行等在云计算时代不再成为一个难题。换句话说,如果你从量化的角度思考资本市场并且找到了某些规律性的东西,那么在云计算时代,在外部系统的帮助下你也可以成为一个高效的量化投资者。

景亮

现任量邦科技策略研发总监,毕业于中国科学技术大学(物理学学士),美国印第安纳大学布鲁明顿分校(物理学硕士),美国德克萨斯大学圣安东尼奥分校(应用统计学博士)。曾任美国德克萨斯大学统计咨询中心高级分析师,具有多年统计学行业应用经验和丰富的量化金融投资研究实践经验。

程序化交易策略开发与R

R作为最流行的统计分析和数据可视化编程语言有其独特的优势和广泛的使用者基础,策略编写语言作为程序化交易策略开发中最核心的部分直接决定着开发的效率和策略的质量,如何把R融入程序化策略开发之中、充分挖掘其优势是一个值得深入研究的问题。量邦科技作为国内顶尖的量化投资平台开发商在这一领域做出了一定的尝试:1)我们在程序化交易策略研发平台上,把R植入作为开发交易信号的编程语言;2)上游无缝接入行情数据,下游对接信号汇总和策略表现分析模块。如此一来,R语言爱好者可以直接使用R语言开发程序化交易策略

廖逸竹 Zoe Liao

台湾大学工商管理系毕业。 现为优酷土豆集团数据分析部的高级经理, 负责以商业决策为导向的相关分析, 包括用户多屏行为、视频内容特点、用户与内容关连等相关议题。曾在台湾的管理谘询公司、商业银行、及雅虎台湾从事商业分析, 关注领域为客户区隔、测试设计、风险预测模型、及客户价值极大化分析。

玩转三亿视频 - 数据分析在视频产业的应用

每日有1.2亿互联网用户与优酷土豆互动, 藉由对观众观看行为、影片搜索、评论互动等行为的解析, 得以了解不同类型影片的观众群、跨屏幕播放行为差异、影片关键情结点、内容偏好、UGC播放的重要影响因子等议题, 进而将所获信息及知识转化为对公司、内容及产品运营的正面影响。数据分析对网络视频的影响正如火如荼发生, 玩转优酷土豆三亿个视频, 且听我们如何化数据为故事, 化故事为行动!

张尚轩(Vivian Zhang)

SupStat Inc(分公司为北京数博思达信息技术有限公司) 首席技术官和联合创始人。她负责美国市场的业务拓展和多边合作,并将美国大数据的软硬件解决方案带入中国市场。她在美国获得计算机/统计学双硕士学位,曾在布朗大学统计研究中心、斯隆凯特琳癌症中心、纽约石溪大学医疗中心等机构工作,参与多个重要的研究课题,并在影响因子第一名的JASA统计学杂志发表最新学术文章。

她创立了纽约公开数据Meetup,专注于利用公开数据教授一般民众和技术人员数据分析方法,为社会创造透明高效的运作秩序,为企业提供最优质最好的数据源来发展业务。在不到一年之内,她为技术和数据社区提供了80余场免费的教学讲座。 她亦是纽约数据科学学院的创始人,在纽约曼哈顿地区提供大数据专题教学,涵盖大量流行的数据分析和可视化编程工具(R, Python, Hadoop, D3.js, Processing, Location data query等),帮助企业培训优质的大数据人才。

大数据的新方向:公开同享趋势下的新数据产业

分享美国政府公开数据的进展情况,以纽约,芝加哥,旧金山等主要城市为例,以具体的例子来展示政府是如何与一般民众沟通信息,鼓励创新和监督。以纽约为例,分享各类数据公开之前的几个步骤和需要的条件。

分享美国公司公开数据的使用情况,以Oscar Health Care, On Deck Capital, Engima.io为例,企业是如何从公开数据中受益获利以及发展出与众不同的竞争力。

分享美国的公司之间又是如何通过分享数据,创造新的价值和便利。以医疗体系为例,医生之间,医院之间,医疗体系之间实现了快速电子医疗档案的传递,可携带设备公司与医疗体系之间便捷的数据传递同享。

最后分享公开数据一些有趣的小数据产品,例如利用云图精确预测下一分钟是否下雨的移动应用产品,例如气象报告来卖天气保险产品等。和公开数据的比赛,例如纽约Big Apps比赛,每年一次鼓励全世界的开发者来比赛,把公开数据的价值释放出来。

張家齊 Chia-Chi Chang

家齊是一位熱愛分析資料的工程師,熱愛分析資料,建立模型,討論數學。由於,早年喜歡作期貨與選擇權的程式交易,而縱觀 Open Source 的軟體中提供最多,跟投資策略分析相關資源的,大概就是 R 語言了。此外,在當時的台灣 Open Source 社群中,大多數也都集中在網站技術的討論,鮮少有資料相關的社群與活動!因此,在 2012 年時,就找了高中學長 Wush,一起共同創辦了 Taiwan R User Group 社群,以及相關的聚會!非常高興能夠有機會和社群的許多朋友們,一起組織聚會,一起討論,一起成長。

Hacking Models With R

在這個「大資料」時代崛起的「掏資料潮」中,Data Mining 等相關的技術被應用的越來越廣泛,也越來越深刻。不過,在真實的生活應用中,許多傳統的 Modeling 技術,還是常常會遇到許多困難與挑戰。因此,學會如何改寫 Model 來因應環境的需求,就成為了資料分析人員很重要的技能之一。在這場演講中,我將會介紹「R 中許多典型的資料模型」、「原始模型遇到的問題」、「模型背後的最佳化問題」、「如何改寫模型並改寫其 Solver」

吳齊軒 Wush Wu

Wush Wu 是臺大電機所的博士生,並且和宇匯知識科技合作,研發網路廣告的推薦引擎。R 是Wush最熟悉的工具,平時工作幾乎都使用R 來完成,包括利用R 爬資料、跑實驗、分析數據到撰寫報告和論文。也由於對R 的喜愛,所以和家齊於2012年創立Taiwan R User Group。實務經驗上,目前Wush利用Open Source R 、Rcpp和pbdMPI建立了分散式的學習系統來建立推薦模型,目前正在商轉中。在了解業界的環境和挑戰之後,目前則嘗試將整個分析的流程系統化及自動化,建立一套能夠持續改善推薦模型的SOP,更期望將所謂「讓數據說話」的思維落實到企業決策中,解決其他的實際問題。由於碩士畢業於統計所,所以Wush對於統計模型上的技術較為熟悉,目前也正和老師在撰寫Recurrent Data Analsys的分析套件。

Large Scale Learning with R

在資料爆炸的時代,運用大數據挖掘與探索商機是現在相當熱門的議題。但事實上要駕馭大數據卻不是件容易的事情,尤其在建立模型的部份,若在工具上沒能跨過門檻,就很難在有限時間產生資料的價值。這次Wush將分享運用R、Rcpp和pbdMPI所開發的高效能的大數據運算平台,包含完成對超過1億筆資料,僅花費1小時的建模經驗,以及跨過分析門檻與挖掘知識的過程。Wush除了介紹影響R運算速度的問題,以及實際克服問題的過程,同時也會分享如何運用系統化的概念創造資料價值的故事。

丘祐瑋 David Chiu

丘祐瑋 (David Chiu) 是碩源資訊 (numerinfo.com) 共同創辦人,TW.R Officer,也曾經是趨勢科技的工程師。David 是一位致力於提供 Data as a Service 的創業者與資料科學家,熟悉使用 Hadoop 進行巨量資料處理,暨長時間專注使用各式 Data Mining 技術從事資料分析;為台灣 Python 及 R 社群的忠實聽眾,喜愛參與社團交流與分享,希望能多了解如何使用 Python & R 讓資料分析更簡單上手。目前正在替 Packt 撰寫 Machine Learning With R Cookbook 及編評Bioinformaics With R Cookbook。

Big Data Analysis With RHadoop

談到海量資料,通常大家腦海中聯想到的就是使用Hadoop 的 MapReduce 和HDFS,但是撰寫MapReduce,則就必須要學會撰寫Java 或透過Thrift 接口才能撰寫。但R是否有辦法運行在Hadoop 上呢 ? 而使用R + Hadoop,是否就真的能結合R強大的分析功能,分析海量資料呢 ?

本次講題將介紹如何撰寫R的MapReduce 程式,並實際示範如何使用RHadoop 進行海量資料分析。更重要的是,此次將探討使用RHadoop 是否為海量資料分析找到一盞明燈? 或者只是另一套實作方法而已?

王亮博 Liang Bo Wang

台大生醫電資所在學碩士。喜歡寫 R、Python、統計與生物資訊。目前為 Taiwan R Users Group 工作人員及 Taipei.py 常客。

Interactive Visualization in R

近年來各種網路服務誕生,從要求畫圖好看,到要能與使用者互動。對於常見的圖表而言,現在已有套件如 D3.js、ECharts 能提供解決方案。而 ggplot2 的強大功能已經為 R 使用者提供簡潔又高質量的圖表解決方案。如何將 ggplot2 的圖表加入互動的元素,其中一個解決方案使用 gridSVG 作接口。本講題將以 gridSVG 為出發點,介紹 grid 框架、SVG 互動語法,並示範如何於 R 中接合 D3.js 來實現互動圖表。

鄭義

美國愛荷華大學財務博士、CFA,專長為權益金融商品設計、投資組合理論與金融資訊系統開發,現任台灣中山大學副教授,曾任台灣期貨交易所商品研發小組委員、保德信投信投資研究部副總經理、復華投信新金融商品部副總經理與資深諮詢顧問、寶來證券新金融商品部專案諮詢顧問等,具豐富的產官學經驗。

基金評選平台之建立

本團隊運用 R 語言,將多個基金指標融合為單一綜合指標,並藉此挑選較佳的基金產品,提供消費者簡易且有效的基金評選平台,此外有鑒於退休規劃之需求日益提升,本平台亦推薦數種嚴控風險的投資組合,做為長期投資之參考。

郭韋廷 Willy Kuo

Pandas (Python用來做Data Analysis的套件之一)的源碼貢獻者之一。Stackoverflow上Pandas的Top Answer之一。

Data Analysis in R and Python

近幾年Python發展出了許多Data Analysis的套件,越來越多人開始使用Python做Data相關的服務。相較專門用來做Data Analysis的語言,Python更易整合各式各樣的資源,介接Database、做個簡單的Web Dashboard、開API跟其他程式介接…這個Talk會介紹如何用Python來做Data Analysis,還有一些R和Python的比較。

靳志辉

先后毕业于北京大学计算机系计算语言所(硕士),日本东京大学(统计自然语言方向博士)。目前,在腾讯科技北京有限公司工作,担任研究员。曾参与腾讯效果广告平台的研发工作,工作范畴主要涉及统计自然语言处理和大规模机器学习,以及把这些技术工具应用于腾讯海量的用户行为分析和广告定向中

广告定向中的用户分析

腾讯拥有有庞大的互联网用户和流量,如何挖掘这些海量的用户的行为数据以支持腾讯广告业务中的精准定向是腾讯互联网业务中的一个难题。 在尝试精准广告定向的过程中,我们有几个任务需要解决:

  • 如何使用高效的机器学习算法对海量的用户行为数据进行语义挖掘?
  • 如何利用腾讯特有的社交行为数据挖掘用户的意图和兴趣?
  • 直接产生兴趣数据的用户相对较少,而相似的用户可能会有相似的兴趣, 能否通过相似用户计算,预测用户的兴趣?

本次演讲主要分享一下腾讯广点通广告定向团队在以上问题上做了一些积极的尝试所得到的一些初步成果。

林荟

先后毕业于北京师范大学数学科学学院(本科),美国爱荷华州立大学统计系(博士)。2009-2013年曾为爱荷华州立大学兽医学院和商学院提供统计咨询服务;2013年5月起任杜邦先锋全球总部市场部统计师,主要工作是领导建立商业预测模型、分析消费者行为数据和提供统计咨询。

数据分析在传统行业商业决策中的应用

在大数据成为热点、电商高度发展的今天,数据分析在传统行业(如农业)商业决策中扮演的角色变化似乎被遗忘在舞台清冷的角落。本次演讲不打算搅和大数据这杯混水,而是立足于小样本建模分析在传统商业决策中的应用。

当然,这是另外一杯机遇和挑战并存的混水。具体说来主要讨论如下几点:

  • 商业数据分析在传统行业的和电商邻域扮演的角色有什么不同?
  • 数据分析如何帮助商业决策?
  • 几个需要注意的问题
  • 模拟应用案例:用Group Lasso逻辑回归构建评分系统
  • 机遇和挑战

刘思喆

现就职于京东商城网站智能和商业化部推荐团队,主要负责用户行为,商品特征建模等内容。8年来,一直追求为服务企业提供高效、完备的数据解决方案,尤其在统计分析、预测分析、数据可视化、机器学习、文本挖掘、社交网络等领域。 在加入京东商城前,供职于亚信联创BOC、神州数码思特奇DSS,主要为电信运营商提供数据挖掘及业务咨询等顾问服务。

10年R语言使用经验,R语言企业级应用的践行者,中国R语言会议、数据科学沙龙联合发起人,中国最大的统计社区-统计之都常务理事,06年至今一直担任R语言版版主。

2005年毕业于中国人民大学统计学院,《153分钟学会R》的作者,《R in a nutshell》译者。

R语言在电商领域的应用

1.R语言应用的架构 2.常用的技术方案介绍 3.几个电商应用案例

肖楠

中南大学数学与统计学院统计学系在读博士,统计之都论坛R语言版版主。《R语言实战》、《ggplot2:数据分析与图形艺术》、《R数据可视化手册》等书籍译者;protr、Rcpi等R包作者。关注领域为统计机器学习、化学信息学与生物信息学、定量与系统药理学。

Integrated Pipeline for Systems Pharmacology in R/Bioconductor

Multiscale molecular representation and modeling is a fundemental problem in systems pharmacology research. We developed R/Bioconductor packages and web apps emphasizing the comprehensive integration of bioinformatics and chemoinformatics into a molecular informatics platform for drug discovery. We will share the experience and pitfalls during the package development process.

李舰

现就职于 Mango Solutions (China),担任首席顾问,负责数据分析相关的咨询项目及公司产品中分析模块的开发。开源社区中Rweibo、Rwordseg、tmcn 等R包的作者。中国R语言会议(上海会场)的组织者。《数据科学中的R语言》一书的作者(即将由西安交大出版社出版)。邮箱:lijian.pku@gmail.com。

R与Office的整合

R是最强大且便利的统计分析工具,Office是最为人熟知而随处可得的办公软件,如果一个分析人员的工作电脑上只能装两个软件的话,相信很多人会选择Office和R。关于Office与R的整合,网络上存在很多很好的资源,比如RExcel、R2PPT、ReporteRs等。这些工具到底有哪些妙用?他们的实现机制到底是什么?如何使用才是最有效率的方式?本次报告将会对这些问题进行解答。 在行业中,大部分的分析报告都是基于Office产生,尤其是PPT的报告,在可重复研究日趋火爆的今天,关于Office的自动化报告的方案并不常见。在本次报告中,演讲者还将会介绍一个自己编写的R包,可以通过DCOM的方式对Office中的对象进行自如地操作,并能自动解析PPT的各模块,以一个自动化报告的需求为例,介绍基于模板自动生成报告的流程。

杨环

杨环,现就职于Mango Solutions (China),担任咨询顾问。毕业于厦门大学和伦敦政治经济学院。邮箱huan.a.young@gmail.com.

R在新药研发中的应用

一款新药的平均研发时间达到十年之久,耗资通常10亿美元之巨,整个研发过程中的任何决策都至关重要。尤其在最近几年,很多大药厂纷纷遭遇专利保护到期的困境,而新药研发的进度也越来越缓慢。在这样特殊的时期,在FDA的引导和各大药厂的实践下,新药研发中的建模和模拟成了药厂摆脱困境的良药,而这个领域最受欢迎的工具就是R。 演讲者将会结合Mango Solutions为各大药厂提供服务的经验,介绍新药研发尤其是建模和模拟的流程,展示各类统计模型和数学方法在新药研发中的应用以及系统和工具的实践,尤其是R在其中所起到的关键作用。

Hadley Wickham

RStudio公司的首席科学家,同时也是美国Rice大学的助理教授。他开发了著名的ggplot2plyr包.

ggvis sneak peek

I'll give you a sneak peek at ggvis, the successor to ggplot2. Like ggplot2, ggvis allows you to describe visualisations declaratively. Unlike ggplot2, ggvis graphics are fundamentally of the web: they're built using html, js, and css. More importantly, ggvis graphics are fundamentally reactive. You can bind plot parameters to sliders and dropdowns, and visualise streaming data as it comes in.

周扬

现就职于AdMaster数据研究院,主要负责数据分析、建模及其展示。R、Javascript两栖码农,数据可视化爱好者,recharts图形包重要参与者。

它山之石可以攻玉:recharts图形包

数据可视化作为理解数据的重要媒介,让光秃秃的数据充满了活力和魅力。Echarts是国内优秀数据可视化团队设计与实现的基于浏览器的图形库(js库),已经获得广泛的使用和好评。然而R作为一个统计分析、数据建模和图形可视化的重要工具,由于其原生图形设备在动态可交互图形方面提供的支持有限,需要借助于浏览器作为数据展示平台实现图形的动态可交互。因此,recharts基于将Echarts图形库引入R平台,为R用户群提供动态可交互图形的一个选择。并且通过与knitr、Shiny、slidify等优秀R包的连接实现了丰富和精彩的应用。

邱怡轩

毕业于中国人民大学统计学院(硕士),目前为普渡大学统计系在读博士,统计之都理事会成员。感兴趣的领域包括统计建模与计算,R语言相关技术等,参与翻译了《R语言编程艺术》《ggplot2:数据分析与图形艺术》《R数据可视化手册》等书籍,是R2SWF,showtext,rARPACK等R程序包的作者。个人主页yixuan.cos.name/cn。

R中大规模矩阵的奇异值分解与矩阵补全

奇异值分解(SVD)及与其相关的特征值分解是统计模型中重要的代数运算工具,在传统的统计方法,如回归分析、主成分分析中有广泛的使用。R中提供了svd()和eigen()等函数来完成相应的运算,然而当矩阵的维度较大时,其计算量通常会变得难以承担。对于一些特定的问题,我们只需要求解一部分的特征值(例如最大的k个),这可以通过rARPACK软件包中的相关函数来实现。本演讲将首先介绍rARPACK软件包的基本用法,并提供它与R中其他工具的性能比较。演讲的第二部分是SVD的一项有趣的应用,称为矩阵补全(Matrix completion),它与推荐系统、图片修复等具有紧密的联系。演讲中将以一个恢复受损图片的例子来介绍矩阵补全的基本原理和实现过程。

James Wicker

James Wicker graduated with a Bachelor’s Degree in Physics from New College Florida in 1997. He went to graduate school at the University of Tennessee – Knoxville and earned a Master's Degree in Statistics in 2003 and a Ph.D. in Physics in 2006. His Ph.D. dissertation focused on developing new methods in regression and cluster analysis and applying them to analysis of physical systems. In 2007, he came to National Astronomical Observatories, Chinese Academy of Sciences in Beijing as a postdoctoral researcher. In 2009, he became an editor for the research journal Research in Astronomy and Astrophysics, which is also based at National Astronomical Observatories, Chinese Academy of Sciences. He is still doing research on developing new methods of statistical analysis, especially related to mixture modeling.

Multi-Cluster Detection

A major challenge in mixture model analysis is determining the number of clusters present in a data set. I propose a new method to compute univariate mixture models that combines the advantages of both genetic algorithms and information scoring. Information scoring overcomes handicaps that are inherent in hypothesis testing, and as applied to mixture modeling, information scoring can overcome these ambiguities. I implement a restricted log-likelihood maximization procedure into a genetic algorithm that can accurately identify the number of clusters present in a univariate mixture model analysis situation. Repeated trials on simulated data sets demonstrate the accuracy and reliability of this method, and application to real data sets uncovers hidden structure in the underlying probability density functions.

寇强

寇强,微博:@Gossip_useR,华南统计科学研究中心成员,信息学博士在读,研究方向为串联质谱的数据分析和软件开发。

突破R内存瓶颈的若干技术

R的内存计算一直被人诟病,除去利用近年兴起的Hadoop之外,R众多的扩展包为解决R的内存瓶颈提供了各种思路,包括hashing、硬盘缓存、保存重复计算结果、利用数据库后台等等。这里整理比较一下各种相关技术,提供若干性能测试,并加上一些个人的使用体会。

张晔

中山大学数学与计算数学学院计算数学专业在读硕士,华南统计科学中心研究人员。合作翻译Financial risk modelling and portfolio optimalization with R, Data mining with Rattle and R, Rcpp: Seamless R and C++ Integration 等图书。研究方向为生物统计。近期研究方向为生物调控网络。关注的技术点为Rcpp和R 语言下的并行计算。

以统计学科研人员的角度看R语言开发

科研工作需要将层出不穷的想法付诸实践,并在实验中不断修正想法。对于统计科学的研究人员来说,R语言灵活高效,贴近统计学家的思维,同时又是一门正在发展的编程语言。演讲者将会结合自身的研究工作,讨论一下科研工作中的R语言开发。 一方面,统计方法的算法描述往往是简单明了的,另一方面,统计科研中的编程工作并不简单。这是因为从算法描述到代码实现之间充满了大量的细节。主要的开发困难在于数据结构和接口的设计。而这需要软件工程的思维。 要求一个统计学研究人员掌握计算机专业的专业知识略显苛刻,我们更推崇一种“统计学家提供原型,程序员进行优化改造”的工作范式。但为了可重复的研究,编写良好的R程序依然是非常重要的技能。R提供了简单实用的面向对象系统(S3和S4)和一个强大的C++语言接口(Rcpp),为我们的研究提供了极大的便利。

牟官讯

毕业于上海石油化工专科学校数据处理专业(计算机应用方向),多年的电信行业基础软件经验,过去曾从事电信级的应用和软件开发。现收集国内A股高频交易数据,从中进行用户行为的研究,投资开发了交易数据分析平台,从历史交易数据中发掘有价值的交易机会。

开发的血和泪,交易的冰与火

开发高效率计算的代码技巧;如何提升算法代码的通用性;如何从历史交易数据中实时构建动态贝叶斯网络进行预测。

欧阳鹤

毕业于复旦大学广告系。曾就职于路易威登零售、顾客零售营销部门。目前在奢侈品闪购网站魅力惠从事网站数据分析工作。谷歌分析认证网站分析师。受统计之都的影响于2012年开始自学R语言。参加过2012年与2013年的上海R语言会议。兴趣:信息图表设计,可重复性研究与自动化报告。

小而美的数据产品

读大学时我从电气工程与自动化转专业到了广告系。朋友说,是从Hard模式跳到了Soft模式。工作后,我从零售与营销转到了数据分析。有人说,Soft调回了Hard。其实,文理相长。数据分析工作可以是技术与艺术的完美结合。 - 数据产品:以“产品经理”和用户的角度去思考 - 小而美:有效的信息沟通,"不要炫的,要有效的” - 前辈的金玉良言,Edward Tufte, Stephen Few - 应用案例:魅力惠是以闪购活动的形式来组织销售。每个活动持续1到2周。又快又轻又好的活动销售报告是频繁而核心的业务需求。 Ubuntu+R+Git布环境, shiny搭骨架, RMySQL读写数据,plyr与reshape2清理数据,ggplot2与ggmap绘图,knitr转换成报告网页,Google Analytics监测应用访问及使用。

任坤

厦门大学王亚南经济研究院金融硕士生,研究兴趣为计算统计和金融量化交易。

构建高效率的数据流水线:在R中使用管道操作

在数据驱动的统计计算和数据分析中,对数据使用一连串指令来做处理与可视化是很常见的情况。但是由于传统的函数写法导致后调用的函数需要先写出来,所以一连串指令常常是多层嵌套、很长的表达式,既难阅读也难以维护。讲者编写的pipeR扩展包借鉴了F#语言中的管道操作符背后的思想,定义了三种适合R中使用的管道操作,可以方便地构建流水线式的数据处理过程,可以和dplyr等扩展包一起使用,大幅简化数据操作过程,使之变得清晰、易读、可维护。

张丹

R语言资深用户,《R的极客理想》作者,系统架构师,曾开发多种不同类型的系统及应用,目前在量化投资领域创业中。张丹在其个人博客 (http://blog.fens.me)原创了大量关于 R语言和Hadoop大数据技术的文章。2013年,他的RHadoop系列文章,在统计之都发表。他还是Dataguru培训讲师,教授课程《Hadoop应用开发实战案例》、《Mahout机器学习平台》。

R语言与金融大数据应用

基于Hadoop存储证券的日内交易数据,通过RHive连接R语言与Hive,建立相关性算法模型,在历史数据中回测,构建投资决策组合,并生成可视化结果用于展示。

Ge Jiang

Current phd student at University of Notre Dame, my major is Quantitative Psy-chology and minor is Applied Computational Mathematics and Statistics?my research interests lied in psychometrics and factor analysis and I kind of enjoy the pleasure of being a ’ma nong’ and want to apply these statistical methods more inside psychology field.

Combining R with Psychology—–An illustration with SEM

R is an advanced softwares that have been adopted and created many disciplines, including biostatistics, econometrics, psychometrics, and social statistics. In quantitative psychology, it plays a crucial role in conducting simulation and testing hypotheses. This topic mainly presents how R is adopted in SEM to test model fit and developing new test statistics.

阅读全文→