清华大学《大数据实践课》项目征集说明(2018年)
一、背景介绍
在全球大数据浪潮中,清华大学大数据能力提升项目在“学校统筹、问题引导、社科突破、商科优势、工科整合、业界联盟”的原则指导下,通过多学科交叉融合的大数据课程体系,将大数据思维与技能、跨界学习、实操应用相结合,培养学生们的数据分析能力、数据管理和创新能力。
《大数据实践课》作为大数据能力提升项目实践必修环节,是在完成基础技能模块、能力提升模块的大数据系统课程学习之后(更多详细的内容请参见数据院官网:http://www.ids.tsinghua.edu.cn/index.php?p=3500)。根据您的项目需求,组建跨院系交叉融合的项目小组,在校内导师和企业导师的共同指导下完成实践项目。
希望企业能贡献项目和数据,并指派具体企业导师指导学生完成相应的项目。
二、项目需求(2种类型项目)
1. 偏重系统架构:
即提出一个对于大数据分析系统的需求,描述例如应用场景,数据量,已有数据的存在形式,企业现有业务流程,期望的流程等。通过与学生交流,检查学生的阶段性成果,并评估学生的进展并给与反馈,方便学生进行下一轮的迭代。
2. 偏重数据分析和应用:
即提出一个真实的数据分析的需求,给出真实的数据集,让学生实现一个真实的分析系统及算法,以满足您的需求。这一项目要求将数据开放给学生。
三、实践时间和地点
1. 时间:夏季学期(2018年7月2日-2018年8月24日),全时8周
2. 实践地点:校内或实践单位
四、参与项目学生构成
清华大学信息学院(计算机、软件、自动化、电子等)和非信息学院(机械、数学、物理、热能、经管、社科学院、土木等)硕士研究生、博士研究生,5-7人交叉混合组队。
五、授课教师
徐葳:
交叉信息学院助理教授,助理院长;
数据科学研究院管理委员会和教育指导委员会委员;
专注于跨领域的分布式系统和机器学习方面的研究;
美国加州大学伯克利分校计算机硕士、博士,宾夕法尼亚大学计算机学士;
2013年入选“青年千人计划”,曾获得谷歌、IBM的教授科研奖,以及清华大学“良师益友”特别奖,清华大学先进工作者;加入清华前,曾在谷歌总部工作,负责基础架构研发。在系统、网络、机器学习、光通讯等多领域顶尖会议如SOSP,Sigcomm,EuroSys,ICML,OFC等发表论文20余篇,总引用超1500次。
六、需要实践单位配合与指导内容
提供实际项目需求,及该项目的数据样本或数据测试集,并指派企业导师,并完成【附表】内容;
指导学生完成行业和市场分析等背景调研,并提出项目实际需求等;
指导学生确立解决项目问题的系统架构设计,数据处理和分析方法的选择和应用,以及系统和算法性能评估等;
参与项目展示答辩,并对学生小组的项目成果进行点评和评价。
-
请将【附表】和该项目的数据样本或数据测试集,4月23号之前以邮件方式提交清华大学数据院刘老师处:
邮件主题:XXX(企业名称)大数据实践项目
如有问题可以联系数据院电话:
010-62773971,62772709
七、往期实践回顾
项目双选现场
北京团队答辩
上海团队答辩
青岛团队答辩
【附表】
1 |
企业名称 |
|
2 |
项目名称 |
|
3 |
项目简介或背景 |
|
4 |
项目问题、需求 |
|
5 |
是否有相应的领域知识材料可以提供给学生 |
|
6 |
现有解决方案(有/无,“有”请说明) |
|
7 |
预期解决方案(有/无,“有”请说明) |
|
8 |
是否有数据 |
|
9 |
采用已有数据是否一定可以解决问题,实现需求(一定或不一定) |
|
10 |
数据提供方式 |
|
11 |
数据类型、格式 |
|
12 |
数据规模大小 |
|
13 |
能否提供开发和实验环境 |
|
14 |
对学生要求(专业背景) |
|
15 |
接受学生数量 |
|
16 |
企业导师(项目对接人) |
|
17 |
联系方式 |
|
18 |
办公地址 |
|
19 |
备注(您的要求) |
【案例】:股票涨跌关联分析项目
1 |
企业名称 |
|
2 |
项目名称 |
股票涨跌关联分析项目 |
3 |
项目简介或背景 |
在股价波动方面,相较于公司基本面的信息,可能更多的是受市场层面因素的影响,往往出现“同涨同跌”现象。正是这种股价之间的“同涨同跌”现象,给我们提供了进行股价套利的机会。不同股票走势间的关联关系,不限于“同涨同跌”、也可以是“先涨后涨”、“先涨后跌”、“先跌后涨”、“先跌后跌”等。只要存在某种强规律,就可以构建强关联股票组合,并进一步构建股票投资策略,进行套利操作。 |
4 |
项目问题、需求 |
挖掘出股票间的关联性,找出强相关股票,并对每组股票组合详细标明各项参数用以描述股价波动规律。比如,关联性强弱指数,波动方向(“同涨”还是“同跌”)、波动先后顺序、波动滞后的时间区间等。 |
5 |
是否有相应的领域知识材料可以提供给学生 |
是 |
6 |
现有解决方案(有/无,“有”请说明) |
无 |
7 |
预期解决方案(有/无,“有”请说明) |
有 通过分析股票行情数据,挖掘出有强关联性的股票 |
8 |
是否有数据 |
是 |
9 |
采用已有数据是否一定可以解决问题,实现需求(一定或不一定) |
不一定 |
10 |
数据提供方式 |
数据库获取 |
11 |
数据类型、格式 |
数据库 |
12 |
数据规模大小 |
所有A股上市公司,自1990-2017年的所有行情收盘数据,超过838W条数据。 |
13 |
能否提供开发和实验环境 |
能 |
14 |
对学生要求(专业背景) |
计算机、数学等相关专业 |
15 |
接受学生数量 |
3-5人 |
16 |
企业导师(项目对接人) |
|
17 |
联系方式 |
|
18 |
实践地址 |
|
19 |
备注(特殊情况要求) |