清华大学《大数据实践课》项目征集说明(2018年)

清华大学《大数据实践课》项目征集说明(2018年)


一、背景介绍


在全球大数据浪潮中,清华大学大数据能力提升项目在“学校统筹、问题引导、社科突破、商科优势、工科整合、业界联盟”的原则指导下,通过多学科交叉融合的大数据课程体系,将大数据思维与技能、跨界学习、实操应用相结合,培养学生们的数据分析能力、数据管理和创新能力。


《大数据实践课》作为大数据能力提升项目实践必修环节,是在完成基础技能模块、能力提升模块的大数据系统课程学习之后(更多详细的内容请参见数据院官网:http://www.ids.tsinghua.edu.cn/index.php?p=3500)。根据您的项目需求,组建跨院系交叉融合的项目小组,在校内导师和企业导师的共同指导下完成实践项目。


希望企业能贡献项目和数据,并指派具体企业导师指导学生完成相应的项目。


二、项目需求(2种类型项目)


1. 偏重系统架构:


提出一个对于大数据分析系统的需求,描述例如应用场景,数据量,已有数据的存在形式,企业现有业务流程,期望的流程等。通过与学生交流,检查学生的阶段性成果,并评估学生的进展并给与反馈,方便学生进行下一轮的迭代。


2. 偏重数据分析和应用:


即提出一个真实的数据分析的需求,给出真实的数据集,让学生实现一个真实的分析系统及算法,以满足您的需求。这一项目要求将数据开放给学生。


三、实践时间和地点


1. 时间:夏季学期(2018年7月2日-2018年8月24日),全时8周


清华大学《大数据实践课》项目征集说明(2018年)


2. 实践地点:校内或实践单位

 

四、参与项目学生构成


清华大学信息学院(计算机、软件、自动化、电子等)和非信息学院(机械、数学、物理、热能、经管、社科学院、土木等)硕士研究生、博士研究生,5-7人交叉混合组队。


五、授课教师

清华大学《大数据实践课》项目征集说明(2018年)


徐葳:

交叉信息学院助理教授,助理院长;

数据科学研究院管理委员会和教育指导委员会委员;

专注于跨领域的分布式系统和机器学习方面的研究;

美国加州大学伯克利分校计算机硕士、博士,宾夕法尼亚大学计算机学士;

2013年入选“青年千人计划”,曾获得谷歌、IBM的教授科研奖,以及清华大学“良师益友”特别奖,清华大学先进工作者;加入清华前,曾在谷歌总部工作,负责基础架构研发。在系统、网络、机器学习、光通讯等多领域顶尖会议如SOSP,Sigcomm,EuroSys,ICML,OFC等发表论文20余篇,总引用超1500次。

 

六、需要实践单位配合与指导内容


  1. 提供实际项目需求,及该项目的数据样本或数据测试集,并指派企业导师,并完成【附表】内容;

  2. 指导学生完成行业和市场分析等背景调研,并提出项目实际需求等;

  3. 指导学生确立解决项目问题的系统架构设计,数据处理和分析方法的选择和应用,以及系统和算法性能评估等;

  4. 参与项目展示答辩,并对学生小组的项目成果进行点评和评价。

  5. 请将【附表】和该项目的数据样本或数据测试集4月23号之前以邮件方式提交清华大学数据院刘老师处:

    [email protected]

    邮件主题:XXX(企业名称)大数据实践项目

    如有问题可以联系数据院电话:

    010-62773971,62772709

 

七、往期实践回顾


清华大学《大数据实践课》项目征集说明(2018年)

 项目双选现场 


清华大学《大数据实践课》项目征集说明(2018年)

北京团队答辩


清华大学《大数据实践课》项目征集说明(2018年)

上海团队答辩


清华大学《大数据实践课》项目征集说明(2018年)

青岛团队答辩

 

【附表】

 

1

企业名称


2

项目名称


3

项目简介或背景


4

项目问题、需求


5

是否有相应的领域知识材料可以提供给学生


6

现有解决方案(有/无,“有”请说明)


7

预期解决方案(有/无,“有”请说明)


8

是否有数据


9

采用已有数据是否一定可以解决问题,实现需求(一定或不一定)


10

数据提供方式


11

数据类型、格式


12

数据规模大小


13

能否提供开发和实验环境


14

对学生要求(专业背景)


15

接受学生数量


16

企业导师(项目对接人)


17

联系方式


18

办公地址


19

备注(您的要求)


 

【案例】:股票涨跌关联分析项目


1

企业名称


2

项目名称

股票涨跌关联分析项目

3

项目简介或背景

在股价波动方面,相较于公司基本面的信息,可能更多的是受市场层面因素的影响,往往出现“同涨同跌”现象。正是这种股价之间的“同涨同跌”现象,给我们提供了进行股价套利的机会。不同股票走势间的关联关系,不限于“同涨同跌”、也可以是“先涨后涨”、“先涨后跌”、“先跌后涨”、“先跌后跌”等。只要存在某种强规律,就可以构建强关联股票组合,并进一步构建股票投资策略,进行套利操作。

4

项目问题、需求

挖掘出股票间的关联性,找出强相关股票,并对每组股票组合详细标明各项参数用以描述股价波动规律。比如,关联性强弱指数,波动方向(“同涨”还是“同跌”)、波动先后顺序、波动滞后的时间区间等。

5

是否有相应的领域知识材料可以提供给学生

6

现有解决方案(有/无,“有”请说明)

7

预期解决方案(有/无,“有”请说明)

通过分析股票行情数据,挖掘出有强关联性的股票

8

是否有数据

9

采用已有数据是否一定可以解决问题,实现需求(一定或不一定)

不一定

10

数据提供方式

数据库获取

11

数据类型、格式

数据库

12

数据规模大小

所有A股上市公司,自1990-2017年的所有行情收盘数据,超过838W条数据。

13

能否提供开发和实验环境

14

对学生要求(专业背景)

计算机、数学等相关专业

15

接受学生数量

3-5人

16

企业导师(项目对接人)


17

联系方式


18

实践地址


19

备注(特殊情况要求)



清华大学《大数据实践课》项目征集说明(2018年)

清华大学《大数据实践课》项目征集说明(2018年)