数据科学导论 考试有感 2019 山东大学
数据科学导论 考试有感 2019 山东大学
数据科学导论
平时分50分 有4个实验 两个人一组
爬虫、实体融合、twitter、MapReduce
3道题
- 简答:各种距离
- 设计:MapReduce
- 算法:PersonalRank
如果是非数据科学方向的同学,一定慎重,复习就像开天辟地。我们本学期是计算机网络考完后隔一天考数据科学导论,时间比较紧,大致整理如下。具体内容我有上传word资源。
- 大数据
- 云计算
- 文本分析
- 文本特征提取
- 输入单词、id,输出词袋向量
- 理解词袋的表示方式,优缺点
- 输入句子,给出N-Gram表示
- 数据科学有什么难点
- 数据科学解决问题的步骤
- 数据质量如何评估
- 数据质量评估存在的问题
- 脏数据以及处理
- ETL(数据仓库技术)
- 数据清洗和集成流程
- 数据清洗
- 数据集成
- 探索性分析方法
- 众包
- 数据分析
- 流程
- Apriori/无监督学习
- 数据分析算法类型(关联/分类/聚类)
- 关联分析
- 你知道的数据分析算法
- 支持度、置信度、提升度的计算
- Hadoop
- 特性
- 与Spark比较
- 分布式存储
- 与集中式存储比较
- 结构
- 设计需求
- GFS
- HDFS
- 优缺点
- 相关概念
- HDFS
- NAMENODE和DATANODE
- 体系结构
- 概述
- 命名空间管理
- 通信协议
- 客户端
- 局限性
- 存储
- 冗余数据保存
- 数据存取策略
- 错误与恢复
- 读、写
- 从HDFS读取内容
- MapReduce
- 概述
- 分布式并行编程
- 简介
- 工作过程
- 概述
- 各执行阶段
- Combine
- Shuffle详解
- MapReduce与Spark处理速度比较
- 归纳
- PersonalRank
- PageRank
- “反复改进原理”(迭代)是基本手段
- 中枢值与权威值及其计算(HITS算法)
- PageRank含义及其计算
- PageRank的同比缩减与统一补偿规则
- 结构化数据、半结构化数据、非结构化数据
- 测量距离
- 欧氏距离(Euclidean Distance)
- 曼哈顿距离(Manhattan Distance)
- 编辑距离(Levenshtein)
- 切比雪夫距离
- 海明距离
- 马氏距离
- ML
- KNN
- k-means/聚类
- Choosing clustering dimension
- Linear-Regression
- 最小二乘法
- 损失函数
- 检测模型质量
- 过拟合/over-fitting
- 交叉验证
- 无监督学习/监督学习