大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:日志流数据解析及上传》篇...

实验背景介绍

了解更多2017云栖大会·成都峰会 TechInsight & Workshop.

本手册为云栖大会Workshop之《在线用户行为分析:基于流式计算的数据处理及应用》场的《流数据采集:日志流数据解析及上传》篇所需。主要帮助现场学员熟悉并掌握阿里云DataHub的操作和使用。

实验涉及大数据产品

前提准备

必备条件:

  • 已经从云中沙箱中获取了实验所需的阿里云账号和密码。
  • 点击下载实验数据,体验阿里云DataHub。
  • 如果您已经创建了DataHub Project,即可跳过创建DataHub Topic章节,直接进入创建DataHub Topic章节

创建DataHub Project

阿里云DataHub默认对所有云账号为开通状态,只需要创建项目所需的Project和Topic即可。

阿里云DataHub project名称是全局唯一的,建议大家本次实验按照workshop_abc的规则来命名,abc为您获取的云账号后三位数字。如获取云账号为[email protected],那么project名称命名为workshop_620。

大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:日志流数据解析及上传》篇...

  • step2:点击右上角创建Project
    大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:日志流数据解析及上传》篇...
  • step3:填写Project名称和描述,点击创建,如下图所示,表示DataHub Project已经创建成功。
    大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:日志流数据解析及上传》篇...

大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:日志流数据解析及上传》篇...

创建DataHub Topic

已经创建了Project的用户可以直接按照此步骤来实现创建DataHub Topic进而进入实验。

  • step1:保证账号在登录状态,点击已创建project操作栏中的查看进入project。

大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:日志流数据解析及上传》篇...

  • step2:进入DataHub Project,点击右上角创建Topic

大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:日志流数据解析及上传》篇...

  • step3:在创建Topic弹出框中配置相关信息,继而点击创建

大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:日志流数据解析及上传》篇...

大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:日志流数据解析及上传》篇...

上传csv数据

确保阿里云账号处于登录状态,并处在阿里云DataHub控制台。

  • step1:切换至数据采集tab页中,选择并点击文件上传

大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:日志流数据解析及上传》篇...

  • step2:在上传文件弹出框中双击DataHub Project进入创建的Topic,选择相关配置项并点击选择选择文件

跳过首行选项中配置为,文件编码选择为utf-8.

大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:日志流数据解析及上传》篇...

  • step3:在选择文件弹出框中,选择已经下载的 tmall_user_brand.csv文件,点击开始上传文件,直至提示框显示成功即可。

大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:日志流数据解析及上传》篇...

数据抽样

完成本地数据上传后,可以通过如下方式来确认数据的导入情况。

  • step1:确保阿里云账号处于登录状态。在DataHub控制台左侧切换至项目管理tab页面,进而点击项目名称后的查看,进入project。

大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:日志流数据解析及上传》篇...

  • step2:点击Topic操作栏中的查看,进入具体的DataHub Topic中。

大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:日志流数据解析及上传》篇...

  • step3:点击通道操作栏中的数据抽样,进行查看数据上传情况。

大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:日志流数据解析及上传》篇...

  • step4:选择指定时间为小于或者等于数据上传时间,并点击数据抽样进行数据预览。

大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:日志流数据解析及上传》篇...

数据抽样页面会根据配置的条件进行展示已经上传的数据。如上图所示,表示成功上传了csv文件数据,有兴趣的同学也可以进行对比。

>>>点击进入《实时数据分析:海量日志数据多维透视》篇