数据仓库之系统数据流程设计

数据加工的整体流程设计如下图:

数据仓库之系统数据流程设计

数据源:

业务交互数据
前端埋点用户行为数据

数据走向:

业务数据上传到mysql数据库中,有些表需要每天进行更新,从业务服务器上传的数据每天都会有变化,数据库就是便于较少数据的增删改查。最终将数据通过sqoop上传到hdfs,在用sqoop上传时,可能运行时间比较长,例如20多张表需要一个小时才可以完全上传成功。

埋点的用户行为数据

储存在特定的linux目录中,我设置的是 /tmp/logs 中,启动flume将logfile上传到kafka指定的topic中,再启动flume消费kafka中的数据,并且sink到hdfs的指定目录。

数据上传成功之后,再进行数据仓库的搭建。