MaxCompute在网络舆情监控系统中的应用
摘要: 基于阿里云MaxCompute和其他云服务自建网络舆情监控平台的一些分享
背景介绍
根据中国互联网络信息中心(CNNIC)报告显示,我国的网民规模增长迅猛,截至2016年12月,我国网民规模达7.31亿,较2015年底提升了6.52个百分点。互联网成为反映社会舆情的一个重要载体。随着以社交媒体为主的互联网应用的普及和深入,网络舆情热点层出不穷,特别是当前微博、微信、新闻客户端等新媒体发展极为迅猛,其强大的舆论号召力与传播力让任何人都无法轻视。互联网已经成为政府了解民情的直接渠道,同时也成为企业接触客户、宣传营销的重要阵地。
国内某汽车企业所搭建的网络舆情监控平台,通过建设互联网媒体舆情综合监测分析系统,对新闻、论坛、博客、微博、视频、APP、传统纸媒等进行全面的覆盖,客户可以及时获取与自己关心的网络舆情信息,及时挖掘出网络舆情热点信息和背后的网络推手并进行持续的监控和跟踪,对舆情信息进行深度挖掘,发现潜在的舆情热点,对于特定的舆情事件可以及时提供分析报告。
需求概要
业务部门对舆情监控平台要求的高实时性(刷新频率在5分钟以内),方便的自行添加监控内容,能监控媒体及不同编辑对品牌和产品的友好度,并且内快速的形成相关的舆情报告。基于业务部门的要求情况,系统没有采用阿里云现有的舆情监控服务,而是使用阿里云ECS和MaxCompute服务搭建了一套基于爬虫和自然语言分析的舆情系统,已满足业务部门个性化的需求。
系统设计
系统架构图
业务架构
系统拓扑图
前端请求SLB进行负载均衡,下发到2个Web子系统,主要的数据处理工作由MaxCompute完成,搜索引擎使用3台ECS部署了ES来承载,数据收集则由多个爬虫系统完成,同时也有一台ECS用户自然语言处理,相关的结构化数据存储则由RDS提供。
爬虫系统和自然语言处理不在本文中详细介绍,主要介绍MaxCompute中数据处理的相关内容。
相关MaxCompute任务根据功能分为几类:模型训练、竞品分析、舆情监控、媒体分析、预警中心和事件分析等。
相关任务截图:
主要的几类任务介绍
模型训练任务
关键词监控:主要是通过使用MR任务使用TF-IDF的统计方法,同时使用MR进行去过滤。
计算词向量:通过数加平台的机器学习功能,将相关关键字进行数字化的工作。
相关推荐
- 数采仪在油田车辆监控方案中的应用
- 在线考试系统在企业招聘中的应用
- Kafka中间件在系统开发中的应用
- 【无人机】【2019.05】网络化系统中的可靠性方法——无人机应用
- 给你需要了解的信息安全 | 加解密在小金库系统中的应用
- 设计模式在软件应用系统开发中的实战参考
- 校企联合学院分析ERP系统在制造行业中的应用
- 记忆网络之在对话系统中的应用
- 移动视频监控技术在易守系统中的应用
- 组态软件在污水处理系统中的应用 | 图扑 智慧水务
- Python环境安装脚本,拷贝环境脚本,命令迁移模块(pip freeze >requirements.txt)
- Visual Studio Code(VSCODE)语言设置为中文