西班牙电信 大数据_使用Kibana探索数据集
西班牙电信 大数据
在本文中,我想使用Kibana探索示例数据集。
这需要一些数据开始:让我们索引一些推文。 通过遵循我的好朋友David的博客文章中的解释并等待一段时间来用数据填充索引,可以很容易地做到这一点。
基本指标
让我们从基本的东西开始,到目前为止,已编入索引的推文数量。
在Kibana中,转到“ Visualize Metric ,然后选择twitter
索引。 对于“ 聚合”字段,选择“计数”; 然后单击Save并相应地命名可视化文件, 例如 “推文数量”。
地理地图
另一个简单的可视化方法是根据推文在世界地图上的位置显示推文。
在Kibana中,转到“ Visualize Tile map ,然后选择twitter
索引。
为存储桶类型选择地理位置坐标,并保留默认值,为集合选择默认值Geohash
,对于字段保持选择默认coordinates.coordinates
。
桶指标
对于这种度量,假设一个业务需求是显示前5位用户。 不幸的是,随着某些(大多数?)业务需求的发展,这还不够确定。 它错过了范围和聚合周期。 让我们同意范围时间是最后一天的滑动窗口,期间是一个小时。
在Kibana中,转到“ Visualize Vertical bar chart ,然后选择twitter
索引。 然后:
- 对于Y轴,请为“ 聚合”字段保留“
Count
” - 选择X轴作为铲斗类型
- 为汇总字段选择
Date histogram
- 保留字段字段的值
@timestamp
- 将时间间隔字段设置为
Hourly
- 为汇总字段选择
- 点击Add sub-buckets
- 为水桶类型选择拆分条
- 选择“ 子聚合”字段的“
Terms
” - 字段字段的
user.screen.name
- 保留其他字段的默认值
- 选择“ 子聚合”字段的“
- 别忘了点击“ Apply changes
- 单击“ Save并相应地命名可视化文件, 例如 “每小时排名前5位的用户”。
等效的可视化
其他可视化可以与完全相同的配置一起使用:面积图和数据表。
关于所浏览的数据集,“面积图”的输出不那么可读,但是“数据”表提供了有趣的选项。
在可视化中,单击右下箭头图标以显示数据的表格视图而不是图形。
可视化使用Elasticsearch公共API。 从表格视图中,还可以通过单击Request按钮显示JSON请求(哦,令人惊讶...)。 这样,Kibana可以用作游乐场,以便在将其用于自己的应用程序之前快速对请求进行原型制作。
稍微改变需求
上面的可视化工具挑选了每个小时内发推文最多的5个顶级用户,并在最后一天显示他们。 这就是为什么显示超过5个用户的原因。 但是,可以用另一种方式来解释上述要求:在过去一天中吸引前5名用户,并按小时打破其推文数量。
为此,只需将X轴存储桶移到“分割条”存储桶下方即可。 这将相应地更改输出。
过滤不相关的数据
从上面的直方图中可以看出,高级用户主要是关于招聘和/或工作机会。 首先,这并不是真正想要的。 可以通过添加过滤器来消除这种噪声:在“分割条”部分中,单击“ Advanced以显示其他参数,然后在“ 排除”字段中键入所需的正则表达式。
新的可视化非常不同:
放在一起
有了以上可用的可视化文件并进行了配置,现在可以将它们放到一个专用的仪表板上了。 前往Dashboard Add以列出所有可用的可视化。
只需单击所需的一个,然后将其放置在板上并重新设置其大小即可。 冲洗并重复直到对结果满意为止,然后单击“ Save 。
为蛋糕锦上添花,使用地图可视化效果上的Rectangle工具将自动添加一个过滤器,该过滤器仅显示由仪表板上所有可视化效果的矩形坐标约束的数据。
该技巧不仅限于地图可视化(尝试与其他地图可视化一起使用),还可以在浏览数据集时快速过滤位置,从而提供见解。
结论
尽管这篇文章仅介绍了Kibana所提供的内容,但还有更多可视化内容以及Timelion,它是新的功能强大(但文献不足的是“时间序列表达接口”)。 在所有情况下,甚至如上所示的基本功能也已经提供了许多不同的选项来理解一个人的数据集。
翻译自: https://blog.frankel.ch/exploring-data-sets-with-kibana/
西班牙电信 大数据