数据驱动安全(DATA-DRIVENSECURITY)学习--第一章
数据驱动安全(DATA-DRIVENSECURITY)学习--第一章
原版:《Data-Driven Security:Analysis,Visualization and Dashboards》
译版:《数据驱动安全:数据安全分析、可视化和仪表盘》
Jay Jacobs、Bob Rudis[著] 薛杰、王占一、张卓[等译]
ISBN:987-7-111-51267-7
最近一个月的主要工作是网络威胁分析,在通过对各大网络威胁情报分析平台有过一点了解之后,发现威胁情报分析的主要核心就是数据驱动安全,本书也是我司博士推荐研究,接下来就针对对本书的学习进行简单记录。
0x01 第一章 通向数据驱动安全的旅程
让我们陷入困境的不是我们不知道的事情,而是我们知道的事情并非想象的那样 ------------Bilbo Baggins
1.1 数据分析简史
十九世纪:
通过William Farr教授和John Snow教授针对引发霍乱原因的争论进行探讨:
Farr认为:霍乱是由分解不卫生的物质产生的空气污染引起的(官方成为瘴气理论);
Snow认为:霍乱的传播是因为食用了被“特种动物病毒”(早于细菌和病毒的发现)的水。
二人在数据处理方面:
Farr:其理论有一定的数据支持和逻辑性;
Snow:收集数据,并对数据进行了可视化(绘制图纸)。
十九世纪总体:
只是对数据进行了简单的收集,然后通过收集的数据证明观点。
二十世纪:
统计学家Ronald Aylmer Fisher基于前两位教授的数据,进行实验分析。
二十世纪:
不单单进行数据收集,还进行实验分析,此时有了相应的工具,可以用来设计完善的实验,也可以使用相应的技术来模拟实验因素怎么影响他们的实验和结果。
二十一世纪:
Breiman:
模型应该有他们的预测准确度来验证,而不是用传统的统计预测来验证。
预测准确度:将今天的数据分为两组,一组数据用于生成(或训练)一个算法,另一组去验证(或测试)算法的准确性。
为提高分析的效果:把数据分为训练集、测试集,进行生成和验证,多次反复这个过程。
1.2 获取数据分析技能
数据分析
需要将可视化技术与统计和数据分析相结合,再利用计算能力和领域(信息安全)知识分析
人比模型更聪明
Kahneman和Klein在论文《Condition for Intuitive Expertise:a Failure to Disagree》中指出:决定何时人们的表现将优于算法在很大程度上依赖于任务的环境。
数据分析不是制造火箭的科学
不管我们解决什么问题,我们都可以用尝试去解决它。
我们没有数据
如果我们只是等待完美的数据,那么我们将永远只是等待,并且漏掉了很多从数据中学习的机会。
数据管理
数据管理不止数据库的使用,还包括如何控制数据的质量和保证数据的完整性。
统计学
1、尽管数据从不说谎,被它欺骗却很容易
2、生成及收集数据的方法会产生欺骗性的结论
需要将经验和数据相结合以减少被误导的可能性
可视化
1、 为自己的可视化
理解: 在研究过程中,为处理数据提供信息而绘制的可视化图表,这些图表是用来理解模型
的特定管理和属性的,他们只是数据分析的过程,而非结果。
2 、 为他人的可视化
理解:将最终的分析结果以最简单明了的图表展现出来,让其他人员一眼能够读懂其中的故事。
1.3 以问题为中心
探索性数据分析
Tukey在《Exploratry data analysis can never be the whole story》指出:
探索性数据分析是一种态度,一种灵活的状态,一种找寻东西的信念,寻找那些我们认为既存在又不存在
的东西。