大数据安全分析需要关注哪些问题

  大数据所存储的数据非常巨大,往往采用分布式的方式进行存储,而正是由于这种存储方式,存储的路径视图相对清晰,而数据量过大,导致数据保护,相对简单,黑客较为轻易利用相关漏洞,实施不法操作,造成安全问题。今天我们就一起来了解一下大数据安全分析都需要关注哪些问题。

大数据安全分析需要关注哪些问题

 

  大数据安全分析需要关注哪些问题

 

  1、从线索出发,而不是指标或签名:安全分析,注重相关性,然后再考虑确定性,这背后有其深层的原因。误报和漏报是一对不可完全调和的矛盾,虽然在个别方面存在例外(基于漏洞的签名往往准确率较高,同时也可以对抗很多逃逸措施,是检测从IDS时代走向IPS的关键技术前提)。在发现未知的旅途中,如果直接考虑确定性证据,会错失很多机会。

 

  因此在狩猎的场景之下,安全分析员需要的是线索,线索只能代表相关性,而不是确定性,安全分析的过程需要将一连串的线索穿起来,由点及面进而逼近真相。举个例子:超长会话连接很难确定是攻击但和CnC往往有关联,一些分析人员就会选择它作为起点的线索。如果从这点出发、更多的线索出现了,连接的域名是近新注册的,并且访问量很少,还有就是流量在80端口却不是标准的HTTP协议等,随着不断的发现,确定性在增加,终通过进一步的方式我们可以确认攻击行为。

 

  2、换个角度看问题:找寻攻击相关的行为模式,可以变换多个角度,无需一直从直接的方面着手。例如在CnC检测上,我们可以采用威胁情报或者远控工具的流量特征这样直接的方法,但也可以考虑排查之前数据中没有出现过的新域名,或者某些域名对应IP快速变化的情况,甚至可以采用机器学习的方式来发现那些不一样的域名,这些都可能是有效的方法,可以在不同情况下分别或组合使用。

 

  3、白名单及行为基线:它们都是先定义什么是正常,由此来判断什么是不好的。业界某些厂商倡导的白环境或者软件白名单,都是这个思想的一种具体实践。在采用这个方法建立基线时,还是需要从威胁的角度出发,这样检测灵敏度较高并且发现异常后的指向性也较好。例如针对整体流量突变的监控,和专门对ARP流量(内部的ARP攻击有关)或DNS流量(防火墙一般不禁止,是数据外泄的通道之一)分别进行监控,有着完全不同的效果。

 

  4、统计概率:过去在讨论利用基线的方式发现异常时,经常被提出的问题是:“如果学习期间,恶意行为正在发生,学习的基线价值何在呢?”。这里面我们如果了解一些统计概率方面的知识,就知道可以利用均值和标准差这种方式来解决问题。统计概率知识在安全分析中的作用很大,尤其是在机器学习和安全分析结合时。这部分不是我擅长的专业领域,不再多说。还想一提的是,概率知识有时和人的直觉往往有冲突,所以为了正确的分析判断,需要了解基本的概率知识。有一个小题目,大家可以进行自测一下:某种流感测试方法,如果已患此流感,那么测试结果为阳性的概率为95%,问测试阳性者患病概率是多少。估计没有掌握贝叶斯方法的人,很难回答出正确的答案。也许通过这个问题,会让没有接触过此方面知识的人,感受到其必要性。

 

  水无常式,法无定则,在信息安全过程中狩猎也是如此,这里只是稍微做了一些介绍,也许已经给大家一种印象:狩猎是一项充满挑战、极具难度的活动。这种认识无疑是正确的,幸运的是有了安全分析产品的存在,使其难度有了大幅的降低,在本文后部分会介绍这方面的信息。

 

  大数据安全不仅仅需要防范来自外部的攻击,对内也需要加强管理,对数据的采集程度规划合理,降低各种安全风险才能真正做好大数据安全保护。