什么是大数据
粗略学习大数据一个月,从LInux开始学习各种命令,了解各种文件系统的权限,学会了如何在黑窗口装逼。嘿嘿。。。
逐渐的开始接触hadoop框架,勉勉强强算是hadooop家族的半个成员,,但是也许是没有学的透彻,,个人认为。。
好像大数据本质就是数据统计概率。。
统计数学题,,已经忘记什么时候做过这样的数学题了,,大概是小学吧。。
现在的我大概只是弄过wordcount这样的简单数据统计,大部分时间还是花在了HDFS文件系统的学习,和集群分布式存储的概念上了。。
最近有些疑惑所以在网上搜了一些问题,,借此来分享一下:
大数据就是概率统计吗?
楼一:
是,也不是。
大数据包括:获取数据,分析数据,预测行为。
其中分析数据部分主要工作就是统计各种事件的概率,作为预测行为的根据。
楼二:
显然不是的,大数据是现在很热的一项研究。简单地说就是讲大量的一类数据,通过计算和筛选,得到他们统一趋近的一个规律,用来对未来将要发生的事情做一个预言。比如天气预报就是一种大数据的结果。
我觉得,这两个回答属于一种,我的理解是我们通过框架例如hadoop,对大量的数据
进行并行分析,移动计算,分析得到一个统一的规律,作为对以后该事件的行为预测。。
大数据和机器学习的区别是什么?
为什么我会有这样的问题呢,主要是对第一个问题的疑问,最近在看一本机器学习的书,个人理解是:通过对大量样本数据的分析,逆推出一种规则,将这种规则创建出一种规则的模型,这个模型通过对数据的不断分析,进行不断的完善,优化。就好像赋予了机器一种学习的能力。以后便可以通过这个模型去预测除了样本之外的数据。
网上的说法是这样的:
从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
也就是说,机器学习仅仅是大数据分析中的一种而已。尽管机器学习的一些结果具有很大的魔力,在某种场合下是大数据价值最好的说明。但这并不代表机器学习是大数据下的唯一的分析方法。
突然发现能搞机器学习的大佬真的是在数学系牛X人物。。
高考数学95的我还是轻轻的走过好了。。。。