学习技术的方式

现在技术的多样性远远超出了我们可支配的学习时间，对于纷杂的技术手段，我们要搞清它的本质，不能因为技术而技术。技术来源于生活，解决的是对应的问题，搞清一项技术有三个要点：What？Why？How？，这样学习就能触类旁通，事半功倍。榨干每一台单机的性能，

分治思想

需求：我有一万个元素（比如数字和单词）需要存储，如果要查找某一个元素，最简单的遍历方式复杂度是多少？如果我的期望是）O(4)呢？
回答：用哈希表存储数据，每个数组小标对应的位置存放四个元素，求哈希值判断所找元素所在的位置，时间复杂都为O(1),然后再在四个数中查找，时间复杂度为O(4)
分而治之的思想很重要，出现在了很多地方：Redis集群、ElasticSearch、Hbase、Hadoop生态无处不在

单机处理大数据问题（瓶颈在IO）

需求：有一个非常大的文本文件，里面有很多很多的行，只有两行一样；他们出现在随机的位置，需要找到他们。单机：可用的内存很少，也就几十兆。
假设IO的速度是500MB每秒，1T文件读取一遍需要30分钟，循环遍历需要N次IO时间，分治思想可以使时间变为两次IO。提示：时间单位有s,ms,us,ns之间相差1000个数量级；存储单位B,KB,MB,GB,TB,之间相差1000个数量级
思考：如果让时间变为分钟、秒级别
回答：
（1）单机。如果每一个都要与所有的文件进行对比，每次加载所有内容需要将近30秒的时间，如果有n行，那么时间复杂度就是n乘以30分钟。用哈希表存数据可以将总的时间复杂度降低到分钟级别，也就是说在第一次加载数据时每一行求哈希值将整个1T文件散列成2000个小文件，相同的行一定去到相同的小文件里，耗时30分钟；这时的小文件可以一口气放到内存里，然后线性的将每个小文件放到内存里快速的看有没有重复的行，时间复杂度为30分钟，这样两次就将总的时间降低成两次IO。
如果1T文件内容全是数字，要实现对数字的排序，又该如何呢？我们可以一次IO将不同区间的数字分散到不同的文件中，比如以步长100作为间隔，这样一次IO得到的小文件外部有序，内部无序；小文件如果可以一次读到内存，实现排序，那么在经过一次IO就可以实现所有小文件的内部排序。加上外部本来就是有序的，那么总共经历两次IO就可以实现1T文件内容的排序。
但是每次读取一行不符合常规，我们一般都次每次读取一定大小到内存，比如50MB；每次读取50MB进行排序生成一个小文件，那么一次IO（30分钟）就能得到一堆内部有序外部无序的小文件，然后做归并排序。
模型如下图：
（2）集群处理，假设我们用2000台机器，每台存储1/2000，约500MB的数据，并行计算时间为一台500MB的时间损耗，每台单机哈希取模得到2000个散列小文件，每台单机并行从其他机器拉取相同文件号文件，消耗500M网络IO时间，假设网络IO每秒钟100M，那么耗时5秒；然后单机自行判定有无重复行，耗时1s。架构如图：

集群分布式处理大数据的辩证

但是考虑到将1T数据分发到2000台机器中的时间，我们就会发现集群的处理速度并没有单机快（网络IO的时间比磁盘IO慢）
~2000台真的比一台速度快吗？
~如果考虑分发上传文件呢？
~如果考虑每天都有1T的数据的产生呢？
~如果增量了一年，最后一天计算数据呢？
如果单纯在某一个时间点比较单机和集群的速度，我们发现处理1T的数据单机确实比集群快；但是一家企业一年365天都需要大数据平台，每天都有数据增长。比如每天增长1T，单机单机耗时一小时乘于n天，但是集群增量式上传1T数据只需要消耗1T数据网络分发的时间加上集群计算的时间，如果网络IO100MB每秒，则集群总时间固定在3小时左右。
大数据实际应用：网易云音乐年度报表，支付宝年度报表等。

结论

~分而治之
~并行计算
~计算向数据移动
~数据本地化读取
以上这些点是学习大数据技术时需关心的重点。

Hadoop项目/生态

The project includes these modules:
~Hadoop Common
~Hadoop Distributed File System(HDFS)
~Hadoop YARN
~Hadoop MapReduce
Other Hadoop-related projects at Apache includes:
~Ambari
~Avro
~Cassandra
~Chukwa
~HBase
~Hive
~Mahout
~Pig
~Spark
~Tez
~Zookeeper

大数据启蒙

学习技术的方式

分治思想

单机处理大数据问题（瓶颈在IO）

集群分布式处理大数据的辩证

结论

Hadoop项目/生态

相关推荐