大数据随记-1-大数据介绍以及就业前景
大数据是什么?
其实我们生活在大数据时代,大数据其实有4个特征,我们应该首先想到的就应该是数据量比较大。
说到数据量,我们就应该想到数据量的单位。从bit、Byte、KB、MB、GB、TB到PB、EB、ZB、YB。给一个形象的例子:
一张电报:100字节
一个笑话:1KB
一页书籍:10KB
一张低分辨率照片:100KB
一部微型小说:1MB
一次胸透视:10MB
两章百科全书:100MB
一卷磁带:200MB
一张CD光盘:500MB
一部广播级质量电影:1GB
一卷大型数字磁带:100GB
五万棵树制成的纸:1TB
一套大型存储系统:50TB
NASA EOS对地观测系统三年数据:1PB
所有印刷材料:200PB
全人类说过的所有的话:5EB
大数据库的4大特征?
大数据具有4 V 特征,即Volume (数据体量大)、Variety (数据类型繁多)、Velocity (数据产生的速度快)、Value (数据价值密度低)。
大数据库技术是什么?
我们已经知道,针对tb、pb、eb级别的数据我们可以称之为大数据,我们要去采集、整理、存储、管理、挖掘、共享、分析、反馈、应用。传统的数据库或数据仓库很难存储、管理、查询和分析这些数据。比如,你想让mysql去针对1tb的数据做一个排序,是不太现实的。
所以针对此类数据,我们就需要用到大数据技术了。大数据不是某一门技术,而是一个生态。大数据技术由几十个软件组成。
大数据技术包含哪些部分?
框架:Hadoop、Spark。
集群管理:MapReduce、Yarn、Mesoso
开发语言:Java、Python、Scala、Pig、Hive、Spark SQL。
数据库:NoSQL、HBase、Cassandra、 Impalao
文件系统:HDFS、Cepho
搜索系统:Elastic Search。
采集系统:Flume、Sqoop、 Kafka。
流式处理:Spark Streaming、Storm。
发行版:Horton Works、Cloudera、MapR。
管理系统:Ambari、大数据管理平台。
机器学习:Spark MLlib、Mahout。
作为程序员,最基本要做的就是学习这些软件的使用。
大数据技术的基础是什么?
那就应该是Hadoop的核心,HDFS和 MapReduce。
##大数据库和云计算的关系?
可以参考:终于有人把云计算、大数据和人工智能讲明白了!
大数据技术哪些应用场景?
大数据技术国内公司使用情况?
1. 百度:
数据挖掘与分析。
日志分析平台。
数据仓库系统。
推荐引擎系统。
用户行为分析系统。
2. 阿里:
数据平台系统。
搜索支撑。
广告系统。
数据魔方。
量子统计。
淘数据。
推荐引擎系统。
搜索排行榜。
3. 腾讯:
腾讯社交广告平台。
搜搜(SOSO)。
拍拍网。
腾讯微博。
腾讯罗盘。
QQ会员。
腾讯游戏支撑。
QQ空间。
朋友网。
腾讯开放平台。
财付通。
手机QQ。
4. 中国移动:
经分KPI集中运算。
经分系统ETL/DM。
结算系统。
信令系统。
云计算资源池系统。
物联网应用系统。
E-mail。
IDC服务等。
大数据技术薪资待遇怎样?
参考51job职位