大数据时代如何快速学会数据分析(1)

@TOC

大数据概述

自2012年以来互联网风靡全球,技术的发展推进电脑、平板、手机等其他电子产品迅速普及到个人。所谓:‘不识庐山真面目,只缘身在此山中’,处于这个时代的你是否了解大数据究竟是什么?为什么忽然间身边的人都在谈论大数据?好像企业、教育、研发、医疗等组织如果不和大数据人工智能沾点边,就显得不fashion。
也许你会有这样的疑问大数据是什么?哪些技术支撑大数据发展?如何基于大数据进行数据分析?

三次信息化浪潮支撑数据发展

第一次信息化浪潮
1980年,个人计算机开始普及,使计算机走进企业和千家万户,中国价格高达上万元。Intel、苹果、微软、联想是这个时期的标志
第二次信息化浪潮
1995年前后,缔造了雅虎、谷歌、百度、阿里
国内:
阿里,1999年阿里成立,全球批发贸易市场。2003年创立淘宝,2004年推出支付宝,2009年成立阿里云计算,2012淘宝商城更名为天猫,2014年阿里上市。2014年后各种阿里系产品,蚂蚁花呗、蚂蚁金服等等。
京东:1998年京东成立,京东成立初销售光磁产品[光驱、DVD],2004年开辟电子商务,2008年涉足3C,2013年改为名为京东,将360buy的域名改为JD,2013年 后京东发展迅速,不断拓展业务,京东到家、生鲜等
百度:2000年成立,全球最大的中文搜索引擎、最大的中文网站。1999年彼时李彦宏在硅谷,辞掉硅谷硅谷工作,带着搜索引擎技术回国内。
腾讯:1998年11月成立,由马化腾、张志东、许晨晔、陈一丹、曾李青共同创立。2000年QQ用户注册数达500万,2004年在香港联交所上市,2009年QQ空间月登陆账户数突破2亿,是全球最大互联网社区的地位,2011年推出微信,并且开始拓展商业圈,同年投资华谊股份、艺龙网、珂兰钻石。2012与动视暴雪合作,同期试水互联网金融。2014年投资滴滴打车、同程、大众点评、收购京东普通股。
微博:最早的微博是Twitter,2006年博客技术先驱blogger创始人Evan Williams推出微博服务,但只是向好友的手机发送文本信息。2009年新浪推出微博并迅速走红[注:在新浪微博成名前国内也有微博色彩的产品,如饭否网、腾讯尝试的腾讯滔滔,但他们都与2019年停止运营。]
国外:
google:1998年成立,由拉里·佩奇和谢尔盖·布林共同创建,被公认为全球最大的搜索引擎公司。2004年8月19日,谷歌公司在纳斯达克上市,成为公有股份公司。2007年11月05日,谷歌宣布开发基于Linux平台的开源手机操作系统并命名为Android。2008年9月7日,谷歌地图卫星发射升空,为谷歌地图服务提供50厘米分辨率高清照片。2010年3月23日,宣布关闭在*市场搜索服务。2012年10月2日,谷歌超越微软,成为市值全球第二大科技公司,当日,谷歌市值扩大至约2499亿美元。2015年谷歌无人机业务主管沃斯透露,预计能在2017年推出无人机送货服务。谷歌旗下DeepMind公司开发的围棋人工智能程序AlphaGo正式发布。2015年8月10日,宣布对企业架构进行调整,并创办了一家名为Alphabet的“伞形公司”(Umbrella Company),成为Alphabet旗下子公司。2017年12月13日,谷歌正式宣布谷歌AI中国中心(Google AI China Center)在北京成立。2018年6月18日,谷歌5.5亿美元入股京东,双方将展开战略合作。

YouTube:是一个视频网站,早期公司位于加利福尼亚州的圣布鲁诺。注册于2005年2月15日,2006年11月,Google公司以16.5亿美元收购了YouTube,并把其当做一家子公司来经营。

雅虎:1994年创立了雅虎,1996年4月12日,YAHOO!正式在华尔街上市.1999年9月,中国雅虎网站开通,2005年8月11日,雅虎投资10亿美元于阿里巴巴,同时阿里巴巴全面收购雅虎中国,成为阿里巴巴旗下网站。

第三次信息化浪潮
2013年左右,大数据解开帷幕。云计算、大数据、物联网

数据产生方式的变革

1)运营式系统阶段:数据伴随运营活动而产生,并记录在数据库中,如IBM、Oracle
2)用户原创数据,微博微信,智能移动端设备的发展,数据产生方式是主动的。
3)感知系统阶段,数据量的第三次飞跃,导致大数据产生

大数据概念

大数据有4个明显特征,4V,Lolume、Velocity、Variety、Value
数据量大,感知层时时刻刻在产生数据,数据产生量摩尔定律,每年增长一倍。一张光盘存储1G,PB、EB、ZB
计算速度快,分布式计算使查询速度很快,100万、千万数据容量中找一条数据需要2s
数据种类多,各种非结构化数据,图像、音频、视频,等等,结构化数据只占10%,非结构化数据占90%
价值低,大量数据价值密度低

云计算、大数据、物联网的关系

云计算的特征或者特征是分布式存储和分布式计算、多用户和虚拟化。
有3个种类:公有云百度、高德、微博等,私有云企业内部使用,混合云。
云计算的应用层面分3层:
IaaS设施即服务,提供基础的设计服务,如阿里云、百度云
PaaS平台即服务,云计算环境的开发平台,在平台上提供开发接口,企业可以开发并卖出其他用户
SaaS,软件即服务,提供云软件,如微软office,在网页端登录就可以获得产品。

物联网:
感知层:摄像头、探头、温度湿度传感器、感知物理世界,每时每刻收集数据==识别和感知技术
通过网络层,将数据传输到数据中心,物和物相连的
处理数据层

应用层,掌上智能公交

感知技术:二维码、条形码、RFID(没有电,通过电磁感应发生数据/信息交互)

物联网应用:智能工业、智能家居、智慧城市
大数据时代如何快速学会数据分析(1)

如何做数据分析

见大数据时代如何快速学会数据分析(2)