大数据第一天学习

大数据学习第一天:

1.安装大数据环境

1.虚拟机、linux的安装

CentOS Linux 6.8正式发布:新版内核+大量更新
以下为更新内容:
• 全新Linux 2.6.32内核
• XFS文件系统内可存储300TB数据
• 大量的应用更新,包括LibreOffice 4.3.7办公套件、 Squid 3.4缓存和转发网络代理
• Git、YUM、Postfix、OpenLDAP、stunnel和vsftpd等应用现已支持TLS 1.2
• dmidecode开源工具(查看硬件信息)现已支持SMBIOS 3.0.0
• SSLv3默认被禁用以保障用户安全
•更好的Hyper-V支持

CentOS所有版本下载地址分享 http://www.linuxidc.com/Linux/2016-08/133846.htm

简述

Linux的安装方法有很多种,下面,我们主要以镜像安装为例,介绍CentOS的安装过程及相关的参数设置,详细步骤如下。

CentOS安装配置

打开VMware,单击【创建新虚拟机】按钮。

大数据第一天学习
大数据第一天学习
选择自定义 下一步

大数据第一天学习
大数据第一天学习
大数据第一天学习
大数据第一天学习
选择【稍后安装操作系统】,单击【下一步】。

大数据第一天学习
大数据第一天学习

【客户机操作系统】及对应的【版本】,选择“Linux”与“CentOS”,单击【下一步】。

大数据第一天学习
大数据第一天学习
设置【虚拟机名称】及【位置】,单击【下一步】。

不要有中文

大数据第一天学习

大数据第一天学习
接下来都默认下一步即可

大数据第一天学习
大数据第一天学习

大数据第一天学习
大数据第一天学习
大数据第一天学习

大数据第一天学习大数据第一天学习
大数据第一天学习

大数据第一天学习
大数据第一天学习
大数据第一天学习
单击【自定义硬件】,可以设置内存、处理器、网络适配器等,这里先设置镜像 - 用于引导系统安装,关于网络等设置后面讲解。

大数据第一天学习大数据第一天学习

选择【CD/DVD(IDE)】,选择【使用 ISO 镜像文件】,单击【浏览】选择之前下载的镜像文件,单击【确定】。

大数据第一天学习
大数据第一天学习
单击【完成】,单击开启按钮,耐心等待安装程序引导完毕,即进入Linux安装界面。不想截图了文字吧

选择【Install or upgrade an existing system】菜单,按下Enter键,等待安装程序的引导。

引导完毕会弹出窗口询问是否进行介质的检测,如果不需要,可选择【Skip】跳过。

单击【Next】继续安装。

安装语言,选择【Chinese(Simplified)(中文(简体))】菜单,单击【Next】继续。

系统键盘,选择【美国英语式】菜单,单击【下一步】继续。

这里指定安装的存储介质,一般选择“基本存储设备”(如本机的硬盘),单击【下一步】继续。

这时,会弹出窗口询问是否格式化已有的存储设备,格式化会清空所有数据,请谨慎选择。

大数据第一天学习
大数据第一天学习
输入主机名,主机名可以自定义,由数字、字母和下弧线组成,单击【下一步】继续。

时区,在下拉菜单中选择【亚洲/上海】,单击【下一步】继续。

设置根账号(root)的密码,输入完成后,单击【下一步】继续,请牢记输入的密码。

**注意:**如果密码过于简单,则会有另一个提示,选择:无论如何都使用。

大数据第一天学习
大数据第一天学习
安装类型包括:

  • 使用所有空间:使用这个磁盘的空来来安装系统。
  • 替换现有Linux系统:使用现有的分区进行安装。
  • 缩小现有系统:修改现有分区来腾出空间创建分区。
  • 使用剩余空间:使用空闲的空间。
  • 创建自定义布局:使用自定义分区。

大数据第一天学习
大数据第一天学习

接下来确定就可以了

2.网络环境

•设置IP:

–VM:编辑>虚拟网络编辑器

–vi /etc/sysconfig/network-scripts/ifcfg-eth0

大数据第一天学习
大数据第一天学习
•删除UUID和MAC地址

•ONBOOT=yes

•BOOTPROTO=static

•IPADDR=192.168.9.253

•NETMASK=255.255.255.0

•GATEWAY=192.168.9.2

•DNS1=1921.68.9.2

•保存退出:ESC,ZZ

–rm -fr /etc/udev/rules.d/70-persistent-net.rules

大数据第一天学习
大数据第一天学习

大数据第一天学习
大数据第一天学习
•VM:

–默认维护,每一台克隆,或,新建的虚拟机,MAC地址不重复

•如果虚拟机保留 /etc/udev/rules.d/70-persistent-net.rules这个文件,在通过该虚拟机克隆的时候:

–1,文件被带到新的虚拟机中

–2,vm变更了新的虚拟机的mac地址

–so:新机器不能使用eth0接口

–你配置的/etc/sysconfig/network-scripts/ifcfg-eth0就不能应用

•关闭防火墙&Selinux

–service iptables stop

–chkconfig iptables off

–vi /etc/selinux/config

•SELINUX=disabled

•关机

•拍摄快照

•注意:日后,虚拟机一定要用快照克隆

2.理解大数据的概念

大数据的定义:大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

大数据的采集:科学技术及互联网的发展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。大数据时代数据的采集也不再是技术问题,只是面对如此众多的数据,我们怎样才能找到其内在规律。

大数据的特点:数据量大、数据种类多、 要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,我们需要搜索、处理、分析、归纳、总结其深层次的规律。

大数据的挖掘和处理: 大数据必然无法用人脑来推算、估测,或者用单台的计算机进行处理,必须采用分布式计算架构,依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术,因此,大数据的挖掘和处理必须用到云技术。

大数据的应用:大数据可应用于各行各业,将人们收集到的庞大数据进行分析整理,实现资讯的有效利用。举个本专业的例子,比如在奶牛基因层面寻找与产奶量相关的主效基因,我们可以首先对奶牛全基因组进行扫描,尽管我们获得了所有表型信息和基因信息,但是由于数据量庞大,这就需要采用大数据技术,进行分析比对,挖掘主效基因。例子还有很多。

3.学习linux的简单命令

  1. cd 切换目录
  2. ll (ls) 查看目录下有哪些文件
  3. pwd 查看当前目录的绝对路径
  4. mkdir 创建目录
  5. mv 移动文件或者重命名
  6. cp 复制文件 (如果复制目录文件需要加上-r)
  7. rm 删除文件 (如果删除目录文件需要加上-r,如果强制删除需要加上-f)
  8. vi/vim 编辑文件(文件编辑器) :命令模式->编辑模式->底行模式

安装vim

yum -y install vim*

  1. clear 清屏
  2. cat 查看文件
  3. tar 压缩文件或解压文件(-zxvf)
  4. tail(如果你想查看文件的后10行,可以使用tail命令,如: tail -10 /etc/passwd 或 tail -n 10 /etc/passwd tail -f /var/log/messages 参数-f使tail不停地去读最新的内容,这样有实时监视的效果 用Ctrl+c来终止!):当文件较大时使用,查看文件的后几行
  5. reboot 重启虚拟机
  6. halt 关机
  7. ifconfig 查看本机ip地址
  8. ps -ef 查看进程号 ps -aux

4.学习linux文件系统

1.vi命令

•打开文件

–vim /path/to/somefile

–vim +# :打开文件,并定位于第#行

–vim +:打开文件,定位至最后一行

–vim +/PATTERN : 打开文件,定位至第一次被PATTERN匹配到的行的行首

•关闭文件

–末行模式:

–:q 退出 没有动过文件

–:wq 保存并退出 动过了,不后悔

–:q! 不保存并退出 动过了,后悔了

–:w 保存

–:w! 强行保存

–:wq --> :x

–命令模式下:

–ZZ: 保存并退出 不需要冒号,编辑模式

•全屏编辑器

•模式:

–编辑模式:(命令模式)按键具有编辑文本功能:默认打开进入编辑模式

–输入模式:按键本身意义

–末行模式:接受用户命令输入

•编辑–>输入:

– i: 在当前光标所在字符的前面,转为输入模式;

– a: 在当前光标所在字符的后面,转为输入模式;

– o: 在当前光标所在行的下方,新建一行,并转为输入模式;

– O:在当前光标所在行的上方,新建一行,并转为输入模式;

– I:在当前光标所在行的行首,转换为输入模式

– A:在当前光标所在行的行尾,转换为输入模式

– 输入–>编辑:

•ESC

•编辑–>末行:

–:

•末行–>编辑:

–ESC, ESC

编辑模式

•移动光标

•删除&替换单个字符

•删除命令

•复制粘贴

•撤销&重做

•移动光标

–字符

•h: 左;j: 下;k: 上;l: 右

–单词

•w: 移至下一个单词的词首

•e: 跳至当前或下一个单词的词尾

•b: 跳至当前或前一个单词的词首

–行内

•0: 绝对行首

•^: 行首的第一个非空白字符

•$: 绝对行尾

–行间

•G:文章末尾

•3G:第3行

•gg:文章开头

–翻屏

•ctrl:f,b

•删除&替换单个字符

–x:删除光标位置字符

–3x:删除光标开始3个字符

–r:替换光标位置字符

•删除命令 : d

–dw,dd

•复制粘贴&剪切

–yw,yy

–p

–P

•撤销&重做

–u 撤销

–ctrl+r 重做 撤销的操作

–. 重复上一步的操作

末行模式 shift

•set:设置

–set nu number

–set nonu nonumber

–set readonly

–修改vi的配置文件 /etc/virc

•/:查找

–/after

–n,N

–?向上查找

•!:执行命令

–:!ls -l /

•set:设置

–set nu number

–set nonu nonumber

–set readonly

–修改vi的配置文件 /etc/virc

•/:查找

–/after

–n,N

–?向上查找

•!:执行命令

–:!ls -l /