01-数据分析介绍与环境安装
1-1数据分析介绍
数据分析基本概念
- 用适当的统计方法分析方法对收集来的大量数据进行分析
- 提取有用信息和形成结论
- 对数据加以详细研究和概括总结的过程
数据分析的流程
为什么要学习数据分析
- 岗位有需求
- 是机器学习的基础
- 数据科学的基础
数据分析工具
注意
数据分析与数据挖掘的相似之处:
- 数据挖掘和数据分析都是对数据进行分析、处理等操作,从而得到有价值的知识
数据分析与数据挖掘的区别:
- 在应用工具上,数据分析更多的是借助现有的分析工具进行;而数据挖掘一般需要通过编程来实现。
- 在行业知识方面,数据分析要求对所从事的行业有比较深的了解,更多的是将数据与业务紧密结合起来;而数据挖掘不需要太多的行业知识,更专注技术层面。
环境部署
- pycharm
- jupyter
1-2Jupyter使用
Jupyter介绍
Jupyter Notebooks 是什么?
Jupyter Notebooks 是一款开源的网络应用,我们可以将其用于创建和共享代码与文档。
其提供了一个环境,你无需离开这个环境,就可以在其中编写你的代码、运行代码、查看输出、可视化数据并查看结果。因此,这是一款可执行端到端的数据科学工作流程的便捷工具,其中包括数据清理、统计建模、构建和训练机器学习模型、可视化数据等等。
Jupyter Notebooks 特点
- 基于web的在线编辑器
- 可交互式
- .ipynb文件分享
- 支持markdown
Jupyter 安装
如何安装 Jupyter Notebooks
1、首先需要在你的机器上安装 Python。(建议python3.6-3.7都可)
2、安装命令:pip install jupyter
Jupyter 使用
如何运行 Jupyter Notebooks?
1.首先需要建立单独项目文件夹(建议名称不要包含中文)
2.windows+R输入cmd进入windows终端
3.切换到该文件夹路径下
4.打开命令:jupyter notebook
基础使用 Jupyter Notebooks
如图所示:
打开笔记本后,你会看到顶部有三个选项卡:Files、Running 和 Clusters。其中,Files 基本上就是列出所有文件,Running 是展示你当前打开的终端和笔记本,Clusters 是由 IPython 并行提供的。
要打开一个新的 Jupyter 笔记本,点击页面右侧的「New」选项。
• Python3 --> 创建python file
• Text File --> 文本编辑器
• Folder --> 创建文件夹
• Teminal --> 终端(类似于Windows上的cmd)
创建python file
在代码上面的菜单中,你有一些操作各个单元的选项:添加、编辑、剪切、向上和向下移动单元、运行单元内的代码、停止代码、保存工作以及重启 kernel。
- Code --> 代码
- Markdown --> 标记(在运行一段代码后添加你的结论、添加注释等。)
- Raw NBConvert --> 原生NBConvert(将你的笔记本转换成另一种格式(比如 HTML)的命令行工具。)
- Heading --> 标题(也是Markdown语法)
快捷键使用
- 运行 --> Ctrl+Enter
- Esc --> 命令模式
- Enter --> 编辑模式
进入命令模式之后快捷键:
- A --> 在活跃单元之上插入一个新单元
- B --> 在活跃单元之下插入一个新单元
- 连续按两次 D --> 可以删除一个单元
- Z --> 撤销被删除的单元
- Y 会将当前活跃的单元变成一个代码单元
- 按住 Shift +上或下箭头可选择多个单元。在多选模式时,按住 Shift + M 可合并你的选择。
处于编辑模式时快捷键:
- Ctrl + Home 到达单元起始位置
- Ctrl + S 保存进度
- Ctrl + Enter 会运行整个单元块
- Alt + Enter 不止会运行你的单元块,还会在下面添加一个新单元