03机器学习——数据集的组成

03机器学习——数据集的组成

·从历史数据当中获得规律?这些历史数据是什么样的格式?

机器学习的数据:文件csv

为什么不用mysql?
mysql:1.性能瓶颈、读取速度(数据太庞大,不方便存储)
2.格式不太符合机器学习要求数据的格式

pandas:读取工具(读取速度,计算速度都很快)
基于numpy(动态语言、释放了GIL 、真正的多线程)

·数据集的结构
1.可用的数据集
03机器学习——数据集的组成
2.数据集结构
常用数据集数据的结构组成
03机器学习——数据集的组成
用pandas,dataFrame取出来有行索引和列索引
03机器学习——数据集的组成

身高、体重都是特征,其中每一个数据都是特征值
03机器学习——数据集的组成
通过一系列特征得到目标值
如:通过上面的一些特征预测这个人的性别,是男还是女
但并不是所有的特征都需要
03机器学习——数据集的组成