kaggle 泰坦尼克入门

kaggle实践
Kaggle 是一个数据分析建模的平台
1，企业或者研究者可以将问题的背景，数据，期望指标等发布到kaggle上，以竞赛的形式向广大的数据科学家征集解决方案。

以titanic分析为例
初探数据： 导入pandas，train.csv文件，文件打开之后是典型的dataframe格式，主要是查看各列的属性，确定特征值和标签

titianic.info（）查看train.csv的信息统计，会展示给我们每个属性的非空值的总数，以及每个属性数值表示的数据类型，但是我们会发现有属性的数据不全

Print titanic.describe() 查看每个属性对应数据的统计分析，数值型数据的分布包括总数，均值，标准差，最小值最大值，较低的百分位数和50。默认情况下，较低的百分位数为25，较高的百分位数为75.50百分位数与中位数相同。（注意有一些属性，比如姓名，是文本型，还有另外一些属性，登船港口，是类目型我们用这个函数是看不到的）

由此我们可以初步的得出一些简单的结论，比如泰坦尼克上乘客的存活率，年龄的平均数

数据初步分析：
每个乘客都有那么多属性，我们又咋知道哪些属性更有用呢，又该怎么用他们呢

主要培养自己对数据的认识！！！

我们再更深入的看看我们的数据，看看每个属性或者多个属性和最的survived之间有着什么样的关系呢？

乘客各属性分布：

我们采用更直观的画图方法来研究！
kaggle 泰坦尼克入门

由图表我们可以初步分析出：
1，客舱的等级和乘客的身份地位财富有关，身份越高贵的人获救的可能性越大
2，年龄和获救概率也有关联，材料中提到优先救助女性和儿童
3，登船的港口是否与获救情况有关呐~不同身份的人登船的港口不同？

接下来就要根据以上分析进行属性与获救结果的关联统计

1.看看各等级乘客获救情况的关系

这部分的代码编写遇到问题~对画图函数的使用实在是不熟悉~但分析数据关系的思路是正确的~暂且使用博客上数据进行分析

得出的结论： 1. 明显看出舱位等级越高的乘客获救率越高
2，获救乘客中女性的比例远高于男性
3，登船的港口，以及乘客的亲属子女的个数与获救情况没有明显的规律
4，有客舱记录的获救情况较好

（持续更新）

kaggle 泰坦尼克入门

相关推荐