kaggle 泰坦尼克入门

kaggle实践
Kaggle 是一个数据分析建模的平台
1,企业或者研究者可以将问题的背景,数据,期望指标等发布到kaggle上,以竞赛的形式向广大的数据科学家征集解决方案。

以titanic分析为例
初探数据:
导入pandas,train.csv文件,文件打开之后是典型的dataframe格式,主要是查看各列的属性,确定特征值和标签

titianic.info()查看train.csv的信息统计,会展示给我们每个属性的非空值的总数,以及每个属性数值表示的数据类型,但是我们会发现有属性的数据不全

Print titanic.describe() 查看每个属性对应数据的统计分析,数值型数据的分布包括总数,均值,标准差,最小值最大值,较低的百分位数和50。默认情况下,较低的百分位数为25,较高的百分位数为75.50百分位数与中位数相同。(注意有一些属性,比如姓名,是文本型,还有另外一些属性,登船港口,是类目型我们用这个函数是看不到的)

由此我们可以初步的得出一些简单的结论,比如泰坦尼克上乘客的存活率,年龄的平均数

数据初步分析:
每个乘客都有那么多属性,我们又咋知道哪些属性更有用呢,又该怎么用他们呢

主要培养自己对数据的认识!!!

我们再更深入的看看我们的数据,看看每个属性或者多个属性和最的survived之间有着什么样的关系呢?

乘客各属性分布:

我们采用更直观的画图方法来研究!
kaggle 泰坦尼克入门

由图表我们可以初步分析出:
1,客舱的等级和乘客的身份地位财富有关,身份越高贵的人获救的可能性越大
2,年龄和获救概率也有关联,材料中提到优先救助女性和儿童
3,登船的港口是否与获救情况有关呐~不同身份的人登船的港口不同?

接下来就要根据以上分析进行属性与获救结果的关联统计

1.看看各等级乘客获救情况的关系

这部分的代码编写遇到问题~对画图函数的使用实在是不熟悉~但分析数据关系的思路是正确的~暂且使用博客上数据进行分析

得出的结论:
1. 明显看出舱位等级越高的乘客获救率越高
2,获救乘客中女性的比例远高于男性
3,登船的港口,以及乘客的亲属子女的个数与获救情况没有明显的规律
4,有客舱记录的获救情况较好

(持续更新)