pandas.describe()输出解释
使用kaggle中titanic的数据进行分析。PassengerId为乘客编号,1~891,共891条。Survived为是否获救,获救值为1,未获救值为0,数据有效总量为891条。
由上到下:
- count:总有效数据条数。
- mean:均值,0.383838说明平均值更靠近0,也就是只有大概三分之一的人活下来(有三分之一数值为1)
- std:方差。
- min:最小值。
- 25%:0.25分值,223.5能够更容易看出,是1~891的0.25分值。而Survived的0说明从0到1,后面的25%都未获救。
- 50%:0.5分值,即中位数,同理25%。
- 75%:0.75分值,同理25%。可以看到到这时Survived变为1,说明至少前25%的人获救了。
- max:最大值。
类似于箱型图的另一种表示方式,可参考:箱型图