用泰坦尼克号数据学习数据分析(一)

用泰坦尼克号年龄和船费做线性回归,看两者是否有关联

首先age中确实两百多项,补上平均年龄。

 

part_train_data = pd.read_csv('train1.csv',usecols=['Age','Fare','SibSp'])
part_train_data['Age'] = part_train_data['Age'].fillna(part_train_data['Age'].median())

sns.regplot(x="Age",y="Fare",data=part_train_data)

效果如图所示,可以看到大于300只有两个数据,使得线段不是十分明显。 

用泰坦尼克号数据学习数据分析(一)

删除大于300的数据后,重新绘制图像

用泰坦尼克号数据学习数据分析(一)