我的难题(基于分析泰坦尼克号事件)
根据一些共有的值对行分组
按照乘客的性别和是否生存进行分组
df.groupby(['survived','sex'])[passengerID].count()
删除某行因为缺失了年龄值的人
df.dropna(subset=['Age'])
根据条件语句来选择行
选择泰坦尼克号上所有女性的数据
or 多个条件选择行
选择泰坦尼克号上所有年龄大于或等于65的女性数据
df(df['Sex'] == 'female')
df[(df['Sex'] == 'female') & (df['Age'] >= 65)]
判断船舱等级是否和存活率有关,可以用皮尔森相关corr
df['Pclass'].corr(df['Survived'])
探究生存率和年龄的关系时采用scatter散点图
plt.scatter(df.Survived,df.Age)
plt.ylabel('年龄')
plt.grid(b=True,which='major',axis='y')
#grid是否显示网格线,默认which='major',axis='y'表示只显示y轴网格线
plt.title('按年龄看生存率(1为生存)')
查看各个港口获救情况
survived_1 = df.Embarked[df.Survived==0].value_counts()
survived_0 = df.Embarked[df.Survived==1].value_counts()
df1=pd.DataFrame({'获救':survived_1,'未获救':survived_0})
df1.plot(kind='bar',stacked=True)
plt.xlabel('登陆港口')
plt.ylabel('人数')
基于家庭成员规模和性别绘制点图
df['family_size']=df['Sibsp']+df['Parch'] #创建新列
axes=sns.pointplot('family_size','survived',hue='Sex',data=df)
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
