Sklearn实现泰坦尼克存活率预测

实例目标:实现泰坦尼克存活预测

  • 处理步骤:
  1. 输入数据:使用Pandas读取训练数据(历史数据,特点是已经知道了这个人最后有没有活下来)
  2. 训练模型:使用Sklearn训练模型
  3. 使用模型:对于一个新的不知道存活的人,预估他存活的概率
# 步骤1:读取训练数据
import pandas as pddf_train = pd.read_csv("./datas/titanic/titanic_train.csv")
df_train.head()# 我们只挑选两列,作为预测需要的特征
feature_cols = ['Pclass', 'Parch']
X = df_train.loc[:, feature_cols]
X.head()# 单独提取是否存活的列,作为预测的目标
y = df_train.Survived
y.head()# 步骤2:训练模型
from sklearn.linear_model import LogisticRegression
# 创建模型对象
logreg = LogisticRegression()# 实现模型训练
logreg.fit(X, y)logreg.score(X, y)	# 0.6879910213243546# 步骤3:对于未知数据使用模型
# 找一个历史数据中不存在的数据
X.drop_duplicates().sort_values(by=["Pclass", "Parch"])
# 预测这个数据存活的概率
logreg.predict([[2, 4]])	# array([1])
logreg.predict_proba([[2, 4]])	# array([[0.35053893, 0.64946107]])


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部