泰坦尼克号预测

2023-11-23 22:13:11

数据集下载

import urllib.request
import osdata_url="http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic3.xls"
data_file_path="data/titanic3.xls"#当前路径下需要存在data文件夹
if not os.path.isfile(data_file_path):result=urllib.request.urlretrieve(data_url,data_file_path)print("downloaded:",result)
else:print(data_file_path,"data file already exists.")

数据处理

import numpy
import pandas as pd
# 结果为DataFrame格式
df_data=pd.read_excel(data_file_path)
#数据摘要
df_data.describe()
#筛选有用的列
selected_cols=['survived','name','pclass','sex','age','sibsp','parch','fare','embarked']
selected_df_data=df_data[selected_cols]
#打乱顺序
selected_df_data=selected_df_data.sample(frac=1)
#缺失值填充
selected_df_data.isnull().sum()#或者isnull().any() #缺失值摘要
#将缺失值填充上平均值
age_mean_value=selected_df_data['age'].mean()
selected_df_data['age']=selected_df_data['age'].fillna(age_mean_value)fare_mean_value=selected_df_data['fare'].mean()
selected_df_data['fare']=selected_df_data['fare'].fillna(fare_mean_value)selected_df_data['embarked']=selected_df_data['embarked'].fillna('S')
#类别转换为编码
selected_df_data['sex']=selected_df_data['sex'].map({'female':0,'male':1}).astype(int)
selected_df_data['embarked']=selected_df_data['embarked'].map({'C':0,'Q':1,'S':2}).astype(int)
#删除表格中的name列
selected_df_data=selected_df_data.drop(['name'],axis=1)
selected_df_data[:3]
#将DataFrame转换为ndarray分离特征值和标签值
ndarray_data=selected_df_data.values
features = ndarray_data[:,1:]
label = ndarray_data[:,0]

训练集划分

#特征值标准化处理
from sklearn import preprocessingminmax_scale=preprocessing.MinMaxScaler(feature_range=(0,1))
norm_features=minmax_scale.fit_transform(features) #训练集和测试集都需要归一化
#划分训练集和测试集
train_size=int(len(norm_features)*0.8)
x_train = norm_features[:train_size]
y_train = label[:train_size]x_test = norm_features[train_size:]
y_test = label[train_size:]

模型构建与训练

import tensorflow as tfmodel = tf.keras.models.Sequential()
model.add(tf.keras.layers.Dense(units=64,input_dim=7,use_bias=True,kernel_initializer='uniform',bias_initializer='zeros',activation='relu'))
#model.add(tf.keras.layers.Dropout(rate=0.3)) #随机丢弃
model.add(tf.keras.layers.Dense(units=32,activation='relu'))
model.add(tf.keras.layers.Dense(units=16,activation='sigmoid'))
#model.add(tf.keras.layers.Dropout(rate=0.3))
model.add(tf.keras.layers.Dense(units=1,activation='sigmoid'))
model.summary()       model.compile(optimizer=tf.keras.optimizers.Adam(0.003),loss='binary_crossentropy',metrics=['accuracy'])
#一个分类：sigmoid激活函数，配合损失函数binaty_crossentropy
#多个分类：softmax激活函数，配合损失函数categorical_crossentropy#日志记录以及模型数据保存
logdir=os.path.join("logs")
#logdir='./logs'  # 坑：tensoeflow2.0.0回调时需要包装路径，否者无法训练模型
checkpoint_path='./checkpoint/Titanic.{epoch:02d}-{val_loss:.2f}.ckpt'callbacks=[tf.keras.callbacks.TensorBoard(log_dir=logdir,histogram_freq=2),#直方图存储频率tf.keras.callbacks.ModelCheckpoint(filepath=checkpoint_path,save_weights_only=True,#只保存模型的参数，不保存模型结构verbose=1,period=5)#每5个epoch保存一次
] 
#模型训练
train_history=model.fit(x=x_train,y=y_train,validation_split=0.2,epochs=100,batch_size=40,callbacks=callbacks, #回调verbose=2)
#validation_split验证集所占比例
#verbose:
#        0:不显示 1：带进度条模式 2：每个epoch显示一行
#返回值
#返回值中存储的历史数据
train_history.history.keys()
#输出：dict_keys(['loss', 'accuracy', 'val_loss', 'val_accuracy'])

数据可视化

#可视化
import matplotlib.pyplot as pltdef visu_tain_history(train_history,train_metric,validation_metric):plt.plot(train_history.history[train_metric])plt.plot(train_history.history[validation_metric])plt.title('Train History')plt.ylabel(train_metric)plt.xlabel('epoch')plt.legend(['train','validation'])plt.show()visu_tain_history(train_history,'accuracy','val_accuracy')
visu_tain_history(train_history,'loss','val_loss')

模型评估

#模型评估
evaluate_result=model.evaluate(x=x_test,y=y_test)
evaluate_result
#输出：[0.48514689630224506, 0.79389316]
#评估返回值含义
model.metrics_names
#输出：['loss', 'accuracy']

模型应用

#模型应用
#surv_probability=model.predict(x_feature)

模型恢复

#模型恢复
"""
#保存时的路径
logdir='./logs' 
checkpoint_path='./checkpoint/Titanic.{epoch:02d}-{val_loss:.2f}.ckpt'
checkpoint_dir=os.path.dirname(checkpoint_path)latest=tf.train.latest_checkpoint(checkpoint_dir)model.load_weights(latest)#之后相当于训练完成的模型#模型评估
loss,acc=model.evaluate(x_test,y_test)
.....
"""

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 泰坦尼克号遇难预测-朴素贝叶斯分类
下一篇 > 实验汇总11泰坦尼克号模型构建

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

泰坦尼克号预测

相关文章