综合模块111

2023-11-22 20:39:48

一．简介

1.明确任务，收集数据

2.数据预处理和特征工程

3.模型训练

4.模型评估与超参数调优

5.模型融合

6.模型应用

线性回归

需要了解：（P39）

特征变换：

y=df['sales']
X=df.drop(['sales','Unnamed:0'],axis=1)

随机选择其中80%的样本作为训练数据，其余20%的数据作为测试样本

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=33, test_size=0.2)

用训练数据训练最小二乘线性回归（无正则）、岭回归（L2正则）和Lasso（L1正则），注意岭回归和Lasso的正则超参数调优，性能指标为RMSE：

比较上述三种模型得到的各特征的回归系数，以及各模型在测试集上的性能。

回归系数：岭回归、Lasso得到的回归系数绝对值均比最小二乘线性回归小，即起到了权值收缩的效果（不全，具体回归系数分析看P36页最上行）

性能：最小二乘线性回归在训练集上的性能最好，但在测试集上的性能最差；Lasso模型在测试集上的性能最好

# 导入pandas工具包
import pandas as pd
# 读取数据
dpath="./data/"
df=pd.read_csv(dpath+"Advertising.csv")
# 从原始数据中分离输入特征x和输出y
y=df['sales']
X=df.drop(['sales','Unnamed:0'],axis=1)
# 将数据分割为训练数据与测试数据，随机采样20%的数据构建测试样本，其余作为训练样本
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=33, test_size=0.2)
# 方法一：
# 最小二乘线性回归
from sklearn.linear_model import LinearRegression
# (1)使用默认配置初始化学习器实例
lr=LinearRegression()
# (2)使用训练数据训练模型参数
lr.fit(X_train,y_train)
# (3)用训练好的模型对测试集进行预测
y_test_pred_lr = lr.predict(X_test)
y_train_pred_lr = lr.predict(X_train)
# (4)性能评估，R方分数
print("The r2 score of LinearRegression on test is %f" % (r2_score(y_test, y_test_pred_lr)))
print("The r2 score of LinearRegression on train is %f" % (r2_score(y_train, y_train_pred_lr)))
# (5)在训练集上观察预测残差的分布，看是否符合模型假设：噪声为0均值的高斯噪声
res = y_train_pred_lr - y_train
# 方法二：
# L1正则的线性回归模型
from sklearn.linear_model import LassoCV
# (1)设置超参数搜索范围（默认超参数搜索范围）
# 在LassoCV(alpha= )设置alpha的值
# (2)生成LassoCV实例（用交叉验证确定最佳超参数）
lasso=LassoCV()
# (3)训练（内含CV）
lasso.fit(X_train,y_train)
# (4) 测试
y_test_pred_lasso = lasso.predict(X_test)
y_train_pred_lasso = lasso.predict(X_train)
# (5)评估，使用r2_score评价模型在测试集和训练集上的性能
print("The r2 score of lasso on test is %f" % (r2_score(y_test, y_test_pred_lasso)))
print("The r2 score of lasso on train is %f" % (r2_score(y_train, y_train_pred_lasso)))
#lasso.mese_path 每次交叉验证的均方误差,随着alpha值的变化，均方误差的变化曲线
mses = np.mean(lasso.mse_path_, axis=1)
# 方法三：
# 岭回归的线性回归模型
from sklearn.linear_model import Ridge
# (1)设置超参数搜索范围（默认超参数搜索范围）
# 在Ridge(alpha= )设置alpha的值
# (2)生成Ridge实例
ridg10=Ridge()
# (3)训练（内含CV）
ridg10.fit(X_train,y_train)

Logistic回归（未添加画图部分代码）

# 读取数据的代码，输出命名为df
dpath = "./data/"
df = pd.read_csv(dpath + "iris.csv", names=feat_names)
# 通过观察前5行，了解数据每列（特征）的概况
df.head()
# 类别提取
unique_Class = df['Class'].unique()
# 只考虑两类分类：setosa vs. non_setosa
target_map = {'Iris-setosa': 0, # 山鸢尾
'Iris-versicolor': 1, # 变色鸢尾
'Iris-virginica': 1} # 2，弗吉尼亚鸢尾
# 使用pandas应用方法对我们的流失目标变量进行数字编码
df['Class'] = df['Class'].apply(lambda x: target_map[x])
df.head()

# 从原始数据中分离输入特征x和输出y
y = df['Class']
X = df.iloc[:, 0:2] # 只取前两维特征
# 特征X标准化，特征缩放
scaler = StandardScaler()
scaler.fit(X)
X = scaler.transform(X)
# 随机采样20%的数据构建测试样本，其余作为训练样本的代码
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=33, test_size=0.2)
# 设置超参数搜索范围
Cs = [0.1, 1, 10, 100, 1000]
tuned_parameters = dict(C=Cs)
调用逻辑回归API函数，输出为lt
lr = LogisticRegression()
# 生成GridSearchCV实例
grid = GridSearchCV(lr, tuned_parameters, cv=10, scoring='neg_log_loss', n_jobs=4)
# 训练数据
grid.fit(X_train, y_train)
lr_best = grid.best_estimator_

# 计算auc面积值
roc_auc = auc(false_positive_rate, true_positive_rate)
# 调用plot_roc函数,输出ROP曲线图
scores = lr_best.decision_function(X)
plt.figure(figsize=(6, 6))
result=plot_roc(label,scores)
print(result)

# 输入准确的绝对或相对路径，读取FE_day.csv，输出为df
dpath = "./data/"
# df是DataErame 的缩写，表示读进来的数据，读取csv文件，列名加入第一行
df = pd.read_csv(dpath + "FE_day.csv")
# cnt是给定日期（天）时间（每小时）总租车人数，我们根据其他特征来推测cnt，所以cnt是输出y。是要预测的
y = df['cnt']
X = df.drop(['cnt'], axis=1)
# 用train_test_split 分割训练数据和测试数据，输出为X_train, X_test, y_train, y_test
# 随机采样20%的数据构建验证集，其余作为训练样本，进行33随机试验，第33组，划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=33, test_size=0.2)
# 输出X_train的维度
print("train samples:" ,X_train.shape)
# 保存测试样本序号
testID = X_test['instant']
# 踢出去样本序号，不参加数据训练
X_train.drop(['instant'], axis=1, inplace = True)
X_test.drop(['instant'], axis=1, inplace = True)
# 保存特征名字以备后用（可视化）
feat_names = X_train.columns

#（1）需要调优的参数
gammas = [ 0.03]
Cs = [ 1, 10, 100, 1000, 10000, 100000]
tuned_parameters = dict(gamma = gammas, C = Cs)
#（2）生成学习器实例,用SVR实例化，输出为svr
svr= SVR()
#（3）参考实验三代码中“生成GridSearchCV实例” 用GridSearchCV函数，其中cv=5, scoring='neg_mean_squared_error'，网络参数搜索，输出grid
# 再用gid.fit 训练数据，一共写2行代码，可参考实验三
grid = GridSearchCV(svr, tuned_parameters, cv=5, scoring='neg_mean_squared_error', n_jobs=4)
grid.fit(X_train, y_train)
#通过交叉验证得到的最佳超参数alpha
# 检查最佳模型l
print(-grid.best_score_)
print("Best params: ", grid.best_params_)
# grid.predict分别预测训练集X_train输出为y_train_pred 预测测试集X_test输出为y_test_pred
y_train_pred=grid.predict(X_train)
y_test_pred=grid.predict(X_test)
# 用r2_score分别得出训练集准确率，输出为r2_score_train，测试集的准确率，输出为r2_score_test
r2_score_train=r2_score(y_train, y_train_pred)
r2_score_test=r2_score(y_test, y_test_pred)
print("r2_score on Training set :" ,r2_score_train)
print("r2_score on Test set :" ,r2_score_test)

#最佳模型的支持向量的数目
n_sv = len(grid.best_estimator_.support_)
print ('number of support vectors is: ', n_sv)
gamma = 0.001
C=10^8 #支持向量数目 584
gamma = 0.01
C=10^7 #支持向量数目 584
gamma = 0.01
C=10^4#支持向量数目 584
## 对测试集进行测试，生成提交文件
y_test_pred = grid.predict(X_test)
#生成提交测试结果，将结果放入submission.csv文件内
df_test_result = pd.DataFrame({"instant":testID, 'cnt':y_test_pred})
df_test_result.to_csv('submission.csv')

生成式分类器（PCALED.py）

计算部分：

书上P103第1题（答案可参照P97页））

代码部分：

# 读取训练数据和测试数据
train = pd.read_csv('./data/MNIST_train.csv')
test = pd.read_csv('./data/MNIST_test.csv')
# 分离数据
y_train = train.label.values
X_train = train.drop("label", axis=1).values
X_test = test.values
# 将像素值[0,255] --> [0,1]
X_train = X_train / 255.0
X_test = X_test / 255.0
## PCA降维
pca = PCA(n_components=0.95, svd_solver='full')
pca.fit(X_train)
# 在训练集和测试集降维
X_train_pca = pca.transform(X_train)
X_test_pca = pca.transform(X_test)
## LDA分类器
lda = LinearDiscriminantAnalysis()
lda.fit(X_train_pca, y_train)
# 用在降维后的全体训练数据集上训练的模型对测试集进行测试
y_predict = lda.predict(X_test_pca)
## 交叉验证, 评估模型性能
loss = cross_val_score(lda, X_train_pca, y_train, cv=5)
print('accuracy of each fold is: ', loss)
print('cv accuracy is:', loss.mean())

决策树（tree.py）

计算部分：

P109页例6-1：账号真实性判断案例

代码部分：

# 读入数据获取路径字符串
dpath = "./data/"
# 读取csv内的数据
df = pd.read_csv(dpath + "FE_day.csv")
# 通过观察前5行，了解数据每列（特征）的概况
df.head()
#**准备训练数据**
# 获取列表
# 从原始数据中分离输入特征x和输出y
y = df['cnt']
#去掉多余的cnt
X = df.drop(['cnt'], axis=1)
# 用train_test_split 分割训练数据和测试数据
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size = 0.8,random_state = 0)
# 输出训练集的维度特征
print("train samples:" ,X_train.shape)
#保存测试ID，用于结果提交
testID = X_test['instant']
#ID不参与预测
X_train.drop(['instant'], axis=1, inplace = True)
X_test.drop(['instant'], axis=1, inplace = True)
#保存特征名字以备后用（可视化）
feat_names = X_train.columns
#决策树：默认参数
#生成DecisionTreeRegressor实例，输出为DT1
DT1 = DecisionTreeRegressor()
# 训练数据拟合模型
DT1.fit(X_train, y_train)
#训练上测试，训练误差，实际任务中这一步不需要
#预测训练集X_train输出为y_train_pred
#针对数据进行预测
y_train_pred = DT1.predict(X_train)
#计算均方误差回归损失RMSE，越小越好
rmse_train = np.sqrt(mean_squared_error(y_train,y_train_pred))
##预测训练集X_test输出为y_train_test
y_test_pred = DT1.predict(X_test)
rmse_test = np.sqrt(mean_squared_error(y_test,y_test_pred))
#输出训练集与测试集的RMSE结果
print("RMSE on Training set :", rmse_train)
print("RMSE on Test set :" ,rmse_test)
#得出训练集、测试集的准确率，并输出结果
r2_score_train = r2_score(y_train,y_train_pred)
r2_score_test = r2_score(y_test,y_test_pred)
print("r2_score on Training set :" ,r2_score_train)
print("r2_score on Test set :" ,r2_score_test)

#1.需要调优的参数
# 设置超参数的搜索范围
max_depth = range(2,20,1)
min_samples_leaf = range(1,8,1)
# 调优的参数集合，搜索网格为3x3在网格上的交叉点进行搜索
tuned_parameters = dict(max_depth=max_depth, min_samples_leaf=min_samples_leaf)
#2. 生成学习器实例
# 创建 CART 分类树
DT2 = DecisionTreeRegressor()
# 3. 用训练数据度模型进行训练
# 生成GridSearchCV实例
grid = GridSearchCV(DT2, tuned_parameters,cv=10, scoring='neg_mean_squared_error')
# 训练，交叉验证对超参数调优
grid.fit(X_train,y_train)
#通过交叉验证得到的最佳超参数alpha
# 检查最佳模型
print(-grid.best_score_)
print("Best params: ", grid.best_params_)
#训练上测试，训练误差，实际任务中这一步不需要
#预测训练集X_train输出为y_train_pred
y_train_pred = grid.predict(X_train)
#计算均方误差回归损失RMSE，越小越好
rmse_train = np.sqrt(mean_squared_error(y_train,y_train_pred))
##预测训练集X_test输出为y_train_test，并计算均方误差回归损失
y_test_pred = grid.predict(X_test)
rmse_test = np.sqrt(mean_squared_error(y_test,y_test_pred))
#输出训练集与测试集的RMSE结果
print("RMSE on Training set :", rmse_train)
print("RMSE on Test set :" ,rmse_test)
#得出训练集、测试集的准确率，并输出结果
r2_score_train = r2_score(y_train,y_train_pred)
r2_score_test = r2_score(y_test,y_test_pred)
print("r2_score on Training set :" ,r2_score_train)
print("r2_score on Test set :" ,r2_score_test)

#插补删除列名，并放回原处
columns = X_train.columns
# 构建实例
df_importance = pd.DataFrame({"columns":list(columns), "importance":list(grid.best_estimator_.feature_importances_.T)})
# 对数据进行排序，使数据整洁有序，具有更强的表现性,by指定需要排序的行或者列,降序排列
df_importance.sort_values(by=['importance'],ascending=False)
# 对测试集进行测试
y_test_pred = grid.predict(X_test)
#生成提交测试结果
df_test_result = pd.DataFrame({"instant":testID, 'cnt':y_test_pred})
#保存结果至submission.csv文件中
df_test_result.to_csv(dpath + 'submission.csv')

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > r语言岭回归参数选择_R语言回归分析之岭回归和lasso回归
下一篇 > 采用线性回归对波士顿房价数据集进行建模

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

综合模块111

相关文章