【机器学习】LASSO回归、弹性网络回归（附python代码）

2023-09-28 05:38:06

LASSO回归

LASSO是由1996年Robert Tibshirani首次提出，该方法是一种压缩估计。与岭回归类似，LASSO也是通过构造一个惩罚函数得到一个性能更好的模型。相比于岭回归，LASSO更极端。它通过惩罚函数压缩回归系数，使得这些回归系数绝对值之和小于某个固定值，甚至将一些重复的没必要的参数直接缩减为0。因此LASSO保留了子集收缩的优点，达到提取有用特征的作用，是一种处理具有复共线性数据的有偏估计。

LASSO回归与岭回归的模型的区别在于岭回归使用的是L2正则，而LASSO回归使用的是L1正则，其目标函数：
$\frac{1}{2m}\sum_{i=1}^{m}[(y_{i}-x_{i}^{T}w)^{2}+\lambda \sum_{j=1}^{n}\left |w_{j} \right |]$

LASSO算法可以达到变量选择的效果，将不显著的变量系数压缩至0。对于经过数据处理后的变量矩阵，其中有的变量是可以忽略，甚至会影响整体模型效果，因此采用LASSO作为集成模型的基模型很适合。

弹性网络回归

弹性网络回归ElasticNet是LASSO回归和岭回归的混合体，是一种同时使用L1和L2先验作为正则化矩阵的线性回归模型。ElasticNet回归适用于存在多个不显著变量的数据，同时还能保持正则化属性。当多个变量与某一变量存在相关关系时，ElasticNet回归模型效果就会比较好。它既能像LASSO回归删除无效变量，同时又能保持岭回归的稳定性。
ElasticNet回归的目标函数同时包含L1和L2正则项：
$\frac{1}{2m}\sum_{i=1}^{m}[(y_{i}-x_{i}^{T}w)^{2}+\lambda _{1}\sum_{j=1}^{n}\left |w_{j} \right |+\lambda _{2}\sum_{j=1}^{n}w_{j}^{2}]$

python代码实现

import numpy as np
import pandas as pd
import os
''' 
导入数据
'''
file = os.path.abspath(os.path.join(os.getcwd(), ".."))  
data_file = os.path.join(file, 'data/train.csv')  
train = pd.read_csv(data_file)
data_file = os.path.join(file, 'data/test.csv')
test = pd.read_csv(data_file)
target_variable = train["y"].values
del train["y"]from sklearn.model_selection import KFold, cross_val_score
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import ElasticNet, Lasso
from sklearn.preprocessing import RobustScaler
''' 
建模
'''
# 定义一个交叉评估函数 Validation function
n_folds = 5
def rmsle_cv(model):kf = KFold(n_folds, shuffle=True, random_state=42).get_n_splits(train.values)rmse= np.sqrt(-cross_val_score(model, train.values, target_variable, scoring="neg_mean_squared_error", cv = kf))return(rmse)# LASSO回归(LASSO Regression)             Lasso score: 0.1101 (0.0058)
lasso = make_pipeline(RobustScaler(), Lasso(alpha =0.0005, random_state=1))
score = rmsle_cv(lasso)
print("\nLasso score: {:.4f} ({:.4f})\n".format(score.mean(), score.std()))# 弹性网络回归(Elastic Net Regression)    Lasso score: 0.1100 (0.0059)
ENet = make_pipeline(RobustScaler(), ElasticNet(alpha=0.0005, l1_ratio=.9, random_state=3))
score = rmsle_cv(ENet)
print("\nLasso score: {:.4f} ({:.4f})\n".format(score.mean(), score.std()))   
''' 
预测
'''
y_train = target_variable
x_train = train.values   
lasso .fit(x_train,y_train)
y = lasso .predict(test.values)

引用

[1]: Tibshirani R . Regression shrinkage and selection via the lasso: a retrospective[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2011, 73(3):267-288.
[2]: Durbin R , Willshaw D . An analogue approach to the travelling salesman problem using an elastic net method[J]. Nature, 1987, 326(6114):689-691.

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > Android系统运行jar包
下一篇 > 用TensorFlow实现弹性网络回归算法

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

【机器学习】LASSO回归、弹性网络回归（附python代码）

LASSO回归

弹性网络回归

python代码实现

引用

相关文章